このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210227となっている論文です。

PDF登録状況(公開日: 20210227)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) アクティブテスト、アクティブ回帰、構造化バンドアルゴリズムのための一般化チェルノフサンプリング

Generalized Chernoff Sampling for Active Testing, Active Regression and Structured Bandit Algorithms ( http://arxiv.org/abs/2012.08073v2 )

ライセンス: CC BY 4.0
Subhojyoti Mukherjee, Ardhendu Tripathy, Robert Nowak(参考訳) アクティブラーニングと構造化確率バンディット問題は、逐次実験設計の古典的な問題と密接に関連している。 本稿では,Chernoff (1959) が開始したフレームワークであるアクティブシーケンシャル仮説テストの観点から,構造化バンディット設定におけるアクティブラーニングとベストアーム識別について検討する。 許容誤差確率 $\delta \rightarrow 0$ として重要性を低下させる非漸近項を明らかにすることにより、チャーノフのもともとの能動試験手順に結びついた新しいサンプル複雑性を得る。 当初、有限個の仮説間のテストのために提案され、仮説がコンパクト空間に属する場合のチャーンオフサンプリングの類似性を得る。 これにより、arm平均を指定する未知のパラメータがユークリッド空間の要素であると仮定される場合、アクティブラーニングや構造化バンディット問題に直接適用することができる。 本研究では,ニューラルネットワークモデルおよび線形および非線形バンディット設定におけるアクティブラーニング手法の可能性を実証し,本手法が最先端手法と好適に比較できることを示す。

Active learning and structured stochastic bandit problems are intimately related to the classical problem of sequential experimental design. This paper studies active learning and best-arm identification in structured bandit settings from the viewpoint of active sequential hypothesis testing, a framework initiated by Chernoff (1959). We obtain a novel sample complexity bound for Chernoff's original active testing procedure by uncovering non-asymptotic terms that reduce in significance as the allowed error probability $\delta \rightarrow 0$. Initially proposed for testing among finitely many hypotheses, we obtain the analogue of Chernoff sampling for the case when the hypotheses belong to a compact space. This allows us to directly apply it to active learning and structured bandit problems, where the unknown parameter specifying the arm means is often assumed to be an element of Euclidean space. Empirically, we demonstrate the potential of our proposed approach for active learning of neural network models and in linear and non-linear bandit settings, where we observe that our general-purpose approach compares favorably to state-of-the-art methods.
翻訳日:2021-05-08 11:56:37 公開日:2021-02-27
# (参考訳) 疎時間ネットワーク上の分散資源配分のための高速収束ダイナミクス [全文訳有]

Fast-Convergent Dynamics for Distributed Resource Allocation Over Sparse Time-Varying Networks ( http://arxiv.org/abs/2012.08181v2 )

ライセンス: CC BY 4.0
Mohammadreza Doostmohammadian, Alireza Aghasi, Themistoklis Charalambous(参考訳) 本稿では,時間変動マルチエージェントネットワーク上のリソース割り当てを解決するために分散ダイナミクスを配置する。 各エージェントの状態は、そのエージェントで使用される/生成されるリソースの量を表し、リソースの総量は固定される。 この考え方は, 総資源の一定量のコスト関数を削減し, エージェントグループ間で資源を最適に割り当てることである。 各エージェントの情報は、その状態とコスト関数と、その直近の隣接者の情報に制限される。 これは、モバイルエッジコンピューティング、スマートグリッドへの経済的ディスパッチ、マルチエージェントカバレッジ制御などの分散アプリケーションによって動機付けられている。 この研究で提案された非リプシッツ力学は、文献の線形解や非線形解と比較して高速収束を示す。 さらに,本論文ではマルチエージェントネットワーク接続をより緩和する。 より具体的に言うと、提案したダイナミクスは、有界な非重複時間区間上のこれらのネットワークの結合にスパンニングツリーを含む、時間変化のない非接続ネットワークに対して最適解に達する。 提案した収束解析は、同様の1次資源割り当て非線形力学に適用できる。 結果を検証するためのシミュレーションを提供する。

In this paper, distributed dynamics are deployed to solve resource allocation over time-varying multi-agent networks. The state of each agent represents the amount of resources used/produced at that agent while the total amount of resources is fixed. The idea is to optimally allocate the resources among the group of agents by reducing the total cost functions subject to fixed amount of total resources. The information of each agent is restricted to its own state and cost function and those of its immediate neighbors. This is motivated by distributed applications such as in mobile edge-computing, economic dispatch over smart grids, and multi-agent coverage control. The non-Lipschitz dynamics proposed in this work shows fast convergence as compared to the linear and some nonlinear solutions in the literature. Further, the multi-agent network connectivity is more relaxed in this paper. To be more specific, the proposed dynamics even reaches optimal solution over time-varying disconnected undirected networks as far as the union of these networks over some bounded non-overlapping time-intervals includes a spanning-tree. The proposed convergence analysis can be applied for similar 1st-order resource allocation nonlinear dynamics. We provide simulations to verify our results.
翻訳日:2021-05-08 07:53:48 公開日:2021-02-27
# (参考訳) コンテンツ仮面損失:強化学習塗料における人型ブラシストローク計画 [全文訳有]

Content Masked Loss: Human-Like Brush Stroke Planning in a Reinforcement Learning Painting Agent ( http://arxiv.org/abs/2012.10043v2 )

ライセンス: CC BY 4.0
Peter Schaldenbrand and Jean Oh(参考訳) 最も強化された学習用ペイントエージェントの目標は、対象画像とペイントキャンバスの損失を最小限に抑えることである。 人間の画家は単に再現するのではなく、ターゲット画像の重要な特徴を強調している(DiPaola 2007)。 rlペインティングモデルにおける敵対的またはl2の損失は、その最終的なアウトプットは一般的には精細な作品であるが、モデルが対象画像の抽象的な特徴について知識を持っていないため、人間が生成するストロークシーケンスとは大きく異なる。 高価な人間データを使わずにモデルの人間的な計画を増やすために、このモデルの報酬機能を利用するための新しい損失関数、content masked lossを導入する。 ロボット絵画の文脈において、Content Masked Lossはオブジェクト検出モデルを用いて、人間がコンテンツを認識する上で重要と思われるキャンバスの領域により高い重量を割り当てるために使用される特徴を抽出する。 以上の結果から,本モデルが作成したデジタル絵画は,最終的な絵画の質を損なうことなく,既存の手法よりも早いストロークシーケンスで検出可能な被写体を示すことが示された。 私たちのコードはhttps://github.com/p schaldenbrand/Conten tMaskedLossで利用可能です。

The objective of most Reinforcement Learning painting agents is to minimize the loss between a target image and the paint canvas. Human painter artistry emphasizes important features of the target image rather than simply reproducing it (DiPaola 2007). Using adversarial or L2 losses in the RL painting models, although its final output is generally a work of finesse, produces a stroke sequence that is vastly different from that which a human would produce since the model does not have knowledge about the abstract features in the target image. In order to increase the human-like planning of the model without the use of expensive human data, we introduce a new loss function for use with the model's reward function: Content Masked Loss. In the context of robot painting, Content Masked Loss employs an object detection model to extract features which are used to assign higher weight to regions of the canvas that a human would find important for recognizing content. The results, based on 332 human evaluators, show that the digital paintings produced by our Content Masked model show detectable subject matter earlier in the stroke sequence than existing methods without compromising on the quality of the final painting. Our code is available at https://github.com/p schaldenbrand/Conten tMaskedLoss.
翻訳日:2021-05-02 04:16:26 公開日:2021-02-27
# (参考訳) 認知的ホメオスタチン剤 [全文訳有]

Cognitive Homeostatic Agents ( http://arxiv.org/abs/2103.03359v1 )

ライセンス: CC BY 4.0
Amol Kelkar(参考訳) 人間の脳は自律的なエージェントを構築するためのインスピレーションとして使われてきたが、脳のどのレベルの計算的記述を使うべきかは明らかではない。 このことは、過度に意見が分かれた象徴的アプローチと過度に非構造的な接続主義的アプローチにつながった。 ホメオスタシスを計算記述として用いることは良い妥協である。 生理的ホメオスタシスが特定のホメオスタシス変数の調節であるのと同様に、認知は特定の「認知ホメオスタシス変数」の調節と解釈できる。 本稿では,生理的および認知的ホメオスタティックサブシステムの階層構造として構築された認知的ホメオスタティックエージェントの概要と,今後の探索を導くための構造とプロセスについて述べる。 我々は、複雑な環境で柔軟に行動し、計画、思考、感情を示す行動を生み出す、洗練された人工エージェントを構築するための実りある研究ラインになることを期待している。

Human brain has been used as an inspiration for building autonomous agents, but it is not obvious what level of computational description of the brain one should use. This has led to overly opinionated symbolic approaches and overly unstructured connectionist approaches. We propose that using homeostasis as the computational description provides a good compromise. Similar to how physiological homeostasis is the regulation of certain homeostatic variables, cognition can be interpreted as the regulation of certain 'cognitive homeostatic variables'. We present an outline of a Cognitive Homeostatic Agent, built as a hierarchy of physiological and cognitive homeostatic subsystems and describe structures and processes to guide future exploration. We expect this to be a fruitful line of investigation towards building sophisticated artificial agents that can act flexibly in complex environments, and produce behaviors indicating planning, thinking and feelings.
翻訳日:2021-04-05 08:07:19 公開日:2021-02-27
# (参考訳) Tree of Knowledge: 複雑なシステムの振る舞いを学習するためのオンラインプラットフォーム [全文訳有]

Tree of Knowledge: an Online Platform for Learning the Behaviour of Complex Systems ( http://arxiv.org/abs/2103.03666v1 )

ライセンス: CC BY 4.0
Benedikt T. Kleppmann(参考訳) 心理学や経済学のような多くの社会科学は、人間、組織、国家のような複雑なエージェントの振る舞いを学ぼうとしている。 この行動を学ぶために用いられる現在の統計的手法は、一般的に有効な振る舞いを推測しようとするが、一度にひとつの研究からしか学べない。 さらに、関心の現象を分離し、結合する要因を考慮しなければならないため、注意深く設計された研究からのデータのみ使用できる。 これらの制限は、社会・経済システムから得られる洞察の堅牢性と正確性を制限する。 ここでは,複雑なシステムから複雑な振る舞いを学習するための新しい方法論であるエージェントベースの振る舞い学習を実装したオンラインプラットフォーム treeofknowledge を提案する。 エージェントベースの行動学習では、従来の統計学の制約がないため、より正確で堅牢な洞察を得ることができる。 多くの異種データセットからエージェントの振る舞いを学習し、たとえ興味の現象が直接観察されていないとしても、複雑なシステムの中で深く見えるとしても、これらのデータセットから学習することができる。 この新たな方法論は、インターネットと計算能力の進歩がより正確で強力な数学的モデルを実現する方法を示している。

Many social sciences such as psychology and economics try to learn the behaviour of complex agents such as humans, organisations and countries. The current statistical methods used for learning this behaviour try to infer generally valid behaviour, but can only learn from one type of study at a time. Furthermore, only data from carefully designed studies can be used, as the phenomenon of interest has to be isolated and confounding factors accounted for. These restrictions limit the robustness and accuracy of insights that can be gained from social/economic systems. Here we present the online platform TreeOfKnowledge which implements a new methodology specifically designed for learning complex behaviours from complex systems: agent-based behaviour learning. With agent-based behaviour learning it is possible to gain more accurate and robust insights as it does not have the restriction of conventional statistics. It learns agent behaviour from many heterogenous datasets and can learn from these datasets even if the phenomenon of interest is not directly observed, but appears deep within complex systems. This new methodology shows how the internet and advances in computational power allow for more accurate and powerful mathematical models.
翻訳日:2021-04-05 07:55:10 公開日:2021-02-27
# チャットボットは「apollo moment」を逃したのか? 新型コロナウイルス(covid-19)におけるコラボレーションアシスタント活用の可能性, ギャップ, 教訓に関する調査研究

Did Chatbots Miss Their 'Apollo Moment'? A Survey of the Potential, Gaps and Lessons from Using Collaboration Assistants During COVID-19 ( http://arxiv.org/abs/2103.05561v1 )

ライセンス: Link先を確認
Biplav Srivastava(参考訳) 人工知能(AI)技術は、人々に対して重要なデータ駆動意思決定支援を提供するツールとして長い間位置づけられてきた。 この調査論文では、AI全般、特にコラボレーションアシスタント(略してCAやチャットボット)が、真の世界的な流行(COVID-19パンデミック)で使用された方法について考察する。 チャットボットは、状況に応じてパーソナライズされ、信頼性の高い意思決定サポートを大規模に提供できたとき、その"apollo moment"を見逃していた。 実現可能な既存の機能とメソッドをレビューし、チャットボットが満足できる可能性、デプロイされたユースケース、直面した課題、持続するギャップを特定し、もし実装されれば、将来の健康状況においてより関係のあるものとなるような教訓を引き出す。

Artificial Intelligence (AI) technologies have long been positioned as a tool to provide crucial data-driven decision support to people. In this survey paper, we look at how AI in general, and collaboration assistants (CAs or chatbots for short) in particular, have been used during a true global exigency - the COVID-19 pandemic. The key observation is that chatbots missed their "Apollo moment" when they could have really provided contextual, personalized, reliable decision support at scale that the state-of-the-art makes possible. We review the existing capabilities that are feasible and methods, identify the potential that chatbots could have met, the use-cases they were deployed on, the challenges they faced and gaps that persisted, and draw lessons that, if implemented, would make them more relevant in future health emergencies.
翻訳日:2021-04-05 00:53:52 公開日:2021-02-27
# エンジニアリング問題に対する新しいkはグレイウルフアルゴリズムである

A New K means Grey Wolf Algorithm for Engineering Problems ( http://arxiv.org/abs/2103.05760v1 )

ライセンス: Link先を確認
Hardi M. Mohammed, Zrar Kh. Abdul, Tarik A. Rashid, Abeer Alsadoon, Nebojsa Bacanin(参考訳) 目的: メタヒューリスティックなアルゴリズムの開発は、研究者がビジネス、科学、工学の分野に広く利用するようになるにつれて増加している。 メタヒューリスティック最適化アルゴリズムの1つにGrey Wolf Optimization (GWO)がある。 このアルゴリズムは、オオカミの探索と灰色のオオカミを攻撃するプロセスの模倣に基づいて動作する。 本研究の目的は,GWO問題を局所最適にトラップすることで克服することである。 設計・手法・アプローチ:本論文では,K平均クラスタリングアルゴリズムを用いて,個体群を異なる部分に分割することで,元のGrey Wolf Optimizationの性能を向上させる。 提案アルゴリズムは K-means clustering Grey Wolf Optimization (KMGWO) と呼ばれる。 結果: KMGWO の効率は GWO より優れていることを示す。 KMGWOの性能を評価するため、KMGWOは10個のCEC2019ベンチマークテスト関数を解くために適用された。 その結果,KMGWOの方がGWOより優れていることがわかった。 KMGWOは、Cat Swarm Optimization (CSO)、Whale Optimization Algorithm-Bat Algorithm (WOA-BAT)、WOAと比較される。 その結果,KMGWOは比較アルゴリズムよりも高い有意な値を示した。 また、KMGWOは圧力容器設計の問題を解決するために使われ、性能が優れている。 原性/値:結果は、KMGWOがGWOより優れていることを示す。 KMGWOは、CSO、クジラ最適化アルゴリズム・バットアルゴリズム(WOA-BAT)、WOA、GWOとも比較され、KMGWOはパフォーマンスの点で第一位となった。 また、KMGWOは古典的な工学の問題を解決するために使われており、優れている。

Purpose: The development of metaheuristic algorithms has increased by researchers to use them extensively in the field of business, science, and engineering. One of the common metaheuristic optimization algorithms is called Grey Wolf Optimization (GWO). The algorithm works based on imitation of the wolves' searching and the process of attacking grey wolves. The main purpose of this paper to overcome the GWO problem which is trapping into local optima. Design or Methodology or Approach: In this paper, the K-means clustering algorithm is used to enhance the performance of the original Grey Wolf Optimization by dividing the population into different parts. The proposed algorithm is called K-means clustering Grey Wolf Optimization (KMGWO). Findings: Results illustrate the efficiency of KMGWO is superior to GWO. To evaluate the performance of the KMGWO, KMGWO applied to solve 10 CEC2019 benchmark test functions. Results prove that KMGWO is better compared to GWO. KMGWO is also compared to Cat Swarm Optimization (CSO), Whale Optimization Algorithm-Bat Algorithm (WOA-BAT), and WOA, so, KMGWO achieves the first rank in terms of performance. Statistical results proved that KMGWO achieved a higher significant value compared to the compared algorithms. Also, the KMGWO is used to solve a pressure vessel design problem and it has outperformed results. Originality/value: Results prove that KMGWO is superior to GWO. KMGWO is also compared to cat swarm optimization (CSO), whale optimization algorithm-bat algorithm (WOA-BAT), WOA, and GWO so KMGWO achieved the first rank in terms of performance. Also, the KMGWO is used to solve a classical engineering problem and it is superior
翻訳日:2021-04-05 00:53:35 公開日:2021-02-27
# 線形ペイオフ関数を有するコンビネートコンビネート半帯域に対する近似的後悔境界

Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits with Linear Payoff Functions ( http://arxiv.org/abs/2101.07957v2 )

ライセンス: Link先を確認
Kei Takemura, Shinji Ito, Daisuke Hatano, Hanna Sumita, Takuro Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi(参考訳) 線形ペイオフ関数を用いた文脈組合せ半帯域問題(英: contextual combinatorial semi-bandit problem)は、学習者が与えられた制約の下で各ラウンドに特徴ベクトルを持つ一組のアームを選択し、武器の報酬の総和を最大化する決定問題である。 いくつかの既存のアルゴリズムは、ラウンド数に対して最適な後悔の限界を持っている。 しかし、現在の最高上限と下限の間には$\tilde{o}(\max(\sqrt{d}, \sqrt{k})$の差があり、ここで$d$は特徴ベクトルの次元、$k$はラウンド内の選択されたアームの数、$\tilde{o}(\cdot)$は対数因子を無視している。 なぜなら、$k$はレコメンダシステムのような現実世界のアプリケーションでは$T$よりも大きいかもしれないからである。 本稿では,上界と下界を改善することでギャップを埋める。 より正確には、Qin, Chen, Zhu (2014) によって提案された C${}^2$UCB アルゴリズムは、分割マトロイドの制約に対して、最適の後悔束 $\tilde{O}(d\sqrt{kT} + dk)$ を持つことを示す。 一般的な制約に対して,C${}^2$UCBアルゴリズムのアームの報酬推定を修正したアルゴリズムを提案し,他の目的を同時に考慮可能な,より一般的な問題に対する最適の後悔境界を満足することを示した。 また,本手法が関連する問題に適用できることを示す。 数値実験は理論的結果と考察を支援する。

The contextual combinatorial semi-bandit problem with linear payoff functions is a decision-making problem in which a learner chooses a set of arms with the feature vectors in each round under given constraints so as to maximize the sum of rewards of arms. Several existing algorithms have regret bounds that are optimal with respect to the number of rounds $T$. However, there is a gap of $\tilde{O}(\max(\sqrt{d}, \sqrt{k}))$ between the current best upper and lower bounds, where $d$ is the dimension of the feature vectors, $k$ is the number of the chosen arms in a round, and $\tilde{O}(\cdot)$ ignores the logarithmic factors. The dependence of $k$ and $d$ is of practical importance because $k$ may be larger than $T$ in real-world applications such as recommender systems. In this paper, we fill the gap by improving the upper and lower bounds. More precisely, we show that the C${}^2$UCB algorithm proposed by Qin, Chen, and Zhu (2014) has the optimal regret bound $\tilde{O}(d\sqrt{kT} + dk)$ for the partition matroid constraints. For general constraints, we propose an algorithm that modifies the reward estimates of arms in the C${}^2$UCB algorithm and demonstrate that it enjoys the optimal regret bound for a more general problem that can take into account other objectives simultaneously. We also show that our technique would be applicable to related problems. Numerical experiments support our theoretical results and considerations.
翻訳日:2021-03-22 01:34:16 公開日:2021-02-27
# 非教師なし領域一般化のための階層的変分自動エンコーディング

Hierarchical Variational Auto-Encoding for Unsupervised Domain Generalization ( http://arxiv.org/abs/2101.09436v3 )

ライセンス: Link先を確認
Xudong Sun, Florian Buettner(参考訳) 我々は、複数のドメインに基づいて予測モデルをトレーニングし、新しい未発見のドメインに一般化することを目標とする、ドメイン一般化のタスクに対処します。 我々は、変分オートエンコーダの枠組みの中で生成的アプローチを選択し、監督なしで新しい領域に一般化できる教師なしアルゴリズムを提案する。 本手法は,非オブザーブド部分構造がドメインに存在する複雑な設定においても,クラスラベル固有情報からドメイン固有情報を分離する表現を学習できることを示す。 提案手法は,従来提案していた領域一般化のための生成アルゴリズムを上回っており,標準領域一般化ベンチマークデータセットpacsを用いて,複雑な画像処理ステップに基づく最先端手法と比較し,競合性能を実現する。 さらに,pacsデータセットにおけるアルゴリズムの性能をさらに向上させる弱領域監督を提案する。

We address the task of domain generalization, where the goal is to train a predictive model based on a number of domains such that it is able to generalize to a new, previously unseen domain. We choose a generative approach within the framework of variational autoencoders and propose an unsupervised algorithm that is able to generalize to new domains without supervision. We show that our method is able to learn representations that disentangle domain-specific information from class-label specific information even in complex settings where an unobserved substructure is present in domains. Our interpretable method outperforms previously proposed generative algorithms for domain generalization and achieves competitive performance compared to state-of-the-art approaches, which are based on complex image-processing steps, on the standard domain generalization benchmark dataset PACS. Additionally, we proposed weak domain supervision which can further increase the performance of our algorithm in the PACS dataset.
翻訳日:2021-03-19 10:52:00 公開日:2021-02-27
# (参考訳) 文脈に特有な重み付け [全文訳有]

Context-Specific Likelihood Weighting ( http://arxiv.org/abs/2101.09791v3 )

ライセンス: CC BY 4.0
Nitesh Kumar and Ond\v{r}ej Ku\v{z}elka(参考訳) サンプリングは、正確な推論が実用的でない場合に近似推論を行う一般的な方法である。 一般に、サンプリングアルゴリズムは確率分布の文脈特異的独立性(csi)特性を利用しない。 従来の条件付き独立性を利用した新しいサンプリング手法であるcs-lw(context-specif ic likelihood weighting)を導入するとともに,csi特性も活用する。 標準確率重み付けとは異なり、CS-LWは確率変数の部分的な割り当てに基づいており、サンプリング分散の低減により収束するサンプルが少ない。 さらに, 試料の生成速度も向上した。 文脈代入の概念は理論上CS-LWを正当化する。 CS-LWは,大量のCSIが存在する場合の近似推論において,最先端のアルゴリズムと競合することを示す。

Sampling is a popular method for approximate inference when exact inference is impractical. Generally, sampling algorithms do not exploit context-specific independence (CSI) properties of probability distributions. We introduce context-specific likelihood weighting (CS-LW), a new sampling methodology, which besides exploiting the classical conditional independence properties, also exploits CSI properties. Unlike the standard likelihood weighting, CS-LW is based on partial assignments of random variables and requires fewer samples for convergence due to the sampling variance reduction. Furthermore, the speed of generating samples increases. Our novel notion of contextual assignments theoretically justifies CS-LW. We empirically show that CS-LW is competitive with state-of-the-art algorithms for approximate inference in the presence of a significant amount of CSIs.
翻訳日:2021-03-19 04:48:23 公開日:2021-02-27
# (参考訳) 長距離対話状態追跡の改善 [全文訳有]

Improving Longer-range Dialogue State Tracking ( http://arxiv.org/abs/2103.00109v1 )

ライセンス: CC BY 4.0
Ye Zhang, Yuan Cao, Mahdis Mahdieh, Jefferey Zhao, Yonghui Wu(参考訳) 対話状態追跡(DST)はタスク指向対話システムにおいて重要な要素である。 DSTモデルが短い会話で信念状態を捉えるのは比較的簡単ですが、より気を散らすコンテキストの注入によって対話の長さが増加するにつれて、DSTのタスクはより困難になります。 本稿では,より長い対話処理を特に重視したDSTの全体的な性能向上を目指す。 1)階層的なスロット状態予測を可能にするモデル,2)汎用言語とタスク固有の言語理解のためのバランスの取れたトレーニング手順,3)長い会話を扱うモデルの能力を高めるデータ摂動,の3つの観点からこの問題に取り組む。 本研究では,マルチウォズベンチマークを用いて実験を行い,アブレーション試験,特に長い会話における各成分の有効性を実証する。

Dialogue state tracking (DST) is a pivotal component in task-oriented dialogue systems. While it is relatively easy for a DST model to capture belief states in short conversations, the task of DST becomes more challenging as the length of a dialogue increases due to the injection of more distracting contexts. In this paper, we aim to improve the overall performance of DST with a special focus on handling longer dialogues. We tackle this problem from three perspectives: 1) A model designed to enable hierarchical slot status prediction; 2) Balanced training procedure for generic and task-specific language understanding; 3) Data perturbation which enhances the model's ability in handling longer conversations. We conduct experiments on the MultiWOZ benchmark, and demonstrate the effectiveness of each component via a set of ablation tests, especially on longer conversations.
翻訳日:2021-03-06 06:11:27 公開日:2021-02-27
# (参考訳) 現代強化学習のためのpengのq($\lambda$)の再検討 [全文訳有]

Revisiting Peng's Q($\lambda$) for Modern Reinforcement Learning ( http://arxiv.org/abs/2103.00107v1 )

ライセンス: CC BY 4.0
Tadashi Kozuno, Yunhao Tang, Mark Rowland, R\'emi Munos, Steven Kapturowski, Will Dabney, Michal Valko, David Abel(参考訳) オフポリシーのマルチステップ強化学習アルゴリズムは保守的および非保守的なアルゴリズムで構成されています。 最近、Munos et al。 (2016) 保守的アルゴリズムの最適q関数への収束を証明した。 対照的に、非保存アルゴリズムは安全ではなく、理論的な保証がないと考えられている。 しかし、最近の研究では、非保守的なアルゴリズムは保守的なアルゴリズムよりも経験的に優れていることが示されている。 経験的な結果と理論の欠如に動機づけられて、非保守アルゴリズムの代表的な例であるPeng's Q($\lambda$)の理論的解析を行う。 行動政策が徐々に、保守的な政策の反復と似た方法で欲求政策を追跡できるようにすれば、最適な政策に収束することも証明できる。 このような結果は真実であると推測されているが、証明されていない。 また、pengのq($\lambda$)を複雑な連続制御タスクで実験し、pengのq($\lambda$)が単純さにもかかわらず保守的なアルゴリズムよりも優れていることを確かめた。 これらの結果は、pengのq($\lambda$)は安全でないと考えられていたが、理論的に健全で効果的なアルゴリズムであることを示している。

Off-policy multi-step reinforcement learning algorithms consist of conservative and non-conservative algorithms: the former actively cut traces, whereas the latter do not. Recently, Munos et al. (2016) proved the convergence of conservative algorithms to an optimal Q-function. In contrast, non-conservative algorithms are thought to be unsafe and have a limited or no theoretical guarantee. Nonetheless, recent studies have shown that non-conservative algorithms empirically outperform conservative ones. Motivated by the empirical results and the lack of theory, we carry out theoretical analyses of Peng's Q($\lambda$), a representative example of non-conservative algorithms. We prove that it also converges to an optimal policy provided that the behavior policy slowly tracks a greedy policy in a way similar to conservative policy iteration. Such a result has been conjectured to be true but has not been proven. We also experiment with Peng's Q($\lambda$) in complex continuous control tasks, confirming that Peng's Q($\lambda$) often outperforms conservative algorithms despite its simplicity. These results indicate that Peng's Q($\lambda$), which was thought to be unsafe, is a theoretically-sound and practically effective algorithm.
翻訳日:2021-03-06 05:27:22 公開日:2021-02-27
# (参考訳) グラフニューラルネットワークによるメタラーニング:方法と応用 [全文訳有]

Meta-Learning with Graph Neural Networks: Methods and Applications ( http://arxiv.org/abs/2103.00137v1 )

ライセンス: CC BY 4.0
Debmalya Mandal, Sourav Medya, Brian Uzzi, and Charu Aggarwal(参考訳) グラフデータに基づくディープニューラルネットワークの一般化であるグラフニューラルネットワーク(GNN)は、薬物発見からレコメンダシステムまで、さまざまな領域で広く利用されている。 しかしながら、そのようなアプリケーション上のGNNは、利用可能なサンプルが少ない場合に限られる。 メタラーニングは機械学習におけるサンプルの欠如に対処する重要なフレームワークであり、近年ではGNNにメタラーニングを適用し始めている。 本稿では,これらの2つのアプローチを併用する能力を示すグラフ問題に対して,GNN が関与する様々なメタラーニング手法を包括的に調査する。 提案するアーキテクチャ,共有表現,アプリケーションに基づいて文献を分類する。 最後に,エキサイティングな今後の研究方向とオープンな課題について論じる。

Graph Neural Networks (GNNs), a generalization of deep neural networks on graph data have been widely used in various domains, ranging from drug discovery to recommender systems. However, GNNs on such applications are limited when there are few available samples. Meta-learning has been an important framework to address the lack of samples in machine learning, and in recent years, the researchers have started to apply meta-learning to GNNs. In this work, we provide a comprehensive survey of different meta-learning approaches involving GNNs on various graph problems showing the power of using these two approaches together. We categorize the literature based on proposed architectures, shared representations, and applications. Finally, we discuss several exciting future research directions and open problems.
翻訳日:2021-03-06 00:43:45 公開日:2021-02-27
# (参考訳) 独立機構の競合アンサンブルを持つ変圧器 [全文訳有]

Transformers with Competitive Ensembles of Independent Mechanisms ( http://arxiv.org/abs/2103.00336v1 )

ライセンス: CC BY 4.0
Alex Lamb, Di He, Anirudh Goyal, Guolin Ke, Chien-Feng Liao, Mirco Ravanelli, Yoshua Bengio(参考訳) 初期のMLPから深層学習における重要な発展は、構造的帰納バイアスを持つアーキテクチャへの移行であり、モデルが異なる情報ソースと処理経路を適切に分離することを可能にする。 この構造は、メカニズムが世界の無関係な側面が変化するのと同じ処理を保持することができる因果性文学からの独立したメカニズムの概念にリンクされています。 例えば、convnetは位置を分離できるが、注意に基づくアーキテクチャ(特にトランスフォーマー)は動的に処理する位置の組み合わせを学習する。 この研究では、トランスフォーマーアーキテクチャが不十分である方法を模索します。それは、大きなモノリシックな隠れ表現と、隠れた表現全体に適用される単一のパラメータセットで各位置を表現します。 これは、無関係な情報ソースを一緒に投げる可能性があり、トランスフォーマーが独立したメカニズムをキャプチャする能力を制限する。 そこで本研究では,隠れた表現とパラメータを複数の機構に分割し,注意を通してのみ情報を交換する,新しいトランスフォーマー層であるtimを用いたトランスフォーマーを提案する。 さらに,これらのメカニズムが時間の経過とともに専門化され,より独立した競争機構も提案する。 TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。

An important development in deep learning from the earliest MLPs has been a move towards architectures with structural inductive biases which enable the model to keep distinct sources of information and routes of processing well-separated. This structure is linked to the notion of independent mechanisms from the causality literature, in which a mechanism is able to retain the same processing as irrelevant aspects of the world are changed. For example, convnets enable separation over positions, while attention-based architectures (especially Transformers) learn which combination of positions to process dynamically. In this work we explore a way in which the Transformer architecture is deficient: it represents each position with a large monolithic hidden representation and a single set of parameters which are applied over the entire hidden representation. This potentially throws unrelated sources of information together, and limits the Transformer's ability to capture independent mechanisms. To address this, we propose Transformers with Independent Mechanisms (TIM), a new Transformer layer which divides the hidden representation and parameters into multiple mechanisms, which only exchange information through attention. Additionally, we propose a competition mechanism which encourages these mechanisms to specialize over time steps, and thus be more independent. We study TIM on a large-scale BERT model, on the Image Transformer, and on speech enhancement and find evidence for semantically meaningful specialization as well as improved performance.
翻訳日:2021-03-06 00:30:29 公開日:2021-02-27
# (参考訳) 顔アライメントとポーズ推定のための深部能動形状モデル [全文訳有]

Deep Active Shape Model for Face Alignment and Pose Estimation ( http://arxiv.org/abs/2103.00119v1 )

ライセンス: CC BY 4.0
Ali Pourramezan Fard, Hojjat Abdollahi, Mohammad Mahoor(参考訳) アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。 ASMは機械学習アルゴリズムを導いて、物体(顔など)を表す一連の点を画像に合わせることができる。 本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 損失関数におけるASMベースの正規化項は、ネットワークを高速に学習し、より一般化し、軽量なネットワークアーキテクチャでさえ挑戦的な例を扱うように誘導する。 我々は、顔のランドマークポイントの検出と顔のポーズの推定を行うロス関数において、マルチタスクを定義する。 複数の関連タスクの学習は同時にシナジーを構築し、個々のタスクのパフォーマンスを改善する。 その結果,提案するasm正規化損失関数は,非常に軽量なcnnアーキテクチャを用いた顔ランドマーク点検出とポーズ推定の競合性能が得られることがわかった。

Active Shape Model (ASM) is a statistical model of object shapes that represents a target structure. ASM can guide machine learning algorithms to fit a set of points representing an object (e.g., face) onto an image. This paper presents a lightweight Convolutional Neural Network (CNN) architecture with a loss function regularized by ASM for face alignment and estimating head pose in the wild. The ASM-based regularization term in the loss function would guide the network to learn faster, generalize better, and hence handle challenging examples even with light-weight network architecture. We define multi-tasks in our loss function that are responsible for detecting facial landmark points, as well as estimating face pose. Learning multiple correlated tasks simultaneously builds synergy and improves the performance of individual tasks. Experimental results on challenging datasets show that our proposed ASM regularized loss function achieves competitive performance for facial landmark points detection and pose estimation using a very light-weight CNN architecture.
翻訳日:2021-03-05 16:49:14 公開日:2021-02-27
# (参考訳) タスク類似度測定によるニューラルアーキテクチャ検索 [全文訳有]

Neural Architecture Search From Task Similarity Measure ( http://arxiv.org/abs/2103.00241v1 )

ライセンス: CC BY 4.0
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Vahid Tarokh(参考訳) 本稿では,フィッシャー情報を用いて定義された各種タスク間の類似度尺度に基づくニューラルアーキテクチャ探索フレームワークを提案する。 対象と既存のタスクの集合との関係を利用することで、アーキテクチャの探索空間を大幅に削減することができ、可能なアーキテクチャの集合における最適な候補の発見が容易になる。 このメソッドは、対象タスクのネットワークをゼロからトレーニングする要件を排除します。 シミュレーションの結果,提案手法の有効性と最先端手法との競合性を示す。

In this paper, we propose a neural architecture search framework based on a similarity measure between various tasks defined in terms of Fisher information. By utilizing the relation between a target and a set of existing tasks, the search space of architectures can be significantly reduced, making the discovery of the best candidates in the set of possible architectures tractable. This method eliminates the requirement for training the networks from scratch for the target task. Simulation results illustrate the efficacy of our proposed approach and its competitiveness with state-of-the-art methods.
翻訳日:2021-03-05 16:32:12 公開日:2021-02-27
# (参考訳) トランスフォーマー言語モデルによるcovid-19ツイートの解析 [全文訳有]

COVID-19 Tweets Analysis through Transformer Language Models ( http://arxiv.org/abs/2103.00199v1 )

ライセンス: CC BY 4.0
Abdul Hameed Azeemi, Adeel Waheed(参考訳) 医療危機における公衆の感情と認識を理解することは、適切な危機管理技術の開発に不可欠です。 新型コロナウイルス(COVID-19)の予測モデルにTwitterのデータを使用した研究もあるが、このパンデミックの間、ソーシャルメディア上の人々の意見のきめ細かい感情分析はまだ行われていない。 本研究では、COVID-19におけるツイートの詳細な感情分析を行う。 そこで本稿では,ツイートのマルチラベル分類の下流タスクにおける4つのトランスフォーマー言語モデルの教師あり学習を, [信頼, 怒り, 恐怖, 悲しみ, 分析, 仮の]7つのクラスに分けて実施する。 LRAP(Label Ranking Average Precision)スコア0.9267をRoBERTaで達成します。 このトレーニングされたトランスフォーマーモデルは、ツイートのトーンを高精度で正確に予測することができる。 次にこのモデルを利用して、covid-19の20万ツイートのトーンを予測する。 次に、ツイートのトーンを国別に分析し、このパンデミックの人々の心理的状態の有用な指標を抽出します。

Understanding the public sentiment and perception in a healthcare crisis is essential for developing appropriate crisis management techniques. While some studies have used Twitter data for predictive modelling during COVID-19, fine-grained sentiment analysis of the opinion of people on social media during this pandemic has not yet been done. In this study, we perform an in-depth, fine-grained sentiment analysis of tweets in COVID-19. For this purpose, we perform supervised training of four transformer language models on the downstream task of multi-label classification of tweets into seven tone classes: [confident, anger, fear, joy, sadness, analytical, tentative]. We achieve a LRAP (Label Ranking Average Precision) score of 0.9267 through RoBERTa. This trained transformer model is able to correctly predict, with high accuracy, the tone of a tweet. We then leverage this model for predicting tones for 200,000 tweets on COVID-19. We then perform a country-wise analysis of the tone of tweets, and extract useful indicators of the psychological condition about the people in this pandemic.
翻訳日:2021-03-05 11:40:09 公開日:2021-02-27
# (参考訳) n-shot Task-Oriented Dialogue Augmentationへのシンプルだが効果的なアプローチ [全文訳有]

A Simple But Effective Approach to n-shot Task-Oriented Dialogue Augmentation ( http://arxiv.org/abs/2103.00293v1 )

ライセンス: CC BY 4.0
Taha Aksu and Nancy F. Chen and Min-Yen Kan and Zhengyuan Liu(参考訳) タスク指向の会話データの収集とアノテーションはコストと時間を要する方法です。 トレーニングに必要なデータ量を持たない新しいドメインにおける最先端の(SOTA)システムのパフォーマンスを改善するために、多くの拡張技術が提案されている。 しかし、これらの強化技術(例) また、学習ベースのアプローチを使用するため、ある程度の量のデータも必要です。 これにより、新興の低リソースドメインでのSOTAシステムの使用が不可能になる。 そこで我々は,この課題に対処すべく,タスク指向の対話を完全自動的に作成するフレームワークを導入して,少数の対話の入力サイズで動作させる。 我々のフレームワークは、タスク指向対話における各ターンペアが特定の機能を持つという単純な考え方を使い、このアイデアを利用して新しい対話を生成する。 対話状態追跡タスクにおいて,SOTAモデルTRADEと統合することにより,低リソース環境でのフレームワークの評価を行い,複数のドメインにおける微調整シナリオの大幅な改善を観察する。 このエンドツーエンドの対話拡張フレームワークは,タスク指向の対話ドメインにおける自然言語理解のパフォーマンス向上に不可欠なツールである,と我々は結論付けている。

The collection and annotation of task-oriented conversational data is a costly and time-consuming manner. Many augmentation techniques have been proposed to improve the performance of state-of-the-art (SOTA) systems in new domains that lack the necessary amount of data for training. However, these augmentation techniques (e.g. paraphrasing) also require some mediocre amount of data since they use learning-based approaches. This makes using SOTA systems in emerging low-resource domains infeasible. We, to tackle this problem, introduce a framework, that creates synthetic task-oriented dialogues in a fully automatic manner, which operates with input sizes of as small as a few dialogues. Our framework uses the simple idea that each turn-pair in a task-oriented dialogue has a certain function and exploits this idea to mix them creating new dialogues. We evaluate our framework within a low-resource setting by integrating it with a SOTA model TRADE in the dialogue state tracking task and observe significant improvements in the fine-tuning scenarios in several domains. We conclude that this end-to-end dialogue augmentation framework can be a crucial tool for natural language understanding performance in emerging task-oriented dialogue domains.
翻訳日:2021-03-05 05:58:09 公開日:2021-02-27
# (参考訳) CP-MDP: カンデコム・パラファック分解法によるマルコフ決定過程の多次元解法 [全文訳有]

CP-MDP: A CANDECOMP-PARAFAC Decomposition Approach to Solve a Markov Decision Process Multidimensional Problem ( http://arxiv.org/abs/2103.00331v1 )

ライセンス: CC BY 4.0
Daniela Kuinchtner, Afonso Sales, Felipe Meneguzzi(参考訳) マルコフ決定プロセス(MDP)は確率的環境における決定論的エージェントの最適計画の基盤となるモデルである。 MDPの問題を表形式でも因子表現を用いても解くことに焦点を当てる研究は多いが、テンソル分解法に焦点をあてる研究はなかった。 テンソル代数を用いたMDPの解法は、テンソルベースの計算の進歩を活用して解法効率をさらに向上する可能性をもたらす。 本稿では, テンソル分解法による多次元問題に対するMDP解法を開発し, 遷移モデルを圧縮し, 値反復とポリシー反復のアルゴリズムを最適化する。 実験的に表式手法に対するアプローチを評価し,統計的計画におけるテンソルベースのアプローチの新たな可能性を開拓し,メモリを大幅に削減してより大きな問題を計算できることを示した。

Markov Decision Process (MDP) is the underlying model for optimal planning for decision-theoretic agents in stochastic environments. Although much research focuses on solving MDP problems both in tabular form or using factored representations, none focused on tensor decomposition methods. Solving MDPs using tensor algebra offers the prospect of leveraging advances in tensor-based computations to further increase solver efficiency. In this paper, we develop an MDP solver for a multidimensional problem using a tensor decomposition method to compress the transition models and optimize the value iteration and policy iteration algorithms. We empirically evaluate our approach against tabular methods and show our approach can compute much larger problems using substantially less memory, opening up new possibilities for tensor-based approaches in stochastic planning
翻訳日:2021-03-05 01:50:10 公開日:2021-02-27
# (参考訳) カラーコードシンボルとルネサンス油彩画の歴史的色彩パレット予測のための新しいコンピュータビジョンツール [全文訳有]

Color-Coded Symbology and New Computer Vision Tool to Predict the Historical Color Pallets of the Renaissance Oil Artworks ( http://arxiv.org/abs/2103.00238v1 )

ライセンス: CC BY 4.0
Artyom M. Grigoryan and Sos S. Agaian(参考訳) 本稿では,ルネサンス油彩画においてアーティストが使用した色彩の独自性を予測・分析し,色パレットの可能性について考察する。 このフレームワークの目的は、カラーシンボルと画像強調ツールを使用して、ルネサンス油彩画の歴史的カラーパレットを予測することである。 この作品はルネッサンスのオイルアートワークの色パレットの予測の可能性を探るための開発の始まりに過ぎません。 ルネッサンスのオイルアートワークや他のアートワークの色パレットの予測にフレームワークが役立つかもしれないと信じています。 105番の画像は、オルガのギャラリーで利用可能な3人の有名なアーティスト、ラファエル、レオナルド・ダ・ヴィンチ、レンブラントの絵画から撮影されています。 画像は周波数領域で処理され、画像の品質を高め、一次色の割合を色比の新しい測定値を使用して計算および分析します。

In this paper, we discuss possible color palletes, prediction and analysis of originality of the colors that Artists used on the Renaissance oil paintings. This framework goal is to help to use the color symbology and image enhancement tools, to predict the historical color palletes of the Renaissance oil artworks. This work is only the start of a development to explore the possibilities of prediction of color palletes of the Renaissance oil artworks. We believe that framework might be very useful in the prediction of color palletes of the Renaissance oil artworks and other artworks. The images in number 105 have been taken from the paintings of three well-known artists, Rafael, Leonardo Da Vinci, and Rembrandt that are available in the Olga's Gallery. Images are processed in the frequency domain to enhance a quality of images and ratios of primary colors are calculated and analyzed by using new measurements of color-ratios.
翻訳日:2021-03-04 23:18:04 公開日:2021-02-27
# (参考訳) オンラインプラットフォーム上での乱用言語の検出 - 批判的分析 [全文訳有]

Detecting Abusive Language on Online Platforms: A Critical Analysis ( http://arxiv.org/abs/2103.00153v1 )

ライセンス: CC BY 4.0
Preslav Nakov, Vibha Nayak, Kyle Dent, Ameya Bhatawdekar, Sheikh Muhammad Sarwar, Momchil Hardalov, Yoan Dinkov, Dimitrina Zlatkova, Guillaume Bouchard, Isabelle Augenstein(参考訳) オンラインプラットフォーム上での虐待的な言語は大きな社会問題であり、少数民族の過疎化などの重要な社会問題につながることが多い。 ヘイトスピーチ、暴言、サイバーいじめなど、乱用する言語にはさまざまな形態があり、オンラインプラットフォームは、社会的危害を抑え、法律に準拠し、より包括的な環境をユーザのために作り出そうとしている。 自然言語処理の分野において、研究者は乱用言語を自動的に検出する様々な方法を開発し、しばしば特定のサブプロブレムや狭いコミュニティに焦点を当てている。 私たちは、現在、どのような種類の虐待的な言語オンラインプラットフォームが抑制しようとしているのか、そして虐待的な言語を自動的に検出するための研究努力がどのようなものかを区別していると主張しています。 そこで本研究では,オンラインプラットフォームによる既存手法とコンテンツモデレーションポリシーを調査し,今後の課題への方向性を提案する。

Abusive language on online platforms is a major societal problem, often leading to important societal problems such as the marginalisation of underrepresented minorities. There are many different forms of abusive language such as hate speech, profanity, and cyber-bullying, and online platforms seek to moderate it in order to limit societal harm, to comply with legislation, and to create a more inclusive environment for their users. Within the field of Natural Language Processing, researchers have developed different methods for automatically detecting abusive language, often focusing on specific subproblems or on narrow communities, as what is considered abusive language very much differs by context. We argue that there is currently a dichotomy between what types of abusive language online platforms seek to curb, and what research efforts there are to automatically detect abusive language. We thus survey existing methods as well as content moderation policies by online platforms in this light, and we suggest directions for future work.
翻訳日:2021-03-04 19:56:25 公開日:2021-02-27
# (参考訳) 誤報・誤報識別のためのスタンス検出に関する調査 [全文訳有]

A Survey on Stance Detection for Mis- and Disinformation Identification ( http://arxiv.org/abs/2103.00242v1 )

ライセンス: CC BY 4.0
Momchil Hardalov, Arnav Arora, Preslav Nakov, Isabelle Augenstein(参考訳) テキストで表現された態度、またはスタンス検出は、誤った情報(意図しない嘘)や不正情報(意図的嘘、故意に悪意のある意図で拡散)など、オンラインで偽情報を検出する上で重要なタスクとなっている。 a)事実確認、噂の検出、および以前に事実確認されたクレームの検出のコンポーネントとして、または(b)独自の権利でタスクとして、スタンス検出はさまざまな方法でフレーム化されています。 議論マイニングや感情分析などの他の関連ソーシャルメディアとスタンス検出を対比する取り組みは以前から行われてきたが,本調査の焦点である全体的観点からのスタンス検出と誤情報検出との関連性について調査は行われていない。 この領域における既存の作業の見直しと分析を行い、教訓と今後の課題について議論します。

Detecting attitudes expressed in texts, also known as stance detection, has become an important task for the detection of false information online, be it misinformation (unintentionally false) or disinformation (intentionally false, spread deliberately with malicious intent). Stance detection has been framed in different ways, including: (a) as a component of fact-checking, rumour detection, and detecting previously fact-checked claims; or (b) as a task in its own right. While there have been prior efforts to contrast stance detection with other related social media tasks such as argumentation mining and sentiment analysis, there is no survey examining the relationship between stance detection detection and mis- and disinformation detection from a holistic viewpoint, which is the focus of this survey. We review and analyse existing work in this area, before discussing lessons learnt and future challenges.
翻訳日:2021-03-04 19:40:32 公開日:2021-02-27
# (参考訳) Graph Self-Supervised Learning: 調査 [全文訳有]

Graph Self-Supervised Learning: A Survey ( http://arxiv.org/abs/2103.00111v1 )

ライセンス: CC BY 4.0
Yixin Liu, Shirui Pan, Ming Jin, Chuan Zhou, Feng Xia, Philip S. Yu(参考訳) グラフに関する深い学習は、最近大きな関心を集めている。 しかし、ほとんどの作品は(半)教師付き学習に焦点を当てており、重いラベル依存、悪い一般化、弱い堅牢性などの欠点が生じています。 これらの課題に対処するために、手動ラベルを頼らずに、よく設計されたプレテキストタスクを通じて情報的知識を抽出する自己教師型学習(SSL)が、グラフデータのための有望でトレンドな学習パラダイムとなっている。 コンピュータビジョンや自然言語処理のような他のドメインとは異なり、グラフ上のSSLは排他的背景、設計思想、分類学を持っている。 グラフ自己監視学習の傘の下で、グラフデータにSSL技術を使用する既存のアプローチをタイムリーかつ包括的にレビューします。 プリテキストタスクの設計に従って,これらを4つのカテゴリに分類する。 この研究分野における残りの課題と今後の方向性についてさらに議論します。

Deep learning on graphs has attracted significant interest recently. However, most of the works have focused on (semi-) supervised learning, resulting in shortcomings including heavy label reliance, poor generalization, and weak robustness. To address these issues, self-supervised learning (SSL), which extracts informative knowledge through well-designed pretext tasks without relying on manual labels, has become a promising and trending learning paradigm for graph data. Different from other domains like computer vision/natural language processing, SSL on graphs has an exclusive background, design ideas, and taxonomies. Under the umbrella of graph self-supervised learning, we present a timely and comprehensive review of the existing approaches which employ SSL techniques for graph data. We divide these into four categories according to the design of their pretext tasks. We further discuss the remaining challenges and potential future directions in this research field.
翻訳日:2021-03-04 19:24:23 公開日:2021-02-27
# (参考訳) 対比的自己監督学習による属性ネットワーク異常検出 [全文訳有]

Anomaly Detection on Attributed Networks via Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2103.00113v1 )

ライセンス: CC BY 4.0
Yixin Liu, Zhao Li, Shirui Pan, Chen Gong, Chuan Zhou, George Karypis(参考訳) 帰属ネットワーク上の異常検出は、幅広い複雑なシステムのモデリングにおける帰属ネットワークの幅広い応用のために、かなりの研究関心を集めている。 近年,深層学習に基づく異常検出手法は,特に高次元特性と複雑な構造を持つネットワークにおいて,浅いアプローチよりも有望な結果を示している。 しかし、グラフオートエンコーダをバックボーンとして使用する既存のアプローチは、ネットワークの豊富な情報を完全に利用しないため、最適なパフォーマンスが得られます。 さらに,これらの手法は学習対象の異常検出を直接対象とせず,全グラフ学習機構のため大規模ネットワークにスケールできない。 本稿では、これらの制限を克服するために、属性付きネットワーク上で異常検出を行うための新しい対比的自己監視学習フレームワークを提案する。 本フレームワークは,新しいタイプのコントラスト型インスタンスペアをサンプリングすることにより,ネットワークデータからの局所情報を完全に活用し,各ノードとその周辺サブ構造との関係を教師なしで把握する。 一方,高次元属性と局所構造から情報埋め込みを学習し,各インスタンス対とその出力スコアの一致度を測定するために,よく設計されたグラフニューラルネットワークを用いたコントラスト学習モデルを提案する。 さらに,比較学習モデルによる多ラウンド予測スコアを用いて,各ノードの異常度を統計的推定により評価する。 このように、学習モデルは特定の異常検出認識ターゲットによって訓練される。 さらに,グラフニューラルネットワークモジュールの入力は全ネットワークではなくインスタンスペアのバッチであるので,我々のフレームワークは大規模ネットワークに柔軟に対応できる。 実験の結果,提案フレームワークは7つのベンチマークデータセットすべてにおいて最先端のベースラインメソッドを上回ることがわかった。

Anomaly detection on attributed networks attracts considerable research interests due to wide applications of attributed networks in modeling a wide range of complex systems. Recently, the deep learning-based anomaly detection methods have shown promising results over shallow approaches, especially on networks with high-dimensional attributes and complex structures. However, existing approaches, which employ graph autoencoder as their backbone, do not fully exploit the rich information of the network, resulting in suboptimal performance. Furthermore, these methods do not directly target anomaly detection in their learning objective and fail to scale to large networks due to the full graph training mechanism. To overcome these limitations, in this paper, we present a novel contrastive self-supervised learning framework for anomaly detection on attributed networks. Our framework fully exploits the local information from network data by sampling a novel type of contrastive instance pair, which can capture the relationship between each node and its neighboring substructure in an unsupervised way. Meanwhile, a well-designed graph neural network-based contrastive learning model is proposed to learn informative embedding from high-dimensional attributes and local structure and measure the agreement of each instance pairs with its outputted scores. The multi-round predicted scores by the contrastive learning model are further used to evaluate the abnormality of each node with statistical estimation. In this way, the learning model is trained by a specific anomaly detection-aware target. Furthermore, since the input of the graph neural network module is batches of instance pairs instead of the full network, our framework can adapt to large networks flexibly. Experimental results show that our proposed framework outperforms the state-of-the-art baseline methods on all seven benchmark datasets.
翻訳日:2021-03-04 19:07:18 公開日:2021-02-27
# (参考訳) RA-GCN:不均衡データを用いた疾患予測問題のグラフ畳み込みネットワーク [全文訳有]

RA-GCN: Graph Convolutional Network for Disease Prediction Problems with Imbalanced Data ( http://arxiv.org/abs/2103.00221v1 )

ライセンス: CC BY 4.0
Mahsa Ghorbani, Anees Kazi, Mahdieh Soleymani Baghshah, Hamid R. Rabiee, Nassir Navab(参考訳) 疾患予測は医学応用においてよく知られた分類問題である。 グラフニューラルネットワークは、患者の特徴を相対的に分析するための強力なツールを提供する。 近年, グラフ畳み込みネットワーク (GCN) は疾患予測の分野で特に研究されている。 このような医学データセットの性質から、クラス不均衡は疾患予測の分野でよく知られた問題である。 データにクラス不均衡が存在する場合、既存のグラフベースの分類器は主要なクラス(es)に偏りがちである。 一方、すべての患者の間でまれな真の陽性症例の正しい診断は不可欠です。 従来の方法では、そのような不均衡は損失関数のクラスに適切な重みを割り当てることによって取り組まれるが、この解は未だに重みの相対値に依存し、外れ値に敏感であり、場合によってはマイナークラスに偏っている。 本稿では,グラフベース分類器の性能を高め,特定のクラスのサンプルを強調することを防止するため,再重み付けされた逆グラフ畳み込みネットワーク (ra-gcn) を提案する。 これは、クラスのサンプルを自動で測定することで達成される。 この目的のために、グラフベースのネットワークは各クラスに関連付けられ、クラスサンプルを重み付けし、各サンプルの重要性を分類器に通知する。 したがって、分類器は自身を調整し、重要なサンプルに注意を向けてクラス間の境界を決定する。 分類器と重み付けネットワークのパラメータは、敵対的なアプローチで訓練される。 反対のトレーニングプロセスの終わりに、分類器の境界はより正確で偏りがありません。 本研究では,ra-gcnの合成および3種類の医療用データセットに対する優越性を示す。

Disease prediction is a well-known classification problem in medical applications. Graph neural networks provide a powerful tool for analyzing the patients' features relative to each other. Recently, Graph Convolutional Networks (GCNs) have particularly been studied in the field of disease prediction. Due to the nature of such medical datasets, the class imbalance is a familiar issue in the field of disease prediction. When the class imbalance is present in the data, the existing graph-based classifiers tend to be biased towards the major class(es). Meanwhile, the correct diagnosis of the rare true-positive cases among all the patients is vital. In conventional methods, such imbalance is tackled by assigning appropriate weights to classes in the loss function; however, this solution is still dependent on the relative values of weights, sensitive to outliers, and in some cases biased towards the minor class(es). In this paper, we propose Re-weighted Adversarial Graph Convolutional Network (RA-GCN) to enhance the performance of the graph-based classifier and prevent it from emphasizing the samples of any particular class. This is accomplished by automatically learning to weigh the samples of the classes. For this purpose, a graph-based network is associated with each class, which is responsible for weighing the class samples and informing the classifier about the importance of each sample. Therefore, the classifier adjusts itself and determines the boundary between classes with more attention to the important samples. The parameters of the classifier and weighing networks are trained by an adversarial approach. At the end of the adversarial training process, the boundary of the classifier is more accurate and unbiased. We show the superiority of RA-GCN on synthetic and three publicly available medical datasets compared to the recent method.
翻訳日:2021-03-04 18:34:50 公開日:2021-02-27
# (参考訳) Smooth Hinge Lossesによる学習 [全文訳有]

Learning with Smooth Hinge Losses ( http://arxiv.org/abs/2103.00233v1 )

ライセンス: CC BY 4.0
JunRu Luo, Hong Qiao and Bo Zhang(参考訳) SVMにおけるヒンジ損失の非滑らか性のため、現代の最適化アルゴリズムでより高速な収束率を得るのは難しい。 本稿では、$\sigma$ が $0$ になる傾向があるため、無限に微分可能で、$\alpha$ で一様にヒンジ損失に収束する 2 つの滑らかなヒンジ損失 $\psi_G(\alpha;\sigma)$ と $\psi_M(\alpha;\sigma)$ を紹介します。 ヒンジ損失を2つの滑らかなヒンジ損失に置き換えることで、それぞれ2つのスムーズなサポートベクターマシン(SSVM)を得る。 Trust Region Newtonメソッド(TRON)によるSSVMの解決は、2つの二次収束アルゴリズムにつながります。 テキスト分類タスクの実験では,提案したSSVMが実世界のアプリケーションに有効であることが示されている。 また,一般的な凸損失関数を導入し,機械学習においてよく用いられる凸損失関数を統一する。 一般のフレームワークは滑らかな近似関数を非滑らかな凸損失関数に提供し、より高速な収束最適化アルゴリズムで解ける滑らかなモデルを得るのに使用できる。

Due to the non-smoothness of the Hinge loss in SVM, it is difficult to obtain a faster convergence rate with modern optimization algorithms. In this paper, we introduce two smooth Hinge losses $\psi_G(\alpha;\sigma)$ and $\psi_M(\alpha;\sigma)$ which are infinitely differentiable and converge to the Hinge loss uniformly in $\alpha$ as $\sigma$ tends to $0$. By replacing the Hinge loss with these two smooth Hinge losses, we obtain two smooth support vector machines(SSVMs), respectively. Solving the SSVMs with the Trust Region Newton method (TRON) leads to two quadratically convergent algorithms. Experiments in text classification tasks show that the proposed SSVMs are effective in real-world applications. We also introduce a general smooth convex loss function to unify several commonly-used convex loss functions in machine learning. The general framework provides smooth approximation functions to non-smooth convex loss functions, which can be used to obtain smooth models that can be solved with faster convergent optimization algorithms.
翻訳日:2021-03-04 18:05:35 公開日:2021-02-27
# (参考訳) ジェネラティブモデルの概要 [全文訳有]

A Brief Introduction to Generative Models ( http://arxiv.org/abs/2103.00265v1 )

ライセンス: CC BY 4.0
Alex Lamb(参考訳) 本稿では,機械学習の中心的なタスクとして生成モデリングの導入と動機付けを行い,この課題に提案されているアルゴリズムの批判的視点を提供する。 生成的モデリングが数学的にどう定義できるかを,未知の基底真理分布と同じ分布を推定する試みとして概説する。 これは2つの分布の間の統計的発散の値の観点から定量化することができる。 KL-発散の最小化としてどのように解釈できるかを概説する。 我々は、限界を議論しながら、maximum likelihood familyにおける多くのアプローチを探求する。 最後に, 推定分布と実データ分布との差異を考察する, 代替逆アプローチについて検討する。 このアプローチが、敵対的な学習を成功させるために必要な新しい分岐と方法を生み出す方法について議論します。 また,敵対的アプローチが要求する新たな評価指標についても論じる。

We introduce and motivate generative modeling as a central task for machine learning and provide a critical view of the algorithms which have been proposed for solving this task. We overview how generative modeling can be defined mathematically as trying to make an estimating distribution the same as an unknown ground truth distribution. This can then be quantified in terms of the value of a statistical divergence between the two distributions. We outline the maximum likelihood approach and how it can be interpreted as minimizing KL-divergence. We explore a number of approaches in the maximum likelihood family, while discussing their limitations. Finally, we explore the alternative adversarial approach which involves studying the differences between an estimating distribution and a real data distribution. We discuss how this approach can give rise to new divergences and methods that are necessary to make adversarial learning successful. We also discuss new evaluation metrics which are required by the adversarial approach.
翻訳日:2021-03-04 17:41:32 公開日:2021-02-27
# (参考訳) FEDnによるスケーラブルなフェデレーション機械学習 [全文訳有]

Scalable federated machine learning with FEDn ( http://arxiv.org/abs/2103.00148v1 )

ライセンス: CC BY 4.0
Morgan Ekmefjord, Addi Ait-Mlouk, Sadi Alawadi, Mattias {\AA}kesson, Desislava Stoyanova, Ola Spjuth, Salman Toor, Andreas Hellander(参考訳) フェデレーション機械学習は、マシンラーニングにおける入力プライバシの課題を克服する大きな約束を持っています。 フェデレーション学習をシミュレートできるいくつかのプロジェクトの出現は、問題のアルゴリズム的側面の急速な進展をもたらした。 しかし、地理的に分散された環境でスケーラビリティ、堅牢性、セキュリティ、パフォーマンスといった基本的な側面に焦点を当てた、フェデレーション型機械学習フレームワークはまだ存在しない。 このギャップを埋めるため、我々はFEDnフレームワークを設計、開発しました。 FEDnの主な機能は、クロスデバイスとクロスサイロのトレーニング設定の両方をサポートすることである。 これによりFEDnは、幅広い機械学習アプリケーションを現実的な環境で研究するための強力なツールとなる。

Federated machine learning has great promise to overcome the input privacy challenge in machine learning. The appearance of several projects capable of simulating federated learning has led to a corresponding rapid progress on algorithmic aspects of the problem. However, there is still a lack of federated machine learning frameworks that focus on fundamental aspects such as scalability, robustness, security, and performance in a geographically distributed setting. To bridge this gap we have designed and developed the FEDn framework. A main feature of FEDn is to support both cross-device and cross-silo training settings. This makes FEDn a powerful tool for researching a wide range of machine learning applications in a realistic setting.
翻訳日:2021-03-04 05:41:46 公開日:2021-02-27
# (参考訳) 教師付き学習による予測における関連特徴の年齢 [全文訳有]

The Age of Correlated Features in Supervised Learning based Forecasting ( http://arxiv.org/abs/2103.00092v1 )

ライセンス: CC0 1.0
MD Kamran Chowdhury Shisher, Heyang Qin, Lei Yang, Feng Yan, and Yin Sun(参考訳) 本稿では,情報新鮮度が教師あり学習に基づく予測に与える影響を分析する。 これらのアプリケーションでは、ニューラルネットワークは、複数の相関した特徴(例えば、温度、湿度、および雲のカバレッジ)に基づいて、時間変動ターゲット(例えば、太陽光発電)を予測するように訓練されます。 特徴は、異なるデータソースから収集され、異種および時間変動年齢の影響を受けます。 情報理論的アプローチを使用することで、最小限の訓練損失は機能は常に単調ではない特徴の年齢の関数であることを証明します。 しかし、トレーニングデータの経験的分布がマルコフ連鎖の分布に近い場合、トレーニング損失は、ほぼ減少しない年齢関数である。 トレーニング損失とテスト損失の両方は、年齢が増加するにつれて同様の成長パターンを表します。 太陽エネルギー予測実験を行い,その理論を検証した。 理論および実験の結果から, (i) 異なる年齢値のトレーニングデータを大きなトレーニングデータセットに結合し, これらの年齢値の予測決定を共同で学習し, (ii) 入力特徴の一部として年齢値をニューラルネットワークに与えることが有益であることが示唆された。

In this paper, we analyze the impact of information freshness on supervised learning based forecasting. In these applications, a neural network is trained to predict a time-varying target (e.g., solar power), based on multiple correlated features (e.g., temperature, humidity, and cloud coverage). The features are collected from different data sources and are subject to heterogeneous and time-varying ages. By using an information-theoreti c approach, we prove that the minimum training loss is a function of the ages of the features, where the function is not always monotonic. However, if the empirical distribution of the training data is close to the distribution of a Markov chain, then the training loss is approximately a non-decreasing age function. Both the training loss and testing loss depict similar growth patterns as the age increases. An experiment on solar power prediction is conducted to validate our theory. Our theoretical and experimental results suggest that it is beneficial to (i) combine the training data with different age values into a large training dataset and jointly train the forecasting decisions for these age values, and (ii) feed the age value as a part of the input feature to the neural network.
翻訳日:2021-03-03 23:54:12 公開日:2021-02-27
# (参考訳) ProbLP:低精度確率推論のためのフレームワーク [全文訳有]

ProbLP: A framework for low-precision probabilistic inference ( http://arxiv.org/abs/2103.00216v1 )

ライセンス: CC BY 4.0
Nimish Shah, Laura I. Galindez Olascoaga, Wannes Meert and Marian Verhelst(参考訳) ベイズ推論はスマートエッジデバイスにおける確率的推論の強力なメカニズムである。 このような推論の間、低精度の算術表現はエネルギー効率を向上させることができる。 しかし、推測精度への影響はまだ分かっていない。 さらに、汎用ハードウェアは低精度表現をネイティブにサポートしません。 そこで我々は,低精度確率推論ハードウェアの解析と設計を自動化するフレームワークであるProbLPを提案する。 最悪のエラーバウンドとハードウェアエネルギーモデルに基づいて、適切なエネルギー効率の表現を自動的に選択する。 並列性、パイプライン化、低精度演算を利用した推論ネットワークのためのカスタムハードウェアを生成する。 このフレームワークはいくつかの組み込みセンシングベンチマークで検証される。

Bayesian reasoning is a powerful mechanism for probabilistic inference in smart edge-devices. During such inferences, a low-precision arithmetic representation can enable improved energy efficiency. However, its impact on inference accuracy is not yet understood. Furthermore, general-purpose hardware does not natively support low-precision representation. To address this, we propose ProbLP, a framework that automates the analysis and design of low-precision probabilistic inference hardware. It automatically chooses an appropriate energy-efficient representation based on worst-case error-bounds and hardware energy-models. It generates custom hardware for the resulting inference network exploiting parallelism, pipelining and low-precision operation. The framework is validated on several embedded-sensing benchmarks.
翻訳日:2021-03-03 23:19:12 公開日:2021-02-27
# (参考訳) 強化学習を用いた乱流時間依存流れにおけるポイント・ツー・ポイントナビゲーションの最適制御 [全文訳有]

Optimal control of point-to-point navigation in turbulent time-dependent flows using Reinforcement Learning ( http://arxiv.org/abs/2103.00329v1 )

ライセンス: CC BY 4.0
Michele Buzzicotti, Luca Biferale, Fabio Bonaccorso, Patricio Clark di Leoni and Kristian Gustavsson(参考訳) そこで本研究では, 複雑な流体中の2点間の移動時間を最小化する経路を求めるために, 問題に関する理論的, 数値的な結果を示す。 決定論的最適ナビゲーション(ON)制御と強化学習(RL)アルゴリズムによる確率的ポリシーを対比する。 本稿では、Actor-Critic RLアルゴリズムが時間非依存またはカオス的に進化するフロー構成の存在下で準最適解を見つけることができることを示す。 本アプリケーションでは,ナビゲーションプロセスの典型的な期間内で不安定な動作が発達するので,実際は役に立たない。 まず,一定の推進速度を用いて乱流の航法を探索する。 離散位相空間に基づいて、目標に到達するのに要する時間を最小化する目的で推進方向を調整する。 さらに,エンジンの電源オフにより追加制御が可能となる場合について検討する。 基礎となる流れのアドベクションを利用することで、ターゲットのエネルギー消費を減らすことができる。 この場合、総ナビゲーション時間とエンジンがオフになる総時間との間の線形組み合わせを最適化する。 私たちのアプローチは、不完全な環境予測下でのナビゲーションや移動船のための異なるモデルなど、他のセットアップに一般化することができます。

We present theoretical and numerical results concerning the problem to find the path that minimizes the time to navigate between two given points in a complex fluid under realistic navigation constraints. We contrast deterministic Optimal Navigation (ON) control with stochastic policies obtained by Reinforcement Learning (RL) algorithms. We show that Actor-Critic RL algorithms are able to find quasi-optimal solutions in the presence of either time-independent or chaotically evolving flow configurations. For our application, ON solutions develop unstable behavior within the typical duration of the navigation process, and are therefore not useful in practice. We first explore navigation of turbulent flow using a constant propulsion speed. Based on a discretized phase-space, the propulsion direction is adjusted with the aim to minimize the time spent to reach the target. Further, we explore a case where additional control is obtained by allowing the engine to power off. Exploiting advection of the underlying flow, allows the target to be reached with less energy consumption. In this case, we optimize a linear combination between the total navigation time and the total time the engine is switched off. Our approach can be generalized to other setups, for example, navigation under imperfect environmental forecast or with different models for the moving vessel.
翻訳日:2021-03-03 23:07:39 公開日:2021-02-27
# (参考訳) 自動車用マイクロコントローラに自動マッピングされたニューラルネットワークの特性評価 [全文訳有]

Characterization of Neural Networks Automatically Mapped on Automotive-grade Microcontrollers ( http://arxiv.org/abs/2103.00201v1 )

ライセンス: CC BY-SA 4.0
Giulia Crocioni, Giambattista Gruosso, Danilo Pau, Davide Denaro, Luigi Zambrano, Giuseppe di Giore(参考訳) 今日では、ニューラルネットワークは、いくつかの物理システムの振る舞いや操作を決定できる強力なディープラーニングアルゴリズムの実現に対する大きな期待を表している。 特にニューラルネットワークが一般的に一般化するために必要なデータ量に関連する場合、モデル、トレーニング、および実行に必要な計算リソースは大きい。 最新のtinyml技術により、組み込みシステムに事前訓練されたモデルを統合でき、エッジでのコンピューティングをより速く、より安く、より安全にすることができる。 これらの技術は、消費者や産業の世界から生まれたものだが、自動車産業など多くの分野から大きな恩恵を受けることができる。 本稿では,自動車用マイクロコントローラ群にニューラルネットワークモデルを実装するための枠組みを提案し,その効率を,制御エリアネットワークバスの侵入検出と,電気自動車で広く使用されるリチウムイオン電池の残留容量推定という2つのケーススタディに応用した。

Nowadays, Neural Networks represent a major expectation for the realization of powerful Deep Learning algorithms, which can determine several physical systems' behaviors and operations. Computational resources required for model, training, and running are large, especially when related to the amount of data that Neural Networks typically need to generalize. The latest TinyML technologies allow integrating pre-trained models on embedded systems, allowing making computing at the edge faster, cheaper, and safer. Although these technologies originated in the consumer and industrial worlds, many sectors can greatly benefit from them, such as the automotive industry. In this paper, we present a framework for implementing Neural Network-based models on a family of automotive Microcontrollers, showing their efficiency in two case studies applied to vehicles: intrusion detection on the Controller Area Network bus and residual capacity estimation in Lithium-Ion batteries, widely used in Electric Vehicles.
翻訳日:2021-03-03 18:37:42 公開日:2021-02-27
# スケーラブルな因果転送学習

Scalable Causal Transfer Learning ( http://arxiv.org/abs/2103.00139v1 )

ライセンス: Link先を確認
Mohammad Ali Javidian, Om Pandey, Pooyan Jamshidi(参考訳) トランスファーラーニングにおける最も重要な問題の1つはドメイン適応のタスクであり、1つ以上のソースドメインで訓練されたアルゴリズムを異なる(しかし関連する)ターゲットドメインに適用することである。 本稿では,共変量シフトの存在下でのドメイン適応について論じる。 この問題を解決するための既存の因果推論方法の主な制限はスケーラビリティである。 この難しさを克服するため,我々はsctlを提案する。これは探索を回避し,マルコフ包括的発見に基づくソース領域とターゲット領域間の不変因果特徴を同定するアルゴリズムである。 SCTLは、因果構造、介入の種類、または介入対象に関する事前の知識を必要としない。 SCTLに関連する本質的な局所性は、ローカル因果関係の発見が計算独立テストの力を高め、ドメイン適応のタスクを計算可能にするため、SCTLを事実上拡張可能かつ堅牢にします。 低次元および高次元設定における合成データセットと実データを用いた領域適応のためのSCTLのスケーラビリティとロバスト性を示す。

One of the most important problems in transfer learning is the task of domain adaptation, where the goal is to apply an algorithm trained in one or more source domains to a different (but related) target domain. This paper deals with domain adaptation in the presence of covariate shift while there exist invariances across domains. A main limitation of existing causal inference methods for solving this problem is scalability. To overcome this difficulty, we propose SCTL, an algorithm that avoids an exhaustive search and identifies invariant causal features across the source and target domains based on Markov blanket discovery. SCTL does not require to have prior knowledge of the causal structure, the type of interventions, or the intervention targets. There is an intrinsic locality associated with SCTL that makes SCTL practically scalable and robust because local causal discovery increases the power of computational independence tests and makes the task of domain adaptation computationally tractable. We show the scalability and robustness of SCTL for domain adaptation using synthetic and real data sets in low-dimensional and high-dimensional settings.
翻訳日:2021-03-03 17:34:39 公開日:2021-02-27
# ウォーク2マップ:屋内歩行軌道からフロアプランを抽出する

Walk2Map: Extracting Floor Plans from Indoor Walk Trajectories ( http://arxiv.org/abs/2103.00262v1 )

ライセンス: Link先を確認
Claudio Mura, Renato Pajarola, Konrad Schindler, Niloy Mitra(参考訳) 近年、室内空間の効率的な管理のための新しいデジタル製品が急増し、緊急管理、仮想プロパティーショーケース、インテリアデザインなどの重要な応用が行われている。 これらの製品は、アーキテクチャ要素と非永続要素の両方に関する情報を含む、考慮された環境の正確な3Dモデルに依存します。 これらのモデルは、RGB-D画像や3Dポイントクラウドなどの測定データから作成されなければならない。 これにより、3Dモデルの作成速度が大幅に制限され、屋内空間管理のための多くのデジタルサービスの採用が妨げられます。 部屋の中を歩く人の軌跡からのみフロアプランを生成するデータ駆動アプローチであるwalk2mapを提案することで,このようなデータ集約的な手順の代替案を提供する。 データ駆動慣性オドメトリーの最近の進歩により、そのような最小限の入力データは、コンシューマレベルのスマートフォンのIMU読影データから得ることができ、現実世界の屋内空間の無力でスケーラブルなマッピングを可能にする。 本研究は,室内歩行軌跡とフロアプランで表される情報(空間空間のフットプリント,ポータル,家具)との関係を学習することに基づく。 画像ベースのEncoder-DecoderとGraph Convolutional Networkの2つのタスクに対して,エリア関連(内部フットプリント,家具)と壁関連(室内)情報をそれぞれ分離し,それぞれ異なるニューラルネットワークを使用する。 我々は,スキャンした3次元屋内モデルを用いてネットワークをトレーニングし,推論時に室内歩行軌跡にカスケード方式で適用する。 シミュレーションと実世界の軌跡を用いて定性的かつ定量的な評価を行い,画像間翻訳のベースライン法と比較した。 実験は我々のアプローチの実現性を確認する。

Recent years have seen a proliferation of new digital products for the efficient management of indoor spaces, with important applications like emergency management, virtual property showcasing and interior design. These products rely on accurate 3D models of the environments considered, including information on both architectural and non-permanent elements. These models must be created from measured data such as RGB-D images or 3D point clouds, whose capture and consolidation involves lengthy data workflows. This strongly limits the rate at which 3D models can be produced, preventing the adoption of many digital services for indoor space management. We provide an alternative to such data-intensive procedures by presenting Walk2Map, a data-driven approach to generate floor plans only from trajectories of a person walking inside the rooms. Thanks to recent advances in data-driven inertial odometry, such minimalistic input data can be acquired from the IMU readings of consumer-level smartphones, which allows for an effortless and scalable mapping of real-world indoor spaces. Our work is based on learning the latent relation between an indoor walk trajectory and the information represented in a floor plan: interior space footprint, portals, and furniture. We distinguish between recovering area-related (interior footprint, furniture) and wall-related (doors) information and use two different neural architectures for the two tasks: an image-based Encoder-Decoder and a Graph Convolutional Network, respectively. We train our networks using scanned 3D indoor models and apply them in a cascaded fashion on an indoor walk trajectory at inference time. We perform a qualitative and quantitative evaluation using both simulated and measured, real-world trajectories, and compare against a baseline method for image-to-image translation. The experiments confirm the feasibility of our approach.
翻訳日:2021-03-03 17:32:39 公開日:2021-02-27
# サブサンプルカラー空間におけるエンド・ツー・エンド画像・ビデオ符号化のためのトランスフォーメーションネットワークアーキテクチャ

Transform Network Architectures for Deep Learning based End-to-End Image/Video Coding in Subsampled Color Spaces ( http://arxiv.org/abs/2103.01760v1 )

ライセンス: Link先を確認
Hilmi E. Egilmez, Ankitesh K. Singh, Muhammed Coban, Marta Karczewicz, Yinhao Zhu, Yang Yang, Amir Said, Taco S. Cohen(参考訳) 既存のディープラーニングベースのエンドツーエンド画像/ビデオ符号化(DLEC)アーキテクチャのほとんどは、非サブサンプルRGBカラーフォーマット用に設計されている。 しかし、優れたコーディング性能を達成するために、高性能ビデオ符号化(HEVC/H.265)や汎用ビデオ符号化(VVC/H.266)などの最先端のブロックベースの圧縮標準は、主にYUV 4:2:0フォーマット用に設計されており、UおよびVコンポーネントは人間の視覚システムを考慮してサブサンプリングされる。 本論文では,YUV 4:2:0フォーマットをサポートするDLEC設計について,HEVCとVVC標準の主なプロファイルと比較し,共通評価フレームワークを用いて検討する。 さらに,YUV 4:2:0データの符号化効率を向上させるために,新しいトランスフォーメーションネットワークアーキテクチャを提案する。 YUV 4:2:0データセットの実験結果によると、提案されたアーキテクチャは、RGBフォーマット用に設計された既存のアーキテクチャのナイーブ拡張を大幅に上回り、HEVCのフレーム内コーディングよりも約10%の平均BDレート改善を達成している。

Most of the existing deep learning based end-to-end image/video coding (DLEC) architectures are designed for non-subsampled RGB color format. However, in order to achieve a superior coding performance, many state-of-the-art block-based compression standards such as High Efficiency Video Coding (HEVC/H.265) and Versatile Video Coding (VVC/H.266) are designed primarily for YUV 4:2:0 format, where U and V components are subsampled by considering the human visual system. This paper investigates various DLEC designs to support YUV 4:2:0 format by comparing their performance against the main profiles of HEVC and VVC standards under a common evaluation framework. Moreover, a new transform network architecture is proposed to improve the efficiency of coding YUV 4:2:0 data. The experimental results on YUV 4:2:0 datasets show that the proposed architecture significantly outperforms naive extensions of existing architectures designed for RGB format and achieves about 10% average BD-rate improvement over the intra-frame coding in HEVC.
翻訳日:2021-03-03 17:29:39 公開日:2021-02-27
# 変圧器の変圧器

Transformer in Transformer ( http://arxiv.org/abs/2103.00112v1 )

ライセンス: Link先を確認
Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, Yunhe Wang(参考訳) Transformerは、もともとNLPタスクに適用される自己保持ベースのニューラルネットワークの一種です。 近年,コンピュータビジョン問題を解決するために純粋トランスフォーマーモデルが提案されている。 これらの視覚トランスフォーマーは通常、イメージをパッチのシーケンスと見なすが、各パッチの内部構造情報は無視する。 本稿では、パッチレベルとピクセルレベルの両方の表現をモデル化する新しいTransformer-iN-Trans former(TNT)モデルを提案する。 各TNTブロックにおいて、パッチ埋め込みの処理に外変圧器ブロックを使用し、内変圧器ブロックは画素埋め込みから局所特徴を抽出する。 ピクセルレベルの機能は、線形変換層によってパッチ埋め込みの空間に投影され、パッチに追加されます。 TNTブロックを積み重ねることで、画像認識のためのTNTモデルを構築する。 ImageNetベンチマークとダウンストリームタスクの実験は、提案したTNTアーキテクチャの優位性と効率性を示している。 例えば、われわれのTNTはImageNetで811.3\%$top-1の精度を達成しており、同様の計算コストでDeiTよりも1.5\%$高い。 コードはhttps://github.com/h uawei-noah/noah-rese arch/tree/master/TNT で入手できる。

Transformer is a type of self-attention-based neural networks originally applied for NLP tasks. Recently, pure transformer-based models are proposed to solve computer vision problems. These visual transformers usually view an image as a sequence of patches while they ignore the intrinsic structure information inside each patch. In this paper, we propose a novel Transformer-iN-Trans former (TNT) model for modeling both patch-level and pixel-level representation. In each TNT block, an outer transformer block is utilized to process patch embeddings, and an inner transformer block extracts local features from pixel embeddings. The pixel-level feature is projected to the space of patch embedding by a linear transformation layer and then added into the patch. By stacking the TNT blocks, we build the TNT model for image recognition. Experiments on ImageNet benchmark and downstream tasks demonstrate the superiority and efficiency of the proposed TNT architecture. For example, our TNT achieves $81.3\%$ top-1 accuracy on ImageNet which is $1.5\%$ higher than that of DeiT with similar computational cost. The code will be available at https://github.com/h uawei-noah/noah-rese arch/tree/master/TNT .
翻訳日:2021-03-03 17:27:52 公開日:2021-02-27
# SUM: セマンティックな都市メッシュのベンチマークデータセット

SUM: A Benchmark Dataset of Semantic Urban Meshes ( http://arxiv.org/abs/2103.00355v1 )

ライセンス: Link先を確認
Weixiao Gao, Liangliang Nan, Bas Boom, Hugo Ledoux(参考訳) データ取得技術の最近の進歩により、3Dテクスチャメッシュを迅速に収集できます。 これらは都市環境の理解と分析に役立ち、その結果、空間分析や都市計画といったいくつかの応用に役立ちます。 ディープラーニング手法によるテクスチャメッシュのセマンティックセグメンテーションは、この理解を高めることができるが、多くのラベル付きデータを必要とする。 本稿では、意味的都市メッシュの新しいベンチマークデータセット、新しい半自動アノテーションフレームワーク、および3Dメッシュのためのオープンソースアノテーションツールを紹介します。 特に当社のデータセットはヘルシンキ(フィンランド)の約4km2を6つのクラスでカバーしており、最初のセグメンテーションとインタラクティブなリファインメントを含むアノテーションフレームワークを使用して、約600時間のラベリング作業を削減できると見積もっています。 さらに,アノテートされたデータセット上で,いくつかの代表的な3次元意味セグメンテーション手法の性能を比較する。 その結果,初期セグメンテーションは他の手法よりも優れており,他の深層学習法に比べて66.2%のmiouと93.0%の精度が得られた。 また,KPConvは33%以上(約1.0km2)を必要とするのに対し,入力トレーニングデータの効果も評価し,その効果は7%程度(約0.23km2)で十分であることを示した。

Recent developments in data acquisition technology allow us to collect 3D texture meshes quickly. Those can help us understand and analyse the urban environment, and as a consequence are useful for several applications like spatial analysis and urban planning. Semantic segmentation of texture meshes through deep learning methods can enhance this understanding, but it requires a lot of labelled data. This paper introduces a new benchmark dataset of semantic urban meshes, a novel semi-automatic annotation framework, and an open-source annotation tool for 3D meshes. In particular, our dataset covers about 4 km2 in Helsinki (Finland), with six classes, and we estimate that we save about 600 hours of labelling work using our annotation framework, which includes initial segmentation and interactive refinement. Furthermore, we compare the performance of several representative 3D semantic segmentation methods on our annotated dataset. The results show our initial segmentation outperforms other methods and achieves an overall accuracy of 93.0% and mIoU of 66.2% with less training time compared to other deep learning methods. We also evaluate the effect of the input training data, which shows that our method only requires about 7% (which covers about 0.23 km2) to approach robust and adequate results whereas KPConv needs at least 33% (which covers about 1.0 km2).
翻訳日:2021-03-03 17:27:35 公開日:2021-02-27
# EDS-MEMBED: 単語感覚のグラフウォークによる分散意味構造強化に基づくマルチセンス埋め込み

EDS-MEMBED: Multi-sense embeddings based on enhanced distributional semantic structures via a graph walk over word senses ( http://arxiv.org/abs/2103.00232v1 )

ライセンス: Link先を確認
Eniafe Festus Ayetiran (1), Petr Sojka (1), V\'it Novotn\'y (1) ((1) Faculty of Informatics Masaryk University)(参考訳) いくつかの言語アプリケーションは、しばしばその処理パイプラインの中核部分として単語の意味論を必要とする。 マルチセンス埋め込み(M-SE)はこの重要な要件のために活用できます。 M-SEは、異なる文脈で使われる言葉の意味の融合を解決するために、それぞれの単語をそれぞれの異なる感覚で表現しようとする。 以前の作品は、通常、大きなコーパス上でモデルを訓練することでこのタスクにアプローチし、語彙的資源によって提供される意味的関係の効果と有用性をしばしば無視する。 しかし、大規模なトレーニングデータであっても、あらゆる可能な単語感覚のカバレッジは依然として問題である。 さらに、膨大な量の分布的意味構造が探索されないため、文脈的意味知識のかなりの割合は学習されない。 本論文では,WordNetのリッチなセマンティクス構造を,単語感覚よりもグラフ理論的な歩行法を用いて,マルチセンス埋め込みの品質を高める。 このアルゴリズムは、元のテキストから豊富なテキストを構成する。 さらに、M-SEに対する新しい分布意味類似度尺度を前者から導出する。 これらの尺度を実験の単語感覚曖昧化(WSD)の側面に適応させる。 WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告し、分散意味構造を強化する方法がベースラインの埋め込み品質を改善することを示した。 小さなトレーニングデータにもかかわらず、いくつかのデータセットで最先端のパフォーマンスを達成する。

Several language applications often require word semantics as a core part of their processing pipeline, either as precise meaning inference or semantic similarity. Multi-sense embeddings (M-SE) can be exploited for this important requirement. M-SE seeks to represent each word by their distinct senses in order to resolve the conflation of meanings of words as used in different contexts. Previous works usually approach this task by training a model on a large corpus and often ignore the effect and usefulness of the semantic relations offered by lexical resources. However, even with large training data, coverage of all possible word senses is still an issue. In addition, a considerable percentage of contextual semantic knowledge are never learned because a huge amount of possible distributional semantic structures are never explored. In this paper, we leverage the rich semantic structures in WordNet using a graph-theoretic walk technique over word senses to enhance the quality of multi-sense embeddings. This algorithm composes enriched texts from the original texts. Furthermore, we derive new distributional semantic similarity measures for M-SE from prior ones. We adapt these measures to word sense disambiguation (WSD) aspect of our experiment. We report evaluation results on 11 benchmark datasets involving WSD and Word Similarity tasks and show that our method for enhancing distributional semantic structures improves embeddings quality on the baselines. Despite the small training data, it achieves state-of-the-art performance on some of the datasets.
翻訳日:2021-03-03 17:26:23 公開日:2021-02-27
# 簡易データ拡張による予測モデルへの因果グラフ事前知識の導入

Incorporating Causal Graphical Prior Knowledge into Predictive Modeling via Simple Data Augmentation ( http://arxiv.org/abs/2103.00136v1 )

ライセンス: Link先を確認
Takeshi Teshima and Masashi Sugiyama(参考訳) 因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。 CGが利用可能である場合、例えば、ドメイン知識から、データ分散に保持すべき条件付き独立性(CI)関係を推論することができる。 しかし、この知識を予測モデルに組み込む方法は簡単ではない。 本研究では,教師あり機械学習のためのCGで符号化されたCIの事前知識を活用できるモデルに依存しないデータ拡張手法を提案する。 提案手法は,予測者仮説クラスの明らかな複雑性を低減し,過剰フィッティングを抑制していることを示す過大なリスクバウンドを提供することにより,理論的に正当化される。 ドメインの専門家が提供したCGを用いた実世界のデータを用いて,提案手法が予測精度,特に小データ体制において有効であることを実験的に示す。

Causal graphs (CGs) are compact representations of the knowledge of the data generating processes behind the data distributions. When a CG is available, e.g., from the domain knowledge, we can infer the conditional independence (CI) relations that should hold in the data distribution. However, it is not straightforward how to incorporate this knowledge into predictive modeling. In this work, we propose a model-agnostic data augmentation method that allows us to exploit the prior knowledge of the CI encoded in a CG for supervised machine learning. We theoretically justify the proposed method by providing an excess risk bound indicating that the proposed method suppresses overfitting by reducing the apparent complexity of the predictor hypothesis class. Using real-world data with CGs provided by domain experts, we experimentally show that the proposed method is effective in improving the prediction accuracy, especially in the small-data regime.
翻訳日:2021-03-03 17:19:42 公開日:2021-02-27
# ベイズニューラルネットワークの変分ラプラス

Variational Laplace for Bayesian neural networks ( http://arxiv.org/abs/2103.00222v1 )

ライセンス: Link先を確認
Ali Unlu, Laurence Aitchison(参考訳) ニューラルネットワーク重みの確率的サンプリングを必要とせずに、ELBOを推定する可能性の曲率の局所近似を利用するベイズニューラルネットワーク(BNNs)の変動ラプレースを開発している。 変分ラプラスはMAP推定よりも画像分類タスクに優れており、同じ平均場ガウス近似後部を用いても確率的サンプリングによる標準変分ラプラスよりもはるかに優れている。 Variational Laplaceの目標は、(本質的には)ログの類似性、および重量減少、および平方勾配正規化であるため、評価するのが簡単です。 最後に、分散パラメータが収束する前に停止するリスクがあるため、標準VIのベンチマークに必要な注意点を強調します。 分散パラメータの学習率を増加させることで早期停止を回避できることを示す。

We develop variational Laplace for Bayesian neural networks (BNNs) which exploits a local approximation of the curvature of the likelihood to estimate the ELBO without the need for stochastic sampling of the neural-network weights. Variational Laplace performs better on image classification tasks than MAP inference and far better than standard variational inference with stochastic sampling despite using the same mean-field Gaussian approximate posterior. The Variational Laplace objective is simple to evaluate, as it is (in essence) the log-likelihood, plus weight-decay, plus a squared-gradient regularizer. Finally, we emphasise care needed in benchmarking standard VI as there is a risk of stopping before the variance parameters have converged. We show that early-stopping can be avoided by increasing the learning rate for the variance parameters.
翻訳日:2021-03-03 17:19:28 公開日:2021-02-27
# Sparse Axis-Aligned Subspaceを用いた高次元ベイズ最適化

High-Dimensional Bayesian Optimization with Sparse Axis-Aligned Subspaces ( http://arxiv.org/abs/2103.00349v1 )

ライセンス: Link先を確認
David Eriksson and Martin Jankowiak(参考訳) ベイズ最適化(BO)はブラックボックスの目的関数を効率的に最適化するための強力なパラダイムである。 高次元BOは、次元の呪いが定義を困難にし、適切なクラスのサーロゲートモデルに対する推論を行うため、特定の課題を提示します。 スパース軸整列部分空間上で定義されるガウス過程は、柔軟性とパーシモニーの間に魅力的な妥協をもたらすと論じる。 提案手法は,ハミルトニアンモンテカルロを推論に用い,未知の目的関数のモデル化に関連するスパース部分空間を迅速に同定し,サンプル効率の高い高次元boを実現する。 既存の高次元BO法と比較した一連の実験では、アルゴリズムであるSparse Axis-Aligned Subspace BO(SAASBO)が問題固有のハイパーパラメータを設定することなく、いくつかの合成および実世界の問題に対して優れた性能を発揮することを実証した。

Bayesian optimization (BO) is a powerful paradigm for efficient optimization of black-box objective functions. High-dimensional BO presents a particular challenge, in part because the curse of dimensionality makes it difficult to define as well as do inference over a suitable class of surrogate models. We argue that Gaussian process surrogate models defined on sparse axis-aligned subspaces offer an attractive compromise between flexibility and parsimony. We demonstrate that our approach, which relies on Hamiltonian Monte Carlo for inference, can rapidly identify sparse subspaces relevant to modeling the unknown objective function, enabling sample-efficient high-dimensional BO. In an extensive suite of experiments comparing to existing methods for high-dimensional BO we demonstrate that our algorithm, Sparse Axis-Aligned Subspace BO (SAASBO), achieves excellent performance on several synthetic and real-world problems without the need to set problem-specific hyperparameters.
翻訳日:2021-03-03 17:19:14 公開日:2021-02-27
# 生成潜在形状モデルにおける幾何学的変形空間の遠ざかる

Disentangling Geometric Deformation Spaces in Generative Latent Shape Models ( http://arxiv.org/abs/2103.00142v1 )

ライセンス: Link先を確認
Tristan Aumentado-Armstrong, Stavros Tsogkas, Sven Dickinson, and Allan Jepson(参考訳) 3Dオブジェクトの完全な表現には、単一のインスタンスの表現からカテゴリ間の形状の変化まで、変形の空間を解釈可能な方法で特徴付ける必要があります。 本研究では,物体形状の空間をリジッド配向,非リジッドポーズ,本質的な形状に分解する3次元形状の幾何学的非絡み合いの先行生成モデルを改善する。 得られたモデルは、古典的なスペクトル幾何学と構造化された潜在表現空間の確率的非絡み合いの組み合わせを用いて、対応、ラベル、あるいは厳密なアライメントなしに生の3次元形状から訓練することができる。 我々の改良には、回転不変性のより洗練された処理や、遅延空間とスペクトル空間を橋渡しするための微分型フローネットワークの利用が含まれる。 潜伏空間の幾何学的構造は、物体の変形空間の解釈可能な特徴づけを与える。 さらに、監視を必要とせず、ポーズ転送やポーズ認識検索などのタスクも可能となる。 生成モデリング,表現学習,非絡み合い性能をモデルとして評価し,前モデルと比較して回転不変性および本質的-外因的因子化品質の改善を示した。

A complete representation of 3D objects requires characterizing the space of deformations in an interpretable manner, from articulations of a single instance to changes in shape across categories. In this work, we improve on a prior generative model of geometric disentanglement for 3D shapes, wherein the space of object geometry is factorized into rigid orientation, non-rigid pose, and intrinsic shape. The resulting model can be trained from raw 3D shapes, without correspondences, labels, or even rigid alignment, using a combination of classical spectral geometry and probabilistic disentanglement of a structured latent representation space. Our improvements include more sophisticated handling of rotational invariance and the use of a diffeomorphic flow network to bridge latent and spectral space. The geometric structuring of the latent space imparts an interpretable characterization of the deformation space of an object. Furthermore, it enables tasks like pose transfer and pose-aware retrieval without requiring supervision. We evaluate our model on its generative modelling, representation learning, and disentanglement performance, showing improved rotation invariance and intrinsic-extrinsic factorization quality over the prior model.
翻訳日:2021-03-03 17:13:55 公開日:2021-02-27
# オンライン行動分析と感情状態同定への応用

Online Behavioral Analysis with Application to Emotion State Identification ( http://arxiv.org/abs/2103.00356v1 )

ライセンス: Link先を確認
Lei Gao, Lin Qi, Ling Guan(参考訳) 本稿では,感情状態同定に応用したオンライン行動分析のための新たな識別モデルを提案する。 提案モデルは、行動データからより識別的特徴を効果的に抽出し、オンラインデータ解析の要件を満たすために最適な投影の方向を効率的に見つけることができ、行動情報のより正確な認識結果を生成することができる。

In this paper, we propose a novel discriminative model for online behavioral analysis with application to emotion state identification. The proposed model is able to extract more discriminative characteristics from behavioral data effectively and find the direction of optimal projection efficiently to satisfy requirements of online data analysis, leading to better utilization of the behavioral information to produce more accurate recognition results.
翻訳日:2021-03-03 17:13:35 公開日:2021-02-27
# BiconNet: サリエントオブジェクト検出のためのエッジ保存型コネクティビティベースアプローチ

BiconNet: An Edge-preserved Connectivity-based Approach for Salient Object Detection ( http://arxiv.org/abs/2103.00334v1 )

ライセンス: Link先を確認
Ziyun Yang, Somayyeh Soltanian-Zadeh, Sina Farsiu(参考訳) サリアントオブジェクト検出(SOD)は,従来の深層学習手法により,画素単位のサリアントモデリングタスクと見なされる。 大きな進歩を遂げていますが、現代のSODモデルの課題は、通常エッジ領域の近くで不完全なセグメンテーションをもたらすピクセル間情報の不十分な利用です。 示すように、ネットワーク出力としてサリエンシマップを使用することは、サブ最適選択です。 そこで本研究では, 相互接続ネットワーク (BiconNet) と呼ばれる接続方式を提案する。この手法は, サリエンシーマップではなくコネクティビティマップをネットワーク出力として用いて, ピクセル間関係とオブジェクトサリエンシーの効果的なモデリングを行う。 さらに、出力接続マップを強化する二国間投票モジュールと、無視可能なパラメータ増加を伴うエッジ固有の特徴を効率的に活用する新しいエッジ特徴強調手法を提案する。 既存のSaliencyベースのSODフレームワークをバックボーンとして使用できることを示す。 5つのベンチマークデータセットの総合的な実験を通して,提案手法が最先端のSOD手法より優れていることを示す。

Salient object detection (SOD) is viewed as a pixel-wise saliency modeling task by traditional deep learning-based methods. Although great progress has been made, a challenge of modern SOD models is the insufficient utilization of inter-pixel information, which usually results in imperfect segmentations near the edge regions. As we demonstrate, using a saliency map as the network output is a sub-optimal choice. To address this problem, we propose a connectivity-based approach named bilateral connectivity network (BiconNet), which uses a connectivity map instead of a saliency map as the network output for effective modeling of inter-pixel relationships and object saliency. Moreover, we propose a bilateral voting module to enhance the output connectivity map and a novel edge feature enhancement method that efficiently utilizes edge-specific features with negligible parameter increase. We show that our model can use any existing saliency-based SOD framework as its backbone. Through comprehensive experiments on five benchmark datasets, we demonstrate that our proposed method outperforms state-of-the-art SOD approaches.
翻訳日:2021-03-03 17:07:40 公開日:2021-02-27
# NEUROSPF:ニューラルネットワークのシンボリック解析のためのツール

NEUROSPF: A tool for the Symbolic Analysis of Neural Networks ( http://arxiv.org/abs/2103.00124v1 )

ライセンス: Link先を確認
Muhammad Usman, Yannic Noller, Corina Pasareanu, Youcheng Sun, Divya Gopinath(参考訳) 本稿では,ニューラルネットワークの記号解析ツールであるNEUROSPFを提案する。 トレーニングされたニューラルネットワークモデルが与えられた後、このツールはアーキテクチャとモデルパラメータを抽出し、シンボリックパスファインダーのシンボル実行ツールを使用して分析可能なJava表現に変換する。 特に、NEUROSPFはモデルのパラメータを解析するための特殊なピアクラスをエンコードし、効率的な解析を可能にします。 NEUROSPFでは、ユーザは入力またはネットワーク内部パラメータをシンボルとして指定する柔軟性があり、プログラム分析およびテストアプローチのソフトウェア工学から機械学習分野への適用を促進する。 例えば、NEUROSPFはカバレッジベースのテストとテスト生成、敵対的な例の発見、ニューラルネットワークの制約ベースの修復に使用できるため、ニューラルネットワークの信頼性とそれらを使用するアプリケーションの信頼性が向上します。 ビデオURL: https://youtu.be/sea l8fG78LI

This paper presents NEUROSPF, a tool for the symbolic analysis of neural networks. Given a trained neural network model, the tool extracts the architecture and model parameters and translates them into a Java representation that is amenable for analysis using the Symbolic PathFinder symbolic execution tool. Notably, NEUROSPF encodes specialized peer classes for parsing the model's parameters, thereby enabling efficient analysis. With NEUROSPF the user has the flexibility to specify either the inputs or the network internal parameters as symbolic, promoting the application of program analysis and testing approaches from software engineering to the field of machine learning. For instance, NEUROSPF can be used for coverage-based testing and test generation, finding adversarial examples and also constraint-based repair of neural networks, thus improving the reliability of neural networks and of the applications that use them. Video URL: https://youtu.be/sea l8fG78LI
翻訳日:2021-03-03 17:05:15 公開日:2021-02-27
# ドメイン知識をディープニューラルネットワークに組み込む

Incorporating Domain Knowledge into Deep Neural Networks ( http://arxiv.org/abs/2103.00180v1 )

ライセンス: Link先を確認
Tirtharaj Dash, Sharad Chitlangia, Aditya Ahuja, Ashwin Srinivasan(参考訳) 本稿では,ニューラルネットワークを用いたモデル構築において,ドメイン知識を含める方法に関する調査を行う。 ドメイン知識の導入は、科学的アシスタントの構築だけでなく、人間と機械の協調によるデータの理解に関わる多くの分野にも特に関心がある。 多くの場合、マシンベースのモデル構築は、十分に正確な形式で符号化されたドメインの人間知識を提供することで、大きな恩恵を受けることができる。 本稿では,これらの知識を論理的および数値的制約としてエンコードする2つの幅広い手法について検討し,これらの手法のサブカテゴリで得られた手法と結果について述べる。

We present a survey of ways in which domain-knowledge has been included when constructing models with neural networks. The inclusion of domain-knowledge is of special interest not just to constructing scientific assistants, but also, many other areas that involve understanding data using human-machine collaboration. In many such instances, machine-based model construction may benefit significantly from being provided with human-knowledge of the domain encoded in a sufficiently precise form. This paper examines two broad approaches to encode such knowledge--as logical and numerical constraints--and describes techniques and results obtained in several sub-categories under each of these approaches.
翻訳日:2021-03-03 17:05:00 公開日:2021-02-27
# DeepBLE:異なるデバイス間でRSSIベースのローカリゼーションを一般化

DeepBLE: Generalizing RSSI-based Localization Across Different Devices ( http://arxiv.org/abs/2103.00252v1 )

ライセンス: Link先を確認
Harsh Agarwal, Navyata Sanghvi, Vivek Roy, Kris Kitani(参考訳) BLEビーコンのセットから受信したRSSIのみを使用して屋内ナビゲーション用の正確なスマートフォンのローカリゼーション(<1メートル誤差)は、RSSI測定の固有のノイズのために挑戦的な問題です。 RSSI測定における大きなばらつきを克服するために,複数のビーコンから測定したRSSIを環境中からローカライズするディープBLEを用いたデータ駆動方式を提案する。 特に、多くのスマートフォンブランド(Apple、Samsungなど)とモデル(iPhone 8、S10など)にまたがって、私たちのアプローチを一般化する能力に焦点を当てます。 この目的のために、我々は15の異なる人気スマートフォンモデルを使用して、単一の建物に47ビーコンから収集された50,000以上のBLEビーコンRSSI測定と正確な2D位置情報アノテーションからなる15時間のスマートフォンデータの大規模なデータセットを収集します。 我々の実験は、スマートフォンモデル(特にブランド)間でRSSI測定のばらつきが非常に高いことを示し、スマートフォンモデルのサブセットのみを使用して教師あり学習を適用することは極めて困難である。 そこで本研究では,本モデルが半教師付き学習手法を用いて未知の電話機に一般化できる,新たな統計的類似度損失(SSL)を提案する。 既知の携帯電話の場合、iPhone XRは0.84メートルの最高の平均距離誤差を達成します。 未知のスマートフォンでは、Huawei Mate20 Proが最大の改善を示し、2.62mから1.63mまでの誤差を38\%以上削減しています。

Accurate smartphone localization (< 1-meter error) for indoor navigation using only RSSI received from a set of BLE beacons remains a challenging problem, due to the inherent noise of RSSI measurements. To overcome the large variance in RSSI measurements, we propose a data-driven approach that uses a deep recurrent network, DeepBLE, to localize the smartphone using RSSI measured from multiple beacons in an environment. In particular, we focus on the ability of our approach to generalize across many smartphone brands (e.g., Apple, Samsung) and models (e.g., iPhone 8, S10). Towards this end, we collect a large-scale dataset of 15 hours of smartphone data, which consists of over 50,000 BLE beacon RSSI measurements collected from 47 beacons in a single building using 15 different popular smartphone models, along with precise 2D location annotations. Our experiments show that there is a very high variability of RSSI measurements across smartphone models (especially across brand), making it very difficult to apply supervised learning using only a subset of smartphone models. To address this challenge, we propose a novel statistic similarity loss (SSL) which enables our model to generalize to unseen phones using a semi-supervised learning approach. For known phones, the iPhone XR achieves the best mean distance error of 0.84 meters. For unknown phones, the Huawei Mate20 Pro shows the greatest improvement, cutting error by over 38\% from 2.62 meters to 1.63 meters error using our semi-supervised adaptation method.
翻訳日:2021-03-03 17:04:49 公開日:2021-02-27
# 航空音響分類のエキスパート決定支援システム

Expert decision support system for aeroacoustic classification ( http://arxiv.org/abs/2103.00255v1 )

ライセンス: Link先を確認
Armin Goudarzi, Carsten SPehr, Steffen Herbold(参考訳) 本稿では,時間不変な空力音源分類のためのエキスパート意思決定支援システムを提案する。 このシステムは、スペクトル情報と空間情報に基づく音響特性の計算、2これらの特性に基づくソースのクラスタリングの2つのステップで構成されています。 2つのスケールドエアフレームの半模型風洞計測の例データをデコンボレードビームフォーミングマップに基づいて評価した。 スペクトルの特性と特性を捉えた様々なエアロ音響特性が提案されている。 これらの特徴は、機械と専門家の両方が解釈できるエアロ音響特性を表す。 これらの特徴は観測されたマッハ数のような絶対フローパラメータとは独立である。 これにより,異なるフロー構成で測定したデータを解析することができる。 空気音響源はこれらの特徴に基づいてクラスター化され、類似または非定型的な挙動を決定する。 与えられたサンプルデータに対して、この方法は、ソースタイプの人間エキスパート分類に対応するソースタイプクラスタを生成する。 これらのクラスターは、分類の信頼性と各クラスタの平均特徴値と組み合わせることで、特定されたソースを分類し、典型的な行動を分析し、測定キャンペーン中にスプリアスソースをリアルタイムで識別するのに役立ちます。

This paper presents an expert decision support system for time-invariant aeroacoustic source classification. The system comprises two steps: first, the calculation of acoustic properties based on spectral and spatial information; and second, the clustering of the sources based on these properties. Example data of two scaled airframe half-model wind tunnel measurements is evaluated based on deconvolved beamforming maps. A variety of aeroacoustic features are proposed that capture the characteristics and properties of the spectra. These features represent aeroacoustic properties that can be interpreted by both the machine and experts. The features are independent of absolute flow parameters such as the observed Mach numbers. This enables the proposed method to analyze data which is measured at different flow configurations. The aeroacoustic sources are clustered based on these features to determine similar or atypical behavior. For the given example data, the method results in source type clusters that correspond to human expert classification of the source types. Combined with a classification confidence and the mean feature values for each cluster, these clusters help aeroacoustic experts in classifying the identified sources and support them in analyzing their typical behavior and identifying spurious sources in-situ during measurement campaigns.
翻訳日:2021-03-03 17:04:21 公開日:2021-02-27
# 低帯域デバイスのための制約付きプライベートフェデレーション学習

Constrained Differentially Private Federated Learning for Low-bandwidth Devices ( http://arxiv.org/abs/2103.00342v1 )

ライセンス: Link先を確認
Raouf Kerkouche and Gergely \'Acs and Claude Castelluccia and Pierre Genev\`es(参考訳) 異なるエンティティがトレーニングデータを共有することなく、共通のモデルを共同で学習したい場合、フェデレーション学習は顕著なアプローチになります。 しかし、連合学習には2つの大きな欠点がある。 まず、集約サーバと関連するエンティティ間の多くのメッセージ交換を必要とするため、帯域幅は極めて非効率です。 この帯域幅と対応する処理コストは、参加者が例えばモバイルデバイスである場合、禁止される可能性がある。 さらに、フェデレートされた学習はデータを共有しないことでプライバシーを向上するが、最近の攻撃はトレーニングデータに関する情報をまだリークしていることを示している。 本稿では,新しいプライバシー保護型連合学習方式を提案する。 提案されたスキームは、差分プライバシーに基づく理論的プライバシー保証を提供します。 さらに,モデル学習フェーズを限られた重みで制限することにより,モデルの精度を最適化する。 最後に、実験的に示すように、標準のフェデレーション学習と比較して上流と下流の帯域幅を最大99.9%削減し、モバイルシステムに実用的である。

Federated learning becomes a prominent approach when different entities want to learn collaboratively a common model without sharing their training data. However, Federated learning has two main drawbacks. First, it is quite bandwidth inefficient as it involves a lot of message exchanges between the aggregating server and the participating entities. This bandwidth and corresponding processing costs could be prohibitive if the participating entities are, for example, mobile devices. Furthermore, although federated learning improves privacy by not sharing data, recent attacks have shown that it still leaks information about the training data. This paper presents a novel privacy-preserving federated learning scheme. The proposed scheme provides theoretical privacy guarantees, as it is based on Differential Privacy. Furthermore, it optimizes the model accuracy by constraining the model learning phase on few selected weights. Finally, as shown experimentally, it reduces the upstream and downstream bandwidth by up to 99.9% compared to standard federated learning, making it practical for mobile systems.
翻訳日:2021-03-03 17:04:05 公開日:2021-02-27
# 異なる解像度の画像に対するスタックアテンテンションモジュールを用いたスーパーレゾリューションベースの変化検出ネットワーク

Super-resolution-bas ed Change Detection Network with Stacked Attention Module for Images with Different Resolutions ( http://arxiv.org/abs/2103.00188v1 )

ライセンス: Link先を確認
Mengxi Liu, Qian Shi, Andrea Marinoni, Da He, Xiaoping Liu, Liangpei Zhang(参考訳) 両時間画像に基づく表面変化の識別を目的とした変化検出は,環境保護と都市計画において重要な役割を担っている。 高分解能(HR)画像は通常、時間とともに連続的に取得できないため、実用的な用途では、異なる解像度のバイテンポラル画像がしばしば採用される。 解像度の異なる画像を用いた従来のサブピクセルベースの変化検出手法は、HR画像が使用される際にかなりの誤差の蓄積につながる可能性がある。 したがって、HR画像に適した、異なる解像度の画像を用いた変化検出のための新しい方法を開発する必要があります。 そこで本研究では,注意モジュールを積み重ねたスーパーリゾリューションベースの変化検出ネットワーク(SRCDNet)を提案する。 SRCDNetは、ジェネレータと判別器を含むスーパーリゾリューション(SR)モジュールを使用して、対比学習を通じてSR画像を直接学習し、両時間画像間のリゾリューション差を克服します。 マルチスケール機能において有用な情報を高めるために、5つの畳み込みブロック注意モジュール(CBAM)からなるスタックド注意モジュールを特徴抽出器に統合する。 最終変更マップは、二時間特徴間の距離マップを算出したメトリック学習に基づく変更決定モジュールによって得られる。 実験結果は, 建物変化検出データセットの最高F1スコア87.40%, 変化検出データセットの92.94%と, すべてのベースラインを上回っただけでなく, 4倍と8倍の解像度差を持つ画像を用いた実験で最高の精度が得られることを実証した。 SRCDNetのソースコードはhttps://github.com/l iumency/SRCDNetで入手できる。

Change detection, which aims to distinguish surface changes based on bi-temporal images, plays a vital role in ecological protection and urban planning. Since high resolution (HR) images cannot be typically acquired continuously over time, bi-temporal images with different resolutions are often adopted for change detection in practical applications. Traditional subpixel-based methods for change detection using images with different resolutions may lead to substantial error accumulation when HR images are employed; this is because of intraclass heterogeneity and interclass similarity. Therefore, it is necessary to develop a novel method for change detection using images with different resolutions, that is more suitable for HR images. To this end, we propose a super-resolution-bas ed change detection network (SRCDNet) with a stacked attention module. The SRCDNet employs a super resolution (SR) module containing a generator and a discriminator to directly learn SR images through adversarial learning and overcome the resolution difference between bi-temporal images. To enhance the useful information in multi-scale features, a stacked attention module consisting of five convolutional block attention modules (CBAMs) is integrated to the feature extractor. The final change map is obtained through a metric learning-based change decision module, wherein a distance map between bi-temporal features is calculated. The experimental results demonstrate the superiority of the proposed method, which not only outperforms all baselines -with the highest F1 scores of 87.40% on the building change detection dataset and 92.94% on the change detection dataset -but also obtains the best accuracies on experiments performed with images having a 4x and 8x resolution difference. The source code of SRCDNet will be available at https://github.com/l iumency/SRCDNet.
翻訳日:2021-03-03 16:56:43 公開日:2021-02-27
# ビルフットプリントセグメンテーションのための適応型深層ネットワーク

A Novel Adaptive Deep Network for Building Footprint Segmentation ( http://arxiv.org/abs/2103.00286v1 )

ライセンス: Link先を確認
A. Ziaee, R. Dehbozorgi, M. D\"oller(参考訳) 多くのリモートセンシングアプリケーションでは、高解像度画像のフットプリントセグメンテーションがますます求められています。 新たなディープラーニングアプローチによって、セグメンテーションネットワークは、オブジェクトの意味セグメンテーションにおいて大きな進歩を遂げた。 しかし、これらの進歩と衛星画像へのアクセスの増加は、衛星画像の正確なオブジェクト境界の生成を必要とする。 本論文では,衛星画像をセグメント化ネットワークを用いて地図化することで得られる不正確な境界の問題を解くために,Pix2Pixを用いた新しいネットワーク手法を提案する。 G2Gと呼ばれる新しいネットワークを定義するために,我々は,第1のジェネレータがローカライズ特徴を抽出し,第2のジェネレータから抽出した境界特徴とマージして,すべての詳細なビルディングエッジを分割する2つのジェネレータを含む。 さらに,提案したネットワークの結果の質を高めるため,提案ネットワークはセグメント化精度において最先端ネットワークよりも高い性能を示し,全ての評価指標に対する大きなマージンを達成している。 この実装はhttps://github.com/A 2Amir/A-Novel-Adapti ve-Deep-Network-for- Building-Footprint-S egmentationで入手できる。

Building footprint segmentations for high resolution images are increasingly demanded for many remote sensing applications. By the emerging deep learning approaches, segmentation networks have made significant advances in the semantic segmentation of objects. However, these advances and the increased access to satellite images require the generation of accurate object boundaries in satellite images. In the current paper, we propose a novel network-based on Pix2Pix methodology to solve the problem of inaccurate boundaries obtained by converting satellite images into maps using segmentation networks in order to segment building footprints. To define the new network named G2G, our framework includes two generators where the first generator extracts localization features in order to merge them with the boundary features extracted from the second generator to segment all detailed building edges. Moreover, different strategies are implemented to enhance the quality of the proposed networks' results, implying that the proposed network outperforms state-of-the-art networks in segmentation accuracy with a large margin for all evaluation metrics. The implementation is available at https://github.com/A 2Amir/A-Novel-Adapti ve-Deep-Network-for- Building-Footprint-S egmentation.
翻訳日:2021-03-03 16:50:39 公開日:2021-02-27
# 臨床ノートによる生涯学習に基づく疾患診断

Lifelong Learning based Disease Diagnosis on Clinical Notes ( http://arxiv.org/abs/2103.00165v1 )

ライセンス: Link先を確認
Zifeng Wang, Yifan Yang, Rui Wen, Xi Chen, Shao-Lun Huang, and Yefeng Zheng(参考訳) 現在の深層学習に基づく疾患診断システムは、通常、壊滅的な忘れ、すなわち、新しいタスクにおける疾患診断モデルを直接微調整すると、通常、以前のタスクでのパフォーマンスが突然崩壊する。 さらに悪いことに、訓練された診断システムは一度デプロイされると修正されますが、十分な病気をカバーするトレーニングデータを収集することは不可能です。 本稿では,医学的実体と文脈を結合し,エピソディクス記憶と統合を組み込んで知識を保ち,学習モデルが逐次的な疾患診断タスクに適応できるよう,注意を払うことを提案する。 さらに,各種病院から収集した臨床記録を含むJarvis-40という新たなベンチマークを作成した。 提案手法は,提案するベンチマークで最先端の性能が得られることを示す。

Current deep learning based disease diagnosis systems usually fall short in catastrophic forgetting, i.e., directly fine-tuning the disease diagnosis model on new tasks usually leads to abrupt decay of performance on previous tasks. What is worse, the trained diagnosis system would be fixed once deployed but collecting training data that covers enough diseases is infeasible, which inspires us to develop a lifelong learning diagnosis system. In this work, we propose to adopt attention to combine medical entities and context, embedding episodic memory and consolidation to retain knowledge, such that the learned model is capable of adapting to sequential disease-diagnosis tasks. Moreover, we establish a new benchmark, named Jarvis-40, which contains clinical notes collected from various hospitals. Our experiments show that the proposed method can achieve state-of-the-art performance on the proposed benchmark.
翻訳日:2021-03-03 16:47:06 公開日:2021-02-27
# Pysarum Polycephalum Intelligent foraging Behaviour and Applications -Short Review

Physarum Polycephalum Intelligent Foraging Behaviour and Applications -- Short Review ( http://arxiv.org/abs/2103.00172v1 )

ライセンス: Link先を確認
Abubakr Awad, Wei Pang, David Lusseau, George M. Coghill(参考訳) Physarum polycephalum(略してPhysarum)は、菌類「Myxomycetes(菌類)」に分類されるプラスミド状のスライム型の例である。 近年ではナカガキ等に次いでフィサラムの研究が盛んになっている。 (2000)は、フィサラムが迷路を通る最も短いルートを見つけることができたことを示す有名な実験を行った。 Physarum)は脳のような中央情報処理ユニットを持っていませんが、最近の研究では、Physarumに触発されたアルゴリズムが幅広いNPハード問題を解決する能力が確認されています。 このレビューは、最近のphysarum polycephalumの生物学的側面、数学的モデル、およびphysarum bio-inspired algorithmsとその応用を概観する。 さらに、競合相手のPhysarumをシミュレートするための新しいモデルも追加し、複数のPhysarumが相互に相互作用し、環境と相互作用することを示した。 競争アルゴリズムにおけるバイオインスパイアされたPhysarumは、Mobile Wireless Sensor NetworksやDiscrete Multi-Objective Optimization problemのような動的環境におけるグラフ最適化問題に対処する上で大きな可能性を秘めている。

Physarum polycephalum (Physarum for short) is an example of plasmodial slime moulds that are classified as a fungus "Myxomycetes". In recent years, research on Physarum has become more popular after Nakagaki et al. (2000) performed his famous experiments showing that Physarum was able to find the shortest route through a maze. Physarum) may not have a central information processing unit like a brain, however, recent research has confirmed the ability of Physarum-inspired algorithms to solve a wide range of NP-hard problems. This review will through light on recent Physarum polycephalum biological aspects, mathematical models, and Physarum bio-inspired algorithms and its applications. Further, we have added presented our new model to simulate Physarum in competition, where multiple Physarum interact with each other and with their environments. The bio-inspired Physarum in competition algorithms proved to have great potentials in dealing with graph-optimisation problems in a dynamic environment as in Mobile Wireless Sensor Networks, and Discrete Multi-Objective Optimisation problems.
翻訳日:2021-03-03 16:46:52 公開日:2021-02-27
# Siamese Labels Auxiliary Network (SiLaNet)

Siamese Labels Auxiliary Network(SiLaNet) ( http://arxiv.org/abs/2103.00200v1 )

ライセンス: Link先を確認
Wenrui Gan, Zhulin Liu, C. L. Philip Chen, Tong Zhang(参考訳) 補助情報は、機械学習の分野でますます注目を集めています。 このような補助情報を最先端の学習プロセスに含める試みは、単にこれらの補助機能をデータレベルや機能レベルに追加することに基づいていることが多い。 本稿では,新しい選択肢とアーキテクチャを備えた新しいトレーニング手法を提案する。 トレーニング段階で補助モジュールとして使用されたSiameseラベル。 テストフェーズでは、補助モジュールは削除されるべきである。 Siameseのラベル モジュールはテスト プロセスの性能を訓練し、改善することを容易にします。 一般的に、主な貢献は、1)Siamese Labelsは、学習効率を向上させるための補助情報として最初に提案され、2)我々は、モデルのトレーニングを支援する新しいアーキテクチャ、Siamese Labels Auxiliary Network(SilaNet)を確立し、3)Siamese Labels Auxiliary Networkは、モデルのパラメータを50%圧縮し、同時に高精度を確保するために適用されます。 比較のために,CIFAR-10とCIFAR100のネットワークを,いくつかの共通モデルを用いてテストした。 提案したSilaNetは精度とロバスト性の両方で優れた効率性を実現している。

Auxiliary information attracts more and more attention in the area of machine learning. Attempts so far to include such auxiliary information in state-of-the-art learning process have often been based on simply appending these auxiliary features to the data level or feature level. In this paper, we intend to propose a novel training method with new options and architectures. Siamese labels, which were used in the training phase as auxiliary modules. While in the testing phase, the auxiliary module should be removed. Siamese label module makes it easier to train and improves the performance in testing process. In general, the main contributions can be summarized as, 1) Siamese Labels are firstly proposed as auxiliary information to improve the learning efficiency; 2) We establish a new architecture, Siamese Labels Auxiliary Network (SilaNet), which is to assist the training of the model; 3) Siamese Labels Auxiliary Network is applied to compress the model parameters by 50% and ensure the high accuracy at the same time. For the purpose of comparison, we tested the network on CIFAR-10 and CIFAR100 using some common models. The proposed SilaNet performs excellent efficiency both on the accuracy and robustness.
翻訳日:2021-03-03 16:46:29 公開日:2021-02-27
# 逐次的サブスペース学習 : 概観

Successive Subspace Learning: An Overview ( http://arxiv.org/abs/2103.00121v1 )

ライセンス: Link先を確認
Mozhdeh Rouhsedaghat, Masoud Monajatipoor, Zohreh Azizi, C.-C. Jay Kuo(参考訳) 継承サブスペース学習(Successive Subspace Learning、SSL)は、データ単位の固有の統計的特性に基づく軽量な教師なし機能学習法である。 image pixels and points in point cloud sets)。 特に小さなデータセットでは、有望な結果を示している。 本稿では,この手法を直感的に説明し,開発の概要を説明し,今後の課題と課題を指摘する。

Successive Subspace Learning (SSL) offers a light-weight unsupervised feature learning method based on inherent statistical properties of data units (e.g. image pixels and points in point cloud sets). It has shown promising results, especially on small datasets. In this paper, we intuitively explain this method, provide an overview of its development, and point out some open questions and challenges for future research.
翻訳日:2021-03-03 16:44:06 公開日:2021-02-27
# PRISM: ターゲットデータサブセットの選択と要約のためのパラメータ化サブモジュール情報対策の統一フレームワーク

PRISM: A Unified Framework of Parameterized Submodular Information Measures for Targeted Data Subset Selection and Summarization ( http://arxiv.org/abs/2103.00128v1 )

ライセンス: Link先を確認
Vishal Kaushal, Suraj Kothawade, Ganesh Ramakrishnan, Jeff Bilmes, Rishabh Iyer(参考訳) データの増加に伴い、特定の特徴を持つより小さいが効果的なサブセットを見つける技術が重要になる。 これを動機に、PRISMはパラメータ化されたサブモジュール情報測定のリッチクラスであり、そのようなターゲットを絞ったサブセットが望まれるアプリケーションで使用できる。 PRISMの有用性を2つのアプリケーションで実証します。 まず、ターゲットセットに一致する未ラベルポイントのサブセットを追加したターゲットサブセット選択(PRISM-TSS)により、与えられた追加のラベリングコストで監督モデルのパフォーマンスを改善するために、PRISMを適用します。 我々は、PRISM-TSSがターゲットデータサブセット選択に対するいくつかの既存のアプローチを一般化し、接続していることを示した。 第2に、PRISMをよりニュアンスなターゲット要約(PRISM-TSUM)に適用し、データ(例えば、画像コレクション、テキスト、ビデオ)をユーザーの意図を増すことなく、より迅速な人的消費のために要約する。 PRISM-TSUMは、クエリ指向、トピック非関連、プライバシ保存、更新要約など、複数のターゲット要約を統一的に処理する。 また, PRISM-TSUMは, 対象の要約に関する過去の研究を一般化し, 統一していることを示す。 画像分類と画像収集要約に関する広範な実験を通じて、PRISM-TSSとPRISM-TSUMの最先端の優位性を実証的に検証しています。

With increasing data, techniques for finding smaller, yet effective subsets with specific characteristics become important. Motivated by this, we present PRISM, a rich class of Parameterized Submodular Information Measures, that can be used in applications where such targeted subsets are desired. We demonstrate the utility of PRISM in two such applications. First, we apply PRISM to improve a supervised model's performance at a given additional labeling cost by targeted subset selection (PRISM-TSS) where a subset of unlabeled points matching a target set are added to the training set. We show that PRISM-TSS generalizes and is connected to several existing approaches to targeted data subset selection. Second, we apply PRISM to a more nuanced targeted summarization (PRISM-TSUM) where data (e.g., image collections, text or videos) is summarized for quicker human consumption with additional user intent. PRISM-TSUM handles multiple flavors of targeted summarization such as query-focused, topic-irrelevant, privacy-preserving and update summarization in a unified way. We show that PRISM-TSUM also generalizes and unifies several existing past work on targeted summarization. Through extensive experiments on image classification and image-collection summarization we empirically verify the superiority of PRISM-TSS and PRISM-TSUM over the state-of-the-art.
翻訳日:2021-03-03 16:44:00 公開日:2021-02-27
# 能率変換器を用いたリモートセンシング画像変化検出法

Efficient Transformer based Method for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2103.00208v1 )

ライセンス: Link先を確認
Hao Chen, Zipeng Qi and Zhenwei Shi(参考訳) 近代的変化検出(CD)は、深い畳み込みの強力な識別能力によって大きな成功を収めた。 しかし、シーン内の物体の複雑さのため、高解像度のリモートセンシングCDは依然として困難である。 同じ意味概念を持つオブジェクトは、異なる時間と異なる空間位置における異なるスペクトル挙動を示す。 グローバルセマンティクスの概念間の相互作用のモデリングは、変化認識に不可欠である。 近年、純粋な畳み込みを用いた変更検出パイプラインは、時空における長距離の概念の関連に苦慮している。 非局所的な自己アテンションアプローチは、画素間の密接な関係をモデル化することで有望な性能を示すが、計算的に非効率である。 本稿では,空間時間領域内のコンテキストを効率的に効果的にモデル化するバイテンポラル画像変換器(BiT)を提案する。 我々の直観は、関心の変化の高レベルな概念はいくつかの視覚的単語、すなわち意味的トークンで表現できるということである。 これを実現するために、ビテンポラル画像をいくつかのトークンに表現し、コンパクトなトークンベースの時空におけるコンテキストのモデル化にトランスフォーマーエンコーダを使用する。 学習されたコンテキストリッチトークンは、変換器デコーダを介して元の機能を精錬するためにピクセル空間にフィードバックされる。 BiTを深い機能差分ベースのCDフレームワークに組み込んでいます。 3つの公開CDデータセットに対する大規模な実験により,提案手法の有効性と有効性を示した。 特に、ビットベースモデルは計算コストとモデルパラメータの3倍のコストで、純粋に畳み込みベースラインを著しく上回っています。 複雑な構造(例えばFPN, UNet)を持たない単純なバックボーン(ResNet18)に基づいて、我々のモデルは、効率と精度の点で最近の2つの注意に基づく方法を含む、最先端のCDメソッドを超越している。 私たちのコードは公開されます。

Modern change detection (CD) has achieved remarkable success by the powerful discriminative ability of deep convolutions. However, high-resolution remote sensing CD remains challenging due to the complexity of objects in the scene. The objects with the same semantic concept show distinct spectral behaviors at different times and different spatial locations. Modeling interactions between global semantic concepts is critical for change recognition. Most recent change detection pipelines using pure convolutions are still struggling to relate long-range concepts in space-time. Non-local self-attention approaches show promising performance via modeling dense relations among pixels, yet are computationally inefficient. In this paper, we propose a bitemporal image transformer (BiT) to efficiently and effectively model contexts within the spatial-temporal domain. Our intuition is that the high-level concepts of the change of interest can be represented by a few visual words, i.e., semantic tokens. To achieve this, we express the bitemporal image into a few tokens, and use a transformer encoder to model contexts in the compact token-based space-time. The learned context-rich tokens are then feedback to the pixel-space for refining the original features via a transformer decoder. We incorporate BiT in a deep feature differencing-based CD framework. Extensive experiments on three public CD datasets demonstrate the effectiveness and efficiency of the proposed method. Notably, our BiT-based model significantly outperforms the purely convolutional baseline using only 3 times lower computational costs and model parameters. Based on a naive backbone (ResNet18) without sophisticated structures (e.g., FPN, UNet), our model surpasses several state-of-the-art CD methods, including better than two recent attention-based methods in terms of efficiency and accuracy. Our code will be made public.
翻訳日:2021-03-03 16:43:37 公開日:2021-02-27
# 悪質なディープフェイク対策:サーベイ、バトルグラウンド、ホライズン

Countering Malicious DeepFakes: Survey, Battleground, and Horizon ( http://arxiv.org/abs/2103.00218v1 )

ライセンス: Link先を確認
Felix Juefei-Xu and Run Wang and Yihao Huang and Qing Guo and Lei Ma and Yang Liu(参考訳) DeepFakeと呼ばれる深い生成的アプローチによる顔の外観の作成と操作は、大きな進歩を遂げ、幅広い良性および悪意のあるアプリケーションを促進しました。 この新しい技術の邪悪な側面は、別の一般的な研究、すなわち本物のものから偽の顔を識別することを目的としたDeepFake検出を提示します。 コミュニティにおけるDeepFake関連の研究の急速な発展に伴い、双方(すなわちDeepFakeの生成と検出)は戦場の関係を形成し、お互いの改善を促進し、DeepFake検出の回避などの新しい方向を刺激している。 それにもかかわらず、関連出版物の急速な増加による最近の調査では、このような戦場の概要と新しい方向性は不明確で無視され、傾向と将来の作品の詳細な理解が制限されています。 このギャップを埋めるために、本論文では、DeepFake生成、DeepFake検出、DeepFake検出の回避に関する研究の包括的な概要と詳細な分析を行い、191以上の研究論文を慎重に調査します。 本稿では,様々なディープフェイク生成方法の分類と,様々なディープフェイク検出方法の分類を行い,さらに,敵(ディープフェイク生成)とディフェンダー(ディープフェイク検出)の詳細な相互作用を持つ両者の戦闘場を紹介する。 戦場は、DeepFake研究の最新の風景を新鮮な視点で捉えることができ、DeepFakeの生成と検出の分野での研究の課題と機会、研究の傾向と方向に対する貴重な分析を提供することができます。 我々はまた、インタラクティブな図(http://www.xujuefei .com/dfsurvey)を精巧に設計し、研究者が人気のあるDeepFakeジェネレータや検出器に対する自身の関心を探求できるようにしました。

The creation and the manipulation of facial appearance via deep generative approaches, known as DeepFake, have achieved significant progress and promoted a wide range of benign and malicious applications. The evil side of this new technique poses another popular study, i.e., DeepFake detection aiming to identify the fake faces from the real ones. With the rapid development of the DeepFake-related studies in the community, both sides (i.e., DeepFake generation and detection) have formed the relationship of the battleground, pushing the improvements of each other and inspiring new directions, e.g., the evasion of DeepFake detection. Nevertheless, the overview of such battleground and the new direction is unclear and neglected by recent surveys due to the rapid increase of related publications, limiting the in-depth understanding of the tendency and future works. To fill this gap, in this paper, we provide a comprehensive overview and detailed analysis of the research work on the topic of DeepFake generation, DeepFake detection as well as evasion of DeepFake detection, with more than 191 research papers carefully surveyed. We present the taxonomy of various DeepFake generation methods and the categorization of various DeepFake detection methods, and more importantly, we showcase the battleground between the two parties with detailed interactions between the adversaries (DeepFake generation) and the defenders (DeepFake detection). The battleground allows fresh perspective into the latest landscape of the DeepFake research and can provide valuable analysis towards the research challenges and opportunities as well as research trends and directions in the field of DeepFake generation and detection. We also elaborately design interactive diagrams (http://www.xujuefei .com/dfsurvey) to allow researchers to explore their own interests on popular DeepFake generators or detectors.
翻訳日:2021-03-03 16:43:11 公開日:2021-02-27
# オブジェクト検出における不確実性認識アンスーパーバイズドメイン適応

Uncertainty-Aware Unsupervised Domain Adaptation in Object Detection ( http://arxiv.org/abs/2103.00236v1 )

ライセンス: Link先を確認
Dayan Guan, Jiaxing Huang, Aoran Xiao, Shijian Lu, Yanpeng Cao(参考訳) 教師なし領域適応オブジェクト検出(unsupervised domain adaptive object detection)は、ラベル付きソースドメインからラベルなしターゲットドメインへの検出器の適用を目的とする。 既存のほとんどの作品は、2段階の戦略をとっており、まず地域提案を生成し、次に関心のあるオブジェクトを検出します。 しかし、敵対的学習は、ドメイン全体のグローバル分布を単に整えるため、適切に整列したサンプルの整列を阻害する可能性がある。 この問題に対処するために,条件付き対数学習を導入した不確実性対応ドメイン適応ネットワーク (UaDAN) を設計し, 適切な整合性と整合性に欠けるサンプルを別々に整合させる。 具体的には、各サンプルのアライメントを評価する不確実性指標を設計し、順応的に整合性および不整合性サンプルの対比学習の強さを調整します。 さらに,画像レベルのアライメントの容易化と,インスタンスレベルのアライメントを段階的に困難にするカリキュラム学習を実現するために,不確実性指標を利用する。 4つの挑戦的なドメイン適応オブジェクト検出データセットに対する広範な実験は、UaDANが最先端の方法と比較して優れたパフォーマンスを達成することを示しています。

Unsupervised domain adaptive object detection aims to adapt detectors from a labelled source domain to an unlabelled target domain. Most existing works take a two-stage strategy that first generates region proposals and then detects objects of interest, where adversarial learning is widely adopted to mitigate the inter-domain discrepancy in both stages. However, adversarial learning may impair the alignment of well-aligned samples as it merely aligns the global distributions across domains. To address this issue, we design an uncertainty-aware domain adaptation network (UaDAN) that introduces conditional adversarial learning to align well-aligned and poorly-aligned samples separately in different manners. Specifically, we design an uncertainty metric that assesses the alignment of each sample and adjusts the strength of adversarial learning for well-aligned and poorly-aligned samples adaptively. In addition, we exploit the uncertainty metric to achieve curriculum learning that first performs easier image-level alignment and then more difficult instance-level alignment progressively. Extensive experiments over four challenging domain adaptive object detection datasets show that UaDAN achieves superior performance as compared with state-of-the-art methods.
翻訳日:2021-03-03 16:42:36 公開日:2021-02-27
# 最大格差競争によるセマンティックセグメンテーション障害の暴露

Exposing Semantic Segmentation Failures via Maximum Discrepancy Competition ( http://arxiv.org/abs/2103.00259v1 )

ライセンス: Link先を確認
Jiebin Yan, Yu Zhong, Yuming Fang, Zhangyang Wang, Kede Ma(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて広く研究されており、毎年多くの方法が提案されている。 セマンティックセグメンテーションにおけるディープラーニングの出現により、既存のベンチマークのパフォーマンスは飽和に近い。 閉じた(そして頻繁に再使用される)テストの優れたパフォーマンスは、制約のないバリエーションを持つオープンな視覚世界に転送するのですか? 本論文では,非常に限られた人的ラベリングの制約の下で,オープンな視覚世界での既存のセマンティックセグメンテーション手法の失敗を露呈することによって,その質問に答える措置を講じる。 モデル改ざんに関するこれまでの研究に触発され、任意に大きい画像セットから始まり、2つのセグメンテーション方法間の差分法(MAD)をMAximizingすることによって、小さな画像セットを自動的にサンプリングします。 選択された画像は、2つの方法のいずれか(または両方)を偽造する最大の可能性を持っている。 また、異なる根本原因に対応する暴露された障害を多様化するために、いくつかの条件を明示的に実施する。 また,MADコンペティションにおいて,障害の露呈が困難であるセグメンテーション法について検討した。 10個のPASCAL VOCセマンティックセグメンテーションアルゴリズムの徹底したMAD診断を行います。 実験結果の詳細な分析により,競合するアルゴリズムの強みと弱みを指摘し,セマンティックセグメンテーションのさらなる発展に向けた潜在的な研究方向を示す。 コードは \url{https://github.com/Q TJiebin/MAD_Segmenta tion} で公開されている。

Semantic segmentation is an extensively studied task in computer vision, with numerous methods proposed every year. Thanks to the advent of deep learning in semantic segmentation, the performance on existing benchmarks is close to saturation. A natural question then arises: Does the superior performance on the closed (and frequently re-used) test sets transfer to the open visual world with unconstrained variations? In this paper, we take steps toward answering the question by exposing failures of existing semantic segmentation methods in the open visual world under the constraint of very limited human labeling effort. Inspired by previous research on model falsification, we start from an arbitrarily large image set, and automatically sample a small image set by MAximizing the Discrepancy (MAD) between two segmentation methods. The selected images have the greatest potential in falsifying either (or both) of the two methods. We also explicitly enforce several conditions to diversify the exposed failures, corresponding to different underlying root causes. A segmentation method, whose failures are more difficult to be exposed in the MAD competition, is considered better. We conduct a thorough MAD diagnosis of ten PASCAL VOC semantic segmentation algorithms. With detailed analysis of experimental results, we point out strengths and weaknesses of the competing algorithms, as well as potential research directions for further advancement in semantic segmentation. The codes are publicly available at \url{https://github.com/Q TJiebin/MAD_Segmenta tion}.
翻訳日:2021-03-03 16:42:13 公開日:2021-02-27
# 保守性指向オフライン強化学習の低減

Reducing Conservativeness Oriented Offline Reinforcement Learning ( http://arxiv.org/abs/2103.00098v1 )

ライセンス: Link先を確認
Hongchang Zhang, Jianzhun Shao, Yuhang Jiang, Shuncheng He, Xiangyang Ji(参考訳) オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。 保守的な戦略に向けて、現在のメソッドは行動方針を正規化したり、バリュー関数の下限を学習したりする。 しかし、エクセルビタント保存は政策の一般化能力を損なう傾向があり、特に混合データセットではその性能が低下する。 本稿では,保守性指向型強化学習の削減手法を提案する。 一方、このポリシーは静的データセットの少数派サンプルにもっと注意を払って、データの不均衡問題に対処するように訓練されている。 一方,提案手法では,従来の手法よりも値関数の上限を狭くし,最適動作の可能性を見いだす。 その結果,提案手法は,与えられたデータセットのスキュー分布に取り組み,期待値関数に近い値関数を導出することができる。 提案手法は,D4RLオフライン強化学習評価タスクにおける最先端の手法と,独自の混合データセットを上回っていることを実証した。

In offline reinforcement learning, a policy learns to maximize cumulative rewards with a fixed collection of data. Towards conservative strategy, current methods choose to regularize the behavior policy or learn a lower bound of the value function. However, exorbitant conservation tends to impair the policy's generalization ability and degrade its performance, especially for the mixed datasets. In this paper, we propose the method of reducing conservativeness oriented reinforcement learning. On the one hand, the policy is trained to pay more attention to the minority samples in the static dataset to address the data imbalance problem. On the other hand, we give a tighter lower bound of value function than previous methods to discover potential optimal actions. Consequently, our proposed method is able to tackle the skewed distribution of the provided dataset and derive a value function closer to the expected value function. Experimental results demonstrate that our proposed method outperforms the state-of-the-art methods in D4RL offline reinforcement learning evaluation tasks and our own designed mixed datasets.
翻訳日:2021-03-03 16:22:43 公開日:2021-02-27
# GRAD-MATCH:効率的な学習のためのグラデーションマッチングベースのデータサブセット選択

GRAD-MATCH: A Gradient Matching Based Data Subset Selection for Efficient Learning ( http://arxiv.org/abs/2103.00123v1 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Durga Sivasubramanian, Baharan Mirzasoleiman, Ganesh Ramakrishnan, Abir De, Rishabh Iyer(参考訳) 大規模なデータセット上での最新の機械学習モデルの成功は、財務および環境コストの高い広範な計算リソースにかかっています。 これを解決する方法の1つは、全データと同等に一般化するサブセットを抽出することである。 本研究では,トレーニングや検証セットの勾配によく一致する部分集合を見つけるための一般フレームワーク GRAD-MATCH を提案する。 このようなサブセットを直交マッチング探索アルゴリズムを用いて効果的に見つける。 提案アルゴリズムの厳密な理論的および収束保証を示し、実世界のデータセットに関する広範な実験を通じて、提案されたフレームワークの有効性を示す。 我々は、GRAD-MATCHが最近のデータ選択アルゴリズムを著しく上回り、精度と効率のトレードオフに関してパレート最適であることを示す。 GRADMATCHのコードは、CORDSツールキットの一部として利用できます。

The great success of modern machine learning models on large datasets is contingent on extensive computational resources with high financial and environmental costs. One way to address this is by extracting subsets that generalize on par with the full data. In this work, we propose a general framework, GRAD-MATCH, which finds subsets that closely match the gradient of the training or validation set. We find such subsets effectively using an orthogonal matching pursuit algorithm. We show rigorous theoretical and convergence guarantees of the proposed algorithm and, through our extensive experiments on real-world datasets, show the effectiveness of our proposed framework. We show that GRAD-MATCH significantly and consistently outperforms several recent data-selection algorithms and is Pareto-optimal with respect to the accuracy-efficiency trade-off. The code of GRADMATCH is available as a part of the CORDS toolkit: https://github.com/d ecile-team/cords.
翻訳日:2021-03-03 16:22:25 公開日:2021-02-27
# カリキュラムスコーリング関数の定義のための統計的措置

Statistical Measures For Defining Curriculum Scoring Function ( http://arxiv.org/abs/2103.00147v1 )

ライセンス: Link先を確認
Vinu Sankar Sadasivan, Anirban Dasgupta(参考訳) カリキュラム学習は、トレーニングの例をある程度の難易度で分類し、徐々に学習者に公開してネットワークパフォーマンスを向上させるトレーニング戦略である。 本研究では,2つの新しいカリキュラム学習アルゴリズムを提案し,複数の実画像データセット上で畳み込みニューラルネットワークとフルコネクテッドニューラルネットワークによる性能向上を実証的に示す。 暗黙的なカリキュラムオーダからの洞察に動機づけられ,実際の画像分類タスクにおけるデータポイントの難易度を評価するために,標準偏差やエントロピー値などの統計的尺度を用いた単純なカリキュラム学習戦略を提案する。 また,動的カリキュラム学習アルゴリズムの性能について提案・検討する。 動的カリキュラムアルゴリズムは,任意のトレーニングステップにおけるネットワークウェイトと最適なウェイトとの間の距離を,最適なウェイトに向けられた勾配でサンプルをゆるやかにサンプリングすることで低減しようとする。 さらに,カリキュラム学習が役に立つ理由をアルゴリズムを用いて議論する。

Curriculum learning is a training strategy that sorts the training examples by some measure of their difficulty and gradually exposes them to the learner to improve the network performance. In this work, we propose two novel curriculum learning algorithms, and empirically show their improvements in performance with convolutional and fully-connected neural networks on multiple real image datasets. Motivated by our insights from implicit curriculum ordering, we introduce a simple curriculum learning strategy that uses statistical measures such as standard deviation and entropy values to score the difficulty of data points for real image classification tasks. We also propose and study the performance of a dynamic curriculum learning algorithm. Our dynamic curriculum algorithm tries to reduce the distance between the network weight and an optimal weight at any training step by greedily sampling examples with gradients that are directed towards the optimal weight. Further, we also use our algorithms to discuss why curriculum learning is helpful.
翻訳日:2021-03-03 16:22:10 公開日:2021-02-27
# Pareto-Frontier-Awar e Neural Architecture Generation for Diverse Budgets

Pareto-Frontier-awar e Neural Architecture Generation for Diverse Budgets ( http://arxiv.org/abs/2103.00219v1 )

ライセンス: Link先を確認
Yong Guo, Yaofo Chen, Yin Zheng, Qi Chen, Peilin Zhao, Jian Chen, Junzhou Huang, Mingkui Tan(参考訳) さまざまなアプリケーション/デバイスによって発生するさまざまな計算予算の下で実現可能で効果的なアーキテクチャを設計することは、実際に深いモデルをデプロイする上で不可欠です。 既存のメソッドは、多くの場合、ターゲットの予算ごとに独立したアーキテクチャ検索を行います。 さらに、繰り返し独立した検索手法は、必然的に異なる検索プロセス間の共通の知識を無視し、検索パフォーマンスを妨げます。 これらの問題に対処するために、モデル推論のみで任意の予算で効率的なアーキテクチャを自動生成する汎用アーキテクチャジェネレータを訓練することを模索する。 そのために、任意の予算を入力として取り、ターゲット予算に最適なアーキテクチャを生成するPareto-Frontier-awar e Neural Architecture Generator(NAG)を提案します。 私たちは、モデル性能と計算コスト(遅延など)よりも、Paretoフロンティア(Paretoの最適アーキテクチャセット)を学習することでNAGを訓練します。 3つのプラットフォーム(モバイル、CPU、GPUなど)における広範な実験は、提案手法が既存のNAS法よりも優れていることを示している。

Designing feasible and effective architectures under diverse computation budgets incurred by different applications/devices is essential for deploying deep models in practice. Existing methods often perform an independent architecture search for each target budget, which is very inefficient yet unnecessary. Moreover, the repeated independent search manner would inevitably ignore the common knowledge among different search processes and hamper the search performance. To address these issues, we seek to train a general architecture generator that automatically produces effective architectures for an arbitrary budget merely via model inference. To this end, we propose a Pareto-Frontier-awar e Neural Architecture Generator (NAG) which takes an arbitrary budget as input and produces the Pareto optimal architecture for the target budget. We train NAG by learning the Pareto frontier (i.e., the set of Pareto optimal architectures) over model performance and computational cost (e.g., latency). Extensive experiments on three platforms (i.e., mobile, CPU, and GPU) show the superiority of the proposed method over existing NAS methods.
翻訳日:2021-03-03 16:21:54 公開日:2021-02-27
# ニューロン被覆誘導ドメイン一般化

Neuron Coverage-Guided Domain Generalization ( http://arxiv.org/abs/2103.00229v1 )

ライセンス: Link先を確認
Chris Xing Tian, Haoliang Li, Xiaofei Xie, Yang Liu, Shiqi Wang(参考訳) 本稿では、ドメイン知識が利用できないドメイン一般化タスクに注目し、さらに悪いことに、1つのドメインからのサンプルのみをトレーニング中に利用することができる。 私たちの動機は、DNNのニューロンカバレッジの最大化がDNNの潜在的な欠陥(すなわち、誤分類)を探索するのに役立つことを示したディープニューラルネットワーク(DNN)テストの最近の進歩に由来します。 具体的には、DNNをプログラムとして扱い、各ニューロンをコードの機能点として扱うことにより、ネットワークトレーニングにおいて、DNNのニューロンカバレッジを元のサンプルと拡張サンプルとの勾配類似性規則化で最大化することにより、一般化能力の向上を目指す。 したがって、DNNの決定動作は最適化され、目に見えないサンプルに対して有害な任意のニューロンを避け、非分布サンプルにより良い一般化が可能な訓練されたDNNへと導かれる。 単一領域と複数領域の両方の設定に基づくドメイン一般化タスクの広範な研究は、最先端のベースライン手法と比較して提案手法の有効性を実証している。 また,ネットワーク分割に基づく可視化による解析も行う。 結果は、私たちのアプローチの合理性と有効性に関する有用な証拠をさらに提供します。

This paper focuses on the domain generalization task where domain knowledge is unavailable, and even worse, only samples from a single domain can be utilized during training. Our motivation originates from the recent progresses in deep neural network (DNN) testing, which has shown that maximizing neuron coverage of DNN can help to explore possible defects of DNN (i.e., misclassification). More specifically, by treating the DNN as a program and each neuron as a functional point of the code, during the network training we aim to improve the generalization capability by maximizing the neuron coverage of DNN with the gradient similarity regularization between the original and augmented samples. As such, the decision behavior of the DNN is optimized, avoiding the arbitrary neurons that are deleterious for the unseen samples, and leading to the trained DNN that can be better generalized to out-of-distribution samples. Extensive studies on various domain generalization tasks based on both single and multiple domain(s) setting demonstrate the effectiveness of our proposed approach compared with state-of-the-art baseline methods. We also analyze our method by conducting visualization based on network dissection. The results further provide useful evidence on the rationality and effectiveness of our approach.
翻訳日:2021-03-03 16:21:32 公開日:2021-02-27
# ロバストネスの探索:ノイズ分類タスクにおける損失学習

Searching for Robustness: Loss Learning for Noisy Classification Tasks ( http://arxiv.org/abs/2103.00243v1 )

ライセンス: Link先を確認
Boyan Gao, Henry Gouk, Timothy M. Hospedales(参考訳) トレーニングデータにおけるノイズのラベル付けに頑健なホワイトボックス分類損失関数を自動構築する「学習への学習」手法を提案する。 テイラー多項式を用いて柔軟な損失関数群をパラメータ化し、この空間におけるノイズ燃焼損失の探索に進化戦略を適用します。 新しいタスクに適用可能な再利用可能な損失関数を学ぶために、当社のフィットネス機能は、さまざまなトレーニングデータセットとアーキテクチャの組み合わせでパフォーマンスを集約的に評価します。 その結果、ホワイトボックスの損失は、特別なトレーニング手順やネットワークアーキテクチャを必要とせずに、さまざまな下流タスクで効果的なノイズロバスト学習を可能にするシンプルで高速な「プラグアンドプレイ」モジュールを提供します。 提案手法の有効性は, 合成ノイズと実ラベルノイズを併用した各種データセットで実証され, 先行研究と良好に比較できる。

We present a "learning to learn" approach for automatically constructing white-box classification loss functions that are robust to label noise in the training data. We parameterize a flexible family of loss functions using Taylor polynomials, and apply evolutionary strategies to search for noise-robust losses in this space. To learn re-usable loss functions that can apply to new tasks, our fitness function scores their performance in aggregate across a range of training dataset and architecture combinations. The resulting white-box loss provides a simple and fast "plug-and-play" module that enables effective noise-robust learning in diverse downstream tasks, without requiring a special training procedure or network architecture. The efficacy of our method is demonstrated on a variety of datasets with both synthetic and real label noise, where we compare favourably to previous work.
翻訳日:2021-03-03 16:21:14 公開日:2021-02-27
# 深層学習のためのニューラルネットワーク制御のスプラインパラメータ化

Spline parameterization of neural network controls for deep learning ( http://arxiv.org/abs/2103.00301v1 )

ライセンス: Link先を確認
Stefanie G\"unther, Will Pazner, Dongping Qi(参考訳) 本論文では,深層学習キャストを最適制御問題として連続的に解釈することにより,Bスプライン基底関数を用いたニューラルネットワーク制御のパラメータ化のメリットを検討する。 離散化ODE-ネットワークの各層にトレーニング可能な重みをセットする代わりに、ニューラルネットワークのトレーニング可能なパラメータである係数が一定数のB-スプライン基底関数を選択する。 ニューラルネットワークの層からトレーニング可能なパラメータを分離することで、最適化学習問題から分離したネットワーク伝搬の精度を調査し、適応することができる。 スプラインベースのニューラルネットワークは、ネットワークの伝搬の安定性と精度の向上により、ハイパーパラメータに対する学習問題の堅牢性を高めることを数値的に示す。 さらに、層重みよりもB-スプライン係数のトレーニングにより、トレーニング可能なパラメータの数を直接削減することができる。

Based on the continuous interpretation of deep learning cast as an optimal control problem, this paper investigates the benefits of employing B-spline basis functions to parameterize neural network controls across the layers. Rather than equipping each layer of a discretized ODE-network with a set of trainable weights, we choose a fixed number of B-spline basis functions whose coefficients are the trainable parameters of the neural network. Decoupling the trainable parameters from the layers of the neural network enables us to investigate and adapt the accuracy of the network propagation separated from the optimization learning problem. We numerically show that the spline-based neural network increases robustness of the learning problem towards hyperparameters due to increased stability and accuracy of the network propagation. Further, training on B-spline coefficients rather than layer weights directly enables a reduction in the number of trainable parameters.
翻訳日:2021-03-03 16:20:57 公開日:2021-02-27
# 発話誤りの自動検出のための超音波舌画像の探索

Exploiting ultrasound tongue imaging for the automatic detection of speech articulation errors ( http://arxiv.org/abs/2103.00324v1 )

ライセンス: Link先を確認
Manuel Sam Ribeiro, Joanne Cleland, Aciel Eshky, Korin Richmond, Steve Renals(参考訳) 音声障害は小児期において一般的なコミュニケーション障害である。 発話障害は子供の生活や発達に悪影響を及ぼす可能性があるため、臨床介入はしばしば推奨される。 診断と治療を助けるために、臨床医は音声の明瞭度を分析するために、スペクトログラムや超音波舌イメージングなどの計測方法を使用する。 これらの方法による分析は臨床医にとって手間がかかるため、自動化への関心が高まっている。 本論文では,音声の発話誤りの自動検出における超音波舌画像の寄与について検討する。 我々のシステムは、通常、幼児音声の発達と、音声と超音波を用いた成人音声データベースの強化を訓練している。 通常発達する音声の評価は、成人音声の事前訓練と超音波と音声による共同学習が86.9%の精度で最良の結果をもたらすことを示している。 障害のある音声を評価するために,経験者の音声と言語療法士の発音スコアを収集し,/r/の口蓋前頭および滑走症例に着目した。 このスコアは、前縁部に対する注釈間合意が良好であるが、滑空エラーには適さないことを示している。 自動ベラーフロンディングエラー検出のために、超音波とオーディオを共同使用するときに最良の結果が得られます。 最良のシステムは、経験豊富な臨床医が特定したエラーの86.6%を正しく検出する。 最良のシステムによってエラーとして特定された全てのセグメントのうち、73.2%は臨床医が特定したエラーと一致している。 自動グライディング検出の結果はアノテータ間合意の不一致により解釈が難しいが,有望と思われる。 総じて, 音声調音誤りの自動検出は, 音声治療中の経過を自動的に定量化するために, 超音波介入ソフトウェアに統合される可能性が示唆された。

Speech sound disorders are a common communication impairment in childhood. Because speech disorders can negatively affect the lives and the development of children, clinical intervention is often recommended. To help with diagnosis and treatment, clinicians use instrumented methods such as spectrograms or ultrasound tongue imaging to analyse speech articulations. Analysis with these methods can be laborious for clinicians, therefore there is growing interest in its automation. In this paper, we investigate the contribution of ultrasound tongue imaging for the automatic detection of speech articulation errors. Our systems are trained on typically developing child speech and augmented with a database of adult speech using audio and ultrasound. Evaluation on typically developing speech indicates that pre-training on adult speech and jointly using ultrasound and audio gives the best results with an accuracy of 86.9%. To evaluate on disordered speech, we collect pronunciation scores from experienced speech and language therapists, focusing on cases of velar fronting and gliding of /r/. The scores show good inter-annotator agreement for velar fronting, but not for gliding errors. For automatic velar fronting error detection, the best results are obtained when jointly using ultrasound and audio. The best system correctly detects 86.6% of the errors identified by experienced clinicians. Out of all the segments identified as errors by the best system, 73.2% match errors identified by clinicians. Results on automatic gliding detection are harder to interpret due to poor inter-annotator agreement, but appear promising. Overall findings suggest that automatic detection of speech articulation errors has potential to be integrated into ultrasound intervention software for automatically quantifying progress during speech therapy.
翻訳日:2021-03-03 16:10:36 公開日:2021-02-27
# 超音波とビデオによるサイレント対モーダルマルチスピーカ音声認識

Silent versus modal multi-speaker speech recognition from ultrasound and video ( http://arxiv.org/abs/2103.00333v1 )

ライセンス: Link先を確認
Manuel Sam Ribeiro, Aciel Eshky, Korin Richmond, Steve Renals(参考訳) 舌の超音波画像と唇の映像から多話者音声認識について検討した。 モーダル音声からの画像データの訓練を行い,2つの発話モード(無声モードとモーダル音声)のマッチングテストセットの評価を行った。 画像データからの無声音声認識はモーダル音声認識に比べて低調であり,訓練とテストの発話モードミスマッチが原因と考えられる。 fMLLRや教師なしモデル適応など、ドメインミスマッチに対処する手法を用いて、サイレント音声認識性能を向上させます。 また,発話継続時間と調音空間の大きさの観点で,無声音声とモーダル音声の特性を解析した。 調音空間を推定するために,超音波舌画像から抽出した舌スプラインの凸殻を計算した。 全体として、サイレント音声の持続時間はモーダル音声よりも長く、サイレント音声はモーダル音声よりも小さな調音空間をカバーすることを観察する。 これら2つの特性は発話モードにおいて統計的に有意であるが、音声認識による単語誤り率と直接相関しない。

We investigate multi-speaker speech recognition from ultrasound images of the tongue and video images of the lips. We train our systems on imaging data from modal speech, and evaluate on matched test sets of two speaking modes: silent and modal speech. We observe that silent speech recognition from imaging data underperforms compared to modal speech recognition, likely due to a speaking-mode mismatch between training and testing. We improve silent speech recognition performance using techniques that address the domain mismatch, such as fMLLR and unsupervised model adaptation. We also analyse the properties of silent and modal speech in terms of utterance duration and the size of the articulatory space. To estimate the articulatory space, we compute the convex hull of tongue splines, extracted from ultrasound tongue images. Overall, we observe that the duration of silent speech is longer than that of modal speech, and that silent speech covers a smaller articulatory space than modal speech. Although these two properties are statistically significant across speaking modes, they do not directly correlate with word error rates from speech recognition.
翻訳日:2021-03-03 16:10:10 公開日:2021-02-27
# MDP用並列確率ミラーDescent

Parallel Stochastic Mirror Descent for MDPs ( http://arxiv.org/abs/2103.00299v1 )

ライセンス: Link先を確認
Daniil Tiapkin, Fedor Stonyakin, Alexander Gasnikov(参考訳) 無限水平マルコフ決定過程(MDP)の最適方針を学習する問題を考える。 この目的のために、Lipschitz-Continuous functionals を用いた凸プログラミング問題に対して、Stochastic Mirror Descent の変種が提案されている。 重要な詳細は、関数制約の非正確な値を使用する能力である。 このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。 このアルゴリズムを用いて、生成モデルを用いて、平均逆 MDP に対する最初の並列アルゴリズムを得る。 この方法の主な特徴の1つは、分散型集中型設定における低通信コストである。

We consider the problem of learning the optimal policy for infinite-horizon Markov decision processes (MDPs). For this purpose, some variant of Stochastic Mirror Descent is proposed for convex programming problems with Lipschitz-continuous functionals. An important detail is the ability to use inexact values of functional constraints. We analyze this algorithm in a general case and obtain an estimate of the convergence rate that does not accumulate errors during the operation of the method. Using this algorithm, we get the first parallel algorithm for average-reward MDPs with a generative model. One of the main features of the presented method is low communication costs in a distributed centralized setting.
翻訳日:2021-03-03 16:09:09 公開日:2021-02-27
# 自律運転におけるオープンセット区間意図予測

Open-set Intersection Intention Prediction for Autonomous Driving ( http://arxiv.org/abs/2103.00140v1 )

ライセンス: Link先を確認
Fei Li, Xiangxu Li, Shiwei Fan, Hongbo Zhang and Jun Luo(参考訳) 意図予測は自律運転(AD)にとって重要な課題である。 交差点のサイズとレイアウトの多様性のために、異なる交差点、特に見えないと不規則な交差点で人間のドライバーの意図を予測することは困難です。 本稿では,目標車両状態のコンテキスト特異的なマッチングと,原則的に非有界な多様な交差点構成を必要とするオープンセット予測問題として,交差点における意図の予測を定式化する。 空間-時間グラフ表現下の交叉構造に対応するマップ中心の特徴を捉え,レーンレベルと出口レベルのそれぞれをカバーする2つのmaam (mutually auxiliary attention module) を用いて,マップ中心の特徴空間の交叉要素に最適な目標を予測する。 本モデルでは,現在の交差点の構造によって文脈的に定義されるオープンセット意図の確率分布を注意スコアで推定する。 提案モデルはシミュレーションデータセット上でトレーニングされ評価される。 さらに,実世界の98の交差点で収集した実世界のデータセット上で,シミュレーションデータセットでトレーニングされたモデルを直接検証し,本手法の実用性について検討した。

Intention prediction is a crucial task for Autonomous Driving (AD). Due to the variety of size and layout of intersections, it is challenging to predict intention of human driver at different intersections, especially unseen and irregular intersections. In this paper, we formulate the prediction of intention at intersections as an open-set prediction problem that requires context specific matching of the target vehicle state and the diverse intersection configurations that are in principle unbounded. We capture map-centric features that correspond to intersection structures under a spatial-temporal graph representation, and use two MAAMs (mutually auxiliary attention module) that cover respectively lane-level and exitlevel intentions to predict a target that best matches intersection elements in map-centric feature space. Under our model, attention scores estimate the probability distribution of the openset intentions that are contextually defined by the structure of the current intersection. The proposed model is trained and evaluated on simulated dataset. Furthermore, the model, trained on simulated dataset and without any fine tuning, is directly validated on in-house real-world dataset collected at 98 realworld intersections and exhibits satisfactory performance,demonstr ating the practical viability of our approach.
翻訳日:2021-03-03 16:08:25 公開日:2021-02-27
# 2次元ポースからの歩行者運動状態推定

Pedestrian Motion State Estimation From 2D Pose ( http://arxiv.org/abs/2103.00145v1 )

ライセンス: Link先を確認
Fei Li, Shiwei Fan, Pengzhen Chen, and Xiangxu Li(参考訳) 歩行者の交通違反と柔軟で変更可能な性質は、道路上の潜在的な安全危険であるかもしれない歩行者の行動や意図を予測することがより困難になります。 歩行者の運動状態(歩行や立位など)は、その意図に直接影響または反映する。 歩行者運動状態やその他の影響要因と組み合わせることで、不要な事故を避けるために歩行者の意図を予測することができる。 本論文では,歩行者を2次元キーポイントの集合で表すことができる非剛体物体として扱い,胴体に対するキーポイントの移動をマイクロモーションとして導入する。 時間領域における位置、角度、距離、それらの差分計算などの静的および動的マイクロモーション特徴は、その動きパターンを記述するために用いられる。 Gated Recurrent Neural Network based seq2seq model を用いて、前の情報に対する動作状態遷移の依存性を学習し、最後に、軟マックス分類器を介して歩行者動作状態を推定する。 提案手法は, 従来のGRUの隠れ状態と現在の動作状態の確率を評価するためにのみ必要であり, 車両への展開を効率よく行うことができる。 本稿では,提案アルゴリズムをJAAD公開データセット上で検証し,既存の手法と比較して精度を11.6%向上させる。

Traffic violation and the flexible and changeable nature of pedestrians make it more difficult to predict pedestrian behavior or intention, which might be a potential safety hazard on the road. Pedestrian motion state (such as walking and standing) directly affects or reflects its intention. In combination with pedestrian motion state and other influencing factors, pedestrian intention can be predicted to avoid unnecessary accidents. In this paper, pedestrian is treated as non-rigid object, which can be represented by a set of two-dimensional key points, and the movement of key point relative to the torso is introduced as micro motion. Static and dynamic micro motion features, such as position, angle and distance, and their differential calculations in time domain, are used to describe its motion pattern. Gated recurrent neural network based seq2seq model is used to learn the dependence of motion state transition on previous information, finally the pedestrian motion state is estimated via a softmax classifier. The proposed method only needs the previous hidden state of GRU and current feature to evaluate the probability of current motion state, and it is computation efficient to deploy on vehicles. This paper verifies the proposed algorithm on the JAAD public dataset, and the accuracy is improved by 11.6% compared with the existing method.
翻訳日:2021-03-03 16:08:04 公開日:2021-02-27
# Fisheye SuperPoint: 魚眼画像のキーポイント検出と説明ネットワーク

FisheyeSuperPoint: Keypoint Detection and Description Network for Fisheye Images ( http://arxiv.org/abs/2103.00191v1 )

ライセンス: Link先を確認
Anna Konrad, Ciar\'an Eising, Ganesh Sistu, John McDonald, Rudi Villing, Senthil Yogamani(参考訳) キーポイントの検出と説明は、特にロボットと自動運転のためのコンピュータビジョンシステムの一般的なビルディングブロックです。 最近のcnnベースのアプローチは、多くの知覚タスクで古典的な手法を上回っている。 しかし、これまでの技術の多くは、自動運転で一般的に使用される魚眼カメラにはほとんど考慮されていない標準カメラに焦点が当てられている。 本稿では,魚眼画像のための新しい訓練・評価パイプラインを提案する。 我々は,自己教師付きキーポイント検出器とディスクリプタであるSuperPointをベースラインとして,ホモグラフィー推定の最先端結果を達成している。 本稿では,魚眼画像の学習を可能にする魚眼適応パイプラインを提案する。 HPatchesベンチマークのパフォーマンスを評価し、オックスフォードロボットカーデータセットの再現性および記述子マッチングの正確性を検出するための魚眼に基づく評価方法を導入する。

Keypoint detection and description is a commonly used building block in computer vision systems particularly for robotics and autonomous driving. Recently CNN based approaches have surpassed classical methods in a number of perception tasks. However, the majority of techniques to date have focused on standard cameras with little consideration given to fisheye cameras which are commonly used in autonomous driving. In this paper, we propose a novel training and evaluation pipeline for fisheye images. We make use of SuperPoint as our baseline which is a self-supervised keypoint detector and descriptor that has achieved state-of-the-art results on homography estimation. We introduce a fisheye adaptation pipeline to enable training on undistorted fisheye images. We evaluate the performance on the HPatches benchmark, and, by introducing a fisheye based evaluation methods for detection repeatability and descriptor matching correctness on the Oxford RobotCar datasets.
翻訳日:2021-03-03 16:07:45 公開日:2021-02-27
# PA-ResSeg:多相CT画像からの肝腫瘍セグメンテーションのための相アテンション残存ネットワーク

PA-ResSeg: A Phase Attention Residual Network for Liver Tumor Segmentation from Multi-phase CT Images ( http://arxiv.org/abs/2103.00274v1 )

ライセンス: Link先を確認
Yingying Xu, Ming Cai, Lanfen Lin, Yue Zhang, Hongjie Hu, Zhiyi Peng, Qiaowei Zhang, Qingqing Chen, Xiongwei Mao, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen, Ruofeng Tong(参考訳) 本稿では,肝腫瘍の正確な分節の多相的特徴をモデル化するための相注残ネットワーク (PA-ResSeg) を提案し, 新たに相注残網 (PA) が提案され, 動脈(ART) の画像を付加的に活用して門脈静脈(PV) の分節を促進する。 PAブロックは、位相間注意(Intra-PA)モジュールと位相間注意(Inter-PA)モジュールからなり、チャネル方向の自己依存性と位相間相互依存性をそれぞれ捕捉する。 これにより、ネットワークは、チャネル依存性に応じてPV特徴を洗練し、フェーズ間の学習相互依存性に基づいてART特徴を再検討することにより、より代表的な多相特徴を学習することができる。 マルチフェーズ画像からマルチスケール特徴を融合するために,符号化経路に沿って複数のレベルでPAブロックをネットワークに埋め込む,PAベースのマルチスケールフュージョン(MSF)アーキテクチャを提案する。 さらに,ネットワークをバウンダリに敏感にするために,3次元境界強調損失(BE損失)を提案する。 提案したPA-ResSegの性能を評価するために, 肝病変の多相CTデータセット(MPCT-FLL)の実験を行った。 実験の結果,提案手法の有効性は, ケース毎のダイス(DPC)が0.77.87, サイスグローバル(DG)が0.8682, ボリュームオーバーラップエラー(VOE)が0.3328, 相対ボリューム差(RVD)が0.0443であった。 さらに, pa-ressegの有効性とロバスト性を検証するため, 他の多相肝腫瘍データセットで追加実験を行い, dpc 0.8290, dg 0.9132, voe 0.2637, rvd 0.0163を得た。 提案手法は, 異なるデータセットと異なるバックボーンにおけるロバスト性と一般化能力を示す。

In this paper, we propose a phase attention residual network (PA-ResSeg) to model multi-phase features for accurate liver tumor segmentation, in which a phase attention (PA) is newly proposed to additionally exploit the images of arterial (ART) phase to facilitate the segmentation of portal venous (PV) phase. The PA block consists of an intra-phase attention (Intra-PA) module and an inter-phase attention (Inter-PA) module to capture channel-wise self-dependencies and cross-phase interdependencies, respectively. Thus it enables the network to learn more representative multi-phase features by refining the PV features according to the channel dependencies and recalibrating the ART features based on the learned interdependencies between phases. We propose a PA-based multi-scale fusion (MSF) architecture to embed the PA blocks in the network at multiple levels along the encoding path to fuse multi-scale features from multi-phase images. Moreover, a 3D boundary-enhanced loss (BE-loss) is proposed for training to make the network more sensitive to boundaries. To evaluate the performance of our proposed PA-ResSeg, we conducted experiments on a multi-phase CT dataset of focal liver lesions (MPCT-FLLs). Experimental results show the effectiveness of the proposed method by achieving a dice per case (DPC) of 0.77.87, a dice global (DG) of 0.8682, a volumetric overlap error (VOE) of 0.3328 and a relative volume difference (RVD) of 0.0443 on the MPCT-FLLs. Furthermore, to validate the effectiveness and robustness of PA-ResSeg, we conducted extra experiments on another multi-phase liver tumor dataset and obtained a DPC of 0.8290, a DG of 0.9132, a VOE of 0.2637 and a RVD of 0.0163. The proposed method shows its robustness and generalization capability in different datasets and different backbones.
翻訳日:2021-03-03 16:07:35 公開日:2021-02-27
# 顕微鏡画像によるヒト卵胞発生能の自動評価

Automatic evaluation of human oocyte developmental potential from microscopy images ( http://arxiv.org/abs/2103.00302v1 )

ライセンス: Link先を確認
Denis Baru\v{c}i\'c (1), Jan Kybic (1), Olga Tepl\'a (2), Zinovij Topurko (2), Irena Kratochv\'ilov\'a (3) ((1) Czech Technical University in Prague, Czech Republic, (2) The First Faculty of Medicine and General Teaching Hospital, Czech Republic, (3) Institute of Physics of the Czech Academy of Sciences, Czech Republic)(参考訳) 不妊はカップルの数が増えていることで問題になっている。 最も一般的な解決策は体外受精であり、胚学者は発生可能性を決定するためにヒト卵子の光顕微鏡像を慎重に調べる必要がある。 本稿では,このプロセスの速度,再現性,精度を向上させる自動システムを提案する。 まず、個々の卵細胞を局在させ、その主成分をCNN(U-Net)セグメンテーションを用いて同定する。 幾何とテクスチャに基づいて複数の記述子を計算する。 最後のステップはSVM分類器です。 セグメンテーションと分類トレーニングはどちらもエキスパートアノテーションに基づいている。 提案手法は,分類精度を70%に向上させる。

Infertility is becoming an issue for an increasing number of couples. The most common solution, in vitro fertilization, requires embryologists to carefully examine light microscopy images of human oocytes to determine their developmental potential. We propose an automatic system to improve the speed, repeatability, and accuracy of this process. We first localize individual oocytes and identify their principal components using CNN (U-Net) segmentation. We calculate several descriptors based on geometry and texture. The final step is an SVM classifier. Both the segmentation and classification training are based on expert annotations. The presented approach leads to the classification accuracy of 70%.
翻訳日:2021-03-03 16:06:58 公開日:2021-02-27
# mm波車両システムにおける深層学習に基づく圧縮ビームアライメント

Deep Learning-based Compressive Beam Alignment in mmWave Vehicular Systems ( http://arxiv.org/abs/2103.00125v1 )

ライセンス: Link先を確認
Yuyang Wang, Nitin Jonathan Myers, Nuria Gonz\'alez-Prelcic, Robert W. Heath Jr(参考訳) ミリ波管路は、排気ビーム探索に比べて少ないチャネル測定でビームアライメントに活用できる構造を示す。 道路沿いの建物の固定配置と通常の車両移動軌道により、チャネルの経路方向はビーム空間全体にランダムに分散するのではなく、ビーム方向のサブセットに含まれる可能性が高い。 本稿では,ミリ波車両用ビームアライメントの基礎となるチャネル分布によく適合する構造化圧縮センシング(CS)行列を設計するための深層学習に基づく手法を提案する。 提案手法は、車両のチャネルに現れる空間的構造と空間的構造の両方を活用する。 2次元の畳み込み層による圧縮チャネルの獲得をモデル化し,その後ドロップアウトを行った。 チャネル取得とビームアライメントを最適化するために,完全接続層を設計する。 ニューラルネットワークトレーニングにおける低分解能位相シフト器制約を重み更新に投射勾配勾配を用いた。 さらに、チャネルスペクトル構造を利用して、異なるサブキャリアに割り当てられる電力を最適化する。 シミュレーションにより,我々の深層学習に基づくアプローチは,ランダム位相シフトに基づく設計を用いた標準CS技術よりも優れたビームアライメントを実現することが示された。 数値実験により、1つのサブキャリアがビームアライメントに必要な情報を提供するのに十分なことが示されている。

Millimeter wave vehicular channels exhibit structure that can be exploited for beam alignment with fewer channel measurements compared to exhaustive beam search. With fixed layouts of roadside buildings and regular vehicular moving trajectory, the dominant path directions of channels will likely be among a subset of beam directions instead of distributing randomly over the whole beamspace. In this paper, we propose a deep learning-based technique to design a structured compressed sensing (CS) matrix that is well suited to the underlying channel distribution for mmWave vehicular beam alignment. The proposed approach leverages both sparsity and the particular spatial structure that appears in vehicular channels. We model the compressive channel acquisition by a two-dimensional (2D) convolutional layer followed by dropout. We design fully-connected layers to optimize channel acquisition and beam alignment. We incorporate the low-resolution phase shifter constraint during neural network training by using projected gradient descent for weight updates. Furthermore, we exploit channel spectral structure to optimize the power allocated for different subcarriers. Simulations indicate that our deep learning-based approach achieves better beam alignment than standard CS techniques which use random phase shift-based design. Numerical experiments also show that one single subcarrier is sufficient to provide necessary information for beam alignment.
翻訳日:2021-03-03 16:00:35 公開日:2021-02-27
# 共有リソースとキューを持つシステムにおける未観測イベントの推論

Inferring Unobserved Events in Systems With Shared Resources and Queues ( http://arxiv.org/abs/2103.00167v1 )

ライセンス: Link先を確認
Dirk Fahland, Vadim Denisov, Wil. M.P. van der Aalst(参考訳) パフォーマンス問題の原因を特定したり、プロセスの振る舞いを予測するためには、正確で完全なイベントデータを持つことが不可欠である。 これは、共有リソースを持つ分散システムにとって特に重要であり、例えば、ひとつのケースが同じマシンで競合する別のケースをブロックし、パフォーマンスのケース間の依存性をもたらす。 しかし、様々な理由により、現実のシステムは起こる全ての出来事のサブセットしか記録しないことが多い。 例えば、コストを削減するため、センサーの数は最小化されるか、システムの一部が接続されない。 共有リソースを持つプロセスの動作を理解し,分析するために,発生したに違いないが記録されていないイベントのタイムスタンプの境界を再構築することを目的としている。 本稿では,多対多関係の存在下で同期が必要なケースとリソースのエンティティトレースにシステムを分解する新しいアプローチを提案する。 このような関係は、例えば、N入荷注文用のパッケージが単一の配達ではなく、M異なる配達で処理されている倉庫で発生します。 我々は、非観測イベントのタイムスタンプを効率的に導き出すために、エンティティトレース上の線形プログラミングを使用する。 これにより、イベントログの完了と分析が容易になる。 我々は,空港における荷物取扱システムのような物質取扱システムに注目し,我々のアプローチを説明する。 しかし、このアプローチは録音が不完全である他の設定にも適用できる。 アイデアはpromで実装され、合成イベントと実際のイベントログの両方を使って評価された。

To identify the causes of performance problems or to predict process behavior, it is essential to have correct and complete event data. This is particularly important for distributed systems with shared resources, e.g., one case can block another case competing for the same machine, leading to inter-case dependencies in performance. However, due to a variety of reasons, real-life systems often record only a subset of all events taking place. For example, to reduce costs, the number of sensors is minimized or parts of the system are not connected. To understand and analyze the behavior of processes with shared resources, we aim to reconstruct bounds for timestamps of events that must have happened but were not recorded. We present a novel approach that decomposes system runs into entity traces of cases and resources that may need to synchronize in the presence of many-to-many relationships. Such relationships occur, for example, in warehouses where packages for N incoming orders are not handled in a single delivery but in M different deliveries. We use linear programming over entity traces to derive the timestamps of unobserved events in an efficient manner. This helps to complete the event logs and facilitates analysis. We focus on material handling systems like baggage handling systems in airports to illustrate our approach. However, the approach can be applied to other settings where recording is incomplete. The ideas have been implemented in ProM and were evaluated using both synthetic and real-life event logs.
翻訳日:2021-03-03 16:00:17 公開日:2021-02-27
# FeatureNorm: 動的グラフ埋め込みのためのL2機能正規化

FeatureNorm: L2 Feature Normalization for Dynamic Graph Embedding ( http://arxiv.org/abs/2103.00164v1 )

ライセンス: Link先を確認
Menglin Yang, Ziqiao Meng, Irwin King(参考訳) 動的グラフは、ソーシャルネットワーク、通信ネットワーク、金融取引ネットワークといった多くの実践的なシナリオに現れます。 動的グラフが与えられた場合、構造的近接性を保持するだけでなく、時間発展パターンを共同で捉えることが期待されるグラフ表現を学ぶことは、基本的で不可欠である。 近年,非ユークリッドアプリケーション領域において,グラフ畳み込みネットワーク (GCN) が広く研究されている。 GCNの主な成功、特に依存関係の処理とノード内のメッセージ転送は、Laplacianのスムーズ化への近似にある。 実際、このスムーズなテクニックは、必須リンクノードペアの接近を奨励するだけでなく、ナントリンクペアの縮小を促進することで、特にグラフの畳み込みを複数のレイヤやステップに積み重ねる際に、深刻な機能縮小や過度な問題を引き起こす可能性がある。 時間発展パターンを学ぶための自然な解決策は、過去の状態を保存し、現在の相互作用と組み合わせて最新の表現を得ることである。 次に、グラフ畳み込みを現在の一般的な方法に従って明示的にまたは暗黙的に積み重ねると、深刻な機能が縮小または過剰になってしまう可能性がある。 動的グラフ埋め込みにおけるこの問題を解決するため、まずノード埋め込み空間における縮小特性を解析し、L2特徴正規化制約を利用して全てのノードを単位球の超球面に再スケールし、ノードが一緒に縮み合わないようにし、類似ノードが近づき続けることができる簡易な多目的手法を設計する。 実世界の4つの動的グラフデータセットと競合ベースラインモデルの比較実験により,提案手法の有効性が示された。

Dynamic graphs arise in a plethora of practical scenarios such as social networks, communication networks, and financial transaction networks. Given a dynamic graph, it is fundamental and essential to learn a graph representation that is expected not only to preserve structural proximity but also jointly capture the time-evolving patterns. Recently, graph convolutional network (GCN) has been widely explored and used in non-Euclidean application domains. The main success of GCN, especially in handling dependencies and passing messages within nodes, lies in its approximation to Laplacian smoothing. As a matter of fact, this smoothing technique can not only encourage must-link node pairs to get closer but also push cannot-link pairs to shrink together, which potentially cause serious feature shrink or oversmoothing problem, especially when stacking graph convolution in multiple layers or steps. For learning time-evolving patterns, a natural solution is to preserve historical state and combine it with the current interactions to obtain the most recent representation. Then the serious feature shrink or oversmoothing problem could happen when stacking graph convolution explicitly or implicitly according to current prevalent methods, which would make nodes too similar to distinguish each other. To solve this problem in dynamic graph embedding, we analyze the shrinking properties in the node embedding space at first, and then design a simple yet versatile method, which exploits L2 feature normalization constraint to rescale all nodes to hypersphere of a unit ball so that nodes would not shrink together, and yet similar nodes can still get closer. Extensive experiments on four real-world dynamic graph datasets compared with competitive baseline models demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-03 15:59:33 公開日:2021-02-27
# 生成化学トランスフォーマー: ニューラルネットワークがテキストで分子の幾何学構造を学ぶ

Generative chemical transformer: attention makes neural machine learn molecular geometric structures via text ( http://arxiv.org/abs/2103.00213v1 )

ライセンス: Link先を確認
Hyunseung Kim, Jonggeol Na, Won Bo Lee(参考訳) 化学式は、分子をテキストとして表現する人工言語です。 化学言語を学んだニューラルマシンは、逆分子設計のツールとして使用できる。 そこで本研究では,化学言語の深い理解(生成化学変換器,GCT)に基づいて,希望する条件を満たす分子を作製するニューラルマシンを提案する。 GCTの注意機構は、意味的不連続を引き起こす化学言語自体の限界を超えて、分子構造をより深く理解することを可能にする。 生成した分子の質を定量的に評価し、逆分子設計問題に対する言語モデルの重要性を検討する。 GCTは、ある言語の化学規則と文法の両方を満たす非常に現実的な化学文字列を生成する。 生成された文字列から解析された分子は、複数のターゲット特性を同時に満たし、1つの条件セットごとに異なる。 GCTはデノボ分子を生成し、これはヒトの専門家ができない短い時間で行われる。 これらの進歩は、望ましい物質発見のプロセスを加速することにより、人間の生活の質の向上に貢献します。

Chemical formula is an artificial language that expresses molecules as text. Neural machines that have learned chemical language can be used as a tool for inverse molecular design. Here, we propose a neural machine that creates molecules that meet some desired conditions based on a deep understanding of chemical language (generative chemical Transformer, GCT). Attention-mechanism in GCT allows a deeper understanding of molecular structures, beyond the limitations of chemical language itself that cause semantic discontinuity, by paying attention to characters sparsely. We investigate the significance of language models to inverse molecular design problems by quantitatively evaluating the quality of generated molecules. GCT generates highly realistic chemical strings that satisfy both a chemical rule and grammars of a language. Molecules parsed from generated strings simultaneously satisfy the multiple target properties and are various for a single condition set. GCT generates de novo molecules, and this is done in a short time that human experts cannot. These advances will contribute to improving the quality of human life by accelerating the process of desired material discovery.
翻訳日:2021-03-03 15:59:00 公開日:2021-02-27
# B5G用Intelligent RANスライスに向けて: 機会と課題

Towards Intelligent RAN Slicing for B5G: Opportunities and Challenges ( http://arxiv.org/abs/2103.00227v1 )

ライセンス: Link先を確認
EmadElDin A Mazied, Lingjia Liu, Scott F. Midkiff(参考訳) 無線通信の多様な要求を満たすために、第5世代(5G)ネットワークとその物理インフラストラクチャの仮想インスタンス(スライス)を鍛造することによってネットワークスライスの概念を採用しています。 ネットワークスライスはコアネットワークと無線アクセスネットワーク(RAN)リソースの動的割り当てを構成するが、この記事はRANスライス(RAN-S)設計を強調している。 スライスアイソレーションを確保しながらフレキシブルに(re)構成できるオンデマンドRAN-Sの形成は難しい。 最近、RAN-Sにおけるトラフィック予測と分類、リソース使用予測、入試制御、スケジューリング、動的リソース割り当てのために、さまざまな機械学習(ML)技術が導入されています。 この記事では、RAN-S の最先端の ML ベースの技術を検討することにより、RAN-S に ML を組み込む機会と課題について説明します。 また、知的RAN-S (iRAN-S) に向けた将来の研究の方向性も少ない。

To meet the diverse demands for wireless communication, fifth-generation (5G) networks and beyond (B5G) embrace the concept of network slicing by forging virtual instances (slices) of its physical infrastructure. While network slicing constitutes dynamic allocation of core network and radio access network (RAN) resources, this article emphasizes RAN slicing (RAN-S) design. Forming on-demand RAN-S that can be flexibly (re)-configured while ensuring slice isolation is challenging. A variety of machine learning (ML) techniques have been recently introduced for traffic forecasting and classification, resource usage prediction, admission control, scheduling, and dynamic resource allocation in RAN-S. Albeit these approaches grant opportunities towards intelligent RAN-S design, they raise critical challenges that need to be examined. This article underlines the opportunities and the challenges of incorporating ML into RAN-S by reviewing the cutting-edge ML-based techniques for RAN-S. It also draws few directions for future research towards intelligent RAN-S (iRAN-S).
翻訳日:2021-03-03 15:58:43 公開日:2021-02-27
# MOEアプローチによる効果的ユニバーサル非制限逆攻撃

Effective Universal Unrestricted Adversarial Attacks using a MOE Approach ( http://arxiv.org/abs/2103.00250v1 )

ライセンス: Link先を確認
A.E. Baia, G. Di Bari, V. Poggioni(参考訳) 近年の研究では、ディープラーニングのモデルが、機械学習の分類器を騙すために意図的に修正されたデータである逆向きの例に影響を受けやすいことが示されている。 本稿では,ブラックボックスシナリオにおける普遍的非制限型逆例生成のための多目的ネスト型進化アルゴリズムを提案する。 制限のない攻撃は、いくつかの画像処理ライブラリ、モダンカメラ、モバイルアプリケーションで利用可能なよく知られたイメージフィルタの応用によって実行される。 多目的最適化は攻撃成功率だけでなく検出率も考慮している。 実験の結果、このアプローチは、非常に効果的で検出不能な攻撃を発生できる一連のフィルタを作成できることが判明した。

Recent studies have shown that Deep Leaning models are susceptible to adversarial examples, which are data, in general images, intentionally modified to fool a machine learning classifier. In this paper, we present a multi-objective nested evolutionary algorithm to generate universal unrestricted adversarial examples in a black-box scenario. The unrestricted attacks are performed through the application of well-known image filters that are available in several image processing libraries, modern cameras, and mobile applications. The multi-objective optimization takes into account not only the attack success rate but also the detection rate. Experimental results showed that this approach is able to create a sequence of filters capable of generating very effective and undetectable attacks.
翻訳日:2021-03-03 15:58:26 公開日:2021-02-27
# 凸凹最小問題に対するパラメータフリーアルゴリズム

A Parameter-free Algorithm for Convex-concave Min-max Problems ( http://arxiv.org/abs/2103.00284v1 )

ライセンス: Link先を確認
Mingrui Liu, Francesco Orabona(参考訳) パラメータフリー最適化アルゴリズムは、学習率を調整せずに初期点に対して収束率が最適であるアルゴリズムを指す。 オンライン凸最適化の文献において提案され、よく研究されている。 しかし、すべての既存のパラメータフリーアルゴリズムは凸最小化問題にのみ使用できる。 凸凹最大問題に対するパラメータフリーアルゴリズムの設計法は未だに不明である。 実際、これらの問題を解決するアルゴリズムの最もよく知られた収束率は、初期点と最適解の間の距離ではなく、領域の大きさに依存する。 本稿では,複数の凸凹問題に対して最初のパラメータフリーなアルゴリズムを提供し,厳密な凸凹問題と非ユークリッド幾何学によるmin-max問題を含む,最先端の収束率を確立する。 副産物として,パラメータフリーのアルゴリズムをサブルーチンとして利用して,成長条件付きmin-max問題に対する高速速度を求める新しいアルゴリズムを設計する。 理論的な知見を検証し,提案アルゴリズムの有効性を実証するために,広範な実験を行う。

Parameter-free optimization algorithms refer to algorithms whose convergence rate is optimal with respect to the initial point without any learning rate to tune. They are proposed and well-studied in the online convex optimization literature. However, all the existing parameter-free algorithms can only be used for convex minimization problems. It remains unclear how to design a parameter-free algorithm for convex-concave min-max problems. In fact, the best known convergence rates of the algorithms for solving these problems depend on the size of the domain, rather than on the distance between initial point and the optimal solution. In this paper, we provide the first parameter-free algorithm for several classes of convex-concave problems and establish corresponding state-of-the-art convergence rates, including strictly-convex-stri ctly-concave min-max problems and min-max problems with non-Euclidean geometry. As a by-product, we utilize the parameter-free algorithm as a subroutine to design a new algorithm, which obtains fast rates for min-max problems with a growth condition. Extensive experiments are conducted to verify our theoretical findings and demonstrate the effectiveness of the proposed algorithm.
翻訳日:2021-03-03 15:58:14 公開日:2021-02-27
# 把握型認識のためのガイドとしてのオブジェクトアレイアンス

Object affordance as a guide for grasp-type recognition ( http://arxiv.org/abs/2103.00268v1 )

ライセンス: Link先を確認
Naoki Wake, Daichi Saito, Kazuhiro Sasabuchi, Hideki Koike, Katsushi Ikeuchi(参考訳) これらの戦略は、一連の操作を円滑に行うために必要な暗黙の知識を含むため、ロボット教育において、人間の把握戦略を認識することが重要な要素である。 本研究は,各オブジェクトオン畳み込みニューラルネットワーク(CNN)を用いたグリップ型認識における,物体の事前のグリップ型分布の影響を解析した。 この目的のために,把持型と対象名とをラベル付けした一人称把持型画像のデータセットを作成し,オブジェクト許容度を利用した認識パイプラインをテストした。 視覚的物体情報の欠如がCNN認識を困難にする混在現実における教示条件を検討するため,実物と実物とのシナリオの評価を行った。 その結果,対象物価はCNNを双方のシナリオでガイドし,その精度を 1) 候補の不可避な把握型を除外し,2) 有意な把握型を増強した。 さらに、"エンハンシング効果"は、高い把握型不均一性でより顕著であった。 以上の結果から,ロボット教育における把持型認識誘導における物体余裕の有効性が示唆された。

Recognizing human grasping strategies is an important factor in robot teaching as these strategies contain the implicit knowledge necessary to perform a series of manipulations smoothly. This study analyzed the effects of object affordance-a prior distribution of grasp types for each object-on convolutional neural network (CNN)-based grasp-type recognition. To this end, we created datasets of first-person grasping-hand images labeled with grasp types and object names, and tested a recognition pipeline leveraging object affordance. We evaluated scenarios with real and illusory objects to be grasped, to consider a teaching condition in mixed reality where the lack of visual object information can make the CNN recognition challenging. The results show that object affordance guided the CNN in both scenarios, increasing the accuracy by 1) excluding unlikely grasp types from the candidates and 2) enhancing likely grasp types. In addition, the "enhancing effect" was more pronounced with high degrees of grasp-type heterogeneity. These results indicate the effectiveness of object affordance for guiding grasp-type recognition in robot teaching applications.
翻訳日:2021-03-03 15:48:00 公開日:2021-02-27
# データ同化のためのパッチ付きアナログアンサンブル構築のための機械学習手法

Machine Learning Techniques to Construct Patched Analog Ensembles for Data Assimilation ( http://arxiv.org/abs/2103.00318v1 )

ライセンス: Link先を確認
Lucia Minah Yang and Ian Grooms(参考訳) 構築されたアナログアンサンブル最適補間法(cAnEnOI)として,機械学習文献からの生成モデルを用いて,データ同化方式で使用する人工アンサンブル部材を[Grooms QJRMS, 2020]に導入した。 具体的には,本手法の機械学習コンポーネントの一般および変分オートエンコーダについて検討し,構築されたアナログのアイデアとデータ同化片における最適な補間を組み合わせる。 複雑な力学モデル上でのデータ同化に用いるcAnEnOIのスケーラビリティを拡張するために,グローバル空間領域を消化可能なチャンクに分割するパッチ方式を提案する。 パッチを使用することで、生成モデルのトレーニングが可能になり、生成ステップ中に並列性を活用できるメリットが追加される。 この新しいアルゴリズムを1Dトイモデルでテストすると、より大きなパッチサイズが正確な生成モデルの訓練を難しくすることがわかった。 再構成誤差が小さいモデル)、逆に、より大きなパッチサイズでデータ同化性能が向上します。 したがって、パッチサイズが十分に大きいスイートスポットがあり、良好なデータ同化性能を実現できますが、正確な生成モデルのトレーニングが困難になるほど大きくはありません。 私たちのテストでは、新しいパッチ付きcAnEnOIメソッドは、元の(未パッチ)cAnEnOIと[Grooms QJRMS, 2020]からのアンサンブルスクエアルートフィルタ結果よりも優れています。

Using generative models from the machine learning literature to create artificial ensemble members for use within data assimilation schemes has been introduced in [Grooms QJRMS, 2020] as constructed analog ensemble optimal interpolation (cAnEnOI). Specifically, we study general and variational autoencoders for the machine learning component of this method, and combine the ideas of constructed analogs and ensemble optimal interpolation in the data assimilation piece. To extend the scalability of cAnEnOI for use in data assimilation on complex dynamical models, we propose using patching schemes to divide the global spatial domain into digestible chunks. Using patches makes training the generative models possible and has the added benefit of being able to exploit parallelism during the generative step. Testing this new algorithm on a 1D toy model, we find that larger patch sizes make it harder to train an accurate generative model (i.e. a model whose reconstruction error is small), while conversely the data assimilation performance improves at larger patch sizes. There is thus a sweet spot where the patch size is large enough to enable good data assimilation performance, but not so large that it becomes difficult to train an accurate generative model. In our tests the new patched cAnEnOI method outperforms the original (unpatched) cAnEnOI, as well as the ensemble square root filter results from [Grooms QJRMS, 2020].
翻訳日:2021-03-03 15:47:23 公開日:2021-02-27
# テラヘルツ帯複合超音速MIMOレーダ通信:モデルベースおよびモデルフリーハイブリッドビームフォーミング

Terahertz-Band Joint Ultra-Massive MIMO Radar-Communications : Model-Based and Model-Free Hybrid Beamforming ( http://arxiv.org/abs/2103.00328v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Kumar Vijay Mishra and Symeon Chatzinotas(参考訳) テラヘルツ(THz)バンドでの無線通信とセンシングは、THzで高い運用帯域幅が利用できるため、有望な短距離技術としてますます研究されている。 THzの極端に高い減衰に対処するために、THz通信において伝搬損失を補償する超大質量多重入力多重出力(UM-MIMO)アンテナシステムを提案した。 しかし、これらの巨大なアンテナアレイの完全デジタルビームフォーマと関連するコストとパワーは禁じられている。 本稿では,新しいgroup-of-subarrays (gosa) um-mimo構造のためのモデルベースおよびモデルフリー技術に基づくthzハイブリッドビームフォーマを開発した。 さらに,近年の省スペクトル化にともなって,基地局がマルチアンテナユーザ機器(RX)を運用し,RXとターゲットの両方に向けて複数のビームを発生させることで,レーダターゲットを追尾するUM-MIMOレーダ通信システムを提案する。 ゴサビームフォーマの設計を最適化問題として定式化し、制約のない通信ビームフォーマと所望のレーダビームフォーマとのトレードオフを提供する。 さらに,第2次チャネル統計を活用し,チャネルオーバヘッドの少ないrxからの不適切なチャネルフィードバックを実現する。 UM-MIMO計算の複雑さをさらに低減し、堅牢性を高めるため、提案したモデルベースハイブリッドビームフォーマに対してディープラーニングソリューションを実装した。 数値実験では、両方の手法がスペクトル効率とレーダービーパタンの点で従来のアプローチを上回るだけでなく、ハードウェアコストと計算時間が少ないことを実証しています。

Wireless communications and sensing at terahertz (THz) band are increasingly investigated as promising short-range technologies because of the availability of high operational bandwidth at THz. In order to address the extremely high attenuation at THz, ultra-massive multiple-input multiple-output (UM-MIMO) antenna systems have been proposed for THz communications to compensate propagation losses. However, the cost and power associated with fully digital beamformers of these huge antenna arrays are prohibitive. In this paper, we develop THz hybrid beamformers based on both model-based and model-free techniques for a new group-of-subarrays (GoSA) UM-MIMO structure. Further, driven by the recent developments to save the spectrum, we propose beamformers for a joint UM-MIMO radar-communications system, wherein the base station serves multi-antenna user equipment (RX), and tracks radar targets by generating multiple beams toward both RX and the targets. We formulate the GoSA beamformer design as an optimization problem to provide a trade-off between the unconstrained communications beamformers and the desired radar beamformers. Additionally, our design also exploits second-order channel statistics so that an infrequent channel feedback from the RX is achieved with less channel overhead. To further decrease the UM-MIMO computational complexity and enhance robustness, we also implement deep learning solutions to the proposed model-based hybrid beamformers. Numerical experiments demonstrate that both techniques outperform the conventional approaches in terms of spectral efficiency and radar beampatterns, as well as exhibiting less hardware cost and computation time.
翻訳日:2021-03-03 15:46:57 公開日:2021-02-27
# エンド・ツー・エンド不確実性に基づく自動車線センター攻撃の軽減

End-to-end Uncertainty-based Mitigation of Adversarial Attacks to Automated Lane Centering ( http://arxiv.org/abs/2103.00345v1 )

ライセンス: Link先を確認
Ruochen Jiao, Hengyi Liang, Takami Sato, Junjie Shen, Qi Alfred Chen and Qi Zhu(参考訳) 高度な運転支援システム(ADAS)や自動運転車の開発では、深層ニューラルネットワーク(DNN)に基づく機械学習技術が車両認識に広く使用されています。 これらの手法は従来の手法よりも平均知覚精度を著しく向上させるが、しかしながら、入力の小さな摂動が知覚結果に重大な誤りをもたらし、システム障害に繋がる敵の攻撃の影響を受けやすいことが示されている。 そのような敵対的な攻撃に対処する以前のほとんどの作品は、センシングと知覚モジュールにのみ焦点を合わせます。 本研究では,認識,計画,制御モジュール全体にわたる敵の攻撃の影響に対処するエンドツーエンドアプローチを提案する。 特に,対象のadasアプリケーション,openpilotにおける自動レーンセンタリングシステムを選択し,敵の攻撃下での知覚の不確かさを定量化し,不確実性解析に基づいてロバストな計画制御モジュールを設計する。 提案手法は,公開データセットと運用段階の自動運転シミュレータを用いて評価する。 実験の結果,本手法は対向攻撃の影響を効果的に軽減し,元のopenpilotよりも55%から90%改善できることがわかった。

In the development of advanced driver-assistance systems (ADAS) and autonomous vehicles, machine learning techniques that are based on deep neural networks (DNNs) have been widely used for vehicle perception. These techniques offer significant improvement on average perception accuracy over traditional methods, however, have been shown to be susceptible to adversarial attacks, where small perturbations in the input may cause significant errors in the perception results and lead to system failure. Most prior works addressing such adversarial attacks focus only on the sensing and perception modules. In this work, we propose an end-to-end approach that addresses the impact of adversarial attacks throughout perception, planning, and control modules. In particular, we choose a target ADAS application, the automated lane centering system in OpenPilot, quantify the perception uncertainty under adversarial attacks, and design a robust planning and control module accordingly based on the uncertainty analysis. We evaluate our proposed approach using both the public dataset and production-grade autonomous driving simulator. The experiment results demonstrate that our approach can effectively mitigate the impact of adversarial attacks and can achieve 55% to 90% improvement over the original OpenPilot.
翻訳日:2021-03-03 15:38:29 公開日:2021-02-27
# CausalX:因果説明とブロック多線型因子分析

CausalX: Causal Explanations and Block Multilinear Factor Analysis ( http://arxiv.org/abs/2102.12853v2 )

ライセンス: Link先を確認
M. Alex O. Vasilescu, Eric Kim, and Xiao S. Zeng(参考訳) 操作のない因果関係(処置、介入)」という独裁に固執することにより、原因と効果データ分析は因果要因の変化の点で観察されたデータの変化を表します。 現在の技術的制限や倫理上の考慮から実世界でのアクティブな操作には因果的要因が適さない場合、反事実的アプローチはデータ形成モデルに介入する。 オブジェクト表現やアクティビティ(一時的なオブジェクト)表現の場合、さまざまなオブジェクト部分は、空間的または時間的であるかどうかは一般的に不可能です。 高階テンソルの代数である多線型代数は、データ形成の因果因子を遠ざけるのに適した、透明な枠組みである。 部分ベースの因果因子表現を多線形フレームワークで学習するには、部分ベースの多線形モデルに一連の介入を適用する必要がある。 全体と部分の統一多線形モデルを提案する。 我々は、オブジェクト階層全体にわたって同時に最適化することにより、因果因子の不整合表現を演算する階層的ブロック多重線形因子化 M-mode Block SVD を導出する。 計算効率を考慮すると、より低いレベルの抽象化、部分表現、より高いレベルの抽象化、親全体を表すために使用するインクリメンタルボトムアップ計算代替案であるIncremental M-mode Block SVDを紹介します。 このインクリメンタルな計算アプローチは、データがインクリメンタルに利用可能になったときに因果モデルパラメータを更新するためにも用いられる。 結果のオブジェクト表現は、オブジェクトの全体と部分の再帰的階層に関連する固有の因果係数表現の解釈可能な組合せ選択であり、オブジェクト認識を隠蔽に頑健にし、トレーニングデータ要求を減少させる。

By adhering to the dictum, "No causation without manipulation (treatment, intervention)", cause and effect data analysis represents changes in observed data in terms of changes in the causal factors. When causal factors are not amenable for active manipulation in the real world due to current technological limitations or ethical considerations, a counterfactual approach performs an intervention on the model of data formation. In the case of object representation or activity (temporal object) representation, varying object parts is generally unfeasible whether they be spatial and/or temporal. Multilinear algebra, the algebra of higher-order tensors, is a suitable and transparent framework for disentangling the causal factors of data formation. Learning a part-based intrinsic causal factor representations in a multilinear framework requires applying a set of interventions on a part-based multilinear model. We propose a unified multilinear model of wholes and parts. We derive a hierarchical block multilinear factorization, the M-mode Block SVD, that computes a disentangled representation of the causal factors by optimizing simultaneously across the entire object hierarchy. Given computational efficiency considerations, we introduce an incremental bottom-up computational alternative, the Incremental M-mode Block SVD, that employs the lower-level abstractions, the part representations, to represent the higher level of abstractions, the parent wholes. This incremental computational approach may also be employed to update the causal model parameters when data becomes available incrementally. The resulting object representation is an interpretable combinatorial choice of intrinsic causal factor representations related to an object's recursive hierarchy of wholes and parts that renders object recognition robust to occlusion and reduces training data requirements.
翻訳日:2021-03-02 12:47:27 公開日:2021-02-27