このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210801となっている論文です。

PDF登録状況(公開日: 20210801)

TitleAuthorsAbstract論文公表日・翻訳日
# ホログラム光輸送の学習

Learned holographic light transport ( http://arxiv.org/abs/2108.08253v1 )

ライセンス: Link先を確認
Koray Kavakl{\i}, Hakan Urey, Kaan Ak\c{s}it(参考訳) コンピュータ生成ホログラフィー(CGH)アルゴリズムは、物理ホログラフィーディスプレイの結果と一致しないことが多い。 我々の研究はホログラフィックディスプレイのホログラフィック光輸送を学習することで、このミスマッチに対処する。 カメラとホログラムディスプレイを用いて、理想的なシミュレーションに頼ってデータセットを生成する最適化ホログラムの画像再構成をキャプチャする。 理想的なシミュレーションにインスパイアされた私たちは、データセットで撮影した写真に与えられたホログラムを伝播できる複雑な値の畳み込みカーネルを学習します。 ホログラフィックディスプレイのシミュレーション精度と画質を劇的に向上させるとともに,物理情報を用いた学習手法の確立にも寄与する。

Computer-Generated Holography (CGH) algorithms often fall short in matching simulations with results from a physical holographic display. Our work addresses this mismatch by learning the holographic light transport in holographic displays. Using a camera and a holographic display, we capture the image reconstructions of optimized holograms that rely on ideal simulations to generate a dataset. Inspired by the ideal simulations, we learn a complex-valued convolution kernel that can propagate given holograms to captured photographs in our dataset. Our method can dramatically improve simulation accuracy and image quality in holographic displays while paving the way for physically informed learning approaches.
翻訳日:2021-08-22 14:36:15 公開日:2021-08-01
# (参考訳) NoC-based CNN Accelerator のギャザサポートによる性能向上 [全文訳有]

Improving the Performance of a NoC-based CNN Accelerator with Gather Support ( http://arxiv.org/abs/2108.02567v1 )

ライセンス: CC BY 4.0
Binayak Tiwari, Mei Yang, Xiaohang Wang, Yingtao Jiang, Venkatesan Muthukumar(参考訳) 深層学習技術の応用が増え、畳み込みニューラルネットワーク(cnns)のための効率的な並列コンピューティングアーキテクチャの必要性が高まっている。 マルチコアCNNアクセラレータを設計する際の大きな課題は、処理要素間のデータ移動を処理することだ。 cnn workloadは1対1のトラフィックに加えて1対1のトラフィックも導入している。 オンチップ通信のデファクトスタンダードとして、network-on-chip (noc) は様々なユニキャストおよびマルチキャストトラフィックをサポートできる。 多対一のトラフィックでは、効率的な方法ではない繰り返しユニキャストが使用される。 本稿では,複数対1のトラフィックをサポートするために,出力定常シストリックアレイを用いたメッシュベースのNoC上での集合パケットの利用を提案する。 収集パケットは中間ノードからデータを収集し、最終的には効率よく目的地に導く。 この手法は,AlexNet と VGG-16 の畳み込み層から発生するトラヒックトレースを用いて,繰り返しユニキャスト法よりも遅延と電力を改善する。

The increasing application of deep learning technology drives the need for an efficient parallel computing architecture for Convolutional Neural Networks (CNNs). A significant challenge faced when designing a many-core CNN accelerator is to handle the data movement between the processing elements. The CNN workload introduces many-to-one traffic in addition to one-to-one and one-to-many traffic. As the de-facto standard for on-chip communication, Network-on-Chip (NoC) can support various unicast and multicast traffic. For many-to-one traffic, repetitive unicast is employed which is not an efficient way. In this paper, we propose to use the gather packet on mesh-based NoCs employing output stationary systolic array in support of many-to-one traffic. The gather packet will collect the data from the intermediate nodes eventually leading to the destination efficiently. This method is evaluated using the traffic traces generated from the convolution layer of AlexNet and VGG-16 with improvement in the latency and power than the repetitive unicast method.
翻訳日:2021-08-07 04:34:11 公開日:2021-08-01
# (参考訳) 深層ニューラルネットワークのためのメッシュ型nocにおけるデータストリーミングとトラヒック収集 [全文訳有]

Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural Network Acceleration ( http://arxiv.org/abs/2108.02569v1 )

ライセンス: CC BY 4.0
Binayak Tiwari, Mei Yang, Xiaohang Wang, Yingtao Jiang(参考訳) ディープニューラルネットワーク(dnn)アプリケーションの人気が高まっているため、高いコンピューティング能力と効率的なハードウェアアクセラレーターアーキテクチャが要求される。 dnnアクセラレータは、重みやその他のパラメータを格納するために多数の処理要素(pe)とオンチップメモリを使用する。 DNNアクセラレーターの通信バックボーンとして、ネットワークオンチップ(NoC)は様々なデータフローパターンをサポートし、DNNアクセラレーターにおける通信並列処理を可能にする上で重要な役割を果たす。 しかし、広く使用されているメッシュベースのNoCアーキテクチャは本質的には、DNNワークロードに多く存在する効率的な1対1のトラフィックをサポートできない。 本稿では,1対1(マルチキャスト)トラフィックを高速化する1対2のストリーミングバスと,多対1(ガザ)トラフィックをサポートするために収集パケットを使用するメッシュアーキテクチャを提案する。 畳み込み層のランタイムレイテンシの解析により、双方向ストリーミングアーキテクチャは、出力定常(os)データフローアーキテクチャの片方向ストリーミングアーキテクチャよりも優れた改善を達成できることが示された。 シミュレーション結果は,2方向ストリーミングをサポートする修正メッシュアーキテクチャの繰り返しユニキャスト法と比較して,収集パケットがランタイム遅延を最大1.8倍,ネットワーク消費電力を最大1.7倍削減できることを示した。

The increasing popularity of deep neural network (DNN) applications demands high computing power and efficient hardware accelerator architecture. DNN accelerators use a large number of processing elements (PEs) and on-chip memory for storing weights and other parameters. As the communication backbone of a DNN accelerator, networks-on-chip (NoC) play an important role in supporting various dataflow patterns and enabling processing with communication parallelism in a DNN accelerator. However, the widely used mesh-based NoC architectures inherently cannot support the efficient one-to-many and many-to-one traffic largely existing in DNN workloads. In this paper, we propose a modified mesh architecture with a one-way/two-way streaming bus to speedup one-to-many (multicast) traffic, and the use of gather packets to support many-to-one (gather) traffic. The analysis of the runtime latency of a convolutional layer shows that the two-way streaming architecture achieves better improvement than the one-way streaming architecture for an Output Stationary (OS) dataflow architecture. The simulation results demonstrate that the gather packets can help to reduce the runtime latency up to 1.8 times and network power consumption up to 1.7 times, compared with the repetitive unicast method on modified mesh architectures supporting two-way streaming.
翻訳日:2021-08-07 04:23:24 公開日:2021-08-01
# (参考訳) ネットワーク化プロセスの予測、最適化、制御のための純粋データ駆動フレームワーク:ネットワーク化sis流行モデルへの応用

A purely data-driven framework for prediction, optimization, and control of networked processes: application to networked SIS epidemic model ( http://arxiv.org/abs/2108.02005v1 )

ライセンス: CC BY 4.0
Ali Tavasoli, Teague Henry, Heman Shakeri(参考訳) ネットワークは、異なるエージェント間の相互作用が単純な局所規則セットを非線形創発的行動に変換する多くの複雑な現象のランドマークである。 近年の研究では、ネットワーク構造と基礎となる力学過程の関連が明らかにされているが、確率的非線形力学過程の同定は未解決の問題である。 本稿では,大規模ネットワーク上で発生する確率的非線形ダイナミクスを識別・制御するための演算子理論に基づく単純なデータ駆動フレームワークを開発した。 提案手法では,ネットワーク構造の事前知識を必要とせず,状態の2段階スナップショットの収集のみを用いて基盤となるダイナミクスを識別する。 このデータ駆動システム同定は、koopman演算子を使用して線形に進化する動的パターンの低次元表現を見つけることによって達成される。 さらに,大局的な線形クープマンモデルを用いて,予測制御(MPC)モデルに適用することで,重要な制御問題を解く。 提案手法は, 従来の非線形プログラミングを, 凸およびはるかに少ない変数を持つより扱いやすい最適化問題に変換することで, この問題に対処できることを示す。

Networks are landmarks of many complex phenomena where interweaving interactions between different agents transform simple local rule-sets into nonlinear emergent behaviors. While some recent studies unveil associations between the network structure and the underlying dynamical process, identifying stochastic nonlinear dynamical processes continues to be an outstanding problem. Here we develop a simple data-driven framework based on operator-theoretic techniques to identify and control stochastic nonlinear dynamics taking place over large-scale networks. The proposed approach requires no prior knowledge of the network structure and identifies the underlying dynamics solely using a collection of two-step snapshots of the states. This data-driven system identification is achieved by using the Koopman operator to find a low dimensional representation of the dynamical patterns that evolve linearly. Further, we use the global linear Koopman model to solve critical control problems by applying to model predictive control (MPC)--typically, a challenging proposition when applied to large networks. We show that our proposed approach tackles this by converting the original nonlinear programming into a more tractable optimization problem that is both convex and with far fewer variables.
翻訳日:2021-08-06 02:25:32 公開日:2021-08-01
# (参考訳) 境界知識翻訳に基づく参照意味セグメンテーション [全文訳有]

Boundary Knowledge Translation based Reference Semantic Segmentation ( http://arxiv.org/abs/2108.01075v1 )

ライセンス: CC BY 4.0
Lechao Cheng, Zunlei Feng, Xinchao Wang, Ya Jie Liu, Jie Lei, Mingli Song(参考訳) 画像中の未知のタイプの参照オブジェクトが与えられた場合、人間の観察者は、他の画像で同じカテゴリのオブジェクトを見つけ、その視覚的境界を正確に判断することができる。 このような人間の視覚認知能力は、現在のコンピュータビジョンの研究スペクトルに欠如しているように見える。 例えば、既存のセグメンテーションネットワークは、膨大な量のラベル付きデータを頼りにしており、収集や注釈に手間がかかり、またセグメンテーションネットワークのパフォーマンスはカテゴリの数が増えるにつれて低下する傾向にある。 本稿では,視覚境界知識翻訳を行うための参照セマンティックセマンティックネットワーク(Ref-Net)を提案する。 Ref-Netには参照セグメンテーションモジュール(RSM)と境界知識翻訳モジュール(BKTM)が含まれている。 人間の認識機構にインスパイアされたrsmは、参照オブジェクトの特徴に基づいて同じカテゴリオブジェクトをセグメンテーションするためにのみ考案された。 一方、BKTMでは、2つの境界識別器の分岐を導入し、対象オブジェクトの内部および外部の境界セグメンテーションを対角的に行い、オープンソースデータセットの注釈付き境界知識をセグメンテーションネットワークに変換する。 発掘実験では、数十の細かい注釈付きサンプルをガイダンスとして、Ref-Netは6つのデータセットの完全な教師付きメソッドと同等の結果を得ることを示した。

Given a reference object of an unknown type in an image, human observers can effortlessly find the objects of the same category in another image and precisely tell their visual boundaries. Such visual cognition capability of humans seems absent from the current research spectrum of computer vision. Existing segmentation networks, for example, rely on a humongous amount of labeled data, which is laborious and costly to collect and annotate; besides, the performance of segmentation networks tend to downgrade as the number of the category increases. In this paper, we introduce a novel Reference semantic segmentation Network (Ref-Net) to conduct visual boundary knowledge translation. Ref-Net contains a Reference Segmentation Module (RSM) and a Boundary Knowledge Translation Module (BKTM). Inspired by the human recognition mechanism, RSM is devised only to segment the same category objects based on the features of the reference objects. BKTM, on the other hand, introduces two boundary discriminator branches to conduct inner and outer boundary segmentation of the target objectin an adversarial manner, and translate the annotated boundary knowledge of open-source datasets into the segmentation network. Exhaustive experiments demonstrate that, with tens of finely-grained annotated samples as guidance, Ref-Net achieves results on par with fully supervised methods on six datasets.
翻訳日:2021-08-05 01:07:19 公開日:2021-08-01
# (参考訳) $\textrm{WeaSuL}^{\pi}$:Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue [全文訳有]

$\textrm{WeaSuL}^{\pi}$: Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue ( http://arxiv.org/abs/2108.01487v1 )

ライセンス: CC BY-SA 4.0
Anant Khandelwal(参考訳) マルチターン設定におけるインテリジェントな対話システムは,高品質な応答を生成するだけでなく,対話の長期的成功につながる可能性のある応答を生成する必要がある。 しかし,現在のアプローチでは応答品質は向上したが,対話データに現れる訓練信号は見過ごされている。 これらの信号を利用して、弱い教師付きトレーニングデータを生成し、ダイアログポリシーと報奨推定器を学習し、成功(リワード)会話の今後の方向性を予測するためのアクション(応答の生成)を行う。 エージェントとユーザとの対話(教師付き学習目的のエージェントに似てモデル化された)をシミュレートし、互いに対話する。 エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。 それぞれの擬似状態-作用対は、セマンティック関連、セマンティックコヒーレンス、一貫性フローの3つの品質モジュールで評価される(弱いアノテーションとして機能する)。 2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、自動評価と人的判断の両方で会話を成功させることを示す。

An intelligent dialogue system in a multi-turn setting should not only generate the responses which are of good quality, but it should also generate the responses which can lead to long-term success of the dialogue. Although, the current approaches improved the response quality, but they over-look the training signals present in the dialogue data. We can leverage these signals to generate the weakly supervised training data for learning dialog policy and reward estimator, and make the policy take actions (generates responses) which can foresee the future direction for a successful (rewarding) conversation. We simulate the dialogue between an agent and a user (modelled similar to an agent with supervised learning objective) to interact with each other. The agent uses dynamic blocking to generate ranked diverse responses and exploration-exploita tion to select among the Top-K responses. Each simulated state-action pair is evaluated (works as a weak annotation) with three quality modules: Semantic Relevant, Semantic Coherence and Consistent Flow. Empirical studies with two benchmarks indicate that our model can significantly out-perform the response quality and lead to a successful conversation on both automatic evaluation and human judgement.
翻訳日:2021-08-05 00:53:06 公開日:2021-08-01
# (参考訳) ネットワーク支援潜在空間進化による辞書攻撃のためのマスタフェイス生成 [全文訳有]

Generating Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution ( http://arxiv.org/abs/2108.01077v1 )

ライセンス: CC BY 4.0
Ron Shmelkin, Tomer Friedlander, Lior Wolf(参考訳) マスターフェイス(master face)は、人口の大部分に顔認証を渡す顔画像である。 これらの顔は、ユーザー情報にアクセスせずに、成功の可能性の高いユーザーを偽装するのに使うことができる。 StyleGANフェイスジェネレータの潜伏埋め込み空間における進化的アルゴリズムを用いて,これらの顔の最適化を行う。 複数の進化戦略を比較し,適応度評価を加えることなく,有望なサンプルの方向に探索を指示するためにニューラルネットワークを用いた新しいアプローチを提案する。 以上の結果から,3つの主要な深部顔認識システムにおいて,マスタフェイスが10未満の人口(40%以上)を高い範囲でカバーすることが可能であることが判明した。

A master face is a face image that passes face-based identity-authenticat ion for a large portion of the population. These faces can be used to impersonate, with a high probability of success, any user, without having access to any user information. We optimize these faces, by using an evolutionary algorithm in the latent embedding space of the StyleGAN face generator. Multiple evolutionary strategies are compared, and we propose a novel approach that employs a neural network in order to direct the search in the direction of promising samples, without adding fitness evaluations. The results we present demonstrate that it is possible to obtain a high coverage of the population (over 40%) with less than 10 master faces, for three leading deep face recognition systems.
翻訳日:2021-08-05 00:36:19 公開日:2021-08-01
# (参考訳) 絡み合いは十分か? 制御可能な音楽生成のための潜在表現について [全文訳有]

Is Disentanglement enough? On Latent Representations for Controllable Music Generation ( http://arxiv.org/abs/2108.01450v1 )

ライセンス: CC BY 4.0
Ashis Pati, Alexander Lerch(参考訳) 制御性の向上や、生成したデータの1つ以上の属性を操作する能力は、音楽の深い生成モデルという文脈における関心の対象となっている。 この方向の最近の試みは、変動の基盤となる要因が明確に分離されるように、データから絡み合った表現を学習することに依存している。 本稿では,変分オートエンコーダ(vae)アーキテクチャに基づく異なる教師付き異方性学習アルゴリズムを用いて系統的な学習を行い,異方性と制御性の関係に注目した。 実験により,強い識別エンコーダを訓練するために異なる形態の監督を用いることにより,高いディエンタグルメントを実現することができた。 しかし、強い生成デコーダが存在しない場合、絡み合いは必ずしも制御性を意味するとは限らない。 VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。 この目的のために我々は,許容範囲の制御性に関して,潜在空間の品質を評価するための方法や指標も提案する。

Improving controllability or the ability to manipulate one or more attributes of the generated data has become a topic of interest in the context of deep generative models of music. Recent attempts in this direction have relied on learning disentangled representations from data such that the underlying factors of variation are well separated. In this paper, we focus on the relationship between disentanglement and controllability by conducting a systematic study using different supervised disentanglement learning algorithms based on the Variational Auto-Encoder (VAE) architecture. Our experiments show that a high degree of disentanglement can be achieved by using different forms of supervision to train a strong discriminative encoder. However, in the absence of a strong generative decoder, disentanglement does not necessarily imply controllability. The structure of the latent space with respect to the VAE-decoder plays an important role in boosting the ability of a generative model to manipulate different attributes. To this end, we also propose methods and metrics to help evaluate the quality of a latent space with respect to the afforded degree of controllability.
翻訳日:2021-08-05 00:21:14 公開日:2021-08-01
# (参考訳) LASOR: 正確な3D画像と形状を学習する : 合成オクルージョンデータとニューラルネットワークレンダリング [全文訳有]

LASOR: Learning Accurate 3D Human Pose and Shape Via Synthetic Occlusion-Aware Data and Neural Mesh Rendering ( http://arxiv.org/abs/2108.00351v1 )

ライセンス: CC BY 4.0
Kaibing Yang, Renshu Gu, Masahiro Toyoura and Gang Xu(参考訳) 人間のポーズと形状推定のタスクにおける重要な課題は、自己閉塞、対人閉塞、対人閉塞を含む閉塞である。 多様な正確なポーズや形状のトレーニングデータの欠如は、特に野生のオクルージョンのあるシーンにおいて、大きなボトルネックとなっている。 本稿では, 対人咬合の場合のポーズと形状の推定に焦点をあてるとともに, 対人咬合や自己閉塞も扱う。 咬合対応シルエットと2dキーポイントデータを合成し,smplポーズと形状パラメータを直接回帰する枠組みを提案する。 ニューラル3dメッシュレンダラは、シルエットをオンザフライで監視可能にするために活用され、形状推定の大幅な改善に寄与する。 さらに、パノラマ視点におけるキーポイントとシルエット駆動のトレーニングデータを合成し、既存のデータセットにおける視点の多様性の欠如を補う。 実験の結果,3DPWデータセットのポーズ精度では最先端であり,形状精度ではランク1法よりも明らかに優れていた。 また,SSP-3Dでは形状予測精度が向上した。

A key challenge in the task of human pose and shape estimation is occlusion, including self-occlusions, object-human occlusions, and inter-person occlusions. The lack of diverse and accurate pose and shape training data becomes a major bottleneck, especially for scenes with occlusions in the wild. In this paper, we focus on the estimation of human pose and shape in the case of inter-person occlusions, while also handling object-human occlusions and self-occlusion. We propose a framework that synthesizes occlusion-aware silhouette and 2D keypoints data and directly regress to the SMPL pose and shape parameters. A neural 3D mesh renderer is exploited to enable silhouette supervision on the fly, which contributes to great improvements in shape estimation. In addition, keypoints-and-silhou ette-driven training data in panoramic viewpoints are synthesized to compensate for the lack of viewpoint diversity in any existing dataset. Experimental results show that we are among state-of-the-art on the 3DPW dataset in terms of pose accuracy and evidently outperform the rank-1 method in terms of shape accuracy. Top performance is also achieved on SSP-3D in terms of shape prediction accuracy.
翻訳日:2021-08-04 10:27:50 公開日:2021-08-01
# (参考訳) badencoder: 自己教師付き学習における事前学習エンコーダに対するバックドア攻撃 [全文訳有]

BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning ( http://arxiv.org/abs/2108.00352v1 )

ライセンス: CC BY 4.0
Jinyuan Jia and Yupei Liu and Neil Zhenqiang Gong(参考訳) コンピュータビジョンにおける自己教師あり学習は、大量のラベルのない画像または(画像、テキスト)ペアを使用して画像エンコーダを事前学習することを目的としている。 事前トレーニングされたイメージエンコーダは、少数のラベル付きトレーニングデータで下流タスクのための下流分類器を構築する機能抽出器として使用できる。 本研究では,自己教師型学習の最初のバックドア攻撃であるBadEncoderを提案する。 特に我々のbadencoderは、バックドアを事前学習したイメージエンコーダに注入し、ダウンストリームタスク用のバックドアイメージエンコーダに基づいて構築された下流の分類器が同時にバックドアの動作を継承するようにします。 我々は,BadEncoderを最適化問題として定式化し,それを解決するための勾配降下法を提案し,クリーンな画像エンコーダからバックドア画像エンコーダを生成する。 複数のデータセットに対する実験結果から,BadEncoderは下流分類器の精度を保ちながら高い攻撃成功率を達成することが示された。 また,実世界の画像エンコーダであるgoogleのイメージエンコーダをimagenetで事前学習し,openaiのコントラスト型言語画像前訓練(clip)画像エンコーダをインターネットから4億組(画像,テキスト)のペアで事前学習して,badencoderの有効性を示す。 さらに,神経洗浄やmntdなどの防御,パッチガード(証明可能な防御)についても検討した。 以上の結果から,BadEncoderに対する防衛は不十分であり,BadEncoderに対する新たな防衛の必要性を強調している。 私たちのコードは、https://github.com/j jy 1994/BadEncoder.comで公開されています。

Self-supervised learning in computer vision aims to pre-train an image encoder using a large amount of unlabeled images or (image, text) pairs. The pre-trained image encoder can then be used as a feature extractor to build downstream classifiers for many downstream tasks with a small amount of or no labeled training data. In this work, we propose BadEncoder, the first backdoor attack to self-supervised learning. In particular, our BadEncoder injects backdoors into a pre-trained image encoder such that the downstream classifiers built based on the backdoored image encoder for different downstream tasks simultaneously inherit the backdoor behavior. We formulate our BadEncoder as an optimization problem and we propose a gradient descent based method to solve it, which produces a backdoored image encoder from a clean one. Our extensive empirical evaluation results on multiple datasets show that our BadEncoder achieves high attack success rates while preserving the accuracy of the downstream classifiers. We also show the effectiveness of BadEncoder using two publicly available, real-world image encoders, i.e., Google's image encoder pre-trained on ImageNet and OpenAI's Contrastive Language-Image Pre-training (CLIP) image encoder pre-trained on 400 million (image, text) pairs collected from the Internet. Moreover, we consider defenses including Neural Cleanse and MNTD (empirical defenses) as well as PatchGuard (a provable defense). Our results show that these defenses are insufficient to defend against BadEncoder, highlighting the needs for new defenses against our BadEncoder. Our code is publicly available at: https://github.com/j jy1994/BadEncoder.
翻訳日:2021-08-04 10:09:30 公開日:2021-08-01
# (参考訳) ellipsdf:バイレベル楕円と符号付き距離関数記述による関節物体のポーズと形状最適化 [全文訳有]

ELLIPSDF: Joint Object Pose and Shape Optimization with a Bi-level Ellipsoid and Signed Distance Function Description ( http://arxiv.org/abs/2108.00355v1 )

ライセンス: CC BY 4.0
Mo Shan, Qiaojun Feng, You-Yi Jau, Nikolay Atanasov(参考訳) 自律システムは、オブジェクトレベルのタスク仕様を理解し安全に実行するために、環境の意味と幾何学を理解する必要がある。 本稿では,複数視点のRGB-Dカメラ観測からオブジェクトレベルマップを推定するための,共同オブジェクトポーズと形状最適化のための表現的かつコンパクトなモデルを提案する。 モデルは、環境中の物体のアイデンティティ、位置、方向、形状をキャプチャするので、表現力がある。 これは、暗黙のオブジェクト形状の低次元潜在表現に依存しており、大きなマルチカテゴリオブジェクトマップのオンボード保存を可能にするためコンパクトである。 単一オブジェクト表現フォーマットに依存する他の作品とは異なり、我々のアプローチは粗いレベルのスケールと細かいレベルの形状の詳細の両方をキャプチャする双レベルオブジェクトモデルを持っています。 本手法は大規模実世界のscannetデータセット上で評価し,最先端手法と比較した。

Autonomous systems need to understand the semantics and geometry of their surroundings in order to comprehend and safely execute object-level task specifications. This paper proposes an expressive yet compact model for joint object pose and shape optimization, and an associated optimization algorithm to infer an object-level map from multi-view RGB-D camera observations. The model is expressive because it captures the identities, positions, orientations, and shapes of objects in the environment. It is compact because it relies on a low-dimensional latent representation of implicit object shape, allowing onboard storage of large multi-category object maps. Different from other works that rely on a single object representation format, our approach has a bi-level object model that captures both the coarse level scale as well as the fine level shape details. Our approach is evaluated on the large-scale real-world ScanNet dataset and compared against state-of-the-art methods.
翻訳日:2021-08-04 09:36:55 公開日:2021-08-01
# (参考訳) 実用的マスキングによる社会的意味検出の改善とサロゲートファインチューニング [全文訳有]

Improving Social Meaning Detection with Pragmatic Masking and Surrogate Fine-Tuning ( http://arxiv.org/abs/2108.00356v1 )

ライセンス: CC BY 4.0
Chiyu Zhang, Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi(参考訳) Masked Language Model (MLM) は、たとえ有用であっても下流の微調整の目的とミスマッチしているとして、事前に訓練されている。 本研究では,社会的な意味のタスクに有用な幅広い概念のセットに向けて,事前学習された表現を促進するための2つの戦略として,実用的なマスキングと微調整を提案する。 提案手法をテストするため,ソーシャルな意味検出のための15種類のTwitterデータセットのベンチマークを新たに導入した。 提案手法は,マルチタスク学習や大規模データセットで事前学習したドメイン固有言語モデルといった他のトランスファー学習手法よりも優れながら,競合ベースラインよりも2.34%のf1を達成している。 トレーニングデータのわずか5%(ごく少数)で、我々の手法は68.74%の平均的なF1を印象的に実現し、3つの異なる言語の6つのデータセットを含むゼロショット設定で有望な結果を観察する。

Masked language models (MLMs) are pretrained with a denoising objective that, while useful, is in a mismatch with the objective of downstream fine-tuning. We propose pragmatic masking and surrogate fine-tuning as two strategies that exploit social cues to drive pre-trained representations toward a broad set of concepts useful for a wide class of social meaning tasks. To test our methods, we introduce a new benchmark of 15 different Twitter datasets for social meaning detection. Our methods achieve 2.34% F1 over a competitive baseline, while outperforming other transfer learning methods such as multi-task learning and domain-specific language models pretrained on large datasets. With only 5% of training data (severely few-shot), our methods enable an impressive 68.74% average F1, and we observe promising results in a zero-shot setting involving six datasets from three different languages.
翻訳日:2021-08-04 09:15:07 公開日:2021-08-01
# (参考訳) 自律走行車におけるエージェントアウェア状態推定 [全文訳有]

Agent-aware State Estimation in Autonomous Vehicles ( http://arxiv.org/abs/2108.00366v1 )

ライセンス: CC BY 4.0
Shane Parr, Ishan Khatri, Justin Svegliato, and Shlomo Zilberstein(参考訳) 自律システムは、複数のエージェントの動作が共有グローバル状態によって協調される環境で動作することが多い。 したがって、グローバル状態の信頼性の高い推定は、マルチエージェント環境での運用に成功するために重要である。 エージェントアウェア状態推定 - 環境における他のエージェントの振る舞いを観察した状態の間接的推定を計算するためのフレームワークである。 また、遷移非依存のエージェント認識状態推定(エージェント認識状態推定の抽出可能なクラス)を導入し、推論の速度が環境内のエージェントの数と線形にスケール可能であることを示す。 一例として、直接観測の完全な損失の場合の交通信号分類をモデル化する。 本手法は,複数方向からの車両の挙動の観測を考慮し,様々な擬似閉塞シナリオで設定した実世界の自動運転車データに対して,既存の交通専用HMM法よりも精度が高いことを示す。

Autonomous systems often operate in environments where the behavior of multiple agents is coordinated by a shared global state. Reliable estimation of the global state is thus critical for successfully operating in a multi-agent setting. We introduce agent-aware state estimation -- a framework for calculating indirect estimations of state given observations of the behavior of other agents in the environment. We also introduce transition-independe nt agent-aware state estimation -- a tractable class of agent-aware state estimation -- and show that it allows the speed of inference to scale linearly with the number of agents in the environment. As an example, we model traffic light classification in instances of complete loss of direct observation. By taking into account observations of vehicular behavior from multiple directions of traffic, our approach exhibits accuracy higher than that of existing traffic light-only HMM methods on a real-world autonomous vehicle data set under a variety of simulated occlusion scenarios.
翻訳日:2021-08-04 08:52:10 公開日:2021-08-01
# (参考訳) ミリ波質量MIMOシステムにおけるNOMAを用いたCNNチャネル推定 [全文訳有]

CNN based Channel Estimation using NOMA for mmWave Massive MIMO System ( http://arxiv.org/abs/2108.00367v1 )

ライセンス: CC BY 4.0
Anu T S and Tara Raveendran(参考訳) 非直交多重アクセス(NOMA)方式は、第5世代(5G)無線通信における主要な課題に対処するために積極的に検討されている。 チャネル推定は、NOMAスキームがミリ波(mmWave)の大規模マルチインプットマルチアウトプット(MIMO)システムと統合されるシナリオにおいて非常に難しい。 チャネルの正確な推定は、Duo-NOMAとmmWaveのペアリングの利点を利用するために不可欠である。 本稿では,ハイブリッドアーキテクチャ上に構築されたMIMO(Multiple-input multiple-output)システムのチャネルを推定するために,畳み込みニューラルネットワーク(CNN)に基づくアプローチを提案する。 まず、ユーザはチャネルゲインに基づいて異なるクラスタにグループ化され、ビームフォーミング技術により、所望のクラスタの方向の信号を最大化する。 まず、受信した信号からチャネルの粗い推定を行い、この推定をCNNへの入力として与え、チャネル係数を詳細に推定する。 数値図は,提案手法が最小二乗推定,最小平均二乗誤差(MMSE)推定を上回り,クラマー・ラオ境界(CRB)に近いことを示している。

Non-Orthogonal Multiple Access (NOMA) schemes are being actively explored to address some of the major challenges in 5th Generation (5G) Wireless communications. Channel estimation is exceptionally challenging in scenarios where NOMA schemes are integrated with millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems. An accurate estimation of the channel is essential in exploiting the benefits of the pairing of the duo-NOMA and mmWave. This paper proposes a convolutional neural network (CNN) based approach to estimate the channel for NOMA based millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems built on a hybrid architecture. Initially, users are grouped into different clusters based on their channel gains and beamforming technique is performed to maximize the signal in the direction of desired cluster. A coarse estimation of the channel is first made from the received signal and this estimate is given as the input to CNN to fine estimate the channel coefficients. Numerical illustrations show that the proposed method outperforms least square (LS) estimate, minimum mean square error (MMSE) estimate and are close to the Cramer-Rao Bound (CRB).
翻訳日:2021-08-04 08:39:12 公開日:2021-08-01
# (参考訳) いつ辞めるかを知る:リアルタイム顔アライメントのためのパッチアライメントによる選択的カスケード回帰 [全文訳有]

Knowing When to Quit: Selective Cascaded Regression with Patch Attention for Real-Time Face Alignment ( http://arxiv.org/abs/2108.00377v1 )

ライセンス: CC0 1.0
Gil Shapira, Noga Levy, Ishay Goldin, Roy J. Jevnisek(参考訳) 顔のランドマーク(FLM)推定は多くの顔関連アプリケーションにおいて重要な要素である。 本研究では,精度と速度の両方を最適化し,両者のトレードオフを探究する。 私たちの重要な観察は、すべての顔が等しく作られるわけではないということです。 中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束する。 サンプルを区別するために、各反復後の回帰誤差を予測するためにモデルを訓練する。 現在のイテレーションが十分に正確であれば、反復をやめ、冗長なイテレーションを節約し、精度を保ちます。 また、隣り合うパッチが重なるにつれて、少数のパッチしか持たないすべての顔ランドマーク(flm)を、大きな正確さを犠牲にすることなく推測できることも観察した。 アーキテクチャ的には,パッチ自体の情報に応じてパッチ重み付けを計算し,パッチ機能の表現力を高める,細粒度の局所パッチアテンションモジュールを備えた,マルチスケールでパッチベース,軽量な機能抽出器を提供する。 本研究は,顔のランドマークを回帰する際に,モデルがどこに出席しているかを推定するためにパッチアテンションデータを解析し,人間の顔アテンションと比較する。 我々のモデルはモバイルデバイスGPU上でリアルタイムに動作し、95Mega Multiply-Add(MMA)演算で1000MMA未満の最先端メソッドをすべて上回り、300W挑戦データセットでは平均エラーが8.16である。

Facial landmarks (FLM) estimation is a critical component in many face-related applications. In this work, we aim to optimize for both accuracy and speed and explore the trade-off between them. Our key observation is that not all faces are created equal. Frontal faces with neutral expressions converge faster than faces with extreme poses or expressions. To differentiate among samples, we train our model to predict the regression error after each iteration. If the current iteration is accurate enough, we stop iterating, saving redundant iterations while keeping the accuracy in check. We also observe that as neighboring patches overlap, we can infer all facial landmarks (FLMs) with only a small number of patches without a major accuracy sacrifice. Architecturally, we offer a multi-scale, patch-based, lightweight feature extractor with a fine-grained local patch attention module, which computes a patch weighting according to the information in the patch itself and enhances the expressive power of the patch features. We analyze the patch attention data to infer where the model is attending when regressing facial landmarks and compare it to face attention in humans. Our model runs in real-time on a mobile device GPU, with 95 Mega Multiply-Add (MMA) operations, outperforming all state-of-the-art methods under 1000 MMA, with a normalized mean error of 8.16 on the 300W challenging dataset.
翻訳日:2021-08-04 08:31:03 公開日:2021-08-01
# (参考訳) 前景セグメンテーションのための視覚境界知識翻訳 [全文訳有]

Visual Boundary Knowledge Translation for Foreground Segmentation ( http://arxiv.org/abs/2108.00379v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Lechao Cheng, Xinchao Wang, Xiang Wang, Yajie Liu, Xiangtong Du, Mingli Song(参考訳) 画像の中の未知のタイプのオブジェクトと向き合うと、人間は視覚の境界を無力かつ正確に伝えることができる。 この認識機構と基礎となる一般化能力は、大規模カテゴリアノテートトレーニングサンプルに依存する最先端の画像セグメンテーションネットワークとは対照的である。 本稿では,視覚境界知識を明示的に考慮したモデルの構築を試みた。 具体的には,境界知識翻訳(BKT)と呼ばれる新しいタスクについて検討する。 完全なラベル付きカテゴリのセットを与えられたBKTは、ラベル付きカテゴリから学んだ視覚境界知識を、ラベル付きサンプルのみを提供する新しいカテゴリのセットに変換することを目的としている。 そこで本研究では,セグメンテーションネットワークと2つの境界識別器からなる翻訳セグメンテーションネットワーク(Trans-Net)を提案する。 境界認識自己監視機構と組み合わされたセグメンテーションネットワークは、前景セグメンテーションを行うように考案され、一方2つの判別器は、光監督下で新しいカテゴリの正確なセグメンテーションを保証するために、逆向きに協調して動作する。 探索実験では、数十のラベル付きサンプルのみをガイダンスとして、Trans-Netは完全な教師付き手法と同等に密接な結果が得られることを示した。

When confronted with objects of unknown types in an image, humans can effortlessly and precisely tell their visual boundaries. This recognition mechanism and underlying generalization capability seem to contrast to state-of-the-art image segmentation networks that rely on large-scale category-aware annotated training samples. In this paper, we make an attempt towards building models that explicitly account for visual boundary knowledge, in hope to reduce the training effort on segmenting unseen categories. Specifically, we investigate a new task termed as Boundary Knowledge Translation (BKT). Given a set of fully labeled categories, BKT aims to translate the visual boundary knowledge learned from the labeled categories, to a set of novel categories, each of which is provided only a few labeled samples. To this end, we propose a Translation Segmentation Network (Trans-Net), which comprises a segmentation network and two boundary discriminators. The segmentation network, combined with a boundary-aware self-supervised mechanism, is devised to conduct foreground segmentation, while the two discriminators work together in an adversarial manner to ensure an accurate segmentation of the novel categories under light supervision. Exhaustive experiments demonstrate that, with only tens of labeled samples as guidance, Trans-Net achieves close results on par with fully supervised methods.
翻訳日:2021-08-04 08:18:10 公開日:2021-08-01
# (参考訳) 限定ラベルを用いたエッジ競合病的肝血管分画 [全文訳有]

Edge-competing Pathological Liver Vessel Segmentation with Limited Labels ( http://arxiv.org/abs/2108.00384v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Zhonghua Wang, Xinchao Wang, Xiuming Zhang, Lechao Cheng, Jie Lei, Yuexuan Wang, Mingli Song(参考訳) 微小血管浸潤(MVI)は肝細胞癌の主要な予後因子であり,最も死亡率の高い悪性腫瘍の1つである。 MVIの診断には、肝細胞癌細胞を含む血管を発見し、医師の経験に大きく依存する各血管の数をカウントする必要があるが、主に主観的で時間を要する。 しかし,病理像からのMVI検出に適したアルゴリズムは存在しない。 本稿では,血管,mvi,肝細胞癌を分類した522個のスライド画像を含む最初の病理肝画像データセットを収集した。 MVIを自動診断する第1のステップは、正確な血管分割である。 超大サイズ、マルチスケール血管、ぼやけた血管縁などの病的肝臓画像の特異な特徴は、正確な血管分割を困難にする。 収集したデータセットに基づいて,セグメント化ネットワークと2つのエッジセグメント判別器を含むエッジ競合容器セグメンテーションネットワーク(evs-net)を提案する。 エッジアウェアの自己スーパービジョン機構と組み合わされたセグメンテーションネットワークは、制限されたラベル付きパッチで容器セグメンテーションを行うために考案された。 一方,2つの判別器を導入して,分断された容器と背景が相反的に残存した特徴を含むか否かを判別する。 訓練段階では、エッジの予測位置を比較できる2つの判別器が考案される。 徹底的な実験により、ラベル付きパッチのみを伴って、evs-netは完全に監督された方法の密接な性能を実現し、病的肝血管分画に便利なツールを提供することが示されている。 コードはhttps://github.com/z ju-vipa/EVS-Netで公開されている。

The microvascular invasion (MVI) is a major prognostic factor in hepatocellular carcinoma, which is one of the malignant tumors with the highest mortality rate. The diagnosis of MVI needs discovering the vessels that contain hepatocellular carcinoma cells and counting their number in each vessel, which depends heavily on experiences of the doctor, is largely subjective and time-consuming. However, there is no algorithm as yet tailored for the MVI detection from pathological images. This paper collects the first pathological liver image dataset containing 522 whole slide images with labels of vessels, MVI, and hepatocellular carcinoma grades. The first and essential step for the automatic diagnosis of MVI is the accurate segmentation of vessels. The unique characteristics of pathological liver images, such as super-large size, multi-scale vessel, and blurred vessel edges, make the accurate vessel segmentation challenging. Based on the collected dataset, we propose an Edge-competing Vessel Segmentation Network (EVS-Net), which contains a segmentation network and two edge segmentation discriminators. The segmentation network, combined with an edge-aware self-supervision mechanism, is devised to conduct vessel segmentation with limited labeled patches. Meanwhile, two discriminators are introduced to distinguish whether the segmented vessel and background contain residual features in an adversarial manner. In the training stage, two discriminators are devised tocompete for the predicted position of edges. Exhaustive experiments demonstrate that, with only limited labeled patches, EVS-Net achieves a close performance of fully supervised methods, which provides a convenient tool for the pathological liver vessel segmentation. Code is publicly available at https://github.com/z ju-vipa/EVS-Net.
翻訳日:2021-08-04 08:00:38 公開日:2021-08-01
# (参考訳) 文字レベル情報を用いたトークンベースのエンコーダの強化 [全文訳有]

Learning to Look Inside: Augmenting Token-Based Encoders with Character-Level Information ( http://arxiv.org/abs/2108.00391v1 )

ライセンス: CC BY-SA 4.0
Yuval Pinter, Amanda Stent, Mark Dredze, Jacob Eisenstein(参考訳) 一般的に使用されるトランスフォーマー言語モデルは、事前トレーニングの前に変更不能なサブワード語彙を設定するトークン化スキーマに依存しており、ドメインシフト、新規な単語形成、その他の語彙ミスマッチのソースに関係なく、すべての下流タスクに適用される。 近年の研究では、"token-free"モデルは文字やバイトで直接トレーニングできることが示されているが、これらのモデルをスクラッチからトレーニングするにはかなりの計算資源が必要である。 本稿では,既存のトークンベースモデルに文字レベルの情報を加える手法であるXRayEmbを提案する。 xrayembは、文字列のベクトル表現を計算する文字レベルの「エンコーダ」と、その内部表現から文字配列へ復号する生成成分から構成されている。 我々は,XRayEmbの学習ベクトルを事前学習したトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習型トランスフォーマーアーキテクチャ,およびシーケンシャルレベルおよびシーケンスタグタスク,特に非標準英語テキストの性能向上に役立つことを示す。

Commonly-used transformer language models depend on a tokenization schema which sets an unchangeable subword vocabulary prior to pre-training, destined to be applied to all downstream tasks regardless of domain shift, novel word formations, or other sources of vocabulary mismatch. Recent work has shown that "token-free" models can be trained directly on characters or bytes, but training these models from scratch requires substantial computational resources, and this implies discarding the many domain-specific models that were trained on tokens. In this paper, we present XRayEmb, a method for retrofitting existing token-based models with character-level information. XRayEmb is composed of a character-level "encoder" that computes vector representations of character sequences, and a generative component that decodes from the internal representation to a character sequence. We show that incorporating XRayEmb's learned vectors into sequences of pre-trained token embeddings helps performance on both autoregressive and masked pre-trained transformer architectures and on both sequence-level and sequence tagging tasks, particularly on non-standard English text.
翻訳日:2021-08-04 07:43:51 公開日:2021-08-01
# (参考訳) 自律システム組み込みGPUプラットフォームへの展開のためのYOLOv4に基づく圧縮対象検出モデルの開発 [全文訳有]

Developing a Compressed Object Detection Model based on YOLOv4 for Deployment on Embedded GPU Platform of Autonomous System ( http://arxiv.org/abs/2108.00392v1 )

ライセンス: CC BY 4.0
Issac Sim, Ju-Hyung Lim, Young-Wan Jang, JiHwan You, SeonTaek Oh, and Young-Keun Kim(参考訳) 最新のCNNベースのオブジェクト検出モデルは極めて正確だが、リアルタイムに実行するには高性能GPUが必要である。 メモリ容量が限られている組み込みシステムでは、メモリサイズと速度の面で依然として重い。 自律システムの物体検出は組み込みプロセッサ上で実行されるため、検出精度を維持しつつ、検出ネットワークをできるだけ光として圧縮することが好ましい。 一般的な軽量検出モデルがいくつかあるが、安全運転アプリケーションには精度が低すぎる。 そこで本研究では,自律システム上でのリアルタイムかつ安全な運転用アプリケーションの精度損失を最小限に抑えつつ,高い比で圧縮されたYOffleNetと呼ばれる新しい物体検出モデルを提案する。 バックボーンネットワークアーキテクチャはYOLOv4に基づいているが、高計算負荷のCSP DenseNetをShuffleNetの軽量モジュールに置き換えることで、ネットワークを大幅に圧縮できる。 kittiデータセットを用いた実験では、組込みgpuシステム(nvidia jetson agx xavier)上で46fpsの高速化が可能なyolov4-sよりも4.7倍圧縮された。 高圧縮比と比較して、精度は85.8% mAPにわずかに低下し、YOLOv4-sよりわずか2.6%低い。 そこで提案したネットワークは,リアルタイムかつ高精度な物体検出アプリケーションのために,自律システムの組み込みシステムに展開する可能性が高いことを示した。

Latest CNN-based object detection models are quite accurate but require a high-performance GPU to run in real-time. They still are heavy in terms of memory size and speed for an embedded system with limited memory space. Since the object detection for autonomous system is run on an embedded processor, it is preferable to compress the detection network as light as possible while preserving the detection accuracy. There are several popular lightweight detection models but their accuracy is too low for safe driving applications. Therefore, this paper proposes a new object detection model, referred as YOffleNet, which is compressed at a high ratio while minimizing the accuracy loss for real-time and safe driving application on an autonomous system. The backbone network architecture is based on YOLOv4, but we could compress the network greatly by replacing the high-calculation-loa d CSP DenseNet with the lighter modules of ShuffleNet. Experiments with KITTI dataset showed that the proposed YOffleNet is compressed by 4.7 times than the YOLOv4-s that could achieve as fast as 46 FPS on an embedded GPU system(NVIDIA Jetson AGX Xavier). Compared to the high compression ratio, the accuracy is reduced slightly to 85.8% mAP, that is only 2.6% lower than YOLOv4-s. Thus, the proposed network showed a high potential to be deployed on the embedded system of the autonomous system for the real-time and accurate object detection applications.
翻訳日:2021-08-04 07:25:11 公開日:2021-08-01
# (参考訳) ディープグラフマッチングは、混合整数線形プログラミングと合致する - 自分のリスクでリラックスするか?

Deep graph matching meets mixed-integer linear programming: Relax at your own risk ? ( http://arxiv.org/abs/2108.00394v1 )

ライセンス: CC BY 4.0
Zhoubo Xu, Puqing Chen, Romain Raveaux, Xin Yang, Huadong Liu(参考訳) グラフマッチングは、特にコンピュータビジョンの分野で広く注目を集めている重要な問題である。 近年,最先端の手法が深層学習にグラフマッチングを取り入れようとしている。 しかし、グラフマッチングアルゴリズムがモデルでどのような役割を果たすのかを説明する研究はない。 そこで本研究では,グラフマッチング問題のMILP定式化を統合するアプローチを提案する。 この定式化は最適に解かれ、固有のベースラインを提供する。 一方、グラフマッチングソルバの最適保証を解放し、品質レベルを導入することにより、同様のアプローチが導出される。 この品質レベルは、グラフマッチング解決器によって提供されるソリューションの品質を制御する。 さらに、グラフマッチング問題のいくつかの緩和をテストに適用する。 実験により,いくつかの理論的知見が得られ,深部グラフマッチング手法の方向性を導出する。

Graph matching is an important problem that has received widespread attention, especially in the field of computer vision. Recently, state-of-the-art methods seek to incorporate graph matching with deep learning. However, there is no research to explain what role the graph matching algorithm plays in the model. Therefore, we propose an approach integrating a MILP formulation of the graph matching problem. This formulation is solved to optimal and it provides inherent baseline. Meanwhile, similar approaches are derived by releasing the optimal guarantee of the graph matching solver and by introducing a quality level. This quality level controls the quality of the solutions provided by the graph matching solver. In addition, several relaxations of the graph matching problem are put to the test. Our experimental evaluation gives several theoretical insights and guides the direction of deep graph matching methods.
翻訳日:2021-08-04 06:49:33 公開日:2021-08-01
# (参考訳) BORM:屋内シーン認識のためのベイズオブジェクト関係モデル [全文訳有]

BORM: Bayesian Object Relation Model for Indoor Scene Recognition ( http://arxiv.org/abs/2108.00397v1 )

ライセンス: CC BY 4.0
Liguang Zhou, Jun Cen, Xingchao Wang, Zhenglong Sun, Tin Lun Lam, Yangsheng Xu(参考訳) シーン認識はロボット知覚の基本的なタスクである。 人間にとって、シーン認識は、現実世界のオブジェクト知識が豊富にあるため合理的である。 事前のオブジェクト知識を人間からシーン認識に転送するというアイデアは重要であるが、それでもあまり役に立たない。 本稿では,室内シーン表現に有意義なオブジェクト表現を用いることを提案する。 まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入する。 対象の共起や対関係を解析するために,ベイズ的対象関係モデル(BORM)としてベイズ的視点からIOMを定式化する。 一方,提案手法はシーン認識のためのベイズ対象関係モデル (cborm) としてplacescnnモデルに組み込まれ, 削減されたplaces365データセット, sun rgb-dデータセットにおいて, 再トレーニングを行わず, 最先端の手法を著しく上回っている。 コードはhttps://github.com/h szhoushen/borm.orgにある。

Scene recognition is a fundamental task in robotic perception. For human beings, scene recognition is reasonable because they have abundant object knowledge of the real world. The idea of transferring prior object knowledge from humans to scene recognition is significant but still less exploited. In this paper, we propose to utilize meaningful object representations for indoor scene representation. First, we utilize an improved object model (IOM) as a baseline that enriches the object knowledge by introducing a scene parsing algorithm pretrained on the ADE20K dataset with rich object categories related to the indoor scene. To analyze the object co-occurrences and pairwise object relations, we formulate the IOM from a Bayesian perspective as the Bayesian object relation model (BORM). Meanwhile, we incorporate the proposed BORM with the PlacesCNN model as the combined Bayesian object relation model (CBORM) for scene recognition and significantly outperforms the state-of-the-art methods on the reduced Places365 dataset, and SUN RGB-D dataset without retraining, showing the excellent generalization ability of the proposed method. Code can be found at https://github.com/h szhoushen/borm.
翻訳日:2021-08-04 06:48:40 公開日:2021-08-01
# (参考訳) 中国語注釈文の感性分析のためのトランスフォーマーエンコーダGRU(T-E-GRU) [全文訳有]

Transformer-Encoder- GRU (T-E-GRU) for Chinese Sentiment Analysis on Chinese Comment Text ( http://arxiv.org/abs/2108.00400v1 )

ライセンス: CC BY 4.0
Binlong Zhang, Wei Zhou(参考訳) 中国語感情分析(csa)は、その複雑さと不確実性から、自然言語処理における課題の1つである。 トランスフォーマは意味的特徴をキャプチャすることに成功しているが、シーケンス特徴をキャプチャするために位置符号化を使用するため、リカレントモデルに比べて大きな欠点がある。 本稿では, トランスフォーマーエンコーダとGRUを組み合わせた中国語感情分析のためのT-E-GRUを提案する。 我々は中国の3つのコメントデータセットの実験を行った。 中国語のコメントテキストにおける句読点の混同を考慮し,文節化能力のある句読点を選択的に保持する。 実験結果から,T-E-GRUは古典的再帰モデルおよび再帰モデルよりも注目度が高いことがわかった。

Chinese sentiment analysis (CSA) has always been one of the challenges in natural language processing due to its complexity and uncertainty. Transformer has succeeded in capturing semantic features, but it uses position encoding to capture sequence features, which has great shortcomings compared with the recurrent model. In this paper, we propose T-E-GRU for Chinese sentiment analysis, which combine transformer encoder and GRU. We conducted experiments on three Chinese comment datasets. In view of the confusion of punctuation marks in Chinese comment texts, we selectively retain some punctuation marks with sentence segmentation ability. The experimental results show that T-E-GRU outperforms classic recurrent model and recurrent model with attention.
翻訳日:2021-08-04 06:30:42 公開日:2021-08-01
# (参考訳) 基本セルオートマタの計算階層 [全文訳有]

Computational Hierarchy of Elementary Cellular Automata ( http://arxiv.org/abs/2108.00415v1 )

ライセンス: CC BY 4.0
Barbora Hudcov\'a and Tom\'a\v{s} Mikolov(参考訳) セルオートマタの複雑さは、伝統的に計算能力によって測定される。 しかし、そのようなシステムの並列性に適した難解な計算タスクを選択することは困難である。 私たちはオートマトンが互いにエミュレートする能力を研究し、この概念を使って自然に出現するタスクの集合を定義します。 本研究は,基本的なセルオートマトンについて述べるが,コアアイデアは他の計算システムにも拡張できる。 我々は,どのセルオートマトンをエミュレートできるかを示すグラフを計算し,カオスオートマトンだけが非自明にオートマトンをエミュレートできないことを示す。 最後に,エミュレーションの概念を用いて,離散計算システムに適したカオスの定義を提案する。 我々の研究は、チューリング完全かつ計算効率のよい並列計算システムの設計に役立つと信じている。

The complexity of cellular automata is traditionally measured by their computational capacity. However, it is difficult to choose a challenging set of computational tasks suitable for the parallel nature of such systems. We study the ability of automata to emulate one another, and we use this notion to define such a set of naturally emerging tasks. We present the results for elementary cellular automata, although the core ideas can be extended to other computational systems. We compute a graph showing which elementary cellular automata can be emulated by which and show that certain chaotic automata are the only ones that cannot emulate any automata non-trivially. Finally, we use the emulation notion to suggest a novel definition of chaos that we believe is suitable for discrete computational systems. We believe our work can help design parallel computational systems that are Turing-complete and also computationally efficient.
翻訳日:2021-08-04 06:18:24 公開日:2021-08-01
# (参考訳) 精密農業用エッジ上のDNNによる害虫の自動検出 [全文訳有]

Automated Pest Detection with DNN on the Edge for Precision Agriculture ( http://arxiv.org/abs/2108.00421v1 )

ライセンス: CC BY-SA 4.0
Andrea Albanese, Matteo Nardello, and Davide Brunelli(参考訳) 人工知能は、農業分野を含むいくつかの経済活動、特にアプリケーションの監視と制御をスムーズに推進してきた。 しかし、完全に機能する機械学習(ML)を搭載した低消費電力センシングデバイスの研究は、スマート農業において依然として断片化され、制限されている。 生物ストレスは作物の収量減少の主な原因の1つである。 コンピュータビジョン技術におけるディープラーニングの開発により、画像による害虫感染の自律的検出は、タイムリーな作物病診断の重要な研究方向となっている。 本稿では,果実果樹園内の害虫感染を連続的に検出し,ml機能を強化した組込みシステムを提案する。 組み込みソリューションは低消費電力の組み込みセンシングシステムとNeural Acceleratorを使って、一般的なフェロモンベースのトラップ内で画像をキャプチャして処理することができる。 3つの異なるMLアルゴリズムがトレーニングされ、デプロイされ、プラットフォームの能力を強調している。 さらに, エネルギー収穫機能の統合により, 電池寿命の延長が図られている。 その結果,農夫の介入なしに無期限に害虫感染処理を自動化できることが示唆された。

Artificial intelligence has smoothly penetrated several economic activities, especially monitoring and control applications, including the agriculture sector. However, research efforts toward low-power sensing devices with fully functional machine learning (ML) on-board are still fragmented and limited in smart farming. Biotic stress is one of the primary causes of crop yield reduction. With the development of deep learning in computer vision technology, autonomous detection of pest infestation through images has become an important research direction for timely crop disease diagnosis. This paper presents an embedded system enhanced with ML functionalities, ensuring continuous detection of pest infestation inside fruit orchards. The embedded solution is based on a low-power embedded sensing system along with a Neural Accelerator able to capture and process images inside common pheromone-based traps. Three different ML algorithms have been trained and deployed, highlighting the capabilities of the platform. Moreover, the proposed approach guarantees an extended battery life thanks to the integration of energy harvesting functionalities. Results show how it is possible to automate the task of pest infestation for unlimited time without the farmer's intervention.
翻訳日:2021-08-04 06:06:15 公開日:2021-08-01
# (参考訳) 逆注意と条件層正規化を用いたテキストスタイル転送におけるコンテンツ保存の強化 [全文訳有]

Enhancing Content Preservation in Text Style Transfer Using Reverse Attention and Conditional Layer Normalization ( http://arxiv.org/abs/2108.00449v1 )

ライセンス: CC0 1.0
Dongkyu Lee, Zhiliang Tian, Lanqing Xue, Nevin L. Zhang(参考訳) テキストスタイル転送は、文章の内容を維持しながら文のスタイル(例えば感情)を変更することを目的としている。 一般的なアプローチは、与えられた文をスタイルのないコンテンツ表現にマッピングすることであり、コンテンツ表現はターゲットスタイルを持つデコーダに供給される。 従来のフィルタリング方式では、トークンレベルでのスタイルによるトークンを完全に取り除いたため、コンテンツ情報が失われる。 本稿では,各トークンのスタイル情報を逆注意で暗黙的に削除することにより,コンテンツの保存性を高めることを提案する。 さらに、対象のスタイル表現を構築する際にコンテンツ情報を融合し、コンテンツに関して動的にする。 本手法は,スタイル非依存のコンテンツ表現だけでなく,転送スタイルにおけるコンテンツ依存のスタイル表現も生成する。 実験の結果,本手法はコンテンツ保存の点で最先端のベースラインよりも高いマージンを示した。 加えて、スタイル転送の正確さとフラレンシーの面でも競争力がある。

Text style transfer aims to alter the style (e.g., sentiment) of a sentence while preserving its content. A common approach is to map a given sentence to content representation that is free of style, and the content representation is fed to a decoder with a target style. Previous methods in filtering style completely remove tokens with style at the token level, which incurs the loss of content information. In this paper, we propose to enhance content preservation by implicitly removing the style information of each token with reverse attention, and thereby retain the content. Furthermore, we fuse content information when building the target style representation, making it dynamic with respect to the content. Our method creates not only style-independent content representation, but also content-dependent style representation in transferring style. Empirical results show that our method outperforms the state-of-the-art baselines by a large margin in terms of content preservation. In addition, it is also competitive in terms of style transfer accuracy and fluency.
翻訳日:2021-08-04 05:45:12 公開日:2021-08-01
# (参考訳) 局所注意認識機能を用いた自己教師付き学習 [全文訳有]

Self-supervised Learning with Local Attention-Aware Feature ( http://arxiv.org/abs/2108.00475v1 )

ライセンス: CC BY 4.0
Trung X. Pham, Rusty John Lloyd Mina, Dias Issa, Chang D. Yoo(参考訳) 本研究では,グローバル・ローカル・アウェアな視覚特徴を生成するための自己教師型学習手法を提案する。 我々のアプローチは、入力サンプルの特定の画像変換とパッチ画像との区別をモデルで訓練することに基づいている。 このアプローチを利用して、提案手法は、tiny-imagenetデータセットで1.03%、stl-10データセットで2.32%、以前のベストコンペティタを上回ることができる。 さらに,本手法は,STL-10データセットの完全教師付き学習法よりも優れている。 実験結果と可視化は,グローバルおよびローカルな注意認識型視覚表現の学習に成功していることを示す。

In this work, we propose a novel methodology for self-supervised learning for generating global and local attention-aware visual features. Our approach is based on training a model to differentiate between specific image transformations of an input sample and the patched images. Utilizing this approach, the proposed method is able to outperform the previous best competitor by 1.03% on the Tiny-ImageNet dataset and by 2.32% on the STL-10 dataset. Furthermore, our approach outperforms the fully-supervised learning method on the STL-10 dataset. Experimental results and visualizations show the capability of successfully learning global and local attention-aware visual representations.
翻訳日:2021-08-04 05:32:25 公開日:2021-08-01
# (参考訳) 実現されたボラティリティ予測:金融用語埋め込みによる機械学習

Realised Volatility Forecasting: Machine Learning via Financial Word Embedding ( http://arxiv.org/abs/2108.00480v1 )

ライセンス: CC BY 4.0
Eghbal Rahimikia, Stefan Zohren, Ser-Huang Poon(参考訳) 我々は、dow jones newswiresのテキストニュースフィードデータベースから、最新の金融用語を埋め込んだfintextを開発した。 この単語を機械学習モデルに組み込むことで、2007年7月27日から2016年11月18日までの23株のボラティリティー上昇日におけるボラティリティ予測性能が大幅に向上した。 単語埋め込みとリミットオーダーブックデータを用いた別の機械学習モデルを組み合わせた単純なアンサンブルモデルにより、通常とジャンプの変動日の両方で最高の予測性能が得られる。 最後に,統合勾配とshap(shapley additive descriptions)を用いて,結果をより説明しやすくし,モデル比較をより透明にする。

We develop FinText, a novel, state-of-the-art, financial word embedding from Dow Jones Newswires Text News Feed Database. Incorporating this word embedding in a machine learning model produces a substantial increase in volatility forecasting performance on days with volatility jumps for 23 NASDAQ stocks from 27 July 2007 to 18 November 2016. A simple ensemble model, combining our word embedding and another machine learning model that uses limit order book data, provides the best forecasting performance for both normal and jump volatility days. Finally, we use Integrated Gradients and SHAP (SHapley Additive exPlanations) to make the results more 'explainable' and the model comparisons more transparent.
翻訳日:2021-08-04 05:24:48 公開日:2021-08-01
# (参考訳) BundleTrack: インスタンスやカテゴリレベルの3Dモデルのない新しいオブジェクトのための6D Pose Tracking [全文訳有]

BundleTrack: 6D Pose Tracking for Novel Objects without Instance or Category-Level 3D Models ( http://arxiv.org/abs/2108.00516v1 )

ライセンス: CC BY 4.0
Bowen Wen and Kostas Bekris(参考訳) ビデオシーケンス中の物体の6Dポーズを追跡することはロボット操作にとって重要である。 しかしながら、ほとんどの以前の取り組みは、ターゲットオブジェクトのCADモデル(少なくともカテゴリレベル)がオフライントレーニングやオンラインテンプレートマッチングで利用できるとしばしば想定している。 この研究は、3dモデルに依存しない新しいオブジェクトの6dポーズトラッキングのための一般的なフレームワークである bundletrack を提案している。 セグメンテーションとロバストな特徴抽出のためのディープラーニングの最近の進歩の補完的属性と、時空間的一貫性のためのメモリによるポーズグラフ最適化を活用する。 これにより、大きな閉塞や物体の動きなど、様々な困難なシナリオ下での長期の低ドリフト追跡が可能になる。 2つの公開ベンチマークによる総合的な実験により、提案手法は最先端のカテゴリーレベルの6D追跡法や動的SLAM法よりも大幅に優れていることが示された。 オブジェクトインスタンスCADモデルに依存する最先端の手法と比較すると,提案手法では情報要求が減っているにもかかわらず,同等の性能が得られる。 CUDAの効率的な実装は、フレームワーク全体に対して10Hzのリアルタイムパフォーマンスを提供する。 https://github.com/w enbowen123/bundletra ck

Tracking the 6D pose of objects in video sequences is important for robot manipulation. Most prior efforts, however, often assume that the target object's CAD model, at least at a category-level, is available for offline training or during online template matching. This work proposes BundleTrack, a general framework for 6D pose tracking of novel objects, which does not depend upon 3D models, either at the instance or category-level. It leverages the complementary attributes of recent advances in deep learning for segmentation and robust feature extraction, as well as memory-augmented pose graph optimization for spatiotemporal consistency. This enables long-term, low-drift tracking under various challenging scenarios, including significant occlusions and object motions. Comprehensive experiments given two public benchmarks demonstrate that the proposed approach significantly outperforms state-of-art, category-level 6D tracking or dynamic SLAM methods. When compared against state-of-art methods that rely on an object instance CAD model, comparable performance is achieved, despite the proposed method's reduced information requirements. An efficient implementation in CUDA provides a real-time performance of 10Hz for the entire framework. Code is available at: https://github.com/w enbowen123/BundleTra ck
翻訳日:2021-08-04 05:23:25 公開日:2021-08-01
# (参考訳) RNNで必要なのはゲートではない [全文訳有]

Gates are not what you need in RNNs ( http://arxiv.org/abs/2108.00527v1 )

ライセンス: CC BY 4.0
Ronalds Zakovskis, Andis Draguns, Eliza Gaile, Emils Ozolins, Karlis Freivalds(参考訳) リカレントニューラルネットワークは多くの領域で盛んである。 その結果、新しいRNN細胞は、通常、新しいオリジナルな方法でゲートを作成したり使用したりすることで、継続的に開発される。 しかし、もしRNNのゲートが冗長であると言ったらどうでしょう? 本稿では,従来のセルに勝って1つのゲートを使わないResidual Recurrent Unit(RRU)と呼ばれる新しいリカレントセルを提案する。 これは、線形変換、ReLU、正規化と共に、残りのショートカット接続に基づいている。 このセルの有効性を評価するために,多声楽曲のモデル化,言語モデル,感情分析など,最近提案されたモグラファイタlstmとの比較を行った。 実験の結果,RRUは従来のゲートユニットよりも優れていることがわかった。 また、パラメータ選択に対する堅牢性も向上し、チューニングをあまり行わずに、新しいタスクに即座に適用できる。 TensorFlowでRRUを実装しており、コードはhttps://github.com/L UMII-Syslab/RRUで公開されている。

Recurrent neural networks have flourished in many areas. Consequently, we can see new RNN cells being developed continuously, usually by creating or using gates in a new, original way. But what if we told you that gates in RNNs are redundant? In this paper, we propose a new recurrent cell called Residual Recurrent Unit (RRU) which beats traditional cells and does not employ a single gate. It is based on the residual shortcut connection together with linear transformations, ReLU, and normalization. To evaluate our cell's effectiveness, we compare its performance against the widely-used GRU and LSTM cells and the recently proposed Mogrifier LSTM on several tasks including, polyphonic music modeling, language modeling, and sentiment analysis. Our experiments show that RRU outperforms the traditional gated units on most of these tasks. Also, it has better robustness to parameter selection, allowing immediate application in new tasks without much tuning. We have implemented the RRU in TensorFlow, and the code is made available at https://github.com/L UMII-Syslab/RRU .
翻訳日:2021-08-04 05:06:11 公開日:2021-08-01
# (参考訳) mmWaveネットワークにおけるスケジューリングのための強化学習手法 [全文訳有]

A Reinforcement Learning Approach for Scheduling in mmWave Networks ( http://arxiv.org/abs/2108.00548v1 )

ライセンス: CC BY 4.0
Mine Gokce Dogan, Yahya H. Ezzeldin, Christina Fragouli, Addison W. Bohannon(参考訳) 我々は、リンクがブロックされ、ノードが故障する(例えば、敵対的な軍事環境において)mmWaveネットワーク上で、所望の速度で通信したいソースを考察する。 本稿では,リンク容量やネットワークトポロジの知識を使わずに,ネットワーク内の情報フローに適応する,最先端のsoft actor-critic (sac) 深層強化学習アルゴリズムについて検討する。 数値評価の結果,本アルゴリズムは動的環境においても所望の速度を達成でき,ブロッキングに対して頑健であることがわかった。

We consider a source that wishes to communicate with a destination at a desired rate, over a mmWave network where links are subject to blockage and nodes to failure (e.g., in a hostile military environment). To achieve resilience to link and node failures, we here explore a state-of-the-art Soft Actor-Critic (SAC) deep reinforcement learning algorithm, that adapts the information flow through the network, without using knowledge of the link capacities or network topology. Numerical evaluations show that our algorithm can achieve the desired rate even in dynamic environments and it is robust against blockage.
翻訳日:2021-08-04 04:52:28 公開日:2021-08-01
# (参考訳) cybonto: サイバーセキュリティのための人間認知デジタル双子を目指して [全文訳有]

Cybonto: Towards Human Cognitive Digital Twins for Cybersecurity ( http://arxiv.org/abs/2108.00551v1 )

ライセンス: CC BY 4.0
Tam N. Nguyen(参考訳) サイバー防御は反応し、遅い。 平均して、time-to-remedyはtime-to-compromiseの数百倍大きい。 ますます複雑化する脅威の状況に対して、Digital Twins(DT)や、特にHuman Digital Twins(HDT)は、複数の知識ドメインにわたって大規模なシミュレーションを実行する機能を提供する。 シミュレートされた結果は、敵の行動や戦術についての洞察を与え、より積極的なサイバー防衛戦略をもたらす。 本稿では,Cybonto概念フレームワークの提案を通じて,サイバーセキュリティのためのDTとHDTのビジョンを初めて固める。 この論文はシボントオントロジーにも貢献し、20のタイムテスト心理学理論に基づく108の構成要素と数千の認知関連パスを公式に文書化している。 最後に,108構造体の解析に20のネットワーク集中アルゴリズムを適用した。 識別されたトップ10の構成物は、dtの未来に向けて現在のデジタル認知アーキテクチャの拡張を要求する。

Cyber defense is reactive and slow. On average, the time-to-remedy is hundreds of times larger than the time-to-compromise. In response to the expanding ever-more-complex threat landscape, Digital Twins (DTs) and particularly Human Digital Twins (HDTs) offer the capability of running massive simulations across multiple knowledge domains. Simulated results may offer insights into adversaries' behaviors and tactics, resulting in better proactive cyber-defense strategies. For the first time, this paper solidifies the vision of DTs and HDTs for cybersecurity via the Cybonto conceptual framework proposal. The paper also contributes the Cybonto ontology, formally documenting 108 constructs and thousands of cognitive-related paths based on 20 time-tested psychology theories. Finally, the paper applied 20 network centrality algorithms in analyzing the 108 constructs. The identified top 10 constructs call for extensions of current digital cognitive architectures in preparation for the DT future.
翻訳日:2021-08-04 04:38:31 公開日:2021-08-01
# (参考訳) PSE-Match:並列セマンティック埋め込みを用いた視点のない位置認識手法 [全文訳有]

PSE-Match: A Viewpoint-free Place Recognition Method with Parallel Semantic Embedding ( http://arxiv.org/abs/2108.00552v1 )

ライセンス: CC0 1.0
Peng Yin, Lingyun Xu, Anton Egorov and Bing Li(参考訳) 自動運転車の正確なローカライゼーションは、特に複雑な都市部や、高精度GPSが利用できない地下環境において、自律性と運転安全のために不可欠である。 しかし、現在のオドメトリ推定は、ロバストなグローバルローカライゼーションを必要とせず、長期航法におけるドリフト問題を引き起こす可能性がある。 主な課題は、動的環境の干渉下でのシーンのばらつきと、異なる視点からの観察とオブジェクトレイアウトの効果的な知覚である。 これらの課題に対処するため、PSE-Matchは、3次元ポイントクラウドモデルから分離されたセマンティック属性の並列意味解析に基づく視点自由な位置認識手法である。 元々のポイントクラウドと比較すると、セマンティクス属性の観測されたばらつきは小さい。 PSE-Matchは、分岐場所学習ネットワークを組み込んで、球面調和領域を通じて異なる意味的属性を並列にキャプチャする。 既存のベンチマークデータセットとフィールド内の2つのデータセットを用いて,提案手法は,上位1検索で平均70%以上,上位10検索で平均95%以上のリコールを達成した。 PSE-Matchはまた、限られたトレーニングデータセットで明らかな一般化能力を示した。

Accurate localization on autonomous driving cars is essential for autonomy and driving safety, especially for complex urban streets and search-and-rescue subterranean environments where high-accurate GPS is not available. However current odometry estimation may introduce the drifting problems in long-term navigation without robust global localization. The main challenges involve scene divergence under the interference of dynamic environments and effective perception of observation and object layout variance from different viewpoints. To tackle these challenges, we present PSE-Match, a viewpoint-free place recognition method based on parallel semantic analysis of isolated semantic attributes from 3D point-cloud models. Compared with the original point cloud, the observed variance of semantic attributes is smaller. PSE-Match incorporates a divergence place learning network to capture different semantic attributes parallelly through the spherical harmonics domain. Using both existing benchmark datasets and two in-field collected datasets, our experiments show that the proposed method achieves above 70% average recall with top one retrieval and above 95% average recall with top ten retrieval cases. And PSE-Match has also demonstrated an obvious generalization ability with a limited training dataset.
翻訳日:2021-08-04 04:29:17 公開日:2021-08-01
# (参考訳) FLASH: ハードウェア最適化による高速ニューラルネットワーク検索 [全文訳有]

FLASH: Fast Neural Architecture Search with Hardware Optimization ( http://arxiv.org/abs/2108.00568v1 )

ライセンス: CC0 1.0
Guihong Li, Sumit K. Mandal, Umit Y. Ogras, Radu Marculescu(参考訳) neural architecture search(nas)は、効率的で高性能なディープニューラルネットワーク(dnn)を設計するための有望な技術である。 MLアプリケーションのパフォーマンス要件が継続的に増加するにつれて、ハードウェアアクセラレータはDNN設計において中心的な役割を果たすようになる。 この傾向により、ほとんどの実際のアプリケーションではNASはさらに複雑で時間がかかります。 本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を最適化する非常に高速なNAS手法であるFLASHを提案する。 まず,DNNのトポロジ的特性をスキップ接続(例えばDenseNets,ResNets,Wi de-ResNets,MobileNet s)で定量化する解析指標であるNN-Degreeを提案する。 新たに提案されたNN-Degreeでは、トレーニング不要なNASを1秒以内に実行し、63億以上の構成を持つ巨大な検索スペースから25のサンプルをトレーニングして精度予測器を構築することができます。 第二に、ターゲットハードウェア上で推論を行うことにより、分析モデルを微調整し、標準のMLデータセットを実行しながら、各種DNNアーキテクチャのレイテンシ、面積、エネルギー消費量を推定する。 第三に,対象ハードウェアの面積,レイテンシ,エネルギー消費を考慮しつつ,モデルアーキテクチャの協調設計プロセスを最適化するために,単純化ホモロジーグローバル最適化(SHGO)に基づく階層的アルゴリズムを構築した。 最先端のnasアプローチと比較して,提案する階層型shgoベースのアルゴリズムは4桁以上の高速化を実現する(具体的には,提案アルゴリズムの実行時間は約0.1秒である)。 最後に、実験により、FLASHは異なるハードウェアアーキテクチャに容易に転送可能であることを示し、3秒未満でRaspberry Pi-3Bプロセッサ上でNASを実行できることを示した。

Neural architecture search (NAS) is a promising technique to design efficient and high-performance deep neural networks (DNNs). As the performance requirements of ML applications grow continuously, the hardware accelerators start playing a central role in DNN design. This trend makes NAS even more complicated and time-consuming for most real applications. This paper proposes FLASH, a very fast NAS methodology that co-optimizes the DNN accuracy and performance on a real hardware platform. As the main theoretical contribution, we first propose the NN-Degree, an analytical metric to quantify the topological characteristics of DNNs with skip connections (e.g., DenseNets, ResNets, Wide-ResNets, and MobileNets). The newly proposed NN-Degree allows us to do training-free NAS within one second and build an accuracy predictor by training as few as 25 samples out of a vast search space with more than 63 billion configurations. Second, by performing inference on the target hardware, we fine-tune and validate our analytical models to estimate the latency, area, and energy consumption of various DNN architectures while executing standard ML datasets. Third, we construct a hierarchical algorithm based on simplicial homology global optimization (SHGO) to optimize the model-architecture co-design process, while considering the area, latency, and energy consumption of the target hardware. We demonstrate that, compared to the state-of-the-art NAS approaches, our proposed hierarchical SHGO-based algorithm enables more than four orders of magnitude speedup (specifically, the execution time of the proposed algorithm is about 0.1 seconds). Finally, our experimental evaluations show that FLASH is easily transferable to different hardware architectures, thus enabling us to do NAS on a Raspberry Pi-3B processor in less than 3 seconds.
翻訳日:2021-08-04 04:08:10 公開日:2021-08-01
# CSC-Unet: セマンティックセグメンテーションのための新しい畳み込みスパース符号化戦略に基づくニューラルネットワーク

CSC-Unet: A Novel Convolutional Sparse Coding Strategy based Neural Network for Semantic Segmentation ( http://arxiv.org/abs/2108.00408v1 )

ライセンス: Link先を確認
Haitong Tang, Shuang He, Xia Lu, Qin Yu, Kaiyue Liu, Hongjie Yan and Nizhuan Wang(参考訳) 実写シーンの複雑さのため,セマンティックセグメンテーションを正確に行うことは難しい課題である。 従来の深層学習に基づく多くのセマンティックセグメンテーション手法では画像のセマンティックな情報や外観が不十分であり、様々な場面においてその汎用性と堅牢性に限界が生じた。 本稿では, 一般的な畳み込み操作を多層畳み込み符号化ブロックに再構成し, 上記の欠陥を緩和する新しい戦略を提案する。 この戦略は、畳み込み操作を含むセマンティックセグメンテーションモデルのセグメンテーション性能を著しく改善するために使用することができる。 提案手法の有効性を証明するため,実証目的で広く使用されているU-Netモデルを選択し,U-Netに基づくCSC-Unetモデルシリーズを設計した。 広汎な解析と実験により,多層畳み込みスパース符号化ブロックはセマンティックセグメンテーションモデルをより高速に収束させ,画像のより微細なセマンティックおよび外観情報を抽出し,空間的詳細情報を復元する能力を向上させることができることを示す。 最高のCSC-Unetモデルは、異なるシナリオを持つ3つのパブリックデータセット、すなわちDeepCrackデータセットで87.14%対84.71%、Nucleiデータセットで68.91%対67.09%、CamVidデータセットで53.68%対48.82%の3つの公開データセットで、元のU-Netの結果を大きく上回っている。

It is a challenging task to accurately perform semantic segmentation due to the complexity of real picture scenes. Many semantic segmentation methods based on traditional deep learning insufficiently captured the semantic and appearance information of images, which put limit on their generality and robustness for various application scenes. In this paper, we proposed a novel strategy that reformulated the popularly-used convolution operation to multi-layer convolutional sparse coding block to ease the aforementioned deficiency. This strategy can be possibly used to significantly improve the segmentation performance of any semantic segmentation model that involves convolutional operations. To prove the effectiveness of our idea, we chose the widely-used U-Net model for the demonstration purpose, and we designed CSC-Unet model series based on U-Net. Through extensive analysis and experiments, we provided credible evidence showing that the multi-layer convolutional sparse coding block enables semantic segmentation model to converge faster, can extract finer semantic and appearance information of images, and improve the ability to recover spatial detail information. The best CSC-Unet model significantly outperforms the results of the original U-Net on three public datasets with different scenarios, i.e., 87.14% vs. 84.71% on DeepCrack dataset, 68.91% vs. 67.09% on Nuclei dataset, and 53.68% vs. 48.82% on CamVid dataset, respectively.
翻訳日:2021-08-03 15:41:23 公開日:2021-08-01
# 偏差ネットワークを用いた説明可能な深部撮影異常検出

Explainable Deep Few-shot Anomaly Detection with Deviation Networks ( http://arxiv.org/abs/2108.00462v1 )

ライセンス: Link先を確認
Guansong Pang, Choubo Ding, Chunhua Shen, Anton van den Hengel(参考訳) 既存の異常検出パラダイムは、通常データまたはラベルなしデータ(主に通常のサンプル)を使用したトレーニング検出モデルに圧倒的に重点を置いている。 これらのアプローチの悪名高い問題は、異常に関する知識が不足しているため、正常なサンプルから異常を識別する能力が弱いことである。 そこで本研究では,いくつかのラベル付き異常例を用いて,サンプル効率のよい識別検出モデルを訓練することを目的とする。 この問題に対処するために,本研究では,検出モデルのトレーニングを行うために,可能な全てのクラスを例に挙げることなく,より弱い教師付き異常検出フレームワークを導入する。 具体的には、ラベル付き異常と事前確率を利用して識別正規性(正規性)を学習し、正規性の表現表現と非有界な非有界な異常表現を強制する。 これは神経偏差学習による異常スコアのエンドツーエンド最適化により達成され、通常のサンプルの異常スコアを前者から引き出されたスカラースコアに近似させ、異常サンプルの異常スコアを上尾部のこれらの標本スコアから統計的に有意な偏差を有するように強制する。 さらに,トップKマルチインスタンス学習に基づく特徴空間偏差学習により,詳細な正規性と異常を学習し,より一般化された表現を可能にする。 9つの実世界の画像異常検出ベンチマークに関する包括的実験により、このモデルはかなりサンプル効率が高く、ロバストであり、クローズドセットとオープンセットのどちらにおいても最先端の競合メソッドよりも優れた性能を示している。 我々のモデルは、事前駆動の異常スコア学習の結果、説明能力を提供することもできる。 コードとデータセットは、https://git.io/devne t。

Existing anomaly detection paradigms overwhelmingly focus on training detection models using exclusively normal data or unlabeled data (mostly normal samples). One notorious issue with these approaches is that they are weak in discriminating anomalies from normal samples due to the lack of the knowledge about the anomalies. Here, we study the problem of few-shot anomaly detection, in which we aim at using a few labeled anomaly examples to train sample-efficient discriminative detection models. To address this problem, we introduce a novel weakly-supervised anomaly detection framework to train detection models without assuming the examples illustrating all possible classes of anomaly. Specifically, the proposed approach learns discriminative normality (regularity) by leveraging the labeled anomalies and a prior probability to enforce expressive representations of normality and unbounded deviated representations of abnormality. This is achieved by an end-to-end optimization of anomaly scores with a neural deviation learning, in which the anomaly scores of normal samples are imposed to approximate scalar scores drawn from the prior while that of anomaly examples is enforced to have statistically significant deviations from these sampled scores in the upper tail. Furthermore, our model is optimized to learn fine-grained normality and abnormality by top-K multiple-instance-le arning-based feature subspace deviation learning, allowing more generalized representations. Comprehensive experiments on nine real-world image anomaly detection benchmarks show that our model is substantially more sample-efficient and robust, and performs significantly better than state-of-the-art competing methods in both closed-set and open-set settings. Our model can also offer explanation capability as a result of its prior-driven anomaly score learning. Code and datasets are available at: https://git.io/DevNe t.
翻訳日:2021-08-03 15:40:50 公開日:2021-08-01
# 微生物画像解析におけるニューラルネットワークの応用:従来の多層パーセプトロンから一般の畳み込みニューラルネットワークと視覚トランスフォーマへの包括的考察

Applications of Artificial Neural Networks in Microorganism Image Analysis: A Comprehensive Review from Conventional Multilayer Perceptron to Popular Convolutional Neural Network and Potential Visual Transformer ( http://arxiv.org/abs/2108.00358v1 )

ライセンス: Link先を確認
Jinghua Zhang, Chen Li, Marcin Grzegorzek(参考訳) 微生物はヒトの生活環境に広く分布している。 環境汚染対策、疾病予防・治療、食品・医薬品生産において重要な役割を担っている。 識別、計数、検出は、異なる微生物をフルに利用するための基本的なステップである。 しかし、従来の分析手法は高価で、手間がかかり、時間がかかる。 これらの限界を克服するために、人工ニューラルネットワークを微生物画像解析に適用する。 本稿では,ニューラルネットワークに基づく微生物画像解析の展開過程を理解するため,本研究のレビューを行う。 このレビューでは、まず背景とモチベーションを紹介します。 次に、ニューラルネットワークおよび代表ネットワークの開発について紹介する。 その後、従来のニューラルネットワークと深層ニューラルネットワークに基づく微生物画像解析に関する論文を、様々なタスクの観点からレビューする。 最後に,方法論分析と潜在的方向性について考察する。

Microorganisms are widely distributed in the human daily living environment. They play an essential role in environmental pollution control, disease prevention and treatment, and food and drug production. The identification, counting, and detection are the basic steps for making full use of different microorganisms. However, the conventional analysis methods are expensive, laborious, and time-consuming. To overcome these limitations, artificial neural networks are applied for microorganism image analysis. We conduct this review to understand the development process of microorganism image analysis based on artificial neural networks. In this review, the background and motivation are introduced first. Then, the development of artificial neural networks and representative networks are introduced. After that, the papers related to microorganism image analysis based on classical and deep neural networks are reviewed from the perspectives of different tasks. In the end, the methodology analysis and potential direction are discussed.
翻訳日:2021-08-03 15:37:43 公開日:2021-08-01
# 足場による弱アノテーションによる海上障害物検出の学習

Learning Maritime Obstacle Detection from Weak Annotations by Scaffolding ( http://arxiv.org/abs/2108.00564v1 )

ライセンス: Link先を確認
Lojze \v{Z}ust, Matej Kristan(参考訳) 沿岸の自律ボートは障害物検出と時間的衝突回避のための頑健な認識手法に依存している。 現在の最先端は、大規模なデータセットでトレーニングされたディープセグメンテーションネットワークに基づいている。 しかし、そのようなデータセットの1ピクセルあたりの真実ラベル付けは、労働集約的で高価である。 実際の障害物回避に必要となる情報が少ないこと,すなわち,岸などの静的障害物における水辺の位置や,水中の動的障害物の近似位置や境界は,反応を計画するのに十分である。 本研究では,このような弱いアノテーションのみから障害物検出セグメンテーションネットワークを訓練できる新しいスキャフォールディング学習レジーム(slr)を提案する。 実験により、SLRを用いて訓練された海上障害物セグメンテーションネットワークは、密度の高い地上の真理ラベルで訓練された同じネットワークよりも大幅に優れていた。 したがって、単純さのラベル付けには正確さが犠牲にならないが、実際は改善されている。

Coastal water autonomous boats rely on robust perception methods for obstacle detection and timely collision avoidance. The current state-of-the-art is based on deep segmentation networks trained on large datasets. Per-pixel ground truth labeling of such datasets, however, is labor-intensive and expensive. We observe that far less information is required for practical obstacle avoidance - the location of water edge on static obstacles like shore and approximate location and bounds of dynamic obstacles in the water is sufficient to plan a reaction. We propose a new scaffolding learning regime (SLR) that allows training obstacle detection segmentation networks only from such weak annotations, thus significantly reducing the cost of ground-truth labeling. Experiments show that maritime obstacle segmentation networks trained using SLR substantially outperform the same networks trained with dense ground truth labels. Thus accuracy is not sacrificed for labelling simplicity but is in fact improved, which is a remarkable result.
翻訳日:2021-08-03 15:37:32 公開日:2021-08-01
# 複雑なHuman-Object相互作用下におけるニューラルな自由視点性能レンダリング

Neural Free-Viewpoint Performance Rendering under ComplexHuman-object Interactions ( http://arxiv.org/abs/2108.00362v1 )

ライセンス: Link先を確認
Guoxing Sun, Xin Chen, Yizhang Chen, Anqi Pang, Pei Lin, Yuheng Jiang, Lan Xu, Jingya Wang, Jingyi Yu(参考訳) 人間と物体のインタラクションの4次元再構築は没入型vr/ar体験と人間の活動理解に不可欠である。 近年の進歩は、細かなRGB入力から細かな幾何学やテクスチャ結果の回復には至っていない。 本稿では,粗いRGBストリームのみから,任意の斬新な視点での対話シナリオにおいて,人間と物体の高画質な形状と写真リアルなテクスチャの両方を生成するニューラルヒューマンパフォーマンスキャプチャ・レンダリングシステムを提案する。 人間とオブジェクトの相互作用によって引き起こされる複雑なオクルージョンに対処するために、階層的なシーン分離戦略を採用し、人間とオブジェクトのボリュームリコンストラクションとニューラルレンダリングを行う。 具体的には、幾何学的再構成のために、人間の再構成とオブジェクトの再構成を相関関係と共同で検討する、対話型オブジェクトキャプチャー方式を提案する。 4次元オブジェクトダイナミックリコンストラクションのために, 咬合認識型ヒューマンリコンストラクションとロバストなヒューマンアウェアオブジェクトトラッキングを提案する。 ニューラルネットワークのテクスチャレンダリングのために,方向認識型ニューラルブレンディング重み学習と時空間テクスチャ補完を組み合わせた階層的ヒューマンオブジェクトレンダリング手法を提案する。 大規模な実験により,人間と物体の相互作用に挑戦する自由視点で高品質な幾何学とテクスチャ再構築を実現する手法の有効性が示された。

4D reconstruction of human-object interaction is critical for immersive VR/AR experience and human activity understanding. Recent advances still fail to recover fine geometry and texture results from sparse RGB inputs, especially under challenging human-object interactions scenarios. In this paper, we propose a neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of both human and objects under challenging interaction scenarios in arbitrary novel views, from only sparse RGB streams. To deal with complex occlusions raised by human-object interactions, we adopt a layer-wise scene decoupling strategy and perform volumetric reconstruction and neural rendering of the human and object. Specifically, for geometry reconstruction, we propose an interaction-aware human-object capture scheme that jointly considers the human reconstruction and object reconstruction with their correlations. Occlusion-aware human reconstruction and robust human-aware object tracking are proposed for consistent 4D human-object dynamic reconstruction. For neural texture rendering, we propose a layer-wise human-object rendering scheme, which combines direction-aware neural blending weight learning and spatial-temporal texture completion to provide high-resolution and photo-realistic texture results in the occluded scenarios. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and texture reconstruction in free viewpoints for challenging human-object interactions.
翻訳日:2021-08-03 15:32:46 公開日:2021-08-01
# DECAF:ラベル機能を備えたディープエクストリーム分類

DECAF: Deep Extreme Classification with Label Features ( http://arxiv.org/abs/2108.00368v1 )

ライセンス: Link先を確認
Anshul Mittal, Kunal Dahiya, Sheshansh Agrawal, Deepak Saini, Sumeet Agarwal, Purushottam Kar, Manik Varma(参考訳) 極端な多重ラベル分類(xml)は、非常に大きなラベルセットから最も関連するラベルのサブセットでデータポイントをタグ付けすることを含み、何百万もの製品で製品間リコメンデーション(product-to-product recommendation)などいくつかのアプリケーションがある。 主要なXMLアルゴリズムは数百万のラベルにスケールするが、ラベルのテキスト記述のようなラベルメタデータは無視している。 一方、ディープネットワークを用いた表現学習によってラベルメタデータを活用できる古典的手法では、極端な設定が困難である。 本稿では,ディープネットワークを用いてモデルパラメータと特徴表現を共同で学習し,数百万のラベルの規模で正確な分類を行うラベルメタデータにより,これらの課題に対処するDECAFアルゴリズムを開発した。 DECAFは、モデルアーキテクチャ設計、初期化、トレーニングに特定の貢献をしており、LF-AmazonTitles-1.3M のような、一般公開されている製品間推奨データセットにおいて、極端な分類器を導くよりも最大2-6%正確な予測を提供することができる。 同時に、DeCAFは深い極端分類器よりも最大22倍高速な推論が可能であり、数ミリ秒以内の予測を必要とするリアルタイムアプリケーションに適していることが判明した。 DECAFのコードは以下のURL https://github.com/E xtreme-classificatio n/DECAFで利用可能である。

Extreme multi-label classification (XML) involves tagging a data point with its most relevant subset of labels from an extremely large label set, with several applications such as product-to-product recommendation with millions of products. Although leading XML algorithms scale to millions of labels, they largely ignore label meta-data such as textual descriptions of the labels. On the other hand, classical techniques that can utilize label metadata via representation learning using deep networks struggle in extreme settings. This paper develops the DECAF algorithm that addresses these challenges by learning models enriched by label metadata that jointly learn model parameters and feature representations using deep networks and offer accurate classification at the scale of millions of labels. DECAF makes specific contributions to model architecture design, initialization, and training, enabling it to offer up to 2-6% more accurate prediction than leading extreme classifiers on publicly available benchmark product-to-product recommendation datasets, such as LF-AmazonTitles-1.3M . At the same time, DECAF was found to be up to 22x faster at inference than leading deep extreme classifiers, which makes it suitable for real-time applications that require predictions within a few milliseconds. The code for DECAF is available at the following URL https://github.com/E xtreme-classificatio n/DECAF.
翻訳日:2021-08-03 15:32:03 公開日:2021-08-01
# あなたもブルータス! ソーシャルメディアにおける有害ユーザ追跡 - 課題、解決策、洞察

You too Brutus! Trapping Hateful Users in Social Media: Challenges, Solutions & Insights ( http://arxiv.org/abs/2108.00524v1 )

ライセンス: Link先を確認
Mithun Das, Punyajoy Saha, Ritam Dutt, Pawan Goyal, Animesh Mukherjee and Binny Mathew(参考訳) ヘイトスピーチは、オンラインソーシャルメディアを悩ませる重要な問題の1つと見なされている。 ヘイトスピーチ検出に関する現在の文献は、主にテキストコンテンツを利用してヘイトな投稿を見つけ、その後にヘイトなユーザーを特定する。 しかし,この手法はユーザ間の社会的つながりを無視している。 本稿では,問題空間の詳細な探索を行い,テキスト的特徴とグラフ的特徴を両立したグラフニューラルネットワーク(gnn)を用いた,純粋にテキスト的からグラフ的なモデルから,最終的に半教師付き手法まで多岐にわたるモデルについて検討する。 Gabは緩やかに中和され、Twitterは厳格に中和されています。 全体としてagnnモデルはgabデータセット上では0.791マクロf1-score、twitterデータセット上では0.780マクロf1-scoreを達成している。 本稿では,テキストとグラフをベースとした最良のモデルに対して詳細なエラー解析を行い,憎しみのあるユーザが独自のネットワーク近傍シグネチャとAGNNモデルを持つことを観察する。 この性質は、観測したように、ゼロショット設定でプラットフォーム間でモデルをうまく一般化することを可能にする。 最後に,ベストパフォーマンスGNNモデルを用いて,ガブにおけるヘイトフルユーザとそのターゲットの進化を時間とともに分析する。

Hate speech is regarded as one of the crucial issues plaguing the online social media. The current literature on hate speech detection leverages primarily the textual content to find hateful posts and subsequently identify hateful users. However, this methodology disregards the social connections between users. In this paper, we run a detailed exploration of the problem space and investigate an array of models ranging from purely textual to graph based to finally semi-supervised techniques using Graph Neural Networks (GNN) that utilize both textual and graph-based features. We run exhaustive experiments on two datasets -- Gab, which is loosely moderated and Twitter, which is strictly moderated. Overall the AGNN model achieves 0.791 macro F1-score on the Gab dataset and 0.780 macro F1-score on the Twitter dataset using only 5% of the labeled instances, considerably outperforming all the other models including the fully supervised ones. We perform detailed error analysis on the best performing text and graph based models and observe that hateful users have unique network neighborhood signatures and the AGNN model benefits by paying attention to these signatures. This property, as we observe, also allows the model to generalize well across platforms in a zero-shot setting. Lastly, we utilize the best performing GNN model to analyze the evolution of hateful users and their targets over time in Gab.
翻訳日:2021-08-03 15:31:40 公開日:2021-08-01
# 一般非凸凸ミニマックス問題に対するゼロ次交互ランダム勾配投影アルゴリズム

Zeroth-Order Alternating Randomized Gradient Projection Algorithms for General Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2108.00473v1 )

ライセンス: Link先を確認
Zi Xu, Jingjing Shen, Ziqi Wang, Yuhong Dai(参考訳) 本稿では,近年,機械学習,信号処理,その他多くの分野で注目されている非凸凹ミニマックス問題に対するゼロ次アルゴリズムについて検討する。 本研究では,滑らかな非凸凸型ミニマックス問題に対するゼロ次交互ランダム勾配投影 (zo-agp) アルゴリズムを提案し,その反復複雑性から$\varepsilon$-statio nary pointを得るには$\mathcal{o}(\varepsilon^{-4})$,関数値推定の回数は$\mathcal{o}(d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$である。 さらに,ブロック方向非滑らかな非凸凸凸型ミニマックス最適化問題を解くために,ゼロ次ブロック交互なランダムな近位勾配アルゴリズム (zo-bapg) を提案し,$\varepsilon$-stati onary point を得るための反復複雑性を$\mathcal{o}(\varepsilon^{-4})$ で制限し,各イテレーション当たりの関数値推定数は$\mathcal{o}(k d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$で制限する。 我々の知る限りでは、一般にスムーズかつブロックワイズ非滑らかな非凸凹極小問題を解くため、反復複雑性を保証したゼロ階アルゴリズムが開発されたのはこれが初めてである。 データ中毒攻撃問題の数値結果は,提案アルゴリズムの有効性を検証する。

In this paper, we study zeroth-order algorithms for nonconvex-concave minimax problems, which have attracted widely attention in machine learning, signal processing and many other fields in recent years. We propose a zeroth-order alternating randomized gradient projection (ZO-AGP) algorithm for smooth nonconvex-concave minimax problems, and its iteration complexity to obtain an $\varepsilon$-statio nary point is bounded by $\mathcal{O}(\varepsilon^{-4})$, and the number of function value estimation is bounded by $\mathcal{O}(d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$ per iteration. Moreover, we propose a zeroth-order block alternating randomized proximal gradient algorithm (ZO-BAPG) for solving block-wise nonsmooth nonconvex-concave minimax optimization problems, and the iteration complexity to obtain an $\varepsilon$-statio nary point is bounded by $\mathcal{O}(\varepsilon^{-4})$ and the number of function value estimation per iteration is bounded by $\mathcal{O}(K d_{x}\varepsilon^{-4}+d_{y}\varepsilon^{-6})$. To the best of our knowledge, this is the first time that zeroth-order algorithms with iteration complexity gurantee are developed for solving both general smooth and block-wise nonsmooth nonconvex-concave minimax problems. Numerical results on data poisoning attack problem validate the efficiency of the proposed algorithms.
翻訳日:2021-08-03 15:29:20 公開日:2021-08-01
# モンテカルロ法による高密度・高密度化と強化学習への応用に関する研究

A survey of Monte Carlo methods for noisy and costly densities with application to reinforcement learning ( http://arxiv.org/abs/2108.00490v1 )

ライセンス: Link先を確認
F. Llorente, L. Martino, J. Read, D. Delgado(参考訳) 本調査は,モンテカルロ法について,耐え難い,費用がかかる,あるいはうるさい密度を扱うためのサロゲートモデルを用いて概説する。 このような問題は、確率的最適化や強化学習など、多くの実世界のシナリオで見出され、密度関数のそれぞれの評価は、計算的または物理的(実世界の活動)なコストを発生させ、毎回異なる結果を与える可能性がある。 代理モデルは、このコストを伴わないが、そのような方法論の選択と設計に関わる重要なトレードオフと考慮がある。 異なる方法論を3つの主要なクラスに分類し、統一表記法の下で特定のアルゴリズムのインスタンスを記述する。 考慮されたメソッドを包含するモジュラースキームも提示する。 可能性のない設定と強化学習に特に注意を払って、様々な応用シナリオについて論じる。 数値的な比較もいくつかある。

This survey gives an overview of Monte Carlo methodologies using surrogate models, for dealing with densities which are intractable, costly, and/or noisy. This type of problem can be found in numerous real-world scenarios, including stochastic optimization and reinforcement learning, where each evaluation of a density function may incur some computationally-expe nsive or even physical (real-world activity) cost, likely to give different results each time. The surrogate model does not incur this cost, but there are important trade-offs and considerations involved in the choice and design of such methodologies. We classify the different methodologies into three main classes and describe specific instances of algorithms under a unified notation. A modular scheme which encompasses the considered methods is also presented. A range of application scenarios is discussed, with special attention to the likelihood-free setting and reinforcement learning. Several numerical comparisons are also provided.
翻訳日:2021-08-03 15:28:42 公開日:2021-08-01
# コンピュータビジョンにおけるディープラーニングに対する敵対的攻撃の脅威:調査II

Threat of Adversarial Attacks on Deep Learning in Computer Vision: Survey II ( http://arxiv.org/abs/2108.00401v1 )

ライセンス: Link先を確認
Naveed Akhtar, Ajmal Mian, Navid Kardan, Mubarak Shah(参考訳) ディープラーニング(Deep Learning, DL)は、コンピュータビジョンにおいて最も広く使われているツールである。 複雑な問題を正確に解く能力は、セキュリティクリティカルなアプリケーションを含む様々なタスクの深いニューラルモデルを学ぶために、視覚研究で採用されている。 しかし、現在、DLは画像やビデオに視覚的に知覚できない摂動を導入することで予測を操作できる敵攻撃に弱いことが知られている。 2013~[1]年にこの現象が発見されて以来、機械知能の複数のサブ分野の研究者が注目している。 [2]では、深層学習(とその防御)に対する敵対的な攻撃において、コンピュータビジョンコミュニティが2018年まで行った貢献をレビューした。 これらの貢献の多くはこの地域の新しい方向性に刺激を与えており、これは初代の方法を見てから著しく成熟している。 したがって、この文献は[2]の遺産として、2018年以降のこの分野の進歩に焦点を当てている。 真正性を確保するために、コンピュータビジョンと機械学習研究の権威ある情報源で公表されたピアレビュードコントリビューションを主に検討する。 この論文は総合的な文献レビューの他に、この分野の非専門家に対する技術的用語の簡潔な定義も提供している。 最後に、本稿でレビューした文献をもとに、この方向性の課題と今後の展望について論じる。

Deep Learning (DL) is the most widely used tool in the contemporary field of computer vision. Its ability to accurately solve complex problems is employed in vision research to learn deep neural models for a variety of tasks, including security critical applications. However, it is now known that DL is vulnerable to adversarial attacks that can manipulate its predictions by introducing visually imperceptible perturbations in images and videos. Since the discovery of this phenomenon in 2013~[1], it has attracted significant attention of researchers from multiple sub-fields of machine intelligence. In [2], we reviewed the contributions made by the computer vision community in adversarial attacks on deep learning (and their defenses) until the advent of year 2018. Many of those contributions have inspired new directions in this area, which has matured significantly since witnessing the first generation methods. Hence, as a legacy sequel of [2], this literature review focuses on the advances in this area since 2018. To ensure authenticity, we mainly consider peer-reviewed contributions published in the prestigious sources of computer vision and machine learning research. Besides a comprehensive literature review, the article also provides concise definitions of technical terminologies for non-experts in this domain. Finally, this article discusses challenges and future outlook of this direction based on the literature reviewed herein and [2].
翻訳日:2021-08-03 15:27:18 公開日:2021-08-01
# 臨床ノートに対する知識ベース質問に対する注意に基づくアスペクト推論

Attention-based Aspect Reasoning for Knowledge Base Question Answering on Clinical Notes ( http://arxiv.org/abs/2108.00513v1 )

ライセンス: Link先を確認
Ping Wang, Tian Shi, Khushbu Agarwal, Sutanay Choudhury, Chandan K. Reddy(参考訳) 臨床ノートにおける質問応答 (QA) はここ数年で注目されている。 既存の臨床領域における機械読解アプローチは、臨床テキストの1ブロックに関する質問にのみ対応でき、異なる患者や臨床ノートに関する情報を検索できない。 より複雑な質問に対処するため,臨床ノートから知識ベースを作成し,異なる患者と臨床ノートをリンクし,知識ベース質問応答(KBQA)を実行することを目的とした。 n2c2のエキスパートアノテーションに基づいて、まず8,952のQAペアを含む臨床KBQAデータセットを作成し、322の質問テンプレートを通じて7つの医療トピックに関する質問をカバーした。 そこで我々は,KBQAの注意に基づくアスペクト推論(AAR)手法を提案し,回答のさまざまな側面(エンティティ,タイプ,パス,コンテキストなど)が予測に与える影響を検討した。 AAR法は、よく設計されたエンコーダとアテンション機構により、より良い性能を実現する。 実験では、型とパスの両方の側面によって、モデルが一般的な条件を満たす答えを識別でき、より正確で高いリコールが得られることを発見した。 一方、エンティティとコンテキストという側面は、ノード固有の情報によって答えを制限し、より高い精度と低いリコールにつながる。

Question Answering (QA) in clinical notes has gained a lot of attention in the past few years. Existing machine reading comprehension approaches in clinical domain can only handle questions about a single block of clinical texts and fail to retrieve information about different patients and clinical notes. To handle more complex questions, we aim at creating knowledge base from clinical notes to link different patients and clinical notes, and performing knowledge base question answering (KBQA). Based on the expert annotations in n2c2, we first created the ClinicalKBQA dataset that includes 8,952 QA pairs and covers questions about seven medical topics through 322 question templates. Then, we proposed an attention-based aspect reasoning (AAR) method for KBQA and investigated the impact of different aspects of answers (e.g., entity, type, path, and context) for prediction. The AAR method achieves better performance due to the well-designed encoder and attention mechanism. In the experiments, we find that both aspects, type and path, enable the model to identify answers satisfying the general conditions and produce lower precision and higher recall. On the other hand, the aspects, entity and context, limit the answers by node-specific information and lead to higher precision and lower recall.
翻訳日:2021-08-03 15:24:12 公開日:2021-08-01
# 都市部における言語利用の地域差

Geolocation differences of language use in urban areas ( http://arxiv.org/abs/2108.00533v1 )

ライセンス: Link先を確認
Olga Kellert and Nicholas H. Matlis(参考訳) ソーシャルメディア時代における自然言語データの利用が爆発的に増加し、感情分析や意見マイニングといった様々な応用がもたらされた。 同時に、正確な位置情報の可用性が高まり、環境変化や病気の伝播といった大域的な現象の可視化が可能になる。 しかし、言語使用の空間的変化を追跡する機会は、特に小さな空間規模で見過ごされている。 ここでは,都市規模から都市単位までの言語利用の空間的変動を解決するために,正確な位置情報を用いたtwitterデータの利用について検討する。 言語トークンのいくつかのカテゴリを識別し,これらのパターンに関連する空間分布を定量的に可視化する手法を開発した。 分析では、同じカテゴリから、それぞれがトークンの集合によって定義されるツイートのコントラスト対の比較に集中する。 本研究は, 言語科学, 商業広告, ソーシャルサービスなど, 幅広い分野において, 言語利用と社会的文脈の相関関係に関する一意的な情報を提供することができることを示す。

The explosion in the availability of natural language data in the era of social media has given rise to a host of applications such as sentiment analysis and opinion mining. Simultaneously, the growing availability of precise geolocation information is enabling visualization of global phenomena such as environmental changes and disease propagation. Opportunities for tracking spatial variations in language use, however, have largely been overlooked, especially on small spatial scales. Here we explore the use of Twitter data with precise geolocation information to resolve spatial variations in language use on an urban scale down to single city blocks. We identify several categories of language tokens likely to show distinctive patterns of use and develop quantitative methods to visualize the spatial distributions associated with these patterns. Our analysis concentrates on comparison of contrasting pairs of Tweet distributions from the same category, each defined by a set of tokens. Our work shows that analysis of small-scale variations can provide unique information on correlations between language use and social context which are highly valuable to a wide range of fields from linguistic science and commercial advertising to social services.
翻訳日:2021-08-03 15:23:52 公開日:2021-08-01
# WAS-VTON:仮想トライオンネットワークのアーキテクチャ探索

WAS-VTON: Warping Architecture Search for Virtual Try-on Network ( http://arxiv.org/abs/2108.00386v1 )

ライセンス: Link先を確認
Zhenyu Xie, Xujie Zhang, Fuwei Zhao, Haoye Dong, Michael C. Kampffmeyer, Haonan Yan, Xiaodan Liang(参考訳) 画像ベースの仮想トライオンの進歩にもかかわらず、現在の手法は共有ワープネットワークによって制約されるため、異なるワープ操作を必要とする衣服カテゴリーに直面した場合に、自然な試行結果の合成に失敗する。 本稿では,ニューラルネットワークサーチ(NAS)を用いて,仮想試行作業のための衣服カテゴリー別ワープネットワークを見つけることで,この問題に対処する。 我々は,nas-warpingモジュールを導入し,ネットワークレベルと運用レベルのフロー推定アーキテクチャを同定するために,二段階階層探索空間を精巧に設計する。 異なる数のワープブロックを含むネットワークレベルのサーチスペースと異なる畳み込み操作を持つ操作レベルのサーチスペースを考慮し、反復可能なワープセルと着衣者アライメントのための畳み込み操作の組み合わせを共同で学習する。 さらに,NAS-Fusion Moduleはより自然な最終試行結果を合成するために提案され,特定のスキップ接続を利用して,乱れた衣服と変人部分とをシームレスに融合させるのに必要な,より複雑な特徴を創出する。 我々は,上述の2つのモジュールを探索するために,効率的かつ安定なワンショット探索戦略を採用する。 我々のWAS-VTONは、より自然なワープ結果と仮想試行結果で従来の固定構造試行法よりも大幅に優れていた。

Despite recent progress on image-based virtual try-on, current methods are constraint by shared warping networks and thus fail to synthesize natural try-on results when faced with clothing categories that require different warping operations. In this paper, we address this problem by finding clothing category-specific warping networks for the virtual try-on task via Neural Architecture Search (NAS). We introduce a NAS-Warping Module and elaborately design a bilevel hierarchical search space to identify the optimal network-level and operation-level flow estimation architecture. Given the network-level search space, containing different numbers of warping blocks, and the operation-level search space with different convolution operations, we jointly learn a combination of repeatable warping cells and convolution operations specifically for the clothing-person alignment. Moreover, a NAS-Fusion Module is proposed to synthesize more natural final try-on results, which is realized by leveraging particular skip connections to produce better-fused features that are required for seamlessly fusing the warped clothing and the unchanged person part. We adopt an efficient and stable one-shot searching strategy to search the above two modules. Extensive experiments demonstrate that our WAS-VTON significantly outperforms the previous fixed-architecture try-on methods with more natural warping results and virtual try-on results.
翻訳日:2021-08-03 15:19:24 公開日:2021-08-01
# object-to-scene: オブジェクト知識を屋内シーン認識に移すための学習

Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene Recognition ( http://arxiv.org/abs/2108.00399v1 )

ライセンス: Link先を確認
Bo Miao, Liguang Zhou, Ajmal Mian, Tin Lun Lam, Yangsheng Xu(参考訳) 周囲のシーンの正確な認識は、ロボットが合理的な判断と行動を行うのに役立つ。 したがって,効果的なシーン表現・認識手法の開発はロボット工学において重要である。 現在、屋内シーン認識能力を向上させるために、新しい補助機能やネットワークの開発に重点が置かれている。 しかし,オブジェクトの特徴と屋内シーン認識の関係を直接構築することに焦点を当てているものはほとんどない。 本稿では,現在の手法の弱点を分析し,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。 提案するOTSは,まず,分割ネットワークとオブジェクト特徴集約モジュール(OFAM)に基づいてオブジェクト特徴を抽出する。 その後、オブジェクト関係を計算し、提案したオブジェクト注意モジュール(OAM)とグローバル関係集約モジュール(GRAM)に基づいてシーン表現を構築する。 この研究の最終結果は、OTSがオブジェクトの特徴を抽出し、セグメンテーションネットワークからオブジェクトの関係を学習できることを示します。 さらに、OTSは、追加のストリームを使わずに、屋内シーン認識において2倍以上の精度で最先端の手法より優れている。 コードはhttps://github.com/F reeformRobotics/OTS. comで公開されている。

Accurate perception of the surrounding scene is helpful for robots to make reasonable judgments and behaviours. Therefore, developing effective scene representation and recognition methods are of significant importance in robotics. Currently, a large body of research focuses on developing novel auxiliary features and networks to improve indoor scene recognition ability. However, few of them focus on directly constructing object features and relations for indoor scene recognition. In this paper, we analyze the weaknesses of current methods and propose an Object-to-Scene (OTS) method, which extracts object features and learns object relations to recognize indoor scenes. The proposed OTS first extracts object features based on the segmentation network and the proposed object feature aggregation module (OFAM). Afterwards, the object relations are calculated and the scene representation is constructed based on the proposed object attention module (OAM) and global relation aggregation module (GRAM). The final results in this work show that OTS successfully extracts object features and learns object relations from the segmentation network. Moreover, OTS outperforms the state-of-the-art methods by more than 2\% on indoor scene recognition without using any additional streams. Code is publicly available at: https://github.com/F reeformRobotics/OTS.
翻訳日:2021-08-03 15:19:01 公開日:2021-08-01
# 超解法ネットワークにおける「セマンティックス」の発見

Discovering "Semantics" in Super-Resolution Networks ( http://arxiv.org/abs/2108.00406v1 )

ライセンス: Link先を確認
Yihao Liu, Anran Liu, Jinjin Gu, Zhipeng Zhang, Wenhao Wu, Yu Qiao, Chao Dong(参考訳) スーパーレゾリューション(sr)は低レベルの視覚領域の基本かつ代表的なタスクである。 srネットワークから抽出された特徴は特定の意味情報を持たないと考えられ、ネットワークは入力から出力への複雑な非線形マッピングを単に学習する。 srネットワークで "semantics" を見つけることはできますか? 本稿では,この問題に対する肯定的な回答を示す。 特徴表現を次元的縮小と可視化を用いて分析することにより,srネットワークにおける深い意味的表現,すなわち \textit{i.e。 深部劣化表現(ddr)は,画像劣化の種類や程度に関連がある。 また,分類とsrネットワーク間の表現意味の違いも明らかにした。 低レベルCNNネットワークの本質的なメカニズムの解釈やブラインドSRの新たな評価手法の開発など,今後の研究にとって重要な一連の観測と結論を描いている。

Super-resolution (SR) is a fundamental and representative task of low-level vision area. It is generally thought that the features extracted from the SR network have no specific semantic information, and the network simply learns complex non-linear mappings from input to output. Can we find any "semantics" in SR networks? In this paper, we give affirmative answers to this question. By analyzing the feature representations with dimensionality reduction and visualization, we successfully discover the deep semantic representations in SR networks, \textit{i.e.}, deep degradation representations (DDR), which relate to the image degradation types and degrees. We also reveal the differences in representation semantics between classification and SR networks. Through extensive experiments and analysis, we draw a series of observations and conclusions, which are of great significance for future work, such as interpreting the intrinsic mechanisms of low-level CNN networks and developing new evaluation approaches for blind SR.
翻訳日:2021-08-03 15:18:41 公開日:2021-08-01
# ロゴ検出のための有効でロバストな検出器

An Effective and Robust Detector for Logo Detection ( http://arxiv.org/abs/2108.00422v1 )

ライセンス: Link先を確認
Xiaojun Jia, Huanqian Yan, Yonglin Wu, Xingxing Wei, Xiaochun Cao, Yong Zhang(参考訳) 近年では、文学、発明、芸術作品などを代表する知的財産(IP)が次第に人々の注目を集めている。 特にeコマースの普及に伴い、IPは製品デザインやブランドだけでなく、Eコマースプラットフォームに表示される画像やビデオも表現している。 残念なことに、一部の攻撃者は、よく訓練されたロゴ検出モデルを騙すためにいくつかの敵対的手法を採用している。 そこで本稿では,2回目視・思考機構に基づく新しいロゴ検出手法を提案し,ロバストなロゴ検出法を提案する。 提案する検出器は他の主流検出器と異なり、小型の物体、ロングテールの物体を効果的に検出し、逆向きの画像に頑健である。 より詳しくは、デテクトRSアルゴリズムを、等化損失関数、マルチスケール変換、および逆データ拡張を備えたカスケードスキーマに拡張する。 実験の結果,提案手法は検出モデルのロバスト性を効果的に向上できることが示された。 さらに,提案手法を,アリババがTianchiプラットフォーム上で編成したACM MM2021ロバストローゴ検出に応用し,36489チームで2位となった。 コードはhttps://github.com/j iaxiaojunQAQ/Robust- Logo-Detectionで入手できる。

In recent years, intellectual property (IP), which represents literary, inventions, artistic works, etc, gradually attract more and more people's attention. Particularly, with the rise of e-commerce, the IP not only represents the product design and brands, but also represents the images/videos displayed on e-commerce platforms. Unfortunately, some attackers adopt some adversarial methods to fool the well-trained logo detection model for infringement. To overcome this problem, a novel logo detector based on the mechanism of looking and thinking twice is proposed in this paper for robust logo detection. The proposed detector is different from other mainstream detectors, which can effectively detect small objects, long-tail objects, and is robust to adversarial images. In detail, we extend detectoRS algorithm to a cascade schema with an equalization loss function, multi-scale transformations, and adversarial data augmentation. A series of experimental results have shown that the proposed method can effectively improve the robustness of the detection model. Moreover, we have applied the proposed methods to competition ACM MM2021 Robust Logo Detection that is organized by Alibaba on the Tianchi platform and won top 2 in 36489 teams. Code is available at https://github.com/j iaxiaojunQAQ/Robust- Logo-Detection.
翻訳日:2021-08-03 15:18:27 公開日:2021-08-01
# Hyper360 - 没入型メディアのための次世代ツールセット

Hyper360 -- a Next Generation Toolset for Immersive Media ( http://arxiv.org/abs/2108.00430v1 )

ライセンス: Link先を確認
Hannes Fassold, Antonis Karakottas, Dorothea Tsatsou, Dimitrios Zarpalas, Barnabas Takacs, Christian Fuhrhop, Angelo Manfredi, Nicolas Patz, Simona Tonoli, Iana Dulskaia(参考訳) sphere 360{\deg} ビデオは新しいメディアフォーマットであり、没入型メディアの制作と消費に急速に採用されている。 その斬新さのために、様々なプラットフォームで消費される高機能な360{\deg}ビデオを作るためのツールが不足している。 本稿では,360度ビデオと3dコンテンツの混合のためのツールであるhyper360のプロジェクトについて述べる。 また、hyper360ツールを用いて製作された最初のパイロットと、製作されたパイロットのオーディエンス評価の結果を紹介する。

Spherical 360{\deg} video is a novel media format, rapidly becoming adopted in media production and consumption of immersive media. Due to its novelty, there is a lack of tools for producing highly engaging interactive 360{\deg} video for consumption on a multitude of platforms. In this work, we describe the work done so far in the Hyper360 project on tools for mixed 360{\deg} video and 3D content. Furthermore, the first pilots which have been produced with the Hyper360 tools and results of the audience assessment of the produced pilots are presented.
翻訳日:2021-08-03 15:18:04 公開日:2021-08-01
# SSPU-Net: 微分レンダリングによる自己監視ポイントクラウドアップサンプリング

SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable Rendering ( http://arxiv.org/abs/2108.00454v1 )

ライセンス: Link先を確認
Yifan Zhao, Le Hui, Jin Xie(参考訳) 3dセンサーから得られる点雲は通常は希薄である。 既存の手法は主に、密度の高い真理点雲を用いて監督された方法でスパース点雲をサンプリングすることに焦点を当てている。 本稿では,地中真理を使わずに高密度の点雲を生成する自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。 そこで我々は,入力スパース点雲と高密度点雲との整合性を利用して形状と描画画像を生成する。 具体的には、まず、スパース点雲の局所的な幾何学的構造を利用して点補間のための重みを学習する、スパース点雲を増幅する隣の膨張ユニット(NEU)を提案する。 そこで我々は,DRU(Dariable Point Cloud rendering Unit)をネットワークのエンドツーエンドモジュールとして開発し,ポイントクラウドをマルチビュー画像にレンダリングする。 最後に, 形状不連続損失と画像不一致損失を定式化してネットワークをトレーニングし, スパースと高密度点雲の形状が可能な限り一貫するようにした。 CADおよびスキャンしたデータセットの大規模な結果から,本手法が自己教師型で優れた結果を得られることを示す。 コードはhttps://github.com/A vlon/SSPU-Netで入手できる。

Point clouds obtained from 3D sensors are usually sparse. Existing methods mainly focus on upsampling sparse point clouds in a supervised manner by using dense ground truth point clouds. In this paper, we propose a self-supervised point cloud upsampling network (SSPU-Net) to generate dense point clouds without using ground truth. To achieve this, we exploit the consistency between the input sparse point cloud and generated dense point cloud for the shapes and rendered images. Specifically, we first propose a neighbor expansion unit (NEU) to upsample the sparse point clouds, where the local geometric structures of the sparse point clouds are exploited to learn weights for point interpolation. Then, we develop a differentiable point cloud rendering unit (DRU) as an end-to-end module in our network to render the point cloud into multi-view images. Finally, we formulate a shape-consistent loss and an image-consistent loss to train the network so that the shapes of the sparse and dense point clouds are as consistent as possible. Extensive results on the CAD and scanned datasets demonstrate that our method can achieve impressive results in a self-supervised manner. Code is available at https://github.com/A vlon/SSPU-Net.
翻訳日:2021-08-03 15:17:56 公開日:2021-08-01
# IPOF: 無限の伝播による極端にシンプルなアウトリーチ検出ブースター

IPOF: An Extremely and Excitingly Simple Outlier Detection Booster via Infinite Propagation ( http://arxiv.org/abs/2108.00360v1 )

ライセンス: Link先を確認
Sibo Zhu, Handong Zhao, Hongfu Liu(参考訳) アウトリエ検出は、重要な学術的価値と広範な産業応用のために、データマイニング分野で最も人気があり、継続的なトピックの1つである。 さまざまな設定の中で、教師なしの外れ値検出は最も困難で実用的であり、多様な視点から大きな努力を惹きつける。 本稿では,スコアに基づく外れ値検出カテゴリを考察し,現在の外れ値検出アルゴリズムの性能がスコア伝搬によってさらに向上する可能性を指摘した。 具体的には, 無限伝播による極端かつエキサイティングな異常検出ブースターである, 無限伝播外乱因子(ipof)アルゴリズムを提案する。 初期化にスコアベースのアウトラヤ検出器を用いることで、iPOFは各データポイントのアウトラヤスコアを更新する。 様々な領域における多数のデータセットに対する大規模な実験結果から、いくつかの古典的および最近の最先端手法に対して、iPOFの有効性と効率が顕著に示されている。 また,一般検証のために,近傍の数,ipofにおける一意なパラメータ,異なる初期異常検出器のパラメータ解析も提供する。 iPOFは平均レベルで2%から46%のポジティブな改善をもたらしており、多くの場合、iPOFは元の外れ値検出アルゴリズムよりも3000%以上のパフォーマンスを向上する。

Outlier detection is one of the most popular and continuously rising topics in the data mining field due to its crucial academic value and extensive industrial applications. Among different settings, unsupervised outlier detection is the most challenging and practical one, which attracts tremendous efforts from diverse perspectives. In this paper, we consider the score-based outlier detection category and point out that the performance of current outlier detection algorithms might be further boosted by score propagation. Specifically, we propose Infinite Propagation of Outlier Factor (iPOF) algorithm, an extremely and excitingly simple outlier detection booster via infinite propagation. By employing score-based outlier detectors for initialization, iPOF updates each data point's outlier score by averaging the outlier factors of its nearest common neighbors. Extensive experimental results on numerous datasets in various domains demonstrate the effectiveness and efficiency of iPOF significantly over several classical and recent state-of-the-art methods. We also provide the parameter analysis on the number of neighbors, the unique parameter in iPOF, and different initial outlier detectors for general validation. It is worthy to note that iPOF brings in positive improvements ranging from 2% to 46% on the average level, and in some cases, iPOF boosts the performance over 3000% over the original outlier detection algorithm.
翻訳日:2021-08-03 15:12:39 公開日:2021-08-01
# SPEAR : Pythonにおける半教師付きデータプログラミング

SPEAR : Semi-supervised Data Programming in Python ( http://arxiv.org/abs/2108.00373v1 )

ライセンス: Link先を確認
Guttu Sai Abhishek, Harshad Ingole, Parth Laturia, Vineeth Dorna, Ayush Maheshwari, Ganesh Ramakrishnan and Rishabh Iyer(参考訳) 半監督型データプログラミングのためのオープンソースのpythonライブラリであるSPEARについて述べる。 このパッケージは、トレーニングデータをプログラム的にラベル付けし構築する機能を含む、最近のデータプログラミングアプローチを実装している。 SPEARはヒューリスティックス(またはルール)の形での弱い監督と、ノイズラベルのトレーニングデータセットへの関連を促進する。 これらのノイズラベルを集約して、ダウンストリームタスクのラベルなしデータにラベルを割り当てる。 我々は,ノイズラベルを集約したラベルアグリゲーション手法を複数実装し,ノイズラベル集合を逐次的に学習した。 当社の実装には、モデルを集約し、トレーニングする他のアプローチも含まれています。 そこで,本パッケージでは,複数のカスケードとジョイントなデータプログラミングアプローチを統合するとともに,ユーザがラベル付け機能やルールを定義することで,データプログラミングの機能も提供する。 コードとチュートリアルノートブックは \url{https://github.com/d ecile-team/spear} で入手できる。

We present SPEAR, an open-source python library for data programming with semi supervision. The package implements several recent data programming approaches including facility to programmatically label and build training data. SPEAR facilitates weak supervision in the form of heuristics (or rules) and association of noisy labels to the training dataset. These noisy labels are aggregated to assign labels to the unlabeled data for downstream tasks. We have implemented several label aggregation approaches that aggregate the noisy labels and then train using the noisily labeled set in a cascaded manner. Our implementation also includes other approaches that jointly aggregate and train the model. Thus, in our python package, we integrate several cascade and joint data-programming approaches while also providing the facility of data programming by letting the user define labeling functions or rules. The code and tutorial notebooks are available at \url{https://github.com/d ecile-team/spear}.
翻訳日:2021-08-03 15:12:18 公開日:2021-08-01
# 到達可能性グラフを用いたマスキングニューラルネットワークによるプロセスイベント予測

Masking Neural Networks Using Reachability Graphs to Predict Process Events ( http://arxiv.org/abs/2108.00404v1 )

ライセンス: Link先を確認
Julian Theis and Houshang Darabi(参考訳) Decay Replay Miningは、プロセスモデル表記を使って次のイベントを予測するディープラーニング手法である。 しかし、この手法は、プロセスモデルの構造を全面的にニューラルネットワークに織り込むものではない。 本稿では,次のイベント予測のために,Decay Replay Miningのプロセスモデルとニューラルネットワークを連動させるアプローチを提案する。 このアプローチでは、プロセスモデルの到達可能性グラフに基づいて初期化されるマスキング層を使用する。 さらに、予測性能を高めるため、ニューラルネットワークアーキテクチャの変更も提案されている。 実験結果は、アプローチの価値を示し、正確で一般化されたプロセスモデルを発見することの重要性を強調している。

Decay Replay Mining is a deep learning method that utilizes process model notations to predict the next event. However, this method does not intertwine the neural network with the structure of the process model to its full extent. This paper proposes an approach to further interlock the process model of Decay Replay Mining with its neural network for next event prediction. The approach uses a masking layer which is initialized based on the reachability graph of the process model. Additionally, modifications to the neural network architecture are proposed to increase the predictive performance. Experimental results demonstrate the value of the approach and underscore the importance of discovering precise and generalized process models.
翻訳日:2021-08-03 15:12:06 公開日:2021-08-01
# トランスファーラーニングによるモデル制限接地データを用いた変圧器型地図マッチング

Transformer-based Map Matching with Model Limited Ground-Truth Data using Transfer-Learning Approach ( http://arxiv.org/abs/2108.00439v1 )

ライセンス: Link先を確認
Zhixiong Jin, Seongjin Choi, Hwasoo Yeo(参考訳) 多くの軌道ベースのアプリケーションでは、生のgpsトラジェクタをデジタルマップの道路網にマッピングする必要がある。 従来のマップマッチング手法では,マップマッチング問題に対処するためにルールベースのアルゴリズムが用いられてきたが,本論文ではデータの観点からマップマッチングの課題を考察し,深層学習に基づくマップマッチングモデルを提案する。 トランスフォーマーを用いた地図マッチングモデルを構築し,トランスファー学習手法を提案する。 合成軌道データを生成して変圧器モデルの事前学習を行い, モデル開発コストを最小化し, 実物間ギャップを低減した。 3つの指標(平均ハミング距離、f-score、bleu)を2つのレベル(ポイントとセグメントレベル)で測定し、モデルの性能を評価する。 その結果,提案モデルが既存モデルを上回ることがわかった。 さらに、マップマッチングプロセスをプロットするためにトランスの注意重みを使用し、モデルがどのように道路セグメントと正しく一致しているかを見出す。

In many trajectory-based applications, it is necessary to map raw GPS trajectories onto road networks in digital maps, which is commonly referred to as a map-matching process. While most previous map-matching methods have focused on using rule-based algorithms to deal with the map-matching problems, in this paper, we consider the map-matching task from the data perspective, proposing a deep learning-based map-matching model. We build a Transformer-based map-matching model with a transfer learning approach. We generate synthetic trajectory data to pre-train the Transformer model and then fine-tune the model with a limited number of ground-truth data to minimize the model development cost and reduce the real-to-virtual gap. Three metrics (Average Hamming Distance, F-score, and BLEU) at two levels (point and segment level) are used to evaluate the model performance. The results indicate that the proposed model outperforms existing models. Furthermore, we use the attention weights of the Transformer to plot the map-matching process and find how the model matches the road segments correctly.
翻訳日:2021-08-03 15:11:57 公開日:2021-08-01
# 両腕ロボット操作のためのトランスフォーマーを用いた深部模倣学習

Transformer-based deep imitation learning for dual-arm robot manipulation ( http://arxiv.org/abs/2108.00385v1 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) 深層模倣学習は環境モデルや事前にプログラムされたロボットの動作を必要としないため、巧妙な操作タスクの解決に有望である。 しかし、デュアルアーム操作タスクへの応用は依然として困難である。 デュアルアーム操作のセットアップでは、追加のロボットマニピュレータによって引き起こされる状態次元の増大が障害を引き起こし、結果としてニューラルネットワークの性能が低下する。 我々は,シーケンシャル入力における要素間の依存関係を計算し,重要な要素に焦点を当てたセルフアテンション機構を用いてこの問題に対処する。 自己注意型アーキテクチャの変種であるTransformerは、実世界のデュアルアーム操作タスクを解決するために、深層模倣学習に適用される。 提案手法は実ロボットを用いた双腕操作タスクでテストされている。 実験結果から,トランスフォーマベースの深層模倣学習アーキテクチャは,感覚入力中の重要な特徴に適応できるため,自己着脱機構を伴わないベースラインアーキテクチャと比較して,邪魔や操作性能の向上が期待できることがわかった。

Deep imitation learning is promising for solving dexterous manipulation tasks because it does not require an environment model and pre-programmed robot behavior. However, its application to dual-arm manipulation tasks remains challenging. In a dual-arm manipulation setup, the increased number of state dimensions caused by the additional robot manipulators causes distractions and results in poor performance of the neural networks. We address this issue using a self-attention mechanism that computes dependencies between elements in a sequential input and focuses on important elements. A Transformer, a variant of self-attention architecture, is applied to deep imitation learning to solve dual-arm manipulation tasks in the real world. The proposed method has been tested on dual-arm manipulation tasks using a real robot. The experimental results demonstrated that the Transformer-based deep imitation learning architecture can attend to the important features among the sensory inputs, therefore reducing distractions and improving manipulation performance when compared with the baseline architecture without the self-attention mechanisms.
翻訳日:2021-08-03 15:09:37 公開日:2021-08-01
# ロバストな医用画像セグメンテーションのためのスタイル学習

Style Curriculum Learning for Robust Medical Image Segmentation ( http://arxiv.org/abs/2108.00402v1 )

ライセンス: Link先を確認
Zhendong Liu, Van Manh, Xin Yang, Xiaoqiong Huang, Karim Lekadir, V\'ictor Campello, Nishant Ravikumar, Alejandro F Frangi, Dong Ni(参考訳) 深部セグメンテーションモデルの性能は、トレーニングデータセットとテストデータセット間の画像強度の分散シフトによって劣化することが多い。 これは、マルチベンダースキャナーを用いて取得したデータを含むマルチ中心研究において特に顕著であり、取得プロトコルのバリエーションがある。 シフトはしばしばtextit{a priori} として知られておらず、モデル化が難しいため、この分解に対処することは困難である。 このような分布シフトが存在する場合にロバストなセグメンテーションを確保するための新しい枠組みを提案する。 私たちの貢献は3倍です。 まず, カリキュラム学習の精神に触発されて, セグメンテーションモデルの訓練を行うための新しいスタイルカリキュラムを, 簡単なハードモードを用いて設計する。 カリキュラムサンプルの生成にはスタイル融合を用いたスタイル転送モデルが用いられる。 複雑で敵対的なスタイルのサンプルに徐々に焦点を合わせれば、モデルのロバスト性が大幅に向上する。 第二に, カリキュラムの複雑さを主観的に定義するのではなく, 難解なサンプル生成プロセスを制御するために, 自動勾配操作手法を採用する。 第3に,局所的に勾配を集約し,勾配操作時のスタビリッシュトレーニングを行う局所勾配符号戦略を提案する。 提案フレームワークは,対象データを用いることなく未知の分布に一般化することができる。 公開m\&msチャレンジデータセットに関する広範囲な実験により,提案手法が未知の分布によく適用でき,セグメンテーション精度が大幅に向上することを実証した。

The performance of deep segmentation models often degrades due to distribution shifts in image intensities between the training and test data sets. This is particularly pronounced in multi-centre studies involving data acquired using multi-vendor scanners, with variations in acquisition protocols. It is challenging to address this degradation because the shift is often not known \textit{a priori} and hence difficult to model. We propose a novel framework to ensure robust segmentation in the presence of such distribution shifts. Our contribution is three-fold. First, inspired by the spirit of curriculum learning, we design a novel style curriculum to train the segmentation models using an easy-to-hard mode. A style transfer model with style fusion is employed to generate the curriculum samples. Gradually focusing on complex and adversarial style samples can significantly boost the robustness of the models. Second, instead of subjectively defining the curriculum complexity, we adopt an automated gradient manipulation method to control the hard and adversarial sample generation process. Third, we propose the Local Gradient Sign strategy to aggregate the gradient locally and stabilise training during gradient manipulation. The proposed framework can generalise to unknown distribution without using any target data. Extensive experiments on the public M\&Ms Challenge dataset demonstrate that our proposed framework can generalise deep models well to unknown distributions and achieve significant improvements in segmentation accuracy.
翻訳日:2021-08-03 15:07:22 公開日:2021-08-01
# CERL: 現実雑音による光強調のための統一最適化フレームワーク

CERL: A Unified Optimization Framework for Light Enhancement with Realistic Noise ( http://arxiv.org/abs/2108.00478v1 )

ライセンス: Link先を確認
Zeyuan Chen, Yifan Jiang, Dong Liu, Zhangyang Wang(参考訳) 現実世界で撮影された低照度画像は、センサーノイズによって必然的に破損する。 このようなノイズは空間的に変化しており、下層のピクセル強度に強く依存しており、従来のデノナイジングでは過度に単純化された仮定から逸脱している。 既存の光強調法は、拡張中の現実世界のノイズの重要な影響を見落とし、ノイズ除去を別の前処理または後処理のステップとして扱う。 実世界の低照度雑音画像(CERL)のコーディネート・エンハンスメントについて,光強調部と雑音抑圧部を統一的・物理的最適化フレームワークにシームレスに統合する。 実際の低照度ノイズ除去部では、クリーンな地味画像を参照することなく容易に適応できる自己教師付き遮音モデルをカスタマイズする。 ライトエンハンスメント部分については、最先端のバックボーンの設計も改善しています。 2つの部品は1つの原理のプラグ・アンド・プレイ最適化で構成される。 本手法は,定性的かつ定量的に,最先端の低照度化手法と比較した。 標準ベンチマークの他に、我々はRLMP(Rally Low-light Mobile photo data data)という、高品質のカメラで撮影されたものよりもはるかにリアルなノイズを撮影するモバイル写真データセットの収集とテストを行っている。 cerlは一貫して、すべての実験で最も視覚的に快適でアーティファクトフリーな結果を生み出す。 我々のRLMPデータセットとコードは以下の通りである。

Low-light images captured in the real world are inevitably corrupted by sensor noise. Such noise is spatially variant and highly dependent on the underlying pixel intensity, deviating from the oversimplified assumptions in conventional denoising. Existing light enhancement methods either overlook the important impact of real-world noise during enhancement, or treat noise removal as a separate pre- or post-processing step. We present Coordinated Enhancement for Real-world Low-light Noisy Images (CERL), that seamlessly integrates light enhancement and noise suppression parts into a unified and physics-grounded optimization framework. For the real low-light noise removal part, we customize a self-supervised denoising model that can easily be adapted without referring to clean ground-truth images. For the light enhancement part, we also improve the design of a state-of-the-art backbone. The two parts are then joint formulated into one principled plug-and-play optimization. Our approach is compared against state-of-the-art low-light enhancement methods both qualitatively and quantitatively. Besides standard benchmarks, we further collect and test on a new realistic low-light mobile photography dataset (RLMP), whose mobile-captured photos display heavier realistic noise than those taken by high-quality cameras. CERL consistently produces the most visually pleasing and artifact-free results across all experiments. Our RLMP dataset and codes are available at: https://github.com/V ITA-Group/CERL.
翻訳日:2021-08-03 15:06:59 公開日:2021-08-01
# ソーシャルネットワークにおけるオークションデザインの創発的手法

Emerging Methods of Auction Design in Social Networks ( http://arxiv.org/abs/2108.00381v1 )

ライセンス: Link先を確認
Yuhang Guo, Dong Hao(参考訳) 近年,拡散オークションと呼ばれる新しいオークションモデルが,従来のオークションをソーシャルネットワークのシナリオに拡張している。 拡散オークションは、ノードが潜在顧客であり、エッジが顧客間の関係であるネットワーク市場としてオークションをモデル化する。 拡散オークション機構は、購入者に真正な入札を申し込むだけでなく、近隣の住民を招いてオークションに参加するようにインセンティブを与えることができる。 従来のオークションメカニズムよりも多くの参加者が集まり、社会福祉、販売者収入、再分配金の量など、さまざまな重要な側面の最適化に繋がる。 拡散オークションは、最近、アルゴリズムゲーム理論と市場デザインコミュニティに独特な関心を集めている。 本調査は拡散オークションの現状をまとめたものである。

In recent years, a new branch of auction models called diffusion auction has extended the traditional auction into social network scenarios. The diffusion auction models the auction as a networked market whose nodes are potential customers and whose edges are the relations between these customers. The diffusion auction mechanism can incentivize buyers to not only submit a truthful bid, but also further invite their surrounding neighbors to participate into the auction. It can convene more participants than traditional auction mechanisms, which leads to better optimizations of different key aspects, such as social welfare, seller's revenue, amount of redistributed money and so on. The diffusion auctions have recently attracted a discrete interest in the algorithmic game theory and market design communities. This survey summarizes the current progress of diffusion auctions.
翻訳日:2021-08-03 15:04:09 公開日:2021-08-01
# 希薄気体力学のためのクヌーゼン数に関するデータ駆動マクロモデリングとレイリー散乱への応用

Data Driven Macroscopic Modeling across Knudsen Numbers for Rarefied Gas Dynamics and Application to Rayleigh Scattering ( http://arxiv.org/abs/2108.00413v1 )

ライセンス: Link先を確認
Candi Zheng, Yang Wang, Shiyi Chen(参考訳) 密度ガス領域から希薄ガス領域までのクヌーゼン数にわたっての気体力学のマクロモデリングは大きな課題である。 理由は、マクロモデルは異なるクヌーゼン数に対して妥当な正確な構成関係を欠いているからである。 この問題に対処するため,データ駆動のKnUdsen数適応線形構成関係モデルDUALを提案した。 デュアルモデルは、濃厚から希薄まで、観測データからクヌーズン数の変化に適応する学習を通じて、クヌーズン数の範囲にわたって正確である。 これは、制約付きニューラルネットワークを利用することで、流体力学的限界の下でのnavier-stokes方程式と一致する。 加えて、熱力学の第二の法則を自然に満たし、ノイズに強いデータである。 我々は、レイリー散乱スペクトルの計算において、DUALモデルをテストする。 DUALモデルは様々なクヌーゼン数に対して正確なスペクトルを与え、従来の摂動法やモーメント展開法よりも優れている。

Macroscopic modeling of the gas dynamics across Knudsen numbers from dense gas region to rarefied gas region remains a great challenge. The reason is macroscopic models lack accurate constitutive relations valid across different Knudsen numbers. To address this problem, we proposed a Data-driven, KnUdsen number Adaptive Linear constitutive relation model named DUAL. The DUAL model is accurate across a range of Knudsen numbers, from dense to rarefied, through learning to adapt Knudsen number change from observed data. It is consistent with the Navier-Stokes equation under the hydrodynamic limit, by utilizing a constrained neural network. In addition, it naturally satisfies the second law of thermodynamics and is robust to noisy data. We test the DUAL model on the calculation of Rayleigh scattering spectra. The DUAL model gives accurate spectra for various Knudsen numbers and is superior to traditional perturbation and moment expansion methods.
翻訳日:2021-08-03 15:00:42 公開日:2021-08-01
# 直交エンコーダを用いた潜時空間ランダム化平滑化による認証防御

Certified Defense via Latent Space Randomized Smoothing with Orthogonal Encoders ( http://arxiv.org/abs/2108.00491v1 )

ライセンス: Link先を確認
Huimin Zeng, Jiahao Su, Furong Huang(参考訳) ランダム化平滑化(英語版)(rs)は証明可能な数少ない防御の1つであり、$\ell_2$-norm の敵対的摂動に対する防御に関して大きな効果と拡張性を示している。 しかしながら、評価にrsで必要となるmcサンプリングのコストは高く計算コストが高い。 この問題に対処するために,ネットワークの潜在空間においてランダムな平滑化を行い,ロバストな認証を確立する可能性を検証し,計算に関わるテンソルの全体次元を劇的に削減できることを示す。 この目的のために、Latent Space Randomized Smoothingを提案する。 もう一つの重要な側面は、リプシッツ特性が設計によって自由であることが知られている直交加群を用いて、潜在空間で推定される認定半径を入力空間に伝播させ、入力空間におけるテストサンプルに対して有効な証明可能な領域を提供することである。 CIFAR10 と ImageNet を用いた実験により,本手法は競争力のある堅牢性を実現するが,試験段階における効率の大幅な向上を図っている。

Randomized Smoothing (RS), being one of few provable defenses, has been showing great effectiveness and scalability in terms of defending against $\ell_2$-norm adversarial perturbations. However, the cost of MC sampling needed in RS for evaluation is high and computationally expensive. To address this issue, we investigate the possibility of performing randomized smoothing and establishing the robust certification in the latent space of a network, so that the overall dimensionality of tensors involved in computation could be drastically reduced. To this end, we propose Latent Space Randomized Smoothing. Another important aspect is that we use orthogonal modules, whose Lipschitz property is known for free by design, to propagate the certified radius estimated in the latent space back to the input space, providing valid certifiable regions for the test samples in the input space. Experiments on CIFAR10 and ImageNet show that our method achieves competitive certified robustness but with a significant improvement of efficiency during the test phase.
翻訳日:2021-08-03 15:00:27 公開日:2021-08-01
# DeepTrack: 高速道路における車両経路予測のための軽量ディープラーニング

DeepTrack: Lightweight Deep Learning for Vehicle Path Prediction in Highways ( http://arxiv.org/abs/2108.00505v1 )

ライセンス: Link先を確認
Mohammadreza Baharani, Vinit Katariya, Nichole Morris, Omidreza Shoghli, Hamed Tabkhi(参考訳) 車両軌道予測は多くのインテリジェント交通システムの実現に不可欠である。 この分野にはいくつかの有望な進歩があったが、より小さなモデルサイズと低い計算要求を持つ新しいアジャイルアルゴリズムが必要である。 本稿では、高速道路におけるリアルタイム車両軌道予測用にカスタマイズされた新しいディープラーニングアルゴリズムであるDeepTrackについて述べる。 以前の方法とは対照的に、車両のダイナミクスはagile temporal convolutional network (atcns)を使って符号化され、少ない計算でよりロバストな時間予測を提供する。 ATCNは奥行きの畳み込み(deepwise convolution)も使用しており、モデルのサイズや操作の点で既存のアプローチと比較して、モデルの複雑さを低減する。 実験の結果,DeepTrackの精度は最先端の軌道予測モデルに匹敵するが,モデルサイズが小さく,計算量も小さく,現実の展開に適していることがわかった。

Vehicle trajectory prediction is an essential task for enabling many intelligent transportation systems. While there have been some promising advances in the field, there is a need for new agile algorithms with smaller model sizes and lower computational requirements. This article presents DeepTrack, a novel deep learning algorithm customized for real-time vehicle trajectory prediction in highways. In contrast to previous methods, the vehicle dynamics are encoded using Agile Temporal Convolutional Networks (ATCNs) to provide more robust time prediction with less computation. ATCN also uses depthwise convolution, which reduces the complexity of models compared to existing approaches in terms of model size and operations. Overall, our experimental results demonstrate that DeepTrack achieves comparable accuracy to state-of-the-art trajectory prediction models but with smaller model sizes and lower computational complexity, making it more suitable for real-world deployment.
翻訳日:2021-08-03 15:00:07 公開日:2021-08-01
# 深層強化学習によるエネルギー消費最小化のための無線センサネットワークのuav軌道計画

UAV Trajectory Planning in Wireless Sensor Networks for Energy Consumption Minimization by Deep Reinforcement Learning ( http://arxiv.org/abs/2108.00354v1 )

ライセンス: Link先を確認
Botao Zhu, Ebrahim Bedeer, Ha H. Nguyen, Robert Barton, Jerome Henry(参考訳) 無人航空機(UAV)は、大規模無線センサネットワーク(WSN)のデータ収集の候補として期待されている。 本稿では、クラスタヘッド(CH)が各ノードからデータを受信するUAV支援WSNを調査し、UAVを送信して、計画された軌道に沿ってCHからデータを収集する。 データ収集の全ラウンドでUAV-WSNシステムの総エネルギー消費を最小化することを目的としている。 この目的に向けて,クラスタ内のノードから ch を選択し,選択した ch に対して uav の訪問順序を計画することで,エネルギー消費最小化問題を制約付き組合せ最適化問題として定式化する。 定式化エネルギー消費最小化問題はNPハードであり、最適に解くのは難しい。 この課題に取り組むため,我々は,エネルギー消費を最小化するためのuav軌道政策の経験から効率的に学習できる新しい深層強化学習(drl)手法であるpointer network-a*(ptr-a*)を提案する。 UAVの開始点と事前決定されたクラスタからなるWSNはPtr-A*に供給され、Ptr-A*はCHのグループとこれらのCH、すなわちUAVの軌道に対して訪問順序を出力する。 Ptr-A*のパラメータは、Actor-criticアルゴリズムを教師なしの方法で使用することにより、より高速なトレーニングのために、小規模クラスタ問題インスタンスでトレーニングされる。 推論では,ソリューションの品質向上のための3つの探索戦略も提案されている。 シミュレーションの結果,20クラスタと40クラスタをベースとしたトレーニングモデルでは,異なる数のクラスタを持つWSNにおいて,UAVの軌道計画問題をモデルを再学習することなく解くことができる。 さらに,提案したDRLアルゴリズムは2つのベースライン手法より優れていることを示す。

Unmanned aerial vehicles (UAVs) have emerged as a promising candidate solution for data collection of large-scale wireless sensor networks (WSNs). In this paper, we investigate a UAV-aided WSN, where cluster heads (CHs) receive data from their member nodes, and a UAV is dispatched to collect data from CHs along the planned trajectory. We aim to minimize the total energy consumption of the UAV-WSN system in a complete round of data collection. Toward this end, we formulate the energy consumption minimization problem as a constrained combinatorial optimization problem by jointly selecting CHs from nodes within clusters and planning the UAV's visiting order to the selected CHs. The formulated energy consumption minimization problem is NP-hard, and hence, hard to solve optimally. In order to tackle this challenge, we propose a novel deep reinforcement learning (DRL) technique, pointer network-A* (Ptr-A*), which can efficiently learn from experiences the UAV trajectory policy for minimizing the energy consumption. The UAV's start point and the WSN with a set of pre-determined clusters are fed into the Ptr-A*, and the Ptr-A* outputs a group of CHs and the visiting order to these CHs, i.e., the UAV's trajectory. The parameters of the Ptr-A* are trained on small-scale clusters problem instances for faster training by using the actor-critic algorithm in an unsupervised manner. At inference, three search strategies are also proposed to improve the quality of solutions. Simulation results show that the trained models based on 20-clusters and 40-clusters have a good generalization ability to solve the UAV's trajectory planning problem in WSNs with different numbers of clusters, without the need to retrain the models. Furthermore, the results show that our proposed DRL algorithm outperforms two baseline techniques.
翻訳日:2021-08-03 14:55:12 公開日:2021-08-01
# 収束保証を伴う委員会機構による分散フェデレーション学習フレームワーク

A Decentralized Federated Learning Framework via Committee Mechanism with Convergence Guarantee ( http://arxiv.org/abs/2108.00365v1 )

ライセンス: Link先を確認
Chunjiang Che, Xiaoli Li, Chuan Chen, Xiaoyu He, Zibin Zheng(参考訳) フェデレーション学習は、複数の参加者がデータプライバシを公開することなく、効率的にモデルをトレーニングすることを可能にする。 しかしながら、この分散機械学習トレーニング方法は、モデルの変更や誤った勾配のアップロードによってグローバルモデルのトレーニングを妨げるビザンチンクライアントからの攻撃に起因している。 本稿では,コンバージェンス保証によるアルゴリズムのロバスト性を保証するための,新しいサーバレスフェデレーション学習フレームワーク委員会機構に基づくフェデレーション学習(cmfl)を提案する。 CMFLでは、アップロードされた局所勾配を表示するために委員会システムが設置される。 委員会システムは、選考戦略を通じて、選出された委員が集計手続きのために評価した地域勾配を選択し、選挙戦略を通じて委員を置き換える。 モデル性能と防御の異なる考察に基づき、精度と堅牢性の両方のために2つの反対選択戦略を設計する。 広範囲にわたる実験は、CMFLが一般的なフェデレートラーニングよりも早く収束と精度の向上を実現し、一方、非集中的なアプローチで従来のビザンチン耐性アルゴリズムよりも優れた堅牢性を得ることを示した。 さらに,実験結果と一致する選挙戦略と選択戦略の異なるCMFLの収束を理論的に解析し,実証する。

Federated learning allows multiple participants to collaboratively train an efficient model without exposing data privacy. However, this distributed machine learning training method is prone to attacks from Byzantine clients, which interfere with the training of the global model by modifying the model or uploading the false gradient. In this paper, we propose a novel serverless federated learning framework Committee Mechanism based Federated Learning (CMFL), which can ensure the robustness of the algorithm with convergence guarantee. In CMFL, a committee system is set up to screen the uploaded local gradients. The committee system selects the local gradients rated by the elected members for the aggregation procedure through the selection strategy, and replaces the committee member through the election strategy. Based on the different considerations of model performance and defense, two opposite selection strategies are designed for the sake of both accuracy and robustness. Extensive experiments illustrate that CMFL achieves faster convergence and better accuracy than the typical Federated Learning, in the meanwhile obtaining better robustness than the traditional Byzantine-tolerant algorithms, in the manner of a decentralized approach. In addition, we theoretically analyze and prove the convergence of CMFL under different election and selection strategies, which coincides with the experimental results.
翻訳日:2021-08-03 14:54:41 公開日:2021-08-01
# (参考訳) 理論的コンピュータ科学の観点からの意識の理論:意識チューリングマシンからの考察 [全文訳有]

A Theory of Consciousness from a Theoretical Computer Science Perspective: Insights from the Conscious Turing Machine ( http://arxiv.org/abs/2107.13704v2 )

ライセンス: CC BY 4.0
Lenore Blum, Manuel Blum(参考訳) かつて哲学者や神学者の観念であった意識理解の探求は、現在では多くの分野の科学者によって活発に追求されている。 計算と複雑性の根底にある原理を理解することに関わる数学の分野である理論計算機科学(tcs)の視点から、資源制限の影響や驚くべき結果を含む意識を考察する。 アラン・チューリングのコンピュータの単純かつ強力な定義、チューリングマシン(TM)、および計算複雑性理論の観点から、認知神経科学者バーナード・バールズ(Bernard Baars)による意識のグローバルワークスペース理論(GWT)の修正版を形式化し、スタニスラス・デヘーネ(Stanislas Dehaene)、ジャン=ピエール・チェンドー(Jean-Pierre Changeaux)らによってさらに発展させた。 脳の複雑なモデルや認知のモデルを探すのではなく、(明らかに複雑な)意識の単純な計算モデルを探すのです。 我々は意識的チューリングマシン(CTM)、別名意識AIを定義し、その上で意識と関連する概念をCTMで定義する。 これらは数学的な(TCS)定義に過ぎないが、なぜCTMが意識を持っているのかを示唆する。 tcsパースペクティブは、計算複雑性理論と機械学習のツールを使用して、意識と関連する概念を理解するためのシンプルな形式的フレームワークを提供する。 これまで我々は,CTMにおける痛みと快楽の感情の高レベルな説明について検討した。 ここでは、視覚に関する3つの例(盲目、盲目、盲目の変化)を考察し、次に夢、自由意志、意識の変化について論じる。

The quest to understand consciousness, once the purview of philosophers and theologians, is now actively pursued by scientists of many stripes. We examine consciousness from the perspective of theoretical computer science (TCS), a branch of mathematics concerned with understanding the underlying principles of computation and complexity, including the implications and surprising consequences of resource limitations. In the spirit of Alan Turing's simple yet powerful definition of a computer, the Turing Machine (TM), and perspective of computational complexity theory, we formalize a modified version of the Global Workspace Theory (GWT) of consciousness originated by cognitive neuroscientist Bernard Baars and further developed by him, Stanislas Dehaene, Jean-Pierre Changeaux and others. We are not looking for a complex model of the brain nor of cognition, but for a simple computational model of (the admittedly complex concept of) consciousness. We do this by defining the Conscious Turing Machine (CTM), also called a conscious AI, and then we define consciousness and related notions in the CTM. While these are only mathematical (TCS) definitions, we suggest why the CTM has the feeling of consciousness. The TCS perspective provides a simple formal framework to employ tools from computational complexity theory and machine learning to help us understand consciousness and related concepts. Previously we explored high level explanations for the feelings of pain and pleasure in the CTM. Here we consider three examples related to vision (blindsight, inattentional blindness, and change blindness), followed by discussions of dreams, free will, and altered states of consciousness.
翻訳日:2021-08-03 12:02:01 公開日:2021-08-01