このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201206となっている論文です。

PDF登録状況(公開日: 20201206)

TitleAuthorsAbstract論文公表日・翻訳日
# 準最適地盤準備

Near-optimal ground state preparation ( http://arxiv.org/abs/2002.12508v3 )

ライセンス: Link先を確認
Lin Lin and Yu Tong(参考訳) 与えられたハミルトンの基底状態を用意し、その基底エネルギーを推定することは重要であるが、計算的に難しい。 しかし、いくつかの追加情報があれば、これらの問題は量子コンピュータ上で効率的に解ける。 我々は、基底状態と非自明な重なりのない初期状態が効率的に作成でき、地上エネルギーと第1励起エネルギーとのスペクトルギャップを下から有界にすることができると仮定する。 これらの仮定により、基底エネルギーの上限が分かっている場合の基底状態準備アルゴリズムを設計し、そのランタイムは逆誤差に対数依存性を持つ。 このような上限が分かっていない場合は、[ge et al. 2019]で提案された現在の最先端アルゴリズムと比較して、初期状態に対するクエリ数を所望の精度に指数関数的に改善する、基底エネルギーを推定するハイブリッド量子古典アルゴリズムを提案する。 これら2つのアルゴリズムを組み合わせることで、基底エネルギーの上限を知ることなく基底状態を作成することができる。 また,非構造化探索問題と量子近似計数問題に適用することにより,アルゴリズムの複雑性を低く抑えることを証明した。

Preparing the ground state of a given Hamiltonian and estimating its ground energy are important but computationally hard tasks. However, given some additional information, these problems can be solved efficiently on a quantum computer. We assume that an initial state with non-trivial overlap with the ground state can be efficiently prepared, and the spectral gap between the ground energy and the first excited energy is bounded from below. With these assumptions we design an algorithm that prepares the ground state when an upper bound of the ground energy is known, whose runtime has a logarithmic dependence on the inverse error. When such an upper bound is not known, we propose a hybrid quantum-classical algorithm to estimate the ground energy, where the dependence of the number of queries to the initial state on the desired precision is exponentially improved compared to the current state-of-the-art algorithm proposed in [Ge et al. 2019]. These two algorithms can then be combined to prepare a ground state without knowing an upper bound of the ground energy. We also prove that our algorithms reach the complexity lower bounds by applying it to the unstructured search problem and the quantum approximate counting problem.
翻訳日:2023-06-01 07:59:35 公開日:2020-12-06
# サブキャリア波連続可変量子鍵分布のコヒーレント検出法

Coherent detection schemes for subcarrier wave continuous variable quantum key distribution ( http://arxiv.org/abs/2006.16543v2 )

ライセンス: Link先を確認
Eduard Samsonov, Roman Goncharov, Maxim Fadeev, Alexandr Zinoviev, Daniil Kirichenko, Boris Nasedkin, Alexei Kiselev, and Vladimir Egorov(参考訳) サブキャリア波量子鍵分布(SCW QKD)システムにおいて,コヒーレント検出を実現するための様々な手法を検討した。 古典波動場について, ホモダイン型およびヘテロダイン型コヒーレント検出スキームを記述するモデルを提示し, scw qkd で使用される2次位相符号化マルチモード信号から情報を抽出する。 提案手法の実用性は実験によって裏付けられている。

We examine different methods to implement coherent detection in the subcarrier wave quantum key distribution (SCW QKD) systems. For classical wavefields, we present the models describing homodyne-type and heterodyne-type coherent detection schemes needed to extract information from the quadrature phase-coded multimode signals used in SCW QKD. Practical feasibility of the proposed schemes is corroborated by the experiments.
翻訳日:2023-05-12 01:23:57 公開日:2020-12-06
# ブロックチェーン技術の最近の進歩:アプリケーションと課題に関する調査

Recent advances in Blockchain Technology: A survey on Applications and Challenges ( http://arxiv.org/abs/2009.05718v2 )

ライセンス: Link先を確認
Saqib Hakak, Wazir Zada Khan, Gulshan Amin Gilkar, Basem Assiri, Mamoun Alazab, Sweta Bhattacharya, G Thippa Reddy(参考訳) 数年以内にブロックチェーン技術の台頭は、世界中の研究者を惹きつけている。 世界的に注目される主な理由は、データ保護の分散アプローチとともに不変性が特徴であることにある。 この技術が進歩するにつれ、新しいアプリケーションやブロックチェーンベースのプラットフォーム、コンセンサスメカニズムなどを特定するための多くの開発が進められている。 したがって、この記事では、ブロックチェーン技術の最近の進歩をレビューする試みがなされている。 さらに、利用可能なブロックチェーンプラットフォームについても検討し、今後の研究の方向性と課題を強調し、検討しました。

The rise of blockchain technology within a few years has attracted researchers across the world. The prime reason for worldwide attention is undoubtedly due to its feature of immutability along with the decentralized approach of data protection. As this technology is progressing, lots of developments in terms of identifying new applications, blockchain-based platforms, consensus mechanisms, etc are taking place. Hence, in this article, an attempt has been made to review the recent advancements in blockchain technology. Furthermore, we have also explored the available blockchain platforms, highlighted and explored future research directions and challenges.
翻訳日:2023-05-02 10:50:15 公開日:2020-12-06
# 絡み合う隙間、角、対称性の破れ

Entanglement gap, corners, and symmetry breaking ( http://arxiv.org/abs/2010.00787v2 )

ライセンス: Link先を確認
Vincenzo Alba(参考訳) 2次元量子球面モデル(qsm)の順序相における最低エンタングルメントギャップ$\delta\xi$の有限サイズのスケーリングについて検討する。 絡み合いギャップは$\delta\xi=\Omega/\sqrt{L\ln(L)}$として崩壊する。 これは、臨界点での純粋対数挙動が$\delta\xi=\pi^2/\ln(l)$であるのとは対照的である。 秩序相のより早い崩壊は磁気秩序の存在を反映している。 モデル分散の低エネルギー部分と分割の幾何学に依存する定数$\Omega$を解析的に決定する。 特に、少なくとも正方角の場合、$\Omega$へのコーナーコントリビューションを計算することができる。

We investigate the finite-size scaling of the lowest entanglement gap $\delta\xi$ in the ordered phase of the two-dimensional quantum spherical model (QSM). The entanglement gap decays as $\delta\xi=\Omega/\sqrt{L\ln(L)}$. This is in contrast with the purely logarithmic behaviour as $\delta\xi=\pi^2/\ln(L)$ at the critical point. The faster decay in the ordered phase reflects the presence of magnetic order. We analytically determine the constant $\Omega$, which depends on the low-energy part of the model dispersion and on the geometry of the bipartition. In particular, we are able to compute the corner contribution to $\Omega$, at least for the case of a square corner.
翻訳日:2023-04-30 11:50:58 公開日:2020-12-06
# アルゴリズムの社会的責任

Social Responsibility of Algorithms ( http://arxiv.org/abs/2012.03319v1 )

ライセンス: Link先を確認
Alexis Tsouki\`as(参考訳) 社会内における日常的活動の増加を自動的に処理するデバイスやアルゴリズムの大量利用に懸念を抱くべきだろうか? 論文は、このトピックに関する科学的研究の概要を簡潔に述べ、このような自律的なアーティファクトの開発、存在、使用は、機械学習独占人工知能に対する最近の関心よりもずっと古いことを示している。 そして、データ収集、構造化、操作、レコメンデーションと意思決定のプロセス全体に対する、そのような成果物の使用の影響を分類します。 推奨されるフレームワークは、研究者と実践者の両方を含む、意思決定アナリストのコミュニティ全体で多くの課題を識別できる。

Should we be concerned by the massive use of devices and algorithms which automatically handle an increasing number of everyday activities within our societies? The paper makes a short overview of the scientific investigation around this topic, showing that the development, existence and use of such autonomous artifacts is much older than the recent interest in machine learning monopolised artificial intelligence. We then categorise the impact of using such artifacts to the whole process of data collection, structuring, manipulation as well as in recommendation and decision making. The suggested framework allows to identify a number of challenges for the whole community of decision analysts, both researchers and practitioners.
翻訳日:2023-04-21 22:58:22 公開日:2020-12-06
# 固体中のスピンと運動量の超高速光制御

Ultrafast optical control over spin and momentum in solids ( http://arxiv.org/abs/2012.03247v1 )

ライセンス: Link先を確認
Q.Z. Li, S. Shallcross, J.K. Dewhurst, S. Sharma, P. Elliott(参考訳) レーザー光の物質への結合は、超高速フェムト秒時間スケールで制御可能な光学誘起電流と磁性を持つ材料特性のサブサイクルコヒーレント制御を行うことができる。 ここでは、リニアパルスと円形パルスの両方からなるレーザ光を用いて、第1ブリルアンゾーンを通して特定のスピンと結晶運動量の電荷を精度良く生成できることを示す。 我々のハイブリッドパルスは、アディバティックなバンド内運動と、原子価と伝導帯の間の垂直なバンド間励起の両方を制御的に誘導し、その実装にはスピンスプリット・バレー構造のみを必要とする。 このシナリオは2d半導体でよく見られ、単層 WSe$_2$ で我々のアプローチを実証する。 これにより、レーザー光から逆空間における励起の局所制御への経路を確立し、超高速時間スケールでのモーメント励起状態の生成への道を開く。

The coupling of laser light to matter can exert sub-cycle coherent control over material properties, with optically induced currents and magnetism shown to be controllable on ultrafast femtosecond time scales. Here, by employing laser light consisting of both linear and circular pulses, we show that charge of specified spin and crystal momentum can be created with precision throughout the first Brillouin zone. Our hybrid pulses induce in a controlled way both adiabatic intraband motion as well as vertical interband excitation between valence and conduction bands, and require only a gapped spin split valley structure for their implementation. This scenario is commonly found in the 2d semi-conductors, and we demonstrate our approach with monolayer WSe$_2$. We thus establish a route from laser light to local control over excitations in reciprocal space, opening the way to the preparation of momenta specified excited states at ultrafast time scales.
翻訳日:2023-04-21 22:57:19 公開日:2020-12-06
# 密集した身体部位から3次元形状とポーズを学ぶ

Learning 3D Human Shape and Pose from Dense Body Parts ( http://arxiv.org/abs/1912.13344v2 )

ライセンス: Link先を確認
Hongwen Zhang, Jie Cao, Guo Lu, Wanli Ouyang, Zhenan Sun(参考訳) 最近の学習に基づく手法で得られる有望な結果にもかかわらず、単眼画像から3次元の形状とポーズを再構成することは困難である。 一般的に発生するミスアライメントは、画像からモデル空間へのマッピングが極めて非線形であり、ボディモデルの回転に基づくポーズ表現が関節位置のドリフトをもたらすことに起因する。 本研究では,身体部分の密接な対応から3次元の人体形状を学習し,これらの課題に対処する分解・集約ネットワーク(DaNet)を提案する。 DaNetは2Dピクセルと3D頂点の間のブリッジを密に構築する密度の高い対応マップを中間表現として採用し、2Dから3Dマッピングの学習を容易にする。 danetの予測モジュールを1つのグローバルストリームと複数のローカルストリームに分解し、それぞれ形状とポーズ予測のグローバルおよび細かな知覚を可能にする。 局所ストリームからのメッセージはさらに集約され、回転に基づくポーズのロバストな予測が促進され、そこでは、身体関節間の空間的関係を活用するために、位置支援型回転特徴改善戦略が提案される。 さらに、パートベースドロップアウト(PartDrop)戦略を導入し、トレーニング中に中間表現から密集した情報をドロップアウトし、ネットワークがより補完的な身体部分と近隣の位置特徴に集中するように促す。 提案手法の有効性を,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証し,従来の最先端手法と比較して再現性を大幅に向上させることができることを示した。 私たちのコードはhttps://hongwenzhang.github.io/dense2meshで公開されています。

Reconstructing 3D human shape and pose from monocular images is challenging despite the promising results achieved by the most recent learning-based methods. The commonly occurred misalignment comes from the facts that the mapping from images to the model space is highly non-linear and the rotation-based pose representation of body models is prone to result in the drift of joint positions. In this work, we investigate learning 3D human shape and pose from dense correspondences of body parts and propose a Decompose-and-aggregate Network (DaNet) to address these issues. DaNet adopts the dense correspondence maps, which densely build a bridge between 2D pixels and 3D vertices, as intermediate representations to facilitate the learning of 2D-to-3D mapping. The prediction modules of DaNet are decomposed into one global stream and multiple local streams to enable global and fine-grained perceptions for the shape and pose predictions, respectively. Messages from local streams are further aggregated to enhance the robust prediction of the rotation-based poses, where a position-aided rotation feature refinement strategy is proposed to exploit spatial relationships between body joints. Moreover, a Part-based Dropout (PartDrop) strategy is introduced to drop out dense information from intermediate representations during training, encouraging the network to focus on more complementary body parts as well as neighboring position features. The efficacy of the proposed method is validated on both indoor and real-world datasets including Human3.6M, UP3D, COCO, and 3DPW, showing that our method could significantly improve the reconstruction performance in comparison with previous state-of-the-art methods. Our code is publicly available at https://hongwenzhang.github.io/dense2mesh .
翻訳日:2023-01-16 20:50:33 公開日:2020-12-06
# プライバシー保護フェデレーション学習とドメイン適応を用いた多地点fMRI解析:ABIDE結果

Multi-site fMRI Analysis Using Privacy-preserving Federated Learning and Domain Adaptation: ABIDE Results ( http://arxiv.org/abs/2001.05647v3 )

ライセンス: Link先を確認
Xiaoxiao Li, Yufeng Gu, Nicha Dvornek, Lawrence Staib, Pamela Ventola, and James S. Duncan(参考訳) ディープラーニングモデルは、ニューロイメージ分析など、さまざまなタスクにおいてその優位性を示している。 しかし,高品質なディープラーニングモデルを効果的に訓練するには,大量の患者情報を集める必要がある。 例えば、大規模なfMRIデータセットを組み立てる際の取得とアノテーションの時間とコストは、1つのサイトで大量のデータを取得するのを難しくする。 しかし,患者データのプライバシ保護の必要性から,複数の機関から中央データベースを収集することは困難である。 フェデレートラーニング(Federated learning)は、グローバルモデルをローカルエンティティに送信し、モデルをローカルにトレーニングし、グローバルモデルにおける勾配や重みを平均化することによって、エンティティのデータを集中化せずに、集団レベルのモデルをトレーニングすることができる。 しかし、いくつかの研究は、プライベート情報はモデルの勾配や重みから回復できることを示唆している。 本研究では,プライバシー保護戦略を用いた多地点fMRI分類の問題に対処する。 そこで本研究では,分散型反復最適化アルゴリズムを実装し,分散型局所モデル重み付けをランダム化機構により変更するフェデレーション学習手法を提案する。 異なるサイトからのfMRI分布の系統的差異を考慮し、この連合学習定式化における2つの領域適応法を提案する。 フェデレーションモデル最適化のさまざまな実践的側面を調査し,フェデレーション学習と代替訓練戦略の比較を行った。 総じて,マルチサイトデータを共有せずに活用し,神経画像解析の性能を高め,信頼性の高い疾患関連バイオマーカーを探索できることが実証された。 提案するパイプラインは他のプライバシーに敏感な医療データ分析問題に一般化することができる。

Deep learning models have shown their advantage in many different tasks, including neuroimage analysis. However, to effectively train a high-quality deep learning model, the aggregation of a significant amount of patient information is required. The time and cost for acquisition and annotation in assembling, for example, large fMRI datasets make it difficult to acquire large numbers at a single site. However, due to the need to protect the privacy of patient data, it is hard to assemble a central database from multiple institutions. Federated learning allows for population-level models to be trained without centralizing entities' data by transmitting the global model to local entities, training the model locally, and then averaging the gradients or weights in the global model. However, some studies suggest that private information can be recovered from the model gradients or weights. In this work, we address the problem of multi-site fMRI classification with a privacy-preserving strategy. To solve the problem, we propose a federated learning approach, where a decentralized iterative optimization algorithm is implemented and shared local model weights are altered by a randomization mechanism. Considering the systemic differences of fMRI distributions from different sites, we further propose two domain adaptation methods in this federated learning formulation. We investigate various practical aspects of federated model optimization and compare federated learning with alternative training strategies. Overall, our results demonstrate that it is promising to utilize multi-site data without data sharing to boost neuroimage analysis performance and find reliable disease-related biomarkers. Our proposed pipeline can be generalized to other privacy-sensitive medical data analysis problems.
翻訳日:2023-01-11 00:57:01 公開日:2020-12-06
# 高忠実かつロバストな幾何学的量子ゲートの動的特性

High-fidelity and Robust Geometric Quantum Gates that Outperform Dynamical Ones ( http://arxiv.org/abs/2001.05789v3 )

ライセンス: Link先を確認
Tao Chen and Zheng-Yuan Xue(参考訳) 幾何位相は、高忠実度で頑健な量子演算を誘導する有望な要素である。 残念ながら、その実用的応用は通常、複数のレベル/量子ビット間の複雑な相互作用と、対応する動的相互作用よりも長いゲート時間を必要とする。 本稿では,最短の滑らかな幾何学的経路が加速された量子ゲートを実現する時-最適制御手法を統合した幾何学的量子計算の一般的な枠組みを提案し,デコヒーレンス効果と操作上の不完全性の両方によって生じるゲート誤差を大幅に低減する。 一方,我々は2次元超伝導トランスモンキュービット格子のスケーラブルなプラットフォーム上で,単純で実験的な相互作用により,このアイデアを忠実に実装した。 さらに, 数値シミュレーションにより, 実装された幾何ゲートは高い忠実度と強い強靭性を有しており, 対応する動的ゲートよりも優れた性能を示した。 したがって,本方式は,スケーラブルなフォールトトレラントな固体量子計算への有望な代替手段を提供する。

Geometric phase is a promising element to induce high-fidelity and robust quantum operations due to its built-in noise-resilience feature. Unfortunately, its practical applications are usually circumscribed by requiring complex interactions among multiple levels/qubits and the longer gate-time than the corresponding dynamical ones. Here, we propose a general framework of geometric quantum computation with the integration of the time-optimal control technique, where the shortest smooth geometric path is found to realize accelerated geometric quantum gates, and thus greatly decreases the gate errors induced by both the decoherence effect and operational imperfections. Meanwhile, we faithfully implement our idea on a scalable platform of a two-dimensional superconducting transmon-qubit lattice, with simple and experimental accessible interactions. In addition, numerical simulations show that our implemented geometric gates possess higher fidelities and stronger robustness, which outperform the best performance of the corresponding dynamical ones. Therefore, our scheme provides a promising alternative way towards scalable fault-tolerant solid-state quantum computation.
翻訳日:2023-01-11 00:29:18 公開日:2020-12-06
# 教師付き学習におけるコントラスト類似性マッチング

Contrastive Similarity Matching for Supervised Learning ( http://arxiv.org/abs/2002.10378v5 )

ライセンス: Link先を確認
Shanshan Qin, Nayantara Mudur and Cengiz Pehlevan(参考訳) 本稿では,腹側視覚路の観察と深部神経回路の訓練による信用割当問題に対する新しい生物学的解決法を提案する。 どちらの場合でも、同じカテゴリのオブジェクトの表現は徐々に似ているが、異なるカテゴリに属するオブジェクトはより似ている。 各レイヤは、前層と後層の間を補間する表現的類似性マトリックスを学習することを目的としています。 目的関数に適合する対比的類似性を用いてこの概念を定式化し、フィードフォワード、横方向、フィードバックの結合を持つディープニューラルネットワークと、生物学的に可塑性および抗ヘビー性を示すニューロンから導出する。 コントラスト類似性マッチングはエネルギーベースの学習アルゴリズムとして解釈できるが、コントラスト関数がどのように構築されるかという点で他のアルゴリズムと大きく異なる。

We propose a novel biologically-plausible solution to the credit assignment problem motivated by observations in the ventral visual pathway and trained deep neural networks. In both, representations of objects in the same category become progressively more similar, while objects belonging to different categories become less similar. We use this observation to motivate a layer-specific learning goal in a deep network: each layer aims to learn a representational similarity matrix that interpolates between previous and later layers. We formulate this idea using a contrastive similarity matching objective function and derive from it deep neural networks with feedforward, lateral, and feedback connections, and neurons that exhibit biologically-plausible Hebbian and anti-Hebbian plasticity. Contrastive similarity matching can be interpreted as an energy-based learning algorithm, but with significant differences from others in how a contrastive function is constructed.
翻訳日:2022-12-29 03:28:02 公開日:2020-12-06
# Assisted Learning: マルチ組織学習のためのフレームワーク

Assisted Learning: A Framework for Multi-Organization Learning ( http://arxiv.org/abs/2004.00566v5 )

ライセンス: Link先を確認
Xun Xian, Xinran Wang, Jie Ding, Reza Ghanadan(参考訳) 多くのAIシナリオでは、組織固有のミッションを達成するために、異なる組織やエージェント(人間やロボット、移動体など)間のコラボレーションが不可欠であることが多い。 しかし、有用で潜在的にプロプライエタリな情報を漏らすのを避けるために、組織は通常、モデリングアルゴリズムとデータの共有に厳密なセキュリティ制約を課す。 本稿では,組織のアルゴリズムやデータ,さらにはタスクを明かすことなく,教師付き学習タスクにおいて相互に支援を行うための支援学習フレームワークを提案する。 組織は、タスク固有の統計を放送し、他の人のフィードバックを1つ以上のイテレーションに取り入れ、最終的に予測性能を改善することで支援を求める。 実世界の医療ベンチマークを含む理論的および実験的研究は、Assisted Learningが、データやトレーニングプロセスが集中しているかのように、概略学習のパフォーマンスを達成できることをしばしば示している。

In an increasing number of AI scenarios, collaborations among different organizations or agents (e.g., human and robots, mobile units) are often essential to accomplish an organization-specific mission. However, to avoid leaking useful and possibly proprietary information, organizations typically enforce stringent security constraints on sharing modeling algorithms and data, which significantly limits collaborations. In this work, we introduce the Assisted Learning framework for organizations to assist each other in supervised learning tasks without revealing any organization's algorithm, data, or even task. An organization seeks assistance by broadcasting task-specific but nonsensitive statistics and incorporating others' feedback in one or more iterations to eventually improve its predictive performance. Theoretical and experimental studies, including real-world medical benchmarks, show that Assisted Learning can often achieve near-oracle learning performance as if data and training processes were centralized.
翻訳日:2022-12-17 18:28:20 公開日:2020-12-06
# Optimistic Agent: より有効なビジュアルナビゲーションのためのグラフベースの正確な値推定

Optimistic Agent: Accurate Graph-Based Value Estimation for More Successful Visual Navigation ( http://arxiv.org/abs/2004.03222v2 )

ライセンス: Link先を確認
Mahdi Kazemi Moghaddam, Qi Wu, Ehsan Abbasnejad and Javen Qinfeng Shi(参考訳) 人間は、目に見えない環境でも、その名前だけを考えると、ターゲットオブジェクトを不当に探すことができる。 この能力は、主に、事前知識(または経験)の編入、観察した視覚的な手がかりを用いた新しい環境への適応、そして最も重要な重要なこととして、早期に諦めずに楽観的に検索することの3つの主な理由によるものである。 これは現在、Reinforcement Learning (RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。 本稿では,外部から学習した相対対象位置の事前知識を用いて,ニューラルネットワークを構築してモデルに統合する手法を提案する。 状態空間の複雑さを増大させることなくグラフを効率的に組み込むために,グラフベースの値推定(GVE)モジュールを提案する。 GVEはアクタークリティカルRLアルゴリズムのアドバンテージ関数を推定するためのより正確なベースラインを提供する。 これにより、値推定誤差が減少し、その結果、より最適なポリシーに収束する。 実証実験により,我々のエージェントは楽観的エージェントと呼ばれ,ナビゲーションエピソード中の状態値のより現実的な推定値を持ち,より高い成功率をもたらすことが示された。 本研究では,AI2THOR環境下での従来の視覚ナビゲーション測定値(SR)とSPL(Success Longngth)の重み付けによる成功率(Success)など)によって測定された,簡単な手法の有効性を示す。

We humans can impeccably search for a target object, given its name only, even in an unseen environment. We argue that this ability is largely due to three main reasons: the incorporation of prior knowledge (or experience), the adaptation of it to the new environment using the observed visual cues and most importantly optimistically searching without giving up early. This is currently missing in the state-of-the-art visual navigation methods based on Reinforcement Learning (RL). In this paper, we propose to use externally learned prior knowledge of the relative object locations and integrate it into our model by constructing a neural graph. In order to efficiently incorporate the graph without increasing the state-space complexity, we propose our Graph-based Value Estimation (GVE) module. GVE provides a more accurate baseline for estimating the Advantage function in actor-critic RL algorithm. This results in reduced value estimation error and, consequently, convergence to a more optimal policy. Through empirical studies, we show that our agent, dubbed as the optimistic agent, has a more realistic estimate of the state value during a navigation episode which leads to a higher success rate. Our extensive ablation studies show the efficacy of our simple method which achieves the state-of-the-art results measured by the conventional visual navigation metrics, e.g. Success Rate (SR) and Success weighted by Path Length (SPL), in AI2THOR environment.
翻訳日:2022-12-16 00:15:53 公開日:2020-12-06
# 深部文脈対応ノベルティ検出

Deep Context-Aware Novelty Detection ( http://arxiv.org/abs/2006.01168v2 )

ライセンス: Link先を確認
Ellen Rushe, Brian Mac Namee(参考訳) ノベルティ検出の一般的な仮定は、「正規」データと「ノーベル」データの分布が静的であるということである。 しかし、これは多くの場合、データが時間とともに進化するシナリオや、通常と新規の定義が文脈情報に依存するシナリオのようなケースではない。 これは、あるシナリオにおける通常のデータの分布が別のシナリオにおける新しいデータと類似しているデータセット上でモデルをトレーニングしようとすると、大きな困難をもたらす可能性がある。 本稿では,これらの問題に対処するディープオートエンコーダの新規性検出のためのコンテキスト認識手法を提案する。 我々は,補助ラベルを用いて文脈情報を明らかにする半教師付きネットワークアーキテクチャを構築し,モデルが正規化と新規化の定義を適用できるようにする。 画像データと実世界のオーディオデータの両方に対するアプローチを評価し,個別に学習したモデルの性能を1つのモデルで達成できることを示す。

A common assumption of novelty detection is that the distribution of both "normal" and "novel" data are static. This, however, is often not the case - for example scenarios where data evolves over time or scenarios in which the definition of normal and novel depends on contextual information, both leading to changes in these distributions. This can lead to significant difficulties when attempting to train a model on datasets where the distribution of normal data in one scenario is similar to that of novel data in another scenario. In this paper we propose a context-aware approach to novelty detection for deep autoencoders to address these difficulties. We create a semi-supervised network architecture that utilises auxiliary labels to reveal contextual information and allow the model to adapt to a variety of contexts in which the definitions of normal and novel change. We evaluate our approach on both image data and real world audio data displaying these characteristics and show that the performance of individually trained models can be achieved in a single model.
翻訳日:2022-11-26 06:22:29 公開日:2020-12-06
# BanditPAM: ほぼ線形時間$k$-Medoidsクラスタリング

BanditPAM: Almost Linear Time $k$-Medoids Clustering via Multi-Armed Bandits ( http://arxiv.org/abs/2006.06856v2 )

ライセンス: Link先を確認
Mo Tiwari, Martin Jinye Zhang, James Mayclin, Sebastian Thrun, Chris Piech, Ilan Shomorony(参考訳) クラスタリングはデータサイエンスにおけるユビキタスなタスクです。 一般的に使用される$k$-meansクラスタリングと比較すると、$k$-medoidsクラスタリングは、クラスタセンタを実際のデータポイントとして、任意の距離メトリックをサポートする必要がある。 現在の最先端の$k$-medoidsクラスタリングアルゴリズム(PAM(Partitioning Around Medoids)など)は反復的であり、各イテレーションのデータセットサイズが$n$である。 本研究では,多腕バンディットの手法に触発されたランダム化アルゴリズムであるbanditpamを提案し,pamの各イテレーションの複雑さをo(n^2)$ から$o(n \log n)$ に低減し,同じ結果を高い確率で返す。 そのため、BanditPAMは最先端のクラスタリング損失と一致し、ソリューションをはるかに高速にする。 我々は、コーディングエクササイズ提案データセット、10xGenomics 68k PBMCシングルセルRNAシークエンシングデータセット、MNIST手書き桁データセットなど、いくつかの大規模な実世界のデータセットに対して、我々の結果を実証的に検証した。 これらの実験では、BanditPAMは最先端のPAMライクなアルゴリズムと同じ結果を最大4倍高速に出力し、最大200倍の距離計算を行う。 BanditPAMが示した改善により、大規模なシングルセルデータのセルタイプ識別や、学生がオンラインでコンピュータサイエンスを学ぶためのスケーラブルなフィードバックなど、幅広いアプリケーションで$k$-medoidsクラスタリングが可能になる。 また、アルゴリズムの高度に最適化されたPythonとC++の実装もリリースしました。

Clustering is a ubiquitous task in data science. Compared to the commonly used $k$-means clustering, $k$-medoids clustering requires the cluster centers to be actual data points and support arbitrary distance metrics, which permits greater interpretability and the clustering of structured objects. Current state-of-the-art $k$-medoids clustering algorithms, such as Partitioning Around Medoids (PAM), are iterative and are quadratic in the dataset size $n$ for each iteration, being prohibitively expensive for large datasets. We propose BanditPAM, a randomized algorithm inspired by techniques from multi-armed bandits, that reduces the complexity of each PAM iteration from $O(n^2)$ to $O(n \log n)$ and returns the same results with high probability, under assumptions on the data that often hold in practice. As such, BanditPAM matches state-of-the-art clustering loss while reaching solutions much faster. We empirically validate our results on several large real-world datasets, including a coding exercise submissions dataset, the 10x Genomics 68k PBMC single-cell RNA sequencing dataset, and the MNIST handwritten digits dataset. In these experiments, we observe that BanditPAM returns the same results as state-of-the-art PAM-like algorithms up to 4x faster while performing up to 200x fewer distance computations. The improvements demonstrated by BanditPAM enable $k$-medoids clustering on a wide range of applications, including identifying cell types in large-scale single-cell data and providing scalable feedback for students learning computer science online. We also release highly optimized Python and C++ implementations of our algorithm.
翻訳日:2022-11-22 09:17:02 公開日:2020-12-06
# リカレントオートエンコーダとリカレント確率モデルを用いたビデオ圧縮の学習

Learning for Video Compression with Recurrent Auto-Encoder and Recurrent Probability Model ( http://arxiv.org/abs/2006.13560v4 )

ライセンス: Link先を確認
Ren Yang, Fabian Mentzer, Luc Van Gool and Radu Timofte(参考訳) 過去数年間、ビデオ圧縮にディープラーニングを適用することへの関心が高まっている。 しかし、既存のアプローチでは、ビデオフレームを少数の参照フレームで圧縮することで、ビデオフレーム間の時間的相関を十分に活用する能力が制限されている。 そこで本研究では,リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたRLVC(Recurrent Learned Video Compression)アプローチを提案する。 具体的には、RAEはエンコーダとデコーダの両方で繰り返しセルを使用する。 このように、多くのフレームの時間情報は、潜在表現の生成と圧縮出力の再構築に使うことができる。 さらに,提案するrpmネットワークは,先行する潜在表現の分布に依存する潜在表現の確率質量関数(pmf)を反復的に推定する。 連続フレーム間の相関により、条件付きクロスエントロピーは独立したクロスエントロピーよりも低くなり、ビットレートが低下する。 実験により,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現することができた。 さらに,本手法は,PSNR上でのデフォルトの低遅延P(LDP)設定よりも優れており,SSIMで調整したx265よりもMS-SSIMの方が性能が良く,x265が遅い。 コードはhttps://github.com/renyang-home/rlvc.gitで入手できる。

The past few years have witnessed increasing interests in applying deep learning to video compression. However, the existing approaches compress a video frame with only a few number of reference frames, which limits their ability to fully exploit the temporal correlation among video frames. To overcome this shortcoming, this paper proposes a Recurrent Learned Video Compression (RLVC) approach with the Recurrent Auto-Encoder (RAE) and Recurrent Probability Model (RPM). Specifically, the RAE employs recurrent cells in both the encoder and decoder. As such, the temporal information in a large range of frames can be used for generating latent representations and reconstructing compressed outputs. Furthermore, the proposed RPM network recurrently estimates the Probability Mass Function (PMF) of the latent representation, conditioned on the distribution of previous latent representations. Due to the correlation among consecutive frames, the conditional cross entropy can be lower than the independent cross entropy, thus reducing the bit-rate. The experiments show that our approach achieves the state-of-the-art learned video compression performance in terms of both PSNR and MS-SSIM. Moreover, our approach outperforms the default Low-Delay P (LDP) setting of x265 on PSNR, and also has better performance on MS-SSIM than the SSIM-tuned x265 and the slowest setting of x265. The codes are available at https://github.com/RenYang-home/RLVC.git.
翻訳日:2022-11-17 13:16:33 公開日:2020-12-06
# 複数のオラクルの模倣による政策改善

Policy Improvement via Imitation of Multiple Oracles ( http://arxiv.org/abs/2007.00795v2 )

ライセンス: Link先を確認
Ching-An Cheng, Andrey Kolobov, Alekh Agarwal(参考訳) その約束にもかかわらず、強化学習の現実世界での採用は、良い政策を学ぶために高価な探索の必要性によって妨げられている。 模倣学習(il)は、学習プロセスを加速するためにブートストラップとしてのトレーニング中にoracleポリシーを使用することで、この欠点を軽減する。 しかし、多くの実践的な状況において、学習者は複数の準最適オラクルにアクセスでき、状態において矛盾するアドバイスを与える可能性がある。 既存のIL文献はそのようなシナリオを限定的に扱います。 単一オラクルのケースでは、oracleのポリシーの復活は、学習者が競合する明白なベンチマークを提供するが、そのようなベンチマークや原則的な方法がマルチオラクルの設定で知られているものよりも優れているわけではない。 本稿では,複数のオラクルからの矛盾するアドバイスを解決するための自然な基準として,託宣方針の値の州別最大化を提案する。 オンライン学習におけるポリシー最適化の削減により、このベンチマークと競合するポリシーを確実に学習できる新しいilアルゴリズムmambaを導入する。 特に、MAMBAは、一般化優位推定(GAE)スタイルの勾配推定器を用いてポリシーを最適化する。 私たちの理論的分析では、この設計により、mambaは堅牢になり、単一のoracleのケースであっても、oracleのポリシーをilの状態よりも大きなマージンで上回ることができることが示されています。 本稿では,GAE と AggreVaTe(D) による標準政策勾配の評価において,MAMBA が単一および複数の弱いオーラクルから実演を活用できることを示し,政策最適化を著しく高速化することを示した。

Despite its promise, reinforcement learning's real-world adoption has been hampered by the need for costly exploration to learn a good policy. Imitation learning (IL) mitigates this shortcoming by using an oracle policy during training as a bootstrap to accelerate the learning process. However, in many practical situations, the learner has access to multiple suboptimal oracles, which may provide conflicting advice in a state. The existing IL literature provides a limited treatment of such scenarios. Whereas in the single-oracle case, the return of the oracle's policy provides an obvious benchmark for the learner to compete against, neither such a benchmark nor principled ways of outperforming it are known for the multi-oracle setting. In this paper, we propose the state-wise maximum of the oracle policies' values as a natural baseline to resolve conflicting advice from multiple oracles. Using a reduction of policy optimization to online learning, we introduce a novel IL algorithm MAMBA, which can provably learn a policy competitive with this benchmark. In particular, MAMBA optimizes policies by using a gradient estimator in the style of generalized advantage estimation (GAE). Our theoretical analysis shows that this design makes MAMBA robust and enables it to outperform the oracle policies by a larger margin than the IL state of the art, even in the single-oracle case. In an evaluation against standard policy gradient with GAE and AggreVaTe(D), we showcase MAMBA's ability to leverage demonstrations both from a single and from multiple weak oracles, and significantly speed up policy optimization.
翻訳日:2022-11-14 21:41:08 公開日:2020-12-06
# 不足機能を含むグラフのためのグラフ畳み込みネットワーク

Graph Convolutional Networks for Graphs Containing Missing Features ( http://arxiv.org/abs/2007.04583v2 )

ライセンス: Link先を確認
Hibiki Taguchi, Xin Liu, Tsuyoshi Murata(参考訳) Graph Convolutional Network (GCN)はグラフ解析タスクで大きな成功を収めている。 グラフ全体のノード機能をスムーズにすることで機能する。 現在のGCNモデルはノードの特徴情報が完全であると圧倒的に仮定している。 しかし、実際のグラフデータはしばしば不完全であり、機能がない。 伝統的に、人々は計算技術に基づいて未知の機能を見積もり、補足し、GCNを適用する必要があります。 しかし、特徴充足とグラフ学習のプロセスは分離され、劣化と不安定な性能をもたらす。 多数の機能が欠けている場合、この問題はより深刻になる。 本稿では,欠落した特徴を含むグラフにGCNを適応させる手法を提案する。 従来の戦略とは対照的に、我々のアプローチは、欠落した特徴の処理とグラフ学習を同じニューラルネットワークアーキテクチャに統合する。 我々の考えは、Gaussian Mixture Model(GMM)によって欠落したデータを表現し、GCNの第1隠れ層におけるニューロンの活性化を予測し、ネットワークの他の層を変更せずに計算することである。 これにより、GMMパラメータとネットワーク重みパラメータをエンドツーエンドで学習することができる。 特に,本手法はgcnの計算複雑性を増加させるものではなく,機能完成時にはgcnと整合する。 提案手法がノード分類およびリンク予測タスクにおいて,インプテーションに基づく手法を著しく上回っていることを示す。 機能不足が低い場合のアプローチの性能は,完全な機能を持つ場合のGCNよりも優れていることを示す。

Graph Convolutional Network (GCN) has experienced great success in graph analysis tasks. It works by smoothing the node features across the graph. The current GCN models overwhelmingly assume that the node feature information is complete. However, real-world graph data are often incomplete and containing missing features. Traditionally, people have to estimate and fill in the unknown features based on imputation techniques and then apply GCN. However, the process of feature filling and graph learning are separated, resulting in degraded and unstable performance. This problem becomes more serious when a large number of features are missing. We propose an approach that adapts GCN to graphs containing missing features. In contrast to traditional strategy, our approach integrates the processing of missing features and graph learning within the same neural network architecture. Our idea is to represent the missing data by Gaussian Mixture Model (GMM) and calculate the expected activation of neurons in the first hidden layer of GCN, while keeping the other layers of the network unchanged. This enables us to learn the GMM parameters and network weight parameters in an end-to-end manner. Notably, our approach does not increase the computational complexity of GCN and it is consistent with GCN when the features are complete. We demonstrate through extensive experiments that our approach significantly outperforms the imputation-based methods in node classification and link prediction tasks. We show that the performance of our approach for the case with a low level of missing features is even superior to GCN for the case with complete features.
翻訳日:2022-11-12 03:58:32 公開日:2020-12-06
# 果実などの丸い物体の深層学習による中心物体のセグメンテーション

Central object segmentation by deep learning for fruits and other roundish objects ( http://arxiv.org/abs/2008.01251v2 )

ライセンス: Link先を確認
Motohisa Fukuda, Takashi Okuno, Shinya Yuki(参考訳) 本稿では、RGB画像の中心に物体を識別し、描画するCROP(Central Roundish Object Painter)を提案する。 主に、CROPは様々な照明条件下で丸い果実に作用するが、驚くべきことに、他の有機物や無機物のイメージや、光学顕微鏡や電子顕微鏡で処理することもできる。 この方法はディープラーニングによるイメージセグメンテーションを伴い、ニューラルネットワークのアーキテクチャは元のU-Netのより深いバージョンである。 この技術は、農場における果実の生育の統計データを自動収集する手段を提供する。 そこで,本研究では510枚の時系列写真を自動処理し,対象果実の大きさと位置のデータを収集する実験を行った。 トレーニングされたニューラルネットワークCROPと上記の自動プログラムは、ユーザフレンドリなインターフェースプログラムを備えたGitHubで利用可能です。

We present CROP (Central Roundish Object Painter), which identifies and paints the object at the center of an RGB image. Primarily CROP works for roundish fruits in various illumination conditions, but surprisingly, it could also deal with images of other organic or inorganic materials, or ones by optical and electron microscopes, although CROP was trained solely by 172 images of fruits. The method involves image segmentation by deep learning, and the architecture of the neural network is a deeper version of the original U-Net. This technique could provide us with a means of automatically collecting statistical data of fruit growth in farms. As an example, we describe our experiment of processing 510 time series photos automatically to collect the data on the size and the position of the target fruit. Our trained neural network CROP and the above automatic programs are available on GitHub with user-friendly interface programs.
翻訳日:2022-11-02 23:38:32 公開日:2020-12-06
# 不完全情報を用いたマルチエージェント協調のための共同政策探索

Joint Policy Search for Multi-agent Collaboration with Imperfect Information ( http://arxiv.org/abs/2008.06495v5 )

ライセンス: Link先を確認
Yuandong Tian, Qucheng Gong, Tina Jiang(参考訳) 不完全な情報とマルチエージェント協調のための良い共同政策を学ぶことは、依然として根本的な課題である。 2人のプレイヤーのゼロサムゲームでは、座標平均的なアプローチ(例えば、あるエージェントのポリシーを一度に最適化するなど)は保証とともに働くが、マルチエージェント協調環境では、しばしば準最適ナッシュ均衡に収束する。 一方で、不完全な情報ゲームにおけるジョイントポリシーの変更を直接モデリングすることは、複雑なポリシーの相互作用(例えば、アップストリーム更新がダウンストリームの状態到達可能性に影響を与える)による非自明である。 本稿では,ゲーム価値のグローバル変化を,各情報集合にローカライズされたポリシー変化に分解し,新しい用語であるポリシー変化密度(policy-change density)を用いて示す。 そこで我々は,不完全な情報ゲームにおける協調エージェントの協調ポリシーを,ゲーム全体を再評価することなく反復的に改善するジョイントポリシー検索(JPS)を提案する。 マルチエージェント・コラボレーティブ・テーブルゲームでは、jpsはパフォーマンスを悪化させることはないことが証明され、一方的なアプローチ(cfrなど)によって提供されるソリューションを改善できる。 さらに、現実世界のゲームでは、JPSはオンライン形式で、グラデーションアップデートと自然にリンクする。 Contract Bridgeは2ドル(約2万2000円)のチームが互いに競争するために協力する4人プレイヤの不完全な情報ゲームです。 入札段階では、プレイヤーは限られた情報チャンネルを通じて良い契約を見つけるために入札を行う。 ドメインに依存しない自己プレーで純粋に競争橋を入札する強力なベースラインエージェントに基づいて、JPSはチームプレーヤーのコラボレーションを改善し、チャンピオンシップのソフトウェアであるWBridge5を1k以上のボード当たり$+0.63$ IMPs(International Matching Points)で、以前のSoTA(+0.41$ IMPs/b)よりも大幅に改善した。

To learn good joint policies for multi-agent collaboration with imperfect information remains a fundamental challenge. While for two-player zero-sum games, coordinate-ascent approaches (optimizing one agent's policy at a time, e.g., self-play) work with guarantees, in multi-agent cooperative setting they often converge to sub-optimal Nash equilibrium. On the other hand, directly modeling joint policy changes in imperfect information game is nontrivial due to complicated interplay of policies (e.g., upstream updates affect downstream state reachability). In this paper, we show global changes of game values can be decomposed to policy changes localized at each information set, with a novel term named policy-change density. Based on this, we propose Joint Policy Search(JPS) that iteratively improves joint policies of collaborative agents in imperfect information games, without re-evaluating the entire game. On multi-agent collaborative tabular games, JPS is proven to never worsen performance and can improve solutions provided by unilateral approaches (e.g, CFR), outperforming algorithms designed for collaborative policy learning (e.g. BAD). Furthermore, for real-world games, JPS has an online form that naturally links with gradient updates. We test it to Contract Bridge, a 4-player imperfect-information game where a team of $2$ collaborates to compete against the other. In its bidding phase, players bid in turn to find a good contract through a limited information channel. Based on a strong baseline agent that bids competitive bridge purely through domain-agnostic self-play, JPS improves collaboration of team players and outperforms WBridge5, a championship-winning software, by $+0.63$ IMPs (International Matching Points) per board over 1k games, substantially better than previous SoTA ($+0.41$ IMPs/b) under Double-Dummy evaluation.
翻訳日:2022-10-30 16:36:05 公開日:2020-12-06
# Canonical 3D Deformer Maps: 弱教師付きカテゴリ再構成のためのパラメトリックおよび非パラメトリックの統一

Canonical 3D Deformer Maps: Unifying parametric and non-parametric methods for dense weakly-supervised category reconstruction ( http://arxiv.org/abs/2008.12709v2 )

ライセンス: Link先を確認
David Novotny, Roman Shapovalov, Andrea Vedaldi(参考訳) 独立オブジェクトの2次元画像の集合から学習可能な共通オブジェクトカテゴリの3次元形状の新たな表現であるCanonical 3D Deformer Mapを提案する。 提案手法は, パラメトリックな変形モデル, 非パラメトリックな3次元再構成, 標準埋め込みの概念から, 個々の利点を組み合わせた新しい手法で構築する。 特に、各画像画素を対応する3次元オブジェクトポイントの変形モデル、すなわち、その点の同一性に固有の、カテゴリのオブジェクト間で共有される変形モデルに関連付けることを学習する。 その結果、訓練時にわずか2Dの監督しか行わず、単一のビューからオブジェクトの3D形状とテクスチャを再構築し、オブジェクトインスタンス間の意味のある密接な対応を確立することができる。 また、顔、車、鳥の野生のデータセットを3Dで再現する、最先端の成果も達成している。

We propose the Canonical 3D Deformer Map, a new representation of the 3D shape of common object categories that can be learned from a collection of 2D images of independent objects. Our method builds in a novel way on concepts from parametric deformation models, non-parametric 3D reconstruction, and canonical embeddings, combining their individual advantages. In particular, it learns to associate each image pixel with a deformation model of the corresponding 3D object point which is canonical, i.e. intrinsic to the identity of the point and shared across objects of the category. The result is a method that, given only sparse 2D supervision at training time, can, at test time, reconstruct the 3D shape and texture of objects from single views, while establishing meaningful dense correspondences between object instances. It also achieves state-of-the-art results in dense 3D reconstruction on public in-the-wild datasets of faces, cars, and birds.
翻訳日:2022-10-24 02:13:20 公開日:2020-12-06
# 多様体上のランゲヴィンダイナミクスの高速収束:ログソボレフに接する測地学

Fast Convergence of Langevin Dynamics on Manifold: Geodesics meet Log-Sobolev ( http://arxiv.org/abs/2010.05263v2 )

ライセンス: Link先を確認
Xiao Wang, Qi Lei and Ioannis Panageas(参考訳) サンプリングは、機械学習に多くの応用があるため、基本的に非常に重要なタスクである。 関数 $f$ に対する高次元分布 $e^{-f}$ からのサンプルへの1つのアプローチは、langevinアルゴリズム (la) である。 最近では、$f$ が非凸である場合、特に[53], [39] において、前回の論文が $\mathbb{R}^n$ で定義される関数 $f$ に焦点をあて、後者の論文は多様体構造を持つ対称性(行列完備型目的など)を持つ関数に焦点をあてる場合においても、LAの高速収束を示す多くの進歩がある。 我々の研究は[53]の結果を一般化し、$f$は$\mathbb{R}^n$ではなく$M$で定義される。 技術的な観点から、KL は分布 $e^{-f}$ が log-Sobolev の不等式を$M$ で満たすとき、幾何速度で減少することを示す。

Sampling is a fundamental and arguably very important task with numerous applications in Machine Learning. One approach to sample from a high dimensional distribution $e^{-f}$ for some function $f$ is the Langevin Algorithm (LA). Recently, there has been a lot of progress in showing fast convergence of LA even in cases where $f$ is non-convex, notably [53], [39] in which the former paper focuses on functions $f$ defined in $\mathbb{R}^n$ and the latter paper focuses on functions with symmetries (like matrix completion type objectives) with manifold structure. Our work generalizes the results of [53] where $f$ is defined on a manifold $M$ rather than $\mathbb{R}^n$. From technical point of view, we show that KL decreases in a geometric rate whenever the distribution $e^{-f}$ satisfies a log-Sobolev inequality on $M$.
翻訳日:2022-10-08 13:07:58 公開日:2020-12-06
# xlvin: 潜在価値イテレーションネットの実行

XLVIN: eXecuted Latent Value Iteration Nets ( http://arxiv.org/abs/2010.13146v2 )

ライセンス: Link先を確認
Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc Bacon, Jian Tang, Mladen Nikoli\'c(参考訳) バリューイテレーションネットワーク(vins)は、深層強化学習に計画アルゴリズムを組み込む一般的な方法として登場し、長距離推論と環境ダイナミクスの理解を必要とするタスクのパフォーマンス改善を可能にしている。 しかし、このモデルは有意義な計画計算の実行にインセンティブを与えられず、基礎となる状態空間は離散的であると仮定され、マルコフ決定過程(MDP)は固定され、知られていると仮定される。 提案するeXecuted Latent Value Iteration Networks (XLVINs) は, 対照的な自己教師付き学習, グラフ表現学習, ニューラルネットワーク推論を対象とし, 上記の制限をすべて緩和し, VINスタイルのモデルを汎用環境に展開することに成功した。 XLVINは、基礎となるMDPが離散的、固定的、既知のときにVINライクなモデルのパフォーマンスと一致し、3つの一般的なMDPセットアップでモデルフリーのベースラインを大幅に改善する。

Value Iteration Networks (VINs) have emerged as a popular method to incorporate planning algorithms within deep reinforcement learning, enabling performance improvements on tasks requiring long-range reasoning and understanding of environment dynamics. This came with several limitations, however: the model is not incentivised in any way to perform meaningful planning computations, the underlying state space is assumed to be discrete, and the Markov decision process (MDP) is assumed fixed and known. We propose eXecuted Latent Value Iteration Networks (XLVINs), which combine recent developments across contrastive self-supervised learning, graph representation learning and neural algorithmic reasoning to alleviate all of the above limitations, successfully deploying VIN-style models on generic environments. XLVINs match the performance of VIN-like models when the underlying MDP is discrete, fixed and known, and provides significant improvements to model-free baselines across three general MDP setups.
翻訳日:2022-10-03 04:13:57 公開日:2020-12-06
# 深層学習のための2レベルK-FACプレコンディショニング

Two-Level K-FAC Preconditioning for Deep Learning ( http://arxiv.org/abs/2011.00573v3 )

ライセンス: Link先を確認
Nikolaos Tselepidis and Jonas Kohler and Antonio Orvieto(参考訳) 深層学習の文脈において、多くの最適化手法は、確率的勾配降下の収束を加速するために勾配共分散情報を用いる。 特に、アダグラード(adagrad)から始まり、一見無限に見える一連の研究は、確率的勾配に基づくアルゴリズムにおいて、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。 しかし、近年では経験的なフィッシャー行列とのプレコンディショニングの理論的根拠にいくつかの作品が疑問を投げかけており、実際のフィッシャー行列のより洗練された近似は理論上よく動機づけられた自然勾配降下によく似ていることが示されている。 特に成功した方法のひとつにK-FACオプティマイザがあり、Kronecker-factored block-diagonal Fisher approximation をプリコンディショナーとして使用している。 本研究では,科学計算の分野においてプリコンディショナーとして用いられる2段階の領域分解法から着想を得て,非対角的(すなわちグローバル)曲率情報を用いてk-facを計算効率良く拡張する。 我々は,グローバルフィッシャー情報行列を粗いスケールでキャプチャするプリコンダクタに粗い空間補正項を追加することで,これを実現する。 本稿では,提案手法の収束挙動の改善を示唆する実験結果について述べる。

In the context of deep learning, many optimization methods use gradient covariance information in order to accelerate the convergence of Stochastic Gradient Descent. In particular, starting with Adagrad, a seemingly endless line of research advocates the use of diagonal approximations of the so-called empirical Fisher matrix in stochastic gradient-based algorithms, with the most prominent one arguably being Adam. However, in recent years, several works cast doubt on the theoretical basis of preconditioning with the empirical Fisher matrix, and it has been shown that more sophisticated approximations of the actual Fisher matrix more closely resemble the theoretically well-motivated Natural Gradient Descent. One particularly successful variant of such methods is the so-called K-FAC optimizer, which uses a Kronecker-factored block-diagonal Fisher approximation as preconditioner. In this work, drawing inspiration from two-level domain decomposition methods used as preconditioners in the field of scientific computing, we extend K-FAC by enriching it with off-diagonal (i.e. global) curvature information in a computationally efficient way. We achieve this by adding a coarse-space correction term to the preconditioner, which captures the global Fisher information matrix at a coarser scale. We present a small set of experimental results suggesting improved convergence behaviour of our proposed method.
翻訳日:2022-09-30 23:39:26 公開日:2020-12-06
# 一般化線形モデルにおけるプライバシのコスト:アルゴリズムとミニマックス下界

The Cost of Privacy in Generalized Linear Models: Algorithms and Minimax Lower Bounds ( http://arxiv.org/abs/2011.03900v2 )

ライセンス: Link先を確認
T. Tony Cai, Yichen Wang, Linjun Zhang(参考訳) 低次元および高次元のスパース一般化線形モデル(GLM)におけるパラメータ推定のための微分プライベートアルゴリズムを提案する。 提案手法は,その統計性能を特徴付け,glmのプライバシー制約付きミニマックス下限を確立することで,ほぼレート最適であることを示す。 下限は、steinの補題に基づいて、プライバシ制約下限に対するトレース攻撃技術を一般化した、新しいテクニックによって得られる。 この下界の議論は一般パラメトリックモデルに適用できるため、独立した関心を持つことができる。 シミュレーションおよび実データ実験を行い,アルゴリズムの数値性能を実証した。

We propose differentially private algorithms for parameter estimation in both low-dimensional and high-dimensional sparse generalized linear models (GLMs) by constructing private versions of projected gradient descent. We show that the proposed algorithms are nearly rate-optimal by characterizing their statistical performance and establishing privacy-constrained minimax lower bounds for GLMs. The lower bounds are obtained via a novel technique, which is based on Stein's Lemma and generalizes the tracing attack technique for privacy-constrained lower bounds. This lower bound argument can be of independent interest as it is applicable to general parametric models. Simulated and real data experiments are conducted to demonstrate the numerical performance of our algorithms.
翻訳日:2022-09-28 08:17:53 公開日:2020-12-06
# 深層学習による皮膚疾患診断

Skin disease diagnosis with deep learning: a review ( http://arxiv.org/abs/2011.05627v2 )

ライセンス: Link先を確認
Hongfeng Li, Yini Pan, Jie Zhao and Li Zhang(参考訳) 皮膚がんは世界中で最も恐ろしい病気の1つです。 しかし,皮膚癌を正しく診断することは困難である。 近年,様々なタスクで優れた性能を実現するために,ディープラーニングアルゴリズムが登場している。 特に皮膚疾患の診断に応用されている。 本稿では,深層学習法とその皮膚疾患診断への応用について概説する。 まず皮膚科領域における皮膚疾患と画像取得法を簡単に紹介し,トレーニングおよびテストアルゴリズムとして利用可能なスキンデータセットをいくつか紹介する。 次に、ディープラーニングの概念を紹介し、一般的なディープラーニングアーキテクチャをレビューする。 その後、ディープラーニングアルゴリズムと性能評価指標の実装を容易にする人気のあるディープラーニングフレームワークを紹介した。 そこで本研究では,皮膚疾患診断のための深層学習法に関する文献を,特定の課題に応じていくつかの側面から検討する。 また,この分野で直面する課題を議論し,今後の研究の方向性を示唆する。 本論の主な目的は,深層学習による皮膚疾患診断に関する最近の研究を概念的かつ体系的にレビューすることである。 ディープラーニングの人気を考えれば、この分野には大きな課題が残っており、将来探求できる機会も残っています。

Skin cancer is one of the most threatening diseases worldwide. However, diagnosing skin cancer correctly is challenging. Recently, deep learning algorithms have emerged to achieve excellent performance on various tasks. Particularly, they have been applied to the skin disease diagnosis tasks. In this paper, we present a review on deep learning methods and their applications in skin disease diagnosis. We first present a brief introduction to skin diseases and image acquisition methods in dermatology, and list several publicly available skin datasets for training and testing algorithms. Then, we introduce the conception of deep learning and review popular deep learning architectures. Thereafter, popular deep learning frameworks facilitating the implementation of deep learning algorithms and performance evaluation metrics are presented. As an important part of this article, we then review the literature involving deep learning methods for skin disease diagnosis from several aspects according to the specific tasks. Additionally, we discuss the challenges faced in the area and suggest possible future research directions. The major purpose of this article is to provide a conceptual and systematically review of the recent works on skin disease diagnosis with deep learning. Given the popularity of deep learning, there remains great challenges in the area, as well as opportunities that we can explore in the future.
翻訳日:2022-09-26 23:49:41 公開日:2020-12-06
# テキストからの嗅覚情報抽出に向けて : 小説における臭いの発見を事例として

Towards Olfactory Information Extraction from Text: A Case Study on Detecting Smell Experiences in Novels ( http://arxiv.org/abs/2011.08903v2 )

ライセンス: Link先を確認
Ryan Brate, Paul Groth, Marieke van Erp(参考訳) 環境要因は私たちが知覚する匂いを決定するが、社会的要因は私たちが与える重要性、感情、偏見を形作る。 テキスト中の臭いの説明や、いわゆる“smell experience”は、これらの要因のウィンドウを提供するが、最初に識別する必要がある。 我々の知る限りでは、テキストから匂いを嗅ぐための参照を抽出するツールは存在しない。 本稿では,英語文学における匂いを識別するための半教師ありアプローチについて2つのバリエーションを示す。 両方の実装のパターンの組み合わせは、キーワードベースのベースラインよりもはるかに優れたパフォーマンスを提供する。

Environmental factors determine the smells we perceive, but societal factors factors shape the importance, sentiment and biases we give to them. Descriptions of smells in text, or as we call them `smell experiences', offer a window into these factors, but they must first be identified. To the best of our knowledge, no tool exists to extract references to smell experiences from text. In this paper, we present two variations on a semi-supervised approach to identify smell experiences in English literature. The combined set of patterns from both implementations offer significantly better performance than a keyword-based baseline.
翻訳日:2022-09-24 16:38:57 公開日:2020-12-06
# 有害ミーム検出のためのマルチモーダル学習

Multimodal Learning for Hateful Memes Detection ( http://arxiv.org/abs/2011.12870v3 )

ライセンス: Link先を確認
Yi Zhou, Zhenhao Chen(参考訳) ミームはソーシャルネットワークを通じてアイデアを広めるために使われる。 ほとんどのミームはユーモアのために作られるが、写真とテキストの組み合わせで嫌われるミームもある。 憎しみのあるミームを自動的に検出することは、有害な社会的影響を減らすのに役立つ。 視覚情報とテキスト情報が意味的に一致している従来のマルチモーダルタスクとは異なり、ヘイトフルミーム検出の課題はそのユニークなマルチモーダル情報にある。 ミーム内の画像とテキストは弱い整列あるいは無関係であり、複数のモダリティに対する推論をモデルが理解し実行する必要がある。 本稿では,マルチモーダルなヘイトフルミームの検出に着目し,画像キャプション処理をミーム検出プロセスに組み込む新しい手法を提案する。 マルチモーダルミームデータセットを広範囲に実験し,提案手法の有効性を示す。 本モデルは,Hateful Memes Detection Challengeにおける有望な結果を得る。

Memes are used for spreading ideas through social networks. Although most memes are created for humor, some memes become hateful under the combination of pictures and text. Automatically detecting the hateful memes can help reduce their harmful social impact. Unlike the conventional multimodal tasks, where the visual and textual information is semantically aligned, the challenge of hateful memes detection lies in its unique multimodal information. The image and text in memes are weakly aligned or even irrelevant, which requires the model to understand the content and perform reasoning over multiple modalities. In this paper, we focus on multimodal hateful memes detection and propose a novel method that incorporates the image captioning process into the memes detection process. We conduct extensive experiments on multimodal meme datasets and illustrated the effectiveness of our approach. Our model achieves promising results on the Hateful Memes Detection Challenge.
翻訳日:2022-09-21 01:54:37 公開日:2020-12-06
# 社会技術システムにおける社会福祉学習アルゴリズムの差別化

Reducing Discrimination in Learning Algorithms for Social Good in Sociotechnical Systems ( http://arxiv.org/abs/2011.13988v2 )

ライセンス: Link先を確認
Katelyn Morrison(参考訳) 都市の社会技術システムは、トレンドをモデル化し予測することによって効率と機能性を向上させるために、機械学習アルゴリズムを備えている。 機械学習アルゴリズムは、都市全体の自転車の分布のバランスや、ライドシェアリングドライバーの需要ホットスポットの特定といった課題に対処するために、これらの領域に応用されている。 しかし、これらのアルゴリズムは社会技術システムの課題に適用され、過去のデータセットの偏見や疎外化コミュニティのデータ不足により社会的不平等が悪化した。 本稿では,都市におけるスマートモビリティイニシアチブが,機械学習アルゴリズムを用いて課題に対処する方法について論じる。 また、これらのアルゴリズムが社会経済的地位などの特徴に対して意図せず差別し、アルゴリズムフェアネスの重要性を動機付けている点についても論じる。 ペンシルベニア州ピッツバーグの自転車シェアリングプログラムを用いて、ベイズ最適化を用いて、パイプラインからどのように差別を排除できるかを示す。

Sociotechnical systems within cities are now equipped with machine learning algorithms in hopes to increase efficiency and functionality by modeling and predicting trends. Machine learning algorithms have been applied in these domains to address challenges such as balancing the distribution of bikes throughout a city and identifying demand hotspots for ride sharing drivers. However, these algorithms applied to challenges in sociotechnical systems have exacerbated social inequalities due to previous bias in data sets or the lack of data from marginalized communities. In this paper, I will address how smart mobility initiatives in cities use machine learning algorithms to address challenges. I will also address how these algorithms unintentionally discriminate against features such as socioeconomic status to motivate the importance of algorithmic fairness. Using the bike sharing program in Pittsburgh, PA, I will present a position on how discrimination can be eliminated from the pipeline using Bayesian Optimization.
翻訳日:2022-09-20 02:56:46 公開日:2020-12-06
# mlによる洪水予測: 規模, 精度, 到達範囲の進歩

ML-based Flood Forecasting: Advances in Scale, Accuracy and Reach ( http://arxiv.org/abs/2012.00671v2 )

ライセンス: Link先を確認
Sella Nevo, Gal Elidan, Avinatan Hassidim, Guy Shalev, Oren Gilon, Grey Nearing, Yossi Matias(参考訳) 洪水は世界で最もありふれた自然災害の1つであり、洪水警報システムは被害を減らすのに有効であることが示されている。 しかし、世界の脆弱な人口の大多数は、スケーラビリティ、計算コスト、データ可用性におけるコア課題のため、信頼性が高く行動可能な警告システムにアクセスできない。 本稿では,過去1年間に開発された洪水予報システムの2つの構成要素について述べる。

Floods are among the most common and deadly natural disasters in the world, and flood warning systems have been shown to be effective in reducing harm. Yet the majority of the world's vulnerable population does not have access to reliable and actionable warning systems, due to core challenges in scalability, computational costs, and data availability. In this paper we present two components of flood forecasting systems which were developed over the past year, providing access to these critical systems to 75 million people who didn't have this access before.
翻訳日:2021-06-07 08:55:36 公開日:2020-12-06
# (参考訳) ニューロンにおける言語形態のモデル化

Modelling Verbal Morphology in Nen ( http://arxiv.org/abs/2011.14489v2 )

ライセンス: CC BY 4.0
Saliha Murado\u{g}lu, Nicholas Evans, Ekaterina Vylomova(参考訳) 半動詞の形態は著しく複雑であり、推移動詞は1,740個の固有形をとることができる。 大規模なコンビネータ空間と低リソース設定の併用効果は、NLPツールの必要性を増幅する。 Nen モルフォロジーは分散指数(distributed exponence)、つまり形式を意味にマッピングする非自明な手段を利用する。 本稿では,形態的回帰のための最先端機械学習モデルを用いて,Nen言語形態をモデル化する。 これらのシステムが生成するエラーの種類を調べ、分類する。 この結果から,動詞型の異なる分布は,異なる精度(E-complexityのパターン)をもたらすことがわかった。 また、同期のケーススタディを通じて、トレーニングデータから推測できるパターンの種類についても示す。

Nen verbal morphology is remarkably complex; a transitive verb can take up to 1,740 unique forms. The combined effect of having a large combinatoric space and a low-resource setting amplifies the need for NLP tools. Nen morphology utilises distributed exponence - a non-trivial means of mapping form to meaning. In this paper, we attempt to model Nen verbal morphology using state-of-the-art machine learning models for morphological reinflection. We explore and categorise the types of errors these systems generate. Our results show sensitivity to training data composition; different distributions of verb type yield different accuracies (patterning with E-complexity). We also demonstrate the types of patterns that can be inferred from the training data through the case study of syncretism.
翻訳日:2021-06-07 07:50:50 公開日:2020-12-06
# X線CTのためのDeep Interactive Denoiser (DID)

Deep Interactive Denoiser (DID) for X-Ray Computed Tomography ( http://arxiv.org/abs/2011.14873v2 )

ライセンス: Link先を確認
Ti Bai, Biling Wang, Dan Nguyen, Bao Wang, Bin Dong, Wenxiang Cong, Mannudeep K. Kalra, and Steve Jiang(参考訳) 低線量CT(LDCT)は診断画像と画像ガイド下手術の両方に有用である。 デノイザーはLDCTの品質向上のために公然と使用される。 ディープラーニング(DL)ベースのデノイザは最先端のパフォーマンスを示し、主要な手法の1つになりつつある。 しかし、dlベースのデノイザには2つの課題がある: 1) 訓練されたモデルは、通常、異なる臨床作業に必要となる異なるノイズ解決トレードオフを持つ異なる画像候補を生成しない;2) テスト画像のノイズレベルがトレーニングデータセットと異なる場合、モデルの一般化可能性は問題となる可能性がある。 この2つの課題に対処するため,本研究では,既存のDLベースデノイザ上での試験段階における軽量な最適化プロセスを導入し,異なるノイズ分解トレードオフを持つ複数の画像候補をリアルタイムに生成する。 そこで,提案手法では,デノイザーと対話することで,様々な画像候補を効率的にレビューし,所望の画像を迅速に拾い上げることができ,did(deep interactive denoiser)と呼ばれる。 実験により、DIDは異なるノイズ分解トレードオフを持つ複数の画像候補を提供でき、様々なネットワークアーキテクチャ、および様々なノイズレベルのデータセットのトレーニングとテストを行うことができることを示した。

Low dose computed tomography (LDCT) is desirable for both diagnostic imaging and image guided interventions. Denoisers are openly used to improve the quality of LDCT. Deep learning (DL)-based denoisers have shown state-of-the-art performance and are becoming one of the mainstream methods. However, there exists two challenges regarding the DL-based denoisers: 1) a trained model typically does not generate different image candidates with different noise-resolution tradeoffs which sometimes are needed for different clinical tasks; 2) the model generalizability might be an issue when the noise level in the testing images is different from that in the training dataset. To address these two challenges, in this work, we introduce a lightweight optimization process at the testing phase on top of any existing DL-based denoisers to generate multiple image candidates with different noise-resolution tradeoffs suitable for different clinical tasks in real-time. Consequently, our method allows the users to interact with the denoiser to efficiently review various image candidates and quickly pick up the desired one, and thereby was termed as deep interactive denoiser (DID). Experimental results demonstrated that DID can deliver multiple image candidates with different noise-resolution tradeoffs, and shows great generalizability regarding various network architectures, as well as training and testing datasets with various noise levels.
翻訳日:2021-06-06 14:36:02 公開日:2020-12-06
# (参考訳) Any-Width Networks

Any-Width Networks ( http://arxiv.org/abs/2012.03153v1 )

ライセンス: CC BY 4.0
Thanh Vu, Marc Eder, True Price, Jan-Michael Frahm(参考訳) 速度と精度の大幅な改善にもかかわらず、畳み込みニューラルネットワーク(cnns)は、通常、推論時にモノリシックなエンティティとして動作する。 これは、計算予算と性能要求の両方が状況に応じて変化する資源制約された実用アプリケーションにとっての課題である。 これらの制約に対処するため,我々は,調整可能なcnnアーキテクチャであるany-width network(awn)と関連するトレーニングルーチンを提案する。 我々の重要な革新は、幅変動バッチ統計に明示的に対応しつつ、自然にマルチ幅演算に適合する低三角重み行列の使用である。 また,この設計により,ランダム幅サンプリングに基づく効率的なトレーニングルーチンが実現できることを示す。 提案手法では,提案手法と既存手法との比較を行い,推論時に最大粒度制御を行うことを実証的に示した。

Despite remarkable improvements in speed and accuracy, convolutional neural networks (CNNs) still typically operate as monolithic entities at inference time. This poses a challenge for resource-constrained practical applications, where both computational budgets and performance needs can vary with the situation. To address these constraints, we propose the Any-Width Network (AWN), an adjustable-width CNN architecture and associated training routine that allow for fine-grained control over speed and accuracy during inference. Our key innovation is the use of lower-triangular weight matrices which explicitly address width-varying batch statistics while being naturally suited for multi-width operations. We also show that this design facilitates an efficient training routine based on random width sampling. We empirically demonstrate that our proposed AWNs compare favorably to existing methods while providing maximally granular control during inference.
翻訳日:2021-05-22 09:57:24 公開日:2020-12-06
# (参考訳) 最適経路計画のための条件付き生成逆ネットワーク

Conditional Generative Adversarial Networks for Optimal Path Planning ( http://arxiv.org/abs/2012.03166v1 )

ライセンス: CC BY 4.0
Nachuan Ma, Jiankun Wang, Max Q.-H. Meng(参考訳) 自律ロボットシステムでは経路計画が重要な役割を果たす。 周辺環境の効率的な理解と最適衝突のない経路の効率的な生成は、経路計画問題の解決に重要な部分である。 高速探索ランダムツリー (RRT) や改良された最適バージョン (RRT*) のような従来のサンプリングベースアルゴリズムは、複雑な環境でも実現可能な経路を見つける能力から経路計画問題に広く用いられているが、最適経路を効率的に見つけることができない。 この問題の解決と2つの要件を満たすために,条件付き生成逆数ネットワーク(CGAN)と修正RT*アルゴリズム(CGANRRT*)に基づく新しい生成モデルからなる学習ベースの経路計画アルゴリズムを提案する。 このマップ情報から,CGANモデルは,CGAN-RRT*アルゴリズムを用いて,一様でないサンプリング戦略を用いて最適経路を求めることが可能な,実現可能な経路の効率的な分布を生成することができる。 CGANモデルは、地上の真理マップから学習することで訓練され、それぞれがRRTアルゴリズムの実行結果を1つの生地図上で50回実行することで生成される。 CGAN-RRT* アルゴリズムと従来の RRT* アルゴリズムを比較することで,この CGAN モデルの有効性を実証する。

Path planning plays an important role in autonomous robot systems. Effective understanding of the surrounding environment and efficient generation of optimal collision-free path are both critical parts for solving path planning problem. Although conventional sampling-based algorithms, such as the rapidly-exploring random tree (RRT) and its improved optimal version (RRT*), have been widely used in path planning problems because of their ability to find a feasible path in even complex environments, they fail to find an optimal path efficiently. To solve this problem and satisfy the two aforementioned requirements, we propose a novel learning-based path planning algorithm which consists of a novel generative model based on the conditional generative adversarial networks (CGAN) and a modified RRT* algorithm (denoted by CGANRRT*). Given the map information, our CGAN model can generate an efficient possibility distribution of feasible paths, which can be utilized by the CGAN-RRT* algorithm to find the optimal path with a non-uniform sampling strategy. The CGAN model is trained by learning from ground truth maps, each of which is generated by putting all the results of executing RRT algorithm 50 times on one raw map. We demonstrate the efficient performance of this CGAN model by testing it on two groups of maps and comparing CGAN-RRT* algorithm with conventional RRT* algorithm.
翻訳日:2021-05-22 09:42:51 公開日:2020-12-06
# (参考訳) 高次グラフニューラルネットワークによるサブ構造の推定:可能性と不可能性

Counting Substructures with Higher-Order Graph Neural Networks: Possibility and Impossibility Results ( http://arxiv.org/abs/2012.03174v1 )

ライセンス: CC BY 4.0
Behrooz Tahmasebi, Stefanie Jegelka(参考訳) マッサージパスベースのグラフニューラルネットワーク(GNN)は、グラフで学ぶための人気アーキテクチャになりつつあるが、最近の研究は、その表現力の重要な欠点を明らかにしている。 これに対し、いくつかの高次GNNが提案され、表現力を大幅に向上するが、計算コストが大きい。 このギャップに動機づけられ、計算コストと表現力のトレードオフを異なるものにする、ローカル近傍の新たな再帰的プーリング技術を導入し、分析する。 まず、このモデルでは、$k$のサブグラフをカウントでき、低次GNNの既知の制限を克服できることを示す。 第二に、いくつかのケースにおいて、提案アルゴリズムは既存の$k$-GNNやローカルリレーショナルポーリング(LRP)ネットワークと比較して計算複雑性を大幅に削減できることを示す。 また,グラフ表現のための情報理論下限を(近く)マッチングし,サブグラフのカウントを可能とし,時間複雑性下限についても議論する。

While massage passing based Graph Neural Networks (GNNs) have become increasingly popular architectures for learning with graphs, recent works have revealed important shortcomings in their expressive power. In response, several higher-order GNNs have been proposed, which substantially increase the expressive power, but at a large computational cost. Motivated by this gap, we introduce and analyze a new recursive pooling technique of local neighborhoods that allows different tradeoffs of computational cost and expressive power. First, we show that this model can count subgraphs of size $k$, and thereby overcomes a known limitation of low-order GNNs. Second, we prove that, in several cases, the proposed algorithm can greatly reduce computational complexity compared to the existing higher-order $k$-GNN and Local Relational Pooling (LRP) networks. We also provide a (near) matching information-theoretic lower bound for graph representations that can provably count subgraphs, and discuss time complexity lower bounds as well.
翻訳日:2021-05-22 09:22:03 公開日:2020-12-06
# (参考訳) 最大エントロピー部分空間クラスタリングネットワーク

Maximum Entropy Subspace Clustering Network ( http://arxiv.org/abs/2012.03176v1 )

ライセンス: CC BY 4.0
Zhihao Peng, Yuheng Jia, Hui Liu, Junhui Hou, Qingfu Zhang(参考訳) ディープサブスペースクラスタリングネットワーク(dsc-net)とその多くの変種は、サブスペースクラスタリングにおいて印象的な性能を達成しており、オートエンコーダが入力データを潜在空間に非線形にマッピングし、エンコーダとデコーダの間に自己表現性モジュールと呼ばれる完全接続層を導入し、親和性行列を学ぶ。 しかし、アフィニティ行列(例えば、スパース、チホノフ、ローランク)上で採用されている正則化は、理想的なアフィニティ行列の学習を駆動するのにはまだ不十分であり、その性能を制限している。 さらに、DSC-Netでは、自己表現モジュールとオートエンコーダモジュールを密結合し、DSC-Netのトレーニングを非自明にする。 そこで,本稿では,最大エントロピー部分空間クラスタリングネットワーク(mesc-net)と呼ばれる深層学習に基づくクラスタリング手法を提案する。 具体的には、MESC-Netは学習された親和性行列のエントロピーを最大化し、理想的な親和性行列構造を示すように促す。 我々は,MESC-Netにより駆動される親和性行列がブロック対角特性に従うことを理論的に証明し,同じ部分空間に対応する要素が一様かつ高密度に分布していることを示す。 さらに,自動エンコーダモジュールと自己表現モジュールを明示的に分離する。 一般的なベンチマークデータセットの広範囲な量的、質的な結果 mesc-net は最先端の手法を大きく上回っている。

Deep subspace clustering network (DSC-Net) and its numerous variants have achieved impressive performance for subspace clustering, in which an auto-encoder non-linearly maps input data into a latent space, and a fully connected layer named self-expressiveness module is introduced between the encoder and the decoder to learn an affinity matrix. However, the adopted regularization on the affinity matrix (e.g., sparse, Tikhonov, or low-rank) is still insufficient to drive the learning of an ideal affinity matrix, thus limiting their performance. In addition, in DSC-Net, the self-expressiveness module and the auto-encoder module are tightly coupled, making the training of the DSC-Net non-trivial. To this end, in this paper, we propose a novel deep learning-based clustering method named Maximum Entropy Subspace Clustering Network (MESC-Net). Specifically, MESC-Net maximizes the learned affinity matrix's entropy to encourage it to exhibit an ideal affinity matrix structure. We theoretically prove that the affinity matrix driven by MESC-Net obeys the block-diagonal property, and experimentally show that its elements corresponding to the same subspace are uniformly and densely distributed, which gives better clustering performance. Moreover, we explicitly decouple the auto-encoder module and the self-expressiveness module. Extensive quantitative and qualitative results on commonly used benchmark datasets validate MESC-Net significantly outperforms state-of-the-art methods.
翻訳日:2021-05-22 08:56:31 公開日:2020-12-06
# (参考訳) Representacions del aprendizaje reutilizando los gradientes de la retropropagacion

Representaciones del aprendizaje reutilizando los gradientes de la retropropagacion ( http://arxiv.org/abs/2012.03188v1 )

ライセンス: CC BY 4.0
Roberto Reyes-Ochoa and Servando Lopez-Aguayo(参考訳) 本研究では,バックプロパゲーション勾配を活用し,異なるトレーニング段階における特徴量を決定するアルゴリズムを提案する。 さらに,学習過程を定性的に表現する方法を提案する。 スカルンが提供したウィスコンシンのがんデータセット上で実験を行い、その結果、いわゆる「学習勾配」が最も重要な特徴へと興味深い収束を示した。 --este trabajo propone el algoritmo de gradientes de aprendizaje para encontrar significado en las entradas de una red neuronal。 ademas, se propone una manera de evaluarlas por orden de importancia y representar el proceso de aprendizaje a traves de las etapas de entrenamiento (英語) Los resultados utilizan como referencia el conjunto de datos acerca de tumores malignos y benignos en Wisconsin esta referencia sirvio para detectar un patron en las variables mas importantes del modelo gracias, asi como su evolucion temporal を参照。

This work proposes an algorithm for taking advantage of backpropagation gradients to determine feature importance at different stages of training. Additionally, we propose a way to represent the learning process qualitatively. Experiments were performed over the Wisconsin cancer dataset provided by sklearn, and results showed an interesting convergence of the so called "learning gradients" towards the most important features. --- Este trabajo propone el algoritmo de gradientes de aprendizaje para encontrar significado en las entradas de una red neuronal. Ademas, se propone una manera de evaluarlas por orden de importancia y representar el proceso de aprendizaje a traves de las etapas de entrenamiento. Los resultados obtenidos utilizan como referencia el conjunto de datos acerca de tumores malignos y benignos en Wisconsin. Esta referencia sirvio para detectar un patron en las variables mas importantes del modelo gracias, asi como su evolucion temporal.
翻訳日:2021-05-22 08:34:36 公開日:2020-12-06
# (参考訳) データ駆動型人間責任管理システム

A Data-driven Human Responsibility Management System ( http://arxiv.org/abs/2012.03190v1 )

ライセンス: CC BY 4.0
Xuejiao Tang, Jiong Qiu, Ruijun Chen, Wenbin Zhang, Vasileios Iosifidis, Zhen Liu, Wei Meng, Mingli Zhang and Ji Zhang(参考訳) 理想的な安全な職場は、スタッフがきちんと整理された順序で責任を果たす場所として説明され、潜在的に危険な出来事がリアルタイムで監視され、事故の数や関連する損害を最小限に抑えることができる。 しかし, 総合的な安全管理の欠如により, 職業関連死亡・負傷は依然として増加傾向にあり, 過去数十年間, 高い関心を集めてきた。 そのため、リスク評価の自動化や、必要な時にスタッフや部署に警告を行うとともに、責任を果たすようスタッフに指示するスマート安全管理システムが緊急に必要となる。 本稿では,責任ビッグデータ分析とiot(internet of things, モノのインターネット)に基づく職場における安全管理のためのスマートシステムを提案する。 実世界の実施と評価は,提案システムによる説明責任性能の向上と,リアルタイムの監督と自己調整による責任履行の向上を実証している。

An ideal safe workplace is described as a place where staffs fulfill responsibilities in a well-organized order, potential hazardous events are being monitored in real-time, as well as the number of accidents and relevant damages are minimized. However, occupational-related death and injury are still increasing and have been highly attended in the last decades due to the lack of comprehensive safety management. A smart safety management system is therefore urgently needed, in which the staffs are instructed to fulfill responsibilities as well as automating risk evaluations and alerting staffs and departments when needed. In this paper, a smart system for safety management in the workplace based on responsibility big data analysis and the internet of things (IoT) are proposed. The real world implementation and assessment demonstrate that the proposed systems have superior accountability performance and improve the responsibility fulfillment through real-time supervision and self-reminder.
翻訳日:2021-05-22 08:09:03 公開日:2020-12-06
# (参考訳) 野生における一貫したメッシュ再構築のためのオンライン適応

Online Adaptation for Consistent Mesh Reconstruction in the Wild ( http://arxiv.org/abs/2012.03196v1 )

ライセンス: CC BY 4.0
Xueting Li, Sifei Liu, Shalini De Mello, Kihwan Kim, Xiaolong Wang, Ming-Hsuan Yang, Jan Kautz(参考訳) 本稿では,変形可能なオブジェクトの時間的一貫した3次元メッシュを野生のビデオから再構成するアルゴリズムを提案する。 ビデオフレーム毎に3Dメッシュ,2Dキーポイント,カメラポーズのアノテーションを必要とせずに,ビデオベースの再構成を,入ってくるテストビデオに適用する自己教師付きオンライン適応問題として行う。 まず,画像の形状,テクスチャ,カメラのポーズを共同で予測する同一カテゴリの単一視点画像の集合から,カテゴリ固有の3次元再構成モデルを学習する。 そして、推定時に、オブジェクトインスタンスの時間的一貫性を利用した自己教師あり正規化用語を用いて、時間とともにモデルをテストビデオに適用し、再構成されたメッシュが共通のテクスチャマップ、基本形状、および部品を共有することを強制する。 このアルゴリズムは、野生で捕獲された動物を含む非剛性物体のビデオから、時間的に一貫性があり、信頼性の高い3d構造を復元できることを実証する。

This paper presents an algorithm to reconstruct temporally consistent 3D meshes of deformable object instances from videos in the wild. Without requiring annotations of 3D mesh, 2D keypoints, or camera pose for each video frame, we pose video-based reconstruction as a self-supervised online adaptation problem applied to any incoming test video. We first learn a category-specific 3D reconstruction model from a collection of single-view images of the same category that jointly predicts the shape, texture, and camera pose of an image. Then, at inference time, we adapt the model to a test video over time using self-supervised regularization terms that exploit temporal consistency of an object instance to enforce that all reconstructed meshes share a common texture map, a base shape, as well as parts. We demonstrate that our algorithm recovers temporally consistent and reliable 3D structures from videos of non-rigid objects including those of animals captured in the wild -- an extremely challenging task rarely addressed before.
翻訳日:2021-05-22 08:02:35 公開日:2020-12-06
# (参考訳) DGGAN:3次元ハンドポース推定におけるRGBと深度画像の遠方化のための深度画像誘導型生成逆数ネットワーク

DGGAN: Depth-image Guided Generative Adversarial Networks for Disentangling RGB and Depth Images in 3D Hand Pose Estimation ( http://arxiv.org/abs/2012.03197v1 )

ライセンス: CC0 1.0
Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Wei Fan, and Xiaohui Xie(参考訳) RGB画像からの3Dハンドポーズの推定は、広範囲の潜在的な応用に不可欠であるが、RGB画像からの深度インフォームの推測においてかなりの曖昧さのために困難である。 予測された3Dポーズと地上深度マップの整合性を強制するため、3Dハンドポーズ推定モデルを正規化することで、最先端の推定者がこの問題に対処する。 本研究では,DGGAN(Depth-image Guided GAN)と呼ばれる条件付き生成逆数ネットワークモデルを提案し,入力されたRGB画像に条件付き再帰的深度マップを生成し,合成した深度マップを用いて3次元手動推定モデルを正規化することにより,地平線深度マップの必要性を解消する。 多重ベンチマークデータセットを用いた実験結果から、DGGANが生成した合成深度マップは、それぞれRHD、STB、MHPデータセットにおいて、平均3D終点誤差(EPE)を4.7%、16.5%、および6.8%減らすことで、目的推定モデルの正規化に極めて効果的であることが示された。

Estimating3D hand poses from RGB images is essentialto a wide range of potential applications, but is challengingowing to substantial ambiguity in the inference of depth in-formation from RGB images. State-of-the-art estimators ad-dress this problem by regularizing3D hand pose estimationmodels during training to enforce the consistency betweenthe predicted3D poses and the ground-truth depth maps.However, these estimators rely on both RGB images and thepaired depth maps during training. In this study, we proposea conditional generative adversarial network (GAN) model,called Depth-image Guided GAN (DGGAN), to generate re-alistic depth maps conditioned on the input RGB image, anduse the synthesized depth maps to regularize the3D handpose estimation model, therefore eliminating the need forground-truth depth maps. Experimental results on multiplebenchmark datasets show that the synthesized depth mapsproduced by DGGAN are quite effective in regularizing thepose estimation model, yielding new state-of-the-art resultsin estimation accuracy, notably reducing the mean3D end-point errors (EPE) by4.7%,16.5%, and6.8%on the RHD,STB and MHP datasets, respectively.
翻訳日:2021-05-22 07:43:00 公開日:2020-12-06
# (参考訳) ノイズ時系列からのベクトル場の推定

Estimating Vector Fields from Noisy Time Series ( http://arxiv.org/abs/2012.03199v1 )

ライセンス: CC BY 4.0
Harish S. Bhat, Majerle Reeves, Ramin Raziperchikolaei(参考訳) 時系列から微分方程式モデルを学ぶことに対する近年の関心は高まっているが、この領域の手法は一般に、非常に騒がしいデータを扱うことができない。 この問題を、(i)微分方程式の未知ベクトル場(または右辺)を近似すること、(ii)雑音を扱うことの2つの部分に分けられる。 i) に対処するため, 1次元神経形状関数のテンソル積からなるニューラルネットワークアーキテクチャについて述べる。 第二に,ベクトル場学習とフィルタリングステップを切り替える交代最小化方式と,学習データの複数の軌跡を同時に提案する。 ニューラルシェイプ関数のアーキテクチャは、密集したニューラルネットワークの近似性を保持し、ベクトル場誤差の効果的な計算を可能にし、すべての有限次元のデータ/システムに対してグラフィカルな解釈を可能にしている。 また、我々のニューラル形状関数法と既存の微分方程式学習法を交互に最小化と複数軌跡に組み合わせて検討した。 この方法で学習手法を再構成することで,ノイズに対する手法の堅牢性を高めることができる。 生の状態では、手法は1%ガウスノイズに苦しむが、レトロフィッティングの後、10%ガウスノイズのデータから正確なベクトル場を学習する。

While there has been a surge of recent interest in learning differential equation models from time series, methods in this area typically cannot cope with highly noisy data. We break this problem into two parts: (i) approximating the unknown vector field (or right-hand side) of the differential equation, and (ii) dealing with noise. To deal with (i), we describe a neural network architecture consisting of tensor products of one-dimensional neural shape functions. For (ii), we propose an alternating minimization scheme that switches between vector field training and filtering steps, together with multiple trajectories of training data. We find that the neural shape function architecture retains the approximation properties of dense neural networks, enables effective computation of vector field error, and allows for graphical interpretability, all for data/systems in any finite dimension $d$. We also study the combination of either our neural shape function method or existing differential equation learning methods with alternating minimization and multiple trajectories. We find that retrofitting any learning method in this way boosts the method's robustness to noise. While in their raw form the methods struggle with 1% Gaussian noise, after retrofitting, they learn accurate vector fields from data with 10% Gaussian noise.
翻訳日:2021-05-22 07:31:53 公開日:2020-12-06
# (参考訳) FuseVis: 画像融合のためのニューラルネットワークの解釈

FuseVis: Interpreting neural networks for image fusion using per-pixel saliency visualization ( http://arxiv.org/abs/2012.08932v1 )

ライセンス: CC BY 4.0
Nishant Kumar, Stefan Gumhold(参考訳) 画像融合は、2つ以上の画像をマージしてより情報的な単一の融合画像を構築するのに役立つ。 近年,教師なし学習に基づく畳み込みニューラルネットワーク(cnn)は,医用画像融合,自律運転のための赤外線可視画像融合,衛星画像のマルチフォーカス・マルチエクスプロイア画像融合など,様々な種類の画像融合タスクに利用されている。 しかし, 画像融合タスクにおけるこれらのCNNの信頼性は, 根拠のないため, 解析が困難である。 これにより、さまざまなモデルアーキテクチャと最適化関数が使用され、非常に異なる融合結果が得られた。 さらに、そのようなニューラルネットワークの極めて不透明な性質のため、融合結果の背後にある内部力学を説明することは困難である。 そこで,これらの課題を克服するために,エンドユーザーが画像の各画素に対する入力画素の影響を調べるために,ピクセル単位のサリエンシーマップを計算できる,fusevisという新しいリアルタイム可視化ツールを提案する。 画像融合ベースのcnnを医用画像ペアで訓練し, ヒューズビスツールを用いて各融合法からの塩分マップを解釈し, 特定の臨床応用についてケーススタディを行った。 本研究では,各画像の相対的影響が融合画像の予測に及ぼす影響を特に可視化し,評価された画像融合法が臨床応用に適していることを示した。 我々の知る限りでは、現在、画像融合のためのニューラルネットワークの視覚的分析にはアプローチがない。 そこで本研究は,深層核融合ネットワークの解釈可能性向上のための新たな研究方向を開く。 FuseVisツールは、他のディープニューラルネットワークベースの画像処理アプリケーションに適応して解釈することもできる。

Image fusion helps in merging two or more images to construct a more informative single fused image. Recently, unsupervised learning based convolutional neural networks (CNN) have been utilized for different types of image fusion tasks such as medical image fusion, infrared-visible image fusion for autonomous driving as well as multi-focus and multi-exposure image fusion for satellite imagery. However, it is challenging to analyze the reliability of these CNNs for the image fusion tasks since no groundtruth is available. This led to the use of a wide variety of model architectures and optimization functions yielding quite different fusion results. Additionally, due to the highly opaque nature of such neural networks, it is difficult to explain the internal mechanics behind its fusion results. To overcome these challenges, we present a novel real-time visualization tool, named FuseVis, with which the end-user can compute per-pixel saliency maps that examine the influence of the input image pixels on each pixel of the fused image. We trained several image fusion based CNNs on medical image pairs and then using our FuseVis tool, we performed case studies on a specific clinical application by interpreting the saliency maps from each of the fusion methods. We specifically visualized the relative influence of each input image on the predictions of the fused image and showed that some of the evaluated image fusion methods are better suited for the specific clinical application. To the best of our knowledge, currently, there is no approach for visual analysis of neural networks for image fusion. Therefore, this work opens up a new research direction to improve the interpretability of deep fusion networks. The FuseVis tool can also be adapted in other deep neural network based image processing applications to make them interpretable.
翻訳日:2021-05-22 07:18:08 公開日:2020-12-06
# (参考訳) fedsemi:適応型フェデレーション半教師付き学習フレームワーク

FedSemi: An Adaptive Federated Semi-Supervised Learning Framework ( http://arxiv.org/abs/2012.03292v1 )

ライセンス: CC BY 4.0
Zewei Long, Liwei Che, Yaqing Wang, Muchao Ye, Junyu Luo, Jinze Wu, Houping Xiao, Fenglong Ma(参考訳) フェデレートラーニング(FL)は、データを共有し、プライバシーを漏らすことなく、機械学習モデルをコトレーニングするための効果的なテクニックとして登場した。 しかし、既存のFL手法の多くは、教師付き設定に焦点を当て、ラベルなしデータの利用を無視している。 FLにラベルのないデータを組み込もうとする研究はいくつかあるが、いずれも様々な環境で性能保証や一般化能力を維持するのに失敗している。 本稿では,データ正規化の見識から,連合半教師付き学習問題に取り組み,新たな難題の分析を行う。 まず,教師学習モデルを用いてflに一貫性規則化を導入する,新しい適応型汎用フレームワークfeedsemiを提案する。 さらに,局所モデル層の発散を測定するための新しい指標を提案する。 この分散に基づいて、FedSemiは順応的にサーバにアップロードされる層レベルのパラメータを自動的に選択できる。 提案手法を4つのデータセットで実験的に検証することにより,IID設定と3つの非IID設定で性能向上を実現することを示す。

Federated learning (FL) has emerged as an effective technique to co-training machine learning models without actually sharing data and leaking privacy. However, most existing FL methods focus on the supervised setting and ignore the utilization of unlabeled data. Although there are a few existing studies trying to incorporate unlabeled data into FL, they all fail to maintain performance guarantees or generalization ability in various settings. In this paper, we tackle the federated semi-supervised learning problem from the insight of data regularization and analyze the new-raised difficulties. We propose FedSemi, a novel, adaptive, and general framework, which firstly introduces the consistency regularization into FL using a teacher-student model. We further propose a new metric to measure the divergence of local model layers. Based on the divergence, FedSemi can automatically select layer-level parameters to be uploaded to the server in an adaptive manner. Through extensive experimental validation of our method in four datasets, we show that our method achieves performance gain under the IID setting and three Non-IID settings compared to state-of-the-art baselines.
翻訳日:2021-05-22 05:53:17 公開日:2020-12-06
# (参考訳) 臓器分離のための不確実性駆動型GCNリファインメント戦略

An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation ( http://arxiv.org/abs/2012.03352v1 )

ライセンス: CC BY 4.0
Roger D. Soberanis-Mukul, Nassir Navab, Shadi Albarqouni(参考訳) CTボリュームの臓器セグメンテーションは、多くのコンピュータ支援の介入と診断方法において重要な前処理ステップである。 近年では、畳み込みニューラルネットワークがこのタスクにおける最先端技術を支配している。 しかし, 臓器形状の多様性と組織間の類似性により, この問題は困難な環境を呈しているため, 出力セグメンテーションにおける偽陰性領域と偽陽性領域の生成は一般的な問題である。 近年の研究では、モデルの不確実性解析により、セグメンテーションにおける潜在的なエラーに関する有用な情報が得られることが示されている。 本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。 我々は,グラフ畳み込みネットワークをトレーニングすることで解ける半教師付きグラフ学習問題を定式化するために,特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。 提案手法をテストするために,2次元U-Netの初期出力を精査する。 我々はこのフレームワークをnih pancreasデータセットとspleen dataset of the medical segmentation decathlonを用いて検証した。 本手法は膵臓のdiceスコアを1%改善し, 脾臓を2%改善することにより, 最先端のcrf改良法に勝ることを示す。 最後に,提案手法のパラメータの感度解析を行い,他のcnnアーキテクチャへの適用性,結果,今後の研究に向けたモデルの限界について考察する。 再現性のために、コードをhttps://github.com/rodsom22/gcn_refinement.comで公開しています。

Organ segmentation in CT volumes is an important pre-processing step in many computer assisted intervention and diagnosis methods. In recent years, convolutional neural networks have dominated the state of the art in this task. However, since this problem presents a challenging environment due to high variability in the organ's shape and similarity between tissues, the generation of false negative and false positive regions in the output segmentation is a common issue. Recent works have shown that the uncertainty analysis of the model can provide us with useful information about potential errors in the segmentation. In this context, we proposed a segmentation refinement method based on uncertainty analysis and graph convolutional networks. We employ the uncertainty levels of the convolutional network in a particular input volume to formulate a semi-supervised graph learning problem that is solved by training a graph convolutional network. To test our method we refine the initial output of a 2D U-Net. We validate our framework with the NIH pancreas dataset and the spleen dataset of the medical segmentation decathlon. We show that our method outperforms the state-of-the-art CRF refinement method by improving the dice score by 1% for the pancreas and 2% for spleen, with respect to the original U-Net's prediction. Finally, we perform a sensitivity analysis on the parameters of our proposal and discuss the applicability to other CNN architectures, the results, and current limitations of the model for future work in this research direction. For reproducibility purposes, we make our code publicly available at https://github.com/rodsom22/gcn_refinement.
翻訳日:2021-05-22 04:34:43 公開日:2020-12-06
# (参考訳) 3次元物体形状とSVBRDF材質の異なる経路追跡による画像からの再構成を目指して

Shape From Tracing: Towards Reconstructing 3D Object Geometry and SVBRDF Material from Images via Differentiable Path Tracing ( http://arxiv.org/abs/2012.03939v1 )

ライセンス: CC BY 4.0
Purvi Goel, Loudon Cohen, James Guesman, Vikas Thamizharasan, James Tompkin, Daniel Ritchie(参考訳) 複数のビューからオブジェクトジオメトリとマテリアルを再構築するには、通常最適化が必要です。 異なる経路追跡は複雑な外観効果を再現できるので魅力的なフレームワークである。 しかし,計算コストが高いため利用は困難である。 本稿では,初期粗いメッシュとmesh-facet材料表現を洗練するために,微分可能なレイトレーシングをどのように利用するかを検討する。 シミュレーションでは、低解像度の入力ビューから微細な幾何学的・物質的詳細を再構築することができ、パストレースを犠牲にして数時間で高品質な再構築が可能になる。 レコンストラクションは、材料特性からの拡散反射のような陰影、影、大域的な照明効果を曖昧化させることに成功した。 空間彫刻,マルチビューステレオ,3次元ニューラルネットワークなど,異なる幾何学的初期化の影響を実証する。 最後に、スマートフォンビデオと消費者向け360度カメラを使って入力をキャプチャする。 照明推定のためのカメラでは,制約のない環境下での現実世界の物体の初期再構成を改良する方法も示す。

Reconstructing object geometry and material from multiple views typically requires optimization. Differentiable path tracing is an appealing framework as it can reproduce complex appearance effects. However, it is difficult to use due to high computational cost. In this paper, we explore how to use differentiable ray tracing to refine an initial coarse mesh and per-mesh-facet material representation. In simulation, we find that it is possible to reconstruct fine geometric and material detail from low resolution input views, allowing high-quality reconstructions in a few hours despite the expense of path tracing. The reconstructions successfully disambiguate shading, shadow, and global illumination effects such as diffuse interreflection from material properties. We demonstrate the impact of different geometry initializations, including space carving, multi-view stereo, and 3D neural networks. Finally, with input captured using smartphone video and a consumer 360? camera for lighting estimation, we also show how to refine initial reconstructions of real-world objects in unconstrained environments.
翻訳日:2021-05-22 04:13:09 公開日:2020-12-06
# (参考訳) FUN再考 : 周波数領域利用ネットワーク

Rethinking FUN: Frequency-Domain Utilization Networks ( http://arxiv.org/abs/2012.03357v1 )

ライセンス: CC BY 4.0
Kfir Goldberg, Stav Shapiro, Elad Richardson, Shai Avidan(参考訳) 近年,効率的なニューラルネットワークアーキテクチャの探索が注目されている。現代のアーキテクチャでは,精度だけでなく,推論時間やモデルサイズにも注目が集まっている。 本稿では、新しい周波数領域利用ネットワークのファミリーであるFUNを紹介する。 これらのネットワークは、離散コサイン変換で表される領域内で直接働くことで、周波数領域の固有効率を利用する。 複合スケーリングや逆レジデント層のようなモダンなテクニックとビルディングブロックを使うことで、競合するRGBモデルよりも優れたサイズ、レイテンシ、精度のバランスをとることができる。 広範囲な評価は、我々のネットワークが以前のアプローチに対して強力な代替手段を示すことを示す。 さらに、周波数領域での動作は、アーキテクチャに明示的な変更を加えることなく、推論時に入力を動的に圧縮できることを示す。

The search for efficient neural network architectures has gained much focus in recent years, where modern architectures focus not only on accuracy but also on inference time and model size. Here, we present FUN, a family of novel Frequency-domain Utilization Networks. These networks utilize the inherent efficiency of the frequency-domain by working directly in that domain, represented with the Discrete Cosine Transform. Using modern techniques and building blocks such as compound-scaling and inverted-residual layers we generate a set of such networks allowing one to balance between size, latency and accuracy while outperforming competing RGB-based models. Extensive evaluations verifies that our networks present strong alternatives to previous approaches. Moreover, we show that working in frequency domain allows for dynamic compression of the input at inference time without any explicit change to the architecture.
翻訳日:2021-05-22 03:59:44 公開日:2020-12-06
# (参考訳) 粒子分解エアロゾル混合状態指標のグローバルスケールにおける非監督的地域化

Unsupervised Regionalization of Particle-resolved Aerosol Mixing State Indices on the Global Scale ( http://arxiv.org/abs/2012.03365v1 )

ライセンス: CC BY 4.0
Zhonghua Zheng, Joseph Ching, Jeffrey H. Curtis, Yu Yao, Peng Xu, Matthew West, Nicole Riemer(参考訳) エアロゾル混合状態は、大気エアロゾル粒子の気候および健康への影響に大きく影響する。 地球系モデルに共通する単純なエアロゾル混合状態仮定は、これらのエアロゾルの影響の予測に誤りをもたらす可能性がある。 エアロゾル混合状態指標(エアロゾル混合状態の定量化指標)はこれらの誤差の定量化に有用な指標である。 エアロゾル混合状態指数のグローバル推定は、最近教師付き学習モデルによって利用可能になったが、時空間分析を容易にするために地域化が必要である。 本研究では,グローバルエアロゾル混合状態の予測を地域化するための,単純かつ効果的な教師なし学習手法を開発した。 エアロゾル混合状態の月平均は,地球規模分布を入力データとして用いた。 グリッドセルは入力として空間情報を明示せずにk平均アルゴリズムにより領域にクラスタ化される。 このアプローチは、特定の空間集約パターンを持つ11の地域を世界中にもたらした。 各地域は, 混合状態指標とエアロゾル組成の独特の分布を示し, 教師なし地域化アプローチの有効性を示した。 本研究では、大気科学研究に役立つ「エアロゾル混合状態帯」を定義する。

The aerosol mixing state significantly affects the climate and health impacts of atmospheric aerosol particles. Simplified aerosol mixing state assumptions, common in Earth System models, can introduce errors in the prediction of these aerosol impacts. The aerosol mixing state index, a metric to quantify aerosol mixing state, is a convenient measure for quantifying these errors. Global estimates of aerosol mixing state indices have recently become available via supervised learning models, but require regionalization to ease spatiotemporal analysis. Here we developed a simple but effective unsupervised learning approach to regionalize predictions of global aerosol mixing state indices. We used the monthly average of aerosol mixing state indices global distribution as the input data. Grid cells were then clustered into regions by the k-means algorithm without explicit spatial information as input. This approach resulted in eleven regions over the globe with specific spatial aggregation patterns. Each region exhibited a unique distribution of mixing state indices and aerosol compositions, showing the effectiveness of the unsupervised regionalization approach. This study defines "aerosol mixing state zones" that could be useful for atmospheric science research.
翻訳日:2021-05-22 03:28:41 公開日:2020-12-06
# (参考訳) Ising-based Louvain Method:専用ハードウェアによる大規模グラフのクラスタリング

Ising-Based Louvain Method: Clustering Large Graphs with Specialized Hardware ( http://arxiv.org/abs/2012.11391v1 )

ライセンス: CC BY 4.0
Pouya Rezazadeh Kalehbasti, Hayato Ushijima-Mwesigwa, Avradip Mandal, Indradeep Ghosh(参考訳) 量子コンピュータ、量子アニール、CMOSアニールなどの最適化問題を解くための特別なハードウェアの最近の進歩は、実単語の複雑な問題を解決する新しい方法を生み出している。 しかし、現在のハードウェアと近い将来のハードウェアの限界を考えると、大規模な実世界の問題を表現するのに必要な変数の数はハードウェアの能力を超えやすいため、ハードウェアを利用するためには通常ハイブリッド手法が開発される。 本研究では,既存の最先端ヒューリスティックのフレームワーク上に構築されたハイブリッド手法の開発を提唱し,これらの手法を改良する。 コミュニティ検出問題において最も一般的なアルゴリズムのひとつであり,Ising-based Louvain法とIsing-based Louvain法の開発によってこれを実証する。 提案手法は,複数の小規模・大規模グラフのクラスタリングにおいて,最先端のコミュニティ検出アルゴリズムより優れている。 その結果、他の教師なし学習ヒューリスティックに同じ最適化アプローチを適用して性能を向上させることが期待できる。

Recent advances in specialized hardware for solving optimization problems such quantum computers, quantum annealers, and CMOS annealers give rise to new ways for solving real-word complex problems. However, given current and near-term hardware limitations, the number of variables required to express a large real-world problem easily exceeds the hardware capabilities, thus hybrid methods are usually developed in order to utilize the hardware. In this work, we advocate for the development of hybrid methods that are built on top of the frameworks of existing state-of-art heuristics, thereby improving these methods. We demonstrate this by building on the so called Louvain method, which is one of the most popular algorithms for the Community detection problem and develop and Ising-based Louvain method. The proposed method outperforms two state-of-the-art community detection algorithms in clustering several small to large-scale graphs. The results show promise in adapting the same optimization approach to other unsupervised learning heuristics to improve their performance.
翻訳日:2021-05-22 03:18:04 公開日:2020-12-06
# (参考訳) SVMの動作性と解釈可能性に対する軽量ソリューション

A Weighted Solution to SVM Actionability and Interpretability ( http://arxiv.org/abs/2012.03372v1 )

ライセンス: CC BY 4.0
Samuel Marc Denton and Ansaf Salleb-Aouissi(参考訳) 機械学習の研究は、正確な分類モデルを構築するアルゴリズムの開発に成功した。 しかし、医療、顧客満足度、環境保護といった現実世界の多くのアプリケーションでは、モデルを利用して、どのようなアクションをとるかを決めたいと思っています。 支援ベクトルマシンの文脈における動作可能性の概念について検討する。 実行可能性(Actionability)は、機械学習モデルの解釈可能性や説明可能性と同じくらい重要である。 Actionabilityは、マシンラーニングモデルとその予測に対処する方法を提供するタスクです。 本稿では,線形モデルと非線形svmモデルの両方における動作可能性の問題に対する解を求める。 さらに、特定の機能に対して他の機能よりも多くの変更を可能にする重み付けアクションの考慮方法も導入しています。 線形, rbf, 多項式カーネル上の勾配降下解を提案し, 合成データと実データの両方におけるモデルの有効性を検証した。 我々はまた、行動可能性のレンズを通してモデルの解釈可能性を探ることができる。

Research in machine learning has successfully developed algorithms to build accurate classification models. However, in many real-world applications, such as healthcare, customer satisfaction, and environment protection, we want to be able to use the models to decide what actions to take. We investigate the concept of actionability in the context of Support Vector Machines. Actionability is as important as interpretability or explainability of machine learning models, an ongoing and important research topic. Actionability is the task that gives us ways to act upon machine learning models and their predictions. This paper finds a solution to the question of actionability on both linear and non-linear SVM models. Additionally, we introduce a way to account for weighted actions that allow for more change in certain features than others. We propose a gradient descent solution on the linear, RBF, and polynomial kernels, and we test the effectiveness of our models on both synthetic and real datasets. We are also able to explore the model's interpretability through the lens of actionability.
翻訳日:2021-05-22 02:43:13 公開日:2020-12-06
# セマンティックキャリブレーションによるクロス層蒸留

Cross-Layer Distillation with Semantic Calibration ( http://arxiv.org/abs/2012.03236v1 )

ライセンス: Link先を確認
Defang Chen, Jian-Ping Mei, Yuan Zhang, Can Wang, Zhe Wang, Yan Feng, Chun Chen(参考訳) 近年,教師モデルの中間層が,学生モデルの一般化能力を高めるための学習目標として有効であることを,特徴地図転送に基づく知識蒸留手法が提案されている。 既存の研究は主に、手動で特定された教師-学生中間層間の知識伝達のための特定の表現形式に焦点を当てている。 しかし、中間層のセマンティクスは異なるネットワークで異なり、教師と学生のペア間のセマンティクスミスマッチに起因する負の規則化につながる可能性がある。 この問題を解決するために,教師モデルの適切なターゲット層を各生徒層に自動的にアテンション機構で割り当てるSemCKD(Semantic Calibration for Cross-layer Knowledge Distillation)を提案する。 学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。 教師および学生モデルのための様々なネットワークアーキテクチャを用いた広範囲な実験において、最先端のアプローチに対する一貫性の向上が観察され、提案手法の有効性と柔軟性を示す。

Recently proposed knowledge distillation approaches based on feature-map transfer validate that intermediate layers of a teacher model can serve as effective targets for training a student model to obtain better generalization ability. Existing studies mainly focus on particular representation forms for knowledge transfer between manually specified pairs of teacher-student intermediate layers. However, semantics of intermediate layers may vary in different networks and manual association of layers might lead to negative regularization caused by semantic mismatch between certain teacher-student layer pairs. To address this problem, we propose Semantic Calibration for Cross-layer Knowledge Distillation (SemCKD), which automatically assigns proper target layers of the teacher model for each student layer with an attention mechanism. With a learned attention distribution, each student layer distills knowledge contained in multiple layers rather than a single fixed intermediate layer from the teacher model for appropriate cross-layer supervision in training. Consistent improvements over state-of-the-art approaches are observed in extensive experiments with various network architectures for teacher and student models, demonstrating the effectiveness and flexibility of the proposed attention based soft layer association mechanism for cross-layer distillation.
翻訳日:2021-05-21 14:05:12 公開日:2020-12-06
# ロバスト深部AUCの最大化:新しいサロゲート損失と医用画像分類に関する実証的研究

Robust Deep AUC Maximization: A New Surrogate Loss and Empirical Studies on Medical Image Classification ( http://arxiv.org/abs/2012.03173v1 )

ライセンス: Link先を確認
Zhuoning Yuan, Yan Yan, Milan Sonka, Tianbao Yang(参考訳) Deep AUC Maximization (DAM)は、データセット上でモデルのAUCスコアを最大化することで、ディープニューラルネットワークを学ぶためのパラダイムである。 auc最大化のほとんどの先行研究は、効率的な確率アルゴリズムの設計による最適化の観点に焦点を当てており、難しいタスクに対するダムの一般化性能に関する研究が欠落している。 本研究では,DAMを実世界の興味深い応用(医用画像分類など)に活用することを目的としている。 まず、AUCスコア(AUCマージン損失)に対する新たなマージンベースサロゲート損失関数を提案する。 一般に使われているAUC平方損失よりも頑健であり、大規模確率最適化の点で同じ利点がある。 第2に, 医用画像分類課題である胸部x線画像の分類, メラノーマ同定のための皮膚病変画像の分類について, ダム法を実証的に検討した。 私たちのDAM手法は、これらの困難なタスク、すなわち(論文提出日による)Stanford CheXpertコンペティションで1位、Kaggle 2020 Melanomaコンペティションでトップ1%(3314チーム中33位)で大きな成功を収めました。 また,ベンチマークデータセットにおける auc 平方損失に対する新たな auc マージン損失の利点を実証するために,広範なアブレーション研究を行っている。 私たちの知る限りでは、DAMが大規模医療画像データセットで成功するのはこれが初めてです。

Deep AUC Maximization (DAM) is a paradigm for learning a deep neural network by maximizing the AUC score of the model on a dataset. Most previous works of AUC maximization focus on the perspective of optimization by designing efficient stochastic algorithms, and studies on generalization performance of DAM on difficult tasks are missing. In this work, we aim to make DAM more practical for interesting real-world applications (e.g., medical image classification). First, we propose a new margin-based surrogate loss function for the AUC score (named as the AUC margin loss). It is more robust than the commonly used AUC square loss, while enjoying the same advantage in terms of large-scale stochastic optimization. Second, we conduct empirical studies of our DAM method on difficult medical image classification tasks, namely classification of chest x-ray images for identifying many threatening diseases and classification of images of skin lesions for identifying melanoma. Our DAM method has achieved great success on these difficult tasks, i.e., the 1st place on Stanford CheXpert competition (by the paper submission date) and Top 1% rank (rank 33 out of 3314 teams) on Kaggle 2020 Melanoma classification competition. We also conduct extensive ablation studies to demonstrate the advantages of the new AUC margin loss over the AUC square loss on benchmark datasets. To the best of our knowledge, this is the first work that makes DAM succeed on large-scale medical image datasets.
翻訳日:2021-05-21 14:04:55 公開日:2020-12-06
# 深部神経混合モデルを用いた多変量密度推定

Multivariate Density Estimation with Deep Neural Mixture Models ( http://arxiv.org/abs/2012.03391v1 )

ライセンス: Link先を確認
Edmondo Trentin (DIISM, University of Siena, Italy)(参考訳) 機械学習全般(特にディープラーニング)に関する最近の文献では、多くのアプリケーションにおいて、多変量密度推定は基本的なタスクであり、少なくとも暗黙的には、未解決の問題である。 少数の例外を除いて、深層ニューラルネットワーク(dnn)は、主に推定タスクの教師なしの性質と(特に)コルモゴロフの公理を満たす適切な確率モデルを実現するための制約付きトレーニングアルゴリズムの必要性のために、密度推定にはほとんど適用されていない。 さらに, 単密度統計推定器上での混合モデルによるモデリング能力の向上はよく知られているものの, 多変量DNNに基づく成分密度の適切な混合は研究されていない。 本論文は,神経混合密度(nmms)を多変量dnn混合物に拡張することにより,このギャップを埋めている。 深部NMM(Deep NMMs)を推定するための最大自由度アルゴリズム(ML)が提案され、コルモゴロフの公理の満足度を確保することを目的としたハードとソフトの制約の組み合わせを数値的に満足する。 DNMMを通して任意の精度でモデル化できる確率密度関数のクラスが正式に定義される。 DNMMアーキテクチャの自動選択手順と機械学習アルゴリズムのハイパーパラメータについて述べる(DNMMの確率的性質を明らかにする)。 単変量および多変量データの実験的結果が報告され、最も一般的な統計的推定手法に対するアプローチの有効性とその優位性を裏付ける。

Albeit worryingly underrated in the recent literature on machine learning in general (and, on deep learning in particular), multivariate density estimation is a fundamental task in many applications, at least implicitly, and still an open issue. With a few exceptions, deep neural networks (DNNs) have seldom been applied to density estimation, mostly due to the unsupervised nature of the estimation task, and (especially) due to the need for constrained training algorithms that ended up realizing proper probabilistic models that satisfy Kolmogorov's axioms. Moreover, in spite of the well-known improvement in terms of modeling capabilities yielded by mixture models over plain single-density statistical estimators, no proper mixtures of multivariate DNN-based component densities have been investigated so far. The paper fills this gap by extending our previous work on Neural Mixture Densities (NMMs) to multivariate DNN mixtures. A maximum-likelihood (ML) algorithm for estimating Deep NMMs (DNMMs) is handed out, which satisfies numerically a combination of hard and soft constraints aimed at ensuring satisfaction of Kolmogorov's axioms. The class of probability density functions that can be modeled to any degree of precision via DNMMs is formally defined. A procedure for the automatic selection of the DNMM architecture, as well as of the hyperparameters for its ML training algorithm, is presented (exploiting the probabilistic nature of the DNMM). Experimental results on univariate and multivariate data are reported on, corroborating the effectiveness of the approach and its superiority to the most popular statistical estimation techniques.
翻訳日:2021-05-21 14:04:01 公開日:2020-12-06
# データ拡張と知覚損失による擬似ラベルによる自己教師付き画像分類の改善

Improving Auto-Encoders' self-supervised image classification using pseudo-labelling via data augmentation and the perceptual loss ( http://arxiv.org/abs/2012.03322v1 )

ライセンス: Link先を確認
Aymene Mohammed Bouayed and Karim Atif and Rachid Deriche and Abdelhakim Saim(参考訳) 本稿では,擬似ラベルのない画像に新しい手法を導入し,オートエンコーダを訓練して自己教師付きで分類し,複数のデータセット間で高い精度と一貫性を実現する。 提案手法は、まず各トレーニング画像にランダムにサンプリングされたデータ拡張変換セットを適用することで構成する。 その結果、それぞれの初期画像は、対応する拡張画像に対する擬似ラベルと見なすことができる。 次に、オートエンコーダを用いて、拡張画像の各セットとその対応する擬似ラベル間のマッピングを学習する。 さらに、画像の同じ近傍にある画素間の既存の依存関係を考慮するために、知覚損失を用いる。 この組み合わせにより、エンコーダは入力のクラスに高い情報を与えるリッチエンコーディングを出力する。 その結果、教師なし画像分類におけるオートエンコーダの性能は、安定性と精度の両面で改善され、全てのテストデータセットでより均一で一貫性がある。 これまでのMNIST、CIFAR-10、SVHNデータセットの精度は0.3\%、3.11\%、9.21\%向上した。

In this paper, we introduce a novel method to pseudo-label unlabelled images and train an Auto-Encoder to classify them in a self-supervised manner that allows for a high accuracy and consistency across several datasets. The proposed method consists of first applying a randomly sampled set of data augmentation transformations to each training image. As a result, each initial image can be considered as a pseudo-label to its corresponding augmented ones. Then, an Auto-Encoder is used to learn the mapping between each set of the augmented images and its corresponding pseudo-label. Furthermore, the perceptual loss is employed to take into consideration the existing dependencies between the pixels in the same neighbourhood of an image. This combination encourages the encoder to output richer encodings that are highly informative of the input's class. Consequently, the Auto-Encoder's performance on unsupervised image classification is improved both in termes of stability and accuracy becoming more uniform and more consistent across all tested datasets. Previous state-of-the-art accuracy on the MNIST, CIFAR-10 and SVHN datasets is improved by 0.3\%, 3.11\% and 9.21\% respectively.
翻訳日:2021-05-21 14:03:34 公開日:2020-12-06
# 自動エンコーディング変換の自己学習アンサンブルによるアートスタイル分類

Art Style Classification with Self-Trained Ensemble of AutoEncoding Transformations ( http://arxiv.org/abs/2012.03377v1 )

ライセンス: Link先を確認
Akshay Joshi, Ankit Agrawal, Sushmita Nair(参考訳) 絵画の芸術的スタイルは、芸術家が創造的なビジョンを独特に表現し表現する方法に関する視覚的および深い内在的な知識の両方を明らかにする豊かな記述子である。 異なる芸術運動やスタイルの絵画の正確な分類は、大規模な美術データベースの索引付けに不可欠である。 しかし、これらの高密度な芸術的特徴の自動抽出と認識は、コンピュータビジョン研究の分野ではほとんど注目を集めていない。 本稿では,高度な自己指導型学習手法を用いて,クラス内およびクラス間変動の少ない複雑な芸術スタイルを認識することの課題を解決する。 さらに,27のカテゴリを持つ高度にクラス不均衡なウィキアートデータセット上で,既存のアプローチを約20%上回っている。 そこで我々は,EnAET半教師付き学習モデル(Wang et al., 2019)を注釈付きデータサンプルで訓練し,空間的および非空間的変換のアンサンブルから学習した自己教師付き表現で補う。

The artistic style of a painting is a rich descriptor that reveals both visual and deep intrinsic knowledge about how an artist uniquely portrays and expresses their creative vision. Accurate categorization of paintings across different artistic movements and styles is critical for large-scale indexing of art databases. However, the automatic extraction and recognition of these highly dense artistic features has received little to no attention in the field of computer vision research. In this paper, we investigate the use of deep self-supervised learning methods to solve the problem of recognizing complex artistic styles with high intra-class and low inter-class variation. Further, we outperform existing approaches by almost 20% on a highly class imbalanced WikiArt dataset with 27 art categories. To achieve this, we train the EnAET semi-supervised learning model (Wang et al., 2019) with limited annotated data samples and supplement it with self-supervised representations learned from an ensemble of spatial and non-spatial transformations.
翻訳日:2021-05-21 14:03:15 公開日:2020-12-06
# 横断的単語学習における競争 : 計算学的研究

Competition in Cross-situational Word Learning: A Computational Study ( http://arxiv.org/abs/2012.03370v1 )

ライセンス: Link先を確認
Aida Nematzadeh, Zahra Shekarchi, Thomas L. Griffiths, and Suzanne Stevenson(参考訳) 子どもたちは、言葉が使われているさまざまな状況に共通点をタップして単語の意味を学習し、早期の単語学習経験にかかわる高い不確実性を克服する。 本研究では,不確実性に直面して単語の意味をうまく学習するためには,参照語と関連づける単語と,単語が使用される際に単語を競合する参照語という2つのタイプの競合を用いる必要があることを示す。

Children learn word meanings by tapping into the commonalities across different situations in which words are used and overcome the high level of uncertainty involved in early word learning experiences. In a set of computational studies, we show that to successfully learn word meanings in the face of uncertainty, a learner needs to use two types of competition: words competing for association to a referent when learning from an observation and referents competing for a word when the word is used.
翻訳日:2021-05-21 14:02:57 公開日:2020-12-06
# グローバル後部情報を組み込んだニューラルネットワークの確率的フェデレーション学習

Probabilistic Federated Learning of Neural Networks Incorporated with Global Posterior Information ( http://arxiv.org/abs/2012.03178v1 )

ライセンス: Link先を確認
Peng Xiao, Samuel Cheng(参考訳) フェデレートラーニングでは、ローカルクライアントで訓練されたモデルをグローバルモデルに蒸留する。 ニューラルネットワークに置換不変性が生じるため、ニューラルネットワークにフェデレーション学習を実行する際には、まず隠れたニューロンとマッチングする必要がある。 ベイズ的非パラメトリックフレームワークを通じて、確率的フェデレーションニューラルマッチング(PFNM)は、ローカルニューラルネットワークにマッチして融合し、さまざまなグローバルモデルサイズとデータの不均一性に対応する。 本稿では,PFNMをニューラルネットワーク上でのKL(Kullback-Leibler)の拡散により拡張する手法を提案する。 また,追加部分は一致・融合の進行にシームレスに結合可能であることも理論的に示す。 提案手法は,1回のコミュニケーションラウンドと追加のコミュニケーションラウンドの両方において,最先端のフェデレーション学習手法よりも優れていることを示す。

In federated learning, models trained on local clients are distilled into a global model. Due to the permutation invariance arises in neural networks, it is necessary to match the hidden neurons first when executing federated learning with neural networks. Through the Bayesian nonparametric framework, Probabilistic Federated Neural Matching (PFNM) matches and fuses local neural networks so as to adapt to varying global model size and the heterogeneity of the data. In this paper, we propose a new method which extends the PFNM with a Kullback-Leibler (KL) divergence over neural components product, in order to make inference exploiting posterior information in both local and global levels. We also show theoretically that The additional part can be seamlessly concatenated into the match-and-fuse progress. Through a series of simulations, it indicates that our new method outperforms popular state-of-the-art federated learning methods in both single communication round and additional communication rounds situation.
翻訳日:2021-05-21 14:02:46 公開日:2020-12-06
# 非凸型雑音勾配降下型深層学習の利点:過剰なリスクバウンドとカーネル法優越性

Benefit of deep learning with non-convex noisy gradient descent: Provable excess risk bound and superiority to kernel methods ( http://arxiv.org/abs/2012.03224v1 )

ライセンス: Link先を確認
Taiji Suzuki and Shunta Akiyama(参考訳) 深層学習がカーネルメソッドのような浅層学習より優れている理由を説明する理論的解析を確立することは、深層学習文学における大きな問題の一つである。 この問題に対処するために,ニューラルネットワーク上でのリッジ正規化による雑音勾配勾配の学習によるディープラーニング推定器の過大なリスクを評価し,ニューラルタンジェントカーネルアプローチ,ランダム特徴モデル,その他のカーネルメソッド,$k$-NN推定器などを含む線形推定器のクラスに対する優位性について議論した。 教師が学習する回帰モデルを考えると、特に高次元設定において、どんな線形推定器でも極小の最適率という意味での深層学習により優れることを示す。 得られた余剰境界はいわゆる高速学習率であり、通常のラデマチャー複雑性解析によって得られる$O(1/\sqrt{n})$よりも高速である。 この差はモデルの非凸形状とニューラルネットワークトレーニングに使用される雑音勾配勾配によって誘導され、ロスランドスケープが非凸であるにもかかわらず、ほぼ大域最適解に確実に到達する。 雑音勾配降下は正則化を誘導する明示的あるいは暗黙的スパーシティを一切用いていないが、線形推定器を支配する好ましい一般化性能を示している。

Establishing a theoretical analysis that explains why deep learning can outperform shallow learning such as kernel methods is one of the biggest issues in the deep learning literature. Towards answering this question, we evaluate excess risk of a deep learning estimator trained by a noisy gradient descent with ridge regularization on a mildly overparameterized neural network, and discuss its superiority to a class of linear estimators that includes neural tangent kernel approach, random feature model, other kernel methods, $k$-NN estimator and so on. We consider a teacher-student regression model, and eventually show that any linear estimator can be outperformed by deep learning in a sense of the minimax optimal rate especially for a high dimension setting. The obtained excess bounds are so-called fast learning rate which is faster than $O(1/\sqrt{n})$ that is obtained by usual Rademacher complexity analysis. This discrepancy is induced by the non-convex geometry of the model and the noisy gradient descent used for neural network training provably reaches a near global optimal solution even though the loss landscape is highly non-convex. Although the noisy gradient descent does not employ any explicit or implicit sparsity inducing regularization, it shows a preferable generalization performance that dominates linear estimators.
翻訳日:2021-05-21 14:02:14 公開日:2020-12-06
# データセットはあなたの期待に応えますか? 画像データにおけるサンプル表現の説明

Does the dataset meet your expectations? Explaining sample representation in image data ( http://arxiv.org/abs/2012.08642v1 )

ライセンス: Link先を確認
Dhasarathy Parthasarathy, Anton Johansson(参考訳) ニューラルネットワークモデルの振る舞いは、トレーニングデータの多様性の欠如によって悪影響を受けるため、そのような欠陥を特定し説明する手法を提案する。 データセットにラベルを付けると、アノテーションだけでサンプルの多様性の人間の解釈可能な要約を提供することができることに注意します。 これにより、データセット内のアノテーションの \textit{actual} 分布と、必須ラベルの多様性をキャプチャするために手動で指定された、アノテーションの \textit{expected} 分布を比較する際に見出される、多様性の欠如を説明することができる。 多くの実用的なケースでは、ラベル付け($\rightarrow$アノテーションの例)は高価であるが、その逆のシミュレーション($\rightarrow$サンプルの注釈)はより安価である。 パラメトリックシミュレーションを用いて,アノテーションの期待される分布をテストサンプルにマッピングし,シミュレーションデータと収集データの多様性のミスマッチを用いたサンプル表現を説明する手法を提案する。 次に, 幾何学的形状のデータセットを用いて, 大きさ, 位置, ピクセルの明るさといった可視性の観点から, 定性的かつ定量的にサンプル表現を説明する。

Since the behavior of a neural network model is adversely affected by a lack of diversity in training data, we present a method that identifies and explains such deficiencies. When a dataset is labeled, we note that annotations alone are capable of providing a human interpretable summary of sample diversity. This allows explaining any lack of diversity as the mismatch found when comparing the \textit{actual} distribution of annotations in the dataset with an \textit{expected} distribution of annotations, specified manually to capture essential label diversity. While, in many practical cases, labeling (samples $\rightarrow$ annotations) is expensive, its inverse, simulation (annotations $\rightarrow$ samples) can be cheaper. By mapping the expected distribution of annotations into test samples using parametric simulation, we present a method that explains sample representation using the mismatch in diversity between simulated and collected data. We then apply the method to examine a dataset of geometric shapes to qualitatively and quantitatively explain sample representation in terms of comprehensible aspects such as size, position, and pixel brightness.
翻訳日:2021-05-21 14:01:48 公開日:2020-12-06
# MOCA: 対話型インストラクション追従のためのモジュール型オブジェクト中心アプローチ

MOCA: A Modular Object-Centric Approach for Interactive Instruction Following ( http://arxiv.org/abs/2012.03208v1 )

ライセンス: Link先を確認
Kunal Pratap Singh, Suvaansh Bhambri, Byeonghwi Kim, Roozbeh Mottaghi, Jonghyun Choi(参考訳) 言語指示に基づく単純な家庭のタスクを実行することは、人間にとって非常に自然なことですが、AIエージェントにとってはオープンな課題です。 近年,シミュレーション環境においてオブジェクトインタラクションを必要とする長い命令列を推論する研究を進めるために,'interactive instruction following'タスクが提案されている。 視覚、言語、ナビゲーションの文学におけるオープンな問題を各ステップで解決する。 この多面的問題に対処するために,タスクを視覚的知覚と行動ポリシーに分離するモジュールアーキテクチャを提案し,その名前をMOCA,Modular Object-Centric Approachと呼ぶ。 提案手法をALFREDベンチマークで評価し, 高い一般化性能(未確認環境における高い成功率)を有する全ての指標において, 先行技術よりも有意差があることを実証的に検証した。 私たちのコードはhttps://github.com/gistvision/mocaで利用可能です。

Performing simple household tasks based on language directives is very natural to humans, yet it remains an open challenge for an AI agent. Recently, an `interactive instruction following' task has been proposed to foster research in reasoning over long instruction sequences that requires object interactions in a simulated environment. It involves solving open problems in vision, language and navigation literature at each step. To address this multifaceted problem, we propose a modular architecture that decouples the task into visual perception and action policy, and name it as MOCA, a Modular Object-Centric Approach. We evaluate our method on the ALFRED benchmark and empirically validate that it outperforms prior arts by significant margins in all metrics with good generalization performance (high success rate in unseen environments). Our code is available at https://github.com/gistvision/moca.
翻訳日:2021-05-21 14:01:29 公開日:2020-12-06
# Systolic-CNN: クラウド/エッジコンピューティングにおける畳み込みニューラルネットワーク推論を高速化するOpenCL定義のスケーラブルランタイムフレキシブルFPGAアクセラレータアーキテクチャ

Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA Accelerator Architecture for Accelerating Convolutional Neural Network Inference in Cloud/Edge Computing ( http://arxiv.org/abs/2012.03177v1 )

ライセンス: Link先を確認
Akshay Dua, Yixing Li, Fengbo Ren(参考訳) 本稿では、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化された、OpenCLで定義されたスケーラブルで実行時フレキシブルなFPGAアクセラレータアーキテクチャであるSystolic-CNNを提案する。 既存のCNN推論用OpenCL定義FPGAアクセラレータは、実行時に複数のCNNモデルをサポートする柔軟性の制限とスケーラビリティの低さにより、未使用のFPGAリソースと計算並列性が制限されているため、不十分である。 Systolic-CNNは高パイプラインで並列化された1-D systolic配列アーキテクチャを採用しており、FPGA上のCNN推論を加速するために、空間的および時間的並列性の両方を効率的に探索する。 Systolic-CNNは高度にスケーラブルでパラメータ化されており、ユーザが最大100%の粗粒度計算資源(DSPブロック)を所定のFPGAに利用できるようにすることができる。 また、Systolic-CNNはマルチテナントクラウド/エッジコンピューティングの文脈で実行時フレキシブルであり、FPGAカーネルハードウェアの再コンパイルやFPGAの再プログラミングを必要とせずに、実行時に様々なCNNモデルを高速化するためにタイムシェアすることができる。 実験結果は、Intel Arria/Stratix 10 GX FPGA Development Boardに基づいて、Systolic-CNNの最適化された単一精度実装は、平均推論遅延を7ms/2ms、84ms/33ms、202ms/73ms、1615ms/873ms、900ms/498msで達成し、AlexNet、ResNet-50、ResNet-152、RetinaNet、Light-weight RetinaNetである。 コードはhttps://github.com/PSCLab-ASU/Systolic-CNNで公開されている。

This paper presents Systolic-CNN, an OpenCL-defined scalable, run-time-flexible FPGA accelerator architecture, optimized for accelerating the inference of various convolutional neural networks (CNNs) in multi-tenancy cloud/edge computing. The existing OpenCL-defined FPGA accelerators for CNN inference are insufficient due to limited flexibility for supporting multiple CNN models at run time and poor scalability resulting in underutilized FPGA resources and limited computational parallelism. Systolic-CNN adopts a highly pipelined and paralleled 1-D systolic array architecture, which efficiently explores both spatial and temporal parallelism for accelerating CNN inference on FPGAs. Systolic-CNN is highly scalable and parameterized, which can be easily adapted by users to achieve up to 100% utilization of the coarse-grained computation resources (i.e., DSP blocks) for a given FPGA. Systolic-CNN is also run-time-flexible in the context of multi-tenancy cloud/edge computing, which can be time-shared to accelerate a variety of CNN models at run time without the need of recompiling the FPGA kernel hardware nor reprogramming the FPGA. The experiment results based on an Intel Arria/Stratix 10 GX FPGA Development board show that the optimized single-precision implementation of Systolic-CNN can achieve an average inference latency of 7ms/2ms, 84ms/33ms, 202ms/73ms, 1615ms/873ms, and 900ms/498ms per image for accelerating AlexNet, ResNet-50, ResNet-152, RetinaNet, and Light-weight RetinaNet, respectively. Codes are available at https://github.com/PSCLab-ASU/Systolic-CNN.
翻訳日:2021-05-21 14:00:58 公開日:2020-12-06
# アライングラム : タンパク質配列解析のためのスキップグラムモデルの再検討

Align-gram : Rethinking the Skip-gram Model for Protein Sequence Analysis ( http://arxiv.org/abs/2012.03324v1 )

ライセンス: Link先を確認
Nabil Ibtehaz, S. M. Shakhawat Hossain Sourav, Md. Shamsuzzoha Bayzid, M. Sohel Rahman(参考訳) 背景:次世代シークエンシング技術の誕生により,生物配列データの量は指数関数的に増加した。 生命の言語」として引用されるタンパク質配列は、様々な応用と推論のために分析されてきた。 モチベーション: ディープラーニングの急速な発展により、近年では自然言語処理の分野で多くのブレークスルーが発生しています。 これらの方法は、十分な量のデータで訓練された時に異なるタスクを実行することができるため、オフザシェルフモデルは様々な生物学的応用を行うために使用される。 本研究では,人気のあるスキップグラムモデルを用いてタンパク質配列解析を行い,その生物学的知見を組み込む試みを行った。 結果:我々は,類似した$k$-mer をベクトル空間内で互いに近接してマッピングできる,新しい $k$-mer 埋め込みスキームである align-gram を提案する。 さらに、他の配列に基づくタンパク質表現を実験し、Align-gramから派生した埋め込みが深層学習モデルのモデリングと訓練に役立つことを観察する。 DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。

Background: The inception of next generations sequencing technologies have exponentially increased the volume of biological sequence data. Protein sequences, being quoted as the `language of life', has been analyzed for a multitude of applications and inferences. Motivation: Owing to the rapid development of deep learning, in recent years there have been a number of breakthroughs in the domain of Natural Language Processing. Since these methods are capable of performing different tasks when trained with a sufficient amount of data, off-the-shelf models are used to perform various biological applications. In this study, we investigated the applicability of the popular Skip-gram model for protein sequence analysis and made an attempt to incorporate some biological insights into it. Results: We propose a novel $k$-mer embedding scheme, Align-gram, which is capable of mapping the similar $k$-mers close to each other in a vector space. Furthermore, we experiment with other sequence-based protein representations and observe that the embeddings derived from Align-gram aids modeling and training deep learning models better. Our experiments with a simple baseline LSTM model and a much complex CNN model of DeepGoPlus shows the potential of Align-gram in performing different types of deep learning applications for protein sequence analysis.
翻訳日:2021-05-21 14:00:13 公開日:2020-12-06
# 複素数値ニューラルネットワークに対する普遍近似定理

The universal approximation theorem for complex-valued neural networks ( http://arxiv.org/abs/2012.03351v1 )

ライセンス: Link先を確認
Felix Voigtlaender(参考訳) ニューラルネットワークの古典的普遍近似定理を複素値ニューラルネットワークの場合には一般化する。 正確には、複素活性化関数 $\sigma : \mathbb{C} \to \mathbb{C}$ の各ニューロンが演算 $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ を演算し、重み $w \in \mathbb{C}^N$ とバイアス $b \in \mathbb{C}$ と $\sigma$ を成分的に適用するフィードフォワードネットワークを考える。 それらの活性化関数 $\sigma$ は、関連する複素ネットワークが普遍近似特性を持つので、$\mathbb{C}^d$ の任意のコンパクト部分集合上の任意の連続函数を任意に近似することができる。 古典的な実ネットワークの場合とは異なり、普遍近似特性を持つネットワークを生じさせる「良い活性化関数」の集合は、深いネットワークや浅いネットワークを考えるかどうかによって大きく異なる: 少なくとも2つの隠れた層を持つディープネットワークの場合、普遍近似特性は多項式、正則関数、あるいは反正則関数ではない限り保持される。 一方、浅層ネットワークが普遍的であるのは、実部分や$\sigma$ の虚部が多調和関数でないときのみである。

We generalize the classical universal approximation theorem for neural networks to the case of complex-valued neural networks. Precisely, we consider feedforward networks with a complex activation function $\sigma : \mathbb{C} \to \mathbb{C}$ in which each neuron performs the operation $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ with weights $w \in \mathbb{C}^N$ and a bias $b \in \mathbb{C}$, and with $\sigma$ applied componentwise. We completely characterize those activation functions $\sigma$ for which the associated complex networks have the universal approximation property, meaning that they can uniformly approximate any continuous function on any compact subset of $\mathbb{C}^d$ arbitrarily well. Unlike the classical case of real networks, the set of "good activation functions" which give rise to networks with the universal approximation property differs significantly depending on whether one considers deep networks or shallow networks: For deep networks with at least two hidden layers, the universal approximation property holds as long as $\sigma$ is neither a polynomial, a holomorphic function, or an antiholomorphic function. Shallow networks, on the other hand, are universal if and only if the real part or the imaginary part of $\sigma$ is not a polyharmonic function.
翻訳日:2021-05-21 13:59:53 公開日:2020-12-06
# 計算思考の2システム的展望

A Two-Systems Perspective for Computational Thinking ( http://arxiv.org/abs/2012.03201v1 )

ライセンス: Link先を確認
Arvind W Kiwelekar, Swanand Navandar, Dharmendra K. Yadav(参考訳) 計算思考(CT)は近年,特にSTEM(Science, Technology, Engineering and Management)の卒業生にとって重要な思考スキルの1つとなっている。 教育者は、CTを分析し評価できる基礎的な認知モデルを探している。 本稿では,計算思考過程を理解するためのフレームワークとして,Kahnemanの2システムモデルを採用することを提案する。 カーネマンの2体系モデルは、人間の思考は2つのレベルで起こると仮定している。 速くてゆっくり考えること。 本稿では,Kahneman の2システムモデルを用いて,CT のアクティビティを表現・解析できることを示す。 Kahneman氏の2つのシステムの観点から考えると、潜在的な利点は、推論にエラーを引き起こすバイアスを修正するのに役立ちます。 さらに、推論アクティビティをスピードアップするためのヒューリスティックも提供する。

Computational Thinking (CT) has emerged as one of the vital thinking skills in recent times, especially for Science, Technology, Engineering and Management (STEM) graduates. Educators are in search of underlying cognitive models against which CT can be analyzed and evaluated. This paper suggests adopting Kahneman's two-systems model as a framework to understand the computational thought process. Kahneman's two-systems model postulates that human thinking happens at two levels, i.e. fast and slow thinking. This paper illustrates through examples that CT activities can be represented and analyzed using Kahneman's two-systems model. The potential benefits of adopting Kahneman's two-systems perspective are that it helps us to fix the biases that cause errors in our reasoning. Further, it also provides a set of heuristics to speed up reasoning activities.
翻訳日:2021-05-21 13:59:20 公開日:2020-12-06
# Fever Basketball:マルチエージェント強化学習のための複雑で柔軟で非同期なスポーツゲーム環境

Fever Basketball: A Complex, Flexible, and Asynchronized Sports Game Environment for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2012.03204v1 )

ライセンス: Link先を確認
Hangtian Jia, Yujing Hu, Yingfeng Chen, Chunxu Ren, Tangjie Lv, Changjie Fan, Chongjie Zhang(参考訳) 深層強化学習(drl)の開発は,新たな課題が提案され,ボードゲームやrts,fps,mobaゲームなど,新たなアルゴリズムを安全かつ迅速にテストすることが可能な,多種多様なゲーム環境の緊急性から恩恵を受けている。 しかし、多くの既存の環境は複雑さと柔軟性に欠けており、アクションがマルチエージェント設定で同期的に実行されると仮定している。 我々は,エージェントがバスケットボールゲームを練習する新しい強化学習環境である「フィーバー・バスケットボール・ゲーム」を紹介する。 複数の文字、複数の位置、シングルエージェントとマルチエージェントのプレイヤー制御モードをサポートする複雑で困難な環境である。 さらに、現実世界のバスケットボールの試合をより良くシミュレートするために、アクションの実行時間が異なるため、Fever Basketballを新しい非同期環境にする。 独立学習者と共同動作学習者の双方でよく使われるマルチエージェントアルゴリズムを,様々な困難を伴う3つのゲームシナリオで評価し,Fever Basketball Benchmarksにおける非定常性による余分な非定常性を減少させる2つのベースライン手法を提案する。 さらに,Fever Basketball問題に対処する統合型カリキュラムトレーニング(ICT)フレームワークを提案する。 その結果,ゲームは依然として挑戦的であり,長期水平地平線,スパース報酬,クレジット代入,非定常性などの研究のためのベンチマーク環境として使用できることがわかった。 マルチエージェント設定で。

The development of deep reinforcement learning (DRL) has benefited from the emergency of a variety type of game environments where new challenging problems are proposed and new algorithms can be tested safely and quickly, such as Board games, RTS, FPS, and MOBA games. However, many existing environments lack complexity and flexibility and assume the actions are synchronously executed in multi-agent settings, which become less valuable. We introduce the Fever Basketball game, a novel reinforcement learning environment where agents are trained to play basketball game. It is a complex and challenging environment that supports multiple characters, multiple positions, and both the single-agent and multi-agent player control modes. In addition, to better simulate real-world basketball games, the execution time of actions differs among players, which makes Fever Basketball a novel asynchronized environment. We evaluate commonly used multi-agent algorithms of both independent learners and joint-action learners in three game scenarios with varying difficulties, and heuristically propose two baseline methods to diminish the extra non-stationarity brought by asynchronism in Fever Basketball Benchmarks. Besides, we propose an integrated curricula training (ICT) framework to better handle Fever Basketball problems, which includes several game-rule based cascading curricula learners and a coordination curricula switcher focusing on enhancing coordination within the team. The results show that the game remains challenging and can be used as a benchmark environment for studies like long-time horizon, sparse rewards, credit assignment, and non-stationarity, etc. in multi-agent settings.
翻訳日:2021-05-21 13:59:09 公開日:2020-12-06
# 樹木地上点雲に基づく樹木葉分類の自動サンプリングと訓練方法

Automatic sampling and training method for wood-leaf classification based on tree terrestrial point cloud ( http://arxiv.org/abs/2012.03152v1 )

ライセンス: Link先を確認
Zichu Liu, Qing Zhang, Pei Wang, Yaxin Li, Jingqian Sun(参考訳) 地上レーザースキャン技術は、植物の3次元情報を取得するための効率的かつ高精度なソリューションを提供する。 植物点雲データの葉木分類は、林業や生物研究の基本的なステップである。 木点雲データに基づく分類のための自動サンプリングおよびトレーニング手法を提案した。 葉のサンプルポイントと木材のサンプルポイントを自動的に選択するために平面フィッティング法を用い,サポート・ベクター・マシン(svm)アルゴリズムを用いて2つの局所特徴を計算した。 提案手法と手動選択法を用いて,10本の樹木の点群データを検証した。 平均的正分類率とカッパ係数はそれぞれ0.9305と0.7904である。 その結果,提案手法は手作業選択法と比較して効率と精度が向上した。

Terrestrial laser scanning technology provides an efficient and accuracy solution for acquiring three-dimensional information of plants. The leaf-wood classification of plant point cloud data is a fundamental step for some forestry and biological research. An automatic sampling and training method for classification was proposed based on tree point cloud data. The plane fitting method was used for selecting leaf sample points and wood sample points automatically, then two local features were calculated for training and classification by using support vector machine (SVM) algorithm. The point cloud data of ten trees were tested by using the proposed method and a manual selection method. The average correct classification rate and kappa coefficient are 0.9305 and 0.7904, respectively. The results show that the proposed method had better efficiency and accuracy comparing to the manual selection method.
翻訳日:2021-05-21 13:58:37 公開日:2020-12-06
# 分割平面モデルによる奥行き完了

Depth Completion using Piecewise Planar Model ( http://arxiv.org/abs/2012.03195v1 )

ライセンス: Link先を確認
Yiran Zhong, Yuchao Dai, Hongdong Li(参考訳) 深度マップは一連の学習された基底で表現することができ、閉じた解法で効率的に解ける。 しかし、この方法の1つの問題は、色境界が深さ境界と矛盾する場合にアーチファクトを生成することである。 実際、これは自然のイメージではよくあることです。 この問題に対処するため、我々はより厳密な深度回復モデル(ピースワイドプラナーモデル)を適用した。 具体的には,3次元平面の集まりとして所望の深さマップを表現し,平面パラメータの最適化として再構成問題を定式化する。 このような問題は連続CRF最適化問題として定式化することができ、粒子ベース法 (MP-PBP) \cite{yamaguchi14} によって解ける。 kittiビジュアルオドメトリデータセットの広範な実験的評価は、提案手法が偽物境界に対する高い抵抗を有し、有用で視覚的に快適な3dポイント雲を生成できることを示している。

A depth map can be represented by a set of learned bases and can be efficiently solved in a closed form solution. However, one issue with this method is that it may create artifacts when colour boundaries are inconsistent with depth boundaries. In fact, this is very common in a natural image. To address this issue, we enforce a more strict model in depth recovery: a piece-wise planar model. More specifically, we represent the desired depth map as a collection of 3D planar and the reconstruction problem is formulated as the optimization of planar parameters. Such a problem can be formulated as a continuous CRF optimization problem and can be solved through particle based method (MP-PBP) \cite{Yamaguchi14}. Extensive experimental evaluations on the KITTI visual odometry dataset show that our proposed methods own high resistance to false object boundaries and can generate useful and visually pleasant 3D point clouds.
翻訳日:2021-05-21 13:58:10 公開日:2020-12-06
# ビデオにおける3次元ハンドポーズとメッシュ推定のための時間認識自己教師付き学習

Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh Estimation in Videos ( http://arxiv.org/abs/2012.03205v1 )

ライセンス: Link先を確認
Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, and Xiaohui Xie(参考訳) RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズでディープモデルを訓練することで、近年着実に進歩している。 しかし、3Dポーズの注釈付けは困難であり、少数の3Dポーズデータセットしか利用できない。 本研究では,rgb画像から2次元情報のみを用いて学習した3次元アノテーションを用いずに,新たな3次元ポーズ推定モデルを提案する。 1)静的な画像とは対照的に3Dのポーズを推定するためのリッチな情報を提供する; 2) 推定された3Dのポーズは、ビデオが前方の順か逆の順かに一貫性があるべきである。 この2つのobser-vationを用いて,tassn(temporal-aware self-supervised network)と呼ばれる自己教師付き学習モデルを開発した。 時間的一貫性の制約を強制することにより、TASSNは2Dキーポイントポジションアノテーションだけでビデオから3Dポーズとメッシュを学ぶ。 3dアノテーションでトレーニングされた最先端モデルと同等の3d推定ac-curacyを用いて,3d予測モデルの時間的一貫性のメリットを強調する実験を行った。

Estimating 3D hand pose directly from RGB imagesis challenging but has gained steady progress recently bytraining deep models with annotated 3D poses. Howeverannotating 3D poses is difficult and as such only a few 3Dhand pose datasets are available, all with limited samplesizes. In this study, we propose a new framework of training3D pose estimation models from RGB images without usingexplicit 3D annotations, i.e., trained with only 2D informa-tion. Our framework is motivated by two observations: 1)Videos provide richer information for estimating 3D posesas opposed to static images; 2) Estimated 3D poses oughtto be consistent whether the videos are viewed in the for-ward order or reverse order. We leverage these two obser-vations to develop a self-supervised learning model calledtemporal-aware self-supervised network (TASSN). By en-forcing temporal consistency constraints, TASSN learns 3Dhand poses and meshes from videos with only 2D keypointposition annotations. Experiments show that our modelachieves surprisingly good results, with 3D estimation ac-curacy on par with the state-of-the-art models trained with3D annotations, highlighting the benefit of the temporalconsistency in constraining 3D prediction models.
翻訳日:2021-05-21 13:57:52 公開日:2020-12-06
# MVHM: 高精度3次元ハンドマップ推定のための大規模マルチビューハンドメッシュベンチマーク

MVHM: A Large-Scale Multi-View Hand Mesh Benchmark for Accurate 3D Hand Pose Estimation ( http://arxiv.org/abs/2012.03206v1 )

ライセンス: Link先を確認
Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, and Xiaohui Xie(参考訳) 1枚のRGB画像から3Dハンドポーズを推定することは困難である。 3Dハンドメッシュアノテーションとマルチビューイメージを備えたトレーニングハンドポーズ推定器は、しばしば大きなパフォーマンス向上をもたらす。 しかし、既存のマルチビューデータセットは比較的小さく、市販のトラッカーによって注釈付けされたハンドジョイントやモデル予測によって自動化されている。 大規模なマルチビュー3Dハンドのコレクションは、正確なメッシュとジョイントアノテーションでイメージを合成する。 本論文では,任意の目標メッシュ基底真理に一致する剛性メッシュモデルを実現するスピンマッチングアルゴリズムを設計する。 マッチングアルゴリズムに基づいて,高精度な3次元ハンドメッシュとジョイントラベルを用いた大規模マルチビューハンドメッシュ(mvhm)データセットを生成する効率的なパイプラインを提案する。 さらに,提案するデータセットを用いた手ポーズ推定器のトレーニングが性能を大幅に向上させるため,多視点手ポーズ推定手法を提案する。 実験結果から,MHPデータセット上での0.990 in $\text{AUC}_{\text{20-50}}$に対して,従来の0.939の状態と比較して0.990の処理性能が得られた。 私たちのデータセットは公開されています。 私たちのデータセットは、~\href{https://github.com/Kuzphi/MVHM}{\color{blue}{https://github.com/Kuzphi/MVHM}}で利用可能です。

Estimating 3D hand poses from a single RGB image is challenging because depth ambiguity leads the problem ill-posed. Training hand pose estimators with 3D hand mesh annotations and multi-view images often results in significant performance gains. However, existing multi-view datasets are relatively small with hand joints annotated by off-the-shelf trackers or automated through model predictions, both of which may be inaccurate and can introduce biases. Collecting a large-scale multi-view 3D hand pose images with accurate mesh and joint annotations is valuable but strenuous. In this paper, we design a spin match algorithm that enables a rigid mesh model matching with any target mesh ground truth. Based on the match algorithm, we propose an efficient pipeline to generate a large-scale multi-view hand mesh (MVHM) dataset with accurate 3D hand mesh and joint labels. We further present a multi-view hand pose estimation approach to verify that training a hand pose estimator with our generated dataset greatly enhances the performance. Experimental results show that our approach achieves the performance of 0.990 in $\text{AUC}_{\text{20-50}}$ on the MHP dataset compared to the previous state-of-the-art of 0.939 on this dataset. Our datasset is public available. \footnote{\url{https://github.com/Kuzphi/MVHM}} Our datasset is available at~\href{https://github.com/Kuzphi/MVHM}{\color{blue}{https://github.com/Kuzphi/MVHM}}.
翻訳日:2021-05-21 13:57:28 公開日:2020-12-06
# 人物識別のためのスケレオン型タイピングスタイル学習

Skeleon-Based Typing Style Learning For Person Identification ( http://arxiv.org/abs/2012.03212v1 )

ライセンス: Link先を確認
Lior Gelberg, David Mendlovic, and Dan Raviv(参考訳) 適応型非局所時空間グラフ畳み込みネットワークで構築したタイピングスタイルに基づく人物識別のための新しいアーキテクチャを提案する。 タイプスタイルのダイナミクスは,個人識別に役立つ有意義な情報を伝達するので,関節の位置を抽出し,動作のダイナミクスを学習する。 rgbデータの代わりにジョイント位置を分析することで、照明やノイズなど、環境条件を交互に変化させることで、我々のモデルのノイズ入力データに対するロバスト性を高めます。 さらに,タイプスタイルに基づく個人識別タスクと,最先端の骨格モデルと比較した場合のモデルの優れた識別能力と一般化能力を示す広範囲な評価のための2つの新しいデータセットを提案する。

We present a novel architecture for person identification based on typing-style, constructed of adaptive non-local spatio-temporal graph convolutional network. Since type style dynamics convey meaningful information that can be useful for person identification, we extract the joints positions and then learn their movements' dynamics. Our non-local approach increases our model's robustness to noisy input data while analyzing joints locations instead of RGB data provides remarkable robustness to alternating environmental conditions, e.g., lighting, noise, etc. We further present two new datasets for typing style based person identification task and extensive evaluation that displays our model's superior discriminative and generalization abilities, when compared with state-of-the-art skeleton-based models.
翻訳日:2021-05-21 13:57:07 公開日:2020-12-06
# 散乱多角波信号に基づく時空間トモグラフィーとその移動プラットフォームを用いた雲の再生への応用

Spatiotemporal tomography based on scattered multiangular signals and its application for resolving evolving clouds using moving platforms ( http://arxiv.org/abs/2012.03223v1 )

ライセンス: Link先を確認
Roi Ronen (1) and Yoav Y. Schechner (1) and Eshkol Eytan (2) ((1) Viterbi Faculty of Electrical Engineering, Technion - Israel Institute of Technology, Haifa, Israel, (2) Department of Earth and Planetary Sciences, The Weizmann Institute of Science, Rehovot, Israel)(参考訳) 我々は、少数の移動カメラを用いて、時間変化した体積半透明物体のCT(Computerd tomography)を導出した。 特に非線形問題であるパッシブ散乱トモグラフィに注目する。 我々は、雲が地球の気候に大きな影響を与えるため、ダイナミックな雲に対するアプローチを実証する。 state of the art scattering ctは静的なオブジェクトを仮定する。 既存の4D CT法は線形画像形成モデルに依存しており、しばしば重要な先行技術に依存している。 本稿では,適切な回復に必要な角度および時間的サンプリング率について論じる。 これらの速度を使用すると、この論文は4次元CTトモグラフィーを単純化する時間変化物体の表現につながる。 このタスクは勾配に基づく最適化によって達成される。 我々はこれを物理シミュレーションや実世界のデータを得た実験で実証した。

We derive computed tomography (CT) of a time-varying volumetric translucent object, using a small number of moving cameras. We particularly focus on passive scattering tomography, which is a non-linear problem. We demonstrate the approach on dynamic clouds, as clouds have a major effect on Earth's climate. State of the art scattering CT assumes a static object. Existing 4D CT methods rely on a linear image formation model and often on significant priors. In this paper, the angular and temporal sampling rates needed for a proper recovery are discussed. If these rates are used, the paper leads to a representation of the time-varying object, which simplifies 4D CT tomography. The task is achieved using gradient-based optimization. We demonstrate this in physics-based simulations and in an experiment that had yielded real-world data.
翻訳日:2021-05-21 13:56:54 公開日:2020-12-06
# Depthwise Disparable Convolution と Person Centroid Guided Joint Grouping を用いた効率的な人物姿勢推定

Efficient Human Pose Estimation with Depthwise Separable Convolution and Person Centroid Guided Joint Grouping ( http://arxiv.org/abs/2012.03316v1 )

ライセンス: Link先を確認
Jie Ou and Hong Wu(参考訳) 本稿では,2次元ポーズ推定のための効率的かつ効果的な手法を提案する。 新しいResBlockは、深い分離可能な畳み込みに基づいて提案され、Hourglassネットワークのオリジナルのものの代わりに利用される。 バニラの深さ方向の畳み込みを混合の深さ方向の畳み込みに置き換えることでさらに強化することができる。 そこで本研究ではボトムアップ多人数ポーズ推定法を提案する。 根付き木は、全ての身体関節に直接または階層的に接続する根として、人中心体を導入することによって人間のポーズを表現するために使用される。 サブネットワークの2つの分岐は、中心体、身体関節、親ノードへのオフセットを予測するために使用される。 関節はオフセットに沿って最寄りのセントロイドまで追跡することでグループ化される。 mpii human dataset と lsp dataset における実験結果から, 一人称と複数人称の両方のポーズ推定手法が, 計算コストの低い競争的アキュラティを実現できることが示された。

In this paper, we propose efficient and effective methods for 2D human pose estimation. A new ResBlock is proposed based on depthwise separable convolution and is utilized instead of the original one in Hourglass network. It can be further enhanced by replacing the vanilla depthwise convolution with a mixed depthwise convolution. Based on it, we propose a bottom-up multi-person pose estimation method. A rooted tree is used to represent human pose by introducing person centroid as the root which connects to all body joints directly or hierarchically. Two branches of sub-networks are used to predict the centroids, body joints and their offsets to their parent nodes. Joints are grouped by tracing along their offsets to the closest centroids. Experimental results on the MPII human dataset and the LSP dataset show that both our single-person and multi-person pose estimation methods can achieve competitive accuracies with low computational costs.
翻訳日:2021-05-21 13:56:41 公開日:2020-12-06
# Select, Label, Mix: 部分領域適応のための識別的不変特徴表現の学習

Select, Label, and Mix: Learning Discriminative Invariant Feature Representations for Partial Domain Adaptation ( http://arxiv.org/abs/2012.03358v1 )

ライセンス: Link先を確認
Aadarsh Sahoo, Rameswar Panda, Rogerio Feris, Kate Saenko, Abir Das(参考訳) 未知のターゲットラベル空間がソースラベル空間のサブセットであると仮定する部分領域適応は、コンピュータビジョンにおいて多くの注目を集めている。 近年の進歩にもかかわらず、既存の手法は負の移動、識別可能性の欠如、潜在空間における領域不変性という3つの大きな問題に悩まされる。 上記の問題を緩和するため,部分領域適応のための識別的不変特徴表現の学習を目的とした,新しい「選択,ラベル,混合」フレームワークを開発した。 まず,2つの領域をまたいだ分布を整列しながら負の転送を避けるために,外部からのサンプルを自動的にフィルタする,シンプルで効率的な「選択」モジュールを提案する。 次に、「ラベル」モジュールは、ラベル付きソースドメインデータと生成されたターゲットドメインの擬似ラベルの両方を用いて分類器を反復的に訓練し、潜在空間の識別性を高める。 最後に、「mix」モジュールは、他の2つのモジュールと共同でドメインミックスアップ正規化を利用して、部分的ドメイン適応のためのドメイン不変ラテント空間につながるドメイン間のより固有の構造を探索する。 いくつかのベンチマークデータセットにおける広範囲な実験は、最先端のメソッドよりも提案フレームワークが優れていることを示している。

Partial domain adaptation which assumes that the unknown target label space is a subset of the source label space has attracted much attention in computer vision. Despite recent progress, existing methods often suffer from three key problems: negative transfer, lack of discriminability and domain invariance in the latent space. To alleviate the above issues, we develop a novel 'Select, Label, and Mix' (SLM) framework that aims to learn discriminative invariant feature representations for partial domain adaptation. First, we present a simple yet efficient "select" module that automatically filters out the outlier source samples to avoid negative transfer while aligning distributions across both domains. Second, the "label" module iteratively trains the classifier using both the labeled source domain data and the generated pseudo-labels for the target domain to enhance the discriminability of the latent space. Finally, the "mix" module utilizes domain mixup regularization jointly with the other two modules to explore more intrinsic structures across domains leading to a domain-invariant latent space for partial domain adaptation. Extensive experiments on several benchmark datasets demonstrate the superiority of our proposed framework over state-of-the-art methods.
翻訳日:2021-05-21 13:56:27 公開日:2020-12-06
# 視覚認識階層に基づく食品認識

Visual Aware Hierarchy Based Food Recognition ( http://arxiv.org/abs/2012.03368v1 )

ライセンス: Link先を確認
Runyu Mao, Jiangpeng He, Zeman Shao, Sri Kalyan Yarlagadda, Fengqing Zhu(参考訳) 食品認識は、画像に基づく食事評価において最も重要な要素の1つである。 しかし,食品画像の複雑さや食品カテゴリのクラス間類似性が異なっており,画像ベースの食品認識システムでは,利用可能なさまざまなデータセットに対して高い精度を実現することが困難である。 本研究では、コンボリューショナルニューラルネットワーク(CNN)をバックボーンアーキテクチャとして用いた、食品のローカライゼーションと階層的な食品分類を含む2段階の食品認識システムを提案する。 食品ローカライゼーションのステップは、食品領域を識別するFaster R-CNN法の実装に基づいている。 食品分類ステップでは、視覚的に類似した食品カテゴリを自動的にクラスタ化して、食品カテゴリ間の意味的視覚関係を表す階層構造を生成し、視覚認識階層構造に基づいて分類タスクを実行するマルチタスクcnnモデルを提案する。 データセットのサイズと品質は、データ駆動方式の重要な要素であるため、米国で最も一般的に消費される食品に基づいて、82の食品カテゴリと15kの画像からなる、新しい食品画像データセットVIPER-FoodNet(VFN)データセットを導入する。 半自動クラウドソーシングツールを使用して、食品オブジェクト境界ボックスや食品オブジェクトラベルを含む、このデータセットの地平情報を提供する。 実験結果から,本システムは4つの公開データセットと新しいVFNデータセットの分類と認識性能を大幅に向上させることができることがわかった。

Food recognition is one of the most important components in image-based dietary assessment. However, due to the different complexity level of food images and inter-class similarity of food categories, it is challenging for an image-based food recognition system to achieve high accuracy for a variety of publicly available datasets. In this work, we propose a new two-step food recognition system that includes food localization and hierarchical food classification using Convolutional Neural Networks (CNNs) as the backbone architecture. The food localization step is based on an implementation of the Faster R-CNN method to identify food regions. In the food classification step, visually similar food categories can be clustered together automatically to generate a hierarchical structure that represents the semantic visual relations among food categories, then a multi-task CNN model is proposed to perform the classification task based on the visual aware hierarchical structure. Since the size and quality of dataset is a key component of data driven methods, we introduce a new food image dataset, VIPER-FoodNet (VFN) dataset, consists of 82 food categories with 15k images based on the most commonly consumed foods in the United States. A semi-automatic crowdsourcing tool is used to provide the ground-truth information for this dataset including food object bounding boxes and food object labels. Experimental results demonstrate that our system can significantly improve both classification and recognition performance on 4 publicly available datasets and the new VFN dataset.
翻訳日:2021-05-21 13:56:04 公開日:2020-12-06
# ロバストな画像キャプション

Robust Image Captioning ( http://arxiv.org/abs/2012.09732v1 )

ライセンス: Link先を確認
Daniel Yarnell, Xian Wang(参考訳) 写真の自動キャプションは、写真分析とテキスト生成の難しさを組み込んだミッションである。 キャプションの基本的な特徴の1つは注意の概念である:何をどのシーケンスで指定するかを決定する方法。 本研究では,入力データ間の空間関係に関する知識をグラフ表現に組み込むことにより,対象関係を逆ロバストカットアルゴリズムを用いて活用する。 本研究は,画像キャプションのための提案手法の有望な性能を示す。

Automated captioning of photos is a mission that incorporates the difficulties of photo analysis and text generation. One essential feature of captioning is the concept of attention: how to determine what to specify and in which sequence. In this study, we leverage the Object Relation using adversarial robust cut algorithm, that grows upon this method by specifically embedding knowledge about the spatial association between input data through graph representation. Our experimental study represent the promising performance of our proposed method for image captioning.
翻訳日:2021-05-21 13:55:43 公開日:2020-12-06
# 産業自動化のためのDeep Transfer Learning:データ駆動機械学習の新しい手法のレビューと考察

Deep Transfer Learning for Industrial Automation: A Review and Discussion of New Techniques for Data-Driven Machine Learning ( http://arxiv.org/abs/2012.03301v1 )

ライセンス: Link先を確認
Benjamin Maschler and Michael Weyrich(参考訳) 本稿では,伝達と連続学習の概念を紹介する。 その後のレビューでは,両アルゴリズムの手法を活用した産業的深層移動学習への有望なアプローチを明らかにしている。 コンピュータビジョンの分野では、すでに最先端のテクノロジーだ。 他の例では 障害予測は、ほとんど始まりません。 しかしながら、あらゆる分野において、連続学習と転校学習の抽象的な区別は、その実用的利用の恩恵を受けるものではない。 対照的に、どちらも、産業自動化セクターの要求を満たす堅牢な学習アルゴリズムを作成するために、まとめるべきである。 これらの要件をより詳しく説明するために,産業転校学習のベースユースケースが紹介されている。

In this article, the concepts of transfer and continual learning are introduced. The ensuing review reveals promising approaches for industrial deep transfer learning, utilizing methods of both classes of algorithms. In the field of computer vision, it is already state-of-the-art. In others, e.g. fault prediction, it is barely starting. However, over all fields, the abstract differentiation between continual and transfer learning is not benefitting their practical use. In contrast, both should be brought together to create robust learning algorithms fulfilling the industrial automation sector's requirements. To better describe these requirements, base use cases of industrial transfer learning are introduced.
翻訳日:2021-05-21 13:55:34 公開日:2020-12-06
# 競争拡散モデルによる社会福祉の最大化

Maximizing Social Welfare in a Competitive Diffusion Model ( http://arxiv.org/abs/2012.03354v1 )

ライセンス: Link先を確認
Prithu Banerjee, Wei Chen, Laks V.S. Lakshmanan(参考訳) インパクト最大化(IM)は、バイラルマーケティングや感染封じ込めなどの応用により、文献に多くの注目を集めている。 採用がネットワークの多くのユーザーに広まるようなアイテムを採用するために、少数のシードユーザを選択することを目指している。 競合imはネットワーク内の競合アイテムの伝播に焦点を当てている。 既存の競合IMの研究にはいくつかの制限がある。 1) 利用者の意思決定に経済的インセンティブを取り入れていない。 2) 作品の多数は, 特定の項目の採用を最大化し, 異なる項目が果たす集団的役割を無視することを目的としている。 (3) 競争の1つの側面 – 純粋な競争 – に焦点を当てています。 これらの課題に対処するため,UICと呼ばれるユーティリティ駆動型伝播モデルの下で競争的IMを研究し,社会福祉の最大化について検討する。 一般に問題は NP-ハード だけでなく、任意の定数係数内で近似する NP-ハード である。 したがって、一般の場合に対する瞬時依存の効率的な近似アルゴリズムと制限された設定に対する$(1-1/e-\epsilon)$近似アルゴリズムを考案する。 当社のアルゴリズムは、ソリューションの品質と大規模実ネットワーク上での実行時間の両方において、総合的および実効的構成の両方において、競合するim上で異なるベースラインを上回っています。

Influence maximization (IM) has garnered a lot of attention in the literature owing to applications such as viral marketing and infection containment. It aims to select a small number of seed users to adopt an item such that adoption propagates to a large number of users in the network. Competitive IM focuses on the propagation of competing items in the network. Existing works on competitive IM have several limitations. (1) They fail to incorporate economic incentives in users' decision making in item adoptions. (2) Majority of the works aim to maximize the adoption of one particular item, and ignore the collective role that different items play. (3) They focus mostly on one aspect of competition -- pure competition. To address these concerns we study competitive IM under a utility-driven propagation model called UIC, and study social welfare maximization. The problem in general is not only NP-hard but also NP-hard to approximate within any constant factor. We, therefore, devise instant dependent efficient approximation algorithms for the general case as well as a $(1-1/e-\epsilon)$-approximation algorithm for a restricted setting. Our algorithms outperform different baselines on competitive IM, both in terms of solution quality and running time on large real networks under both synthetic and real utility configurations.
翻訳日:2021-05-21 13:55:25 公開日:2020-12-06
# Brain Co-Processors: AIを使って脳機能の再構築と拡張

Brain Co-Processors: Using AI to Restore and Augment Brain Function ( http://arxiv.org/abs/2012.03378v1 )

ライセンス: Link先を確認
Rajesh P. N. Rao(参考訳) 脳-コンピュータインタフェース(BCI)は、失った機能の回復のための脳信号に基づく義肢の制御にデコードアルゴリズムを使用する。 一方、コンピュータ脳インタフェース(CBI)は、符号化アルゴリズムを使用して、感覚の回復や閉ループ補綴制御のための感覚フィードバックを提供するために、外部感覚信号を神経刺激パターンに変換する。 本稿では,人工知能(AI)による脳機能の補完や強化を目的とした,デコードとエンコーディングを組み合わせた脳コプロセッサについて紹介する。 脳のコプロセッサは、脳損傷後のリハビリテーションのためにヘビアン可塑性を誘導することから、麻痺した四肢の再結合や記憶の増強まで、様々な用途に使用できる。 重要な課題は、外的行動やタスク関連の目標を最適化するための、同時マルチチャネルニューラルデコーディングとエンコーディングである。 本稿では,ニューラルネットワーク,ディープラーニング,強化学習に基づく脳コプロセッサ開発のための新しいフレームワークについて述べる。 これらの「ニューラルコプロセッサ」は、神経系とコスト関数の協調最適化を可能にし、望ましい行動を達成する。 ニューラルネットワークを生物学的なものと結合することで、ニューラルコプロセッサは脳の回復と増強の新しい方法と、脳研究のための新しい科学的ツールを提供する。 我々は、脳コプロセッサの潜在的な応用と倫理的意味について論じる。

Brain-computer interfaces (BCIs) use decoding algorithms to control prosthetic devices based on brain signals for restoration of lost function. Computer-brain interfaces (CBIs), on the other hand, use encoding algorithms to transform external sensory signals into neural stimulation patterns for restoring sensation or providing sensory feedback for closed-loop prosthetic control. In this article, we introduce brain co-processors, devices that combine decoding and encoding in a unified framework using artificial intelligence (AI) to supplement or augment brain function. Brain co-processors can be used for a range of applications, from inducing Hebbian plasticity for rehabilitation after brain injury to reanimating paralyzed limbs and enhancing memory. A key challenge is simultaneous multi-channel neural decoding and encoding for optimization of external behavioral or task-related goals. We describe a new framework for developing brain co-processors based on artificial neural networks, deep learning and reinforcement learning. These "neural co-processors" allow joint optimization of cost functions with the nervous system to achieve desired behaviors. By coupling artificial neural networks with their biological counterparts, neural co-processors offer a new way of restoring and augmenting the brain, as well as a new scientific tool for brain research. We conclude by discussing the potential applications and ethical implications of brain co-processors.
翻訳日:2021-05-21 13:55:08 公開日:2020-12-06
# デュアルピクセルデータによるデフォーカスブラの低減学習

Learning to Reduce Defocus Blur by Realistically Modeling Dual-Pixel Data ( http://arxiv.org/abs/2012.03255v1 )

ライセンス: Link先を確認
Abdullah Abuolaim, Mauricio Delbracio, Damien Kelly, Michael S. Brown, Peyman Milanfar(参考訳) 最近の研究は、現代のデュアルピクセル(DP)センサーで利用可能な2画像ビューを用いた、データ駆動デフォーカスのデブロリングに関する印象的な結果を示している。 この研究における重要な課題の1つは、DPデータへのアクセスである。 多くのカメラがDPセンサーを搭載しているが、低レベルのDPセンサー画像へのアクセスは限られた数に限られている。 さらに、デフォーカス・デブロアリングのためのトレーニングデータを取得するには、カメラの開口を調整する必要がある時間と手間がかかる。 dpセンサー(例えばスマートフォン)を搭載した一部のカメラは、調整可能な開口部を持たず、必要なトレーニングデータを生成する能力を制限している。 本稿では,リアルDPデータを合成的に生成する手法を提案することで,データの捕捉ボトルネックに対処する。 提案手法は,dpセンサの光学的画像形成を模倣し,標準的なコンピュータソフトウェアでレンダリングされた仮想シーンに適用できる。 これらの現実的な合成dp画像を活用することで,dpセンサで取得した単一フレームおよびマルチフレームデータの利用に適した,デブラリング結果を改善することのできる,新しいリカレント畳み込みネットワーク(rcn)アーキテクチャを提案する。 最後に,DPデータへのアクセスが困難なビデオデブロアアプリケーションを対象としたDNNモデルのトレーニングに有用であることを示す。

Recent work has shown impressive results on data-driven defocus deblurring using the two-image views available on modern dual-pixel (DP) sensors. One significant challenge in this line of research is access to DP data. Despite many cameras having DP sensors, only a limited number provide access to the low-level DP sensor images. In addition, capturing training data for defocus deblurring involves a time-consuming and tedious setup requiring the camera's aperture to be adjusted. Some cameras with DP sensors (e.g., smartphones) do not have adjustable apertures, further limiting the ability to produce the necessary training data. We address the data capture bottleneck by proposing a procedure to generate realistic DP data synthetically. Our synthesis approach mimics the optical image formation found on DP sensors and can be applied to virtual scenes rendered with standard computer software. Leveraging these realistic synthetic DP images, we introduce a new recurrent convolutional network (RCN) architecture that can improve deblurring results and is suitable for use with single-frame and multi-frame data captured by DP sensors. Finally, we show that our synthetic DP data is useful for training DNN models targeting video deblurring applications where access to DP data remains challenging.
翻訳日:2021-05-21 13:54:45 公開日:2020-12-06
# マルチタスク学習とカテゴリーインタラクションモデリングによる歩行者行動予測

Pedestrian Behavior Prediction via Multitask Learning and Categorical Interaction Modeling ( http://arxiv.org/abs/2012.03298v1 )

ライセンス: Link先を確認
Amir Rasouli and Mohsen Rohani and Jun Luo(参考訳) 歩行者の行動予測はインテリジェント運転システムの大きな課題の1つである。 歩行者はしばしば様々な文脈要素に影響された複雑な行動を示す。 この問題に対処するために,マルチモーダルデータによる歩行者の軌跡や行動の同時予測を行うマルチタスク学習フレームワークを提案する。 Our method benefits from 1) a hybrid mechanism to encode different input modalities independently allowing them to develop their own representations, and jointly to produce a representation for all modalities using shared parameters; 2) a novel interaction modeling technique that relies on categorical semantic parsing of the scenes to capture interactions between target pedestrians and their surroundings; and 3) a dual prediction mechanism that uses both independent and shared decoding of multimodal representations. PIEとJAADの公共歩行者行動ベンチマークデータセットを用いて、マルチタスク学習による行動予測の利点を強調し、我々のモデルが最先端のパフォーマンスを達成し、軌跡と行動予測を最大22%と6%改善することを示す。 さらに、広範囲なアブレーション研究を通じて、提案した処理および相互作用モデリング技術の貢献について検討する。

Pedestrian behavior prediction is one of the major challenges for intelligent driving systems. Pedestrians often exhibit complex behaviors influenced by various contextual elements. To address this problem, we propose a multitask learning framework that simultaneously predicts trajectories and actions of pedestrians by relying on multimodal data. Our method benefits from 1) a hybrid mechanism to encode different input modalities independently allowing them to develop their own representations, and jointly to produce a representation for all modalities using shared parameters; 2) a novel interaction modeling technique that relies on categorical semantic parsing of the scenes to capture interactions between target pedestrians and their surroundings; and 3) a dual prediction mechanism that uses both independent and shared decoding of multimodal representations. Using public pedestrian behavior benchmark datasets for driving, PIE and JAAD, we highlight the benefits of multitask learning for behavior prediction and show that our model achieves state-of-the-art performance and improves trajectory and action prediction by up to 22% and 6% respectively. We further investigate the contributions of the proposed processing and interaction modeling techniques via extensive ablation studies.
翻訳日:2021-05-21 13:54:26 公開日:2020-12-06
# スピン化と固相LiDARのためのグローバル統一固有の校正

Global Unifying Intrinsic Calibration for Spinning and Solid-State LiDARs ( http://arxiv.org/abs/2012.03321v1 )

ライセンス: Link先を確認
Jiunn-Kai Huang, Chenxi Feng, Madhav Achar, Maani Ghaffari, and Jessy W. Grizzle(参考訳) センサキャリブレーションは内在的あるいは外在的であり、自律ロボットに展開する現代の認識とナビゲーションシステムに必要な測定精度を達成するための重要なステップである。 これまでのところ、回転LiDARの固有キャリブレーションモデルは、その物理機構に基づいて仮説化されており、データから推定されるパラメータが3から10であるのに対して、固体LiDARの現象モデルはまだ提案されていない。 この道を進む代わりに、LiDAR型(スピン対固体状態など)の物理学を抽象化し、センサによって生成された点雲の空間幾何学に焦点を当てることを提案する。 特殊行列リー群の要素としてキャリブレーションパラメータをモデル化することにより、異なるタイプのLiDARに対するキャリブレーションの統一ビューを実現する。 さらに,提案モデルが(一意的な回答を持つ)適切な向き付け目標を4つ与えていることを数学的に証明する。 この証明は、四面体形の標的位置決めのガイドラインを提供する。 さらに、SE(3)の既定プログラム大域解法を最適化して最適な校正パラメータを効率的に計算することができる。 固体LiDARの場合、シミュレーションでどのように動作するかを説明する。 スピンリングLiDARにおいて,提案した行列Lie Groupモデルが,P2P距離を低減しつつ,ノイズに対してより堅牢な物理モデルと同等に動作することを示す。

Sensor calibration, which can be intrinsic or extrinsic, is an essential step to achieve the measurement accuracy required for modern perception and navigation systems deployed on autonomous robots. To date, intrinsic calibration models for spinning LiDARs have been based on hypothesized based on their physical mechanisms, resulting in anywhere from three to ten parameters to be estimated from data, while no phenomenological models have yet been proposed for solid-state LiDARs. Instead of going down that road, we propose to abstract away from the physics of a LiDAR type (spinning vs solid-state, for example), and focus on the spatial geometry of the point cloud generated by the sensor. By modeling the calibration parameters as an element of a special matrix Lie Group, we achieve a unifying view of calibration for different types of LiDARs. We further prove mathematically that the proposed model is well-constrained (has a unique answer) given four appropriately orientated targets. The proof provides a guideline for target positioning in the form of a tetrahedron. Moreover, an existing Semidefinite programming global solver for SE(3) can be modified to compute efficiently the optimal calibration parameters. For solid state LiDARs, we illustrate how the method works in simulation. For spinning LiDARs, we show with experimental data that the proposed matrix Lie Group model performs equally well as physics-based models in terms of reducing the P2P distance, while being more robust to noise.
翻訳日:2021-05-21 13:54:10 公開日:2020-12-06
# tornadoaggregate: リングベースアーキテクチャによる正確でスケーラブルな連合学習

TornadoAggregate: Accurate and Scalable Federated Learning via the Ring-Based Architecture ( http://arxiv.org/abs/2012.03214v1 )

ライセンス: Link先を確認
Jin-woo Lee, Jaehoon Oh, Sungsu Lim, Se-Young Yun, Jae-Gil Lee(参考訳) 連合学習は、協調機械学習の新しいパラダイムとして登場したが、以前の多くの研究では、コミュニケーションのスケーラビリティやクライアントのローカル時間に依存する日次特性を考慮せずに、スタートポロジーに沿ってグローバルアグリゲーションを使用してきた。 対照的に、リングアーキテクチャはスケーラビリティの問題を解決することができ、集約なしでノードを反復することで昼行性も満たせる。 それでも、そのようなリングベースのアルゴリズムは本質的に高分散問題に悩まされる。 そこで本研究では,リングアーキテクチャの高速化により,精度とスケーラビリティを両立させるTornadoAggregateというアルゴリズムを提案する。 特に, 損失最小化を分散低減問題に再構成し, 分散低減のための3つの原理(リングアウェアグルーピング, 小リング, リングチェーン)を確立した。 実験の結果、TornadoAggregateはテストの精度を26.7%向上し、ほぼ直線的なスケーラビリティを実現した。

Federated learning has emerged as a new paradigm of collaborative machine learning; however, many prior studies have used global aggregation along a star topology without much consideration of the communication scalability or the diurnal property relied on clients' local time variety. In contrast, ring architecture can resolve the scalability issue and even satisfy the diurnal property by iterating nodes without an aggregation. Nevertheless, such ring-based algorithms can inherently suffer from the high-variance problem. To this end, we propose a novel algorithm called TornadoAggregate that improves both accuracy and scalability by facilitating the ring architecture. In particular, to improve the accuracy, we reformulate the loss minimization into a variance reduction problem and establish three principles to reduce variance: Ring-Aware Grouping, Small Ring, and Ring Chaining. Experimental results show that TornadoAggregate improved the test accuracy by up to 26.7% and achieved near-linear scalability.
翻訳日:2021-05-21 13:53:46 公開日:2020-12-06
# amortized q-learning with model-based action proposals for autonomous driving on highways

Amortized Q-learning with Model-based Action Proposals for Autonomous Driving on Highways ( http://arxiv.org/abs/2012.03234v1 )

ライセンス: Link先を確認
Branka Mirchevska, Maria H\"ugle, Gabriel Kalweit, Moritz Werling, Joschka Boedecker(参考訳) 十分に確立された最適化に基づく手法は、通常は数秒以内の短い最適化地平線に対する最適軌道を保証することができる。 結果として、この短地平線に対する最適軌道の選択は、依然として準最適長期解をもたらす可能性がある。 同時に、結果として生じる短期的軌道は、動的な交通環境において効果的で快適で証明可能な安全な操作を可能にする。 本研究では,従来の軌道計画の利点を保ちつつ,長期運転戦略の最適性を確保する方法について考察する。 軌道プランナーと組み合わさった強化学習に基づくアプローチを導入し,高速道路での運転に最適な長期意思決定戦略を学習する。 局所最適操作をアクションとしてオンラインに生成することにより、無限の低レベル連続アクション空間と、予め定義された標準レーン変更アクションの固定数の限られた柔軟性のバランスをとることができる。 提案手法を,オープンソースの交通シミュレータSUMOの現実シナリオで評価し,ランダムな行動選択エージェント,グリードエージェント,ハイレベルな離散アクションエージェント,IMMベースのSUMO制御エージェントなど,比較した4つのベンチマーク手法よりも優れた性能を実現した。

Well-established optimization-based methods can guarantee an optimal trajectory for a short optimization horizon, typically no longer than a few seconds. As a result, choosing the optimal trajectory for this short horizon may still result in a sub-optimal long-term solution. At the same time, the resulting short-term trajectories allow for effective, comfortable and provable safe maneuvers in a dynamic traffic environment. In this work, we address the question of how to ensure an optimal long-term driving strategy, while keeping the benefits of classical trajectory planning. We introduce a Reinforcement Learning based approach that coupled with a trajectory planner, learns an optimal long-term decision-making strategy for driving on highways. By online generating locally optimal maneuvers as actions, we balance between the infinite low-level continuous action space, and the limited flexibility of a fixed number of predefined standard lane-change actions. We evaluated our method on realistic scenarios in the open-source traffic simulator SUMO and were able to achieve better performance than the 4 benchmark approaches we compared against, including a random action selecting agent, greedy agent, high-level, discrete actions agent and an IDM-based SUMO-controlled agent.
翻訳日:2021-05-21 13:53:27 公開日:2020-12-06
# 組合せ多腕バンディットによる高精度・高速フェデレーション学習

Accurate and Fast Federated Learning via Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2012.03270v1 )

ライセンス: Link先を確認
Taehyeon Kim, Sangmin Bae, Jin-woo Lee, Seyoung Yun(参考訳) 連合学習は、協調機械学習の革新的なパラダイムとして登場した。 従来の機械学習とは異なり、グローバルモデルは協調的に学習され、データは膨大な数のクライアントデバイスに分散されているため、ユーザのプライバシを侵害しない。 しかし、フェデレート学習におけるグローバルアグリゲーションには、偏りのあるモデル平均化とクライアントサンプリングにおける事前知識の欠如という課題があり、これはそれぞれ高い一般化誤差と緩やかな収束率をもたらす。 本研究では,複数腕のバンディットベースクライアントによる事前知識を活用し,組合せモデル平均化によるバイアスモデル抽出とフィルタリングを行うfeedcmと呼ばれる新しいアルゴリズムを提案する。 様々なアルゴリズムと代表的異種データセットを用いた広範囲な評価の結果,feedcmは一般化精度と収束率において,最大37.25%,4.17倍の精度を示した。

Federated learning has emerged as an innovative paradigm of collaborative machine learning. Unlike conventional machine learning, a global model is collaboratively learned while data remains distributed over a tremendous number of client devices, thus not compromising user privacy. However, several challenges still remain despite its glowing popularity; above all, the global aggregation in federated learning involves the challenge of biased model averaging and lack of prior knowledge in client sampling, which, in turn, leads to high generalization error and slow convergence rate, respectively. In this work, we propose a novel algorithm called FedCM that addresses the two challenges by utilizing prior knowledge with multi-armed bandit based client sampling and filtering biased models with combinatorial model averaging. Based on extensive evaluations using various algorithms and representative heterogeneous datasets, we showed that FedCM significantly outperformed the state-of-the-art algorithms by up to 37.25% and 4.17 times, respectively, in terms of generalization accuracy and convergence rate.
翻訳日:2021-05-21 13:53:06 公開日:2020-12-06
# グランガー因果関係におけるガウス過程による植生の気候影響の理解

Understanding Climate Impacts on Vegetation with Gaussian Processes in Granger Causality ( http://arxiv.org/abs/2012.03338v1 )

ライセンス: Link先を確認
Miguel Morata-Dolz, Diego Bueso, Maria Piles and Gustau Camps-Valls(参考訳) 地球温暖化は地球に先例のない変化をもたらしており、特にバイオ燃料や食料の需要の増加によって、社会、経済、環境に大きな影響を及ぼしている。 気候が植生に与える影響を評価することは、需要を圧迫する。 我々は,新しい非線形グランガー因果解析法 (GC) を用いて帰属問題にアプローチし, 遠隔センシング衛星製品, 環境変数, 気候変数の大規模データアーカイブを30年以上にわたって時空間的に収集した。 ヒルベルト空間における変数の交叉関係を明示的に考慮し、ガウス過程における共分散を用いて、カーネルグランガー因果関係を一般化する。 このメソッドはリニアGCメソッドとカーネルGCメソッドを一般化し、Rademacherの複雑さに基づいたより厳密なパフォーマンス境界を持つ。 植生緑地における降水量と土壌水分の分布は,従来のGC法よりも顕著に同定された。

Global warming is leading to unprecedented changes in our planet, with great societal, economical and environmental implications, especially with the growing demand of biofuels and food. Assessing the impact of climate on vegetation is of pressing need. We approached the attribution problem with a novel nonlinear Granger causal (GC) methodology and used a large data archive of remote sensing satellite products, environmental and climatic variables spatio-temporally gridded over more than 30 years. We generalize kernel Granger causality by considering the variables cross-relations explicitly in Hilbert spaces, and use the covariance in Gaussian processes. The method generalizes the linear and kernel GC methods, and comes with tighter bounds of performance based on Rademacher complexity. Spatially-explicit global Granger footprints of precipitation and soil moisture on vegetation greenness are identified more sharply than previous GC methods.
翻訳日:2021-05-21 13:52:48 公開日:2020-12-06
# SoK: プライバシ保護による複数のソース上でのマシンラーニングモデルのトレーニング

SoK: Training Machine Learning Models over Multiple Sources with Privacy Preservation ( http://arxiv.org/abs/2012.03386v1 )

ライセンス: Link先を確認
Lushan Song, Haoqi Wu, Wenqiang Ruan, Weili Han(参考訳) 現在、プライバシー保護を伴う複数のデータコントローラから高品質なトレーニングデータを集めることは、高品質な機械学習モデルをトレーニングするための重要な課題である。 潜在的ソリューションは、分離されたデータコーパス間の障壁を劇的に破壊し、結果として処理可能なデータ範囲を拡大する可能性がある。 この目的のために、学界の研究者と工業ベンダーは、最近、1)セキュアなマルチパーティ学習(mpl)、2)フェデレーション学習(fl)という2つの主要なストリームフォルダーを提案することに強く動機づけられている。 これら2つのソリューションには、プライバシ保護、通信方法、通信オーバーヘッド、データのフォーマット、トレーニング済みモデルの正確性、アプリケーションシナリオから評価する際のメリットと制限があります。 研究の進展を実証し、今後の方向性に関する洞察を議論するために、mplとflの両方のプロトコルとフレームワークを徹底的に調査した。 まず、プライバシ保存(TMMPP)を用いた複数のデータソース上で機械学習モデルをトレーニングする問題を定義する。 次に、TMMPPの最近の研究を、技術ルート、パーティのサポート、データパーティショニング、脅威モデル、サポート対象機械学習モデルといった側面から比較し、利点と限界を示す。 次に、複数のデータソース上でオンライントレーニングをサポートする最先端プラットフォームを紹介する。 最後に、TMMPPの課題を解決するための潜在的な方向性について論じる。

Nowadays, gathering high-quality training data from multiple data controllers with privacy preservation is a key challenge to train high-quality machine learning models. The potential solutions could dramatically break the barriers among isolated data corpus, and consequently enlarge the range of data available for processing. To this end, both academia researchers and industrial vendors are recently strongly motivated to propose two main-stream folders of solutions: 1) Secure Multi-party Learning (MPL for short); and 2) Federated Learning (FL for short). These two solutions have their advantages and limitations when we evaluate them from privacy preservation, ways of communication, communication overhead, format of data, the accuracy of trained models, and application scenarios. Motivated to demonstrate the research progress and discuss the insights on the future directions, we thoroughly investigate these protocols and frameworks of both MPL and FL. At first, we define the problem of training machine learning models over multiple data sources with privacy-preserving (TMMPP for short). Then, we compare the recent studies of TMMPP from the aspects of the technical routes, parties supported, data partitioning, threat model, and supported machine learning models, to show the advantages and limitations. Next, we introduce the state-of-the-art platforms which support online training over multiple data sources. Finally, we discuss the potential directions to resolve the problem of TMMPP.
翻訳日:2021-05-21 13:52:09 公開日:2020-12-06
# プライバシー保護型スマートメータデータ

Privacy-Preserving Synthetic Smart Meters Data ( http://arxiv.org/abs/2012.04475v1 )

ライセンス: Link先を確認
Ganesh Del Grosso, Georg Pichler, Pablo Piantanida(参考訳) 電力消費データは、電力グリッドを最適化し、異常を検出し、障害を防止できるため、様々な研究目的のために有用である。 しかし、電力消費データの使用は、通常このデータは電力会社のクライアントに属するため、重大なプライバシー上の懸念を生じさせる。 そこで,本研究では,オリジナルを忠実に模倣した合成消費電力サンプルを生成する手法を提案する。 本手法はGAN(Generative Adversarial Networks)に基づく。 私たちの貢献は2倍です。 まず、標準評価方法がないため、簡単な作業ではない生成データの品質に焦点を当てる。 次に、ニューラルネットワークのトレーニングセットのメンバーに提供されるプライバシー保証について検討する。 プライバシの最低限の要件として、私たちはニューラルネットワークに対して、メンバシップ推論攻撃に対して堅牢であることを要求しています。 プライバシとアルゴリズムが提供するパフォーマンスとの間には,妥協が必要なことが分かりました。

Power consumption data is very useful as it allows to optimize power grids, detect anomalies and prevent failures, on top of being useful for diverse research purposes. However, the use of power consumption data raises significant privacy concerns, as this data usually belongs to clients of a power company. As a solution, we propose a method to generate synthetic power consumption samples that faithfully imitate the originals, but are detached from the clients and their identities. Our method is based on Generative Adversarial Networks (GANs). Our contribution is twofold. First, we focus on the quality of the generated data, which is not a trivial task as no standard evaluation methods are available. Then, we study the privacy guarantees provided to members of the training set of our neural network. As a minimum requirement for privacy, we demand our neural network to be robust to membership inference attacks, as these provide a gateway for further attacks in addition to presenting a privacy threat on their own. We find that there is a compromise to be made between the privacy and the performance provided by the algorithm.
翻訳日:2021-05-21 13:51:45 公開日:2020-12-06
# CoEdge: 異種エッジデバイス上での適応的ワークロード分割を用いた協調DNN推論

CoEdge: Cooperative DNN Inference with Adaptive Workload Partitioning over Heterogeneous Edge Devices ( http://arxiv.org/abs/2012.03257v1 )

ライセンス: Link先を確認
Liekang Zeng, Xu Chen, Zhi Zhou, Lei Yang, Junshan Zhang(参考訳) 最近の人工知能の進歩は、スマートホームやスマートファクトリー、スマートシティなど、ネットワークエッジにおけるインテリジェントなアプリケーションの増加を促している。 リソース制約のあるエッジデバイスに計算集約的なディープニューラルネットワーク(DNN)をデプロイするために、従来のアプローチでは、ワークロードをリモートクラウドにオフロードするか、エンドデバイスでの計算をローカルに最適化するかのいずれかに頼っている。 しかし、クラウド支援アプローチは信頼性の低い広域ネットワークに悩まされ、ローカルコンピューティングアプローチは制約された計算能力によって制限される。 高性能エッジインテリジェンスを目指して、協調実行機構は新しいパラダイムを提供し、近年研究の関心が高まりつつある。 本稿では,異種エッジデバイス上での協調DNN推論をオーケストレーションする分散DNN計算システムであるCoEdgeを提案する。 CoEdgeはエッジで利用可能な計算と通信資源を利用し、デバイスのコンピューティング能力とネットワーク条件に適応したDNN推論ワークロードを動的に分割する。 現実的なプロトタイプに基づく実験的評価により、coedgeは4つの広く採用されているcnnモデルで最大25.5%~66.9%のエネルギー削減を達成した。

Recent advances in artificial intelligence have driven increasing intelligent applications at the network edge, such as smart home, smart factory, and smart city. To deploy computationally intensive Deep Neural Networks (DNNs) on resource-constrained edge devices, traditional approaches have relied on either offloading workload to the remote cloud or optimizing computation at the end device locally. However, the cloud-assisted approaches suffer from the unreliable and delay-significant wide-area network, and the local computing approaches are limited by the constrained computing capability. Towards high-performance edge intelligence, the cooperative execution mechanism offers a new paradigm, which has attracted growing research interest recently. In this paper, we propose CoEdge, a distributed DNN computing system that orchestrates cooperative DNN inference over heterogeneous edge devices. CoEdge utilizes available computation and communication resources at the edge and dynamically partitions the DNN inference workload adaptive to devices' computing capabilities and network conditions. Experimental evaluations based on a realistic prototype show that CoEdge outperforms status-quo approaches in saving energy with close inference latency, achieving up to 25.5%~66.9% energy reduction for four widely-adopted CNN models.
翻訳日:2021-05-21 13:51:29 公開日:2020-12-06
# 無線ドローンネットワークにおける軌道設計のための分散マルチエージェントメタ学習

Distributed Multi-agent Meta Learning for Trajectory Design in Wireless Drone Networks ( http://arxiv.org/abs/2012.03158v1 )

ライセンス: Link先を確認
Ye Hu, Mingzhe Chen, Walid Saad, H. Vincent Poor, and Shuguang Cui(参考訳) 本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について考察する。 検討されたモデルでは、ドローン基地局(DBS)のチームが派遣され、動的で予測不可能なアップリンクアクセス要求を持つ地上ユーザのクラスタを協調的に提供する。 このシナリオでは、DBSは、地上ユーザの動的要求のカバレッジを最大化するために、考慮された領域を協調的にナビゲートする必要がある。 この軌道設計問題は、すべてのdbsによって提供されるユーザの比率を最大化する最適な軌道を求めることを目標とする最適化フレームワークとして提案されている。 予測不可能な環境下でのこの非凸最適化問題の最適解を求めるため,メタ学習機構と結合した値分解型強化学習(VDRL)ソリューションを提案する。 このアルゴリズムにより、DBSは動的に軌跡を学習し、学習を目に見えない環境に一般化することができる。 解析の結果,提案するvd-rlアルゴリズムは非凸最適化問題の局所最適解に収束することが保証された。 シミュレーションの結果、メタトレーニングがなくても、提案するvd-rlアルゴリズムは、ベースラインマルチエージェントアルゴリズムと比較して、サービスカバレッジが53.2%向上し、収束速度が30.6%向上した。 一方、メタラーニングを使用することで、VD-RLアルゴリズムの収束速度は最大53.8%向上する。

In this paper, the problem of the trajectory design for a group of energy-constrained drones operating in dynamic wireless network environments is studied. In the considered model, a team of drone base stations (DBSs) is dispatched to cooperatively serve clusters of ground users that have dynamic and unpredictable uplink access demands. In this scenario, the DBSs must cooperatively navigate in the considered area to maximize coverage of the dynamic requests of the ground users. This trajectory design problem is posed as an optimization framework whose goal is to find optimal trajectories that maximize the fraction of users served by all DBSs. To find an optimal solution for this non-convex optimization problem under unpredictable environments, a value decomposition based reinforcement learning (VDRL) solution coupled with a meta-training mechanism is proposed. This algorithm allows the DBSs to dynamically learn their trajectories while generalizing their learning to unseen environments. Analytical results show that, the proposed VD-RL algorithm is guaranteed to converge to a local optimal solution of the non-convex optimization problem. Simulation results show that, even without meta-training, the proposed VD-RL algorithm can achieve a 53.2% improvement of the service coverage and a 30.6% improvement in terms of the convergence speed, compared to baseline multi-agent algorithms. Meanwhile, the use of meta-learning improves the convergence speed of the VD-RL algorithm by up to 53.8% when the DBSs must deal with a previously unseen task.
翻訳日:2021-05-21 13:51:07 公開日:2020-12-06
# 畳み込みニューラルネットワークを用いたギター効果認識とパラメータ推定

Guitar Effects Recognition and Parameter Estimation with Convolutional Neural Networks ( http://arxiv.org/abs/2012.03216v1 )

ライセンス: Link先を確認
Marco Comunit\`a, Dan Stowell, Joshua D. Reiss(参考訳) ギター効果の人気にもかかわらず、ギター録音からの特定のプラグインやエフェクトユニットの分類とパラメーター推定に関する研究はほとんどない。 本稿では,13のオーバードライブ,歪み,ファズギター効果の分類とパラメータ推定に畳み込みニューラルネットワークを用いた。 モノフォニックまたはポリフォニックのサンプルと離散的または連続的な設定値からなる4つのサブデータセットを合計250時間にわたる処理されたエレクトロギターのサンプルの新たなデータセットを組み立てた。 結果は、同じまたは異なるサブデータセット上でトレーニングおよびテストされたネットワークと比較された。 個別のデータセットは、設計、分析、修正が容易でありながら、連続的なデータセットと同等に高いパフォーマンスをもたらす可能性があることがわかった。 分類精度は80\%を超え, 影響音色と回路設計の類似性を反映した混乱行列が得られた。 0.0から1.0の間のパラメータ値では、平均絶対誤差は0.05以下であり、根平均二乗誤差は0.0.1以下である。

Despite the popularity of guitar effects, there is very little existing research on classification and parameter estimation of specific plugins or effect units from guitar recordings. In this paper, convolutional neural networks were used for classification and parameter estimation for 13 overdrive, distortion and fuzz guitar effects. A novel dataset of processed electric guitar samples was assembled, with four sub-datasets consisting of monophonic or polyphonic samples and discrete or continuous settings values, for a total of about 250 hours of processed samples. Results were compared for networks trained and tested on the same or on a different sub-dataset. We found that discrete datasets could lead to equally high performance as continuous ones, whilst being easier to design, analyse and modify. Classification accuracy was above 80\%, with confusion matrices reflecting similarities in the effects timbre and circuits design. With parameter values between 0.0 and 1.0, the mean absolute error is in most cases below 0.05, while the root mean square error is below 0.1 in all cases but one.
翻訳日:2021-05-21 13:50:43 公開日:2020-12-06
# フーリエ領域変分定式化とその教師付き学習への応用

Fourier-domain Variational Formulation and Its Well-posedness for Supervised Learning ( http://arxiv.org/abs/2012.03238v1 )

ライセンス: Link先を確認
Tao Luo and Zheng Ma and Zhiwei Wang and Zhi-Qin John Xu and Yaoyu Zhang(参考訳) 教師付き学習問題は、孤立したデータポイントの値が与えられた仮説関数空間内の関数を見つけることである。 ニューラルネットワークの周波数原理に触発されて,教師付き学習問題のフーリエ領域変分定式化を提案する。 この定式化は、連続体モデリングにおける孤立したデータポイントに与えられた値の制約を課すことの難しさを回避する。 統一フレームワークにおける必要十分条件の下では,データ次元に依存した臨界指数を示すことにより,フーリエ領域変動問題の適切性を確立する。 実際、ニューラルネットワークは、適切に配置された条件を自動的に満たすこの定式化を実装するための便利な方法になり得る。

A supervised learning problem is to find a function in a hypothesis function space given values on isolated data points. Inspired by the frequency principle in neural networks, we propose a Fourier-domain variational formulation for supervised learning problem. This formulation circumvents the difficulty of imposing the constraints of given values on isolated data points in continuum modelling. Under a necessary and sufficient condition within our unified framework, we establish the well-posedness of the Fourier-domain variational problem, by showing a critical exponent depending on the data dimension. In practice, a neural network can be a convenient way to implement our formulation, which automatically satisfies the well-posedness condition.
翻訳日:2021-05-21 13:50:26 公開日:2020-12-06
# 音源分離とDepthwise Separable Convolutions for Computer Audition

Source Separation and Depthwise Separable Convolutions for Computer Audition ( http://arxiv.org/abs/2012.03359v1 )

ライセンス: Link先を確認
Gabriel Mersy and Jin Hong Kuan(参考訳) 近年の深層音楽ソース分離の進展を踏まえ、音源分離と、コンピュータオーディション(すなわち、コンピュータオーディション)に好適に活用される最先端表現学習技術を組み合わせた特徴表現手法を提案する。 マシンリスニング)。 我々は、電子ダンス音楽(EDM)データセット上で深度的に分離可能な畳み込みニューラルネットワークを訓練し、その性能をソース分離および標準スペクトログラムの両方で動作する畳み込みニューラルネットワークと比較する。 ソース分離は,標準の単一スペクトログラム手法と比較して,限られたデータ設定における分類性能を向上させる。

Given recent advances in deep music source separation, we propose a feature representation method that combines source separation with a state-of-the-art representation learning technique that is suitably repurposed for computer audition (i.e. machine listening). We train a depthwise separable convolutional neural network on a challenging electronic dance music (EDM) data set and compare its performance to convolutional neural networks operating on both source separated and standard spectrograms. It is shown that source separation improves classification performance in a limited-data setting compared to the standard single spectrogram approach.
翻訳日:2021-05-21 13:50:14 公開日:2020-12-06