このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210627となっている論文です。

PDF登録状況(公開日: 20210627)

TitleAuthorsAbstract論文公表日・翻訳日
# 中心ポテンシャルに対する量子状態のR'enyi複雑性比の性質

Properties of R\'enyi complexity ratio of quantum states for central potential ( http://arxiv.org/abs/2008.05418v2 )

ライセンス: Link先を確認
Debraj Nath(参考訳) 2つの密度関数のr\'enyi複雑性比は、3次元および多次元量子系に導入された。 いくつかの密度関数の局在性が定義され、ルベーグ測度によってR'enyi複雑性比の連続性に近い5つの定理が証明される。 R'enyiの複雑性比のいくつかの性質が示され、異なる量子系に対して研究される。 r\'enyi entropy, r\'enyi complexity ratio, statistical complexities based on r\'enyi entropy for integral order(英語版)は擬調和の解と等スペクトルポテンシャルの族に対して提示されている。 R'enyiの複雑性比のいくつかの性質は、いくつかの二原子分子(CO, NO, N$_2$, CH, H$_2$, ScH)と他の量子系に対して検証される。

R\'enyi complexity ratio of two density functions is introduced for three and multidimensional quantum systems. Localization property of several density functions are defined and five theorems about near continuous property of R\'enyi complexity ratio are proved by Lebesgue measure. Some properties of R\'enyi complexity ratio are demonstrated and investigated for different quantum systems. Exact analytical forms of R\'enyi entropy, R\'enyi complexity ratio, statistical complexities based on R\'enyi entropy for integral order have been presented for solutions of pseudoharmonic and a family of isospectral potentials. Some properties of R\'enyi complexity ratio are verified for some diatomic molecules (CO, NO, N$_2$, CH, H$_2$, and ScH) and for some other quantum systems.
翻訳日:2023-05-06 11:38:28 公開日:2021-06-27
# 超伝導回路における非可換幾何制御なしゲートの実証

Demonstration of a non-Abelian geometric controlled-Not gate in a superconducting circuit ( http://arxiv.org/abs/2009.03610v3 )

ライセンス: Link先を確認
Kai Xu, Wen Ning, Xin-Jie Huang, Pei-Rong Han, Hekang Li, Zhen-Biao Yang, Dongning Zheng, Heng Fan, Shi-Biao Zheng(参考訳) ヒルベルト空間における量子状態の非アベル幾何学的変換から生じるホロノミーは、量子計算に有望な方法を提供する。 これらのホロノミーは可換ではないため、普遍的な量子論理ゲートの実現に利用することができる。 本稿では、ホロノミック量子コンピュータを構築するためのビルディングブロックである超伝導回路において、非アベル幾何学的制御なしゲートを初めてオンチップで実現する。 条件力学は、共振器に制御される複数の周波数可変超伝導量子ビットを含む全対全連結アーキテクチャにおいて達成され、共振器との共振に周波数を調整し、その一方に2トン駆動を施すことにより、任意の2つの量子ビット間のホロノミックゲートを実装できる。 このゲートは、超伝導プラットフォーム上でスケーラブルな量子計算を実現するための重要なステップである。

Holonomies, arising from non-Abelian geometric transformations of quantum states in Hilbert space, offer a promising way for quantum computation. These holonomies are not commutable and thus can be used for the realization of a universal set of quantum logic gates, where the global geometric feature may result in some noise-resilient advantages. Here we report the first on-chip realization of a non-Abelian geometric controlled-Not gate in a superconducting circuit, which is a building block for constructing a holonomic quantum computer. The conditional dynamics is achieved in an all-to-all connected architecture involving multiple frequency-tunable superconducting qubits controllably coupled to a resonator; a holonomic gate between any two qubits can be implemented by tuning their frequencies on resonance with the resonator and applying a two-tone drive to one of them. This gate represents an important step towards the all-geometric realization of scalable quantum computation on a superconducting platform.
翻訳日:2023-05-03 05:13:45 公開日:2021-06-27
# 一般化パウリチャネルの絡み合い自由パラメータ推定

Entanglement-Free Parameter Estimation of Generalized Pauli Channels ( http://arxiv.org/abs/2102.00740v2 )

ライセンス: Link先を確認
Junaid ur Rehman and Hyundong Shin(参考訳) 本研究では,$d$次元ヒルベルト空間に作用する一般化パウリチャネルに対するパラメータ推定プロトコルを提案する。 提案手法の顕著な特徴は,製品プローブの状態と測定値,$d$で線形な測定構成数,最小の後処理,および一般化されたPauliチャネルの絡み合いに基づくパラメータ推定手法に匹敵する平均2乗誤差のスケーリングである。 また、一般化されたパウリ作用素を測る際、パウリ雑音による誤差を測定誤差としてモデル化できることを示した。 これにより、測定誤差軽減フレームワークを利用して、一般的なpauliチャネルに起因するエラーを軽減することができる。 この結果を用いて、ノイズ強度依存定数係数を除いて、プローブ状態のノイズを緩和し、ノイズのないプローブのスケーリングを回復する。 この測定ノイズとしてパウリチャネルをモデル化する方法は、例えば状態トモグラフィー問題、変分量子アルゴリズム、およびパウリ測定が中心的な役割を果たす他のチャネル推定問題など、他のNISQタスクにも独立した関心を持つことができる。

We propose a parameter estimation protocol for generalized Pauli channels acting on $d$-dimensional Hilbert space. The salient features of the proposed method include product probe states and measurements, the number of measurement configurations linear in $d$, minimal post-processing, and the scaling of the mean square error comparable to that of the entanglement-based parameter estimation scheme for generalized Pauli channels. We also show that while measuring generalized Pauli operators the errors caused by the Pauli noise can be modeled as measurement errors. This makes it possible to utilize the measurement error mitigation framework to mitigate the errors caused by the generalized Pauli channels. We use this result to mitigate noise on the probe states and recover the scaling of the noiseless probes, except with a noise strength-dependent constant factor. This method of modeling Pauli channel as measurement noise can also be of independent interest in other NISQ tasks, e.g., state tomography problems, variational quantum algorithms, and other channel estimation problems where Pauli measurements have the central role.
翻訳日:2023-04-13 03:05:31 公開日:2021-06-27
# 量子化非線形トウレスポンプ

Quantized Nonlinear Thouless Pumping ( http://arxiv.org/abs/2106.14128v1 )

ライセンス: Link先を確認
Marius J\"urgensen, Sebabrata Mukherjee and Mikael C. Rechtsman(参考訳) 整数量子ホール効果で観測される鋭く量子化された輸送は、電子電荷が系の片側から他方に励起される、時間的、断続的に変化するポテンシャルを持つ単純な1次元モデルによって説明できる。 このいわゆる「トゥーレスポンプ」は、次元還元の概念を用いて量子ホール効果の位相物理学を捉えている: 時変ポテンシャルは、概念的な第二次元の運動量座標に数学的に写像する。 重要なことに、これは平衡状態および基底状態における電子系、すなわちフェルミエネルギー以下の一様充填バンドを持つものと仮定する。 本稿では,光子の量子化非線形トウレスポンピングを,一様でない帯域で理論的に提案し,実験的に実証する。 我々のシステムでは、非線形性はソリトン形成と自発的対称性破断分岐を通じて輸送を量子化する。 量子化は、与えられた単位セルを中心とする瞬間的なソリトン溶液が、各ポンプサイクルの後に、変換不変性まで同一であるという事実から導かれる。 その結果、非線形性と粒子間相互作用は、線形極限がなければ量子化された輸送と位相的挙動を誘導できることを示した。

The sharply quantized transport observed in the integer quantum Hall effect can be explained via a simple one-dimensional model with a time-periodic, adiabatically varying potential in which electronic charge is pumped from one side of the system to the other. This so-called `Thouless pump' captures the topological physics of the quantum Hall effect using the notion of dimensional reduction: The time-varying potential mathematically maps onto a momentum coordinate in a conceptual second dimension. Importantly, this assumes an electronic system in equilibrium and in its ground state, that is, with uniformly filled bands below a Fermi energy. Here, we theoretically propose and experimentally demonstrate quantized nonlinear Thouless pumping of photons with a band that is decidedly not uniformly occupied. In our system, nonlinearity acts to quantize transport via soliton formation and spontaneous symmetry breaking bifurcations. Quantization follows from the fact that the instantaneous soliton solutions centered upon a given unit cell are identical after each pump cycle, up to translation invariance; this is an entirely different mechanism from traditional Thouless pumping of fermions in equilibrium. Our result shows that nonlinearity and interparticle interactions can induce quantized transport and topological behavior even where the linear limit does not.
翻訳日:2023-03-24 23:30:44 公開日:2021-06-27
# 量子シミュレーションのためのフォトニックトポロジカル浴

Photonic Topological Baths for Quantum Simulation ( http://arxiv.org/abs/2106.14325v1 )

ライセンス: Link先を確認
Abhi Saxena, Yueyang Chen, Zhuoran Fang and Arka Majumdar(参考訳) 量子シミュレーションは、異なるハミルトニアンを実装し、量子化されたスペクトルを測定して量子多体系を研究するエンジニアリング装置を含む。 トポロジカルフォトニクスの最近の発展は、そのようなデバイスのトポロジカル特性を制御することによって、新しい量子現象を研究する可能性を示している。 ここでは、最大16個の高Qナノキャビティの結合配列を用いて、Su-Schrieffer-Heegerモデルに類似した量子フォトニック浴を実験的に実現する。 個々のスーパーモードを探索し, 製造誘発障害が浴槽に与える影響を調べ, 量子現象に対する障害効果を克服するために必要な設計緩和手順を実証する。

Quantum simulation involves engineering devices to implement different Hamiltonians and measuring their quantized spectra to study quantum many-body systems. Recent developments in topological photonics have shown the possibility of studying novel quantum phenomena by controlling the topological properties of such devices. Here, using coupled arrays of upto 16 high Q nano-cavities we experimentally realize quantum photonic baths which are analogs of the Su-Schrieffer-Heeger model. We investigate the effect of fabrication induced disorder on these baths by probing individual super-modes and demonstrate the design mitigation steps required to overcome the disorder effects on the quantum phenomena.
翻訳日:2023-03-24 23:28:33 公開日:2021-06-27
# 量子ビットのアルゴリズム的ランダム性とコルモゴロフ複雑性

Algorithmic Randomness and Kolmogorov Complexity for Qubits ( http://arxiv.org/abs/2106.14280v1 )

ライセンス: Link先を確認
Tejas Bhojraj(参考訳) nies と scholz は状態(無限量子弦)に対するランダム性(q-mlr)の量子マーティン・lを定義。 量子ソロワランダム性の概念を定義し、純粋線型代数的手法を用いてq-MLRと等価であることを示す。 量子シュノールランダム性が導入された。 大数の法則の量子アナログが量子シュノーラーランダム状態に対して成り立つことが示されている。 古典的なプレフィックスのないチューリングマシンを用いて密度行列の記述的複雑性を測る量子-K(QK$)を導入し、弱ソロワ乱数状態と量子シュノーラー乱数状態の初期セグメントが$QK$の意味で圧縮不能であることを示す。 solovayランダムネスと$k$の間のいくつかの接続は、弱いsolovayランダムネスと$qk$の間の接続に引き継がれる。 次に計算可能な測度マシンを用いて$QK_C$を定義し、量子シュノーラーランダムネスに接続する。 次に、状態の‘測定’という概念を探求する。 状態の'測定'が無限ビットストリングの空間上の確率測度をいかに誘導するかを形式化する。 ある状態が 'measurement random' (mr$) であるとは、それが引き起こす測度が、任意の計算可能な基礎の下で確率 1 をランダムの martin-l\" の集合に割り当てるときに言う。 つまり、$mr$の状態を測定すると、ほぼ確実にランダムビットストリングの martin-l\" を生成する。 ランダム状態の量子martin-l\" は $mr$ であるが、逆は失敗する: $mr$ 状態、$\rho$ があり、これはランダムな量子martin-l\" ではない。 実際、より強いものは真実である。 $\rho$ は計算可能で容易に構築できるが、計算可能な基底で測定すると確率 1 の算術的にランダムな列が得られる。 したがって、量子ランダムでない計算可能な状態から古典ランダム性を生成することができる。 我々は計算可能な状態の漸近フォン・ノイマンエントロピーを研究することで結論付ける。

Nies and Scholz defined quantum Martin-L\"of randomness (q-MLR) for states (infinite qubitstrings). We define a notion of quantum Solovay randomness and show it to be equivalent to q-MLR using purely linear algebraic methods. Quantum Schnorr randomness is then introduced. A quantum analogue of the law of large numbers is shown to hold for quantum Schnorr random states. We introduce quantum-K, ($QK$) a measure of the descriptive complexity of density matrices using classical prefix-free Turing machines and show that the initial segments of weak Solovay random and quantum Schnorr random states are incompressible in the sense of $QK$. Several connections between Solovay randomness and $K$ carry over to those between weak Solovay randomness and $QK$. We then define $QK_C$, using computable measure machines and connect it to quantum Schnorr randomness. We then explore a notion of `measuring' a state. We formalize how `measurement' of a state induces a probability measure on the space of infinite bitstrings. A state is `measurement random' ($mR$) if the measure induced by it, under any computable basis, assigns probability one to the set of Martin-L\"of randoms. I.e., measuring a $mR$ state produces a Martin-L\"of random bitstring almost surely. While quantum-Martin-L\"of random states are $mR$, the converse fails: there is a $mR$ state, $\rho$ which is not quantum-Martin-L\"of random. In fact, something stronger is true. While $\rho$ is computable and can be easily constructed, measuring it in any computable basis yields an arithmetically random sequence with probability one. So, classical randomness can be generated from a computable state which is not quantum random. We conclude by studying the asymptotic von Neumann entropy of computable states.
翻訳日:2023-03-24 23:27:40 公開日:2021-06-27
# 量子真空を通して原子を励起できる機械発振器

Mechanical Oscillator Can Excite an Atom Through the Quantum Vacuum ( http://arxiv.org/abs/2106.14206v1 )

ライセンス: Link先を確認
Miao Yin(参考訳) 強結合状態の機械振動子によって接続された空洞ミラーの1つを有する2光子Rabiモデルを考える。 キャビティが真空状態にある場合,キャビティの品質係数が極端に低い場合でも,原子と機械振動子の間に共鳴結合が存在することがわかった。 カップリングはコヒーレントであり、動的カシミール効果によって誘導される仮想光子対の交換によって達成できる。 さらに、1光子Rabiモデルを考えると、原子は1つの光子を仮想光子対から吸収し、もう1つの光子を実光子に変換することができる。 この挙動は有名なホーキング放射と類似している。 理論モデルで使用されるパラメータはすべて、現在実験で実現可能なデータである。 我々の理論は、量子情報からナノテクノロジーまで、新しい効果的な相互作用の1つを明らかにしている。

We consider a two-photon Rabi model with one of the cavity mirrors connected by a mechanical oscillator in strong-coupling regime. We find that when the cavity is in its vacuum state, there exists a resonant coupling between the atom and mechanical oscillator even if the quality factor of the cavity is ultra low. The coupling is coherent and can be achieved by the exchange of virtual photon pairs induced by dynamical Casimir effect. Moreover, when considering the one-photon Rabi model, we find that the atom can absorb one photon from a virtual photon pair, leaving the other converting to a real photon. The behavior shows analogy with the well-known Hawking radiation. The parameters used in our theoretical models are all feasible data in experiments at present. Our theory reveals a kind of novel effective interaction and may find applications ranging from quantum information to nanotechnology.
翻訳日:2023-03-24 23:26:50 公開日:2021-06-27
# シンボルから埋め込みへ:計算社会科学における2つの表現の物語

From Symbols to Embeddings: A Tale of Two Representations in Computational Social Science ( http://arxiv.org/abs/2106.14198v1 )

ライセンス: Link先を確認
Huimin Chen, Cheng Yang, Xuanming Zhang, Zhiyuan Liu, Maosong Sun, Jianbin Jin(参考訳) 社会科学問題に対処するための計算手法を活用することを目的とした計算社会科学(CSS)は,近年,急速に発展しつつある分野である。 CSSの研究は、データ駆動であり、調査用のリッチテキストとネットワークデータを含むオンラインユーザ生成コンテンツとソーシャルネットワークの可用性から大きな恩恵を受けている。 しかし、これらの大規模かつマルチモーダルなデータもまた、研究者に大きな課題を与えている。 その答えを探るために、テキストとネットワークの両方でcssのデータ表現を徹底的にレビューする。 具体的には、既存の表現をシンボルベースと埋め込みベースという2つのスキームにまとめ、各スキームに典型的な一連の方法を紹介する。 その後、CSSに関連する6つのトップ会場から400以上の研究論文を調査し、上記の表現の応用について述べる。 これらの応用の統計から,各種類の表現の強さを把握し,組込み型表現が出現し,過去10年間で注目を集めている傾向を明らかにする。 最後に,今後の課題と今後の課題について考察する。 この調査は、CSS研究者にデータ表現のより深く理解し、より推奨できる応用を提供することを目的としている。

Computational Social Science (CSS), aiming at utilizing computational methods to address social science problems, is a recent emerging and fast-developing field. The study of CSS is data-driven and significantly benefits from the availability of online user-generated contents and social networks, which contain rich text and network data for investigation. However, these large-scale and multi-modal data also present researchers with a great challenge: how to represent data effectively to mine the meanings we want in CSS? To explore the answer, we give a thorough review of data representations in CSS for both text and network. Specifically, we summarize existing representations into two schemes, namely symbol-based and embedding-based representations, and introduce a series of typical methods for each scheme. Afterwards, we present the applications of the above representations based on the investigation of more than 400 research articles from 6 top venues involved with CSS. From the statistics of these applications, we unearth the strength of each kind of representations and discover the tendency that embedding-based representations are emerging and obtaining increasing attention over the last decade. Finally, we discuss several key challenges and open issues for future directions. This survey aims to provide a deeper understanding and more advisable applications of data representations for CSS researchers.
翻訳日:2023-03-24 23:26:37 公開日:2021-06-27
# 敵防衛の責任は誰か

Who is Responsible for Adversarial Defense? ( http://arxiv.org/abs/2106.14152v1 )

ライセンス: Link先を確認
Kishor Datta Gupta, Dipankar Dasgupta(参考訳) AI/MLシステムにおける敵の攻撃と防御を目的とした研究が急増している。 新しい攻撃方法を定式化し、新しい防衛戦略を考案することが重要であるが、誰がこれらの防御の必要性を実践し、検証し、正当化しているかを認識することも不可欠である。 特に、システムのどのコンポーネントが敵攻撃の種類や、敵攻撃の重大さを実現するために必要な専門知識に対して脆弱である。 また、異なるアプリケーションに対する防衛戦略を推奨するために、敵の課題を評価し、対処する方法。 本稿では,誰が敵防衛を検討・実施すべきか,その背景にある理由について論じる。

We have seen a surge in research aims toward adversarial attacks and defenses in AI/ML systems. While it is crucial to formulate new attack methods and devise novel defense strategies for robustness, it is also imperative to recognize who is responsible for implementing, validating, and justifying the necessity of these defenses. In particular, which components of the system are vulnerable to what type of adversarial attacks, and the expertise needed to realize the severity of adversarial attacks. Also how to evaluate and address the adversarial challenges in order to recommend defense strategies for different applications. This paper opened a discussion on who should examine and implement the adversarial defenses and the reason behind such efforts.
翻訳日:2023-03-24 23:25:11 公開日:2021-06-27
# エッジデバイス間の協調モデル更新のためのオンデバイス連合学習手法

An On-Device Federated Learning Approach for Cooperative Model Update between Edge Devices ( http://arxiv.org/abs/2002.12301v5 )

ライセンス: Link先を確認
Rei Ito, Mineto Tsukada, Hiroki Matsutani(参考訳) ほとんどのエッジAIは、トレーニングがサーバマシンで行われる間、リソース制限されたエッジデバイス上の予測タスクに焦点を当てている。 しかし,環境変化によりモデルが時代遅れになりつつあるため,エッジデバイスではモデルの再トレーニングやカスタマイズが求められている。 このようなコンセプトドリフトに従うために、最近、デバイス上で学習するアプローチに基づくニューラルネットワークが提案され、エッジデバイスが実行時に入力データをトレーニングしてモデルを更新する。 この場合、トレーニングは分散エッジデバイスで行われるため、エッジデバイス毎に限られた量のトレーニングデータしか使用できない。 この問題に対処する方法として、エッジデバイスがトレーニングされた結果を交換し、他のデバイスから収集したデータを使用してモデルを更新する、協調学習あるいは連合学習がある。 本稿では、デバイス上での学習アルゴリズムとして、OS-ELM(Online Sequential Extreme Learning Machine)に着目し、最近のサンプルに基づいてモデルを逐次訓練し、異常検出のためのオートエンコーダと組み合わせる。 デバイス上でのフェデレーション学習のために拡張し、エッジデバイスがトレーニング結果を交換できるようにし、他のエッジデバイスから収集したデータを使用してモデルを更新します。 この協調モデル更新はワンショットであり、モデルの同期に繰り返し適用することができる。 本手法は,車両の運転データセット,人間の活動データセット,MNISTデータセットから生成される異常検出タスクを用いて評価する。 提案したデバイス上でのフェデレーション学習は,従来のバックプロパゲーションベースニューラルネットワークや,より低い計算や通信コストの従来のフェデレーション学習アプローチと同等の精度で,複数のエッジデバイスからトレーニングされた結果を統合することで,マージモデルを実現できることを示す。

Most edge AI focuses on prediction tasks on resource-limited edge devices while the training is done at server machines. However, retraining or customizing a model is required at edge devices as the model is becoming outdated due to environmental changes over time. To follow such a concept drift, a neural-network based on-device learning approach is recently proposed, so that edge devices train incoming data at runtime to update their model. In this case, since a training is done at distributed edge devices, the issue is that only a limited amount of training data can be used for each edge device. To address this issue, one approach is a cooperative learning or federated learning, where edge devices exchange their trained results and update their model by using those collected from the other devices. In this paper, as an on-device learning algorithm, we focus on OS-ELM (Online Sequential Extreme Learning Machine) to sequentially train a model based on recent samples and combine it with autoencoder for anomaly detection. We extend it for an on-device federated learning so that edge devices can exchange their trained results and update their model by using those collected from the other edge devices. This cooperative model update is one-shot while it can be repeatedly applied to synchronize their model. Our approach is evaluated with anomaly detection tasks generated from a driving dataset of cars, a human activity dataset, and MNIST dataset. The results demonstrate that the proposed on-device federated learning can produce a merged model by integrating trained results from multiple edge devices as accurately as traditional backpropagation based neural networks and a traditional federated learning approach with lower computation or communication cost.
翻訳日:2022-12-28 08:15:34 公開日:2021-06-27
# MQA: ロボット操作による質問への回答

MQA: Answering the Question via Robotic Manipulation ( http://arxiv.org/abs/2003.04641v3 )

ライセンス: Link先を確認
Yuhong Deng, Di Guo, Xiaofeng Guo, Naifu Zhang, Huaping Liu, Fuchun Sun(参考訳) 本稿では,ロボットが与えられた質問に答えるために,ロボットが環境を変える操作行動を行う新しいタスクであるマニピュレーション質問応答(mqa)を提案する。 この問題を解決するために,QAモジュールと操作モジュールからなるフレームワークを提案する。 QAモジュールでは,視覚質問応答(VQA)タスクの手法を採用する。 操作モジュールには、ロボットが環境と対話するための操作アクションを生成するために、Deep Q Network(DQN)モデルが設計されている。 質問への回答が見つかるまで,ロボットがビン内のオブジェクトを継続的に操作する状況を考える。 さらに、シミュレーション環境において、さまざまなオブジェクトモデル、シナリオ、および対応する質問応答ペアを含む新しいデータセットを確立する。 提案手法の有効性を検証するため, 大規模な実験を行った。

In this paper, we propose a novel task, Manipulation Question Answering (MQA), where the robot performs manipulation actions to change the environment in order to answer a given question. To solve this problem, a framework consisting of a QA module and a manipulation module is proposed. For the QA module, we adopt the method for the Visual Question Answering (VQA) task. For the manipulation module, a Deep Q Network (DQN) model is designed to generate manipulation actions for the robot to interact with the environment. We consider the situation where the robot continuously manipulating objects inside a bin until the answer to the question is found. Besides, a novel dataset that contains a variety of object models, scenarios and corresponding question-answer pairs is established in a simulation environment. Extensive experiments have been conducted to validate the effectiveness of the proposed framework.
翻訳日:2022-12-24 20:43:31 公開日:2021-06-27
# 多桁畳み込みニューラルネットワークを用いたバーコード復号のためのスマート推論

Smart Inference for Multidigit Convolutional Neural Network based Barcode Decoding ( http://arxiv.org/abs/2004.06297v3 )

ライセンス: Link先を確認
Thao Do, Yalew Tolcha, Tae Joon Jun, Daeyoung Kim(参考訳) バーコードはユビキタスであり、何十年にもわたって重要な日常活動のほとんどで使われている。 しかし、伝統的なデコーダのほとんどが、比較的標準的な条件下で十分に確立されたバーコードを必要とする。 未公開、隠蔽、ぼかし、しわめき、回転といった、より荒々しい条件付きバーコードは、現実には一般的に捕獲されるが、伝統的なデコーダは認識の弱点を示す。 これらの難解なバーコードを解く試みはいくつかあったが、多くの制限はまだ残っている。 本研究は,ポータブルデバイス上で動作可能な深層畳み込みニューラルネットワークを用いた復号問題を解決することを目的とする。 まず,学習モデルの予測段階でのスマート推論(si)と呼ばれる,チェックサムとテストタイムの加算機能に基づく推論の特別な修正を提案する。 SIは精度を大幅に向上し、訓練されたモデルの誤予測を減らす。 第2に,様々な課題条件下で実演された1dバーコードの大規模実用的評価データセットを作成し,本手法を精力的にテストした。 実験結果は、評価セットで既存の多くのデコーダを上回っていた95.85%の精度でsiの有効性を示した。 最後に, 実エッジ装置において, 画像当たり34.2msの精度で, 高精度(90.85%)の浅部モデルに, 知識蒸留による最適モデルの最小化に成功した。

Barcodes are ubiquitous and have been used in most of critical daily activities for decades. However, most of traditional decoders require well-founded barcode under a relatively standard condition. While wilder conditioned barcodes such as underexposed, occluded, blurry, wrinkled and rotated are commonly captured in reality, those traditional decoders show weakness of recognizing. Several works attempted to solve those challenging barcodes, but many limitations still exist. This work aims to solve the decoding problem using deep convolutional neural network with the possibility of running on portable devices. Firstly, we proposed a special modification of inference based on the feature of having checksum and test-time augmentation, named as Smart Inference (SI) in prediction phase of a trained model. SI considerably boosts accuracy and reduces the false prediction for trained models. Secondly, we have created a large practical evaluation dataset of real captured 1D barcode under various challenging conditions to test our methods vigorously, which is publicly available for other researchers. The experiments' results demonstrated the SI effectiveness with the highest accuracy of 95.85% which outperformed many existing decoders on the evaluation set. Finally, we successfully minimized the best model by knowledge distillation to a shallow model which is shown to have high accuracy (90.85%) with good inference speed of 34.2 ms per image on a real edge device.
翻訳日:2022-12-13 09:51:36 公開日:2021-06-27
# 多視点・多次元衛星画像とノイズOSMトレーニングラベルを用いた大面積地理領域のセマンティックラベリング

Semantic Labeling of Large-Area Geographic Regions Using Multi-View and Multi-Date Satellite Images and Noisy OSM Training Labels ( http://arxiv.org/abs/2008.10271v5 )

ライセンス: Link先を確認
Bharath Comandur and Avinash C. Kak(参考訳) 本稿では,OpenStreetMap(OSM)から得られた複数の重なり合う衛星画像とノイズの多いトレーニングラベルから,大規模地域(100 km$^2$)にわたる建物や道路を意味的にラベル付けする,新しい多視点トレーニングフレームワークとCNNアーキテクチャを提案する。 多視点セマンティックセグメンテーションへのアプローチは、クラスごとのIoUスコアを4-7%改善する。 我々のシステムのユニークな特性は、マルチビューデータから学習するためにCNNの尾端に追加される修正は、全体的なパフォーマンスにおいて比較的小さなペナルティを持つ推論時に破棄できるということです。 これは、複数のビューを使ったトレーニングの利点がネットワークのすべてのレイヤに吸収されることを意味する。 さらに、当社のアプローチでは、1シーンあたり32ビューのトレーニングであっても、GPUメモリ消費のオーバーヘッドが小さいだけである。 提案するシステムはエンドツーエンド自動で, 真の正光線を直接訓練した分類器を, 最初はオフナディア画像で訓練し, その後, 予測されたラベルを地理的座標に翻訳する。 人間の監督がないため、当社のIoUスコアは0.8と0.64であり、OSMラベルを使用する最先端のアプローチよりも優れており、完全に自動化されていない。

We present a novel multi-view training framework and CNN architecture for combining information from multiple overlapping satellite images and noisy training labels derived from OpenStreetMap (OSM) to semantically label buildings and roads across large geographic regions (100 km$^2$). Our approach to multi-view semantic segmentation yields a 4-7% improvement in the per-class IoU scores compared to the traditional approaches that use the views independently of one another. A unique (and, perhaps, surprising) property of our system is that modifications that are added to the tail-end of the CNN for learning from the multi-view data can be discarded at the time of inference with a relatively small penalty in the overall performance. This implies that the benefits of training using multiple views are absorbed by all the layers of the network. Additionally, our approach only adds a small overhead in terms of the GPU-memory consumption even when training with as many as 32 views per scene. The system we present is end-to-end automated, which facilitates comparing the classifiers trained directly on true orthophotos vis-a-vis first training them on the off-nadir images and subsequently translating the predicted labels to geographical coordinates. With no human supervision, our IoU scores for the buildings and roads classes are 0.8 and 0.64 respectively which are better than state-of-the-art approaches that use OSM labels and that are not completely automated.
翻訳日:2022-10-25 11:51:59 公開日:2021-06-27
# エントロピー正規化政策近似によるゼロサム確率ゲームにおけるnash平衡の学習

Learning Nash Equilibria in Zero-Sum Stochastic Games via Entropy-Regularized Policy Approximation ( http://arxiv.org/abs/2009.00162v2 )

ライセンス: Link先を確認
Yue Guan, Qifan Zhang, Panagiotis Tsiotras(参考訳) ゼロサム確率ゲームにおけるナッシュ均衡学習の計算コストを削減するためのポリシー近似の利用について検討する。 本稿では,エントロピー正規化ソフトポリシーの系列を用いて,q関数更新時のnashポリシーを近似する新しいq学習型アルゴリズムを提案する。 ある条件下では、正則化q関数を更新すれば、アルゴリズムはナッシュ平衡に収束する。 また,提案アルゴリズムが過去の訓練経験を伝達し,エージェントが新しい環境に迅速に適応できることを示す。 我々はさらに収束を早めるために動的ハイパーパラメータスケジューリングスキームを提供する。 多くの確率ゲームに適用された経験的結果は、提案アルゴリズムが既存のアルゴリズムよりも大きなスピードアップを示しながら、ナッシュ平衡に収束することを検証する。

We explore the use of policy approximations to reduce the computational cost of learning Nash equilibria in zero-sum stochastic games. We propose a new Q-learning type algorithm that uses a sequence of entropy-regularized soft policies to approximate the Nash policy during the Q-function updates. We prove that under certain conditions, by updating the regularized Q-function, the algorithm converges to a Nash equilibrium. We also demonstrate the proposed algorithm's ability to transfer previous training experiences, enabling the agents to adapt quickly to new environments. We provide a dynamic hyper-parameter scheduling scheme to further expedite convergence. Empirical results applied to a number of stochastic games verify that the proposed algorithm converges to the Nash equilibrium, while exhibiting a major speed-up over existing algorithms.
翻訳日:2022-10-23 01:00:52 公開日:2021-06-27
# 不完全・騒がしいランキングの集計

Aggregating Incomplete and Noisy Rankings ( http://arxiv.org/abs/2011.00810v2 )

ライセンス: Link先を確認
Dimitris Fotakis, Alkis Kalavasis, Konstantinos Stavropoulos(参考訳) 我々は,不完全で騒がしいランキングから選択肢の集合の真の順序を学習する問題を考える。 本稿では, ランク分布の古典的マロモデルと, 広範に研究されたペアワイズ比較モデルの両方の自然一般化について述べる。 我々の選択的mallowsモデルは、基盤となるmallows分布に基づいて、任意の選択肢のサブセットに対してノイズの多いランキングを出力する。 各選択肢のペアが十分な頻度で現れる部分集合の列を仮定すると、下位の完全なランキングと上位kの選択肢のランキングを選択マロのランキングから学習するサンプルの複雑さについて、漸近的に強固な上と下の境界が得られる。 さらに、(Braverman and Mossel, 2009) の業績に基づいて、選択的なマローズランキングから最大極大完備ランクを効率的に計算する方法を示す。

We consider the problem of learning the true ordering of a set of alternatives from largely incomplete and noisy rankings. We introduce a natural generalization of both the classical Mallows model of ranking distributions and the extensively studied model of noisy pairwise comparisons. Our selective Mallows model outputs a noisy ranking on any given subset of alternatives, based on an underlying Mallows distribution. Assuming a sequence of subsets where each pair of alternatives appears frequently enough, we obtain strong asymptotically tight upper and lower bounds on the sample complexity of learning the underlying complete ranking and the (identities and the) ranking of the top-k alternatives from selective Mallows rankings. Moreover, building on the work of (Braverman and Mossel, 2009), we show how to efficiently compute the maximum likelihood complete ranking from selective Mallows rankings.
翻訳日:2022-09-30 11:12:36 公開日:2021-06-27
# SemEval-2021 Task 6: BARTによるスパン検出と分類

WVOQ at SemEval-2021 Task 6: BART for Span Detection and Classification ( http://arxiv.org/abs/2107.05467v1 )

ライセンス: Link先を確認
Cees Roele(参考訳) テキスト入力をxmlライクなマークアップスパンでバージョンに変換するために,bartエンコーダデコーダモデルを用いたスパン検出と分類の新しいソリューションを提案する。 このマークアップはその後、フラグメントとそれらのクラスの開始と終了の識別に変換される。 この手法の相対的な成功とその限界について、事前学習の方法論が説明されている。 本稿では, semeval-2021 のタスク6:テキストと画像における説得技術の検出について報告する。

A novel solution to span detection and classification is presented in which a BART EncoderDecoder model is used to transform textual input into a version with XML-like marked up spans. This markup is subsequently translated to an identification of the beginning and end of fragments and of their classes. Discussed is how pre-training methodology both explains the relative success of this method and its limitations. This paper reports on participation in task 6 of SemEval-2021: Detection of Persuasion Techniques in Texts and Images.
翻訳日:2021-07-18 12:21:47 公開日:2021-06-27
# ミリ波の学習と適応:2次元時間スケール変動フレームワーク

Learning and Adaptation in Millimeter-Wave: a Dual Timescale Variational Framework ( http://arxiv.org/abs/2107.05466v1 )

ライセンス: Link先を確認
Muddassar Hussain, Nicolo Michelusi(参考訳) ミリ波車両ネットワークはビームトレーニングのオーバーヘッドが大きいため、狭ビーム通信が可能である。 This paper proposes a learning and adaptation framework in which the dynamics of the communication beams are learned and then exploited to design adaptive beam-training with low overhead: on a long-timescale, a deep recurrent variational autoencoder (DR-VAE) uses noisy beam-training observations to learn a probabilistic model of beam dynamics; on a short-timescale, an adaptive beam-training procedure is formulated as a partially observable (PO-) Markov decision process (MDP) and optimized via point-based value iteration (PBVI) by leveraging beam-training feedback and a probabilistic prediction of the strongest beam pair provided by the DR-VAE. ビームトレーニング観測は、学習と適応の継続的なプロセスにおいて、確率的勾配によるDR-VAEの洗練に使用される。 提案するdr-vaeモビリティ学習フレームワークは、正確なビームダイナミクスを学習する: 基底真理と学習ビームダイナミクスモデルの間のkullback-leiblerの発散を、baum-welchアルゴリズムを86%、フィードバックエラーを無視するナイーブモビリティ学習アプローチを92%削減する。 提案するデュアルタイムスケールアプローチは,誤差のないフィードバックと未知のモビリティモデルの下で動作するジェニー支援方式と比較して,スペクトル効率の無視できない損失をもたらす。 最後に,POMDP を誤差破壊 MDP に還元することで,低複雑さ政策を提案する。 その結果, pbviおよびエラーロバストmdpに基づく政策は, 主ビーム対で徹底的に走査する政策に対して, スペクトル効率を85%, 67%, 最先端pomdp政策で16%, 7%向上させた。

Millimeter-wave vehicular networks incur enormous beam-training overhead to enable narrow-beam communications. This paper proposes a learning and adaptation framework in which the dynamics of the communication beams are learned and then exploited to design adaptive beam-training with low overhead: on a long-timescale, a deep recurrent variational autoencoder (DR-VAE) uses noisy beam-training observations to learn a probabilistic model of beam dynamics; on a short-timescale, an adaptive beam-training procedure is formulated as a partially observable (PO-) Markov decision process (MDP) and optimized via point-based value iteration (PBVI) by leveraging beam-training feedback and a probabilistic prediction of the strongest beam pair provided by the DR-VAE. In turn, beam-training observations are used to refine the DR-VAE via stochastic gradient ascent in a continuous process of learning and adaptation. The proposed DR-VAE mobility learning framework learns accurate beam dynamics: it reduces the Kullback-Leibler divergence between the ground truth and the learned beam dynamics model by 86% over the Baum-Welch algorithm and by 92\% over a naive mobility learning approach that neglects feedback errors. The proposed dual-timescale approach yields a negligible loss of spectral efficiency compared to a genie-aided scheme operating under error-free feedback and foreknown mobility model. Finally, a low-complexity policy is proposed by reducing the POMDP to an error-robust MDP. It is shown that the PBVI- and error-robust MDP-based policies improve the spectral efficiency by 85% and 67%, respectively, over a policy that scans exhaustively over the dominant beam pairs, and by 16% and 7%, respectively, over a state-of-the-art POMDP policy.
翻訳日:2021-07-18 12:20:50 公開日:2021-06-27
# (参考訳) 機械翻訳・表現学習のためのパワーローグラフ変換

Power Law Graph Transformer for Machine Translation and Representation Learning ( http://arxiv.org/abs/2107.02039v1 )

ライセンス: CC BY 4.0
Burc Gokden(参考訳) 本稿では,予測と表現学習のための帰納的および帰納的タスクを適切に定義した変圧器モデルであるPower Law Graph Transformerを提案する。 デダクティブタスクは、学習可能なパワー法則分布パラメータの観点から、データセットレベル(グローバル)とインスタンスレベル(ローカル)グラフ構造を学習する。 インダクティブタスクは、トランスダクティブモデルと同様、インダクティブタスク出力を用いて予測確率を出力する。 機械翻訳のためのted talkの書き起こしからトルコ英語とポルトガル英語のデータセットを使ってモデルを訓練し、同じ実験環境で訓練された大規模ドット製品を持つトランスフォーマモデルと比較した。 bleuのスコアは17.79$と28.33$で、それぞれわれわれのモデルでトルコ語と英語とポルトガル語の翻訳タスクを扱っている。 また、量子化集合とN次元多様体表現の双対性を利用して、線形変換と非線形変換の連続的な応用を用いて局所的および大域的帰納的出力を変換できることを示す。

We present the Power Law Graph Transformer, a transformer model with well defined deductive and inductive tasks for prediction and representation learning. The deductive task learns the dataset level (global) and instance level (local) graph structures in terms of learnable power law distribution parameters. The inductive task outputs the prediction probabilities using the deductive task output, similar to a transductive model. We trained our model with Turkish-English and Portuguese-English datasets from TED talk transcripts for machine translation and compared the model performance and characteristics to a transformer model with scaled dot product attention trained on the same experimental setup. We report BLEU scores of $17.79$ and $28.33$ on the Turkish-English and Portuguese-English translation tasks with our model, respectively. We also show how a duality between a quantization set and N-dimensional manifold representation can be leveraged to transform between local and global deductive-inductive outputs using successive application of linear and non-linear transformations end-to-end.
翻訳日:2021-07-11 12:29:51 公開日:2021-06-27
# 免疫ミメティック深層ニューラルネットワーク(immuno-net)

Immuno-mimetic Deep Neural Networks (Immuno-Net) ( http://arxiv.org/abs/2107.02842v1 )

ライセンス: Link先を確認
Ren Wang, Tianqi Chen, Stephen Lindsly, Cooper Stansbury, Indika Rajapakse, Alfred Hero(参考訳) バイオミメティクスは、ニューラルネットワークの進化において重要な役割を果たす。 これまで、シリコのメタファーは神経科学と認知心理学の概念によって支配されてきた。 本稿では,ロバストな深層ニューラルネットワークを設計するために,免疫系の概念を借用した,異なるタイプの生体模倣モデルを提案する。 この免疫模倣モデルは、敵対的攻撃に対するディープニューラルネットワークの堅牢化のための新しい計算生物学フレームワークをもたらす。 この免疫ネットフレームワーク内では、シリコにおいて、哺乳類の宿主を病原体攻撃から守るために使用されるb細胞の適応的生物学的メカニズムを模倣するロバストな適応免疫インスパイアされた学習システム(免疫ネットレール)を定義します。 ベンチマークデータセット上の画像分類タスクに適用すると、Immuno-net RAILSは、クリーンデータに精度を損なうことなく、ベースライン法であるDkNNの逆精度を最大12.5%向上することを示した。

Biomimetics has played a key role in the evolution of artificial neural networks. Thus far, in silico metaphors have been dominated by concepts from neuroscience and cognitive psychology. In this paper we introduce a different type of biomimetic model, one that borrows concepts from the immune system, for designing robust deep neural networks. This immuno-mimetic model leads to a new computational biology framework for robustification of deep neural networks against adversarial attacks. Within this Immuno-Net framework we define a robust adaptive immune-inspired learning system (Immuno-Net RAILS) that emulates, in silico, the adaptive biological mechanisms of B-cells that are used to defend a mammalian host against pathogenic attacks. When applied to image classification tasks on benchmark datasets, we demonstrate that Immuno-net RAILS results in improvement of as much as 12.5% in adversarial accuracy of a baseline method, the DkNN-robustified CNN, without appreciable loss of accuracy on clean data.
翻訳日:2021-07-11 11:34:41 公開日:2021-06-27
# RAILS:ロバストな対人免疫誘発学習システム

RAILS: A Robust Adversarial Immune-inspired Learning System ( http://arxiv.org/abs/2107.02840v1 )

ライセンス: Link先を確認
Ren Wang, Tianqi Chen, Stephen Lindsly, Cooper Stansbury, Alnawaz Rehemtulla, Indika Rajapakse, Alfred Hero(参考訳) ディープニューラルネットワーク(DNN)に対する敵対的攻撃は継続的に進化し、ますます強力な防衛戦略を必要としている。 本稿では,ロバスト免疫誘導学習システム(RAILS)の適応免疫システムにヒントを得た,新たな対人防御フレームワークを開発する。 RAILSは、クラス間でバランスの取れた模範者の集団を初期化し、多様性を奨励し、潜在的に腐敗した初期条件を脱臭する均一なラベル分布から始める。 RAILSは、ラベルの分布を調整し、真理への特異性を達成するための進化的最適化プロセスを実装している。 RAILSは、堅牢性(多様性)と正確性(特異性)のトレードオフを示し、敵対的学習に対する新たな免疫に触発された視点を提供する。 我々は,MNIST,SVHN,CIFAR-10データセット上の複数の逆画像分類実験を通じて,RAILSの利点を実証的に検証した。 PGD攻撃では、RAILSは、標準精度を損なうことなく、それぞれ5.62%、12.5%、および10.32%の既存の手法よりも堅牢性を向上させる。

Adversarial attacks against deep neural networks (DNNs) are continuously evolving, requiring increasingly powerful defense strategies. We develop a novel adversarial defense framework inspired by the adaptive immune system: the Robust Adversarial Immune-inspired Learning System (RAILS). Initializing a population of exemplars that is balanced across classes, RAILS starts from a uniform label distribution that encourages diversity and debiases a potentially corrupted initial condition. RAILS implements an evolutionary optimization process to adjust the label distribution and achieve specificity towards ground truth. RAILS displays a tradeoff between robustness (diversity) and accuracy (specificity), providing a new immune-inspired perspective on adversarial learning. We empirically validate the benefits of RAILS through several adversarial image classification experiments on MNIST, SVHN, and CIFAR-10 datasets. For the PGD attack, RAILS is found to improve the robustness over existing methods by >= 5.62%, 12.5% and 10.32%, respectively, without appreciable loss of standard accuracy.
翻訳日:2021-07-11 11:32:50 公開日:2021-06-27
# (参考訳) サイリエンシに基づくXAI手法のクラウドソーシングによる評価

Crowdsourcing Evaluation of Saliency-based XAI Methods ( http://arxiv.org/abs/2107.00456v1 )

ライセンス: CC BY 4.0
Xiaotian Lu, Arseny Tolmachev, Tatsuya Yamamoto, Koh Takeuchi, Seiji Okajima, Tomoyoshi Takebayashi, Koji Maruhashi, Hisashi Kashima(参考訳) ディープニューラルネットワークによる予測の背後にある理由を理解することは、近年のAI(XAI)における説明可能性の増大に反映される多くの重要なアプリケーションにおいて、人間の信頼を得る上で重要である。 分類器による決定に寄与する画像の重要部分を強調した残差に基づく特徴属性法は、XAI法、特にコンピュータビジョンの分野でよく用いられる。 様々なサリエンシーに基づくxai手法を定量的に比較するために, 自動評価手法に対するいくつかのアプローチが提案されているが, 自動評価基準が説明可能性を正確に評価する保証はなく, 自動評価方式による評価が必ずしも人間の説明可能性が高いとは限らない。 本研究では, 自動評価の代わりに, クラウドソーシングによるXAI手法の評価手法を提案する。 本手法は,人間の計算ゲーム「peek-a-boom」に触発され,群集の力を生かして異なるxai手法を効率的に比較できる。 自動評価と群集評価を併用した2つのデータセットを対象とした各種XAI手法のサリエンシマップの評価を行った。 実験の結果, 自動評価方式とは, クラウドベース評価方式の結果が異なることがわかった。 さらに,群集による評価結果を基礎的事実とみなし,異なる自動評価方式を比較するための定量的評価指標を提供する。 また, 群集労働者が結果に与える影響についても検討し, 群集労働者の多様性が結果に有意な影響を及ぼさないことを示す。

Understanding the reasons behind the predictions made by deep neural networks is critical for gaining human trust in many important applications, which is reflected in the increasing demand for explainability in AI (XAI) in recent years. Saliency-based feature attribution methods, which highlight important parts of images that contribute to decisions by classifiers, are often used as XAI methods, especially in the field of computer vision. In order to compare various saliency-based XAI methods quantitatively, several approaches for automated evaluation schemes have been proposed; however, there is no guarantee that such automated evaluation metrics correctly evaluate explainability, and a high rating by an automated evaluation scheme does not necessarily mean a high explainability for humans. In this study, instead of the automated evaluation, we propose a new human-based evaluation scheme using crowdsourcing to evaluate XAI methods. Our method is inspired by a human computation game, "Peek-a-boom", and can efficiently compare different XAI methods by exploiting the power of crowds. We evaluate the saliency maps of various XAI methods on two datasets with automated and crowd-based evaluation schemes. Our experiments show that the result of our crowd-based evaluation scheme is different from those of automated evaluation schemes. In addition, we regard the crowd-based evaluation results as ground truths and provide a quantitative performance measure to compare different automated evaluation schemes. We also discuss the impact of crowd workers on the results and show that the varying ability of crowd workers does not significantly impact the results.
翻訳日:2021-07-03 06:47:12 公開日:2021-06-27
# クリックスルーレート予測のためのオンラインインタラクション検出

Online Interaction Detection for Click-Through Rate Prediction ( http://arxiv.org/abs/2106.15400v1 )

ライセンス: Link先を確認
Qiuqiang Lin and Chuanhou Gao(参考訳) クリックスルー率予測は、特定のリンクのクリックとインプレッションの比率を予測することを目的としている。 1つのホットエンコーディングが適用された場合、入力は極端に高次元であり、(2)元の特徴だけでなく、それらの相互作用も重要である、(3)有効予測は異なる期間の異なる特徴と相互作用に依存する可能性があるため、これは難しい課題である。 これらの課題を克服するために,オンラインランダム交差点チェーンと呼ばれる新しいインタラクション検出手法を提案する。 頻繁なアイテムセットマイニングのアイデアに基づくこの手法は,ランダムに選択されたサンプルの交点を観察することで,情報的インタラクションを検出する。 検出された相互作用は、論理式として解釈できるため、高い解釈性を持つ。 ORICは、新しいデータが収集されるたびに更新されるが、過去のデータで再トレーニングされることはない。 さらに、過去のデータと最新のデータの重要性は、チューニングパラメータによって制御できる。 フレームワークはストリーミングインタラクションを扱うように設計されているため、既存のCTR予測モデルのほとんどは、インタラクション検出後に適用することができる。 実験結果は,3つのベンチマークデータセット上でのORICの有効性と有効性を示す。

Click-Through Rate prediction aims to predict the ratio of clicks to impressions of a specific link. This is a challenging task since (1) there are usually categorical features, and the inputs will be extremely high-dimensional if one-hot encoding is applied, (2) not only the original features but also their interactions are important, (3) an effective prediction may rely on different features and interactions in different time periods. To overcome these difficulties, we propose a new interaction detection method, named Online Random Intersection Chains. The method, which is based on the idea of frequent itemset mining, detects informative interactions by observing the intersections of randomly chosen samples. The discovered interactions enjoy high interpretability as they can be comprehended as logical expressions. ORIC can be updated every time new data is collected, without being retrained on historical data. What's more, the importance of the historical and latest data can be controlled by a tuning parameter. A framework is designed to deal with the streaming interactions, so almost all existing models for CTR prediction can be applied after interaction detection. Empirical results demonstrate the efficiency and effectiveness of ORIC on three benchmark datasets.
翻訳日:2021-06-30 15:40:50 公開日:2021-06-27
# ビデオレコメンデーションのための行動認識型グラフ畳み込みネットワークモデル

A Behavior-aware Graph Convolution Network Model for Video Recommendation ( http://arxiv.org/abs/2106.15402v1 )

ライセンス: Link先を確認
Wei Zhuo, Kunchi Liu, Taofeng Xue, Beihong Jin, Beibei Li, Xinzhou Dong, He Chen, Wenhai Pan, Xuejian Zhang, Shuo Zhou(参考訳) ユーザとビデオ間のインタラクションは、ビデオレコメンデーションを行う主要なデータソースである。 既存のレコメンデーション手法はたくさんあるが、ユーザーとビデオの複雑な関係を示唆するビデオ上のユーザー行動は、まだ完全には調査されていない。 本論文では, sagittarius というモデルを紹介する。 sagittariusはグラフ畳み込みニューラルネットワークを採用し、ユーザとビデオ間の影響力を捉える。 特に、Sagittariusはユーザー行動の重み付けによって異なるユーザー行動の区別をし、ユーザー行動の意味をユーザーとビデオの埋め込みに融合させる。 さらに、Sagittariusは複数の最適化目標を組み合わせてユーザとビデオの埋め込みを学習し、学習したユーザとビデオの埋め込みによるビデオレコメンデーションを達成する。 複数のデータセットの実験的結果は、sagittariusがリコール、ユニークリコール、ndcgの点で最先端モデルを上回ることを示している。

Interactions between users and videos are the major data source of performing video recommendation. Despite lots of existing recommendation methods, user behaviors on videos, which imply the complex relations between users and videos, are still far from being fully explored. In the paper, we present a model named Sagittarius. Sagittarius adopts a graph convolutional neural network to capture the influence between users and videos. In particular, Sagittarius differentiates between different user behaviors by weighting and fuses the semantics of user behaviors into the embeddings of users and videos. Moreover, Sagittarius combines multiple optimization objectives to learn user and video embeddings and then achieves the video recommendation by the learned user and video embeddings. The experimental results on multiple datasets show that Sagittarius outperforms several state-of-the-art models in terms of recall, unique recall and NDCG.
翻訳日:2021-06-30 15:24:42 公開日:2021-06-27
# DeepGD: GNNを用いたグラフ描画のためのディープラーニングフレームワーク

DeepGD: A Deep Learning Framework for Graph Drawing Using GNN ( http://arxiv.org/abs/2106.15347v1 )

ライセンス: Link先を確認
Xiaoqi Wang, Kevin Yen, Yifan Hu, Han-Wei Shen(参考訳) 過去数十年間、美的なグラフレイアウトを生成するために多くのグラフ描画技術が提案されてきた。 しかし、異なるレイアウト手法がグラフの異なる特徴を強調する傾向があるため、これは難しい課題である。 近年,深層学習に基づくグラフ描画アルゴリズムが登場しているが,再学習なしでは任意のグラフに一般化できないことが多い。 本稿では,畳み込みグラフニューラルネットワークを用いたディープラーニングフレームワークDeepGDを提案する。 優れたグラフレイアウトは、通常複数の美学を同時に準拠するので、複数の事前指定された美学の間で妥協してレイアウトを生成する。 トレードオフのバランスをとるために,トレーニング中の各審美の重み係数を動的に調整する2つの適応的トレーニング戦略を提案する。 DeepGDの量的および質的な評価は、任意のグラフを効果的に描画でき、異なる審美基準を調節する柔軟性があることを示している。

In the past decades, many graph drawing techniques have been proposed for generating aesthetically pleasing graph layouts. However, it remains a challenging task since different layout methods tend to highlight different characteristics of the graphs. Recently, studies on deep learning based graph drawing algorithm have emerged but they are often not generalizable to arbitrary graphs without re-training. In this paper, we propose a Convolutional Graph Neural Network based deep learning framework, DeepGD, which can draw arbitrary graphs once trained. It attempts to generate layouts by compromising among multiple pre-specified aesthetics considering a good graph layout usually complies with multiple aesthetics simultaneously. In order to balance the trade-off, we propose two adaptive training strategies which adjust the weight factor of each aesthetic dynamically during training. The quantitative and qualitative assessment of DeepGD demonstrates that it is capable of drawing arbitrary graphs effectively, while being flexible at accommodating different aesthetic criteria.
翻訳日:2021-06-30 15:23:19 公開日:2021-06-27
# 連合学習におけるインセンティブ機構の包括的調査

A Comprehensive Survey of Incentive Mechanism for Federated Learning ( http://arxiv.org/abs/2106.15406v1 )

ライセンス: Link先を確認
Rongfei Zeng, Chao Zeng, Xingwei Wang, Bo Li, Xiaowen Chu(参考訳) フェデレーション学習は、参加者が提供したさまざまなリソースを活用して、グローバルなモデルを協調的にトレーニングする。 このような有望なパラダイムでは、学習プロセスにおいて十分なトレーニングデータやその他のリソースなしでパフォーマンスが劣化する。 したがって、より多くの参加者に、フェデレーション学習への支払いで貴重なリソースに貢献するように促すことは極めて重要です。 本稿では,フェデレート学習のためのインセンティブスキームを包括的に調査する。 具体的には,フェデレーション学習におけるインセンティブ問題を特定し,様々なスキームの分類法を提案する。 その後,stackelbergゲーム,オークション,契約理論,shapley値,強化学習,ブロックチェーンなど,既存のインセンティブメカニズムを主要なテクニックとして要約する。 印象的な結果をレビューし、比較することで、将来の研究への3つの方向を見出した。

Federated learning utilizes various resources provided by participants to collaboratively train a global model, which potentially address the data privacy issue of machine learning. In such promising paradigm, the performance will be deteriorated without sufficient training data and other resources in the learning process. Thus, it is quite crucial to inspire more participants to contribute their valuable resources with some payments for federated learning. In this paper, we present a comprehensive survey of incentive schemes for federate learning. Specifically, we identify the incentive problem in federated learning and then provide a taxonomy for various schemes. Subsequently, we summarize the existing incentive mechanisms in terms of the main techniques, such as Stackelberg game, auction, contract theory, Shapley value, reinforcement learning, blockchain. By reviewing and comparing some impressive results, we figure out three directions for the future study.
翻訳日:2021-06-30 15:17:15 公開日:2021-06-27
# (参考訳) 深層強化学習のためのグラフ畳み込み記憶

Graph Convolutional Memory for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.14117v1 )

ライセンス: CC BY 4.0
Steven D. Morad, Stephan Liwicki, Amanda Prorok(参考訳) 部分観測可能なマルコフ決定過程(POMDP)を解くことは、エージェントが世界の不完全な視野を持つ現実世界のロボット問題に深部強化学習(DRL)を適用する際に重要である。 深部強化学習を用いてPOMDPを解くためのグラフ畳み込みメモリ(GCM)を提案する。 リカレントニューラルネットワーク(RNN)やトランスフォーマーとは異なり、GCMは知識グラフを介してドメイン固有の事前情報をメモリリコールプロセスに埋め込む。 グラフに事前情報をカプセル化することにより、GCMは特定のタスクに適応するが、どのDRLタスクにも適用できる。 グラフ畳み込みを用いて、GCMは畳み込みニューラルネットワーク(CNN)の画像特徴に類似した階層グラフ特徴を抽出する。 GCMは長期記憶(LSTM)、強化学習のためのゲートトランスフォーマー(GTrXL)、制御、長期的非逐次リコール、および3次元ナビゲーションタスクにおける微分可能なニューラルネットワーク(DNC)に優れており、パラメータは著しく少ない。

Solving partially-observable Markov decision processes (POMDPs) is critical when applying deep reinforcement learning (DRL) to real-world robotics problems, where agents have an incomplete view of the world. We present graph convolutional memory (GCM) for solving POMDPs using deep reinforcement learning. Unlike recurrent neural networks (RNNs) or transformers, GCM embeds domain-specific priors into the memory recall process via a knowledge graph. By encapsulating priors in the graph, GCM adapts to specific tasks but remains applicable to any DRL task. Using graph convolutions, GCM extracts hierarchical graph features, analogous to image features in a convolutional neural network (CNN). We show GCM outperforms long short-term memory (LSTM), gated transformers for reinforcement learning (GTrXL), and differentiable neural computers (DNCs) on control, long-term non-sequential recall, and 3D navigation tasks while using significantly fewer parameters.
翻訳日:2021-06-30 06:19:21 公開日:2021-06-27
# (参考訳) 大規模言語と視覚モデルによる視覚概念のブレンド

Visual Conceptual Blending with Large-scale Language and Vision Models ( http://arxiv.org/abs/2106.14127v1 )

ライセンス: CC BY 4.0
Songwei Ge and Devi Parikh(参考訳) 最近の大規模言語と画像生成モデルは、どのようにして視覚概念を融合できるのか? 任意のオブジェクトが与えられた場合、関連するオブジェクトを識別し、言語モデルを用いて2つのブレンドのシングルセンテンス記述を生成する。 次にテキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。 定量的・質的評価は, 古典的ブレンド法よりも言語モデルが優れていること, 視覚表現の先行モデルよりも近年の大規模画像生成モデルが優れていることを示す。

We ask the question: to what extent can recent large-scale language and image generation models blend visual concepts? Given an arbitrary object, we identify a relevant object and generate a single-sentence description of the blend of the two using a language model. We then generate a visual depiction of the blend using a text-based image generation model. Quantitative and qualitative evaluations demonstrate the superiority of language models over classical methods for conceptual blending, and of recent large-scale image generation models over prior models for the visual depiction.
翻訳日:2021-06-30 06:02:23 公開日:2021-06-27
# (参考訳) 深部強化学習による自律容器の連続制御

Continuous Control with Deep Reinforcement Learning for Autonomous Vessels ( http://arxiv.org/abs/2106.14130v1 )

ライセンス: CC BY 4.0
Nader Zare and Bruno Brandoli and Mahtab Sarvmaili and Amilcar Soares and Stan Matwin(参考訳) 海洋自律輸送は世界経済のグローバル化において重要な役割を担ってきた。 深部強化学習(DRL)は,開海での船舶衝突回避状況をシミュレートする自動経路計画に応用されている。 入力から直接複雑なマッピングを学習するエンドツーエンドアプローチは、異なる環境でターゲットに到達するための一般化が不十分である。 本研究では, 得られた経験(状態動作状態)を回転させ, リプレイバッファに保存することで, エージェントの性能を向上させるための, 状態動作回転と呼ばれる新しい戦略を提案する。 我々は、Deep Deterministic Policy Gradient、ローカルビューメーカ、プランナーに基づくモデルを設計した。 エージェントは2つの深い畳み込みニューラルネットワークを用いて、ポリシーとアクション値関数を推定する。 提案されたモデルは、モントリオールやハリファックスのような都市の実際の地図と共に、海洋シナリオで徹底的に訓練され、テストされた。 実験結果から,CVN上における状態-作用回転は,プランナー・ローカルビュー (VNPLV) による容器ナビゲータに対して,目的地への到着率(RATD)を1.96%向上させるとともに,見当たらないマッピングでは30.82%向上することがわかった。 提案手法は, 新たな環境下での試験において, 強靭性の観点からの利点を示し, 状態-作用回転を用いて一般化を実現できるという考えを支持する。

Maritime autonomous transportation has played a crucial role in the globalization of the world economy. Deep Reinforcement Learning (DRL) has been applied to automatic path planning to simulate vessel collision avoidance situations in open seas. End-to-end approaches that learn complex mappings directly from the input have poor generalization to reach the targets in different environments. In this work, we present a new strategy called state-action rotation to improve agent's performance in unseen situations by rotating the obtained experience (state-action-state) and preserving them in the replay buffer. We designed our model based on Deep Deterministic Policy Gradient, local view maker, and planner. Our agent uses two deep Convolutional Neural Networks to estimate the policy and action-value functions. The proposed model was exhaustively trained and tested in maritime scenarios with real maps from cities such as Montreal and Halifax. Experimental results show that the state-action rotation on top of the CVN consistently improves the rate of arrival to a destination (RATD) by up 11.96% with respect to the Vessel Navigator with Planner and Local View (VNPLV), as well as it achieves superior performance in unseen mappings by up 30.82%. Our proposed approach exhibits advantages in terms of robustness when tested in a new environment, supporting the idea that generalization can be achieved by using state-action rotation.
翻訳日:2021-06-30 05:53:39 公開日:2021-06-27
# (参考訳) symbolicgpt: シンボリック回帰のための生成トランスフォーマモデル

SymbolicGPT: A Generative Transformer Model for Symbolic Regression ( http://arxiv.org/abs/2106.14131v1 )

ライセンス: CC BY-SA 4.0
Mojtaba Valipour, Bowen You, Maysum Panju, Ali Ghodsi(参考訳) 記号回帰は、与えられた入力値と出力値のデータセットに最も適合する数学的表現を特定するタスクである。 数学的表現の空間の豊かさのため、記号回帰は一般に難しい問題である。 遺伝的進化アルゴリズムに基づく従来のアプローチは何十年も使われてきたが、ディープラーニングベースの手法は比較的新しく、活発な研究領域である。 本稿では,シンボル回帰のための新しいトランスフォーマーベース言語モデルであるSybolicGPTを提案する。 このモデルは、パフォーマンスと柔軟性の強さを含むGPTのような確率的言語モデルの利点を利用する。 包括的実験により,本モデルは,精度,実行時間,データ効率に関して,競合するモデルと比較して強い性能を示す。

Symbolic regression is the task of identifying a mathematical expression that best fits a provided dataset of input and output values. Due to the richness of the space of mathematical expressions, symbolic regression is generally a challenging problem. While conventional approaches based on genetic evolution algorithms have been used for decades, deep learning-based methods are relatively new and an active research area. In this work, we present SymbolicGPT, a novel transformer-based language model for symbolic regression. This model exploits the advantages of probabilistic language models like GPT, including strength in performance and flexibility. Through comprehensive experiments, we show that our model performs strongly compared to competing models with respect to the accuracy, running time, and data efficiency.
翻訳日:2021-06-30 05:38:04 公開日:2021-06-27
# (参考訳) NLPを用いた無機材料文学の研究動向分析

Analyzing Research Trends in Inorganic Materials Literature Using NLP ( http://arxiv.org/abs/2106.14157v1 )

ライセンス: CC BY 4.0
Fusataka Kuniyoshi and Jun Ozawa and Makoto Miwa(参考訳) 無機材料科学の分野では、多数の論文を機械読解することで材料の物性や合成過程などの知識を抽出する需要が高まっている。 これは、材料研究者が材料合成実験の有望な用語を考案するために多くの論文を参照しているためである。 しかし、物質名とその特性を抽出できるシステムはごくわずかである。 本研究では,材料科学文献から材料名とプロパティを抽出し,材料科学における結果の検索と検索を可能にする,大規模自然言語処理パイプラインを提案する。 そこで本稿では,資料名とプロパティを抽出するラベル定義を提案し,301論文から抽出した836段落を含むコーパスを構築し,名前付きエンティティ認識(NER)モデルをトレーニングする。 実験の結果、このNERモデルの有用性が示され、マイクロF1スコア78.1%で抽出に成功した。 提案手法の有効性を示すため,12,895論文にNERモデルを適用し,実世界の自動注釈コーパスについて徹底的な評価を行った。 NLPパイプラインの出力を可視化することで材料科学のトレンドを分析する。 例えば、国家ごとの分析では、近年、ペロブスカイト太陽電池で使用される「MoS2」に関する論文の数は、中国では急速に増加しているが、米国では減少している。 さらに、条件別分析により、触媒材料「PEDOT:PSS」の処理温度が200度以下に変化し、処理時間が5hを超えるレポートの数がわずかに増加している。

In the field of inorganic materials science, there is a growing demand to extract knowledge such as physical properties and synthesis processes of materials by machine-reading a large number of papers. This is because materials researchers refer to many papers in order to come up with promising terms of experiments for material synthesis. However, there are only a few systems that can extract material names and their properties. This study proposes a large-scale natural language processing (NLP) pipeline for extracting material names and properties from materials science literature to enable the search and retrieval of results in materials science. Therefore, we propose a label definition for extracting material names and properties and accordingly build a corpus containing 836 annotated paragraphs extracted from 301 papers for training a named entity recognition (NER) model. Experimental results demonstrate the utility of this NER model; it achieves successful extraction with a micro-F1 score of 78.1%. To demonstrate the efficacy of our approach, we present a thorough evaluation on a real-world automatically annotated corpus by applying our trained NER model to 12,895 materials science papers. We analyze the trend in materials science by visualizing the outputs of the NLP pipeline. For example, the country-by-year analysis indicates that in recent years, the number of papers on "MoS2," a material used in perovskite solar cells, has been increasing rapidly in China but decreasing in the United States. Further, according to the conditions-by-year analysis, the processing temperature of the catalyst material "PEDOT:PSS" is shifting below 200 degree, and the number of reports with a processing time exceeding 5 h is increasing slightly.
翻訳日:2021-06-30 05:25:48 公開日:2021-06-27
# (参考訳) Few-Shot Domain Expansion for Face Anti-Spoofing

Few-Shot Domain Expansion for Face Anti-Spoofing ( http://arxiv.org/abs/2106.14162v1 )

ライセンス: CC BY 4.0
Bowen Yang, Jing Zhang, Zhenfei Yin, Jing Shao(参考訳) face anti-spoofing (fas) は顔認識システムにおいて必須かつ広く使用されるモジュールである。 精度は高いが、非定常な適用環境と、現実世界のアプリケーションにおける新しいタイプのプレゼンテーション攻撃が出現する可能性があるため、fasシステムは決して完璧ではない。 実際には、新しいデプロイシナリオ(ターゲットドメイン)からのラベル付きサンプルと既存のソースドメイン内の豊富なラベル付き顔画像が与えられた場合、fasシステムは、元のドメインのパフォーマンスを犠牲にすることなく、新しいシナリオでうまく機能することが期待される。 この目的のために我々は,FSDE-FAS (Few-Shot Domain Expansion for Face Anti-Spoofing) という,より実用的な問題を特定し,対処する。 この問題は、ターゲットドメインのトレーニングサンプルが不十分な場合には、ターゲットドメインへの過度な適合と、ソースドメインの破滅的な忘れに悩まされる可能性があるため、難しい。 そこで本研究では,SASA(Site Transfer-based Augmentation for Semantic Alignment)フレームワークを提案する。 本稿では,フォトリアリスティックなスタイル転送に基づく補助サンプルを生成することにより,対象データを増やすことを提案する。 拡張データのアシスタントにより、さらに、インスタンスレベルと分散レベルの両方から異なるドメインを調整し、よりフォーゲッティングの少ない制約でソースドメインのパフォーマンスを安定化する、注意深く設計されたメカニズムを提案します。 FSDE-FASのシナリオをシミュレートするために2つのベンチマークが提案され,実験結果から,提案手法が最先端手法より優れていることが示された。

Face anti-spoofing (FAS) is an indispensable and widely used module in face recognition systems. Although high accuracy has been achieved, a FAS system will never be perfect due to the non-stationary applied environments and the potential emergence of new types of presentation attacks in real-world applications. In practice, given a handful of labeled samples from a new deployment scenario (target domain) and abundant labeled face images in the existing source domain, the FAS system is expected to perform well in the new scenario without sacrificing the performance on the original domain. To this end, we identify and address a more practical problem: Few-Shot Domain Expansion for Face Anti-Spoofing (FSDE-FAS). This problem is challenging since with insufficient target domain training samples, the model may suffer from both overfitting to the target domain and catastrophic forgetting of the source domain. To address the problem, this paper proposes a Style transfer-based Augmentation for Semantic Alignment (SASA) framework. We propose to augment the target data by generating auxiliary samples based on photorealistic style transfer. With the assistant of the augmented data, we further propose a carefully designed mechanism to align different domains from both instance-level and distribution-level, and then stabilize the performance on the source domain with a less-forgetting constraint. Two benchmarks are proposed to simulate the FSDE-FAS scenarios, and the experimental results show that the proposed SASA method outperforms state-of-the-art methods.
翻訳日:2021-06-30 05:20:07 公開日:2021-06-27
# (参考訳) PeCoQ: 知識グラフに関するペルシアの複雑な質問に対する回答データセット

PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge Graph ( http://arxiv.org/abs/2106.14167v1 )

ライセンス: CC BY 4.0
Romina Etezadi, Mehrnoush Shamsfard(参考訳) 質問応答システムは、構造化されていないテキストや知識グラフのような構造化データからユーザーの質問に対する答えを見つけることができる。 ディープラーニングモデルを含む教師付き学習アプローチを使って質問に答えるには、大規模なトレーニングデータセットが必要である。 近年,知識グラフに対する質問応答の課題として,いくつかのデータセットが提示されており,これが本論文の焦点となっている。 英語で多くのデータセットが提案されたが、ペルシア語ではいくつかの質問応答データセットがあった。 本稿では,ペルシャ質問応答のためのデータセットである \textit{pecoq} を紹介する。 このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。 各質問には、言語学者によって書かれたSPARQLクエリと2つのパラフレーズも提供されている。 データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。 本稿では,データセットの特徴について論じ,その構築方法について述べる。

Question answering systems may find the answers to users' questions from either unstructured texts or structured data such as knowledge graphs. Answering questions using supervised learning approaches including deep learning models need large training datasets. In recent years, some datasets have been presented for the task of Question answering over knowledge graphs, which is the focus of this paper. Although many datasets in English were proposed, there have been a few question-answering datasets in Persian. This paper introduces \textit{PeCoQ}, a dataset for Persian question answering. This dataset contains 10,000 complex questions and answers extracted from the Persian knowledge graph, FarsBase. For each question, the SPARQL query and two paraphrases that were written by linguists are provided as well. There are different types of complexities in the dataset, such as multi-relation, multi-entity, ordinal, and temporal constraints. In this paper, we discuss the dataset's characteristics and describe our methodology for building it.
翻訳日:2021-06-30 04:46:49 公開日:2021-06-27
# (参考訳) 医用画像分割における残留モーメント損失

Residual Moment Loss for Medical Image Segmentation ( http://arxiv.org/abs/2106.14178v1 )

ライセンス: CC BY 4.0
Quanziang Wang, Renzhen Wang, Yuexiang Li, Kai Ma, Yefeng Zheng, Deyu Meng(参考訳) 位置情報は,対象物体の多様体構造を捉えた深層学習モデルに有効であることが証明され,医用画像分割の精度が向上する。 しかし、既存のほとんどのメソッドは位置情報を暗黙的にエンコードしている。 距離変換マップは、各ピクセルから輪郭境界までの相対距離を記述し、ネットワークが学習できるようにする。 これらの暗黙のアプローチは位置情報(すなわち)を完全に活用しない。 ターゲットの絶対位置)。 本稿では,深層学習ネットワークのトレーニングにおいて,セグメント化対象の位置情報を明示的に埋め込むための新たな損失関数,すなわち残留モーメント(RM)損失を提案する。 特に、画像モーメントに動機づけられて、セグメンテーション予測マップと接地図は座標情報によって重み付けされる。 そして、RM損失により、2つの重み付き写像間の整合性の維持が促進され、セグメンテーションネットワークがターゲットを容易に特定し、多様体構造に関連した特徴を抽出する。 2d optic cup と disk segmentation と 3d left atrial segmentation の2つのデータセットについて広範囲に実験を行い,提案手法の有効性を確認した。 実験の結果, rm損失の有効性が示され, セグメント化ネットワークの精度が著しく向上した。

Location information is proven to benefit the deep learning models on capturing the manifold structure of target objects, and accordingly boosts the accuracy of medical image segmentation. However, most existing methods encode the location information in an implicit way, e.g. the distance transform maps, which describe the relative distance from each pixel to the contour boundary, for the network to learn. These implicit approaches do not fully exploit the position information (i.e. absolute location) of targets. In this paper, we propose a novel loss function, namely residual moment (RM) loss, to explicitly embed the location information of segmentation targets during the training of deep learning networks. Particularly, motivated by image moments, the segmentation prediction map and ground-truth map are weighted by coordinate information. Then our RM loss encourages the networks to maintain the consistency between the two weighted maps, which promotes the segmentation networks to easily locate the targets and extract manifold-structure-related features. We validate the proposed RM loss by conducting extensive experiments on two publicly available datasets, i.e., 2D optic cup and disk segmentation and 3D left atrial segmentation. The experimental results demonstrate the effectiveness of our RM loss, which significantly boosts the accuracy of segmentation networks.
翻訳日:2021-06-30 04:04:42 公開日:2021-06-27
# (参考訳) 視線における物語 : 対人視線推定のための個人差認識モデル

The Story in Your Eyes: An Individual-difference-aware Model for Cross-person Gaze Estimation ( http://arxiv.org/abs/2106.14183v1 )

ライセンス: CC BY 4.0
Jun Bao, Buyu Liu, Jun Yu(参考訳) 本研究では,人物別差分を明示的にモデル化することで,人物間視線予測タスクを目/顔画像で精査する手法を提案する。 具体的には、InitNetと呼ばれる既存の手法で最初の視線予測結果を得ることができ、次に3つのモジュール(Validity Module (VM), Self-Calibration (SC), Person-specific Transform (PT))を導入する。 現在の目/顔画像の信頼性を予測することで、VMは無効なサンプルを識別することができる。 視線を点滅させ モデリングプロセスにおける効果を減少させます 当社のscおよびptモジュールは、有効なサンプルのみの差異を補償することを学びます。 前者は、初期予測とデータセットの分散の間のギャップを埋めることによって、翻訳オフセットをモデル化する。 そして、後者は、同一人物の初期予測から情報を取り入れることで、より一般的な個人固有の変換を学習する。 我々は、EVE、XGaze、MPIIGazeの3つの公開データセット上で、私たちのアイデアを検証し、提案手法がSOTA法よりも優れていることを示す。 それぞれ21.7%、36.0%、32.9%の性能改善。 EVEデータセットのGAZE 2021コンペティションで優勝しました。 コードはhttps://github.com/bjj9/eve_scpt。

We propose a novel method on refining cross-person gaze prediction task with eye/face images only by explicitly modelling the person-specific differences. Specifically, we first assume that we can obtain some initial gaze prediction results with existing method, which we refer to as InitNet, and then introduce three modules, the Validity Module (VM), Self-Calibration (SC) and Person-specific Transform (PT)) Module. By predicting the reliability of current eye/face images, our VM is able to identify invalid samples, e.g. eye blinking images, and reduce their effects in our modelling process. Our SC and PT module then learn to compensate for the differences on valid samples only. The former models the translation offsets by bridging the gap between initial predictions and dataset-wise distribution. And the later learns more general person-specific transformation by incorporating the information from existing initial predictions of the same person. We validate our ideas on three publicly available datasets, EVE, XGaze and MPIIGaze and demonstrate that our proposed method outperforms the SOTA methods significantly on all of them, e.g. respectively 21.7%, 36.0% and 32.9% relative performance improvements. We won the GAZE 2021 Competition on the EVE dataset. Our code can be found here https://github.com/bjj9/EVE_SCPT.
翻訳日:2021-06-30 03:55:54 公開日:2021-06-27
# (参考訳) xaiによる管癌検出における深層学習モデルの検討

An XAI Approach to Deep Learning Models in the Detection of Ductal Carcinoma in Situ ( http://arxiv.org/abs/2106.14186v1 )

ライセンス: CC BY 4.0
Michele La Ferla, Matthew Montebello and Dylan Seychell(参考訳) 過去10年ほど、深層学習コミュニティでは、健康に関する問題、特に乳がんを解決しようとする反動があった。 2016年のcamlyon-16チャレンジに続いて、複数の研究者が畳み込みニューラルネットワーク(convolutional neural networks:cnns)の構築に時間を割いた。 特に早期乳癌の臨床的用語であるSitu(DCIS)の直腸癌が強調されている。 google deepmindは2020年に、乳がんを正しく診断するために放射線科医自身よりも優れていることを証明したモデルを開発した。 その結果,マンモグラムの分類に寄与する画素を強調するために,CNNの隠蔽層を通過する説明システムが必要であることがわかった。 そして、CBIS-DDSMイメージデータベースを使って、シェン教授が開発したオープンソースプロジェクトを選択しました。 後にResnet-50とVGG-16のパッチ分類器を使用して改善され、両者の結果を比較した。 その結果、Resnet-50は実験の早い段階で収束した。 montavon と binder による研究に続いて,deeptaylor layer-wise associated propagation (lrp) モデルを用いてマンモグラム内の画素と領域を強調し,その分類に最も寄与した。 これは元の画像の中のこれらのピクセルの地図として表現され、診断と最終分類にどの程度寄与するかに寄与する。 このアルゴリズムの最も重要な利点は、resnet-50パッチ分類器アーキテクチャで非常によく機能する点である。

During the last decade or so, there has been an insurgence in the deep learning community to solve health-related issues, particularly breast cancer. Following the Camelyon-16 challenge in 2016, several researchers have dedicated their time to build Convolutional Neural Networks (CNNs) to help radiologists and other clinicians diagnose breast cancer. In particular, there has been an emphasis on Ductal Carcinoma in Situ (DCIS); the clinical term for early-stage breast cancer. Large companies have given their fair share of research into this subject, among these Google Deepmind who developed a model in 2020 that has proven to be better than radiologists themselves to diagnose breast cancer correctly. We found that among the issues which exist, there is a need for an explanatory system that goes through the hidden layers of a CNN to highlight those pixels that contributed to the classification of a mammogram. We then chose an open-source, reasonably successful project developed by Prof. Shen, using the CBIS-DDSM image database to run our experiments on. It was later improved using the Resnet-50 and VGG-16 patch-classifiers, analytically comparing the outcome of both. The results showed that the Resnet-50 one converged earlier in the experiments. Following the research by Montavon and Binder, we used the DeepTaylor Layer-wise Relevance Propagation (LRP) model to highlight those pixels and regions within a mammogram which contribute most to its classification. This is represented as a map of those pixels in the original image, which contribute to the diagnosis and the extent to which they contribute to the final classification. The most significant advantage of this algorithm is that it performs exceptionally well with the Resnet-50 patch classifier architecture.
翻訳日:2021-06-30 03:41:46 公開日:2021-06-27
# (参考訳) 画像からの幾何学的構成問題の解法

Learning to solve geometric construction problems from images ( http://arxiv.org/abs/2106.14195v1 )

ライセンス: CC BY 4.0
J. Macke, J. Sedlar, M. Olsak, J. Urban, J. Sivic(参考訳) ユークリダ幾何学ゲームにおける定規とコンパスによる幾何学的構成を見つけるための純画像ベース手法について述べる。 この方法は、Mask R-CNNの最先端の画像処理ニューラルアーキテクチャに適応し、木に基づく探索手順を付加することに基づいている。 教師付き設定では、平均92%の精度で、ユークリッドの最初の6つのレベルパックから68種類の幾何学的構成問題を全て解くことを学習する。 新規な問題について評価すると、68種類のユークリッド問題の31を解くことができる。 この難易度の幾何学的構成問題を解くために、純粋に画像に基づく学習が訓練されたのはこれが初めてであると考えている。

We describe a purely image-based method for finding geometric constructions with a ruler and compass in the Euclidea geometric game. The method is based on adapting the Mask R-CNN state-of-the-art image processing neural architecture and adding a tree-based search procedure to it. In a supervised setting, the method learns to solve all 68 kinds of geometric construction problems from the first six level packs of Euclidea with an average 92% accuracy. When evaluated on new kinds of problems, the method can solve 31 of the 68 kinds of Euclidea problems. We believe that this is the first time that a purely image-based learning has been trained to solve geometric construction problems of this difficulty.
翻訳日:2021-06-30 03:26:00 公開日:2021-06-27
# (参考訳) KGRefiner:翻訳リンク予測手法の精度向上のための知識グラフ再構成

KGRefiner: Knowledge Graph Refinement for Improving Accuracy of Translational Link Prediction Methods ( http://arxiv.org/abs/2106.14233v1 )

ライセンス: CC BY 4.0
Mohammad Javad Saeedizade, Najmeh Torabian, Behrouz Minaei-Bidgoli(参考訳) リンク予測は、知識グラフに含まれる事実から推測することで、知識グラフのエンティティ間の欠落関係を予測するタスクである。 リンク予測における最近の研究は、ニューラルネットワークアーキテクチャやモデルの計算複雑性を付加する手法でより多くの層を使用することで、リンク予測精度を向上させるモデルを提供することを試みている。 本稿では,知識グラフをより情報にし,比較的高速な翻訳モデルを用いてリンク予測操作をより正確に行うことができる知識グラフの精細化手法を提案する。 transe、transh、transdなどの翻訳リンク予測モデルは、ディープラーニングアプローチよりもはるかに複雑さが低い。 この方法は、関係の階層構造と知識グラフ内のエンティティの階層構造を用いて、エンティティ情報をグラフに新しいエンティティとして付加し、それらの情報を含むノードに接続する。 提案手法は,h@10,mr,mrrにおける翻訳リンク予測手法の性能を著しく向上できることを示す。

Link prediction is the task of predicting missing relations between entities of the knowledge graph by inferring from the facts contained in it. Recent work in link prediction has attempted to provide a model for increasing link prediction accuracy by using more layers in neural network architecture or methods that add to the computational complexity of models. This paper we proposed a method for refining the knowledge graph, which makes the knowledge graph more informative, and link prediction operations can be performed more accurately using relatively fast translational models. Translational link prediction models, such as TransE, TransH, TransD, etc., have much less complexity than deep learning approaches. This method uses the hierarchy of relationships and also the hierarchy of entities in the knowledge graph to add the entity information as a new entity to the graph and connect it to the nodes which contain this information in their hierarchy. Our experiments show that our method can significantly increase the performance of translational link prediction methods in H@10, MR, MRR.
翻訳日:2021-06-30 03:13:43 公開日:2021-06-27
# (参考訳) 主成分分析による解釈可能なネットワーク表現学習

Interpretable Network Representation Learning with Principal Component Analysis ( http://arxiv.org/abs/2106.14238v1 )

ライセンス: CC BY 4.0
James D. Wilson, Jihui Lee(参考訳) ネットワーク価値データサンプルに対する解釈可能なネットワーク表現学習の問題を考える。 本稿では,ネットワークサンプルの統計的に意味のある低次元表現をサブグラフカウント統計を用いて同定するPCANアルゴリズムを提案する。 PCANプロシージャは、容易にネットワークサンプルの予測モデルを視覚化、探索、定式化できる解釈可能なフレームワークを提供する。 さらに,高速なサンプリングベースアルゴリズムであるspcanを導入することで,計算効率は大幅に向上するが,解釈可能性の利点を享受する。 ネットワークのサンプルがカーネルベースのランダムグラフの集合である共通状態下で,これらの2つの手法の関係を調査し,その大きなサンプル特性を解析する。 この体制下では、sPCAN法の埋め込みは中心極限定理を享受し、さらにPCANとsPCANの集団レベルの埋め込みは等価であることを示す。 我々は、pcanが生来のネットワークサンプルを可視化し、クラスター化し、分類する能力を評価する。例えば、機能的な接続ネットワークサンプルや、アメリカ合衆国上院の政治的共同投票習慣を記述した動的ネットワークなどである。 分析の結果,提案アルゴリズムは各サンプルのネットワークを記述する情報的・識別的特徴を提供することがわかった。 PCAN法とsPCAN法は、ネットワーク表現学習の現在の文献に基づいて構築され、ネットワーク価値データに対する解釈可能な学習の新たな行の舞台となる。 PCANおよびsPCANメソッド用の公開ソフトウェアはhttps://www.github.com/jihuilee/.comで入手できる。

We consider the problem of interpretable network representation learning for samples of network-valued data. We propose the Principal Component Analysis for Networks (PCAN) algorithm to identify statistically meaningful low-dimensional representations of a network sample via subgraph count statistics. The PCAN procedure provides an interpretable framework for which one can readily visualize, explore, and formulate predictive models for network samples. We furthermore introduce a fast sampling-based algorithm, sPCAN, which is significantly more computationally efficient than its counterpart, but still enjoys advantages of interpretability. We investigate the relationship between these two methods and analyze their large-sample properties under the common regime where the sample of networks is a collection of kernel-based random graphs. We show that under this regime, the embeddings of the sPCAN method enjoy a central limit theorem and moreover that the population level embeddings of PCAN and sPCAN are equivalent. We assess PCAN's ability to visualize, cluster, and classify observations in network samples arising in nature, including functional connectivity network samples and dynamic networks describing the political co-voting habits of the U.S. Senate. Our analyses reveal that our proposed algorithm provides informative and discriminatory features describing the networks in each sample. The PCAN and sPCAN methods build on the current literature of network representation learning and set the stage for a new line of research in interpretable learning on network-valued data. Publicly available software for the PCAN and sPCAN methods are available at https://www.github.com/jihuilee/.
翻訳日:2021-06-30 03:04:53 公開日:2021-06-27
# (参考訳) MTrans:加速MRI用マルチモード変圧器

MTrans: Multi-Modal Transformer for Accelerated MR Imaging ( http://arxiv.org/abs/2106.14248v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng and Yunlu Yan and Geng Chen, Huazhu Fu and Yong Xu and Ling Shao(参考訳) 多モード磁気共鳴(MR)イメージングは、高速MRイメージングのための新しい効果的ソリューションであり、補助的モードから誘導されたアンダーサンプルからターゲットモダリティを復元する際の優れた性能を提供する。 しかし、既存の作品は単に補助モダリティを事前情報として導入しており、2つのモダリティを融合するための潜在的なメカニズムに関する詳細な調査を欠いている。 さらに、彼らは通常、ローカル情報に重点を置いた畳み込みニューラルネットワーク(CNN)に依存しており、グローバル知識の長距離依存関係を完全にキャプチャすることができない。 そこで本研究では,MTrans(Multi-modal transformer)を提案する。 トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。 具体的には、目標モダリティと補助モダリティをまず2つの分岐に分割し、次にマルチモーダルトランスモジュールを用いて融合する。 このモジュールはクロスアテンションモジュールと呼ばれる改良されたマルチヘッドアテンション機構に基づいており、ターゲットのモダリティに寄与する補助モダリティから特徴を吸収する。 i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。 (ii) 各ブランチに異なるスケールで有用な情報を活用するために,新たなクロスアテンションモジュールを提案する。 異なる構造情報と微妙なピクセルレベルの情報の両方を持ち、ターゲットのモダリティを効果的に補う。

Accelerating multi-modal magnetic resonance (MR) imaging is a new and effective solution for fast MR imaging, providing superior performance in restoring the target modality from its undersampled counterpart with guidance from an auxiliary modality. However, existing works simply introduce the auxiliary modality as prior information, lacking in-depth investigations on the potential mechanisms for fusing two modalities. Further, they usually rely on the convolutional neural networks (CNNs), which focus on local information and prevent them from fully capturing the long-distance dependencies of global knowledge. To this end, we propose a multi-modal transformer (MTrans), which is capable of transferring multi-scale features from the target modality to the auxiliary modality, for accelerated MR imaging. By restructuring the transformer architecture, our MTrans gains a powerful ability to capture deep multi-modal information. More specifically, the target modality and the auxiliary modality are first split into two branches and then fused using a multi-modal transformer module. This module is based on an improved multi-head attention mechanism, named the cross attention module, which absorbs features from the auxiliary modality that contribute to the target modality. Our framework provides two appealing benefits: (i) MTrans is the first attempt at using improved transformers for multi-modal MR imaging, affording more global information compared with CNN-based methods. (ii) A new cross attention module is proposed to exploit the useful information in each branch at different scales. It affords both distinct structural information and subtle pixel-level information, which supplement the target modality effectively.
翻訳日:2021-06-30 03:03:46 公開日:2021-06-27
# (参考訳) 機械学習による概念モデリングのペアリング

Pairing Conceptual Modeling with Machine Learning ( http://arxiv.org/abs/2106.14251v1 )

ライセンス: CC BY 4.0
Wolfgang Maass, Veda C. Storey(参考訳) 概念モデリングと機械学習は、長い間研究の重要な分野として認識されてきた。 ビジネスや他のアプリケーション向けの大量のデータをデジタル化し処理することの重要性が増す中、これらの研究領域が相互に補完する方法について考えるのに役立つだろう。 どのように組み合わせられるかを理解するために、機械学習の基礎と開発サイクルの概要を提供する。 次に,概念モデリングを機械学習に適用する方法について検討し,概念モデリングをデータサイエンスプロジェクトに組み込むためのフレームワークを提案する。 このフレームワークは、医療アプリケーションに適用することで示される。 逆ペアリングの場合、機械学習は知識グラフだけでなく、テキストやルールマイニングによる概念モデリングに影響を与える可能性がある。 この方法で概念モデリングと機械学習を組み合わせることは、将来の研究の基礎を築くのに役立つだろう。

Both conceptual modeling and machine learning have long been recognized as important areas of research. With the increasing emphasis on digitizing and processing large amounts of data for business and other applications, it would be helpful to consider how these areas of research can complement each other. To understand how they can be paired, we provide an overview of machine learning foundations and development cycle. We then examine how conceptual modeling can be applied to machine learning and propose a framework for incorporating conceptual modeling into data science projects. The framework is illustrated by applying it to a healthcare application. For the inverse pairing, machine learning can impact conceptual modeling through text and rule mining, as well as knowledge graphs. The pairing of conceptual modeling and machine learning in this this way should help lay the foundations for future research.
翻訳日:2021-06-30 02:18:20 公開日:2021-06-27
# (参考訳) SDOF-Tracker:スクリッピング検出と光流による高速かつ高精度なマルチヒューマントラッキング

SDOF-Tracker: Fast and Accurate Multiple Human Tracking by Skipped-Detection and Optical-Flow ( http://arxiv.org/abs/2106.14259v1 )

ライセンス: CC BY 4.0
Hitoshi Nishimura, Satoshi Komorita, Yasutomo Kawanishi, Hiroshi Murase(参考訳) 複数の人間の追跡はシーン理解の基本的な問題である。 実世界のアプリケーションでは精度と速度の両方が要求されるが、ディープラーニングに基づく最近の追跡手法は精度を重視しており、かなりの実行時間を必要とする。 本研究は, 走行時間の大半を占めるため, 一定フレーム間隔で人間検出を行うことにより, 走行速度の向上を目的とする。 問題は、人間の検出をスキップしながら精度を維持する方法だ。 本稿では,隣接するフレーム間で人の外観があまり変化しないという事実に基づいて,検出結果を光学フローで補完する手法を提案する。 追跡精度を維持するために,人間の領域におけるロバストな関心点選択と,関心点の分布によって算出された追跡終了指標を提案する。 MOTChallengeのMOT20データセットでは、提案されたSDOF-Trackerは、MOTAメトリックを維持しながら、総実行速度で最高の性能を達成した。 私たちのコードはhttps://anonymous.4open.science/r/sdof-tracker-75AEで利用可能です。

Multiple human tracking is a fundamental problem for scene understanding. Although both accuracy and speed are required in real-world applications, recent tracking methods based on deep learning have focused on accuracy and require substantial running time. This study aims to improve running speed by performing human detection at a certain frame interval because it accounts for most of the running time. The question is how to maintain accuracy while skipping human detection. In this paper, we propose a method that complements the detection results with optical flow, based on the fact that someone's appearance does not change much between adjacent frames. To maintain the tracking accuracy, we introduce robust interest point selection within human regions and a tracking termination metric calculated by the distribution of the interest points. On the MOT20 dataset in the MOTChallenge, the proposed SDOF-Tracker achieved the best performance in terms of the total running speed while maintaining the MOTA metric. Our code is available at https://anonymous.4open.science/r/sdof-tracker-75AE.
翻訳日:2021-06-30 02:17:18 公開日:2021-06-27
# (参考訳) 3dポイントクラウドオブジェクトを忘れることなく学習する

Learning without Forgetting for 3D Point Cloud Objects ( http://arxiv.org/abs/2106.14275v1 )

ライセンス: CC BY 4.0
Townim Chowdhury, Mahira Jalisha, Ali Cheraghian, Shafin Rahman(参考訳) 新しいクラスに対して、よく訓練されたディープラーニングモデルを微調整すると、ネットワークは新しい概念を学ぶが、古いトレーニングの知識を徐々に忘れていく。 現実のアプリケーションでは、以前の経験を忘れずに新しいクラスを学ぶことに興味があるかもしれません。 このような学習は、2次元画像認識タスクを用いてしばしば検討される。 本稿では,深度カメラ技術の発展を考慮した3次元クラウドオブジェクトデータについても同様の問題に対処する。 この問題は、大規模なデータセットと強力な事前学習されたバックボーンモデルが利用できないため、2Dよりも3Dドメインの方が困難になる。 本研究では,3次元データにおける知識蒸留技術について検討し,先行訓練の破滅的な忘れ方を低減する。 さらに,オブジェクトクラスの意味的単語ベクトルを用いて蒸留プロセスを改善する。 学習中に古い知識と新しい知識の相互関係を調べることは、古い知識を忘れずに新しい概念を学ぶのに役立つ。 3つの3Dポイントクラウド認識バックボーン(PointNet, DGCNN, PointConv)と合成(ModelNet40, ModelNet10)と実スキャン(ScanObjectNN)データセットを用いて実験を行い, 3Dデータを忘れずに学習のベースラインを新たに確立した。 この研究は、この分野の多くの将来的な研究を引き継ぐだろう。

When we fine-tune a well-trained deep learning model for a new set of classes, the network learns new concepts but gradually forgets the knowledge of old training. In some real-life applications, we may be interested in learning new classes without forgetting the capability of previous experience. Such learning without forgetting problem is often investigated using 2D image recognition tasks. In this paper, considering the growth of depth camera technology, we address the same problem for the 3D point cloud object data. This problem becomes more challenging in the 3D domain than 2D because of the unavailability of large datasets and powerful pretrained backbone models. We investigate knowledge distillation techniques on 3D data to reduce catastrophic forgetting of the previous training. Moreover, we improve the distillation process by using semantic word vectors of object classes. We observe that exploring the interrelation of old and new knowledge during training helps to learn new concepts without forgetting old ones. Experimenting on three 3D point cloud recognition backbones (PointNet, DGCNN, and PointConv) and synthetic (ModelNet40, ModelNet10) and real scanned (ScanObjectNN) datasets, we establish new baseline results on learning without forgetting for 3D data. This research will instigate many future works in this area.
翻訳日:2021-06-30 02:07:48 公開日:2021-06-27
# (参考訳) 逐次空間変換器ネットワークのための強化学習手法

A Reinforcement Learning Approach for Sequential Spatial Transformer Networks ( http://arxiv.org/abs/2106.14295v1 )

ライセンス: CC BY 4.0
Fatemeh Azimi, Federico Raue, Joern Hees, Andreas Dengel(参考訳) 空間変換ネットワーク(STN)は、入力画像を変更する幾何学変換を生成し、分類器の性能を改善する。 本研究では,STNと強化学習(Reinforcement Learning, RL)の概念を組み合わせる。 この目的のために、アフィン変換を単純かつ離散的な変換の列に分解する。 我々は、このタスクをマルコフ決定プロセス(MDP)として定式化し、RLを用いてこのシーケンシャルな意思決定問題を解決する。 STNアーキテクチャは、分類誤差を最小化し、サブ微分可能なサンプリングモジュールを通して勾配をバックプロパゲートすることで変換パラメータを学習する。 提案手法では,サンプリングモジュールの微分可能性に拘束されない。 さらに、エラーを最小化するだけでなく、目的を設計する自由があり、例えば、ターゲットを直接、精度を最大化するものとして設定できる。 MNIST と Fashion-MNIST データセットを用いて,本手法の有効性を検証するために複数の実験を設計し,本手法が MDP 成分の適切な定義によりSTN よりも優れていることを示す。

Spatial Transformer Networks (STN) can generate geometric transformations which modify input images to improve the classifier's performance. In this work, we combine the idea of STN with Reinforcement Learning (RL). To this end, we break the affine transformation down into a sequence of simple and discrete transformations. We formulate the task as a Markovian Decision Process (MDP) and use RL to solve this sequential decision-making problem. STN architectures learn the transformation parameters by minimizing the classification error and backpropagating the gradients through a sub-differentiable sampling module. In our method, we are not bound to the differentiability of the sampling modules. Moreover, we have freedom in designing the objective rather than only minimizing the error; e.g., we can directly set the target as maximizing the accuracy. We design multiple experiments to verify the effectiveness of our method using cluttered MNIST and Fashion-MNIST datasets and show that our method outperforms STN with a proper definition of MDP components.
翻訳日:2021-06-30 01:55:18 公開日:2021-06-27
# (参考訳) 総合型ゲームにおけるラストイテレート収束

Last-iterate Convergence in Extensive-Form Games ( http://arxiv.org/abs/2106.14326v1 )

ライセンス: CC BY 4.0
Chung-Wei Lee, Christian Kroer, Haipeng Luo(参考訳) 後悔に基づくアルゴリズムはポーカーゲームのような逐次ゲームにおけるナッシュ均衡の近似を見つけるのに非常に効率的である。 しかし、反実的後悔最小化(CFR)とその変種を含む多くの後悔に基づくアルゴリズムは、収束を達成するために反復平均化に依存している。 近年のゼロサム正規形式ゲームにおける楽観的アルゴリズムの楽観的収束の進展に触発されて、この現象を逐次ゲームで研究し、ツリープレックス上の様々な楽観的後悔最小化アルゴリズムを用いて、完全リコール(EFG)付きゼロサム広義ゲームに対する最終的収束の包括的研究を行う。 これにはバニラエントロピーまたは2乗ユークリッドノルム正規化器を用いたアルゴリズムや、より効率的な実装を認める拡張版が含まれる。 cfrとは対照的に、これらのアルゴリズムはすべてラストイテレート収束を享受し、いくつかのアルゴリズムは指数関数的に収束する。 理論的結果をさらに支援するための実験も提供する。

Regret-based algorithms are highly efficient at finding approximate Nash equilibria in sequential games such as poker games. However, most regret-based algorithms, including counterfactual regret minimization (CFR) and its variants, rely on iterate averaging to achieve convergence. Inspired by recent advances on last-iterate convergence of optimistic algorithms in zero-sum normal-form games, we study this phenomenon in sequential games, and provide a comprehensive study of last-iterate convergence for zero-sum extensive-form games with perfect recall (EFGs), using various optimistic regret-minimization algorithms over treeplexes. This includes algorithms using the vanilla entropy or squared Euclidean norm regularizers, as well as their dilated versions which admit more efficient implementation. In contrast to CFR, we show that all of these algorithms enjoy last-iterate convergence, with some of them even converging exponentially fast. We also provide experiments to further support our theoretical results.
翻訳日:2021-06-30 01:45:03 公開日:2021-06-27
# (参考訳) 決定論的強化学習における回帰分析

Regret Analysis in Deterministic Reinforcement Learning ( http://arxiv.org/abs/2106.14338v1 )

ライセンス: CC BY 4.0
Damianos Tranos and Alexandre Proutiere(参考訳) 我々は,決定論的遷移を伴うマルコフ決定過程(MDP)を考察し,最適学習アルゴリズムの解析と設計の中心となる,後悔の最小化の問題を研究する。 本稿では,(以前のminimaxアプローチとは対照的に)システムパラメータに明示的に依存する対数問題特異的な後悔下限を示し,任意の学習アルゴリズムで実現可能な性能の基本限界を真に定量化する。 決定論的 MDP はグラフとして解釈し,そのサイクルの観点から解析することができる。 我々はさらに、この結果を、決定論的ライン探索問題と、状態依存の報酬を持つ決定論的MDPで実証する。 これらの境界は、マルチアームバンディット問題の既知の問題固有の境界と類似しており、決定論的MDP上のナビゲーションが学習アルゴリズムの性能に影響を及ぼす必要はないことを示唆している。

We consider Markov Decision Processes (MDPs) with deterministic transitions and study the problem of regret minimization, which is central to the analysis and design of optimal learning algorithms. We present logarithmic problem-specific regret lower bounds that explicitly depend on the system parameter (in contrast to previous minimax approaches) and thus, truly quantify the fundamental limit of performance achievable by any learning algorithm. Deterministic MDPs can be interpreted as graphs and analyzed in terms of their cycles, a fact which we leverage in order to identify a class of deterministic MDPs whose regret lower bound can be determined numerically. We further exemplify this result on a deterministic line search problem, and a deterministic MDP with state-dependent rewards, whose regret lower bounds we can state explicitly. These bounds share similarities with the known problem-specific bound of the multi-armed bandit problem and suggest that navigation on a deterministic MDP need not have an effect on the performance of a learning algorithm.
翻訳日:2021-06-30 01:43:53 公開日:2021-06-27
# ペルシャ因果性コーパス(原因)と因果性検出ベンチマーク

Persian Causality Corpus (PerCause) and the Causality Detection Benchmark ( http://arxiv.org/abs/2106.14165v1 )

ライセンス: Link先を確認
Zeinab Rahimi, Mehrnoush ShamsFard(参考訳) テキストにおける因果要素と因果関係を認識することは、自然言語処理において難しい問題の一つであり、特にペルシア語のような低資源言語では問題となる。 本研究では, 4446文と5128文の因果関係と, possibl の場合の因果関係, 効果, 因果関係の3つのラベルをそれぞれ指定したペルシア語用因果関係コーパスを作成する。 我々はこのコーパスを用いて因果要素境界を検出するシステムを訓練した。 また,このコーパスに基づく3つの機械学習手法と2つのディープラーニングシステムの因果検出ベンチマークを提案する。 評価結果から,F値0.76のCRF分類器と,精度%91.4のBi-LSTM-CRF深層学習法により得られた最良の精度が得られた。

Recognizing causal elements and causal relations in text is one of the challenging issues in natural language processing; specifically, in low resource languages such as Persian. In this research we prepare a causality human annotated corpus for the Persian language which consists of 4446 sentences and 5128 causal relations and three labels of cause, effect and causal mark -- if possibl -- are specified for each relation. We have used this corpus to train a system for detecting causal elements boundaries. Also, we present a causality detection benchmark for three machine learning methods and two deep learning systems based on this corpus. Performance evaluations indicate that our best total result is obtained through CRF classifier which has F-measure of 0.76 and the best accuracy obtained through Bi-LSTM-CRF deep learning method with Accuracy equal to %91.4.
翻訳日:2021-06-29 18:12:55 公開日:2021-06-27
# 微調整がbertをいかに変えるか

A Closer Look at How Fine-tuning Changes BERT ( http://arxiv.org/abs/2106.14282v1 )

ライセンス: Link先を確認
Yichu Zhou and Vivek Srikumar(参考訳) 今日のNLPにおける事前学習された文脈化表現の頻度を考えると、そのような表現がどんな情報を含んでいるかを理解するためにいくつかの努力がなされている。 このような表現を使う一般的な戦略は、エンドタスクのためにそれらを微調整することです。 しかし、タスクの微調整が基礎となる空間をどのように変えるかは研究されていない。 本研究では,英語のBERTファミリーについて検討し,微調整によって空間がどう変化するかを分析するために2つの探索手法を用いた。 実験の結果,ラベルに関連する点を他のラベルから切り離すことで,微調整により性能が向上することがわかった。 微調整前後の表現を比較することで、微調整が任意に表現を変更せず、代わりに元の構造を保ちながら下流のタスクに表現を調整できることが分かる。 最後に, 注意深く構築された実験を用いて, 微調整がトレーニングセットを表現にエンコードできることを示し, 新たな種類のオーバーフィット問題を示唆する。

Given the prevalence of pre-trained contextualized representations in today's NLP, there have been several efforts to understand what information such representations contain. A common strategy to use such representations is to fine-tune them for an end task. However, how fine-tuning for a task changes the underlying space is less studied. In this work, we study the English BERT family and use two probing techniques to analyze how fine-tuning changes the space. Our experiments reveal that fine-tuning improves performance because it pushes points associated with a label away from other labels. By comparing the representations before and after fine-tuning, we also discover that fine-tuning does not change the representations arbitrarily; instead, it adjusts the representations to downstream tasks while preserving the original structure. Finally, using carefully constructed experiments, we show that fine-tuning can encode training sets in a representation, suggesting an overfitting problem of a new kind.
翻訳日:2021-06-29 18:12:37 公開日:2021-06-27
# 花を描きなさい:インフォーマルな自然言語で表される接地形式的抽象構造

Draw Me a Flower: Grounding Formal Abstract Structures Stated in Informal Natural Language ( http://arxiv.org/abs/2106.14321v1 )

ライセンス: Link先を確認
Royi Lachmy, Valentina Pyatkin, Reut Tsarfaty(参考訳) 抽象の形成と解釈は、人間のコミュニケーションの核となるプロセスである。 特に、自然言語(nl)で記述された複雑な指示を与え実行する場合、人々は自然にオブジェクト、ループ、条件、関数といった抽象的な構成を誘発し、効率的に正確な方法で意図を伝えることができる。 しかし、NLで記述されている解釈と接地抽象化は、NLP/AIにおいて体系的に研究されていない。 NLで自然に生じる抽象概念を導き出すため、プレイヤーは2次元の六角形板上でますます複雑な画像を記述し、他のプレイヤーはこれらの命令に従って画像を再生成する。 このゲームを使って164のイメージと3000以上の自然発生命令で構成されたヘキサゴナルスデータセットを収集し、多様な抽象化に富んだ。 ヘキサゴナルスデータセットから導かれる命令-実行タスクに基づくベースラインモデルの結果、NLの高レベルな抽象化が現在のシステムでは処理が困難であることを確認した。 したがって、このデータセットは、接地意味解析の新しい挑戦的な次元を公開し、nlpアプリケーション内のより洗練されたハイレベルな通信を探求するための将来のベンチマークとしてコミュニティに提案する。

Forming and interpreting abstraction is a core process in human communication. In particular, when giving and performing complex instructions stated in natural language (NL), people may naturally evoke abstract constructs such as objects, loops, conditions and functions to convey their intentions in an efficient and precise way. Yet, interpreting and grounding abstraction stated in NL has not been systematically studied in NLP/AI. To elicit naturally-occurring abstractions in NL we develop the Hexagons referential game, where players describe increasingly complex images on a two-dimensional Hexagons board, and other players need to follow these instructions to recreate the images. Using this game we collected the Hexagons dataset, which consists of 164 images and over 3000 naturally-occurring instructions, rich with diverse abstractions. Results of our baseline models on an instruction-to-execution task derived from the Hexagons dataset confirm that higher-level abstractions in NL are indeed more challenging for current systems to process. Thus, this dataset exposes a new and challenging dimension for grounded semantic parsing, and we propose it for the community as a future benchmark to explore more sophisticated and high-level communication within NLP applications.
翻訳日:2021-06-29 18:12:21 公開日:2021-06-27
# プロファイル認識のための注意誘導プログレッシブマッピング

Attention-guided Progressive Mapping for Profile Face Recognition ( http://arxiv.org/abs/2106.14124v1 )

ライセンス: Link先を確認
Junyang Huang and Changxing Ding(参考訳) 過去数年間、ディープラーニングの進歩により顔認識の分野で大きな進歩が見られた。 しかし、クロスポーズ顔認識は依然として大きな課題である。 多くのディープラーニングアルゴリズムでは、ポーズの変化によるパフォーマンスギャップを狭めることが困難であり、その主な理由は、異なるポーズにおける顔画像間のクラス内不一致と、トレーニングデータセットのポーズ不均衡である。 前面の特徴空間を横切ることでポーズ・ロバストな特徴を学習することは、この問題を緩和するための効果的で安価な方法を提供する。 本稿では,一対方向の注意損失を伴うプロファイル顔表現を正準ポーズに漸進的に変換する手法を提案する。 まず,プロファイルフェースを正面ポーズへ直接変換することの難しさを軽減するため,ブロック・バイ・ブロック方式でソースポーズとその近傍ポーズ間の特徴残差を学習し,学習残差を付加することにより,より小さなポーズの特徴空間に遷移することを提案する。 次に,最も効果的な方向に進展する特徴変換を導くために,対方向の注意的損失を提案する。 最後に、提案したプログレッシブモジュールと注意的ペアワイズ損失は軽量で実装が容易であり、約7:5%のパラメータしか追加しない。 CFPおよびCPLFWデータセットの評価は,提案手法の優位性を示す。 コードはhttps://github.com/hjy1312/AGPMで入手できる。

The past few years have witnessed great progress in the domain of face recognition thanks to advances in deep learning. However, cross pose face recognition remains a significant challenge. It is difficult for many deep learning algorithms to narrow the performance gap caused by pose variations; the main reasons for this relate to the intra-class discrepancy between face images in different poses and the pose imbalances of training datasets. Learning pose-robust features by traversing to the feature space of frontal faces provides an effective and cheap way to alleviate this problem. In this paper, we present a method for progressively transforming profile face representations to the canonical pose with an attentive pair-wise loss. Firstly, to reduce the difficulty of directly transforming the profile face features into a frontal pose, we propose to learn the feature residual between the source pose and its nearby pose in a block-byblock fashion, and thus traversing to the feature space of a smaller pose by adding the learned residual. Secondly, we propose an attentive pair-wise loss to guide the feature transformation progressing in the most effective direction. Finally, our proposed progressive module and attentive pair-wise loss are light-weight and easy to implement, adding only about 7:5% extra parameters. Evaluations on the CFP and CPLFW datasets demonstrate the superiority of our proposed method. Code is available at https://github.com/hjy1312/AGPM.
翻訳日:2021-06-29 18:08:04 公開日:2021-06-27
# 方向性文脈を考慮した半教師付きセマンティックセマンティックセグメンテーション

Semi-supervised Semantic Segmentation with Directional Context-aware Consistency ( http://arxiv.org/abs/2106.14133v1 )

ライセンス: Link先を確認
Xin Lai, Zhuotao Tian, Li Jiang, Shu Liu, Hengshuang Zhao, Liwei Wang, Jiaya Jia(参考訳) セマンティクスのセグメンテーションは近年大きく進歩している。 しかし、パフォーマンスの満足度は多数のピクセルレベルのアノテーションに依存する。 そこで本稿では,ラベル付きデータの小さなセットのみに,全くラベル付けされていない画像の集合がはるかに大きいという半教師付きセグメンテーション問題に焦点をあてる。 それでも、アノテーションが限られているため、モデルはトレーニングデータで利用可能なコンテキストに過度に依存してしまう可能性がある。 好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。 そこで本稿では,同一のアイデンティティの特徴と異なるコンテキストとのコンテキスト認識の整合性を維持することを提案する。 さらに,向きのコントラスト損失(dc損失)を示し,画素間一貫性を実現する。 また, 偽陰性サンプルを避け, 不確実な正のサンプルをフィルタリングするために, 2つのサンプリング戦略を提唱した。 広汎な実験により、我々の単純で効果的な手法は、最先端の手法を大きなマージンで超越し、余分な画像レベルのアノテーションとともに一般化することを示した。

Semantic segmentation has made tremendous progress in recent years. However, satisfying performance highly depends on a large number of pixel-level annotations. Therefore, in this paper, we focus on the semi-supervised segmentation problem where only a small set of labeled data is provided with a much larger collection of totally unlabeled images. Nevertheless, due to the limited annotations, models may overly rely on the contexts available in the training data, which causes poor generalization to the scenes unseen before. A preferred high-level representation should capture the contextual information while not losing self-awareness. Therefore, we propose to maintain the context-aware consistency between features of the same identity but with different contexts, making the representations robust to the varying environments. Moreover, we present the Directional Contrastive Loss (DC Loss) to accomplish the consistency in a pixel-to-pixel manner, only requiring the feature with lower quality to be aligned towards its counterpart. In addition, to avoid the false-negative samples and filter the uncertain positive samples, we put forward two sampling strategies. Extensive experiments show that our simple yet effective method surpasses current state-of-the-art methods by a large margin and also generalizes well with extra image-level annotations.
翻訳日:2021-06-29 18:07:43 公開日:2021-06-27
# マルチモーダル論理推論のためのヒューマンアクションを用いたビデオ・言語データセットの構築

Building a Video-and-Language Dataset with Human Actions for Multimodal Logical Inference ( http://arxiv.org/abs/2106.14137v1 )

ライセンス: Link先を確認
Riko Suzuki and Hitomi Yanaka and Koji Mineshima and Daisuke Bekki(参考訳) 本稿では,動的な人間の行動を記述する意図的・アスペクト的表現に着目した,多モーダル論理推論のための人間の行動を用いたビデオ・言語データセットを提案する。 データセットは200のビデオ、5,554のアクションラベル、および論理意味表現に変換可能な<subject, predicate, object>形式の1,942のアクショントリプレットで構成されている。 このデータセットは、ビデオと、否定や量子化を含む意味論的に複雑な文間のマルチモーダル推論システムを評価するのに役立つと期待されている。

This paper introduces a new video-and-language dataset with human actions for multimodal logical inference, which focuses on intentional and aspectual expressions that describe dynamic human actions. The dataset consists of 200 videos, 5,554 action labels, and 1,942 action triplets of the form <subject, predicate, object> that can be translated into logical semantic representations. The dataset is expected to be useful for evaluating multimodal inference systems between videos and semantically complicated sentences including negation and quantification.
翻訳日:2021-06-29 18:07:21 公開日:2021-06-27
# ビジョントランスのポストトレーニング量子化

Post-Training Quantization for Vision Transformer ( http://arxiv.org/abs/2106.14156v1 )

ライセンス: Link先を確認
Zhenhua Liu, Yunhe Wang, Kai Han, Siwei Ma and Wen Gao(参考訳) 近年、トランスフォーマーは様々なコンピュータビジョンアプリケーションで驚くべき性能を達成している。 主流の畳み込みニューラルネットワークと比較すると、視覚変換器はしばしば強力な特徴表現を抽出するための高度なアーキテクチャであり、モバイルデバイスで開発することがより困難である。 本稿では,視覚トランスフォーマーのメモリ記憶量と計算コストを削減できる,学習後量子化アルゴリズムを提案する。 基本的に、量子化タスクは、重みと入力の最適な低ビット量子化間隔を求めることができる。 注意機構の機能を維持するため,従来の量子化目的に対して,量子化後の自己着脱結果の相対順序を保つことを目的としたランキングロスを導入する。 さらに,異なる層間の量子化損失と特徴多様性の関係を徹底的に解析し,各注意マップと出力特徴の核規範を活用し,混合精度量子化手法を検討する。 提案手法の有効性を,いくつかのベンチマークモデルとデータセットで検証し,現状の学習後の量子化アルゴリズムより優れていることを示す。 例えば、画像Netデータセット上のDeiT-Bモデルを用いて、81.29\%のトップ-1の精度が得られる。

Recently, transformer has achieved remarkable performance on a variety of computer vision applications. Compared with mainstream convolutional neural networks, vision transformers are often of sophisticated architectures for extracting powerful feature representations, which are more difficult to be developed on mobile devices. In this paper, we present an effective post-training quantization algorithm for reducing the memory storage and computational costs of vision transformers. Basically, the quantization task can be regarded as finding the optimal low-bit quantization intervals for weights and inputs, respectively. To preserve the functionality of the attention mechanism, we introduce a ranking loss into the conventional quantization objective that aims to keep the relative order of the self-attention results after quantization. Moreover, we thoroughly analyze the relationship between quantization loss of different layers and the feature diversity, and explore a mixed-precision quantization scheme by exploiting the nuclear norm of each attention map and output feature. The effectiveness of the proposed method is verified on several benchmark models and datasets, which outperforms the state-of-the-art post-training quantization algorithms. For instance, we can obtain an 81.29\% top-1 accuracy using DeiT-B model on ImageNet dataset with about 8-bit quantization.
翻訳日:2021-06-29 18:07:10 公開日:2021-06-27
# 屋内パノラマ平面3次元再構成の分割と克服

Indoor Panorama Planar 3D Reconstruction via Divide and Conquer ( http://arxiv.org/abs/2106.14166v1 )

ライセンス: Link先を確認
Cheng Sun, Chi-Wei Hsiao, Ning-Hsu Wang, Min Sun, Hwann-Tzong Chen(参考訳) 室内パノラマは典型的には人造構造で、重力に平行または垂直である。 この現象を利用して, (h) 水平面と (v) 慣性面を持つ360度画像のシーンを近似する。 この目的のために,各平面方向推定に基づいて画素を分割する効果的な分割・対数戦略を提案し,その後継のインスタンス分割モジュールは各平面方向群においてより容易にクラスタリングされる平面のタスクを征服する。 さらに、v-プレーンのパラメータはカメラヨー回転に依存するが、変換不変なcnnはヨー変化をあまり認識していない。 そこで我々は,CNNの学習のために,Yaw-invariant V-planar reparameterizationを提案する。 我々は,既存の360度深度データセットを地上真理h\&v-planes (panoh&v-planes) で拡張し,最先端の平面再構成手法を用いてh\&v-planesをベースラインとして予測することにより,屋内パノラマ平面再構成のためのベンチマークを作成する。 提案手法は,提案するデータセットのベースラインを大きなマージンで上回っている。

Indoor panorama typically consists of human-made structures parallel or perpendicular to gravity. We leverage this phenomenon to approximate the scene in a 360-degree image with (H)orizontal-planes and (V)ertical-planes. To this end, we propose an effective divide-and-conquer strategy that divides pixels based on their plane orientation estimation; then, the succeeding instance segmentation module conquers the task of planes clustering more easily in each plane orientation group. Besides, parameters of V-planes depend on camera yaw rotation, but translation-invariant CNNs are less aware of the yaw change. We thus propose a yaw-invariant V-planar reparameterization for CNNs to learn. We create a benchmark for indoor panorama planar reconstruction by extending existing 360 depth datasets with ground truth H\&V-planes (referred to as PanoH&V dataset) and adopt state-of-the-art planar reconstruction methods to predict H\&V-planes as our baselines. Our method outperforms the baselines by a large margin on the proposed dataset.
翻訳日:2021-06-29 18:06:51 公開日:2021-06-27
# メモリガイドによる道路検出

Memory Guided Road Detection ( http://arxiv.org/abs/2106.14184v1 )

ライセンス: Link先を確認
Praveen Venkatesh, Rwik Rana, Varun Jain(参考訳) 自動運転車の応用においては、入力されたRGB前面画像から車線の位置を予測する必要がある。 本稿では,時間とともに伝播する共有機能空間を導入することで,道路検出の速度とロバスト性を大幅に向上させることができるアーキテクチャを提案する。 従来のフレームのgistを利用してネットワークを訓練し、従来のフレームよりも精度が高く、ずれが少ない現在の道路を予測する。

In self driving car applications, there is a requirement to predict the location of the lane given an input RGB front facing image. In this paper, we propose an architecture that allows us to increase the speed and robustness of road detection without a large hit in accuracy by introducing an underlying shared feature space that is propagated over time, which serves as a flowing dynamic memory. By utilizing the gist of previous frames, we train the network to predict the current road with a greater accuracy and lesser deviation from previous frames.
翻訳日:2021-06-29 18:06:31 公開日:2021-06-27
# Black-Boxより暗い:類似性クエリによる顔再構成

Darker than Black-Box: Face Reconstruction from Similarity Queries ( http://arxiv.org/abs/2106.14290v1 )

ライセンス: Link先を確認
Anton Razzhigaev, Klim Kireev, Igor Udovichenko, Aleksandr Petiushko(参考訳) 近年, 深層テンプレートから顔の再構成を試み, 顔認識モデルの逆転法が提案されている。 これらのアプローチのいくつかは、顔埋め込みのみを使用してブラックボックスで機能するが、通常はエンドユーザ側でのみ類似点が提供される。 したがって、これらのアルゴリズムはそのようなシナリオでは適用できない。 本稿では,ブラックボックスモデルの類似度スコアのみを顔問合せで再構成する手法を提案する。 提案アルゴリズムはより一般的な設定で動作するが,提案手法はクエリ効率が高く,既存手法よりも優れていることを示す。

Several methods for inversion of face recognition models were recently presented, attempting to reconstruct a face from deep templates. Although some of these approaches work in a black-box setup using only face embeddings, usually, on the end-user side, only similarity scores are provided. Therefore, these algorithms are inapplicable in such scenarios. We propose a novel approach that allows reconstructing the face querying only similarity scores of the black-box model. While our algorithm operates in a more general setup, experiments show that it is query efficient and outperforms the existing methods.
翻訳日:2021-06-29 18:06:23 公開日:2021-06-27
# クロスビュー画像の融合による3次元再構成

3D Reconstruction through Fusion of Cross-View Images ( http://arxiv.org/abs/2106.14306v1 )

ライセンス: Link先を確認
Rongjun Qin, Shuang Song, Xiao Ling, Mostafa Elhashash(参考訳) マルチステレオおよびステレオ画像からの3次元復元は、イメージベースの視点幾何学の重要な応用として、コンピュータビジョン、リモートセンシング、ジオマティクスにおける多くの応用に役立つ。 本章では,画像形状と,その視点で大きく異なるクロスビュー画像からの3次元再構成を行う手法について述べる。 地上画像と衛星画像をフル3Dリカバリするためのフレームワークを導入し,画像からの衛星と地上の点雲生成,3次元データの共存,融合,メッシュ生成に必要な手法を含む。 我々は,車両搭載のgo-proカメラで取得した12枚の衛星画像と1万5000枚のビデオフレームからなるデータセットの枠組みを実証し,復元結果を示す。 また,一般的なジオレジストリとメッシュ手法を含む直感的な処理パイプラインから得られた結果と比較した。

3D recovery from multi-stereo and stereo images, as an important application of the image-based perspective geometry, serves many applications in computer vision, remote sensing and Geomatics. In this chapter, the authors utilize the imaging geometry and present approaches that perform 3D reconstruction from cross-view images that are drastically different in their viewpoints. We introduce our framework that takes ground-view images and satellite images for full 3D recovery, which includes necessary methods in satellite and ground-based point cloud generation from images, 3D data co-registration, fusion and mesh generation. We demonstrate our proposed framework on a dataset consisting of twelve satellite images and 150k video frames acquired through a vehicle-mounted Go-pro camera and demonstrate the reconstruction results. We have also compared our results with results generated from an intuitive processing pipeline that involves typical geo-registration and meshing methods.
翻訳日:2021-06-29 18:06:14 公開日:2021-06-27
# 画像に基づく3次元物体モデリングのための幾何学的処理

Geometric Processing for Image-based 3D Object Modeling ( http://arxiv.org/abs/2106.14307v1 )

ライセンス: Link先を確認
Rongjun Qin, Xu Huang(参考訳) 画像に基づく3Dオブジェクトモデリングは、生の光学画像をオブジェクトの3Dデジタル表現に変換するプロセスを指す。 このようなモデルは、しばしば、次元的に真で、意味的にフォトリアリスティックな外観(現実に基づくモデリング)でラベル付けされることが望まれる。 レーザースキャンは、高精度な物体の3D計測を得るための標準(および直接)の方法と見なされ、高い取得コストと一部のプラットフォームでの利用不能を回避しなければならない。 近年,高度な高密度画像マッチングアルゴリズムと地理参照パラダイムによってバックボーンとなる画像ベース手法が,その柔軟性,可用性,低コストの面から主流となっている。 3Dオブジェクト再構築ワークフローにおける画像のほぼ自動的な幾何処理は、秩序付き/非秩序な生画像からテクスチャ化されたメッシュに至るまで、現実的な3Dモデリングの重要な部分となっている。 本稿では、幾何学的処理の3つの主要コンポーネントの最先端手法の導入に焦点を当てた、全体的な幾何学的処理のワークフローを要約する: 1)ジオレファレンス; 2)画像密集マッチング 3)テクスチャマッピング。 最後に、結論を導き、この記事で議論されたトピックの展望を共有します。

Image-based 3D object modeling refers to the process of converting raw optical images to 3D digital representations of the objects. Very often, such models are desired to be dimensionally true, semantically labeled with photorealistic appearance (reality-based modeling). Laser scanning was deemed as the standard (and direct) way to obtaining highly accurate 3D measurements of objects, while one would have to abide the high acquisition cost and its unavailability on some of the platforms. Nowadays the image-based methods backboned by the recently developed advanced dense image matching algorithms and geo-referencing paradigms, are becoming the dominant approaches, due to its high flexibility, availability and low cost. The largely automated geometric processing of images in a 3D object reconstruction workflow, from ordered/unordered raw imagery to textured meshes, is becoming a critical part of the reality-based 3D modeling. This article summarizes the overall geometric processing workflow, with focuses on introducing the state-of-the-art methods of three major components of geometric processing: 1) geo-referencing; 2) Image dense matching 3) texture mapping. Finally, we will draw conclusions and share our outlooks of the topics discussed in this article.
翻訳日:2021-06-29 18:06:00 公開日:2021-06-27
# Arous Space Pyramid Deformable Convolution and Deblurring-Reblurring Consistency を用いたブラインド非一様運動障害

Blind Non-Uniform Motion Deblurring using Atrous Spatial Pyramid Deformable Convolution and Deblurring-Reblurring Consistency ( http://arxiv.org/abs/2106.14336v1 )

ライセンス: Link先を確認
Dong Huo, Abbas Masoumzadeh, Yee-Hong Yang(参考訳) 深層学習に基づく多くの手法は、ぼやけたカーネルを知らずに、物体の動きやカメラの揺れによって生じる、一様でない動きのぼやけを取り除くように設計されている。 潜伏シャープ画像を1段階で直接出力する方法もあれば、マルチステージ戦略(マルチスケール、マルチパッチ、マルチテンポラル)を使用して徐々にシャープイメージを復元する手法もある。 しかし、これらの手法には以下の2つの主要な問題がある: 1) マルチステージの計算コストが高い; 2) 同じ畳み込みカーネルは異なる領域に適用されるが、これは非一様ぼけの理想的な選択ではない。 したがって、非一様運動のデブロワーリングは依然として困難でオープンな問題である。 本稿では,複数のアトラスな空間ピラミッド変形可能な畳み込み(aspdc)モジュールからなる新しいアーキテクチャを提案する。 複数のASPDCモジュールは、異なるディレーションレートのピクセル固有の動きを暗黙的に学習し、異なる大きさの動きを処理する。 また, 学習を改善するために, 解空間を制約するぼやけた入力に対して, ぼやけた出力をマッピングする再バッファリングネットワークを提案する。 実験の結果,提案手法はベンチマークデータセットの最先端手法よりも優れていた。

Many deep learning based methods are designed to remove non-uniform (spatially variant) motion blur caused by object motion and camera shake without knowing the blur kernel. Some methods directly output the latent sharp image in one stage, while others utilize a multi-stage strategy (\eg multi-scale, multi-patch, or multi-temporal) to gradually restore the sharp image. However, these methods have the following two main issues: 1) The computational cost of multi-stage is high; 2) The same convolution kernel is applied in different regions, which is not an ideal choice for non-uniform blur. Hence, non-uniform motion deblurring is still a challenging and open problem. In this paper, we propose a new architecture which consists of multiple Atrous Spatial Pyramid Deformable Convolution (ASPDC) modules to deblur an image end-to-end with more flexibility. Multiple ASPDC modules implicitly learn the pixel-specific motion with different dilation rates in the same layer to handle movements of different magnitude. To improve the training, we also propose a reblurring network to map the deblurred output back to the blurred input, which constrains the solution space. Our experimental results show that the proposed method outperforms state-of-the-art methods on the benchmark datasets.
翻訳日:2021-06-29 18:05:41 公開日:2021-06-27
# シーケンス-シーケンス間予測リカレントネットワークのための新しいトレーニングアルゴリズムについて

On a novel training algorithm for sequence-to-sequence predictive recurrent networks ( http://arxiv.org/abs/2106.14120v1 )

ライセンス: Link先を確認
Boris Rubinstein(参考訳) シーケンスをシーケンス(seq2seq)にマッピングするニューラルネットワークは、機械翻訳と音声認識の著しい進歩をもたらす。 従来のアーキテクチャには2つのリカレントネットワーク(RN)があり、続いて線形予測器が続く。 本稿では、対応するアルゴリズムの分析を行い、よく訓練された予測ネットワークのRNのパラメータが互いに独立していないことを示す。 それらの依存は、ネットワークの有効性を著しく改善するために使用できる。 従来のseq2seqアルゴリズムは、予測シーケンス長に比例するサイズの短期記憶を必要とする。 この要件は神経科学の文脈で実装することは極めて困難である。 本稿では,Seq2seq予測ネットワークのための新しいメモリレスアルゴリズムを提案し,時系列予測の文脈において従来のものと比較する。 新しいアルゴリズムは従来のアルゴリズムよりも頑健であり,高い精度で予測を行う。

Neural networks mapping sequences to sequences (seq2seq) lead to significant progress in machine translation and speech recognition. Their traditional architecture includes two recurrent networks (RNs) followed by a linear predictor. In this manuscript we perform analysis of a corresponding algorithm and show that the parameters of the RNs of the well trained predictive network are not independent of each other. Their dependence can be used to significantly improve the network effectiveness. The traditional seq2seq algorithms require short term memory of a size proportional to the predicted sequence length. This requirement is quite difficult to implement in a neuroscience context. We present a novel memoryless algorithm for seq2seq predictive networks and compare it to the traditional one in the context of time series prediction. We show that the new algorithm is more robust and makes predictions with higher accuracy than the traditional one.
翻訳日:2021-06-29 18:00:11 公開日:2021-06-27
# ハイパースペクトルアンミックスについて

On Hyperspectral Unmixing ( http://arxiv.org/abs/2106.14177v1 )

ライセンス: Link先を確認
Wing-Kin Ma(参考訳) 本稿では、Jos\'e Bioucas-Diasのハイパースペクトル・アンミックス(HU)への重要な貢献について、影響力のある学者として、そしてハイパースペクトルコミュニティに導入された多くの美しいアイデアについてレビューする。 私たちのストーリーは、頂点コンポーネント分析(VCA)から始まります -- 最も有名なHUアルゴリズムの1つで、2000以上のGoogle Scholarの引用があります。 VCAは先駆的であり、HUの研究が始まったばかりのころに発明された。 次に、広く使われているアルゴリズムであるsisalに目を向ける。 SISALは高度に成功したアルゴリズムであるだけでなく、応用最適化や実用的なノイズのあるケースに対するスマートな定式化における発明者の創発性の実証でもある。 私たちのツアーは、おそらくあまり知られていない依存コンポーネント分析(deca)で終わるでしょう。 DECAは統計的推論フレームワークを採用しており、著者の最新の研究は、そのようなフレームワークがさらなる発展の可能性があることを示唆している。 DECAの発展は、その点では、今後8年先である。

In this article the author reviews Jos\'e Bioucas-Dias' key contributions to hyperspectral unmixing (HU), in memory of him as an influential scholar and for his many beautiful ideas introduced to the hyperspectral community. Our story will start with vertex component analysis (VCA) -- one of the most celebrated HU algorithms, with more than 2,000 Google Scholar citations. VCA was pioneering, invented at a time when HU research just began to emerge, and it shows sharp insights on a then less-understood subject. Then we will turn to SISAL, another widely-used algorithm. SISAL is not only a highly successful algorithm, it is also a demonstration of its inventor's ingenuity on applied optimization and on smart formulation for practical noisy cases. Our tour will end with dependent component analysis (DECA), perhaps a less well-known contribution. DECA adopts a statistical inference framework, and the author's latest research indicates that such framework has great potential for further development, e.g., there are hidden connections between SISAL and DECA. The development of DECA shows foresight years ahead, in that regard.
翻訳日:2021-06-29 17:55:14 公開日:2021-06-27
# hear me out: fusional approach for audio augmented temporal action localization (特集 new trends and their applications)

Hear Me Out: Fusional Approaches for Audio Augmented Temporal Action Localization ( http://arxiv.org/abs/2106.14118v1 )

ライセンス: Link先を確認
Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla(参考訳) タイムアアクションローカライゼーション(TAL)の最先端技術アーキテクチャは、RGBとフローのモダリティのみを考慮し、情報に富んだオーディオのモダリティは明らかにされていない。 トリミング(クリップレベル)動作認識の関連性はあるが容易な問題に対して,オーディオフュージョンが検討されている。 しかし、TALには固有の課題がある。 本稿では, 単純な, 効果的な融合法を提案する。 私たちの知る限りでは、talを監督するオーディオとビデオのモダリティを共同で検討するのは私たちの仕事が初めてです。 実験により,本手法は,アートビデオのみの TAL アプローチの性能を継続的に向上することを示す。 具体的には、大規模なベンチマークデータセットである ActivityNet-1.3 (52.73 mAP@0.5) と THUMOS14 (57.18 mAP@0.5) のアートパフォーマンスの新たな状態を達成するのに役立つ。 我々の実験には、複数の融合スキーム、モダリティの組み合わせ、talアーキテクチャを含むアブレーションが含まれる。 私たちのコード、モデル、および関連するデータが利用可能になります。

State of the art architectures for untrimmed video Temporal Action Localization (TAL) have only considered RGB and Flow modalities, leaving the information-rich audio modality totally unexploited. Audio fusion has been explored for the related but arguably easier problem of trimmed (clip-level) action recognition. However, TAL poses a unique set of challenges. In this paper, we propose simple but effective fusion-based approaches for TAL. To the best of our knowledge, our work is the first to jointly consider audio and video modalities for supervised TAL. We experimentally show that our schemes consistently improve performance for state of the art video-only TAL approaches. Specifically, they help achieve new state of the art performance on large-scale benchmark datasets - ActivityNet-1.3 (52.73 mAP@0.5) and THUMOS14 (57.18 mAP@0.5). Our experiments include ablations involving multiple fusion schemes, modality combinations and TAL architectures. Our code, models and associated data will be made available.
翻訳日:2021-06-29 17:53:53 公開日:2021-06-27
# ニューラルビデオレンダリングによるロバストポーズ転送の動的詳細化

Robust Pose Transfer with Dynamic Details using Neural Video Rendering ( http://arxiv.org/abs/2106.14132v1 )

ライセンス: Link先を確認
Yang-tian Sun, Hao-zhi Huang, Xuan Wang, Yu-kun Lai, Wei Liu, Lin Gao(参考訳) 人間の動画のポーズ転送は、ソースの人物の行動を模倣したターゲット人物の忠実度の高いビデオを生成することを目的としている。 いくつかの研究は、深い潜伏特徴を持つ画像翻訳や、明示的な3D特徴を持つニューラルレンダリングを通じて大きな進歩を遂げている。 しかし、両者とも、現実的な結果を生み出すために大量のトレーニングデータに依存しており、トレーニングフレームの不足により、よりアクセスしやすいインターネットビデオではパフォーマンスが低下する。 本稿では,短時間の単分子ビデオから,動的詳細をトレーニングしても保存できることを実証する。 全体として,画像翻訳に基づくダイナミックディテール生成ネットワーク(d2g-net)と組み合わされたニューラルビデオレンダリングフレームワークを提案する。 具体的には、新しいテクスチャ表現を示し、静的およびポーズ変化の外観特性の両方を符号化し、画像空間にマッピングし、ニューラルネットワークレンダリング段階で詳細に富んだフレームとして描画する。 さらに,本手法が生み出す高品質なダイナミックディテールにより,より目に見えるディテール・フレッカリングを抑えるため,トレーニング段階での簡潔な時間的損失も導入する。 2kから4kのフレームしか持たない短いビデオでも、我々のニューラル・ヒューマン・ビデオ・レンダラーはより明瞭なダイナミックディテールとより堅牢なパフォーマンスを実現することができることを実証した。

Pose transfer of human videos aims to generate a high fidelity video of a target person imitating actions of a source person. A few studies have made great progress either through image translation with deep latent features or neural rendering with explicit 3D features. However, both of them rely on large amounts of training data to generate realistic results, and the performance degrades on more accessible internet videos due to insufficient training frames. In this paper, we demonstrate that the dynamic details can be preserved even trained from short monocular videos. Overall, we propose a neural video rendering framework coupled with an image-translation-based dynamic details generation network (D2G-Net), which fully utilizes both the stability of explicit 3D features and the capacity of learning components. To be specific, a novel texture representation is presented to encode both the static and pose-varying appearance characteristics, which is then mapped to the image space and rendered as a detail-rich frame in the neural rendering stage. Moreover, we introduce a concise temporal loss in the training stage to suppress the detail flickering that is made more visible due to high-quality dynamic details generated by our method. Through extensive comparisons, we demonstrate that our neural human video renderer is capable of achieving both clearer dynamic details and more robust performance even on accessible short videos with only 2k - 4k frames.
翻訳日:2021-06-29 17:53:34 公開日:2021-06-27
# 局所的タンパー検出を用いた画像内容依存半フラフラフラックス透かし

Image content dependent semi-fragile watermarking with localized tamper detection ( http://arxiv.org/abs/2106.14150v1 )

ライセンス: Link先を確認
Samira Hosseini, Mojtaba Mahdavi(参考訳) コンテンツ非依存の透かしとブロック方向の無依存性は、セミ脆弱な透かしの方法の脆弱性と見なすことができる。 本稿では,半フレジブルな透かし手法の目的を達成するために,上述した欠点を持たない方法を提案する。 提案手法では,画像の内容とキーに依存して透かしを生成する。 さらに、埋め込みスキームにより、キーを使用して、透かし付きブロックが互いに依存するようになる。 埋め込みフェーズでは、画像は重複しないブロックに分割される。 異なる種類の攻撃をより正確に検出および分離するために、提案手法では、ウォーターマークビットの3つのコピーを、各4x4ブロックのlwt係数に埋め込む。 認証フェーズでは、抽出したビット間での投票によってエラーマップが生成され、これらのマップは画像の信頼性を示し、修正された領域を明らかにする。 また、認証を自動化するために、画像は7つの特徴を用いて4つのカテゴリに分類される。 実験の分類精度は97.97パーセントである。 提案手法はJPEG圧縮に対して頑健であり, 強靭性および半脆弱性の観点から, 最先端の半フレジル透かし法と競合することを示す。

Content-independent watermarks and block-wise independency can be considered as vulnerabilities in semi-fragile watermarking methods. In this paper to achieve the objectives of semi-fragile watermarking techniques, a method is proposed to not have the mentioned shortcomings. In the proposed method, the watermark is generated by relying on image content and a key. Furthermore, the embedding scheme causes the watermarked blocks to become dependent on each other, using a key. In the embedding phase, the image is partitioned into non-overlapping blocks. In order to detect and separate the different types of attacks more precisely, the proposed method embeds three copies of each watermark bit into LWT coefficients of each 4x4 block. In the authentication phase, by voting between the extracted bits the error maps are created; these maps indicate image authenticity and reveal the modified regions. Also, in order to automate the authentication, the images are classified into four categories using seven features. Classification accuracy in the experiments is 97.97 percent. It is noted that our experiments demonstrate that the proposed method is robust against JPEG compression and is competitive with a state-of-the-art semi-fragile watermarking method, in terms of robustness and semi-fragility.
翻訳日:2021-06-29 17:53:11 公開日:2021-06-27
# DenseTNT:Waymo Open Dataset Motion Prediction Challenge 1st Place Solution

DenseTNT: Waymo Open Dataset Motion Prediction Challenge 1st Place Solution ( http://arxiv.org/abs/2106.14160v1 )

ライセンス: Link先を確認
Junru Gu, Qiao Sun, Hang Zhao(参考訳) 自律運転では、ゴールベースの多軌道予測手法が最近有効であることが証明され、まず最初にゴール候補を決め、次に最終目標を選択し、最後に選択した目標に基づいて軌道を完了させる。 しかし、これらの手法は通常、スパース事前定義アンカーに基づく目標予測を伴う。 本研究では,軌道予測のための高密度目標確率推定を行うアンカーフリーモデルDenseTNTを提案する。 我々のモデルは最先端の性能を達成し、Waymo Open Dataset Motion Prediction Challengeで1位にランクインした。

In autonomous driving, goal-based multi-trajectory prediction methods are proved to be effective recently, where they first score goal candidates, then select a final set of goals, and finally complete trajectories based on the selected goals. However, these methods usually involve goal predictions based on sparse predefined anchors. In this work, we propose an anchor-free model, named DenseTNT, which performs dense goal probability estimation for trajectory prediction. Our model achieves state-of-the-art performance, and ranks 1st on the Waymo Open Dataset Motion Prediction Challenge.
翻訳日:2021-06-29 17:52:50 公開日:2021-06-27
# Cryo-Electron Tomographyにおけるマクロ分子の遠方的意味的特徴

Disentangling semantic features of macromolecules in Cryo-Electron Tomography ( http://arxiv.org/abs/2106.14192v1 )

ライセンス: Link先を確認
Kai Yi, Jianye Pang, Yungeng Zhang, Xiangrui Zeng, Min Xu(参考訳) クライオ電子トモグラフィー(Cryo-Electronトモグラフィー、Cryo-ET)は、単細胞における分子構造の形状、存在量、分布の3次元イメージング技術である。 しかし、Cryo-ETによって捕獲されたマクロ分子構造の認識と回復は、構造的複雑さと画像的限界のために非常に困難である。 同じ構造を持つマクロ分子でさえ、異なる向きと画像の限界、例えばノイズや欠落したくさび効果によって様々な外観を持つ。 マクロ分子のセマンティックな特徴を明示的に切り離すことは、マクロ分子の下流解析を行う上で重要である。 本稿では, マクロ分子の構造, 配向, シフトを明示的に切り離す3次元空間変動オートエンコーダを提案することで, この問題に対処した。 合成および実際のcryo-etデータセットとクロスドメイン評価の両方に関する広範な実験により,本手法の有効性が示された。

Cryo-electron tomography (Cryo-ET) is a 3D imaging technique that enables the systemic study of shape, abundance, and distribution of macromolecular structures in single cells in near-atomic resolution. However, the systematic and efficient $\textit{de novo}$ recognition and recovery of macromolecular structures captured by Cryo-ET are very challenging due to the structural complexity and imaging limits. Even macromolecules with identical structures have various appearances due to different orientations and imaging limits, such as noise and the missing wedge effect. Explicitly disentangling the semantic features of macromolecules is crucial for performing several downstream analyses on the macromolecules. This paper has addressed the problem by proposing a 3D Spatial Variational Autoencoder that explicitly disentangle the structure, orientation, and shift of macromolecules. Extensive experiments on both synthesized and real cryo-ET datasets and cross-domain evaluations demonstrate the efficacy of our method.
翻訳日:2021-06-29 17:52:40 公開日:2021-06-27
# DONet:カテゴリーレベル6次元オブジェクトマップの学習と深さ観測によるサイズ推定

DONet: Learning Category-Level 6D Object Pose and Size Estimation from Depth Observation ( http://arxiv.org/abs/2106.14193v1 )

ライセンス: Link先を確認
Haitao Lin, Zichang Liu, Chilam Cheang, Lingwei Zhang, Yanwei Fu, Xiangyang Xue(参考訳) 本研究では,外部のポーズアノテートした実世界のトレーニングデータを用いずに,単一深度画像からカテゴリレベルの6Dオブジェクトポスとサイズ推定(COPSE)を提案する。 従来の研究はRGB(D)画像の視覚的手がかりを利用していたが,本手法は深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。 本フレームワークは,3次元指向性表現(3D-OCR)モジュールを統一的に学習し,幾何制約反射対称性(GeoReS)モジュールの特性によってさらに強化される。 オブジェクトサイズと中心点の大きさ情報は、ミラーペア次元推定(MPDE)モジュールによって最終的に推定される。 カテゴリレベルのNOCSベンチマークにおいて、我々のフレームワークは、ラベル付き実世界の画像を必要とする最先端のアプローチと競合することを示した。 また,このアプローチを物理的baxterロボットに展開して,未知だがカテゴリの既知のインスタンスで操作タスクを実行し,提案モデルの有効性をさらに検証した。 私たちのビデオは補足資料で閲覧できます。

We propose a method of Category-level 6D Object Pose and Size Estimation (COPSE) from a single depth image, without external pose-annotated real-world training data. While previous works exploit visual cues in RGB(D) images, our method makes inferences based on the rich geometric information of the object in the depth channel alone. Essentially, our framework explores such geometric information by learning the unified 3D Orientation-Consistent Representations (3D-OCR) module, and further enforced by the property of Geometry-constrained Reflection Symmetry (GeoReS) module. The magnitude information of object size and the center point is finally estimated by Mirror-Paired Dimensional Estimation (MPDE) module. Extensive experiments on the category-level NOCS benchmark demonstrate that our framework competes with state-of-the-art approaches that require labeled real-world images. We also deploy our approach to a physical Baxter robot to perform manipulation tasks on unseen but category-known instances, and the results further validate the efficacy of our proposed model. Our videos are available in the supplementary material.
翻訳日:2021-06-29 17:52:23 公開日:2021-06-27
# オブジェクト距離推定のための表現に基づく回帰

Representation Based Regression for Object Distance Estimation ( http://arxiv.org/abs/2106.14208v1 )

ライセンス: Link先を確認
Mete Ahishali, Mehmet Yamac, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 本研究では,検出された物体の距離を観測現場で予測する新しい手法を提案する。 提案手法はCSEN(Convolutional Support Estimator Networks)を改良したものである。 CSENは、表現に基づく分類問題において、サポート推定(SE)タスクの直接マッピングを計算するように設計されている。 さらに,よく設計された回帰問題において,表現ベース手法(疎表現あるいは協調表現)が利用できることを示す。 我々の知る限りでは、修正CSENを用いて回帰タスクを実行するための最初の表現ベース手法であり、この手法をRepresentation-based Regression (RbR) と呼ぶ。 CSENの初期バージョンには、入力に必要なプロキシマッピングステージ(つまり、サポートセットの粗い推定)がある。 本研究では,いわゆるプロキシマッピングステージと畳み込み層を共同で最適化する能力を有する圧縮学習csen(cl-csen)を提案することで,csenモデルを改善する。 kitti 3次元物体検出距離推定データセットを用いた実験評価により,提案手法は,すべての競合手法に対して有意に高い距離推定性能が得られることがわかった。 最後に、これらのメソッドのソフトウェア実装はhttps://github.com/meteahishali/CSENDistanceで公開されています。

In this study, we propose a novel approach to predict the distances of the detected objects in an observed scene. The proposed approach modifies the recently proposed Convolutional Support Estimator Networks (CSENs). CSENs are designed to compute a direct mapping for the Support Estimation (SE) task in a representation-based classification problem. We further propose and demonstrate that representation-based methods (sparse or collaborative representation) can be used in well-designed regression problems. To the best of our knowledge, this is the first representation-based method proposed for performing a regression task by utilizing the modified CSENs; and hence, we name this novel approach as Representation-based Regression (RbR). The initial version of CSENs has a proxy mapping stage (i.e., a coarse estimation for the support set) that is required for the input. In this study, we improve the CSEN model by proposing Compressive Learning CSEN (CL-CSEN) that has the ability to jointly optimize the so-called proxy mapping stage along with convolutional layers. The experimental evaluations using the KITTI 3D Object Detection distance estimation dataset show that the proposed method can achieve a significantly improved distance estimation performance over all competing methods. Finally, the software implementations of the methods are publicly shared at https://github.com/meteahishali/CSENDistance.
翻訳日:2021-06-29 17:52:03 公開日:2021-06-27
# 注意型多スケール深層畳み込みニューラルネットワークを用いた膝関節症重症度予測

Knee Osteoarthritis Severity Prediction using an Attentive Multi-Scale Deep Convolutional Neural Network ( http://arxiv.org/abs/2106.14292v1 )

ライセンス: Link先を確認
Rohit Kumar Jain, Prasen Kumar Sharma, Sibaji Gaj, Arijit Sur and Palash Ghosh(参考訳) 変形性膝関節症(英語: knee osteoarthritis, oa)は、関節の硬さ、痛み、機能障害が世界中の何百万人もの生命体にみられる破壊性関節疾患である。 一般的に、身体症状、医学的履歴、および放射線写真、磁気共鳴イメージング(MRI)、CTスキャンなどの関節スクリーニングテストを評価することで評価される。 残念ながら、従来の方法は非常に主観的であり、早期に疾患の進行を検出する上で障壁となる。 本稿では, x線からkellgren と lawrence (kl) を分類し, 膝oaの重症度を自動的に評価する, 深層学習に基づく枠組みである osteohrnet を提案する。 提案手法は, 膝X線のマルチスケール特徴を捉えるために, HRNet(High-Resolution Network)と呼ばれる最新のディープモデル上に構築されている。 また, 注意機構を組み込んで, 対生産的特徴をフィルタリングし, 性能をさらに向上させた。 提案手法は,OAIデータセットのベースラインコホートにおいて,71.74%の精度と0.311のMAEを達成している。 また,提案するネットワーク学習を正当化するために,勾配型クラスアクティベーションマップ(grad-cams)を用いた。

Knee Osteoarthritis (OA) is a destructive joint disease identified by joint stiffness, pain, and functional disability concerning millions of lives across the globe. It is generally assessed by evaluating physical symptoms, medical history, and other joint screening tests like radiographs, Magnetic Resonance Imaging (MRI), and Computed Tomography (CT) scans. Unfortunately, the conventional methods are very subjective, which forms a barrier in detecting the disease progression at an early stage. This paper presents a deep learning-based framework, namely OsteoHRNet, that automatically assesses the Knee OA severity in terms of Kellgren and Lawrence (KL) grade classification from X-rays. As a primary novelty, the proposed approach is built upon one of the most recent deep models, called the High-Resolution Network (HRNet), to capture the multi-scale features of knee X-rays. In addition, we have also incorporated an attention mechanism to filter out the counterproductive features and boost the performance further. Our proposed model has achieved the best multiclass accuracy of 71.74% and MAE of 0.311 on the baseline cohort of the OAI dataset, which is a remarkable gain over the existing best-published works. We have also employed the Gradient-based Class Activation Maps (Grad-CAMs) visualization to justify the proposed network learning.
翻訳日:2021-06-29 17:51:43 公開日:2021-06-27
# ジオデータベース更新における変更検出

Change Detection for Geodatabase Updating ( http://arxiv.org/abs/2106.14309v1 )

ライセンス: Link先を確認
Rongjun Qin(参考訳) 現在では、ジオデータベース(vectorized data)は、かなり標準的なデジタル都市インフラとなっているが、地理的データベースの効率的かつ経済的更新は、地理空間産業における基本的かつ実用的な問題である。 ジオデータベース構築のコストは非常に高く、労力がかかります。 ひとつの解決策は、(vectorized)地理空間データ生成のためのより自動化された方法を開発することである。 別の解決策は、まず新しいデータと既存の地理空間データの違いを検出し、次に変更として特定された領域だけを更新する。 第二のアプローチは、高い実用性と柔軟性のために、より好まれている。 非常に関連する技術は変化検出である。 本稿では、ジオデータベース更新作業を支援するために、リモートセンシングとジオマティクスの分野における最先端の変更検出手法の概要を提供する。 変化検出に用いるデータは高度に異なっており, 2次元データによる変化検出, 2次元データによる変化検出, 3次元データによる変化検出など, データの次元に基づいて直感的にレビューを構成する。 結論は、この分野におけるレビューされた取り組みに基づいて策定され、ジオデータベースの更新に関する我々の展望を共有します。

The geodatabase (vectorized data) nowadays becomes a rather standard digital city infrastructure; however, updating geodatabase efficiently and economically remains a fundamental and practical issue in the geospatial industry. The cost of building a geodatabase is extremely high and labor intensive, and very often the maps we use have several months and even years of latency. One solution is to develop more automated methods for (vectorized) geospatial data generation, which has been proven a difficult task in the past decades. An alternative solution is to first detect the differences between the new data and the existing geospatial data, and then only update the area identified as changes. The second approach is becoming more favored due to its high practicality and flexibility. A highly relevant technique is change detection. This article aims to provide an overview the state-of-the-art change detection methods in the field of Remote Sensing and Geomatics to support the task of updating geodatabases. Data used for change detection are highly disparate, we therefore structure our review intuitively based on the dimension of the data, being 1) change detection with 2D data; 2) change detection with 3D data. Conclusions will be drawn based on the reviewed efforts in the field, and we will share our outlooks of the topic of updating geodatabases.
翻訳日:2021-06-29 17:51:17 公開日:2021-06-27
# simdコード生成最適化のためのllvm解析のケーススタディ

A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation ( http://arxiv.org/abs/2106.14332v1 )

ライセンス: Link先を確認
Joseph Huber, Weile Wei, Giorgis Georgakoudis, Johannes Doerfert, Oscar Hernandez(参考訳) 本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ (dynamical clusterapproximation) アプリケーションのチューニングにLLVMベースのツールを使用する手法を提案する。 目標は、新しいアーキテクチャに必要な変更を記述し、新しいScalable Vector Extension命令セットをターゲットにした効率的な単一命令/複数データ(SIMD)命令を生成することである。 手動チューニングの間、著者らはLLVMツールを使用して、OpenMP SIMDを使用してコードの並列化を改善し、SIMD最適化を可能にするコードと適用した変換をリファクタリングし、正しいライブラリを使用して最適なパフォーマンスを実現する。 これらのコード変更を適用することで、a64fxプロセッサでcodespeedが1.9倍、78gflopsが達成された。 OpenMP Advisorツールは、既存の新しく導入されたLLVMツールの上に構築されている。

This paper presents a methodology for using LLVM-based tools to tune the DCA++ (dynamical clusterapproximation) application that targets the new ARM A64FX processor. The goal is to describethe changes required for the new architecture and generate efficient single instruction/multiple data(SIMD) instructions that target the new Scalable Vector Extension instruction set. During manualtuning, the authors used the LLVM tools to improve code parallelization by using OpenMP SIMD,refactored the code and applied transformation that enabled SIMD optimizations, and ensured thatthe correct libraries were used to achieve optimal performance. By applying these code changes, codespeed was increased by 1.98X and 78 GFlops were achieved on the A64FX processor. The authorsaim to automatize parts of the efforts in the OpenMP Advisor tool, which is built on top of existingand newly introduced LLVM tooling.
翻訳日:2021-06-29 17:47:33 公開日:2021-06-27
# AdaptCL: 動的および適応型プルーニングによる効率的な協調学習

AdaptCL: Efficient Collaborative Learning with Dynamic and Adaptive Pruning ( http://arxiv.org/abs/2106.14126v1 )

ライセンス: Link先を確認
Guangmeng Zhou, Ke Xu, Qi Li, Yang Liu, Yi Zhao(参考訳) マルチパーティ協調学習では、パラメータサーバは、ローカルトレーニングのために各データホルダにグローバルモデルを送り、プライバシ保護を達成するために、コミットされたモデルをグローバルに集約する。 しかし、同期協調学習のドラガー問題と非同期協調学習の停滞問題は、実世界の異種環境において協調学習を非効率にする。 本稿では,各データホルダのグローバルベースモデルから動的に適応型サブモデルを生成するadaptclという,新しい効率的な協調学習フレームワークを提案する。 すべてのワーカ(データホルダ)は、能力適応型プルーンドモデルを備えて、最も速いワーカとほぼ同じ更新時間を達成する。 これにより、トレーニングプロセスが劇的に加速される。 さらに,高効率なprunedレート学習アルゴリズムとadaptclのpruningアプローチを調整した。 一方、AdaptCLは精度と時間オーバーヘッドの間のトレードオフを処理するメカニズムを提供し、トレーニングをさらに加速する他のテクニックと組み合わせることができる。 実証的な結果から、AdaptCLは計算と通信のオーバーヘッドが少ないことが分かる。 adaptclは平均で41\%以上の時間節約を達成し、低異種環境における精度を向上させる。 非常に異質な環境では、AdaptCLはトレーニングのスピードアップを6.2倍にし、精度はわずかに低下する。

In multi-party collaborative learning, the parameter server sends a global model to each data holder for local training and then aggregates committed models globally to achieve privacy protection. However, both the dragger issue of synchronous collaborative learning and the staleness issue of asynchronous collaborative learning make collaborative learning inefficient in real-world heterogeneous environments. We propose a novel and efficient collaborative learning framework named AdaptCL, which generates an adaptive sub-model dynamically from the global base model for each data holder, without any prior information about worker capability. All workers (data holders) achieve approximately identical update time as the fastest worker by equipping them with capability-adapted pruned models. Thus the training process can be dramatically accelerated. Besides, we tailor the efficient pruned rate learning algorithm and pruning approach for AdaptCL. Meanwhile, AdaptCL provides a mechanism for handling the trade-off between accuracy and time overhead and can be combined with other techniques to accelerate training further. Empirical results show that AdaptCL introduces little computing and communication overhead. AdaptCL achieves time savings of more than 41\% on average and improves accuracy in a low heterogeneous environment. In a highly heterogeneous environment, AdaptCL achieves a training speedup of 6.2x with a slight loss of accuracy.
翻訳日:2021-06-29 17:46:00 公開日:2021-06-27
# multi-task over-the-air federated learning: non-orthogonal transmission アプローチ

Multi-task Over-the-Air Federated Learning: A Non-Orthogonal Transmission Approach ( http://arxiv.org/abs/2106.14229v1 )

ライセンス: Link先を確認
Haoming Ma, Xiaojun Yuan, Dian Fan, Zhi Ding, Xin Wang(参考訳) 本稿では,複数の学習タスクがエッジサーバ(ES)の協調の下で,データ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。 特に、全タスクのモデル更新は、オーバーザエア計算により非直交アップリンクチャネル上で同時に送信および重畳され、このターボ圧縮センシングアルゴリズムの拡張バージョンにより、全タスクの集約結果をESで再構成する。 収束解析と数値計算の結果から,moaflフレームワークは,学習性能の低下を招くことなく,複数のタスクのアップリンク帯域消費を大幅に削減できることがわかった。

In this letter, we propose a multi-task over-theair federated learning (MOAFL) framework, where multiple learning tasks share edge devices for data collection and learning models under the coordination of a edge server (ES). Specially, the model updates for all the tasks are transmitted and superpositioned concurrently over a non-orthogonal uplink channel via over-the-air computation, and the aggregation results of all the tasks are reconstructed at the ES through an extended version of the turbo compressed sensing algorithm. Both the convergence analysis and numerical results demonstrate that the MOAFL framework can significantly reduce the uplink bandwidth consumption of multiple tasks without causing substantial learning performance degradation.
翻訳日:2021-06-29 17:45:42 公開日:2021-06-27
# DGL-LifeSci:ライフサイエンスにおけるグラフのディープラーニングのためのオープンソースツールキット

DGL-LifeSci: An Open-Source Toolkit for Deep Learning on Graphs in Life Science ( http://arxiv.org/abs/2106.14232v1 )

ライセンス: Link先を確認
Mufei Li, Jinjing Zhou, Jiajing Hu, Wenxuan Fan, Yangkang Zhang, Yaxin Gu, George Karypis(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータのディープラーニング手法のクラスを構成する。 分子特性予測、反応予測、薬物-標的相互作用予測など、化学や生物学に広く応用されている。 興味深いことに、GNNベースのモデリングは、プログラミングとディープラーニングに加えて、グラフデータの事前処理とモデリングを必要とするため、難しい。 本稿では,生命科学におけるグラフの深層学習のためのオープンソースパッケージであるDGL-LifeSciを紹介する。 DGL-LifeSciはRDKit、PyTorch、Deep Graph Library (DGL)をベースにしたピソンツールキットである。 DGL-LifeSciは、分子特性予測、反応予測、分子生成のためのカスタムデータセットでGNNベースのモデリングを可能にする。 コマンドラインインターフェイスを使えば、プログラミングやディープラーニングのバックグラウンドなしにモデリングを実行できる。 標準ベンチマークであるMoeculeNet, USPTO, ZINCを用いて, コマンドラインインタフェースをテストする。 以前の実装と比較して、DGL-LifeSciは最大6倍のスピードを実現している。 モデリングの柔軟性のために、dgl-lifesciはモデリングパイプラインの様々な段階に最適化されたモジュールを提供する。 さらに、DGL-LifeSciは、テスト実験結果を再現し、トレーニングなしでモデルを適用するためのトレーニング済みモデルを提供する。 コードはApache-2.0ライセンスで配布されており、https://github.com/awslabs/dgl-lifesciで自由にアクセスできる。

Graph neural networks (GNNs) constitute a class of deep learning methods for graph data. They have wide applications in chemistry and biology, such as molecular property prediction, reaction prediction and drug-target interaction prediction. Despite the interest, GNN-based modeling is challenging as it requires graph data pre-processing and modeling in addition to programming and deep learning. Here we present DGL-LifeSci, an open-source package for deep learning on graphs in life science. DGL-LifeSci is a python toolkit based on RDKit, PyTorch and Deep Graph Library (DGL). DGL-LifeSci allows GNN-based modeling on custom datasets for molecular property prediction, reaction prediction and molecule generation. With its command-line interfaces, users can perform modeling without any background in programming and deep learning. We test the command-line interfaces using standard benchmarks MoleculeNet, USPTO, and ZINC. Compared with previous implementations, DGL-LifeSci achieves a speed up by up to 6x. For modeling flexibility, DGL-LifeSci provides well-optimized modules for various stages of the modeling pipeline. In addition, DGL-LifeSci provides pre-trained models for reproducing the test experiment results and applying models without training. The code is distributed under an Apache-2.0 License and is freely accessible at https://github.com/awslabs/dgl-lifesci.
翻訳日:2021-06-29 17:45:28 公開日:2021-06-27
# 機械学習を用いた$H \rightarrow \tau \tau$の背景信号の最大化

Use of Machine Learning Technique to maximize the signal over background for $H \rightarrow \tau \tau$ ( http://arxiv.org/abs/2106.14257v1 )

ライセンス: Link先を確認
Kanhaiya Gupta(参考訳) 近年、ニューラルネットワーク(anns)はパターン認識と機械学習の多くのコンテストで優勝した。 ANNSは、音声認識からタンパク質二次構造予測、がんの分類、遺伝子予測まで、様々な問題に適用されている。 ここでは、記録されたイベントを信号またはバックグラウンドとして分類するために機械学習技術を使用して、擬似データセットでヒッグス粒子が2$\tau$ leptonsに崩壊する確率を最大化する。

In recent years, artificial neural networks (ANNs) have won numerous contests in pattern recognition and machine learning. ANNS have been applied to problems ranging from speech recognition to prediction of protein secondary structure, classification of cancers, and gene prediction. Here, we intend to maximize the chances of finding the Higgs boson decays to two $\tau$ leptons in the pseudo dataset using a Machine Learning technique to classify the recorded events as signal or background.
翻訳日:2021-06-29 17:45:12 公開日:2021-06-27
# 良性生検にもかかわらず前立腺癌リスクのある患者をディープラーニングで検出する

Using deep learning to detect patients at risk for prostate cancer despite benign biopsies ( http://arxiv.org/abs/2106.14256v1 )

ライセンス: Link先を確認
Boing Liu, Yinxi Wang, Philippe Weitz, Johan Lindberg, Lars Egevad, Henrik Gr\"onberg, Martin Eklund, Mattias Rantalainen(参考訳) 背景:経直腸超音波ガイド下前立腺組織的生検は前立腺癌の診断を確立するための定期的な手順である。 しかし、10-12の前立腺コア生検は前立腺の比較的少量のみを採取し、生検コア間の腫瘍病変を見逃すことができ、臨床的に関連のあるがんを検出するための感度が低いことが知られている。 基礎実証として,良性前立腺生検における形態的パターンを男性と癌の有無で区別するために,深層畳み込みニューラルネットワークモデルを開発し,検証した。 方法:本研究は,前立腺癌 (PCa) 診断が確立していない男性と,少なくとも1つの中核生検をPCaと診断した男性に,良性前立腺生検で14,354例のヘマトキシリンとエオシンを染色した。 参加者の80%がトレーニングデータとして配置され、モデル最適化(1,211名)に使用され、残りの20%(297名)がモデル性能を評価するのに使用された。 10種類の深層畳み込みニューラルネットワークモデルのアンサンブルは、確立された癌と診断されていない男性からの生検の分類に最適化された。 ハイパーパラメータ最適化とモデル選択は、トレーニングデータにおけるクロスバリデーションによって行われた。 結果: 受信機動作特性曲線 (ROC-AUC) の面積は生検では0.727 (bootstrap 95% CI: 0.708-0.745) , 男性では0.738 (bootstrap 95% CI: 0.682-0.796) と推定された。 0.9の比では0.348と推定された。 結論: 発達したモデルは前立腺のサンプル不足によりpcaを欠くリスクのある男性を検出できる。 提案モデルでは, 正常な前立腺生検における偽陰性症例の数を減少させる可能性があり, MRI誘導再生の恩恵を受ける男性を示す。

Background: Transrectal ultrasound guided systematic biopsies of the prostate is a routine procedure to establish a prostate cancer diagnosis. However, the 10-12 prostate core biopsies only sample a relatively small volume of the prostate, and tumour lesions in regions between biopsy cores can be missed, leading to a well-known low sensitivity to detect clinically relevant cancer. As a proof-of-principle, we developed and validated a deep convolutional neural network model to distinguish between morphological patterns in benign prostate biopsy whole slide images from men with and without established cancer. Methods: This study included 14,354 hematoxylin and eosin stained whole slide images from benign prostate biopsies from 1,508 men in two groups: men without an established prostate cancer (PCa) diagnosis and men with at least one core biopsy diagnosed with PCa. 80% of the participants were assigned as training data and used for model optimization (1,211 men), and the remaining 20% (297 men) as a held-out test set used to evaluate model performance. An ensemble of 10 deep convolutional neural network models was optimized for classification of biopsies from men with and without established cancer. Hyperparameter optimization and model selection was performed by cross-validation in the training data . Results: Area under the receiver operating characteristic curve (ROC-AUC) was estimated as 0.727 (bootstrap 95% CI: 0.708-0.745) on biopsy level and 0.738 (bootstrap 95% CI: 0.682 - 0.796) on man level. At a specificity of 0.9 the model had an estimated sensitivity of 0.348. Conclusion: The developed model has the ability to detect men with risk of missed PCa due to under-sampling of the prostate. The proposed model has the potential to reduce the number of false negative cases in routine systematic prostate biopsies and to indicate men who could benefit from MRI-guided re-biopsy.
翻訳日:2021-06-29 17:42:58 公開日:2021-06-27
# センサフォールトトレラントビルディングHVAC制御のためのモデル支援学習フレームワーク

Model-assisted Learning-based Framework for Sensor Fault-Tolerant Building HVAC Control ( http://arxiv.org/abs/2106.14144v1 )

ライセンス: Link先を確認
Shichao Xu, Yangyang Fu, Yixuan Wang, Zheng O'Neill and Qi Zhu(参考訳) 屋内で最大87%の時間を過ごすため、建物内のインテリジェントな暖房、換気、空調システム(HVAC)は、居住環境の維持とエネルギー消費の削減に不可欠である。 現代のスマートビルの空調システムは、リアルタイムセンサーによる読み取りに依存している。 このような異常なセンサ入力は、室内環境要件(例えば、温度、湿度など)に違反する可能性がある。 エネルギー消費の増加です HVAC制御を構築するための文献において多くのモデルベースアプローチが提案されているが、その性能を保証するための正確な物理モデルを開発することはコストがかかる。 本研究では, センサフォールトトレラントなHVAC制御のための新しい学習フレームワークを提案する。1) センサフォールトを考慮した温度提案を生成するための深層学習ベースの3つのコンポーネント,2) 精度の評価に基づく提案の1つを選択する,3) 選択した温度提案による強化学習を適用する。 さらに,建築関連課題におけるデータ不足の訓練の課題に対処するために,物理力学構築の抽象モデルを活用したモデル支援学習手法を提案する。 大規模数値実験により,提案する耐故障性hvac制御フレームワークは,エネルギー効率を維持しつつ,様々なセンサ故障パターン下での建築温度違反を著しく低減できることを実証した。

As people spend up to 87% of their time indoors, intelligent Heating, Ventilation, and Air Conditioning (HVAC) systems in buildings are essential for maintaining occupant comfort and reducing energy consumption. Those HVAC systems in modern smart buildings rely on real-time sensor readings, which in practice often suffer from various faults and could also be vulnerable to malicious attacks. Such faulty sensor inputs may lead to the violation of indoor environment requirements (e.g., temperature, humidity, etc.) and the increase of energy consumption. While many model-based approaches have been proposed in the literature for building HVAC control, it is costly to develop accurate physical models for ensuring their performance and even more challenging to address the impact of sensor faults. In this work, we present a novel learning-based framework for sensor fault-tolerant HVAC control, which includes three deep learning based components for 1) generating temperature proposals with the consideration of possible sensor faults, 2) selecting one of the proposals based on the assessment of their accuracy, and 3) applying reinforcement learning with the selected temperature proposal. Moreover, to address the challenge of training data insufficiency in building-related tasks, we propose a model-assisted learning method leveraging an abstract model of building physical dynamics. Through extensive numerical experiments, we demonstrate that the proposed fault-tolerant HVAC control framework can significantly reduce building temperature violations under a variety of sensor fault patterns while maintaining energy efficiency.
翻訳日:2021-06-29 17:41:14 公開日:2021-06-27
# Reward-based 1bit Compressed Federated Distillation on Blockchain

Reward-Based 1-bit Compressed Federated Distillation on Blockchain ( http://arxiv.org/abs/2106.14265v1 )

ライセンス: Link先を確認
Leon Witt, Usama Zafar, KuoYeh Shen, Felix Sattler, Dan Li, Wojciech Samek(参考訳) 近年のFD(Federated Knowledge Distillation)の出現は、従来のFL方式のようにディープニューラルネットワーク(Deep Neural Networks, DNN)全体の勾配ではなく、単なるソフトラベルを集約する、堅牢でコミュニケーション効率のよいフェデレートラーニング(Federated Learning, FL)の新たな世代の道を開いた。 このセキュリティ・パー・デザインのアプローチは、ますますパフォーマンスのよいモノのインターネット(IoT)やモバイルデバイスと組み合わせることで、人工知能モデルのトレーニングのインプットとして、業界だけでなく個人からもプライベートデータを活用できるようになる。 しかし、以前のflシステムでは、労働者と中央機関間の権力の不均衡による信頼の欠如、利他的な労働者参加の仮定、労働者の貢献を正しく測定し比較できないことが、この技術が既に委託された団体の小さなグループを超えて大量導入を妨げている。 本研究は,1ホットラベル予測に類似した重圧縮1ビットソフトラベルをスマートコントラクトに集約した分散化フェデレーション学習フレームワークを導入することにより,上記の課題を軽減することを目的とする。 労働者のコントリビューションが簡単に比較できる状況では、FDのためのPier Truth Serum for Crowdsourcing Mechanism(PTSC)を修正し、インセンティブ互換の方法でピア一貫性に基づいた正直な参加を報酬する。 計算複雑性とストレージの両方が大幅に削減されているため、当社のフレームワークは、シンプルなスマートコントラクトで実現可能な、ブロックチェーンに依存しない完全なオンブロックチェーンFLシステムです。 我々は新しい枠組みを実験的にテストし,その理論的性質を検証する。

The recent advent of various forms of Federated Knowledge Distillation (FD) paves the way for a new generation of robust and communication-efficient Federated Learning (FL), where mere soft-labels are aggregated, rather than whole gradients of Deep Neural Networks (DNN) as done in previous FL schemes. This security-per-design approach in combination with increasingly performant Internet of Things (IoT) and mobile devices opens up a new realm of possibilities to utilize private data from industries as well as from individuals as input for artificial intelligence model training. Yet in previous FL systems, lack of trust due to the imbalance of power between workers and a central authority, the assumption of altruistic worker participation and the inability to correctly measure and compare contributions of workers hinder this technology from scaling beyond small groups of already entrusted entities towards mass adoption. This work aims to mitigate the aforementioned issues by introducing a novel decentralized federated learning framework where heavily compressed 1-bit soft-labels, resembling 1-hot label predictions, are aggregated on a smart contract. In a context where workers' contributions are now easily comparable, we modify the Peer Truth Serum for Crowdsourcing mechanism (PTSC) for FD to reward honest participation based on peer consistency in an incentive compatible fashion. Due to heavy reductions of both computational complexity and storage, our framework is a fully on-blockchain FL system that is feasible on simple smart contracts and therefore blockchain agnostic. We experimentally test our new framework and validate its theoretical properties.
翻訳日:2021-06-29 17:40:50 公開日:2021-06-27
# 収縮的確率近似と強化学習の集中化

Concentration of Contractive Stochastic Approximation and Reinforcement Learning ( http://arxiv.org/abs/2106.14308v1 )

ライセンス: Link先を確認
Siddharth Chandak, Vivek S. Borkar(参考訳) マルティンゲール濃度の不等式を用いて, マルティンゲール差とマルコフ雑音の双方を縮合した確率近似アルゴリズムにおいて, 「時間$n_0$on」から濃度境界を導出した。 これらは強化学習アルゴリズム、特に非同期Q-ラーニングやTD(0)に適用される。

Using a martingale concentration inequality, concentration bounds `from time $n_0$ on' are derived for stochastic approximation algorithms with contractive maps and both martingale difference and Markov noises. These are applied to reinforcement learning algorithms, in particular to asynchronous Q-learning and TD(0).
翻訳日:2021-06-29 17:40:19 公開日:2021-06-27
# Legendre Deep Neural Network (LDNN) と非線形ボルテラ・フレドホルム・ハマースタイン積分方程式の近似への応用

Legendre Deep Neural Network (LDNN) and its application for approximation of nonlinear Volterra Fredholm Hammerstein integral equations ( http://arxiv.org/abs/2106.14320v1 )

ライセンス: Link先を確認
Zeinab Hajimohammadi and Kourosh Parand and Ali Ghodsi(参考訳) 生物学、物理学、工学における様々な現象は微分方程式によってモデル化される。 偏微分方程式や常微分方程式を含むこれらの微分方程式は、積分方程式として変換され表される。 特に、ボルテラ・フレドホルム・ハマースタイン積分方程式はこれらの積分方程式の主要な型であり、研究者はこれらの方程式の調査と解法に興味を持っている。 本稿では,非線形Volterra Fredholm Hammerstein積分方程式(VFHIEs)を解くために,LDNN(Legendre Deep Neural Network)を提案する。 ldnnは深層構造の活性化関数としてルジャンドル直交多項式を用いる。 LDNNを用いて非線形VFHIEを解く方法について述べる。 LDNNと組み合わせたガウス二次コロケーション法を用いて,非線形VFHIEに対する新しい数値解法を提案する。 LDNNの性能と精度を検証するいくつかの例がある。

Various phenomena in biology, physics, and engineering are modeled by differential equations. These differential equations including partial differential equations and ordinary differential equations can be converted and represented as integral equations. In particular, Volterra Fredholm Hammerstein integral equations are the main type of these integral equations and researchers are interested in investigating and solving these equations. In this paper, we propose Legendre Deep Neural Network (LDNN) for solving nonlinear Volterra Fredholm Hammerstein integral equations (VFHIEs). LDNN utilizes Legendre orthogonal polynomials as activation functions of the Deep structure. We present how LDNN can be used to solve nonlinear VFHIEs. We show using the Gaussian quadrature collocation method in combination with LDNN results in a novel numerical solution for nonlinear VFHIEs. Several examples are given to verify the performance and accuracy of LDNN.
翻訳日:2021-06-29 17:40:08 公開日:2021-06-27
# 高度なアンビエントガンを用いた医用画像計測による確率オブジェクトモデルの学習

Learning stochastic object models from medical imaging measurements by use of advanced AmbientGANs ( http://arxiv.org/abs/2106.14324v1 )

ライセンス: Link先を確認
Weimin Zhou, Sayantan Bhadra, Frank J. Brooks, Hua Li, Mark A. Anastasio(参考訳) コンピュータシミュレーションによる新しい医用イメージング技術を客観的に評価するためには,画像データに寄与するすべての変動源を考慮することが重要である。 オブザーバのパフォーマンスを著しく制限できる変数の1つの重要な源は、イメージするオブジェクトのアンサンブルの変動と関連している。 この変数の源は確率的対象モデル(SOMs)によって記述することができ、これは仮想的な対象の分布からサンプルを採取するのに使用できる生成モデルである。 高い特性の撮像システムを用いて得られた実験画像計測からSOMを確立することが一般的に望ましいが、この課題はいまだに困難である。 generative adversarial networks (gans) のようなディープジェネレーションニューラルネットワークは、そのようなタスクの可能性を秘めている。 画像計測からSOMを確立するために、アンビエントGANが測定演算子でGANを増強する提案がなされている。 しかし、オリジナルのAmbientGANは現在の訓練手順やGANアーキテクチャの恩恵を受けられなかったため、現実的な大きさの医療画像データに適用する能力は制限された。 これを回避するため,本稿では,ganやスタイルベースganの進歩的成長に使用されるような,現代的なプログレッシブあるいはマルチレゾリューションなトレーニングアプローチに適した改良型アンビエントガントレーニング戦略を提案する。 提案手法を用いて確立されたアンビエントGANは、スタイリング画像システムに対応するコンピュータシミュレーション計測データを用いて、制御された方法で体系的に検証される。 最後に, 模擬単一コイル実験磁気共鳴画像データを用いて, よりスタイリングの少ない条件下での手法の実証を行った。

In order to objectively assess new medical imaging technologies via computer-simulations, it is important to account for all sources of variability that contribute to image data. One important source of variability that can significantly limit observer performance is associated with the variability in the ensemble of objects to-be-imaged. This source of variability can be described by stochastic object models (SOMs), which are generative models that can be employed to sample from a distribution of to-be-virtually-imaged objects. It is generally desirable to establish SOMs from experimental imaging measurements acquired by use of a well-characterized imaging system, but this task has remained challenging. Deep generative neural networks, such as generative adversarial networks (GANs) hold potential for such tasks. To establish SOMs from imaging measurements, an AmbientGAN has been proposed that augments a GAN with a measurement operator. However, the original AmbientGAN could not immediately benefit from modern training procedures and GAN architectures, which limited its ability to be applied to realistically sized medical image data. To circumvent this, in this work, a modified AmbientGAN training strategy is proposed that is suitable for modern progressive or multi-resolution training approaches such as employed in the Progressive Growing of GANs and Style-based GANs. AmbientGANs established by use of the proposed training procedure are systematically validated in a controlled way by use of computer-simulated measurement data corresponding to a stylized imaging system. Finally, emulated single-coil experimental magnetic resonance imaging data are employed to demonstrate the methods under less stylized conditions.
翻訳日:2021-06-29 14:05:47 公開日:2021-06-27
# 結合エンティティと関係抽出のための効果的なカスケードデュアルデコーダモデル

Effective Cascade Dual-Decoder Model for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2106.14163v1 )

ライセンス: Link先を確認
Lianbo Ma, Huimin Ren, Xiliang Zhang(参考訳) テキストからリレーショナルトリプルを抽出することは知識グラフ構築の基本的な課題である。 既存の手法の一般的な方法は、重なり合う三重問題に悩まされる単一のモデルを用いて、エンティティと関係を共同で抽出することである。 すなわち、1つの文内で同じエンティティを共有する複数のリレーショナルトリプルが存在する。 本研究では,テキスト固有の関係デコーダと関係対応エンティティデコーダを含む重なり合う関係三重項を抽出する効果的なカスケード二重デコーダ手法を提案する。 テキスト固有の関係デコーダはテキストの意味に従って文から関係を検知し、エンティティ抽出を導く追加の特徴として扱う; 抽出された関係は、学習可能な埋め込みである、関係対応エンティティデコーダは、スパンベースのタグ付けスキームを用いて対応する頭部と尾のエンティティを検出する。 このように、重なり合う三重問題は自然に取り組まれる。 2つの公開データセットの実験により、提案手法は最先端の手法より優れ、厳密な評価基準の下でF1スコアが向上することを示した。 実装はhttps://github.com/prastunlp/dualdec.comで利用可能です。

Extracting relational triples from texts is a fundamental task in knowledge graph construction. The popular way of existing methods is to jointly extract entities and relations using a single model, which often suffers from the overlapping triple problem. That is, there are multiple relational triples that share the same entities within one sentence. In this work, we propose an effective cascade dual-decoder approach to extract overlapping relational triples, which includes a text-specific relation decoder and a relation-corresponded entity decoder. Our approach is straightforward: the text-specific relation decoder detects relations from a sentence according to its text semantics and treats them as extra features to guide the entity extraction; for each extracted relation, which is with trainable embedding, the relation-corresponded entity decoder detects the corresponding head and tail entities using a span-based tagging scheme. In this way, the overlapping triple problem is tackled naturally. Experiments on two public datasets demonstrate that our proposed approach outperforms state-of-the-art methods and achieves better F1 scores under the strict evaluation metric. Our implementation is available at https://github.com/prastunlp/DualDec.
翻訳日:2021-06-29 14:04:24 公開日:2021-06-27
# 勾配学習機械のスコアベース変化検出

Score-Based Change Detection for Gradient-Based Learning Machines ( http://arxiv.org/abs/2106.14122v1 )

ライセンス: Link先を確認
Lang Liu, Joseph Salmon, Zaid Harchaoui(参考訳) 機械学習アルゴリズムが広く使われているため、自動変更検出アルゴリズムは時間の経過とともに行動を監視する。 機械学習アルゴリズムは、連続的、おそらく進化しているデータストリームから学習するので、監視と制御を容易にするために、付随的な変更検出アルゴリズムを補うことが望ましいし、しばしば必要となる。 経験的リスク最小化によって訓練された機械学習モデルの任意のコンポーネント数の変化を検出できる汎用スコアベースの変更検出手法を提案する。 提案する統計的仮説テストは、微分可能プログラミングフレームワーク内で設計されたモデルに対して容易に実装できる。 仮説テストの整合性を確立し、所定の誤報率を達成するためにそれを校正する方法を示す。 合成データおよび実データに対するアプローチの汎用性を説明する。

The widespread use of machine learning algorithms calls for automatic change detection algorithms to monitor their behavior over time. As a machine learning algorithm learns from a continuous, possibly evolving, stream of data, it is desirable and often critical to supplement it with a companion change detection algorithm to facilitate its monitoring and control. We present a generic score-based change detection method that can detect a change in any number of components of a machine learning model trained via empirical risk minimization. This proposed statistical hypothesis test can be readily implemented for such models designed within a differentiable programming framework. We establish the consistency of the hypothesis test and show how to calibrate it to achieve a prescribed false alarm rate. We illustrate the versatility of the approach on synthetic and real data.
翻訳日:2021-06-29 13:58:02 公開日:2021-06-27
# カーネル法による連続DPPの非パラメトリック推定

Nonparametric estimation of continuous DPPs with kernel methods ( http://arxiv.org/abs/2106.14210v1 )

ライセンス: Link先を確認
Micha\"el Fanuel and R\'emi Bardenet(参考訳) 決定点過程 (Determinantal Point Process, DPP) は、反発点パターンの統計モデルである。 サンプリングと推論の両方は、機械学習や空間統計学で人気を説明している負の依存を持つモデルでは珍しい特徴である、dppsでは扱いやすい。 パラメトリックおよび非パラメトリック推論法は有限の場合、すなわち、提案されている。 点のパターンが有限の地上に 存在するときです 連続例ではパラメトリック法のみが研究されているが、トレースクラス演算子に対する最適化問題である DPP の非パラメトリック最大度は未解決のままである。 本稿では,この最大度(mle)問題の限定版が,rkhs における非負関数に対する最近の表現子定理の範囲内にあることを示す。 これは、元のMLEと強い統計的結びつきを持つ有限次元問題につながる。 さらに,この有限次元問題を解くための固定点アルゴリズムを提案し,解析し,実証する。 最後に、DPPの相関カーネルの制御された推定値も提供し、より解釈可能性を高める。

Determinantal Point Process (DPPs) are statistical models for repulsive point patterns. Both sampling and inference are tractable for DPPs, a rare feature among models with negative dependence that explains their popularity in machine learning and spatial statistics. Parametric and nonparametric inference methods have been proposed in the finite case, i.e. when the point patterns live in a finite ground set. In the continuous case, only parametric methods have been investigated, while nonparametric maximum likelihood for DPPs -- an optimization problem over trace-class operators -- has remained an open question. In this paper, we show that a restricted version of this maximum likelihood (MLE) problem falls within the scope of a recent representer theorem for nonnegative functions in an RKHS. This leads to a finite-dimensional problem, with strong statistical ties to the original MLE. Moreover, we propose, analyze, and demonstrate a fixed point algorithm to solve this finite-dimensional problem. Finally, we also provide a controlled estimate of the correlation kernel of the DPP, thus providing more interpretability.
翻訳日:2021-06-29 13:57:51 公開日:2021-06-27
# MMDはいくつ比較できますか。

How many moments does MMD compare? ( http://arxiv.org/abs/2106.14277v1 )

ライセンス: Link先を確認
Rustem Takhanov(参考訳) 我々は、仮想微分作用素 $p({\mathbf x}, d)$ で $\mathcal{f} p({\mathbf x}, d)^\dag p({\mathbf x}, d) \mathcal{f}^{-1}$ が $k$($\mathcal{f}$ がフーリエ変換である)に付随する積分作用素と同様に滑らかな関数に作用する特別カーネル $k$ に対応することにより、マーサー核の新しい研究方法を提案する。 擬微分作用素によって定義される核は、コンパクト集合上の任意の連続マーサー核を一様近似することができる。 記号 $p({\mathbf x}, {\mathbf y})$ は、カーネル $k$ によって定義される最大平均不一致距離の構造に関する多くの有用な情報をカプセル化する。 我々は$p({\mathbf x}, {\mathbf y})$を、$p$の特異値分解の最初の$r$項の和で近似し、$p_r({\mathbf x}, {\mathbf y})$と表記する。 もし$p({\mathbf x}, {\mathbf y})$ に付随する積分作用素の順序付き特異値が急速に減少すると、新しい記号 $p_r$ によって定義される mmd 距離は初期値とわずかに異なる。 さらに、新しいmmd距離は、2つの確率分布のr$局所モーメントを比較する結果と解釈できる。 後者の結果は、$p$に付随する積分作用素の右特異ベクトルが一様有界であるという条件で成り立つ。 しかし、それが満たされていなくても、ヒルベルト=シュミット距離が$p$から$p_r$の間は消えると考えることができる。 したがって、mmd距離は、一定数の局所モーメントに対して2つの確率分布の差(r^\ast$)を測定し、この数$r^\ast$は、p$の特異値が減る速度に依存するという興味深い現象を報告している。

We present a new way of study of Mercer kernels, by corresponding to a special kernel $K$ a pseudo-differential operator $p({\mathbf x}, D)$ such that $\mathcal{F} p({\mathbf x}, D)^\dag p({\mathbf x}, D) \mathcal{F}^{-1}$ acts on smooth functions in the same way as an integral operator associated with $K$ (where $\mathcal{F}$ is the Fourier transform). We show that kernels defined by pseudo-differential operators are able to approximate uniformly any continuous Mercer kernel on a compact set. The symbol $p({\mathbf x}, {\mathbf y})$ encapsulates a lot of useful information about the structure of the Maximum Mean Discrepancy distance defined by the kernel $K$. We approximate $p({\mathbf x}, {\mathbf y})$ with the sum of the first $r$ terms of the Singular Value Decomposition of $p$, denoted by $p_r({\mathbf x}, {\mathbf y})$. If ordered singular values of the integral operator associated with $p({\mathbf x}, {\mathbf y})$ die down rapidly, the MMD distance defined by the new symbol $p_r$ differs from the initial one only slightly. Moreover, the new MMD distance can be interpreted as an aggregated result of comparing $r$ local moments of two probability distributions. The latter results holds under the condition that right singular vectors of the integral operator associated with $p$ are uniformly bounded. But even if this is not satisfied we can still hold that the Hilbert-Schmidt distance between $p$ and $p_r$ vanishes. Thus, we report an interesting phenomenon: the MMD distance measures the difference of two probability distributions with respect to a certain number of local moments, $r^\ast$, and this number $r^\ast$ depends on the speed with which singular values of $p$ die down.
翻訳日:2021-06-29 13:57:35 公開日:2021-06-27
# エントロピー型ヒューリスティックを用いた強制的特徴抽出と圧縮による深層畳み込みニューラルネットワークの過大パラメータ化の軽減

Mitigating severe over-parameterization in deep convolutional neural networks through forced feature abstraction and compression with an entropy-based heuristic ( http://arxiv.org/abs/2106.14190v1 )

ライセンス: Link先を確認
Nidhi Gowdra, Roopak Sinha, Stephen MacDonell and Wei Qi Yan(参考訳) resnet-50, densenet-40, resnext-56などの畳み込みニューラルネットワーク(cnns)は過度に過度にパラメータ化されており、モデル深さの増大に指数関数的にスケールするモデルトレーニングに必要な計算リソースが増加する必要がある。 本稿では,cnnモデルのネットワーク深さに関して,超パラメータ化の問題を解く上で有効であり,ロバストかつ単純であるエントロピーに基づく畳み込み層推定(ebcle)ヒューリスティックを提案する。 EBCLEヒューリスティックは、入力データセットのエントロピーデータ分布に関する事前知識を用いて、畳み込みネットワーク深さの上限を決定する。 特徴圧縮と抽象化を強制して深度冗長性を制限し、訓練時間を24.99% - 78.59%削減する。 我々は,より狭く,より深いモデルのベースライン分類精度を維持または超えているebcle heuristicを用いて訓練された,より広く,かつ浅いモデルの相対的有効性を強調した実証的証拠を示す。 EBCLEのヒューリスティックはアーキテクチャ的に非依存であり、EBCLEベースのCNNモデルは深度冗長性を制限するため、利用可能な計算資源の利用が強化される。 提案されたEBCLEヒューリスティックは、研究者がCNNに対するHyperParameter(HP)の選択を解析的に正当化する魅力的な手法である。 CNNモデルのトレーニングにおけるEBCLEヒューリスティックの実証的検証は,5つのベンチマークデータセット (ImageNet32, CIFAR-10/100, STL-10, MNIST) と4つのネットワークアーキテクチャ (DenseNet, ResNet, ResNeXt, EfficientNet B0-B2) で確立された。

Convolutional Neural Networks (CNNs) such as ResNet-50, DenseNet-40 and ResNeXt-56 are severely over-parameterized, necessitating a consequent increase in the computational resources required for model training which scales exponentially for increments in model depth. In this paper, we propose an Entropy-Based Convolutional Layer Estimation (EBCLE) heuristic which is robust and simple, yet effective in resolving the problem of over-parameterization with regards to network depth of CNN model. The EBCLE heuristic employs a priori knowledge of the entropic data distribution of input datasets to determine an upper bound for convolutional network depth, beyond which identity transformations are prevalent offering insignificant contributions for enhancing model performance. Restricting depth redundancies by forcing feature compression and abstraction restricts over-parameterization while decreasing training time by 24.99% - 78.59% without degradation in model performance. We present empirical evidence to emphasize the relative effectiveness of broader, yet shallower models trained using the EBCLE heuristic, which maintains or outperforms baseline classification accuracies of narrower yet deeper models. The EBCLE heuristic is architecturally agnostic and EBCLE based CNN models restrict depth redundancies resulting in enhanced utilization of the available computational resources. The proposed EBCLE heuristic is a compelling technique for researchers to analytically justify their HyperParameter (HP) choices for CNNs. Empirical validation of the EBCLE heuristic in training CNN models was established on five benchmarking datasets (ImageNet32, CIFAR-10/100, STL-10, MNIST) and four network architectures (DenseNet, ResNet, ResNeXt and EfficientNet B0-B2) with appropriate statistical tests employed to infer any conclusive claims presented in this paper.
翻訳日:2021-06-29 13:56:13 公開日:2021-06-27
# 音声コンテンツ配信をカスタマイズしたaiベースのプレゼンテーションクリエータ

AI based Presentation Creator With Customized Audio Content Delivery ( http://arxiv.org/abs/2106.14213v1 )

ライセンス: Link先を確認
Muvazima Mansoor, Srikanth Chandar, Ramamoorthy Srinath(参考訳) 本稿では,新型コロナウイルス(covid-19)のパンデミックによる仮想コンテンツ配信需要の増加に伴い,近年になって発生した新たな問題ステートメントを解決するアーキテクチャを提案する。 すべての教育機関、職場、研究センターなど。 社会的に離れた時間におけるコミュニケーションのギャップを オンラインコンテンツ配信で埋めようとしているのです 現在のトレンドはプレゼンテーションを作成し、その後、さまざまな仮想ミーティングプラットフォームを使用して同じものを提供することです。 この論文は、機械学習(ML)アルゴリズムと自然言語処理(NLP)モジュールを使用して、文書からスライドベースのプレゼンテーションを作成するプロセスを自動化し、最先端の音声クローンモデルを使用して、希望する著者の声にコンテンツを配信することを目的としています。 本稿では,研究論文などの構造化文書を提示すべき内容とみなす。 本研究は,まずBERT要約技術を用いて要約し,スライドに挿入する弾丸点に縮合する。 Encoder, Synthesizer, and a Generative Adversarial Network (GAN) ベースのボコーダによるTacotronインスパイアされたアーキテクチャは、著者の声(または任意のカスタマイズされた音声)のスライドの内容を伝えるために使用される。 ほとんどすべての学習がオンラインモードに移行し、専門家は自宅の快適さから仕事をしている。 現在の状況から、教師や専門家は情報提供を支援するためにプレゼンテーションに移行している。 本稿では,短い音声クリップで任意の音声をクローンできるコンテンツ配信機構を用いて,このプロセスを自動化し,そのプレゼンテーションをカスタマイズした音声で配信することにより,プレゼンテーション作成に要する時間を削減することを目的とする。

In this paper, we propose an architecture to solve a novel problem statement that has stemmed more so in recent times with an increase in demand for virtual content delivery due to the COVID-19 pandemic. All educational institutions, workplaces, research centers, etc. are trying to bridge the gap of communication during these socially distanced times with the use of online content delivery. The trend now is to create presentations, and then subsequently deliver the same using various virtual meeting platforms. The time being spent in such creation of presentations and delivering is what we try to reduce and eliminate through this paper which aims to use Machine Learning (ML) algorithms and Natural Language Processing (NLP) modules to automate the process of creating a slides-based presentation from a document, and then use state-of-the-art voice cloning models to deliver the content in the desired author's voice. We consider a structured document such as a research paper to be the content that has to be presented. The research paper is first summarized using BERT summarization techniques and condensed into bullet points that go into the slides. Tacotron inspired architecture with Encoder, Synthesizer, and a Generative Adversarial Network (GAN) based vocoder, is used to convey the contents of the slides in the author's voice (or any customized voice). Almost all learning has now been shifted to online mode, and professionals are now working from the comfort of their homes. Due to the current situation, teachers and professionals have shifted to presentations to help them in imparting information. In this paper, we aim to reduce the considerable amount of time that is taken in creating a presentation by automating this process and subsequently delivering this presentation in a customized voice, using a content delivery mechanism that can clone any voice using a short audio clip.
翻訳日:2021-06-29 13:52:58 公開日:2021-06-27
# ASK:敵のソフトk-Nearest隣人攻撃と防衛

ASK: Adversarial Soft k-Nearest Neighbor Attack and Defense ( http://arxiv.org/abs/2106.14300v1 )

ライセンス: Link先を確認
Ren Wang, Tianqi Chen, Philip Yao, Sijia Liu, Indika Rajapakse, Alfred Hero(参考訳) k-nearest neighbor(knn)ベースのディープラーニング手法は、単純さと幾何学的解釈性から、多くのアプリケーションに適用されている。 しかし、kNNに基づく分類モデルの堅牢性は十分に調べられておらず、kNN攻撃戦略は未開発である。 本稿では、より効果的なkNN攻撃戦略を設計し、より優れた防御策を開発するために、ASK(Adversarial Soft kNN)の損失を提案する。 ASK損失アプローチには2つの利点があります。 まず、ASK損失は、以前の研究で提案された目的よりも、kNNの分類誤差の確率を近似することができる。 第二に、ASK損失は解釈可能であり、摂動入力と摂動入力のkNN間の相互情報を保存する。 我々はASK損失を利用してASK-Attack(ASK-Atk)と呼ばれる新しい攻撃手法を作成し、従来のkNN攻撃と比較して攻撃効率と精度の低下を示す。 ASK-Atkに基づいて、ASK-Defense(ASK-Def)法を導出し、ASK-Atkによる最悪のトレーニング損失を最適化する。

K-Nearest Neighbor (kNN)-based deep learning methods have been applied to many applications due to their simplicity and geometric interpretability. However, the robustness of kNN-based classification models has not been thoroughly explored and kNN attack strategies are underdeveloped. In this paper, we propose an Adversarial Soft kNN (ASK) loss to both design more effective kNN attack strategies and to develop better defenses against them. Our ASK loss approach has two advantages. First, ASK loss can better approximate the kNN's probability of classification error than objectives proposed in previous works. Second, the ASK loss is interpretable: it preserves the mutual information between the perturbed input and the kNN of the unperturbed input. We use the ASK loss to generate a novel attack method called the ASK-Attack (ASK-Atk), which shows superior attack efficiency and accuracy degradation relative to previous kNN attacks. Based on the ASK-Atk, we then derive an ASK-Defense (ASK-Def) method that optimizes the worst-case training loss induced by ASK-Atk.
翻訳日:2021-06-29 13:52:31 公開日:2021-06-27
# Bottleneck Option Learningを用いた教師なしスキル発見

Unsupervised Skill Discovery with Bottleneck Option Learning ( http://arxiv.org/abs/2106.14305v1 )

ライセンス: Link先を確認
Jaekyeom Kim, Seohong Park, Gunhee Kim(参考訳) 人間のような外部の報酬や監督なしに、環境から固有のスキルを得る能力を持つことは、重要な問題である。 本稿では,IBOL(Information Bottleneck Option Learning)という,教師なしスキル発見手法を提案する。 より多様な状態遷移を促進する環境の線形化に加えて、IBOLは多様なスキルの発見を可能にする。 安定性を改善し、混乱を促すオプションのために、情報ボトルネックフレームワークで学んだスキルの抽象化を提供する。 我々は,ibolがant, halfcheetah, hopper, d'kittyを含むムジョコ環境における情報理論的な評価と下流課題において, 最先端の非教師付きスキル発見手法よりも優れていることを実証的に証明した。

Having the ability to acquire inherent skills from environments without any external rewards or supervision like humans is an important problem. We propose a novel unsupervised skill discovery method named Information Bottleneck Option Learning (IBOL). On top of the linearization of environments that promotes more various and distant state transitions, IBOL enables the discovery of diverse skills. It provides the abstraction of the skills learned with the information bottleneck framework for the options with improved stability and encouraged disentanglement. We empirically demonstrate that IBOL outperforms multiple state-of-the-art unsupervised skill discovery methods on the information-theoretic evaluations and downstream tasks in MuJoCo environments, including Ant, HalfCheetah, Hopper and D'Kitty.
翻訳日:2021-06-29 13:52:12 公開日:2021-06-27
# 非対称低ランク行列因子分解のための勾配のグローバル収束

Global Convergence of Gradient Descent for Asymmetric Low-Rank Matrix Factorization ( http://arxiv.org/abs/2106.14289v1 )

ライセンス: Link先を確認
Tian Ye and Simon S. Du(参考訳) 非対称な低ランク分解問題を研究する: \[\min_{\mathbf{U} \in \mathbb{R}^{m \times d}, \mathbf{V} \in \mathbb{R}^{n \times d}} \frac{1}{2}\|\mathbf{U}\mathbf{V}^\top -\mathbf{\Sigma}\|_F^2\] ここで$\mathbf{\Sigma}$は$m \times n$と$d$の与えられた行列である。 これは最適化における2つの困難を許容する正準問題である: 1)非凸性と2)非滑らか性($\mathbf{u}$ と $\mathbf{v}$ の不均衡により)。 これは非対称行列センシングや行列補完のようなより複雑な問題のプロトタイプでもある。 非凸かつ非滑らかであるにもかかわらず、ランダムに初期化された勾配降下アルゴリズムは多項式時間でこの問題を解くことができる。 この現象を説明する既存の理論はすべてアルゴリズムの人工的な修正を必要とする。例えば、各イテレーションにノイズを追加し、$\mathbf{u}$と$\mathbf{v}$のバランスをとるためのバランス調整器を追加するなどである。 本稿では,無作為初期化勾配降下が多項式率の非対称低ランク分解問題の大域的最小値に収束することを示す最初の証明を示す。 この証明のために, 1) 対称性と非対称性の大きさを捉える新しい対称性化法, 2) 近似行列微分に対する定量的摂動解析を開発する。 どちらも他の非凸問題に有用であると考えています。

We study the asymmetric low-rank factorization problem: \[\min_{\mathbf{U} \in \mathbb{R}^{m \times d}, \mathbf{V} \in \mathbb{R}^{n \times d}} \frac{1}{2}\|\mathbf{U}\mathbf{V}^\top -\mathbf{\Sigma}\|_F^2\] where $\mathbf{\Sigma}$ is a given matrix of size $m \times n$ and rank $d$. This is a canonical problem that admits two difficulties in optimization: 1) non-convexity and 2) non-smoothness (due to unbalancedness of $\mathbf{U}$ and $\mathbf{V}$). This is also a prototype for more complex problems such as asymmetric matrix sensing and matrix completion. Despite being non-convex and non-smooth, it has been observed empirically that the randomly initialized gradient descent algorithm can solve this problem in polynomial time. Existing theories to explain this phenomenon all require artificial modifications of the algorithm, such as adding noise in each iteration and adding a balancing regularizer to balance the $\mathbf{U}$ and $\mathbf{V}$. This paper presents the first proof that shows randomly initialized gradient descent converges to a global minimum of the asymmetric low-rank factorization problem with a polynomial rate. For the proof, we develop 1) a new symmetrization technique to capture the magnitudes of the symmetry and asymmetry, and 2) a quantitative perturbation analysis to approximate matrix derivatives. We believe both are useful for other related non-convex problems.
翻訳日:2021-06-29 13:51:58 公開日:2021-06-27
# 音楽感情認識における変分推論の利用

Use of Variational Inference in Music Emotion Recognition ( http://arxiv.org/abs/2106.14323v1 )

ライセンス: Link先を確認
Nathalie Deziderio and Hugo Tremonte de Carvalho(参考訳) 本研究は,信号処理の世界においてよく認識されている分野である音楽感情認識の分野において,統計的手法を応用することを目的とした。 ここでは,現代のベイズ統計手法を応用し,得られた結果の適用可能性に着目し,効率的なアルゴリズムを開発した。 このプロジェクトの動機は感情に基づく音楽レコメンデーションシステムの開発にあるが、その主な貢献は高度に適応可能な多変量モデルであり、効率的な正規化の適用に関心があるあらゆるデータベースを解釈するのに有用である。 広く言えば、よく知られたデータベースを理解可能なアルゴリズムのモデリングにおいて、健全な理論的統計的分析がどのような役割を果たすのか、この種のアプローチで何を得ることができるのかを考察する。

This work was developed aiming to employ Statistical techniques to the field of Music Emotion Recognition, a well-recognized area within the Signal Processing world, but hardly explored from the statistical point of view. Here, we opened several possibilities within the field, applying modern Bayesian Statistics techniques and developing efficient algorithms, focusing on the applicability of the results obtained. Although the motivation for this project was the development of a emotion-based music recommendation system, its main contribution is a highly adaptable multivariate model that can be useful interpreting any database where there is an interest in applying regularization in an efficient manner. Broadly speaking, we will explore what role a sound theoretical statistical analysis can play in the modeling of an algorithm that is able to understand a well-known database and what can be gained with this kind of approach.
翻訳日:2021-06-29 13:51:16 公開日:2021-06-27
# クラッタ環境における大型バルクハウゼンジャンプの機械学習検出アルゴリズム

Machine Learning Detection Algorithm for Large Barkhausen Jumps in Cluttered Environment ( http://arxiv.org/abs/2106.14148v1 )

ライセンス: Link先を確認
Roger Alimi, Amir Ivry, Elad Fisher, Eyal Weiss(参考訳) 現代の磁気センサアレイは従来、並列磁束ゲートや直交磁束ゲートなどの低消費電力磁力計の状態を利用していた。 低出力フラックスゲートは、フラックスゲート出力の直流ジャンプとして現れる大きなバルクハウゼンジャンプを持つ傾向がある。 この現象は信号の忠実度を低下させ、内部センサノイズを効果的に増加させる。 製造中にdcジャンプの傾向が強いセンサーをスクリーニングしても、従来のノイズ測定は、その間隔のために常にdcジャンプをキャッチするとは限らない。 さらに、dcジャンプはほとんど全てのセンサーコアで持続するが、遅いが耐え難い速度である。 遮蔽環境においてdcジャンプが容易に検出可能であっても,自然騒音やクラッタの存在下での展開においては,それを積極的に検出することは困難である。 この研究はこのギャップを埋め、自然磁場データに埋め込まれたdcジャンプを識別するアルゴリズムを提案する。 雑音に対するロバスト性を改善するために,事前取得およびよく知られた実験データセットの時間的および統計的物理的特徴を利用する2つの機械学習アルゴリズムを開発した。 第1のアルゴリズムはサポートベクターマシン分類器を使用し、第2のアルゴリズムはニューラルネットワークアーキテクチャに基づいている。 これらの新しいアプローチを、より古典的なカーネルベースの手法と比較する。 その目的のために、異なる分類器の診断能力を有する受信特性曲線を生成し、その性能を様々な操作点間で比較する。 古典的手法よりも機械学習に基づくアルゴリズムの精度が強調されている。 さらに、対応する受信者の動作特性曲線の急速な収束に基づいて、ニューラルネットワークの高一般化と堅牢性が結論づけられる。

Modern magnetic sensor arrays conventionally utilize state of the art low power magnetometers such as parallel and orthogonal fluxgates. Low power fluxgates tend to have large Barkhausen jumps that appear as a dc jump in the fluxgate output. This phenomenon deteriorates the signal fidelity and effectively increases the internal sensor noise. Even if sensors that are more prone to dc jumps can be screened during production, the conventional noise measurement does not always catch the dc jump because of its sparsity. Moreover, dc jumps persist in almost all the sensor cores although at a slower but still intolerable rate. Even if dc jumps can be easily detected in a shielded environment, when deployed in presence of natural noise and clutter, it can be hard to positively detect them. This work fills this gap and presents algorithms that distinguish dc jumps embedded in natural magnetic field data. To improve robustness to noise, we developed two machine learning algorithms that employ temporal and statistical physical-based features of a pre-acquired and well-known experimental data set. The first algorithm employs a support vector machine classifier, while the second is based on a neural network architecture. We compare these new approaches to a more classical kernel-based method. To that purpose, the receiver operating characteristic curve is generated, which allows diagnosis ability of the different classifiers by comparing their performances across various operation points. The accuracy of the machine learning-based algorithms over the classic method is highly emphasized. In addition, high generalization and robustness of the neural network can be concluded, based on the rapid convergence of the corresponding receiver operating characteristic curves.
翻訳日:2021-06-29 13:48:59 公開日:2021-06-27
# サーモグラム画像を用いた早期糖尿病足検出のための機械学習モデル

A Machine Learning Model for Early Detection of Diabetic Foot using Thermogram Images ( http://arxiv.org/abs/2106.14207v1 )

ライセンス: Link先を確認
Amith Khandakar, Muhammad E. H. Chowdhury, Mamun Bin Ibne Reaz, Sawal Hamid Md Ali, Md Anwarul Hasan, Serkan Kiranyaz, Tawsifur Rahman, Rashad Alfkey, Ahmad Ashrif A. Bakar, Rayaz A. Malik(参考訳) 糖尿病性足の潰瘍(DFU)と切断は重篤な死因である。 DFUの予防は、DFUのリスクのある患者の識別と、教育やオフロードによる予防措置の実施によって達成される。 いくつかの研究は、熱グラム画像がDFU以前の花弁温度の上昇を検出するのに役立つと報告している。 しかし、植物温の分布は不均一であり、定量化が難しく、結果を予測するのが困難である。 本研究では,機械学習に基づくスコアリング手法と,特徴選択と最適化手法と学習分類器とを,足部サーモグラム画像の最先端畳み込みニューラルネットワーク(cnns)と比較し,糖尿病性足の同定のためのロバストな解法を提案する。 比較的浅いCNNモデルであるMobilenetV2は、2フィートのサーモグラム画像に基づく分類でF1スコアを95%達成し、AdaBoost分類器は10の特徴を使用し、F1スコアを97%とした。 ベストパフォーマンスネットワークの推論時間の比較により,提案アルゴリズムをスマートフォンアプリケーションとしてデプロイすることで,家庭におけるdfuの進行状況を監視することができることを確認した。

Diabetes foot ulceration (DFU) and amputation are a cause of significant morbidity. The prevention of DFU may be achieved by the identification of patients at risk of DFU and the institution of preventative measures through education and offloading. Several studies have reported that thermogram images may help to detect an increase in plantar temperature prior to DFU. However, the distribution of plantar temperature may be heterogeneous, making it difficult to quantify and utilize to predict outcomes. We have compared a machine learning-based scoring technique with feature selection and optimization techniques and learning classifiers to several state-of-the-art Convolutional Neural Networks (CNNs) on foot thermogram images and propose a robust solution to identify the diabetic foot. A comparatively shallow CNN model, MobilenetV2 achieved an F1 score of ~95% for a two-feet thermogram image-based classification and the AdaBoost Classifier used 10 features and achieved an F1 score of 97 %. A comparison of the inference time for the best-performing networks confirmed that the proposed algorithm can be deployed as a smartphone application to allow the user to monitor the progression of the DFU in a home setting.
翻訳日:2021-06-29 13:48:35 公開日:2021-06-27
# 技術文書分類のための深層学習

Deep Learning for Technical Document Classification ( http://arxiv.org/abs/2106.14269v1 )

ライセンス: Link先を確認
Shuo Jiang, Jianxi Luo, Jie Hu, Christopher L. Magee(参考訳) 大企業では、関連する意思決定を支援するためにエンジニアやマネージャが作成した技術文書の管理と管理の要件が近年劇的に増加し、よりスケーラブルで正確で自動化された文書分類の需要が高まっている。 これまでの研究は主に、分類のためのテキストと小規模データベースの処理に重点を置いてきた。 本稿では,自然言語と記述画像の両方を用いて階層的分類を訓練する技術文書分類のための,新しいマルチモーダルディープラーニングアーキテクチャであるtechdocについて述べる。 このアーキテクチャは、統合トレーニングプロセスを通じて畳み込みニューラルネットワークと繰り返しニューラルネットワークを合成する。 我々は、このアーキテクチャを大規模マルチモーダル技術文書データベースに適用し、階層的国際特許分類システムに基づく文書分類モデルを訓練した。 その結果,トレーニングされたニューラルネットワークは,単一のモダリティといくつかの先行するテキスト分類手法を用いたものよりも高い分類精度を示すことがわかった。 トレーニングされたモデルは、テキストと数字の両方を使って、何百万という実世界の技術ドキュメントにスケールできる可能性がある。

In large technology companies, the requirements for managing and organizing technical documents created by engineers and managers in supporting relevant decision making have increased dramatically in recent years, which has led to a higher demand for more scalable, accurate, and automated document classification. Prior studies have primarily focused on processing text for classification and small-scale databases. This paper describes a novel multimodal deep learning architecture, called TechDoc, for technical document classification, which utilizes both natural language and descriptive images to train hierarchical classifiers. The architecture synthesizes convolutional neural networks and recurrent neural networks through an integrated training process. We applied the architecture to a large multimodal technical document database and trained the model for classifying documents based on the hierarchical International Patent Classification system. Our results show that the trained neural network presents a greater classification accuracy than those using a single modality and several earlier text classification methods. The trained model can potentially be scaled to millions of real-world technical documents with both text and figures, which is useful for data and knowledge management in large technology companies and organizations.
翻訳日:2021-06-29 13:48:14 公開日:2021-06-27
# 二元空間分割木ネットワークによるメッシュ表現の学習

Learning Mesh Representations via Binary Space Partitioning Tree Networks ( http://arxiv.org/abs/2106.14274v1 )

ライセンス: Link先を確認
Zhiqin Chen, Andrea Tagliasacchi, Hao Zhang(参考訳) 多角形メッシュはユビキタスだが、ディープラーニング革命では比較的小さな役割しか果たしていない。 3D形状のための最先端のニューラルネットワーク生成モデルは、暗黙の関数を学び、高価なアイソ顔を通してメッシュを生成する。 コンピュータグラフィックスから古典的な空間データ構造であるバイナリ空間分割(BSP)を用いて3次元学習を容易にすることで,これらの課題を克服する。 BSPの中核演算は凸集合を得るために3次元空間の再帰部分分割を含む。 この特性を利用して,凸分解による3次元形状を表現するネットワークであるBSP-Netを,監督なしで開発する。 ネットワークは、一組の平面上に構築されたBSPツリーから得られた凸の集合を用いて形状を再構築するように訓練されている。 BSP-Netは、推論凸からポリゴンメッシュを直接出力する。 生成されたメッシュは水密でコンパクト(すなわち低ポリ)であり、鋭い幾何学を表現するのに適している。 BSP-Netによる復元品質は最先端の手法と競合するが,プリミティブははるかに少ない。 また、BSP-Netへのバリエーションについても検討し、再構成にはより汎用的なデコーダ、平面よりも汎用的なプリミティブ、変分自動エンコーダによる生成モデルを訓練する。 コードはhttps://github.com/czq142857/BSP-NET-genicで入手できる。

Polygonal meshes are ubiquitous, but have only played a relatively minor role in the deep learning revolution. State-of-the-art neural generative models for 3D shapes learn implicit functions and generate meshes via expensive iso-surfacing. We overcome these challenges by employing a classical spatial data structure from computer graphics, Binary Space Partitioning (BSP), to facilitate 3D learning. The core operation of BSP involves recursive subdivision of 3D space to obtain convex sets. By exploiting this property, we devise BSP-Net, a network that learns to represent a 3D shape via convex decomposition without supervision. The network is trained to reconstruct a shape using a set of convexes obtained from a BSP-tree built over a set of planes, where the planes and convexes are both defined by learned network weights. BSP-Net directly outputs polygonal meshes from the inferred convexes. The generated meshes are watertight, compact (i.e., low-poly), and well suited to represent sharp geometry. We show that the reconstruction quality by BSP-Net is competitive with those from state-of-the-art methods while using much fewer primitives. We also explore variations to BSP-Net including using a more generic decoder for reconstruction, more general primitives than planes, as well as training a generative model with variational auto-encoders. Code is available at https://github.com/czq142857/BSP-NET-original.
翻訳日:2021-06-29 13:47:58 公開日:2021-06-27