このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221225となっている論文です。

PDF登録状況(公開日: 20221225)

TitleAuthorsAbstract論文公表日・翻訳日
# リモート可視化によるIoTベースのポトホールマッピングエージェント

IoT-Based Pothole Mapping Agent with Remote Visualization ( http://arxiv.org/abs/2212.14764v1 )

ライセンス: Link先を確認
Umar Yahya, Mwaka Lucky, Muhammed Mansoor, Nankabirwa Sharifah, Abdal Kasule, Kasagga Usama(参考訳) 穴を掘った道路を運転するのは危険であり、経済的にコストがかかる。 この体験は、初めてポットホール充填道路を使ったドライバーにとってはさらに悪い。 ポットホールで埋められた道路網は、特にピーク時の交通渋滞と関係している。 燃料消費が快適で時間の浪費ができないことに加え、交通渋滞はしばしば二酸化炭素排出量の増加と騒音汚染につながる。 さらに,事故の危険性は,他の道路ネットワーク要因にも強く関連している。 そのため、特定の道路を使う前に穴を掘ることが重要である。 この研究は、ポットの深さと位置座標の両方を捉えたセンサーベースのポットホールマッピングエージェントのデモンストレーションを成功させ、エージェントの全旅行のためのポットホールマップを生成するために使用されるパラメータを提示する。 したがってマップは、同じルートを使用するすべてのモーターサイクリストと共有することができる。

Driving through pothole infested roads is a life hazard and economically costly. The experience is even worse for motorists using the pothole filled road for the first time. Pothole-filled road networks have been associated with severe traffic jam especially during peak times of the day. Besides not being fuel consumption friendly and being time wasting, traffic jams often lead to increased carbon emissions as well as noise pollution. Moreover, the risk of fatal accidents has also been strongly associated with potholes among other road network factors. Discovering potholes prior to using a particular road is therefore of significant importance. This work presents a successful demonstration of sensor-based pothole mapping agent that captures both the pothole's depth as well as its location coordinates, parameters that are then used to generate a pothole map for the agent's entire journey. The map can thus be shared with all motorists intending to use the same route.
翻訳日:2023-02-19 13:23:56 公開日:2022-12-25
# Harris Hawks Optimization と Salp Swarm Optimization に基づく COVID-19 の効率的なハイブリッド分類手法

An efficient hybrid classification approach for COVID-19 based on Harris Hawks Optimization and Salp Swarm Optimization ( http://arxiv.org/abs/2301.05296v1 )

ライセンス: Link先を確認
Abubakr Issa, Yossra Ali, Tarik Rashid(参考訳) 特徴選択は、最も重要な属性を識別し、分類の精度を高めながらデータセットの次元性を低下させる前処理ステップの1つとして定義することができる。 特徴選択問題の解法として,Covid-19分類のためのハリスホークス最適化アルゴリズム(HHO)とサルプ群最適化(Salp Swarm Optimization,SSA)のハイブリッドバイナリバージョンを提案する。 The proposed (HHOSSA) is a strategy to improve the basic HHO's performance using the Salp algorithm's power to select the best fitness values。 HHOSSA は Whale Optimization Algorithm (WOA) と Grey wolf Optimizationr (GWO) の2つのよく知られた最適化アルゴリズムに対して、800個の胸部X線画像を用いて試験を行った。 3つの分類器 (support vector machine (svms), k-nearest neighbor (knn), extreme gradient boosting (xgboost)) を用いて, 合計4つの性能指標 (accuracy, recall, precision, f1) を用いた。 提案アルゴリズム(HHOSSA)は,SVM分類器で96%,XGboostとKNNで98%の精度を達成した。

Feature selection can be defined as one of the pre-processing steps that decrease the dimensionality of a dataset by identifying the most significant attributes while also boosting the accuracy of classification. For solving feature selection problems, this study presents a hybrid binary version of the Harris Hawks Optimization algorithm (HHO) and Salp Swarm Optimization (SSA) (HHOSSA) for Covid-19 classification. The proposed (HHOSSA) presents a strategy for improving the basic HHO's performance using the Salp algorithm's power to select the best fitness values. The HHOSSA was tested against two well-known optimization algorithms, the Whale Optimization Algorithm (WOA) and the Grey wolf optimizer (GWO), utilizing a total of 800 chest X-ray images. A total of four performance metrics (Accuracy, Recall, Precision, F1) were employed in the studies using three classifiers (Support vector machines (SVMs), k-Nearest Neighbor (KNN), and Extreme Gradient Boosting (XGBoost)). The proposed algorithm (HHOSSA) achieved 96% accuracy with the SVM classifier, and 98% accuracy with two classifiers, XGboost and KNN.
翻訳日:2023-01-29 14:27:27 公開日:2022-12-25
# 電圧制御周波数と非線形性を有する超伝導共振器

Superconducting resonators with voltage-controlled frequency and nonlinearity ( http://arxiv.org/abs/2210.02491v2 )

ライセンス: Link先を確認
William M. Strickland, Bassel Heiba Elfeky, Joseph O'Connell Yuan, William F. Schiela, Peng Yu, Dylan Langone, Maxim G. Vavilov, Vladimir E. Manucharyan and Javad Shabani(参考訳) 電圧可変超伝導体-半導体デバイスは、超伝導量子回路の動的チューナビリティを実現するユニークなプラットフォームを提供する。 ゲート型イナス・アル・ジョセフソン接合をコプラナー導波路共振器に接続することにより、広帯域ゲート可変超伝導素子の使用を実証する。 共振周波数はゲート可変ジョセフソンインダクタンスを介して制御され、従来のal-alo$_{x}$ジャンクションの場合と同様に電圧制御inas-alジャンクションの非線形性は非散逸的である。 ゲート電圧が低下すると、ジャンクションの誘導的結合は最大4,4\%$まで増加し、共振周波数は2ghz以上調整される。 装置の広いチューニング性を利用して、2つの共振モードを強くハイブリダイゼーションするように調整できることを示し、51MHzの結合強度を持つ回避レベル交差を示す。 このような電圧可変共振器の実装は、量子ビット-量子ビット結合、量子制限増幅器、量子メモリプラットフォームのための超伝導回路におけるウェーハスケール連続電圧制御を実現するための第一歩である。

Voltage-tunable superconductor-semiconductor devices offer a unique platform to realize dynamic tunability in superconducting quantum circuits. By galvanically connecting a gated InAs-Al Josephson junction to a coplanar waveguide resonator, we demonstrate the use of a wide-range gate-tunable superconducting element. We show that the resonant frequency is controlled via a gate-tunable Josephson inductance and that the non-linearity of the voltage-controlled InAs-Al junction is non-dissipative as is the case with conventional Al-AlO$_{x}$ junctions. As the gate voltage is decreased, the inductive participation of the junction increases up to $44\%$, resulting in the resonant frequency being tuned by over 2 GHz. Utilizing the wide tunability of the device, we demonstrate that two resonant modes can be adjusted such that they strongly hybridize, exhibiting an avoided level crossing with a coupling strength of 51 MHz. Implementing such voltage-tunable resonators is the first step toward realizing wafer-scale continuous voltage control in superconducting circuits for qubit-qubit coupling, quantum-limited amplifiers, and quantum memory platforms.
翻訳日:2023-01-23 17:14:51 公開日:2022-12-25
# 大強度ラジ量子スピンの代替グリフ設計の評価

Evaluating Alternative Glyph Design for Showing Large-Magnitude-Range Quantum Spins ( http://arxiv.org/abs/2301.00002v1 )

ライセンス: Link先を確認
Henan Zhao and Garnett W. Bryant and Wesley Griffin and Judith E. Terrill and Jian Chen(参考訳) 本研究では,大振幅距離ベクトルを表す二変量グリフの形式を実験的に検討する。 グリフは2つの条件を満たす: (1) 2つの視覚次元は分離可能である; (2) 2つの視覚次元のうちの1つはカテゴリー表現(例えば、カテゴリカラーマップ)を使用する。 この2つの条件が二変量グリフの有効性をどの程度決定するかを評価する。 最初の実験では、参加者に3つのローカルタスクを実行し、2つ以上のグリフを読む必要がある。 第2の実験では、参加者が何百ものベクターグリフのシーン全体を見て答えを得る必要がある場合、グローバルなタスクで検索スペースを拡大する。 結果から,いくつかの項目を比較する際には,第1条件がローカルタスクに必要であることが示唆された。 しかし、大量のデータを理解するだけでは十分ではない。 2つ目の条件は、非常に複雑なデータセットを調べるグローバルな構造を理解するために必要である。 参加者のコメントは、二変量グリフのカテゴリー的特徴が創発的最適な視聴者の行動を引き起こすことを示している。 この研究は、大きな科学的結果からパターンを明らかにするための知覚的に正確なグリフ表現に寄与する。 ソースコード、量子物理学データ、トレーニング文書、参加者の回答、再現可能な科学の統計分析 https://osf.io/4xcf5/? view_only=94123139df9c4ac984a1e0df811cd580。

We present experimental results to explore a form of bivariate glyphs for representing large-magnitude-range vectors. The glyphs meet two conditions: (1) two visual dimensions are separable; and (2) one of the two visual dimensions uses a categorical representation (e.g., a categorical colormap). We evaluate how much these two conditions determine the bivariate glyphs' effectiveness. The first experiment asks participants to perform three local tasks requiring reading no more than two glyphs. The second experiment scales up the search space in global tasks when participants must look at the entire scene of hundreds of vector glyphs to get an answer. Our results support that the first condition is necessary for local tasks when a few items are compared. But it is not enough to understand a large amount of data. The second condition is necessary for perceiving global structures of examining very complex datasets. Participants' comments reveal that the categorical features in the bivariate glyphs trigger emergent optimal viewers' behaviors. This work contributes to perceptually accurate glyph representations for revealing patterns from large scientific results. We release source code, quantum physics data, training documents, participants' answers, and statistical analyses for reproducible science https://osf.io/4xcf5/?view_only=94123139df9c4ac984a1e0df811cd580.
翻訳日:2023-01-09 07:17:46 公開日:2022-12-25
# 量子誘起コヒーレンス光検出とランキング

Quantum Induced Coherence Light Detection and Ranging ( http://arxiv.org/abs/2212.12924v1 )

ライセンス: Link先を確認
Gewei Qian, Xingqi Xu, Shun-An Zhu, Fei Gao, V. V. Yakovlev, Xu Liu, Shi-Yao Zhu, and Da-Wei Wang(参考訳) 量子照明は光検出・測光(LiDAR)における信号と雑音の比を改善するために用いられている。 偶然検出に基づいて、そのような量子LiDARは検出器の応答時間に制限された解像度を持ち、ノイズを妨害する。 Zou-Wang-Mandel実験にインスパイアされた我々は、物体から反射された光子を直接検出せず、自然界に免疫を持ち、ノイズを妨害する量子誘導コヒーレンス(QuIC)LiDARを構築した。 鍵となる要素は、反射光子は、光路をスキャンして、偶然検出ではなく単一の光子干渉によって物体の距離を求める、絡み合ったパートナーの一方の情報を消去するために使用されることである。 QuIC LiDARでは、物体からの反射プローブ光に伴うノイズは検出器に入ることができない。 この方法では、精密な量子電磁センサとレンジでノイズと戦う新しい方法が舗装される。

Quantum illumination has been used to improve the signal-to-noise ratio in light detection and ranging (LiDAR). Relying on coincidence detection, such a quantum LiDAR has a resolution limited by the response time of the detector and suffers from jamming noise. Inspired by the Zou-Wang-Mandel experiment, we build a quantum induced coherence (QuIC) LiDAR without directly detecting the photons reflected from the object, intrinsically immune to environmental and jamming noise. The key element is that the reflected photons are used to erase the which-way information of its entangled partners, whose light path is scanned to obtain the distance of the object via single photon interference rather than coincidence detection. In QuIC LiDAR, the noise accompanying the reflected probe light from the object cannot enter our detector. This method paves a new way of battling noise in precise quantum electromagnetic sensing and ranging.
翻訳日:2023-01-09 07:06:26 公開日:2022-12-25
# 隠れサブグループ量子アルゴリズムの合成と量子化学ダイナミクス

A Synthesis of Hidden Subgroup Quantum Algorithms and Quantum Chemical Dynamics ( http://arxiv.org/abs/2212.12931v1 )

ライセンス: Link先を確認
Srinivasan S. Iyengar, Anup Kumar, Debadrita Saha, and Amr Sabry(参考訳) 量子力学の一般的な定式化について述べ、この定式化がDeutsch、Deutsch-Jozsa、Bernstein-Vazirani、Simon、Shorアルゴリズム、およびテンソルネットワークに基づく量子力学に対する従来のアプローチを含むいくつかの量子アルゴリズムをどう仮定するかを示す。 一般的な枠組みは量子アルゴリズムと自然量子現象の類似性を公開しており、多くの生物学的および材料システムで共通する水線系における陽子の相関挙動がショアのアルゴリズムの構造とどのように平行であるかを示す。

We describe a general formalism for quantum dynamics and show how this formalism subsumes several quantum algorithms including the Deutsch, Deutsch-Jozsa, Bernstein-Vazirani, Simon, and Shor algorithms as well as the conventional approach to quantum dynamics based on tensor networks. The common framework exposes similarities among quantum algorithms and natural quantum phenomena: we illustrate this connection by showing how the correlated behavior of protons in water wire systems that are common in many biological and materials systems parallels the structure of Shor's algorithm.
翻訳日:2023-01-09 07:06:09 公開日:2022-12-25
# 量子ホール液滴の断熱変形

Adiabatic Deformations of Quantum Hall Droplets ( http://arxiv.org/abs/2212.12935v1 )

ライセンス: Link先を確認
Blagoje Oblak and Benoit Estienne(参考訳) 平面の面積保存変形を、基礎となる計量と収束ポテンシャルの両方を変える「量子同相」を通して電子波動関数に作用すると考える。 このような変換の断熱的な配列はベリー相を生じさせ、相互作用の存在下でも多体流と密度の項で閉じた形で書けることを示した。 シーリングとせん断を一般化する大きな種類の変形に対して、位相の先頭は熱力学極限における超過渡的なアハロノフ・ボーム項(N 電子に対して N$^2$ に比例する)である。 ゲージ不変なサブリーディングパートナーは、強磁場の限界におけるエッジでのジャンプから位相への支配的な寄与が生じる電流のみを測定する。 この結果、単位面積当たりのベリー曲率は有限となり、ホール粘度を連想させる。 後者は我々の形式に含まれており、トーラス上の標準導出を回避し、量子シミュレータで観測するための現実的な実験的な設定を提案している。

We consider area-preserving deformations of the plane, acting on electronic wavefunctions through "quantomorphisms" that change both the underlying metric and the confining potential. We show that adiabatic sequences of such transformations produce Berry phases that can be written in closed form in terms of the many-body current and density, even in the presence of interactions. For a large class of deformations that generalize squeezing and shearing, the leading piece of the phase is a super-extensive Aharonov-Bohm term (proportional to N$^2$ for N electrons) in the thermodynamic limit. Its gauge-invariant subleading partner only measures the current, whose dominant contribution to the phase stems from a jump at the edge in the limit of strong magnetic fields. This results in a finite Berry curvature per unit area, reminiscent of the Hall viscosity. We show that the latter is in fact included in our formalism, bypassing its standard derivation on a torus and suggesting realistic experimental setups for its observation in quantum simulators.
翻訳日:2023-01-09 07:05:56 公開日:2022-12-25
# 炭素k端におけるメタンカチオンのフェムト秒対称性の破断とコヒーレント緩和

Femtosecond Symmetry Breaking and Coherent Relaxation of Methane Cations at the Carbon K-Edge ( http://arxiv.org/abs/2212.12875v1 )

ライセンス: Link先を確認
Enrico Ridente and Diptarka Hait and Eric A. Haugen and Andrew D. Ross and Daniel M. Neumark and Martin Head-Gordon and Stephen R. Leone(参考訳) 光励起分子の緩和経路を理解することは光化学の原子レベルでの洞察を得るのに不可欠である。 本稿では,メタン陽イオン上の幾何緩和(Jahn-Teller歪み)による超高速分子対称性破壊の時間分解研究を行う。 炭素K端の軟X線によるアト秒過渡吸収分光は、メタンの数フェムト秒強電界電離後に、歪みが10\pm 2$ femto秒以内に起こることを示した。 この歪みは、X線信号で検出される対称性破壊カチオンの斜め振動モードにおけるコヒーレント振動を活性化する。 これらの振動は、低周波振動モードに再分配することで振動コヒーレンスを失うため、58 pm13$ フェムト秒以内に減衰する。 この研究は、この原型例の分子緩和ダイナミクスを完全に再構築し、複雑なシステムを探索するための新しい道を開く。

Understanding the relaxation pathways of photoexcited molecules is essential to gain atomistic level insight into photochemistry. Herein, we perform a time-resolved study of ultrafast molecular symmetry breaking via geometric relaxation (Jahn-Teller distortion) on the methane cation. Attosecond transient absorption spectroscopy with soft X-rays at the carbon K-edge reveals that the distortion occurs within $10\pm 2$ femtoseconds after few-femtosecond strong-field ionization of methane. The distortion activates coherent oscillations in the scissoring vibrational mode of the symmetry broken cation, which are detected in the X-ray signal. These oscillations are damped within $58\pm13$ femtoseconds, as vibrational coherence is lost with the energy redistributing into lower-frequency vibrational modes. This study completely reconstructs the molecular relaxation dynamics of this prototypical example and opens new avenues for exploring complex systems.
翻訳日:2023-01-09 06:32:12 公開日:2022-12-25
# 結晶中の通信波長における絡み合った光子の量子保存

Quantum storage of entangled photons at telecom wavelengths in a crystal ( http://arxiv.org/abs/2212.12898v1 )

ライセンス: Link先を確認
Ming-Hao Jiang, Wenyi Xue, Qian He, Yu-Yang An, Xiaodong Zheng, Wen-Jie Xu, Wenjun Wen, Yu-Bo Xie, Yanqing Lu, Shining Zhu and Xiao-Song Ma(参考訳) 量子インターネットは、私たちが現在使っているインターネットと相乗効果があり、指数的に高速な分散計算、セキュアな通信、高精度なメトロジーを含む次世代情報処理のプラットフォームを推進している。 このようなグローバルネットワークを実現するための重要な要素は、量子絡み合いの分布と保存である。 量子ネットワークは既存のファイバーネットワークに基づいている可能性が高いため、通信波長の絡み合った光子と対応する量子メモリが中心である。 近年、${\rm ^{167}Er^{3+}}$イオンは、テレコム波長における効率的なブロードバンド量子メモリの候補として期待されている。 しかし、これまでこれらのイオンを用いた量子メモリの重要なステップである絡み合った光子の保存は報告されていない。 本稿では,窒化ケイ素をベースとする集積フォトニックチップから生成した2つの通信光子の絡み合い状態の記憶とリコールを示す。 エンタングル光子の自然な狭い線幅と${\rm ^{167}er^{3+}}$ イオンの長い保存時間を組み合わせることで、従来の作品よりも1桁長くなる400 nsの保存時間を実現する。 結晶内の絡み合いの保存の成功は、400 nsの保存時間において、12以上の標準偏差 (-0.161 $\pm$ 0.012) による絡み合い証人の違反によって証明される。 これらの結果は、固体デバイスに基づく量子ネットワークの実現の道を開く。

The quantum internet -- in synergy with the internet that we use today -- promises an enabling platform for next-generation information processing, including exponentially speed-up distributed computation, secure communication, and high-precision metrology. The key ingredients for realizing such a global network are the distribution and storage of quantum entanglement. As quantum networks are likely to be based on existing fibre networks, telecom-wavelength entangled photons and corresponding quantum memories are of central interest. Recently, ${\rm ^{167}Er^{3+}}$ ions have been identified as a promising candidate for an efficient, broadband quantum memory at telecom wavelength. However, to date, no storage of entangled photons, the crucial step of quantum memory using these ions, has been reported. Here, we demonstrate the storage and recall of the entangled state of two telecom photons generated from an integrated photonic chip based on silicon nitride. Combining the natural narrow linewidth of the entangled photons and long storage time of ${\rm ^{167}Er^{3+}}$ ions, we achieve storage time of 400 ns, more than one order of magnitude longer than in previous works. Successful storage of entanglement in the crystal is certified by a violation of an entanglement witness by more than 12 standard deviations (-0.161 $\pm$ 0.012) at 400 ns storage time. These results pave the way for realizing quantum networks based on solid-state devices.
翻訳日:2023-01-09 06:31:55 公開日:2022-12-25
# 量子人文科学研究プログラムの紹介:理論的意義

Introducing a Research Program for Quantum Humanities: Theoretical Implications ( http://arxiv.org/abs/2212.12947v1 )

ライセンス: Link先を確認
Astrid B\"otticher, Zeki C. Seskir, Johannes Ruhland(参考訳) 量子コンピューティングは、量子力学の原理に基づいたコンピューティングの新しい形態である。 人文科学や社会科学など多くの分野に革命をもたらす可能性がある。 量子人文科学の背後にある考え方は、量子コンピューティングの可能性を探求し、これらの分野における新しい質問に答えることと、この技術の社会的影響を考えることである。 本稿では、量子アルゴリズムを人文科学や社会科学に応用すること、量子コンピューティングの手法と技術に関する考察、その潜在的な社会的含意の評価を含む量子人文科学の研究プログラムを提案する。 本研究プログラムは、量子人文科学の分野を定義し、人文科学と社会科学の重要な部分として確立することを目的とする。

Quantum computing is a new form of computing that is based on the principles of quantum mechanics. It has the potential to revolutionize many fields, including the humanities and social sciences. The idea behind quantum humanities is to explore the potential of quantum computing to answer new questions in these fields, as well as to consider the potential societal impacts of this technology. This paper proposes a research program for quantum humanities, which includes the application of quantum algorithms to humanities and social science research, the reflection on the methods and techniques of quantum computing, and the evaluation of its potential societal implications. This research program aims to define the field of quantum humanities and to establish it as a meaningful part of the humanities and social sciences.
翻訳日:2023-01-09 06:31:33 公開日:2022-12-25
# 多層標本の量子強化プローブ

Quantum enhanced probing of multilayered-samples ( http://arxiv.org/abs/2212.12960v1 )

ライセンス: Link先を確認
Mayte Y. Li-Gomez, Pablo D. Yepiz-Graciano, Taras Hrushevskyi, Omar Calderon-Losada, Erhan Saglamyurek, Dorilian Lopez-Mago, Vahid Salari, Trong Ngo, Alfred B. U'Ren, and Shabir Barzanjeh(参考訳) 量子センシングは量子現象を利用して、物理系や生物の古典的パラメータの検出と推定を強化し、特にその古典的パラメータの非効率を克服する。 量子センシングにおける特に有望なアプローチは、多層材料の内部構造を再構築するために非古典的な光源に依存する量子光コヒーレンストモグラフィである。 従来の古典的プローブと比較すると、量子光学コヒーレンストモグラフィは高分解能の画像を提供し、偶数次分散に影響されない。 この技術の主な限界の1つは、アーティファクトやエコーの出現、すなわち、偶然の干渉図に現れる偽の構造物の出現であり、トモグラフィースキャンに必要な情報の検索を妨げている。 そこで,全理論モデルと高速遺伝的アルゴリズムを組み合わせることで,複雑な多層試料の形態を抽出し,実際の界面,アーティファクト,エコーを徹底的に識別することに成功した。 このモデルとアルゴリズムの有効性を, ポンプの波長変化の制御により, 実験的に生成したインターフェログラムと比較した。 本研究は, 生体画像・センシング, 臨床応用, 材料科学において, 複雑な構造の高分解能探査と光分解性材料の非侵襲走査の開発につながる可能性がある。

Quantum sensing exploits quantum phenomena to enhance the detection and estimation of classical parameters of physical systems and biological entities, particularly so as to overcome the inefficiencies of its classical counterparts. A particularly promising approach within quantum sensing is Quantum Optical Coherence Tomography which relies on non-classical light sources to reconstruct the internal structure of multilayered materials. Compared to traditional classical probing, Quantum Optical Coherence Tomography provides enhanced-resolution images and is unaffected by even-order dispersion. One of the main limitations of this technique lies in the appearance of artifacts and echoes, i.e. fake structures that appear in the coincidence interferogram, which hinder the retrieval of information required for tomography scans. Here, by utilizing a full theoretical model, in combination with a fast genetic algorithm to post-process the data, we successfully extract the morphology of complex multilayered samples and thoroughly distinguish real interfaces, artifacts, and echoes. We test the effectiveness of the model and algorithm by comparing its predictions to experimentally-generated interferograms through the controlled variation of the pump wavelength. Our results could potentially lead to the development of practical high-resolution probing of complex structures and non-invasive scanning of photo-degradable materials for biomedical imaging/sensing, clinical applications, and materials science.
翻訳日:2023-01-09 06:31:03 公開日:2022-12-25
# 変形アルファ数値文字識別のための効率的な量子古典ハイブリッドアルゴリズム

An efficient quantum-classical hybrid algorithm for distorted alphanumeric character identification ( http://arxiv.org/abs/2212.12861v1 )

ライセンス: Link先を確認
Ankur Pal, Abhishek Shukla and Anirban Pathak(参考訳) 画像処理のためのアルゴリズムを提案する。 提案アルゴリズムは、量子古典ハイブリッドアルゴリズムとみなすことができ、文字の低分解能ビット画像は、アルファ数値文字の集合(A-Z, 0-9)から高分解能画像に変換することができる。 提案アルゴリズムの量子部分は、固定点探索アルゴリズムとして知られるグロバーの探索アルゴリズムの変種を実演的に利用する。 さらに、アルゴリズムの量子部分はCQASMを用いてシミュレートされ、複雑性解析によってアルゴリズムの利点が確立される。 さらなる分析により、この光学的文字認識(ocr)のスキームは信頼性の高い値をもたらし、従来の古典的、量子的、ハイブリッドなアルゴリズムと同等のタスクに対して、より効率的な方法で動作することが判明した。

An algorithm for image processing is proposed. The proposed algorithm, which can be viewed as a quantum-classical hybrid algorithm, can transform a low-resolution bitonal image of a character from the set of alphanumeric characters (A-Z, 0-9) into a high-resolution image. The quantum part of the proposed algorithm fruitfully utilizes a variant of Grover's search algorithm, known as the fixed point search algorithm. Further, the quantum part of the algorithm is simulated using CQASM and the advantage of the algorithm is established through the complexity analysis. Additional analysis has also revealed that this scheme for optical character recognition (OCR) leads to high confidence value and generally works in a more efficient manner compared to the existing classical, quantum, and hybrid algorithms for a similar task.
翻訳日:2023-01-09 06:20:35 公開日:2022-12-25
# 勾配降下に基づく量子連合学習

Quantum federated learning based on gradient descent ( http://arxiv.org/abs/2212.12913v1 )

ライセンス: Link先を確認
Kai Yu and Xin Zhang and Zi Ye and Gong-De Guo and Song Lin(参考訳) フェデレーション学習は機械学習における分散学習フレームワークであり、近年広く研究されている。 一般に、連合学習プロセスでは、高い計算コストと送信メッセージのセキュリティの2つの主な課題がある。 これらの課題に対処するために,量子力学の興味深い特性を利用して,勾配降下に基づく量子フェデレーション学習の枠組みを提案する。 提案フレームワークでは,2つのコンポーネントで構成される。 1つは量子勾配降下アルゴリズムであり、データセットスケールでの指数加速度と古典的なデータ次元の2次スピードアップを達成できることが示されている。 すなわち、クライアントは量子プラットフォーム上で勾配を高速にトレーニングできる。 もう1つは、フェデレーション勾配を安全に計算することを目的とした、量子セキュアなマルチパーティ計算プロトコルである。 セキュリティ分析により、この量子プロトコルは、いくつかの一般的な外部および内部攻撃に抵抗できることが示されている。 すなわち、局所勾配を安全に集約することができる。 最後に,提案フレームワークの有効性を示すために,フェデレーション線形回帰モデルのトレーニングに適用し,qiskit量子計算フレームワーク上で重要な計算ステップの実装に成功した。

Federated learning is a distributed learning framework in machine learning, and has been widely studied recently. Generally speaking, there are two main challenges, high computational cost and the security of the transmitted message, in the federated learning process. To address these challenges, we utilize some intriguing characteristics of quantum mechanics to propose a framework for quantum federated learning based on gradient descent. In the proposed framework, it consists of two components. One is a quantum gradient descent algorithm, which has been demonstrated that it can achieve exponential acceleration in dataset scale and quadratic speedup in data dimensionality over the classical counterpart. Namely, the client can fast-train gradients on a quantum platform. The other is a quantum secure multi-party computation protocol that aims to calculate federated gradients safely. The security analysis is shown that this quantum protocol can resist some common external and internal attacks. That is, the local gradient can be aggregated securely. Finally, to illustrated the effectiveness of the proposed framework, we apply it to train federated linear regression models and successfully implement some key computation steps on the Qiskit quantum computing framework.
翻訳日:2023-01-09 05:37:32 公開日:2022-12-25
# 6次元RGB-DオドメトリーとKinectフュージョンを併用した室内空間の一貫性再構築

A Combined Approach Toward Consistent Reconstructions of Indoor Spaces Based on 6D RGB-D Odometry and KinectFusion ( http://arxiv.org/abs/2212.14772v1 )

ライセンス: Link先を確認
Nadia Figueroa, Haiwei Dong, and Abdulmotaleb El Saddik(参考訳) 本稿では,キーポイント抽出による連続RGB-Dフレーム間の相対カメラポーズと,RGBと奥行き画像平面上の特徴マッチングを求める6次元RGB-Dオドメトリー手法を提案する。 さらに、高速ICP(Iterative Closest Point)を用いてフレーム間相対的なポーズを微調整し、深度データをグローバルな暗黙の面に融合するKinectFusionアルゴリズムに推定されたポーズを与える。 SturmらによるRGB-D SLAMベンチマークデータセットを用いて,本手法の評価を行った。 実験結果から,視力計測とKinectFusionのみに基づく再構成手法が,最先端のRGB-D SLAMシステム精度より優れていることが示された。 さらに,本アルゴリズムは,ポストプロセッシングステップを使わずに,利用可能なポリゴンメッシュ(3次元仮想世界を作成するのに非常に適している)を出力する。

We propose a 6D RGB-D odometry approach that finds the relative camera pose between consecutive RGB-D frames by keypoint extraction and feature matching both on the RGB and depth image planes. Furthermore, we feed the estimated pose to the highly accurate KinectFusion algorithm, which uses a fast ICP (Iterative Closest Point) to fine-tune the frame-to-frame relative pose and fuse the depth data into a global implicit surface. We evaluate our method on a publicly available RGB-D SLAM benchmark dataset by Sturm et al. The experimental results show that our proposed reconstruction method solely based on visual odometry and KinectFusion outperforms the state-of-the-art RGB-D SLAM system accuracy. Moreover, our algorithm outputs a ready-to-use polygon mesh (highly suitable for creating 3D virtual worlds) without any postprocessing steps.
翻訳日:2023-01-09 05:36:28 公開日:2022-12-25
# 公共駐車場のスマート管理のためのRFID-Cloud統合

RFID-Cloud Integration for Smart Management of Public Car Parking Spaces ( http://arxiv.org/abs/2212.14684v1 )

ライセンス: Link先を確認
Umar Yahya, Ndawula Noah, Asingwire Hanifah, Lubega Faham, Abdal Kasule, Hamisi Ramadhan Mubarak(参考訳) 駐車場などの公共空間の効率的な管理は、多くの都市、特に発展途上国において、変革的な側面である。 センシング技術、クラウドコンピューティング、人工知能を活用することで、都市はスマートに管理されるようになった。 スマートシティは、都市住民に利便性をもたらすだけでなく、国連が2030年に提唱した持続可能な都市とコミュニティに関する持続可能な開発目標において、生活の質を向上させる。 本稿では,モノのインターネットとクラウドコンピューティングの統合を通じて,公共駐車場を管理するためのフレームワークのコンセプト実証実装を成功させた。 パーキングスロットの保存は、クラウドホストされたアプリケーションを通じて行われ、パーキングスロットへのアクセスと出入りは、リアルタイムに、クラウドホストされたデータベースにおけるパーキングスロットの可用性の更新をトリガーするRFID(Radio Frequency Identification)技術によって実現される。 この枠組みは、持続可能なスマートシティやコミュニティの実現に向けた重要な取り組みである空き駐車スペースの確認時にのみ駐車スペースに運転する必要があるため、都市住民にかなりの利便性をもたらす可能性がある。

Effective management of public shared spaces such as car parking space, is one challenging transformational aspect for many cities, especially in the developing World. By leveraging sensing technologies, cloud computing, and Artificial Intelligence, Cities are increasingly being managed smartly. Smart Cities not only bring convenience to City dwellers, but also improve their quality of life as advocated for by United Nations in the 2030 Sustainable Development Goal on Sustainable Cities and Communities. Through integration of Internet of Things and Cloud Computing, this paper presents a successful proof-of-concept implementation of a framework for managing public car parking spaces. Reservation of parking slots is done through a cloud-hosted application, while access to and out of the parking slot is enabled through Radio Frequency Identification (RFID) technology which in real-time, accordingly triggers update of the parking slot availability in the cloud-hosted database. This framework could bring considerable convenience to City dwellers since motorists only have to drive to a parking space when sure of a vacant parking slot, an important stride towards realization of sustainable smart cities and communities.
翻訳日:2023-01-09 05:36:12 公開日:2022-12-25
# 汎用多量子状態のSLOCCとLU等価性の基準

Criteria for SLOCC and LU Equivalence of Generic Multi-qudit States ( http://arxiv.org/abs/2212.12870v1 )

ライセンス: Link先を確認
Jingmei Chang, Naihuan Jing, Tinggui Zhang(参考訳) 本稿では,マルチキューディット状態に対する確率的局所演算と古典的通信(SLOCC)と局所ユニタリ(LU)等価性について,係数テンソルのモード-$n$Matricizationにより検討する。 CANDECOMP/PARAFAC (CP) によるテンソルの分解を用いて、純粋な多重量子状態に対するモード-$n$展開とSLOCC\&LU同値の間の必要かつ十分な条件を求める。 多成分混合状態に対しては、lu同値の必要十分条件とslocc同値の必要条件を示す。

In this paper, we study the stochastic local operation and classical communication (SLOCC) and local unitary (LU) equivalence for multi-qudit states by mode-$n$ matricization of the coefficient tensors. We establish a new scheme of using the CANDECOMP/PARAFAC (CP) decomposition of tensors to find necessary and sufficient conditions between the mode-$n$ unfolding and SLOCC\&LU equivalence for pure multi-qudit states. For multipartite mixed states, we present a necessary and sufficient condition for LU equivalence and necessary condition for SLOCC equivalence.
翻訳日:2023-01-09 05:26:12 公開日:2022-12-25
# 深層量子ニューラルネットワークにおける量子情報理論ビュー

A Quantum Information Theoretic View On A Deep Quantum Neural Network ( http://arxiv.org/abs/2212.12906v1 )

ライセンス: Link先を確認
Beatrix C. Hiesmayr(参考訳) 本稿では,ニューロンの役割を量子ビットで引き継ぎ,重みの役割をユニタリーで果たす,人工深部ニューラルネットワークの量子バージョンについて論じる。 非線形活性化関数の役割は、ネットワークの層 (qubits) を追跡することで継承される。 量子情報理論の観点から2つの例を考察し,その学習について考察する。 具体的には,ハイゼンベルクの不確かさ関係の下限が,学習過程における勾配降下の変化を規定していることを示す。 我々は、ハイゼンベルクの不確実性関係で定量化されている2つの非可換観測量に対する自然による極限が、量子深部ニューラルネットワークの最適化を決定づけているかどうかを疑問視する。 否定的な答えを見つけます

We discuss a quantum version of an artificial deep neural network where the role of neurons is taken over by qubits and the role of weights is played by unitaries. The role of the non-linear activation function is taken over by subsequently tracing out layers (qubits) of the network. We study two examples and discuss the learning from a quantum information theoretic point of view. In detail, we show that the lower bound of the Heisenberg uncertainty relations is defining the change of the gradient descent in the learning process. We raise the question if the limit by Nature to two non-commuting observables, quantified in the Heisenberg uncertainty relations, is ruling the optimization of the quantum deep neural network. We find a negative answer.
翻訳日:2023-01-09 05:26:00 公開日:2022-12-25
# PANSATZ:変分量子アルゴリズムのためのパルスベースのアンサッツ

PANSATZ: Pulse-based Ansatz for Variational Quantum Algorithms ( http://arxiv.org/abs/2212.12911v1 )

ライセンス: Link先を確認
Dekel Meirom, Steven H. Frankel(参考訳) 我々は、今日の雑音中規模量子(nisq)コンピュータ上で変分量子アルゴリズム(vqas)をより効率的かつ正確に実装するために、新しいパルスベースのansatzを開発し実装する。 我々のアプローチは量子化学に適用できる。 具体的には、電子配置問題に関連する基底状態エネルギーを発見し、いくつかの分子に対する変分量子固有解法(VQE)アルゴリズムを用いる。 我々は数分子のシミュレーションとibmのnisqデバイスでsto-3gベースの$h_2$分子の両方で化学精度を達成することができた。 結果はゲートベースのansatzと比較され、レイテンシーの大幅な削減 - 最大$7\times$の短いansatzスケジュール。 また,このアンサッツは問題に要求される絡み合いレベルに対して構造的適応性を有することを示した。

We develop and implement a novel pulse-based ansatz, which we call PANSATZ, for more efficient and accurate implementations of variational quantum algorithms (VQAs) on today's noisy intermediate-scale quantum (NISQ) computers. Our approach is applied to quantum chemistry. Specifically, finding the ground-state energy associated with the electron configuration problem, using the variational quantum eigensolver (VQE) algorithm for several molecules. We manage to achieve chemical accuracy both in simulation for several molecules and on one of IBM's NISQ devices for the $H_2$ molecule in the STO-3G basis. Our results are compared to a gate-based ansatz and show significant latency reduction - up to $7\times$ shorter ansatz schedules. We also show that this ansatz has structured adaptivity to the entanglement level required by the problem.
翻訳日:2023-01-09 05:25:47 公開日:2022-12-25
# 適応的・分散的・継続的制御のための時間階層アーキテクチャ

Temporally Layered Architecture for Adaptive, Distributed and Continuous Control ( http://arxiv.org/abs/2301.00723v1 )

ライセンス: Link先を確認
Devdhar Patel, Joshua Russell, Francesca Walsh, Tauhidur Rahman, Terrance Sejnowski, Hava Siegelmann(参考訳) 本稿では,時間適応型分散制御システムであるtemporly layered architecture (tla)を提案する。 TLAは、テンポラリな抽象化を実現するために、高速で遅いコントローラを階層化し、各レイヤが異なる時間スケールに集中できるようにする。 私たちのデザインは生物学的にインスパイアされ、環境の要求に応じて異なる時間スケールでアクションを実行する人間の脳のアーキテクチャを描きます。 このような分散制御設計は、特定の不確定な環境での生存性と正確性を高めるため、生体システム全体に広く普及している。 我々は,tlaが,永続的探索,適応制御,説明可能な時間的行動,計算効率,分散制御など,既存のアプローチよりも多くの利点を享受できることを実証する。 TLAを訓練するための2つの異なるアルゴリズムを提案する。 (a)ファストコントローラをトレーニング済みのスローコントローラ上でトレーニングし、ファストコントローラとクローズループ制御をよりよく探索し、各タイムステップでファストコントローラが「アクト」か「ノー」かを判断するクローズループ制御を行う。 (b) 一部開ループ制御(slow controller)は、事前訓練されたfast controller上でslow controllerをトレーニングし、slow controllerが時間的に拡張されたアクションを選択したり、次のnアクションをfast controllerにデファーするopen loop-controlを可能にする。 提案手法を一連の連続制御タスクで評価し,TLAの強塩基性に対する利点を実証した。

We present temporally layered architecture (TLA), a biologically inspired system for temporally adaptive distributed control. TLA layers a fast and a slow controller together to achieve temporal abstraction that allows each layer to focus on a different time-scale. Our design is biologically inspired and draws on the architecture of the human brain which executes actions at different timescales depending on the environment's demands. Such distributed control design is widespread across biological systems because it increases survivability and accuracy in certain and uncertain environments. We demonstrate that TLA can provide many advantages over existing approaches, including persistent exploration, adaptive control, explainable temporal behavior, compute efficiency and distributed control. We present two different algorithms for training TLA: (a) Closed-loop control, where the fast controller is trained over a pre-trained slow controller, allowing better exploration for the fast controller and closed-loop control where the fast controller decides whether to "act-or-not" at each timestep; and (b) Partially open loop control, where the slow controller is trained over a pre-trained fast controller, allowing for open loop-control where the slow controller picks a temporally extended action or defers the next n-actions to the fast controller. We evaluated our method on a suite of continuous control tasks and demonstrate the advantages of TLA over several strong baselines.
翻訳日:2023-01-09 04:14:57 公開日:2022-12-25
# プライバシ保護をカスタマイズしたソーシャルアウェアクラスタ型連合学習

Social-Aware Clustered Federated Learning with Customized Privacy Preservation ( http://arxiv.org/abs/2212.13992v1 )

ライセンス: Link先を確認
Yuntao Wang, Zhou Su, Yanghe Pan, Tom H Luan, Ruidong Li, and Shui Yu(参考訳) federated learning(fl)の重要な特徴は、エンドユーザのデータプライバシを保護することだ。 しかし、FLの下で勾配を交換する際の潜在的なプライバシー漏洩が存在する。 その結果、近年の研究は、低オーバーヘッドのプライバシ問題に対処するために、コンピューティング結果にノイズを追加するための差分プライバシー(dp)アプローチをしばしば探究している。 本稿では,ユーザ間のソーシャルな関係を利用して,データのプライバシーと効率のバランスをとる。 具体的には,ソーシャル・アウェア・クラスタ・フェデレーテッド・ラーニング(SCFL)を提案し,信頼関係のある個人が自由にソーシャル・クラスタを形成し,各クラスタ内で生モデル更新(勾配など)を集約し,クラウドにアップロードしてグローバル・アグリゲーションを行う。 モデル更新をソーシャルグループに混ぜ合わせることで、敵はソーシャル層を組み合わせた結果のみを盗むことができる。 scflの設計を3つのステップで展開します。 \emph{i) 安定したソーシャルクラスタ形成。 ユーザの不均一なトレーニングサンプルやデータ分布を考慮すると、最適なソーシャルクラスタ形成問題をフェデレーションゲームとして定式化し、フリーライダーに対する公正な収益配分機構を考案する。 二 信頼-プライバシーマッピングを区別すること。 相互信頼度が低いクラスタに対しては,社会的信頼度に応じて参加者のモデル更新を適応的に衛生化する,カスタマイズ可能なプライバシ保護機構を設計する。 iii)分散収束。 分散二面マッチングアルゴリズムは, Nash-stable の収束に最適化された解離分割を実現するために考案された。 FacebookネットワークとMNIST/CIFAR-10データセットの実験は、SCFLが学習ユーティリティを効果的に強化し、ユーザの支払いを改善し、カスタマイズ可能なプライバシ保護を強制できることを検証する。

A key feature of federated learning (FL) is to preserve the data privacy of end users. However, there still exist potential privacy leakage in exchanging gradients under FL. As a result, recent research often explores the differential privacy (DP) approaches to add noises to the computing results to address privacy concerns with low overheads, which however degrade the model performance. In this paper, we strike the balance of data privacy and efficiency by utilizing the pervasive social connections between users. Specifically, we propose SCFL, a novel Social-aware Clustered Federated Learning scheme, where mutually trusted individuals can freely form a social cluster and aggregate their raw model updates (e.g., gradients) inside each cluster before uploading to the cloud for global aggregation. By mixing model updates in a social group, adversaries can only eavesdrop the social-layer combined results, but not the privacy of individuals. We unfold the design of SCFL in three steps. \emph{i) Stable social cluster formation. Considering users' heterogeneous training samples and data distributions, we formulate the optimal social cluster formation problem as a federation game and devise a fair revenue allocation mechanism to resist free-riders. ii) Differentiated trust-privacy mapping}. For the clusters with low mutual trust, we design a customizable privacy preservation mechanism to adaptively sanitize participants' model updates depending on social trust degrees. iii) Distributed convergence}. A distributed two-sided matching algorithm is devised to attain an optimized disjoint partition with Nash-stable convergence. Experiments on Facebook network and MNIST/CIFAR-10 datasets validate that our SCFL can effectively enhance learning utility, improve user payoff, and enforce customizable privacy protection.
翻訳日:2022-12-29 16:22:53 公開日:2022-12-25
# 勧告等のための時系列・空間データのモデリング

Modeling Time-Series and Spatial Data for Recommendations and Other Applications ( http://arxiv.org/abs/2212.13259v1 )

ライセンス: Link先を確認
Vinayak Gupta(参考訳) 本論文では,連続時間イベント列のダイナミクスを理解できるレコメンダシステムの設計における重要な課題について考察する。 まず,cteデータの低品質がレコメンダシステムに供給されることによって生じる可能性のある問題に対処する。 その後、正確なレコメンダシステムを設計するタスクを処理します。 ctesデータの品質を向上させるため,時間系列における欠落事象を克服する根本的な問題に対処する。 さらに,正確なシーケンスモデリングフレームワークを提供するために,ユーザの空間的モビリティデータを様々なPOIチェックインに処理できるモデルや,次のチェックインの候補場所を推薦する手法を設計する。 最後に,提案モデルが推奨システムを超えて応用できることを強調し,大規模CTES検索と人間の活動予測のためのソリューションの設計にそれらの能力を拡張した。 この論文の重要な部分は、MTPP (Neural marked temporal point process) を通じてCTESの基盤となる分布をモデル化するものである。 従来のMTPPモデルは、固定定式化を利用して連続的に局所化された離散事象列の生成機構を捉える確率過程である。 対照的に、neural mtppはポイントプロセス文学の基本概念と現代のディープラーニングアーキテクチャを結合している。 正確な関数近似器としてのディープラーニングモデルの能力は、ニューラルMTPPモデルの予測能力を大きく向上させた。 本論文では,既存のMTPPフレームワークに対して,ニューラルネットワークによるいくつかの拡張を実世界のアプリケーションに適用し,提示する。

With the research directions described in this thesis, we seek to address the critical challenges in designing recommender systems that can understand the dynamics of continuous-time event sequences. We follow a ground-up approach, i.e., first, we address the problems that may arise due to the poor quality of CTES data being fed into a recommender system. Later, we handle the task of designing accurate recommender systems. To improve the quality of the CTES data, we address a fundamental problem of overcoming missing events in temporal sequences. Moreover, to provide accurate sequence modeling frameworks, we design solutions for points-of-interest recommendation, i.e., models that can handle spatial mobility data of users to various POI check-ins and recommend candidate locations for the next check-in. Lastly, we highlight that the capabilities of the proposed models can have applications beyond recommender systems, and we extend their abilities to design solutions for large-scale CTES retrieval and human activity prediction. A significant part of this thesis uses the idea of modeling the underlying distribution of CTES via neural marked temporal point processes (MTPP). Traditional MTPP models are stochastic processes that utilize a fixed formulation to capture the generative mechanism of a sequence of discrete events localized in continuous time. In contrast, neural MTPP combine the underlying ideas from the point process literature with modern deep learning architectures. The ability of deep-learning models as accurate function approximators has led to a significant gain in the predictive prowess of neural MTPP models. In this thesis, we utilize and present several neural network-based enhancements for the current MTPP frameworks for the aforementioned real-world applications.
翻訳日:2022-12-29 16:13:41 公開日:2022-12-25
# EVM-CNN: 顔画像からのリアルタイム非接触心拍推定

EVM-CNN: Real-Time Contactless Heart Rate Estimation from Facial Video ( http://arxiv.org/abs/2212.13843v1 )

ライセンス: Link先を確認
Ying Qiu, Yang Liu, Juan Arteaga-Falconi, Haiwei Dong, and Abdulmotaleb El Saddik(参考訳) 健康意識の増加に伴い、非侵襲的な身体モニタリングが研究者の間で関心を集めている。 生理情報の最も重要な部分のひとつとして、研究者たちは近年、顔の動画から心拍数(HR)を推定しています。 過去数年間は進歩してきたが、正確性による処理時間の増加や、使用と比較のための包括的で挑戦的なデータセットの欠如など、いくつかの制限がある。 近年,空間分解と時間フィルタリングにより,顔映像からhr情報を抽出できることが示されている。 そこで本稿では,空間的および時間的フィルタリングと畳み込みニューラルネットワークを組み合わせることで,現実的条件下でのhrを遠隔で推定する新しい枠組みを提案する。 提案手法は, 平均人事推定と短時間人事推定の両方の観点から, MMSE-HRデータセットのベンチマークと比較すると, 優れた性能を示す。 短時間のHR推定における高整合性は,本手法と基礎的真理の間に観察される。

With the increase in health consciousness, noninvasive body monitoring has aroused interest among researchers. As one of the most important pieces of physiological information, researchers have remotely estimated the heart rate (HR) from facial videos in recent years. Although progress has been made over the past few years, there are still some limitations, like the processing time increasing with accuracy and the lack of comprehensive and challenging datasets for use and comparison. Recently, it was shown that HR information can be extracted from facial videos by spatial decomposition and temporal filtering. Inspired by this, a new framework is introduced in this paper to remotely estimate the HR under realistic conditions by combining spatial and temporal filtering and a convolutional neural network. Our proposed approach shows better performance compared with the benchmark on the MMSE-HR dataset in terms of both the average HR estimation and short-time HR estimation. High consistency in short-time HR estimation is observed between our method and the ground truth.
翻訳日:2022-12-29 16:03:07 公開日:2022-12-25
# ランク直観的ファジィ集合へのハイパーボリュームに基づくアプローチと不確かさ下での多基準決定への拡張

A Hypervolume Based Approach to Rank Intuitionistic Fuzzy Sets and Its Extension to Multi-criteria Decision Making Under Uncertainty ( http://arxiv.org/abs/2212.13908v1 )

ライセンス: Link先を確認
Kaan Deveci and Onder Guler(参考訳) 距離に基づくランク付け手法による直観的ファジィ集合のランク付けには、直観的ファジィ集合と最大値(正の理想解)または最小値(負の理想解)を持つことが知られている基準点の間の距離を計算する必要がある。 これらのアプローチのグループは、基準点への直観的ファジィ集合の距離が減少すると、その点を含む直観的ファジィ集合の類似性が増加すると仮定する。 これは、直観主義的ファジィ集合が正のイデアル解に最短距離を持つので、距離関数が非線形であるすべての状況において、負のイデアル解から最も遠ざかる必要はないからである。 本稿では,この仮定が非線形距離関数のいずれにも当てはまらない理由を数学的に証明し,その代替としてハイパーボリュームに基づくランキング手法を提案する。 さらに、提案するランキング手法は、HyperVolume based ASsessment (HVAS) と呼ばれる新しいマルチ基準決定手法として拡張される。 HVASはトルコのエネルギー代替品の多基準評価に適用される。 その結果,TOPSIS,VIKOR,CODASの3つの距離に基づく多基準意思決定手法と比較した。

Ranking intuitionistic fuzzy sets with distance based ranking methods requires to calculate the distance between intuitionistic fuzzy set and a reference point which is known to have either maximum (positive ideal solution) or minimum (negative ideal solution) value. These group of approaches assume that as the distance of an intuitionistic fuzzy set to the reference point is decreases, the similarity of intuitionistic fuzzy set with that point increases. This is a misconception because an intuitionistic fuzzy set which has the shortest distance to positive ideal solution does not have to be the furthest from negative ideal solution for all circumstances when the distance function is nonlinear. This paper gives a mathematical proof of why this assumption is not valid for any of the non-linear distance functions and suggests a hypervolume based ranking approach as an alternative to distance based ranking. In addition, the suggested ranking approach is extended as a new multicriteria decision making method, HyperVolume based ASsessment (HVAS). HVAS is applied for multicriteria assessment of Turkey's energy alternatives. Results are compared with three well known distance based multicriteria decision making methods (TOPSIS, VIKOR, and CODAS).
翻訳日:2022-12-29 15:54:30 公開日:2022-12-25
# 閉ループ脳深部刺激器の同期抑制のための新しい強化学習アルゴリズム

Novel Reinforcement Learning Algorithm for Suppressing Synchronization in Closed Loop Deep Brain Stimulators ( http://arxiv.org/abs/2212.13260v1 )

ライセンス: Link先を確認
Harsh Agarwal, Heena Rathore(参考訳) パーキンソン病は、脳の病的振動の発火特性の変化と増加によって特徴づけられる。 言い換えれば、神経処理中に異常な同期振動と抑制を引き起こす。 運動回路の同期と病理振動を検査・制御するために、深部脳刺激薬(DBS)を用いる。 機械学習手法は抑制の研究に応用されているが、これらのモデルは大量のトレーニングデータと計算能力を必要としており、どちらも資源制約DBSに課題を提起している。 本研究では,低消費電力の神経障害エピソードにおけるニューロン活動の同期を抑制するための新しい強化学習(rl)フレームワークを提案する。 提案したRLアルゴリズムは、刺激の時間的表現のアンサンブルと、双遅延深層決定性(TD3)ポリシー勾配アルゴリズムを含む。 提案手法の雑音に対する安定性を定量化し,RLを用いた3つの病態信号系(規則性,カオス性,バースト性)に対する同期を低減し,さらに望ましくない振動を排除した。 さらに、評価報酬、アンサンブルに供給されるエネルギー、平均収束点などの指標を用い、他のRLアルゴリズム、特にアドバンテージアクター批評家(A2C)、クロネッカー機能信頼領域(ACKTR)のアクター批評家(PPO)と比較した。

Parkinson's disease is marked by altered and increased firing characteristics of pathological oscillations in the brain. In other words, it causes abnormal synchronous oscillations and suppression during neurological processing. In order to examine and regulate the synchronization and pathological oscillations in motor circuits, deep brain stimulators (DBS) are used. Although machine learning methods have been applied for the investigation of suppression, these models require large amounts of training data and computational power, both of which pose challenges to resource-constrained DBS. This research proposes a novel reinforcement learning (RL) framework for suppressing the synchronization in neuronal activity during episodes of neurological disorders with less power consumption. The proposed RL algorithm comprises an ensemble of a temporal representation of stimuli and a twin-delayed deep deterministic (TD3) policy gradient algorithm. We quantify the stability of the proposed framework to noise and reduced synchrony using RL for three pathological signaling regimes: regular, chaotic, and bursting, and further eliminate the undesirable oscillations. Furthermore, metrics such as evaluation rewards, energy supplied to the ensemble, and the mean point of convergence were used and compared to other RL algorithms, specifically the Advantage actor critic (A2C), the Actor critic with Kronecker-featured trust region (ACKTR), and the Proximal policy optimization (PPO).
翻訳日:2022-12-29 15:10:11 公開日:2022-12-25
# バイオインフォマティクスのための説明可能なAI:方法、ツール、応用

Explainable AI for Bioinformatics: Methods, Tools, and Applications ( http://arxiv.org/abs/2212.13261v1 )

ライセンス: Link先を確認
Md. Rezaul Karim, Tanhim Islam, Oya Beyan, Christoph Lange, Michael Cochez, Dietrich Rebholz-Schuhmann and Stefan Decker(参考訳) ディープニューラルネットワーク(DNN)と機械学習(ML)アルゴリズムに基づく人工知能(AI)システムは、バイオインフォマティクス、バイオメディカルインフォマティクス、精密医療における重要な問題を解決するためにますます利用されている。 しかし、必然的に不透明でブラックボックスメソッドとして認識される複雑なDNNまたはMLモデルは、なぜ、どのように決定するかを説明できないかもしれない。 このようなブラックボックスモデルは、ターゲットユーザや意思決定者だけでなく、AI開発者にとっても理解が難しい。 さらに、医療のような繊細な分野では、説明可能性と説明責任はAIの望ましい特性であるだけでなく、法的要件でもある。 説明可能な人工知能(XAI)は、ブラックボックスモデルの不透明性を緩和し、AIシステムが透明性でどのように意思決定するかを解釈できるようにすることを目的とした、新興分野である。 解釈可能なmlモデルは、どのように予測を行い、モデルの結果に影響を与える要因を説明することができる。 最先端の解釈可能なML手法の大部分は、ドメインに依存しない方法で開発され、コンピュータビジョン、自動推論、統計からもたらされている。 これらの手法の多くは、事前のカスタマイズ、拡張、ドメイン適用なしに、バイオインフォマティクス問題に直接適用することはできない。 本稿では,バイオインフォマティクスを中心とした説明可能性の重要性について論じる。 モデル固有およびモデル非依存の解釈可能なML手法とツールの解析と概観を行った。 バイオイメージング、がんゲノム学、バイオメディカルテキストマイニングに関するいくつかのケーススタディにより、バイオインフォマティクス研究がXAI手法の利点や、意思決定の公平性向上にどのように役立つかを示す。

Artificial intelligence(AI) systems based on deep neural networks (DNNs) and machine learning (ML) algorithms are increasingly used to solve critical problems in bioinformatics, biomedical informatics, and precision medicine. However, complex DNN or ML models that are unavoidably opaque and perceived as black-box methods, may not be able to explain why and how they make certain decisions. Such black-box models are difficult to comprehend not only for targeted users and decision-makers but also for AI developers. Besides, in sensitive areas like healthcare, explainability and accountability are not only desirable properties of AI but also legal requirements -- especially when AI may have significant impacts on human lives. Explainable artificial intelligence (XAI) is an emerging field that aims to mitigate the opaqueness of black-box models and make it possible to interpret how AI systems make their decisions with transparency. An interpretable ML model can explain how it makes predictions and which factors affect the model's outcomes. The majority of state-of-the-art interpretable ML methods have been developed in a domain-agnostic way and originate from computer vision, automated reasoning, or even statistics. Many of these methods cannot be directly applied to bioinformatics problems, without prior customization, extension, and domain adoption. In this paper, we discuss the importance of explainability with a focus on bioinformatics. We analyse and comprehensively overview of model-specific and model-agnostic interpretable ML methods and tools. Via several case studies covering bioimaging, cancer genomics, and biomedical text mining, we show how bioinformatics research could benefit from XAI methods and how they could help improve decision fairness.
翻訳日:2022-12-29 14:52:35 公開日:2022-12-25
# 尾の質

Quality at the Tail ( http://arxiv.org/abs/2212.13925v1 )

ライセンス: Link先を確認
Zhengxin Yang and Wanling Gao and Chunjie Luo and Lei Wang and Jianfeng Zhan(参考訳) 深層学習の応用は推論品質を保証する必要がある。 しかし,本研究の応用における現状と現状の推論品質は,長い尾の分布を持つことがわかった。 現実世界では、多くのタスクは、安全性クリティカルなタスクやミッションクリティカルなタスクなど、ディープラーニング推論の品質に対する厳しい要件を持っています。 推論品質の変動はその実用的応用に深刻な影響を与え、尾部の品質は深刻な結果をもたらす可能性がある。 ゆるい制約の下で設計・訓練された優れた推論品質を持つ最先端および最先端のプラクティスは、実用上重要な制約下では、まだ推論品質が貧弱である。 一方、ニューラルネットワークモデルは限られたリソースを持つ複雑なシステムにデプロイされなければならない。 一方で、安全クリティカルなタスクとミッションクリティカルなタスクは、高い推論品質を確保しながら、より多くのメトリック制約を満たす必要がある。 この本質的な要件と課題を特徴付けるために、新しい用語 `tail quality,'' をつくります。 また,特定の制約下での推論品質を測定するための新しい指標 ``x-critical-quality''' を提案する。 本稿では,実シナリオにおける最先端および最先端のアルゴリズムとシステムの使用の失敗に寄与する要因を明らかにする。 そこで我々は,この大きな課題に対処するために,革新的な方法論とツールの確立を訴える。

Practical applications employing deep learning must guarantee inference quality. However, we found that the inference quality of state-of-the-art and state-of-the-practice in practical applications has a long tail distribution. In the real world, many tasks have strict requirements for the quality of deep learning inference, such as safety-critical and mission-critical tasks. The fluctuation of inference quality seriously affects its practical applications, and the quality at the tail may lead to severe consequences. State-of-the-art and state-of-the-practice with outstanding inference quality designed and trained under loose constraints still have poor inference quality under constraints with practical application significance. On the one hand, the neural network models must be deployed on complex systems with limited resources. On the other hand, safety-critical and mission-critical tasks need to meet more metric constraints while ensuring high inference quality. We coin a new term, ``tail quality,'' to characterize this essential requirement and challenge. We also propose a new metric, ``X-Critical-Quality,'' to measure the inference quality under certain constraints. This article reveals factors contributing to the failure of using state-of-the-art and state-of-the-practice algorithms and systems in real scenarios. Therefore, we call for establishing innovative methodologies and tools to tackle this enormous challenge.
翻訳日:2022-12-29 14:15:13 公開日:2022-12-25
# 因子動物園の採掘:十分なプロキシを持つ潜在因子モデルの推定

Mining the Factor Zoo: Estimation of Latent Factor Models with Sufficient Proxies ( http://arxiv.org/abs/2212.12845v1 )

ライセンス: Link先を確認
Runzhe Wan, Yingying Li, Wenbin Lu and Rui Song(参考訳) 潜在因子モデルの推定は通常、いくつかの観測された共変数を因子プロキシとして手動で選択するためにドメイン知識を使うか、主成分分析のような純粋に多変量解析を行うかのどちらかに依存する。 しかし、前者のアプローチはバイアスに悩まされ、後者は追加情報を組み込むことができない。 本稿では,これらの2つの手法を橋渡しし,因子プロキシの数を分散させ,潜在因子モデルの推定をより堅牢で柔軟で統計的に正確にすることを提案する。 ボーナスとして、要素数の増加も認められている。 提案手法の核心は,情報結合のためのペナルティを減じたランク回帰である。 さらに, 重み付きデータを扱うため, 計算に魅力的なペナライズされたロバスト低減ランク回帰法を提案する。 ベンチマークと比較すると,収束速度は速い。 強大なシミュレーションと実例は、その利点を説明するために使われる。

Latent factor model estimation typically relies on either using domain knowledge to manually pick several observed covariates as factor proxies, or purely conducting multivariate analysis such as principal component analysis. However, the former approach may suffer from the bias while the latter can not incorporate additional information. We propose to bridge these two approaches while allowing the number of factor proxies to diverge, and hence make the latent factor model estimation robust, flexible, and statistically more accurate. As a bonus, the number of factors is also allowed to grow. At the heart of our method is a penalized reduced rank regression to combine information. To further deal with heavy-tailed data, a computationally attractive penalized robust reduced rank regression method is proposed. We establish faster rates of convergence compared with the benchmark. Extensive simulations and real examples are used to illustrate the advantages.
翻訳日:2022-12-27 15:36:46 公開日:2022-12-25
# データクラス固有の全光学変換と暗号化

Data class-specific all-optical transformations and encryption ( http://arxiv.org/abs/2212.12873v1 )

ライセンス: Link先を確認
Bijie Bai, Heming Wei, Xilin Yang, Deniz Mengu, Aydogan Ozcan(参考訳) 拡散光学ネットワークは、シーンの空間情報をデジタル前処理ステップを必要とせずに、拡散プロセッサから直接アクセスできるため、視覚コンピューティングタスクに豊富な機会を提供する。 ここでは、微分ネットワークの入力フィールドと出力フィールド(FOV)間で全光学的に行われるデータクラス固有の変換について述べる。 入力時の光学場の振幅(a)、位相(p)、強度(i)にオブジェクトの視覚情報がエンコードされ、データクラス固有の回折ネットワークによって全て光学的に処理される。 出力では、画像センサアレイが変換されたパターンを直接測定し、異なるデータクラスに予め割り当てられた変換行列、すなわち、各データクラスごとに分離された行列を用いて、全可視的に暗号化する。 一致したデータクラスに対応する正しい復号鍵(逆変換)を適用して元の入力画像を復元でき、他のキーを適用すると情報の損失につながる。 これらの全光学回折変換のクラス固有性は、異なるキーを異なるユーザへ配布できる機会を生み出し、各ユーザが取得した1つのデータクラスのイメージだけをデコードし、全光学的暗号化された方法で複数のユーザに提供することができる。 我々は,A-->A,I->I,P-->Iを含む全光学クラス固有の変換を,様々な画像データセットを用いて数値的に実証した。 また, 2光子重合法を用いてクラス特異的I--I変換拡散ネットワークを作製し, 1550nm波長での試験に成功したことにより, 本フレームワークの有効性を実験的に検証した。 データクラス固有の全光学変換は、高速でエネルギー効率のよい画像とデータの暗号化方法を提供する。

Diffractive optical networks provide rich opportunities for visual computing tasks since the spatial information of a scene can be directly accessed by a diffractive processor without requiring any digital pre-processing steps. Here we present data class-specific transformations all-optically performed between the input and output fields-of-view (FOVs) of a diffractive network. The visual information of the objects is encoded into the amplitude (A), phase (P), or intensity (I) of the optical field at the input, which is all-optically processed by a data class-specific diffractive network. At the output, an image sensor-array directly measures the transformed patterns, all-optically encrypted using the transformation matrices pre-assigned to different data classes, i.e., a separate matrix for each data class. The original input images can be recovered by applying the correct decryption key (the inverse transformation) corresponding to the matching data class, while applying any other key will lead to loss of information. The class-specificity of these all-optical diffractive transformations creates opportunities where different keys can be distributed to different users; each user can only decode the acquired images of only one data class, serving multiple users in an all-optically encrypted manner. We numerically demonstrated all-optical class-specific transformations covering A-->A, I-->I, and P-->I transformations using various image datasets. We also experimentally validated the feasibility of this framework by fabricating a class-specific I-->I transformation diffractive network using two-photon polymerization and successfully tested it at 1550 nm wavelength. Data class-specific all-optical transformations provide a fast and energy-efficient method for image and data encryption, enhancing data security and privacy.
翻訳日:2022-12-27 15:35:04 公開日:2022-12-25
# ランダム化による厳密な選択推論

Exact Selective Inference with Randomization ( http://arxiv.org/abs/2212.12940v1 )

ライセンス: Link先を確認
Snigdha Panigrahi, Kevin Fry, Jonathan Taylor(参考訳) ランダム化を伴う正確な選択推論のためのピボットを導入する。 私たちのピボットはガウス回帰モデルにおいて正確な推論をもたらすだけでなく、閉じた形式でも利用できる。 我々は、二変量 truncated Gaussian 分布に対する厳密な選択推論の問題を削減する。 そうすることで、panigrahi and taylor (2022) で近似推論によって達成されるいくつかの力を諦める。 しかし、我々は常に密接に関連するデータ分割手順よりも信頼区間を狭めている。 ガウス回帰の一般的な例では、正確な選択的推論と引き換えに、この価格(力の観点から)がシミュレーション実験やhiv薬剤耐性分析で実証されている。

We introduce a pivot for exact selective inference with randomization. Not only does our pivot lead to exact inference in Gaussian regression models, but it is also available in closed form. We reduce the problem of exact selective inference to a bivariate truncated Gaussian distribution. By doing so, we give up some power that is achieved with approximate inference in Panigrahi and Taylor (2022). Yet we always produce narrower confidence intervals than a closely related data-splitting procedure. For popular instances of Gaussian regression, this price -- in terms of power -- in exchange for exact selective inference is demonstrated in simulated experiments and in an HIV drug resistance analysis.
翻訳日:2022-12-27 15:28:30 公開日:2022-12-25
# 前立腺癌診断と病理組織像のグリーソングレーディングのための弱改良深層学習モデル

Weakly-Supervised Deep Learning Model for Prostate Cancer Diagnosis and Gleason Grading of Histopathology Images ( http://arxiv.org/abs/2212.12844v1 )

ライセンス: Link先を確認
Mohammad Mahdi Behzadi, Mohammad Madani, Hanzhang Wang, Jun Bai, Ankit Bhardwaj, Anna Tarakanova, Harold Yamase, Ga Hie Nam, Sheida Nabavi(参考訳) 前立腺がんは、男性が世界で最も多いがんであり、米国では2番目に多いがん死因である。 前立腺癌における予後の特徴の1つは、Gleason grading of histopathology imagesである。 GleasonグレードはヘマトキシリンおよびEosin(H&E)の腫瘍像に基づいて,病理医により全スライド画像(WSI)を染色した。 このプロセスは時間がかかり、オブザーバ間の変動が知られている。 過去数年間、深層学習アルゴリズムは病理組織像の分析に使われ、前立腺がんの診断に有望な結果をもたらした。 しかし、ほとんどのアルゴリズムは、生成に費用がかかる完全に注釈付きデータセットに依存している。 本研究では,前立腺癌を分類する新しい弱教師付きアルゴリズムを提案する。 提案手法は,(1)トランスフォーマーに基づく複数インスタンス学習(mil)アルゴリズムを用いて病理組織画像の判別領域を抽出すること,(2)識別パッチを用いてグラフを構築して画像を表現すること,(3)ゲート付き注意機構に基づいてグラフ畳み込みニューラルネットワーク(gcn)を開発することにより,そのグリーソングレードに分類すること,の3つのステップからなる。 TCGAPRAD、PANDA、Gleason 2019チャレンジデータセットなど、公開データセットを使用してアルゴリズムを評価した。 また,アルゴリズムを独立データセット上で検証した。 その結果,Gleason grading タスクの精度,F1スコア,Cohen-Kappa の両面での最先端性能が得られた。 コードはhttps://github.com/NabaviLab/Prostate-Cancer.comで入手できる。

Prostate cancer is the most common cancer in men worldwide and the second leading cause of cancer death in the United States. One of the prognostic features in prostate cancer is the Gleason grading of histopathology images. The Gleason grade is assigned based on tumor architecture on Hematoxylin and Eosin (H&E) stained whole slide images (WSI) by the pathologists. This process is time-consuming and has known interobserver variability. In the past few years, deep learning algorithms have been used to analyze histopathology images, delivering promising results for grading prostate cancer. However, most of the algorithms rely on the fully annotated datasets which are expensive to generate. In this work, we proposed a novel weakly-supervised algorithm to classify prostate cancer grades. The proposed algorithm consists of three steps: (1) extracting discriminative areas in a histopathology image by employing the Multiple Instance Learning (MIL) algorithm based on Transformers, (2) representing the image by constructing a graph using the discriminative patches, and (3) classifying the image into its Gleason grades by developing a Graph Convolutional Neural Network (GCN) based on the gated attention mechanism. We evaluated our algorithm using publicly available datasets, including TCGAPRAD, PANDA, and Gleason 2019 challenge datasets. We also cross validated the algorithm on an independent dataset. Results show that the proposed model achieved state-of-the-art performance in the Gleason grading task in terms of accuracy, F1 score, and cohen-kappa. The code is available at https://github.com/NabaviLab/Prostate-Cancer.
翻訳日:2022-12-27 15:19:05 公開日:2022-12-25
# PaletteNeRF:PaletteベースのNeRF色編集

PaletteNeRF: Palette-based Color Editing for NeRFs ( http://arxiv.org/abs/2212.12871v1 )

ライセンス: Link先を確認
Qiling Wu, Jianchao Tan, Kun Xu(参考訳) neural radiance field (nerf) は、撮影された画像が少ないシーンに対して、忠実に新しいビューを生成する強力なツールである。 3dシーンとその外観を表現する能力は強いが、編集能力は非常に限られている。 本稿では,nrf表示シーンの効率的なカラー編集を実現するために,パレットナーフと呼ばれるバニラネーフの簡易かつ効果的な拡張を提案する。 近年のパレット画像分解作業に動機づけられ,各画素の色を加算重みで変調したパレット色の総和として近似した。 バニラネーフのようにピクセルの色を予測する代わりに、加算重みを予測する。 基礎となるNeRFバックボーンは、リアルタイム編集を実現するために、KiroNeRFのような最新のNeRFモデルに置き換えることもできる。 実験により,提案手法は,広範囲のNeRF表現シーンにおいて,効率よく,ビューに一貫性があり,アーティファクトのない色編集を実現することを示す。

Neural Radiance Field (NeRF) is a powerful tool to faithfully generate novel views for scenes with only sparse captured images. Despite its strong capability for representing 3D scenes and their appearance, its editing ability is very limited. In this paper, we propose a simple but effective extension of vanilla NeRF, named PaletteNeRF, to enable efficient color editing on NeRF-represented scenes. Motivated by recent palette-based image decomposition works, we approximate each pixel color as a sum of palette colors modulated by additive weights. Instead of predicting pixel colors as in vanilla NeRFs, our method predicts additive weights. The underlying NeRF backbone could also be replaced with more recent NeRF models such as KiloNeRF to achieve real-time editing. Experimental results demonstrate that our method achieves efficient, view-consistent, and artifact-free color editing on a wide range of NeRF-represented scenes.
翻訳日:2022-12-27 15:18:38 公開日:2022-12-25
# ポイントクラウドから3次元人間のポーズを推定する学習

Learning to Estimate 3D Human Pose from Point Cloud ( http://arxiv.org/abs/2212.12910v1 )

ライセンス: Link先を確認
Yufan Zhou, Haiwei Dong, and Abdulmotaleb El Saddik(参考訳) 3Dポーズ推定はコンピュータビジョンにおいて難しい問題である。 既存のニューラルネットワークベースのアプローチのほとんどは、畳み込みネットワーク(CNN)を通じて色や深度の画像に対処する。 本稿では,深度画像からの3次元ポーズ推定の課題について検討する。 既存のcnnに基づく人格推定法と異なり,ポイントクラウドデータを入力データとして,複雑な人格構造の表面をモデル化し,3次元ポーズ推定のための深層人格ネットワークを提案する。 まず,2次元深度画像から3次元点雲への3次元人物ポーズ推定を行い,直接3次元関節位置を予測した。 2つの公開データセットに対する実験により,従来の最先端手法よりも精度が高いことを示す。 ITOPとEVALの両方のデータセットで報告された結果から,本手法が対象タスクに与える影響が示された。

3D pose estimation is a challenging problem in computer vision. Most of the existing neural-network-based approaches address color or depth images through convolution networks (CNNs). In this paper, we study the task of 3D human pose estimation from depth images. Different from the existing CNN-based human pose estimation method, we propose a deep human pose network for 3D pose estimation by taking the point cloud data as input data to model the surface of complex human structures. We first cast the 3D human pose estimation from 2D depth images to 3D point clouds and directly predict the 3D joint position. Our experiments on two public datasets show that our approach achieves higher accuracy than previous state-of-art methods. The reported results on both ITOP and EVAL datasets demonstrate the effectiveness of our method on the targeted tasks.
翻訳日:2022-12-27 15:18:22 公開日:2022-12-25
# 検索、構造、感情:twitterにおける異なる検索タイプにおけるネットワーク・オピニオンの比較分析

Search, Structure, and Sentiment: A Comparative Analysis of Network Opinion in Different Query Types on Twitter ( http://arxiv.org/abs/2212.12955v1 )

ライセンス: Link先を確認
Joshua Midha(参考訳) 構造と感情の関係を理解することは、オンラインソーシャルネットワークでの今後の運用を強調する上で不可欠である。 より具体的には、Twitter上の人気のある会話の中で。 本稿では,この2つの変数の関係について,有向ネットワークの構成として定義される構造と,会話の肯定的/否定的意味の定量化値である感情との関係について述べる。 我々は,ネットワークの強度と接続性に反比例するスレッド感情に注目した。 本稿の後半では、クエリタイプの違い、特に前述の4つのキークエリタイプ内での振る舞いの違いについて取り上げる。 本稿では,異なる行動を持つ方向として,トピック,イベントベース,地理的,個別のクエリに注目した。 クロスクエリ分析を用いることで、構造と感情の関係は逆に比例するが、クエリタイプ間で大きく異なることが分かる。 この関係は、個々のクエリの中では最も明確であり、イベントベースのクエリでは最も多くありません。 本稿では,意見とネットワークの理解に関する社会学的進展と,類似課題に関する今後の研究の方法論的進展について述べる。

Understanding the relationship between structure and sentiment is essential in highlighting future operations with online social networks. More specifically, within popular conversation on Twitter. This paper provides a development on the relationship between the two variables: structure, defined as the composition of a directed network, and sentiment, a quantified value of the positive/negative connotations of a conversation. We highlight thread sentiment to be inversely proportional to the strength and connectivity of a network. The second portion of this paper highlights differences in query types, specifically how the aforementioned behavior differs within four key query types. This paper focuses on topical, event-based, geographic, and individual queries as orientations which have differing behavior. Using cross-query analysis, we see that the relationship between structure and sentiment, though still inversely proportional, differs greatly across query types. We find this relationship to be the most clear within the individual queries and the least prevalent within the event-based queries. This paper provides a sociological progression in our understanding of opinion and networks, while providing a methodological advancement for future studies on similar subjects.
翻訳日:2022-12-27 15:08:19 公開日:2022-12-25
# リニアコンビナートセミバンドと因果関係リワード

Linear Combinatorial Semi-Bandit with Causally Related Rewards ( http://arxiv.org/abs/2212.12923v1 )

ライセンス: Link先を確認
Behzad Nourani-Koliji, Saeed Ghoorchian, and Setareh Maghsudi(参考訳) 逐次的な意思決定問題では、腕に関連する報酬分布に構造的依存があるため、最適な集合結果を保証する選択肢のサブセットを特定することは困難である。 したがって、個々の行動の報酬に加えて、因果関係を学ぶことは意思決定戦略を改善するために不可欠である。 上述した2次元学習問題を解くため、定常構造方程式モデルにおいて、有向グラフによる因果関係をモデル化する「因果関係を持つ組合せ半帯域フレームワーク」を開発した。 グラフ信号の結節観察は、対応するベースアームの即時報酬と、他のベースアームの報酬の因果的影響による追加の用語とを含む。 目的は、ベースアームの報酬の線形関数であり、ネットワークトポロジーに強く依存する長期的な平均報酬を最大化することである。 この目的を達成するために、ネットワークのトポロジを学習して因果関係を決定する政策を提案し、同時にこの知識を利用して意思決定プロセスを最適化する。 提案アルゴリズムのサブ線形後悔境界を確立する。 合成および実世界のデータセットを用いた数値実験により,提案手法の性能をいくつかのベンチマークと比較した。

In a sequential decision-making problem, having a structural dependency amongst the reward distributions associated with the arms makes it challenging to identify a subset of alternatives that guarantees the optimal collective outcome. Thus, besides individual actions' reward, learning the causal relations is essential to improve the decision-making strategy. To solve the two-fold learning problem described above, we develop the 'combinatorial semi-bandit framework with causally related rewards', where we model the causal relations by a directed graph in a stationary structural equation model. The nodal observation in the graph signal comprises the corresponding base arm's instantaneous reward and an additional term resulting from the causal influences of other base arms' rewards. The objective is to maximize the long-term average payoff, which is a linear function of the base arms' rewards and depends strongly on the network topology. To achieve this objective, we propose a policy that determines the causal relations by learning the network's topology and simultaneously exploits this knowledge to optimize the decision-making process. We establish a sublinear regret bound for the proposed algorithm. Numerical experiments using synthetic and real-world datasets demonstrate the superior performance of our proposed method compared to several benchmarks.
翻訳日:2022-12-27 15:01:13 公開日:2022-12-25
# 不要空間相関の統合による都市交通速度予測の促進

Boosting Urban Traffic Speed Prediction via Integrating Implicit Spatial Correlations ( http://arxiv.org/abs/2212.12932v1 )

ライセンス: Link先を確認
Dongkun Wang, Wei Fan, Pengyang Wang, Pengfei Wang, Dongjie Wang, Denghui Zhang, Yanjie Fu(参考訳) 都市交通速度予測は、都市交通サービスを改善するための将来の交通速度を推定することを目的としている。 事前定義された地理的構造(例えば、地域グリッドや道路網など)を通じて明示的な空間的関係(地理的近接)を活用することにより、交通速度発展パターンの空間的相関や時間的依存性を活用すべく、多大な努力がなされている。 有望な結果を得る一方で、現在の交通速度予測手法は、グリッド/グラフ畳み込みでは捉えられない暗黙的な空間相関(相互作用)を無視している。 そこで本研究では,現在の交通速度予測手法で暗黙的空間相関を保たせるための汎用モデルを提案する。 具体的には、まず空間変換器と時間変換器を含むデュアルトランスアーキテクチャを開発する。 空間変換器は,空間構造の境界を越えて道路セグメント間の暗黙的空間相関を自動的に学習し,時間変換器は暗黙的空間相関の動的変化パターンを捉える。 次に, 明示的空間相関と暗黙的空間相関をさらに統合するために, 既存の交通速度予測法を教師モデルとし, 提案する二重変換アーキテクチャを学生モデルとする蒸留型学習フレームワークを提案する。 3つの実世界のデータセットに対する広範な実験は、提案したフレームワークを既存の手法よりも大幅に改善したことを示している。

Urban traffic speed prediction aims to estimate the future traffic speed for improving the urban transportation services. Enormous efforts have been made on exploiting spatial correlations and temporal dependencies of traffic speed evolving patterns by leveraging explicit spatial relations (geographical proximity) through pre-defined geographical structures ({\it e.g.}, region grids or road networks). While achieving promising results, current traffic speed prediction methods still suffer from ignoring implicit spatial correlations (interactions), which cannot be captured by grid/graph convolutions. To tackle the challenge, we propose a generic model for enabling the current traffic speed prediction methods to preserve implicit spatial correlations. Specifically, we first develop a Dual-Transformer architecture, including a Spatial Transformer and a Temporal Transformer. The Spatial Transformer automatically learns the implicit spatial correlations across the road segments beyond the boundary of geographical structures, while the Temporal Transformer aims to capture the dynamic changing patterns of the implicit spatial correlations. Then, to further integrate both explicit and implicit spatial correlations, we propose a distillation-style learning framework, in which the existing traffic speed prediction methods are considered as the teacher model, and the proposed Dual-Transformer architectures are considered as the student model. The extensive experiments over three real-world datasets indicate significant improvements of our proposed framework over the existing methods.
翻訳日:2022-12-27 15:00:54 公開日:2022-12-25
# StepNet:手話認識のための時空間部分認識ネットワーク

StepNet: Spatial-temporal Part-aware Network for Sign Language Recognition ( http://arxiv.org/abs/2212.12857v1 )

ライセンス: Link先を確認
Xiaolong Shen, Zhedong Zheng and Yi Yang(参考訳) 手話認識(SLR)は、難聴者や難聴者のコミュニケーション障壁を克服することを目的としている。 既存のアプローチの多くは、通常、Skeletonベースの方法とRGBベースの方法の2行に分けられるが、どちらの方法にも制限がある。 RGBベースのアプローチは通常、きめ細かい手の構造を見落としているが、Skeletonベースの手法は表情を考慮に入れない。 両制約に対処するために,RGB の部分に基づく時空間部分認識ネットワーク (StepNet) という新しいフレームワークを提案する。 名前の通り、stepnet は part-level spatial modeling と part-level temporal modeling の2つのモジュールで構成されている。 特に、キーポイントレベルのアノテーションを使わずに、部分レベルの空間モデリングは、特徴空間において、手や顔といった外観ベースの特性を暗黙的に捉えます。 一方、パートレベルの時間的モデリングは、長期間のコンテキストを暗黙的にマイニングすることで、時間とともに関連する特性をキャプチャする。 我々のStepNetは時空間モジュールのおかげで、広範に使用されている3つのSLRベンチマーク(WLASLは56.89%、NMF-CSLは77.2%、BOBSLは77.1%)で競合するTop-1 Per-instance精度を達成した。 さらに,提案手法は光フロー入力と互換性があり,融解した場合に高い性能が得られる。 この作業が難聴者の予備的なステップになることを期待しています。

Sign language recognition (SLR) aims to overcome the communication barrier for the people with deafness or the people with hard hearing. Most existing approaches can be typically divided into two lines, i.e., Skeleton-based and RGB-based methods, but both the two lines of methods have their limitations. RGB-based approaches usually overlook the fine-grained hand structure, while Skeleton-based methods do not take the facial expression into account. In attempts to address both limitations, we propose a new framework named Spatial-temporal Part-aware network (StepNet), based on RGB parts. As the name implies, StepNet consists of two modules: Part-level Spatial Modeling and Part-level Temporal Modeling. Particularly, without using any keypoint-level annotations, Part-level Spatial Modeling implicitly captures the appearance-based properties, such as hands and faces, in the feature space. On the other hand, Part-level Temporal Modeling captures the pertinent properties over time by implicitly mining the long-short term context. Extensive experiments show that our StepNet, thanks to Spatial-temporal modules, achieves competitive Top-1 Per-instance accuracy on three widely-used SLR benchmarks, i.e., 56.89% on WLASL, 77.2% on NMFs-CSL, and 77.1% on BOBSL. Moreover, the proposed method is compatible with the optical flow input, and can yield higher performance if fused. We hope that this work can serve as a preliminary step for the people with deafness.
翻訳日:2022-12-27 14:44:26 公開日:2022-12-25
# 心理視覚画像特徴を用いた適応ブラインド透かし

Adaptive Blind Watermarking Using Psychovisual Image Features ( http://arxiv.org/abs/2212.12864v1 )

ライセンス: Link先を確認
Arezoo PariZanganeh, Ghazaleh Ghorbanzadeh, Zahra Nabizadeh ShahreBabak, Nader Karimi, Shadrokh Samavi(参考訳) インターネットを通じて画像の編集と共有が進むにつれて、画像の作者保護の重要性が高まっている。 ロバストな透かしは著作権保護を維持するための既知のアプローチである。 堅牢性と非知覚性は、透かしによって最大化しようとする2つの要因である。 通常、これらの2つのパラメータにはトレードオフがある。 堅牢性を高めることで、透かしの感受性が低下する。 本稿では,そのテクスチャと明るさに関して,カバー画像の異なる部分に埋没する透かしの強度を決定する適応的手法を提案する。 適応埋め込みは、透かし画像の品質を維持しながら堅牢性を高める。 また, 提案手法は, 異なる種類の共通透かし攻撃において, 組込みペイロードを効果的に再構築できることを示す。 提案手法は最近の手法と比較して優れた性能を示した。

With the growth of editing and sharing images through the internet, the importance of protecting the images' authorship has increased. Robust watermarking is a known approach to maintaining copyright protection. Robustness and imperceptibility are two factors that are tried to be maximized through watermarking. Usually, there is a trade-off between these two parameters. Increasing the robustness would lessen the imperceptibility of the watermarking. This paper proposes an adaptive method that determines the strength of the watermark embedding in different parts of the cover image regarding its texture and brightness. Adaptive embedding increases the robustness while preserving the quality of the watermarked image. Experimental results also show that the proposed method can effectively reconstruct the embedded payload in different kinds of common watermarking attacks. Our proposed method has shown good performance compared to a recent technique.
翻訳日:2022-12-27 14:43:57 公開日:2022-12-25
# TexPose: 自己監督型6次元オブジェクトマップ推定のためのニューラルネットワークテクスチャ学習

TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose Estimation ( http://arxiv.org/abs/2212.12902v1 )

ライセンス: Link先を確認
Hanzhi Chen, Fabian Manhardt, Nassir Navab, Benjamin Busam(参考訳) 本稿では,合成データから6次元物体ポーズ推定のためのニューラルテクスチャ学習と,ラベルなし実画像をいくつか紹介する。 私たちの大きな貢献は、以前の作品の欠点、すなわち共変性やさらなる洗練への強い依存を取り除く、新しい学習スキームです。 これらは以前は収束のための訓練信号を提供するために必要だった。 テクスチャ学習とポーズ学習の2つの下位最適化問題として,このようなスキームを定式化する。 我々は、実際の画像コレクションからオブジェクトの現実的なテクスチャを予測し、ピクセル完全合成データからポーズ推定を学ぶ。 これら2つの能力を組み合わせることで、フォトリアリスティックな新しいビューを合成し、ポーズ推定器を正確な幾何学で監督することができる。 テクスチャ学習段階でのポーズノイズとセグメンテーションの不完全さを軽減するために,合成データからのテクスチャ規則化とともに,サーフェルベースの逆訓練損失を提案する。 提案手法は, 直近の最先端手法において, 地味なポーズアノテーションを使わずに大幅に向上し, 目立たないシーンに対する大幅な一般化向上を示す。 顕著なことに,本手法は,性能が劣る初期化においても,採用したポーズ推定器を大幅に改善する。

In this paper, we introduce neural texture learning for 6D object pose estimation from synthetic data and a few unlabelled real images. Our major contribution is a novel learning scheme which removes the drawbacks of previous works, namely the strong dependency on co-modalities or additional refinement. These have been previously necessary to provide training signals for convergence. We formulate such a scheme as two sub-optimisation problems on texture learning and pose learning. We separately learn to predict realistic texture of objects from real image collections and learn pose estimation from pixel-perfect synthetic data. Combining these two capabilities allows then to synthesise photorealistic novel views to supervise the pose estimator with accurate geometry. To alleviate pose noise and segmentation imperfection present during the texture learning phase, we propose a surfel-based adversarial training loss together with texture regularisation from synthetic data. We demonstrate that the proposed approach significantly outperforms the recent state-of-the-art methods without ground-truth pose annotations and demonstrates substantial generalisation improvements towards unseen scenes. Remarkably, our scheme improves the adopted pose estimators substantially even when initialised with much inferior performance.
翻訳日:2022-12-27 14:43:46 公開日:2022-12-25
# BD-KD:オンライン知識蒸留における多様性のバランス

BD-KD: Balancing the Divergences for Online Knowledge Distillation ( http://arxiv.org/abs/2212.12965v1 )

ライセンス: Link先を確認
Ibtihel Amara, Nazanin Sepahvand, Brett H. Meyer, Warren J. Gross and James J. Clark(参考訳) 知識蒸留(KD)は、より小さな低容量のモデルに大容量のネットワークを圧縮する効果により、エッジデバイスに対するモデル圧縮の分野で大きな注目を集めている。 教師と生徒が共同で学習するオンライン蒸留も、ネットワークのパフォーマンスを向上させる能力により、大きな関心を集めている。 Kullback-Leibler (KL) は、教師と生徒の適切な知識伝達を保証する。 しかしながら、ほとんどのオンラインKD技術は、ネットワーク容量ギャップの下でボトルネックを生じさせる。 協調的かつ同時に訓練することにより、KL距離のモデルが教師と生徒の分布を適切に最小化できなくなる。 正確性に加えて、重要なエッジデバイスアプリケーションは、よく校正されたコンパクトネットワークを必要とする。 信頼度校正は、信頼できる予測を得るための賢明な方法を提供する。 BD-KD: オンライン知識蒸留のための分岐のバランスをとることを提案する。 本研究では,教師ネットワークの学習過程に制限を加えることなく,学習戦略の焦点をコンパクトな学生ネットワークに適応的にシフトすることを示す。 本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。 CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet など,様々なネットワークアーキテクチャを用いた広範な実験を行った。 本稿では,最先端のオンラインおよびオフラインkd技術との比較とアブレーションを通して,本手法の有効性を示す。

Knowledge distillation (KD) has gained a lot of attention in the field of model compression for edge devices thanks to its effectiveness in compressing large powerful networks into smaller lower-capacity models. Online distillation, in which both the teacher and the student are learning collaboratively, has also gained much interest due to its ability to improve on the performance of the networks involved. The Kullback-Leibler (KL) divergence ensures the proper knowledge transfer between the teacher and student. However, most online KD techniques present some bottlenecks under the network capacity gap. By cooperatively and simultaneously training, the models the KL distance becomes incapable of properly minimizing the teacher's and student's distributions. Alongside accuracy, critical edge device applications are in need of well-calibrated compact networks. Confidence calibration provides a sensible way of getting trustworthy predictions. We propose BD-KD: Balancing of Divergences for online Knowledge Distillation. We show that adaptively balancing between the reverse and forward divergences shifts the focus of the training strategy to the compact student network without limiting the teacher network's learning process. We demonstrate that, by performing this balancing design at the level of the student distillation loss, we improve upon both performance accuracy and calibration of the compact student network. We conducted extensive experiments using a variety of network architectures and show improvements on multiple datasets including CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet. We illustrate the effectiveness of our approach through comprehensive comparisons and ablations with current state-of-the-art online and offline KD techniques.
翻訳日:2022-12-27 14:43:24 公開日:2022-12-25
# TriPINet:画像操作ローカライゼーションのための3部統合ネットワーク

TriPINet: Tripartite Progressive Integration Network for Image Manipulation Localization ( http://arxiv.org/abs/2212.12841v1 )

ライセンス: Link先を確認
Wei-Yun Liang, Jing Xu, and Xiao Jin(参考訳) 画像操作のローカライゼーションは、テスト画像全体から偽領域を識別することを目的としている。 この課題には多くの優れた先行技術が提案されているが、さらに研究すべき課題は2つある。 1) 様々な種類の機能を偽造手掛かりと融合させる方法 2)マルチステージ機能を段階的に統合してローカライズ性能を向上させる方法。 本稿では,エンド・ツー・エンドの画像操作ローカライズのための3成分プログレッシブ統合ネットワーク(tripinet)を提案する。 まず,rgb入力画像などの視覚知覚情報と,法医学的特徴学習のための周波数・雑音追跡などの視覚不可視特徴の両方を抽出する。 第2に,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発する。 第3に,マルチスケール機能をデコーダに適切に組み込むことにより,ローカライズ性能を向上させるために,プログレッシブ統合swish-and-excitation(pi-se)モジュール群を設計する。 本手法と最先端画像鑑定法との比較実験を行った。 提案したTriPINetは、いくつかのベンチマークデータセットで競合する結果を得る。

Image manipulation localization aims at distinguishing forged regions from the whole test image. Although many outstanding prior arts have been proposed for this task, there are still two issues that need to be further studied: 1) how to fuse diverse types of features with forgery clues; 2) how to progressively integrate multistage features for better localization performance. In this paper, we propose a tripartite progressive integration network (TriPINet) for end-to-end image manipulation localization. First, we extract both visual perception information, e.g., RGB input images, and visual imperceptible features, e.g., frequency and noise traces for forensic feature learning. Second, we develop a guided cross-modality dual-attention (gCMDA) module to fuse different types of forged clues. Third, we design a set of progressive integration squeeze-and-excitation (PI-SE) modules to improve localization performance by appropriately incorporating multiscale features in the decoder. Extensive experiments are conducted to compare our method with state-of-the-art image forensics approaches. The proposed TriPINet obtains competitive results on several benchmark datasets.
翻訳日:2022-12-27 14:32:42 公開日:2022-12-25
# 小麦フロスト検出のための高コスト学習

Deep Cost-sensitive Learning for Wheat Frost Detection ( http://arxiv.org/abs/2212.12856v1 )

ライセンス: Link先を確認
Shujian Cao, Lin Cui, Haipeng Liu(参考訳) 凍害は小麦の収量減少につながる主要な要因の1つである。 したがって、小麦のフロストの検出を精度良く効率的に行うことは、経済損失を減らすために対応する措置を講じることに有益である。 そこで本論文では, 温熱, 小麦収量, および高スペクトル情報から得られたデータを収集し, コムギフロストの温度, 収量, および高スペクトル情報を収集することにより, コムギフロストのデータセットを作成する。 しかし、データの不均衡、すなわち、健康なサンプルの数は、凍害のサンプル数よりもはるかに高いため、ディープラーニングアルゴリズムは、健康なサンプルに対して偏りのある予測を行う傾向にあり、その結果、健康なサンプルの過剰なモデル化が引き起こされる。 そこで本研究では,1次元畳み込みニューラルネットワークを基本枠組みとし,コストに敏感な学習を固定因子と調整因子を組み込んだ深層コスト感応学習を損失関数に組み込んでネットワークを訓練する手法を提案する。 一方、評価指標として精度とスコアが使用される。 実験の結果, 検出精度は0.943, スコア0.623に達し, 総合的精度が確保されるだけでなく, 試料の検出率も効果的に向上することがわかった。

Frost damage is one of the main factors leading to wheat yield reduction. Therefore, the detection of wheat frost accurately and efficiently is beneficial for growers to take corresponding measures in time to reduce economic loss. To detect the wheat frost, in this paper we create a hyperspectral wheat frost data set by collecting the data characterized by temperature, wheat yield, and hyperspectral information provided by the handheld hyperspectral spectrometer. However, due to the imbalance of data, that is, the number of healthy samples is much higher than the number of frost damage samples, a deep learning algorithm tends to predict biasedly towards the healthy samples resulting in model overfitting of the healthy samples. Therefore, we propose a method based on deep cost-sensitive learning, which uses a one-dimensional convolutional neural network as the basic framework and incorporates cost-sensitive learning with fixed factors and adjustment factors into the loss function to train the network. Meanwhile, the accuracy and score are used as evaluation metrics. Experimental results show that the detection accuracy and the score reached 0.943 and 0.623 respectively, this demonstration shows that this method not only ensures the overall accuracy but also effectively improves the detection rate of frost samples.
翻訳日:2022-12-27 14:32:24 公開日:2022-12-25
# FMM-Net:高速多重極法に基づくニューラルネットワークアーキテクチャ

FMM-Net: neural network architecture based on the Fast Multipole Method ( http://arxiv.org/abs/2212.12899v1 )

ライセンス: Link先を確認
Daria Sushnikova, Pavel Kharyuk, Ivan Oseledets(参考訳) 本稿では,H2行列に基づくニューラルネットワークアーキテクチャを提案する。 H2 にインスパイアされたアーキテクチャを持つネットワークはすでに存在しており、H2 行列のスパーシティテンプレートを考慮したメモリコストの削減と性能向上を目的としている。 既知のh2ベースのニューラルネットワークと数値的に比較すると、我々のアーキテクチャはパフォーマンス、メモリ、スケーラビリティの点で有益であることがわかった。

In this paper, we propose a new neural network architecture based on the H2 matrix. Even though networks with H2-inspired architecture already exist, and our approach is designed to reduce memory costs and improve performance by taking into account the sparsity template of the H2 matrix. In numerical comparison with alternative neural networks, including the known H2-based ones, our architecture showed itself as beneficial in terms of performance, memory, and scalability.
翻訳日:2022-12-27 14:07:14 公開日:2022-12-25
# エッジ予測のためのグラフニューラルネットワークのエッジ利用

Refined Edge Usage of Graph Neural Networks for Edge Prediction ( http://arxiv.org/abs/2212.12970v1 )

ライセンス: Link先を確認
Jiarui Jin, Yangkun Wang, Weinan Zhang, Quan Gan, Xiang Song, Yong Yu, Zheng Zhang, David Wipf(参考訳) もともとノード分類のために提案されたグラフニューラルネットワーク(GNN)も、エッジ予測(リンク予測)に関する最近の多くの研究を動機付けている。 しかし、既存の手法では、しばしば見過ごされた2つのタスクの区別に関する精巧な設計が欠如している。 (i)エッジは、ノード分類タスクにおけるトポロジのみを構成するが、エッジ予測タスクにおけるトポロジと監督(ラベル)の両方として使用できる。 (2)ノード分類は各ノードに対して予測を行い、エッジ予測は各ノードのペアによって決定される。 そこで我々はエッジ対応メッセージパスIng neuRal nEtworks (EMPIRE) という新しいエッジ予測パラダイムを提案する。 具体的には、まず、各エッジをトポロジーまたは監督(トポロジーエッジまたは監督エッジと呼ばれる)としてのみ使用する各エッジの使用を規定するエッジ分割技術を導入する。 次に、(トポロジーエッジを介して)ターゲットノードを認識しているソースノードへのメッセージを生成する新しいメッセージパッシングメカニズムを開発する。 監視エッジで接続されたペアと接続されていないペアの差を強調するために、さらにメッセージを重み付けして、その差を反映できる相対的なペアを強調します。 さらに, 監視インスタンスの'硬'負のインスタンスを効率的にサンプリングし, 性能を著しく向上する新規なノードペアサンプリング手法を設計する。 実験の結果,複数の均質グラフデータセットにおけるエッジ予測タスクに関して,提案手法が既存の最先端モデルを大幅に上回ることができることを確認した。

Graph Neural Networks (GNNs), originally proposed for node classification, have also motivated many recent works on edge prediction (a.k.a., link prediction). However, existing methods lack elaborate design regarding the distinctions between two tasks that have been frequently overlooked: (i) edges only constitute the topology in the node classification task but can be used as both the topology and the supervisions (i.e., labels) in the edge prediction task; (ii) the node classification makes prediction over each individual node, while the edge prediction is determinated by each pair of nodes. To this end, we propose a novel edge prediction paradigm named Edge-aware Message PassIng neuRal nEtworks (EMPIRE). Concretely, we first introduce an edge splitting technique to specify use of each edge where each edge is solely used as either the topology or the supervision (named as topology edge or supervision edge). We then develop a new message passing mechanism that generates the messages to source nodes (through topology edges) being aware of target nodes (through supervision edges). In order to emphasize the differences between pairs connected by supervision edges and pairs unconnected, we further weight the messages to highlight the relative ones that can reflect the differences. In addition, we design a novel negative node-pair sampling trick that efficiently samples 'hard' negative instances in the supervision instances, and can significantly improve the performance. Experimental results verify that the proposed method can significantly outperform existing state-of-the-art models regarding the edge prediction task on multiple homogeneous and heterogeneous graph datasets.
翻訳日:2022-12-27 14:07:07 公開日:2022-12-25
# 表面欠陥検査のための軽量再構成ネットワーク

A Lightweight Reconstruction Network for Surface Defect Inspection ( http://arxiv.org/abs/2212.12878v1 )

ライセンス: Link先を確認
Chao Hu, Jian Yao, Weijie Wu, Weibin Qiu and Liqiang Zhu(参考訳) 現在、ほとんどの深層学習法は、工業製品欠陥サンプルの不足と特徴の顕著な相違を解決できない。 本稿では,再構成ネットワークに基づく非教師付き欠陥検出アルゴリズムを提案する。 ネットワークは画像再構成と表面欠陥領域検出の2つの部分を含む。 再構成ネットワークは軽量な構造を持つ完全畳み込みオートエンコーダによって設計されている。 復元ネットワークを欠陥のない再構成画像として生成できるように、トレーニングに使用するのはごく少数の正規サンプルのみである。 再構成ネットワークの損失関数として構造損失と$\mathit{L}1$損失を組み合わせた関数を提案する。 さらに、この欠陥の可能な領域として再構成画像と検査対象画像の残欠が使用され、従来の画像操作で断層の位置が分かる。 再構成ネットワークの非教師付き欠陥検出アルゴリズムは、複数の欠陥画像サンプルセットに使用される。 他の類似アルゴリズムと比較すると、再構成されたネットワークの教師なし欠陥検出アルゴリズムは強い堅牢性と正確性を示す。

Currently, most deep learning methods cannot solve the problem of scarcity of industrial product defect samples and significant differences in characteristics. This paper proposes an unsupervised defect detection algorithm based on a reconstruction network, which is realized using only a large number of easily obtained defect-free sample data. The network includes two parts: image reconstruction and surface defect area detection. The reconstruction network is designed through a fully convolutional autoencoder with a lightweight structure. Only a small number of normal samples are used for training so that the reconstruction network can be A defect-free reconstructed image is generated. A function combining structural loss and $\mathit{L}1$ loss is proposed as the loss function of the reconstruction network to solve the problem of poor detection of irregular texture surface defects. Further, the residual of the reconstructed image and the image to be tested is used as the possible region of the defect, and conventional image operations can realize the location of the fault. The unsupervised defect detection algorithm of the proposed reconstruction network is used on multiple defect image sample sets. Compared with other similar algorithms, the results show that the unsupervised defect detection algorithm of the reconstructed network has strong robustness and accuracy.
翻訳日:2022-12-27 13:58:14 公開日:2022-12-25
# 安全のためのスマートビデオ監視における倫理・プライバシー・規制の理解

Understanding Ethics, Privacy, and Regulations in Smart Video Surveillance for Public Safety ( http://arxiv.org/abs/2212.12936v1 )

ライセンス: Link先を確認
Babak Rahimi Ardabili, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Christopher Neff, Arun Ravindran, Hamed Tabkhi(参考訳) 近年、スマートビデオ監視(SVS)システムは、現在の受動的監視システムに代わるものとして、学者や開発者の間で注目を集めている。 これらのシステムは、警察と監視システムをより効率的にし、公共の安全を改善するために使用される。 しかし、人々の日常活動を監視するシステムの性質は異なる倫理的課題をもたらす。 SVSを実装する際のプライバシー問題には、さまざまなアプローチがある。 本稿では,SVSにおける倫理的・プライバシー的課題を考慮したデザインの役割に注目した。 プライバシー保護のベストプラクティスを概観する4つのポリシー保護規則をレビューし、倫理的およびプライバシー上の懸念は、アルゴリズム、システム、モデル、データという4つのレンズによって対処できると主張している。 そこで本研究では,提案システムについて述べるとともに,社会に安全を提供するプライバシ持続性システムを設計するためのベースラインを構築できることを示す。 我々は,物体検出,単一カメラと複数カメラの再識別,動作認識,異常検出など,いくつかの人工知能アルゴリズムを用いて,基本的な機能システムを構築した。 エンドユーザにアウトプットを提供するために、スマートフォンアプリケーションを実装するためにクラウドネイティブサービスも使用しています。

Recently, Smart Video Surveillance (SVS) systems have been receiving more attention among scholars and developers as a substitute for the current passive surveillance systems. These systems are used to make the policing and monitoring systems more efficient and improve public safety. However, the nature of these systems in monitoring the public's daily activities brings different ethical challenges. There are different approaches for addressing privacy issues in implementing the SVS. In this paper, we are focusing on the role of design considering ethical and privacy challenges in SVS. Reviewing four policy protection regulations that generate an overview of best practices for privacy protection, we argue that ethical and privacy concerns could be addressed through four lenses: algorithm, system, model, and data. As an case study, we describe our proposed system and illustrate how our system can create a baseline for designing a privacy perseverance system to deliver safety to society. We used several Artificial Intelligence algorithms, such as object detection, single and multi camera re-identification, action recognition, and anomaly detection, to provide a basic functional system. We also use cloud-native services to implement a smartphone application in order to deliver the outputs to the end users.
翻訳日:2022-12-27 13:57:13 公開日:2022-12-25
# 新しい一般化グループスパースエンベロープ正規化を用いたkレベルスパースニューラルネットワークの学習

Learning k-Level Sparse Neural Networks Using a New Generalized Group Sparse Envelope Regularization ( http://arxiv.org/abs/2212.12921v1 )

ライセンス: Link先を確認
Yehonathan Refael and Iftach Arbel and Wasim Huleihel(参考訳) 本研究では、正規化器として使われるスパースエンベロープ関数(SEF)の新たな一般化を用いて、トレーニング中に非構造的および構造的スパースニューラルネットワークの両方を学習する効率的な方法を提案する。 GSEFはニューロン群セレクタとして機能し、構造化プルーニングを誘導する。 本手法はディープニューラルネットワーク(DNN)のハードウェアフレンドリーな構造空間を受信し,DNNの評価を効率的に高速化する。 この方法は、フィルタ、チャネル、フィルタ形状、層深さ、単一のパラメータ(非構造化)など、任意のハードウェアがグループの定義を決定できるという意味で柔軟である。 GSEFの特性により,提案手法は,ネットワーク精度の劣化を抑えつつ,トレーニング収束時に達成される事前定義された空間レベルを実現するための最初の方法である。 GSEFの正確な値を近似演算子と共に計算する効率的な手法を提案し、最悪の場合の複雑性は$O(n)$で、$n$はグループ変数の総数である。 さらに,ニューラルネット損失とgsefの和の非凸最小化というモデル学習のための近次勾配に基づく最適化手法を提案する。 最後に,提案手法の完成率,精度,推論遅延の観点から実験を行い,提案手法の有効性を実証する。

We propose an efficient method to learn both unstructured and structured sparse neural networks during training, using a novel generalization of the sparse envelope function (SEF) used as a regularizer, termed {\itshape{group sparse envelope function}} (GSEF). The GSEF acts as a neuron group selector, which we leverage to induce structured pruning. Our method receives a hardware-friendly structured sparsity of a deep neural network (DNN) to efficiently accelerate the DNN's evaluation. This method is flexible in the sense that it allows any hardware to dictate the definition of a group, such as a filter, channel, filter shape, layer depth, a single parameter (unstructured), etc. By the nature of the GSEF, the proposed method is the first to make possible a pre-define sparsity level that is being achieved at the training convergence, while maintaining negligible network accuracy degradation. We propose an efficient method to calculate the exact value of the GSEF along with its proximal operator, in a worst-case complexity of $O(n)$, where $n$ is the total number of groups variables. In addition, we propose a proximal-gradient-based optimization method to train the model, that is, the non-convex minimization of the sum of the neural network loss and the GSEF. Finally, we conduct an experiment and illustrate the efficiency of our proposed technique in terms of the completion ratio, accuracy, and inference latency.
翻訳日:2022-12-27 13:47:37 公開日:2022-12-25
# スパイキングニューラルネットワークを用いた座位姿勢認識

Sitting Posture Recognition Using a Spiking Neural Network ( http://arxiv.org/abs/2212.12908v1 )

ライセンス: Link先を確認
Jianquan Wang, Basim Hafidh, Haiwei Dong, and Abdulmotaleb El Saddik(参考訳) 市民生活の質を高めるため,座位行動を認識するためのスマートチェアシステムを設計した。 本システムは、設計したセンサから表面圧力データを受信し、適切な座位姿勢に導くためのフィードバックを提供する。 液体状態機械とロジスティック回帰分類器を用いて15の姿勢を分類するスパイキングニューラルネットワークを構築した。 スパイクニューロンの圧力データを読み取るために,地図のようなデータをコサインランクの空間データにエンコードするアルゴリズムを設計した。 被験者19名による座位姿勢15名による実験の結果,SNNの予測精度は88.52%であった。

To increase the quality of citizens' lives, we designed a personalized smart chair system to recognize sitting behaviors. The system can receive surface pressure data from the designed sensor and provide feedback for guiding the user towards proper sitting postures. We used a liquid state machine and a logistic regression classifier to construct a spiking neural network for classifying 15 sitting postures. To allow this system to read our pressure data into the spiking neurons, we designed an algorithm to encode map-like data into cosine-rank sparsity data. The experimental results consisting of 15 sitting postures from 19 participants show that the prediction precision of our SNN is 88.52%.
翻訳日:2022-12-27 13:42:07 公開日:2022-12-25
# スパイク符号化ネットワークを用いた閉形式制御

Closed-form control with spike coding networks ( http://arxiv.org/abs/2212.12887v1 )

ライセンス: Link先を確認
Filip S. Slijkhuis, Sander W. Keemink, Pablo Lanillos(参考訳) スパイクニューラルネットワーク(snn)を用いた効率的でロバストな制御は、まだ未解決の問題である。 生物学的エージェントの振る舞いは、ロバストかつ効率的な制御を提供する、スパースおよび不規則なスパイクパターンによって生成されるが、制御に使用されるほとんどの人工スパイクニューラルネットワークのアクティビティパターンは、密度が高く、規則的である。 さらに、既存のほとんどの制御ソリューションでは、ネットワークトレーニングや最適化が必要であり、完全に識別されたシステムでも、オンチップの低消費電力ソリューションの実装を複雑にします。 スパイクコーディングネットワーク(scns)の神経科学理論は、再帰的なスパイクニューラルネットワークに動的システムを実装するための、完全に分析的なソリューションを提供する。 ここでは、閉形式最適推定と制御を取り入れてSCN理論を拡張する。 結果として得られるネットワークは、線形四角形-ガウス型コントローラのスパイク等価として機能する。 入力, システムノイズ, システム障害, 神経サイレンシングなど, 様々な摂動に直面して, 模擬スプリング・マス・ダンパーおよびカートポールシステムの強烈なスパイク制御を実証した。 われわれのアプローチは学習や最適化を必要としないため、生物学的に現実的な活動を伴う高速で効率的なタスク固有スパイクコントローラをデプロイする機会を提供する。

Efficient and robust control using spiking neural networks (SNNs) is still an open problem. Whilst behaviour of biological agents is produced through sparse and irregular spiking patterns, which provide both robust and efficient control, the activity patterns in most artificial spiking neural networks used for control are dense and regular -- resulting in potentially less efficient codes. Additionally, for most existing control solutions network training or optimization is necessary, even for fully identified systems, complicating their implementation in on-chip low-power solutions. The neuroscience theory of Spike Coding Networks (SCNs) offers a fully analytical solution for implementing dynamical systems in recurrent spiking neural networks -- while maintaining irregular, sparse, and robust spiking activity -- but it's not clear how to directly apply it to control problems. Here, we extend SCN theory by incorporating closed-form optimal estimation and control. The resulting networks work as a spiking equivalent of a linear-quadratic-Gaussian controller. We demonstrate robust spiking control of simulated spring-mass-damper and cart-pole systems, in the face of several perturbations, including input- and system-noise, system disturbances, and neural silencing. As our approach does not need learning or optimization, it offers opportunities for deploying fast and efficient task-specific on-chip spiking controllers with biologically realistic activity.
翻訳日:2022-12-27 13:41:55 公開日:2022-12-25
# GAE-ISumm: 教師なしグラフに基づくインドの言語要約

GAE-ISumm: Unsupervised Graph-Based Summarization of Indian Languages ( http://arxiv.org/abs/2212.12937v1 )

ライセンス: Link先を確認
Lakshmi Sireesha Vakada, Anudeep Ch, Mounika Marreddy, Subba Reddy Oota, Radhika Mamidi(参考訳) 文書要約は、テキスト文書の正確かつ一貫性のある要約を作成することを目的としている。 多くのディープラーニング要約モデルは、主に英語向けに開発されており、大きなトレーニングコーパスと効率的な事前学習言語モデルとツールを必要とすることが多い。 しかし、低リソースインド言語のための英語の要約モデルは、多種多様な形態的変化、構文、意味的差異によって制限されることが多い。 本稿では,テキスト文書から要約を抽出する教師なしのIndic summarizationモデルであるGAE-ISummを提案する。 特に,提案モデルであるGAE-ISummはグラフオートエンコーダ(GAE)を用いてテキスト表現と文書要約を共同で学習する。 また,手動で注釈付けしたTelugu summarization dataset TELSUMを提供し,GAE-ISummモデルを用いた実験を行った。 さらに,インド語におけるgae-isummの有効性を調べるために,最も広く入手可能なインド語要約データセットを実験した。 7言語でのGAE-ISumの実験では、以下の結果が得られた。 (i)すべてのデータセットの最先端結果よりも競争力があるか、あるいは優れている。 (ii)telsumのベンチマーク結果を報告し、 (3)提案モデルに位置情報とクラスタ情報を含めることで,要約の性能が向上した。

Document summarization aims to create a precise and coherent summary of a text document. Many deep learning summarization models are developed mainly for English, often requiring a large training corpus and efficient pre-trained language models and tools. However, English summarization models for low-resource Indian languages are often limited by rich morphological variation, syntax, and semantic differences. In this paper, we propose GAE-ISumm, an unsupervised Indic summarization model that extracts summaries from text documents. In particular, our proposed model, GAE-ISumm uses Graph Autoencoder (GAE) to learn text representations and a document summary jointly. We also provide a manually-annotated Telugu summarization dataset TELSUM, to experiment with our model GAE-ISumm. Further, we experiment with the most publicly available Indian language summarization datasets to investigate the effectiveness of GAE-ISumm on other Indian languages. Our experiments of GAE-ISumm in seven languages make the following observations: (i) it is competitive or better than state-of-the-art results on all datasets, (ii) it reports benchmark results on TELSUM, and (iii) the inclusion of positional and cluster information in the proposed model improved the performance of summaries.
翻訳日:2022-12-27 13:41:29 公開日:2022-12-25
# 歩行映像からの人間の健康指標予測

Human Health Indicator Prediction from Gait Video ( http://arxiv.org/abs/2212.12948v1 )

ライセンス: Link先を確認
Ziqing Li, Xuexin Yu, Xiaocong Lian, Yifeng Wang, Xiangyang Ji(参考訳) 身体質量指数(BMI)、年齢、身長、体重は人間の健康状態の重要な指標であり、医療、監視、再識別など、多くの実用的な目的に有用な情報を提供することができる。 既存のヘルスインジケータの予測方法は、主にフロントビューボディまたはフェイスイメージを使用する。 これらのインプットは日常生活では入手が困難であり、しばしばビューとポーズに関する厳格な要件を考慮して、モデルに対する堅牢性の欠如につながる。 本稿では,監視やホームモニタリングのシナリオに広く見られる健康指標を予測するために,歩行ビデオを利用する方法を提案する。 しかし,少量のオープンソースデータにより,ディープラーニングを用いた歩行映像からの健康指標の予測が妨げられた。 この問題に対処するために、ポーズ推定と健康指標予測タスクの類似性と関係を分析し、ポーズ推定タスクを事前学習することで、小さな健康指標データセットのディープラーニングを可能にするパラダイムを提案する。 さらに,健康指標予測タスクに適合するため,Global-Local Aware aNd Centrosymmetric Encoder (GLANCE)モジュールを提案する。 まず、プログレッシブ・畳み込みによって局所的および大域的特徴を抽出し、その後、中心対称の二重経路時計構造を2つの異なる方法で融合させる。 実験の結果,提案手法はMoVi上での健康指標の予測に有効であり,GLANCEモジュールは3DPWでのポーズ推定にも有用であることがわかった。

Body Mass Index (BMI), age, height and weight are important indicators of human health conditions, which can provide useful information for plenty of practical purposes, such as health care, monitoring and re-identification. Most existing methods of health indicator prediction mainly use front-view body or face images. These inputs are hard to be obtained in daily life and often lead to the lack of robustness for the models, considering their strict requirements on view and pose. In this paper, we propose to employ gait videos to predict health indicators, which are more prevalent in surveillance and home monitoring scenarios. However, the study of health indicator prediction from gait videos using deep learning was hindered due to the small amount of open-sourced data. To address this issue, we analyse the similarity and relationship between pose estimation and health indicator prediction tasks, and then propose a paradigm enabling deep learning for small health indicator datasets by pre-training on the pose estimation task. Furthermore, to better suit the health indicator prediction task, we bring forward Global-Local Aware aNd Centrosymmetric Encoder (GLANCE) module. It first extracts local and global features by progressive convolutions and then fuses multi-level features by a centrosymmetric double-path hourglass structure in two different ways. Experiments demonstrate that the proposed paradigm achieves state-of-the-art results for predicting health indicators on MoVi, and that the GLANCE module is also beneficial for pose estimation on 3DPW.
翻訳日:2022-12-27 13:40:26 公開日:2022-12-25
# Neural Shape Compiler: テキスト、ポイントクラウド、プログラム間の変換のための統一フレームワーク

Neural Shape Compiler: A Unified Framework for Transforming between Text, Point Cloud, and Program ( http://arxiv.org/abs/2212.12952v1 )

ライセンス: Link先を確認
Tiange Luo, Honglak Lee, Justin Johnson(参考訳) 3次元形状は、低レベルの幾何学から部分ベースの階層から言語への相補的な抽象化を持ち、異なるレベルの情報を伝える。 本稿では,一対の形状抽象化を変換する統一フレームワークを提案する。 $\textit{Text}$ $\Longleftrightarrow$ $\textit{Point Cloud}$ $\Longleftrightarrow$ $\textit{Program}$。 抽象変換を条件付き生成プロセスとしてモデル化するために,$\textbf{neural shape compiler}$を提案する。 3つの抽象型の3次元形状を統一された離散形状コードに変換し、提案された$\textit{ShapeCode Transformer}$を通じて各形状コードを他の抽象型のコードに変換する。 point cloudコードは、$\textit{point}$vqvaeによってクラスに依存しない方法で取得される。 Text2Shape、ShapeGlot、ABO、Genre、Program Syntheticのデータセットでは、Neural Shape Compilerは$\textit{Text}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Program}$, Point Cloud Completionタスクの長所を示している。 さらに、Neural Shape Compilerは、すべての異種データとタスクを共同でトレーニングすることの恩恵を受ける。

3D shapes have complementary abstractions from low-level geometry to part-based hierarchies to languages, which convey different levels of information. This paper presents a unified framework to translate between pairs of shape abstractions: $\textit{Text}$ $\Longleftrightarrow$ $\textit{Point Cloud}$ $\Longleftrightarrow$ $\textit{Program}$. We propose $\textbf{Neural Shape Compiler}$ to model the abstraction transformation as a conditional generation process. It converts 3D shapes of three abstract types into unified discrete shape code, transforms each shape code into code of other abstract types through the proposed $\textit{ShapeCode Transformer}$, and decodes them to output the target shape abstraction. Point Cloud code is obtained in a class-agnostic way by the proposed $\textit{Point}$VQVAE. On Text2Shape, ShapeGlot, ABO, Genre, and Program Synthetic datasets, Neural Shape Compiler shows strengths in $\textit{Text}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Text}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Program}$, and Point Cloud Completion tasks. Additionally, Neural Shape Compiler benefits from jointly training on all heterogeneous data and tasks.
翻訳日:2022-12-27 13:40:01 公開日:2022-12-25
# QuickNets: 初期のニューラルネットワークにおけるトレーニングの削減と過信防止

QuickNets: Saving Training and Preventing Overconfidence in Early-Exit Neural Architectures ( http://arxiv.org/abs/2212.12866v1 )

ライセンス: Link先を確認
Devdhar Patel and Hava Siegelmann(参考訳) ディープニューラルネットワークは長いトレーニングと処理時間を持つ。 ニューラルネットワークに追加された早期の出口により、ネットワークは時間に敏感なアプリケーションにおいて、ネットワークの中間活性化を使用して早期の予測を行うことができる。 しかし、早期出口はニューラルネットワークのトレーニング時間を増加させる。 ニューラルネットワークの高速トレーニングのための新しいカスケードトレーニングアルゴリズムであるQuickNetsを紹介する。 クイックネットは、各連続した層が、前の層で正しく分類できないサンプルでのみ訓練されるように、層ごとに訓練される。 我々はQuickNetsが学習を動的に分散し、標準的なバックプロパゲーションと比較してトレーニングコストと推論コストを低減できることを示した。 さらに,自信過剰な予測を識別し,その成功を実証することで早期出口を著しく改善するコミットメント層を導入する。

Deep neural networks have long training and processing times. Early exits added to neural networks allow the network to make early predictions using intermediate activations in the network in time-sensitive applications. However, early exits increase the training time of the neural networks. We introduce QuickNets: a novel cascaded training algorithm for faster training of neural networks. QuickNets are trained in a layer-wise manner such that each successive layer is only trained on samples that could not be correctly classified by the previous layers. We demonstrate that QuickNets can dynamically distribute learning and have a reduced training cost and inference cost compared to standard Backpropagation. Additionally, we introduce commitment layers that significantly improve the early exits by identifying for over-confident predictions and demonstrate its success.
翻訳日:2022-12-27 13:31:41 公開日:2022-12-25