このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220729となっている論文です。

PDF登録状況(公開日: 20220729)

TitleAuthorsAbstract論文公表日・翻訳日
# 典型的摂動理論: 条件, 正確性, およびメゾスコピックケースとの比較

Typical perturbation theory: conditions, accuracy and comparison with a mesoscopic case ( http://arxiv.org/abs/2207.05502v2 )

ライセンス: Link先を確認
Mats H. Lamann and Jochen Gemmer(参考訳) Refで導入された典型に基づく摂動理論。 [1]およびさらに改良されたRefs。 2, 3]は、いくつかのパラメータにのみ依存しながら、幅広いシナリオに適用できるように設計されているため、強力なツールを提供する。 著者らは理論の有効性を実証するために様々な例を挙げているが、その導出に使用される条件はしばしば徹底的に検証されない。 これは理論の強固さによって正当化される(分析的推論を伴わない)と論じられている。 本稿では、この摂動理論を3つのスピンベースモデルで検証する。 条件を満たすこと、予測された力学の精度、メソスコピックケースに対する結果の関連性について、以下の基準に焦点をあてる。

The perturbation theory based on typicality introduced in Ref. [1] and further refined in Refs. [2, 3] provides a powerful tool since it is intended to be applicable to a wide range of scenarios while relying only on a few parameters. Even though the authors present various examples to demonstrate the effectiveness of the theory, the conditions used in its derivation are often not thoroughly checked. It is argued that this is justified (without analytical reasoning) by the robustness of the theory. In the paper at hand, said perturbation theory is tested on three spin-based models. The following criteria are taken into focus: the fulfillment of the conditions, the accuracy of the predicted dynamics and the relevance of the results with respect to a mesoscopic case.
翻訳日:2023-02-05 09:36:46 公開日:2022-07-29
# 任意長と任意距離のMDSエンタングルメント支援量子符号

MDS Entanglement-Assisted Quantum Codes of Arbitrary Lengths and Arbitrary Distances ( http://arxiv.org/abs/2207.08093v3 )

ライセンス: Link先を確認
Hao Chen(参考訳) 量子誤差補正は、量子情報処理と計算において基本的に重要である。 量子誤り訂正符号はShorとSteaneの先駆的な論文から研究され、構築されている。 量子シングルトン境界に達する最適な(mdsと呼ばれる)$q$-qubitの量子コードは、非常に制限された長さ$n \leq q^2+1$で構築された。 エンタングルメント支援量子誤り訂正(eaqec)コードは、事前共有された最大エンタングル状態を用いて誤り訂正能力を向上させるために提案されている。 近年、非常に制限された長さで量子シングルトンをバウンドするMDS EAQEC符号の構成が数多く行われている。 本稿では、任意の$n$に対する MDS EAQEC $[[n, k, d, c]]_q$ を$n \leq q^2+1$ かつ任意の距離 $d\leq \frac{n+2}{2}$ とする。 任意の長さで$o(q^2)=n \leq q^2+1$ を満たす$n$ と、$o(q^2)=d \leq \frac{n+2}{2}$ を満たす任意の距離 $d$ に対して、少なくとも$o(q^2)$ mds eaqec $[[n, k, d, c]]_q$ は$c$パラメータが異なる。 以上の結果から,最大絡み合い状態の消費を伴わないMDS量子符号よりもMDS量子符号の方がはるかに多いことが示唆された。 これは物理的観点からすると自然である。 我々の手法は、一般化MDSツイストリードソロモン符号からMDS絡み込み支援量子符号を構築するためにも適用できる。

Quantum error correction is fundamentally important for quantum information processing and computation. Quantum error correction codes have been studied and constructed since the pioneering papers of Shor and Steane. Optimal (called MDS) $q$-qubit quantum codes attaining the quantum Singleton bound were constructed for very restricted lengths $n \leq q^2+1$. Entanglement-assisted quantum error correction (EAQEC) code was proposed to use the pre-shared maximally entangled state for the enhancing of error correction capability. Recently there have been a lot of constructions of MDS EAQEC codes attaining the quantum Singleton bound for very restricted lengths. In this paper we construct such MDS EAQEC $[[n, k, d, c]]_q$ codes for arbitrary $n$ satisfying $n \leq q^2+1$ and arbitrary distance $d\leq \frac{n+2}{2}$. It is proved that for any given length $n$ satisfying $O(q^2)=n \leq q^2+1$ and any given distance $d$ satisfying $ O(q^2)=d \leq \frac{n+2}{2}$, there exist at least $O(q^2)$ MDS EAQEC $[[n, k, d, c]]_q$ codes with different $c$ parameters. Our results show that there are much more MDS entanglement-assisted quantum codes than MDS quantum codes without consumption of the maximally entangled state. This is natural from the physical point of view. Our method can also be applied to construct MDS entanglement-assisted quantum codes from the generalized MDS twisted Reed-Solomon codes.
翻訳日:2023-02-04 18:19:17 公開日:2022-07-29
# 量子探索アルゴリズムの厳密な結果

Exact results on Quantum search algorithm ( http://arxiv.org/abs/2207.09762v2 )

ライセンス: Link先を確認
Saptarshi Roy Chowdhury and Swarupananda Pradhan(参考訳) 密度行列に2つの任意の位相を設定したGroverアルゴリズムを一般化する。 一般化されたグローバー作用素の任意の反復回数の後の成功確率を、初期量子レジスタに存在するコヒーレンスを捉えるために、密度行列の対角線外項に導入された2つの位相角({\alpha}, \{beta})とパラメータ {\xi} の関数として正確に解析式を与える。 li と li のアイデアを拡張し、位相マッチング条件 {\alpha} = -\{beta} = 0.35{\pi} を 2 つの反復と {\xi} = 1 で示せば、成功確率 >= 0.8 は、データベースの合計数状態に対するマークの比率である {\lambda} = 0.166 の下限に関する知識だけで達成できる。 最後に, この単純なモデルにおいて, 初期量子状態のコヒーレンスを小さくすることで, アルゴリズムの成功確率を定量化する。

We generalize Grover algorithm with two arbitrary phases in a density matrix set up. We give exact analytic expressions for the success probability after arbitrary number of iteration of the generalized Grover operator as a function of number of iterations, two phase angles ({\alpha}, \{beta}) and parameter {\xi} introduced in the off diagonal terms of the density matrix in a sense to capture the coherence present in the initial quantum register. We extend Li and Li's idea and show for the phase matching condition {\alpha} = -\{beta} = 0.35{\pi} with two iterations and {\xi} = 1, we can achieve success probability >= 0.8 only with a knowledge about the lower bound of {\lambda} = 0.166 where {\lambda} is the ratio of marked to total number states in the database. Finally we quantify success probability of the algorithm with decrease in coherence of the initial quantum state against modest noise in this simple model.
翻訳日:2023-02-04 08:11:53 公開日:2022-07-29
# フェルミオン系の量子シミュレーションのための並列化技術

Parallelization techniques for quantum simulation of fermionic systems ( http://arxiv.org/abs/2207.12470v2 )

ライセンス: Link先を確認
Jacob Bringewatt and Zohreh Davoudi(参考訳) フェルミオン作用素を量子ビット作用素にマッピングすることは、量子コンピュータ上でフェルミオン系をシミュレートするための重要なステップである。 このような写像の選択が量子プロセッサの量子ビット接続とどのように相互作用し、その結果のハミルトンシミュレーションアルゴリズムの並列化(あるいは障害)を可能にするかを検討する。 この問題は、フェルミオンを量子ビットに符号化する特定の選択と、フェルミオン相互作用を経路に符号化するグラフ上の経路着色問題にマッピングできることが示されている。 この問題の基本的なバージョンは弱い着色問題と呼ばれる。 マッピングの詳細な詳細を考慮すると、強い着色問題と呼ばれる問題が発生し、並列化性能が向上する。 弱色と強色の両方の並列化における改善の量を示すために、様々な図式解析および数値的な例を示す。 回路深さの最小化がアルゴリズムの実現性に必要となる、短期量子プロセッサの実装には特に重要である。

Mapping fermionic operators to qubit operators is an essential step for simulating fermionic systems on a quantum computer. We investigate how the choice of such a mapping interacts with the underlying qubit connectivity of the quantum processor to enable (or impede) parallelization of the resulting Hamiltonian-simulation algorithm. It is shown that this problem can be mapped to a path coloring problem on a graph constructed from the particular choice of encoding fermions onto qubits and the fermionic interactions onto paths. The basic version of this problem is called the weak coloring problem. Taking into account the fine-grained details of the mapping yields what is called the strong coloring problem, which leads to improved parallelization performance. A variety of illustrative analytical and numerical examples are presented to demonstrate the amount of improvement for both weak and strong coloring-based parallelizations. Our results are particularly important for implementation on near-term quantum processors where minimizing circuit depth is necessary for algorithmic feasibility.
翻訳日:2023-02-03 19:29:57 公開日:2022-07-29
# 量子センサを用いたプライベートネットワークパラメータ推定

Private network parameter estimation with quantum sensors ( http://arxiv.org/abs/2207.14450v1 )

ライセンス: Link先を確認
Nathan Shettell, Majid Hassani, Damian Markham(参考訳) 量子センサーのネットワークは、急成長する量子ネットワークの中心的な応用である。 このようなネットワークを使用する上で重要な問題は、特にネットワークの悪意のある参加者に対するセキュリティだ。 量子センサネットワーク上のパラメータの線形関数をセキュアに評価するプロトコルを導入し、すべてのパーティが関数値にのみアクセスでき、個々のパラメータにアクセスできないことを保証した。 これにより、クロックのネットワークをセキュアにし、量子センサーのネットワークに対するセキュアなマルチパーティコンピューティングのより一般的な応用への扉を開くことができる。

Networks of quantum sensors are a central application of burgeoning quantum networks. A key question for the use of such networks will be their security, particularly against malicious participants of the network. We introduce a protocol to securely evaluate linear functions of parameters over a network of quantum sensors, ensuring that all parties only have access to the function value, and no access to the individual parameters. This has application to secure networks of clocks and opens the door to more general applications of secure multiparty computing to networks of quantum sensors.
翻訳日:2023-02-03 02:29:04 公開日:2022-07-29
# 量子アルゴリズムの成功率を正確に推定する量子脆弱性解析

Quantum Vulnerability Analysis to Accurate Estimate the Quantum Algorithm Success Rate ( http://arxiv.org/abs/2207.14446v1 )

ライセンス: Link先を確認
Fang Qi, Kaitlin N. Smith, Travis LeCompte, Nianfeng Tzeng, Xu Yuan, Frederic T. Chong, and Lu Peng(参考訳) 量子技術はまだ初期段階だが、超伝導回路は、技術の量子状態の計算能力を推し進めるために大きな進歩を遂げている。 限られた誤差特性法と時間的に異なるエラー挙動のため、量子演算は成功率の粗いパーセントにしか量子化できないが、現在のノイズの多い中間スケール量子(NISQ)時代の実際の量子実行の正確な記述は得られない。 最先端の成功率推定手法は、重大な予測エラーまたは受け入れ難い計算複雑性に悩まされる。 したがって,プログラムのサイズが大きくなるにつれて,安定して推定できる高速かつ正確な量子プログラム推定法が緊急に必要となる。 古典的アーキテクチャ脆弱性因子 (AVF) の研究に触発され, 数値脆弱性因子 (QVF) を設計し, SR予測を行うために, 累積量子脆弱性(CQV) を生成するような誤りの特定を行う。 3つの27量子ビットと1つの65量子ビット量子マシン上のよく知られたベンチマークで評価することにより、CQVは平均6倍の相対予測誤差を達成し、20倍のケースで実際のSRレートが0.1%を超えるベンチマークに対して、最先端の予測技術であるESPを上回っている。

Quantum technology is still in its infancy, but superconducting circuits have made great progress toward pushing forward the computing power of the quantum state of the art. Due to limited error characterization methods and temporally varying error behavior, quantum operations can only be quantified to a rough percentage of successful execution, which fails to provide an accurate description of real quantum execution in the current noisy intermediate-scale quantum (NISQ) era. State-of-the-art success rate estimation methods either suffer from significant prediction errors or unacceptable computation complexity. Therefore, there is an urgent need for a fast and accurate quantum program estimation method that provides stable estimation with the growth of the program size. Inspired by the classical architectural vulnerability factor (AVF) study, we propose and design Quantum Vulnerability Factor (QVF) to locate any manifested error which generates Cumulative Quantum Vulnerability (CQV) to perform SR prediction. By evaluating it with well-known benchmarks on three 27-qubit and one 65-qubit quantum machines, CQV outperforms the state-of-the-art prediction technique ESP by achieving on average 6 times less relative prediction error, with best cases at 20 times, for benchmarks with a real SR rate above 0.1%.
翻訳日:2023-02-03 02:28:50 公開日:2022-07-29
# 非線形$\delta$-型質量プロファイル系の量子可解性:カップリング定数量子化

Quantum solvability of a nonlinear $\delta$-type mass profile system: Coupling constant quantization ( http://arxiv.org/abs/2207.14543v1 )

ライセンス: Link先を確認
V. Chithiika Ruby, V. K. Chandrasekar and M. Lakshmanan(参考訳) 本稿では,古典的レベルの時間的局所解を許容する非線形系の量子力学について論じる。 我々は、質量項の順序パラメータを任意のものとして扱う、一般的な順序的位置依存質量ハミルトニアンを考える。 ここでの質量関数は原点において特異である。 量子系は有界解を許容するが、システムの結合パラメータは量子化され、半古典的研究でも確認されている。

In this paper, we discuss the quantum dynamics of a nonlinear system that admits temporally localized solutions at the classical level. We consider a general ordered position-dependent mass Hamiltonian in which the ordering parameters of the mass term are treated as arbitrary. The mass function here is singular at the origin. We observe that the quantum system admits bounded solutions but importantly the coupling parameter of the system gets quantized which has also been confirmed by the semiclassical study as well.
翻訳日:2023-02-03 02:26:24 公開日:2022-07-29
# 高効率高速光子数分解型並列超伝導ナノワイヤ単一光子検出器

High-efficiency and fast photon-number resolving parallel superconducting nanowire single-photon detector ( http://arxiv.org/abs/2207.14538v1 )

ライセンス: Link先を確認
Lorenzo Stasi, Ga\"etan Gras, Riad Berrazouane, Matthieu Perrenoud, Hugo Zbinden, F\'elix Bussi\`eres(参考訳) 光子数分解(PNR)単光子検出器は、フォトニック量子コンピューティング、非古典的光源特性化、量子イメージングなど、多くの分野で実現可能な技術である。 本稿では,並列超伝導ナノワイヤ単一光子検出器(p-snspd)アーキテクチャを用いた高効率pnr検出器の実証を行った。 検出器の挙動はモデル化され、一定の数の入射光子から得られる可能性のある結果を予測するために使用される。 システム検出効率92.5%の4画素P-SNSPDに本モデルを適用した。 また、この検出器がコヒーレントな光源の光子数統計を再構成することを可能にし、単一検出器を用いて他の種類の光源の光子統計を特徴付ける方法を示す。

Photon-number resolving (PNR) single-photon detectors are an enabling technology in many areas such as photonic quantum computing, non-classical light source characterisation and quantum imaging. Here, we demonstrate high-efficiency PNR detectors using a parallel superconducting nanowire single-photon detector (P-SNSPD) architecture that does not suffer from crosstalk between the pixels and that is free of latching. The behavior of the detector is modelled and used to predict the possible outcomes given a certain number of incoming photons. We apply our model to a 4-pixel P-SNSPD with a system detection efficiency of 92.5%. We also demonstrate how this detector allows reconstructing the photon-number statistics of a coherent source of light, which paves the way towards the characterisation of the photon statistics of other types of light source using a single detector.
翻訳日:2023-02-03 02:26:17 公開日:2022-07-29
# QuCloud+: 2D/3D NISQ量子コンピュータ上でのシングル/マルチプログラミングのためのホロスティックなQubitマッピング方式

QuCloud+: A Holistic Qubit Mapping Scheme for Single/Multi-programming on 2D/3D NISQ Quantum Computers ( http://arxiv.org/abs/2207.14483v1 )

ライセンス: Link先を確認
Lei Liu, Xinglei Dou(参考訳) 量子コンピューティングの忠実度と量子コンピュータのリソース利用には、量子ビットマッピングが不可欠である。 しかし、既存のqubitマッピングスキーム(クロストーク、SWAPオーバーヘッド、多様なデバイストポロジなど)はいくつかの課題に対処し、Qubitリソースの未使用化、高いエラー率、計算結果の信頼性の低下につながる。 本稿では,これらの課題に対処可能な新しい量子ビットマッピング方式QuCloud+を提案する。 QuCloud+にはいくつかの新しいデザインがある。 1)QuCloud+は2D/3Dトポロジを持つ量子チップ上でのマルチプログラミング量子コンピューティングを実現する。 2) コンカレント量子プログラムの物理量子ビットをクロストーク対応コミュニティ検出技術で分割し,さらに量子ビットの次数に応じて量子ビットを割り当て,忠実度と資源利用率を向上させる。 (3) QuCloud+は、SWAPを高いクロストークエラーで回避し、プログラム間SWAPでSWAPオーバーヘッドを低減するX-SWAP機構を含む。 (4) QuCloud+は、ベストプラクティスのための推定忠実度に基づいて、同時量子プログラムのマッピングと実行をスケジュールする。 qucloud+は、様々なデバイス上でのマルチプログラミング作業を6.84%上回り、マッピング遷移時に40.9%のゲートを節約している。

Qubit mapping is essential to quantum computing's fidelity and quantum computers' resource utilization. Yet, the existing qubit mapping schemes meet some challenges (e.g., crosstalk, SWAP overheads, diverse device topologies, etc.), leading to qubit resource under-utilization, high error rate, and low fidelity in computing results. This paper presents QuCloud+, a new qubit mapping scheme capable of handling these challenges. QuCloud+ has several new designs. (1) QuCloud+ enables multi-programming quantum computing on quantum chips with 2D/3D topology. (2) It partitions physical qubits for concurrent quantum programs with the crosstalk-aware community detection technique and further allocates qubits according to qubit degree, improving fidelity and resource utilization. (3) QuCloud+ includes an X-SWAP mechanism that avoids SWAPs with high crosstalk errors and enables inter-program SWAPs to reduce the SWAP overheads. (4) QuCloud+ schedules concurrent quantum programs to be mapped and executed based on estimated fidelity for the best practice. QuCloud+ outperforms the previous multi-programming work on various devices by 6.84% on fidelity and saves 40.9% additional gates required during mapping transition.
翻訳日:2023-02-03 02:25:46 公開日:2022-07-29
# ドメイン特化量子アーキテクチャ最適化

Domain-Specific Quantum Architecture Optimization ( http://arxiv.org/abs/2207.14482v1 )

ライセンス: Link先を確認
Wan-Hsuan Lin, Bochen Tan, Murphy Yuezhen Niu, Jason Kimko, and Jason Cong(参考訳) 近年の量子コンピューティングの着実に進歩に伴い、量子プロセッサのスケールアップのロードマップは、ターゲットとする量子ビットアーキテクチャに大きく依存している。 これまでのところ、古典コンピューティングの初期と同様、これらのデザインは人間の専門家によって作られてきた。 しかし、これらの汎用アーキテクチャは、特に一般的な短期QCアプリケーションをターゲットにする場合、カスタマイズと最適化のための余地を残している。 古典コンピューティングにおいて、カスタマイズされたアーキテクチャは汎用的なアーキテクチャよりも性能とエネルギー効率が著しく向上している。 本稿では,量子アーキテクチャを最適化するためのフレームワーク,特に量子ビット接続のカスタマイズについて述べる。 1)アーキテクチャ最適化と最適コンパイラの統合による性能保証,(2)現実的なクロストークエラーモデルによる接続カスタマイズの影響評価,(3)量子近似最適化アルゴリズム(QAOA)や量子畳み込みニューラルネットワーク(QCNN)など,短期的関心のある現実的な回路に対するベンチマークなどを行う。 我々は,QAOA回路の重六角形アーキテクチャを最適化し,最大59%の忠実度向上を実現し,グリッドアーキテクチャを最大14%改善した。 QCNN回路では、アーキテクチャ最適化により重六角形アーキテクチャでは11%、グリッドアーキテクチャでは605%の忠実度が向上する。

With the steady progress in quantum computing over recent years, roadmaps for upscaling quantum processors have relied heavily on the targeted qubit architectures. So far, similarly to the early age of classical computing, these designs have been crafted by human experts. These general-purpose architectures, however, leave room for customization and optimization, especially when targeting popular near-term QC applications. In classical computing, customized architectures have demonstrated significant performance and energy efficiency gains over general-purpose counterparts. In this paper, we present a framework for optimizing quantum architectures, specifically through customizing qubit connectivity. It is the first work that (1) provides performance guarantees by integrating architecture optimization with an optimal compiler, (2) evaluates the impact of connectivity customization under a realistic crosstalk error model, and (3) benchmarks on realistic circuits of near-term interest, such as the quantum approximate optimization algorithm (QAOA) and quantum convolutional neural network (QCNN). We demonstrate up to 59% fidelity improvement in simulation by optimizing the heavy-hexagon architecture for QAOA circuits, and up to 14% improvement on the grid architecture. For the QCNN circuit, architecture optimization improves fidelity by 11% on the heavy-hexagon architecture and 605% on the grid architecture.
翻訳日:2023-02-03 02:25:22 公開日:2022-07-29
# コヒーレント共振伝送

Coherent resonant transmission ( http://arxiv.org/abs/2207.14453v1 )

ライセンス: Link先を確認
H. S. Xu, L. Jin(参考訳) 結合型共振器アレイにおける反射性コヒーレント光輸送は、時計回りモードと反時計回りモードとの共振器内結合の存在下で検討され、不要な後方散乱を誘導するのではなく、光の流れを調節する構成的役割を担っている。 共振子間カップリングと共振子間カップリングとの相互作用により、時計回り及び反時計回りモードからなる適切に重ね合わせられた注入のコヒーレント共振伝達(crt)が可能となる。 初期励起の重ね合わせ係数は共鳴伝達のモードキラリティを決定する。 CRTとCRTの時間反転過程を順次経験すると、注入波のモードキラリティーが共振送信後に反対に変化する完全モード変換が実現される。 コヒーレント光輸送に関する我々の知見は、集積光子、ナノフォトニクス、キラル光学などにおける光場の制御と操作に関する洞察を提供する。

The reflectionless coherent light transport in the coupled resonator array is investigated in the presence of intra-resonator intermodal coupling between the clockwise and counterclockwise modes, which plays a constructive role for modulating the light flow rather than inducing the unwanted backscattering. The interplay between the intra-resonator intermodal coupling and the inter-resonator couplings enables the coherent resonant transmission (CRT) of the properly superposed injection constituted by the clockwise and counterclockwise modes. The superposition coefficients of the initial excitation determine the mode chirality of the resonant transmission. Sequentially experiencing the time-reversal process of CRT and the CRT realizes the perfect mode conversion that the mode chirality of the injection wave switches into the opposite after resonant transmission. Our findings on the coherent light transport provide insights for the control and manipulation of light field in the integrated photonics, nanophotonics, chiral optics, and beyond.
翻訳日:2023-02-03 02:24:27 公開日:2022-07-29
# フェルミオントモグラフィーと学習

Fermionic tomography and learning ( http://arxiv.org/abs/2207.14787v1 )

ライセンス: Link先を確認
Bryan O'Gorman(参考訳) 古典的な影によるシャドウトモグラフィーは、量子状態の性質を推定するための最先端のアプローチである。 本稿では,このアプローチのインスタンス化について,フェルミオンガウス型とクリフォード型の両方のユニタリのアンサンブルに基づく単純化された組合せ解析を行う。 この解析を用いて,推定器の分散に対する補正式を導出する。 次に、(数値的な証拠によって)純粋なフェルミオンガウス状態と (|\mathbf 0\rangle\langle\psi|$ + h.c.) 形式の x$ のような作用素との忠実度を効率的に推定する方法を示す。 我々はまた、全く同じ量子チャネルを生成する測定基地のより小さなアンサンブルを構築し、コンパイルに役立つかもしれない。 これらのツールを用いて、$n$-electron, $m$-mode Slater determinant が$O(n^2 m^7 \log(m / \delta) / \epsilon^2)$ Slater determinant のサンプルに対して$\epsilon$ fidelity 内で学習可能であることを示す。

Shadow tomography via classical shadows is a state-of-the-art approach for estimating properties of a quantum state. We present a simplified, combinatorial analysis of a recently proposed instantiation of this approach based on the ensemble of unitaries that are both fermionic Gaussian and Clifford. Using this analysis, we derive a corrected expression for the variance of the estimator. We then show how this leads to efficient estimation protocols for the fidelity with a pure fermionic Gaussian state (provably) and for an $X$-like operator of the form ($|\mathbf 0\rangle\langle\psi|$ + h.c.) (via numerical evidence). We also construct much smaller ensembles of measurement bases that yield the exact same quantum channel, which may help with compilation. We use these tools to show that an $n$-electron, $m$-mode Slater determinant can be learned to within $\epsilon$ fidelity given $O(n^2 m^7 \log(m / \delta) / \epsilon^2)$ samples of the Slater determinant.
翻訳日:2023-02-03 02:17:01 公開日:2022-07-29
# 直線上の有向量子ウォークにおける輸送特性

Transport properties in directed Quantum Walks on the line ( http://arxiv.org/abs/2207.14771v1 )

ライセンス: Link先を確認
Rodrigo Chaves, Jaime Santos, Bruno Chagas(参考訳) 有向無限線上の有向連続時間量子ウォークを考慮した解析式をベッセル関数を用いて求め,これまでの結果を一般初期条件に拡張した。 確率分布の方程式を導出し、グラフの向きの位相係数を調整して、生存確率の正規化と拡張された減衰率の回復方法を示す。 その結果, 局所的でない初期条件の平均偏差と標準偏差は方向に依存しないことがわかった。

We obtained analytical expressions considering a directed continuous-time quantum walk on a directed infinite line using Bessel functions, expanding previous results in the literature, for a general initial condition. We derive the equation for the probability distribution, and show how to recover normal and enhanced decay rates for the survival probability by adjusting the phase factor of the direction of the graph. Our result shows that the mean and standard deviation for a specific non-local initial condition does not depend on the direction.
翻訳日:2023-02-03 02:16:42 公開日:2022-07-29
# ランダム化測定による高速量子回路切断

Fast quantum circuit cutting with randomized measurements ( http://arxiv.org/abs/2207.14734v1 )

ライセンス: Link先を確認
Angus Lowe, Matija Medvidovi\'c, Anthony Hayes, Lee J. O'Riordan, Thomas R. Bromley, Juan Miguel Arrazola, Nathan Killoran(参考訳) 本稿では,単一デバイス上で利用可能な物理量子ビット数を超えて,量子計算のサイズを拡大する手法を提案する。 これは、大きな回路の出力状態を別々のデバイス間で分離可能な状態として表現するために、無作為に測定・準備チャネルを挿入することで達成される。 この方法はランダム化された測定値を用い、サンプルのオーバーヘッドは$\widetilde{o}(4^k / \varepsilon ^2)$であり、ここで$\varepsilon $は計算の精度であり、$k$はより小さなサブ回路を得るために「カット」される平行線の数である。 また、任意の同等の手順に対して、情報理論的下界$\Omega(2^k / \varepsilon ^2)$を示す。 我々は, 量子近似最適化アルゴリズム (qaoa) における, 量子近似最適化アルゴリズム (quantum approximation optimization algorithm, qaoa) の回路が, 元の量子ビット数のごく一部で, 約$2^{o(p\kappa)} のオーバヘッドを持つ回路でシミュレート可能であることを示す。 本手法をqaoaに適用し,先行研究と比較して実用速度向上の数値的証明を得た。 最後に,回路切断法をクラスタグラフ上の大規模QAOA問題に適用する実現可能性について,30$-qubitシミュレータを用いて129$-qubit問題の変動エネルギーを評価し,62$-qubit最適化を行う。

We propose a new method to extend the size of a quantum computation beyond the number of physical qubits available on a single device. This is accomplished by randomly inserting measure-and-prepare channels to express the output state of a large circuit as a separable state across distinct devices. Our method employs randomized measurements, resulting in a sample overhead that is $\widetilde{O}(4^k / \varepsilon ^2)$, where $\varepsilon $ is the accuracy of the computation and $k$ the number of parallel wires that are "cut" to obtain smaller sub-circuits. We also show an information-theoretic lower bound of $\Omega(2^k / \varepsilon ^2)$ for any comparable procedure. We use our techniques to show that circuits in the Quantum Approximate Optimization Algorithm (QAOA) with $p$ entangling layers can be simulated by circuits on a fraction of the original number of qubits with an overhead that is roughly $2^{O(p\kappa)}$, where $\kappa$ is the size of a known balanced vertex separator of the graph which encodes the optimization problem. We obtain numerical evidence of practical speedups using our method applied to the QAOA, compared to prior work. Finally, we investigate the practical feasibility of applying the circuit cutting procedure to large-scale QAOA problems on clustered graphs by using a $30$-qubit simulator to evaluate the variational energy of a $129$-qubit problem as well as carry out a $62$-qubit optimization.
翻訳日:2023-02-03 02:16:25 公開日:2022-07-29
# 単一コストでのDMRG基底状態探索のための制御結合拡大

Controlled bond expansion for DMRG ground state search at single-site costs ( http://arxiv.org/abs/2207.14712v1 )

ライセンス: Link先を確認
Andreas Gleis, Jheng-Wei Li, Jan von Delft(参考訳) 対称性を利用したdmrg基底状態探索アルゴリズムは、エネルギーが低ければ対称性セクタの追加や変更によって仮想結合空間を拡大することができる。 従来のシングルサイトDMRGは結合拡大を許さないが、2サイトDMRGは高い計算コストで行う。 単一コストで2サイト毎の精度と収束性が得られる制御結合拡張(CBE)アルゴリズムを提案する。 行列積状態 $\Psi$ が変動空間を定義すると、CBE は H\Psi$ のかなりの重みを持つ直交空間の一部を特定し、これらのみを含む結合を拡張する。 CBE-DMRGは混合パラメータを使用しず、完全に変動する。

DMRG ground state search algorithms employing symmetries must be able to expand virtual bond spaces by adding or changing symmetry sectors if these lower the energy. Traditional single-site DMRG does not allow bond expansion; two-site DMRG does, but at much higher computational costs. We present a controlled bond expansion (CBE) algorithm that yields two-site accuracy and convergence per sweep, at single-site costs. Given a matrix product state $\Psi$ defining a variational space, CBE identifies parts of the orthogonal space carrying significant weight in $H\Psi$ and expands bonds to include only these. CBE--DMRG uses no mixing parameters and is fully variational.
翻訳日:2023-02-03 02:15:53 公開日:2022-07-29
# フォトニック結晶繊維の超可変量子周波数変換

Ultratunable quantum frequency conversion in photonic crystal fiber ( http://arxiv.org/abs/2207.14706v1 )

ライセンス: Link先を確認
K. A. G. Bonsma-Fisher, P. J. Bustard, C. Parry, T. A. Wright, D. G. England, B. J. Sussman, P. J. Mosley(参考訳) 波長帯域間の単一光子の量子周波数変換は、広く普及する量子ネットワークを実現する鍵となる。 超広帯域(1226〜1408nm)の群速度対称フォトニック結晶ファイバー (pcf) において、1551nm光子から任意の波長への量子周波数変換を行い、150個以上の独立周波数ビンをカバーした。 ターゲット波長は、単一のポンプレーザ波長のみをチューニングして制御される。 内部および全体の変換効率はそれぞれ12(1)%と1.4(2)%である。 1551 nm を 1300 nm に変換する場合、$g^{(2)}(0) = 0.25(6)$ を $g^{(2)}(0) = 0.034(8)$ の入力から変換した光に対して測る。 このPCFは、無数の量子ネットワークタスクに使用できると期待している。

Quantum frequency conversion of single photons between wavelength bands is a key enabler to realizing widespread quantum networks. We demonstrate the quantum frequency conversion of a heralded 1551 nm photon to any wavelength within an ultrabroad (1226 - 1408 nm) range in a group-velocity-symmetric photonic crystal fiber (PCF), covering over 150 independent frequency bins. The target wavelength is controlled by tuning only a single pump laser wavelength. We find internal, and total, conversion efficiencies of 12(1)% and 1.4(2)%, respectively. For the case of converting 1551 nm to 1300 nm we measure a heralded $g^{(2)}(0) = 0.25(6)$ for converted light from an input with $g^{(2)}(0) = 0.034(8)$. We expect that this PCF can be used for a myriad of quantum networking tasks.
翻訳日:2023-02-03 02:15:23 公開日:2022-07-29
# 対称性破れのプローブとしての絡み合い非対称性

Entanglement asymmetry as a probe of symmetry breaking ( http://arxiv.org/abs/2207.14693v1 )

ライセンス: Link先を確認
Filiberto Ares, Sara Murciano, Pasquale Calabrese(参考訳) 対称性と対称性の破れは、現代の量子物理学の2つの柱である。 それでも、対称性がどの程度壊れているかの定量化は、ほとんど注目を集めていない問題だ。 拡張量子系では、この問題は本質的に関心のサブシステムに結びついている。 そこで本研究では、多体量子系における絡み合いの理論から手法を借用し、絡み合い非対称性を導出する対称性破れのサブシステム測度を導入する。 典型例として,初期崩壊した大域的 u(1)$ 対称性を動的に復元するスピンチェーンの量子クエンチにおける絡み合い非対称性について検討する。 準粒子像を絡み合い発展に適用し、絡み合い非対称性の解析的決定を行う。 予想通り、より大きいものはサブシステムであり、より遅いのは修復であるが、反直観的な結果として、当初対称性が破壊され、より速く復元される、ある種の量子mpemba効果がある。

Symmetry and symmetry breaking are two pillars of modern quantum physics. Still, quantifying how much a symmetry is broken is an issue that has received little attention. In extended quantum systems, this problem is intrinsically bound to the subsystem of interest. Hence, in this work, we borrow methods from the theory of entanglement in many-body quantum systems to introduce a subsystem measure of symmetry breaking that we dub entanglement asymmetry. As a prototypical illustration, we study the entanglement asymmetry in a quantum quench of a spin chain in which an initially broken global $U(1)$ symmetry is restored dynamically. We adapt the quasiparticle picture for entanglement evolution to the analytic determination of the entanglement asymmetry. We find, expectedly, that larger is the subsystem, slower is the restoration, but also the counterintuitive result that more the symmetry is initially broken, faster it is restored, a sort of quantum Mpemba effect.
翻訳日:2023-02-03 02:15:09 公開日:2022-07-29
# 粒子-ホール対称系におけるスペクトル変動の普遍的遷移

Universal transition of spectral fluctuation in particle-hole symmetric system ( http://arxiv.org/abs/2207.14665v1 )

ライセンス: Link先を確認
Triparna Mondal and Shashi C. L. Srivastava(参考訳) ランダムマトリクス設定における粒子ホール対称性を有するマルチパラメトリック系のスペクトル特性について検討した。 本稿では,ポアソンからウィグナー・ダイソンへの交叉を,複雑性パラメータと呼ばれる効果的な単一パラメータの関数として,単一行列のスペクトル内における間隔の平均局所比で観察する。 スペーシングの平均局所比は、遷移全体の複雑性パラメータにおいて対数的に変化する。 この挙動は、粒子ホール対称性のような同じ行列制約を受ける異なるアンサンブルに対して普遍的である。 この依存の普遍性は、粒子-ホール対称性のアンサンブル結合系とキラル対称性のアンサンブル結合系を補間することによってさらに確立される。 補間アンサンブルごとに、振る舞いは複雑性パラメータの対数的のままである。 2次元su-schrieffer-heeger(ssh)モデルの場合のスペクトルゆらぎの普遍性と、可積分から非可積分限界への遷移中の間隔の比率に対する複雑性パラメータの対数依存性を検証する。

We study the spectral properties of a multiparametric system having particle-hole symmetry in random matrix setting. We observe a crossover from Poisson to Wigner-Dyson like behavior in average local ratio of spacing within a spectrum of single matrix as a function of effective single parameter referred to as complexity parameter. The average local ratio of spacing varies logarithmically in complexity parameter across the transition. This behavior is universal for different ensembles subjected to same matrix constraint like particle-hole symmetry. The universality of this dependence is further established by studying interpolating ensemble connecting systems with particle-hole symmetry to that with chiral symmetry. For each interpolating ensemble the behavior remains logarithmic in complexity parameter. We verify this universality of spectral fluctuation in case of a 2D Su-Schrieffer-Heeger (SSH) like model along with the logarithmic dependence on complexity parameter for ratio of spacing during transition from integrable to non-integrable limit.
翻訳日:2023-02-03 02:14:52 公開日:2022-07-29
# 単一光子と古典的干渉について

On single-photon and classical interference ( http://arxiv.org/abs/2207.14632v1 )

ライセンス: Link先を確認
Stephen M. Barnett(参考訳) 単一光子干渉実験は複雑ではあるが、レーザーによって生成された磁場を用いて古典的な状態で行われたものと同様に振る舞うように見えることがしばしば指摘されている。 この観察は「知っている人にはよく知られた」状態であるが、おそらく他人には神秘的である。 類似性の根底にある理由と、この単純なアイデアの制限についても論じる。

It has often been remarked that single-photon interference experiments, however complicated, seem to behave very much in the same way as those performed in the classical regime, using the field generated by a laser. This observation has the status of being `well-known to those who know it', but perhaps mysterious to others. We discuss the reasons underlying the similarity and also some of the limitations of this simple idea.
翻訳日:2023-02-03 02:14:38 公開日:2022-07-29
# 量子制御ハードウェアにおけるコンパイルを削減するバッチ回路

Batching Circuits to Reduce Compilation in Quantum Control Hardware ( http://arxiv.org/abs/2208.00076v1 )

ライセンス: Link先を確認
Ashlyn D. Burch, Daniel S. Lobser, Christopher G. Yale, Jay W. Van Der Wall, Oliver G. Maupin, Joshua D. Goldberg, Matthew N. H. Chow, Melissa C. Revelle, Susan M. Clark(参考訳) Sandia National Laboratoriesでは、QSCOUT(Quantum Scientific Computing Open User Testbed)が、量子ハードウェアへの低レベルアクセスを可能にするために開発されたイオントラップベースの量子コンピュータである。 Jaqal(Just Another Quantum Assembly Language)は、QSCOUTのユニークな機能をサポートするために社内で設計されたプログラミング言語である。 本稿では,通信の短縮とアップロード時間の短縮による実験実行時間を高速化するカスタムソフトウェアのバッチ実装について述べる。 試験実行中のコードのアップロード時間を短縮することで,ドリフトの影響を軽減することで,システムパフォーマンスが向上する。 本稿では, 変分量子固有解法 (VQE) を用いた一連の量子化学実験により, この実装を実証する。 このテストベッド用に特別に開発されたこのアイデアは、ハードウェア制御の強化やオーバーヘッドの低減を求める、多くの同様の実験プラットフォームにまたがるアプリケーションを見つける。

At Sandia National Laboratories, QSCOUT (the Quantum Scientific Computing Open User Testbed) is an ion-trap based quantum computer built for the purpose of allowing users low-level access to quantum hardware. Commands are executed on the hardware using Jaqal (Just Another Quantum Assembly Language), a programming language designed in-house to support the unique capabilities of QSCOUT. In this work, we describe a batching implementation of our custom software that speeds the experimental run-time through the reduction of communication and upload times. Reducing the code upload time during experimental runs improves system performance by mitigating the effects of drift. We demonstrate this implementation through a set of quantum chemistry experiments using a variational quantum eigensolver (VQE). While developed specifically for this testbed, this idea finds application across many similar experimental platforms that seek greater hardware control or reduced overhead.
翻訳日:2023-02-03 02:09:24 公開日:2022-07-29
# Frauchiger-Renner Gedanken実験:量子力学のいくつかのトピックを探求する興味深い実験室

The Frauchiger-Renner Gedanken Experiment: an Interesting Laboratory for Exploring Some Topics in Quantum Mechanics ( http://arxiv.org/abs/2208.00060v1 )

ライセンス: Link先を確認
Stuart Samuel(参考訳) 自然界の通信。 3711, 9 (2018), daniela frauchiger と renato renner はwigner/friend gedanken 実験を用いて、量子力学は測定エージェントを含む複雑なシステムを記述できないと主張した。 彼らは、絡み合ったスピンシステムで行った測定に関する4つのステートメントから始まる矛盾するステートメントを生み出した。 A が B を、B が C を、A が C を、しかし A が C を、Frauchiger-Renner gedanken の実験の連続的なステートメントを合成する際に、量子力学は推移性に従わず、解析を無効にすることを示す。 また, 4つの文中の前提の組が論理的に相容れないことを実証し, それらはすべて同時には使用できないことを示した。 矛盾を生み出すために、フラウチャーとレナーは「OK」-「OKbar」と呼ばれる特定のランを選択する。 しかし、この場合の制限は4つの文のうち3つを無効にする。 したがって、2018年の出版には論理に関する3つの問題が存在する。 また、量子力学全般におけるある種の状況において、推移性を含む論理規則の違反を実証する。 我々はFrauchiger-Renner gedanken実験を実験室として、波動関数論理、ウィグナー/フレンド実験、および波動関数の知識から数学的ステートメントを導出し、多くの興味深い結果を得る。 frauchiger と renner が使用するタイプの wigner/friend 実験は,wigner 測定を巨視的対象で行えば不可能であることを示した。 特定の顕微鏡で観測することは可能であるが、ウィグナーの測定は(スピン上の測定のような)通常にレンダリングされ、実際の実験室でフラウチャー・レナーの実験を実行することは容易である。

In Nature Comm. 3711, 9 (2018), Daniela Frauchiger and Renato Renner used a Wigner/friend gedanken experiment to argue that quantum mechanics cannot describe complex systems involving measuring agents. They produced a contradictory statement starting with 4 statements about measurements performed on an entangled spin system. These statements were combined using the transitive property of logic: If A implies B and B implies C, then A implies C. However, in combining successive statements for the Frauchiger-Renner gedanken experiment we show that quantum mechanics does not obey transitivity and that this invalidates their analysis. We also demonstrate that certain pairs of premises among the four statements are logically incompatible, meaning that they cannot all be used at once. To produce the contradiction, Frauchiger and Renner choose a particular run, which they call the 'OK'-'OKbar' one. However, the restriction to this case invalidates 3 of the 4 statements. Thus, there are 3 separate problems with logic in the 2018 publication. We also demonstrate the violation of the rules of logic - including transitivity - in certain situations in quantum mechanics in general. We use the Frauchiger-Renner gedanken experiment as a laboratory to explore wavefunction logic, Wigner/friend experiments, and the deduction of mathematical statements from knowledge of a wavefunction and obtain a number of interesting results. We show that Wigner/friend experiments of the type used by Frauchiger and Renner are impossible if the Wigner measurements are performed on macroscopic objects. They are possible on certain microscopic entities but then the Wigner measurements are rendered "ordinary" (such as measurements on a spin), in which case it is straightforward to perform the Frauchiger-Renner experiment in a real laboratory setting.
翻訳日:2023-02-03 02:09:10 公開日:2022-07-29
# 極低温原子の完全ユニタリ量子制御

Complete unitary qutrit control in ultracold atoms ( http://arxiv.org/abs/2208.00045v1 )

ライセンス: Link先を確認
Joseph Lindon, Arina Tashchilina, Logan W. Cooke, and Lindsay J. LeBlanc(参考訳) 物理量子システムは通常2つ以上のレベルで構成され、量子ビットを超えた高次元空間に情報をエンコードする能力を提供する。 ここでは、超低温の$^{87}$rbのアンサンブルに中性原子クトリットをエンコードし、任意のシングルクトリットsu(3)ゲートを示す。 3レベル$\Lambda$-schemeの2つの非連結レベル間の直接結合に影響を及ぼすゲートの合成を含む、2つの共振マイクロ波トーンのみを用いて、ゲートの完全なセットを生成する。 2つの異なるゲート集合を用いて、walsh-hadamardフーリエ変換を実装して特徴付けし、両者のアプローチから同様の最終状態忠実性と純度を求める。 この研究は、量子情報処理、$d$-dimensional quditsの拡張、および非自明な幾何学的位相を持つマルチレベル量子状態操作における探索のための有望なプラットフォームとして、超低温中性原子クォートを確立する。

Physical quantum systems are commonly composed of more than two levels and offer the capacity to encode information in higher-dimensional spaces beyond the qubit, starting with the three-level qutrit. Here, we encode neutral-atom qutrits in an ensemble of ultracold $^{87}$Rb and demonstrate arbitrary single-qutrit SU(3) gates. We generate a full set of gates using only two resonant microwave tones, including synthesizing a gate that effects a direct coupling between the two disconnected levels in the three-level $\Lambda$-scheme. Using two different gate sets, we implement and characterize the Walsh-Hadamard Fourier transform, and find similar final-state fidelity and purity from both approaches. This work establishes the ultracold neutral-atom qutrit as a promising platform for qutrit-based quantum information processing, extensions to $d$-dimensional qudits, and explorations in multilevel quantum state manipulations with nontrivial geometric phases.
翻訳日:2023-02-03 02:08:35 公開日:2022-07-29
# エナンチオマー選択性マイクロ波三波混合の合理的パルス設計

Rational pulse design for enantiomer-selective microwave three-wave mixing ( http://arxiv.org/abs/2208.00044v1 )

ライセンス: Link先を確認
Monika Leibscher, Jonas Kalveram, Christiane P. Koch(参考訳) マイクロ波3波混合により、ランダムに配向したキラル分子を異なるエネルギーで回転状態にエナンチオマー選択的励起することができる。 分子のランダム配向は、向き付け量子数 $m$ に対する回転スペクトルの縮退に反映され、エナンチオマー選択性が考慮されていないとしても減少する。 本稿では、共振マイクロ波駆動による回転遷移に伴うRabi周波数のM$依存性の分析から、最大エナンチオマー選択性を持つパルス列を設計する方法を示す。 回転遷移の異なる励起スキームを比較し, 円偏光場との同期3波混合において, 所定の回転温度での最大エナンチオマー選択性が達成されることを示す。

Microwave three-wave mixing allows for enantiomer-selective excitation of randomly oriented chiral molecules into rotational states with different energy. The random orientation of molecules is reflected in the degeneracy of the rotational spectrum with respect to the orientational quantum number $M$ and reduces, if not accounted for, enantiomer-selectivity. Here, we show how to design pulse sequences with maximal enantiomer-selectivity from an analysis of the $M$-dependence of the Rabi frequencies associated with rotational transitions induced by resonant microwave drives. We compare different excitations schemes for rotational transitions and show that maximal enantiomer-selectivity at a given rotational temperature is achieved for synchronized three-wave mixing with circularly polarized fields.
翻訳日:2023-02-03 02:08:15 公開日:2022-07-29
# 双対一元力学下における総称状態の絡み合いの成長

Growth of entanglement of generic states under dual-unitary dynamics ( http://arxiv.org/abs/2208.00030v1 )

ライセンス: Link先を確認
Alessandro Foligno and Bruno Bertini(参考訳) デュアルユニタリ回路(英: Dual-unitary circuits)は、局所的に相互作用する量子多体系のクラスであり、空間と時間の役割が交換されるときにもユニタリダイナミクスを示す。 これらのシステムは最近、多体量子カオスの特定の特徴を正確に研究できる驚くべきフレームワークとして登場した。 特に、熱力学的極限において完全な非平衡ダイナミクスにアクセスできる「解決可能な」初期状態のクラスを認めている。 二重単位回路が可解な状態で準備されると、2つの相補空間領域間の量子絡み合いは、進化の局所構造によって許容される最大速度で増大する。 ここでは, この特性の運命について, 汎用的な対積状態でシステムを構築した際の考察を行う。 この場合、時間段階における絡み合いの増大は有限時間に対して極大であるが、無限時間極限における極大値に近づく。 このステートメントは、十分なエンタングルメントを生成するデュアルユニタリ回路に対して厳密に証明されているが、クラス全体の保持は議論されている。

Dual-unitary circuits are a class of locally-interacting quantum many-body systems displaying unitary dynamics also when the roles of space and time are exchanged. These systems have recently emerged as a remarkable framework where certain features of many-body quantum chaos can be studied exactly. In particular, they admit a class of "solvable" initial states for which, in the thermodynamic limit, one can access the full non-equilibrium dynamics. This reveals a surprising property: when a dual-unitary circuit is prepared in a solvable state the quantum entanglement between two complementary spatial regions grows at the maximal speed allowed by the local structure of the evolution. Here we investigate the fate of this property when the system is prepared in a generic pair-product state. We show that in this case the entanglement increment during a time step is sub-maximal for finite times, however, it approaches the maximal value in the infinite-time limit. This statement is proven rigorously for dual-unitary circuits generating high enough entanglement, while it is argued to hold for the entire class.
翻訳日:2023-02-03 02:07:49 公開日:2022-07-29
# 不安定な量子制限増幅

Quantum-limited amplification without instability ( http://arxiv.org/abs/2208.00024v1 )

ライセンス: Link先を確認
A. Metelmann, O. Lanes, T-Z. Chien, A. McDonald, M. Hatridge, A. A. Clerk(参考訳) 量子パラメトリックアンプは典型的には動的不安定点の近くで動作することで生成される。 量子制限された大利得増幅が動的不安定に近づかずに達成できる代替の汎用戦略を考える。 我々の基本的なメカニズム(励起光子数を保存するダイナミクスを含む)は、基本的なゲインバンド幅制約に制限されない1と2のモード増幅器の設計を可能にする。 我々は、伝送において理想的な単一モードのスクイーズ動作を実現し、反射がゼロな特定の実現に焦点を当てる。 本稿では, このシステム(ポンプ減量効果を含む)の詳細な理論的解析と, 実験用超伝導量子回路の実装結果について述べる。

Quantum parametric amplifiers typically generate by operating in proximity to a point of dynamical instability. We consider an alternate general strategy where quantum-limited, large-gain amplification is achieved without any proximity to a dynamical instability. Our basic mechanism (involving dynamics that conserves the number of squeezed photons) enables the design of a variety of one and two mode amplifiers that are not limited by any fundamental gain-bandwidth constraint. We focus on a particular realization that allows us to realize an ideal single-mode squeezing operation in transmission, and which has zero reflection. We present both a thorough theoretical analysis of this system (including pump-depletion effects), and also discuss results of an experimental superconducting quantum circuit implementation.
翻訳日:2023-02-03 02:07:29 公開日:2022-07-29
# クラウド量子コンピュータ上の量子クレーア・ラオ限界におけるマルチパラメータ伝送推定

Multiparameter transmission estimation at the quantum Cram\'er-Rao limit on a cloud quantum computer ( http://arxiv.org/abs/2208.00011v1 )

ライセンス: Link先を確認
Aaron Z. Goldberg and Khabat Heshami(参考訳) 透過または損失の推定は、分光の核心にある。 究極の量子分解能限界を達成するには、一定の光子数を持つプローブ状態と、それに影響を与える光子数を識別できる検出器を用いる必要がある。 実際には、2モードの圧縮光を用いて古典的な限界を上回り、一定の光子数のプローブを隠蔽することができるが、シーディングアームや検出器の損失が不完全な場合には、所望のプローブを生成することは保証されない。 このパラダイムは、圧縮光の両モードで異なる損失パラメータを同時に測定し、達成可能な量子的優位性を持つことを示す。 このプロトコルをxanaduのx8チップで実証し、クラウド経由でアクセスし、10^6$のショットから光子数確率分布を構築し、10^3$の独立時間に対して最大推定(mle)を行う。 ポンプ光はスクイーズ前に失われる可能性があるため、ニュアンスパラメータの理論を用いて実際の入力電力を同時に推定する。 mle は、x8 の8つのモードにおける伝送振幅を 0.39202(6), 0.30706(8), 0.36937(6), 0.28730(9), 0.38206(6), 0.30441(8), 0.37229(6), 0.28621(8) と推定し、入力コヒーレント状態の振幅、損失、非線形相互作用の時間、それぞれ 1.3000(2), 1.3238(3), 1.2666(2), 1.3425(3) と推定する。 本研究は、量子マルチパラメータ推定理論の交叉、mle収束、実量子デバイスの特性と性能に関する重要な知見を提供する。

Estimating transmission or loss is at the heart of spectroscopy. To achieve the ultimate quantum resolution limit, one must use probe states with definite photon number and detectors capable of distinguishing the number of photons impinging thereon. In practice, one can outperform classical limits using two-mode squeezed light, which can be used to herald definite-photon-number probes, but the heralding is not guaranteed to produce the desired probes when there is loss in the heralding arm or its detector is imperfect. We show that this paradigm can be used to simultaneously measure distinct loss parameters in both modes of the squeezed light, with attainable quantum advantages. We demonstrate this protocol on Xanadu's X8 chip, accessed via the cloud, building photon-number probability distributions from $10^6$ shots and performing maximum likelihood estimation (MLE) on these distributions $10^3$ independent times. Because pump light may be lost before the squeezing occurs, we also simultaneously estimate the actual input power, using the theory of nuisance parameters. MLE converges to estimate the transmission amplitudes in X8's eight modes to be 0.39202(6), 0.30706(8), 0.36937(6), 0.28730(9), 0.38206(6), 0.30441(8), 0.37229(6), and 0.28621(8) and the squeezing parameters, which are proxies for effective input coherent-state amplitudes, their losses, and their nonlinear interaction times, to be 1.3000(2), 1.3238(3), 1.2666(2), and 1.3425(3); all of these uncertainties are within a factor of two of the quantum Cram\'er-Rao bound. This study provides crucial insight into the intersection of quantum multiparameter estimation theory, MLE convergence, and the characterization and performance of real quantum devices.
翻訳日:2023-02-03 02:07:15 公開日:2022-07-29
# LiDARを用いた3次元物体検出のためのデータ拡張の定量化

Quantifying Data Augmentation for LiDAR based 3D Object Detection ( http://arxiv.org/abs/2004.01643v2 )

ライセンス: Link先を確認
Martin Hahner, Dengxin Dai, Alexander Liniger, and Luc Van Gool(参考訳) 本研究では,光検出・測位(lidar)に基づく3次元物体検出において一般的に用いられる異なるデータ拡張技術について考察した。 実験の大部分は、よく知られたPointPillarsパイプラインと、確立されたKITTIデータセットを使用しています。 本研究では,シーンのポイントクラウド全体にグローバル拡張技術を適用し,シーン内の個々のオブジェクトに属するポイントのみに局所拡張技術を適用する,多岐にわたるグローバル拡張技術とローカル拡張技術について検討する。 以上の結果から,いずれのデータ拡張も性能向上につながる可能性が示唆された。しかし同時に,個々のオブジェクト変換などの拡張技術は非生産的であり,全体のパフォーマンスを損なう可能性があることも判明した。 これらの知見は, art 3d オブジェクト検出法やstf データセットの他の状態にもよく移行し, 一般化することを示す。 KITTIデータセットでは最大1.5%、STFデータセットでは中等車クラスの3D mAPで最大1.7%を得ることができる。

In this work, we shed light on different data augmentation techniques commonly used in Light Detection and Ranging (LiDAR) based 3D Object Detection. For the bulk of our experiments, we utilize the well known PointPillars pipeline and the well established KITTI dataset. We investigate a variety of global and local augmentation techniques, where global augmentation techniques are applied to the entire point cloud of a scene and local augmentation techniques are only applied to points belonging to individual objects in the scene. Our findings show that both types of data augmentation can lead to performance increases, but it also turns out, that some augmentation techniques, such as individual object translation, for example, can be counterproductive and can hurt the overall performance. We show that these findings transfer and generalize well to other state of the art 3D Object Detection methods and the challenging STF dataset. On the KITTI dataset we can gain up to 1.5% and on the STF dataset up to 1.7% in 3D mAP on the moderate car class.
翻訳日:2022-12-17 04:19:19 公開日:2022-07-29
# 複雑系モデリングのための哲学誘導数理形式論

Philosophy-Guided Mathematical Formalism for Complex Systems Modelling ( http://arxiv.org/abs/2005.01192v5 )

ライセンス: Link先を確認
Patrik Christen and Olivier Del Fabbro(参考訳) 我々は最近、複雑なシステムを記述、モデル化、シミュレート、解釈するためのフレームワークを提供するシステムメタモデルを含む、いわゆるアロガマティック手法を紹介した。 その発展とプログラミングは哲学、特にギルバート・サイモンドンの分断哲学、アルフレッド・ノース・ホワイトヘッドの生物哲学、サイバネティックスの概念に導かれた。 ここでは、数学的フォーマリズムがアロガティックな手法のシステムメタモデルをよりよく記述し、定義するために提示され、それによってさらに一般化され、より形式的な処理に到達し、より理論的研究を可能にする。 形式論を用いて、このようなさらなる研究の例として、セルオートマトンと人工ニューラルネットワークのモデル作成と等価性に関する数学的定義と証明がある。

We recently presented the so-called allagmatic method, which includes a system metamodel providing a framework for describing, modelling, simulating, and interpreting complex systems. Its development and programming was guided by philosophy, especially by Gilbert Simondon's philosophy of individuation, Alfred North Whitehead's philosophy of organism, and concepts from cybernetics. Here, a mathematical formalism is presented to better describe and define the system metamodel of the allagmatic method, thereby further generalising it and extending its reach to a more formal treatment and allowing more theoretical studies. By using the formalism, an example for such a further study is provided with mathematical definitions and proofs for model creation and equivalence of cellular automata and artificial neural networks.
翻訳日:2022-12-07 06:05:02 公開日:2022-07-29
# コンフォーマル予測:理論と新しい挑戦の統一的なレビュー

Conformal Prediction: a Unified Review of Theory and New Challenges ( http://arxiv.org/abs/2005.07972v2 )

ライセンス: Link先を確認
Matteo Fontana, Gianluca Zeni, Simone Vantini(参考訳) 本研究では, 有限サンプルの場合においても, 統計的に妥当な予測セットを非常に簡単な方法で得ることができる, 分布自由で, 最小の仮定に基づく非パラメトリック予測手法である, コンフォーマル予測に関する基本的なアイデアと新しい展開についてレビューする。 論文で提供される詳細な議論は、コンフォーマル予測の理論的基盤を網羅し、その後、原案のより先進的な展開と適応をリストアップする。

In this work we provide a review of basic ideas and novel developments about Conformal Prediction -- an innovative distribution-free, non-parametric forecasting method, based on minimal assumptions -- that is able to yield in a very straightforward way predictions sets that are valid in a statistical sense also in in the finite sample case. The in-depth discussion provided in the paper covers the theoretical underpinnings of Conformal Prediction, and then proceeds to list the more advanced developments and adaptations of the original idea.
翻訳日:2022-12-02 13:05:59 公開日:2022-07-29
# マルチタスクガウス過程を用いたクラスタ特異予測

Cluster-Specific Predictions with Multi-Task Gaussian Processes ( http://arxiv.org/abs/2011.07866v3 )

ライセンス: Link先を確認
Arthur Leroy and Pierre Latouche and Benjamin Guedj and Servane Gey(参考訳) マルチタスク学習、クラスタリング、複数の関数データの予測を同時に扱うために、ガウス過程(GP)を含むモデルを導入する。 この手法は機能データのためのモデルベースのクラスタリング手法として機能し、新しいタスクの後の予測のための学習ステップとして機能する。 このモデルは、マルチタスクGPと一般的な平均プロセスの混合としてインスタンス化される。 変分的emアルゴリズムは、ハイパーパラメータの最適化と潜在変数とプロセスのハイパーポストリテータによる推定を扱うために導出される。 予測分布内の平均過程と潜在クラスタリング変数を統合するための明示的な公式を定め,両側面の不確実性を考慮した。 この分布は、クラスタ固有のGP予測の混合として定義され、グループ構造化データを扱う際の性能を高める。 このモデルは不規則な観測グリッドを処理し、タスク間で追加情報を共有するための共分散構造に関する異なる仮説を提供する。 クラスタリングと予測タスクの両方のパフォーマンスは、様々なシミュレーションシナリオと実際のデータセットを通して評価される。 MagmaClustと呼ばれるアルゴリズムは、Rパッケージとして公開されている。

A model involving Gaussian processes (GPs) is introduced to simultaneously handle multi-task learning, clustering, and prediction for multiple functional data. This procedure acts as a model-based clustering method for functional data as well as a learning step for subsequent predictions for new tasks. The model is instantiated as a mixture of multi-task GPs with common mean processes. A variational EM algorithm is derived for dealing with the optimisation of the hyper-parameters along with the hyper-posteriors' estimation of latent variables and processes. We establish explicit formulas for integrating the mean processes and the latent clustering variables within a predictive distribution, accounting for uncertainty on both aspects. This distribution is defined as a mixture of cluster-specific GP predictions, which enhances the performances when dealing with group-structured data. The model handles irregular grid of observations and offers different hypotheses on the covariance structure for sharing additional information across tasks. The performances on both clustering and prediction tasks are assessed through various simulated scenarios and real datasets. The overall algorithm, called MagmaClust, is publicly available as an R package.
翻訳日:2022-09-24 23:57:27 公開日:2022-07-29
# ランク制約付き最小二乗に対する再帰的重要度スケッチ:アルゴリズムと高次収束

Recursive Importance Sketching for Rank Constrained Least Squares: Algorithms and High-order Convergence ( http://arxiv.org/abs/2011.08360v3 )

ライセンス: Link先を確認
Yuetian Luo, Wen Huang, Xudong Li, Anru R. Zhang(参考訳) 本稿では, {\it \underline{r}ecursive} {\it \underline{i}mportance} {\it \underline{s}ketching} algorithm for {\it \underline{r}ank}stricted least squares {\it \underline{o}ptimization} (risro)を提案する。 RISROの重要なステップは再帰的重要スケッチ(recursive importance sketching)である。これは決定論的に設計された再帰的投影に基づく新しいスケッチフレームワークであり、文献 \citep{mahoney 2011randomized,woodruff2014sketching} のランダム化されたスケッチとは大きく異なる。 文献にあるいくつかの既存のアルゴリズムは、この新しいスケッチフレームワークの下で再解釈することができ、RISROはそれらに対して明確な利点を提供する。 RISROは実装が容易で計算的に効率的であり、各イテレーションのコアプロシージャは次元還元最小二乗問題の解法である。 軽度条件下でRISROの局所2次線形および2次収束速度を確立する。 また、固定階数行列上のリーマンガウスニュートンアルゴリズムとRISROの深い関係も発見する。 risroの有効性は、機械学習と統計学の2つの応用(低ランク行列のトレース回帰と位相検索)で実証されている。 シミュレーション研究はRISROの優れた数値性能を示す。

In this paper, we propose {\it \underline{R}ecursive} {\it \underline{I}mportance} {\it \underline{S}ketching} algorithm for {\it \underline{R}ank} constrained least squares {\it \underline{O}ptimization} (RISRO). The key step of RISRO is recursive importance sketching, a new sketching framework based on deterministically designed recursive projections, which significantly differs from the randomized sketching in the literature \citep{mahoney2011randomized,woodruff2014sketching}. Several existing algorithms in the literature can be reinterpreted under this new sketching framework and RISRO offers clear advantages over them. RISRO is easy to implement and computationally efficient, where the core procedure in each iteration is to solve a dimension-reduced least squares problem. We establish the local quadratic-linear and quadratic rate of convergence for RISRO under some mild conditions. We also discover a deep connection of RISRO to the Riemannian Gauss-Newton algorithm on fixed rank matrices. The effectiveness of RISRO is demonstrated in two applications in machine learning and statistics: low-rank matrix trace regression and phase retrieval. Simulation studies demonstrate the superior numerical performance of RISRO.
翻訳日:2022-09-24 16:28:38 公開日:2022-07-29
# 深層学習に基づく高圧燃焼環境における高速時間分解火炎放射分光法

Deep learning-based fast time-resolved flame emission spectroscopy in high-pressure combustion environment ( http://arxiv.org/abs/2208.12544v1 )

ライセンス: Link先を確認
Taekeun Yoon, Seon Woong Kim, Hosung Byun, Younsik Kim, Campbell D. Carter, Hyungrok Do(参考訳) 火炎放射分光法(FES)を用いた高速かつ高精度なガス特性測定のための新しい深層学習戦略を開発した。 特に、短ゲート高速FESは、高速進化する燃焼挙動を解決するために不可欠である。 しかし, 火炎放射スペクトルを捕捉する露光時間が短くなると, 信号対雑音比(SNR)は減少し, ガス特性を示す特性スペクトル特性は比較的弱くなる。 そして、短ゲートスペクトルに基づく特性推定は困難で不正確である。 畳み込み畳み込みニューラルネットワーク(CNN)は、短ゲートスペクトルのSNRを高めることができる。 可逆ダウン・アップサンプリング(du)演算子と適切な直交分解(pod)係数に基づく損失関数を含む新しいcnnアーキテクチャを提案する。 cnnの訓練と試験のために、可搬型分光計(スペクトル範囲:250-850 nm、解像度:0.5 nm)を用いて安定なメタン-空気の平面火炎から火炎化学発光スペクトルを観測し、同値比(0.8-1.2)、圧力(1-10 bar)、露光時間(0.05, 0.2, 0.4, 2 s)を測定した。 CNNを訓練する際には2秒の長時間露光スペクトルが基礎的真実として用いられた。 PODを用いたクリギングモデルは、長いゲートスペクトルを用いてキャリブレーションを行い、その後、分極短ゲートスペクトルを入力とするガス特性の予測を行う。 新手法を用いた圧力・等価比の測定および特性予測誤差は0.2s露光による5.7%と1.5%と推定され、信号増幅器のない低snrスペクトル信号では極めて良好であり、通常は達成できない。

A novel deep learning strategy is developed for fast and accurate gas property measurements using flame emission spectroscopy (FES). Particularly, the short-gated fast FES is essential to resolve fast-evolving combustion behaviors. However, as the exposure time for capturing the flame emission spectrum gets shorter, the signal-to-noise ratio (SNR) decreases, and characteristic spectral features indicating the gas properties become relatively weaker. Then, the property estimation based on the short-gated spectrum is difficult and inaccurate. Denoising convolutional neural networks (CNN) can enhance the SNR of the short-gated spectrum. A new CNN architecture including a reversible down- and up-sampling (DU) operator and a loss function based on proper orthogonal decomposition (POD) coefficients is proposed. For training and testing the CNN, flame chemiluminescence spectra were captured from a stable methane-air flat flame using a portable spectrometer (spectral range: 250-850 nm, resolution: 0.5 nm) with varied equivalence ratio (0.8-1.2), pressure (1-10 bar), and exposure time (0.05, 0.2, 0.4, and 2 s). The long exposure (2 s) spectra were used as the ground truth when training the denoising CNN. A kriging model with POD is trained by the long-gated spectra for calibration and then prediction of the gas properties taking the denoised short-gated spectrum as the input. The measurement or property prediction errors of pressure and equivalence ratio using the new technique were estimated to be 5.7% and 1.5% with 0.2 s exposure, which are exceptionally good and typically not achievable with such low SNR spectrum signals without a signal amplifier.
翻訳日:2022-09-04 02:12:19 公開日:2022-07-29
# 材料の微細構造解析のためのコンピュータビジョン手法 : 最新技術と今後の展望

Computer Vision Methods for the Microstructural Analysis of Materials: The State-of-the-art and Future Perspectives ( http://arxiv.org/abs/2208.04149v1 )

ライセンス: Link先を確認
Khaled Alrfou, Amir Kordijazi, Tian Zhao(参考訳) 所定の材料の構造的特徴を表す量的記述子を見つけることは、材料設計のパラダイムにおける現在進行中の研究領域である。 歴史的に、ミクロ構造分析は主に定性的記述に依存している。 しかし,新しい高性能材料の設計に必要となるロバストで高精度なプロセス構造・プロペラティ関係を構築するためには,ミクロ組織解析から定量的・有意義な統計データの抽出が重要なステップである。 近年、コンピュータビジョン(CV)法、特に畳み込みニューラルネットワーク(CNN)アルゴリズムを中心にした手法が、この目的のために有望な結果を示している。 本稿では, 分類, 物体検出, セグメンテーション, 特徴抽出, 再構成など, 様々な多次元構造画像解析タスクに応用された最新のcnn技術について述べる。 さらに,これらの手法の材料科学研究への応用に関する主な課題を明らかにした。 最後に,この領域における今後の研究の方向性について論じる。 特に, 変圧器モデルの適用と, 材料の微細構造解析能力の向上について強調した。

Finding quantitative descriptors representing the microstructural features of a given material is an ongoing research area in the paradigm of Materials-by-Design. Historically, microstructural analysis mostly relies on qualitative descriptions. However, to build a robust and accurate process-structure-properties relationship, which is required for designing new advanced high-performance materials, the extraction of quantitative and meaningful statistical data from the microstructural analysis is a critical step. In recent years, computer vision (CV) methods, especially those which are centered around convolutional neural network (CNN) algorithms have shown promising results for this purpose. This review paper focuses on the state-of-the-art CNN-based techniques that have been applied to various multi-scale microstructural image analysis tasks, including classification, object detection, segmentation, feature extraction, and reconstruction. Additionally, we identified the main challenges with regard to the application of these methods to materials science research. Finally, we discussed some possible future directions of research in this area. In particular, we emphasized the application of transformer-based models and their capabilities to improve the microstructural analysis of materials.
翻訳日:2022-08-14 18:19:11 公開日:2022-07-29
# オークションによる長期ネットワーク資源配分のためのマルチエージェント強化学習:V2Xアプリケーション

Multi-Agent Reinforcement Learning for Long-Term Network Resource Allocation through Auction: a V2X Application ( http://arxiv.org/abs/2208.04237v1 )

ライセンス: Link先を確認
Jing Tan and Ramin Khalili and Holger Karl and Artur Hecker(参考訳) 自律エージェント間の分散意思決定として,移動エージェントの動的グループ(車など)からの計算タスクのオフロードを定式化する。 このようなエージェントにインセンティブを与え,競争と協力のバランスをとることで,プライベートとシステム目標を一致させるインタラクション機構を設計する。 静的な場合、メカニズムは最適なリソース割り当てを持つnash平衡を持つ。 動的環境では、このメカニズムの完全な情報を要求することは不可能である。 このような環境では,部分的,遅延的,ノイズの多い状態情報を用いて学習する新しいマルチエージェントオンライン学習アルゴリズムを提案する。 アルゴリズムは,遅延の異なる長期的およびスパースな報酬信号から学習する能力も備えている。 V2Xアプリケーションのシミュレーションによる実証的な結果から,学習アルゴリズムを用いたエージェントはシステムと個々のパフォーマンスの両方を著しく改善し,オフロード障害率,通信オーバーヘッド,負荷変動の最大30%を低減し,計算資源の利用率と公平性を向上することを確認した。 結果は、異なる環境におけるアルゴリズムの収束性と一般化性も確認した。

We formulate offloading of computational tasks from a dynamic group of mobile agents (e.g., cars) as decentralized decision making among autonomous agents. We design an interaction mechanism that incentivizes such agents to align private and system goals by balancing between competition and cooperation. In the static case, the mechanism provably has Nash equilibria with optimal resource allocation. In a dynamic environment, this mechanism's requirement of complete information is impossible to achieve. For such environments, we propose a novel multi-agent online learning algorithm that learns with partial, delayed and noisy state information, thus greatly reducing information need. Our algorithm is also capable of learning from long-term and sparse reward signals with varying delay. Empirical results from the simulation of a V2X application confirm that through learning, agents with the learning algorithm significantly improve both system and individual performance, reducing up to 30% of offloading failure rate, communication overhead and load variation, increasing computation resource utilization and fairness. Results also confirm the algorithm's good convergence and generalization property in different environments.
翻訳日:2022-08-14 18:11:27 公開日:2022-07-29
# ばらばらな不正供給ネットワークの再構築:多重薬物取引ネットワークを事例として

Reconstructing Sparse Illicit Supply Networks: A Case Study of Multiplex Drug Trafficking Networks ( http://arxiv.org/abs/2208.01739v1 )

ライセンス: Link先を確認
Jin-Zhu Yu, Mincheng Wu, Gisela Bichler, Felipe Aros-Vera, Jianxi Gao(参考訳) このネットワーク構造は、法執行機関が不正供給ネットワークを妨害する効果的な戦略を開発するための重要な情報を提供する。 しかし、隠密ネットワークの完全な構造はしばしば利用できないため、隠密ネットワークのより完全な構造を推測するアプローチを開発することが極めて重要である。 本稿では,調査報告から抽出した実世界の薬物取引ネットワークについて検討する。 EMアルゴリズム(DegEM)と構造的類似性に基づく他の手法に基づく統計的アプローチを適用し、観察されたノードとリンクの異なる割合の多重化麻薬取引ネットワークを再構築する。 DegEM法は,いくつかの精度指標で最高の予測性能を達成できることが判明した。 一方, 構造的類似性に基づく手法は, ネットワーク内のノード間リンクの幅が狭いため, 薬物トラヒックネットワークの再構築に不適である。 推定された多重ネットワークは (i)再建精度を向上させるために追加情報収集に限られた資源を割くとともに、秘密ネットワークの監視に関する意思決定を通知する。 (ii)より効果的な調停戦略を展開する。

The network structure provides critical information for law enforcement agencies to develop effective strategies to interdict illicit supply networks. However, the complete structure of covert networks is often unavailable, thus it is crucially important to develop approaches to infer a more complete structure of covert networks. In this paper, we work on real-world multiplex drug trafficking networks extracted from an investigation report. A statistical approach built on the EM algorithm (DegEM) as well as other methods based on structural similarity are applied to reconstruct the multiplex drug trafficking network given different fractions of observed nodes and links. It is found that DegEM approach achieves the best predictive performance in terms of several accuracy metrics. Meanwhile, structural similarity-based methods perform poorly in reconstructing the drug trafficking networks due to the sparsity of links between nodes in the network. The inferred multiplex networks can be leveraged to (i) inform the decision-making on monitoring covert networks as well as allocating limited resources for collecting additional information to improve the reconstruction accuracy and (ii) develop more effective interdiction strategies.
翻訳日:2022-08-07 14:29:39 公開日:2022-07-29
# ソーシャルインテリジェンスのための対面コントラスト学習

Face-to-Face Contrastive Learning for Social Intelligence Question-Answering ( http://arxiv.org/abs/2208.01036v1 )

ライセンス: Link先を確認
Alex Wilf, Qianli M. Ma, Paul Pu Liang, Amir Zadeh, Louis-Philippe Morency(参考訳) 多人数インタラクションのニュアンスを理解するアルゴリズムである人工知能を作ることは、マルチモーダルビデオから表情やジェスチャーを処理する上で、エキサイティングで新たな課題である。 近年のマルチモーダル手法は,多くのタスクにおいて技術の現状を定めているが,社会的相互作用,特に自己監督的な設定において,会話のターンをまたいだ複雑な対面ダイナミクスのモデル化は困難である。 本稿では,F2F-CL(Face-to-Face Contrastive Learning)というグラフニューラルネットワークを提案する。 f2f-clモデルを用いて,同一映像内で異なる発話方向の因子化ノード間の対比学習を行う。 課題であるsocial-iqデータセットを実験的に評価し,最新の結果を示した。

Creating artificial social intelligence - algorithms that can understand the nuances of multi-person interactions - is an exciting and emerging challenge in processing facial expressions and gestures from multimodal videos. Recent multimodal methods have set the state of the art on many tasks, but have difficulty modeling the complex face-to-face conversational dynamics across speaking turns in social interaction, particularly in a self-supervised setup. In this paper, we propose Face-to-Face Contrastive Learning (F2F-CL), a graph neural network designed to model social interactions using factorization nodes to contextualize the multimodal face-to-face interaction along the boundaries of the speaking turn. With the F2F-CL model, we propose to perform contrastive learning between the factorization nodes of different speaking turns within the same video. We experimentally evaluated the challenging Social-IQ dataset and show state-of-the-art results.
翻訳日:2022-08-03 12:44:30 公開日:2022-07-29
# 外部からのSAR画像処理におけるロバストレイリー回帰法

Robust Rayleigh Regression Method for SAR Image Processing in Presence of Outliers ( http://arxiv.org/abs/2208.00097v1 )

ライセンス: Link先を確認
B. G. Palm, F. M. Bayer, R. Machado, M. I.Pettersson, V. T. Vu, R. J. Cintra(参考訳) 合成開口レーダ(SAR)データにおける外れ値(異常値)の存在と統計画像モデルにおける誤特定は、不正確な推論をもたらす可能性がある。 このような問題を避けるために、このタイプのデータをモデル化するためのより現実的なアプローチとして、ロバストな推定プロセスに基づくレイリー回帰モデルを提案する。 本稿では,外乱の存在に頑健なレイリー回帰モデルパラメータ推定器を得る。 提案手法は重み付き最大値法を考慮し,SAR画像のシミュレーションと測定による数値実験を行った。 モンテカルロシミュレーションは、有限信号長における頑健な推定器性能の数値評価、オフレーヤに対する感度、および故障点の数値評価に用いられた。 例えば、非破壊推定器は、破壊信号のロバストなアプローチによる結果よりも、相対バイアス値が65$-fold大きいことを示す。 感度解析と破壊点に関して、ロバストなスキームは、各測定値の平均絶対値として約9,6\%$と10\%$を減らし、非破壊的推定値に同調する結果となった。 さらに, 2つのSARデータセットを用いて, 提案したロバストなスキームの基底型と異常検出結果と, 競合する手法との比較を行った。

The presence of outliers (anomalous values) in synthetic aperture radar (SAR) data and the misspecification in statistical image models may result in inaccurate inferences. To avoid such issues, the Rayleigh regression model based on a robust estimation process is proposed as a more realistic approach to model this type of data. This paper aims at obtaining Rayleigh regression model parameter estimators robust to the presence of outliers. The proposed approach considered the weighted maximum likelihood method and was submitted to numerical experiments using simulated and measured SAR images. Monte Carlo simulations were employed for the numerical assessment of the proposed robust estimator performance in finite signal lengths, their sensitivity to outliers, and the breakdown point. For instance, the non-robust estimators show a relative bias value $65$-fold larger than the results provided by the robust approach in corrupted signals. In terms of sensitivity analysis and break down point, the robust scheme resulted in a reduction of about $96\%$ and $10\%$, respectively, in the mean absolute value of both measures, in compassion to the non-robust estimators. Moreover, two SAR data sets were used to compare the ground type and anomaly detection results of the proposed robust scheme with competing methods in the literature.
翻訳日:2022-08-02 15:02:45 公開日:2022-07-29
# UAVM: オーディオビジュアル学習のための統一モデル

UAVM: A Unified Model for Audio-Visual Learning ( http://arxiv.org/abs/2208.00061v1 )

ライセンス: Link先を確認
Yuan Gong, Alexander H. Liu, Andrew Rouditchenko, James Glass(参考訳) 従来のオーディオヴィジュアルモデルは独立したオーディオとビデオのブランチを持つ。 我々は,Unified Audio-Visual Model (UAVM) と呼ばれる,オーディオ処理とビデオ処理の統一モデルを設計する。 本稿では,UAVMについて述べるとともに,VGGSoundの65.8%の最先端オーディオ視覚事象分類精度を報告し,その興味深い特性について述べる。

Conventional audio-visual models have independent audio and video branches. We design a unified model for audio and video processing called Unified Audio-Visual Model (UAVM). In this paper, we describe UAVM, report its new state-of-the-art audio-visual event classification accuracy of 65.8% on VGGSound, and describe the intriguing properties of the model.
翻訳日:2022-08-02 14:51:01 公開日:2022-07-29
# メタ強化学習におけるサンプリング攻撃:ミニマックス定式化と複雑性分析

Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation and Complexity Analysis ( http://arxiv.org/abs/2208.00081v1 )

ライセンス: Link先を確認
Tao Li, Haozhe Lei, and Quanyan Zhu(参考訳) meta reinforcement learning(メタ強化学習)は、メタ学習のアイデアと強化学習(rl)を組み合わせたもので、エージェントがいくつかのサンプルを使用して異なるタスクに適応できるようにする。 しかし、このサンプリングベースの適応は、メタRLを敵攻撃に対して脆弱にする。 メタRLにおけるサンプリングプロセスからの報酬フィードバックを操作することにより、攻撃者はエージェントを誤誘導してトレーニング経験から間違った知識を構築することができ、適応後の異なるタスクに対処する際のエージェントのパフォーマンスを低下させる。 本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。 特に、サンプリング攻撃モデルを攻撃者とエージェントの間のスタックルバーグゲームとして正式に定義し、それがminimaxの定式化となる。 これは2つのオンライン攻撃スキームを導く: 間欠攻撃と永続攻撃で、攻撃者は$\mathcal{o}(\epsilon^{-2})$の反復内で$\epsilon$-first-order stationary pointで定義される最適なサンプリング攻撃を学ぶことができる。 これらの攻撃スキームは、環境との余分な相互作用なしに学習の進行を同時に解放する。 数値実験で収束結果と照合することにより,攻撃者の小さな努力が学習性能を著しく低下させ,minimaxアプローチがメタrlアルゴリズムの堅牢化にも寄与することを確認した。

Meta reinforcement learning (meta RL), as a combination of meta-learning ideas and reinforcement learning (RL), enables the agent to adapt to different tasks using a few samples. However, this sampling-based adaptation also makes meta RL vulnerable to adversarial attacks. By manipulating the reward feedback from sampling processes in meta RL, an attacker can mislead the agent into building wrong knowledge from training experience, which deteriorates the agent's performance when dealing with different tasks after adaptation. This paper provides a game-theoretical underpinning for understanding this type of security risk. In particular, we formally define the sampling attack model as a Stackelberg game between the attacker and the agent, which yields a minimax formulation. It leads to two online attack schemes: Intermittent Attack and Persistent Attack, which enable the attacker to learn an optimal sampling attack, defined by an $\epsilon$-first-order stationary point, within $\mathcal{O}(\epsilon^{-2})$ iterations. These attack schemes freeride the learning progress concurrently without extra interactions with the environment. By corroborating the convergence results with numerical experiments, we observe that a minor effort of the attacker can significantly deteriorate the learning performance, and the minimax approach can also help robustify the meta RL algorithms.
翻訳日:2022-08-02 14:48:35 公開日:2022-07-29
# 分子データにおけるラッカネのトポロジー駆動生成

Topology-Driven Generative Completion of Lacunae in Molecular Data ( http://arxiv.org/abs/2208.00063v1 )

ライセンス: Link先を確認
Dmitry Yu. Zubarev and Petar Ristoski(参考訳) 本研究では,マッパーアルゴリズムなどのトポロジカルデータ解析によって駆動される分子データ集合におけるlacunaeの完成を目標とする手法を提案する。 Lacunaeは、異なるスコアリング関数で訓練された足場制約付き生成モデルで満たされる。 このアプローチでは、マッパーグラフのようなデータのスケルトン化された表現にリンクや頂点を追加でき、ネットワーク補完の幅広いカテゴリに分類される。 本稿では,USPTO特許から抽出したオニオンカチオンのデータセットにラグナを作成し,トポロジー駆動型データ補完戦略の適用について述べる。

We introduce an approach to the targeted completion of lacunae in molecular data sets which is driven by topological data analysis, such as Mapper algorithm. Lacunae are filled in using scaffold-constrained generative models trained with different scoring functions. The approach enables addition of links and vertices to the skeletonized representations of the data, such as Mapper graph, and falls in the broad category of network completion methods. We illustrate application of the topology-driven data completion strategy by creating a lacuna in the data set of onium cations extracted from USPTO patents, and repairing it.
翻訳日:2022-08-02 14:39:04 公開日:2022-07-29
# オンライン模倣学習のための政策最適化の改善

Improved Policy Optimization for Online Imitation Learning ( http://arxiv.org/abs/2208.00088v1 )

ライセンス: Link先を確認
Jonathan Wilder Lavington, Sharan Vaswani, Mark Schmidt(参考訳) オンライン模倣学習(OIL)では,環境との活発な相互作用を通じて専門家の行動を模倣する政策を見出すことが課題である。 我々は,最も人気のあるOILアルゴリズムであるDAGGERを分析し,OILのポリシー最適化アルゴリズムの理論と実践のギャップを埋めることを目的としている。 具体的には、政策のクラスが専門家の政策を包含するのに十分な表現力を持っている場合、DAGGERが絶え間なく後悔することを証明する。 損失が強凸となるような以前の境界とは異なり、我々の結果は政策の十分な統計量(パラメータ化ではない)に関して損失が強凸であるというより弱い仮定しか必要としない。 より広範な政策と損失の収束を確保するため、我々はDAGGERを追加の正規化項で強化する。 特に、FTLのメモリ要件に適合するメモリ効率の実装を、Follow-the-Regularized-Leader(FTRL)の変種とOILの適応型を提案する。 損失関数がポリシーのパラメータに関して滑らかで凸であると仮定すると、FTRLは最悪の場合において$O(\sqrt{T})$後悔を保ちながら、十分な表現力のある政策クラスに対して絶え間なく後悔する。 合成および高次元制御タスクにおける実験により,これらのアルゴリズムの有効性を示す。

We consider online imitation learning (OIL), where the task is to find a policy that imitates the behavior of an expert via active interaction with the environment. We aim to bridge the gap between the theory and practice of policy optimization algorithms for OIL by analyzing one of the most popular OIL algorithms, DAGGER. Specifically, if the class of policies is sufficiently expressive to contain the expert policy, we prove that DAGGER achieves constant regret. Unlike previous bounds that require the losses to be strongly-convex, our result only requires the weaker assumption that the losses be strongly-convex with respect to the policy's sufficient statistics (not its parameterization). In order to ensure convergence for a wider class of policies and losses, we augment DAGGER with an additional regularization term. In particular, we propose a variant of Follow-the-Regularized-Leader (FTRL) and its adaptive variant for OIL and develop a memory-efficient implementation, which matches the memory requirements of FTL. Assuming that the loss functions are smooth and convex with respect to the parameters of the policy, we also prove that FTRL achieves constant regret for any sufficiently expressive policy class, while retaining $O(\sqrt{T})$ regret in the worst-case. We demonstrate the effectiveness of these algorithms with experiments on synthetic and high-dimensional control tasks.
翻訳日:2022-08-02 14:10:27 公開日:2022-07-29
# ランドマークの学習による複雑な4次元表現遷移の生成

Generating Complex 4D Expression Transitions by Learning Face Landmark Trajectories ( http://arxiv.org/abs/2208.00050v1 )

ライセンス: Link先を確認
Naima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo(参考訳) 本稿では,4次元表情生成の問題点について述べる。 これは通常、中性3d顔をアニメーション化して表現ピークに達し、その後中立状態に戻ることで対処される。 しかし現実の世界では、人々はより複雑な表現を示し、ある表現から別の表現に切り替える。 そこで我々は,異なる表現間の遷移を生成し,長大で構成された4次元表現を合成する新しいモデルを提案する。 これには3つのサブプロブレムが含まれる。 (i)表現の時間的ダイナミクスをモデル化すること。 (ii)それらの間の学習の遷移、 (iii)ジェネリックメッシュを変形させる。 本研究では,多様体値gan(motion3dgan)を訓練することで生成する3次元ランドマークの集合の運動を用いて,表現の時間的発展をエンコードする。 合成式の生成を可能にするため、このモデルは開始式と終了式をエンコードする2つのラベルを受け入れる。 メッシュの最終的なシーケンスは、sparse2denseメッシュデコーダ(s2d-dec)によって生成される。 動きの軌跡を明示的に扱うことにより、モデルはアイデンティティから完全に独立する。 5つの公開データセットに関する広範囲な実験により,提案手法が従来のソリューションに対して大幅な改善をもたらすと同時に,未発見のデータに対する優れた一般化が維持されることが示された。

In this work, we address the problem of 4D facial expressions generation. This is usually addressed by animating a neutral 3D face to reach an expression peak, and then get back to the neutral state. In the real world though, people show more complex expressions, and switch from one expression to another. We thus propose a new model that generates transitions between different expressions, and synthesizes long and composed 4D expressions. This involves three sub-problems: (i) modeling the temporal dynamics of expressions, (ii) learning transitions between them, and (iii) deforming a generic mesh. We propose to encode the temporal evolution of expressions using the motion of a set of 3D landmarks, that we learn to generate by training a manifold-valued GAN (Motion3DGAN). To allow the generation of composed expressions, this model accepts two labels encoding the starting and the ending expressions. The final sequence of meshes is generated by a Sparse2Dense mesh Decoder (S2D-Dec) that maps the landmark displacements to a dense, per-vertex displacement of a known mesh topology. By explicitly working with motion trajectories, the model is totally independent from the identity. Extensive experiments on five public datasets show that our proposed approach brings significant improvements with respect to previous solutions, while retaining good generalization to unseen data.
翻訳日:2022-08-02 13:43:06 公開日:2022-07-29
# 多人数3次元ポーズ推定のための明示的オクルージョン推論

Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation ( http://arxiv.org/abs/2208.00090v1 )

ライセンス: Link先を確認
Qihao Liu, Yi Zhang, Song Bai, Alan Yuille(参考訳) 咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。 既存の手法では、ポーズ優先/規則、データ拡張、暗黙的推論による咬合を扱おうとするが、それでも認識できないポーズや咬合の場合への一般化に失敗し、複数の人がいれば大きな間違いを犯すことがある。 目に見える手がかりからオクルード関節を推定する人間の顕著な能力に触発され,オクルージョンの有無にかかわらずボトムアップ多人数ポーズ推定を著しく改善するこの過程を明示的にモデル化する手法を開発した。 まず、タスクを2つのサブタスクに分割する: 可視的キーポイント検出と排他的キーポイント推論であり、第2の課題を解決するために、Deeply Supervised Encoder Distillation (DSED) ネットワークを提案する。 本モデルのトレーニングには,既存のデータセット上に擬似閉塞ラベルを生成するためのスケルトン誘導型ヒューマンシェイプフィッティング(SSF)アプローチを提案する。 実験により、オクルージョンから明示的に学習することは人間のポーズ推定を改善することが示されている。 さらに, 目視関節の特徴レベル情報を活用することで, 閉塞関節をより正確に判断することができる。 提案手法は,いくつかのベンチマークにおいて,最先端のトップダウン法とボトムアップ法の両方に優れる。

Occlusion poses a great threat to monocular multi-person 3D human pose estimation due to large variability in terms of the shape, appearance, and position of occluders. While existing methods try to handle occlusion with pose priors/constraints, data augmentation, or implicit reasoning, they still fail to generalize to unseen poses or occlusion cases and may make large mistakes when multiple people are present. Inspired by the remarkable ability of humans to infer occluded joints from visible cues, we develop a method to explicitly model this process that significantly improves bottom-up multi-person human pose estimation with or without occlusions. First, we split the task into two subtasks: visible keypoints detection and occluded keypoints reasoning, and propose a Deeply Supervised Encoder Distillation (DSED) network to solve the second one. To train our model, we propose a Skeleton-guided human Shape Fitting (SSF) approach to generate pseudo occlusion labels on the existing datasets, enabling explicit occlusion reasoning. Experiments show that explicitly learning from occlusions improves human pose estimation. In addition, exploiting feature-level information of visible joints allows us to reason about occluded joints more accurately. Our method outperforms both the state-of-the-art top-down and bottom-up methods on several benchmarks.
翻訳日:2022-08-02 13:42:42 公開日:2022-07-29
# 低複素近似畳み込みニューラルネットワーク

Low-complexity Approximate Convolutional Neural Networks ( http://arxiv.org/abs/2208.00087v1 )

ライセンス: Link先を確認
R. J. Cintra, S. Duffner, C. Garcia, A. Leite(参考訳) 本稿では,学習した畳み込みニューラルネットワーク(ConvNet)の計算複雑性を最小化する手法を提案する。 この考え方は、与えられたConvNetのすべての要素を近似し、元の畳み込みフィルタとパラメータ(プールとバイアス係数、活性化関数)を計算複雑性を極端に低減できる効率的な近似に置き換えることである。 低複素度畳み込みフィルタは、二進(ゼロワン)線形計画スキームを通じて、二進有理数の集合上のフロベニウスノルムに基づいて得られる。 結果として得られる行列は、加算とビットシフト操作のみを必要とする乗算不要な計算を可能にする。 このような低複雑さ構造は、低消費電力で効率的なハードウェア設計の道を開く。 複雑さの異なる3つのユースケースにアプローチを適用しました。 i) 顔検出のための「軽い」が効率的なConvNet(約1000のパラメータを含む) (ii)手書きの数字分類(180000以上のパラメータを有する)のもう1つ、及び (iii) はるかに大きなConvNet: AlexNetと$\approx$1.2M(120万ドル)の行列。 それぞれのタスクの全体的な性能を,異なるレベルの近似で評価した。 考慮されたすべてのアプリケーションにおいて、ほとんど同じ分類性能を維持した非常に低複雑さ近似が導出された。

In this paper, we present an approach for minimizing the computational complexity of trained Convolutional Neural Networks (ConvNet). The idea is to approximate all elements of a given ConvNet and replace the original convolutional filters and parameters (pooling and bias coefficients; and activation function) with efficient approximations capable of extreme reductions in computational complexity. Low-complexity convolution filters are obtained through a binary (zero-one) linear programming scheme based on the Frobenius norm over sets of dyadic rationals. The resulting matrices allow for multiplication-free computations requiring only addition and bit-shifting operations. Such low-complexity structures pave the way for low-power, efficient hardware designs. We applied our approach on three use cases of different complexity: (i) a "light" but efficient ConvNet for face detection (with around 1000 parameters); (ii) another one for hand-written digit classification (with more than 180000 parameters); and (iii) a significantly larger ConvNet: AlexNet with $\approx$1.2 million matrices. We evaluated the overall performance on the respective tasks for different levels of approximations. In all considered applications, very low-complexity approximations have been derived maintaining an almost equal classification performance.
翻訳日:2022-08-02 13:30:31 公開日:2022-07-29
# 胸部CT画像におけるCOVID-19診断のための深層学習技術の検討

A review of Deep learning Techniques for COVID-19 identification on Chest CT images ( http://arxiv.org/abs/2208.00032v1 )

ライセンス: Link先を確認
Briskline Kiruba S, Petchiammal A, D. Murugan(参考訳) 新型コロナウイルスのパンデミックは、肺に直接影響を及ぼす人類にとって深刻な脅威だ。 新型コロナウイルスの自動識別は、医療機関にとって難しい課題だ。 新型コロナウイルス(covid-19)の診断には、rt-pcr(reverse transcription polymerase chain reaction)が用いられる。 swabの収集中に遭遇するいくつかの制限は、正確性と長期間の持続性に関連している。 Chest CT(Computed Tomography)は、医療提供者による感染した肺の早期発見を支援する別の検査方法である。 初期の段階では、covid-19を識別するための支援ツールとして使用されていた。 深層学習の助けを借りて、新型コロナウイルスのCTイメージング特性を解析した。 研究者たちは、新型コロナウイルスのCT画像分類に非常に効果的であることを証明した。 本研究では,新型コロナウイルス感染症の検出に利用可能な最近の深層学習技術について概説する。 関連する研究は、Web of Science、Google Scholar、PubMedなど、さまざまなデータベースによって収集された。 最後に,様々なディープラーニングモデルの結果を比較し,ct画像解析について検討した。

The current COVID-19 pandemic is a serious threat to humanity that directly affects the lungs. Automatic identification of COVID-19 is a challenge for health care officials. The standard gold method for diagnosing COVID-19 is Reverse Transcription Polymerase Chain Reaction (RT-PCR) to collect swabs from affected people. Some limitations encountered while collecting swabs are related to accuracy and longtime duration. Chest CT (Computed Tomography) is another test method that helps healthcare providers quickly identify the infected lung areas. It was used as a supporting tool for identifying COVID-19 in an earlier stage. With the help of deep learning, the CT imaging characteristics of COVID-19. Researchers have proven it to be highly effective for COVID-19 CT image classification. In this study, we review the recent deep learning techniques that can use to detect the COVID-19 disease. Relevant studies were collected by various databases such as Web of Science, Google Scholar, and PubMed. Finally, we compare the results of different deep learning models, and CT image analysis is discussed.
翻訳日:2022-08-02 13:25:18 公開日:2022-07-29
# MulViMotion:多視点心筋MRIによる形状認識型心筋運動追跡

MulViMotion: Shape-aware 3D Myocardial Motion Tracking from Multi-View Cardiac MRI ( http://arxiv.org/abs/2208.00034v1 )

ライセンス: Link先を確認
Qingjie Meng, Chen Qin, Wenjia Bai, Tianrui Liu, Antonio de Marvao, Declan P O'Regan, Daniel Rueckert(参考訳) 心臓磁気共鳴(CMR)画像からの心臓の3次元運動の回復は、局所心筋機能の評価を可能にし、心血管疾患の理解と解析に重要である。 しかし、取得したcine cmr画像は通常2次元スライスであり、平面運動の正確な推定を制限しているため、3次元心臓運動推定は困難である。 そこで本研究では, 短軸, 長軸平面で得られた2次元シネCMR画像を統合し, 心臓の連続した3次元運動場を学習するマルチビューモーション推定ネットワーク(MulViMotion)を提案する。 提案手法では,多視点画像から融合表現を学習し,高密度な3次元運動場を生成するハイブリッド2D/3Dネットワークを構築した。 運動推定が3Dで一貫していることを確認するために、多視点画像からの形状情報を利用して3D動作推定の弱い監督を行う訓練中に形状正則化モジュールを導入する。 左室心筋の3次元運動追跡のための英国バイオバンク研究の580名の被験者から得られた2D cine CMR画像に対する提案手法を広範に評価した。 実験の結果,提案手法は競合手法よりも定量的に質的に優れていることがわかった。

Recovering the 3D motion of the heart from cine cardiac magnetic resonance (CMR) imaging enables the assessment of regional myocardial function and is important for understanding and analyzing cardiovascular disease. However, 3D cardiac motion estimation is challenging because the acquired cine CMR images are usually 2D slices which limit the accurate estimation of through-plane motion. To address this problem, we propose a novel multi-view motion estimation network (MulViMotion), which integrates 2D cine CMR images acquired in short-axis and long-axis planes to learn a consistent 3D motion field of the heart. In the proposed method, a hybrid 2D/3D network is built to generate dense 3D motion fields by learning fused representations from multi-view images. To ensure that the motion estimation is consistent in 3D, a shape regularization module is introduced during training, where shape information from multi-view images is exploited to provide weak supervision to 3D motion estimation. We extensively evaluate the proposed method on 2D cine CMR images from 580 subjects of the UK Biobank study for 3D motion tracking of the left ventricular myocardium. Experimental results show that the proposed method quantitatively and qualitatively outperforms competing methods.
翻訳日:2022-08-02 13:25:04 公開日:2022-07-29
# 離散空間における拡張勾配に基づくMCMC

Enhanced gradient-based MCMC in discrete spaces ( http://arxiv.org/abs/2208.00040v1 )

ライセンス: Link先を確認
Benjamin Rhodes and Michael Gutmann(参考訳) 最近の離散空間に対する勾配に基づくMCMCの導入は大きな約束であり、MALAやHMCのような祝福された連続的な手法に新しい離散的手法が加わる可能性も伴う。 この目的に向けて,MALA に触発された離散メトロポリス・ハスティングスサンプルを導入し,ベイジアン推論やエネルギーベースモデリングにおいて,様々な挑戦的なサンプリング問題において,その強力な経験的性能を示す。 方法論上,プリコンディショルドマラへの離散的類似が一般に難解である理由を解明し,補助変数と「ガウス積分トリック」に基づく新しいプレコンディショニングを導入する動機付けを行った。

The recent introduction of gradient-based MCMC for discrete spaces holds great promise, and comes with the tantalising possibility of new discrete counterparts to celebrated continuous methods such as MALA and HMC. Towards this goal, we introduce several discrete Metropolis-Hastings samplers that are conceptually-inspired by MALA, and demonstrate their strong empirical performance across a range of challenging sampling problems in Bayesian inference and energy-based modelling. Methodologically, we identify why discrete analogues to preconditioned MALA are generally intractable, motivating us to introduce a new kind of preconditioning based on auxiliary variables and the `Gaussian integral trick'.
翻訳日:2022-08-02 13:05:46 公開日:2022-07-29
# 睡眠時ダイアリーを用いたニューラルネットワークによる睡眠行動のパーソナライズ

Personalised recommendations of sleep behaviour with neural networks using sleep diaries captured in Sleepio ( http://arxiv.org/abs/2208.00033v1 )

ライセンス: Link先を確認
Alejo Nevado-Holgado, Colin Espie, Maria Liakata, Alasdair Henry, Jenny Gu, Niall Taylor, Kate Saunders, Tom Walker, Chris Miller(参考訳) SleepioTMは、認知行動療法(CBT)の技術を用いて、睡眠障害のある人の睡眠を改善するデジタル携帯電話とWebプラットフォームである。 このプロセスの一環として、sleepioは、処理中のデータに同意したユーザの睡眠行動に関するデータをキャプチャする。 ニューラルネットワークの場合、データのスケールは、実際の臨床実践に翻訳可能な有意義なモデルをトレーニングする機会となる。 sleepioを開発した治療会社big healthと共同で、401,174の睡眠日記のランダムサンプルからのデータを分析し、各個人の睡眠行動と睡眠の質をパーソナライズした方法でモデル化するニューラルネットワークを構築した。 このニューラルネットワークは、過去10日間の行動に基づいて、個人の睡眠の質を予測する標準的な統計手法よりも正確であることを示す。 様々なシナリオを表す幅広いハイパーパラメータ設定におけるモデル性能を比較した。 さらに,睡眠の質を最大化するために,ユーザがフォローすべき睡眠習慣をパーソナライズしたレコメンデーションを生成するためにニューラルネットワークが利用可能であることを示し,標準手法によるレコメンデーションよりもはるかに優れていることを示す。 最後に,ニューラルネットワークが各参加者に与えられた推奨事項を説明し,各予測に対する信頼区間を算出できることが示され,臨床医がこれらのツールを臨床で活用する上で不可欠である。

SleepioTM is a digital mobile phone and web platform that uses techniques from cognitive behavioural therapy (CBT) to improve sleep in people with sleep difficulty. As part of this process, Sleepio captures data about the sleep behaviour of the users that have consented to such data being processed. For neural networks, the scale of the data is an opportunity to train meaningful models translatable to actual clinical practice. In collaboration with Big Health, the therapeutics company that created and utilizes Sleepio, we have analysed data from a random sample of 401,174 sleep diaries and built a neural network to model sleep behaviour and sleep quality of each individual in a personalised manner. We demonstrate that this neural network is more accurate than standard statistical methods in predicting the sleep quality of an individual based on his/her behaviour from the last 10 days. We compare model performance in a wide range of hyperparameter settings representing various scenarios. We further show that the neural network can be used to produce personalised recommendations of what sleep habits users should follow to maximise sleep quality, and show that these recommendations are substantially better than the ones generated by standard methods. We finally show that the neural network can explain the recommendation given to each participant and calculate confidence intervals for each prediction, all of which are essential for clinicians to be able to adopt such a tool in clinical practice.
翻訳日:2022-08-02 12:59:22 公開日:2022-07-29
# 畳み込みニューラルネットワークを用いた赤外線画像による水稲葉病の同定

Paddy Leaf diseases identification on Infrared Images based on Convolutional Neural Networks ( http://arxiv.org/abs/2208.00031v1 )

ライセンス: Link先を確認
Petchiammal A, Briskline Kiruba S, D. Murugan(参考訳) 農業は、すべての生物にとって不可欠なため、人間社会の主役である。 水稲栽培は、主にアジア大陸において、人間にとって非常に重要であり、主要な食品の一つである。 しかし、農業における植物病は生産性の低下につながる。 植物病は一般的に害虫、昆虫、病原体によって引き起こされ、特定の時間内に制御されない場合、生産性を大規模に低下させる。 最終的に水田収量の増加を見ることはできない。 植物病の正確かつタイムリーな同定は、農家が害虫や病気による損失を軽減するのに役立つ。 近年,水田病の診断と克服に深層学習技術が用いられている。 本稿では,モデルに基づく畳み込みニューラルネットワーク(cnn)を実装し,水田病クラス5と健康クラス1の636の赤外線画像サンプルからなる公開データセットをテストした。 提案モデルでは,5種類の水田病の同定と分類を行い,88.28%の精度を達成した。

Agriculture is the mainstay of human society because it is an essential need for every organism. Paddy cultivation is very significant so far as humans are concerned, largely in the Asian continent, and it is one of the staple foods. However, plant diseases in agriculture lead to depletion in productivity. Plant diseases are generally caused by pests, insects, and pathogens that decrease productivity to a large scale if not controlled within a particular time. Eventually, one cannot see an increase in paddy yield. Accurate and timely identification of plant diseases can help farmers mitigate losses due to pests and diseases. Recently, deep learning techniques have been used to identify paddy diseases and overcome these problems. This paper implements a convolutional neural network (CNN) based on a model and tests a public dataset consisting of 636 infrared image samples with five paddy disease classes and one healthy class. The proposed model proficiently identified and classified paddy diseases of five different types and achieved an accuracy of 88.28%
翻訳日:2022-08-02 12:54:29 公開日:2022-07-29
# beeモニタリングアプリケーションにおける機械学習とコンピュータビジョン技術

Machine Learning and Computer Vision Techniques in Bee Monitoring Applications ( http://arxiv.org/abs/2208.00085v1 )

ライセンス: Link先を確認
Simon Bilik, Ondrej Bostik, Lukas Kratochvila, Adam Ligocki, Matej Poncak, Tomas Zemcik, Milos Richter, Ilona Janakova, Petr Honec, Karel Horak(参考訳) 機械学習とコンピュータビジョンは動的に成長する分野であり、非常に複雑なタスクを解決できることが証明されている。 また、ミツバチのコロニーの監視や健康状態の検査にも利用でき、状況が重要になる前に潜在的に危険な状態を識別したり、定期的なミツバチのコロニーの検査を計画したりすることで、かなりのコストを節約することができる。 本稿では,ミツバチのモニタリングに使用される最先端のコンピュータビジョンと機械学習アプリケーションの概要を述べる。 また,これらの手法の可能性を,自動蜂対策アルゴリズムの例として示す。 この論文は、機械学習に精通していない獣医やapidologyの専門家を対象とし、その可能性を紹介するため、それぞれのアプリケーション群は、その基本手法に関する簡単な理論的な導入と動機付けによってオープンされる。 この論文は、他の科学者がミツバチモニタリングの他の用途に機械学習技術を使用するように促すことを願っている。

Machine learning and computer vision are dynamically growing fields, which have proven to be able to solve very complex tasks. They could also be used for the monitoring of the honeybee colonies and for the inspection of their health state, which could identify potentially dangerous states before the situation is critical, or to better plan periodic bee colony inspections and therefore save significant costs. In this paper, we present an overview of the state-of-the-art computer vision and machine learning applications used for bee monitoring. We also demonstrate the potential of those methods as an example of an automated bee counter algorithm. The paper is aimed at veterinary and apidology professionals and experts, who might not be familiar with machine learning to introduce to them its possibilities, therefore each family of applications is opened by a brief theoretical introduction and motivation related to its base method. We hope that this paper will inspire other scientists to use the machine learning techniques for other applications in bee monitoring.
翻訳日:2022-08-02 12:54:14 公開日:2022-07-29
# 3次元心血管系免疫蛍光画像におけるポイントアノテーションを用いた深部核検出

Weakly Supervised Deep Instance Nuclei Detection using Points Annotation in 3D Cardiovascular Immunofluorescent Images ( http://arxiv.org/abs/2208.00098v1 )

ライセンス: Link先を確認
Nazanin Moradinasab, Yash Sharma, Laura S. Shankman, Gary K. Owens, Donald E. Brown(参考訳) アメリカ合衆国と世界中の2つの主な死因は、脳卒中と心筋梗塞である。 両方の根本的な原因は、心(心筋梗塞)や脳(脳卒中)の血管を閉塞する不安定な動脈硬化性プラークの破裂または侵食から放出される血栓である。 臨床研究によれば、プラーク組成はプラーク破壊や侵食現象において、病変の大きさよりも重要な役割を担っている。 プラーク組成物を決定するために、プラーク病変の3D心血管免疫蛍光画像中の様々な細胞タイプをカウントする。 しかし、これらの細胞を手動で数えるのは高価であり、時間を要する。 手動カウントのこれらの課題は、画像内の細胞をローカライズし数える自動化アプローチの必要性を動機付けている。 本研究の目的は、3次元免疫蛍光画像中の細胞を最小限のアノテーションで正確に検出・カウントする自動アプローチを開発することである。 本研究では,弱い教師付き学習手法を用いて,点アノテーションを用いてHoVer-Netセグメンテーションモデルを訓練し,蛍光画像中の核を検出する。 ポイントアノテーションを使用する利点は、ピクセル毎のアノテーションよりも少ない労力を必要とすることだ。 ポイントアノテーションを用いてHoVer-Netモデルをトレーニングするために、ポイントアノテーションをセル核の正確なバイナリマスクに変換するために広く使われているクラスタラベリング手法を採用した。 伝統的に、これらのアプローチはポイントアノテーションからバイナリマスクを生成し、オブジェクトの周りの領域をラベルなしで残している(モデルトレーニングでは無視される)。 しかし、これらの領域は細胞の境界を決定する重要な情報を含んでいるかもしれない。 そこで本研究では,これらの領域におけるエントロピー最小化損失関数を用いて,ラベルのない領域でより確実な予測を行うようモデルに促した。 我々の比較研究によると、ホバーネットモデルは弱く訓練されている。

Two major causes of death in the United States and worldwide are stroke and myocardial infarction. The underlying cause of both is thrombi released from ruptured or eroded unstable atherosclerotic plaques that occlude vessels in the heart (myocardial infarction) or the brain (stroke). Clinical studies show that plaque composition plays a more important role than lesion size in plaque rupture or erosion events. To determine the plaque composition, various cell types in 3D cardiovascular immunofluorescent images of plaque lesions are counted. However, counting these cells manually is expensive, time-consuming, and prone to human error. These challenges of manual counting motivate the need for an automated approach to localize and count the cells in images. The purpose of this study is to develop an automatic approach to accurately detect and count cells in 3D immunofluorescent images with minimal annotation effort. In this study, we used a weakly supervised learning approach to train the HoVer-Net segmentation model using point annotations to detect nuclei in fluorescent images. The advantage of using point annotations is that they require less effort as opposed to pixel-wise annotation. To train the HoVer-Net model using point annotations, we adopted a popularly used cluster labeling approach to transform point annotations into accurate binary masks of cell nuclei. Traditionally, these approaches have generated binary masks from point annotations, leaving a region around the object unlabeled (which is typically ignored during model training). However, these areas may contain important information that helps determine the boundary between cells. Therefore, we used the entropy minimization loss function in these areas to encourage the model to output more confident predictions on the unlabeled areas. Our comparison studies indicate that the HoVer-Net model trained using our weakly ...
翻訳日:2022-08-02 12:53:57 公開日:2022-07-29
# 対向攻撃に対するロバスト軌道予測

Robust Trajectory Prediction against Adversarial Attacks ( http://arxiv.org/abs/2208.00094v1 )

ライセンス: Link先を確認
Yulong Cao, Danfei Xu, Xinshuo Weng, Zhuoqing Mao, Anima Anandkumar, Chaowei Xiao, Marco Pavone(参考訳) ディープニューラルネットワーク(DNN)を用いた軌道予測は、自律運転(AD)システムの重要な構成要素である。 しかし、これらの手法は敵の攻撃に対して脆弱であり、衝突などの重大な結果をもたらす。 本研究は,(1)効果的な対向訓練法の設計,(2)クリーンデータの性能低下を軽減するためにドメイン固有のデータ拡張を追加すること,など,対向攻撃に対する軌道予測モデルを守るための2つの重要な要素を同定する。 本手法は, クリーンデータを用いてトレーニングしたモデルと比較して, 敵データでは46%, クリーンデータでは3%の性能劣化がみられ, 性能が向上することが実証された。 さらに, 従来のロバスト手法と比較して, 逆例では21%, クリーンデータでは9%の性能向上が可能である。 我々のロバストモデルは、その下流への影響を研究するプランナーによって評価される。 我々のモデルが重大な事故率(衝突やオフロード運転など)を大幅に削減できることを実証する。

Trajectory prediction using deep neural networks (DNNs) is an essential component of autonomous driving (AD) systems. However, these methods are vulnerable to adversarial attacks, leading to serious consequences such as collisions. In this work, we identify two key ingredients to defend trajectory prediction models against adversarial attacks including (1) designing effective adversarial training methods and (2) adding domain-specific data augmentation to mitigate the performance degradation on clean data. We demonstrate that our method is able to improve the performance by 46% on adversarial data and at the cost of only 3% performance degradation on clean data, compared to the model trained with clean data. Additionally, compared to existing robust methods, our method can improve performance by 21% on adversarial examples and 9% on clean data. Our robust model is evaluated with a planner to study its downstream impacts. We demonstrate that our model can significantly reduce the severe accident rates (e.g., collisions and off-road driving).
翻訳日:2022-08-02 12:49:49 公開日:2022-07-29
# Thutmose Tagger:逆テキスト正規化のためのシングルパスニューラルモデル

Thutmose Tagger: Single-pass neural model for Inverse Text Normalization ( http://arxiv.org/abs/2208.00064v1 )

ライセンス: Link先を確認
Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg(参考訳) 逆テキスト正規化(ITN)は自動音声認識(ASR)において重要な後処理ステップである。 数字、日付、略語、その他のセミオティックなクラスを、ASRが生成した音声形式からそれらの記述形式に変換する。 itnを機械翻訳タスクと考え、それを解決するために神経シーケンスからシーケンスモデルを使うことができる。 残念なことに、このような神経モデルは、受け入れ難いエラーにつながる幻覚を起こしやすい。 この問題を軽減するため,ITNをタグ付けタスクとみなすシングルパストークン分類器モデルを提案する。 モデルは、すべての入力トークンに置換フラグメントを割り当てるか、変更なしに削除またはコピーのためにマークする。 本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。 提案したモデルは幻覚の誤りが少ない。 このモデルはgoogle text normalizationデータセットでトレーニングされ、英語とロシアのテストセットの両方で最先端の文精度を達成する。 タグと入力ワードの1対1対応により、モデルの予測の解釈性が向上し、デバッグが簡単になり、後処理の修正が可能になる。 このモデルはシーケンスからシーケンスへのモデルよりもシンプルで、運用環境での最適化が容易です。 データセットを作成するためのモデルとコードは、NeMoプロジェクトの一部として公開されている。

Inverse text normalization (ITN) is an essential post-processing step in automatic speech recognition (ASR). It converts numbers, dates, abbreviations, and other semiotic classes from the spoken form generated by ASR to their written forms. One can consider ITN as a Machine Translation task and use neural sequence-to-sequence models to solve it. Unfortunately, such neural models are prone to hallucinations that could lead to unacceptable errors. To mitigate this issue, we propose a single-pass token classifier model that regards ITN as a tagging task. The model assigns a replacement fragment to every input token or marks it for deletion or copying without changes. We present a dataset preparation method based on the granular alignment of ITN examples. The proposed model is less prone to hallucination errors. The model is trained on the Google Text Normalization dataset and achieves state-of-the-art sentence accuracy on both English and Russian test sets. One-to-one correspondence between tags and input words improves the interpretability of the model's predictions, simplifies debugging, and allows for post-processing corrections. The model is simpler than sequence-to-sequence models and easier to optimize in production settings. The model and the code to prepare the dataset is published as part of NeMo project.
翻訳日:2022-08-02 12:46:59 公開日:2022-07-29
# テキストガイド画像生成における関係理解のテスト

Testing Relational Understanding in Text-Guided Image Generation ( http://arxiv.org/abs/2208.00005v1 )

ライセンス: Link先を確認
Colin Conwell, Tomer Ullman(参考訳) 関係は人間の認知の基本的な構成要素である。 古典的かつ最近の研究は、多くの関係が早期に発展し、急速に認識されていることを示唆している。 人間レベルの認識と推論に意欲的なマシンモデルは、関係をジェネレーティブに認識し推論する能力を反映しなければならない。 本稿では,最近のテキストガイド画像生成モデル(dall-e2)について,文献で研究・提案されている15の基本的身体的・社会的関係と,被験者からの判断(n = 169)を用いて系統的実験を行った。 全体としては、画像の22%が基本的な関係プロンプトと一致していることが分かりました。 人の判断を定量的に検討した結果,現在の画像生成モデルは,単純な物体やエージェントを含む基本的な関係さえも把握できていないことが示唆された。 モデルの成功と失敗の理由を考察し、生物学的知性で観測された計算に基づく改善の可能性を提案する。

Relations are basic building blocks of human cognition. Classic and recent work suggests that many relations are early developing, and quickly perceived. Machine models that aspire to human-level perception and reasoning should reflect the ability to recognize and reason generatively about relations. We report a systematic empirical examination of a recent text-guided image generation model (DALL-E 2), using a set of 15 basic physical and social relations studied or proposed in the literature, and judgements from human participants (N = 169). Overall, we find that only ~22% of images matched basic relation prompts. Based on a quantitative examination of people's judgments, we suggest that current image generation models do not yet have a grasp of even basic relations involving simple objects and agents. We examine reasons for model successes and failures, and suggest possible improvements based on computations observed in biological intelligence.
翻訳日:2022-08-02 12:41:46 公開日:2022-07-29
# 単一コピー計測による量子状態学習の下位境界

Lower bounds for learning quantum states with single-copy measurements ( http://arxiv.org/abs/2207.14438v1 )

ライセンス: Link先を確認
Angus Lowe and Ashwin Nayak(参考訳) 量子トモグラフィーとシャドウトモグラフィーの問題は、未知の$d$次元状態の個々の同一のコピーで測定された。 我々はまず、これまで観測された結果(すなわち、それらは非適応的)とは独立に測定された場合、精度$\epsilon$のトレース距離を持つ量子トモグラフィーにおいて、Haah et al. (2017) による既知の下界を再考する。 私たちはこの結果の簡潔な証明を与える。 これは、学習者が一定の数の結果を持つ測定値を使用すると、より低い境界につながる。 特に、この手法は、サンプルの複雑さの観点から、民謡『Pauli tomography』アルゴリズムの最適性を厳格に確立する。 また、任意値と定値値の測定値を用いて、それぞれ$\Omega(r^2 d/\epsilon^2)$と$\Omega(r^2 d^2/\epsilon^2)$の新たな境界を学習する。 サンプルの複雑さに加えて、量子状態の学習に実用上重要な資源は、アルゴリズムが使用する異なる測定値の数である。 我々は,学習者が$\exp(O(d))$の固定されたセットから適応的な測定を行う場合に,下限を拡張する。 これは特に、適応性が効率的に実装できるシングルコピー測定を用いた利点を与えないことを意味する。 また,シャドートモグラフィ(shadow tomography)と呼ばれるタスクである観測可能なシーケンスの期待値を予測しようとする場合にも同様のバウンドが得られる。 最後に,多項式サイズの回路で実装可能な適応型単一コピー計測の場合,与えられた観測値の計算値に基づく簡単な戦略が最適であることを示す。

We study the problems of quantum tomography and shadow tomography using measurements performed on individual, identical copies of an unknown $d$-dimensional state. We first revisit a known lower bound due to Haah et al. (2017) on quantum tomography with accuracy $\epsilon$ in trace distance, when the measurements choices are independent of previously observed outcomes (i.e., they are nonadaptive). We give a succinct proof of this result. This leads to stronger lower bounds when the learner uses measurements with a constant number of outcomes. In particular, this rigorously establishes the optimality of the folklore ``Pauli tomography" algorithm in terms of its sample complexity. We also derive novel bounds of $\Omega(r^2 d/\epsilon^2)$ and $\Omega(r^2 d^2/\epsilon^2)$ for learning rank $r$ states using arbitrary and constant-outcome measurements, respectively, in the nonadaptive case. In addition to the sample complexity, a resource of practical significance for learning quantum states is the number of different measurements used by an algorithm. We extend our lower bounds to the case where the learner performs possibly adaptive measurements from a fixed set of $\exp(O(d))$ measurements. This implies in particular that adaptivity does not give us any advantage using single-copy measurements that are efficiently implementable. We also obtain a similar bound in the case where the goal is to predict the expectation values of a given sequence of observables, a task known as shadow tomography. Finally, in the case of adaptive, single-copy measurements implementable with polynomial-size circuits, we prove that a straightforward strategy based on computing sample means of the given observables is optimal.
翻訳日:2022-08-01 13:33:29 公開日:2022-07-29
# 核ヒルベルト空間の再生におけるアンサンブル予測--ワンダーランドの力学系

Ensemble forecasts in reproducing kernel Hilbert space family: dynamical systems in Wonderland ( http://arxiv.org/abs/2207.14653v1 )

ライセンス: Link先を確認
B\'erenger Hug, Etienne Memin and Gilles Tissot(参考訳) 海洋流や大気流などの高次元力学系のアンサンブルに基づく推定とシミュレーションのための方法論的枠組みを提案する。 この目的のために、力学系は、ダイナミクスによって駆動されるカーネル関数を持つカーネルヒルベルト空間の族に埋め込まれている。 この家族は、その魅力ある財産でワンダーランドと呼ばれている。 ワンダーランドでは、クープマンとペロン=フロベニウス作用素はユニタリかつ一様連続である。 この性質は、対角化可能な有界無限小生成器の指数級数で表現できる。 Lyapunov指数へのアクセスや、接線力学の正確なアンサンブルに基づく表現も直接利用可能である。 wonderlandは、軌道サンプルの一定時間線形結合という観点から、軌道再構成のための驚くほど単純なアンサンブルデータ同化手法を考案する。 このような恥ずかしい単純な戦略は、いくつかの基本的な定理から生じる完全に正当化された重ね合わせ原理によって実現される。

A methodological framework for ensemble-based estimation and simulation of high dimensional dynamical systems such as the oceanic or atmospheric flows is proposed. To that end, the dynamical system is embedded in a family of reproducing kernel Hilbert spaces with kernel functions driven by the dynamics. This family is nicknamed Wonderland for its appealing properties. In Wonderland the Koopman and Perron-Frobenius operators are unitary and uniformly continuous. This property warrants they can be expressed in exponential series of diagonalizable bounded infinitesimal generators. Access to Lyapunov exponents and to exact ensemble based expressions of the tangent linear dynamics are directly available as well. Wonderland enables us the devise of strikingly simple ensemble data assimilation methods for trajectory reconstructions in terms of constant-in-time linear combinations of trajectory samples. Such an embarrassingly simple strategy is made possible through a fully justified superposition principle ensuing from several fundamental theorems.
翻訳日:2022-08-01 13:32:44 公開日:2022-07-29
# 制御バリア機能を有するオンライン非線形制御のためのサンプル効率安全な学習

Sample-efficient Safe Learning for Online Nonlinear Control with Control Barrier Functions ( http://arxiv.org/abs/2207.14419v1 )

ライセンス: Link先を確認
Wenhao Luo, Wen Sun and Ashish Kapoor(参考訳) 強化学習(RL)と連続非線形制御は、複雑な逐次決定タスクの複数の領域にうまく展開されている。 しかし, 学習過程の探索性やモデル不確かさから, 安全性保証の欠如から, 安全クリティカルな制御課題に適用することが困難である。 一方、制御理論と学習アルゴリズムの組み合わせは、安全なRLアプリケーションにおいて有望であるが、制御のための安全なデータ収集プロセスのサンプル効率は十分ではない。 本稿では,未知の非線形力学系における安全な探索と活用を生かしたオンライン制御タスクのための,効率的なエピソジック・セーフ・ラーニング・フレームワークであるemph{provably}を提案する。 特にその枠組み 1)制御障壁関数(CBF)を確率的に拡張し、モデル学習中の不確実性の下で高確率安全性を実現する。 2) 最適化に基づく探索戦略を統合し, 安全な探索プロセスと学習力学を併用することにより, 最適制御性能を向上する。 最適制御器に拘束されたエピソディック後悔と理論的保証を伴う確率的安全性に関する形式的分析を提供する。 提案アルゴリズムの有効性と有効性を示すシミュレーション結果を提供する。

Reinforcement Learning (RL) and continuous nonlinear control have been successfully deployed in multiple domains of complicated sequential decision-making tasks. However, given the exploration nature of the learning process and the presence of model uncertainty, it is challenging to apply them to safety-critical control tasks due to the lack of safety guarantee. On the other hand, while combining control-theoretical approaches with learning algorithms has shown promise in safe RL applications, the sample efficiency of safe data collection process for control is not well addressed. In this paper, we propose a \emph{provably} sample efficient episodic safe learning framework for online control tasks that leverages safe exploration and exploitation in an unknown, nonlinear dynamical system. In particular, the framework 1) extends control barrier functions (CBFs) in a stochastic setting to achieve provable high-probability safety under uncertainty during model learning and 2) integrates an optimism-based exploration strategy to efficiently guide the safe exploration process with learned dynamics for \emph{near optimal} control performance. We provide formal analysis on the episodic regret bound against the optimal controller and probabilistic safety with theoretical guarantees. Simulation results are provided to demonstrate the effectiveness and efficiency of the proposed algorithm.
翻訳日:2022-08-01 13:31:12 公開日:2022-07-29
# 希少イベントサンプリングのための条件付き正規化フロー

Conditioning Normalizing Flows for Rare Event Sampling ( http://arxiv.org/abs/2207.14530v1 )

ライセンス: Link先を確認
Sebastian Falkner, Alessandro Coretti, Salvatore Romano, Phillip Geissler, Christoph Dellago(参考訳) 複雑な分子過程の力学を理解することは、しばしば長寿命の安定状態の間の頻繁な遷移の研究と結びついている。 このようなまれな事象のサンプリングに対する標準的なアプローチは、軌道空間内のランダムウォークを用いて遷移経路のアンサンブルを生成することである。 しかし、これはその後の訪問経路とサンプリングプロセスの並列化が本質的に困難であったこととの強い相関の欠点を伴っている。 ニューラルネットワーク生成構成に基づく遷移経路サンプリング手法を提案する。 これらは、与えられた分布から復号関連サンプルを生成することができるニューラルネットワーククラスである正規化フローを用いて得られる。 このアプローチでは、訪問経路間の相関が除去されるだけでなく、サンプリングプロセスも容易に並列化できる。 さらに、正規化フローを条件付けすることにより、興味のある領域に向けて構成のサンプリングを行うことができる。 これにより遷移領域の熱力学と運動学の両方を解くことができる。

Understanding the dynamics of complex molecular processes is often linked to the study of infrequent transitions between long-lived stable states. The standard approach to the sampling of such rare events is to generate an ensemble of transition paths using a random walk in trajectory space. This, however, comes with the drawback of strong correlation between subsequently visited paths and with an intrinsic difficulty in parallelizing the sampling process. We propose a transition path sampling scheme based on neural-network generated configurations. These are obtained employing normalizing flows, a neural network class able to generate decorrelated samples from a given distribution. With this approach, not only are correlations between visited paths removed, but the sampling process becomes easily parallelizable. Moreover, by conditioning the normalizing flow, the sampling of configurations can be steered towards the regions of interest. We show that this allows for resolving both the thermodynamics and kinetics of the transition region.
翻訳日:2022-08-01 13:30:54 公開日:2022-07-29
# StackOverflow議論におけるトランスフォーマーモデルがIoTセキュリティ検出に及ぼす影響

Effectiveness of Transformer Models on IoT Security Detection in StackOverflow Discussions ( http://arxiv.org/abs/2207.14542v1 )

ライセンス: Link先を確認
Nibir Chandra Mandal, G. M. Shahariar, and Md. Tanvir Rouf Shawon(参考訳) モノのインターネット(internet of things、iot)は、インターネットに接続され、デバイスやシステム間で情報を収集し交換する何十億もの物理的アイテム、すなわち“モノ”に直接リンクする、新たな概念である。 しかし、IoTデバイスはセキュリティを念頭に構築されていないため、マルチデバイスシステムのセキュリティ上の脆弱性につながる可能性がある。 従来、IoT開発者やスペシャリストを対象に、IoTの問題を調査していました。 しかし、すべてのIoT開発者を対象とした調査は実現不可能であるため、このテクニックはスケーラブルではない。 IoT問題に目を向ける別の方法は、Stack Overflow(SO)のような主要なオンライン開発フォーラムに関するIoT開発者ディスカッションを見ることだ。 しかし、IoT関連の用語に分類されないことが多いため、IoT問題に関連する議論を見つけることは難しい。 本稿では,IoTセキュリティに関する議論に焦点をあてた,7147サンプルのドメイン固有のデータセットである“IoT Security Dataset”を紹介する。 これらのサンプルをラベル付ける自動ツールがないので、手動でラベルを付けました。 セキュリティの議論を自動的に検出するために,複数のトランスフォーマーモデルも採用した。 厳格な調査を通じて、IoTセキュリティの議論は従来のセキュリティの議論とは異なる、より複雑であることがわかった。 我々は、汎用データセット"Opiner"から知識を移行した際、ドメイン間データセット上でのトランスフォーマーモデルの大幅なパフォーマンス損失(最大44%)を実証した。 したがって、F1スコア0.69のドメイン固有のIoTセキュリティ検出器を構築しました。 私たちは、開発者がセキュリティに関する議論についてもっと学び、ベンダーが製品のセキュリティに関する懸念を強化することを期待して、データセットを公開しました。

The Internet of Things (IoT) is an emerging concept that directly links to the billions of physical items, or "things", that are connected to the Internet and are all gathering and exchanging information between devices and systems. However, IoT devices were not built with security in mind, which might lead to security vulnerabilities in a multi-device system. Traditionally, we investigated IoT issues by polling IoT developers and specialists. This technique, however, is not scalable since surveying all IoT developers is not feasible. Another way to look into IoT issues is to look at IoT developer discussions on major online development forums like Stack Overflow (SO). However, finding discussions that are relevant to IoT issues is challenging since they are frequently not categorized with IoT-related terms. In this paper, we present the "IoT Security Dataset", a domain-specific dataset of 7147 samples focused solely on IoT security discussions. As there are no automated tools to label these samples, we manually labeled them. We further employed multiple transformer models to automatically detect security discussions. Through rigorous investigations, we found that IoT security discussions are different and more complex than traditional security discussions. We demonstrated a considerable performance loss (up to 44%) of transformer models on cross-domain datasets when we transferred knowledge from a general-purpose dataset "Opiner", supporting our claim. Thus, we built a domain-specific IoT security detector with an F1-Score of 0.69. We have made the dataset public in the hope that developers would learn more about the security discussion and vendors would enhance their concerns about product security.
翻訳日:2022-08-01 13:30:42 公開日:2022-07-29
# 拡張サンプリングシミュレーションによる集合変数の重み付け多様体学習

Reweighted Manifold Learning of Collective Variables from Enhanced Sampling Simulations ( http://arxiv.org/abs/2207.14554v1 )

ライセンス: Link先を確認
Jakub Rydzewski, Ming Chen, Tushar K. Ghosh, Omar Valsson(参考訳) 拡張サンプリング法は計算物理学や化学において不可欠であり、原子論的シミュレーションではサンプリング問題のために力学系の高次元構成空間を徹底的にサンプリングすることはできない。 このような強化されたサンプリング手法のクラスは、少数の遅い自由度、いわゆる集合変数(CV)を特定し、これらのCVに沿ってサンプリングを強化することで機能する。 サンプリングを分析・駆動するためにCVを選択することは簡単ではなく、物理的および化学的直観に依存していることが多い。 標準シミュレーションから直接CVを推定するために多様体学習を用いてこの問題を日常的に回避するが、そのような手法は、学習された多様体の幾何学と密度が偏っているため、強化されたサンプリングシミュレーションから低次元多様体への写像を与えることはできない。 本稿では,この課題に対処し,学習データセットがバイアス付き確率分布からサンプル化されていることを考慮し,多様体学習のための異方性拡散マップに基づく一般的な重み付けフレームワークを提供する。 高次元サンプル間の遷移確率を記述するマルコフ連鎖の構築に基づく多様体学習法を考える。 この枠組みは平衡密度を正確に記述したCVを生じるバイアス効果を逆転させることを示す。 この進歩により、強化サンプリングシミュレーションにより生成されたデータから直接多様体学習を用いて低次元CVを構築することができる。 私たちはフレームワークを多様体学習と呼びます。 標準および改良されたサンプリングシミュレーションから得られたデータについて,多くの多様体学習手法で利用できることを示す。

Enhanced sampling methods are indispensable in computational physics and chemistry, where atomistic simulations cannot exhaustively sample the high-dimensional configuration space of dynamical systems due to the sampling problem. A class of such enhanced sampling methods works by identifying a few slow degrees of freedom, termed collective variables (CVs), and enhancing the sampling along these CVs. Selecting CVs to analyze and drive the sampling is not trivial and often relies on physical and chemical intuition. Despite routinely circumventing this issue using manifold learning to estimate CVs directly from standard simulations, such methods cannot provide mappings to a low-dimensional manifold from enhanced sampling simulations as the geometry and density of the learned manifold are biased. Here, we address this crucial issue and provide a general reweighting framework based on anisotropic diffusion maps for manifold learning that takes into account that the learning data set is sampled from a biased probability distribution. We consider manifold learning methods based on constructing a Markov chain describing transition probabilities between high-dimensional samples. We show that our framework reverts the biasing effect yielding CVs that correctly describe the equilibrium density. This advancement enables the construction of low-dimensional CVs using manifold learning directly from data generated by enhanced sampling simulations. We call our framework reweighted manifold learning. We show that it can be used in many manifold learning techniques on data from both standard and enhanced sampling simulations.
翻訳日:2022-08-01 13:30:16 公開日:2022-07-29
# チャネルデコーディングのためのグラフニューラルネットワーク

Graph Neural Networks for Channel Decoding ( http://arxiv.org/abs/2207.14742v1 )

ライセンス: Link先を確認
Sebastian Cammerer, Jakob Hoydis, Fay\c{c}al A\"it Aoudia, and Alexander Keller(参考訳) 本研究では,低密度パリティチェック(LDPC)やBCH符号など,様々な符号化方式において,チャネル復号化のための完全微分可能なグラフニューラルネットワーク(GNN)アーキテクチャを提案する。 ニューラルネットワーク(NN)は、ノードとエッジのメッセージ更新をトレーニング可能な関数に置き換えることで、フォワードエラー訂正(FEC)コード構造を表す所定のグラフ上で、一般化されたメッセージパッシングアルゴリズムを学習する。 他の深層学習に基づくデコーディング手法とは対照的に,提案手法は任意のブロック長に対するスケーラビリティを享受し,次元性の呪いによってトレーニングは制限されない。 提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。 63,45) の BCH 符号では,約 0.4 dB の重み付き信念伝播 (BP) 復号法よりもデコード繰り返しが著しく少なく,また 5G NR LDPC 符号においても従来の BP 復号法と比較して競合性能が向上する。 BCH符号では、結果として生じるGNNデコーダは9640重みで完全にパラメータ化できる。

In this work, we propose a fully differentiable graph neural network (GNN)-based architecture for channel decoding and showcase competitive decoding performance for various coding schemes, such as low-density parity-check (LDPC) and BCH codes. The idea is to let a neural network (NN) learn a generalized message passing algorithm over a given graph that represents the forward error correction (FEC) code structure by replacing node and edge message updates with trainable functions. Contrary to many other deep learning-based decoding approaches, the proposed solution enjoys scalability to arbitrary block lengths and the training is not limited by the curse of dimensionality. We benchmark our proposed decoder against state-of-the-art in conventional channel decoding as well as against recent deep learning-based results. For the (63,45) BCH code, our solution outperforms weighted belief propagation (BP) decoding by approximately 0.4 dB with significantly less decoding iterations and even for 5G NR LDPC codes, we observe a competitive performance when compared to conventional BP decoding. For the BCH codes, the resulting GNN decoder can be fully parametrized with only 9640 weights.
翻訳日:2022-08-01 13:29:55 公開日:2022-07-29
# 3次元地震インバージョンのためのエンコーダデコーダアーキテクチャ

Encoder-Decoder Architecture for 3D Seismic Inversion ( http://arxiv.org/abs/2207.14789v1 )

ライセンス: Link先を確認
Maayan Gelboim, Amir Adler, Yen Sun, Mauricio Araya-Polo(参考訳) フルウェーブフォーム・インバージョン (Full Waveform Inversion, FWI) などの業界標準ツールが要求するように, 地震データを3次元の地質構造に変換することは, 取得した地震データの圧倒的な量と, 波動方程式の反復的数値解による非常に高い計算負荷による課題である。 例えば、表面寸法 4.5km$\times$ 4.5km の領域では、3dモデル再構成のために数百個の地震シュートゲザーキューブが必要となり、テラバイトのデータが記録される。 本稿では,地震探査で記録された音の存在下でのリアルな3次元モデルの再構築のためのディープラーニングソリューションを提案する。 我々は,数百のシュートガザキューブの集合全体を効率的に処理する畳み込みエンコーダデコーダアーキテクチャを実装し,解析する。 提案手法は,10dB信号対雑音比の場雑音の存在下で,構造類似度指標(SSIM)を0.8554(1.0点中)で再現可能であることを示す。

Inverting seismic data to build 3D geological structures is a challenging task due to the overwhelming amount of acquired seismic data, and the very-high computational load due to iterative numerical solutions of the wave equation, as required by industry-standard tools such as Full Waveform Inversion (FWI). For example, in an area with surface dimensions of 4.5km $\times$ 4.5km, hundreds of seismic shot-gather cubes are required for 3D model reconstruction, leading to Terabytes of recorded data. This paper presents a deep learning solution for the reconstruction of realistic 3D models in the presence of field noise recorded in seismic surveys. We implement and analyze a convolutional encoder-decoder architecture that efficiently processes the entire collection of hundreds of seismic shot-gather cubes. The proposed solution demonstrates that realistic 3D models can be reconstructed with a structural similarity index measure (SSIM) of 0.8554 (out of 1.0) in the presence of field noise at 10dB signal-to-noise ratio.
翻訳日:2022-08-01 13:29:31 公開日:2022-07-29
# 3次元多重物体追跡タスク(3d-mot)の異なる相における脳波神経振動の有意な変化は注意と作業記憶の異なる役割を暗示している

Significant changes in EEG neural oscillations during different phases of three-dimensional multiple object tracking task (3D-MOT) imply different roles for attention and working memory ( http://arxiv.org/abs/2207.14470v1 )

ライセンス: Link先を確認
Yannick Roy, Jocelyn Faubert(参考訳) ダイナミックな環境で複数のオブジェクトを追跡することで、運転、チームスポーツ、混雑したモールでの歩行といった日常的なタスクを実行できます。 複数物体追跡(MOT)タスクに関する30年以上にわたる文献にもかかわらず、基礎的かつ相互に絡み合った神経機構はいまだに理解されていない。 ここでは3d-motタスクの3段階(識別、追跡、リコール)における脳波(eeg)の関連と変化について検討した。 1, 2, 3のターゲットで3d-motタスクを実行している間に,24名の被験者の脳波を記録した。 我々は、追跡からリコールまでの作業中の注意と作業中のメモリプロセスの相違点を観察した。 以上より,追跡中に前頭領域からのデルタ周波数とテタ周波数が強く抑制され,リコール時に同じ周波数が強い(再)アクティベーションを示した。 また, 追跡中ではなく, 識別相とリコール相の両方において, 横行性遅延活性 (CDA) が認められた。

Our ability to track multiple objects in a dynamic environment enables us to perform everyday tasks such as driving, playing team sports, and walking in a crowded mall. Despite more than three decades of literature on multiple object tracking (MOT) tasks, the underlying and intertwined neural mechanisms remain poorly understood. Here we looked at the electroencephalography (EEG) neural correlates and their changes across the three phases of a 3D-MOT task, namely identification, tracking and recall. We recorded the EEG activity of 24 participants while they were performing a 3D-MOT task with either 1, 2 or 3 targets where some trials were lateralized and some were not. We observed what seems to be a handoff between focused attention and working memory processes when going from tracking to recall. Our findings revealed a strong inhibition in delta and theta frequencies from the frontal region during tracking, followed by a strong (re)activation of these same frequencies during recall. Our results also showed contralateral delay activity (CDA) for the lateralized trials, in both the identification and recall phases but not during tracking.
翻訳日:2022-08-01 13:26:19 公開日:2022-07-29
# 循環政策蒸留:サンプル効率の良いsim-to-real強化学習とドメインランダム化

Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization ( http://arxiv.org/abs/2207.14561v1 )

ライセンス: Link先を確認
Yuki Kadokawa, Lingwei Zhu, Yoshihisa Tsurumine, Takamitsu Matsubara(参考訳) ドメインランダム化による深層強化学習は、ランダム化された物理モデルとセンサーモデルパラメータを持つ様々なシミュレーションにおいて制御ポリシーを学習し、ゼロショット設定で現実世界に転送できる。 しかしながら、ポリシー更新の不安定性のため、ランダム化されたパラメータの範囲が広範囲である場合、効果的なポリシーを学ぶために多くのサンプルが必要となる。 この問題を軽減するために,循環政策蒸留法 (CPD) という試料効率の高い手法を提案する。 CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。 次に、対象のサブドメインを隣のサブドメインに周期的に移行させ、隣接するサブドメインの学習値や政策を単調なポリシー改善スキームで活用しながら、ローカルポリシーの学習を行う。 最後に、学習されたすべての地域政策は、sim-to-real転送のためのグローバルポリシーに蒸留される。 4つのタスク(openaigym と pusher のペンデュラム、mujoco のスイマー、ハーフチーター)と実際のロボットボール分散タスクを用いて、cpdの有効性とサンプル効率を実証した。

Deep reinforcement learning with domain randomization learns a control policy in various simulations with randomized physical and sensor model parameters to become transferable to the real world in a zero-shot setting. However, a huge number of samples are often required to learn an effective policy when the range of randomized parameters is extensive due to the instability of policy updates. To alleviate this problem, we propose a sample-efficient method named Cyclic Policy Distillation (CPD). CPD divides the range of randomized parameters into several small sub-domains and assigns a local policy to each sub-domain. Then, the learning of local policies is performed while {\it cyclically} transitioning the target sub-domain to neighboring sub-domains and exploiting the learned values/policies of the neighbor sub-domains with a monotonic policy-improvement scheme. Finally, all of the learned local policies are distilled into a global policy for sim-to-real transfer. The effectiveness and sample efficiency of CPD are demonstrated through simulations with four tasks (Pendulum from OpenAIGym and Pusher, Swimmer, and HalfCheetah from Mujoco), and a real-robot ball-dispersal task.
翻訳日:2022-08-01 13:25:57 公開日:2022-07-29
# キャッシュ対応ローカル更新による通信効率の高い垂直フェデレーション学習

Towards Communication-efficient Vertical Federated Learning Training via Cache-enabled Local Updates ( http://arxiv.org/abs/2207.14628v1 )

ライセンス: Link先を確認
Fangcheng Fu, Xupeng Miao, Jiawei Jiang, Huanran Xue, Bin Cui(参考訳) Vertical Federated Learning(VFL)は、さまざまなパーティ(組織や企業など)がプライバシ保護を備えた機械学習モデルの共同構築を可能にする、新たなパラダイムである。 トレーニングフェーズでは、VFLは中間統計量、すなわち前方アクティベーションと後方デリバティブを当事者間でのみ交換し、モデル勾配を計算する。 しかしながら、地理的に分散した性質のため、VFLトレーニングは通常、低いWAN帯域幅に悩まされる。 本稿では,ローカル更新技術を利用して,サードパーティ間通信ラウンドの削減を図る,新しい,効率的なVFLトレーニングフレームワークであるCELU-VFLを紹介する。 CELU-VFLは古い統計データをキャッシュし、アドホック統計を交換することなくモデル勾配を推定するために再利用する。 収束性能を向上させるために重要な技術が提案されている。 まず,確率的分散問題に対処するために,局所更新の定常統計を公平に選択する一様サンプリング戦略を提案する。 次に, 定常性によって生じる誤差を活用するために, 推定勾配の信頼性を測定するインスタンス重み付け機構を考案する。 理論的解析により、CELU-VFLはバニラVFL訓練と同様のサブ線形収束速度を達成するが、通信ラウンドははるかに少ないことが証明される。 公開および実世界のワークロードにおける実証的な結果は、CELU-VFLが既存の作業の最大6倍高速であることを検証する。

Vertical federated learning (VFL) is an emerging paradigm that allows different parties (e.g., organizations or enterprises) to collaboratively build machine learning models with privacy protection. In the training phase, VFL only exchanges the intermediate statistics, i.e., forward activations and backward derivatives, across parties to compute model gradients. Nevertheless, due to its geo-distributed nature, VFL training usually suffers from the low WAN bandwidth. In this paper, we introduce CELU-VFL, a novel and efficient VFL training framework that exploits the local update technique to reduce the cross-party communication rounds. CELU-VFL caches the stale statistics and reuses them to estimate model gradients without exchanging the ad hoc statistics. Significant techniques are proposed to improve the convergence performance. First, to handle the stochastic variance problem, we propose a uniform sampling strategy to fairly choose the stale statistics for local updates. Second, to harness the errors brought by the staleness, we devise an instance weighting mechanism that measures the reliability of the estimated gradients. Theoretical analysis proves that CELU-VFL achieves a similar sub-linear convergence rate as vanilla VFL training but requires much fewer communication rounds. Empirical results on both public and real-world workloads validate that CELU-VFL can be up to six times faster than the existing works.
翻訳日:2022-08-01 13:25:35 公開日:2022-07-29
# gpuアクセラレーションによる安定映像の音源同定

GPU-accelerated SIFT-aided source identification of stabilized videos ( http://arxiv.org/abs/2207.14507v1 )

ライセンス: Link先を確認
Andrea Montibeller, Cecilia Pasquini, Giulia Boato, Stefano Dell'Anna, Fernando P\'erez-Gonz\'alez(参考訳) ビデオ安定化(英: Video stabilization)は、現代の取得装置で一般的に用いられるカメラ内処理である。 映像の視覚的品質は著しく向上するが、このような操作は典型的にはビデオ信号の法医学的解析を妨げることが示されている。 実際、通常、フォトレスポンス非均一性(PRNU)に基づく取得源の正確な識別は、安定化相の各フレームに適用された変換を推定する。 この問題に対処するためのいくつかの手法が提案されているが、一般的には逆パラメータの空間におけるグリッド探索による計算負荷が大きい。 我々の研究は、安定化フレーム反転のフレームワークにおいて、一般的にディープラーニングアプリケーションに使用されるGPU(Graphics Processing Units)の並列化機能を活用することで、これらの欠点を軽減しようと試みている。 さらに,カメラの運動量の推定にsift特徴を活用し,安定性の低い時間セグメントを同定し,より正確な識別分析を可能にし,連続フレームのフレーム毎パラメータ探索を効率的に初期化する。 統合ベンチマークデータセットの実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。 コードは \url{https://github.com/AMontiB/GPU-PRNU-SIFT}} で公開されている。

Video stabilization is an in-camera processing commonly applied by modern acquisition devices. While significantly improving the visual quality of the resulting videos, it has been shown that such operation typically hinders the forensic analysis of video signals. In fact, the correct identification of the acquisition source usually based on Photo Response non-Uniformity (PRNU) is subject to the estimation of the transformation applied to each frame in the stabilization phase. A number of techniques have been proposed for dealing with this problem, which however typically suffer from a high computational burden due to the grid search in the space of inversion parameters. Our work attempts to alleviate these shortcomings by exploiting the parallelization capabilities of Graphics Processing Units (GPUs), typically used for deep learning applications, in the framework of stabilised frames inversion. Moreover, we propose to exploit SIFT features {to estimate the camera momentum and} %to identify less stabilized temporal segments, thus enabling a more accurate identification analysis, and to efficiently initialize the frame-wise parameter search of consecutive frames. Experiments on a consolidated benchmark dataset confirm the effectiveness of the proposed approach in reducing the required computational time and improving the source identification accuracy. {The code is available at \url{https://github.com/AMontiB/GPU-PRNU-SIFT}}.
翻訳日:2022-08-01 13:24:35 公開日:2022-07-29
# 画像・映像符号化のための低複素loeffler dct近似

Low-Complexity Loeffler DCT Approximations for Image and Video Coding ( http://arxiv.org/abs/2207.14463v1 )

ライセンス: Link先を確認
D. F. G. Coelho, R. J. Cintra, F. M. Bayer, S. Kulasekera, A. Madanayake, P. A. C. Martinez, T. L. T. Silveira, R. S. Oliveira, V. S. Dimitrov(参考訳) 本稿では,loeffler discrete cosine transform (dct) アルゴリズムに基づく行列パラメトリゼーション法を提案する。 その結果,8点DCT近似の新しいクラスが提案され,文献にアーカイブされた数個の8点DCT近似の数学的定式化が可能となった。 パレート効率のDCT近似は、計算複雑性、近接性、符号化性能を考慮した多重基準最適化によって得られる。 効率的な近似と16点および32点のスケールバージョンは、JPEGライクなコーデックやH.264/AVC、H.265/HEVC標準を含む画像およびビデオエンコーダに埋め込まれている。 結果は修正されていない標準コーデックと比較される。 効率的な近似を Xilinx VLX240T FPGA 上にマッピングして実装し,面積,速度,消費電力を評価する。

This paper introduced a matrix parametrization method based on the Loeffler discrete cosine transform (DCT) algorithm. As a result, a new class of eight-point DCT approximations was proposed, capable of unifying the mathematical formalism of several eight-point DCT approximations archived in the literature. Pareto-efficient DCT approximations are obtained through multicriteria optimization, where computational complexity, proximity, and coding performance are considered. Efficient approximations and their scaled 16- and 32-point versions are embedded into image and video encoders, including a JPEG-like codec and H.264/AVC and H.265/HEVC standards. Results are compared to the unmodified standard codecs. Efficient approximations are mapped and implemented on a Xilinx VLX240T FPGA and evaluated for area, speed, and power consumption.
翻訳日:2022-08-01 13:24:16 公開日:2022-07-29
# fcsn:医療画像における物体のフーリエ係数の学習によるグローバルコンテキスト認識セグメンテーション

FCSN: Global Context Aware Segmentation by Learning the Fourier Coefficients of Objects in Medical Images ( http://arxiv.org/abs/2207.14477v1 )

ライセンス: Link先を確認
Young Seok Jeon, Hongfei Yang, Mengling Feng(参考訳) エンコーダ・デコーダモデル(encoder-decoder model)は、医療画像セグメンテーションに用いられるディープニューラルネットワーク(DNN)モデルである。 従来のエンコーダ-デコーダモデルは、ピクセル周辺の局所パターンに重点を置いたピクセル単位での予測を行う。 これにより、オブジェクトの形状とトポロジを保存するセグメンテーションを与えることが難しくなり、オブジェクトの全体的コンテキストを理解することがしばしば必要となる。 本研究では,物体のマスクの複雑なフーリエ係数を学習することにより物体をセグメント化する新しいDNNモデルであるFourier Coefficient Segmentation Network~(FCSN)を提案する。 フーリエ係数は輪郭全体の積分によって計算される。 そこで,本モデルが係数の正確な推定を行うためには,対象物の大域的文脈を組み込むことを動機として,対象物の形状のより正確なセグメンテーションを行う。 このグローバルな文脈認識により、医療画像によく見られる付加的なノイズや動きのぼかしなど、推論中の局所的な摂動に頑健なモデルがもたらされる。 FCSNが3つの医療画像セグメンテーションタスク(ISIC\_2018, RIM\_CUP, RIM\_DISC)の他の最先端モデル(UNet+, DeepLabV3+, UNETR)と比較された場合、FCSNは3つのタスクのハウスドルフスコアを19.14 (6\%), 17.42 (6\%), 9.16 (14\%) と大きく低下させる。 さらに、FCSNはデコーダモジュールを破棄することで軽量になり、計算オーバーヘッドが大幅に増大する。 FCSN は UNETR や DeepLabV3+ よりも 22.2M のパラメータ、82M と 10M のパラメータしか必要としない。 FCSNは1.6ms/imgと6.3ms/imgの推論とトレーニング速度を実現しており、これはUNetやUNETRよりも高速な8$\times$と3$\times$である。

The encoder-decoder model is a commonly used Deep Neural Network (DNN) model for medical image segmentation. Conventional encoder-decoder models make pixel-wise predictions focusing heavily on local patterns around the pixel. This makes it challenging to give segmentation that preserves the object's shape and topology, which often requires an understanding of the global context of the object. In this work, we propose a Fourier Coefficient Segmentation Network~(FCSN) -- a novel DNN-based model that segments an object by learning the complex Fourier coefficients of the object's masks. The Fourier coefficients are calculated by integrating over the whole contour. Therefore, for our model to make a precise estimation of the coefficients, the model is motivated to incorporate the global context of the object, leading to a more accurate segmentation of the object's shape. This global context awareness also makes our model robust to unseen local perturbations during inference, such as additive noise or motion blur that are prevalent in medical images. When FCSN is compared with other state-of-the-art models (UNet+, DeepLabV3+, UNETR) on 3 medical image segmentation tasks (ISIC\_2018, RIM\_CUP, RIM\_DISC), FCSN attains significantly lower Hausdorff scores of 19.14 (6\%), 17.42 (6\%), and 9.16 (14\%) on the 3 tasks, respectively. Moreover, FCSN is lightweight by discarding the decoder module, which incurs significant computational overhead. FCSN only requires 22.2M parameters, 82M and 10M fewer parameters than UNETR and DeepLabV3+. FCSN attains inference and training speeds of 1.6ms/img and 6.3ms/img, that is 8$\times$ and 3$\times$ faster than UNet and UNETR.
翻訳日:2022-08-01 13:21:22 公開日:2022-07-29
# 学習画像圧縮の実践性評価

Evaluating the Practicality of Learned Image Compression ( http://arxiv.org/abs/2207.14524v1 )

ライセンス: Link先を確認
Hongjiu Yu, Qiancheng Sun, Jin Hu, Xingyuan Xue, Jixiang Luo, Dailan He, Yilong Li, Pengbo Wang, Yuanyuan Wang, Yaxu Dai, Yan Wang, Hongwei Qin(参考訳) 学習画像圧縮は従来の手法と比較してPSNRやMS-SSIMでは異常な速度歪み性能を達成している。 しかし、これは実世界のアプリケーションには耐え難い計算に悩まされ、現時点ではその限られた産業用途に繋がる。 本稿では,低レイテンシで効率的なネットワークを設計するためにニューラルネットワーク検索(nas)を導入し,量子化を利用して推論プロセスを高速化する。 一方、マルチスレッドやSIMDのようなエンジニアリングの取り組みは効率を向上させるために行われてきた。 視力向上のためにPSNRとMS-SSIMのハイブリッド損失を最適化し,すべてのビットレートでJPEG,JPEG XL,AVIFよりもはるかに高いMS-SSIM,JPEG XLとAVIFのPSNRを得る。 我々のソフトウェア実装は、JPEG XL や AVIF の何倍も高速でありながら、jpeg-turbo と同等またはそれ以上高速な推論速度を実現している。 さらに,符号化には145fps,1080pイメージにはTesla T4 GPUのデコードには208fpsのスループットを実現しています。 CPUでは、実装のレイテンシはJPEG XLと同等です。

Learned image compression has achieved extraordinary rate-distortion performance in PSNR and MS-SSIM compared to traditional methods. However, it suffers from intensive computation, which is intolerable for real-world applications and leads to its limited industrial application for now. In this paper, we introduce neural architecture search (NAS) to designing more efficient networks with lower latency, and leverage quantization to accelerate the inference process. Meanwhile, efforts in engineering like multi-threading and SIMD have been made to improve efficiency. Optimized using a hybrid loss of PSNR and MS-SSIM for better visual quality, we obtain much higher MS-SSIM than JPEG, JPEG XL and AVIF over all bit rates, and PSNR between that of JPEG XL and AVIF. Our software implementation of LIC achieves comparable or even faster inference speed compared to jpeg-turbo while being multiple times faster than JPEG XL and AVIF. Besides, our implementation of LIC reaches stunning throughput of 145 fps for encoding and 208 fps for decoding on a Tesla T4 GPU for 1080p images. On CPU, the latency of our implementation is comparable with JPEG XL.
翻訳日:2022-08-01 13:20:41 公開日:2022-07-29
# 学習形状制御による深部変形型3次元似顔絵

Deep Deformable 3D Caricatures with Learned Shape Control ( http://arxiv.org/abs/2207.14593v1 )

ライセンス: Link先を確認
Yucheol Jung, Wonjong Jang, Soongjin Kim, Jiaolong Yang, Xin Tong, Seungyong Lee(参考訳) 3D似顔絵は、人間の顔の誇張された3D描写である。 本稿では, コンパクトパラメータ空間における3次元キャラクチュアのバリエーションをモデル化し, 3次元キャラクチュア変形を扱うための有用なデータ駆動ツールキットを提供する。 この目的を達成するために,遅延コードを取り,3次元曲面を生成する変形可能な曲面モデルを構築するためのmlpベースのフレームワークを提案する。 このフレームワークでは、SIREN MLPは、固定されたテンプレート表面に3D位置を取り、入力位置に対して3D変位ベクトルを返す関数をモデル化する。 我々は,潜伏符号を学習し,MLPのパラメータを生成することで,3次元曲面のバリエーションを生成する。 一度学習すると、変形可能なモデルは、ラベルベースのセマンティック編集とポイントハンドルベースの変形をサポートし、高度に誇張された自然の3d似顔絵を生成できる3d似顔絵の編集スペースを提供します。 また, 自動3D画像生成など, 変形可能なモデルの他の応用も示す。

A 3D caricature is an exaggerated 3D depiction of a human face. The goal of this paper is to model the variations of 3D caricatures in a compact parameter space so that we can provide a useful data-driven toolkit for handling 3D caricature deformations. To achieve the goal, we propose an MLP-based framework for building a deformable surface model, which takes a latent code and produces a 3D surface. In the framework, a SIREN MLP models a function that takes a 3D position on a fixed template surface and returns a 3D displacement vector for the input position. We create variations of 3D surfaces by learning a hypernetwork that takes a latent code and produces the parameters of the MLP. Once learned, our deformable model provides a nice editing space for 3D caricatures, supporting label-based semantic editing and point-handle-based deformation, both of which produce highly exaggerated and natural 3D caricature shapes. We also demonstrate other applications of our deformable model, such as automatic 3D caricature creation.
翻訳日:2022-08-01 13:20:21 公開日:2022-07-29
# WISE:例ベースの学習によるホワイトボックス画像スティル化

WISE: Whitebox Image Stylization by Example-based Learning ( http://arxiv.org/abs/2207.14606v1 )

ライセンス: Link先を確認
Winfried L\"otzsch, Max Reimann, Martin B\"ussemeyer, Amir Semmo, J\"urgen D\"ollner, Matthias Trapp(参考訳) 画像に基づく芸術的レンダリングは、アルゴリズムによる画像フィルタリングを用いて様々な表現スタイルを合成することができる。 深層学習法とは対照的に、これらのヒューリスティックスに基づくフィルタリング技術は高解像度の画像を操作でき、解釈可能であり、様々な設計面に応じてパラメータ化できる。 しかし、これらのテクニックを新しいスタイルに適応または拡張することは、しばしば、専門家の知識を必要とする退屈でエラーやすいタスクである。 特定の参照スタイルに沿ったパラメトリゼーションを学習できる微分可能操作として、アルゴリズムによるイメージフィルタリング技術を実装する。 そこで本稿では,水彩画,油彩画,カートゥーンスタイライゼーションなどの多種多様なスタイライゼーションを共通の枠組みで処理可能な,サンプルベースの画像処理システムであるワイズを提案する。 グローバルおよびローカルなフィルタパラメータ化のためのパラメータ予測ネットワークをトレーニングすることにより、参照スタイルや画像の内容に同時に適応し、顔の特徴を高めることができる。 本手法は、スタイル変換フレームワークで最適化するか、画像から画像への変換のための生成的逆設定で学習することができる。 ポストプロセッシングのためのXDoGフィルタとCNNを共同でトレーニングすることで,最先端のGAN方式に匹敵する結果が得られることを示す。

Image-based artistic rendering can synthesize a variety of expressive styles using algorithmic image filtering. In contrast to deep learning-based methods, these heuristics-based filtering techniques can operate on high-resolution images, are interpretable, and can be parameterized according to various design aspects. However, adapting or extending these techniques to produce new styles is often a tedious and error-prone task that requires expert knowledge. We propose a new paradigm to alleviate this problem: implementing algorithmic image filtering techniques as differentiable operations that can learn parametrizations aligned to certain reference styles. To this end, we present WISE, an example-based image-processing system that can handle a multitude of stylization techniques, such as watercolor, oil or cartoon stylization, within a common framework. By training parameter prediction networks for global and local filter parameterizations, we can simultaneously adapt effects to reference styles and image content, e.g., to enhance facial features. Our method can be optimized in a style-transfer framework or learned in a generative-adversarial setting for image-to-image translation. We demonstrate that jointly training an XDoG filter and a CNN for postprocessing can achieve comparable results to a state-of-the-art GAN-based method.
翻訳日:2022-08-01 13:20:03 公開日:2022-07-29
# 冠状血管樹のグラフ理論による探索

A Graph Theoretic Exploration of Coronary Vascular Trees ( http://arxiv.org/abs/2207.14624v1 )

ライセンス: Link先を確認
Jay Aodh Mackenzie(参考訳) 本研究の目的は,冠状動脈網を表わす大点雲から小さな冠状血管網を自動生成することであった。 予測可能な方法で生成可能なより小さなネットワークは、例えば血行動態シミュレーションにおける血流に対するネットワーク形態計測の影響を評価するのに使うことができる。 我々は,大点雲から冠状血管ネットワークを生成するアルゴリズムを開発した。 これらのアルゴリズムはポイントクラウドをソートし、情報損失のないネットワーク構造を単純化し、与えられた生理学的に意味のあるパラメータに基づいてサブグラフを生成する。 データはもともと光学蛍光クリオマイクロトーム画像から収集され、ここで使用される前に処理された。

The aim of this study was to automate the generation of small coronary vascular networks from large point clouds that represent the coronary arterial network. Smaller networks that can be generated in a predictable manner can be used to assess the impact of network morphometry on, for example, blood flow in hemodynamic simulations. We develop a set of algorithms for generating coronary vascular networks from large point clouds. These algorithms sort the point cloud, simplify its network structure without information loss, and produce subgraphs based on given, physiologically meaningful parameters. The data were originally collected from optical fluorescence cryomicrotome images and processed before their use here.
翻訳日:2022-08-01 13:19:41 公開日:2022-07-29
# off-grid: 3次元血管モデリングのための連続的暗黙的神経表現

Going Off-Grid: Continuous Implicit Neural Representations for 3D Vascular Modeling ( http://arxiv.org/abs/2207.14663v1 )

ライセンス: Link先を確認
Dieuwertje Alblas, Christoph Brune, Kak Khee Yeung, Jelmer M. Wolterink(参考訳) パーソナライズド3D血管モデルは、心血管疾患患者の診断、予後、治療計画に有用である。 伝統的に、そのようなモデルはメッシュやボクセルマスクのような明示的な表現や、放射基底関数や原子(管状)形状のような暗黙的な表現で構築されてきた。 本稿では, 符号付き距離関数 (SDF) のゼロレベルセットを用いて, 微分可能な暗黙的ニューラル表現 (INR) で表面を表現することを提案する。 これにより、暗黙的で、連続的で、軽量で、ディープラーニングアルゴリズムと統合しやすい表現で、複雑な血管構造をモデル化できます。 ここでは3つの実例でこのアプローチの可能性を実証する。 まず,腹部大動脈瘤 (AAA) のCT像から, 腹部大動脈瘤 (AAA) の精密かつ水密な表面を抽出し, 表面上の200点以上から頑健な適合性を示した。 第2に,交点のない単一のINRにネスト容器壁を同時に嵌合させる。 第3に,個々の動脈の3dモデルが,単一の水密面にスムーズにブレンドできることを示す。 以上の結果から,inrsは,複雑な血管構造のアノテーションや操作が最小限に抑えられる柔軟な表現であることが示された。

Personalised 3D vascular models are valuable for diagnosis, prognosis and treatment planning in patients with cardiovascular disease. Traditionally, such models have been constructed with explicit representations such as meshes and voxel masks, or implicit representations such as radial basis functions or atomic (tubular) shapes. Here, we propose to represent surfaces by the zero level set of their signed distance function (SDF) in a differentiable implicit neural representation (INR). This allows us to model complex vascular structures with a representation that is implicit, continuous, light-weight, and easy to integrate with deep learning algorithms. We here demonstrate the potential of this approach with three practical examples. First, we obtain an accurate and watertight surface for an abdominal aortic aneurysm (AAA) from CT images and show robust fitting from as little as 200 points on the surface. Second, we simultaneously fit nested vessel walls in a single INR without intersections. Third, we show how 3D models of individual arteries can be smoothly blended into a single watertight surface. Our results show that INRs are a flexible representation with potential for minimally interactive annotation and manipulation of complex vascular structures.
翻訳日:2022-08-01 13:19:31 公開日:2022-07-29
# 原画像バーストからの高ダイナミックレンジと超解像

High Dynamic Range and Super-Resolution from Raw Image Bursts ( http://arxiv.org/abs/2207.14671v1 )

ライセンス: Link先を確認
Bruno Lecouat, Thomas Eboli, Jean Ponce, Julien Mairal(参考訳) スマートフォンや中距離カメラで撮影された写真は、空間解像度とダイナミックレンジが限られており、未露出領域でのノイズ応答と飽和領域のカラーアーティファクトがある。 本稿では,手持ちカメラによる露光ブラケットで撮影した原写真からの高分解能・高ダイナミックレンジカラー画像の再構成への(私たちの知る限り)最初のアプローチを紹介する。 本手法では,物理的に正確な画像形成モデルを用いて,対応する逆問題を解く反復最適化アルゴリズムと,ロバストアライメントのための学習画像表現と学習自然画像とを結合する。 提案されたアルゴリズムは高速で、画像復元に対する最先端の学習ベースのアプローチと比較して、メモリ要件が低く、合成的で現実的なデータからエンドツーエンドに学習される特徴がある。 広範囲な実験により、手持ちカメラで野生で撮影した実写真に最大$\times 4$の超解像度係数、低照度条件、ノイズ、カメラシェイク、適度な物体の動きに対する高い堅牢性が実証された。

Photographs captured by smartphones and mid-range cameras have limited spatial resolution and dynamic range, with noisy response in underexposed regions and color artefacts in saturated areas. This paper introduces the first approach (to the best of our knowledge) to the reconstruction of high-resolution, high-dynamic range color images from raw photographic bursts captured by a handheld camera with exposure bracketing. This method uses a physically-accurate model of image formation to combine an iterative optimization algorithm for solving the corresponding inverse problem with a learned image representation for robust alignment and a learned natural image prior. The proposed algorithm is fast, with low memory requirements compared to state-of-the-art learning-based approaches to image restoration, and features that are learned end to end from synthetic yet realistic data. Extensive experiments demonstrate its excellent performance with super-resolution factors of up to $\times 4$ on real photographs taken in the wild with hand-held cameras, and high robustness to low-light conditions, noise, camera shake, and moderate object motion.
翻訳日:2022-08-01 13:19:10 公開日:2022-07-29
# 道路・トンネル走行におけるオンライン誤差推定とレーザースキャンマッチングの強化

Enhanced Laser-Scan Matching with Online Error Estimation for Highway and Tunnel Driving ( http://arxiv.org/abs/2207.14674v1 )

ライセンス: Link先を確認
Matthew McDermott, Jason Rife(参考訳) Lidarデータは、自動運転車やモバイルロボットプラットフォームのナビゲーションのためのポイントクラウドを生成するために使用できる。 スキャンマッチング(scan matching)は、2つの点の雲を最も整列させる剛性変換を推定するプロセスであり、lidarオドメトリーの基盤である。 ライダーオドメトリーは、GPSのような絶対的なセンサーが使えない場合に特に有用である。 本稿では,現在最先端の正規分布変換 (NDT) よりも2つの新しい改善点を提供するスキャンマッチングアルゴリズムであるイテレーティブ・クローズト・楕円形変換 (ICET) を提案する。 NDTと同様に、ICETはライダーデータをボクセルに分解し、各ボクセル内の点にガウス分布を適合させる。 ICETの最初の革新は、その方向に沿った解を抑えることにより、大きな平らな面に沿った幾何学的曖昧さを減らす。 ICETの第二の革新は、連続する点雲の位置と向きの変換に関連する出力誤差の共分散を推定することであり、この誤差共分散は、拡張カルマンフィルタのような状態推定ルーチンにICETを組み込んだ場合に特に有用である。 本研究では,2次元空間における icet と ndt の性能と幾何曖昧性の有無を比較したシミュレーションを行い,解の精度を精度良く予測しながら, icet が優れた推定値を生成することを見出した。

Lidar data can be used to generate point clouds for the navigation of autonomous vehicles or mobile robotics platforms. Scan matching, the process of estimating the rigid transformation that best aligns two point clouds, is the basis for lidar odometry, a form of dead reckoning. Lidar odometry is particularly useful when absolute sensors, like GPS, are not available. Here we propose the Iterative Closest Ellipsoidal Transform (ICET), a scan matching algorithm which provides two novel improvements over the current state-of-the-art Normal Distributions Transform (NDT). Like NDT, ICET decomposes lidar data into voxels and fits a Gaussian distribution to the points within each voxel. The first innovation of ICET reduces geometric ambiguity along large flat surfaces by suppressing the solution along those directions. The second innovation of ICET is to infer the output error covariance associated with the position and orientation transformation between successive point clouds; the error covariance is particularly useful when ICET is incorporated into a state-estimation routine such as an extended Kalman filter. We constructed a simulation to compare the performance of ICET and NDT in 2D space both with and without geometric ambiguity and found that ICET produces superior estimates while accurately predicting solution accuracy.
翻訳日:2022-08-01 13:18:48 公開日:2022-07-29
# Intensity Distribution Supervision を用いたCTスキャンにおける小病変分割の改善 : 小腸カルチノイド腫瘍への応用

Improving Small Lesion Segmentation in CT Scans using Intensity Distribution Supervision: Application to Small Bowel Carcinoid Tumor ( http://arxiv.org/abs/2207.14700v1 )

ライセンス: Link先を確認
Seung Yeon Shin, Thomas C. Shen, Stephen A. Wank, and Ronald M. Summers(参考訳) 小病変の発見は, 特徴の欠如, クラス不均衡, サイズ自体の異常が原因で, 極めて困難である。 小さな病変のセグメンテーションを改善する1つのアプローチは、関心領域を減らし、それを全領域に対して実行するよりも高い感度で検査することである。 通常、臓器と病変の連続的または共同的セグメンテーションとして実装され、臓器セグメンテーションのさらなる監督を必要とする。 そこで本研究では,対象病変の強度分布を付加的なラベル付けコストなしで利用し,背景から病変が検出可能な領域を効果的に分離することを提案する。 補助タスクとしてネットワークトレーニングに組み込まれている。 CT検査で小腸カルチノイド腫瘍の分画に本法を適用した。 全測定値(33.5%$\rightarrow$ 38.2%、41.3%$\rightarrow$ 47.8%、30.0%$\rightarrow$ 35.9%)がグローバル、ケース当たり、腫瘍単位スコアごとに改善した。 ) ベースライン法と比較し, 提案手法の有効性を検証した。 本手法は,ネットワークトレーニングにおいて対象の強度分布情報を明示的に組み込むための1つの方法である。

Finding small lesions is very challenging due to lack of noticeable features, severe class imbalance, as well as the size itself. One approach to improve small lesion segmentation is to reduce the region of interest and inspect it at a higher sensitivity rather than performing it for the entire region. It is usually implemented as sequential or joint segmentation of organ and lesion, which requires additional supervision on organ segmentation. Instead, we propose to utilize an intensity distribution of a target lesion at no additional labeling cost to effectively separate regions where the lesions are possibly located from the background. It is incorporated into network training as an auxiliary task. We applied the proposed method to segmentation of small bowel carcinoid tumors in CT scans. We observed improvements for all metrics (33.5% $\rightarrow$ 38.2%, 41.3% $\rightarrow$ 47.8%, 30.0% $\rightarrow$ 35.9% for the global, per case, and per tumor Dice scores, respectively.) compared to the baseline method, which proves the validity of our idea. Our method can be one option for explicitly incorporating intensity distribution information of a target in network training.
翻訳日:2022-08-01 13:18:23 公開日:2022-07-29
# 近似メッセージパッシングによるロバストな定量的サセプティビリティマッピング

Robust Quantitative Susceptibility Mapping via Approximate Message Passing ( http://arxiv.org/abs/2207.14709v1 )

ライセンス: Link先を確認
Shuai Huang, James J. Lah, Jason W. Allen, Deqiang Qiu(参考訳) 目的: 脳出血や石灰化の場合には, 雑音や強い局所感受性の変化によって引き起こされる位相誤差の存在下でQSMを回復することは困難である。 本稿では,2成分のガウス混合分布を用いて長周期雑音(エラー)分布をモデル化したQSMのベイズ的定式化と,自動および適応パラメータ推定による近似メッセージパッシング(AMP)アルゴリズムの設計を行う。 理論: 感受性写像のウェーブレット係数はラプラス分布に従う。 測定ノイズは、第2ガウス成分がノイズ外れ値をモデル化する2成分ガウス混合分布に従う。 分布パラメータは未知の変数として扱われ、AMPを用いて感受性とともに復元される。 手法: パラメータ推定を用いたAMP(AMP-PE)は,L1-normとL2-normのデータフィデリティ項をそれぞれ適用した,最先端の非線形L1-QSMおよびMEDIアプローチと比較する。 3つのアプローチは、qsm challenge 2.0のsim2snr1データ、健康診断と出血検査の両方のin vivoデータでテストされた。 結果:シミュレートされたSim2Snr1データセットでは,AMP-PEが最も低いNRMSEとSSIMを達成し,MEDIは最も低いHFENを達成した。 in vivoデータセットでは、AMP-PEは構造の詳細を保存し、L1-QSMやMEDIよりもストリーキングアーティファクトを除去する。 結語:前述したガウス混合雑音を利用して, AMP-PEは出血や石灰化を伴うQSM症例において, より優れた性能を発揮する。 生体内再構成の通常の視覚微調整ステップから主観バイアスを回避できる組み込みパラメータ推定機能を備えている。

Purpose: It has been challenging to recover QSM in the presence of phase errors, which could be caused by the noise or strong local susceptibility shifts in cases of brain hemorrhage and calcification. We propose a Bayesian formulation for QSM where a two-component Gaussian-mixture distribution is used to model the long-tailed noise (error) distribution, and design an approximate message passing (AMP) algorithm with automatic and adaptive parameter estimation. Theory: Wavelet coefficients of the susceptibility map follow the Laplace distribution. The measurement noise follows a two-component Gaussian-mixture distribution where the second Gaussian component models the noise outliers. The distribution parameters are treated as unknown variables and jointly recovered with the susceptibility using AMP. Methods: The proposed AMP with parameter estimation (AMP-PE) is compared with the state-of-the-art nonlinear L1-QSM and MEDI approaches that adopt the L1-norm and L2-norm data-fidelity terms respectively. The three approaches are tested on the Sim2Snr1 data from QSM challenge 2.0, the in vivo data from both healthy and hemorrhage scans. Results: On the simulated Sim2Snr1 dataset, AMP-PE achieved the lowest NRMSE and SSIM, MEDI achieved the lowest HFEN, and each approach also has its own strong suit when it comes to various local evaluation metrics. On the in vivo dataset, AMP-PE is better at preserving structural details and removing streaking artifacts than L1-QSM and MEDI. Conclusion: By leveraging a customized Gaussian-mixture noise prior, AMP-PE achieves better performance on the challenging QSM cases involving hemorrhage and calcification. It is equipped with built-in parameter estimation, which avoids subjective bias from the usual visual fine-tuning step of in vivo reconstruction.
翻訳日:2022-08-01 13:18:00 公開日:2022-07-29
# 重み制約された最短経路問題に対する拡張手法:双目的探索による制約付き経路探索

Enhanced Methods for the Weight Constrained Shortest Path Problem: Constrained Path Finding Meets Bi-objective Search ( http://arxiv.org/abs/2207.14744v1 )

ライセンス: Link先を確認
Saman Ahmadi, Guido Tack, Daniel Harabor, Philip Kilby(参考訳) textit{constrained path find}の古典的な問題は、コミュニケーションや輸送などさまざまな分野で幅広い応用があるAIにおいて、よく研究されているが難しいトピックである。 WCSPP(Weight Constrained Shortest Path Problem)は、一方の制約しか持たない制約経路の基本的な形として、重量/資源使用量に制限のあるコスト最適経路を計画することを目的としている。 この問題の双基準性(すなわちパスのコストと重みを扱う)を考えると、WCSPPに対処する手法は双対象探索と共通する性質を持つ。 本稿では,制約された経路探索と二目的探索の両面において,最近の最先端の A* に基づく手法を活用し,WCSPP に対する2つの厳密な解法を提案する。 我々は、新しい大規模かつ現実的な問題インスタンス群におけるアルゴリズムの性能を実証的に評価し、時間と空間のメトリクスの両方において最先端のアルゴリズムよりもその利点を示す。 本稿では,A*を用いた制約探索における優先度待ち行列の重要性についても検討する。 本稿では,実数グラフとランダム化グラフの両方について,結束のないバケットベースの待ち行列が,徹底的な二行探索のアルゴリズム性能を効果的に改善できることを示す。

The classic problem of \textit{constrained path finding} is a well-studied but yet challenging topic in AI with a broad range of applications in various areas such communication and transportation. The Weight Constrained Shortest Path Problem (WCSPP), as the base form of constrained path finding with only one side constraint, aims to plan a cost optimum path whose weight/resource usage is limited. Given the bi-criteria nature of the problem (i.e., dealing with cost and weight of paths), methods addressing the WCSPP have some common properties with bi-objective search. This paper leverages the recent state-of-the-art A*-based techniques in both constrained path finding and bi-objective search and presents two exact solution approaches to the WCSPP, both capable of solving hard problem instances on very large graphs. We empirically evaluate the performance of our algorithms on a new set of large and realistic problem instances and show their advantages over the state-of-the-art algorithms in both time and space metrics. This paper also investigates the importance of priority queues in constrained search with A*. We show with extensive experiments on both realistic and randomised graphs how bucket-based queues without tie-breaking can effectively improve the algorithmic performance of exhaustive bi-criteria searches.
翻訳日:2022-08-01 13:15:02 公開日:2022-07-29
# 不観測・不均一結合変数を用いた治療効果推定

Treatment Effect Estimation with Unobserved and Heterogeneous Confounding Variables ( http://arxiv.org/abs/2207.14439v1 )

ライセンス: Link先を確認
Kevin Jiang, Yang Ning(参考訳) 治療効果の推定は、一般に隠れ変数と呼ばれる観測されていない共役変数の存在によってバイアスされることが多い。 隠れ変数の効果を扱うために最近いくつかの方法が提案されているが、これらの方法はしばしば観察された処理変数と観測されていない共変量の間の相互作用の可能性を見落としている。 本研究は,多変量応答回帰問題を,$Y=A^T X+ B^T Z+ \sum_{j=1}^{p} C^T_j X_j Z + E$, where $Y \in \mathbb{R}^m$ are $m$-dimensional response variables, $X \in \mathbb{R}^p$ are observed covariates (治療変数を含む), $Z \in \mathbb{R}^K$ are $K$-dimensional unobserved confounders, $E \in \mathbb{R}^m$$という形の非観測変数と不均一な共振変数の両方を用いて検討することによって,この問題に対処する。 X_j$ と $Z$ の相互作用が与えられると、不均一な共役効果が生じる。 我々の目標は、未知の行列 $a$、観測された共変量の直接的な効果、あるいは反応に対する治療を推定することである。 そこで本研究では,観測不能な共起変数の効果を除去するために,SVDを用いた新しい非バイアス推定手法を提案する。 推定器の収束速度は、ホモスセダスティックノイズとヘテロスセダスティックノイズの両方の下で決定される。 また,いくつかのシミュレーション実験と実世界のデータ応用について述べる。

The estimation of the treatment effect is often biased in the presence of unobserved confounding variables which are commonly referred to as hidden variables. Although a few methods have been recently proposed to handle the effect of hidden variables, these methods often overlook the possibility of any interaction between the observed treatment variable and the unobserved covariates. In this work, we address this shortcoming by studying a multivariate response regression problem with both unobserved and heterogeneous confounding variables of the form $Y=A^T X+ B^T Z+ \sum_{j=1}^{p} C^T_j X_j Z + E$, where $Y \in \mathbb{R}^m$ are $m$-dimensional response variables, $X \in \mathbb{R}^p$ are observed covariates (including the treatment variable), $Z \in \mathbb{R}^K$ are $K$-dimensional unobserved confounders, and $E \in \mathbb{R}^m$ is the random noise. Allowing for the interaction between $X_j$ and $Z$ induces the heterogeneous confounding effect. Our goal is to estimate the unknown matrix $A$, the direct effect of the observed covariates or the treatment on the responses. To this end, we propose a new debiased estimation approach via SVD to remove the effect of unobserved confounding variables. The rate of convergence of the estimator is established under both the homoscedastic and heteroscedastic noises. We also present several simulation experiments and a real-world data application to substantiate our findings.
翻訳日:2022-08-01 13:14:22 公開日:2022-07-29
# ベイズ的非パラメトリック混合は成分数に矛盾する:実際どれくらい心配すべきなのか?

Bayesian nonparametric mixture inconsistency for the number of components: How worried should we be in practice? ( http://arxiv.org/abs/2207.14717v1 )

ライセンス: Link先を確認
Yannis Chaumeny, Johan van der Molen Moris, Anthony C. Davison, Paul D. W. Kirk(参考訳) 有限混合系 (mfms) とディリクレ過程混合系 (dpm) のベイズ混合系のクラスタリングについて考察する。 近年の漸近理論では、DPMは大きなサンプルのクラスタ数を過大評価し、両方のモデルのクラスの推定器は不特定なクラスターの数に対して矛盾するが、有限標本解析における意味は明らかでない。 これらのモデルに適合した後の最終的な推定は、MCMC要約法を用いて得られた単一の代表クラスタリングであることが多いが、そのような要約がクラスタ数をどの程度正確に見積もっているかは分かっていない。 ここでは、シミュレーションによるこれらの実践的考察と遺伝子発現データへの応用について検討し、それを見つける。 (i) DPM は有限標本においてもクラスタ数を過大評価するが、適切な要約を用いて修正できるのは限られた程度に限られる。 (II) DPM と MFM の双方のクラスタ数がかなり過大評価されることがあるが、それでもしばしば解釈可能である。 我々はMCMCの要約を推奨し、MCMのより魅力的な漸近特性はそれらを好む強い動機を与えるが、MFMとDPMを用いて得られた結果は実際に非常によく似ていることを示唆する。

We consider the Bayesian mixture of finite mixtures (MFMs) and Dirichlet process mixture (DPM) models for clustering. Recent asymptotic theory has established that DPMs overestimate the number of clusters for large samples and that estimators from both classes of models are inconsistent for the number of clusters under misspecification, but the implications for finite sample analyses are unclear. The final reported estimate after fitting these models is often a single representative clustering obtained using an MCMC summarisation technique, but it is unknown how well such a summary estimates the number of clusters. Here we investigate these practical considerations through simulations and an application to gene expression data, and find that (i) DPMs overestimate the number of clusters even in finite samples, but only to a limited degree that may be correctable using appropriate summaries, and (ii) misspecification can lead to considerable overestimation of the number of clusters in both DPMs and MFMs, but results are nevertheless often still interpretable. We provide recommendations on MCMC summarisation and suggest that although the more appealing asymptotic properties of MFMs provide strong motivation to prefer them, results obtained using MFMs and DPMs are often very similar in practice.
翻訳日:2022-08-01 13:13:44 公開日:2022-07-29
# ドメイン固有のWav2vec 2.0、SE&R 2022チャレンジのための微調整

Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge ( http://arxiv.org/abs/2207.14418v1 )

ライセンス: Link先を確認
Alef Iury Siqueira Ferreira and Gustavo dos Reis Oliveira(参考訳) 本稿では,ポルトガル語における自発・準備音声・音声感情認識のための共有タスク音声認識のための頑健なASRモデルの構築について述べる(SE&R 2022)。 この課題の目標は、異なる方言で準備された自発的なスピーチを考慮して、ポルトガル語のASR研究を進めることである。 提案手法は,ASRモデルをドメイン固有のアプローチで微調整し,ゲイン正規化と選択的ノイズ挿入を適用した。 提案手法は, 利用可能な4トラックのうち3トラックの試験台に設けた強いベースラインよりも改善された。

This paper presents our efforts to build a robust ASR model for the shared task Automatic Speech Recognition for spontaneous and prepared speech & Speech Emotion Recognition in Portuguese (SE&R 2022). The goal of the challenge is to advance the ASR research for the Portuguese language, considering prepared and spontaneous speech in different dialects. Our method consist on fine-tuning an ASR model in a domain-specific approach, applying gain normalization and selective noise insertion. The proposed method improved over the strong baseline provided on the test set in 3 of the 4 tracks available
翻訳日:2022-08-01 13:13:21 公開日:2022-07-29
# 生成型adversarial networkに基づく非ペア音声・音声シーケンスからの電話認識の学習

Learning Phone Recognition from Unpaired Audio and Phone Sequences Based on Generative Adversarial Network ( http://arxiv.org/abs/2207.14568v1 )

ライセンス: Link先を確認
Da-rong Liu, Po-chun Hsu, Yi-chen Chen, Sung-feng Huang, Shun-po Chuang, Da-yi Wu, and Hung-yi Lee(参考訳) ASRは近年、優れたパフォーマンスを発揮することが示されている。 しかし、そのほとんどは大量のペアデータに依存しており、世界中の低リソース言語では実現できない。 本稿では,非ペア電話のシーケンスや発話から直接学習する方法について検討する。 2段階の反復フレームワークを設計します。 GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。 第2段階では、ジェネレータの出力からトレーニングするために別のHMMモデルが導入され、パフォーマンスが向上し、次のイテレーションにより良いセグメンテーションが提供される。 実験では,まずモデル設計の異なる選択について検討する。 次に、フレームワークと異なるタイプのベースラインを比較します。 (i)監督方法 (ii)音響単位発見に基づく方法 (iii)非ペアデータから学習する方法。 提案手法は,ティミットデータセットに基づく非ペアデータから学習する全ての音響単位発見法や従来手法よりも一貫して優れた性能を示す。

ASR has been shown to achieve great performance recently. However, most of them rely on massive paired data, which is not feasible for low-resource languages worldwide. This paper investigates how to learn directly from unpaired phone sequences and speech utterances. We design a two-stage iterative framework. GAN training is adopted in the first stage to find the mapping relationship between unpaired speech and phone sequence. In the second stage, another HMM model is introduced to train from the generator's output, which boosts the performance and provides a better segmentation for the next iteration. In the experiment, we first investigate different choices of model designs. Then we compare the framework to different types of baselines: (i) supervised methods (ii) acoustic unit discovery based methods (iii) methods learning from unpaired data. Our framework performs consistently better than all acoustic unit discovery methods and previous methods learning from unpaired data based on the TIMIT dataset.
翻訳日:2022-08-01 13:13:11 公開日:2022-07-29
# RNNトランスデューサを用いたマンダリン音声認識のための固有文字符号化

Pronunciation-aware unique character encoding for RNN Transducer-based Mandarin speech recognition ( http://arxiv.org/abs/2207.14578v1 )

ライセンス: Link先を確認
Peng Shen, Xugang Lu, Hisashi Kawai(参考訳) Mandarin end-to-end (E2E) の自動音声認識(ASR)タスクでは、文字ベースのモデリングユニットと比較して、発音ベースのモデリングユニットはモデルトレーニングにおけるモデリングユニットの共有を改善するが、ホモフォンの問題を満たす。 本研究では,E2E RNN-TをベースとしたマンダリンASRシステム構築に,新しい発音対応文字符号化法を提案する。 提案符号化は発音ベース音節と文字インデックス(CI)の組み合わせである。 CIを導入することで、RNN-Tモデルは、モデリングユニットを抽出するための発音情報を利用して、ホモフォン問題を克服することができる。 提案した符号化により、モデル出力を1対1のマッピングにより最終認識結果に変換することができる。 AishellとMagicDataのデータセットについて実験を行い,提案手法の有効性を示す実験結果を得た。

For Mandarin end-to-end (E2E) automatic speech recognition (ASR) tasks, compared to character-based modeling units, pronunciation-based modeling units could improve the sharing of modeling units in model training but meet homophone problems. In this study, we propose to use a novel pronunciation-aware unique character encoding for building E2E RNN-T-based Mandarin ASR systems. The proposed encoding is a combination of pronunciation-base syllable and character index (CI). By introducing the CI, the RNN-T model can overcome the homophone problem while utilizing the pronunciation information for extracting modeling units. With the proposed encoding, the model outputs can be converted into the final recognition result through a one-to-one mapping. We conducted experiments on Aishell and MagicData datasets, and the experimental results showed the effectiveness of the proposed method.
翻訳日:2022-08-01 13:12:58 公開日:2022-07-29
# ニューラルトランスデューサの教師なし微調整と自己学習のための多重ハイブリッドRNN-T損失

Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and Self-training of Neural Transducer ( http://arxiv.org/abs/2207.14736v1 )

ライセンス: Link先を確認
Cong-Thanh Do, Mohan Li, and Rama Doddipatla(参考訳) 本稿では、リカレントニューラルネットワーク(RNN-T)エンドツーエンド(E2E)自動音声認識(ASR)システムにおいて、ラベルのない音声データを用いて教師なしの微調整と自己学習を行う新しい手法を提案する。 従来のシステムは、未ラベルのオーディオデータを使用する場合、ターゲットとしてASR仮説を用いて微調整/自己学習を行い、ベースモデルのASR性能に影響を受けやすい。 ここでは、ラベル付きデータを用いた場合のASR誤差の影響を軽減するために、複数のASR 1-best仮説を損失関数に組み込んだ多重仮説RNN-T損失を提案する。 微調整タスクについては、librispeech における asr 実験により、テスト_other セットにおいて、単調アプローチと比較して、マルチハイポテシスアプローチが 14.2% の単語誤り率 (wer) を相対的に減少させることを示した。 自己学習タスクでは,ウォールストリートジャーナル(WSJ)やオーロラ4,CHiME-4の実雑音データをラベルなしデータとしてトレーニングする。 マルチハイポテーシス法は, シングルハイポテーシス法と比較して, CHiME-4 の単一チャネル実雑音評価セットに対して相対的に3.3%の WER を減少させる。

This paper proposes a new approach to perform unsupervised fine-tuning and self-training using unlabeled speech data for recurrent neural network (RNN)-Transducer (RNN-T) end-to-end (E2E) automatic speech recognition (ASR) systems. Conventional systems perform fine-tuning/self-training using ASR hypothesis as the targets when using unlabeled audio data and are susceptible to the ASR performance of the base model. Here in order to alleviate the influence of ASR errors while using unlabeled data, we propose a multiple-hypothesis RNN-T loss that incorporates multiple ASR 1-best hypotheses into the loss function. For the fine-tuning task, ASR experiments on Librispeech show that the multiple-hypothesis approach achieves a relative reduction of 14.2% word error rate (WER) when compared to the single-hypothesis approach, on the test_other set. For the self-training task, ASR models are trained using supervised data from Wall Street Journal (WSJ), Aurora-4 along with CHiME-4 real noisy data as unlabeled data. The multiple-hypothesis approach yields a relative reduction of 3.3% WER on the CHiME-4's single-channel real noisy evaluation set when compared with the single-hypothesis approach.
翻訳日:2022-08-01 13:12:45 公開日:2022-07-29
# 円筒制約を用いたグラフベース小腸経路追跡

Graph-Based Small Bowel Path Tracking with Cylindrical Constraints ( http://arxiv.org/abs/2207.14436v1 )

ライセンス: Link先を確認
Seung Yeon Shin, Sungwon Lee, and Ronald M. Summers(参考訳) 円筒形制約に基づく小腸経路追跡のためのグラフベースの新しい手法を提案する。 他の臓器と比較して小腸の特徴的な特徴は、その経路に沿ってその部分同士の接触であり、壁の目立たない外観とともに経路追跡が困難である。 これは、壁検出のような低レベルな機能に依存する場合、追跡された経路が壁を横切るのを容易にする。 これを回避するために、小腸のコースに沿って取り付けられた一連のシリンダーを使用して、より信頼性の高い方向に追跡を誘導する。 新しいコスト関数を使ってソフト制約として実装する。 腹部ct検査を10回行うために, 小腸の開始から終了まですべて接続される接地路について検討した。 提案手法は,誤りを起こさずに経路を追跡するベースライン法と比較して明らかに改善した。 6.6%と17.0%の改善は,小腸の分節に関連する2つの異なる設定で観察された。

We present a new graph-based method for small bowel path tracking based on cylindrical constraints. A distinctive characteristic of the small bowel compared to other organs is the contact between parts of itself along its course, which makes the path tracking difficult together with the indistinct appearance of the wall. It causes the tracked path to easily cross over the walls when relying on low-level features like the wall detection. To circumvent this, a series of cylinders that are fitted along the course of the small bowel are used to guide the tracking to more reliable directions. It is implemented as soft constraints using a new cost function. The proposed method is evaluated against ground-truth paths that are all connected from start to end of the small bowel for 10 abdominal CT scans. The proposed method showed clear improvements compared to the baseline method in tracking the path without making an error. Improvements of 6.6% and 17.0%, in terms of the tracked length, were observed for two different settings related to the small bowel segmentation.
翻訳日:2022-08-01 13:12:13 公開日:2022-07-29
# PC-GANs: パンシャーピングのためのプログレッシブ補償生成対向ネットワーク

PC-GANs: Progressive Compensation Generative Adversarial Networks for Pan-sharpening ( http://arxiv.org/abs/2207.14451v1 )

ライセンス: Link先を確認
Yinghui Xing, Shuyuan Yang, Song Wang, Yan Zhang, Yanning Zhang(参考訳) マルチスペクトル画像とパンクロマティック画像の融合は常にパンシャルペンと呼ばれる。 利用可能な深層学習に基づくパンシャーピング手法のほとんどは、ネットワークの再構築能力に強く依存するワンステップ方式により、マルチスペクトル画像をシャープする。 しかし、リモートセンシング画像には常に大きなバリエーションがあり、その結果、これらの一段階の手法は誤差の蓄積に弱いため、スペクトル情報だけでなく空間的詳細も保存できない。 本稿では,空間的およびスペクトル情報の漸進的補償によりms画像のシャープ化を行うパンシャープ化のための新しい2段階モデルを提案する。 まず,MS画像の空間分解能を予め向上するために,深層多スケール誘導生成対向ネットワークを用いる。 粗い領域における予め強調されたms画像から始めて、このアプローチは、逆アーキテクチャを持つ2つの生成的逆向ネットワーク(gan)上の空間的およびスペクトル的残差を段階的に洗練する。 モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように共同補償損失関数が設計されている。 さらに,本論文で提案する空間スペクトル残差補償構造を他のパンシャープ化法にも拡張し,核融合結果をさらに高めることができる。 異なるデータセット上で広範な実験を行い,提案手法の有効性と有効性を示す。

The fusion of multispectral and panchromatic images is always dubbed pansharpening. Most of the available deep learning-based pan-sharpening methods sharpen the multispectral images through a one-step scheme, which strongly depends on the reconstruction ability of the network. However, remote sensing images always have large variations, as a result, these one-step methods are vulnerable to the error accumulation and thus incapable of preserving spatial details as well as the spectral information. In this paper, we propose a novel two-step model for pan-sharpening that sharpens the MS image through the progressive compensation of the spatial and spectral information. Firstly, a deep multiscale guided generative adversarial network is used to preliminarily enhance the spatial resolution of the MS image. Starting from the pre-sharpened MS image in the coarse domain, our approach then progressively refines the spatial and spectral residuals over a couple of generative adversarial networks (GANs) that have reverse architectures. The whole model is composed of triple GANs, and based on the specific architecture, a joint compensation loss function is designed to enable the triple GANs to be trained simultaneously. Moreover, the spatial-spectral residual compensation structure proposed in this paper can be extended to other pan-sharpening methods to further enhance their fusion results. Extensive experiments are performed on different datasets and the results demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2022-08-01 13:11:58 公開日:2022-07-29
# 小規模データの学習に関する調査

A Survey of Learning on Small Data ( http://arxiv.org/abs/2207.14443v1 )

ライセンス: Link先を確認
Xiaofeng Cao, Weixin Bu, Shengjun Huang, Yingpeng Tang, Yaming Guo, Yi Chang, Ivor W. Tsang(参考訳) ビッグデータの学習は人工知能(AI)の成功をもたらすが、アノテーションとトレーニングコストは高い。 将来的には、小さなデータによる学習はAIの究極の目的のひとつであり、機械は小さなデータに依存する目的やシナリオを人間として認識する必要がある。 機械学習の一連のモデルは、アクティブラーニング、少数ショットラーニング、ディープクラスタリングなど、このように進んでいる。 しかし、その一般化性能に関する理論的な保証はほとんどない。 さらに、ほとんどの設定は受動的であり、ラベルの分布は特定のサンプリングシナリオによって明示的に制御される。 この調査はPAC(おそらく略正)フレームワーク下での能動サンプリングに追随し、教師なしの手法を用いて、小さなデータ上での学習の一般化誤差とラベルの複雑さを分析した。 これらの理論解析により, 2つの幾何学的視点から, ユークリッド平均表現と非ユークリッド平均表現の2つの小さなデータ学習モデルを分類し, その最適化解を提示し, 議論する。 その後、小さなデータ学習の恩恵を受ける可能性のある学習シナリオが要約され、その潜在的な学習シナリオも分析される。 最後に,コンピュータビジョンや自然言語処理といった,小さなデータで学ぶことのメリットを享受する困難なアプリケーションについても調査を行った。

Learning on big data brings success for artificial intelligence (AI), but the annotation and training costs are expensive. In future, learning on small data is one of the ultimate purposes of AI, which requires machines to recognize objectives and scenarios relying on small data as humans. A series of machine learning models is going on this way such as active learning, few-shot learning, deep clustering. However, there are few theoretical guarantees for their generalization performance. Moreover, most of their settings are passive, that is, the label distribution is explicitly controlled by one specified sampling scenario. This survey follows the agnostic active sampling under a PAC (Probably Approximately Correct) framework to analyze the generalization error and label complexity of learning on small data using a supervised and unsupervised fashion. With these theoretical analyses, we categorize the small data learning models from two geometric perspectives: the Euclidean and non-Euclidean (hyperbolic) mean representation, where their optimization solutions are also presented and discussed. Later, some potential learning scenarios that may benefit from small data learning are then summarized, and their potential learning scenarios are also analyzed. Finally, some challenging applications such as computer vision, natural language processing that may benefit from learning on small data are also surveyed.
翻訳日:2022-08-01 13:09:17 公開日:2022-07-29
# 安定端における適応的勾配法

Adaptive Gradient Methods at the Edge of Stability ( http://arxiv.org/abs/2207.14484v1 )

ライセンス: Link先を確認
Jeremy M. Cohen and Behrooz Ghorbani and Shankar Krishnan and Naman Agarwal and Sourabh Medapati and Michal Badura and Daniel Suo and David Cardoze and Zachary Nado and George E. Dahl and Justin Gilmer(参考訳) ディープラーニングにおけるAdamのような適応勾配法のトレーニング力学についてはほとんど知られていない。 本稿では,これらアルゴリズムのフルバッチおよび十分大きなバッチ設定における挙動について考察した。 具体的には、フルバッチトレーニングの間、プレコンディションされたヘッセンの最大固有値は、勾配降下アルゴリズムの安定性しきい値であるある数値で概ね平衡することを示した。 ステップサイズが$\eta$と$\beta_1 = 0.9$のAdamの場合、この安定性閾値は38/\eta$である。 特にバッチサイズが大きくなると、同様の効果がミニバッチトレーニング中に発生する。 しかし、適応的手法は「安定性のエッジ」 (AEoS) で訓練されるが、この体制におけるそれらの振る舞いは、EoSにおける非適応的手法とは大きく異なる。 eosの非適応アルゴリズムがロスランドスケープの高曲率領域に入るのを妨げられているのに対して、aeosの適応勾配法は高曲率領域に進み続け、プリコンディショナーを補償する。 本研究は,深層学習における適応勾配法に関するコミュニティの今後の理解の基盤となりうる。

Very little is known about the training dynamics of adaptive gradient methods like Adam in deep learning. In this paper, we shed light on the behavior of these algorithms in the full-batch and sufficiently large batch settings. Specifically, we empirically demonstrate that during full-batch training, the maximum eigenvalue of the preconditioned Hessian typically equilibrates at a certain numerical value -- the stability threshold of a gradient descent algorithm. For Adam with step size $\eta$ and $\beta_1 = 0.9$, this stability threshold is $38/\eta$. Similar effects occur during minibatch training, especially as the batch size grows. Yet, even though adaptive methods train at the ``Adaptive Edge of Stability'' (AEoS), their behavior in this regime differs in a significant way from that of non-adaptive methods at the EoS. Whereas non-adaptive algorithms at the EoS are blocked from entering high-curvature regions of the loss landscape, adaptive gradient methods at the AEoS can keep advancing into high-curvature regions, while adapting the preconditioner to compensate. Our findings can serve as a foundation for the community's future understanding of adaptive gradient methods in deep learning.
翻訳日:2022-08-01 13:08:57 公開日:2022-07-29
# インタラクティブ機械学習における説明の活用 - 概要

Leveraging Explanations in Interactive Machine Learning: An Overview ( http://arxiv.org/abs/2207.14526v1 )

ライセンス: Link先を確認
Stefano Teso, \"Oznur Alkan, Wolfang Stammer, Elizabeth Daly(参考訳) モデルの透明性を改善し、ユーザーがトレーニングされたMLモデルのメンタルモデルを形成することを可能にするため、説明はAIと機械学習(ML)コミュニティへの関心が高まっている。 しかし、ひとたびユーザが理解すれば、フィードバックを提供できるので、説明はこの1つの方法を越えてユーザー制御を誘発するメカニズムとなる。 本研究の目的は,新しいモデルをスクラッチから学習し,既存のモデルを編集し,デバッグする手段として,説明と対話能力を組み合わせた研究の概要を示すことである。 この目的を達成するために,我々は,その意図した目的とそれらの相互作用構造に基づいて関連するアプローチをグループ化し,それらの類似点と相違点を強調する概念マップを作成する。 また、オープンな研究課題についても議論し、今後の方向性を概説するとともに、この輝く研究トピックに関するさらなる研究の促進を期待する。

Explanations have gained an increasing level of interest in the AI and Machine Learning (ML) communities in order to improve model transparency and allow users to form a mental model of a trained ML model. However, explanations can go beyond this one way communication as a mechanism to elicit user control, because once users understand, they can then provide feedback. The goal of this paper is to present an overview of research where explanations are combined with interactive capabilities as a mean to learn new models from scratch and to edit and debug existing ones. To this end, we draw a conceptual map of the state-of-the-art, grouping relevant approaches based on their intended purpose and on how they structure the interaction, highlighting similarities and differences between them. We also discuss open research issues and outline possible directions forward, with the hope of spurring further research on this blooming research topic.
翻訳日:2022-08-01 13:08:34 公開日:2022-07-29
# リアルタイムサイバー物理システムにおける深部分布検出器の設計手法

Design Methodology for Deep Out-of-Distribution Detectors in Real-Time Cyber-Physical Systems ( http://arxiv.org/abs/2207.14694v1 )

ライセンス: Link先を確認
Michael Yuhas, Daniel Jun Xian Ng, Arvind Easwaran(参考訳) 機械学習(ML)モデルにトレーニングディストリビューション外のデータが供給される場合、不正確な予測を行う傾向があり、サイバー物理システム(CPS)では、破滅的なシステム障害を引き起こす可能性がある。 このリスクを軽減するため、オフ・オブ・ディストリビューション(OOD)検出器はMLモデルと並列に動作し、フラグ入力は望ましくない結果をもたらす可能性がある。 OOD検出器は精度に関してよく研究されているが、資源制約CPSへの展開にはあまり焦点が当てられていない。 本研究では,組込みアプリケーションの精度および応答時間要求を満たすため,深いOOD検出器をチューニングするための設計手法を提案する。 この手法は遺伝的アルゴリズムを用いて検出器の前処理パイプラインを最適化し、堅牢性と応答時間のバランスをとる量子化法を選択する。 また、ロボットオペレーティング・システム(ROS)の下で選択された設計をデプロイするためのいくつかの候補タスクグラフも特定する。 本手法は2つの組込みプラットフォーム上での文献からの2つの変分オートエンコーダを用いたOOD検出器で実証された。 設計プロセス中に発生するトレードオフを考察し、この設計手法は、同等の精度を維持しながら、最適化されていないOOD検出器に対して、応答時間を劇的に短縮できることを示した。

When machine learning (ML) models are supplied with data outside their training distribution, they are more likely to make inaccurate predictions; in a cyber-physical system (CPS), this could lead to catastrophic system failure. To mitigate this risk, an out-of-distribution (OOD) detector can run in parallel with an ML model and flag inputs that could lead to undesirable outcomes. Although OOD detectors have been well studied in terms of accuracy, there has been less focus on deployment to resource constrained CPSs. In this study, a design methodology is proposed to tune deep OOD detectors to meet the accuracy and response time requirements of embedded applications. The methodology uses genetic algorithms to optimize the detector's preprocessing pipeline and selects a quantization method that balances robustness and response time. It also identifies several candidate task graphs under the Robot Operating System (ROS) for deployment of the selected design. The methodology is demonstrated on two variational autoencoder based OOD detectors from the literature on two embedded platforms. Insights into the trade-offs that occur during the design process are provided, and it is shown that this design methodology can lead to a drastic reduction in response time in relation to an unoptimized OOD detector while maintaining comparable accuracy.
翻訳日:2022-08-01 13:08:19 公開日:2022-07-29
# BiFeat:グラフ特徴量化によるスーパーチャージGNNトレーニング

BiFeat: Supercharge GNN Training via Graph Feature Quantization ( http://arxiv.org/abs/2207.14696v1 )

ライセンス: Link先を確認
Yuxin Ma, Ping Gong, Jun Yi, Zhewei Yao, Minjie Wang, Cheng Li, Yuxiong He, Feng Yan(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドデータを持つアプリケーションにとって有望なアプローチである。 しかし、数十億のノードを持つ大規模グラフ上でのGNNのトレーニングは、リソースと時間の両方を消費する。 DNNとは異なり、GNNはメモリフットプリントが大きくなるため、GPUメモリ容量とPCIe帯域幅がGNNトレーニングの主要なリソースボトルネックとなる。 メモリフットプリントとPCIe帯域幅の要求を大幅に削減し,GNNがGPUコンピューティング機能を完全に活用できるようにして,GNNトレーニングを加速するグラフ特徴量化手法であるBiFeatを提案する。 我々の重要な洞察は、DNNとは異なり、GNNは量子化によって引き起こされる入力特徴の情報損失が少ないことである。 グラフ特徴量化における主な精度影響因子を同定し、BiFeatのトレーニングが、非圧縮ネットワークの最適損失の$\epsilon$以内のネットワークに収束することを理論的に証明する。 MAG240M上のグラフSAGEを含む,いくつかの人気のあるGNNモデルとデータセットを用いて,BiFeatを広範囲に評価する。 その結果,BiFeatは30以上の圧縮比を達成し,GNNトレーニング速度を200%~320%向上し,限界精度が低下した。 特に、BiFeatは、たった4つのGPUを使用してMAG240M上のGraphSAGEを1時間以内にトレーニングすることで、記録を達成している。

Graph Neural Networks (GNNs) is a promising approach for applications with nonEuclidean data. However, training GNNs on large scale graphs with hundreds of millions nodes is both resource and time consuming. Different from DNNs, GNNs usually have larger memory footprints, and thus the GPU memory capacity and PCIe bandwidth are the main resource bottlenecks in GNN training. To address this problem, we present BiFeat: a graph feature quantization methodology to accelerate GNN training by significantly reducing the memory footprint and PCIe bandwidth requirement so that GNNs can take full advantage of GPU computing capabilities. Our key insight is that unlike DNN, GNN is less prone to the information loss of input features caused by quantization. We identify the main accuracy impact factors in graph feature quantization and theoretically prove that BiFeat training converges to a network where the loss is within $\epsilon$ of the optimal loss of uncompressed network. We perform extensive evaluation of BiFeat using several popular GNN models and datasets, including GraphSAGE on MAG240M, the largest public graph dataset. The results demonstrate that BiFeat achieves a compression ratio of more than 30 and improves GNN training speed by 200%-320% with marginal accuracy loss. In particular, BiFeat achieves a record by training GraphSAGE on MAG240M within one hour using only four GPUs.
翻訳日:2022-08-01 13:07:57 公開日:2022-07-29
# RCA:自己監督学習による快適な視覚ナビゲーション

RCA: Ride Comfort-Aware Visual Navigation via Self-Supervised Learning ( http://arxiv.org/abs/2207.14460v1 )

ライセンス: Link先を確認
Xinjie Yao, Ji Zhang, Jean Oh(参考訳) 共有された自律性の下では、車いすの利用者は安全で快適な乗り心地が期待される。 このような経路を見つけるために、車両は異なる地形と交渉し、その横断の困難さを評価する。 ほとんどの先行研究は、下流のナビゲーションタスクにおいて知覚される運動強度や乗り心地を反映しない幾何学的表現または意味分類を通じて周囲をモデル化している。 摂動センシングを用いたトラバーサビリティ解析において,乗り心地を明示的にモデル化することを提案する。 車両状態を訓練信号として活用し,一対一の視点画像からトラバーサビリティ・コストマップを予測する自己教師付き学習フレームワークを開発した。 我々のアプローチは、地形の外観に基づいて車両が横切るとどう感じるかを推定する。 次に,ロボット実験を通じ,人間による乗り心地の予測を行うナビゲーションシステムと,人間による評価実験を行った。

Under shared autonomy, wheelchair users expect vehicles to provide safe and comfortable rides while following users high-level navigation plans. To find such a path, vehicles negotiate with different terrains and assess their traversal difficulty. Most prior works model surroundings either through geometric representations or semantic classifications, which do not reflect perceived motion intensity and ride comfort in downstream navigation tasks. We propose to model ride comfort explicitly in traversability analysis using proprioceptive sensing. We develop a self-supervised learning framework to predict traversability costmap from first-person-view images by leveraging vehicle states as training signals. Our approach estimates how the vehicle would feel if traversing over based on terrain appearances. We then show our navigation system provides human-preferred ride comfort through robot experiments together with a human evaluation study.
翻訳日:2022-08-01 13:05:54 公開日:2022-07-29
# AlphaVC: 高性能で効率的な学習ビデオ圧縮

AlphaVC: High-Performance and Efficient Learned Video Compression ( http://arxiv.org/abs/2207.14678v1 )

ライセンス: Link先を確認
Yibo Shi, Yunying Ge, Jing Wang, Jue Mao(参考訳) 近年,学習ビデオ圧縮が注目され,将来性のある結果を得た急速な開発傾向を示している。 しかし、以前の研究は批判的な問題に悩まされており、広く使われているPSNRメートル法では従来の圧縮標準と性能差がある。 本稿では,性能を効果的に向上させる手法を提案する。 まず、累積誤差の問題に対処するため、gopの第1フレームとして条件付きiフレームを導入し、再構成された品質を安定化しビットレートを節約する。 第2に,デコーダの複雑さを増すことなく,相互予測の精度を効率的に向上させるため,高品質な動作情報を得るためのエンコーダ側での画素間動作予測手法を提案する。 第3に,性能向上だけでなく,エントロピー符号化の実行時間を大幅に削減する確率ベースのエントロピースキップ手法を提案する。 そこで本研究では,高速かつ効率的な学習ビデオ圧縮方式であるAlphaVCを提案する。 我々の知る限り、AlphaVCはPSNR(-28.2%BDレートセーブ)とMSSSIM(-52.2%BDレートセーブ)の共通テストデータセットで最新の圧縮標準VVCを超える最初のE2E AIコーデックであり、非常に高速な符号化(0.001xVVC)と復号(1.69xVVC)速度を持つ。

Recently, learned video compression has drawn lots of attention and show a rapid development trend with promising results. However, the previous works still suffer from some criticial issues and have a performance gap with traditional compression standards in terms of widely used PSNR metric. In this paper, we propose several techniques to effectively improve the performance. First, to address the problem of accumulative error, we introduce a conditional-I-frame as the first frame in the GoP, which stabilizes the reconstructed quality and saves the bit-rate. Second, to efficiently improve the accuracy of inter prediction without increasing the complexity of decoder, we propose a pixel-to-feature motion prediction method at encoder side that helps us to obtain high-quality motion information. Third, we propose a probability-based entropy skipping method, which not only brings performance gain, but also greatly reduces the runtime of entropy coding. With these powerful techniques, this paper proposes AlphaVC, a high-performance and efficient learned video compression scheme. To the best of our knowledge, AlphaVC is the first E2E AI codec that exceeds the latest compression standard VVC on all common test datasets for both PSNR (-28.2% BD-rate saving) and MSSSIM (-52.2% BD-rate saving), and has very fast encoding (0.001x VVC) and decoding (1.69x VVC) speeds.
翻訳日:2022-08-01 13:03:30 公開日:2022-07-29
# 時間的バイアス問題にビデオベネフィットを埋める: 時間的接地のための新しいトレーニングフレームワーク

Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training Framework for Temporal Grounding ( http://arxiv.org/abs/2207.14698v1 )

ライセンス: Link先を確認
Jiachang Hao, Haifeng Sun, Pengfei Ren, Jingyu Wang, Qi Qi and Jianxin Liao(参考訳) 時間的接地(temporal grounding)は、与えられた文クエリに意味的に対応するターゲットビデオモーメントを、未トリミングビデオで見つけることを目的としている。 しかし、近年の研究では、既存の手法が深刻な時間バイアスに悩まされていることが判明している。 これらの手法は、視覚とテクスチャのセマンティックアライメントに基づいて目標モーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスを過度に反映する。 そこで本稿では,時間バイアス問題に対処するためにシャッフルビデオを用いた接地モデルを構築するための新しい学習フレームワークを提案する。 本フレームワークは,2つの補助的タスクであるクロスモーダルマッチングと時間的順序識別を導入し,基礎モデルトレーニングを促進する。 クロスモーダルマッチングタスクは、シャッフルされたビデオとオリジナルビデオ間のコンテンツ一貫性を活用して、視覚コンテンツのマイニングを視覚的にクエリにマッチさせる。 時間順識別タスクは、時間順の差異を利用して、長期的な時間的文脈の理解を強化する。 Charades-STAとActivityNet Captionsの大規模な実験は、時間的バイアスへの依存を緩和し、異なる時間的分布に対するモデルの一般化能力を強化する方法の有効性を示す。 コードはhttps://github.com/haojc/ShufflingVideosForTSGで公開されている。

Temporal grounding aims to locate a target video moment that semantically corresponds to the given sentence query in an untrimmed video. However, recent works find that existing methods suffer a severe temporal bias problem. These methods do not reason the target moment locations based on the visual-textual semantic alignment but over-rely on the temporal biases of queries in training sets. To this end, this paper proposes a novel training framework for grounding models to use shuffled videos to address temporal bias problem without losing grounding accuracy. Our framework introduces two auxiliary tasks, cross-modal matching and temporal order discrimination, to promote the grounding model training. The cross-modal matching task leverages the content consistency between shuffled and original videos to force the grounding model to mine visual contents to semantically match queries. The temporal order discrimination task leverages the difference in temporal order to strengthen the understanding of long-term temporal contexts. Extensive experiments on Charades-STA and ActivityNet Captions demonstrate the effectiveness of our method for mitigating the reliance on temporal biases and strengthening the model's generalization ability against the different temporal distributions. Code is available at https://github.com/haojc/ShufflingVideosForTSG.
翻訳日:2022-08-01 13:03:04 公開日:2022-07-29
# 画像品質評価: モデル中心とデータ中心のアプローチの統合

Image Quality Assessment: Integrating Model-Centric and Data-Centric Approaches ( http://arxiv.org/abs/2207.14769v1 )

ライセンス: Link先を確認
Peibei Cao, Dingquan Li, and Kede Ma(参考訳) 学習ベースの画像品質評価(iqa)は過去10年間で著しく進歩したが、ほぼ全員が、モデルとデータという2つの重要なコンポーネントを相対的に分離している。 具体的には、モデル中心のIQAは、修正および広範囲に再利用されたデータセットの「より良い」客観的品質手法の開発に重点を置いている。 データ中心のIQAは、データセット作成中に現在のIQAモデルを無視する、人間の注釈付きデータセットを構築するための精神物理学的な実験を行う。 本稿では,モデルとデータの分離がIQAのさらなる進歩を妨げることを計算学的に探索する一連の実験を最初に設計する。 次に、モデル中心およびデータ中心IQAを統合する計算フレームワークについて述べる。 具体的な例として,ブラインドIQA(BIQA)モデル予測と深いコンテンツ認識機能に基づいて,候補画像のサンプリング信頼性を定量化する計算モジュールを設計する。 実験の結果,本モジュールは,次世代データセットに含める価値のあるサンプルであるbiqaモデルの多様な故障を発見できた。

Learning-based image quality assessment (IQA) has made remarkable progress in the past decade, but nearly all consider the two key components - model and data - in relative isolation. Specifically, model-centric IQA focuses on developing "better" objective quality methods on fixed and extensively reused datasets, with a great danger of overfitting. Data-centric IQA involves conducting psychophysical experiments to construct "better" human-annotated datasets, which unfortunately ignores current IQA models during dataset creation. In this paper, we first design a series of experiments to probe computationally that such isolation of model and data impedes further progress of IQA. We then describe a computational framework that integrates model-centric and data-centric IQA. As a specific example, we design computational modules to quantify the sampling-worthiness of candidate images based on blind IQA (BIQA) model predictions and deep content-aware features. Experimental results show that the proposed sampling-worthiness module successfully spots diverse failures of the examined BIQA models, which are indeed worthy samples to be included in next-generation datasets.
翻訳日:2022-08-01 13:02:42 公開日:2022-07-29
# セグメンテーションによる手書き中国語テキストの認識--セグメンテーションを含まないアプローチ

Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach ( http://arxiv.org/abs/2207.14801v1 )

ライセンス: Link先を確認
Dezhi Peng, Lianwen Jin, Weihong Ma, Canyu Xie, Hesuo Zhang, Shenggao Zhu, Jing Li(参考訳) オンラインおよびオフライン手書き中国語テキスト認識(htcr)は何十年も研究されてきた。 初期の手法ではオーバーセグメンテーションベースの戦略を採用していたが、低速、精度が不十分、文字分割アノテーションのコストが高かった。 近年,コネクショニスト時間分類(CTC)とアテンション機構に基づくセグメンテーションフリー手法がHCTRの分野を支配している。 しかし、特に中国語などのイデオロギーでは文字で文字を読むことが多かった。 セグメンテーションフリー戦略は本当にHCTRのベストソリューションなのだろうか? そこで本研究では,単純で効率的な完全畳み込みネットワークを用いて,手書き中国語のテキストを認識できるセグメンテーション方式を提案する。 書き起こしアノテーションのみを用いてネットワークのトレーニングを可能にするため,従来のセグメンテーション法で必要とされる高価な文字セグメンテーションアノテーションを回避するために,弱い教師付き学習手法を提案する。 完全畳み込み型ネットワークにおけるコンテキストモデリングの欠如により,学習段階においてコンテキスト情報をネットワークに統合する文脈正規化手法が提案され,認識性能がさらに向上する。 CASIA-HWDB, CASIA-OLHWDB, ICDAR2013, SCUT-HCCDocの4つの広く利用されているベンチマークにおいて, オンラインおよびオフラインHCTRの既存手法をはるかに上回り, CTC/アテンションベースアプローチよりもかなり高い推論速度を示した。

Online and offline handwritten Chinese text recognition (HTCR) has been studied for decades. Early methods adopted oversegmentation-based strategies but suffered from low speed, insufficient accuracy, and high cost of character segmentation annotations. Recently, segmentation-free methods based on connectionist temporal classification (CTC) and attention mechanism, have dominated the field of HCTR. However, people actually read text character by character, especially for ideograms such as Chinese. This raises the question: are segmentation-free strategies really the best solution to HCTR? To explore this issue, we propose a new segmentation-based method for recognizing handwritten Chinese text that is implemented using a simple yet efficient fully convolutional network. A novel weakly supervised learning method is proposed to enable the network to be trained using only transcript annotations; thus, the expensive character segmentation annotations required by previous segmentation-based methods can be avoided. Owing to the lack of context modeling in fully convolutional networks, we propose a contextual regularization method to integrate contextual information into the network during the training stage, which can further improve the recognition performance. Extensive experiments conducted on four widely used benchmarks, namely CASIA-HWDB, CASIA-OLHWDB, ICDAR2013, and SCUT-HCCDoc, show that our method significantly surpasses existing methods on both online and offline HCTR, and exhibits a considerably higher inference speed than CTC/attention-based approaches.
翻訳日:2022-08-01 13:02:22 公開日:2022-07-29
# PageNet: ページレベルの手書き文字認識を終末から終末へ

PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten Chinese Text Recognition ( http://arxiv.org/abs/2207.14807v1 )

ライセンス: Link先を確認
Dezhi Peng, Lianwen Jin, Yuliang Liu, Canjie Luo, Songxuan Lai(参考訳) 手書き文字認識(HCTR)は、数十年にわたり活発な研究課題となっている。 しかし,従来の研究では,実世界のアプリケーションにおけるテキスト線検出による誤りを無視して,収穫されたテキスト線画像の認識にのみ焦点をあてている。 近年、ページレベルのテキスト認識を目的としたアプローチが提案されているが、単純なレイアウトに限定されるか、高価な行レベルや文字レベルのバウンディングボックスを含む非常に詳細なアノテーションを必要とする。 そこで本研究では,ページレベルのHCTRをエンド・ツー・エンドで管理するためのPageNetを提案する。 pagenetは文字を検出して認識し、文字間の読み順を予測する。これは多方向および湾曲したテキスト行を含む複雑なレイアウトを扱う場合、より堅牢で柔軟である。 提案されている弱い教師付き学習フレームワークを利用して、pagenetは実際のデータに注釈をつけるために書き起こしのみを必要とするが、文字と行レベルで検出と認識結果を出力することができ、文字とテキストのバウンディングボックスのラベル付けの手間とコストを回避することができる。 5つのデータセットで実施された大規模な実験は、既存の弱教師付きおよび完全教師付きページレベルメソッドよりもPageNetの方が優れていることを示す。 これらの実験結果は、コネクショニストの時間的分類や注意に基づく既存の方法の領域を超えたさらなる研究の引き金となるかもしれない。 ソースコードはhttps://github.com/shannanyinxiang/PageNetで入手できる。

Handwritten Chinese text recognition (HCTR) has been an active research topic for decades. However, most previous studies solely focus on the recognition of cropped text line images, ignoring the error caused by text line detection in real-world applications. Although some approaches aimed at page-level text recognition have been proposed in recent years, they either are limited to simple layouts or require very detailed annotations including expensive line-level and even character-level bounding boxes. To this end, we propose PageNet for end-to-end weakly supervised page-level HCTR. PageNet detects and recognizes characters and predicts the reading order between them, which is more robust and flexible when dealing with complex layouts including multi-directional and curved text lines. Utilizing the proposed weakly supervised learning framework, PageNet requires only transcripts to be annotated for real data; however, it can still output detection and recognition results at both the character and line levels, avoiding the labor and cost of labeling bounding boxes of characters and text lines. Extensive experiments conducted on five datasets demonstrate the superiority of PageNet over existing weakly supervised and fully supervised page-level methods. These experimental results may spark further research beyond the realms of existing methods based on connectionist temporal classification or attention. The source code is available at https://github.com/shannanyinxiang/PageNet.
翻訳日:2022-08-01 13:01:55 公開日:2022-07-29
# glean: 画像スーパーレゾリューションのための生成的潜在銀行

GLEAN: Generative Latent Bank for Image Super-Resolution and Beyond ( http://arxiv.org/abs/2207.14812v1 )

ライセンス: Link先を確認
Kelvin C.K. Chan, Xiangyu Xu, Xintao Wang, Jinwei Gu, Chen Change Loy(参考訳) 画像超解像の性能向上のために,StyleGAN や BigGAN などの事前学習型生成支援ネットワーク (GAN) が潜時バンクとして利用できることを示す。 既存の知覚指向アプローチのほとんどは、対向的損失を伴う学習を通じて現実的なアウトプットを生成しようとするが、我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されたリッチで多様なプリエントを直接活用することによって、既存のプラクティスを越えている。 しかし、実行時に高価な画像固有最適化を必要とする一般的なGANインバージョンメソッドとは異なり、我々のアプローチは復元のために1つのフォワードパスしか必要としない。 GLEANは、マルチ解像度スキップ接続を備えた単純なエンコーダバンクデコーダアーキテクチャに簡単に組み込むことができる。 異なる生成モデルから事前を採用すれば、GLEANはさまざまなカテゴリ(人間の顔、猫、建物、車)に適用できる。 さらに、GLEANの軽量バージョンであるLightGLEANを提示し、GLEANの重要なコンポーネントのみを保持する。 特に、LightGLEANはパラメータのわずか21%とFLOPの35%で構成され、画像の品質は同等である。 画像のカラー化やブラインド画像の復元など,さまざまなタスクにメソッドを拡張し,提案手法が既存の手法と比較して良好に動作することを示す。 コードとモデルはhttps://github.com/open-mmlab/mmeditingで入手できる。

We show that pre-trained Generative Adversarial Networks (GANs) such as StyleGAN and BigGAN can be used as a latent bank to improve the performance of image super-resolution. While most existing perceptual-oriented approaches attempt to generate realistic outputs through learning with adversarial loss, our method, Generative LatEnt bANk (GLEAN), goes beyond existing practices by directly leveraging rich and diverse priors encapsulated in a pre-trained GAN. But unlike prevalent GAN inversion methods that require expensive image-specific optimization at runtime, our approach only needs a single forward pass for restoration. GLEAN can be easily incorporated in a simple encoder-bank-decoder architecture with multi-resolution skip connections. Employing priors from different generative models allows GLEAN to be applied to diverse categories (\eg~human faces, cats, buildings, and cars). We further present a lightweight version of GLEAN, named LightGLEAN, which retains only the critical components in GLEAN. Notably, LightGLEAN consists of only 21% of parameters and 35% of FLOPs while achieving comparable image quality. We extend our method to different tasks including image colorization and blind image restoration, and extensive experiments show that our proposed models perform favorably in comparison to existing methods. Codes and models are available at https://github.com/open-mmlab/mmediting.
翻訳日:2022-08-01 13:01:32 公開日:2022-07-29
# コンテンツに基づくニューラルニュースレコメンデーションにおけるユーザとニュース表現の関係の理解

Understanding the Relation of User and News Representations in Content-Based Neural News Recommendation ( http://arxiv.org/abs/2207.14704v1 )

ライセンス: Link先を確認
Lucas M\"oller and Sebastian Pad\'o(参考訳) ニューラルコンテンツに基づくニュースレコメンデーションのモデルがいくつか提案されている。 しかし、これらのシステムの3つの主要コンポーネント(ニューズエンコーダ、ユーザエンコーダ、スコアリング機能)と関連するトレードオフの相対的重要性の理解は限られている。 本稿では、ユーザと候補者のニュース表現をマッチングする最も広く使われている手段が十分に表現できないという仮説を評価する。 本システムでは,より表現力のあるスコアリング関数を評価することにより,より複雑な関係をモデル化できる。 幅広いベースラインと確立されたシステムにまたがって、AUCの約6ポイントが一貫した改善をもたらす。 比較的単純なベースラインモデルでは、MINDデータセット上のAUCの68%以上をはるかに上回り、公表された最先端の2ポイント以内であり、計算コストのごく一部を必要とする。

A number of models for neural content-based news recommendation have been proposed. However, there is limited understanding of the relative importances of the three main components of such systems (news encoder, user encoder, and scoring function) and the trade-offs involved. In this paper, we assess the hypothesis that the most widely used means of matching user and candidate news representations is not expressive enough. We allow our system to model more complex relations between the two by assessing more expressive scoring functions. Across a wide range of baseline and established systems this results in consistent improvements of around 6 points in AUC. Our results also indicate a trade-off between the complexity of news encoder and scoring function: A fairly simple baseline model scores well above 68% AUC on the MIND dataset and comes within 2 points of the published state-of-the-art, while requiring a fraction of the computational costs.
翻訳日:2022-08-01 13:01:06 公開日:2022-07-29
# 部分空間クラスタリングのための等等表現学習

Learning idempotent representation for subspace clustering ( http://arxiv.org/abs/2207.14431v1 )

ライセンス: Link先を確認
Lai Wei, Shiteng Liu, Rigui Zhou and Changming Zhu(参考訳) スペクトル型部分空間クラスタリングアルゴリズムの成功の要点は、データセットの部分空間構造を忠実に明らかにできる再構成係数行列を求めることである。 理想的な再構成係数行列は2つの性質を持つべきである。 1) 各ブロックが部分空間を示すブロック対角線である。 2) 各ブロックは完全連結である。 様々なスペクトル型サブスペースクラスタリングアルゴリズムが提案されているが、これらのアルゴリズムによって構築された再構成係数行列にはまだいくつかの欠陥が存在する。 正規化メンバシップ行列は、上記の2つの条件を自然に満たしている。 そこで本稿では,正規化メンバシップ行列を近似した再構成係数を求めるために,等化表現(IDR)アルゴリズムを考案する。 idrは再構成係数行列に対する新しいべき等制約を設計する。 また、二重確率制約を組み合わせることで、正規化メンバシップ行列に閉ざされた係数行列を直接達成することができる。 IDR問題を解くための最適化アルゴリズムを提案し、その計算負荷と収束を解析する。 idrと関連するアルゴリズムの比較は、idrの優位を示す。 合成と実世界の両方のデータセットで行われた多くの実験は、IDRが効率的かつ効率的なサブスペースクラスタリングアルゴリズムであることを証明している。

The critical point for the successes of spectral-type subspace clustering algorithms is to seek reconstruction coefficient matrices which can faithfully reveal the subspace structures of data sets. An ideal reconstruction coefficient matrix should have two properties: 1) it is block diagonal with each block indicating a subspace; 2) each block is fully connected. Though there are various spectral-type subspace clustering algorithms have been proposed, some defects still exist in the reconstruction coefficient matrices constructed by these algorithms. We find that a normalized membership matrix naturally satisfies the above two conditions. Therefore, in this paper, we devise an idempotent representation (IDR) algorithm to pursue reconstruction coefficient matrices approximating normalized membership matrices. IDR designs a new idempotent constraint for reconstruction coefficient matrices. And by combining the doubly stochastic constraints, the coefficient matrices which are closed to normalized membership matrices could be directly achieved. We present the optimization algorithm for solving IDR problem and analyze its computation burden as well as convergence. The comparisons between IDR and related algorithms show the superiority of IDR. Plentiful experiments conducted on both synthetic and real world datasets prove that IDR is an effective and efficient subspace clustering algorithm.
翻訳日:2022-08-01 12:59:59 公開日:2022-07-29
# StyleAM:非参照画像品質評価のための知覚指向非教師なしドメイン適応

StyleAM: Perception-Oriented Unsupervised Domain Adaption for Non-reference Image Quality Assessment ( http://arxiv.org/abs/2207.14489v1 )

ライセンス: Link先を確認
Yiting Lu and Xin Li and Jianzhao Liu and Zhibo Chen(参考訳) ディープニューラルネットワーク(DNN)は、非参照画像品質評価(NR-IQA)に大きな可能性を示している。 しかし、NR-IQAのアノテーションは労働集約的で時間を要するため、特に認証画像への利用は著しく制限される。 品質アノテーションへの依存を緩和するため、NR-IQAにunsupervised domain adaptation (UDA)を適用した研究もある。 しかし、上記の手法は、分類において使われるアライメント空間が準最適であることを無視している。 この課題を解決するために,NR-IQAのための効果的な認識指向非教師付きドメイン適応手法であるStyleAMを提案し,その知識をラベルリッチなソースドメインデータからStyle AlignmentとMixupを介してラベルフリーなターゲットドメイン画像に伝達する。 具体的には、DNNの深層における特徴形式(平均と分散)がNR-IQAの品質スコアと密接に関連していることから、よりコンパクトで信頼性の高い認識指向UDAの機能スタイル空間を見出した。 そこで本稿では,他の品質に関係のない特徴要因からの介入を減らすために,より知覚指向の領域,すなわち特徴スタイル空間にソースとターゲットドメインを整列させることを提案する。 さらに、品質スコアと特徴スタイルとの一貫性を高めるために、dnnの最終層の前に特徴スタイル(すなわち平均と分散)を混合し、それらのラベルを混合する新しい特徴強化戦略スタイルミックスアップを提案する。 2つの典型的なクロスドメイン設定(すなわち、合成から本物へ、複数の歪みから1つの歪みへ)に関する広範囲な実験結果が、提案手法がnr-iqaに与える影響を実証した。

Deep neural networks (DNNs) have shown great potential in non-reference image quality assessment (NR-IQA). However, the annotation of NR-IQA is labor-intensive and time-consuming, which severely limits their application especially for authentic images. To relieve the dependence on quality annotation, some works have applied unsupervised domain adaptation (UDA) to NR-IQA. However, the above methods ignore that the alignment space used in classification is sub-optimal, since the space is not elaborately designed for perception. To solve this challenge, we propose an effective perception-oriented unsupervised domain adaptation method StyleAM for NR-IQA, which transfers sufficient knowledge from label-rich source domain data to label-free target domain images via Style Alignment and Mixup. Specifically, we find a more compact and reliable space i.e., feature style space for perception-oriented UDA based on an interesting/amazing observation, that the feature style (i.e., the mean and variance) of the deep layer in DNNs is exactly associated with the quality score in NR-IQA. Therefore, we propose to align the source and target domains in a more perceptual-oriented space i.e., the feature style space, to reduce the intervention from other quality-irrelevant feature factors. Furthermore, to increase the consistency between quality score and its feature style, we also propose a novel feature augmentation strategy Style Mixup, which mixes the feature styles (i.e., the mean and variance) before the last layer of DNNs together with mixing their labels. Extensive experimental results on two typical cross-domain settings (i.e., synthetic to authentic, and multiple distortions to one distortion) have demonstrated the effectiveness of our proposed StyleAM on NR-IQA.
翻訳日:2022-08-01 12:57:16 公開日:2022-07-29
# プログレッシブ・ディクリミネータ・保守型ジェネレータ:数ショットインクリメンタル画像合成におけるアドバイザのコーディネート

Conservative Generator, Progressive Discriminator: Coordination of Adversaries in Few-shot Incremental Image Synthesis ( http://arxiv.org/abs/2207.14491v1 )

ライセンス: Link先を確認
Chaerin Kong and Nojun Kwak(参考訳) オンラインデータストリームから漸進的に学習する能力は、深層ニューラルネットワークが破滅的な忘れ忘れと安定性の不安定性ジレンマに悩まされるという、人間の学習者の強い特徴である。 これまでいくつかの研究が、データ制約によるより大きな課題を伴うインクリメンタルな数ショット学習について検討してきた。 本研究では,生成的マイナショット学習の難解な課題について検討する。 インクリメンタル学習とマイナショット学習という本質的な課題を効果的に扱うために,gansの2人のプレイヤーを生かしたconproという新しいフレームワークを提案する。 具体的には,過去の知識をパラメータに保存し,効率的に計算する保守的生成器と,過去と現在のタスクサンプル間の意味的距離を推論し,少ないデータポイントでオーバーフィッティングを最小化し,良好なフォワード転送を追求するプログレッシブ判別器を設計する。 本稿では,ConProの有効性を検証する実験を行う。

The capacity to learn incrementally from an online stream of data is an envied trait of human learners, as deep neural networks typically suffer from catastrophic forgetting and stability-plasticity dilemma. Several works have previously explored incremental few-shot learning, a task with greater challenges due to data constraint, mostly in classification setting with mild success. In this work, we study the underrepresented task of generative incremental few-shot learning. To effectively handle the inherent challenges of incremental learning and few-shot learning, we propose a novel framework named ConPro that leverages the two-player nature of GANs. Specifically, we design a conservative generator that preserves past knowledge in parameter and compute efficient manner, and a progressive discriminator that learns to reason semantic distances between past and present task samples, minimizing overfitting with few data points and pursuing good forward transfer. We present experiments to validate the effectiveness of ConPro.
翻訳日:2022-08-01 12:56:44 公開日:2022-07-29
# 画像インパインティングのための参照誘導テクスチャと構造推論

Reference-Guided Texture and Structure Inference for Image Inpainting ( http://arxiv.org/abs/2207.14498v1 )

ライセンス: Link先を確認
Taorong Liu, Liang Liao, Zheng Wang, Shin'ichi Satoh(参考訳) 複雑なセマンティック環境や多様な穴のパターンに直面する場合、既存の学習ベースの画像インパインティング手法は依然として課題である。 大規模トレーニングデータから得られた事前情報は,これらの状況にはまだ不十分である。 同じシーンをカバーした参照画像は、破損した画像と類似したテクスチャと構造を共用し、画像の塗装作業の新たな見通しを提供する。 これに触発されて,まず10kペアの入力および参照画像を含むベンチマークデータセットを構築した。 次に,入力画像のテクスチャとテクスチャのパターンの相違を考慮したテクスチャと構造特徴を分離的に推定するエンコーダ・デコーダ構造を採用する。 特徴アライメントモジュールはさらに、参照画像のガイダンスにより入力画像の特徴を洗練するように設計されている。 定量的および定性的な評価は、複素孔の完成の観点から、最先端の手法よりも優れていることを示す。

Existing learning-based image inpainting methods are still in challenge when facing complex semantic environments and diverse hole patterns. The prior information learned from the large scale training data is still insufficient for these situations. Reference images captured covering the same scenes share similar texture and structure priors with the corrupted images, which offers new prospects for the image inpainting tasks. Inspired by this, we first build a benchmark dataset containing 10K pairs of input and reference images for reference-guided inpainting. Then we adopt an encoder-decoder structure to separately infer the texture and structure features of the input image considering their pattern discrepancy of texture and structure during inpainting. A feature alignment module is further designed to refine these features of the input image with the guidance of a reference image. Both quantitative and qualitative evaluations demonstrate the superiority of our method over the state-of-the-art methods in terms of completing complex holes.
翻訳日:2022-08-01 12:56:24 公開日:2022-07-29
# 伝達学習に基づく海洋容器再同定手法

A Transfer Learning-Based Approach to Marine Vessel Re-Identification ( http://arxiv.org/abs/2207.14500v1 )

ライセンス: Link先を確認
Guangmiao Zeng, Wanneng Yu, Rongjie Wang, Anhui Lin(参考訳) 船舶再識別技術は、インテリジェントな輸送システムの重要な要素であり、海上監視に必要な視覚知覚タスクの重要な部分である。 しかし、陸上の状況とは異なり、海洋環境は複雑で可変であり、サンプルが少ないため、海上での船の再識別は困難である。 そこで本論文では, 海上における船舶の揺動状況のシミュレーションを行うトランスファー動的アライメントアルゴリズムを提案し, 高いキャモフラージュと類似の軍艦を試験対象とし, 複雑な海洋条件による影響に対処し, 異種の船舶が輸送対象として与える影響について考察する。 実験の結果、改良されたアルゴリズムは平均平均精度(mAP)を10.2%改善し、最初のヒットレート(Rank1)を4.9%改善した。

Marine vessel re-identification technology is an important component of intelligent shipping systems and an important part of the visual perception tasks required for marine surveillance. However, unlike the situation on land, the maritime environment is complex and variable with fewer samples, and it is more difficult to perform vessel re-identification at sea. Therefore, this paper proposes a transfer dynamic alignment algorithm and simulates the swaying situation of vessels at sea, using a well-camouflaged and similar warship as the test target to improve the recognition difficulty and thus cope with the impact caused by complex sea conditions, and discusses the effect of different types of vessels as transfer objects. The experimental results show that the improved algorithm improves the mean average accuracy (mAP) by 10.2% and the first hit rate (Rank1) by 4.9% on average.
翻訳日:2022-08-01 12:56:10 公開日:2022-07-29
# 不確実性に基づく行動品質評価

Uncertainty-Driven Action Quality Assessment ( http://arxiv.org/abs/2207.14513v1 )

ライセンス: Link先を確認
Caixia Zhou and Yaping Huang(参考訳) 自動行動品質評価(AQA)はその幅広い応用により、より多くの関心を集めている。 しかし、既存のAQAメソッドは通常、複数のスコアを生成するためにマルチブランチモデルを使用する。 本稿では,1つの分岐のみを用いて複数の予測を生成する新しい不確実性駆動型AQA(UD-AQA)モデルを提案する。 具体的には,不確実性を符号化するCVAE (Conditional Variational Auto-Encoder) ベースのモジュールを設計する。 さらに,不確実性の推定を出力し,予測不確実性を利用してAQA回帰損失を再重み付けし,トレーニングにおける不確実性サンプルの寄与を低減する。 さらに,不確実性から高い不確実性までサンプルの学習順序を動的に調整する不確実性誘導訓練戦略を考案する。 提案手法は,オリンピックイベントMTL-AQAと手術スキルJIGSAWSデータセットに対して,最新の結果が得られることを示す。

Automatic action quality assessment (AQA) has attracted more interests due to its wide applications. However, existing AQA methods usually employ the multi-branch models to generate multiple scores, which is not flexible for dealing with a variable number of judges. In this paper, we propose a novel Uncertainty-Driven AQA (UD-AQA) model to generate multiple predictions only using one single branch. Specifically, we design a CVAE (Conditional Variational Auto-Encoder) based module to encode the uncertainty, where multiple scores can be produced by sampling from the learned latent space multiple times. Moreover, we output the estimation of uncertainty and utilize the predicted uncertainty to re-weight AQA regression loss, which can reduce the contributions of uncertain samples for training. We further design an uncertainty-guided training strategy to dynamically adjust the learning order of the samples from low uncertainty to high uncertainty. The experiments show that our proposed method achieves new state-of-the-art results on the Olympic events MTL-AQA and surgical skill JIGSAWS datasets.
翻訳日:2022-08-01 12:55:54 公開日:2022-07-29
# ScaleFormer: 医療画像セグメンテーションのスケールワイズから見たトランスフォーマーベースのバックボーンの再検討

ScaleFormer: Revisiting the Transformer-based Backbones from a Scale-wise Perspective for Medical Image Segmentation ( http://arxiv.org/abs/2207.14552v1 )

ライセンス: Link先を確認
Huimin Huang, Shiao Xie1, Lanfen Lin, Yutaro Iwamoto, Xianhua Han, Yen-Wei Chen, Ruofeng Tong(参考訳) 近年,長距離依存のモデリング能力として様々な視覚変換器が開発されている。 現在の医療画像分割のためのトランスフォーマーベースのバックボーンでは、畳み込み層が純粋なトランスフォーマーに置き換えられたり、グローバルコンテキストを学ぶために最も深いエンコーダにトランスフォーマーが追加されたりした。 しかし,(1)スケール内問題:各スケールにおける局所的言語的手がかりの抽出に欠く既存手法,(2)スケール間問題:既存の手法では複数のスケールから特有の情報を探索できなかったため,幅広い大きさ,形状,位置の物体からの表現学習が妨げられる可能性がある。 これらの制約に対処するために,(1)CNNをベースとした局所的特徴と,各スケールにおけるトランスフォーマーに基づくグローバルなキューとを結合するように設計されたスケールワイドなイントラスケールトランスフォーマーを,軽量なデュアルアクシスMSAにより行ワイドおよび列ワイドなグローバルな依存関係を抽出する,2つの魅力的な設計のバックボーン,すなわちScaleFormerを提案する。 2) 簡易かつ効果的な空間認識型大規模変圧器は, 複数スケールの連続領域間で相互作用し, 相互依存を強調し, 複雑なスケール変動を解消できるように設計されている。 異なるベンチマークにおける実験結果から, スケールフォーマは現在の最先端の手法を上回っていることが判明した。 コードは、https://github.com/ZJUGiveLab/ScaleFormer.comで公開されている。

Recently, a variety of vision transformers have been developed as their capability of modeling long-range dependency. In current transformer-based backbones for medical image segmentation, convolutional layers were replaced with pure transformers, or transformers were added to the deepest encoder to learn global context. However, there are mainly two challenges in a scale-wise perspective: (1) intra-scale problem: the existing methods lacked in extracting local-global cues in each scale, which may impact the signal propagation of small objects; (2) inter-scale problem: the existing methods failed to explore distinctive information from multiple scales, which may hinder the representation learning from objects with widely variable size, shape and location. To address these limitations, we propose a novel backbone, namely ScaleFormer, with two appealing designs: (1) A scale-wise intra-scale transformer is designed to couple the CNN-based local features with the transformer-based global cues in each scale, where the row-wise and column-wise global dependencies can be extracted by a lightweight Dual-Axis MSA. (2) A simple and effective spatial-aware inter-scale transformer is designed to interact among consensual regions in multiple scales, which can highlight the cross-scale dependency and resolve the complex scale variations. Experimental results on different benchmarks demonstrate that our Scale-Former outperforms the current state-of-the-art methods. The code is publicly available at: https://github.com/ZJUGiveLab/ScaleFormer.
翻訳日:2022-08-01 12:55:36 公開日:2022-07-29
# マルチモーダルトラッキングのためのプロンプト

Prompting for Multi-Modal Tracking ( http://arxiv.org/abs/2207.14571v1 )

ライセンス: Link先を確認
Jinyu Yang and Zhe Li and Feng Zheng and Ale\v{s} Leonardis and Jingkuan Song(参考訳) マルチモーダルトラッキングは、従来のrgbベースのトラッキングよりも複雑なシナリオで正確で堅牢であることから注目を集めている。 その鍵は、マルチモーダルデータを融合し、モダリティ間のギャップを減らす方法にある。 しかし、マルチモーダルトラッキングは依然としてデータ不足に苦しむため、融合モジュールの学習が不十分になる。 本稿では、このような融合モジュールを構築する代わりに、マルチモーダル視覚プロンプトに重きを置くことで、マルチモーダルトラッキングの新しい視点を提供する。 我々は,マルチモーダル入力をプロンプトパラダイムによって単一のモーダルに転送可能な,新しいマルチモーダルプロンプトトラッカ(protrack)を設計した。 事前学習したrgbトラッカの追跡能力を最大限に活用することで,マルチモーダルデータのトレーニングを必要とせずとも,入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。 5つのベンチマークデータセットに関する広範な実験は、提案するprotrackの有効性を示している。

Multi-modal tracking gains attention due to its ability to be more accurate and robust in complex scenarios compared to traditional RGB-based tracking. Its key lies in how to fuse multi-modal data and reduce the gap between modalities. However, multi-modal tracking still severely suffers from data deficiency, thus resulting in the insufficient learning of fusion modules. Instead of building such a fusion module, in this paper, we provide a new perspective on multi-modal tracking by attaching importance to the multi-modal visual prompts. We design a novel multi-modal prompt tracker (ProTrack), which can transfer the multi-modal inputs to a single modality by the prompt paradigm. By best employing the tracking ability of pre-trained RGB trackers learning at scale, our ProTrack can achieve high-performance multi-modal tracking by only altering the inputs, even without any extra training on multi-modal data. Extensive experiments on 5 benchmark datasets demonstrate the effectiveness of the proposed ProTrack.
翻訳日:2022-08-01 12:55:04 公開日:2022-07-29
# ゼロショット認識のためのプレースホルダーによるプロトタイプ学習

Learning Prototype via Placeholder for Zero-shot Recognition ( http://arxiv.org/abs/2207.14581v1 )

ライセンス: Link先を確認
Zaiquan Yang, Yang Liu, Wenjia Xu, Chong Huang, Lei Zhou, Chao Tong(参考訳) Zero-shot Learning (ZSL) は、目に見えないクラスと見えないクラス間で共有されるセマンティック記述を活用することで、目に見えないクラスを認識することを目的としている。 現在の手法では,クラスプロトタイプとして視覚空間にセマンティック埋め込みを投影することにより,視覚的セマンティックアライメントの学習が効果的であることを示す。 しかし、そのような射影関数は、見たクラスのみに関係している。 unseenクラスに適用される場合、プロトタイプはドメインシフトによってサブオプティマイズされることが多い。 本稿では,視認クラスと視認クラス間のドメインシフトを解消するために,lplと呼ばれるプレースホルダを通じてプロトタイプを学ぶことを提案する。 具体的には、視覚的および意味的な空間において、目に見えないクラスのプレースホルダーとして機能する新しいクラスを幻覚させる。 視認クラスの間に配置されたプレースホルダは、視認クラスのプロトタイプを高度に分散させることを奨励する。 そして、よく区切られた見えないものを挿入するために、より多くのスペースが確保される。 実証的に、よく区分けされたプロトタイプは、ドメインシフトによって引き起こされる視覚的意味的ミスアライメントに対抗するのに役立ちます。 さらに,新しいセマンティクス指向の微調整を活用し,プレースホルダの意味的信頼性を保証する。 5つのベンチマークデータセットに関する広範囲な実験は、最先端のメソッドに対するlplのパフォーマンス向上を示している。 コードはhttps://github.com/zaiquanyang/LPLで入手できる。

Zero-shot learning (ZSL) aims to recognize unseen classes by exploiting semantic descriptions shared between seen classes and unseen classes. Current methods show that it is effective to learn visual-semantic alignment by projecting semantic embeddings into the visual space as class prototypes. However, such a projection function is only concerned with seen classes. When applied to unseen classes, the prototypes often perform suboptimally due to domain shift. In this paper, we propose to learn prototypes via placeholders, termed LPL, to eliminate the domain shift between seen and unseen classes. Specifically, we combine seen classes to hallucinate new classes which play as placeholders of the unseen classes in the visual and semantic space. Placed between seen classes, the placeholders encourage prototypes of seen classes to be highly dispersed. And more space is spared for the insertion of well-separated unseen ones. Empirically, well-separated prototypes help counteract visual-semantic misalignment caused by domain shift. Furthermore, we exploit a novel semantic-oriented fine-tuning to guarantee the semantic reliability of placeholders. Extensive experiments on five benchmark datasets demonstrate the significant performance gain of LPL over the state-of-the-art methods. Code is available at https://github.com/zaiquanyang/LPL.
翻訳日:2022-08-01 12:54:47 公開日:2022-07-29
# AffNetベースの修正とマッチング

Matching with AffNet based rectifications ( http://arxiv.org/abs/2207.14660v1 )

ライセンス: Link先を確認
V\'aclav V\'avra, Dmytro Mishkin, Ji\v{r}\'i Matas(参考訳) 本研究では,視点合成による視点変化を考慮した2視点マッチングの問題を考える。 ビュー合成オーバーヘッドを最小限に抑える2つの新しい手法を提案する。 ひとつは denseaffnet という名前で,afnet から推定される密接なアフィン形状を使用してイメージを分割し,ひとつのアフィンマップで各パーティションを整列する。 2つめはDepthAffNetと呼ばれ、深度マップとアフィン形状の推定情報を組み合わせて、異なる画像分割のためのアフィンマップの修正セットを生成する。 DenseAffNetは最先端よりも高速で、一般的なシーンではより正確である。 DepthAffNetは、大きな飛行機を含むシーンにおけるアートの状態と同等である。 評価は、EVDデータセット、Strong ViewPoint Change Dataset、IMC Phototourism Datasetの3つの公開データセットで実施される。

We consider the problem of two-view matching under significant viewpoint changes with view synthesis. We propose two novel methods, minimizing the view synthesis overhead. The first one, named DenseAffNet, uses dense affine shapes estimates from AffNet, which allows it to partition the image, rectifying each partition with just a single affine map. The second one, named DepthAffNet, combines information from depth maps and affine shapes estimates to produce different sets of rectifying affine maps for different image partitions. DenseAffNet is faster than the state-of-the-art and more accurate on generic scenes. DepthAffNet is on par with the state of the art on scenes containing large planes. The evaluation is performed on 3 public datasets - EVD Dataset, Strong ViewPoint Changes Dataset and IMC Phototourism Dataset.
翻訳日:2022-08-01 12:54:26 公開日:2022-07-29
# 視覚表現学習のためのグローバルローカル自己蒸留

Global-Local Self-Distillation for Visual Representation Learning ( http://arxiv.org/abs/2207.14676v1 )

ライセンス: Link先を確認
Tim Lebailly and Tinne Tuytelaars(参考訳) 自己教師あり手法の下流精度は,訓練中に解決したプロキシタスクと,それから抽出した勾配の質に強く関連している。 より豊かで有意義なグラデーション更新は、自己監督型メソッドをより効率的に学ぶための鍵となる。 典型的な自己蒸留フレームワークでは、2つの拡張画像の表現をグローバルレベルでコヒーレントに強制する。 それでもプロキシタスクにローカルキューを組み込むことはメリットがあり、下流タスクのモデルの精度が向上する。 これにより、グローバル表現間のコヒーレンスが強制される一方、ローカル表現間のコヒーレンスが強制される2つの目的が導かれる。 残念なことに、2組の局所表現間の正確な対応マッピングは存在せず、ある拡張子から別の非自明な部分への局所表現をマッチングするタスクである。 本稿では,入力画像の空間情報を利用して幾何マッチングを求め,この幾何学的アプローチを類似性マッチングに基づく従来の手法と比較する。 私たちの研究が示すのは 1) 幾何マッチングは低データレシエーションにおける類似性に基づくマッチングよりも優れているが、 2) 局所自己蒸留を伴わないバニラベースラインと比較して, 類似度に基づくマッチングは低データ環境において非常に有害である。 コードは受理後にリリースされます。

The downstream accuracy of self-supervised methods is tightly linked to the proxy task solved during training and the quality of the gradients extracted from it. Richer and more meaningful gradients updates are key to allow self-supervised methods to learn better and in a more efficient manner. In a typical self-distillation framework, the representation of two augmented images are enforced to be coherent at the global level. Nonetheless, incorporating local cues in the proxy task can be beneficial and improve the model accuracy on downstream tasks. This leads to a dual objective in which, on the one hand, coherence between global-representations is enforced and on the other, coherence between local-representations is enforced. Unfortunately, an exact correspondence mapping between two sets of local-representations does not exist making the task of matching local-representations from one augmentation to another non-trivial. We propose to leverage the spatial information in the input images to obtain geometric matchings and compare this geometric approach against previous methods based on similarity matchings. Our study shows that not only 1) geometric matchings perform better than similarity based matchings in low-data regimes but also 2) that similarity based matchings are highly hurtful in low-data regimes compared to the vanilla baseline without local self-distillation. The code will be released upon acceptance.
翻訳日:2022-08-01 12:54:12 公開日:2022-07-29
# 単一のGAN画像からの制御可能な表現による3次元カルトーン顔生成

3D Cartoon Face Generation with Controllable Expressions from a Single GAN Image ( http://arxiv.org/abs/2207.14425v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 本稿では,人間の顔から生成した1枚の2d ganから3dマンガの表情を3d監視することなく生成する,オープンな研究課題について検討する。 そこで本研究では,スタイルガン潜在空間の意味的意味を見出し,潜在コードの制御により様々な表情,ポーズ,照明の表情画像を生成する。 具体的には,マンガのデータセットから事前学習したStyleGANの顔モデルを抽出する。 顔とマンガ生成モデルに同一の潜伏符号を供給することにより,2次元顔画像からマンガスタイルのアバターへの変換の実現を目指している。 次に、元のアイデンティティを維持しながら表情を変化させようとして、gan潜在空間の意味的方向を見つける。 マンガの顔に3dアノテーションはないので、潜在コードを操作してポーズや照明の異なる画像を生成し、3dマンガの顔形状を再構築できるようにします。 本手法の有効性を,定性的かつ定量的に検証した。

In this paper, we investigate an open research task of generating 3D cartoon face shapes from single 2D GAN generated human faces and without 3D supervision, where we can also manipulate the facial expressions of the 3D shapes. To this end, we discover the semantic meanings of StyleGAN latent space, such that we are able to produce face images of various expressions, poses, and lighting by controlling the latent codes. Specifically, we first finetune the pretrained StyleGAN face model on the cartoon datasets. By feeding the same latent codes to face and cartoon generation models, we aim to realize the translation from 2D human face images to cartoon styled avatars. We then discover semantic directions of the GAN latent space, in an attempt to change the facial expressions while preserving the original identity. As we do not have any 3D annotations for cartoon faces, we manipulate the latent codes to generate images with different poses and lighting, such that we can reconstruct the 3D cartoon face shapes. We validate the efficacy of our method on three cartoon datasets qualitatively and quantitatively.
翻訳日:2022-08-01 12:50:47 公開日:2022-07-29
# きめ細かい画像からテキストへの検索のための対のクロスモーダルデータ拡張

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval ( http://arxiv.org/abs/2207.14428v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 本稿では,テキスト画像のペアを生成するためのオープンな研究課題について検討し,StyleGAN2モデルの隠れセマンティック情報を明らかにすることで,データ拡張のための新たなフレームワークを提案する。 具体的には、まず所定のデータセット上でStyleGAN2モデルをトレーニングします。 次に、実際の画像をStyleGAN2の潜在空間に投影し、潜在コードを取得する。 生成した画像の操作を可能にするために,StyleGAN2遅延符号と対応するテキストキャプション特徴との間のアライメントを学習する潜在空間アライメントモジュールを導入する。 オンラインペア化されたデータ拡張を行う場合、まずランダムなトークン置換によって拡張テキストを生成し、次に拡張テキストを潜時空間アライメントモジュールに渡して遅延コードを生成し、最終的にStyleGAN2に送信し、拡張イメージを生成する。 提案手法の有効性を2つの公開モーダル検索データセットで評価し,有望な実験結果から,画像とテキストの相互モーダル検索性能を高めるために,原データとともに拡張テキストイメージペアデータをトレーニングできることを示した。

This paper investigates an open research problem of generating text-image pairs to improve the training of fine-grained image-to-text cross-modal retrieval task, and proposes a novel framework for paired data augmentation by uncovering the hidden semantic information of StyleGAN2 model. Specifically, we first train a StyleGAN2 model on the given dataset. We then project the real images back to the latent space of StyleGAN2 to obtain the latent codes. To make the generated images manipulatable, we further introduce a latent space alignment module to learn the alignment between StyleGAN2 latent codes and the corresponding textual caption features. When we do online paired data augmentation, we first generate augmented text through random token replacement, then pass the augmented text into the latent space alignment module to output the latent codes, which are finally fed to StyleGAN2 to generate the augmented images. We evaluate the efficacy of our augmented data approach on two public cross-modal retrieval datasets, in which the promising experimental results demonstrate the augmented text-image pair data can be trained together with the original data to boost the image-to-text cross-modal retrieval performance.
翻訳日:2022-08-01 12:50:19 公開日:2022-07-29
# ゴールチャレンジのためのデータセットと評価アルゴリズム設計

Dataset and Evaluation algorithm design for GOALS Challenge ( http://arxiv.org/abs/2207.14447v1 )

ライセンス: Link先を確認
Huihui Fang, Fei Li, Huazhu Fu, Junde Wu, Xiulan Zhang, Yanwu Xu(参考訳) 緑内障は視神経損傷による可逆的視力障害を引き起こし、緑内障の治療法はない。octイメージングモダリティは、眼底構造を定量化するのに役立つため、緑内障の診断に必須の手法である。 緑内障診断分野におけるai研究の促進を目的として,国際医用画像処理・コンピュータ支援介入会議(miccai)2022と共に緑内障oct解析・層分割(goals)チャレンジを実施し,oct画像からの層分割と緑内障の分類を研究する研究者にデータと対応する注釈を提供した。 本稿では,300個の周辺oct画像,2つのサブタスクのベースライン,評価手法について述べる。 GOALS Challengeはhttps://aistudio.baidu.com/aistudio/competition/detail/230で利用可能である。

Glaucoma causes irreversible vision loss due to damage to the optic nerve, and there is no cure for glaucoma.OCT imaging modality is an essential technique for assessing glaucomatous damage since it aids in quantifying fundus structures. To promote the research of AI technology in the field of OCT-assisted diagnosis of glaucoma, we held a Glaucoma OCT Analysis and Layer Segmentation (GOALS) Challenge in conjunction with the International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) 2022 to provide data and corresponding annotations for researchers studying layer segmentation from OCT images and the classification of glaucoma. This paper describes the released 300 circumpapillary OCT images, the baselines of the two sub-tasks, and the evaluation methodology. The GOALS Challenge is accessible at https://aistudio.baidu.com/aistudio/competition/detail/230.
翻訳日:2022-08-01 12:49:48 公開日:2022-07-29
# 深層学習に基づく没入者の再識別:調査

Deep Learning-based Occluded Person Re-identification: A Survey ( http://arxiv.org/abs/2207.14452v1 )

ライセンス: Link先を確認
Yunjie Peng, Saihui Hou, Chunshui Cao, Xu Liu, Yongzhen Huang, Zhiqiang He(参考訳) occluded person re-id(re-id)は、複数のカメラで興味のある人物を検索する際の咬合問題に対処することを目的としている。 ディープラーニング技術の推進とインテリジェントなビデオ監視の需要の高まりにより、現実世界のアプリケーションにおいて、隠蔽された人物のRe-IDは研究者からかなりの関心を集めている。 隠蔽に焦点を絞った調査は少ないが,多数の隠蔽者によるRe-ID手法が提案されている。 本稿では,このギャップを埋め,今後の研究を促進するために,隠蔽者のRe-IDを体系的に調査する。 人物Re-IDにおける閉塞の詳細な分析を通して、既存の手法のほとんどは、閉塞によって引き起こされる問題の一部を考慮している。 そこで我々は,オクルージョン関連人物Re-ID手法について,課題と解決策の観点から検討する。 本稿では,人物再識別における咬合による問題,すなわち位置不一致,規模不一致,雑音情報,情報不足の4つを要約する。 異なる問題に対処するオクルージョン関連手法を分類して導入する。 その後,最近のoccluded person re-id法の性能を,partment-reid,partial-ilids,occluded-reid,occluded-dukemtmcの4つの人気データセットで比較検討した。 最後に,将来的な研究の方向性について考察する。

Occluded person re-identification (Re-ID) aims at addressing the occlusion problem when retrieving the person of interest across multiple cameras. With the promotion of deep learning technology and the increasing demand for intelligent video surveillance, the frequent occlusion in real-world applications has made occluded person Re-ID draw considerable interest from researchers. A large number of occluded person Re-ID methods have been proposed while there are few surveys that focus on occlusion. To fill this gap and help boost future research, this paper provides a systematic survey of occluded person Re-ID. Through an in-depth analysis of the occlusion in person Re-ID, most existing methods are found to only consider part of the problems brought by occlusion. Therefore, we review occlusion-related person Re-ID methods from the perspective of issues and solutions. We summarize four issues caused by occlusion in person Re-ID, i.e., position misalignment, scale misalignment, noisy information, and missing information. The occlusion-related methods addressing different issues are then categorized and introduced accordingly. After that, we summarize and compare the performance of recent occluded person Re-ID methods on four popular datasets: Partial-ReID, Partial-iLIDS, Occluded-ReID, and Occluded-DukeMTMC. Finally, we provide insights on promising future research directions.
翻訳日:2022-08-01 12:49:30 公開日:2022-07-29
# ニューラル密度距離場

Neural Density-Distance Fields ( http://arxiv.org/abs/2207.14455v1 )

ライセンス: Link先を確認
Itsuki Ueda, Yoshihiro Fukuhara, Hirokatsu Kataoka, Hiroaki Aizawa, Hidehiko Shishido, Itaru Kitahara(参考訳) 3dビジョンタスクにおけるニューラルフィールドの成功は、もはや説明がつかない。 この傾向に従い、神経場を用いて距離や密度場を推定するために、視覚定位を目的としたいくつかの方法(例えばslam)が提案されている。 しかし,ほとんどの空き領域では密度勾配が得られないので,ニューラルレージアンス場(NeRF)のような密度場に基づく手法で高位置化性能を実現することは困難である。 一方、ニューラルインプリシットサーフェス(NeuS)のような距離場に基づく手法は、物体の表面形状に制限がある。 本稿では,距離と密度場を相互に拘束する新しい3次元表現であるニューラル密度距離場(NeDDF)を提案する。 距離場の定式化を、毛や煙などの明示的な境界面を持たない形状に拡張し、距離場から密度場への明示的な変換を可能にする。 明示的な変換によって実現された一貫性距離と密度場は、初期値に対する堅牢性と高品質な登録の両方を可能にする。 さらに、場間の整合性はスパース点雲からの高速収束を可能にする。 実験により、NeDDFは、新規なビュー合成において、NeRFに匹敵する結果を提供しながら、高いローカライゼーション性能が得られることが示された。 コードはhttps://github.com/ueda0319/neddfで入手できる。

The success of neural fields for 3D vision tasks is now indisputable. Following this trend, several methods aiming for visual localization (e.g., SLAM) have been proposed to estimate distance or density fields using neural fields. However, it is difficult to achieve high localization performance by only density fields-based methods such as Neural Radiance Field (NeRF) since they do not provide density gradient in most empty regions. On the other hand, distance field-based methods such as Neural Implicit Surface (NeuS) have limitations in objects' surface shapes. This paper proposes Neural Density-Distance Field (NeDDF), a novel 3D representation that reciprocally constrains the distance and density fields. We extend distance field formulation to shapes with no explicit boundary surface, such as fur or smoke, which enable explicit conversion from distance field to density field. Consistent distance and density fields realized by explicit conversion enable both robustness to initial values and high-quality registration. Furthermore, the consistency between fields allows fast convergence from sparse point clouds. Experiments show that NeDDF can achieve high localization performance while providing comparable results to NeRF on novel view synthesis. The code is available at https://github.com/ueda0319/neddf.
翻訳日:2022-08-01 12:49:03 公開日:2022-07-29
# きめ細かい検索プロンプトチューニング

Fine-grained Retrieval Prompt Tuning ( http://arxiv.org/abs/2207.14465v1 )

ライセンス: Link先を確認
Shijie Wang, Jianlong Chang, Zhihui Wang, Haojie Li, Wanli Ouyang, Qi Tian(参考訳) 細粒度オブジェクト検索は、視覚的に類似したオブジェクトを検索するために識別表現を学習することを目的としている。 しかし、既存のトップパフォーマンスワークは、通常、セマンティックな埋め込み空間にペアワイズな類似性を課し、限定データレギュレーションでモデル全体を連続的に微調整し、その結果、最適化された解に容易に収束する。 本稿では, サンプルプロンプトと特徴適応の観点から, 微粒化検索タスクを実行するために, 凍結した事前学習モデルの制御を行うFRPT(Fold-fine Retrieval Prompt Tuning)を開発した。 具体的には、FRPTはモデル全体を微調整する代わりに、プロンプトと適応においてより少ないパラメータを学習する必要があり、従ってモデル全体を微調整することによって生じる準最適解への収束を解決する。 技術的には、サンプルプロンプトとして、構造摂動プロンプト(spp)を導入し、コンテンツ認識不均質なサンプリング操作を通じてカテゴリ予測に寄与する画素を誇張する。 このようにして、SPPは、元の事前学習中に解いたタスクに近い摂動プロンプトによって補助されるきめ細かい検索タスクを作成できる。 また, カテゴリー別認知頭部を特徴適応とみなし, 事前学習モデルにより抽出された特徴の種差をインスタンス正規化を用いて除去し, サブカテゴリ間の相違のみを含むようにした。 広範囲な実験により,学習可能なパラメータが少ないFRPTは,広範に使用されている3つの粒度データセットに対して,最先端の性能を実現することが示された。

Fine-grained object retrieval aims to learn discriminative representation to retrieve visually similar objects. However, existing top-performing works usually impose pairwise similarities on the semantic embedding spaces to continually fine-tune the entire model in limited-data regimes, thus resulting in easily converging to suboptimal solutions. In this paper, we develop Fine-grained Retrieval Prompt Tuning (FRPT), which steers a frozen pre-trained model to perform the fine-grained retrieval task from the perspectives of sample prompt and feature adaptation. Specifically, FRPT only needs to learn fewer parameters in the prompt and adaptation instead of fine-tuning the entire model, thus solving the convergence to suboptimal solutions caused by fine-tuning the entire model. Technically, as sample prompts, a structure perturbation prompt (SPP) is introduced to zoom and even exaggerate some pixels contributing to category prediction via a content-aware inhomogeneous sampling operation. In this way, SPP can make the fine-grained retrieval task aided by the perturbation prompts close to the solved task during the original pre-training. Besides, a category-specific awareness head is proposed and regarded as feature adaptation, which removes the species discrepancies in the features extracted by the pre-trained model using instance normalization, and thus makes the optimized features only include the discrepancies among subcategories. Extensive experiments demonstrate that our FRPT with fewer learnable parameters achieves the state-of-the-art performance on three widely-used fine-grained datasets.
翻訳日:2022-08-01 12:48:44 公開日:2022-07-29
# ドメインに依存しない深さ補完を目指して

Towards Domain-agnostic Depth Completion ( http://arxiv.org/abs/2207.14466v1 )

ライセンス: Link先を確認
Wei Yin, Jianming Zhang, Oliver Wang, Simon Niklaus, Simon Chen, Chunhua Shen(参考訳) 既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域間での一般化が不十分である。 本稿では,現代の携帯電話や多視点再構成アルゴリズムなど,様々な範囲のセンサから得られたスパース/セミセンス,ノイズ,低分解能深度マップを補完する手法を提案する。 提案手法は,大規模データセット上でトレーニングされた単一の画像深度予測ネットワークの形で,先行してデータ駆動を活用し,その出力をモデルへの入力として利用する。 本稿では,典型的なタスク領域における様々な空間パターンをシミュレートする効果的なトレーニング手法を提案する。 さらに,提案手法の一般化可能性と頑健性を評価するための2つの新しいベンチマークを設計する。 提案手法は,最先端の深度解析手法に対して優れたクロスドメイン一般化能力を示し,モバイルデバイスに高品質の深度キャプチャを実現するための実用的なソリューションを提案する。 コードはhttps://github.com/yvanyin/filldepth.com/。

Existing depth completion methods are often targeted at a specific sparse depth type, and generalize poorly across task domains. We present a method to complete sparse/semi-dense, noisy, and potentially low-resolution depth maps obtained by various range sensors, including those in modern mobile phones, or by multi-view reconstruction algorithms. Our method leverages a data driven prior in the form of a single image depth prediction network trained on large-scale datasets, the output of which is used as an input to our model. We propose an effective training scheme where we simulate various sparsity patterns in typical task domains. In addition, we design two new benchmarks to evaluate the generalizability and the robustness of depth completion methods. Our simple method shows superior cross-domain generalization ability against state-of-the-art depth completion methods, introducing a practical solution to high quality depth capture on a mobile device. Code is available at: https://github.com/YvanYin/FillDepth.
翻訳日:2022-08-01 12:48:18 公開日:2022-07-29
# 中心性と一貫性:インスタンス依存雑音ラベルを用いた学習のための2段階クリーンサンプル同定

Centrality and Consistency: Two-Stage Clean Samples Identification for Learning with Instance-Dependent Noisy Labels ( http://arxiv.org/abs/2207.14476v1 )

ライセンス: Link先を確認
Ganlong Zhao, Guanbin Li, Yipeng Qin, Feng Liu, Yizhou Yu(参考訳) ノイズラベルでトレーニングされた深層モデルは、過剰フィッティングや一般化に苦しむ傾向がある。 既存のソリューションのほとんどは、ラベルノイズがクラス条件、すなわち同じクラスのインスタンスが同じノイズモデルを共有し、機能に依存しないという理想的な仮定に基づいている。 実際には、実世界のノイズパターンは、通常、インスタンス依存のノイズパターンよりもきめ細かな粒度であり、特にクラス間の不均衡の存在において大きな課題を引き起こす。 本稿では,上記の課題に対処する2段階のクリーンサンプル識別手法を提案する。 まず,クラス毎の予測センタに近いクリーンなサンプルを早期に識別するために,クラスレベルの特徴クラスタリング手法を用いる。 特に,その予測エントロピーに応じてレアクラスを集約することにより,クラス不均衡問題に対処する。 第二に、基底真理クラス境界に近い残りのクリーンサンプル(通常、インスタンス依存ノイズを持つサンプルと混合)について、2つの分類器ヘッドの一貫性を利用してそれらを識別する新しい一貫性に基づく分類法を提案する。 いくつかの難解なベンチマークに関する広範囲な実験は、最先端の手法に対する優れた性能を示している。

Deep models trained with noisy labels are prone to over-fitting and struggle in generalization. Most existing solutions are based on an ideal assumption that the label noise is class-conditional, i.e., instances of the same class share the same noise model, and are independent of features. While in practice, the real-world noise patterns are usually more fine-grained as instance-dependent ones, which poses a big challenge, especially in the presence of inter-class imbalance. In this paper, we propose a two-stage clean samples identification method to address the aforementioned challenge. First, we employ a class-level feature clustering procedure for the early identification of clean samples that are near the class-wise prediction centers. Notably, we address the class imbalance problem by aggregating rare classes according to their prediction entropy. Second, for the remaining clean samples that are close to the ground truth class boundary (usually mixed with the samples with instance-dependent noises), we propose a novel consistency-based classification method that identifies them using the consistency of two classifier heads: the higher the consistency, the larger the probability that a sample is clean. Extensive experiments on several challenging benchmarks demonstrate the superior performance of our method against the state-of-the-art.
翻訳日:2022-08-01 12:48:00 公開日:2022-07-29
# 機械学習を用いたX線回折データのアーチファクト同定

Artifact Identification in X-ray Diffraction Data using Machine Learning Methods ( http://arxiv.org/abs/2207.14804v1 )

ライセンス: Link先を確認
Howard Yanxon, James Weng, Hannah Parraga, Wenqian Xu, Uta Ruett, and Nicholas Schwarz(参考訳) In situ synchrotron High-Eergy X-ray Powder diffraction (XRD)技術は、機能性デバイス(電池材料など)や複雑なサンプル環境(ダイヤモンドアンビル細胞や合成反応器など)における材料の結晶構造を分析するために、研究者によって高利用されている。 材料の原子構造は、その回折パターンと、測定された構造が理想的な構造(例えば、内部応力や欠陥)からどのように逸脱するかを示すリートベルト微細化のような詳細な分析によって識別することができる。 in situ実験では、xrd画像は、通常、異なる条件(例えば断熱条件)で同じサンプル上で収集され、異なる物質の状態が得られたり、単に時間関数として連続して収集され、化学的または物理的プロセスでサンプルの変化を追跡する。 通常、In situ実験は領域検出器を用いて行われ、理想的な粉末のために回折リングからなる2D画像を集める。 材料の形態によっては、2次元XRD画像のテクスチャや好ましい配向や単結晶の回折点など、現実的なサンプルと環境の典型的なデビー・シェラー環以外の特徴を観察することができる。 本研究では,XRD画像における単結晶回折点の高速かつ信頼性の高い同定と分離のための機械学習手法について検討する。 XRD画像統合プロセスにおけるアーティファクトの排除は、興味のある粉末回折環の正確な分析を可能にする。 我々は,高度に多様なデータセットの小さなサブセットで学習すると,勾配向上法が常に高精度な結果が得られることを観察した。 本手法は, 従来の方法と比較して, 単結晶点の同定と分離に要する時間を大幅に削減する。

The in situ synchrotron high-energy X-ray powder diffraction (XRD) technique is highly utilized by researchers to analyze the crystallographic structures of materials in functional devices (e.g., battery materials) or in complex sample environments (e.g., diamond anvil cells or syntheses reactors). An atomic structure of a material can be identified by its diffraction pattern, along with detailed analysis such as Rietveld refinement which indicates how the measured structure deviates from the ideal structure (e.g., internal stresses or defects). For in situ experiments, a series of XRD images is usually collected on the same sample at different conditions (e.g., adiabatic conditions), yielding different states of matter, or simply collected continuously as a function of time to track the change of a sample over a chemical or physical process. In situ experiments are usually performed with area detectors, collecting 2D images composed of diffraction rings for ideal powders. Depending on the material's form, one may observe different characteristics other than the typical Debye Scherrer rings for a realistic sample and its environments, such as textures or preferred orientations and single crystal diffraction spots in the 2D XRD image. In this work, we present an investigation of machine learning methods for fast and reliable identification and separation of the single crystal diffraction spots in XRD images. The exclusion of artifacts during an XRD image integration process allows a precise analysis of the powder diffraction rings of interest. We observe that the gradient boosting method can consistently produce high accuracy results when it is trained with small subsets of highly diverse datasets. The method dramatically decreases the amount of time spent on identifying and separating single crystal spots in comparison to the conventional method.
翻訳日:2022-08-01 12:44:10 公開日:2022-07-29
# ランダム再帰ダグとクーパー・フリーズランダムネットワークの考古学

Archaeology of random recursive dags and Cooper-Frieze random networks ( http://arxiv.org/abs/2207.14601v1 )

ライセンス: Link先を確認
Simon Briend and Francisco Calvillo and G\'abor Lugosi(参考訳) 大規模ネットワークにおける根頂点の探索問題について検討する。 ランダムネットワークの様々なモデルにおいて、確率の高いルート頂点を含むネットワークの頂点数に依存しない大きさの信頼集合を構築することが可能であることが証明される。 モデルには、一様ランダム再帰ダグと一様クーパー・フリーズランダムグラフが含まれる。

We study the problem of finding the root vertex in large growing networks. We prove that it is possible to construct confidence sets of size independent of the number of vertices in the network that contain the root vertex with high probability in various models of random networks. The models include uniform random recursive dags and uniform Cooper-Frieze random graphs.
翻訳日:2022-08-01 12:43:39 公開日:2022-07-29
# 接角ワッサーシュタイン射影

Tangential Wasserstein Projections ( http://arxiv.org/abs/2207.14727v1 )

ライセンス: Link先を確認
Florian Gunsilius, Meng Hsuan Hsieh, Myung Jin Lee(参考訳) 2-wasserstein空間の幾何学的性質を用いて確率測度の集合間の射影の概念を開発する。 一般的な多変量確率測度のために設計され、計算効率が良く、正規設定で一意な解を提供する。 このアイデアは、一般化された測地線を用いてワッサーシュタイン空間の正接円錐を扱うことである。 その構造と計算特性により、この手法は因果推論からオブジェクトデータの解析まで、様々な設定で適用できる。 因果効果を推定するための応用は、合成制御の概念を個人レベルの不均一性を持つ多変量データに一般化し、全ての期間にわたって最適な重みを同時に推定する方法をもたらす。

We develop a notion of projections between sets of probability measures using the geometric properties of the 2-Wasserstein space. It is designed for general multivariate probability measures, is computationally efficient to implement, and provides a unique solution in regular settings. The idea is to work on regular tangent cones of the Wasserstein space using generalized geodesics. Its structure and computational properties make the method applicable in a variety of settings, from causal inference to the analysis of object data. An application to estimating causal effects yields a generalization of the notion of synthetic controls to multivariate data with individual-level heterogeneity, as well as a way to estimate optimal weights jointly over all time periods.
翻訳日:2022-08-01 12:43:34 公開日:2022-07-29
# BERTとLongformerによるコードコメントの不整合検出

Code Comment Inconsistency Detection with BERT and Longformer ( http://arxiv.org/abs/2207.14444v1 )

ライセンス: Link先を確認
Theo Steiner and Rui Zhang(参考訳) ソースコードの自然言語記述であるコメントは、ソフトウェア開発者の間で標準的なプラクティスである。 機能や使用法といったコードの重要な側面を伝えることで、コメントはソフトウェアプロジェクトのメンテナンスに役立つ。 しかし、コメントの修正を伴うことなくコードが修正されると、コメントとコードの間に矛盾が生じ、開発者の混乱とバグが生じる可能性がある。 本稿では,BERT(Devlin et al., 2019)とLongformer(Beltagy et al., 2020)に基づく2つのモデルを提案する。 コード変更の前後に確立されたコメントメソッドペアのコーパスの評価を通じて,本モデルが複数のベースラインを上回って,言語的・語彙的特徴を除外した最先端モデルと同等の結果が得られることを示す。 さらに、不整合検出と自動コメント更新の両方に事前訓練された言語モデルを用いた将来の研究のアイデアについて議論する。

Comments, or natural language descriptions of source code, are standard practice among software developers. By communicating important aspects of the code such as functionality and usage, comments help with software project maintenance. However, when the code is modified without an accompanying correction to the comment, an inconsistency between the comment and code can arise, which opens up the possibility for developer confusion and bugs. In this paper, we propose two models based on BERT (Devlin et al., 2019) and Longformer (Beltagy et al., 2020) to detect such inconsistencies in a natural language inference (NLI) context. Through an evaluation on a previously established corpus of comment-method pairs both during and after code changes, we demonstrate that our models outperform multiple baselines and yield comparable results to the state-of-the-art models that exclude linguistic and lexical features. We further discuss ideas for future research in using pretrained language models for both inconsistency detection and automatic comment updating.
翻訳日:2022-08-01 12:42:57 公開日:2022-07-29
# ベンチマークアゼルバイジャンのニューラルネットワーク翻訳

Benchmarking Azerbaijani Neural Machine Translation ( http://arxiv.org/abs/2207.14473v1 )

ライセンス: Link先を確認
Chih-Chen Chen, William Chen(参考訳) アゼルバイジャンのニューラルネットワーク翻訳(NMT)についてはほとんど研究されていない。 本稿では,アゼルバイジャン・イングリッシュnmtシステムの性能を,様々な技術とデータセットで評価する。 我々は,アゼルバイジャン翻訳においてどのセグメンテーション手法が最適かを評価し,テキスト領域間でアゼルバイジャンNMTモデルの性能をベンチマークする。 以上の結果から,ユニグラムセグメンテーションはnmt性能を改善し,アゼルバイジャン語翻訳モデルは量よりもデータセット品質でスケールするが,クロスドメイン一般化は依然として課題である。

Little research has been done on Neural Machine Translation (NMT) for Azerbaijani. In this paper, we benchmark the performance of Azerbaijani-English NMT systems on a range of techniques and datasets. We evaluate which segmentation techniques work best on Azerbaijani translation and benchmark the performance of Azerbaijani NMT models across several domains of text. Our results show that while Unigram segmentation improves NMT performance and Azerbaijani translation models scale better with dataset quality than quantity, cross-domain generalization remains a challenge
翻訳日:2022-08-01 12:42:40 公開日:2022-07-29
# 「後を追うか?」:「対話状態追跡」における最近の取り組み

"Do you follow me?": A Survey of Recent Approaches in Dialogue State Tracking ( http://arxiv.org/abs/2207.14627v1 )

ライセンス: Link先を確認
L\'eo Jacqmin, Lina M. Rojas-Barahona, Benoit Favre(参考訳) ユーザとのコミュニケーションにおいて,タスク指向対話システムでは,会話履歴に従って各ターンのユーザニーズを追跡する必要がある。 対話状態追跡(DST)と呼ばれるこのプロセスは、下流の対話ポリシーを直接通知するので重要である。 近年、DSTはテキストからテキストへのパラダイムが好まれるアプローチとして登場し、多くの関心を集めています。 本稿では,まずタスクとその関連するデータセットについて述べる。 そして,最近の論文を多く考慮し,2021~2022年の研究のハイライトと進歩を明らかにした。 ニューラルアプローチは大きな進歩をもたらしたが、一般化可能性などの対話システムのいくつかの重要な側面はまだ解明されていないと論じる。 今後の研究を動機づけるために,いくつかの研究ルートを提案する。

While communicating with a user, a task-oriented dialogue system has to track the user's needs at each turn according to the conversation history. This process called dialogue state tracking (DST) is crucial because it directly informs the downstream dialogue policy. DST has received a lot of interest in recent years with the text-to-text paradigm emerging as the favored approach. In this review paper, we first present the task and its associated datasets. Then, considering a large number of recent publications, we identify highlights and advances of research in 2021-2022. Although neural approaches have enabled significant progress, we argue that some critical aspects of dialogue systems such as generalizability are still underexplored. To motivate future studies, we propose several research avenues.
翻訳日:2022-08-01 12:42:29 公開日:2022-07-29
# SimCURL: コマンドシーケンスからの単純なコントラスト的ユーザ表現学習

SimCURL: Simple Contrastive User Representation Learning from Command Sequences ( http://arxiv.org/abs/2207.14760v1 )

ライセンス: Link先を確認
Hang Chu, Amir Hosein Khasahmadi, Karl D.D. Willis, Fraser Anderson, Yaoli Mao, Linh Tran, Justin Matejka, Jo Vermeulen(参考訳) ユーザモデリングはユーザの振る舞いを理解するために不可欠であり、ユーザエクスペリエンスとパーソナライズされたレコメンデーションを改善するために不可欠である。 ユーザがソフトウェアと対話するとき、ログや分析システムを通じて大量のコマンドシーケンスが生成される。 これらのコマンドシーケンスには、ユーザの目標と意図のヒントが含まれている。 しかし、これらのデータモダリティは高度に構造化されておらずラベルも付かないため、標準的な予測システムがそこから学ぶことは困難である。 ラベルのないコマンドシーケンスからユーザ表現を学習する,シンプルで効果的な自己教師型ディープラーニングフレームワークであるSimCURLを提案する。 提案手法では,新たなデータ拡張手法として,ユーザセッションネットワークアーキテクチャとセッションドロップアウトを導入する。 5億以上のコマンドからなる実世界のコマンドシーケンスデータセット上で,本手法をトレーニングし,評価する。 本手法は,経験や専門知識の分類など,学習表現を下流タスクに移す際に,既存の手法よりも大幅に改善することを示す。

User modeling is crucial to understanding user behavior and essential for improving user experience and personalized recommendations. When users interact with software, vast amounts of command sequences are generated through logging and analytics systems. These command sequences contain clues to the users' goals and intents. However, these data modalities are highly unstructured and unlabeled, making it difficult for standard predictive systems to learn from. We propose SimCURL, a simple yet effective contrastive self-supervised deep learning framework that learns user representation from unlabeled command sequences. Our method introduces a user-session network architecture, as well as session dropout as a novel way of data augmentation. We train and evaluate our method on a real-world command sequence dataset of more than half a billion commands. Our method shows significant improvement over existing methods when the learned representation is transferred to downstream tasks such as experience and expertise classification.
翻訳日:2022-08-01 12:42:19 公開日:2022-07-29
# 進化的検索と行動クローンを組み合わせる手続き的コンテンツ

Combining Evolutionary Search with Behaviour Cloning for Procedurally Generated Content ( http://arxiv.org/abs/2207.14772v1 )

ライセンス: Link先を確認
Nicholas Muir, Steven James(参考訳) 本研究では,ゲームレベルの手続き的コンテンツ生成の問題について考察する。 従来のアプローチでは,多様なレベルを生成可能な進化探索(ES)手法に頼っていたが,この生成手順は遅いため,リアルタイム設定では問題となる。 強化学習(RL)も同様の問題に取り組むために提案されており、レベル生成は高速であるが、トレーニング時間は禁断的に高価である。 本稿では,ESとRLの長所を組み合わせた手続き的コンテンツ生成問題に対処する枠組みを提案する。 特に、我々のアプローチではまずESを使用して時間とともに進化した一連のレベルを生成し、次に行動クローニングを使用してこれらのレベルをポリシーに分解します。 我々は迷路ゲームやスーパーマリオブラザーズにアプローチを適用し、その結果、特に有効レベルの増大が要求される場合、我々のアプローチが実際にレベル生成に必要な時間を減少させることを示した。

In this work, we consider the problem of procedural content generation for video game levels. Prior approaches have relied on evolutionary search (ES) methods capable of generating diverse levels, but this generation procedure is slow, which is problematic in real-time settings. Reinforcement learning (RL) has also been proposed to tackle the same problem, and while level generation is fast, training time can be prohibitively expensive. We propose a framework to tackle the procedural content generation problem that combines the best of ES and RL. In particular, our approach first uses ES to generate a sequence of levels evolved over time, and then uses behaviour cloning to distil these levels into a policy, which can then be queried to produce new levels quickly. We apply our approach to a maze game and Super Mario Bros, with our results indicating that our approach does in fact decrease the time required for level generation, especially when an increasing number of valid levels are required.
翻訳日:2022-08-01 12:42:07 公開日:2022-07-29
# ナイジェリアの学生成績予測のための第三機関におけるビッグデータと分析の実践

Big Data and Analytics Implementation in Tertiary Institutions to Predict Students Performance in Nigeria ( http://arxiv.org/abs/2207.14677v1 )

ライセンス: Link先を確認
Ozioma Collins Oguine, Kanyifeechukwu Jane Oguine, Hashim Ibrahim Bisallah(参考訳) big dataという用語は、従来のデータハンドリング技術では処理できないガーガントゥアの大量のデータを指すために作られた。 Big Dataはまだ新しい概念であり、次の文献では、それをわかりやすい方法で詳しく説明するつもりです。 主題そのものの概念と、その性質とそれを扱うための2つの一般的なアプローチから始まっている。 ビッグデータは、教育機関が情報技術リソースを戦略的に活用し、教育の質を高め、生徒の完成率を高め、学生の持続性と成果を改善する機会を提供する。 本稿では,教育機関に関連するビッグデータの属性を調査し,学習機関におけるビッグデータと分析の導入に影響する要因を調査し,高等教育機関におけるビッグデータの利用を妨げる制限要因の確立を目指す。 この調査の実施には調査研究設計が採用され,データ収集にはアンケート調査が用いられた。

The term Big Data has been coined to refer to the gargantuan bulk of data that cannot be dealt with by traditional data-handling techniques. Big Data is still a novel concept, and in the following literature, we intend to elaborate on it in a palpable fashion. It commences with the concept of the subject in itself, along with its properties and the two general approaches to dealing with it. Big Data provides an opportunity for educational Institutions to use their Information Technology resources strategically to improve educational quality, guide students to higher completion rates and improve student persistence and outcomes. This paper explores the attributes of big data that are relevant to educational institutions, investigates the factors influencing the adoption of big data and analytics in learning institutions, and seeks to establish the limiting factors hindering the use of big data in Institutions of higher learning. A survey research design was adopted in conducting this research, and Questionnaires were the instrument employed for data collection.
翻訳日:2022-08-01 12:39:11 公開日:2022-07-29
# 多項分類における因子可能なジョイントシフト

Factorizable Joint Shift in Multinomial Classification ( http://arxiv.org/abs/2207.14514v1 )

ライセンス: Link先を確認
Dirk Tasche(参考訳) 因子可能なジョイントシフトは、観測データから特性を推定できるデータセットシフトの一種として最近提案されている。 多項(多級)分類設定の場合、ソース(訓練)分布、ターゲット(テスト)事前クラス確率、および特徴の目標限界分布という観点から、因子可能なジョイントシフトの表現を導出する。 この結果に基づき,因子可能な関節シフトを仮定する際の限界を指摘しながら,協調的重要度調整の代替案を提案する。 その他の結果として,一般データセットシフトと分解可能な関節シフトの下での後方クラス確率の補正式がある。 さらに, 試料選択によるバイアスに対する因子分解性関節移行の影響について検討した。

Factorizable joint shift was recently proposed as a type of dataset shift for which the characteristics can be estimated from observed data. For the multinomial (multi-class) classification setting, we derive a representation of factorizable joint shift in terms of the source (training) distribution, the target (test) prior class probabilities and the target marginal distribution of the features. On the basis of this result, we propose alternatives to joint importance aligning, at the same time pointing out the limitations encountered when making an assumption of factorizable joint shift. Other results of the paper include correction formulae for the posterior class probabilities both under general dataset shift and factorizable joint shift. In addition, we investigate the consequences of assuming factorizable joint shift for the bias caused by sample selection.
翻訳日:2022-08-01 12:38:55 公開日:2022-07-29
# cnnsを超えて:医療画像分割における本質的対称性の活用

Beyond CNNs: Exploiting Further Inherent Symmetries in Medical Image Segmentation ( http://arxiv.org/abs/2207.14472v1 )

ライセンス: Link先を確認
Shuchao Pang, Anan Du, Mehmet A. Orgun, Yan Wang, Quan Z. Sheng, Shoujin Wang, Xiaoshui Huang, and Zhenmei Yu(参考訳) 自動腫瘍または病変分割は、コンピュータ支援診断のための医療画像解析において重要なステップである。 畳み込みニューラルネットワーク(CNN)に基づく既存の手法は最先端のパフォーマンスを達成したが、依然として多くの課題が残っている。 これは、人間の視覚システムは2d画像の対称性を効果的に検出できるが、通常のcnnは変換不変性のみを活用でき、回転や反射のような医療画像に存在するさらに固有の対称性を見渡すことができるためである。 そこで本研究では,これらの固有対称性を符号化し,より正確な表現を学習することにより,新しい群同変分節化フレームワークを提案する。 まず、カーネルベースの同変演算を各向きに考案し、既存のアプローチにおける学習対称性のギャップを効果的に解決する。 そして、セグメント化ネットワークをグローバルに均等に保つために、層ワイド対称性の制約を持つ特異な群層を設計する。 最後に, 肝腫瘍の分画, 新型コロナウイルス肺感染分画, 網膜血管検出の課題において, 実世界臨床データを用いた広範な実験により, 正常な cnn ベースの群同変 res-unet (ger-unet と命名) と最先端の分画法を上回った。 さらに重要なことに、新しく構築されたger-unetは、サンプルの複雑さとフィルターの冗長性を減少させ、現在のセグメンテーションcnnをアップグレードし、他の医療画像モダリティに臓器を配置する可能性も示している。

Automatic tumor or lesion segmentation is a crucial step in medical image analysis for computer-aided diagnosis. Although the existing methods based on Convolutional Neural Networks (CNNs) have achieved the state-of-the-art performance, many challenges still remain in medical tumor segmentation. This is because, although the human visual system can detect symmetries in 2D images effectively, regular CNNs can only exploit translation invariance, overlooking further inherent symmetries existing in medical images such as rotations and reflections. To solve this problem, we propose a novel group equivariant segmentation framework by encoding those inherent symmetries for learning more precise representations. First, kernel-based equivariant operations are devised on each orientation, which allows it to effectively address the gaps of learning symmetries in existing approaches. Then, to keep segmentation networks globally equivariant, we design distinctive group layers with layer-wise symmetry constraints. Finally, based on our novel framework, extensive experiments conducted on real-world clinical data demonstrate that a Group Equivariant Res-UNet (named GER-UNet) outperforms its regular CNN-based counterpart and the state-of-the-art segmentation methods in the tasks of hepatic tumor segmentation, COVID-19 lung infection segmentation and retinal vessel detection. More importantly, the newly built GER-UNet also shows potential in reducing the sample complexity and the redundancy of filters, upgrading current segmentation CNNs and delineating organs on other medical imaging modalities.
翻訳日:2022-08-01 12:37:46 公開日:2022-07-29
# 条件付き可逆ニューラルネットワークを用いたコンテンツ認識差分プライバシー

Content-Aware Differential Privacy with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2207.14625v1 )

ライセンス: Link先を確認
Malte T\"olle, Ullrich K\"othe, Florian Andr\'e, Benjamin Meder, Sandy Engelhardt(参考訳) 差分プライバシー(DP)は、各データサンプルに校正ノイズを加えることで、データセット内の個人のプライバシーを保護するための金の標準となっている。 分類データへの応用は単純だが、画像のコンテキストにおけるユーザビリティは制限されている。 分類データとは対照的に、画像の意味は隣接する画素の空間的相関に固有のものであり、ノイズの単純な適用は不可能である。 Invertible Neural Networks (INN)は、正確な精度を定量化しながら、優れた生成性能を示した。 彼らの原理は、複雑な分布を単純な分布、例えば像を球面ガウスに変換することに基づいている。 INNの潜在空間に雑音を加えることで、差分プライベートな画像修正が可能になると仮定する。 潜伏空間の操作は、重要な詳細を保存しながら修正されたイメージにつながる。 さらに、データセットに提供されたメタデータにinnを条件付けすることにより、識別情報を含む可能性のある他の部分を変更することなく、分類などの下流タスクに重要な寸法を残すことを目指している。 本手法は,CADP(Content-Aware differential Privacy)と呼ぶ。 利用可能なベンチマークデータセットと専用の医療データセットの実験を行います。 さらに,分類データに対する手法の一般化可能性を示す。 ソースコードはhttps://github.com/Cardio-AI/CADPで公開されている。

Differential privacy (DP) has arisen as the gold standard in protecting an individual's privacy in datasets by adding calibrated noise to each data sample. While the application to categorical data is straightforward, its usability in the context of images has been limited. Contrary to categorical data the meaning of an image is inherent in the spatial correlation of neighboring pixels making the simple application of noise infeasible. Invertible Neural Networks (INN) have shown excellent generative performance while still providing the ability to quantify the exact likelihood. Their principle is based on transforming a complicated distribution into a simple one e.g. an image into a spherical Gaussian. We hypothesize that adding noise to the latent space of an INN can enable differentially private image modification. Manipulation of the latent space leads to a modified image while preserving important details. Further, by conditioning the INN on meta-data provided with the dataset we aim at leaving dimensions important for downstream tasks like classification untouched while altering other parts that potentially contain identifying information. We term our method content-aware differential privacy (CADP). We conduct experiments on publicly available benchmarking datasets as well as dedicated medical ones. In addition, we show the generalizability of our method to categorical data. The source code is publicly available at https://github.com/Cardio-AI/CADP.
翻訳日:2022-08-01 12:37:15 公開日:2022-07-29
# シンタ-フォトリアリスティック合成データを用いた筋病理における深層学習に基づく画像解析の新しいアプローチ

SYNTA: A novel approach for deep learning-based image analysis in muscle histopathology using photo-realistic synthetic data ( http://arxiv.org/abs/2207.14650v1 )

ライセンス: Link先を確認
Leonid Mill, Oliver Aust, Jochen A. Ackermann, Philipp Burger, Monica Pascual, Katrin Palumbo-Zerr, Gerhard Kr\"onke, Stefan Uderhardt, Georg Schett, Christoph S. Clemen, Rolf Schr\"oder, Christian Holtzhausen, Samir Jabari, Andreas Maier and Anika Gr\"uneboom(参考訳) バイオメディカル画像解析の分野では、人工知能(AI)、機械学習、深層学習(DL)の手法がますます重要になっている。 しかし,このような手法の潜在能力を最大限に活用するためには,膨大な数の手動注釈付きオブジェクトを含む実験的な画像がトレーニングデータとして必要とされる。 本稿では,SynTA(synthetic data)を,DLシステムのトレーニングデータとして,合成,フォトリアリスティック,高度に複雑なバイオメディカル画像の生成のための新しいアプローチとして紹介する。 病理組織学的に筋線維および結合組織解析の文脈におけるアプローチの有用性を示す。 本研究では,実世界のデータに対して,合成訓練データのみで手動アノテーションを使わずにロバストかつエキスパートレベルのセグメンテーションタスクを実行できることを実証する。 完全にパラメトリックな手法である本手法は,GAN(Generative Adversarial Networks)の代替として解釈可能かつ制御可能であり,顕微鏡等における様々なバイオメディカル応用において,定量的画像解析を著しく高速化する可能性がある。

Artificial intelligence (AI), machine learning, and deep learning (DL) methods are becoming increasingly important in the field of biomedical image analysis. However, to exploit the full potential of such methods, a representative number of experimentally acquired images containing a significant number of manually annotated objects is needed as training data. Here we introduce SYNTA (synthetic data) as a novel approach for the generation of synthetic, photo-realistic, and highly complex biomedical images as training data for DL systems. We show the versatility of our approach in the context of muscle fiber and connective tissue analysis in histological sections. We demonstrate that it is possible to perform robust and expert-level segmentation tasks on previously unseen real-world data, without the need for manual annotations using synthetic training data alone. Being a fully parametric technique, our approach poses an interpretable and controllable alternative to Generative Adversarial Networks (GANs) and has the potential to significantly accelerate quantitative image analysis in a variety of biomedical applications in microscopy and beyond.
翻訳日:2022-08-01 12:36:58 公開日:2022-07-29
# Open-Radiomics: 放射能に基づく機械学習パイプラインを再現する研究プロトコル

Open-radiomics: A Research Protocol to Make Radiomics-based Machine Learning Pipelines Reproducible ( http://arxiv.org/abs/2207.14776v1 )

ライセンス: Link先を確認
Ernest (Khashayar) Namdar, Matthias W. Wagner, Birgit B. Ertl-Wagner, Farzad Khalvati(参考訳) 医療画像データへの人工知能(AI)技術の適用は、有望な結果をもたらした。 医療画像におけるAIパイプラインの重要な分野として、ラジオミクスは再現性とアクセシビリティという2つの大きな課題に直面している。 本研究では,open-radiomics,1組のradiomicsデータセット,および,binwidthやimage normalizationといった放射能特徴抽出設定がradiomics結果性能の再現性に与える影響を調べる包括的なradiomicsパイプラインを紹介する。 放射能研究をよりアクセシブルかつ再現可能なものにするため、放射能データに基づく機械学習(ML)モデルの構築、オープンソースの放射能データセットの進化的コレクションの導入、データセットのベースラインモデル公開のためのガイドラインを提供する。

The application of artificial intelligence (AI) techniques to medical imaging data has yielded promising results. As an important branch of AI pipelines in medical imaging, radiomics faces two major challenges namely reproducibility and accessibility. In this work, we introduce open-radiomics, a set of radiomics datasets, and a comprehensive radiomics pipeline that investigates the effects of radiomics feature extraction settings such as binWidth and image normalization on the reproducibility of the radiomics results performance. To make radiomics research more accessible and reproducible, we provide guidelines for building machine learning (ML) models on radiomics data, introduce Open-radiomics, an evolving collection of open-source radiomics datasets, and publish baseline models for the datasets.
翻訳日:2022-08-01 12:36:39 公開日:2022-07-29
# マルチモーダルデータを用いた放射線医学における疾患分類の一般化と説明可能性の向上

Using Multi-modal Data for Improving Generalizability and Explainability of Disease Classification in Radiology ( http://arxiv.org/abs/2207.14781v1 )

ライセンス: Link先を確認
Pranav Agnihotri, Sara Ketabi, Khashayar (Ernest) Namdar, and Farzad Khalvati(参考訳) 従来の放射線診断用データセットは、放射線診断報告と共に放射線画像のみを提供する傾向にある。 しかし、放射線科医が行う放射線学の読解は複雑なプロセスであり、読解の過程における放射線科医の視線などの情報は、学ぶべき貴重なデータソースとなる可能性を持っている。 それでも、そのようなデータの収集は高価で時間を要する。 このことは、こうしたデータが収集する投資に値するかどうかという問題に繋がる。 本稿では,最近発表されたEye-Gazeデータセットを用いて,放射線画像,放射線医学報告テキスト,放射線学者の眼球運動データなど,様々な入力特徴の面において,ディープラーニング(DL)分類の性能と説明可能性に与える影響について,徹底的な研究を行った。 X線画像の最良の分類性能は, 自由テキスト画像と無線画像との組み合わせで達成され, 視線データによる性能向上は得られなかった。 それでも、クラスラベルと共に二次的根拠となるアイゲイズデータは、アイゲイズデータなしで分類やアテンションマップ生成を行うように訓練されたモデルと比較して、より説明しやすいモデルとなる。

Traditional datasets for the radiological diagnosis tend to only provide the radiology image alongside the radiology report. However, radiology reading as performed by radiologists is a complex process, and information such as the radiologist's eye-fixations over the course of the reading has the potential to be an invaluable data source to learn from. Nonetheless, the collection of such data is expensive and time-consuming. This leads to the question of whether such data is worth the investment to collect. This paper utilizes the recently published Eye-Gaze dataset to perform an exhaustive study on the impact on performance and explainability of deep learning (DL) classification in the face of varying levels of input features, namely: radiology images, radiology report text, and radiologist eye-gaze data. We find that the best classification performance of X-ray images is achieved with a combination of radiology report free-text and radiology image, with the eye-gaze data providing no performance boost. Nonetheless, eye-gaze data serving as secondary ground truth alongside the class label results in highly explainable models that generate better attention maps compared to models trained to do classification and attention map generation without eye-gaze data.
翻訳日:2022-08-01 12:36:25 公開日:2022-07-29
# インドネシアにおける森林破壊ドライバーのマルチモーダルスーパーコン

Multimodal SuperCon: Classifier for Drivers of Deforestation in Indonesia ( http://arxiv.org/abs/2207.14656v1 )

ライセンス: Link先を確認
Bella Septina Ika Hartanti, Valentino Vito, Aniati Murni Arymurthy, Andie Setiyoko(参考訳) 森林破壊は気候変動に寄与する要因の1つである。 気候変動は人間の生活に深刻な影響を与え、二酸化炭素などの温室効果ガスが大気中に放出されることによって起こる。 森林破壊対策の要因を知ることは重要であるが,これらの森林破壊要因を予測するためのデータ駆動型研究は乏しい。 本研究では,ランドサット8号から得られた衛星画像を用いてインドネシアにおける森林破壊のドライバを分類する,マルチモーダルスーパーコンと呼ばれるコントラスト学習アーキテクチャを提案する。 Multimodal SuperConは、コントラスト学習とマルチモーダル融合を組み合わせて利用可能な森林破壊データセットを処理するアーキテクチャである。 提案モデルは, 運転者分類の先行研究よりも精度が7%向上し, 同一課題に対する回転同変モデルと比較して精度が7%向上した。

Deforestation is one of the contributing factors to climate change. Climate change has a serious impact on human life, and it occurs due to emission of greenhouse gases, such as carbon dioxide, to the atmosphere. It is important to know the causes of deforestation for mitigation efforts, but there is a lack of data-driven research studies to predict these deforestation drivers. In this work, we propose a contrastive learning architecture, called Multimodal SuperCon, for classifying drivers of deforestation in Indonesia using satellite images obtained from Landsat 8. Multimodal SuperCon is an architecture which combines contrastive learning and multimodal fusion to handle the available deforestation dataset. Our proposed model outperforms previous work on driver classification, giving a 7% improvement in accuracy in comparison to a state-of-the-art rotation equivariant model for the same task.
翻訳日:2022-08-01 12:33:24 公開日:2022-07-29
# StyleLight: 照明推定と編集のためのHDRパノラマ生成

StyleLight: HDR Panorama Generation for Lighting Estimation and Editing ( http://arxiv.org/abs/2207.14811v1 )

ライセンス: Link先を確認
Guangcong Wang and Yinuo Yang and Chen Change Loy and Ziwei Liu(参考訳) 高ダイナミックレンジ(HDR)屋内パノラマ光を低ダイナミックレンジ(LDR)カメラで捉えた単一視野(LFOV)画像から生成する新しい照明推定・編集フレームワークを提案する。 既存の照明推定手法では、照明表現パラメータを直接回帰するか、問題をLFOV-to-panoramaとLDR-to-HDRサブタスクに分解する。 しかし、部分的な観察、高ダイナミックレンジ照明、シーン固有のあいまいさなどにより、照明推定は依然として困難な課題である。 この問題に対処するために,LDRとHDRのパノラマ合成を統合フレームワークに統合した,デュアルスタイルGANパノラマ合成ネットワーク(StyleLight)を提案する。 LDRとHDRパノラマ合成は類似のジェネレータを共有しているが、別の識別器を持っている。 本稿では,LDRパノラマ合成部を用いて,LDRパノラマ合成部を用いて,HDRパノラマ合成部を用いて,HDRパノラマ合成部によりその潜伏コードを見つけるための焦点マス化GANインバージョン法を提案する。 StyleLight は LFOV-to-panorama と LDR-to-HDR を統一したフレームワークに取り入れ、照明推定を大幅に改善する。 室内照明推定における最先端手法よりも優れた性能を実現することを,広範な実験により実証した。 StyleLightは、屋内のHDRパノラマの直感的な照明編集も可能で、現実世界のアプリケーションに適している。 コードはhttps://style-light.github.ioで入手できる。

We present a new lighting estimation and editing framework to generate high-dynamic-range (HDR) indoor panorama lighting from a single limited field-of-view (LFOV) image captured by low-dynamic-range (LDR) cameras. Existing lighting estimation methods either directly regress lighting representation parameters or decompose this problem into LFOV-to-panorama and LDR-to-HDR lighting generation sub-tasks. However, due to the partial observation, the high-dynamic-range lighting, and the intrinsic ambiguity of a scene, lighting estimation remains a challenging task. To tackle this problem, we propose a coupled dual-StyleGAN panorama synthesis network (StyleLight) that integrates LDR and HDR panorama synthesis into a unified framework. The LDR and HDR panorama synthesis share a similar generator but have separate discriminators. During inference, given an LDR LFOV image, we propose a focal-masked GAN inversion method to find its latent code by the LDR panorama synthesis branch and then synthesize the HDR panorama by the HDR panorama synthesis branch. StyleLight takes LFOV-to-panorama and LDR-to-HDR lighting generation into a unified framework and thus greatly improves lighting estimation. Extensive experiments demonstrate that our framework achieves superior performance over state-of-the-art methods on indoor lighting estimation. Notably, StyleLight also enables intuitive lighting editing on indoor HDR panoramas, which is suitable for real-world applications. Code is available at https://style-light.github.io.
翻訳日:2022-08-01 12:33:10 公開日:2022-07-29
# ニューラルネットワークによる非拘束音声スプライシング検出と位置推定

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks ( http://arxiv.org/abs/2207.14682v1 )

ライセンス: Link先を確認
Denise Moussa, Germans Hirsch, Christian Riess(参考訳) 無料で使いやすいオーディオ編集ツールは、オーディオスプライシングを簡単に行うことができる。 説得力のある偽造は、同一人物の様々な音声サンプルを組み合わせることで作成できる。 このようなスプライスの検出は、誤った情報を検討する公共部門と、証拠の完全性を検証する法的文脈の両方において重要である。 残念ながら、既存のオーディオスプライシング検出アルゴリズムのほとんどは、手作りの機能を使用し、特定の仮定を行う。 しかし、犯罪捜査員はしばしば、未知の特性を持つ訓練されていない情報源からの音声サンプルに直面しているため、より一般的な方法の必要性が高まる。 本研究は,このニーズに対応するために,制約のない音声スプライシング検出に向けた第一歩を踏み出す。 我々は、スプライシングを偽装する可能性のある後処理操作の形で、様々な攻撃シナリオをシミュレートする。 本研究では,検出とローカライゼーションのためのTransformer sequence-to-sequence(seq2seq)ネットワークを提案する。 提案手法は,汎用ネットワークである efficientnet [28] と regnet [25] と同様に,既存のスプライシング検出法 (3, 10]) よりも優れていることを示す。

Freely available and easy-to-use audio editing tools make it straightforward to perform audio splicing. Convincing forgeries can be created by combining various speech samples from the same person. Detection of such splices is important both in the public sector when considering misinformation, and in a legal context to verify the integrity of evidence. Unfortunately, most existing detection algorithms for audio splicing use handcrafted features and make specific assumptions. However, criminal investigators are often faced with audio samples from unconstrained sources with unknown characteristics, which raises the need for more generally applicable methods. With this work, we aim to take a first step towards unconstrained audio splicing detection to address this need. We simulate various attack scenarios in the form of post-processing operations that may disguise splicing. We propose a Transformer sequence-to-sequence (seq2seq) network for splicing detection and localization. Our extensive evaluation shows that the proposed method outperforms existing dedicated approaches for splicing detection [3, 10] as well as the general-purpose networks EfficientNet [28] and RegNet [25].
翻訳日:2022-08-01 12:32:42 公開日:2022-07-29
# 最小のニューラルアトラス:最小のチャートと歪みを持つ複素曲面のパラメータ化

Minimal Neural Atlas: Parameterizing Complex Surfaces with Minimal Charts and Distortion ( http://arxiv.org/abs/2207.14782v1 )

ライセンス: Link先を確認
Weng Fei Low, Gim Hee Lee(参考訳) 明示的な神経表面表現は、任意の精度でエンコードされた表面の正確かつ効率的な抽出を可能にするとともに、表面正規や曲率などの微分幾何学的性質の解析的導出を可能にする。 このような望ましい性質は、暗黙的でないため、コンピュータビジョン、グラフィックス、ロボット工学の様々な応用に理想的である。 しかし、sotaワークは、効果的に記述できるトポロジー、複雑な表面を再構築するために導入される歪み、およびモデル効率の観点から制限されている。 本稿では,新しいアトラスに基づく明示的な神経表面表現であるminimum neural atlasを提案する。 その中核は完全学習可能なパラメトリック領域であり、パラメトリック空間の開平方上で定義された暗黙の確率的占有場によって与えられる。 対照的に、先行作品は一般にパラメトリック領域を事前に定義する。 柔軟性が追加され、チャートは任意のトポロジーと境界を許容できる。 したがって、任意の連結成分を持つ閉曲面や開曲面を含む任意の位相曲面に対して、歪み最小パラメータ化を伴う3つのチャートの最小アトラスを学習することができる。 我々の実験は、位相と幾何学に関する懸念の分離により、我々の再構成が全体的な幾何学の観点からより正確であることを示す。

Explicit neural surface representations allow for exact and efficient extraction of the encoded surface at arbitrary precision, as well as analytic derivation of differential geometric properties such as surface normal and curvature. Such desirable properties, which are absent in its implicit counterpart, makes it ideal for various applications in computer vision, graphics and robotics. However, SOTA works are limited in terms of the topology it can effectively describe, distortion it introduces to reconstruct complex surfaces and model efficiency. In this work, we present Minimal Neural Atlas, a novel atlas-based explicit neural surface representation. At its core is a fully learnable parametric domain, given by an implicit probabilistic occupancy field defined on an open square of the parametric space. In contrast, prior works generally predefine the parametric domain. The added flexibility enables charts to admit arbitrary topology and boundary. Thus, our representation can learn a minimal atlas of 3 charts with distortion-minimal parameterization for surfaces of arbitrary topology, including closed and open surfaces with arbitrary connected components. Our experiments support the hypotheses and show that our reconstructions are more accurate in terms of the overall geometry, due to the separation of concerns on topology and geometry.
翻訳日:2022-08-01 12:32:25 公開日:2022-07-29
# モジュラーフレームワークを用いた物理オブジェクト生成設計

Generative Design of Physical Objects using Modular Framework ( http://arxiv.org/abs/2207.14621v1 )

ライセンス: Link先を確認
Nikita O. Starodubcev, Nikolay O. Nikitin, Konstantin G. Gavaza, Elizaveta A. Andronova, Denis O. Sidorenko, Anna V. Kalyuzhnaya(参考訳) 近年、生成設計技術は多くの応用分野、特に工学においてしっかりと確立されている。 これらの手法は有望な見通しのために集中的な成長を示している。 しかし、既存のアプローチは、検討中の問題の特異性によって制限されている。 加えて、彼らは望ましい柔軟性を提供していません。 本稿では、任意の生成設計問題に対する一般的なアプローチを定式化し、その基盤としてGEFEST(Generative Evolution for Encoded STructure)と呼ばれる新しいフレームワークを提案する。 開発されたアプローチは、サンプリング、推定、最適化の3つの原則に基づいている。 これにより、特定の生成設計問題の解に対する解法調整の自由が確保され、最適な解を構築できる。 GEFESTフレームワークの有効性を確認するために,一連の実験を行った。 これには、合成および実世界のケース(沿岸工学、マイクロ流体学、熱力学、油田計画)が含まれていた。 GEFESTの柔軟な構造により、ベースラインソリューションを超える結果を得ることができる。

In recent years generative design techniques have become firmly established in numerous applied fields, especially in engineering. These methods are demonstrating intensive growth owing to promising outlook. However, existing approaches are limited by the specificity of problem under consideration. In addition, they do not provide desired flexibility. In this paper we formulate general approach to an arbitrary generative design problem and propose novel framework called GEFEST (Generative Evolution For Encoded STructure) on its basis. The developed approach is based on three general principles: sampling, estimation and optimization. This ensures the freedom of method adjustment for solution of particular generative design problem and therefore enables to construct the most suitable one. A series of experimental studies was conducted to confirm the effectiveness of the GEFEST framework. It involved synthetic and real-world cases (coastal engineering, microfluidics, thermodynamics and oil field planning). Flexible structure of the GEFEST makes it possible to obtain the results that surpassing baseline solutions.
翻訳日:2022-08-01 12:32:06 公開日:2022-07-29
# Egret Swarm Optimization Algorithm: モデル自由最適化のための進化的計算手法

Egret Swarm Optimization Algorithm: An Evolutionary Computation Approach for Model Free Optimization ( http://arxiv.org/abs/2207.14667v1 )

ライセンス: Link先を確認
Zuyan Chen, Adam Francis, Shuai Li, Bolin Liao, Dunhui Xiao(参考訳) 本稿では,2種のエグレット種(グレートエグレットとスノーエグレット)の狩猟行動に触発された,新しいメタヒューリスティックアルゴリズムであるエグレット群最適化アルゴリズム(esoa)を提案する。 ESOAは、Sit-And-Wait Strategy、Aggressive Strategy、および差別的条件の3つの主要なコンポーネントで構成されています。 36のベンチマーク関数と2つのエンジニアリング問題に対するESOAの性能は、Particle Swarm Optimization(PSO)、GA(GA)、差分進化(DE)、Grey Wolf Optimizer(GWO)、Harris Hawks Optimization(HHO)と比較される。 その結果、ESOAの優れた有効性と堅牢性を示す。 ソースコードはhttps://github.com/knightsll/egret_swarm_optimization_algorithm; https://ww2.mathworks.cn/matlabcentral/fileexchange/115595-egret-swarm-optimization-algorithm-esoaから取得できる。

A novel meta-heuristic algorithm, Egret Swarm Optimization Algorithm (ESOA), is proposed in this paper, which is inspired by two egret species' (Great Egret and Snowy Egret) hunting behavior. ESOA consists of three primary components: Sit-And-Wait Strategy, Aggressive Strategy as well as Discriminant Conditions. The performance of ESOA on 36 benchmark functions as well as 2 engineering problems are compared with Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Differential Evolution (DE), Grey Wolf Optimizer (GWO), and Harris Hawks Optimization (HHO). The result proves the superior effectiveness and robustness of ESOA. The source code used in this work can be retrieved from https://github.com/Knightsll/Egret_Swarm_Optimization_Algorithm; https://ww2.mathworks.cn/matlabcentral/fileexchange/115595-egret-swarm-optimization-algorithm-esoa.
翻訳日:2022-08-01 12:31:53 公開日:2022-07-29
# 計算継続性に基づくインテリジェントヘルスケアシステムのための分散機械学習

Decentralized Machine Learning for Intelligent Health Care Systems on the Computing Continuum ( http://arxiv.org/abs/2207.14584v1 )

ライセンス: Link先を確認
Dragi Kimovski, Sasko Ristov, Radu Prodan(参考訳) 電子健康記録(ehr)の導入により、様々な医療システム間の全国的な情報交換とキュレーションが可能になる。 しかし、現在のehrシステムは、診断支援や医療研究のための透明な手段を提供しておらず、また、個人医療機器によって生成された全現データを活用できる。 さらに、EHRシステムは中央的に編成されており、単一の障害点につながる可能性がある。 そこで,本稿では,分散型台帳上で機械学習を分散化し,個人医療機器からの情報を活用して知識抽出を改善するインテリジェントEHRシステムを構築するための新しいアプローチについて検討する。 その結果,複数の医療機関にまたがる匿名予測分析を可能にする概念的EHRを提案し,評価した。 評価結果から,分散EHRは最大60%の機械学習時間を短縮し,コンセンサスレイテンシが8秒未満で計算連続体上に展開可能であることが示唆された。

The introduction of electronic personal health records (EHR) enables nationwide information exchange and curation among different health care systems. However, the current EHR systems do not provide transparent means for diagnosis support, medical research or can utilize the omnipresent data produced by the personal medical devices. Besides, the EHR systems are centrally orchestrated, which could potentially lead to a single point of failure. Therefore, in this article, we explore novel approaches for decentralizing machine learning over distributed ledgers to create intelligent EHR systems that can utilize information from personal medical devices for improved knowledge extraction. Consequently, we proposed and evaluated a conceptual EHR to enable anonymous predictive analysis across multiple medical institutions. The evaluation results indicate that the decentralized EHR can be deployed over the computing continuum with reduced machine learning time of up to 60% and consensus latency of below 8 seconds.
翻訳日:2022-08-01 12:31:19 公開日:2022-07-29
# システムオンチップのための深層強化学習:神話と現実

Deep Reinforcement Learning for System-on-Chip: Myths and Realities ( http://arxiv.org/abs/2207.14595v1 )

ライセンス: Link先を確認
Tegg Taekyong Sung, Bo Ryu(参考訳) 深部強化学習(DRL)に基づくニューラルスケジューラは、クラスタコンピューティングの領域において大きなパフォーマンス向上を示すため、現実世界のリソース割り当て問題を解決する大きな可能性を示している。 本稿では,システム・オン・チップ(soc)リソース割り当て領域におけるニューラル・スケジューラの実現可能性を調べ,非ニューラル・ヒューリスティック・スケジューラとの比較を行った。 鍵となる発見は3つある。 まず、クラスタコンピューティング領域用に設計されたニューラルスケジューラは、SoCではうまく動作しない。 一 SoC 計算資源の不均一性及び 二 入社ジョブのランダム性による変動動作セット 第2に,新たなニューラルスケジューラ手法であるeim(electic interaction matching)は,上記の課題を克服し,既存のニューラルスケジューラを大幅に改善する。 具体的には、EIMベースのニューラルスケジューラによる性能向上の背景にある理由を合理化する。 第3に,平均処理要素 (PE) の切替遅延と平均計算時間との比が,EMMにおいてもニューラルSoCスケジューラの性能に大きく影響することを発見した。 したがって、将来のneural socスケジューラの設計では、実用性のためにこのメトリックと実装オーバーヘッドを考慮する必要がある。

Neural schedulers based on deep reinforcement learning (DRL) have shown considerable potential for solving real-world resource allocation problems, as they have demonstrated significant performance gain in the domain of cluster computing. In this paper, we investigate the feasibility of neural schedulers for the domain of System-on-Chip (SoC) resource allocation through extensive experiments and comparison with non-neural, heuristic schedulers. The key finding is three-fold. First, neural schedulers designed for cluster computing domain do not work well for SoC due to i) heterogeneity of SoC computing resources and ii) variable action set caused by randomness in incoming jobs. Second, our novel neural scheduler technique, Eclectic Interaction Matching (EIM), overcomes the above challenges, thus significantly improving the existing neural schedulers. Specifically, we rationalize the underlying reasons behind the performance gain by the EIM-based neural scheduler. Third, we discover that the ratio of the average processing elements (PE) switching delay and the average PE computation time significantly impacts the performance of neural SoC schedulers even with EIM. Consequently, future neural SoC scheduler design must consider this metric as well as its implementation overhead for practical utility.
翻訳日:2022-08-01 12:31:04 公開日:2022-07-29
# 後継機能に基づくコンテキストを用いたメタ強化学習

Meta Reinforcement Learning with Successor Feature Based Context ( http://arxiv.org/abs/2207.14723v1 )

ライセンス: Link先を確認
Xu Han and Feng Wu(参考訳) ほとんどの強化学習(RL)手法は、1つのタスクをスクラッチから学習することのみに重点を置いており、事前知識を使って他のタスクをより効果的に学習することはできない。 コンテキストベースのメタRL技術は、この問題に対処するための解決策として最近提案されている。 しかし、通常は従来のRLよりも効率が悪く、訓練中に多くの試行錯誤が必要になることがある。 そこで本研究では,既存のメタRLアルゴリズムと比較して競争性能が向上するメタRL手法を提案する。 コンテキスト変数と、後継機能フレームワークで報酬を分解するアイデアを組み合わせることで、複数のタスクに対して高品質なポリシーを同時に学習するだけでなく、少量のトレーニングで新しいタスクに迅速に適応することができる。 現状のメタRLベースラインと比較して,複数の連続制御タスクにおいて,本手法の有効性とデータ効率を実証的に示す。

Most reinforcement learning (RL) methods only focus on learning a single task from scratch and are not able to use prior knowledge to learn other tasks more effectively. Context-based meta RL techniques are recently proposed as a possible solution to tackle this. However, they are usually less efficient than conventional RL and may require many trial-and-errors during training. To address this, we propose a novel meta-RL approach that achieves competitive performance comparing to existing meta-RL algorithms, while requires significantly fewer environmental interactions. By combining context variables with the idea of decomposing reward in successor feature framework, our method does not only learn high-quality policies for multiple tasks simultaneously but also can quickly adapt to new tasks with a small amount of training. Compared with state-of-the-art meta-RL baselines, we empirically show the effectiveness and data efficiency of our method on several continuous control tasks.
翻訳日:2022-08-01 12:28:29 公開日:2022-07-29
# 増木モデルにおける加法モデル特徴のためのSHAP

SHAP for additively modeled features in a boosted trees model ( http://arxiv.org/abs/2207.14490v1 )

ライセンス: Link先を確認
Michael Mayer(参考訳) ブラックボックス機械学習(ML)モデルを探索する重要なテクニックは、SHAP(SHapley Additive exPlanation)と呼ばれる。 SHAPの値は、予測を公平に機能のコントリビューションに分解する。 いくつかの特徴を付加的にモデル化したブーストツリーモデルの場合、そのような特徴のシェープ依存プロットは、垂直シフトまでの部分依存プロットに対応していることを示す。 結果はXGBoostで説明します。

An important technique to explore a black-box machine learning (ML) model is called SHAP (SHapley Additive exPlanation). SHAP values decompose predictions into contributions of the features in a fair way. We will show that for a boosted trees model with some or all features being additively modeled, the SHAP dependence plot of such a feature corresponds to its partial dependence plot up to a vertical shift. We illustrate the result with XGBoost.
翻訳日:2022-08-01 12:28:08 公開日:2022-07-29
# 部分モニタリングのためのBest-of-Both-Worldsアルゴリズム

Best-of-Both-Worlds Algorithms for Partial Monitoring ( http://arxiv.org/abs/2207.14550v1 )

ライセンス: Link先を確認
Taira Tsuchiya, Shinji Ito, Junya Honda(参考訳) 本稿では,$k$-actions と $d$-outcomes による部分的監視問題を考察し,その後悔が確率的体制と対向的体制においてほぼ最適に多対数に有界である最初のベスト・オブ・バイ・バイザー・ワールドアルゴリズムを提供する。 より具体的に言うと、非退化の局所可観測ゲームの場合、確率的体制における後悔は$O(k^3 m^2 \log(T) \log(k_{\Pi} T) / \Delta_{\mathrm{\min}})$と、$O(k^{2/3} m \sqrt{T \log(T) \log k_{\Pi}})$で有界であり、$T$はラウンド数、$m$はアクションごとに異なる観測の最大値、$\Delta_{\min}$は最小の最適性ギャップ、$k_{\Pi}$はパレートの最適アクションの数である。 さらに、非退化可観測ゲームに対しては、確率的状態における後悔は、$O(\max\{c_{\mathcal{G}}^2 / k,\, c_{\mathcal{G}}\} \log(T) \log(k_{\Pi} T) / \Delta_{\min}^2)$と、$O((\max\{c_{\mathcal{G}}^2 / k,\, c_{\mathcal{G}}\} \log(T) \log(k_{\Pi} T)))^{1/3} T^{2/3})$と有界であることが示される。 我々のアルゴリズムは、フィードバックグラフを用いたオンライン学習の分野におけるアルゴリズムに触発された部分監視問題の性質を考慮した、フォロー・ザ・レギュラライズド・リーダー・フレームワークに基づいている。

This paper considers the partial monitoring problem with $k$-actions and $d$-outcomes and provides the first best-of-both-worlds algorithms, whose regrets are bounded poly-logarithmically in the stochastic regime and near-optimally in the adversarial regime. To be more specific, we show that for non-degenerate locally observable games, the regret in the stochastic regime is bounded by $O(k^3 m^2 \log(T) \log(k_{\Pi} T) / \Delta_{\mathrm{\min}})$ and in the adversarial regime by $O(k^{2/3} m \sqrt{T \log(T) \log k_{\Pi}})$, where $T$ is the number of rounds, $m$ is the maximum number of distinct observations per action, $\Delta_{\min}$ is the minimum optimality gap, and $k_{\Pi}$ is the number of Pareto optimal actions. Moreover, we show that for non-degenerate globally observable games, the regret in the stochastic regime is bounded by $O(\max\{c_{\mathcal{G}}^2 / k,\, c_{\mathcal{G}}\} \log(T) \log(k_{\Pi} T) / \Delta_{\min}^2)$ and in the adversarial regime by $O((\max\{c_{\mathcal{G}}^2 / k,\, c_{\mathcal{G}}\} \log(T) \log(k_{\Pi} T)))^{1/3} T^{2/3})$, where $c_{\mathcal{G}}$ is a game-dependent constant. Our algorithms are based on the follow-the-regularized-leader framework that takes into account the nature of the partial monitoring problem, inspired by algorithms in the field of online learning with feedback graphs.
翻訳日:2022-08-01 12:28:01 公開日:2022-07-29
# 大規模グラフクラスタリングのための確率的並列化固有ギャップ拡張

Stochastic Parallelizable Eigengap Dilation for Large Graph Clustering ( http://arxiv.org/abs/2207.14589v1 )

ライセンス: Link先を確認
Elise van der Pol, Ian Gemp, Yoram Bachrach, Richard Everett(参考訳) 大きなグラフは一般的にソーシャルネットワーク、知識グラフ、推薦システム、生命科学、意思決定問題に現れる。 グラフを高レベルな性質で要約することは、これらの設定における問題の解決に有用である。 スペクトルクラスタリングでは、ほとんどのエッジがクラスタ内にあり、クラスタ間のエッジがほとんどないノードのクラスタを識別することを目的としています。 このタスクは多くの下流アプリケーションや探索分析で重要です。 スペクトルクラスタリングのコアステップは、対応するグラフラプラシア行列の固有分解を行う(または、同値、入射行列の特異値分解、SVD)。 反復特異値分解アプローチの収束は、与えられた行列のスペクトルの固有ギャップ、すなわち連続した固有値の差に依存する。 十分にクラスタ化されたグラフに対応するグラフラプラシアンは、固有値は非負であるが非常に小さい(1ドル以下)収束が遅くなる。 本稿では,SVDソルバの高速化とスペクトルクラスタリングのために,スペクトルの並列化を行う手法を提案する。 これは行列のスペクトルを固有ベクトルを変更することなく好ましく変換する行列演算への多項式近似によって達成される。 実験により、このアプローチが収束を著しく加速することを示し、この変換がどのように並列化され、利用可能な計算でスケールするために確率的に近似できるかを説明する。

Large graphs commonly appear in social networks, knowledge graphs, recommender systems, life sciences, and decision making problems. Summarizing large graphs by their high level properties is helpful in solving problems in these settings. In spectral clustering, we aim to identify clusters of nodes where most edges fall within clusters and only few edges fall between clusters. This task is important for many downstream applications and exploratory analysis. A core step of spectral clustering is performing an eigendecomposition of the corresponding graph Laplacian matrix (or equivalently, a singular value decomposition, SVD, of the incidence matrix). The convergence of iterative singular value decomposition approaches depends on the eigengaps of the spectrum of the given matrix, i.e., the difference between consecutive eigenvalues. For a graph Laplacian corresponding to a well-clustered graph, the eigenvalues will be non-negative but very small (much less than $1$) slowing convergence. This paper introduces a parallelizable approach to dilating the spectrum in order to accelerate SVD solvers and in turn, spectral clustering. This is accomplished via polynomial approximations to matrix operations that favorably transform the spectrum of a matrix without changing its eigenvectors. Experiments demonstrate that this approach significantly accelerates convergence, and we explain how this transformation can be parallelized and stochastically approximated to scale with available compute.
翻訳日:2022-08-01 12:26:51 公開日:2022-07-29
# contrastive ucb: オンライン強化学習における効率的なコントラスト的自己教師付き学習

Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning ( http://arxiv.org/abs/2207.14800v1 )

ライセンス: Link先を確認
Shuang Qiu, Lingxiao Wang, Chenjia Bai, Zhuoran Yang, Zhaoran Wang(参考訳) 特徴表現の抽出におけるその力を考慮すると、対照的な自己教師付き学習は(深い)強化学習(rl)の実践にうまく統合され、様々な応用において効率的な政策学習に繋がる。 その壮大な経験的成功にもかかわらず、RLに対する対照的な学習の理解はいまだ解明されていない。 このようなギャップを狭めるために、低ランク遷移を持つマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて、RLがコントラスト学習によっていかに強化できるかを検討する。 両モデルについて,コントラスト損失を最小化することにより,低ランクモデルの正しい特徴表現を抽出することを提案する。 さらに, オンライン環境下では, MDP や MG のオンラインRL アルゴリズムと対照的な損失を伴って, 新たな高信頼境界 (UCB) 型アルゴリズムを提案する。 さらに,本アルゴリズムが真の表現を復元し,MDPとMGの最適方針とナッシュ平衡を学習する際のサンプル効率を同時に達成することを示す。 また,UCBに基づくRLのコントラスト学習法の有効性を示す実証的研究を行った。 我々の知る限りでは、表現学習にコントラスト学習を取り入れた最初の証明可能なオンラインRLアルゴリズムを提供する。 私たちのコードはhttps://github.com/baichenjia/contrastive-ucbで利用可能です。

In view of its power in extracting feature representation, contrastive self-supervised learning has been successfully integrated into the practice of (deep) reinforcement learning (RL), leading to efficient policy learning in various applications. Despite its tremendous empirical successes, the understanding of contrastive learning for RL remains elusive. To narrow such a gap, we study how RL can be empowered by contrastive learning in a class of Markov decision processes (MDPs) and Markov games (MGs) with low-rank transitions. For both models, we propose to extract the correct feature representations of the low-rank model by minimizing a contrastive loss. Moreover, under the online setting, we propose novel upper confidence bound (UCB)-type algorithms that incorporate such a contrastive loss with online RL algorithms for MDPs or MGs. We further theoretically prove that our algorithm recovers the true representations and simultaneously achieves sample efficiency in learning the optimal policy and Nash equilibrium in MDPs and MGs. We also provide empirical studies to demonstrate the efficacy of the UCB-based contrastive learning method for RL. To the best of our knowledge, we provide the first provably efficient online RL algorithm that incorporates contrastive learning for representation learning. Our codes are available at https://github.com/Baichenjia/Contrastive-UCB.
翻訳日:2022-08-01 12:26:28 公開日:2022-07-29
# 空間-時間軌道埋め込みのコントラスト事前学習

Contrastive Pre-training of Spatial-Temporal Trajectory Embeddings ( http://arxiv.org/abs/2207.14539v1 )

ライセンス: Link先を確認
Yan Lin, Huaiyu Wan, Shengnan Guo, Youfang Lin(参考訳) プレトレーニング軌道埋め込みは時空間軌道採掘における基本的かつ重要な手順であり、幅広い下流作業に有用である。 効果的な軌道埋め込みを生成する鍵は、軌道の長期的空間-時間的相関を考慮して、移動パターンや旅行目的を含む軌道から高レベルな移動意味論を抽出することである。 既存の努力にもかかわらず、軌道埋め込みの事前訓練には依然として大きな課題がある。 まず、一般的に使われている生成前文タスクは、軌跡から高レベルな意味を抽出するのに適さない。 第二に、既存のデータ拡張手法は軌道データセットによく適合する。 第3に、現在のエンコーダの設計は、軌道に隠された長期的な空間-時間相関を完全に取り入れることができない。 これらの課題に対処するために,包括的軌道埋め込み学習のためのコントラスト空間-時間軌道埋め込み(CSTTE)モデルを提案する。 CSTTEは、そのプレテキストタスクがノイズに対して堅牢になるように、対照的な学習フレームワークを採用する。 トラジェクトリのための特別に設計されたデータ拡張手法は、高レベルの旅行セマンティクスを保存するために、対照的な前提課題と結合する。 また,トラジェクタにおける長期空間-時間相関を効率的かつ包括的にモデル化する効率的な空間-時間軌道エンコーダを構築した。 2つの下流タスクと3つの実世界のデータセットに対する大規模な実験は、既存の軌道埋め込み法と比較して、我々のモデルの優位性を証明している。

Pre-training trajectory embeddings is a fundamental and critical procedure in spatial-temporal trajectory mining, and is beneficial for a wide range of downstream tasks. The key for generating effective trajectory embeddings is to extract high-level travel semantics from trajectories, including movement patterns and travel purposes, with consideration of the trajectories' long-term spatial-temporal correlations. Despite the existing efforts, there are still major challenges in pre-training trajectory embeddings. First, commonly used generative pretext tasks are not suitable for extracting high-level semantics from trajectories. Second, existing data augmentation methods fit badly on trajectory datasets. Third, current encoder designs fail to fully incorporate long-term spatial-temporal correlations hidden in trajectories. To tackle these challenges, we propose a novel Contrastive Spatial-Temporal Trajectory Embedding (CSTTE) model for learning comprehensive trajectory embeddings. CSTTE adopts the contrastive learning framework so that its pretext task is robust to noise. A specially designed data augmentation method for trajectories is coupled with the contrastive pretext task to preserve the high-level travel semantics. We also build an efficient spatial-temporal trajectory encoder to efficiently and comprehensively model the long-term spatial-temporal correlations in trajectories. Extensive experiments on two downstream tasks and three real-world datasets prove the superiority of our model compared with the existing trajectory embedding methods.
翻訳日:2022-08-01 12:25:20 公開日:2022-07-29
# DNNにおけるタイル打ちの損失低減のためのワンショット再パラメータ化法

A One-Shot Reparameterization Method for Reducing the Loss of Tile Pruning on DNNs ( http://arxiv.org/abs/2207.14545v1 )

ライセンス: Link先を確認
Yanchen Li, Qingzhong Ai and Fumihiko Ino(参考訳) 近年,深層ニューラルネットワーク (DNN) の推論を促進するため,タイルプルーニングが広く研究されている。 しかし, タイルの刈り取りによる損失は, 重要でない要素とともに重要な要素を除去できるため, 訓練済みのdnnでは大きいことがわかった。 本研究では,タイル刈りの損失を低減するため,TileTransと呼ばれるワンショット再パラメータ化手法を提案する。 具体的には、重み行列の行や列を再透過し、再パラメータ化後にモデルアーキテクチャを変更できるようにする。 この再置換は、再トレーニングなしにDNNモデルのパラメータ化を実現する。 提案手法は, 重要な要素を同じタイルに組み合わせることにより, タイル刈り後の重要な要素を保存する。 さらに、TileTransは、既存のほとんどのメソッドと直交するプルーニング前に実行される事前処理メソッドであるため、既存のタイルプルーニングメソッドにシームレスに統合することができる。 実験結果から,本手法はDNNにおけるタイル刈りの損失を低減する上で重要であることが示された。 具体的には、精度はAlexNetでは最大17%向上し、ResNet-34では5%向上した。

Recently, tile pruning has been widely studied to accelerate the inference of deep neural networks (DNNs). However, we found that the loss due to tile pruning, which can eliminate important elements together with unimportant elements, is large on trained DNNs. In this study, we propose a one-shot reparameterization method, called TileTrans, to reduce the loss of tile pruning. Specifically, we repermute the rows or columns of the weight matrix such that the model architecture can be kept unchanged after reparameterization. This repermutation realizes the reparameterization of the DNN model without any retraining. The proposed reparameterization method combines important elements into the same tile; thus, preserving the important elements after the tile pruning. Furthermore, TileTrans can be seamlessly integrated into existing tile pruning methods because it is a pre-processing method executed before pruning, which is orthogonal to most existing methods. The experimental results demonstrate that our method is essential in reducing the loss of tile pruning on DNNs. Specifically, the accuracy is improved by up to 17% for AlexNet while 5% for ResNet-34, where both models are pre-trained on ImageNet.
翻訳日:2022-08-01 12:24:59 公開日:2022-07-29
# Patch-based denoising Diffusion Modelによる逆気象条件の回復ビジョン

Restoring Vision in Adverse Weather Conditions with Patch-Based Denoising Diffusion Models ( http://arxiv.org/abs/2207.14626v1 )

ライセンス: Link先を確認
Ozan \"Ozdenizci, Robert Legenstein(参考訳) 悪天候下での画像復元は、様々なコンピュータビジョンアプリケーションにとって重要な関心事である。 最近の成功した手法は、ディープニューラルネットワークアーキテクチャ設計(視覚トランスフォーマーなど)の現在の進歩に依存している。 本稿では,最新の条件付き生成モデルによる最近の進歩に動機づけられ,分散確率モデルを用いた新しいパッチベース画像復元アルゴリズムを提案する。 提案手法は,推定中に重複するパッチにまたがるノイズ推定を平滑化させることで,サイズ非依存な画像復元を可能にする。 我々は,画像認識,デレーシングとデヘイジングの組み合わせ,雨滴除去のためのベンチマークデータセット上でのモデル評価を行った。 本手法は,気象条件および多天候画像の復元において最先端のパフォーマンスを達成し,実世界のテスト画像に対して定性的に強固な一般化を示す。

Image restoration under adverse weather conditions has been of significant interest for various computer vision applications. Recent successful methods rely on the current progress in deep neural network architectural designs (e.g., with vision transformers). Motivated by the recent progress achieved with state-of-the-art conditional generative models, we present a novel patch-based image restoration algorithm based on denoising diffusion probabilistic models. Our patch-based diffusion modeling approach enables size-agnostic image restoration by using a guided denoising process with smoothed noise estimates across overlapping patches during inference. We empirically evaluate our model on benchmark datasets for image desnowing, combined deraining and dehazing, and raindrop removal. We demonstrate our approach to achieve state-of-the-art performances on both weather-specific and multi-weather image restoration, and qualitatively show strong generalization to real-world test images.
翻訳日:2022-08-01 12:24:39 公開日:2022-07-29
# セグメンテーション問題の伝達学習:右エンコーダを選択してデコーダをスキップする

Transfer Learning for Segmentation Problems: Choose the Right Encoder and Skip the Decoder ( http://arxiv.org/abs/2207.14508v1 )

ライセンス: Link先を確認
Jonas Dippel, Matthias Lenga, Thomas Goerttler, Klaus Obermayer, Johannes H\"ohne(参考訳) ダウンストリームのタスクパフォーマンスを向上させるために、最初は異なるデータでトレーニングされたモデルを再利用することが一般的です。 特にコンピュータビジョン領域では、ImageNetでトレーニングされた重み付けが様々なタスクにうまく使われている。 本研究では,エンコーダ・デコーダアーキテクチャに対処可能な画素単位の分類問題であるセグメンテーション問題に対する転送学習の影響について検討する。 デコーダを学習するトランスファーは、下流のセグメンテーションタスクには役立ちませんが、エンコーダを学習するトランスファーは本当に有益です。 我々はデコーダの事前学習重量がより高速に収束することを示したが、ランダムに初期化されたデコーダで等価な結果が得られるため、モデル全体の性能は向上しない。 しかし,分類タスクで訓練されたエンコーダ重みを再利用するよりも,セグメンテーションや再構築タスクで訓練されたエンコーダ重みを再利用するのが効果的であることを示す。 この発見は、下流のセグメンテーション問題に ImageNet-pretrained encoder を用いることが最適であることを示している。 また,セグメンテーションラベルが存在しないセグメント化問題において,転送学習に適したエンコーダを提供する複数の自己再構成タスクを用いたコントラスト的自己教師付きアプローチを提案する。

It is common practice to reuse models initially trained on different data to increase downstream task performance. Especially in the computer vision domain, ImageNet-pretrained weights have been successfully used for various tasks. In this work, we investigate the impact of transfer learning for segmentation problems, being pixel-wise classification problems that can be tackled with encoder-decoder architectures. We find that transfer learning the decoder does not help downstream segmentation tasks, while transfer learning the encoder is truly beneficial. We demonstrate that pretrained weights for a decoder may yield faster convergence, but they do not improve the overall model performance as one can obtain equivalent results with randomly initialized decoders. However, we show that it is more effective to reuse encoder weights trained on a segmentation or reconstruction task than reusing encoder weights trained on classification tasks. This finding implicates that using ImageNet-pretrained encoders for downstream segmentation problems is suboptimal. We also propose a contrastive self-supervised approach with multiple self-reconstruction tasks, which provides encoders that are suitable for transfer learning in segmentation problems in the absence of segmentation labels.
翻訳日:2022-08-01 12:21:55 公開日:2022-07-29
# 圧縮インフォーム変換器を用いた法定プレート認識

Forensic License Plate Recognition with Compression-Informed Transformers ( http://arxiv.org/abs/2207.14686v1 )

ライセンス: Link先を確認
Denise Moussa, Anatol Maier, Andreas Spruck, J\"urgen Seiler, Christian Riess(参考訳) 法定ナンバープレート認識(FLPR)は刑事捜査のような法的文脈では未読ナンバープレート(LP)を高度に圧縮または低解像度の映像、例えば監視カメラから解読する必要がある。 本研究では,入力圧縮レベルの知識を埋め込み,強い圧縮下での認識性を向上させる横型トランスアーキテクチャを提案する。 低品質な実世界のデータセットにおけるライセンスプレート認識(LPR)におけるトランスフォーマーの有効性を示す。 また,lp画像の劣化の強い画像を含む合成データセットを提供し,知識の埋め込みが与える影響を分析した。 このネットワークは既存のFLPR手法や標準的な最先端の画像認識モデルより優れており、パラメータは少ない。 最も深刻な劣化画像では、最大8.9%の認識を改善することができる。

Forensic license plate recognition (FLPR) remains an open challenge in legal contexts such as criminal investigations, where unreadable license plates (LPs) need to be deciphered from highly compressed and/or low resolution footage, e.g., from surveillance cameras. In this work, we propose a side-informed Transformer architecture that embeds knowledge on the input compression level to improve recognition under strong compression. We show the effectiveness of Transformers for license plate recognition (LPR) on a low-quality real-world dataset. We also provide a synthetic dataset that includes strongly degraded, illegible LP images and analyze the impact of knowledge embedding on it. The network outperforms existing FLPR methods and standard state-of-the art image recognition models while requiring less parameters. For the severest degraded images, we can improve recognition by up to 8.9 percent points.
翻訳日:2022-08-01 12:21:35 公開日:2022-07-29
# NeRFアテンションによるエンドツーエンドビュー合成

End-to-end View Synthesis via NeRF Attention ( http://arxiv.org/abs/2207.14741v1 )

ライセンス: Link先を確認
Zelin Zhao, Jiaya Jia(参考訳) 本稿では、ビュー合成のための単純なセク2セクの定式化を行い、そこでは、一組の光点を入力色として、その光に対応する出力色として取り出す。 このseq2seq定式化に標準トランスフォーマーを直接適用するには、2つの制限がある。 第一に、標準の注意はボリュームレンダリング手順に適さないため、合成ビューでは高周波成分が欠落している。 第二に、すべての光線とピクセルにグローバルな注意を向けることは極めて非効率である。 神経放射場 (NeRF) に着想を得て, 上記の問題に対処するためのNeRFアテンション (NeRFA) を提案する。 一方、NeRFAはボリュームレンダリング方程式をソフトな特徴変調法とみなしている。 このようにして、特徴変調は、nrfのようなインダクティブバイアスでトランスフォーマーを増強する。 一方、NeRFAは計算オーバーヘッドを低減するために多段階の注意を払っている。 さらに、NeRFAモデルは、光線とピクセルの相互作用を学ぶために、光線と画素変換器を採用する。 NeRFAは、DeepVoxels、Blender、LLFF、CO3Dの4つのデータセット上で、NeRFとNerFormerよりも優れたパフォーマンスを示している。 さらに、NeRFAは、単一シーンビュー合成とカテゴリ中心の新規ビュー合成という2つの設定の下で、新しい最先端技術を確立する。 コードは公開される予定だ。

In this paper, we present a simple seq2seq formulation for view synthesis where we take a set of ray points as input and output colors corresponding to the rays. Directly applying a standard transformer on this seq2seq formulation has two limitations. First, the standard attention cannot successfully fit the volumetric rendering procedure, and therefore high-frequency components are missing in the synthesized views. Second, applying global attention to all rays and pixels is extremely inefficient. Inspired by the neural radiance field (NeRF), we propose the NeRF attention (NeRFA) to address the above problems. On the one hand, NeRFA considers the volumetric rendering equation as a soft feature modulation procedure. In this way, the feature modulation enhances the transformers with the NeRF-like inductive bias. On the other hand, NeRFA performs multi-stage attention to reduce the computational overhead. Furthermore, the NeRFA model adopts the ray and pixel transformers to learn the interactions between rays and pixels. NeRFA demonstrates superior performance over NeRF and NerFormer on four datasets: DeepVoxels, Blender, LLFF, and CO3D. Besides, NeRFA establishes a new state-of-the-art under two settings: the single-scene view synthesis and the category-centric novel view synthesis. The code will be made publicly available.
翻訳日:2022-08-01 12:21:20 公開日:2022-07-29
# gtrans: ニューラルマシン翻訳のためのグルーピングとfusingトランスフォーマー層

GTrans: Grouping and Fusing Transformer Layers for Neural Machine Translation ( http://arxiv.org/abs/2207.14467v1 )

ライセンス: Link先を確認
Jian Yang, Yuwei Yin, Shuming Ma, Haoyang Huang, Dongdong Zhang, Furu Wei and Zhoujun Li(参考訳) トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。 しかしながら、バニラトランスフォーマーは、下層が自明または冗長な情報を提供し、潜在的に価値のある下層機能を無視していると仮定して、主にトップ層表現を利用する。 本稿では、エンコーダとデコーダの両方の多層表現を異なるグループに柔軟に分割し、これらのグループ特徴を融合して対象単語を生成するグループ変換モデル(gtrans)を提案する。 IWLST-14, IWLST-17, LDC, WMT-14, OPUS-100の3つのバイリンガル翻訳ベンチマークと2つの多言語翻訳タスクについて, 広範囲にわたる実験と解析実験を行った。 実験および解析の結果,本モデルが変圧器モデルよりも一貫したゲインで優れていることがわかった。 さらに、60のエンコーダ層と36のデコーダ層をうまくスケールすることができる。

Transformer structure, stacked by a sequence of encoder and decoder network layers, achieves significant development in neural machine translation. However, vanilla Transformer mainly exploits the top-layer representation, assuming the lower layers provide trivial or redundant information and thus ignoring the bottom-layer feature that is potentially valuable. In this work, we propose the Group-Transformer model (GTrans) that flexibly divides multi-layer representations of both encoder and decoder into different groups and then fuses these group features to generate target words. To corroborate the effectiveness of the proposed method, extensive experiments and analytic experiments are conducted on three bilingual translation benchmarks and two multilingual translation tasks, including the IWLST-14, IWLST-17, LDC, WMT-14 and OPUS-100 benchmark. Experimental and analytical results demonstrate that our model outperforms its Transformer counterparts by a consistent gain. Furthermore, it can be successfully scaled up to 60 encoder layers and 36 decoder layers.
翻訳日:2022-08-01 12:20:58 公開日:2022-07-29
# SERCNN: Twitterの抑うつ検出に繰り返し発生する畳み込みニューラルネットワークを組み込む

SERCNN: Stacked Embedding Recurrent Convolutional Neural Network in Detecting Depression on Twitter ( http://arxiv.org/abs/2207.14535v1 )

ライセンス: Link先を確認
Heng Ee Tay, Mei Kuan Lim, Chun Yong Chong(参考訳) 抑うつを識別するための従来のアプローチはスケーラブルではなく、特に発展途上国では、公衆はメンタルヘルスに対する認識が限られている。 最近の研究で明らかなように、ソーシャルメディアはより大規模なメンタルヘルススクリーニングを補完する可能性がある。 時系列順に書かれた大量の一人称の物語投稿は、しばらくの間自分の思考、感情、行動、気分についての洞察を与え、オンライン空間に反映されるうつ病症状をよりよく理解することができる。 本稿では,(1)異なるドメインから事前学習した2つの埋め込みを積み重ねることによってユーザ表現を改善するSERCNNと,(2)埋め込みコンテキストをMLP分類器に再導入するSERCNNを提案する。 われわれのSERCNNは最新技術や他のベースラインよりも優れた性能を示し、5倍のクロスバリデーション設定で93.7%の精度を実現している。 全てのユーザが同じレベルのオンライン活動を共有するわけではないので、事前に定義された投稿数で観測期間を定量化する固定観察窓の概念を導入した。 sercnnはユーザー1人あたりの投稿数が最大10本で、87%の精度で非常に良好に動作し、bertモデルと同等であり、パラメータ数は98%減少している。 本研究は,ソーシャルメディア上での抑うつを推測する投稿を少なくして検出し,費用対効果とタイムリーな介入の解決に向けて有望な方向を示すものである。 我々はこの研究領域を既存の臨床実践における現実的な採用に近づけることを期待している。

Conventional approaches to identify depression are not scalable, and the public has limited awareness of mental health, especially in developing countries. As evident by recent studies, social media has the potential to complement mental health screening on a greater scale. The vast amount of first-person narrative posts in chronological order can provide insights into one's thoughts, feelings, behavior, or mood for some time, enabling a better understanding of depression symptoms reflected in the online space. In this paper, we propose SERCNN, which improves the user representation by (1) stacking two pretrained embeddings from different domains and (2) reintroducing the embedding context to the MLP classifier. Our SERCNN shows great performance over state-of-the-art and other baselines, achieving 93.7% accuracy in a 5-fold cross-validation setting. Since not all users share the same level of online activity, we introduced the concept of a fixed observation window that quantifies the observation period in a predefined number of posts. With as minimal as 10 posts per user, SERCNN performed exceptionally well with an 87% accuracy, which is on par with the BERT model, while having 98% less in the number of parameters. Our findings open up a promising direction for detecting depression on social media with a smaller number of posts for inference, towards creating solutions for a cost-effective and timely intervention. We hope that our work can bring this research area closer to real-world adoption in existing clinical practice.
翻訳日:2022-08-01 12:20:37 公開日:2022-07-29
# マルチレベルインデックスシステムを用いたオンライン公開意見の危機評価

Rating the Crisis of Online Public Opinion Using a Multi-Level Index System ( http://arxiv.org/abs/2207.14740v1 )

ライセンス: Link先を確認
Fanqi Meng, Xixi Xiao, Jingdong Wang(参考訳) オンラインの世論は通常急速に広まり、小さな事件はおそらく非常に短い期間で大きな社会危機へと発展し、信用や経済の面において大きな損失をもたらす。 本稿では,オンライン世論の危機を多段階指標システムに基づいて評価し,イベントの影響を客観的に評価する手法を提案する。 まず,情報生態学の観点から,オンライン世論の普及メカニズムを説明する。 このメカニズムにより、相関分析と主成分分析により、いくつかの評価指標が選択される。 そして、ディープラーニングによる訓練を通してテキスト感情の分類モデルを作成し、インデックスシステムにおける感情指標の正確な定量化を実現する。 最後に,多段階評価指標システムと灰色の相関分析に基づいて,オンライン世論の危機度を評価する手法を提案する。 実時間インシデント実験により,インターネット利用者の感情傾向を客観的に評価し,オンライン世論の広汎化段階において危機を評価できることを示した。 オンライン世論の危機警告を実現し、危機のさらなる広がりをタイムリーに阻止するのに役立ちます。

Online public opinion usually spreads rapidly and widely, thus a small incident probably evolves into a large social crisis in a very short time, and results in a heavy loss in credit or economic aspects. We propose a method to rate the crisis of online public opinion based on a multi-level index system to evaluate the impact of events objectively. Firstly, the dissemination mechanism of online public opinion is explained from the perspective of information ecology. According to the mechanism, some evaluation indexes are selected through correlation analysis and principal component analysis. Then, a classification model of text emotion is created via the training by deep learning to achieve the accurate quantification of the emotional indexes in the index system. Finally, based on the multi-level evaluation index system and grey correlation analysis, we propose a method to rate the crisis of online public opinion. The experiment with the real-time incident show that this method can objectively evaluate the emotional tendency of Internet users and rate the crisis in different dissemination stages of online public opinion. It is helpful to realizing the crisis warning of online public opinion and timely blocking the further spread of the crisis.
翻訳日:2022-08-01 12:20:10 公開日:2022-07-29
# 言語モデルはより良いプログラミングを教えることができる

Language Models Can Teach Themselves to Program Better ( http://arxiv.org/abs/2207.14502v1 )

ライセンス: Link先を確認
Patrick Haluptzok, Matthew Bowers, Adam Tauman Kalai(参考訳) この研究は、大規模な言語モデル(LM)を使用して、検証されたソリューションでプログラミング問題を合成する方法を示し、プログラミングパズルの形で、それらのモデルを微調整し、パフォーマンスを向上させる。 この研究は2つの最近の開発に基づいている。 まず、LMは非自明な推論とアルゴリズムの実装においてブレークスルーを達成し、中間レベルの競合プログラミング問題を解くコードを生成する。 しかし、トレーニングコードlmsには、自然言語の問題記述のキュレーションセットと、サイズが制限されたソースコードテストとソリューションが含まれている。 第二に、自然言語記述を必要とせず、ソースコードテストによって直接指定されるプログラミングパズルと呼ばれる新しい形式のプログラミングチャレンジが導入された。 本稿では,Python インタプリタによる正当性を検証した合成プログラミングパズルとソリューションの生成が,Python プログラミングパズルの公開ベンチマークセットである P3 によるテストパズルの解法の性能向上にどのように役立つかを示す。 さらに、codexモデルによって生成された100万のパズルとソリューションのデータセットをリリースします。

This work shows how one can use large-scale language models (LMs) to synthesize programming problems with verified solutions, in the form of programming puzzles, which can then in turn be used to fine-tune those same models, improving their performance. This work builds on two recent developments. First, LMs have achieved breakthroughs in non-trivial reasoning and algorithm implementation, generating code that can solve some intermediate-level competitive programming problems. However, training code LMs involves curated sets of natural-language problem descriptions and source-code tests and solutions, which are limited in size. Second, a new format of programming challenge called a programming puzzle was introduced, which does not require a natural language description and is directly specified by a source-code test. In this work we show how generating synthetic programming puzzles and solutions, verified for correctness by a Python interpreter, can be used to improve performance in solving test puzzles from P3, a public benchmark set of Python Programming Puzzles. Additionally, we release a dataset of 1 million puzzles and solutions generated by the Codex model, which we show can improve smaller models through fine-tuning.
翻訳日:2022-08-01 12:19:17 公開日:2022-07-29
# 学習モチベーションに一貫性のある固有リワードによる自動リワード設計

Automatic Reward Design via Learning Motivation-Consistent Intrinsic Rewards ( http://arxiv.org/abs/2207.14722v1 )

ライセンス: Link先を確認
Yixiang Wang, Yujing Hu, Feng Wu, Yingfeng Chen(参考訳) 報酬設計は強化学習の応用において重要な部分であり、その性能は、その報酬信号が設計者の目標を十分に満たしていることと、その目標達成の進捗を評価することに大きく依存している。 多くの場合、環境によって提供される外因的な報酬(例えば、ゲームの勝利や負け)は非常に疎外であり、エージェントを直接訓練することが困難である。 研究者は通常、補助的な報酬を追加することでエージェントの学習を支援する。 しかし、補助報酬の設計は、しばしば許容可能な結果をもたらす報酬設定の試行錯誤検索に向けられる。 本稿では,期待される累積的外因性報酬を最大化することにより,エージェントが学習する目標に一貫性のある内因性報酬を自動的に生成することを提案する。 そこで本研究では,一定の報酬を最大化する目標を捉えたモチベーションの概念を導入し,モチベーションに基づく報酬設計法を提案する。 基本的な考え方は、本質的な動機と外生的な動機の間の距離を最小化し、本質的な報酬を形成することである。 我々は広範な実験を行い, 遅延報酬, 探索, 信用割当といった問題に対処する上で, 最先端の手法よりも優れた性能を示す。

Reward design is a critical part of the application of reinforcement learning, the performance of which strongly depends on how well the reward signal frames the goal of the designer and how well the signal assesses progress in reaching that goal. In many cases, the extrinsic rewards provided by the environment (e.g., win or loss of a game) are very sparse and make it difficult to train agents directly. Researchers usually assist the learning of agents by adding some auxiliary rewards in practice. However, designing auxiliary rewards is often turned to a trial-and-error search for reward settings that produces acceptable results. In this paper, we propose to automatically generate goal-consistent intrinsic rewards for the agent to learn, by maximizing which the expected accumulative extrinsic rewards can be maximized. To this end, we introduce the concept of motivation which captures the underlying goal of maximizing certain rewards and propose the motivation based reward design method. The basic idea is to shape the intrinsic rewards by minimizing the distance between the intrinsic and extrinsic motivations. We conduct extensive experiments and show that our method performs better than the state-of-the-art methods in handling problems of delayed reward, exploration, and credit assignment.
翻訳日:2022-08-01 12:18:57 公開日:2022-07-29
# データ効率の良い視覚言語アライメントのためのカリキュラム学習

Curriculum Learning for Data-Efficient Vision-Language Alignment ( http://arxiv.org/abs/2207.14525v1 )

ライセンス: Link先を確認
Tejas Srinivasan, Xiang Ren, Jesse Thomason(参考訳) コントラスト学習を用いた画像およびテキストエンコーダのスクラッチからの調整には,大量の画像テキストデータが必要である。 我々は、より少ないペアデータを用いて、個別に事前訓練された言語と視覚表現モデルを調整することで、このニーズを緩和し、カリキュラム学習アルゴリズムを用いて、きめ細かい視覚言語アライメントを学習する。 TOnICS (Training with Ontology-Informed Contrastive Smpling) は最初、オブジェクトレベルのアライメントを学習するためのさまざまなオブジェクトを含むイメージテキストペアのミニバッチをサンプリングし、すべてのイメージテキストペアが同じオブジェクトを含み、よりきめ細かいコンテキストアライメントを学習するミニバッチを徐々にサンプリングする。 TOnICSを使用して、事前トレーニングされたBERTとVinVLモデルを相互に調整することで、下流のゼロショット画像検索においてCLIPを1%未満のトレーニングデータを使用しながら、パフォーマンスが向上する。

Aligning image and text encoders from scratch using contrastive learning requires large amounts of paired image-text data. We alleviate this need by aligning individually pre-trained language and vision representation models using a much smaller amount of paired data, augmented with a curriculum learning algorithm to learn fine-grained vision-language alignments. TOnICS (Training with Ontology-Informed Contrastive Sampling) initially samples minibatches whose image-text pairs contain a wide variety of objects to learn object-level alignment, and progressively samples minibatches where all image-text pairs contain the same object to learn finer-grained contextual alignment. Aligning pre-trained BERT and VinVL models to each other using TOnICS outperforms CLIP on downstream zero-shot image retrieval while using less than 1% as much training data.
翻訳日:2022-08-01 12:15:12 公開日:2022-07-29
# aladin: 効率的な画像テキストマッチングと検索のための細粒度アライメントスコアの蒸留

ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval ( http://arxiv.org/abs/2207.14757v1 )

ライセンス: Link先を確認
Nicola Messina, Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi, Fabrizio Falchi, Giuseppe Amato, Rita Cucchiara(参考訳) 視覚と言語を協調的に理解するタスクにおいて,画像テキストマッチングが主要な役割を担っている。 文献では、このタスクは、画像やテキストを共同で扱えるアーキテクチャを鍛えるための事前訓練目的としてしばしば使用される。 それにもかかわらず、クロスモーダル検索(cross-modal search)は、あるクエリテキストや逆変換に関連する画像を見つけることで構成される。 この課題を解決することは、クロスモーダル検索エンジンにおいて重要である。 近年、多くの手法が画像テキストマッチング問題に有効な解決策を提案しており、主に近年のvlトランスフォーマーネットワークを用いている。 しかし、これらのモデルはしばしば計算コストがかかる。 これにより、大規模なクロスモーダル検索シナリオへの採用が妨げられ、結果がほぼ瞬時にユーザに提供されるようになる。 本稿では,ALADIN(ALign And Distill Network)を提案することにより,有効性と効率のギャップを埋めることを提案する。 ALADINはまず、きめ細かい画像とテキストを調整して高効率のスコアを生成する。 そして、細粒度アライメントから得られた関連スコアを蒸留することにより、効率的なkNN探索が可能な共有埋め込み空間を学習する。 我々はMS-COCOにおいて,最先端のVL変換器とほぼ90倍の速度で競合できることを示す顕著な結果を得た。 結果の再現コードはhttps://github.com/mesnico/ALADIN.comで公開されている。

Image-text matching is gaining a leading role among tasks involving the joint understanding of vision and language. In literature, this task is often used as a pre-training objective to forge architectures able to jointly deal with images and texts. Nonetheless, it has a direct downstream application: cross-modal retrieval, which consists in finding images related to a given query text or vice-versa. Solving this task is of critical importance in cross-modal search engines. Many recent methods proposed effective solutions to the image-text matching problem, mostly using recent large vision-language (VL) Transformer networks. However, these models are often computationally expensive, especially at inference time. This prevents their adoption in large-scale cross-modal retrieval scenarios, where results should be provided to the user almost instantaneously. In this paper, we propose to fill in the gap between effectiveness and efficiency by proposing an ALign And DIstill Network (ALADIN). ALADIN first produces high-effective scores by aligning at fine-grained level images and texts. Then, it learns a shared embedding space - where an efficient kNN search can be performed - by distilling the relevance scores obtained from the fine-grained alignments. We obtained remarkable results on MS-COCO, showing that our method can compete with state-of-the-art VL Transformers while being almost 90 times faster. The code for reproducing our results is available at https://github.com/mesnico/ALADIN.
翻訳日:2022-08-01 12:14:49 公開日:2022-07-29
# ディープニューラルネットワークの計算複雑性低減

Computational complexity reduction of deep neural networks ( http://arxiv.org/abs/2207.14620v1 )

ライセンス: Link先を確認
Mee Seong Im, Venkat R. Dasari(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンや自律ナビゲーションの分野で広く使われ、重要な役割を果たしている。 しかし、これらのDNNは計算処理が複雑であり、リソース制約のあるプラットフォームへの展開は、追加の最適化やカスタマイズなしでは困難である。 本稿では,dnnアーキテクチャの概要を述べるとともに,計算資源の少ないエッジコンピューティングプラットフォームに適合するトレーニングと推論速度を高速化するために,計算複雑性を低減する手法を提案する。

Deep neural networks (DNN) have been widely used and play a major role in the field of computer vision and autonomous navigation. However, these DNNs are computationally complex and their deployment over resource-constrained platforms is difficult without additional optimizations and customization. In this manuscript, we describe an overview of DNN architecture and propose methods to reduce computational complexity in order to accelerate training and inference speeds to fit them on edge computing platforms with low computational resources.
翻訳日:2022-08-01 12:14:27 公開日:2022-07-29
# KG-NSF:負サンプルフリーアプローチによる知識グラフ補完

KG-NSF: Knowledge Graph Completion with a Negative-Sample-Free Approach ( http://arxiv.org/abs/2207.14617v1 )

ライセンス: Link先を確認
Adil Bahaj and Safae Lhazmir and Mounir Ghogho(参考訳) 知識グラフ(KG)の完成は多くの分野における知識発見に大きな恩恵をもたらす重要なタスクである。 近年,このタスクを行うためのkg埋め込み学習が注目されている。 KG埋め込み法の成功にもかかわらず、彼らは主に負のサンプリングを使い、計算の複雑さが増大し、また閉世界仮定による予測が偏った。 これらの制限を克服するために,埋め込みベクトルの相互相関行列に基づいてkg埋め込みを学習するための負のサンプリングフリーフレームワークである \textbf{kg-nsf} を提案する。 提案手法は, より高速に収束しながら, 負のサンプリング法と同等のリンク予測性能を実現する。

Knowledge Graph (KG) completion is an important task that greatly benefits knowledge discovery in many fields (e.g. biomedical research). In recent years, learning KG embeddings to perform this task has received considerable attention. Despite the success of KG embedding methods, they predominantly use negative sampling, resulting in increased computational complexity as well as biased predictions due to the closed world assumption. To overcome these limitations, we propose \textbf{KG-NSF}, a negative sampling-free framework for learning KG embeddings based on the cross-correlation matrices of embedding vectors. It is shown that the proposed method achieves comparable link prediction performance to negative sampling-based methods while converging much faster.
翻訳日:2022-08-01 12:14:05 公開日:2022-07-29
# 衛星画像のための画像拡張

Image Augmentation for Satellite Images ( http://arxiv.org/abs/2207.14580v1 )

ライセンス: Link先を確認
Oluwadara Adedeji, Peter Owoade, Opeyemi Ajayi, Olayiwola Arowolo(参考訳) 本研究では,土地利用・土地被覆(LULC)分類タスクにおいて,EuroSATデータセットを拡張するための生成モデル(GAN)を提案する。 データセットの各クラスに対して,DCGANとWGAN-GPを用いて画像を生成する。 次に、各ケースで元のデータセットを約10%増やすことが、モデルパフォーマンスに与える影響について検討した。 GANアーキテクチャの選択は、モデルのパフォーマンスに明らかな影響を与えていないようだ。 しかし、幾何学的拡張とGAN生成画像の組み合わせにより、ベースライン結果が改善された。 本研究により,衛星画像の深部分類モデルの一般化性の向上が期待できる。

This study proposes the use of generative models (GANs) for augmenting the EuroSAT dataset for the Land Use and Land Cover (LULC) Classification task. We used DCGAN and WGAN-GP to generate images for each class in the dataset. We then explored the effect of augmenting the original dataset by about 10% in each case on model performance. The choice of GAN architecture seems to have no apparent effect on the model performance. However, a combination of geometric augmentation and GAN-generated images improved baseline results. Our study shows that GANs augmentation can improve the generalizability of deep classification models on satellite images.
翻訳日:2022-08-01 12:13:51 公開日:2022-07-29
# ロングテール視覚認識のためのクラスディフューティに基づく手法

Class-Difficulty Based Methods for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2207.14499v1 )

ライセンス: Link先を確認
Saptarshi Sinha and Hiroki Ohashi and Katsuyuki Nakamura(参考訳) 長い尾のデータセットは、少数のクラスやカテゴリ(多数派クラスやヘッドクラスとして知られる)が他のクラス(マイノリティクラスやテールクラスとして知られる)よりも多くのデータサンプルを持つ現実世界のユースケースで非常に頻繁に発生する。 このようなデータセットでディープニューラルネットワークをトレーニングすると、結果はヘッドクラスに偏っている。 これまで研究者は、バイアスを減らすために複数の重み付き損失とデータ再サンプリング手法を考案してきた。 しかし、このような手法の多くは、尾のクラスは常に学ぶのがもっとも難しいクラスであり、重み付けや注意が必要であると仮定している。 ここでは、仮定が常に成り立つとは限らないと論じる。 そこで本研究では,モデルの学習段階において,各クラスの瞬時難易度を動的に測定する手法を提案する。 さらに,各クラスの難易度基準を用いて,「クラスワイズ難易度に基づく重み付き(CDB-W)損失」と呼ばれる新たな重み付き損失手法と,「クラスワイズ難易度に基づくサンプリング(CDB-S)」と呼ばれる新しいデータサンプリング手法を設計する。 CDB手法の大規模ユーザビリティを検証するため,画像分類,オブジェクト検出,インスタンスセグメンテーション,ビデオアクション分類など複数のタスクについて広範な実験を行った。 その結果、CDB-W損失とCDB-Sは、実世界のユースケースに類似したImageNet-LT、LVIS、EGTEAといった多くのクラス不均衡データセットに対して、最先端の結果が得られることが分かった。

Long-tailed datasets are very frequently encountered in real-world use cases where few classes or categories (known as majority or head classes) have higher number of data samples compared to the other classes (known as minority or tail classes). Training deep neural networks on such datasets gives results biased towards the head classes. So far, researchers have come up with multiple weighted loss and data re-sampling techniques in efforts to reduce the bias. However, most of such techniques assume that the tail classes are always the most difficult classes to learn and therefore need more weightage or attention. Here, we argue that the assumption might not always hold true. Therefore, we propose a novel approach to dynamically measure the instantaneous difficulty of each class during the training phase of the model. Further, we use the difficulty measures of each class to design a novel weighted loss technique called `class-wise difficulty based weighted (CDB-W) loss' and a novel data sampling technique called `class-wise difficulty based sampling (CDB-S)'. To verify the wide-scale usability of our CDB methods, we conducted extensive experiments on multiple tasks such as image classification, object detection, instance segmentation and video-action classification. Results verified that CDB-W loss and CDB-S could achieve state-of-the-art results on many class-imbalanced datasets such as ImageNet-LT, LVIS and EGTEA, that resemble real-world use cases.
翻訳日:2022-08-01 12:13:00 公開日:2022-07-29
# インタプリタ型センサフュージョントランスを用いた自律運転の安全性向上

Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer ( http://arxiv.org/abs/2207.14024v2 )

ライセンス: Link先を確認
Hao Shao, Letian Wang, RuoBing Chen, Hongsheng Li, Yu Liu(参考訳) 自動運転車の大規模展開は、安全上の懸念から、継続的に遅れている。 一方で、包括的なシーン理解は不可欠であり、その欠如は、未知のオブジェクトが突然出現するなど、稀だが複雑なトラフィック状況に脆弱性をもたらす。 しかし、グローバルなコンテキストからの推論には、複数のタイプのセンサーへのアクセスと、達成が難しいマルチモーダルセンサ信号の適切な融合が必要である。 一方で、学習モデルにおける解釈可能性の欠如は、検証不能な障害原因による安全性を損なう。 本稿では,マルチモーダル・マルチビュー・センサからの情報をフルに処理・融合し,総合的なシーン理解と対向イベント検出を実現するための,インタプリタブル・センサー・フュージョントランスフォーマタ(interfuser)という,安全性向上型自動運転フレームワークを提案する。 さらに、我々のフレームワークから中間的解釈可能な機能が生成され、よりセマンティクスを提供し、安全なセット内でのより優れた制約アクションに利用されます。 我々は、CARLAベンチマークで広範な実験を行い、我々のモデルは従来の手法よりも優れ、CARLA Leaderboardで最初にランクインした。 私たちのコードはhttps://github.com/opendilab/InterFuserで公開されます。

Large-scale deployment of autonomous vehicles has been continually delayed due to safety concerns. On the one hand, comprehensive scene understanding is indispensable, a lack of which would result in vulnerability to rare but complex traffic situations, such as the sudden emergence of unknown objects. However, reasoning from a global context requires access to sensors of multiple types and adequate fusion of multi-modal sensor signals, which is difficult to achieve. On the other hand, the lack of interpretability in learning models also hampers the safety with unverifiable failure causes. In this paper, we propose a safety-enhanced autonomous driving framework, named Interpretable Sensor Fusion Transformer(InterFuser), to fully process and fuse information from multi-modal multi-view sensors for achieving comprehensive scene understanding and adversarial event detection. Besides, intermediate interpretable features are generated from our framework, which provide more semantics and are exploited to better constrain actions to be within the safe sets. We conducted extensive experiments on CARLA benchmarks, where our model outperforms prior methods, ranking the first on the public CARLA Leaderboard. Our code will be made available at https://github.com/opendilab/InterFuser
翻訳日:2022-08-01 10:37:07 公開日:2022-07-29
# 文書理解のための統一単語ブロック事前学習

Knowing Where and What: Unified Word Block Pretraining for Document Understanding ( http://arxiv.org/abs/2207.13979v2 )

ライセンス: Link先を確認
Song Tao, Zijian Wang, Tiantian Fan, Canjie Luo, Can Huang(参考訳) 文書の複雑なレイアウトのため、文書の情報を抽出することは困難である。 これまでのほとんどの研究は、自己監督的な方法でマルチモーダル事前学習モデルを開発する。 本稿では,テキストとレイアウト情報を含む単語ブロックの埋め込み学習に着目し,統一TExtとレイアウト事前学習を備えた言語モデルであるUTelを提案する。 具体的には、レイアウト学習のための単語予測(SWP)と異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。 さらに,一般的な1D位置埋め込みを1Dクリップによる相対位置埋め込みに置き換える。 このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。 さらに、提案するUTelは、1D位置埋め込みを除去し、競合性能を維持しながら任意の長さのシーケンスを処理できる。 広範な実験結果から、utelはより優れたジョイント表現を学習し、様々な下流タスクにおける従来の方法よりも優れた性能を達成することが示されているが、イメージモダリティは必要ではない。 コードは \url{https://github.com/taosong2019/UTel} で入手できる。

Due to the complex layouts of documents, it is challenging to extract information for documents. Most previous studies develop multimodal pre-trained models in a self-supervised way. In this paper, we focus on the embedding learning of word blocks containing text and layout information, and propose UTel, a language model with Unified TExt and Layout pre-training. Specifically, we propose two pre-training tasks: Surrounding Word Prediction (SWP) for the layout learning, and Contrastive learning of Word Embeddings (CWE) for identifying different word blocks. Moreover, we replace the commonly used 1D position embedding with a 1D clipped relative position embedding. In this way, the joint training of Masked Layout-Language Modeling (MLLM) and two newly proposed tasks enables the interaction between semantic and spatial features in a unified way. Additionally, the proposed UTel can process arbitrary-length sequences by removing the 1D position embedding, while maintaining competitive performance. Extensive experimental results show UTel learns better joint representations and achieves superior performance than previous methods on various downstream tasks, though requiring no image modality. Code is available at \url{https://github.com/taosong2019/UTel}.
翻訳日:2022-08-01 10:36:45 公開日:2022-07-29
# グラフウォークとエンティティ記述を活用するエンティティタイプ予測

Entity Type Prediction Leveraging Graph Walks and Entity Descriptions ( http://arxiv.org/abs/2207.14094v2 )

ライセンス: Link先を確認
Russa Biswas, Jan Portisch, Heiko Paulheim, Harald Sack, Mehwish Alam(参考訳) DBpediaやFreebaseなどの知識グラフ(KG)のエンティティタイプ情報は、自動生成や人為的なキュレーションによって不完全であることが多い。 エンティティ型付け(entity typing)は、kg内のエンティティの意味型を割り当てたり推論したりするタスクである。 本稿では、RDF2vecの異なるグラフウォーク戦略とテキストエンティティ記述を利用したエンティティ型付けの新しいアプローチである、textit{GRAND}を提案する。 RDF2vecはまずグラフウォークを生成し、次に言語モデルを使用してグラフの各ノードへの埋め込みを取得する。 本研究は,ウォーク生成戦略と埋め込みモデルがエンティティ型付けタスクの性能に有意な影響を与えていることを示す。 提案手法は,細粒度クラスと粗粒度クラスの両方において,KGにおけるエンティティ型付けのためのベンチマークデータセットDBpediaとFIGERのベースラインアプローチよりも優れている。 その結果,順序認識型RDF2vec変種とテキストエンティティ記述の文脈埋め込みを組み合わせることで,最良の結果が得られることがわかった。

The entity type information in Knowledge Graphs (KGs) such as DBpedia, Freebase, etc. is often incomplete due to automated generation or human curation. Entity typing is the task of assigning or inferring the semantic type of an entity in a KG. This paper presents \textit{GRAND}, a novel approach for entity typing leveraging different graph walk strategies in RDF2vec together with textual entity descriptions. RDF2vec first generates graph walks and then uses a language model to obtain embeddings for each node in the graph. This study shows that the walk generation strategy and the embedding model have a significant effect on the performance of the entity typing task. The proposed approach outperforms the baseline approaches on the benchmark datasets DBpedia and FIGER for entity typing in KGs for both fine-grained and coarse-grained classes. The results show that the combination of order-aware RDF2vec variants together with the contextual embeddings of the textual entity descriptions achieve the best results.
翻訳日:2022-08-01 10:36:25 公開日:2022-07-29
# 生成ステガノグラフィーネットワーク

Generative Steganography Network ( http://arxiv.org/abs/2207.13867v2 )

ライセンス: Link先を確認
Ping Wei, Sheng Li, Xinpeng Zhang, Ge Luo, Zhenxing Qian, Qing Zhou(参考訳) ステガノグラフィは通常、秘密データを埋め込むためにカバーメディアを変更する。 遺伝性ステガノグラフィー(generative steganography, gs)と呼ばれる新しいステガノグラフィー手法が最近登場し、秘密データ(秘密データを含む画像)を直接カバーメディアなしで生成する。 しかし、既存のgsスキームはパフォーマンスが悪いとしてしばしば批判される。 そこで,本稿では,カバー画像を用いずに現実的なステゴ画像を生成するための高度な生成ステガノグラフィーネットワーク(gsn)を提案する。 私たちのモデルは4つのサブネットワーク、すなわちイメージジェネレータ(g$)、判別器(d$)、ステガナライザー(s$)、データ抽出器(e$)を含んでいる。 d$ と $s$ は、生成したステゴ画像の視覚的および統計的不可避性を保証するために、2つの敵の判別者として振る舞う。 $E$は生成されたステゴ画像から隠された秘密を抽出する。 ジェネレータ$G$は、異なる入力でカバーまたはステゴイメージを合成するように柔軟に構成されている。 通常の画像生成装置にステゴ画像を生成する機能を隠蔽することにより、隠蔽通信を容易にする。 秘密ブロックと呼ばれるモジュールは、画像生成中に特徴マップ内の秘密データを隠蔽するように微妙に設計され、高い隠蔽能力と画像忠実性が達成される。 また,ステグアナリシス検出に抵抗する新しい階層的勾配減衰技術を開発した。 実験は、既存の方法よりも作業が優れていることを示す。

Steganography usually modifies cover media to embed secret data. A new steganographic approach called generative steganography (GS) has emerged recently, in which stego images (images containing secret data) are generated from secret data directly without cover media. However, existing GS schemes are often criticized for their poor performances. In this paper, we propose an advanced generative steganography network (GSN) that can generate realistic stego images without using cover images, in which mutual information is firstly introduced in stego image generation. Our model contains four sub-networks, i.e., an image generator ($G$), a discriminator ($D$), a steganalyzer ($S$), and a data extractor ($E$). $D$ and $S$ act as two adversarial discriminators to ensure the visual and statistical imperceptibility of generated stego images. $E$ is to extract the hidden secret from generated stego images. The generator $G$ is flexibly constructed to synthesize either cover or stego images with different inputs. It facilitates covert communication by hiding the function of generating stego images in a normal image generator. A module named secret block is designed delicately to conceal secret data in the feature maps during image generation, with which high hiding capacity and image fidelity are achieved. In addition, a novel hierarchical gradient decay skill is developed to resist steganalysis detection. Experiments demonstrate the superiority of our work over existing methods.
翻訳日:2022-08-01 10:36:12 公開日:2022-07-29
# 脳腫瘍分節のためのトランスフォーマベース生成逆ネットワーク

A Transformer-based Generative Adversarial Network for Brain Tumor Segmentation ( http://arxiv.org/abs/2207.14134v2 )

ライセンス: Link先を確認
Liqun Huang, Long Chen, Baihai Zhang, Senchun Chai(参考訳) 脳腫瘍のセグメンテーションは、医療画像セグメンテーションにおける課題である。 様々なコンピュータビジョンタスクにおけるトランスフォーマーの適用により、トランスフォーマーブロックは、cnnと相補的なグローバル空間における長距離依存を学習する能力を示す。 本稿では,脳腫瘍をマルチモーダル性MRIで自動分割するトランスフォーマーを用いた生成対向ネットワークを提案する。 我々のアーキテクチャは、min-maxゲーム進行のトレーニングを行うジェネレータと識別器で構成されている。 ジェネレータは典型的なU字型エンコーダ・デコーダアーキテクチャに基づいており、底層はresnetでトランスフォーマーブロックで構成されている。 さらに、発電機は深い監視技術で訓練されている。 私たちが設計した識別器はCNNベースのネットワークであり、医療意味画像のセグメンテーションに有効であることが証明された。 本手法の有効性を検証するため,brats2015データセットを用いた実験を行い,従来の最先端手法と同等以上の性能を得た。

Brain tumor segmentation remains a challenge in medical image segmentation tasks. With the application of transformer in various computer vision tasks, transformer blocks show the capability of learning long-distance dependency in global space, which is complementary with CNNs. In this paper, we proposed a novel transformer-based generative adversarial network to automatically segment brain tumors with multi-modalities MRI. Our architecture consists of a generator and a discriminator, which are trained in min-max game progress. The generator is based on a typical "U-shaped" encoder-decoder architecture, whose bottom layer is composed of transformer blocks with resnet. Besides, the generator is trained with deep supervision technology. The discriminator we designed is a CNN-based network with multi-scale $L_{1}$ loss, which is proved to be effective for medical semantic image segmentation. To validate the effectiveness of our method, we conducted experiments on BRATS2015 dataset, achieving comparable or better performance than previous state-of-the-art methods.
翻訳日:2022-08-01 10:35:46 公開日:2022-07-29