このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20221113)

# テンソルネットワークはフェルミ表面を解消できる

Tensor Networks Can Resolve Fermi Surfaces ( http://arxiv.org/abs/2008.11176v3 )

ライセンス: Link先を確認
Quinten Mortier, Norbert Schuch, Frank Verstraete, Jutho Haegeman(参考訳) プロジェクテッドエンタングルペア状態 (peps) は2次元格子上の1dおよび0dフェルミ面の両方を示す臨界フェルミイオン系の基底状態を、結合次元の効率的なスケーリングにより表現できることを実証する。 フェルミオン射影対向状態のガウス的制限に対する有限サイズの結果を熱力学的限界まで外挿すると、結合次元の関数としてのエネルギー精度はパワー法則として改善され、任意の精度は制御された方法で結合次元を増大させることによって得られる。 このプロセスでは、境界条件とシステムサイズを慎重に選択し、非自明なトポロジーに根ざしたアンザッツの非解析性を避ける必要がある。

We demonstrate that projected entangled-pair states (PEPS) are able to represent ground states of critical, fermionic systems exhibiting both 1d and 0d Fermi surfaces on a 2D lattice with an efficient scaling of the bond dimension. Extrapolating finite size results for the Gaussian restriction of fermionic projected entangled-pair states to the thermodynamic limit, the energy precision as a function of the bond dimension is found to improve as a power law, illustrating that an arbitrary precision can be obtained by increasing the bond dimension in a controlled manner. In this process, boundary conditions and system sizes have to be chosen carefully so that nonanalyticities of the Ansatz, rooted in its nontrivial topology, are avoided.
翻訳日:2023-05-04 23:53:54 公開日:2022-11-13
# バイ周波数照明:量子化プロトコル

Bi-frequency illumination: a quantum-enhanced protocol ( http://arxiv.org/abs/2010.15097v3 )

ライセンス: Link先を確認
Mateo Casariego, Yasser Omar, and Mikel Sanz(参考訳) ノイズと損失の少ないシナリオにおいて、プローブの周波数に対する対象物体の応答を測定するための量子拡張型アイドラーフリーセンシングプロトコルを提案する。 本プロトコルでは、熱浴内に周波数依存反射率を有するターゲットを考察する。 その目的は、異なる問題に関連する情報を含んでいるため、パラメータ$\lambda = \eta(\omega_2)-\eta(\omega_1)$を推定することである。 このため、パラメータに関する関連する情報をキャプチャする必要があるため、バイ周波数の量子状態がリソースとして用いられる。 2モードの圧縮状態(h_q$)とコヒーレント状態(h_c$)に対して$\lambda \sim 0$と仮定された近傍で、パラメータ$\lambda$に対する量子フィッシャー情報$h$を計算すると、$\lambda$の見積もりで量子拡張が示される。 この量子強化は、プローブ対象の平均反射率とともに増大し、ノイズ耐性を持つ。 最適観測値に対して明示的な式が導出され、基本量子光学変換に基づく実験的スキームが提案される。 さらに、この研究はレーダーと医療画像の両方、特にマイクロ波領域における応用への道を開く。

Quantum-enhanced, idler-free sensing protocol to measure the response of a target object to the frequency of a probe in a noisy and lossy scenario is proposed. In this protocol, a target with frequency-dependent reflectivity embedded in a thermal bath is considered. The aim is to estimate the parameter $\lambda = \eta(\omega_2)-\eta(\omega_1)$, since it contains relevant information for different problems. For this, a bi-frequency quantum state is employed as the resource, since it is necessary to capture the relevant information about the parameter. Computing the quantum Fisher information $H$ relative to the parameter $\lambda$ in an assumed neighborhood of $\lambda \sim 0$ for a two-mode squeezed state ($H_Q$), and a coherent state ($H_C$), a quantum enhancement is shown in the estimation of $\lambda$. This quantum enhancement grows with the mean reflectivity of the probed object, and is noise-resilient. Explicit formulas are derived for the optimal observables, and an experimental scheme based on elementary quantum optical transformations is proposed. Furthermore, this work opens the way to applications in both radar and medical imaging, in particular in the microwave domain.
翻訳日:2023-04-27 06:13:28 公開日:2022-11-13
# 公正な制約付き多目的粒子群最適化

Fairly Constricted Multi-Objective Particle Swarm Optimization ( http://arxiv.org/abs/2104.10040v4 )

ライセンス: Link先を確認
Anwesh Bhattacharya, Snehanshu Saha, Nithin Nagaraj(参考訳) 粒子群最適化(PSO)における指数的平均運動量(EM)の使用は、バニラPSOアルゴリズムよりも有利である。 単一目的の設定では、局所的なミニマの収束と回避が速くなる。 当然、EMの同じ利点が多目的設定へと続くと期待される。 そこで我々は,emを組み込むことにより,多目的最適化(moo)ソルバsmpsoの状態を拡張した。 その結果,拡張SMPSOアルゴリズムのコアとなる制約フェアネスの数学的定式化を開発した。 提案手法は、ZDT, DTLZ, WFG問題スイート間でのSMPSOの性能に一致し、特定のインスタンスにおいてさらに優れる。

It has been well documented that the use of exponentially-averaged momentum (EM) in particle swarm optimization (PSO) is advantageous over the vanilla PSO algorithm. In the single-objective setting, it leads to faster convergence and avoidance of local minima. Naturally, one would expect that the same advantages of EM carry over to the multi-objective setting. Hence, we extend the state of the art Multi-objective optimization (MOO) solver, SMPSO, by incorporating EM in it. As a consequence, we develop the mathematical formalism of constriction fairness which is at the core of extended SMPSO algorithm. The proposed solver matches the performance of SMPSO across the ZDT, DTLZ and WFG problem suites and even outperforms it in certain instances.
翻訳日:2023-04-04 05:37:47 公開日:2022-11-13
# スピンクロック遷移における電子-核デカップリングの実証

Demonstration of electron-nuclear decoupling at a spin clock transition ( http://arxiv.org/abs/2106.05185v2 )

ライセンス: Link先を確認
Krishnendu Kundu, Jia Chen, Silas Hoffman, Jonathan Marbey, Dorsa Komijani, Yan Duan, Alejandro Gaita-Ari\~no, Xiao-Guang Zhang, Hai-Ping Cheng, Stephen Hill(参考訳) 環境ノイズ源から分離した量子システムを設計する能力は、最適なコヒーレンスを持つ量子技術の開発に非常に望ましい。 磁気分子中の電子状態の化学チューナビリティと高度な電子スピン共鳴技術の組み合わせは、この問題に対処する優れた機会を提供する。 実際、いわゆるクロック遷移(cts)は分子スピン量子ビットを磁気ノイズから保護し、コヒーレンスを著しく向上させることが示されている。 ここでは、この物理の分光学的および計算的研究を行い、核浴の役割に焦点を当てる。 ctから遠ざかれば、線状結合から核自由度への結合は電子コヒーレンスの変調と減衰を引き起こし、電子スピンエコー信号によって実験的に定量化され、$\textit{in silico}$ となる。 一方、効率的な超微細相互作用はCTで消滅し、電子核の疎結合と核浴への量子情報漏洩が欠如し、他の脱コヒーレンス源を特徴づける機会を与える。

The ability to design quantum systems that decouple from environmental noise sources is highly desirable for development of quantum technologies with optimal coherence. The chemical tunability of electronic states in magnetic molecules combined with advanced electron spin resonance techniques provides excellent opportunities to address this problem. Indeed, so-called clock transitions (CTs) have been shown to protect molecular spin qubits from magnetic noise, giving rise to significantly enhanced coherence. Here we conduct a spectroscopic and computational investigation of this physics, focusing on the role of the nuclear bath. Away from the CT, linear coupling to the nuclear degrees of freedom causes a modulation and decay of electronic coherence, as quantified via electron spin echo signals generated experimentally and $\textit{in silico}$. Meanwhile, the effective hyperfine interaction vanishes at the CT, resulting in electron-nuclear decoupling and an absence of quantum information leakage to the nuclear bath, providing opportunities to characterize other decoherence sources.
翻訳日:2023-03-27 04:09:00 公開日:2022-11-13
# リカレントネットワークは神経応答予測を改善し、基礎となる皮質回路に対する洞察を提供する

Recurrent networks improve neural response prediction and provide insights into underlying cortical circuits ( http://arxiv.org/abs/2110.00825v2 )

ライセンス: Link先を確認
Yimeng Zhang, Harold Rockwell, Sicheng Dai, Ge Huang, Stephen Tsou, Yuanyuan Wei, Tai Sing Lee(参考訳) フィードフォワードCNNモデルは、初期の視覚皮質ニューロンの自然画像に対する単一ニューロンの反応を予測する最先端モデルとして近年証明されている。 本稿では,これらのモデルを繰り返し畳み込み層で拡張し,大脳皮質の大規模再発を反映し,マカクv1およびv2単一ニューロン応答の3つのデータセットにおいて,数千のハイパーパラメータの組み合わせでフィードフォワードモデルよりも高い予測性能を示す。 本稿では,回路をアンサンブル計算の一形態として概念化し,各回路が様々な経路長のフィードフォワードパスを生成し,解の組み合わせを最終近似で可能にする。 アンサンブル内の経路の統計は、リカレントモデル間の差分性能の増大に関する洞察を与える。 また、ニューラル応答予測のために学習したリカレント回路が皮質回路に関連があるかどうかを評価する。 適切なモデルのリカレント回路の隠れた単位は、長距離広視野画像提示で訓練された場合、v1ニューロンで観察されるような時間的応答ダイナミクスと古典的な文脈的変調を示す。 この研究は、リカレント回路の計算理論に対する洞察を提供し、神経応答予測が視覚野におけるリカレント神経回路の特徴付けに有用であることを示唆している。

Feedforward CNN models have proven themselves in recent years as state-of-the-art models for predicting single-neuron responses to natural images in early visual cortical neurons. In this paper, we extend these models with recurrent convolutional layers, reflecting the well-known massive recurrence in the cortex, and show robust increases in predictive performance over feedforward models across thousands of hyperparameter combinations in three datasets of macaque V1 and V2 single-neuron responses. We propose the recurrent circuit can be conceptualized as a form of ensemble computing, with each iteration generating more effective feedforward paths of various path lengths to allow a combination of solutions in the final approximation. The statistics of the paths in the ensemble provide insights to the differential performance increases among our recurrent models. We also assess whether the recurrent circuits learned for neural response prediction can be related to cortical circuits. We find that the hidden units in the recurrent circuits of the appropriate models, when trained on long-duration wide-field image presentations, exhibit similar temporal response dynamics and classical contextual modulations as observed in V1 neurons. This work provides insights to the computational rationale of recurrent circuits and suggests that neural response prediction could be useful for characterizing the recurrent neural circuits in the visual cortex.
翻訳日:2023-03-12 18:01:23 公開日:2022-11-13
# 大規模・高速開量子系における幾何・有理マスター方程式

Geometric-Arithmetic Master Equation in Large and Fast Open Quantum Systems ( http://arxiv.org/abs/2112.07863v2 )

ライセンス: Link先を確認
Dragomir Davidovic(参考訳) オープン量子システムにおける非正弦力学の理解は、多数のボーア周波数、ゼロ温度、高速駆動を持つ系に重点を置いている。 開放系における減衰率の算術平均をそれらの幾何学的平均値に置き換えるマスター方程式を用い、量子力学に完全帰結を強制しながら、レッドフィールド方程式として知られる二階摂動理論を改善できることを見いだす。 近似を支配している特性周波数スケールは、最大系の発振周波数と浴槽緩和速度の最小値であるミニマックス周波数であり、有効となるためには消散速度よりも大きい必要がある。 これらの概念はハイゼンベルク強磁性スピンチェインモデルで示される。 近似の精度を調べるために、ガウスのユニタリアンサンブルからハミルトニアンが引かれ、0温度でオオミック浴における4次時間畳み込みのマスター方程式を計算する。 幾何平均を強制すると、正確な解までのトレース距離が減少する。 時間依存型ハミルトニアン系の相互作用図において、レッドフィールドと幾何-算術的マスター方程式を適用して量子ビットの動的疎結合を検証し、その結果を正確な経路積分解と比較する。 幾何学的アリスメティックアプローチは、レッドフィールドアプローチに比べて非常に単純であり、超指数的に高速である。

Understanding nonsecular dynamics in open quantum systems is addressed here, with emphasis on systems with large numbers of Bohr frequencies, zero temperature, and fast driving. We employ the master equation, which replaces arithmetic averages of the decay rates in the open system, with their geometric averages, and find that it can improve the second order perturbation theory, known as the Redfield equation, while enforcing complete positivity on quantum dynamics. The characteristic frequency scale that governs the approximation is the minimax frequency: the minimum of the maximum system oscillation frequency and the bath relaxation rate; this needs to be larger than the dissipation rate for it to be valid. The concepts are illustrated on the Heisenberg ferromagnetic spin-chain model. To study the accuracy of the approximation, a Hamiltonian is drawn from the Gaussian unitary ensemble, for which we calculate the fourth order time convolutionless master equation, in the Ohmic bath at zero temperature. Enforcing the geometric average, decreases the trace distance to the exact solution. Dynamical decoupling of a qubit is examined by applying the Redfield and the geometric-arithmetic master equations, in the interaction picture of the time dependent system Hamiltonian, and the results are compared to the exact path integral solution. The geometric-arithmetic approach is significantly simpler and can be super-exponentially faster compared to the Redfield approach.
翻訳日:2023-03-04 12:06:05 公開日:2022-11-13
# 行列積演算子を用いた雑音多重ビット系の非局所相関

Nonlocal correlations in noisy multiqubit systems simulated using matrix product operators ( http://arxiv.org/abs/2203.05871v3 )

ライセンス: Link先を確認
H. Landa and G. Misguich(参考訳) 本稿では,行列積状態と行列積演算子に基づくlindbladマスター方程式の解法を提案する。 この解法を用いて、異なるコネクティビティを持つ数万の相互作用量子ビットのダイナミクスを解析し、量子デバイスにおける基本動作である共鳴にエッジ量子ビットが連続的に駆動される問題に焦点を当てる。 駆動のため、誘導励起は、不整合項によって系が定常状態になるまで量子ビットを通して伝播する。 外部共振器との相互作用が弱い交互周波数量子ビットでは、トンネル励起は系の遠方量子ビット間に大きな相関関係をもたらす。 いくつかの2量子ビット相関関数は(距離を持つ典型的な崩壊とは対照的に)システム内の距離関数として増加しており、互いに最も離れた2つのエッジ量子ビットでピークとなる。

We introduce an open-source solver for the Lindblad master equation, based on matrix product states and matrix product operators. Using this solver we study the dynamics of tens of interacting qubits with different connectivities, focusing on a problem where an edge qubit is being continuously driven on resonance, which is a fundamental operation in quantum devices. Because of the driving, induced excitations propagate through the qubits until the system reaches a steady state due to the incoherent terms. We find that with alternating-frequency qubits whose interactions with their off-resonant neighbors appear weak, the tunneling excitations lead to large correlations between distant qubits in the system. Some two-qubit correlation functions are found to increase as a function of distance in the system (in contrast to the typical decay with distance), peaking on the two edge qubits farthest apart from each other.
翻訳日:2023-02-22 09:32:22 公開日:2022-11-13
# quantinar: 正直な科学研究のためのブロックチェーンp2pエコシステム

Quantinar: a blockchain p2p ecosystem for honest scientific research ( http://arxiv.org/abs/2211.11525v1 )

ライセンス: Link先を確認
Raul Bag, Bruno Spilak, Julian Winkel, Wolfgang Karl H\"ardle(参考訳) 情報化時代にあって、データの力と正しい統計分析が普及したことは一度もない。 アカデミック、実践家、その他多くの専門家は、現在、量的手法の正確な適用を必要としている。 多くのブランチは整合性の危機にさらされているが、統計モデルの不適切な使用、$p$-hacking、harking、あるいは結果の再現に失敗している。 本稿では,p2p 教育ネットワーク quantinar を用いて,コードに埋め込まれた定量的解析知識を quantlet 形式で広める手法を提案する。 ブロックチェーン技術の統合により、quantinarは完全な透明性と再現可能な科学的研究を確実にする分散型自律組織(dao)となる。

Living in the Information Age, the power of data and correct statistical analysis has never been more prevalent. Academics, practitioners and many other professionals nowadays require an accurate application of quantitative methods. Though many branches are subject to a crisis of integrity, which is shown in improper use of statistical models, $p$-hacking, HARKing or failure to replicate results. We propose the use of a peer-to-peer education network, Quantinar, to spread quantitative analysis knowledge embedded with code in the form of Quantlets. The integration of blockchain technology makes Quantinar a decentralised autonomous organisation (DAO) that ensures fully transparent and reproducible scientific research.
翻訳日:2023-02-19 12:34:07 公開日:2022-11-13
# 相互作用フェルミオンの例外点を保護した対称性

Symmetry protected exceptional points of interacting fermions ( http://arxiv.org/abs/2204.05340v2 )

ライセンス: Link先を確認
Robin Sch\"afer, Jan C. Budich and David J. Luitz(参考訳) 非エルミート量子系は例外点として知られるスペクトル退化を示し、2つ以上の固有ベクトルが結合し、非対角化可能なヨルダンブロックとなる。 対称性は非相互作用系における例外点の存在度を高めることが知られている。 ここでは、フェルミオン間の相互作用を保存する対称性の存在下での特異点を保護した対称性の運命を調べ、それを見つける。 (i)例外点は相互作用の存在下で安定である。 パラメータ空間を伝播すると、特徴的な `fans'' が形成される。 また、 (ii) 相互作用によってのみ存在する例外点の新しい情報源を同定する。 これらの点は非相互作用の場合の対角化可能な退化から生じる。 創造と安定性を超えて (iii)また、エンドポイントで3階の例外点を形成する互換性のある多体状態を持つパラメータ空間で一致する場合、例外点が互いに消滅することができることも判明した。 これらの現象は、相互作用しないハミルトニアンから始まる「例外摂動理論」によってよく捉えられる。

Non-hermitian quantum systems can exhibit spectral degeneracies known as exceptional points, where two or more eigenvectors coalesce, leading to a non-diagonalizable Jordan block. It is known that symmetries can enhance the abundance of exceptional points in non-interacting systems. Here, we investigate the fate of such symmetry protected exceptional points in the presence of a symmetry preserving interaction between fermions and find that, (i) exceptional points are stable in the presence of the interaction. Their propagation through the parameter space leads to the formation of characteristic exceptional ``fans''. In addition, (ii) we identify a new source for exceptional points which are only present due to the interaction. These points emerge from diagonalizable degeneracies in the non-interacting case. Beyond their creation and stability, (iii) we also find that exceptional points can annihilate each other if they meet in parameter space with compatible many-body states forming a third order exceptional point at the endpoint. These phenomena are well captured by an ``exceptional perturbation theory'' starting from a non-interacting Hamiltonian.
翻訳日:2023-02-17 08:02:21 公開日:2022-11-13
# スケーラブルフルスタック量子コンピュータにおける資源効率の最適化

Optimizing resource efficiencies for scalable full-stack quantum computers ( http://arxiv.org/abs/2209.05469v2 )

ライセンス: Link先を確認
Marco Fellous-Asiani and Jing Hao Chai and Yvain Thonnart and Hui Khoon Ng and Robert S. Whitney and Alexia Auff\`eves(参考訳) スケーラブルな量子コンピュータの構築競争において、ターゲット性能を達成するためにフルスタックのリソース消費を最小限に抑えることが重要である。 基礎物理学と工学のシナジーを義務付けており、前者は計算性能の微視的な側面、後者はマクロ的な資源消費である。 この目的を念頭に、量子物理学(例えば、量子ビット上のノイズ)、量子情報(例えば、計算アーキテクチャやエラー訂正)、および技術(例えば、極低温、制御エレクトロニクス、配線)の概念をまとめて、フルスタックの量子コンピュータのすべての側面を定量化し、最適化できるMetric-Noise-Resource(MNR)と呼ばれる方法論を提案する。 この総合的なアプローチにより、資源効率を性能と資源コストの比として定義し、研究することができる。 概念実証として、MNRを用いてフルスタックの量子コンピュータの消費電力を最小限に抑え、興味のあるタスクの目標性能でノイズやフォールトトレラントな計算を行う。 これを同じタスクを実行する古典的なプロセッサと比較し、一般的な量子計算上のアドバンテージとは異なるパラメータの配置における量子エネルギーアドバンテージを同定する。 これは以前に見過ごされた量子コンピュータ構築の実践的議論を提供する。 我々の図は、連続した誤り訂正を伴う超伝導量子ビットにインスパイアされた非常に理想的なパラメータを用いていますが、我々の方法論は普遍的です -- 他の量子ビットや誤り訂正符号にも適用できます -- 実験者にエネルギー効率の高い量子プロセッサを構築するためのガイドラインを提供します。 高エネルギー消費のいくつかのレジームでは、この消費を桁違いに減らすことができる。 全体として、我々の方法論は資源効率のよい量子技術の理論的基礎を定めている。

In the race to build scalable quantum computers, minimizing the resource consumption of their full stack to achieve a target performance becomes crucial. It mandates a synergy of fundamental physics and engineering: the former for the microscopic aspects of computing performance, and the latter for the macroscopic resource consumption. With this aim in mind, we propose a methodology dubbed Metric-Noise-Resource (MNR) able to quantify and optimize all aspects of the full-stack quantum computer, bringing together concepts from quantum physics (e.g., noise on the qubits), quantum information (e.g., computing architecture and type of error correction), and enabling technologies (e.g., cryogenics, control electronics, and wiring). This holistic approach allows us to define and study resource efficiencies as ratios between performance and resource cost. As a proof of concept, we use MNR to minimize the power consumption of a full-stack quantum computer, performing noisy or fault-tolerant computing with a target performance for the task of interest. Comparing this with a classical processor performing the same task, we identify a quantum energy advantage in regimes of parameters distinct from the commonly considered quantum computational advantage. This provides a previously overlooked practical argument for building quantum computers. While our illustration uses highly idealized parameters inspired by superconducting qubits with concatenated error correction, our methodology is universal -- it applies to other qubits and error-correcting codes -- and provides experimenters with guidelines to build energy-efficient quantum processors. In some regimes of high energy consumption, it can reduce this consumption by orders of magnitudes. Overall, our methodology lays the theoretical foundation for resource-efficient quantum technologies.
翻訳日:2023-01-26 22:02:17 公開日:2022-11-13
# navier-stokes, einstein, maxwell, b-type, lin-tsien, camassa-holm, dsw, h-s, kdv-b, non-homogeneous kdv, generalized kdv, kdv, translational kdv, skdv, b-l および airy 方程式からの計測のための変分量子アルゴリズム

Variational quantum algorithm for measurement extraction from the Navier-Stokes, Einstein, Maxwell, B-type, Lin-Tsien, Camassa-Holm, DSW, H-S, KdV-B, non-homogeneous KdV, generalized KdV, KdV, translational KdV, sKdV, B-L and Airy equations ( http://arxiv.org/abs/2209.07714v3 )

ライセンス: Link先を確認
Pete Rigas(参考訳) 古典量子ハイブリッドアルゴリズムは近年注目されており、量子回路から読み出しを得るために量子と古典計算プロトコルを組み合わせることで特徴付けられる。 2019年の論文でLubschらによる最近の進歩は、期待値と変動パラメータの重ね合わせで表現されるコスト関数の基底状態を決定する新しい変動量子アルゴリズム(VQA)を使用することで、シュロディンガー方程式とInviscid Burgers方程式の解の読み出しを提供する。 以下に、VQAが従来実現されていた解に匹敵する他のPDEに対して、ノイズのない量子シミュレーションを特徴とする解を確実に生成できる、さらなる計算可能性について分析する。 アルゴリズムが他のivpsに対して処理できる非線形性の範囲を決定するために、まずnavier-stokes方程式から始まり、アインシュタイン、boossniesqタイプ、lin-tsien、camassa-holm、drinfeld-sokolov-wilson(dsw)、hunter-saxton方程式のシミュレーションから、電磁気学、重力、波動伝播といった物理現象を基礎とする他の方程式へと進行するいくつかのpdesについて研究する。 量子回路からの読み出しとして得られる解の数値近似のためにVQAが行う最適化ルーチンを定式化するために、ZGR-QFTアンサザイ数百のシミュレーション結果を生成する補助部に各PDEに対応するコスト関数を設ける。

Classical-quantum hybrid algorithms have recently garnered significant attention, which are characterized by combining quantum and classical computing protocols to obtain readout from quantum circuits of interest. Recent progress due to Lubasch et al in a 2019 paper provides readout for solutions to the Schrodinger and Inviscid Burgers equations, by making use of a new variational quantum algorithm (VQA) which determines the ground state of a cost function expressed with a superposition of expectation values and variational parameters. In the following, we analyze additional computational prospects in which the VQA can reliably produce solutions to other PDEs that are comparable to solutions that have been previously realized classically, which are characterized with noiseless quantum simulations. To determine the range of nonlinearities that the algorithm can process for other IVPs, we study several PDEs, first beginning with the Navier-Stokes equations and progressing to other equations underlying physical phenomena ranging from electromagnetism, gravitation, and wave propagation, from simulations of the Einstein, Boussniesq-type, Lin-Tsien, Camassa-Holm, Drinfeld-Sokolov-Wilson (DSW), and Hunter-Saxton equations. To formulate optimization routines that the VQA undergoes for numerical approximations of solutions that are obtained as readout from quantum circuits, cost functions corresponding to each PDE are provided in the supplementary section after which simulations results from hundreds of ZGR-QFT ansatzae are generated.
翻訳日:2023-01-26 09:43:24 公開日:2022-11-13
# 古典的および量子重力における等価原理

Equivalence Principle in Classical and Quantum Gravity ( http://arxiv.org/abs/2210.00133v2 )

ライセンス: Link先を確認
Nikola Paunkovic and Marko Vojinovic(参考訳) 古典物理学および量子物理学における同値原理の様々なフレーバーを概観し、特にいわゆる弱同値原理に注目し、力学と場の理論におけるその妥当性を対比する。 また、量子重力理論への一般化についても論じる。 我々の分析は、他のすべての同値原理のフレーバーは古典的なレベルでしか持たないため、強い同値原理のみが量子重力文脈に一般化できる基本と考えることができることを示唆している。

We give a general overview of various flavors of the equivalence principle in classical and quantum physics, with special emphasis on the so-called weak equivalence principle, and contrast its validity in mechanics versus field theory. We also discuss its generalisation to a theory of quantum gravity. Our analysis suggests that only the strong equivalence principle can be considered fundamental enough to be generalised to a quantum gravity context, since all other flavors of equivalence principle hold only approximately already at the classical level.
翻訳日:2023-01-24 07:31:24 公開日:2022-11-13
# 消去変換を用いたイオンの準安定状態による量子誤差補正

Quantum error correction with metastable states of trapped ions using erasure conversion ( http://arxiv.org/abs/2210.15024v2 )

ライセンス: Link先を確認
Mingyu Kang, Wesley C. Campbell, Kenneth R. Brown(参考訳) 消去(または既知の位置のエラー)は、ポーリの誤りよりも量子誤り訂正符号の誤りの好適なタイプである。 物理ノイズを消去に変換することで、量子誤差補正の性能が大幅に向上する。 ここでは、wu, kolkowitz, puri, and thompson [nat. comm. 13, 4657 (2022)] によって提唱された準安定原子状態への量子ビットのエンコードによる消去変換を捕獲イオンに適用する。 準安定イオン量子ビットの消去変換方式を提案し,様々な種類の誤差の詳細なモデルを開発する。 次に,物理制約下での地上および準安定量子ビットの論理的性能を比較し,トレードオフについて議論する。

Erasures, or errors with known locations, are a more favorable type of error for quantum error-correcting codes than Pauli errors. Converting physical noise into erasures can significantly improve the performance of quantum error correction. Here we apply the idea of performing erasure conversion by encoding qubits into metastable atomic states, proposed by Wu, Kolkowitz, Puri, and Thompson [Nat. Comm. 13, 4657 (2022)], to trapped ions. We suggest an erasure-conversion scheme for metastable trapped-ion qubits and develop a detailed model of various types of errors. We then compare the logical performance of ground and metastable qubits on the surface code under various physical constraints and discuss the trade offs.
翻訳日:2023-01-21 12:56:05 公開日:2022-11-13
# デコヒーレンス下での対称性保護位相相

Symmetry protected topological phases under decoherence ( http://arxiv.org/abs/2210.16323v2 )

ライセンス: Link先を確認
Jong Yeon Lee, Yi-Zhuang You, and Cenke Xu(参考訳) 様々な種類のデコヒーレンスの下で対称性保護トポロジカル位相(SPT)のクラスについて検討し、純粋なSPT状態を混合状態に駆動する。 本研究では,SPT基底状態からの非自明な位相情報をデコヒーレンスの下でも保持できることを実証する。 そこで本研究では,SPT基底状態の診断法として提案された<strange correlator>を,混合状態密度行列に対する奇妙な相関器の概念を一般化する。 安定化器ハミルトニアンの正確な計算と場の理論評価の両方を用いて、SPT状態の非自明な特徴をデコヒーレンスの下では、タイプIとタイプIIの2種類の奇妙な相関子に持続することができることを示した。 非自明なタイプI奇数相関器は実験から効率的に同定できるSPT情報の存在に対応していることを示す。 非自明なタイプIIの奇妙な相関器は、密度行列における元のSPT情報の存在に対応しており、これは原則としてSPTと自明な状態のデコヒード混合状態を識別することができる。 そこで本稿では,情報理論の観点からSPT位相のデコヒーレントを理解するための統一的なフレームワークを提案する。

We study a class of symmetry protected topological (SPT) phases under various types of decoherence, which can drive a pure SPT state into a mixed state. We demonstrate that the system can still retain the nontrivial topological information from the SPT ground state even under decoherence. The main quantity that we investigate is the ``strange correlator" proposed previously as a diagnosis for the SPT ground states, and in this work, we generalize the notion of the strange correlator to mixed-state density matrices. Using both exact calculations of the stabilizer Hamiltonians and field theory evaluations, we demonstrate that under decoherence the nontrivial features of the SPT state can persist in the two types of strange correlators: type-I and type-II. We show that the nontrivial type-I strange correlator corresponds to the presence of the SPT information that can be efficiently identified from experiments. The nontrivial type-II strange correlator corresponds to the presence of the original SPT information in the density matrix, which in principle can be identified to distinguish decohered mixed states of an SPT and trivial states. Therefore, our work provides a unified framework to understand decohered SPT phases from the information-theoretic viewpoint.
翻訳日:2023-01-21 05:29:08 公開日:2022-11-13
# カテゴリー量子力学のレンズによるトポロジカル量子計算

Topological Quantum Computation Through the Lens of Categorical Quantum Mechanics ( http://arxiv.org/abs/2211.03855v2 )

ライセンス: Link先を確認
Fatimah Rita Ahmadi and Aleks Kissinger(参考訳) ユニタリ融合圏はトポロジカル量子計算の代数理論を定式化する。 我々は、アノニオン理論を記述する圏と位相的量子計算を記述する圏に関する混乱を解消する。 後者は hilb のサブカテゴリであることを示す。 我々は、フィボナッチおよびイジングモデルの要素、すなわち、キュービットの符号化と関連するブレイド群表現をZX-計算で表現し、どちらの場合もヤン・バクスター方程式がZX-計算のP-ルールのインスタンスに直結していることを示す。 イジングの場合、これはアダマール門の2つの異なるオイラー分解を $\pi/2$ 位相回転として関連付ける一般的な規則に還元されるが、フィボナッチの場合、金比を含むP-ルールの未考慮の正確な解を与える。 フィボナッチ・エノンのシングルキュービット・ブレイド方程式とイジン・エノンのシングルキュービット・ブレイド方程式をグラフィカルに導出することにより,これらの表現の有用性を示す。

Unitary fusion categories formalise the algebraic theory of topological quantum computation. We rectify confusion around a category describing an anyonic theory and a category describing topological quantum computation. We show that the latter is a subcategory of Hilb. We represent elements of the Fibonacci and Ising models, namely the encoding of qubits and the associated braid group representations, with the ZX-calculus and show that in both cases, the Yang-Baxter equation is directly connected to an instance of the P-rule of the ZX-calculus. In the Ising case, this reduces to a familiar rule relating two distinct Euler decompositions of the Hadamard gate as $\pi/2$ phase rotations, whereas in the Fibonacci case, we give a previously unconsidered exact solution of the P-rule involving the Golden ratio. We demonstrate the utility of these representations by giving graphical derivations of the single-qubit braid equations for Fibonacci anyons and the single- and two-qubit braid equations for Ising anyons.
翻訳日:2023-01-20 01:44:48 公開日:2022-11-13
# hzライン幅と10^{-10}$wパワーを有するコヒーレンス支援超ラジアントレーザー

Coherence-Assisted Superradiant Laser with Hz Linewidth and $10^{-10}$W Power ( http://arxiv.org/abs/2211.06867v1 )

ライセンス: Link先を確認
Guohui Dong, Yao Yao, Peng Zhang, and Dazhi Xu(参考訳) 電気基底状態である^1$s$_0$とフェルミイオン性アルカリ土類(類似)原子の準安定状態である^3$p$_0$の時計遷移に基づく超ラジアントレーザーは、ライン幅がミリヘルツのオーダーである新しい有望な光源として提案されている。 しかし、小さな$^1$S$_0$-to-$^3$P$_0$遷移強度のため、系の定常電力は比較的低い(\sim 10^{-12}$W)。 本研究では, ボソニックアルカリ土類(類似)原子中の^3$p$_0$と$^3$p$_1$状態のラマン遷移誘起結合に基づく代替超ラジアントレーザースキームを提案し, ライン幅$\lesssim 2\pi\times1$hzおよびパワー$\gtrsim 10^{10}$w (\sim 10^{3}$ photons in steady state) を小さなポンプコストで実現する。 ラマンビームは2つの重要な役割を担っています 第一に、ラマンビームによって誘導される暗黒状態と明るい状態のコヒーレンスにより、ポンピング-直線曲線における新しい局所的最小値が2\pi \times 10$kHz以下となり、連続的な出力に有用である。 第2に、ラマンビームは長寿命の$^3$p$_0$状態と発散状態とを混合し、ライン幅を減少させる。 本研究は、ラマン遷移によるコヒーレンスを伴う超ラジアントレーザーシステムの出力性能を大幅に向上させ、将来の実用化に向けた確固たる基礎を提供する。

The superradiant laser, based on the clock transition between the electric ground state $^1$S$_0$ and the metastable state $^3$P$_0$ of fermionic alkaline-earth(-like) atoms, has been proposed to be a new promising light source with linewidth being the order of millihertz. However, due to the small $^1$S$_0$-to-$^3$P$_0$ transition strength, the steady-state power in that system is relatively low ($\sim 10^{-12}$W). In this work, we propose an alternative superradiant laser scheme based on a Raman-transition-induced coupling between the $^3$P$_0$ and $^3$P$_1$ states in bosonic alkaline-earth(-like) atoms, and achieve a laser with linewidth $\lesssim 2\pi\times1$Hz and power $\gtrsim 10^{-10}$W ($\sim 10^{3}$ photons in steady state) at a small pumping cost. The Raman beams play two significant roles in our scheme. First, the coherence between the dark and bright states induced by the Raman beams produce a new local minimum in the pumping-linewidth curve with pumping rate lower than $2\pi \times 10$kHz, which is beneficial for continuous output. Second, the Raman beams mix the long-lived $^3$P$_0$ state into the lasing state and thus reduce the linewidth. Our work greatly improves the output performance of the superradiant laser system with coherence induced by Raman transitions and may offer a firm foundation for its practical use in future.
翻訳日:2023-01-18 07:36:02 公開日:2022-11-13
# スピン軌道SU(2)$\times$SU(2)$\times$U(1)模型における長距離スピン軌道秩序

Long-range spin-orbital order in the spin-orbital SU(2)$\times$SU(2)$\times$U(1) model ( http://arxiv.org/abs/2211.06852v1 )

ライセンス: Link先を確認
Yang Liu, Z. Y. Xie, Hong-Gang Luo, and Jize Zhao(参考訳) テンソル-ネットワーク状態アルゴリズムを用いて, 三角格子上のSU(2)$\times$SU(2)$\times$U(1)対称性を持つスピン軌道モデルについて検討する。 このモデルは、いくつかの三角形の$d^1$材料を記述するために提案され、スピン軌道の液体基底状態を持つと主張した。 我々の研究では、基底状態の試行的な波動関数は無限射影の絡み合い状態によって近似され、虚時進化によって最適化される。 前述の予想とは対照的に、2つのsu(2)対称性が破れており、同じ等級のスピン軌道次数は$m=0.085(10)$となる。 この値はスピン1/2三角ハイゼンベルク反強磁性の約半分である。 このモデルでは, 長期のスピン軌道液体は存在しないが, 量子ゆらぎの増大によりスピン軌道秩序は著しく低下することを示した。 これは、高対称性スピン軌道モデルが凝縮マター物理学における物質のエキゾチックな状態の探索に有望であることを示唆している。

By using the tensor-network state algorithm, we study a spin-orbital model with SU(2)$\times$SU(2)$\times$U(1) symmetry on the triangular lattice. This model was proposed to describe some triangular $d^1$ materials and was argued to host a spin-orbital liquid ground state. In our work the trial wavefunction of its ground state is approximated by an infinite projected entangled simplex state and optimized by the imaginary-time evolution. Contrary to the previous conjecture, we find that the two SU(2) symmetries are broken, resulting in a stripe spin-orbital order with the same magnitude $m=0.085(10)$. This value is about half of that in the spin-1/2 triangular Heisenberg antiferromagnet. Our result demonstrates that although the long-sought spin-orbital liquid is absent in this model the spin-orbital order is significantly reduced due to the enhanced quantum fluctuation. This suggests that high-symmetry spin-orbital models are promising in searching for exotic states of matter in condensed-matter physics.
翻訳日:2023-01-18 07:35:24 公開日:2022-11-13
# 磁気浮上によるマイクロ波キャビティのパワー依存性共振周波数

Power Dependent Resonant Frequency of a Microwave Cavity due to Magnetic Levitation ( http://arxiv.org/abs/2211.06815v1 )

ライセンス: Link先を確認
N. K. Raut, J. Miller, H. Hart, R. Chiao, and J. E. Sharping(参考訳) 超伝導体による磁石の浮上は、量子力学現象を探求する研究の活発な領域である。 使用技術の一つは超伝導マイクロ波空洞内に置かれた磁石の浮上を測定することである。 浮上高さはマイクロ波周波数の変化を測定することで測定できる。 本稿では,マイクロ波空洞とマイスナー浮上永久磁石の共振周波数の変化について報告する。 共振周波数と品質係数の変化を入力電力と温度の関数として測定した。 共鳴周波数の変化は、マグネットとマイクロ波空洞内の高周波磁場との相互作用による可能性が高い。

Levitation of a magnet by superconductor has been an active area of research to explore the quantum mechanical phenomenon. One of the techniques used is to measure the levitation of a magnet placed inside the superconducting microwave cavity. The levitation height can be probed by measuring the change in microwave frequency. Here, we report measurements of the change in resonance frequency of the microwave cavity with the Meissner-levitated permanent magnet. The change in resonant frequency and quality factor was measured as a function of input power and temperature. The change in resonate frequency is likely due to the interaction of the magnet with the radio-frequency field inside the microwave cavity.
翻訳日:2023-01-18 07:34:34 公開日:2022-11-13
# 行列積状態と量子条件相互情報の減衰

Matrix product states and the decay of quantum conditional mutual information ( http://arxiv.org/abs/2211.06794v1 )

ライセンス: Link先を確認
Pavel Svetlichnyy, Shivan Mittal and T.A.B. Kennedy(参考訳) スピンの三成分系上で定義される一様行列積の状態は、$abc,$ で表され、サブシステム $b,$ が$|b|,$ で表されるとき、近似量子マルコフ鎖であることが示される。 量子条件相互情報 (QCMI) は、同じ極限において、指数的に崩壊する$|B|$の関数によって調べられ、有界であることが証明された。 境界関数の性質は新たなアプローチによって導出され、漸近減衰率に対して対応する改良値が与えられる。 QCMIの崩壊に関する数値的な研究は、ハール測度に対する定義等尺性を選択することによって生成される行列積状態の集合に対して報告される。

A uniform matrix product state defined on a tripartite system of spins, denoted by $ABC,$ is shown to be an approximate quantum Markov chain when the size of subsystem $B,$ denoted $|B|,$ is large enough. The quantum conditional mutual information (QCMI) is investigated and proved to be bounded by an exponentially decaying function of $|B|$ in the same limit. The properties of the bounding function are derived by a new approach, with a corresponding improved value given for its asymptotic decay rate. Numerical investigations of the decay of QCMI are reported for a collection of matrix product states generated by selecting the defining isometry with respect to Haar measure.
翻訳日:2023-01-18 07:34:27 公開日:2022-11-13
# 定磁場中における2次元水素様原子

Two-dimensional Hydrogen-like Atom in a Constant Magnetic Field ( http://arxiv.org/abs/2211.06772v1 )

ライセンス: Link先を確認
M. G. Naber(参考訳) 定磁場中の2次元水素様原子について考察する。 これは実際には2つの異なる問題である。 磁場が核と電子の間に効果的なアトラクションを引き起こし、その1つが効果的な反発を引き起こす。 2つの問題はそれぞれ、シフトエネルギー固有値の符号に依存する3つの異なるケースを持つ。 6つの可能性のうち2つ(負のシフトエネルギー固有値)について、最初の4つの解が正確に得られることが示されている。 6つの可能性のうち別の2つ(正のシフトエネルギー固有値)に対して、最初の8つの解を正確に得ることが示されている。 高次状態の場合、エネルギー固有値は5階以上の多項式の根であるため、固有値は数値的に求める必要がある。 エネルギー固有値が知られると、放射波方程式の解も知られている。 放射波方程式の厳密な解は、残りの2つの可能性(シフトエネルギー固有値はゼロ)に対して、再帰関係により任意の望ましい順序に与えられる。

The two-dimensional hydrogen-like atom in a constant magnetic field is considered. It is found that this is actually two separate problems. One for which the magnetic field causes an effective attraction between the nucleus and the electron and one for which it causes an effective repulsion. Each of the two problems has three separate cases depending on the sign of a shifted energy eigenvalue. For two of the six possibilities (shifted energy eigenvalue that is negative) it is shown that the first four solutions can be obtained exactly. For another two of the six possibilities (shifted energy eigenvalue that is positive) it is shown that the first eight solutions can be obtained exactly. For higher order states the energy eigenvalue is the root of a fifth or higher order polynomial, hence, the eigenvalue must be obtained numerically. Once the energy eigenvalue is known the solution to the radial wave equation is also known. Exact solutions for the radial wave equation, for the remaining two possibilities (shifted energy eigenvalue that is zero), are given to any desired order by means of a recursion relation.
翻訳日:2023-01-18 07:34:12 公開日:2022-11-13
# 制約付き変分量子最適化における非拘束エネルギーの爆発

Exploiting In-Constraint Energy in Constrained Variational Quantum Optimization ( http://arxiv.org/abs/2211.07016v1 )

ライセンス: Link先を確認
Tianyi Hao, Ruslan Shaydulin, Marco Pistoia, and Jeffrey Larson(参考訳) 産業的に関連する問題に短期的量子最適化アルゴリズムを適用するという大きな課題は、複雑な制約を組み込む必要性である。 一般に、そのような制約を回路内で容易に符号化することはできず、量子回路の測定結果が制約を尊重する保証がない。 したがって、最適化は制約違反のペナルティを目的に加えることで、制約外確率と制約内解の質をトレードオフしなければならない。 本稿では,制約付き最適化問題に対して,無拘束で実装が容易な量子 ansatze を用いた新しい解法を提案する。 本手法は, コンストラクション内エネルギーを目的とし, イン・コンストライント確率に対する下限制約をオプティマイザに追加する。 ペナルタライズドエネルギーを直接最適化するよりも, 溶液品質が著しく向上することを示す。 シミュレータや量子ハードウェア上での高速なプロトタイピングのために,QiskitとインターフェースするPythonパッケージであるQVoiceで実装した。

A central challenge of applying near-term quantum optimization algorithms to industrially relevant problems is the need to incorporate complex constraints. In general, such constraints cannot be easily encoded in the circuit, and the quantum circuit measurement outcomes are not guaranteed to respect the constraints. Therefore, the optimization must trade off the in-constraint probability and the quality of the in-constraint solution by adding a penalty for constraint violation into the objective. We propose a new approach for solving constrained optimization problems with unconstrained, easy-to-implement quantum ansatze. Our method leverages the in-constraint energy as the objective and adds a lower-bound constraint on the in-constraint probability to the optimizer. We demonstrate significant gains in solution quality over directly optimizing the penalized energy. We implement our method in QVoice, a Python package that interfaces with Qiskit for quick prototyping in simulators and on quantum hardware.
翻訳日:2023-01-18 07:29:53 公開日:2022-11-13
# 絡み合う一夫一婦制は等式や不等式によって定義されるべきか?

Should monogamy of entanglement be defined via equalities or inequalities? ( http://arxiv.org/abs/2211.06984v1 )

ライセンス: Link先を確認
Alexey Lopukhin(参考訳) 本研究は絡み合いの定量化に焦点をあてる。 具体的には、「良い」絡み合い尺度で満足すべき絡み合いの性質について検討する。 長年にわたり実施されてきた絡み合い対策のいくつかの提案を見ていきたい。 次に、一夫一婦制と呼ばれる絡み合いの別の性質の数学的表現の提案について議論する準備が整う。 提案する一元的絡み合い測度の定義をいくつか導入して比較する。 原文(投稿日:2016/11/16)へのリンク 私の最初の観察として、[C. Lancien, S. Di Martino, M. Huber, M. Piani, G. Adesso and A. Winter Phys. Lett. 117:060501 (2016).]から得られる不等式(23)と(24)が、[G. Gour and G. Yu, Quantum 2, 81(2018)]で与えられた定義の意味で、構造の絡み合いと規則化されたエントロピーが一夫一婦一婦一婦一婦の絡み合いであることを示す。

This work focuses on the entanglement quantification. Specifically, we will go over the properties of entanglement that should be satisfied by a "good" entanglement measure. We will have a look at some of the propositions of the entanglement measures that have been made over the years. Then we will be ready to discuss the proposals of the mathematical representations of another property of entanglement, called monogamy. We will introduce some definitions of monogamous entanglement measures that were proposed and compare them. As an original observation of mine (see page 15, Proof 1), I will also prove that the inequalities (23) and (24) from [C. Lancien, S. Di Martino, M. Huber, M. Piani, G. Adesso and A. Winter Phys. Rev. Lett., 117:060501 (2016).] automatically show that the entanglement of formation and the regularised entropy of entanglement are monogamous entanglement measures in the sense of the definitions that was given in [G. Gour and G. Yu, Quantum 2, 81 (2018).].
翻訳日:2023-01-18 07:29:15 公開日:2022-11-13
# 推定理論における量子力学の利点

Advantages of quantum mechanics in the estimation theory ( http://arxiv.org/abs/2211.06976v1 )

ライセンス: Link先を確認
Bakmou Lahcen and Daoud Mohammed(参考訳) 量子推定理論 (quantum estimation theory) は、量子力学の現代言語とランダム統計理論の再構成である。 実際、密度作用素は古典的な確率論や統計学における確率分布関数と似た役割を果たす。 しかし、古典理論における確率分布関数の使用は、直感的に十分明確に見える前提に基づいている。 量子論においては、作用素の状況は非可換性の性質のため異なる。 この差を利用して、量子推定理論は古典的な資源では不可能な超精密測定を実現することを目的としている。 本論では,古典的推定理論の基本原理について概説した。 次に、解析を量子推定理論に拡張する。 量子力学の非可換性のため、QFIと対応するQCRBの異なる族を証明できる。 これらの境界を比較し,単一パラメータおよびマルチパラメータ推定ケースにおけるアクセシビリティについて検討した。 また、HCRBをマルチパラメータ推定プロトコルに適した最も情報性の高い代替として導入する。 光の量子状態が実際に最もアクセスしやすいため、これらの種類の量子状態の定式化で量子推定理論を研究した。 完全一般性を用いて、ガウス状態の第一モーメントと第二モーメントの観点から量子推定理論を定式化する。 さらに,ガウス量子資源の利用の背景にあるモチベーションと,現実的な雑音下での標準量子限界に到達する利点について考察する。 本研究では,量子ガウスの絡み合った状態を利用して,ノイズの多いガウス環境下での変位パラメータを推定する手法を提案し,解析する。

Quantum estimation theory is a reformulation of random statistical theory with the modern language of quantum mechanics. In fact, the density operator plays a role similar to that of probability distribution functions in classical probability theory and statistics. However, the use of the probability distribution functions in classical theories is founded on premises that seem intuitively clear enough. Whereas in quantum theory, the situation with operators is different due to its non-commutativity nature. By exploiting this difference, quantum estimation theory aims to attain ultra-measurement precision that would otherwise be impossible with classical resources. In this thesis, we reviewed all the fundamental principles of classical estimation theory. Next, we extend our analysis to quantum estimation theory. Due to the non-commutativity of quantum mechanics, we prove the different families of QFIs and the corresponding QCRBs. We compared these bounds and discussed their accessibility in the single-parameter and multiparameter estimation cases. We also introduce HCRB as the most informative alternative bound suitable for multiparameter estimation protocols. Since the quantum state of light is the most accessible in practice, we studied the quantum estimation theory with the formalism of these types of quantum states. We formulate, with complete generality, the quantum estimation theory for Gaussian states in terms of their first and second moments. Furthermore, we address the motivation behind using Gaussian quantum resources and their advantages in reaching the standard quantum limits under realistic noise. In this context, we propose and analyze a measurement scheme that aims to exploit quantum Gaussian entangled states to estimate the displacement parameters under a noisy Gaussian environment.
翻訳日:2023-01-18 07:28:11 公開日:2022-11-13
# ケイリーグラフ上の量子と人口のダイナミクス

Quantum versus Population Dynamics over Cayley Graphs ( http://arxiv.org/abs/2211.06928v1 )

ライセンス: Link先を確認
Emil Prodan(参考訳) 頂点が同一の物体によってポピュレーションされるグラフと、頂点に置かれる物体の数を時間的に変化させるアルゴリズムを考える。 これらの物体の離散力学は、単純で安価な実験室の設定を用いて観察および研究することができる。 多くの類似点があるが、そのような人口動態と同じグラフ上の粒子ホッピングの量子力学には多くの違いがある。 本研究では,元のグラフの特定の装飾により,人口モデルと量子力学の正確なマッピングが可能になることを示す。 このように、グラフ上の人口動態は量子効果をシミュレートできる古典的なプラットフォームである。 この主張を実証するためにいくつかの例が用いられる。

Consider a graph whose vertices are populated by identical objects, together with an algorithm for the time-evolution of the number of objects placed at each of the vertices. The discrete dynamics of these objects can be observed and studied using simple and inexpensive laboratory settings. There are many similarities but also many differences between such population dynamics and the quantum dynamics of a particle hopping on the same graph. In this work, we show that a specific decoration of the original graph enables an exact mapping between the models of population and quantum dynamics. As such, population dynamics over graphs is yet another classical platform that can simulate quantum effects. Several examples are used to demonstrate this claim.
翻訳日:2023-01-18 07:27:51 公開日:2022-11-13
# 化学結合の分光理論の単純な炭化水素への応用

Applications of the Spectral Theory of Chemical Bonding to Simple Hydrocarbons ( http://arxiv.org/abs/2211.06923v1 )

ライセンス: Link先を確認
Jeffrey D. Mills (Air Force Research Lab., Edwards AFB CA)(参考訳) 化学結合のスペクトル理論の有限ベイシス対定式化を簡潔に検討した。 ボルン=オッペンハイマー多原子ハミルトニアンの電子交換における完全に非対称な解は、従来の二原子溶液から構築された集合行列の対角化から得られる。 ペアワイズ反対称性基底で計算された「オールのオン」を合成する際の基底の変換の遷移と対称直交化の特異性について述べる。 水素と1つの炭素原子を含む分子に応用される。 従来の軌道基底の結果は実験および高レベルの理論結果と比較される。 化学価は尊重され、多原子状態における微妙な角効果が再現される。 原子状態基底のサイズを減らし、固定基底サイズに対する二原子記述の忠実度を向上し、より大きな多原子分子への適用を可能にするという意味で、今後のイニシアチブや展望とともに概説される。

The finite-basis, pair formulation of the Spectral Theory of chemical bonding is briefly surveyed. Solutions of the Born-Oppenheimer polyatomic Hamiltonian totally antisymmetric in electron exchange are obtained from diagonalization of an aggregate matrix built up from conventional diatomic solutions to atom-localized problems. A succession of transformations of the bases of the underlying matrices and the unique character of symmetric orthogonalization in producing the archived matrices calculated "once-of-all" in the pairwise-antisymmetrized basis are described. Application is made to molecules containing hydrogens and a single carbon atom. Results in conventional orbital bases are given and compared to experimental and high-level theoretical results. Chemical valence is shown to be respected and subtle angular effects in polyatomic contexts are reproduced. Means of reducing the size of the atomic-state basis and improve the fidelity of the diatomic descriptions for fixed basis size, so as to enable application to larger polyatomic molecules, is outlined along with future initiatives and prospects.
翻訳日:2023-01-18 07:27:42 公開日:2022-11-13
# 効率的な量子シークレット共有のための拡張CSSコードの統合

Concatenating Extended CSS Codes for Communication Efficient Quantum Secret Sharing ( http://arxiv.org/abs/2211.06910v1 )

ライセンス: Link先を確認
Kaushik Senthoor and Pradeep Kiran Sarvepalli(参考訳) 近年、通信効率の高い量子閾値秘密共有スキーム(ce-qts)と呼ばれる量子秘密共有スキームが導入された。 これらのスキームは秘密回復時の通信コストを削減した。 本稿では、閾値と非thresholdスキームの両方を含む、通信効率の高い量子秘密共有スキーム(ce-qss)の一般クラスを提案する。 本稿では,CE-QSS方式を階段のコードに基づくCE-QTS方式の初期構成を一般化するためのフレームワークを提案する。 このフレームワークの主なコンポーネントは、拡張されたcalderbank-shor-steane符号と呼ばれる量子コードのクラスです。 これらの拡張CSSコードは、他のアプリケーションを持つことができる。 我々はCE-QSS方式の通信コストに縛られる。 最後に,提案フレームワークを用いて,この制約を満たすCE-QSSスキームの構築を行う。

Recently, a class of quantum secret sharing schemes called communication efficient quantum threshold secret sharing schemes (CE-QTS) was introduced. These schemes reduced the communication cost during secret recovery. In this paper, we introduce a general class of communication efficient quantum secret sharing schemes (CE-QSS) which include both threshold and non-threshold schemes. We propose a framework for constructing CE-QSS schemes to generalize the earlier construction of CE-QTS schemes which was based on the staircase codes. The main component in this framework is a class of quantum codes which we call the extended Calderbank-Shor-Steane codes. These extended CSS codes could have other applications. We derive a bound on communication cost for CE-QSS schemes. Finally, we provide a construction of CE-QSS schemes meeting this bound using the proposed framework.
翻訳日:2023-01-18 07:27:27 公開日:2022-11-13
# 相対論的vqeアルゴリズムによる光および中程度の重分子の分子電気双極子モーメントの計算

Calculation of molecular electric dipole moments of light and moderately heavy molecules using relativistic VQE algorithm ( http://arxiv.org/abs/2211.06907v1 )

ライセンス: Link先を確認
Kasturi Ranjan Swain, V. S. Prasannaa, Kenji Sugisaki, B. P. Das(参考訳) 量子古典的ハイブリッド変分量子固有解法(VQE)アルゴリズムは、ノイズ中間スケール量子時代の量子多体系の基底状態エネルギーを得るのに最も適した手法であると考えられている。 本研究では, vqeアルゴリズムを相対論的手法に拡張し, 基底状態エネルギーを得るための量子シミュレーションを行うとともに, 単価二原子分子の分子永久電気双極子モーメントを得る。

The quantum-classical hybrid Variational Quantum Eigensolver (VQE) algorithm is recognized to be the most suitable approach to obtain ground state energies of quantum many-body systems in the Noisy Intermediate Scale Quantum era. In this work, we extend the VQE algorithm to the relativistic regime and carry out quantum simulations to obtain ground state energies as well as molecular permanent electric dipole moments of single-valence diatomic molecules, which include light and moderately heavy systems.
翻訳日:2023-01-18 07:27:16 公開日:2022-11-13
# 多変量時系列分析による新聞記事からの企業ESG評価

Predicting Companies' ESG Ratings from News Articles Using Multivariate Timeseries Analysis ( http://arxiv.org/abs/2212.11765v1 )

ライセンス: Link先を確認
Tanja Aue, Adam Jatowt, Michael F\"arber(参考訳) 企業における環境・社会・ガバナンス(ESG)の関与は、近年公共の注目を集めている。 義務報告の要求が実施され、投資家が投資決定に持続可能性を導入することにより、透明で信頼性の高いESGレーティングの需要が高まっている。 しかし,ESG評価の自動評価手法は,その重要性が増しているにもかかわらず,極めて少ない。 本稿では,多変量時系列構築と深層学習技術を組み合わせて,ニュース記事からESG評価を予測するモデルを構築した。 約3000社の米国企業のニュースデータセットとレーティングも作成され、トレーニング用にリリースされている。 実験により,本手法は最先端技術よりも正確な結果を提供し,手動によるESG評価の判定や分析を支援するために実際に使用できることがわかった。

Environmental, social and governance (ESG) engagement of companies moved into the focus of public attention over recent years. With the requirements of compulsory reporting being implemented and investors incorporating sustainability in their investment decisions, the demand for transparent and reliable ESG ratings is increasing. However, automatic approaches for forecasting ESG ratings have been quite scarce despite the increasing importance of the topic. In this paper, we build a model to predict ESG ratings from news articles using the combination of multivariate timeseries construction and deep learning techniques. A news dataset for about 3,000 US companies together with their ratings is also created and released for training. Through the experimental evaluation we find out that our approach provides accurate results outperforming the state-of-the-art, and can be used in practice to support a manual determination or analysis of ESG ratings.
翻訳日:2023-01-18 06:44:14 公開日:2022-11-13
# 意味画像合成のためのコントラスト学習を用いたエッジ誘導gan

Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis ( http://arxiv.org/abs/2003.13898v2 )

ライセンス: Link先を確認
Hao Tang, Xiaojuan Qi, Guolei Sun, Dan Xu, Nicu Sebe, Radu Timofte, Luc Van Gool(参考訳) 本稿では,コントラスト学習(ECGAN)を用いた新たなエッジガイド生成対向ネットワークを提案する。 かなりの改善が達成されているが、合成画像の品質は3つの大きな未解決課題のために満足には程遠い。 1) セマンティックラベルは詳細な構造情報を提供しておらず, 局所的な詳細や構造を合成することが困難である。 2) 畳み込み, ダウンサンプリング, 正規化などの広く採用されているCNN操作は, 通常空間分解能の喪失を引き起こすため, 本来の意味情報を完全保存できないため, 意味的に矛盾する結果(例えば, 小さいオブジェクトの欠落)が生じる。 3)既存のセマンティック画像合成手法は,単一入力セマンティックレイアウトから「ローカル」セマンティック情報をモデル化することに焦点を当てている。 しかし、複数の入力セマンティックレイアウト、すなわち異なる入力レイアウトにわたるピクセル間のセマンティックな相互関係の「グローバル」な情報を無視している。 1)に取り組むために,提案する注意誘導型エッジ転送モジュールによる画像生成のガイドとして,edgeを中間表現として用いることを提案する。 エッジ情報は畳み込み発生器によって生成され、詳細な構造情報を導入する。 2)に取り組むために,意味情報を保存するために,クラス依存の機能マップを本来の意味レイアウトに従って選択的にハイライトする効果的なモジュールを設計した。 コントラスト学習における現在の手法に着想を得て,同じセマンティッククラスに属する画素埋め込みを強制し,異なるクラスに属するものよりも類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。 これにより、複数の入力セマンティックレイアウトからラベル付きピクセルの構造を明示的に探索することで、よりセマンティックな関係を捉えることができる。

We propose a novel edge guided generative adversarial network with contrastive learning (ECGAN) for the challenging semantic image synthesis task. Although considerable improvement has been achieved, the quality of synthesized images is far from satisfactory due to three largely unresolved challenges. 1) The semantic labels do not provide detailed structural information, making it difficult to synthesize local details and structures. 2) The widely adopted CNN operations such as convolution, down-sampling, and normalization usually cause spatial resolution loss and thus cannot fully preserve the original semantic information, leading to semantically inconsistent results (e.g., missing small objects). 3) Existing semantic image synthesis methods focus on modeling `local' semantic information from a single input semantic layout. However, they ignore `global' semantic information of multiple input semantic layouts, i.e., semantic cross-relations between pixels across different input layouts. To tackle 1), we propose to use edge as an intermediate representation which is further adopted to guide image generation via a proposed attention guided edge transfer module. Edge information is produced by a convolutional generator and introduces detailed structure information. To tackle 2), we design an effective module to selectively highlight class-dependent feature maps according to the original semantic layout to preserve the semantic information. To tackle 3), inspired by current methods in contrastive learning, we propose a novel contrastive learning method, which aims to enforce pixel embeddings belonging to the same semantic class to generate more similar image content than those from different classes. By doing so, it can capture more semantic relations by explicitly exploring the structures of labeled pixels from multiple input semantic layouts.
翻訳日:2022-12-18 00:38:57 公開日:2022-11-13
# スパイキングニューラルネットワークを用いた医療データ解析の展望

Review of medical data analysis based on spiking neural networks ( http://arxiv.org/abs/2212.02234v1 )

ライセンス: Link先を確認
X. Li (1), L. Wang (1), D. Zhao (2 and 3) (the X. Zhang, X. Yi, D. Liu, H. Wang, B. Zhang Collaboration) ((1) China University of Petroleum, Beijing,(2) Institute of Computing Technology, Chinese Academy of Sciences)(参考訳) 医療データは主に様々な生体信号や医用画像を含み、医師は医療データを通じて患者の体調を判断することができる。 しかし、医療データの解釈には多くの労力が必要であり、誤解される可能性があるため、多くの研究者がニューラルネットワークとディープラーニングを使って医療データの分類と研究を行い、医師の作業効率と正確性を改善し、疾患の早期発見と早期診断を達成し、幅広い応用可能性を持っている。 しかし、従来のニューラルネットワークは、高いエネルギー消費と高いレイテンシ(低い計算速度)といった欠点がある。 本稿では,脳波(EEG),心電図(ECG),筋電図(EMG),磁気共鳴画像(MRI)などの医学データを用いて,近年の第3世代ニューラルネットワークを用いた信号分類と疾患診断に関する研究を行い,従来のネットワークと比較してパルスニューラルネットワークの利点と欠点を概説し,今後の発展方向を期待する。

Medical data mainly includes various biomedical signals and medical images, and doctors can make judgments on the physical condition of patients through medical data. However, the interpretation of medical data requires a lot of labor costs and may be misjudged, so many scholars use neural networks and deep learning to classify and study medical data, thereby improving doctors' work efficiency and accuracy, achieving early detection of diseases and early diagnosis, so it has a wide range of application prospects. However, traditional neural networks have disadvantages such as high energy consumption and high latency (slow calculation speed). This paper introduces the research on signal classification and disease diagnosis based on the third-generation neural network - pulse neural network in recent years, using medical data, such as electroencephalogram (EEG), electrocardiogram (ECG), electromyography (EMG), magnetic resonance imaging (MRI), etc., summarizes the advantages and disadvantages of pulse neural networks compared with traditional networks, and looks forward to the future development direction.
翻訳日:2022-12-11 13:09:08 公開日:2022-11-13
# 文レベルの手話認識フレームワーク

Sentence-Level Sign Language Recognition Framework ( http://arxiv.org/abs/2211.14447v1 )

ライセンス: Link先を確認
Atra Akandeh(参考訳) 文レベルSLRに対する2つの解を提案する。 文レベルSLRは手話文の動画をグロスラベルのシーケンスにマッピングする必要がある。 Connectionist Temporal Classification (CTC) は、両方のモデルの分類レベルとして使用されている。 CTCは、文を個々の単語にプリセグメンテーションするのを避けるために使用される。 第1モデルはLRCNベースのモデルであり、第2モデルはMulti-Cue Networkである。 LRCNは、LSTMに入力する前に、各フレームに特徴抽出器としてのCNNを適用するモデルである。 最初のアプローチでは、事前の知識は活用されていない。 生フレームは、CTCを上にした18層LCCNに供給される。 第2のアプローチでは、各サインに関連する3つの主要な特徴(手形、手の位置、手の動き情報)をMediapipeを用いて抽出した。 手形の2Dランドマークは手の骨格を作るために使われ、その後CONV-LSTMモデルに供給される。 頭部との相対距離としての手の位置と手の位置は別個のLSTMに供給される。 3つの情報源はすべてctc分類層を持つマルチキューネットワークに統合されている。 我々は,RWTH-PHOENIX-Weatherを用いた提案モデルの性能評価を行った。 特徴マップ数,入力サイズ,バッチサイズ,シーケンス長,LSTMメモリセル,正規化,ドロップアウトなどのモデルハイパーパラメータを過剰に探索した後,35ワード誤り率(WER)を達成できた。

We present two solutions to sentence-level SLR. Sentence-level SLR required mapping videos of sign language sentences to sequences of gloss labels. Connectionist Temporal Classification (CTC) has been used as the classifier level of both models. CTC is used to avoid pre-segmenting the sentences into individual words. The first model is an LRCN-based model, and the second model is a Multi-Cue Network. LRCN is a model in which a CNN as a feature extractor is applied to each frame before feeding them into an LSTM. In the first approach, no prior knowledge has been leveraged. Raw frames are fed into an 18-layer LRCN with a CTC on top. In the second approach, three main characteristics (hand shape, hand position, and hand movement information) associated with each sign have been extracted using Mediapipe. 2D landmarks of hand shape have been used to create the skeleton of the hands and then are fed to a CONV-LSTM model. Hand locations and hand positions as relative distance to head are fed to separate LSTMs. All three sources of information have been then integrated into a Multi-Cue network with a CTC classification layer. We evaluated the performance of proposed models on RWTH-PHOENIX-Weather. After performing an excessive search on model hyper-parameters such as the number of feature maps, input size, batch size, sequence length, LSTM memory cell, regularization, and dropout, we were able to achieve 35 Word Error Rate (WER).
翻訳日:2022-12-04 14:42:56 公開日:2022-11-13
# トランスファー学習を用いた手話からテキストへのリアルタイム変換

Sign Language to Text Conversion in Real Time using Transfer Learning ( http://arxiv.org/abs/2211.14446v1 )

ライセンス: Link先を確認
Shubham Thakar, Samveg Shah, Bhavya Shah, Anant V. Nimkar(参考訳) 聴覚障害者はコミュニケーション上の多くの障害に直面しており、インタプリタは人が言っていることを理解する必要がある。 科学的研究は絶え間なく行われており、既存のモデルは正確な予測を行う能力に欠けていた。 そこで我々は,ASL(American Sign Language)で訓練された深層学習モデルを提案する。 畳み込みニューラルネットワークに基づくVGG16アーキテクチャを実現するために、画像分類のためのTensorFlowモデルが使用され、後者の精度を4%以上改善した。 精度はCNNの94%からTransfer Learningの98.7%に改善されている。 ディープラーニングモデルを統合したアプリケーションも構築されている。

The people in the world who are hearing impaired face many obstacles in communication and require an interpreter to comprehend what a person is saying. There has been constant scientific research and the existing models lack the ability to make accurate predictions. So we propose a deep learning model trained on the ASL i.e. American Sign Language which will take action in the form of American Sign Language as input and translate it into text. To achieve the former a Convolution Neural Network based VGG16 architecture is used as well as a TensorFlow model for image classification and we have improved the accuracy of the latter by over 4%. There has been an improvement in accuracy from 94% of CNN to 98.7% by Transfer Learning. An application with the deep learning model integrated has also been built.
翻訳日:2022-12-04 14:41:56 公開日:2022-11-13
# TIER-A:情報抽出のための学習フレームワーク

TIER-A: Denoising Learning Framework for Information Extraction ( http://arxiv.org/abs/2211.11527v1 )

ライセンス: Link先を確認
Yongkang Li, Ming Zhang(参考訳) 深層ニューラルネットワークモデルの開発により,近年,情報抽出において大きな進歩を遂げている。 しかし、ディープラーニングモデルはノイズの多いデータポイントに過度に適合し、パフォーマンスが低下する。 本研究では,オーバーフィッティングプロセスにおける情報エントロピーの役割を考察し,オーバーフィッティングが過剰な自信とエントロピーの減少の過程であることを示す。 本研究では, 温度校正と情報エントロピー正規化を併用した簡易かつ効果的な協調学習フレームワークTIER-A, Aggregation Joint-training Frameworkを提案する。 私たちのフレームワークは、同じ構造を持つ複数のニューラルモデルで構成されています。 これらのモデルは協調的に訓練され、温度と情報エントロピーの正規化を導入することで過剰フィッティングを避ける。 広く使われているがノイズの多い2つのデータセットであるTACREDとCoNLL03の大規模な実験は、我々の仮定の正しさとフレームワークの有効性を実証している。

With the development of deep neural language models, great progress has been made in information extraction recently. However, deep learning models often overfit on noisy data points, leading to poor performance. In this work, we examine the role of information entropy in the overfitting process and draw a key insight that overfitting is a process of overconfidence and entropy decreasing. Motivated by such properties, we propose a simple yet effective co-regularization joint-training framework TIER-A, Aggregation Joint-training Framework with Temperature Calibration and Information Entropy Regularization. Our framework consists of several neural models with identical structures. These models are jointly trained and we avoid overfitting by introducing temperature and information entropy regularization. Extensive experiments on two widely-used but noisy datasets, TACRED and CoNLL03, demonstrate the correctness of our assumption and the effectiveness of our framework.
翻訳日:2022-11-27 13:28:00 公開日:2022-11-13
# マルチエージェントリーグトレーニングによる異種エージェント協調学習

Learning Heterogeneous Agent Cooperation via Multiagent League Training ( http://arxiv.org/abs/2211.11616v1 )

ライセンス: Link先を確認
Qingxu Fu, Xiaolin Ai, Jianqiang Yi, Tenghai Qiu, Wanmai Yuan, Zhiqiang Pu(参考訳) 現実世界の多くのマルチエージェントシステムは、異なる能力と機能を持つ複数のタイプのエージェントを含んでいる。 このような異質なマルチエージェントシステムには、大きな実用的利点がある。 しかし、それらはまた、非定常問題やポリシーバージョン反復問題のようなマルチエージェント強化学習のための均質なシステムと比較される。 本研究ではヘテロジニアス・リーグ・トレーニング(HLT)と呼ばれる汎用強化学習アルゴリズムを提案する。 hltは、エージェントがトレーニング中に検討したポリシーのプールを追跡し、将来のポリシー最適化を促進するために異種ポリシーのリーグを収集する。 さらに、異なるレベルの協力スキルを持つチームメイトとコラボレーションする際のエージェント行動の多様性を高めるためにハイパーネットワークが導入された。 我々は,(1)HLTが協調的不均一なタスクの成功率を促進すること,(2)HLTは政策バージョン反復問題の解決に有効なアプローチであること,(3)HLTは異種チームにおける各役割の学習の困難さを評価するための実践的な方法を提供する。

Many multiagent systems in the real world include multiple types of agents with different abilities and functionality. Such heterogeneous multiagent systems have significant practical advantages. However, they also come with challenges compared with homogeneous systems for multiagent reinforcement learning, such as the non-stationary problem and the policy version iteration issue. This work proposes a general-purpose reinforcement learning algorithm named as Heterogeneous League Training (HLT) to address heterogeneous multiagent problems. HLT keeps track of a pool of policies that agents have explored during training, gathering a league of heterogeneous policies to facilitate future policy optimization. Moreover, a hyper-network is introduced to increase the diversity of agent behaviors when collaborating with teammates having different levels of cooperation skills. We use heterogeneous benchmark tasks to demonstrate that (1) HLT promotes the success rate in cooperative heterogeneous tasks; (2) HLT is an effective approach to solving the policy version iteration problem; (3) HLT provides a practical way to assess the difficulty of learning each role in a heterogeneous team.
翻訳日:2022-11-27 13:27:42 公開日:2022-11-13
# タイト線形近似を用いた畳み込みニューラルネットワークのロバスト性証明

Certifying Robustness of Convolutional Neural Networks with Tight Linear Approximation ( http://arxiv.org/abs/2211.09810v1 )

ライセンス: Link先を確認
Yuan Xiao, Tongtong Bai, Mingzheng Gu, Chunrong Fang, Zhenyu Chen(参考訳) ニューラルネットワーク分類器のロバスト性は、安全臨界領域において重要になり、ロバスト性検証によって定量化できる。 しかし、現時点では効率的でスケーラブルな検証技術は常に健全だが不完全である。 したがって、ロバスト性検証手法の優位性を評価する上で、認定ロバスト性境界の改善が重要な基準である。 本稿では,畳み込みニューラルネットワーク(Ti-Lin)のロバスト性検証のためのタイト線形近似手法を提案する。 一般のCNNでは,S字型アクティベーション関数に対する線形制約が新たに提供され,既存のニューロンワイドタイトツールとネットワークワイドタイトツールより優れている。 次に,maxpool関数に対するニューロン方向の最も厳密な線形境界を提案する。 検証手法であるti-linを実装した。 MNIST、CIFAR-10、Tiny ImageNetデータセットで訓練された48種類のCNNで評価した。 実験の結果,Ti-Linは他の5つの最先端手法(CNN-Cert,DeepPoly,DeepCert,VeriNet,Newise)よりも優れていた。 具体的には、Ti-Lin は Sigmoid/Tanh/Arctan 関数を持つ純粋な CNN と Maxpooling 関数を持つ CNN の 63.70% と 253.54% の改善により、より正確な堅牢性境界を証明している。

The robustness of neural network classifiers is becoming important in the safety-critical domain and can be quantified by robustness verification. However, at present, efficient and scalable verification techniques are always sound but incomplete. Therefore, the improvement of certified robustness bounds is the key criterion to evaluate the superiority of robustness verification approaches. In this paper, we present a Tight Linear approximation approach for robustness verification of Convolutional Neural Networks(Ti-Lin). For general CNNs, we first provide a new linear constraints for S-shaped activation functions, which is better than both existing Neuron-wise Tightest and Network-wise Tightest tools. We then propose Neuron-wise Tightest linear bounds for Maxpool function. We implement Ti-Lin, the resulting verification method. We evaluate it with 48 different CNNs trained on MNIST, CIFAR-10, and Tiny ImageNet datasets. Experimental results show that Ti-Lin significantly outperforms other five state-of-the-art methods(CNN-Cert, DeepPoly, DeepCert, VeriNet, Newise). Concretely, Ti-Lin certifies much more precise robustness bounds on pure CNNs with Sigmoid/Tanh/Arctan functions and CNNs with Maxpooling function with at most 63.70% and 253.54% improvement, respectively.
翻訳日:2022-11-27 13:27:24 公開日:2022-11-13
# ネイティブ広告における変換に基づく動的Creative-Optimization

Conversion-Based Dynamic-Creative-Optimization in Native Advertising ( http://arxiv.org/abs/2211.11524v1 )

ライセンス: Link先を確認
Yohay Kaplan, Yair Koren, Alex Shtoff, Tomer Shadi, Oren Somekh(参考訳) yahoo geminiネイティブ広告マーケットプレイスは、毎日数十億回のインプレッションを、数億人のユニークユーザーに対して提供し、数十億のusdの年間売上に達する。 広告(ad)イベント確率を予測するためのgeminiネイティブモデル(変換やクリックなど)は、機能強化コラボレーティブ・フィルタ(cf)ベースのイベント予測アルゴリズムを相殺する。 予測された確率はgeminiネイティブオークションで、サービングイベント(インプレッション)ごとにどの広告を表示するかを決定するために使用される。 動的クリエイティブ最適化(DCO)は、最近2年前にローンチされ、広告主から注目を集めているGeminiネイティブ製品だ。 DCO製品は、広告主が各ネイティブ広告属性ごとに複数のアセットを発行し、各DCO広告に複数の組み合わせを作成することを可能にする。 異なる組み合わせが異なる群衆にアピールする可能性があるため、広告主とユーザーを満足させながら収益を最大化するために、特定の組み合わせを他のものよりも頻繁に提示することは有益である。 DCOの最初のオファーはクリックスルーレート(CTR)を最適化することだったが、市場がコンバージョンベースのキャンペーンにシフトするにつれ、広告主は {conversion based Solution(変換ベースのソリューション)も求めている。 この要求を満たすため,提案手法では,予測変換率(CVR)に応じてDCO広告の組み合わせが好まれる。 この予測は、補助オフセットに基づくcvr予測モデルによって提供され、提供時間中にdco広告レンダリングのための組合せ分布を生成するために使用される。 GeminiネイティブなDCOトラフィックを提供するオンラインバケットA/Bテストを通じて、この探索・探索ソリューションのオンライン評価では、すべての組み合わせをランダムに使用するコントロールバケットと比較して53.5%のCVRリフトを示した。

Yahoo Gemini native advertising marketplace serves billions of impressions daily, to hundreds millions of unique users, and reaches a yearly revenue of many hundreds of millions USDs. Powering Gemini native models for predicting advertise (ad) event probabilities, such as conversions and clicks, is OFFSET - a feature enhanced collaborative-filtering (CF) based event prediction algorithm. The predicted probabilities are then used in Gemini native auctions to determine which ads to present for every serving event (impression). Dynamic creative optimization (DCO) is a recent Gemini native product that was launched two years ago and is increasingly gaining more attention from advertisers. The DCO product enables advertisers to issue several assets per each native ad attribute, creating multiple combinations for each DCO ad. Since different combinations may appeal to different crowds, it may be beneficial to present certain combinations more frequently than others to maximize revenue while keeping advertisers and users satisfied. The initial DCO offer was to optimize click-through rates (CTR), however as the marketplace shifts more towards conversion based campaigns, advertisers also ask for a {conversion based solution. To accommodate this request, we present a post-auction solution, where DCO ads combinations are favored according to their predicted conversion rate (CVR). The predictions are provided by an auxiliary OFFSET based combination CVR prediction model, and used to generate the combination distributions for DCO ad rendering during serving time. An online evaluation of this explore-exploit solution, via online bucket A/B testing, serving Gemini native DCO traffic, showed a 53.5% CVR lift, when compared to a control bucket serving all combinations uniformly at random.
翻訳日:2022-11-27 13:26:30 公開日:2022-11-13
# ループ検出器データを用いた交通予測のためのGC-GRU-N

GC-GRU-N for Traffic Prediction using Loop Detector Data ( http://arxiv.org/abs/2211.08541v1 )

ライセンス: Link先を確認
Maged Shoman, Armstrong Aboah, Abdulateef Daud, Yaw Adu-Gyamfi(参考訳) 交通特性は確率的非線形時空間依存性を示すため,交通予測は難しい課題である。 本稿では,重要な時空間的特徴を抽出するグラフ畳み込みゲート再帰ユニット(GC GRU N)ネットワークを開発する。 シアトルのループ検出データを使って 15分以上蓄積した 空間と時間で問題を再構築する モデル性能は、履歴平均、Long Short Term Memory (LSTM)、Transformerというベンチマークモデルと比較される。 提案したモデルは,最速の推論時間と非常に近い性能(トランスフォーマー)で2位にランクインした。 私たちのモデルは、トランスフォーマーよりも6倍速い実行時間を実現しています。 最後に、トレーニング時間、推論時間、MAPE、MAE、RMSEなどの指標を用いて、モデルと利用可能なベンチマークを比較した。 トレーニングされた各モデルに対して、時間的および時間的側面も分析される。

Because traffic characteristics display stochastic nonlinear spatiotemporal dependencies, traffic prediction is a challenging task. In this paper develop a graph convolution gated recurrent unit (GC GRU N) network to extract the essential Spatio temporal features. we use Seattle loop detector data aggregated over 15 minutes and reframe the problem through space and time. The model performance is compared o benchmark models; Historical Average, Long Short Term Memory (LSTM), and Transformers. The proposed model ranked second with the fastest inference time and a very close performance to first place (Transformers). Our model also achieves a running time that is six times faster than transformers. Finally, we present a comparative study of our model and the available benchmarks using metrics such as training time, inference time, MAPE, MAE and RMSE. Spatial and temporal aspects are also analyzed for each of the trained models.
翻訳日:2022-11-17 16:16:07 公開日:2022-11-13
# 条件付き変分オートエンコーダによる規範的モデリングとアルツハイマー病における脳機能障害の同定

Normative Modeling via Conditional Variational Autoencoder and Adversarial Learning to Identify Brain Dysfunction in Alzheimer's Disease ( http://arxiv.org/abs/2211.08982v1 )

ライセンス: Link先を確認
Xuetong Wang, Kanhao Zhao, Rong Zhou, Alex Leow, Ricardo Osorio, Yu Zhang, Lifang He(参考訳) 規範的モデリングは、個々の参加者における障害の多様性を効果的に研究するための、新しくて有望なアプローチである。 本研究では,アルツハイマー病(AD)の脳機能障害を同定するために,条件付き変分オートエンコーダと対向学習(ACVAE)を組み合わせた新しい規範的モデリング手法を提案する。 具体的には、まず、健康管理(hc)グループで条件的vaeを訓練し、年齢、性別、頭蓋内容積などの共変量に基づく規範モデルを作成する。 次に,非知覚データに対してより一般化可能な識別的特徴空間を構築するために,敵対的訓練プロセスを導入する。 最後に,患者レベルでの正常基準からの偏差を計算し,どの脳領域がADと関連しているかを判定した。 OASIS-3データベースを用いた実験により,本モデルが生成する偏差マップは,他の深部規範モデルよりもADに対する感度が高く,AD群とHC群との差異をよりよく識別できることが示された。

Normative modeling is an emerging and promising approach to effectively study disorder heterogeneity in individual participants. In this study, we propose a novel normative modeling method by combining conditional variational autoencoder with adversarial learning (ACVAE) to identify brain dysfunction in Alzheimer's Disease (AD). Specifically, we first train a conditional VAE on the healthy control (HC) group to create a normative model conditioned on covariates like age, gender and intracranial volume. Then we incorporate an adversarial training process to construct a discriminative feature space that can better generalize to unseen data. Finally, we compute deviations from the normal criterion at the patient level to determine which brain regions were associated with AD. Our experiments on OASIS-3 database show that the deviation maps generated by our model exhibit higher sensitivity to AD compared to other deep normative models, and are able to better identify differences between the AD and HC groups.
翻訳日:2022-11-17 14:27:25 公開日:2022-11-13
# VGFlow: 可視性誘導型リポジショニングのためのフローネットワーク

VGFlow: Visibility guided Flow Network for Human Reposing ( http://arxiv.org/abs/2211.08540v1 )

ライセンス: Link先を確認
Rishabh Jain, Krishna Kumar Singh, Mayur Hemani, Jingwan Lu, Mausooom Sarkar, Duygu Ceylan, Balaji Krishnamurthy(参考訳) 人間の再現のタスクは、任意の知覚可能なポーズで立っている人の現実的なイメージを生成することである。 知覚的に正確な画像を生成するには複数の困難があり、既存の方法はテクスチャの保存、パターンコヒーレンス維持、布の境界の尊重、オクルージョンの扱い、皮膚生成の操作などの制限に悩まされている。 これらの困難は、人間のポーズ指向の可能な空間が大きくて可変であり、衣料品の性質は非常に非剛性であり、身体形状の多様性は人口によって大きく異なるという事実によってさらに悪化する。 これらの困難を緩和し、知覚的精度の高い画像を合成するために、VGFlowを提案する。 本モデルでは,視認性制御フローモジュールを用いて,ターゲットの可視・視認性を分離し,テクスチャ保存とスタイル操作を同時に行う。 さらに,異なる体型に取り組み,ネットワークアーティファクトを回避するために,自己教師付きパッチワイズによる「リアルネス」損失を取り入れ,出力を改善する。 VGFlowは、画像品質の指標(SSIM、LPIPS、FID)の質的、定量的に観察される最先端の結果を達成する。

The task of human reposing involves generating a realistic image of a person standing in an arbitrary conceivable pose. There are multiple difficulties in generating perceptually accurate images, and existing methods suffer from limitations in preserving texture, maintaining pattern coherence, respecting cloth boundaries, handling occlusions, manipulating skin generation, etc. These difficulties are further exacerbated by the fact that the possible space of pose orientation for humans is large and variable, the nature of clothing items is highly non-rigid, and the diversity in body shape differs largely among the population. To alleviate these difficulties and synthesize perceptually accurate images, we propose VGFlow. Our model uses a visibility-guided flow module to disentangle the flow into visible and invisible parts of the target for simultaneous texture preservation and style manipulation. Furthermore, to tackle distinct body shapes and avoid network artifacts, we also incorporate a self-supervised patch-wise "realness" loss to improve the output. VGFlow achieves state-of-the-art results as observed qualitatively and quantitatively on different image quality metrics (SSIM, LPIPS, FID).
翻訳日:2022-11-17 14:01:52 公開日:2022-11-13
# 視覚トランスフォーマーにおける自己着脱 : 意味論的視点からの解析と応用

Demystify Self-Attention in Vision Transformers from a Semantic Perspective: Analysis and Application ( http://arxiv.org/abs/2211.08543v1 )

ライセンス: Link先を確認
Leijie Wu, Song Guo, Yaohong Ding, Junxiao Wang, Wenchao Xu, Richard Yida Xu and Jie Zhang(参考訳) 自己アテンション機構、特にマルチヘッド自己アテンション(MSA)はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。 しかし、既存の視覚変換器(ViT)の多くは、単にNLPから固有のトランスフォーマー設計を施して視覚タスクを適応させ、"画像と言語設定におけるMSAの動作方法"の根本的な違いを無視している。 言語は自然に、人間が直接解釈できる高度に意味的な構造を含んでいる。 基本単位(単語)は冗長な情報を持たない離散であり、言語トランスフォーマーのMSA機構の解釈可能な研究を支援する。 基本単位(ピクセル)は、近隣で重要な冗長性を持つ自然な低レベル表現であり、ViTにおけるMSA機構の解釈可能性に明らかな課題を生じさせる。 本稿では,低レベル表現を中間レベル空間にマッピングし,意味的に豊かな情報で広範囲な離散キーポイントを注釈する,SIFT(Scale-invariant feature transforms)という典型的な画像処理手法を提案する。 次に,siftキーポイントに基づく重み付きパッチ相互関係解析を行い,異なる意味的濃度のパッチに隠された注意パターンを捉える。 1)モデル推論における散発的相関発見と'prompting'' 2)および誘導モデル事前学習加速度。 両応用実験の結果, ベースラインよりも有意な優位性を示し, 提案手法の有効性を実証した。

Self-attention mechanisms, especially multi-head self-attention (MSA), have achieved great success in many fields such as computer vision and natural language processing. However, many existing vision transformer (ViT) works simply inherent transformer designs from NLP to adapt vision tasks, while ignoring the fundamental difference between ``how MSA works in image and language settings''. Language naturally contains highly semantic structures that are directly interpretable by humans. Its basic unit (word) is discrete without redundant information, which readily supports interpretable studies on MSA mechanisms of language transformer. In contrast, visual data exhibits a fundamentally different structure: Its basic unit (pixel) is a natural low-level representation with significant redundancies in the neighbourhood, which poses obvious challenges to the interpretability of MSA mechanism in ViT. In this paper, we introduce a typical image processing technique, i.e., scale-invariant feature transforms (SIFTs), which maps low-level representations into mid-level spaces, and annotates extensive discrete keypoints with semantically rich information. Next, we construct a weighted patch interrelation analysis based on SIFT keypoints to capture the attention patterns hidden in patches with different semantic concentrations Interestingly, we find this quantitative analysis is not only an effective complement to the interpretability of MSA mechanisms in ViT, but can also be applied to 1) spurious correlation discovery and ``prompting'' during model inference, 2) and guided model pre-training acceleration. Experimental results on both applications show significant advantages over baselines, demonstrating the efficacy of our method.
翻訳日:2022-11-17 13:53:47 公開日:2022-11-13
# 少数/ゼロショット学習に基づく視覚意味セグメンテーション:概要

Visual Semantic Segmentation Based on Few/Zero-Shot Learning: An Overview ( http://arxiv.org/abs/2211.08352v1 )

ライセンス: Link先を確認
Wenqi Ren, Yang Tang, Qiyu Sun, Chaoqiang Zhao, Qing-Long Han(参考訳) ビジュアルセマンティックセグメンテーションは、視覚サンプルを特定のセマンティック属性を持つ多様なブロックに分割し、各ブロックのカテゴリを特定することを目的としており、環境認識において重要な役割を果たす。 従来の学習に基づく視覚的セマンティックセグメンテーションアプローチは、密集したアノテーションを持つ大規模トレーニングデータに大きく依存する。 この障害は、少数/ゼロショット学習の助けを借りて、視覚的セマンティックセグメンテーションの研究の急激な動きを引き起こす。 少数/ゼロショットの視覚的セマンティックセグメンテーションの出現と急速な進歩により、ラベル付きまたはゼロラベル付きサンプルから未知のカテゴリを学習することが可能になり、実用的な応用へと拡張が進む。 そこで本研究では,最近発表された2次元空間から3次元空間まで多様な視覚的セマンティックセグメンテーション手法に注目し,セグメンテーションの異なる状況下での技術的解決の共通性と相違について検討する。 具体的には、問題定義、典型的なデータセット、技術的改善を含む、ほとんどゼロショットの視覚的セマンティクスセグメンテーションの予備を簡潔にレビューし、議論する。 さらに、画像意味セグメンテーション、ビデオオブジェクトセグメンテーション、および3dセグメンテーションを含む、視覚意味セグメンテーションを含む、少数/ゼロショット学習のインタラクションを明らかにするために、3つの典型的なインスタンス化が関与している。 最後に,視覚的セマンティックセグメンテーションの課題について述べる。

Visual semantic segmentation aims at separating a visual sample into diverse blocks with specific semantic attributes and identifying the category for each block, and it plays a crucial role in environmental perception. Conventional learning-based visual semantic segmentation approaches count heavily on large-scale training data with dense annotations and consistently fail to estimate accurate semantic labels for unseen categories. This obstruction spurs a craze for studying visual semantic segmentation with the assistance of few/zero-shot learning. The emergence and rapid progress of few/zero-shot visual semantic segmentation make it possible to learn unseen-category from a few labeled or zero-labeled samples, which advances the extension to practical applications. Therefore, this paper focuses on the recently published few/zero-shot visual semantic segmentation methods varying from 2D to 3D space and explores the commonalities and discrepancies of technical settlements under different segmentation circumstances. Specifically, the preliminaries on few/zero-shot visual semantic segmentation, including the problem definitions, typical datasets, and technical remedies, are briefly reviewed and discussed. Moreover, three typical instantiations are involved to uncover the interactions of few/zero-shot learning with visual semantic segmentation, including image semantic segmentation, video object segmentation, and 3D segmentation. Finally, the future challenges of few/zero-shot visual semantic segmentation are discussed.
翻訳日:2022-11-16 15:20:49 公開日:2022-11-13
# 一般に再利用可能なエージェント環境相互作用モデルの構築

Build generally reusable agent-environment interaction models ( http://arxiv.org/abs/2211.08234v1 )

ライセンス: Link先を確認
Jun Jin, Hongming Zhang, Jun Luo(参考訳) 本稿では,モデル事前学習の問題に取り組み,ダウンストリームタスク学習のためのバックボーンを一般に再利用する。 事前学習において,様々なタスクをカバーするエージェントの膨大な経験からドメイン不変な後継特徴を学習してエージェント環境相互作用モデルを構築し,それらを動作プロトタイプに識別することで,具体的設定構造を実現する手法を提案する。 下流タスク学習に汎用的に再利用可能なモデルとして,(1)新しいタスクの観測・動作ペアを具体化集合構造に投影し,(2)新しいタスク設定に学習可塑性を付加したベルマン更新を投影し,先行知識を保持する具体化特徴投影法を提案する。 本研究では,事前学習した組立構造に基づく下流タスク学習が課題目標,環境力学,センサのモダリティの未確認変化を処理可能であることを示す。

This paper tackles the problem of how to pre-train a model and make it generally reusable backbones for downstream task learning. In pre-training, we propose a method that builds an agent-environment interaction model by learning domain invariant successor features from the agent's vast experiences covering various tasks, then discretize them into behavior prototypes which result in an embodied set structure. To make the model generally reusable for downstream task learning, we propose (1) embodied feature projection that retains previous knowledge by projecting the new task's observation-action pair to the embodied set structure and (2) projected Bellman updates which add learning plasticity for the new task setting. We provide preliminary results that show downstream task learning based on a pre-trained embodied set structure can handle unseen changes in task objectives, environmental dynamics and sensor modalities.
翻訳日:2022-11-16 13:43:10 公開日:2022-11-13
# HigeNet: AIOpsにおける時系列時系列予測のための高効率モデリング

HigeNet: A Highly Efficient Modeling for Long Sequence Time Series Prediction in AIOps ( http://arxiv.org/abs/2211.07642v1 )

ライセンス: Link先を確認
Jiajia Li, Feng Tan, Cheng He, Zikai Wang, Haitao Song, Lingfei Wu, Pengwei Hu(参考訳) 現代のITシステムは、システムソフトウェアとハードウェアメトリクスの統合を必要とする。 その結果、大量のデータを生成し、データ駆動の運用上の決定に使用できる可能性がある。 基本的な形式では、決定モデルはcpu使用率、割り当てられたメモリ、ディスク、ネットワーク遅延など、多数のマシンデータを監視し、パフォーマンス低下を防止するためにシステムメトリクスを予測する必要がある。 しかし、このシナリオで効果的な予測モデルを構築することは、多変量時間系列(MTS)における長距離結合依存性を正確に捉える必要があるため、かなり難しい。 さらに、このモデルは計算の複雑さが低く、利用可能なデータの次元に効率的にスケールできる必要がある。 本稿では,HigeNetという高効率モデルを提案し,時系列時系列の予測を行う。 D-matrixプラットフォームでの運用にHigeNetをデプロイしました。 また、いくつかの公開データセットのオフライン評価や、モデルの有効性を示すオンラインデータセットも提供しています。 広範な実験により、トレーニング時間、リソース使用量、モデルの正確性は、5つの最先端の競合モデルよりもはるかに優れていることが判明した。

Modern IT system operation demands the integration of system software and hardware metrics. As a result, it generates a massive amount of data, which can be potentially used to make data-driven operational decisions. In the basic form, the decision model needs to monitor a large set of machine data, such as CPU utilization, allocated memory, disk and network latency, and predicts the system metrics to prevent performance degradation. Nevertheless, building an effective prediction model in this scenario is rather challenging as the model has to accurately capture the long-range coupling dependency in the Multivariate Time-Series (MTS). Moreover, this model needs to have low computational complexity and can scale efficiently to the dimension of data available. In this paper, we propose a highly efficient model named HigeNet to predict the long-time sequence time series. We have deployed the HigeNet on production in the D-matrix platform. We also provide offline evaluations on several publicly available datasets as well as one online dataset to demonstrate the model's efficacy. The extensive experiments show that training time, resource usage and accuracy of the model are found to be significantly better than five state-of-the-art competing models.
翻訳日:2022-11-16 13:23:27 公開日:2022-11-13
# 糖尿病予測のためのIoT-Edge-Artificial Intelligence-Blockchainモニタリングシステム

Secure and Privacy-Preserving Automated End-to-End Integrated IoT-Edge-Artificial Intelligence-Blockchain Monitoring System for Diabetes Mellitus Prediction ( http://arxiv.org/abs/2211.07643v1 )

ライセンス: Link先を確認
Leila Ismail, Alain Hennebelle, Huned Materwala, Juma Al Kaabi, Priya Ranjan, Rajiv Janardhanan(参考訳) 糖尿病は世界中で死因の1つであり、現在まで治療法がなく、治療を受けていない場合は網膜症、手足切断、心血管疾患、神経疾患などの重篤な合併症を引き起こす可能性がある。 したがって、糖尿病の発生を回避・予測するための予防措置を講じることが不可欠となる。 糖尿病予測のための文献に機械学習アプローチが提案され,評価されている。 本稿では,危険因子に基づく糖尿病予測のためのIoT-edge-Artificial Intelligence (AI)-blockchainシステムを提案する。 提案システムはブロックチェーンによって支えられ、異なる病院の患者からリスクファクターデータの密集したビューを取得し、ユーザデータのセキュリティとプライバシを確保する。 さらに, 医療用センサ, デバイス, およびシステム内のリスク因子値を測定・収集する手法の比較分析を行った。 最も正確なランダムフォレスト(rf)モデルを用いた数値実験と,3つの実生活糖尿病データセットを用いた2つの最先端機械学習手法であるロジスティック回帰(lr)とサポートベクターマシン(svm)の比較分析を行った。 その結果,RFを用いたシステムは,LRやSVMと比較して平均4.57%の精度で糖尿病を予測し,実行時間が2.87倍であることがわかった。 機能選択のないデータバランシングでは、大きな改善はない。 PIMA Indian と Sylhet のデータセットの特徴選択後、パフォーマンスは 1.14% と 0.02% 改善され、MIMIC III では 0.89% 向上した。

Diabetes Mellitus, one of the leading causes of death worldwide, has no cure till date and can lead to severe health complications, such as retinopathy, limb amputation, cardiovascular diseases, and neuronal disease, if left untreated. Consequently, it becomes crucial to take precautionary measures to avoid/predict the occurrence of diabetes. Machine learning approaches have been proposed and evaluated in the literature for diabetes prediction. This paper proposes an IoT-edge-Artificial Intelligence (AI)-blockchain system for diabetes prediction based on risk factors. The proposed system is underpinned by the blockchain to obtain a cohesive view of the risk factors data from patients across different hospitals and to ensure security and privacy of the user data. Furthermore, we provide a comparative analysis of different medical sensors, devices, and methods to measure and collect the risk factors values in the system. Numerical experiments and comparative analysis were carried out between our proposed system, using the most accurate random forest (RF) model, and the two most used state-of-the-art machine learning approaches, Logistic Regression (LR) and Support Vector Machine (SVM), using three real-life diabetes datasets. The results show that the proposed system using RF predicts diabetes with 4.57% more accuracy on average compared to LR and SVM, with 2.87 times more execution time. Data balancing without feature selection does not show significant improvement. The performance is improved by 1.14% and 0.02% after feature selection for PIMA Indian and Sylhet datasets respectively, while it reduces by 0.89% for MIMIC III.
翻訳日:2022-11-16 13:23:10 公開日:2022-11-13
# FullPack: 汎用CPUにおけるサブバイト量子化推論のための完全ベクトル利用

FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on General Purpose CPUs ( http://arxiv.org/abs/2211.06982v1 )

ライセンス: Link先を確認
Hossein Katebi, Navidreza Asadi, Maziar Goudarzi(参考訳) 従来の技術では、サブバイトの量子化 -- 重みやアクティベーションが8ビット未満で表現される -- は無視可能な精度低下を示しているが、CPUの一般的なSIMD命令はこれらのデータ型をネイティブにサポートしていない。 ULPPACKのような最近の手法では、ベクトル単位を持つ汎用CPUのサブバイト量子化が既に行われているが、操作中に近隣のCPUへのオーバーフローを避けるために、メモリとベクトルレジスタのサブバイト値の間に空のビットがいくつか残されている。 その結果、メモリフットプリントと帯域幅使用効率が低下し、性能が低下する。 本稿では,メモリ内のすべてのビットと実際のデータのベクトルレジスタを利用するサブバイト(4ビット,2ビット,または1ビット)モデルを格納するためのメモリレイアウトと機構について述べる。 GEMV(GEneral Matrix-Vector multiplication)演算の計算カーネルを,異なるデータ型(例えば,8ビットのアクティベーションと4ビットの重み)の重みとアクティベーションに割り当てる。 評価のために、TFLiteパッケージを拡張し、それに追加し、サイクル精度の gem5シミュレータ上でモデルを実行し、各メソッドの詳細なメモリとCPUサイクルを比較した。 GEMLOWP、Ruy、XNNPack、ULPPACKなど、プロダクションで積極的に使われている9つのメソッドを比較した。 さらに,提案手法の性能に及ぼす深層学習層の入力と出力の異なるサイズの影響について検討した。 実験の結果、小型では0.96-2.1x、中型から大型では1.2-6.7xのスピードアップが見られた。 本提案は,実世界の音声認識モデルであるmozilla deepspeechに適用し,ビット幅に応じて,最先端に比べて1.56-2.11倍のエンドツーエンド高速化を実現することを実証した。

Although prior art has demonstrated negligible accuracy drop in sub-byte quantization -- where weights and/or activations are represented by less than 8 bits -- popular SIMD instructions of CPUs do not natively support these datatypes. While recent methods, such as ULPPACK, are already using sub-byte quantization on general-purpose CPUs with vector units, they leave out several empty bits between the sub-byte values in memory and in vector registers to avoid overflow to the neighbours during the operations. This results in memory footprint and bandwidth-usage inefficiencies and suboptimal performance. In this paper, we present memory layouts for storing, and mechanisms for processing sub-byte (4-, 2-, or 1-bit) models that utilize all the bits in the memory as well as in the vector registers for the actual data. We provide compute kernels for the proposed layout for the GEMV (GEneral Matrix-Vector multiplication) operations between weights and activations of different datatypes (e.g., 8-bit activations and 4-bit weights). For evaluation, we extended the TFLite package and added our methods to it, then ran the models on the cycle-accurate gem5 simulator to compare detailed memory and CPU cycles of each method. We compare against nine other methods that are actively used in production including GEMLOWP, Ruy, XNNPack, and ULPPACK. Furthermore, we explore the effect of different input and output sizes of deep learning layers on the performance of our proposed method. Experimental results show 0.96-2.1x speedup for small sizes and 1.2-6.7x speedup for mid to large sizes. Applying our proposal to a real-world speech recognition model, Mozilla DeepSpeech, we proved that our method achieves 1.56-2.11x end-to-end speedup compared to the state-of-the-art, depending on the bit-width employed.
翻訳日:2022-11-15 21:34:12 公開日:2022-11-13
# ロボット協調のための拡張現実の可視化

Learning Visualization Policies of Augmented Reality for Human-Robot Collaboration ( http://arxiv.org/abs/2211.07028v1 )

ライセンス: Link先を確認
Kishan Chandan, Jack Albertson, Shiqi Zhang(参考訳) 人間とロボットのコラボレーション領域では、拡張現実(AR)技術により、ロボットの状態を視覚化することができる。 現在のARベースの可視化ポリシーは手作業で設計されており、多くの人的努力とドメイン知識が必要です。 情報が可視化されすぎると、人間ユーザはarインターフェースが役に立たないことに気付く。 本稿では、ARエージェントがデモから可視化ポリシー(何、いつ、どのように視覚化するか)を学習できるようにするVARILと呼ばれるフレームワークを開発する。 私たちは、人間とロボットのチームメイトがデリバリタスクで協力する倉庫環境をシミュレートするUnityベースのプラットフォームを作りました。 ロボットの現在および計画された振る舞いを視覚化するデモを含むデータセットを収集した。 実際の人間の被験者による実験の結果、文献の競争ベースラインと比較すると、学習した可視化戦略は人間のロボットチームの効率を著しく向上し、ユーザーの気晴らしレベルを低下させます。 VARILは、組み込みのモックウェアハウスで実証されている。

In human-robot collaboration domains, augmented reality (AR) technologies have enabled people to visualize the state of robots. Current AR-based visualization policies are designed manually, which requires a lot of human efforts and domain knowledge. When too little information is visualized, human users find the AR interface not useful; when too much information is visualized, they find it difficult to process the visualized information. In this paper, we develop a framework, called VARIL, that enables AR agents to learn visualization policies (what to visualize, when, and how) from demonstrations. We created a Unity-based platform for simulating warehouse environments where human-robot teammates collaborate on delivery tasks. We have collected a dataset that includes demonstrations of visualizing robots' current and planned behaviors. Results from experiments with real human participants show that, compared with competitive baselines from the literature, our learned visualization strategies significantly increase the efficiency of human-robot teams, while reducing the distraction level of human users. VARIL has been demonstrated in a built-in-lab mock warehouse.
翻訳日:2022-11-15 21:33:31 公開日:2022-11-13
# 微分的にプライベートな垂直フェデレート学習

Differentially Private Vertical Federated Learning ( http://arxiv.org/abs/2211.06782v1 )

ライセンス: Link先を確認
Thilina Ranbaduge and Ming Ding(参考訳) 成功した機械学習(ml)アルゴリズムは、しばしば高品質なモデルを訓練するために大量のデータに依存する。 ディープラーニング技術などの教師付き学習アプローチは、リアルタイムアプリケーションのための高品質なML関数を生成するが、大きなコストとトレーニングデータのラベル付けに人的努力が伴う。 連邦学習(FL)の最近の進歩により、複数のデータ所有者や組織が、生データを共有することなく、機械学習モデルを協調的にトレーニングすることができる。 この点において、垂直FLは、参加する組織が垂直に分割されたデータを持つ場合、組織がグローバルモデルを構築することを可能にする。 さらに、垂直fl設定では、参加組織は通常、データを直接共有するよりもリソースを少なくし、軽量でスケーラブルな分散トレーニングソリューションを実現する。 しかし、中間出力の通信とモデル更新の勾配のため、垂直FLにおけるプライバシー保護は困難である。 これにより、悪意のあるエンティティは、他の組織にデータを推測するように促される。 そこで本稿では,差分プライバシー(dp)設定において,個々の組織データのプライバシを保護する方法について検討する。 さまざまな実世界のデータセットとDP予算で実験を行います。 実験結果から,垂直FL性能とプライバシー保護のバランスをとるためには,摂動騒音の量の観点からトレードオフ点を求める必要があることがわかった。

A successful machine learning (ML) algorithm often relies on a large amount of high-quality data to train well-performed models. Supervised learning approaches, such as deep learning techniques, generate high-quality ML functions for real-life applications, however with large costs and human efforts to label training data. Recent advancements in federated learning (FL) allow multiple data owners or organisations to collaboratively train a machine learning model without sharing raw data. In this light, vertical FL allows organisations to build a global model when the participating organisations have vertically partitioned data. Further, in the vertical FL setting the participating organisation generally requires fewer resources compared to sharing data directly, enabling lightweight and scalable distributed training solutions. However, privacy protection in vertical FL is challenging due to the communication of intermediate outputs and the gradients of model update. This invites adversary entities to infer other organisations underlying data. Thus, in this paper, we aim to explore how to protect the privacy of individual organisation data in a differential privacy (DP) setting. We run experiments with different real-world datasets and DP budgets. Our experimental results show that a trade-off point needs to be found to achieve a balance between the vertical FL performance and privacy protection in terms of the amount of perturbation noise.
翻訳日:2022-11-15 20:40:07 公開日:2022-11-13
# EdnaML: 再現可能なディープラーニングのための宣言型APIとフレームワーク

EdnaML: A Declarative API and Framework for Reproducible Deep Learning ( http://arxiv.org/abs/2211.06783v1 )

ライセンス: Link先を確認
Abhijit Suprem, Sanjyot Vaidya, Avinash Venugopal, Joao Eduardo Ferreira, and Calton Pu(参考訳) 機械学習は、テキスト、画像、ビデオ、オーディオ処理および生成における最近の進歩の基盤となっている。 ほとんどの生産システムは、デプロイとトレーニングの間に複数のモデルに対応し、それぞれが様々な調整されたハイパーパラメータを持つ。 さらに、持続可能な高品質な分類器作成の重要性から、mlパイプラインのデータ収集と処理に関する関心が高まっている。 再現可能なディープラーニングのための宣言型APIを備えたフレームワークであるEdnaMLを紹介する。 EdnaMLは、手動で構成可能な低レベルのビルディングブロックと、データ収集、データ処理、分類器のトレーニング、分類器のデプロイメント、モデル監視を自動化するための高レベルのパイプラインオーケストレーションAPIを提供する。 当社の階層APIは、高レベルのコンポーネント抽象化でMLパイプラインを管理すると同時に、ビルディングブロックを通じてその部分を変更する柔軟性を提供します。 EdnaMLによるMLパイプラインの例として,EdnaMLが管理する6つのサブパイプラインを備えた大規模フェイクニュースラベリングと分類システムを提案する。

Machine Learning has become the bedrock of recent advances in text, image, video, and audio processing and generation. Most production systems deal with several models during deployment and training, each with a variety of tuned hyperparameters. Furthermore, data collection and processing aspects of ML pipelines are receiving increasing interest due to their importance in creating sustainable high-quality classifiers. We present EdnaML, a framework with a declarative API for reproducible deep learning. EdnaML provides low-level building blocks that can be composed manually, as well as a high-level pipeline orchestration API to automate data collection, data processing, classifier training, classifier deployment, and model monitoring. Our layered API allows users to manage ML pipelines at high-level component abstractions, while providing flexibility to modify any part of it through the building blocks. We present several examples of ML pipelines with EdnaML, including a large-scale fake news labeling and classification system with six sub-pipelines managed by EdnaML.
翻訳日:2022-11-15 20:39:46 公開日:2022-11-13
# オートエンコーダとSINDyアプローチによるパラメタライズドシステムの低次モデリング:周期解の継続

Reduced order modeling of parametrized systems through autoencoders and SINDy approach: continuation of periodic solutions ( http://arxiv.org/abs/2211.06786v1 )

ライセンス: Link先を確認
Paolo Conti, Giorgio Gobat, Stefania Fresca, Andrea Manzoni, Attilio Frangi(参考訳) 偏微分方程式(PDE)によって支配される複雑な現象の高精度なシミュレーションは、典型的には侵入法や高価な計算コストを必要とするが、制御パラメータと初期条件の複数組み合わせに対するPDEの定常解の近似が禁止される。 したがって、パラメータの異なる物理現象の動的特性を維持しつつ、正確だが高速な予測を可能にする効率的な縮小順序モデル(ROM)の構築が最重要となる。 本研究では,ROM構築と動的識別の低減を組み合わせたデータ駆動型非侵入型フレームワークを提案する。 提案手法では,非線形力学のパラメトリックスパース同定(sindy)を備えたオートエンコーダニューラルネットワークを活用して,新たなパラメータインスタンスでフルタイム解を効率的に計算し,継続アルゴリズムに直接供給する低次元動的モデルを構築する。 これらの後者の目的は、システムパラメータの関数として周期的定常応答の進化を追跡し、過渡位相の計算を避け、不安定性と分岐を検出することである。 削減されたダイナミックスの明示的でパラメトリズドなモデリングを特徴とし、提案したデータ駆動フレームワークは、時間とパラメータの両方に関して、顕著な一般化能力を示す。 構造力学および流体力学問題への応用は、この手法の有効性と正確性を示す。

Highly accurate simulations of complex phenomena governed by partial differential equations (PDEs) typically require intrusive methods and entail expensive computational costs, which might become prohibitive when approximating steady-state solutions of PDEs for multiple combinations of control parameters and initial conditions. Therefore, constructing efficient reduced order models (ROMs) that enable accurate but fast predictions, while retaining the dynamical characteristics of the physical phenomenon as parameters vary, is of paramount importance. In this work, a data-driven, non-intrusive framework which combines ROM construction with reduced dynamics identification, is presented. Starting from a limited amount of full order solutions, the proposed approach leverages autoencoder neural networks with parametric sparse identification of nonlinear dynamics (SINDy) to construct a low-dimensional dynamical model which can be queried to efficiently compute full-time solutions at new parameter instances, as well as directly fed to continuation algorithms. These latter aim at tracking the evolution of periodic steady-state responses as functions of system parameters, avoiding the computation of the transient phase, and allowing to detect instabilities and bifurcations. Featuring an explicit and parametrized modeling of the reduced dynamics, the proposed data-driven framework presents remarkable capabilities to generalize both with respect to time and parameters. Applications to structural mechanics and fluid dynamics problems illustrate the effectiveness and accuracy of the method.
翻訳日:2022-11-15 20:39:29 公開日:2022-11-13
# 超高感度視覚型触覚センサと拡張残差ネットワークを用いた大腸癌ポリープのピットパターン分類

Pit-Pattern Classification of Colorectal Cancer Polyps Using a Hyper Sensitive Vision-Based Tactile Sensor and Dilated Residual Networks ( http://arxiv.org/abs/2211.06814v1 )

ライセンス: Link先を確認
Nethra Venkatayogi, Qin Hu, Ozdemir Can Kara, Tarunraj G. Mohanraj, S. Farokh Atashzar, Farshid Alambeigi(参考訳) 本研究では,大腸癌(CRC)ポリープの早期発見ミス率を低減することを目的として,HySenSeと呼ばれる新しい高感度視覚ベースの触覚センサと,拡張畳み込みの可能性を探求する補完的かつ新しい機械学習(ML)アーキテクチャ,ResNetアーキテクチャの利点,数百の画像規模の小さなデータセットに適用される転写学習の概念を提案する。 提案した触覚センサは,CRCポリプの高分解能な3次元テクスチャ画像を提供する。 MLモデルをトレーニングし,その性能を評価するために, CRCポリプの現実的な表面パターンを収集するために, 4つの異なる硬さからなる160個のユニークなポリプファントムを設計し, 付加的に製造した。 次に、提案されたアーキテクチャは最先端のMLモデル(AlexNetやDenseNetなど)と比較され、性能と複雑さの点で優れていることが判明した。

In this study, with the goal of reducing the early detection miss rate of colorectal cancer (CRC) polyps, we propose utilizing a novel hyper-sensitive vision-based tactile sensor called HySenSe and a complementary and novel machine learning (ML) architecture that explores the potentials of utilizing dilated convolutions, the beneficial features of the ResNet architecture, and the transfer learning concept applied on a small dataset with the scale of hundreds of images. The proposed tactile sensor provides high-resolution 3D textural images of CRC polyps that will be used for their accurate classification via the proposed dilated residual network. To collect realistic surface patterns of CRC polyps for training the ML models and evaluating their performance, we first designed and additively manufactured 160 unique realistic polyp phantoms consisting of 4 different hardness. Next, the proposed architecture was compared with the state-of-the-art ML models (e.g., AlexNet and DenseNet) and proved to be superior in terms of performance and complexity.
翻訳日:2022-11-15 20:39:03 公開日:2022-11-13
# OverFlow: より優れたTSのためのニューラルトランスデューサの上にフローを置く

OverFlow: Putting flows on top of neural transducers for better TTS ( http://arxiv.org/abs/2211.06892v1 )

ライセンス: Link先を確認
Shivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) ニューラルHMMは、最近テキストから音声へのシーケンスモデリングのために提案されたニューラルトランスデューサの一種である。 従来の統計音声合成と現代のニューラルTSの最良の特徴を組み合わせることで、データが少なくなり、トレーニングの更新も少なくなり、ニューラルアテンション障害によるジブベリの出力が低下する。 本稿では,音声音響の非ガウス分布を記述するために,ニューラルhmm ttと正規化流れを組み合わせた。 その結果、時間と音響の強力で完全に確率的なモデルとなり、最大限の精度で訓練することができる。 本手法は,フローベース音響モデルと比較して,発話レベル韻律などの長距離依存モデルの改善に自己回帰を取り入れている。 実験により,本提案に基づくシステムは,ニューラルhmmの本来のアドバンテージを保ちつつ,より正確な発音と主観的品質を両立することを示す。 オーディオサンプルとコードはhttps://shivammehta25.github.io/overflow/で入手できる。

Neural HMMs are a type of neural transducer recently proposed for sequence-to-sequence modelling in text-to-speech. They combine the best features of classic statistical speech synthesis and modern neural TTS, requiring less data and fewer training updates, and are less prone to gibberish output caused by neural attention failures. In this paper, we combine neural HMM TTS with normalising flows for describing the highly non-Gaussian distribution of speech acoustics. The result is a powerful, fully probabilistic model of durations and acoustics that can be trained using exact maximum likelihood. Compared to dominant flow-based acoustic models, our approach integrates autoregression for improved modelling of long-range dependences such as utterance-level prosody. Experiments show that a system based on our proposal gives more accurate pronunciations and better subjective speech quality than comparable methods, whilst retaining the original advantages of neural HMMs. Audio examples and code are available at https://shivammehta25.github.io/OverFlow/
翻訳日:2022-11-15 20:38:41 公開日:2022-11-13
# 市民科学ラベルを用いた深層学習による長期太陽系外惑星の発見

Discovering Long-period Exoplanets using Deep Learning with Citizen Science Labels ( http://arxiv.org/abs/2211.06903v1 )

ライセンス: Link先を確認
Shreshth A. Malik, Nora L. Eisner, Chris J. Lintott, Yarin Gal(参考訳) 惑星のトランジットの自動検出は、現代の遠隔調査の規模から専門家分析の候補を優先するために欠かせないものとなっている。 現在の短周期外惑星検出法は、光曲線の周期性によって効果的に機能するが、単一トランジット事象を検出するための堅牢なアプローチは存在しない。 しかし、最近Planet Hunters TESS(PHT)プロジェクトによって収集されたボランティアによるトランジットは、長周期の太陽系外惑星検出に対するデータ駆動のアプローチを調査する前例のない機会となっている。 本研究では、1次元畳み込みニューラルネットワークを訓練し、PHTボランティアスコアをトレーニングデータとして惑星移動を分類する。 ボランティアスコアを用いることで、合成データよりもパフォーマンスが大幅に向上し、既知の惑星を精度よく回収し、ボランティアと一致させることができる。 重要な点として、このモデルはボランティアが発見した交通手段を復元するが、現在の自動化手法では見逃している。

Automated planetary transit detection has become vital to prioritize candidates for expert analysis given the scale of modern telescopic surveys. While current methods for short-period exoplanet detection work effectively due to periodicity in the light curves, there lacks a robust approach for detecting single-transit events. However, volunteer-labelled transits recently collected by the Planet Hunters TESS (PHT) project now provide an unprecedented opportunity to investigate a data-driven approach to long-period exoplanet detection. In this work, we train a 1-D convolutional neural network to classify planetary transits using PHT volunteer scores as training data. We find using volunteer scores significantly improves performance over synthetic data, and enables the recovery of known planets at a precision and rate matching that of the volunteers. Importantly, the model also recovers transits found by volunteers but missed by current automated methods.
翻訳日:2022-11-15 20:38:25 公開日:2022-11-13
# 弱教師付きエンティティマッチングのための地中真理推定

Ground Truth Inference for Weakly Supervised Entity Matching ( http://arxiv.org/abs/2211.06975v1 )

ライセンス: Link先を確認
Renzhi Wu, Alexander Bendeck, Xu Chu, Yeye He(参考訳) エンティティマッチング(EM)は、1つ以上のリレーショナルテーブルにおいて、実世界の同じエンティティを参照するデータレコードのペアを識別する問題を指す。 Supervised Machine Learning (ML)モデルは、現在最先端のマッチング性能を達成しているが、多くのラベル付き例を必要とする。 これは、弱い監督力を使ってEMのデータラベリングにアプローチするきっかけとなった。 特に,Snorkelによって一般化されたラベル関数の抽象化では,各ラベル関数(LF)がユーザが提供するプログラムであり,ノイズの多いマッチ/非マッチラベルを迅速かつ安価に生成することができる。 ユーザ記述lfのセットが与えられた場合、データラベリングの品質はラベルモデルに依存し、接地ラベルを正確に推測する。 本稿では,まず,一般的な弱監督タスクに対して,単純かつ強力なラベル付けモデルを提案する。 次に、EM固有の推移特性を考慮して、エンティティマッチングのタスクに特化してラベルモデルを調整する。 当社のラベリングモデルの一般的な形式は単純で、10の一般的な弱い監督データセットで最高の既存メソッドを実質的に上回っています。 EMのラベリングモデルを調整するために,ラベリングモデルの最終予測がEMに必要な推移性を満たすことを保証するためのアプローチを定式化する。 2つのシングルテーブルおよび9つの2テーブル実世界のEMデータセットにおいて、我々のラベル付けモデルにより、最高の既存手法よりも平均9%高いF1スコアが得られることを示す。 また、我々の弱監督アプローチから生成されたラベルに基づいて訓練されたディープラーニングEMエンドモデル(DeepMatcher)が、何万もの地下構造ラベルを用いて訓練されたエンドモデルに匹敵することを示した。

Entity matching (EM) refers to the problem of identifying pairs of data records in one or more relational tables that refer to the same entity in the real world. Supervised machine learning (ML) models currently achieve state-of-the-art matching performance; however, they require many labeled examples, which are often expensive or infeasible to obtain. This has inspired us to approach data labeling for EM using weak supervision. In particular, we use the labeling function abstraction popularized by Snorkel, where each labeling function (LF) is a user-provided program that can generate many noisy match/non-match labels quickly and cheaply. Given a set of user-written LFs, the quality of data labeling depends on a labeling model to accurately infer the ground-truth labels. In this work, we first propose a simple but powerful labeling model for general weak supervision tasks. Then, we tailor the labeling model specifically to the task of entity matching by considering the EM-specific transitivity property. The general form of our labeling model is simple while substantially outperforming the best existing method across ten general weak supervision datasets. To tailor the labeling model for EM, we formulate an approach to ensure that the final predictions of the labeling model satisfy the transitivity property required in EM, utilizing an exact solution where possible and an ML-based approximation in remaining cases. On two single-table and nine two-table real-world EM datasets, we show that our labeling model results in a 9% higher F1 score on average than the best existing method. We also show that a deep learning EM end model (DeepMatcher) trained on labels generated from our weak supervision approach is comparable to an end model trained using tens of thousands of ground-truth labels, demonstrating that our approach can significantly reduce the labeling efforts required in EM.
翻訳日:2022-11-15 20:13:19 公開日:2022-11-13
# 動的完全符号付きグラフに対するオンライン相関クラスタリング

Online Correlation Clustering for Dynamic Complete Signed Graphs ( http://arxiv.org/abs/2211.07000v1 )

ライセンス: Link先を確認
Ali Shakiba(参考訳) 完全符号付きグラフの相関クラスタリング問題では、入力は$+1$(このペアを同じクラスタに配置することを推奨する)または$-1$(このペアの頂点を別々のクラスタに配置することを推奨する)の重み付けのある完全符号付きグラフであり、ターゲットは、これらの推奨との不一致の数を最小化するような頂点の集合をクラスタ化することである。 本稿では,(1)頂点の追加や削除が可能であり,(2)エッジの符号をフリップできる動的完全符号グラフの相関クラスタリングの問題について考察する。 提案手法では,[calm+21]における相関クラスタリングのためのオフライン近似アルゴリズムを用いる。 著者の知識によると、このアルゴリズムは動的グラフのための最初のオンラインアルゴリズムであり、完全なグラフ編集操作を可能にする。 提案手法は,各時間ステップで元のオフラインアルゴリズムを実行するベースライン法と比較し,厳密に解析した。 その結果, 動的演算は隣接する頂点に局所的影響があることを示し, この局所性を用いてベースラインにおけるランニング時間の依存性を, グラフ編集操作を時間ステップ$t$で適用した後のグラフ, 変化する頂点の次数(エッジの2つのエンドポイントなど)と前回の時間ステップにおけるクラスタ数の和に換算した上で, G_t$で全ての頂点の次数の和を求める。 さらに、必要なワーキングメモリは、グラフ内の頂点の総数ではなく、修正されたエッジエンドポイントの次数の総和に還元される。

In the correlation clustering problem for complete signed graphs, the input is a complete signed graph with edges weighted as $+1$ (denote recommendation to put this pair in the same cluster) or $-1$ (recommending to put this pair of vertices in separate clusters) and the target is to cluster the set of vertices such that the number of disagreements with these recommendations is minimized. In this paper, we consider the problem of correlation clustering for dynamic complete signed graphs where (1) a vertex can be added or deleted, and (2) the sign of an edge can be flipped. In the proposed online scheme, the offline approximation algorithm in [CALM+21] for correlation clustering is used. Up to the author's knowledge, this is the first online algorithm for dynamic graphs which allows a full set of graph editing operations. The proposed approach is rigorously analyzed and compared with a baseline method, which runs the original offline algorithm on each time step. Our results show that the dynamic operations have local effects on the neighboring vertices and we employ this locality to reduce the dependency of the running time in the Baseline to the summation of the degree of all vertices in $G_t$, the graph after applying the graph edit operation at time step $t$, to the summation of the degree of the changing vertices (e.g. two endpoints of an edge) and the number of clusters in the previous time step. Moreover, the required working memory is reduced to the square of the summation of the degree of the modified edge endpoints rather than the total number of vertices in the graph.
翻訳日:2022-11-15 20:12:45 公開日:2022-11-13
# 不均一データの一貫した表現に基づく薬物標的親和性予測法

Drug-target affinity prediction method based on consistent expression of heterogeneous data ( http://arxiv.org/abs/2211.06792v1 )

ライセンス: Link先を確認
Boyuan Liu(参考訳) 創薬の最初のステップは、特定の標的に対する薬効を有する薬物分子の運動を見つけることである。 したがって、薬物標的タンパク質と小さな化学分子の相互作用を調べることが重要である。 しかしながら、潜在的に小さな薬物分子を発見するための従来の実験方法は、労働集約的で時間を要する。 現在、薬物分子関連データベースを用いて小さな薬物分子をスクリーニングする計算モデルの構築に多くの関心がある。 本稿では,深層学習モデルを用いた薬物-標的結合親和性予測手法を提案する。 本発明の方法は、GRUおよびGNNを用いて、医薬品標的タンパク質配列と薬物分子マップからそれぞれ特徴を抽出し、特徴ベクトルを得る。 組み合わせたベクターは、薬物標的分子対のベクター表現として使われ、薬物標的結合親和性を予測するために完全に連結されたネットワークに供給される。 本モデルでは,DAVISおよびKIBAデータセット上での薬物-標的結合親和性予測の精度と有効性を示す。

The first step in drug discovery is finding drug molecule moieties with medicinal activity against specific targets. Therefore, it is crucial to investigate the interaction between drug-target proteins and small chemical molecules. However, traditional experimental methods for discovering potential small drug molecules are labor-intensive and time-consuming. There is currently a lot of interest in building computational models to screen small drug molecules using drug molecule-related databases. In this paper, we propose a method for predicting drug-target binding affinity using deep learning models. This method uses a modified GRU and GNN to extract features from the drug-target protein sequences and the drug molecule map, respectively, to obtain their feature vectors. The combined vectors are used as vector representations of drug-target molecule pairs and then fed into a fully connected network to predict drug-target binding affinity. This proposed model demonstrates its accuracy and effectiveness in predicting drug-target binding affinity on the DAVIS and KIBA datasets.
翻訳日:2022-11-15 20:03:20 公開日:2022-11-13
# 強化学習による重み付きサンプリングによる完全動的グラフストリームの高精度サブグラフ計測

Reinforcement Learning Enhanced Weighted Sampling for Accurate Subgraph Counting on Fully Dynamic Graph Streams ( http://arxiv.org/abs/2211.06793v1 )

ライセンス: Link先を確認
Kaixin Wang, Cheng Long, Da Yan, Jie Zhang, H. V. Jagadish(参考訳) グラフデータの人気が高まるにつれ、様々なアプリケーションにおいて、関心のあるサブグラフパターンの発生をカウントする必要性が高まっている。 多くのグラフは大規模であり、(エッジの挿入や削除を含む)完全に動的であり、これらの数値の正確な計算は不可能である。 一般的なプラクティスは、小さなエッジセットをサンプルとして使用してカウントを見積もることである。 完全動的グラフの既存のサンプリングアルゴリズムは、一様確率でエッジをサンプリングする。 本稿では,それぞれの特性に基づいてエッジをサンプリングすれば,より優れた処理ができることを示す。 具体的には,全動的グラフストリームにおける部分グラフ数を推定するためのwsdと呼ばれる重み付きサンプリングアルゴリズムを提案する。 本研究では,強化学習に基づく新しい手法を用いて,エッジの重み付けをデータ駆動方式で決定する。 我々は,既存のアルゴリズムと比較して高速に動作しながら,誤差を小さくして推定できることを示すため,広範囲な実験を行った。

As the popularity of graph data increases, there is a growing need to count the occurrences of subgraph patterns of interest, for a variety of applications. Many graphs are massive in scale and also fully dynamic (with insertions and deletions of edges), rendering exact computation of these counts to be infeasible. Common practice is, instead, to use a small set of edges as a sample to estimate the counts. Existing sampling algorithms for fully dynamic graphs sample the edges with uniform probability. In this paper, we show that we can do much better if we sample edges based on their individual properties. Specifically, we propose a weighted sampling algorithm called WSD for estimating the subgraph count in a fully dynamic graph stream, which samples the edges based on their weights that indicate their importance and reflect their properties. We determine the weights of edges in a data-driven fashion, using a novel method based on reinforcement learning. We conduct extensive experiments to verify that our technique can produce estimates with smaller errors while often running faster compared with existing algorithms.
翻訳日:2022-11-15 20:03:03 公開日:2022-11-13
# マルチモーダル実演による非動的模倣学習

Out-of-Dynamics Imitation Learning from Multimodal Demonstrations ( http://arxiv.org/abs/2211.06839v1 )

ライセンス: Link先を確認
Yiwen Qiu, Jialong Wu, Zhangjie Cao, Mingsheng Long(参考訳) 既存の模倣学習は、デモを収集するデモストレーターが模倣者と同じダイナミクスを共有することを主に前提としている。 しかし、この仮定は模倣学習の使用を制限し、特に模倣者に対するデモンストレーションの収集は困難である。 本稿では,実演者と模倣者が同じ状態空間を持つが,異なる動作空間とダイナミクスを持つことができるという仮定を緩和する,力学外模倣学習(ood-il)について検討する。 OOD-ILは、模倣学習によって、幅広いデモストレーターのデモを利用することができるが、新しい挑戦が導入された。 先行研究は、実現可能性の測定によってこれらのデモンストレーションをフィルタリングしようとするが、異なるデモストレーターが異なるダイナミクスで異なるポリシーをとる可能性があるため、デモがマルチモーダル分布を示すという事実を無視する。 我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。 まず、異なるモードからのデモンストレーションの相互干渉を避けるために、同じモードからクラスタデモを行うために、新しいシーケンスベースのコントラストクラスタリングアルゴリズムを設計し、各クラスタ内の逆学習に基づくアルゴリズムを用いて、各デモの転送可能性を学ぶ。 複数のmujoco環境, 運転環境, シミュレーションロボット環境における実験により, 提案するトランスファービリティ測定が, 最終模倣学習性能の先行研究よりも精度が高く, ダウンウェイト化できることが示されている。 実験結果のビデオは私たちのウェブサイトで公開しています。

Existing imitation learning works mainly assume that the demonstrator who collects demonstrations shares the same dynamics as the imitator. However, the assumption limits the usage of imitation learning, especially when collecting demonstrations for the imitator is difficult. In this paper, we study out-of-dynamics imitation learning (OOD-IL), which relaxes the assumption to that the demonstrator and the imitator have the same state spaces but could have different action spaces and dynamics. OOD-IL enables imitation learning to utilize demonstrations from a wide range of demonstrators but introduces a new challenge: some demonstrations cannot be achieved by the imitator due to the different dynamics. Prior works try to filter out such demonstrations by feasibility measurements, but ignore the fact that the demonstrations exhibit a multimodal distribution since the different demonstrators may take different policies in different dynamics. We develop a better transferability measurement to tackle this newly-emerged challenge. We firstly design a novel sequence-based contrastive clustering algorithm to cluster demonstrations from the same mode to avoid the mutual interference of demonstrations from different modes, and then learn the transferability of each demonstration with an adversarial-learning based algorithm in each cluster. Experiment results on several MuJoCo environments, a driving environment, and a simulated robot environment show that the proposed transferability measurement more accurately finds and down-weights non-transferable demonstrations and outperforms prior works on the final imitation learning performance. We show the videos of our experiment results on our website.
翻訳日:2022-11-15 20:02:46 公開日:2022-11-13
# 階層的スペーシングトレーニングとニューラルネットワーク適応のための逐次学習戦略

Layerwise Sparsifying Training and Sequential Learning Strategy for Neural Architecture Adaptation ( http://arxiv.org/abs/2211.06860v1 )

ライセンス: Link先を確認
C G Krishnanunni and Tan Bui-Thanh(参考訳) この研究は、与えられたトレーニングデータセットにうまく適応し、一般化するために、段階的に神経アーキテクチャを開発するための2段階のフレームワークを提供する。 第1段階では、新しい層を毎回追加し、前層のパラメータを凍結して独立にトレーニングする、多様体正規化層分割トレーニングアプローチが採用される。 各層で学習すべき関数を制限するために、スパーシティ正規化項、多様体正規化項、物理学的不定化項を用いる。 新たに追加された層のトレーサビリティに必要な条件を導出し,多様体の正則化の役割を解析した。 アルゴリズムの第2段階では、一連の小さなネットワークを用いて、ステージIで生成された残余情報から情報を抽出し、堅牢で正確な予測を行うシーケンシャルな学習プロセスが採用されている。 プロトタイプ回帰問題と分類問題に関する完全連結ネットワークを用いた数値解析により,提案手法がアドホックベースラインネットワークより優れていることを示す。 さらに、物理に変形しないニューラルネットワーク問題への応用は、同値なベースラインネットワークを上回りながら、深層ネットワーク内の解釈可能な隠れ層を作成するのにこの手法が用いられることを示唆する。

This work presents a two-stage framework for progressively developing neural architectures to adapt/ generalize well on a given training data set. In the first stage, a manifold-regularized layerwise sparsifying training approach is adopted where a new layer is added each time and trained independently by freezing parameters in the previous layers. In order to constrain the functions that should be learned by each layer, we employ a sparsity regularization term, manifold regularization term and a physics-informed term. We derive the necessary conditions for trainability of a newly added layer and analyze the role of manifold regularization. In the second stage of the Algorithm, a sequential learning process is adopted where a sequence of small networks is employed to extract information from the residual produced in stage I and thereby making robust and more accurate predictions. Numerical investigations with fully connected network on prototype regression problem, and classification problem demonstrate that the proposed approach can outperform adhoc baseline networks. Further, application to physics-informed neural network problems suggests that the method could be employed for creating interpretable hidden layers in a deep network while outperforming equivalent baseline networks.
翻訳日:2022-11-15 20:02:19 公開日:2022-11-13
# 都市エアモビリティにおける高効率乗客配送のためのマルチエージェント深層補強学習

Multi-Agent Deep Reinforcement Learning for Efficient Passenger Delivery in Urban Air Mobility ( http://arxiv.org/abs/2211.06890v1 )

ライセンス: Link先を確認
Chanyoung Park, Soohyun Park, Gyu Seon Kim, Soyi Jung, Jae-Hyun Kim, and Joongheon Kim(参考訳) 都市空力(UAM)は、ドローンタクシーや電気垂直離着陸(eVTOL)としても知られ、将来の輸送において重要な役割を果たすと考えられている。 UAMを現実的な将来輸送に組み込むことで、いくつかのメリット、すなわち、実現することができる。 (i)従来の輸送に比べて乗客の総移動時間を短縮できる。 (二 環境汚染がなく、電池がUAMシステムで使用されるため、システムの運用に特別な労力がかからない。) しかし、乗客の突然のサービス要求、バッテリーの排出、uam間の衝突など、飛行環境には様々な動的かつ不確実な要因がある。 そこで本稿では,UAMネットワーク上での信頼性と効率的な旅客配送のための,集中型トレーニングと分散実行(CTDE)の概念に基づく新しい協調型MADRLアルゴリズムを提案する。 性能評価の結果から,提案アルゴリズムは他の既存アルゴリズムと比較して,利用客数の増加(30%)と利用客1人あたりの待ち時間(26%)を上回っていることを確認した。

It has been considered that urban air mobility (UAM), also known as drone-taxi or electrical vertical takeoff and landing (eVTOL), will play a key role in future transportation. By putting UAM into practical future transportation, several benefits can be realized, i.e., (i) the total travel time of passengers can be reduced compared to traditional transportation and (ii) there is no environmental pollution and no special labor costs to operate the system because electric batteries will be used in UAM system. However, there are various dynamic and uncertain factors in the flight environment, i.e., passenger sudden service requests, battery discharge, and collision among UAMs. Therefore, this paper proposes a novel cooperative MADRL algorithm based on centralized training and distributed execution (CTDE) concepts for reliable and efficient passenger delivery in UAM networks. According to the performance evaluation results, we confirm that the proposed algorithm outperforms other existing algorithms in terms of the number of serviced passengers increase (30%) and the waiting time per serviced passenger decrease (26%)
翻訳日:2022-11-15 20:01:59 公開日:2022-11-13
# スペクトル正規化による安定グラフニューラルネットワークの学習

Learning Stable Graph Neural Networks via Spectral Regularization ( http://arxiv.org/abs/2211.06966v1 )

ライセンス: Link先を確認
Zhan Gao and Elvin Isufi(参考訳) グラフニューラルネットワーク(GNN)の安定性は、GNNがグラフ摂動にどう反応するかを特徴付け、ノイズの多いシナリオでアーキテクチャのパフォーマンスを保証する。 本稿では,グラフスペクトル領域のフィルタ周波数応答を正則化することにより,アーキテクチャの安定性を向上させる自己正規化グラフニューラルネットワーク(sr-gnn)を開発した。 SR-GNNは、グラフ信号を入力としてだけでなく、各層における周波数応答を特徴付けるタスク関連特徴と固有ベクトルを生成するために処理されるグラフの固有ベクトルも考慮している。 SR-GNNはコスト関数の最小化と最大周波数応答の正則化により訓練する。 前者はアーキテクチャ性能を改善し、後者は摂動安定性を強化し、多層伝播による情報損失を軽減する。 さらに、SR-GNNは置換同値を保ち、グラフ信号の内部対称性を探索し、類似したグラフ構造に転移を示すことができることを示す。 ソースローカライゼーションと映画レコメンデーションによる数値的な結果から,SR-GNNは未飽和グラフ上のバニラGNNと同等の性能を示すが,安定性は著しく向上する。

Stability of graph neural networks (GNNs) characterizes how GNNs react to graph perturbations and provides guarantees for architecture performance in noisy scenarios. This paper develops a self-regularized graph neural network (SR-GNN) solution that improves the architecture stability by regularizing the filter frequency responses in the graph spectral domain. The SR-GNN considers not only the graph signal as input but also the eigenvectors of the underlying graph, where the signal is processed to generate task-relevant features and the eigenvectors to characterize the frequency responses at each layer. We train the SR-GNN by minimizing the cost function and regularizing the maximal frequency response close to one. The former improves the architecture performance, while the latter tightens the perturbation stability and alleviates the information loss through multi-layer propagation. We further show the SR-GNN preserves the permutation equivariance, which allows to explore the internal symmetries of graph signals and to exhibit transference on similar graph structures. Numerical results with source localization and movie recommendation corroborate our findings and show the SR-GNN yields a comparable performance with the vanilla GNN on the unperturbed graph but improves substantially the stability.
翻訳日:2022-11-15 20:01:43 公開日:2022-11-13
# 認知レーダネットワークにおけるコーディネーションの同定 -多目的逆強化学習アプローチ-

Identifying Coordination in a Cognitive Radar Network -- A Multi-Objective Inverse Reinforcement Learning Approach ( http://arxiv.org/abs/2211.06967v1 )

ライセンス: Link先を確認
Luke Snow and Vikram Krishnamurthy and Brian M. Sadler(参考訳) 認知レーダーネットワークによって追跡されているターゲットを考える。 ターゲットがレーダーネットワークの 排出を傍受できるなら どうやってレーダー間の協調を検知できる? 座標」により、各レーダーの実用性に対する多目的最適化に関して、レーダー放射がパレート最適性を満たすことを意味する。 本稿では,このようなパレート最適(コーディネート)行動の検出と,レーダネットワーク排出の有限データセットを与えられた各レーダのユーティリティ関数の復元を両立する,新しい多目的逆強化学習手法を提案する。 これを実現する方法は、Revealed Preferencesのミクロ経済設定から派生し、多目的最適化システムの逆検出と学習に関するより一般的な問題にも適用できる。

Consider a target being tracked by a cognitive radar network. If the target can intercept some radar network emissions, how can it detect coordination among the radars? By 'coordination' we mean that the radar emissions satisfy Pareto optimality with respect to multi-objective optimization over each radar's utility. This paper provides a novel multi-objective inverse reinforcement learning approach which allows for both detection of such Pareto optimal ('coordinating') behavior and subsequent reconstruction of each radar's utility function, given a finite dataset of radar network emissions. The method for accomplishing this is derived from the micro-economic setting of Revealed Preferences, and also applies to more general problems of inverse detection and learning of multi-objective optimizing systems.
翻訳日:2022-11-15 20:01:21 公開日:2022-11-13
# 動的システムモデリングのための適応解法を用いたニューラルODEトレーニングの実験的検討

Experimental study of Neural ODE training with adaptive solver for dynamical systems modeling ( http://arxiv.org/abs/2211.06972v1 )

ライセンス: Link先を確認
Alexandre Allauzen and Thiago Petrilli Maffei Dardis and Hannah Plath(参考訳) ニューラル正規微分方程式(ODE)は、最近、推論とトレーニングのためにブラックボックスODEソルバに依存するニューラルネットワークモデルの新しいファミリーとして導入された。 adaptiveと呼ばれるいくつかのodeソルバは、目の前の問題の複雑さに応じて評価戦略を適応させ、機械学習において大きな視点を開くことができる。 しかし,本論文では,動的システムモデリングのためのブラックボックスとして適応型ソルバをシームレスに利用できない理由を示すための簡単な実験について述べる。 lorenz'63 システムをショーケースとして使用することにより,fehlberg の手法のナイーブな適用では期待値が得られないことを示した。 さらに,解法と学習戦略との密接な相互作用を前提とした簡単な回避策を提案する。 コードはgithubで入手できる。 https://github.com/Allauzen/adaptive-step-size-neural-ode

Neural Ordinary Differential Equations (ODEs) was recently introduced as a new family of neural network models, which relies on black-box ODE solvers for inference and training. Some ODE solvers called adaptive can adapt their evaluation strategy depending on the complexity of the problem at hand, opening great perspectives in machine learning. However, this paper describes a simple set of experiments to show why adaptive solvers cannot be seamlessly leveraged as a black-box for dynamical systems modelling. By taking the Lorenz'63 system as a showcase, we show that a naive application of the Fehlberg's method does not yield the expected results. Moreover, a simple workaround is proposed that assumes a tighter interaction between the solver and the training strategy. The code is available on github: https://github.com/Allauzen/adaptive-step-size-neural-ode
翻訳日:2022-11-15 20:01:08 公開日:2022-11-13
# 短ブロック符号のためのスケーラブルなグラフニューラルネットワークデコーダ

A Scalable Graph Neural Network Decoder for Short Block Codes ( http://arxiv.org/abs/2211.06962v1 )

ライセンス: Link先を確認
Kou Tian, Chentao Yue, Changyang She, Yonghui Li, and Branka Vucetic(参考訳) 本研究では,エッジ重み付きグラフニューラルネットワーク(EW-GNN)に基づく短絡符号の復号化アルゴリズムを提案する。 EW-GNNデコーダはタンナーグラフ上で反復的なメッセージパス構造で動作し、従来の信念伝搬法(BP)デコーダとアルゴリズム的に整合する。 各イテレーションでは、ノード/エッジからの信頼性情報を入力として持つ完全接続されたニューラルネットワークから、各エッジに沿って渡されるメッセージの「重み」を得る。 既存のディープラーニングベースのデコード方式と比較して、EW-GNNデコーダはそのスケーラビリティによって特徴付けられる。 1) トレーニング可能なパラメータの数は,コードワードの長さに依存しない。 2) 短い/単純なコードで訓練されたEW-GNNデコーダは、異なるコードレートの長い/洗練されたコードに直接使用することができる。 さらに、シミュレーションの結果、EW-GNNデコーダは、復号誤り率の観点から、BP法およびディープラーニングに基づくBP法よりも優れていることが示された。

In this work, we propose a novel decoding algorithm for short block codes based on an edge-weighted graph neural network (EW-GNN). The EW-GNN decoder operates on the Tanner graph with an iterative message-passing structure, which algorithmically aligns with the conventional belief propagation (BP) decoding method. In each iteration, the "weight" on the message passed along each edge is obtained from a fully connected neural network that has the reliability information from nodes/edges as its input. Compared to existing deep-learning-based decoding schemes, the EW-GNN decoder is characterised by its scalability, meaning that 1) the number of trainable parameters is independent of the codeword length, and 2) an EW-GNN decoder trained with shorter/simple codes can be directly used for longer/sophisticated codes of different code rates. Furthermore, simulation results show that the EW-GNN decoder outperforms the BP and deep-learning-based BP methods from the literature in terms of the decoding error rate.
翻訳日:2022-11-15 19:53:40 公開日:2022-11-13
# 圧縮スペクトルイメージングのためのスペクトルと空間の混合前処理を用いた残留劣化学習展開フレームワーク

Residual Degradation Learning Unfolding Framework with Mixing Priors across Spectral and Spatial for Compressive Spectral Imaging ( http://arxiv.org/abs/2211.06891v1 )

ライセンス: Link先を確認
Yubo Dong, Dahua Gao, Tian Qiu, Yuyan Li, Minxi Yang, Guangming Shi(参考訳) スナップショットスペクトル画像を取得するために、符号化開口分光画像(CASSI)を提案する。 CASSIシステムの中核的な問題は、信頼性と微細な3次元スペクトル立方体を2次元測定から回収することである。 データサブプロブレムと先行サブプロブレムを交互に解くことにより、深い展開法が良好な性能を達成する。 しかし、データサブプロブレムでは、位相収差や歪みに起因するデバイスエラーによる実際の劣化過程に使用するセンシングマトリクスが不適当であり、先行するサブプロブレムでは、空間的およびスペクトル的プリエントの両方を共用する適切なモデルを設計することが重要である。 本稿では,センサマトリックスと劣化過程のギャップを埋めるResidual Degradation Learning Unfolding Framework (RDLUF)を提案する。 さらに、Mix$S^2$変換器は、スペクトル空間と空間を混合することで、スペクトル空間表現能力を強化する。 最後に、Mix$S^2$ TransformerをRDLUFに接続すると、エンドツーエンドのトレーニング可能で解釈可能なニューラルネットワークRDLUF-Mix$S^2$となる。 実験により,提案手法の既存手法よりも優れた性能が得られた。

To acquire a snapshot spectral image, coded aperture snapshot spectral imaging (CASSI) is proposed. A core problem of the CASSI system is to recover the reliable and fine underlying 3D spectral cube from the 2D measurement. By alternately solving a data subproblem and a prior subproblem, deep unfolding methods achieve good performance. However, in the data subproblem, the used sensing matrix is ill-suited for the real degradation process due to the device errors caused by phase aberration, distortion; in the prior subproblem, it is important to design a suitable model to jointly exploit both spatial and spectral priors. In this paper, we propose a Residual Degradation Learning Unfolding Framework (RDLUF), which bridges the gap between the sensing matrix and the degradation process. Moreover, a Mix$S^2$ Transformer is designed via mixing priors across spectral and spatial to strengthen the spectral-spatial representation capability. Finally, plugging the Mix$S^2$ Transformer into the RDLUF leads to an end-to-end trainable and interpretable neural network RDLUF-Mix$S^2$. Experimental results establish the superior performance of the proposed method over existing ones.
翻訳日:2022-11-15 19:35:07 公開日:2022-11-13
# paintnet: ロボットスプレー塗装のためのポーズパス生成器の3次元学習

PaintNet: 3D Learning of Pose Paths Generators for Robotic Spray Painting ( http://arxiv.org/abs/2211.06930v1 )

ライセンス: Link先を確認
Gabriele Tiboni, Raffaello Camoriano, Tatiana Tommasi(参考訳) 3dオブジェクトを含むタスクの最適化と計画の方法は、しばしば事前の知識とアドホックなヒューリスティックに依存する。 本研究では,最近の3次元深層学習の進歩を活用して,学習に基づく長距離経路生成を目標とする。 自由形3Dオブジェクトのロボットスプレー塗装を学習するための最初のデータセットであるPaintNetを提案する。 paintnetには800以上のオブジェクトメッシュと関連するペインティングストロークが実際の産業環境で収集されている。 次に,この課題に取り組むための新しい3次元ディープラーニング手法を導入し,非構造化入力空間 -- 点クラウド -- と混合構造化出力空間 -- を無順序のペインティングストロークで操作する。 提案手法の広汎な実験的解析により,従来見られなかった物体表面の95%を対象とするスムーズな出力ストロークの予測が可能となった。 PaintNetデータセットと提案されたアプローチの実装は、https://gabrieletiboni.github.io/paintnet.orgで公開される。

Optimization and planning methods for tasks involving 3D objects often rely on prior knowledge and ad-hoc heuristics. In this work, we target learning-based long-horizon path generation by leveraging recent advances in 3D deep learning. We present PaintNet, the first dataset for learning robotic spray painting of free-form 3D objects. PaintNet includes more than 800 object meshes and the associated painting strokes collected in a real industrial setting. We then introduce a novel 3D deep learning method to tackle this task and operate on unstructured input spaces -- point clouds -- and mix-structured output spaces -- unordered sets of painting strokes. Our extensive experimental analysis demonstrates the capabilities of our method to predict smooth output strokes that cover up to 95% of previously unseen object surfaces, with respect to ground-truth paint coverage. The PaintNet dataset and an implementation of our proposed approach will be released at https://gabrieletiboni.github.io/paintnet.
翻訳日:2022-11-15 19:34:30 公開日:2022-11-13
# ループ内フレーム予測による学習映像圧縮の促進

Advancing Learned Video Compression with In-loop Frame Prediction ( http://arxiv.org/abs/2211.07004v1 )

ライセンス: Link先を確認
Ren Yang, Radu Timofte, Luc Van Gool(参考訳) 近年、エンド・ツー・エンドの学習ビデオ圧縮への関心が高まっている。 これまでのほとんどの作品は、基準フレームを目標フレームに向けてゆるめるためにモーションマップを検出して圧縮することで、時間的冗長性を探求している。 しかし、逐次参照フレームの歴史的な優先事項を十分に活用できなかった。 本稿では,従来圧縮されていたフレームからターゲットフレームを効果的に予測可能な,ループ内フレーム予測モジュールを用いた高度学習ビデオ圧縮(ALVC)手法を提案する。 予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受ける。 提案するループ内予測モジュールは、エンドツーエンドのビデオ圧縮の一部であり、フレームワーク全体で共同最適化されている。 PフレームとBフレームをそれぞれ圧縮するリカレントおよび双方向のループ内予測モジュールを提案する。 本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示す。 また、PSNRの観点からは、デフォルトの階層Bモードx265より優れており、MS-SSIM上でのSSIMチューニングx265の最も遅いモードよりも優れている。 プロジェクトページ:https://github.com/RenYang-home/ALVC。

Recent years have witnessed an increasing interest in end-to-end learned video compression. Most previous works explore temporal redundancy by detecting and compressing a motion map to warp the reference frame towards the target frame. Yet, it failed to adequately take advantage of the historical priors in the sequential reference frames. In this paper, we propose an Advanced Learned Video Compression (ALVC) approach with the in-loop frame prediction module, which is able to effectively predict the target frame from the previously compressed frames, \textit{without consuming any bit-rate}. The predicted frame can serve as a better reference than the previously compressed frame, and therefore it benefits the compression performance. The proposed in-loop prediction module is a part of the end-to-end video compression and is jointly optimized in the whole framework. We propose the recurrent and the bi-directional in-loop prediction modules for compressing P-frames and B-frames, respectively. The experiments show the state-of-the-art performance of our ALVC approach in learned video compression. We also outperform the default hierarchical B mode of x265 in terms of PSNR and beat the slowest mode of the SSIM-tuned x265 on MS-SSIM. The project page: https://github.com/RenYang-home/ALVC.
翻訳日:2022-11-15 19:34:11 公開日:2022-11-13
# リモートセンシングにおける異種システム利用のための動的コンポーザビリティアプローチ

Towards a Dynamic Composability Approach for using Heterogeneous Systems in Remote Sensing ( http://arxiv.org/abs/2211.06918v1 )

ライセンス: Link先を確認
Ilkay Altintas, Ismael Perez, Dmitry Mishin, Adrien Trouillaud, Christopher Irving, John Graham, Mahidhar Tatineni, Thomas DeFanti, Shawn Strande, Larry Smarr, Michael L. Norman(参考訳) データとコンピューティングの進歩の影響を受けて、科学的な実践は、従来の大容量スーパーコンピューティングのアプローチに加えて、システム、科学、サービスレベルでの特殊能力を必要とする機械学習と人工知能駆動の方法がますます必要になる。 データ中心のアプリケーションの構成可能性を中心に構築された最新の分散アーキテクチャは、コンテナのコーディネーションと統合のための新しいエコシステムの出現につながった。 しかし、既存のスーパーコンピューティング環境のアプリケーション開発パイプラインと、アクセス可能でポータブルで再プログラム可能なインターフェースを通じて流体リソースプールを分離するこれらの新しい動的環境の間には、いまだに隔たりがある。 ヘテロジニアスシステムの動的コンポーザビリティに対する新しいアプローチは、特定の科学領域に対するより効率的な計算と利用可能なツールのために、データ駆動科学の実践をさらに進めるために必要である。 本稿では,科学計算,人工知能(AI),リモートセンシング領域の交差点において,構成可能なシステムを利用するための新しいアプローチを提案する。 NSFが出資するスーパーコンピュータであるExpanseをKubernetesベースのGPUジオ分散クラスタであるNautilusとフェデレートする、構成可能なインフラストラクチャの最初の実例のアーキテクチャについて説明する。 我々はまた、科学ワークフローにおけるこの新しいインフラの応用を実証するワイルドファイアモデリングのケーススタディを要約した: エッジセンシング、AI、コンピューティング能力から、物理駆動のシミュレーションで洞察を橋渡しする複合システム。

Influenced by the advances in data and computing, the scientific practice increasingly involves machine learning and artificial intelligence driven methods which requires specialized capabilities at the system-, science- and service-level in addition to the conventional large-capacity supercomputing approaches. The latest distributed architectures built around the composability of data-centric applications led to the emergence of a new ecosystem for container coordination and integration. However, there is still a divide between the application development pipelines of existing supercomputing environments, and these new dynamic environments that disaggregate fluid resource pools through accessible, portable and re-programmable interfaces. New approaches for dynamic composability of heterogeneous systems are needed to further advance the data-driven scientific practice for the purpose of more efficient computing and usable tools for specific scientific domains. In this paper, we present a novel approach for using composable systems in the intersection between scientific computing, artificial intelligence (AI), and remote sensing domain. We describe the architecture of a first working example of a composable infrastructure that federates Expanse, an NSF-funded supercomputer, with Nautilus, a Kubernetes-based GPU geo-distributed cluster. We also summarize a case study in wildfire modeling, that demonstrates the application of this new infrastructure in scientific workflows: a composed system that bridges the insights from edge sensing, AI and computing capabilities with a physics-driven simulation.
翻訳日:2022-11-15 19:25:46 公開日:2022-11-13
# CS-Shapley:分類におけるデータ評価のためのクラスワイドShapley値

CS-Shapley: Class-wise Shapley Values for Data Valuation in Classification ( http://arxiv.org/abs/2211.06800v1 )

ライセンス: Link先を確認
Stephanie Schoch, Haifeng Xu, Yangfeng Ji(参考訳) データバリュエーション(あるいは個々のdatumコントリビューションのバリュエーション)は、ノイズのラベル検出などのタスクに実証可能な効果があるため、マシンラーニングへの関心が高まっている。 特に、望ましい公理特性のため、いくつかのShapley値近似法が提案されている。 これらの手法では、値関数は一般に開発全体の予測精度として定義される。 しかし、これは、自身のクラスにとって有益または有害なトレーニングインスタンスを区別する能力を制限する。 直感的には、自身のクラスを傷つけるインスタンスは騒がしいか誤記があり、有用なインスタンスよりも低い評価を受けるべきである。 本研究では,CS-Shapleyという,トレーニングインスタンスのクラス内コントリビューションとクラス外コントリビューションを区別する新しい値関数を提案する。 提案した値関数は,分類におけるデータ値を評価する上で望ましい2つの特性を満たす一意関数であることを示す。 さらに,2つのベンチマーク評価タスク(データ除去とノイズラベル検出)と4つの分類器について実験を行い,CS-Shapleyの有効性を示した。 最後に,1つの分類器から他のモデルへ推定されるデータ値の「転送可能性」を評価し,shapleyベースのデータ評価が異なるモデル間でのアプリケーション間で転送可能であることを示唆する。

Data valuation, or the valuation of individual datum contributions, has seen growing interest in machine learning due to its demonstrable efficacy for tasks such as noisy label detection. In particular, due to the desirable axiomatic properties, several Shapley value approximation methods have been proposed. In these methods, the value function is typically defined as the predictive accuracy over the entire development set. However, this limits the ability to differentiate between training instances that are helpful or harmful to their own classes. Intuitively, instances that harm their own classes may be noisy or mislabeled and should receive a lower valuation than helpful instances. In this work, we propose CS-Shapley, a Shapley value with a new value function that discriminates between training instances' in-class and out-of-class contributions. Our theoretical analysis shows the proposed value function is (essentially) the unique function that satisfies two desirable properties for evaluating data values in classification. Further, our experiments on two benchmark evaluation tasks (data removal and noisy label detection) and four classifiers demonstrate the effectiveness of CS-Shapley over existing methods. Lastly, we evaluate the "transferability" of data values estimated from one classifier to others, and our results suggest Shapley-based data valuation is transferable for application across different models.
翻訳日:2022-11-15 19:10:16 公開日:2022-11-13
# 大規模スパース交通予測のための類似性に基づく特徴抽出

Similarity-based Feature Extraction for Large-scale Sparse Traffic Forecasting ( http://arxiv.org/abs/2211.07031v1 )

ライセンス: Link先を確認
Xinhua Wu, Cheng Lyu, Qing-Long Lu, Vishal Mahajan(参考訳) 短期交通予測はインテリジェント交通システム分野において広く研究されているトピックである。 しかし,既存の予測システムの多くは,時系列予測問題として定式化されているため,リアルタイムプローブ車両データの要求によって制限されている。 この問題に向けて、NeurIPS 2022 Traffic4castの課題は、公共に利用可能な疎ループ数データで都市全体の交通状態を予測することである。 この技術報告は、ETA予測の拡張課題に対して、私たちの2位獲得ソリューションを紹介します。 類似性に基づく特徴抽出法として,複数の隣接フィルタを用いた特徴抽出手法を提案する。 勾配向上決定木モデルをトレーニングするために、類似性に基づく特徴、静的特徴、ノードフロー特徴、セグメントの複合特徴を抽出する。 ロンドン, マドリード, メルボルンを含む3都市での実験結果から, 旅行時間推定の課題において, グラフ・ニューラル・ネットワーク・ベースのソリューションよりも優れた予測性能が得られた。 ソースコードは \url{https://github.com/c-lyu/Traffic4Cast2022-TSE} で入手できる。

Short-term traffic forecasting is an extensively studied topic in the field of intelligent transportation system. However, most existing forecasting systems are limited by the requirement of real-time probe vehicle data because of their formulation as a time series forecasting problem. Towards this issue, the NeurIPS 2022 Traffic4cast challenge is dedicated to predicting the citywide traffic states with publicly available sparse loop count data. This technical report introduces our second-place winning solution to the extended challenge of ETA prediction. We present a similarity-based feature extraction method using multiple nearest neighbor (NN) filters. Similarity-based features, static features, node flow features and combined features of segments are extracted for training the gradient boosting decision tree model. Experimental results on three cities (including London, Madrid and Melbourne) demonstrate the strong predictive performance of our approach, which outperforms a number of graph-neural-network-based solutions in the task of travel time estimation. The source code is available at \url{https://github.com/c-lyu/Traffic4Cast2022-TSE}.
翻訳日:2022-11-15 19:09:54 公開日:2022-11-13
# fintech for social good: a research agenda from nlp perspective

FinTech for Social Good: A Research Agenda from NLP Perspective ( http://arxiv.org/abs/2211.06431v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hiroya Takamura, Hsin-Hsi Chen(参考訳) 研究成果を社会や環境に肯定的に影響させることが、私たちのコミュニティが最近追求している目標の1つです。 金融技術(FinTech)は一般的な応用分野の1つですが、FinTechでNLPがどう役立つのかについては議論がありません。 FinTechについて言うとき、人々はファイナンシャル・インクルージョンとグリーン・ファイナンスについて話している。 しかし、これらの方向におけるNLPの役割は限定的な議論しか得られない。 このギャップを埋めるために、本稿では、FinTechでNLPをソーシャルグッズに活用する方法を共有します。 私たちは、読者が金融とnlpの関係を共有に基づいて再考し、個人投資家の金融リテラシーの改善と影響投資支援の改善にさらに参加できることを願っています。

Making our research results positively impact on society and environment is one of the goals our community has been pursuing recently. Although financial technology (FinTech) is one of the popular application fields, we notice that there is no discussion on how NLP can help in FinTech for the social good. When mentioning FinTech for social good, people are talking about financial inclusion and green finance. However, the role of NLP in these directions only gets limited discussions. To fill this gap, this paper shares our idea of how we can use NLP in FinTech for social good. We hope readers can rethink the relationship between finance and NLP based on our sharing, and further join us in improving the financial literacy of individual investors and improving the supports for impact investment.
翻訳日:2022-11-15 18:50:25 公開日:2022-11-13
# 依存木の多項式表現による構文類似性の定量化

Quantifying syntax similarity with a polynomial representation of dependency trees ( http://arxiv.org/abs/2211.07005v1 )

ライセンス: Link先を確認
Pengyu Liu, Tinghao Feng, Rui Liu(参考訳) 本稿では,依存文法を表す木構造と,構文類似性を定量化する多項式表現に基づく測度を区別するグラフ多項式を提案する。 多項式は、文中の単語の係り受け構造と係り受け関係に関する正確かつ包括的な情報を符号化する。 多項式に基づく手法を並列普遍依存木バンクの文解析に適用する。 具体的には、異なる言語における文の構文とそれらの翻訳を比較し、パラレル普遍依存木バンクにおける利用可能な言語の構文的タイポロジー研究を行う。 また,コーパスの構文多様性を計測する手法の可能性を実証し,議論する。

We introduce a graph polynomial that distinguishes tree structures to represent dependency grammar and a measure based on the polynomial representation to quantify syntax similarity. The polynomial encodes accurate and comprehensive information about the dependency structure and dependency relations of words in a sentence. We apply the polynomial-based methods to analyze sentences in the Parallel Universal Dependencies treebanks. Specifically, we compare the syntax of sentences and their translations in different languages, and we perform a syntactic typology study of available languages in the Parallel Universal Dependencies treebanks. We also demonstrate and discuss the potential of the methods in measuring syntax diversity of corpora.
翻訳日:2022-11-15 18:49:57 公開日:2022-11-13
# 地域目的による未確認授業のマイニング:インクリメンタルセグメンテーションのためのシンプルなベースライン

Mining Unseen Classes via Regional Objectness: A Simple Baseline for Incremental Segmentation ( http://arxiv.org/abs/2211.06866v1 )

ライセンス: Link先を確認
Zekang Zhang, Guangyu Gao, Zhiyuan Fang, Jianbo Jiao, Yunchao Wei(参考訳) 増分的あるいは連続的な学習は、画像分類タスクにおいて、破滅的な忘れを緩和するために広範囲に研究されてきた。 クラスインクリメンタルセマンティックセグメンテーションでは、背景シフトによってこのような現象がさらに悪化することが多く、すなわち、前の段階で学んだ概念が現在のトレーニング段階でバックグラウンドクラスに割り当てられるため、これらの古い概念のパフォーマンスが著しく低下する。 この問題に対処するため,本論文では,Regional Objectness for Segmentation (MicroSeg) を用いたマイニング未確認クラスを提案する。 われわれのMicroSegは、強い客観性を持つ背景領域が、歴史的または将来の段階においてそれらの概念に属するという仮定に基づいている。 そのため、現在のトレーニング段階で古い知識を忘れないように、私たちのMicroSegはまず、与えられたイメージをプロポーザルジェネレータで数百のセグメント提案に分割します。 背景から強いオブジェクト性を持つセグメント提案は、最適化中にクラスタ化され、新たに定義されたラベルが割り当てられる。 このように、特徴空間における古い概念を特徴付ける分布は、背景シフトによる破滅的な忘れを軽減し、よりよく認識される。 Pascal VOCとADE20Kデータセットの大規模な実験は、最先端技術による競合結果を示し、提案したMicroSegの有効性を十分に検証している。

Incremental or continual learning has been extensively studied for image classification tasks to alleviate catastrophic forgetting, a phenomenon that earlier learned knowledge is forgotten when learning new concepts. For class incremental semantic segmentation, such a phenomenon often becomes much worse due to the background shift, i.e., some concepts learned at previous stages are assigned to the background class at the current training stage, therefore, significantly reducing the performance of these old concepts. To address this issue, we propose a simple yet effective method in this paper, named Mining unseen Classes via Regional Objectness for Segmentation (MicroSeg). Our MicroSeg is based on the assumption that background regions with strong objectness possibly belong to those concepts in the historical or future stages. Therefore, to avoid forgetting old knowledge at the current training stage, our MicroSeg first splits the given image into hundreds of segment proposals with a proposal generator. Those segment proposals with strong objectness from the background are then clustered and assigned newly-defined labels during the optimization. In this way, the distribution characterizes of old concepts in the feature space could be better perceived, relieving the catastrophic forgetting caused by the background shift accordingly. Extensive experiments on Pascal VOC and ADE20K datasets show competitive results with state-of-the-art, well validating the effectiveness of the proposed MicroSeg.
翻訳日:2022-11-15 18:27:01 公開日:2022-11-13
# 異常としての仮想学習における離脱検出

Detecting Disengagement in Virtual Learning as an Anomaly ( http://arxiv.org/abs/2211.06870v1 )

ライセンス: Link先を確認
Ali Abedi and Shehroz S. Khan(参考訳) 学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。 学生のエンゲージメントの自動測定は、教師が学習プログラムの目標を満たし、プログラム配信を個別化するのに役立つ情報を提供する。 既存の多くのアプローチは、バイナリ分類(ビデオスニペットをエンゲージメントクラスまたは非エンゲージメントクラスに分類する)、マルチクラス分類(ビデオスニペットを異なるエンゲージメントレベルに対応する複数のクラスに分類する)、レグレッション(エンゲージメントレベルに対応する連続的な値を推定する)といった従来のフレームワークを使用して、ビデオベースのエンゲージメント測定を解決する。 しかしながら、エンゲージメントの振る舞いは、主に明確に定義されている(例えば、集中的であり、注意をそらさない)が、インエンゲージメントは様々な方法で表現できる。 さらに、いくつかのケースでは、非統合クラスのデータは、一般化可能なバイナリやマルチクラスの分類器を訓練するのに十分なものではない。 そこで本稿では,このような状況に対処するために,まず,異常検出問題として,仮想学習における障害検出を定式化する。 本研究では,時間的畳み込みネットワークオートエンコーダ,長期記憶オートエンコーダ,ビデオベース学生のエンゲージメント検出機能を利用したフィードフォワードオートエンコーダなど,さまざまなオートエンコーダを設計する。 daiseeとemotiwの2つの学生参加データセットを用いた実験の結果,提案手法は,映像を係合クラスと係合クラスに分類するバイナリ分類器に比べ,異常として検出する手法が優れていることが示された(受信者の行動特性曲線の曲線下の領域では平均9%,精度-リコール曲線の曲線下の領域では22%改善されている)。

Student engagement is an important factor in meeting the goals of virtual learning programs. Automatic measurement of student engagement provides helpful information for instructors to meet learning program objectives and individualize program delivery. Many existing approaches solve video-based engagement measurement using the traditional frameworks of binary classification (classifying video snippets into engaged or disengaged classes), multi-class classification (classifying video snippets into multiple classes corresponding to different levels of engagement), or regression (estimating a continuous value corresponding to the level of engagement). However, we observe that while the engagement behaviour is mostly well-defined (e.g., focused, not distracted), disengagement can be expressed in various ways. In addition, in some cases, the data for disengaged classes may not be sufficient to train generalizable binary or multi-class classifiers. To handle this situation, in this paper, for the first time, we formulate detecting disengagement in virtual learning as an anomaly detection problem. We design various autoencoders, including temporal convolutional network autoencoder, long-short-term memory autoencoder, and feedforward autoencoder using different behavioral and affect features for video-based student disengagement detection. The result of our experiments on two publicly available student engagement datasets, DAiSEE and EmotiW, shows the superiority of the proposed approach for disengagement detection as an anomaly compared to binary classifiers for classifying videos into engaged versus disengaged classes (with an average improvement of 9% on the area under the curve of the receiver operating characteristic curve and 22% on the area under the curve of the precision-recall curve).
翻訳日:2022-11-15 18:26:32 公開日:2022-11-13
# SCOTCHとSODA:トランスフォーマービデオシャドウ検出フレームワーク

SCOTCH and SODA: A Transformer Video Shadow Detection Framework ( http://arxiv.org/abs/2211.06885v1 )

ライセンス: Link先を確認
Lihao Liu, Jean Prost, Lei Zhu, Nicolas Papadakis, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, Angelica I Aviles-Rivero(参考訳) フレーム間の大きな影変形のため、ビデオ内の影を検出するのは難しい。 本研究では,映像シャドウ検出法を設計する際に,シャドウ変形の計算が不可欠であると主張する。 この目的のために,ビデオにおける大きな影変形を処理するために特別に設計された,新しいタイプのビデオ自己注意モジュールであるSODA(Shadow deformation attention trajectory)を導入する。 さらに、異なるビデオ間で統合されたハイレベルな影表現を学習するためのネットワークの誘導を目的とした、影のコントラスト学習機構(SCOTCH)を提案する。 アブレーション研究における2つの貢献の有効性を実証的に示す。 さらに、SCOTCHとSODAは、既存のビデオシャドウ検出技術よりも優れていることを示す。 この作業の受理時にコードは利用可能になる。

Shadows in videos are difficult to detect because of the large shadow deformation between frames. In this work, we argue that accounting for the shadow deformation is essential when designing a video shadow detection method. To this end, we introduce the shadow deformation attention trajectory (SODA), a new type of video self-attention module, specially designed to handle the large shadow deformations in videos. Moreover, we present a shadow contrastive learning mechanism (SCOTCH) which aims at guiding the network to learn a high-level representation of shadows, unified across different videos. We demonstrate empirically the effectiveness of our two contributions in an ablation study. Furthermore, we show that SCOTCH and SODA significantly outperforms existing techniques for video shadow detection. Code will be available upon the acceptance of this work.
翻訳日:2022-11-15 18:25:55 公開日:2022-11-13
# マルチオルガン・腫瘍分割のための部分ラベルデータからの学習

Learning from partially labeled data for multi-organ and tumor segmentation ( http://arxiv.org/abs/2211.06894v1 )

ライセンス: Link先を確認
Yutong Xie, Jianpeng Zhang, Yong Xia, Chunhua Shen(参考訳) 臓器と腫瘍のセグメンテーションのための医療画像ベンチマークは、労働と専門知識の集中的なコストのために部分的にラベル付けの問題に悩まされている。 現在の主流のアプローチは、1つのタスクを解決する1つのネットワークのプラクティスに従っている。 このパイプラインでは、単一のタスクの典型的な小さなデータセットによってパフォーマンスが制限されるだけでなく、タスク数に応じて計算コストが線形的に増加する。 そこで本研究では,複数のラベル付きデータセット上で臓器や腫瘍をセグメント化することを学ぶトランスフォーマーベースの動的オンデマンドネットワーク(transdodnet)を提案する。 具体的には、transdodnetには畳み込みニューラルネットワークとトランスフォーマーで構成されるハイブリッドバックボーンがある。 動的ヘッドにより、ネットワークは柔軟に複数のセグメンテーションタスクを実現できる。 トレーニング後にカーネルを修正する既存のアプローチとは異なり、動的ヘッドのカーネルはトランスフォーマによって適応的に生成される。 我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumor Segmentationベンチマークを作成し、7つの臓器および腫瘍セグメンテーションタスクにおいて、他の競合他社よりもTransDoDNetの優れたパフォーマンスを示す。 また,大規模なMOTSベンチマークで事前学習し,現在主流となっている自己教師型学習法であるBYOLよりも高度な性能を示す3次元医用画像セグメンテーションモデルを提案する。 コードは \url{https://git.io/DoDNet} で入手できる。

Medical image benchmarks for the segmentation of organs and tumors suffer from the partially labeling issue due to its intensive cost of labor and expertise. Current mainstream approaches follow the practice of one network solving one task. With this pipeline, not only the performance is limited by the typically small dataset of a single task, but also the computation cost linearly increases with the number of tasks. To address this, we propose a Transformer based dynamic on-demand network (TransDoDNet) that learns to segment organs and tumors on multiple partially labeled datasets. Specifically, TransDoDNet has a hybrid backbone that is composed of the convolutional neural network and Transformer. A dynamic head enables the network to accomplish multiple segmentation tasks flexibly. Unlike existing approaches that fix kernels after training, the kernels in the dynamic head are generated adaptively by the Transformer, which employs the self-attention mechanism to model long-range organ-wise dependencies and decodes the organ embedding that can represent each organ. We create a large-scale partially labeled Multi-Organ and Tumor Segmentation benchmark, termed MOTS, and demonstrate the superior performance of our TransDoDNet over other competitors on seven organ and tumor segmentation tasks. This study also provides a general 3D medical image segmentation model, which has been pre-trained on the large-scale MOTS benchmark and has demonstrated advanced performance over BYOL, the current predominant self-supervised learning method. Code will be available at \url{https://git.io/DoDNet}.
翻訳日:2022-11-15 18:25:38 公開日:2022-11-13
# 火災: 高速画像化と考古学的シェルドの3次元再構築

FIRES: Fast Imaging and 3D Reconstruction of Archaeological Sherds ( http://arxiv.org/abs/2211.06897v1 )

ライセンス: Link先を確認
Jiepeng Wang, Congyi Zhang, Peng Wang, Xin Li, Peter J. Cobb, Christian Theobalt, Wenping Wang(参考訳) シードは考古学的な発掘調査で発見された最も一般的な人工物であり、過去の人類社会に関する豊富な情報を持っているため、分析と保存のために正確に再構築されデジタル記録される必要がある。 数百もの破片が、既存のイメージングシステムのスキャン能力を超える、考古学的な発掘現場で1日のうちに発見された。 そのため、一日に数百個の断片を撮像できる所望の画像取得システムへの需要が高い。 この要求に応えて、高速イメージングと3次元シェルド再構成のためのFIRESと呼ばれる新しいシステムを開発した。 FIRESシステムは2つの主要コンポーネントから構成される。 1つは、掘削現場での実際の試験で1日700本(作業時間8時間)以上を撮影できる最適な設計の高速画像取得装置であり、これは既存のシステムよりも1桁速い。 第2のコンポーネントは、撮像システムで撮像された画像からシェルドを3次元に再構成し、0.16ミリメートルの再構成精度を達成するための自動パイプラインである。 このパイプラインは、シェルドの前側と後ろ側の部分的な3dスキャンと一致する新しいバッチマッチングアルゴリズムと、非常に狭い重なり合い領域を共有する前側と後ろ側を登録する新しいicp型メソッドを含んでいる。 発掘現場における実験室および試験の広範囲な検証により,我々のFIRESシステムは,考古学的発掘調査におけるせん断のイメージングと3次元再構築を行うための,最初の高速で正確なポータル,費用対効果のソリューションを提供することが示された。

Sherds, as the most common artifacts uncovered during archaeological excavations, carry rich information about past human societies so need to be accurately reconstructed and recorded digitally for analysis and preservation. Often hundreds of fragments are uncovered in a day at an archaeological excavation site, far beyond the scanning capacity of existing imaging systems. Hence, there is high demand for a desirable image acquisition system capable of imaging hundreds of fragments per day. In response to this demand, we developed a new system, dubbed FIRES, for Fast Imaging and 3D REconstruction of Sherds. The FIRES system consists of two main components. The first is an optimally designed fast image acquisition device capable of capturing over 700 sherds per day (in 8 working hours) in actual tests at an excavation site, which is one order-of-magnitude faster than existing systems. The second component is an automatic pipeline for 3D reconstruction of the sherds from the images captured by the imaging acquisition system, achieving reconstruction accuracy of 0.16 milimeters. The pipeline includes a novel batch matching algorithm that matches partial 3D scans of the front and back sides of the sherds and a new ICP-type method that registers the front and back sides sharing very narrow overlapping regions. Extensive validation in labs and testing in excavation sites demonstrated that our FIRES system provides the first fast, accurate, portal, and cost-effective solution for the task of imaging and 3D reconstruction of sherds in archaeological excavations.
翻訳日:2022-11-15 18:25:12 公開日:2022-11-13
# 脳を越えて見る:視覚復号のためのスパースマズドモデリングを用いた条件拡散モデル

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding ( http://arxiv.org/abs/2211.06956v1 )

ライセンス: Link先を確認
Zijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou(参考訳) 脳記録からの視覚刺激の復号は、人間の視覚システムの理解を深め、Brain-Computer Interfaceを通じて人間とコンピュータの視覚をブリッジするための基盤を構築することを目的としている。 しかし、脳信号の複雑な表現とデータアノテーションの不足により、脳の記録から正しい意味を持つ高品質な画像の再構成は難しい問題である。 本稿では,人間の視覚復号のための2成分遅延拡散モデルを用いたMinD-Vis: Sparse Masked Brain Modelingを提案する。 まず,一次視覚野における情報のスパース符号化にインスパイアされた大きな潜伏空間におけるマスクモデルを用いて,fMRIデータの効果的な自己教師型表現を学習する。 次に,2つの条件付き潜伏拡散モデルを拡張することにより,MinD-Visは,非常に少ないペアアノテーションを用いて,脳の記録から意味的に一致した細部を再現できることを示す。 実験結果から,提案手法は,セマンティックマッピング(100方向意味分類)と生成品質(fid)の両方において,それぞれ66%,41%の精度で最先端を上回っていた。 網羅的アブレーション試験も実施し,我々の枠組みを解析した。

Decoding visual stimuli from brain recordings aims to deepen our understanding of the human visual system and build a solid foundation for bridging human and computer vision through the Brain-Computer Interface. However, reconstructing high-quality images with correct semantics from brain recordings is a challenging problem due to the complex underlying representations of brain signals and the scarcity of data annotations. In this work, we present MinD-Vis: Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding. Firstly, we learn an effective self-supervised representation of fMRI data using mask modeling in a large latent space inspired by the sparse coding of information in the primary visual cortex. Then by augmenting a latent diffusion model with double-conditioning, we show that MinD-Vis can reconstruct highly plausible images with semantically matching details from brain recordings using very few paired annotations. We benchmarked our model qualitatively and quantitatively; the experimental results indicate that our method outperformed state-of-the-art in both semantic mapping (100-way semantic classification) and generation quality (FID) by 66% and 41% respectively. An exhaustive ablation study was also conducted to analyze our framework.
翻訳日:2022-11-15 18:24:46 公開日:2022-11-13
# 手術訓練における姿勢推定

Pose Estimation For Surgical Training ( http://arxiv.org/abs/2211.07021v1 )

ライセンス: Link先を確認
Eddie Bkheet, Anne-Lise D'Angelo, Adam Goldbraikh, Shlomi Laufer(参考訳) 目的: 本研究の目的は, 外科医の自動訓練と手術映像の分析に最先端のコンピュータビジョンアルゴリズムを使用することである。 2次元手のポーズを推定することにより,練習者の手の動きと手術器具との相互作用をモデル化し,手術訓練における有用性について検討した。 方法: 2dのポーズで100本のオープン手術シミュレーションビデオの独自のデータセットを作成するために,事前トレーニングされたモデルを公開のハンドデータセット上で活用する。 また,手術映像をジェスチャやツール使用セグメントに分割する姿勢推定能力を評価し,運動センサやi3d機能と比較した。 さらに,本手法では生の映像から自動的に検出できる領域の専門家のトレーニングアドバイスをもとに,新たな6つの手術スキルプロキシを導入する。 結果:複数角度からの2DポーズとI3D特徴の融合により,Open Surgery Simulationデータセットの最先端ジェスチャーセグメント精度88.49%を達成する。 導入した手術スキルプロキシは,熟練者に比べて初心者に有意な差を示し,改善のための行動的フィードバックが得られた。 結語:本研究は,ジェスチャー分割とスキルアセスメントの有効性を解析し,開腹手術におけるポーズ推定の利点を示す。 ポーズ推定を用いたジェスチャーセグメンテーションは、リモートかつマーカーレスで物理的センサーと同等の結果を得た。 ポーズ推定に依存する外科的スキルプロキシは、自動トレーニングフィードバックの開発に使用できることを証明した。 外科的訓練をより効率的にするための,新たなスキルプロキシのさらなるコラボレーションが期待できる。

Purpose: This research aims to facilitate the use of state-of-the-art computer vision algorithms for the automated training of surgeons and the analysis of surgical footage. By estimating 2D hand poses, we model the movement of the practitioner's hands, and their interaction with surgical instruments, to study their potential benefit for surgical training. Methods: We leverage pre-trained models on a publicly-available hands dataset to create our own in-house dataset of 100 open surgery simulation videos with 2D hand poses. We also assess the ability of pose estimations to segment surgical videos into gestures and tool-usage segments and compare them to kinematic sensors and I3D features. Furthermore, we introduce 6 novel surgical skill proxies stemming from domain experts' training advice, all of which our framework can automatically detect given raw video footage. Results: State-of-the-art gesture segmentation accuracy of 88.49% on the Open Surgery Simulation dataset is achieved with the fusion of 2D poses and I3D features from multiple angles. The introduced surgical skill proxies presented significant differences for novices compared to experts and produced actionable feedback for improvement. Conclusion: This research demonstrates the benefit of pose estimations for open surgery by analyzing their effectiveness in gesture segmentation and skill assessment. Gesture segmentation using pose estimations achieved comparable results to physical sensors while being remote and markerless. Surgical skill proxies that rely on pose estimation proved they can be used to work towards automated training feedback. We hope our findings encourage additional collaboration on novel skill proxies to make surgical training more efficient.
翻訳日:2022-11-15 18:24:26 公開日:2022-11-13
# SMR: 機械認識指向画像と映像圧縮のための満足度マシン比モデリング

SMR: Satisfied Machine Ratio Modeling for Machine Recognition-Oriented Image and Video Compression ( http://arxiv.org/abs/2211.06797v1 )

ライセンス: Link先を確認
Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Jingshan Pan, Siwei Ma, Wen Gao(参考訳) 大量の画像やビデオが、視覚認識のためのマシンに常時供給される。 人間の視覚システム(HVS)と同様に、マシンビジョンシステム(MVS)は、品質劣化が情報損失と認識障害をもたらすため、画像の品質に敏感である。 近年,mvsを対象とする画像処理,特に画像圧縮や映像圧縮が登場している。 しかし、既存の手法は一般的なマシンコミュニティではなく個々のマシンのみを対象としているため、あらゆる種類のマシンを満足することができない。 さらに、圧縮効率を抑えるMVS特性は十分に活用されていない。 本稿では,これらの問題に対処するための新しい概念であるSatisfied Machine Ratio(SMR)を紹介する。 SMRは、多量・多種多様な機械被写体から満足度スコアを収集し、組み合わせることで、画像品質を機械の観点から統計的に測定し、そのスコアとMVS特性を適切に考慮した。 SMR研究のための2200万以上の注釈付き画像を含む、最初の大規模SMRデータセットを作成します。 さらに,圧縮画像やビデオフレームのSMRを予測するために,深層学習に基づくモデルを提案する。 大規模な実験により、SMRモデルを用いることで、認識指向画像とビデオ圧縮の性能が大幅に向上することが示された。 そして、smrモデルは、見えないマシン、圧縮フレームワーク、データセットにうまく一般化します。

Tons of images and videos are fed into machines for visual recognition all the time. Like human vision system (HVS), machine vision system (MVS) is sensitive to image quality, as quality degradation leads to information loss and recognition failure. In recent years, MVS-targeted image processing, particularly image and video compression, has emerged. However, existing methods only target an individual machine rather than the general machine community, thus cannot satisfy every type of machine. Moreover, the MVS characteristics are not well leveraged, which limits compression efficiency. In this paper, we introduce a new concept, Satisfied Machine Ratio (SMR), to address these issues. SMR statistically measures the image quality from the machine's perspective by collecting and combining satisfaction scores from a large quantity and variety of machine subjects, where such scores are obtained with MVS characteristics considered properly. We create the first large-scale SMR dataset that contains over 22 million annotated images for SMR studies. Furthermore, a deep learning-based model is proposed to predict the SMR for any given compressed image or video frame. Extensive experiments show that using the SMR model can significantly improve the performance of machine recognition-oriented image and video compression. And the SMR model generalizes well to unseen machines, compression frameworks, and datasets.
翻訳日:2022-11-15 18:15:55 公開日:2022-11-13
# 長距離ゼロショット生成深部ネットワーク量子化

Long-Range Zero-Shot Generative Deep Network Quantization ( http://arxiv.org/abs/2211.06816v1 )

ライセンス: Link先を確認
Yan Luo, Yangcheng Gao, Zhao Zhang, Haijun Zhang, Mingliang Xu, Meng Wang(参考訳) 量子化は、推論を加速し計算を減らすために、浮動小数点数を持つディープネットワークモデルを低ビット幅のネットワークモデルに近似する。 元のデータにアクセスせずにモデルを量子化することで、データ合成によって実際のデータ分布を適合させることでゼロショット量子化を実現できる。 しかし、ゼロショット量子化は実データによる後学習量子化よりも性能が劣る。 原因は以下の通り。 1) 通常の発電機は、グローバルな特徴に注意を向ける長距離情報がないため、高い多様性の合成データを得るのは難しい。 2) 合成画像は実データの統計をシミュレートすることを目的としており, クラス内不均一性が弱く, 特徴量も限られている。 これらの問題を解決するために,Long-Range Zero-Shot Generative Deep Network Quantization (LRQ) と呼ばれる新しいディープネットワーク量子化器を提案する。 技術的には、単純な局所的特徴ではなく、長距離情報を学ぶための長距離生成器を提案する。 合成データがよりグローバルな特徴を含むためには、大きなカーネル畳み込みを用いた長距離の注意を発電機に組み込む。 また,特徴ベクトルとクラス中心の間のクラス内角拡大を強制するAdversarial Margin Add (AMA)モジュールも提案する。 amaは、元の損失関数の訓練目的とは逆の損失関数の収束困難度を増大させるので、逆プロセスを形成する。 さらに, 完全精度ネットワークから知識を伝達するために, 分離された知識蒸留も活用する。 広範な実験により、LRQは他の競合他社よりも優れた性能が得られることが示された。

Quantization approximates a deep network model with floating-point numbers by the one with low bit width numbers, in order to accelerate inference and reduce computation. Quantizing a model without access to the original data, zero-shot quantization can be accomplished by fitting the real data distribution by data synthesis. However, zero-shot quantization achieves inferior performance compared to the post-training quantization with real data. We find it is because: 1) a normal generator is hard to obtain high diversity of synthetic data, since it lacks long-range information to allocate attention to global features; 2) the synthetic images aim to simulate the statistics of real data, which leads to weak intra-class heterogeneity and limited feature richness. To overcome these problems, we propose a novel deep network quantizer, dubbed Long-Range Zero-Shot Generative Deep Network Quantization (LRQ). Technically, we propose a long-range generator to learn long-range information instead of simple local features. In order for the synthetic data to contain more global features, long-range attention using large kernel convolution is incorporated into the generator. In addition, we also present an Adversarial Margin Add (AMA) module to force intra-class angular enlargement between feature vector and class center. As AMA increases the convergence difficulty of the loss function, which is opposite to the training objective of the original loss function, it forms an adversarial process. Furthermore, in order to transfer knowledge from the full-precision network, we also utilize a decoupled knowledge distillation. Extensive experiments demonstrate that LRQ obtains better performance than other competitors.
翻訳日:2022-11-15 18:15:35 公開日:2022-11-13
# 無監督点雲完了のためのエネルギーベース残留遅延輸送

Energy-Based Residual Latent Transport for Unsupervised Point Cloud Completion ( http://arxiv.org/abs/2211.06820v1 )

ライセンス: Link先を確認
Ruikai Cui, Shi Qiu, Saeed Anwar, Jing Zhang, Nick Barnes(参考訳) 教師なしの点雲完了は、部分完全対応を必要としない部分的対象観測の全体像を推測することを目的としている。 既存の決定論的アプローチとは違って、生成モデリングに基づく教師なしの点雲の完備化を提唱する。 具体的には,部分的な形状の符号化を潜在輸送モジュールを用いて完全な形状に変換し,エンコーダ・デコーダアーキテクチャにおける潜在空間エネルギーベースモデル(EBM)として設計し,部分的な形状の符号化を条件とした確率分布の学習を目的とする。 潜在コードトランスポートモジュールとエンコーダ-デコーダネットワークを共同で訓練するために,残差が部分空間と完全形状潜在空間の間の領域ギャップをキャプチャする残差サンプリング戦略を導入する。 生成モデルに基づくフレームワークとして,本手法は人間の知覚に整合した不確実性マップを生成することができる。 提案手法が精度の高い完成結果をもたらすことを実験的に示し,最先端モデルを有意なマージンで上回った。

Unsupervised point cloud completion aims to infer the whole geometry of a partial object observation without requiring partial-complete correspondence. Differing from existing deterministic approaches, we advocate generative modeling based unsupervised point cloud completion to explore the missing correspondence. Specifically, we propose a novel framework that performs completion by transforming a partial shape encoding into a complete one using a latent transport module, and it is designed as a latent-space energy-based model (EBM) in an encoder-decoder architecture, aiming to learn a probability distribution conditioned on the partial shape encoding. To train the latent code transport module and the encoder-decoder network jointly, we introduce a residual sampling strategy, where the residual captures the domain gap between partial and complete shape latent spaces. As a generative model-based framework, our method can produce uncertainty maps consistent with human perception, leading to explainable unsupervised point cloud completion. We experimentally show that the proposed method produces high-fidelity completion results, outperforming state-of-the-art models by a significant margin.
翻訳日:2022-11-15 18:15:09 公開日:2022-11-13
# Cosine Transformerを用いたFew-shot画像分類の高速化

Enhancing Few-shot Image Classification with Cosine Transformer ( http://arxiv.org/abs/2211.06828v1 )

ライセンス: Link先を確認
Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham, Minh N. Do(参考訳) 本稿では,少ないショット画像の分類問題に対処する。 少数ショット学習の注目すべき制限の1つは、同じカテゴリを記述する際のバリエーションであり、小さなラベル付きサポートと大きなラベル付きクエリセットとの間に大きな違いが生じる可能性がある。 提案手法は,2つの集合間の関係ヒートマップを取得し,後者をトランスダクティブな設定でラベル付けすることである。 これは、スケールしたドット生成機構によるクロスアテンションを用いて解決できる。 しかし、2つの異なる組の埋め込みベクトル間のマグニチュード差は出力注意マップに大きな影響を与え、モデル性能に影響を及ぼす可能性がある。 我々は、コサイン類似性による注意機構の改善によりこの問題に対処する。 具体的には,FS-CT(Few-shot Cosine Transformer)を開発した。 提案するコサインアテンションは,ミニイメージネット,cub-200,cifar-fsの3つのマイナショットデータセットにおいて,各種シナリオのベースラインスケールドドット製品アテンションと比較して,fs-ctの性能を5%から20%以上向上させた。 さらに,注意モジュールに与える前に,学習可能な重みでカテゴリ表現のための原型的埋め込みを強化する。 提案手法であるFS-CTとCosineの注意は実装が簡単であり,幅広い応用に適用可能である。 私たちのコードはhttps://github.com/vinuni-vishc/Few-Shot-Cosine-Transformerで利用可能です。

This paper addresses the few-shot image classification problem. One notable limitation of few-shot learning is the variation in describing the same category, which might result in a significant difference between small labeled support and large unlabeled query sets. Our approach is to obtain a relation heatmap between the two sets in order to label the latter one in a transductive setting manner. This can be solved by using cross-attention with the scaled dot-product mechanism. However, the magnitude differences between two separate sets of embedding vectors may cause a significant impact on the output attention map and affect model performance. We tackle this problem by improving the attention mechanism with cosine similarity. Specifically, we develop FS-CT (Few-shot Cosine Transformer), a few-shot image classification method based on prototypical embedding and transformer-based framework. The proposed Cosine attention improves FS-CT performances significantly from nearly 5% to over 20% in accuracy compared to the baseline scaled dot-product attention in various scenarios on three few-shot datasets mini-ImageNet, CUB-200, and CIFAR-FS. Additionally, we enhance the prototypical embedding for categorical representation with learnable weights before feeding them to the attention module. Our proposed method FS-CT along with the Cosine attention is simple to implement and can be applied for a wide range of applications. Our codes are available at https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
翻訳日:2022-11-15 18:14:46 公開日:2022-11-13
# 機能アライメントを超えた一般化:コンセプトアクティベーションによるコントラスト学習

Generalization Beyond Feature Alignment: Concept Activation-Guided Contrastive Learning ( http://arxiv.org/abs/2211.06843v1 )

ライセンス: Link先を確認
Yibing Liu, Chris Xing Tian, Haoliang Li, Shiqi Wang(参考訳) コントラスト学習による不変表現の学習は、ドメイン一般化(dg)において最先端のパフォーマンスを示す。 このような成功にもかかわらず、本論文では、そのコア学習戦略 -- 機能アライメント -- がモデルの一般化を妨げる可能性があることを見出します。 近年の神経細胞の解釈能力の進歩に触発されて,ニューロンの活性化の観点からこの問題を特徴づける。 具体的には、特徴要素をニューロン活性化状態として扱うことにより、従来のアライメント手法は学習した不変な特徴の多様性を低下させる傾向を示し、ニューロン活性化の差を無差別に最小化する。 これは代わりにニューロン間のリッチな関係を無視し、多くの場合、同じ視覚概念を識別する。 この発見により,ニューロンにコードされる高レベル概念を対比することにより,要素的特徴のアライメントを緩和する,単純かつ効果的なアプローチである \textit{concept contrast} (coco) を提案する。 このアプローチは非常に柔軟であり、DGのあらゆる対照的な方法に統合することができる。 広範な実験を通じて、我々のCoCoは特徴表現の多様性を促進し、DomainBedベンチマークよりもモデル一般化能力を一貫して改善することを示す。

Learning invariant representations via contrastive learning has seen state-of-the-art performance in domain generalization (DG). Despite such success, in this paper, we find that its core learning strategy -- feature alignment -- could heavily hinder the model generalization. Inspired by the recent progress in neuron interpretability, we characterize this problem from a neuron activation view. Specifically, by treating feature elements as neuron activation states, we show that conventional alignment methods tend to deteriorate the diversity of learned invariant features, as they indiscriminately minimize all neuron activation differences. This instead ignores rich relations among neurons -- many of them often identify the same visual concepts though they emerge differently. With this finding, we present a simple yet effective approach, \textit{Concept Contrast} (CoCo), which relaxes element-wise feature alignments by contrasting high-level concepts encoded in neurons. This approach is highly flexible and can be integrated into any contrastive method in DG. Through extensive experiments, we further demonstrate that our CoCo promotes the diversity of feature representations, and consistently improves model generalization capability over the DomainBed benchmark.
翻訳日:2022-11-15 18:14:22 公開日:2022-11-13
# モチーフ検出を用いた会話パターンマイニング

Conversational Pattern Mining using Motif Detection ( http://arxiv.org/abs/2211.06846v1 )

ライセンス: Link先を確認
Nicolle Garber, Vukosi Marivate(参考訳) 近年,ソーシャルメディアやオンラインメディアの爆発により,会話的マイニングの話題が注目されている。 このテキストの爆発を補うことは、これらの情報ソースを活用するのに役立った、事前学習された言語モデルの進歩です。 分析する興味深い領域は、複雑性と価値の観点から会話である。 複雑性は、会話が非同期で複数の相手を巻き込むことができるという事実によって生じる。 また、計算処理にも集中している。 我々は,時間消費や知識要求,資源集約的なラベル付けを必要としない対話型パターンマイニング手法を開発するために,教師なしの手法を用いた。 配列の繰り返しパターンを識別するタスクは、バイオインフォマティクスの分野でよく研究されている。 本研究では,これを自然言語処理の分野に適用し,モチーフ検出アルゴリズムの拡張を行った。 動的,実世界のデータセットへのアルゴリズムの適用を実証するために,オープンソースのフィルムスクリプトデータソースからモチーフを抽出する。 私たちは、採掘できるモチーフの種類を探索的に調査しています。

The subject of conversational mining has become of great interest recently due to the explosion of social and other online media. Supplementing this explosion of text is the advancement in pre-trained language models which have helped us to leverage these sources of information. An interesting domain to analyse is conversations in terms of complexity and value. Complexity arises due to the fact that a conversation can be asynchronous and can involve multiple parties. It is also computationally intensive to process. We use unsupervised methods in our work in order to develop a conversational pattern mining technique which does not require time consuming, knowledge demanding and resource intensive labelling exercises. The task of identifying repeating patterns in sequences is well researched in the Bioinformatics field. In our work, we adapt this to the field of Natural Language Processing and make several extensions to a motif detection algorithm. In order to demonstrate the application of the algorithm on a dynamic, real world data set; we extract motifs from an open-source film script data source. We run an exploratory investigation into the types of motifs we are able to mine.
翻訳日:2022-11-15 17:31:50 公開日:2022-11-13
# Xu at SemEval-2022 Task 4: Pre-BERT Neural Network Methods vs Post-BERT RoBERTa Approach for Patronizing and Condescending Language Detection (英語)

Xu at SemEval-2022 Task 4: Pre-BERT Neural Network Methods vs Post-BERT RoBERTa Approach for Patronizing and Condescending Language Detection ( http://arxiv.org/abs/2211.06874v1 )

ライセンス: Link先を確認
Jinghua Xu(参考訳) 本稿では,SemEval-2022 Task 4: Patronizing and Condescending Language Detectionへの参加について述べる。 私は2つのサブタスクに参加します: パーパナライズとコンデコンディング言語(pcl)の識別、パタライズとコンデコンディング言語分類、主にサブタスクに焦点をあてます。 1) 前BERTニューラルネットワーク(NN)と後BERT事前訓練言語モデルRoBERTaを比較した。 本研究は,実験におけるNNベースのシステムは,事前訓練された言語モデルと比較して,タスクに悪影響を及ぼすことを示した。 RoBERTaは78チーム中26チーム(F1スコア:54.64)、49チーム中23チーム(F1スコア:30.03)にランクインしている。 2.

This paper describes my participation in the SemEval-2022 Task 4: Patronizing and Condescending Language Detection. I participate in both subtasks: Patronizing and Condescending Language (PCL) Identification and Patronizing and Condescending Language Categorization, with the main focus put on subtask 1. The experiments compare pre-BERT neural network (NN) based systems against post-BERT pretrained language model RoBERTa. This research finds NN-based systems in the experiments perform worse on the task compared to the pretrained language models. The top-performing RoBERTa system is ranked 26 out of 78 teams (F1-score: 54.64) in subtask 1, and 23 out of 49 teams (F1-score: 30.03) in subtask 2.
翻訳日:2022-11-15 17:31:35 公開日:2022-11-13
# mOKB6: 多言語オープンな知識ベースコンプリートベンチマーク

mOKB6: A Multilingual Open Knowledge Base Completion Benchmark ( http://arxiv.org/abs/2211.06959v1 )

ライセンス: Link先を確認
Shubham Mittal, Keshav Kolluru, Soumen Chakrabarti, Mausam(参考訳) テキストからオープン情報抽出(IE)によって得られる3つの形(対象語句、関係語句、対象語句)から構築されたオープン知識ベース(KB)の自動補完は、テキストに直接存在しない可能性のある新しい事実を発見するのに有用である。 しかしながら、オープンナレッジベース補完(KBC)の研究は、これまで英語のようなリソース豊富な言語に限られてきた。 マルチ言語オープンIEの最新の進歩を利用して、Wikipediaの事実を6言語(英語を含む)で記述した、mOKB6と呼ばれる最初のマルチ言語オープンKBCデータセットを構築した。 従来のオープンKB構築パイプラインは,マルチリンガルコア参照の解決と,エンティティリンク三重項のみの保持により改善され,より密接なオープンKBが生成される。 オープンかつクローズドなKBに対して提案されたいくつかのベースラインモデルを試行し、他の言語から得られる知識を利用することによる一貫した利点を観察する。 データセットと付随するコードは公開される予定だ。

Automated completion of open knowledge bases (KBs), which are constructed from triples of the form (subject phrase, relation phrase, object phrase) obtained via open information extraction (IE) from text, is useful for discovering novel facts that may not directly be present in the text. However, research in open knowledge base completion (KBC) has so far been limited to resource-rich languages like English. Using the latest advances in multilingual open IE, we construct the first multilingual open KBC dataset, called mOKB6, that contains facts from Wikipedia in six languages (including English). Improving the previous open KB construction pipeline by doing multilingual coreference resolution and keeping only entity-linked triples, we create a dense open KB. We experiment with several baseline models that have been proposed for both open and closed KBs and observe a consistent benefit of using knowledge gained from other languages. The dataset and accompanying code will be made publicly available.
翻訳日:2022-11-15 17:31:17 公開日:2022-11-13
# BiFSMNv2: キーワードスポッティングのためのバイナリニューラルネットワークを実ネットワーク性能にプッシュする

BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to Real-Network Performance ( http://arxiv.org/abs/2211.06987v1 )

ライセンス: Link先を確認
Haotong Qin, Xudong Ma, Yifu Ding, Xiaoyang Li, Yang Zhang, Zejun Ma, Jiakai Wang, Jie Luo, Xianglong Liu(参考訳) Deep-FSMNのようなディープニューラルネットワークは、高価な計算とストレージに悩まされながらキーワードスポッティング(KWS)アプリケーションとして広く研究されている。 したがって、二項化のようなネットワーク圧縮技術を用いて、KWSモデルをエッジに展開する。 本稿では,kwsのための強力かつ効率的なバイナリニューラルネットワークであるbifsmnv2を提案する。 まず,2次元化演算ユニットの2次元活性化バイナライゼーションにより表現能力を回復し,全体的なアーキテクチャの観点から高速化ポテンシャルを解放する2次元化可能な1ビットアーキテクチャを提案する。 第2に,高周波数成分と低周波数成分を独立に蒸留し,全精度表現と2値化表現間の情報ミスマッチを緩和するkws2値化アウェアトレーニングのための周波数独立蒸留スキームを構築した。 さらに,レジスタの完全活用と命令スループットの向上を図ったFast Bitwise Computation Kernelを,ARMv8のリアルタイムハードウェアに実装した。 総合的な実験により、我々のBiFSMNv2は、さまざまなデータセットのマージンを証明し、完全な精度のネットワーク(音声コマンドV1-12ではわずか1.59%)で同等の精度を達成することで、KWSの既存のバイナリネットワークより優れています。 小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。

Deep neural networks, such as the Deep-FSMN, have been widely studied for keyword spotting (KWS) applications while suffering expensive computation and storage. Therefore, network compression technologies like binarization are studied to deploy KWS models on edge. In this paper, we present a strong yet efficient binary neural network for KWS, namely BiFSMNv2, pushing it to the real-network accuracy performance. First, we present a Dual-scale Thinnable 1-bit-Architecture to recover the representation capability of the binarized computation units by dual-scale activation binarization and liberate the speedup potential from an overall architecture perspective. Second, we also construct a Frequency Independent Distillation scheme for KWS binarization-aware training, which distills the high and low-frequency components independently to mitigate the information mismatch between full-precision and binarized representations. Moreover, we implement BiFSMNv2 on ARMv8 real-world hardware with a novel Fast Bitwise Computation Kernel, which is proposed to fully utilize registers and increase instruction throughput. Comprehensive experiments show our BiFSMNv2 outperforms existing binary networks for KWS by convincing margins across different datasets and even achieves comparable accuracy with the full-precision networks (e.g., only 1.59% drop on Speech Commands V1-12). We highlight that benefiting from the compact architecture and optimized hardware kernel, BiFSMNv2 can achieve an impressive 25.1x speedup and 20.2x storage-saving on edge hardware.
翻訳日:2022-11-15 17:30:59 公開日:2022-11-13
# GreenPLM:(ほとんど)コストなしで変換できる言語間事前訓練言語モデル

GreenPLM: Cross-lingual pre-trained language models conversion with (almost) no cost ( http://arxiv.org/abs/2211.06993v1 )

ライセンス: Link先を確認
Qingcheng Zeng, Lucas Garay, Peilin Zhou, Dading Chong, Yining Hua, Jiageng Wu, Yikang Pan, Han Zhou, Jie Yang(参考訳) 大規模事前学習モデルは自然言語処理(NLP)の分野に変化をもたらしたが、訓練コストの高騰と言語間の相互利用の低さにより、新しい進歩が全ての言語、特に話の少ない言語で等しく共有されるのを防ぐ。 NLP研究における全ての言語話者の平等な機会の促進と持続可能性のためのエネルギー消費の削減を目的として,両言語レキシコンを用いて,一言語の言語モデルを(ほとんど)追加費用なしで(ほぼ)他言語へ直接翻訳する効果的でエネルギー効率の良いフレームワークであるGreenPLMを提案する。 このアプローチを18の言語で検証し、このフレームワークが高いコストでトレーニングされた他のヒューリスティックと同等であることを示す。 さらに、計算コスト(2.5%)が低い場合、フレームワークは7つのテスト言語のうち6つでオリジナルの単言語モデルを上回る。 このアプローチは簡単に実装でき、すぐに英語から翻訳された50言語で言語モデルをリリースします。

While large pre-trained models have transformed the field of natural language processing (NLP), the high training cost and low cross-lingual availability of such models prevent the new advances from being equally shared by users across all languages, especially the less spoken ones. To promote equal opportunities for all language speakers in NLP research and to reduce energy consumption for sustainability, this study proposes an effective and energy-efficient framework GreenPLM that uses bilingual lexicons to directly translate language models of one language into other languages at (almost) no additional cost. We validate this approach in 18 languages and show that this framework is comparable to, if not better than, other heuristics trained with high cost. In addition, when given a low computational cost (2.5%), the framework outperforms the original monolingual language models in six out of seven tested languages. This approach can be easily implemented, and we will release language models in 50 languages translated from English soon.
翻訳日:2022-11-15 17:30:29 公開日:2022-11-13
# 読み出し予測におけるxgboostよりも医師の単語感受性に適合する言語モデル分類器

Language Model Classifier Aligns Better with Physician Word Sensitivity than XGBoost on Readmission Prediction ( http://arxiv.org/abs/2211.07047v1 )

ライセンス: Link先を確認
Grace Yang, Ming Cao, Lavender Y. Jiang, Xujin C. Liu, Alexander T.M. Cheung, Hannah Weiss, Davied Kurland, Kyunghyun Cho, Eric K. Oermann(参考訳) 曲線の下の精度や領域といった自然言語処理における分類のための従来の評価基準は、類似のパフォーマンス指標にもかかわらず、異なる予測行動を持つモデル間で区別できない。 モデルの振る舞いを語彙レベルで精査し、意思決定ロジックの差異に関する洞察を提供する指標である感度スコアを導入する。 本研究は, 病院入所分類のための2つの分類器を用いて, テストセットにおける代表語群に対する感度スコアを評価した。 本実験は,感度スコアのランク相関に基づく臨床医と分類士の意思決定論理を比較した。 その結果, 言語モデルの感度スコアは, tf-idf埋め込みにおけるxgboost分類器よりも, プロとよく一致していることが示唆された。 全体として、この指標はモデルの堅牢性を評価するための新しい視点を提供する。 私たちのコードはgithubで入手できる(https://github.com/nyuolab/model_sensitivity)。

Traditional evaluation metrics for classification in natural language processing such as accuracy and area under the curve fail to differentiate between models with different predictive behaviors despite their similar performance metrics. We introduce sensitivity score, a metric that scrutinizes models' behaviors at the vocabulary level to provide insights into disparities in their decision-making logic. We assess the sensitivity score on a set of representative words in the test set using two classifiers trained for hospital readmission classification with similar performance statistics. Our experiments compare the decision-making logic of clinicians and classifiers based on rank correlations of sensitivity scores. The results indicate that the language model's sensitivity score aligns better with the professionals than the xgboost classifier on tf-idf embeddings, which suggests that xgboost uses some spurious features. Overall, this metric offers a novel perspective on assessing models' robustness by quantifying their discrepancy with professional opinions. Our code is available on GitHub (https://github.com/nyuolab/Model_Sensitivity).
翻訳日:2022-11-15 17:30:09 公開日:2022-11-13
# 楕円型テンソル変量分布と画像学習への応用

Elliptically-Contoured Tensor-variate Distributions with Application to Improved Image Learning ( http://arxiv.org/abs/2211.06940v1 )

ライセンス: Link先を確認
Carlos Llosa-Vite and Ranjan Maitra(参考訳) テンソル値データの統計的解析は、重み付きあるいは軽い尾を持つ分布から得られるデータが不十分なテンソル変数正規分布(TVN)を主に用いている。 本研究は, 楕円型コントゥール(EC)テンソル変量分布の一般族を解析し, その特性, モーメント, 境界および条件分布, およびECウィッシュアート分布を導出する。 本稿では,(1)EC分布からの非相関なドロー,(2)TVN分布のスケール混合,(3)基礎的だが未知のEC分布からの最大推定手順について述べる。 詳細なシミュレーション研究は、重いテールデータに対してTVNよりもEC分布を選択する利点を強調している。 判別分析とec誤差を用いてテンソル変量分類ルールを開発し,tvnに基づくルールよりも,動物顔hqデータセット内の画像から猫や犬を予測しやすいことを示す。 ECエラー下での分散(TANOVA)フレームワークの新しいテンソル・オン・テンソル・レグレッションとテンソル・ヴァリエート分析は、有望なRaveed Faces of the Wildデータセットにおける通常のTVNベースのTANOVAよりも、性別、年齢、民族的起源のキャラクタリゼーションを改善することが示されている。

Statistical analysis of tensor-valued data has largely used the tensor-variate normal (TVN) distribution that may be inadequate when data comes from distributions with heavier or lighter tails. We study a general family of elliptically contoured (EC) tensor-variate distributions and derive its characterizations, moments, marginal and conditional distributions, and the EC Wishart distribution. We describe procedures for maximum likelihood estimation from data that are (1) uncorrelated draws from an EC distribution, (2) from a scale mixture of the TVN distribution, and (3) from an underlying but unknown EC distribution, where we extend Tyler's robust estimator. A detailed simulation study highlights the benefits of choosing an EC distribution over the TVN for heavier-tailed data. We develop tensor-variate classification rules using discriminant analysis and EC errors and show that they better predict cats and dogs from images in the Animal Faces-HQ dataset than the TVN-based rules. A novel tensor-on-tensor regression and tensor-variate analysis of variance (TANOVA) framework under EC errors is also demonstrated to better characterize gender, age and ethnic origin than the usual TVN-based TANOVA in the celebrated Labeled Faces of the Wild dataset.
翻訳日:2022-11-15 17:22:06 公開日:2022-11-13
# torchopt: 微分可能最適化のための効率的なライブラリ

TorchOpt: An Efficient Library for Differentiable Optimization ( http://arxiv.org/abs/2211.06934v1 )

ライセンス: Link先を確認
Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang(参考訳) 近年、様々な微分可能最適化アルゴリズムのブームが見られた。 これらのアルゴリズムは異なる実行パターンを示し、その実行には単一のCPUとGPUを超える膨大な計算リソースが必要です。 しかし、既存の微分可能最適化ライブラリは効率的なアルゴリズム開発とマルチcpu/gpu実行をサポートできないため、微分可能最適化アルゴリズムの開発は複雑で高価であることが多い。 本稿では、PyTorchをベースとした微分最適化のための効率的なライブラリTorchOptを紹介する。 torchoptは統一的で表現力に富んだ最適化プログラミング抽象化を提供する。 この抽象化により、明示的な勾配、暗黙的な勾配、ゼロ階勾配を持つ様々な微分可能最適化プログラムを効率的に宣言し、分析することができる。 TorchOptはさらに高性能な分散実行ランタイムを提供する。 このランタイムは、CPU/GPU上で計算集約的な微分操作(テンソルツリーフラット化など)を完全に並列化し、分散デバイスに自動的に計算を分散することができる。 実験の結果、TorchOptは8GPUサーバ上でトレーニングタイムのスピードアップを5.2\timesで達成している。 TorchOptは、https://github.com/metaopt/torchopt/.comで入手できる。

Recent years have witnessed the booming of various differentiable optimization algorithms. These algorithms exhibit different execution patterns, and their execution needs massive computational resources that go beyond a single CPU and GPU. Existing differentiable optimization libraries, however, cannot support efficient algorithm development and multi-CPU/GPU execution, making the development of differentiable optimization algorithms often cumbersome and expensive. This paper introduces TorchOpt, a PyTorch-based efficient library for differentiable optimization. TorchOpt provides a unified and expressive differentiable optimization programming abstraction. This abstraction allows users to efficiently declare and analyze various differentiable optimization programs with explicit gradients, implicit gradients, and zero-order gradients. TorchOpt further provides a high-performance distributed execution runtime. This runtime can fully parallelize computation-intensive differentiation operations (e.g. tensor tree flattening) on CPUs / GPUs and automatically distribute computation to distributed devices. Experimental results show that TorchOpt achieves $5.2\times$ training time speedup on an 8-GPU server. TorchOpt is available at: https://github.com/metaopt/torchopt/.
翻訳日:2022-11-15 17:21:41 公開日:2022-11-13
# 深層学習による生体試料の仮想組織染色

Deep Learning-enabled Virtual Histological Staining of Biological Samples ( http://arxiv.org/abs/2211.06822v1 )

ライセンス: Link先を確認
Bijie Bai, Xilin Yang, Yuzhu Li, Yijie Zhang, Nir Pillar, Aydogan Ozcan(参考訳) 組織染色 (histological staining) は臨床病理学および生命科学研究における組織検査の金本位であり、染色染料や蛍光標識を用いて組織や細胞構造を可視化し、組織を微視的に評価する。 しかしながら、現在の組織染色ワークフローでは、退屈なサンプル準備手順、専門的な実験室インフラ、訓練された組織技術者が必要であり、費用がかかり、時間がかかり、リソース制限された環境ではアクセスできない。 ディープラーニング技術は、トレーニングされたニューラルネットワークを使用して組織学的染色をデジタル生成し、標準的な化学染色法に迅速で費用効果があり、正確な代替手段を提供することによって、染色方法に革命をもたらす新たな機会を生み出した。 これらの技術は、広く仮想染色と呼ばれ、複数の研究グループによって広範囲に研究され、ラベルのない無傷試料の顕微鏡画像から様々な種類の組織染色を生成できることが証明された。 本稿では,ディープラーニングを利用した仮想組織染色技術における最近の研究動向を概観する。 仮想染色の基本概念と典型的なワークフローが紹介され、続いて代表作とその技術革新に関する議論が続く。 私たちはまた、この新興分野の将来についての見解を共有し、さまざまな科学分野の読者を刺激し、深層学習可能な仮想組織染色技術とその応用の範囲をさらに拡大することを目指している。

Histological staining is the gold standard for tissue examination in clinical pathology and life-science research, which visualizes the tissue and cellular structures using chromatic dyes or fluorescence labels to aid the microscopic assessment of tissue. However, the current histological staining workflow requires tedious sample preparation steps, specialized laboratory infrastructure, and trained histotechnologists, making it expensive, time-consuming, and not accessible in resource-limited settings. Deep learning techniques created new opportunities to revolutionize staining methods by digitally generating histological stains using trained neural networks, providing rapid, cost-effective, and accurate alternatives to standard chemical staining methods. These techniques, broadly referred to as virtual staining, were extensively explored by multiple research groups and demonstrated to be successful in generating various types of histological stains from label-free microscopic images of unstained samples; similar approaches were also used for transforming images of an already stained tissue sample into another type of stain, performing virtual stain-to-stain transformations. In this Review, we provide a comprehensive overview of the recent research advances in deep learning-enabled virtual histological staining techniques. The basic concepts and the typical workflow of virtual staining are introduced, followed by a discussion of representative works and their technical innovations. We also share our perspectives on the future of this emerging field, aiming to inspire readers from diverse scientific fields to further expand the scope of deep learning-enabled virtual histological staining techniques and their applications.
翻訳日:2022-11-15 17:12:42 公開日:2022-11-13
# FedRule: グラフニューラルネットワークを用いたフェデレーションルール推奨システム

FedRule: Federated Rule Recommendation System with Graph Neural Networks ( http://arxiv.org/abs/2211.06812v1 )

ライセンス: Link先を確認
Yuhang Yao, Mohammad Mahdi Kamani, Zhongwei Cheng, Lin Chen, Carlee Joe-Wong, Tianqiang Liu(参考訳) IoT(Internet-of-Things)デバイスが‘‘smart’ホームにもたらす価値の多くは、他のデバイスのアクションを自動的にトリガーする能力にある。 しかし、これらのルールをスマートデバイスやアプリケーションに手動で設定することは、時間がかかり非効率である。 ルールレコメンデーションシステムは、以前にデプロイされたルール(例えば、他人のスマートホーム)に基づいて、どのルールが人気であるかを学習することで、自動的にルールを提案することができる。 従来のレコメンデーションでは、中央サーバは、多くのユーザの家で使用されるルールを記録する必要があり、プライバシを侵害し、中央サーバのルールデータベースへの攻撃に対して脆弱である。 さらに、これらのソリューションは通常、ルールレコメンデーション問題の構造を完全に活用しないジェネリックなユーザ-イテム行列メソッドを利用する。 本稿では,これらの課題に対処するため,FedRuleと呼ばれる新しいルールレコメンデーションシステムを提案する。 ユーザが使用するルールs/heに基づいて1つのグラフを構築し、これらのグラフにリンク予測タスクとしてルールレコメンデーションを定式化する。 この定式化により,ユーザのデータをプライベートに保持可能なフェデレーショントレーニングアルゴリズムの設計が可能になる。 大規模な実験は、FedRuleが集中的な設定として同等のパフォーマンスを持ち、従来のソリューションよりも優れていることを示すことで、私たちの主張を裏付けます。

Much of the value that IoT (Internet-of-Things) devices bring to ``smart'' homes lies in their ability to automatically trigger other devices' actions: for example, a smart camera triggering a smart lock to unlock a door. Manually setting up these rules for smart devices or applications, however, is time-consuming and inefficient. Rule recommendation systems can automatically suggest rules for users by learning which rules are popular based on those previously deployed (e.g., in others' smart homes). Conventional recommendation formulations require a central server to record the rules used in many users' homes, which compromises their privacy and leaves them vulnerable to attacks on the central server's database of rules. Moreover, these solutions typically leverage generic user-item matrix methods that do not fully exploit the structure of the rule recommendation problem. In this paper, we propose a new rule recommendation system, dubbed as FedRule, to address these challenges. One graph is constructed per user upon the rules s/he is using, and the rule recommendation is formulated as a link prediction task in these graphs. This formulation enables us to design a federated training algorithm that is able to keep users' data private. Extensive experiments corroborate our claims by demonstrating that FedRule has comparable performance as the centralized setting and outperforms conventional solutions.
翻訳日:2022-11-15 17:03:05 公開日:2022-11-13
# 連合環境におけるプライバシを意識した因果構造学習に向けて

Towards Privacy-Aware Causal Structure Learning in Federated Setting ( http://arxiv.org/abs/2211.06919v1 )

ライセンス: Link先を確認
Jianli Huang, Kui Yu, Xianjie Guo, Fuyuan Cao and Jiye Liang(参考訳) 因果構造学習は機械学習や様々な用途で広く研究され、広く利用されている。 理想的な性能を達成するために、既存の因果構造学習アルゴリズムは、複数のデータソースから大量のデータを集中化する必要がある。 しかし、プライバシ保護設定では、すべてのソースからデータを集中化し、単一のデータセットとしてまとめることは不可能である。 データプライバシを維持するため、新しい学習パラダイムとしてのフェデレーション学習は、近年、マシンラーニングに大きな注目を集めている。 本稿では,フェデレーション設定におけるプライバシを意識した因果構造学習問題について検討し,データの集中化を伴わないデータプライバシ保存のための2つの新しい手法であるfederated pc (fedpc) アルゴリズムを提案する。 具体的には,まず,フェデレーテッドスケルトン学習のためのフェデレーテッド学習パラダイムにpcアルゴリズムをシームレスに適応させるための新しい階層的アグリゲーション戦略を提案し,フェデレーテッドエッジオリエンテーションのための一貫した分離セットを学習するための効果的な戦略を設計する。 この実験により,FedPCは連合学習環境における因果構造学習に有効であることが検証された。

Causal structure learning has been extensively studied and widely used in machine learning and various applications. To achieve an ideal performance, existing causal structure learning algorithms often need to centralize a large amount of data from multiple data sources. However, in the privacy-preserving setting, it is impossible to centralize data from all sources and put them together as a single dataset. To preserve data privacy, federated learning as a new learning paradigm has attached much attention in machine learning in recent years. In this paper, we study a privacy-aware causal structure learning problem in the federated setting and propose a novel Federated PC (FedPC) algorithm with two new strategies for preserving data privacy without centralizing data. Specifically, we first propose a novel layer-wise aggregation strategy for a seamless adaptation of the PC algorithm into the federated learning paradigm for federated skeleton learning, then we design an effective strategy for learning consistent separation sets for federated edge orientation. The extensive experiments validate that FedPC is effective for causal structure learning in federated learning setting.
翻訳日:2022-11-15 16:53:48 公開日:2022-11-13
# Inv-SENnet:バイアスデータによるクラスタリングのための不変自己表現ネットワーク

Inv-SENnet: Invariant Self Expression Network for clustering under biased data ( http://arxiv.org/abs/2211.06780v1 )

ライセンス: Link先を確認
Ashutosh Singh, Ashish Singh, Aria Masoomi, Tales Imbiriba, Erik Learned-Miller, Deniz Erdogmus(参考訳) サブスペースクラスタリングアルゴリズムは、データセットをうまく説明するクラスタ構造を理解するために使用される。 これらの手法は自然科学の様々な分野のデータ探索に広く用いられている。 しかし、これらの手法のほとんどはデータセットの望ましくないバイアスを処理できない。 データサンプルが複数の属性を表すデータセットの場合、いかなるクラスタリングアプローチも望ましくない出力をもたらす可能性がある。 そこで本稿では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去するフレームワークを提案する。 バイアスに関する情報が得られれば,データと不要な属性間の相互情報を最小化するために,逆学習によってクラスタリング手法を規則化する。 合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。

Subspace clustering algorithms are used for understanding the cluster structure that explains the dataset well. These methods are extensively used for data-exploration tasks in various areas of Natural Sciences. However, most of these methods fail to handle unwanted biases in datasets. For datasets where a data sample represents multiple attributes, naively applying any clustering approach can result in undesired output. To this end, we propose a novel framework for jointly removing unwanted attributes (biases) while learning to cluster data points in individual subspaces. Assuming we have information about the bias, we regularize the clustering method by adversarially learning to minimize the mutual information between the data and the unwanted attributes. Our experimental result on synthetic and real-world datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-15 16:47:44 公開日:2022-11-13
# ロバストな領域適応と一般化のための逆およびランダム変換

Adversarial and Random Transformations for Robust Domain Adaptation and Generalization ( http://arxiv.org/abs/2211.06788v1 )

ライセンス: Link先を確認
Liang Xiao, Jiaolong Xu, Dawei Zhao, Erke Shang, Qi Zhu, Bin Dai(参考訳) データ拡張はディープニューラルネットワークのトレーニングの一般化を改善するために広く使われている。 最近の研究は、最悪のケース変換や敵の強化戦略を用いることで、精度と堅牢性を大幅に向上できることを示している。 しかし、画像変換の非微分性のため、強化学習や進化戦略のような探索アルゴリズムを適用する必要があり、大規模な問題に対して計算的に実用的ではない。 本研究では、ランダムデータ拡張による整合性トレーニングを単純に適用することで、ドメイン適応(DA)と一般化(DG)に関する最先端結果が得られることを示す。 本研究では, 空間変換器ネットワーク(STN)をベースとした, 識別可能な逆データ拡張手法を提案する。 逆変換とランダム変換を組み合わせた手法は、複数のDAおよびDGベンチマークデータセット上で最先端の手法より優れている。 さらに, 提案手法は, 一般的に使用されているデータセット上でも検証可能な, 汚損に対する望ましい堅牢性を示す。

Data augmentation has been widely used to improve generalization in training deep neural networks. Recent works show that using worst-case transformations or adversarial augmentation strategies can significantly improve the accuracy and robustness. However, due to the non-differentiable properties of image transformations, searching algorithms such as reinforcement learning or evolution strategy have to be applied, which are not computationally practical for large scale problems. In this work, we show that by simply applying consistency training with random data augmentation, state-of-the-art results on domain adaptation (DA) and generalization (DG) can be obtained. To further improve the accuracy and robustness with adversarial examples, we propose a differentiable adversarial data augmentation method based on spatial transformer networks (STN). The combined adversarial and random transformations based method outperforms the state-of-the-art on multiple DA and DG benchmark datasets. Besides, the proposed method shows desirable robustness to corruption, which is also validated on commonly used datasets.
翻訳日:2022-11-15 16:47:25 公開日:2022-11-13
# 転移学習と融合戦略を用いた胸部x線による慢性閉塞性肺疾患の早期診断

Early Diagnosis of Chronic Obstructive Pulmonary Disease from Chest X-Rays using Transfer Learning and Fusion Strategies ( http://arxiv.org/abs/2211.06925v1 )

ライセンス: Link先を確認
Ryan Wang, Li-Ching Chen, Lama Moukheiber, Mira Moukheiber, Dana Moukheiber, Zach Zaiman, Sulaiman Moukheiber, Tess Litchman, Kenneth Seastedt, Hari Trivedi, Rebecca Steinberg, Po-Chih Kuo, Judy Gichoya, Leo Anthony Celi(参考訳) 慢性閉塞性肺疾患(copd)は、世界で最も一般的な慢性疾患の一つであり、世界でも3番目に多い死因である。 しばしば診断されないか、疾患の経過が遅くなるまで診断されない。 スピロメトリ試験はcopd診断の金本位制であるが、特に資源汚染国では入手が困難である。 しかし、胸部X線(CXR)は容易に利用可能であり、さらなる検査を行うべき COPD 患者のスクリーニングツールとして機能する可能性がある。 現在、大規模なマルチサイトおよびマルチモーダルデータを使用してcopd患者を検出し、集団間で公平性を評価するディープラーニング(dl)アルゴリズムは適用されていない。 研究には3つのCXRデータセット、モデルの事前トレーニングにはCheXpert、開発にはMIMIC-CXR、モデルの検証にはEmory-CXRを使用しました。 COPD早期患者のCXRは, メカニカル換気ではなく, モデルトレーニングと検証のために選択された。 我々は,MIMIC-CXRおよびEmory-CXRテストデータセットのベースモデル上で,真の正のケースのGrad-CAMヒートマップを可視化する。 さらに,(1)MIC-CXRを用いたモデルレベルの融合,(2)MIC-CXRとEmory-CXRを用いたマルチサイトデータを含むデータレベルの融合,(2)MIC-CXRとMIMIC-IV EHRを用いたマルチモーダルという2つの融合方式を提案し,モデル全体の性能を向上させる。 融合スキームが異なる集団間で性能に相違があるかどうかを評価するためにフェアネス分析を行う。 以上の結果から,特にCXRがスピロメトリよりもアクセスしやすい低リソース領域において,早期スクリーニングを容易にするCXRを用いたPDの検出が可能であることが示唆された。 マルチサイトデータ融合方式は、Emory-CXRテストデータのモデル一般化性を向上させることができる。 CXRや他のモダリティを用いたPD予測に関するさらなる研究は、今後の研究が望まれる。

Chronic obstructive pulmonary disease (COPD) is one of the most common chronic illnesses in the world and the third leading cause of mortality worldwide. It is often underdiagnosed or not diagnosed until later in the disease course. Spirometry tests are the gold standard for diagnosing COPD but can be difficult to obtain, especially in resource-poor countries. Chest X-rays (CXRs), however, are readily available and may serve as a screening tool to identify patients with COPD who should undergo further testing. Currently, no research applies deep learning (DL) algorithms that use large multi-site and multi-modal data to detect COPD patients and evaluate fairness across demographic groups. We use three CXR datasets in our study, CheXpert to pre-train models, MIMIC-CXR to develop, and Emory-CXR to validate our models. The CXRs from patients in the early stage of COPD and not on mechanical ventilation are selected for model training and validation. We visualize the Grad-CAM heatmaps of the true positive cases on the base model for both MIMIC-CXR and Emory-CXR test datasets. We further propose two fusion schemes, (1) model-level fusion, including bagging and stacking methods using MIMIC-CXR, and (2) data-level fusion, including multi-site data using MIMIC-CXR and Emory-CXR, and multi-modal using MIMIC-CXRs and MIMIC-IV EHR, to improve the overall model performance. Fairness analysis is performed to evaluate if the fusion schemes have a discrepancy in the performance among different demographic groups. The results demonstrate that DL models can detect COPD using CXRs, which can facilitate early screening, especially in low-resource regions where CXRs are more accessible than spirometry. The multi-site data fusion scheme could improve the model generalizability on the Emory-CXR test data. Further studies on using CXR or other modalities to predict COPD ought to be in future work.
翻訳日:2022-11-15 16:47:00 公開日:2022-11-13
# 条件付き独立グラフの復元方法:調査

Methods for Recovering Conditional Independence Graphs: A Survey ( http://arxiv.org/abs/2211.06829v1 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska(参考訳) 条件独立(CI)グラフは、主に特徴関係についての洞察を得るために使用される確率的グラフィカルモデルの一種である。 各エッジは、直接依存に関する情報を提供する接続された特徴間の部分的相関を表す。 本調査では,CIグラフを復元する手法について,さまざまな手法をリストアップして検討する。 従来の最適化手法に加えて,最近開発されたディープラーニングアーキテクチャや推奨実装についても取り上げる。 広く採用されるためには、例えば混合データ型に対して共分散行列を得る手法など、関連する操作を統合するプリリミナリを含める。

Conditional Independence (CI) graphs are a type of probabilistic graphical models that are primarily used to gain insights about feature relationships. Each edge represents the partial correlation between the connected features which gives information about their direct dependence. In this survey, we list out different methods and study the advances in techniques developed to recover CI graphs. We cover traditional optimization methods as well as recently developed deep learning architectures along with their recommended implementations. To facilitate wider adoption, we include preliminaries that consolidate associated operations, for example techniques to obtain covariance matrix for mixed datatypes.
翻訳日:2022-11-15 16:37:55 公開日:2022-11-13
# 時分割報酬を持つ多腕バンディットの部分報酬分布の一般化

Generalizing distribution of partial rewards for multi-armed bandits with temporally-partitioned rewards ( http://arxiv.org/abs/2211.06883v1 )

ライセンス: Link先を確認
Ronald C. van den Broek, Rik Litjens, Tobias Sagis, Luc Siecker, Nina Verbeeke and Pratik Gajane(参考訳) 本稿では,TP-MAB設定によるマルチArmed Bandit問題について検討する。 tp-mab設定では、エージェントは腕に対する報酬全体ではなく、複数のラウンドに対して報酬のサブセットを受け取る。 本稿では,腕の累積報酬がβ-spreadプロパティと呼ばれる複数のラウンドでどのように分配されるかを一般化する。 このような一般化は、ラウンドごとの最大報酬がラウンド毎に均一に分配されない分割報酬を処理できる必要がある。 β-spreadが持つという仮定の下で、tp-mab問題の下限を導出する。 さらに,いくつかのシナリオにおける後悔の上限を改善するために,ベータスプレッド特性を用いたtp-ucb-fr-gアルゴリズムを提案する。 累積報酬の分布を一般化することにより、この設定は広範囲のアプリケーションに適用できる。

We investigate the Multi-Armed Bandit problem with Temporally-Partitioned Rewards (TP-MAB) setting in this paper. In the TP-MAB setting, an agent will receive subsets of the reward over multiple rounds rather than the entire reward for the arm all at once. In this paper, we introduce a general formulation of how an arm's cumulative reward is distributed across several rounds, called Beta-spread property. Such a generalization is needed to be able to handle partitioned rewards in which the maximum reward per round is not distributed uniformly across rounds. We derive a lower bound on the TP-MAB problem under the assumption that Beta-spread holds. Moreover, we provide an algorithm TP-UCB-FR-G, which uses the Beta-spread property to improve the regret upper bound in some scenarios. By generalizing how the cumulative reward is distributed, this setting is applicable in a broader range of applications.
翻訳日:2022-11-15 16:37:47 公開日:2022-11-13
# 知識ベース補完のためのインスタンスベース学習

Instance-based Learning for Knowledge Base Completion ( http://arxiv.org/abs/2211.06807v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 本稿では,知識ベース補完(KBC)のための新しい手法として,インスタンスベース学習(IBL)を提案する。 例えば、答えるために(jill biden, living city,?)、直接ワシントンd.c.に行く代わりに、jill bidenと同じ居住都市を持つjoe bidenを見つけることが目標です。 プロトタイプエンティティを通じて、IBLは解釈可能性を提供する。 我々はプロトタイプをモデル化し, iblと翻訳モデルを組み合わせた理論を構築した。 様々なタスクの実験により、IBLモデルの有効性と解釈可能性が確認された。 さらに、IBLはルールベースのKBCモデルのメカニズムに光を当てた。 従来の研究は、ルールベースのモデルが意味論的に互換性のある前提と仮説のルールを提供するという点で概ね一致していた。 私たちはこの見方に挑戦する。 まず、いくつかの論理規則が意味的互換性ではなく、(プロトタイプのような)インスタンスベースの等価性を表すことを示す。 これらは {\it ibl rules} と表記される。 驚くべきことに、ルール領域のごく一部しか占めていないにもかかわらず、IBLルールは4つのベンチマークで非IBLルールを上回っている。 IBLルールを介してインスタンスベースの等価性を表現できるので、ルールベースのモデルが機能することを示すために、さまざまな実験を使用します。 この発見は、ルールベースのモデルがどのように機能し、ルールをどう解釈するかに関する新しい洞察を提供する。

In this paper, we propose a new method for knowledge base completion (KBC): instance-based learning (IBL). For example, to answer (Jill Biden, lived city,? ), instead of going directly to Washington D.C., our goal is to find Joe Biden, who has the same lived city as Jill Biden. Through prototype entities, IBL provides interpretability. We develop theories for modeling prototypes and combining IBL with translational models. Experiments on various tasks confirmed the IBL model's effectiveness and interpretability. In addition, IBL shed light on the mechanism of rule-based KBC models. Previous research has generally agreed that rule-based models provide rules with semantically compatible premises and hypotheses. We challenge this view. We begin by demonstrating that some logical rules represent {\it instance-based equivalence} (i.e. prototypes) rather than semantic compatibility. These are denoted as {\it IBL rules}. Surprisingly, despite occupying only a small portion of the rule space, IBL rules outperform non-IBL rules in all four benchmarks. We use a variety of experiments to demonstrate that rule-based models work because they have the ability to represent instance-based equivalence via IBL rules. The findings provide new insights of how rule-based models work and how to interpret their rules.
翻訳日:2022-11-15 16:28:04 公開日:2022-11-13
# 敵の存在下での目標条件付き強化学習

Goal-Conditioned Reinforcement Learning in the Presence of an Adversary ( http://arxiv.org/abs/2211.06929v1 )

ライセンス: Link先を確認
Carlos Purves, Pietro Li\`o and C\u{a}t\u{a}lina Cangea(参考訳) 強化学習はここ数年、現実世界の文脈で応用が増えている。 しかし、物理環境はしばしば不完全であり、シミュレーションでうまく機能するポリシーは、他の場所で適用しても、同じ性能を達成できない可能性がある。 これと戦う一般的な方法は、敵の存在下でエージェントを訓練することである。 敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。 これはロボット工学の文脈で特に有用であり、エージェントがどの目標が選択されたかによって異なる行動をとることができる。 ここでは,敵の存在下での目標条件学習の問題に焦点をあてる。 最初に、敵に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを提示する。 次に,目標条件学習のための2つのアルゴリズムであるeherとcherを提案する。 最後に、2つのスレッドを統一し、敵の存在下で目標条件学習のための新しいフレームワークであるigoalを紹介します。 実験の結果、IGOALとEHERを組み合わせることで、エージェントは、ランダムと有能の両方の敵に対して行動する際に、既存のアプローチを著しく上回ります。

Reinforcement learning has seen increasing applications in real-world contexts over the past few years. However, physical environments are often imperfect and policies that perform well in simulation might not achieve the same performance when applied elsewhere. A common approach to combat this is to train agents in the presence of an adversary. An adversary acts to destabilise the agent, which learns a more robust policy and can better handle realistic conditions. Many real-world applications of reinforcement learning also make use of goal-conditioning: this is particularly useful in the context of robotics, as it allows the agent to act differently, depending on which goal is selected. Here, we focus on the problem of goal-conditioned learning in the presence of an adversary. We first present DigitFlip and CLEVR-Play, two novel goal-conditioned environments that support acting against an adversary. Next, we propose EHER and CHER -- two HER-based algorithms for goal-conditioned learning -- and evaluate their performance. Finally, we unify the two threads and introduce IGOAL: a novel framework for goal-conditioned learning in the presence of an adversary. Experimental results show that combining IGOAL with EHER allows agents to significantly outperform existing approaches, when acting against both random and competent adversaries.
翻訳日:2022-11-15 16:27:44 公開日:2022-11-13
# 連星密度マップと合成核融合ピラミッドネットワークを用いた大規模群集計数

Scale-Aware Crowd Counting Using a Joint Likelihood Density Map and Synthetic Fusion Pyramid Network ( http://arxiv.org/abs/2211.06835v1 )

ライセンス: Link先を確認
Yi-Kuan Hsieh, Jun-Wei Hsieh, Yu-Chee Tseng, Ming-Ching Chang, Bor-Shiun Wang(参考訳) 本研究では,スケールアウェア損失関数設計を施した合成融合ピラミッドネットワーク(spf-net)を開発した。 既存のクラウドカウント手法では、トレーニング用アノテーションポイントが正確であると考えており、ノイズの多いアノテーションがモデル学習バイアスやカウントエラーをもたらす可能性があるという事実を無視している。 私たちの知る限りでは、この作業はエンド・ツー・エンドの損失設計において、このようなノイズを適切に処理する最初の方法です。 我々は,群集注釈点のノイズをガウスとしてモデル化し,入力画像から群集確率密度マップを導出する。 次に、複数のスケールの完全な共分散を伴う集合密度写像の結合分布を近似し、トラクタビリティと効率的な実装のための低ランク近似を導出する。 導出スケール認識損失関数はSPF-Netのトレーニングに使用される。 UCF-QNRF, UCF CC 50, NWPU, ShanghaiTech A-B データセットの4つの公開データセットにおいて, 損失関数よりも優れていることを示す。 提案するspf-netは,うるさいトレーニングアノテーションをトレーニングしながら,群衆の中の人々の位置を正確に予測することができる。

We develop a Synthetic Fusion Pyramid Network (SPF-Net) with a scale-aware loss function design for accurate crowd counting. Existing crowd-counting methods assume that the training annotation points were accurate and thus ignore the fact that noisy annotations can lead to large model-learning bias and counting error, especially for counting highly dense crowds that appear far away. To the best of our knowledge, this work is the first to properly handle such noise at multiple scales in end-to-end loss design and thus push the crowd counting state-of-the-art. We model the noise of crowd annotation points as a Gaussian and derive the crowd probability density map from the input image. We then approximate the joint distribution of crowd density maps with the full covariance of multiple scales and derive a low-rank approximation for tractability and efficient implementation. The derived scale-aware loss function is used to train the SPF-Net. We show that it outperforms various loss functions on four public datasets: UCF-QNRF, UCF CC 50, NWPU and ShanghaiTech A-B datasets. The proposed SPF-Net can accurately predict the locations of people in the crowd, despite training on noisy training annotations.
翻訳日:2022-11-15 16:10:57 公開日:2022-11-13
# Point-DAE: 自己教師型ポイントクラウド学習のためのオートエンコーダ

Point-DAE: Denoising Autoencoders for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2211.06841v1 )

ライセンス: Link先を確認
Yabin Zhang, Jiehong Lin, Ruihuang Li, Kui Jia, Lei Zhang(参考訳) masked autoencoderは、セルフ教師付きポイントクラウド学習の有効性を実証した。 マスキングは一種の汚職であり、この研究では、マスキング以外の多くの種類の汚職を調査することによって、ポイントクラウドラーニング(Point-DAE)のためのより一般的なオートエンコーダを探索する。 具体的には、特定の腐敗を入力としてポイントクラウドを分解し、エンコーダ・デコーダモデルを学び、元のポイントクラウドを破損したバージョンから再構築する。 3つの腐敗ファミリー(密度/マスキング、ノイズ、アフィン変換)と合計14種類の腐敗タイプを調査した。 興味深いことに、アフィン変換ベースのPoint-DAEは一般的に他のもの(例えば、一般的なマスキングの汚職など)より優れており、セルフ教師付きポイントクラウド学習の有望な方向性を示唆している。 さらに重要なことは、下流タスクにおけるタスク関連性とモデル性能の統計的に有意な線形関係があることである。 この発見は、これらのポイント-DAE変種が下流分類タスクと密接に関連していることを考えると、アフィン変換に基づくポイント-DAEの利点を部分的にデミスタットしている。 さらに、ほとんどのPoint-DAE変種は、事前トレーニングデータセットで手動で注釈付けされた標準ポーズの恩恵を受けない。 この問題に取り組むために,オブジェクトのポーズを自動的に推定することで,新しいデータセットの設定を促進する。 コードは \url{https://github.com/YBZh/Point-DAE で入手できる。 }

Masked autoencoder has demonstrated its effectiveness in self-supervised point cloud learning. Considering that masking is a kind of corruption, in this work we explore a more general denoising autoencoder for point cloud learning (Point-DAE) by investigating more types of corruptions beyond masking. Specifically, we degrade the point cloud with certain corruptions as input, and learn an encoder-decoder model to reconstruct the original point cloud from its corrupted version. Three corruption families (i.e., density/masking, noise, and affine transformation) and a total of fourteen corruption types are investigated. Interestingly, the affine transformation-based Point-DAE generally outperforms others (e.g., the popular masking corruptions), suggesting a promising direction for self-supervised point cloud learning. More importantly, we find a statistically significant linear relationship between task relatedness and model performance on downstream tasks. This finding partly demystifies the advantage of affine transformation-based Point-DAE, given that such Point-DAE variants are closely related to the downstream classification task. Additionally, we reveal that most Point-DAE variants unintentionally benefit from the manually-annotated canonical poses in the pre-training dataset. To tackle such an issue, we promote a new dataset setting by estimating object poses automatically. The codes will be available at \url{https://github.com/YBZh/Point-DAE.}
翻訳日:2022-11-15 16:10:35 公開日:2022-11-13
# SSL4EO-S12:地球観測における自己教師付き学習のための大規模マルチモーダル・マルチテンポラルデータセット

SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation ( http://arxiv.org/abs/2211.07044v1 )

ライセンス: Link先を確認
Yi Wang, Nassim Ait Ali Braham, Zhitong Xiong, Chenying Liu, Conrad M Albrecht, Xiao Xiang Zhu(参考訳) 自己教師付き事前学習は、人間のアノテーションなしで表現表現を生成する可能性を秘めている。 地球観測(EO)におけるほとんどの事前トレーニングは、ImageNetまたは中規模のリモートセンシング(RS)データセットに基づいている。 rsデータセットssl4eo-s12 (self-supervised learning for earth observation - sentinel-1/2) を共有し,esa sentinel-1 \& -2衛星ミッションからの大規模,グローバル,マルチモーダル,マルチシーズンの衛星画像コーパスを組み立てる。 EOアプリケーションでは、SSL4EO-S12がMoCo-v2、DINO、MAE、Data2vecといったメソッドの自己教師型事前トレーニングに成功することを示す。 結果モデルによって、下流のパフォーマンスは、教師付き学習の精度測定に近づいたり、超えたりします。 さらに、SSL4EO-S12の事前トレーニングは、既存のデータセットと比較して優れている。 データセット、関連するソースコード、および事前トレーニングされたモデルをhttps://github.com/zhu-xlab/ssl4eo-s12で公開しています。

Self-supervised pre-training bears potential to generate expressive representations without human annotation. Most pre-training in Earth observation (EO) are based on ImageNet or medium-size, labeled remote sensing (RS) datasets. We share an unlabeled RS dataset SSL4EO-S12 (Self-Supervised Learning for Earth Observation - Sentinel-1/2) to assemble a large-scale, global, multimodal, and multi-seasonal corpus of satellite imagery from the ESA Sentinel-1 \& -2 satellite missions. For EO applications we demonstrate SSL4EO-S12 to succeed in self-supervised pre-training for a set of methods: MoCo-v2, DINO, MAE, and data2vec. Resulting models yield downstream performance close to, or surpassing accuracy measures of supervised learning. In addition, pre-training on SSL4EO-S12 excels compared to existing datasets. We make openly available the dataset, related source code, and pre-trained models at https://github.com/zhu-xlab/SSL4EO-S12.
翻訳日:2022-11-15 16:10:09 公開日:2022-11-13
# WR-ONE2SET:よく校正されたキーワード生成を目指して

WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation ( http://arxiv.org/abs/2211.06862v1 )

ライセンス: Link先を確認
Binbin Xie, Xiangpeng Wei, Baosong Yang, Huan Lin, Jun Xie, Xiaoli Wang, Min Zhang and Jinsong Su(参考訳) keyphrase生成は、入力ドキュメントを要約した短いフレーズを自動的に生成することを目的としている。 最近登場したONE2SETパラダイム(Ye et al., 2021)は、キーフレーズをセットとして生成し、競争性能を達成した。 しかしながら、ONE2SETが出力する深刻な校正誤差は、特に$\varnothing$ token(対応するキーフレーズがない)の過大評価において観察される。 本稿では、この制限を深く分析し、主な理由を2つ挙げる。 1) 並列生成は、トレーニングインスタンスにパディングトークンとして過剰な$\varnothing$を導入しなければなりません。 2) 各スロットにターゲットを割り当てるトレーニングメカニズムは不安定であり、さらに$\varnothing$トークン過大評価を増大させる。 そこで本研究では,適応型インスタンスレベルのコスト重み付け戦略と目標の再割り当て機構を用いてone2セットを拡張するwr-one2setを提案する。 前者は、異なるインスタンスに対して過大評価されたスロットを動的に罰し、不均一なトレーニング分布を円滑にする。 後者は、元の不適切な割り当てを洗練し、過見積スロットの監視信号を削減する。 一般的なデータセットを用いた実験結果から,提案手法の有効性と汎用性を示した。

Keyphrase generation aims to automatically generate short phrases summarizing an input document. The recently emerged ONE2SET paradigm (Ye et al., 2021) generates keyphrases as a set and has achieved competitive performance. Nevertheless, we observe serious calibration errors outputted by ONE2SET, especially in the over-estimation of $\varnothing$ token (means "no corresponding keyphrase"). In this paper, we deeply analyze this limitation and identify two main reasons behind: 1) the parallel generation has to introduce excessive $\varnothing$ as padding tokens into training instances; and 2) the training mechanism assigning target to each slot is unstable and further aggravates the $\varnothing$ token over-estimation. To make the model well-calibrated, we propose WR-ONE2SET which extends ONE2SET with an adaptive instance-level cost Weighting strategy and a target Re-assignment mechanism. The former dynamically penalizes the over-estimated slots for different instances thus smoothing the uneven training distribution. The latter refines the original inappropriate assignment and reduces the supervisory signals of over-estimated slots. Experimental results on commonly-used datasets demonstrate the effectiveness and generality of our proposed paradigm.
翻訳日:2022-11-15 16:03:05 公開日:2022-11-13
# ハリーは何て言う? 物語の登場人物のための対話エージェントの構築

What would Harry say? Building Dialogue Agents for Characters in a Story ( http://arxiv.org/abs/2211.06869v1 )

ライセンス: Link先を確認
Nuo Chen, Yan Wang, Haiyun Jiang, Deng Cai, Ziyang Chen and Jia Li(参考訳) ハリー・ポッター対話データセット (harry potter dialogue dataset) は,物語中の登場人物のための対話エージェント構築の研究を容易にする。 既存の対話データセットとは2つの点で異なる。 1) hpdは,シーン,キャラクタ属性,キャラクタリレーションなど,小説のハリー・ポッターに関する豊富な背景情報を提供する。 2) これらの背景情報はストーリーが進むにつれて変化します。 言い換えれば、HPDの各対話セッションは異なる背景に相関し、ストーリーラインは背景がどのように変化するかを決定する。 我々は,Harry Potterのような応答をいかに生成できるかを判断するために,自動測定と人的計測の両方に基づいてベースライン(GPT-2,BOBなど)を評価する。 実験の結果, 生成した応答は会話履歴に精通しており, 対話履歴に関係しているものの, ハリーの性格の欠如は認められず, 将来研究のための大きなヘッドルームが存在することが示唆された。 私たちのデータセットは利用可能です。

We present HPD: Harry Potter Dialogue Dataset to facilitate the study of building dialogue agents for characters in a story. It differs from existing dialogue datasets in two aspects: 1) HPD provides rich background information about the novel Harry Potter, including scene, character attributes, and character relations; 2) All these background information will change as the story goes on. In other words, each dialogue session in HPD correlates to a different background, and the storyline determines how the background changes. We evaluate some baselines (e.g., GPT-2, BOB) on both automatic and human metrics to determine how well they can generate Harry Potter-like responses. Experimental results indicate that although the generated responses are fluent and relevant to the dialogue history, they are remained to sound out of character for Harry, indicating there is a large headroom for future studies. Our dataset is available.
翻訳日:2022-11-15 16:02:45 公開日:2022-11-13
# 複数選択読解における「世界知識」

"World Knowledge" in Multiple Choice Reading Comprehension ( http://arxiv.org/abs/2211.07040v1 )

ライセンス: Link先を確認
Adian Liusie, Vatsal Raina, Mark Gales(参考訳) 近年,コンテキストパスへのアクセスがないと,MCRC(Multiple choice read comprehension)システムでは,ランダムな回答が平均よりもはるかに優れていることが示されている。 これらのシステムは、蓄積した「世界知識」を使って、通路からの情報を使わずに、直接質問に答える。 本稿では,この観察をテストデザイナのツールとして活用し,特定の質問に対して「世界知識」の使用が許容可能であることを確認する。 本稿では,システムから活用される「世界知識」のレベルを評価するための情報理論に基づくメトリクスを提案する。 2つの指標が述べられている: パスフリーなシステムが世界知識を用いて質問を識別できるかどうかを測定するオプションの数と、与えられた質問に対する文脈の重要性を測定するコンテキスト相互情報である。 提案手法では, 候補数が少なく, ショートカットシステムによって答えられる質問も, 文脈のない人間でも答えられることがしばしば示されている。 このことは、'ショートカット'という一般的な知識が試験候補でも同じように利用でき、提案した指標が将来のテスト設計者が質問の質を監視するのに役立つことを強調している。

Recently it has been shown that without any access to the contextual passage, multiple choice reading comprehension (MCRC) systems are able to answer questions significantly better than random on average. These systems use their accumulated "world knowledge" to directly answer questions, rather than using information from the passage. This paper examines the possibility of exploiting this observation as a tool for test designers to ensure that the use of "world knowledge" is acceptable for a particular set of questions. We propose information-theory based metrics that enable the level of "world knowledge" exploited by systems to be assessed. Two metrics are described: the expected number of options, which measures whether a passage-free system can identify the answer a question using world knowledge; and the contextual mutual information, which measures the importance of context for a given question. We demonstrate that questions with low expected number of options, and hence answerable by the shortcut system, are often similarly answerable by humans without context. This highlights that the general knowledge 'shortcuts' could be equally used by exam candidates, and that our proposed metrics may be helpful for future test designers to monitor the quality of questions.
翻訳日:2022-11-15 16:02:27 公開日:2022-11-13
# ゼロショット画像キャプションのための大規模双方向訓練

Large-Scale Bidirectional Training for Zero-Shot Image Captioning ( http://arxiv.org/abs/2211.06774v1 )

ライセンス: Link先を確認
Taehoon Kim, Mark Marsden, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Alessandra Sala, Seung Hwan Kim(参考訳) 大規模なデータセットでトレーニングを行うと、画像キャプションモデルは一般的なドメインの画像の内容を理解することができるが、正確な詳細なキャプションを生成することができないことが多い。 性能向上のため,画像キャプションにおけるプリトレーニング・アンド・フィニチューニングが重要な戦略となっている。 しかし,画像とテキスト間の大規模双方向学習により,ゼロショット画像キャプションが可能となる。 本稿では,ゼロショット画像キャプションのための効率的な学習・推論フレームワークであるbidirectional image text training in large scale, bittersについて紹介する。 また,高品質なデータセットと,ゼロショットキャプション精度と社会バイアスを適切に評価するための指標セットからなる,新たな評価ベンチマークを提案する。 さらに,キーワード抽出のための効率的な微調整手法を提案する。 大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションを実現する鍵となることを示す。

When trained on large-scale datasets, image captioning models can understand the content of images from a general domain but often fail to generate accurate, detailed captions. To improve performance, pretraining-and-finetuning has been a key strategy for image captioning. However, we find that large-scale bidirectional training between image and text enables zero-shot image captioning. In this paper, we introduce Bidirectional Image Text Training in largER Scale, BITTERS, an efficient training and inference framework for zero-shot image captioning. We also propose a new evaluation benchmark which comprises of high quality datasets and an extensive set of metrics to properly evaluate zero-shot captioning accuracy and societal bias. We additionally provide an efficient finetuning approach for keyword extraction. We show that careful selection of large-scale training set and model architecture is the key to achieving zero-shot image captioning.
翻訳日:2022-11-15 16:00:57 公開日:2022-11-13
# 患者の予後予測のためのテキストデータ拡張

Textual Data Augmentation for Patient Outcomes Prediction ( http://arxiv.org/abs/2211.06778v1 )

ライセンス: Link先を確認
Qiuhao Lu, Dejing Dou, Thien Huu Nguyen(参考訳) ディープラーニングモデルは、さまざまな医療アプリケーションにおいて優れたパフォーマンスを示している。 しかしながら、これらの深層モデルの主な制限は、通常、この分野のプライベートで繊細な性質のため、高品質なトレーニングデータがないことである。 そこで本研究では,患者の電子健康記録(ehrs)から,患者の予後予測のための追加訓練データとして使用できる人工的な臨床記録を生成するためのテキストデータ拡張手法を提案する。 基本的に、生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。 より具体的には、教師の指導のもと、まず、原データ上で教師モデルを事前訓練し、GPT拡張データ上で生徒モデルを訓練する教師学生フレームワークを提案する。 本法を最も一般的な患者、すなわち30日間の寛解率について評価した。 実験の結果,深層モデルでは拡張データにより予測性能が向上し,提案手法の有効性が示された。

Deep learning models have demonstrated superior performance in various healthcare applications. However, the major limitation of these deep models is usually the lack of high-quality training data due to the private and sensitive nature of this field. In this study, we propose a novel textual data augmentation method to generate artificial clinical notes in patients' Electronic Health Records (EHRs) that can be used as additional training data for patient outcomes prediction. Essentially, we fine-tune the generative language model GPT-2 to synthesize labeled text with the original training data. More specifically, We propose a teacher-student framework where we first pre-train a teacher model on the original data, and then train a student model on the GPT-augmented data under the guidance of the teacher. We evaluate our method on the most common patient outcome, i.e., the 30-day readmission rate. The experimental results show that deep models can improve their predictive performance with the augmented data, indicating the effectiveness of the proposed architecture.
翻訳日:2022-11-15 15:51:02 公開日:2022-11-13
# FPT:プログレッシブトレーニングによるプロンプトチューニング効率の向上

FPT: Improving Prompt Tuning Efficiency via Progressive Training ( http://arxiv.org/abs/2211.06840v1 )

ライセンス: Link先を確認
Yufei Huang, Yujia Qin, Huadong Wang, Yichun Yin, Maosong Sun, Zhiyuan Liu and Qun Liu(参考訳) 近年,事前学習言語モデル(PLM)のパラメータ効率向上手法として,プロンプトチューニング(PT)が注目されている。 調整可能なパラメータの数を大幅に減らし、満足な性能を達成するにもかかわらず、PTは、その緩やかな収束のためにトレーニング非効率である。 PTのトレーニング効率を向上させるために,まず,PLMの深度や幅を圧縮して定義した「部分的PLM」の迅速な転送性について,新しい観察を行った。 パラメータ空間の異なる部分的 PLM によって学習されたソフトプロンプトは,パラメータ空間において類似しており,これらのソフトプロンプトは部分的 PLM 間で伝達可能であることを示唆している。 これらの観測から着想を得たFast Prompt Tuning (FPT) は,小型の部分的なPLMを用いてPTを行い,その深さと幅をフルモデルサイズまで徐々に拡大する。 各拡張後に、拡張部分PLMの初期化として学習したソフトプロンプトをリサイクルし、PTを進める。 5 つのタスクで FPT が実現可能であることを実証し,FPT が 30% 以上のトレーニング計算を節約できることを示す。

Recently, prompt tuning (PT) has gained increasing attention as a parameter-efficient way of tuning pre-trained language models (PLMs). Despite extensively reducing the number of tunable parameters and achieving satisfying performance, PT is training-inefficient due to its slow convergence. To improve PT's training efficiency, we first make some novel observations about the prompt transferability of "partial PLMs", which are defined by compressing a PLM in depth or width. We observe that the soft prompts learned by different partial PLMs of various sizes are similar in the parameter space, implying that these soft prompts could potentially be transferred among partial PLMs. Inspired by these observations, we propose Fast Prompt Tuning (FPT), which starts by conducting PT using a small-scale partial PLM, and then progressively expands its depth and width until the full-model size. After each expansion, we recycle the previously learned soft prompts as initialization for the enlarged partial PLM and then proceed PT. We demonstrate the feasibility of FPT on 5 tasks and show that FPT could save over 30% training computations while achieving comparable performance.
翻訳日:2022-11-15 15:50:47 公開日:2022-11-13
# internimage: 変形可能な畳み込みによる大規模ビジョン基盤モデルの検討

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions ( http://arxiv.org/abs/2211.05778v2 )

ライセンス: Link先を確認
Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao(参考訳) 近年の大規模な視覚変換器(ViT)の進歩と比較して、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルはまだ初期段階にある。 この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。 大規模高密度カーネルに焦点を当てた最近のcnnとは異なり、internimage はコア演算子として変形可能な畳み込みを取り、検出やセグメンテーションといった下流タスクに必要な大きな効果的な受容場を持つだけでなく、入力やタスク情報によって条件付けられた適応的な空間集約を持つ。 その結果,従来のcnnの厳密なインダクティブバイアスを低減し,vitsのような大規模データから大規模パラメータを持つ強固で堅牢なパターンを学習することができる。 このモデルの有効性は、ImageNet、COCO、ADE20Kといった挑戦的なベンチマークで証明されている。 なお、InternImage-HはCOCOテストデブで65.4 mAP、ADE20Kで62.9 mIoUを達成し、現在のCNNやViTよりも優れていた。 コードはhttps://github.com/OpenGVLab/InternImageで公開される。

Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved a new record 65.4 mAP on COCO test-dev and 62.9 mIoU on ADE20K, outperforming current leading CNNs and ViTs. The code will be released at https://github.com/OpenGVLab/InternImage.
翻訳日:2022-11-15 15:44:13 公開日:2022-11-13
# 振動活性化機能を有するCNNの評価

Evaluating CNN with Oscillatory Activation Function ( http://arxiv.org/abs/2211.06878v1 )

ライセンス: Link先を確認
Jeevanshi Sharma(参考訳) 画像から高次元の複雑な特徴を学習するCNNの能力の背後にあるのは、アクティベーション関数によって導入された非線形性である。 アクティベーション関数の選択がモデリングの重要なステップであるため、ニューラルネットワークのトレーニングプロセスを改善するためにいくつかの高度なアクティベーション関数が発見されている。 近年,ヒト大脳皮質に触発された分類問題を解くために発振活性化関数が提案されている。 本稿では、MNISTおよびCIFAR10データセット上でのCNNアーキテクチャALexNetの1つの性能について、発振活性化関数(GCU)と、ReLu、PReLu、Mishなどの一般的なアクティベーション関数を用いて検討する。

The reason behind CNNs capability to learn high-dimensional complex features from the images is the non-linearity introduced by the activation function. Several advanced activation functions have been discovered to improve the training process of neural networks, as choosing an activation function is a crucial step in the modeling. Recent research has proposed using an oscillating activation function to solve classification problems inspired by the human brain cortex. This paper explores the performance of one of the CNN architecture ALexNet on MNIST and CIFAR10 datasets using oscillatory activation function (GCU) and some other commonly used activation functions like ReLu, PReLu, and Mish.
翻訳日:2022-11-15 15:42:33 公開日:2022-11-13