このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220903となっている論文です。

PDF登録状況(公開日: 20220903)

TitleAuthorsAbstract論文公表日・翻訳日
# 極高Tcスーパーインダクタ

The Elusive High-Tc Superinductor ( http://arxiv.org/abs/2209.01342v1 )

ライセンス: Link先を確認
Yogesh Kumar Srivastava, Manoj Gupta, Manukumara Manjappa, Piyush Agarwal, J\'er\^ome Lesueur, and Ranjan Singh(参考訳) Ginzburg-Landau (GL) パラメータは、大きさが$\xi$の2型超伝導体の超電流の量子渦のアブリコソフ発見の基礎を形成し、超伝導体のコヒーレンス長は$log(1/r)$で、ロンドン貫入深さの崩壊長は$\lambda_Lである。 1964年、J. Pearl は、厚み $t < \lambda_L$ の超伝導膜において、渦の周りがパール長さ (P_L=2\lambda_L^2/t$) に広がる緩やかな崩壊を予測した。 しかし、彼の本質的な理論は、渦の拡大したスクリーニング電流から生じる巨大動力学的インダクタンス(gki)の存在を予測できなかった。 ここでは,超薄膜のメタ原子密度$\lambda_L/7$の超薄膜において,超電流が$\lambda_L$から14$\lambda_L$への1400%の膨張により,高T_c$準曲面の巨大運動インダクタンスを発見し,抵抗量子限界であるR_Q=h/(2e)^2=6.47 k\Omega$を超える量子インピーダンスを持つテラヘルツ超インダクタンスが出現する。 高t_c$超伝導体電子デバイス、フォトニックデバイス、量子デバイスが真珠長スケールで設計されたメタサーフェスを介して実現され、量子回路、メトロロジー、単一光子運動インダクタンス検出器に新しい応用がもたらされた。

Ginzburg-Landau (GL) parameters formed the basis for Abrikosov discovery of the quantum vortex of a supercurrent in type-II superconductor with a normal core of size $\xi$, the superconductor coherence length and circulating supercurrent induced magnetic field diverging as $log(1/r)$ from the core with a decay length of the London penetration depth, $\lambda_L.$ In 1964, J. Pearl predicted the slowly decaying $(1/r^2)$ field around a vortex spreading out to Pearl length, $P_L=2\lambda_L^2/t$, in a superconductor film of thickness $t < \lambda_L$. However, his quintessential theory failed to predict the existence of giant kinetic inductance (GKI) that arises from the enlarged screening currents of the vortex. Here, we discover giant kinetic inductance in a $high-T_c$ metasurface due to the 1400% expansion of the vortex screening supercurrent from $\lambda_L$ to 14$\lambda_L$ in ultrathin film meta-atom of $\lambda_L/7$ thickness, which leads to the emergence of terahertz superinductance possessing quantum impedance exceeding the resistance quantum limit of $R_Q=h/(2e)^2 =6.47 k\Omega$ by 33%. Our discovery presents a new class of $high-T_c$ superconductor electronic, photonic, and quantum devices enabled through metasurface designed at the Pearl length scales, providing novel applications in quantum circuitry, metrology, and single photon kinetic inductance detectors.
翻訳日:2023-01-28 01:39:29 公開日:2022-09-03
# 長距離相互作用多体局所システムにおけるモビリティエッジ

Mobility edge in long-range interacting many-body localized systems ( http://arxiv.org/abs/2209.01337v1 )

ライセンス: Link先を確認
Rozhin Yousefjani, and Abolfazl Bayat(参考訳) 乱れた多体系の障害強度が増加するにつれて、新しい物質の構造、いわゆる多体局在相がスペクトル全体にわたって出現する。 この遷移はエネルギー依存的であり、運動性エッジと呼ばれる現象であり、中スペクトル固有状態はスペクトルの端付近の固有状態と比較して大きな乱れの値で局在する傾向にある。 長距離相互作用システムでは、多体ローカライゼーションがより高度になる。 ここで、数量に焦点を当てて位相図を、様々な相互作用について、無秩序とエネルギースペクトルの関数として描く。 長距離相互作用は局所化効果を高め, 位相境界をより小さな障害値にシフトさせることを示した。 さらに,モビリティエッジに沿ってシステム内で発散する長さスケールが出現する,関連する臨界指数を決定する。 本解析では,熱力学的限界に対する収束速度について検討した量の階層構造を定式化する。 実際、サブシステムを意図的にデコヒートすると、有限サイズ効果が軽減され、熱力学限界における解析的予測と一致する結果が得られることを示す。

As disorder strength increases in disordered many-body systems a new structure of matter, the so-called many-body localized phase, emerges across the whole spectrum. This transition is energy dependent, a phenomenon known as mobility edge, such that the mid-spectrum eigenstates tend to localize at larger values of disorder in comparison to eigenstates near the edges of the spectrum. Many-body localization becomes more sophisticated in long-range interacting systems. Here, by focusing on several quantities, we draw the phase diagram as a function of disorder and energy spectrum, for a various range of interactions. We show that long-range interaction enhances the localization effect and shifts the phase boundary towards smaller values of disorder. In addition, we determine the relevant critical exponent, with which a diverging length scale emerges in the system, along the mobility edge. Our analysis establishes a hierarchy among the quantities that we have studied concerning their convergence speed towards their thermodynamic limit. Indeed, we show that deliberately decohering a subsystem can mitigate finite-size effects and provide results in line with the analytical predictions at the thermodynamic limit.
翻訳日:2023-01-28 01:38:48 公開日:2022-09-03
# 回転するフレームにおける磁気四極子モーメントと電場との相互作用について

On the interaction of a magnetic quadrupole moment with an electric field in a rotating frame ( http://arxiv.org/abs/2209.02694v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 回転参照フレームの非慣性効果も含む円筒座標系において、放射電場における磁気四極子モーメントとラジアル変数に比例したスカラーポテンシャルを持つ中性粒子が与える量子力学モデルについて、最近得られた結果について議論する。 サイクロトロン周波数の予測可能な値は、ラジアル固有値方程式の解法に用いられる級数の切り欠きの単なる成果であることを示した。 解析の結果,固有値の解析式は正確とはほど遠いことがわかった。

We discuss results obtained recently for a quantum-mechanical model given by a neutral particle with a magnetic quadrupole moment in a radial electric field and a scalar potential proportional to the radial variable in cylindrical coordinates that also includes the noninertial effects of a rotating reference frame. We show that the conjectured allowed values of the cyclotron frequency are a mere artifact of the truncation of the power series used to solve the radial eigenvalue equation. Our analysis proves that the analytical expression for the eigenvalues are far from correct.
翻訳日:2023-01-28 01:36:41 公開日:2022-09-03
# 古典・量子物理学の文脈的統一

Contextual unification of classical and quantum physics ( http://arxiv.org/abs/2209.01463v1 )

ライセンス: Link先を確認
Mathias Van Den Bossche and Philippe Grangier(参考訳) 無限テンソル積に関するジョン・フォン・ノイマンの論文に続いて、表現のユニタリ同値性に関連する量子力学の通常の形式論は、粒子の可算無限大(あるいは自由度)が遭遇したときには機能しないという考えを展開する。 これは、対応するヒルベルト空間の次元が数えきれないほど無限になり、ユニタリ同値が失われ、セクター化が生じるためである。 この数学的事実を物理的に解釈することで、「ハイゼンベルク切断」を記述する自然な方法と、量子物理学と古典物理学の両方を含む統一数学モデルが、自然の記述に必須の面として現れることを示した。

Following an article by John von Neumann on infinite tensor products, we develop the idea that the usual formalism of quantum mechanics, associated with unitary equivalence of representations, stops working when countable infinities of particles (or degrees of freedom) are encountered. This is because the dimension of the corresponding Hilbert space becomes uncountably infinite, leading to the loss of unitary equivalence, and to sectorization. By interpreting physically this mathematical fact, we show that it provides a natural way to describe the "Heisenberg cut", as well as a unified mathematical model including both quantum and classical physics, appearing as required incommensurable facets in the description of nature.
翻訳日:2023-01-28 01:36:28 公開日:2022-09-03
# 任意の次元に対するstabiliser符号の数え上げ

Counting stabiliser codes for arbitrary dimension ( http://arxiv.org/abs/2209.01449v1 )

ライセンス: Link先を確認
Tanmay Singal, Che Chiang, Eugene Hsu, Eunsang Kim, Hsi-Sheng Goan and Min-Hsiu Hsieh(参考訳) この作業では、任意の正の整数$d$に対して、$d$-dimensional qudits からなる $[[n,k]]_d$安定化器符号の数を計算します。 gross (ref. 22) による独創的な著作において、$[[n,k]]_d$安定化符号は、$d$ が素数である場合(または素数、すなわち $d=p^m$ である場合、qudit がガロア・クイットである場合)に計算された。 第22条の証明は,非プライム事件には適用できない。 この証明のために、グループ構造を $[n,k]]_d$ コードに導入し、これを中国の剰余定理と組み合わせて $[[n,k]]_d$ コードの数を数える。 我々の仕事は、$d$がプライムであり、この場合の結果が正確に一致するとき、 ref.22と重なるが、より一般的な場合では結果が異なる。 それにもかかわらず、安定化符号の総桁数は、その次元が素数であるか非素数であるかに依存しない。 これは、安定化状態の数(またはより一般に安定化符号)を数えるために使われる方法が$d$が素数であるかどうかに依存するため、驚くべきことである。 安定状態の濃度は、素数次元の場合(およびガロア・クディット素数-パワー次元の場合)でしか知られていなかったが、量子コンピューティングにおける多くの話題において量子化器として重要な役割を果たす。 その中には、魔法の資源理論、設計理論、安定化器状態に対するデ・フィネッティの定理、クリフォード回路の古典的シミュラビリティの研究と最適化、安定化器状態の最適検証、小次元系の量子的文脈性の研究、ウィグナー関数の研究などが含まれる。 我々の研究は、一般の場合でこの量子化器を利用できるので、素数次元でない量子系を素数次元系と同じ台座に配置する上で重要なステップである。

In this work, we compute the number of $[[n,k]]_d$ stabiliser codes made up of $d$-dimensional qudits, for arbitrary positive integers $d$. In a seminal work by Gross (Ref. 22) the number of $[[n,k]]_d$ stabilizer codes was computed for the case when $d$ is a prime (or the power of a prime, i.e., $d=p^m$, but when the qudits are Galois-qudits). The proof in Ref. 22 is inapplicable to the non-prime case. For our proof, we introduce a group structure to $[[n,k]]_d$ codes, and use this in conjunction with the Chinese remainder theorem to count the number of $[[n,k]]_d$ codes. Our work overlaps with Ref. 22 when $d$ is a prime and in this case our results match exactly, but the results differ for the more generic case. Despite that, the overall order of magnitude of the number of stabilizer codes scales agnostic of whether the dimension is prime or non-prime. This is surprising since the method employed to count the number of stabilizer states (or more generally stabilizer codes) depends on whether $d$ is prime or not. The cardinality of stabilizer states, which was so far known only for the prime-dimensional case (and the Galois qudit prime-power dimensional case) plays an important role as a quantifier in many topics in quantum computing. Salient among these are the resource theory of magic, design theory, de Finetti theorem for stabilizer states, the study and optimisation of the classical simulability of Clifford circuits, the optimal verification of stabilizer states, the study of quantum contextuality of small-dimensional systems and the study of Wigner-functions. Our work makes available this quantifier for the generic case, and thus is an important step needed to place results for quantum computing with non-prime dimensional quantum systems on the same pedestal as prime-dimensional systems.
翻訳日:2023-01-28 01:36:14 公開日:2022-09-03
# 空間と時間における量子および古典的分岐流

Quantum and classical branching flow in space and time ( http://arxiv.org/abs/2209.01439v1 )

ライセンス: Link先を確認
Jakub \v{S}\v{t}avina and Peter Bokes(参考訳) 分岐流 -- 2次元弱相関ランダムポテンシャルの定常波伝播で知られている現象は、1次元の単一粒子に対する時間依存的なシュリンガー方程式にも存在し、変動するランダムポテンシャルで動く。 このモデルの2次元パラメータ空間を数値シミュレーションを用いて検討し,古典的パラメータが1つだけ仕様に十分である古典的領域と,そのような単純化が不可能な量子領域を同定する。 また、古典的ホワイトノイズモデルの既知の解析結果が関連するパラメータ空間の領域を同定する。 量子力学と古典粒子力学の定性的挙動は、分枝時間スケールと粒子の運動エネルギーに関連する新しい時間スケールの観点から議論する。

Branching flow -- a phenomenon known for steady wave propagation in two-dimensional weak correlated random potential is also present in the time-dependent Schr\"odinger equation for a single particle in one dimension, moving in a fluctuating random potential. We explore the two-dimensional parameter space of this model using numerical simulations and identify its classical regions, where just one classical parameter is sufficient for its specification, and its quantum region, where such a simplification is not possible. We also identify region of the parameter space where known analytical results of a classical white-noise model are relevant. Qualitative behavior of quantum and classical particle dynamics is discussed in terms of branching time scale and a new time scale related to particle's kinetic energy.
翻訳日:2023-01-28 01:35:30 公開日:2022-09-03
# pt$対称非ユニタリ作用素を用いた一般化ゲージ変換と周期駆動系に対する非エルミートハミルトンの古典対応

Generalized gauge transformation with $PT$-symmetric non-unitary operator and classical correspondence of non-Hermitian Hamiltonian for a periodically driven system ( http://arxiv.org/abs/2209.01393v1 )

ライセンス: Link先を確認
Yan Gu, Xiao-Lei Hao, J.-Q. Liang(参考訳) 本稿では、周期駆動系に対する$PT$-symmetric non-Hermitian Hamiltonianが一般化ゲージ変換によりカーネルハミルトンから生成されることを実証する。 カーネルハミルトニアンはエルミート的で静的であり、時間依存変換作用素は一般に$PT$対称で非単項である必要がある。 固有状態の生物直交集合は、必ずしも非エルミート的ハミルトニアンの結果として現れる。 我々は、$n$th 固有状態に対して、波動関数と関連する非断熱的ベリー位相 $\gamma_{n}$ を解析的に得る。 非エルミート的ハミルトニアンの古典版は正準変数と時間からなる複素函数となる。 対応するカーネルハミルトニアンは古典ゲージ変換における$PT$対称正準変数変換によって導出される。 さらに, 非断熱的なハンナイ角$\delta \theta_{h}$ とベリー位相は, 量子古典対応$\gamma_{n}=$(n+1/2)\delta \theta_{h}$ を満たすことが明らかとなった。

We in this paper demonstrate that the $PT$-symmetric non-Hermitian Hamiltonian for a periodically driven system can be generated from a kernel Hamiltonian by a generalized gauge transformation. The kernel Hamiltonian is Hermitian and static, while the time-dependent transformation operator has to be $PT$ symmetric and non-unitary in general. Biorthogonal sets of eigenstates appear necessarily as a consequence of non-Hermitian Hamiltonian. We obtain analytically the wave functions and associated non-adiabatic Berry phase $\gamma_{n}$ for the $n$th eigenstate. The classical version of the non-Hermitian Hamiltonian becomes a complex function of canonical variables and time. The corresponding kernel Hamiltonian is derived with $PT$ symmetric canonical-variable transfer in the classical gauge transformation. Moreover, with the change of position-momentum to angle-action variables it is revealed that the non-adiabatic Hannay's angle $\Delta \theta_{H}$ and Berry phase satisfy precisely the quantum-classical correspondence,$\gamma_{n}=$ $(n+1/2)\Delta \theta_{H}$.
翻訳日:2023-01-28 01:34:44 公開日:2022-09-03
# 閾値変更可能な秘密共有方式の量子アドバンテージ

Quantum Advantage of Threshold Changeable Secret Sharing Scheme ( http://arxiv.org/abs/2209.01365v1 )

ライセンス: Link先を確認
Xiaogang Cheng, Ren Guo, Changli Zhou(参考訳) tcss(threshold changeable secret sharing)スキームでは、長期的な株式漏洩に対処するためにしきい値を変更することができる。 しかし、古典的なTCSSでは、参加者が正直であっても古い株が削除される保証はない。 したがって、変更された閾値は、敵が古い株と古い閾値番号で秘密を再構築するのを妨げない可能性がある。 量子力学的にこの問題に取り組む方法を示す。 つまり、量子力学的に変化した閾値を強制することができる。 したがって、古典的 TCSS よりも量子的 TCSS が優れている。

In TCSS (Threshold Changeable Secret Sharing) scheme, the threshold can be changed to deal with share leakage in the long term. But in classical TCSS, there is no guarantee that old shares are deleted even if the participated parties are honest. So, the changed threshold may not prevent an adversary from reconstructing the secret by the old shares and old threshold number of parties. We show how to tackle this problem quantum mechanically. I.e., quantum mechanically we can make the changed threshold mandatory. So, there is quantum advantage of quantum TCSS over classical TCSS.
翻訳日:2023-01-28 01:34:27 公開日:2022-09-03
# 蹴られたトップの擬古典力学

Pseudoclassical dynamics of the kicked top ( http://arxiv.org/abs/2209.01364v1 )

ライセンス: Link先を確認
Zhixing Zou, Jiao Wang(参考訳) キックローターとキックトップは、量子カオスの2つのパラダイムである。 量子共鳴と疑似古典的限界の概念は、蹴られたローターの研究で発展し、古典量子対応の興味深く非慣習的な側面を明らかにした。 ここでは、これらの概念をキックトトップに拡張することで、そのリッチな動的挙動をより深く評価することができることを示し、特に興味を引かれるのは絡み合いエントロピーである。 特に、キック強度の異なるシステム間の周期的同期は、疑似古典的観点から便利に理解し、精巧化することができる。 また, 一般的な擬似古典理論の蹴りローターへの適用性についても論じる。

The kicked rotor and the kicked top are two paradigms of quantum chaos. The notions of quantum resonance and the pseudoclassical limit, developed in the study of the kicked rotor, have revealed an intriguing and unconventional aspect of classical-quantum correspondence. Here, we show that, by extending these notions to the kicked top, its rich dynamical behavior can be appreciated more thoroughly; of special interest is the entanglement entropy. In particular, the periodic synchronization between systems subject to different kicking strength can be conveniently understood and elaborated from the pseudoclassical perspective. The applicability of the suggested general pseudoclassical theory to the kicked rotor is also discussed.
翻訳日:2023-01-28 01:34:18 公開日:2022-09-03
# 超強結合量子光マター系のベリー相とトポロジー

Berry Phase and Topology in Ultrastrongly Coupled Quantum Light-Matter Systems ( http://arxiv.org/abs/2209.01363v1 )

ライセンス: Link先を確認
Kanta Masuki, and Yuto Ashida(参考訳) キャビティ内における物質と量子化電磁場との強い結合は、外部駆動がない状態で物質相を制御するための経路として考えられる。 二次元の空洞電磁界と超強結合した物質の量子幾何とトポロジーを忠実かつ効率的な理論的枠組みで解析する。 この形式はベリー位相やチャーン数などの幾何学的および位相的量の超強結合状態において正確に評価することができる。 我々は,円偏光キャビティモードに結合した大規模ディラックフェルミオンのモデル解析に一般フレームワークを適用した。 驚くべきことに, 位相相への通常の遷移に加えて, 強結合系における定性的に新しい特徴,すなわち位相的自明な相への相対的遷移の出現を明らかにする。 また, 強結合光マター系の低エネルギー有効理論とハルダンハニカムモデルとのユニタリマッピングを示すことにより, その直感的理解を示す。

Strong coupling between matter and quantized electromagnetic fields in a cavity has emerged as a possible route toward controlling the phase of matter in the absence of an external drive. We develop a faithful and efficient theoretical framework to analyze quantum geometry and topology in materials ultrastrongly coupled to cavity electromagnetic fields in two dimensions. The formalism allows us to accurately evaluate geometrical and topological quantities, such as Berry phase and Chern number, in ultrastrong and deep strong coupling regimes. We apply our general framework to analyze a concrete model of massive Dirac fermions coupled to a circularly polarized cavity mode. Surprisingly, in addition to an ordinary transition to the topological phase, our analysis reveals a qualitatively new feature in deep strong coupling regimes, namely, the emergence of reentrant transition to the topologically trivial phase. We also present its intuitive understanding by showing the unitary mapping between the low-energy effective theory of strongly coupled light-matter systems and the Haldane honeycomb model.
翻訳日:2023-01-28 01:34:09 公開日:2022-09-03
# FastDTWは近似的であり、一般に近似アルゴリズムよりも遅い

FastDTW is approximate and Generally Slower than the Algorithm it Approximates ( http://arxiv.org/abs/2003.11246v5 )

ライセンス: Link先を確認
Renjie Wu and Eamonn J. Keogh(参考訳) 多くの時系列データマイニング問題は、距離測定を繰り返すことで解決できる。 そのようなタスクの例としては、類似性検索、クラスタリング、分類、異常検出、セグメンテーションなどがある。 20年以上にわたり、ほとんどのドメインにおいて、動的時間ワープ(DTW)距離測定がほとんどのタスクに最適な尺度であることが知られている。 古典的なDTWアルゴリズムは2次時間複雑性を持つため、その償却時間を削減するために多くのアイデアが導入された。 最も引用される近似アプローチの1つはfastdtwである。 FastDTWアルゴリズムは1000以上の励起を持ち、数百の研究で明確に使われている。 この作品では驚くべき主張をしている。 任意の現実的なデータマイニングアプリケーションでは、FastDTWは正確なDTWよりもはるかに遅い。 この事実は、このアルゴリズムを使用するコミュニティに明らかに影響している: はるかに大きなデータセットに対処し、正確な結果を得ることができ、少ない時間でそれを行うことができる。

Many time series data mining problems can be solved with repeated use of distance measure. Examples of such tasks include similarity search, clustering, classification, anomaly detection and segmentation. For over two decades it has been known that the Dynamic Time Warping (DTW) distance measure is the best measure to use for most tasks, in most domains. Because the classic DTW algorithm has quadratic time complexity, many ideas have been introduced to reduce its amortized time, or to quickly approximate it. One of the most cited approximate approaches is FastDTW. The FastDTW algorithm has well over a thousand citations and has been explicitly used in several hundred research efforts. In this work, we make a surprising claim. In any realistic data mining application, the approximate FastDTW is much slower than the exact DTW. This fact clearly has implications for the community that uses this algorithm: allowing it to address much larger datasets, get exact results, and do so in less time.
翻訳日:2022-12-20 02:48:59 公開日:2022-09-03
# 非滑らかな非凸画像再構成のための学習可能なDescentアルゴリズム

Learnable Descent Algorithm for Nonsmooth Nonconvex Image Reconstruction ( http://arxiv.org/abs/2007.11245v5 )

ライセンス: Link先を確認
Yunmei Chen, Hongcheng Liu, Xiaojing Ye, Qingchao Zhang(参考訳) 本研究では,非滑らかで非凸な画像再構成問題を解決するための一般学習ベースのフレームワークを提案する。 重畳み込みニューラルネットワークとしてパラメトリ化された$l_{2,1}$ノルムと滑らかだが非凸な特徴マッピングの組み合わせとして正規化関数をモデル化する。 ネステロフのスムース化手法と残差学習のアイデアを活かし,非滑らかな非凸最小化問題を解くための有理収束型降下型アルゴリズムを開発し,そのアルゴリズムの出力がトレーニングデータの参照と一致するようにネットワークパラメータを学習する。 提案手法は, 様々な現代的なネットワーク構造を正規化に利用でき, 得られたネットワークはアルゴリズムの保証された収束を継承する。 また,提案したネットワークはパラメータ効率が高く,その性能は様々な画像再構成問題における最先端手法と比較できることを示す。

We propose a general learning based framework for solving nonsmooth and nonconvex image reconstruction problems. We model the regularization function as the composition of the $l_{2,1}$ norm and a smooth but nonconvex feature mapping parametrized as a deep convolutional neural network. We develop a provably convergent descent-type algorithm to solve the nonsmooth nonconvex minimization problem by leveraging the Nesterov's smoothing technique and the idea of residual learning, and learn the network parameters such that the outputs of the algorithm match the references in training data. Our method is versatile as one can employ various modern network structures into the regularization, and the resulting network inherits the guaranteed convergence of the algorithm. We also show that the proposed network is parameter-efficient and its performance compares favorably to the state-of-the-art methods in a variety of image reconstruction problems in practice.
翻訳日:2022-11-07 22:47:32 公開日:2022-09-03
# 有向ハイパーグラフニューラルネットワーク

Directed hypergraph neural network ( http://arxiv.org/abs/2008.03626v3 )

ライセンス: Link先を確認
Loc Hoang Tran, Linh Hoang Tran(参考訳) 不規則なデータ構造を扱うために、多くのデータ科学者によってグラフ畳み込みニューラルネットワークが開発された。 しかし、データサイエンティストは、主に非方向グラフのためのディープニューラルネットワーク手法の開発に集中している。 本稿では,有向ハイパーグラフのための新しいニューラルネットワーク手法を提案する。 言い換えれば、新しい指向型ハイパーグラフニューラルネットワーク法だけでなく、新しい指向型ハイパーグラフに基づく半教師付き学習法を開発する。 これらの手法はノード分類タスクを解決するために用いられる。 実験で使用される2つのデータセットは、coraとciteseerデータセットである。 従来の有向グラフに基づく半有向学習法のうち,新しい有向ハイパーグラフに基づく半有向学習法,このノード分類課題の解法として利用される新しい有向ハイパーグラフニューラルネットワーク法において,新しい有向ハイパーグラフニューラルネットワークが最も高い精度を達成することを認識した。

To deal with irregular data structure, graph convolution neural networks have been developed by a lot of data scientists. However, data scientists just have concentrated primarily on developing deep neural network method for un-directed graph. In this paper, we will present the novel neural network method for directed hypergraph. In the other words, we will develop not only the novel directed hypergraph neural network method but also the novel directed hypergraph based semi-supervised learning method. These methods are employed to solve the node classification task. The two datasets that are used in the experiments are the cora and the citeseer datasets. Among the classic directed graph based semi-supervised learning method, the novel directed hypergraph based semi-supervised learning method, the novel directed hypergraph neural network method that are utilized to solve this node classification task, we recognize that the novel directed hypergraph neural network achieves the highest accuracies.
翻訳日:2022-11-01 04:07:13 公開日:2022-09-03
# 等角予測を用いた画像分類器の不確かさ集合

Uncertainty Sets for Image Classifiers using Conformal Prediction ( http://arxiv.org/abs/2009.14193v5 )

ライセンス: Link先を確認
Anastasios Angelopoulos, Stephen Bates, Jitendra Malik, Michael I. Jordan(参考訳) 畳み込み画像分類器は高い予測精度を達成できるが、不確かさの定量化は未解決の課題であり、一連の設定でのデプロイメントを妨げる。 プラットスケーリングのような既存の不確実な定量化技術は、ネットワークの確率推定を校正しようとするが、正式な保証はない。 本稿では,任意の分類器を修飾して真のラベルを含む予測集合を,90%などのユーザ指定確率で出力するアルゴリズムを提案する。 このアルゴリズムはPlatetスケーリングのようにシンプルで高速だが、すべてのモデルとデータセットに対して正式な有限サンプルカバレッジを保証する。 提案手法は,Plattスケーリング後の可逆クラスの小さなスコアを正規化することにより,より安定した予測セットを与えるために,既存の共形予測アルゴリズムを変更する。 ResNet-152 などの分類器を用いた Imagenet と Imagenet-V2 の両実験において,本手法は既存の手法よりも優れており,スタンドアローンの Platt スケーリングベースラインよりも 5 から 10 の要素を持つ場合が多い。

Convolutional image classifiers can achieve high predictive accuracy, but quantifying their uncertainty remains an unresolved challenge, hindering their deployment in consequential settings. Existing uncertainty quantification techniques, such as Platt scaling, attempt to calibrate the network's probability estimates, but they do not have formal guarantees. We present an algorithm that modifies any classifier to output a predictive set containing the true label with a user-specified probability, such as 90%. The algorithm is simple and fast like Platt scaling, but provides a formal finite-sample coverage guarantee for every model and dataset. Our method modifies an existing conformal prediction algorithm to give more stable predictive sets by regularizing the small scores of unlikely classes after Platt scaling. In experiments on both Imagenet and Imagenet-V2 with ResNet-152 and other classifiers, our scheme outperforms existing approaches, achieving coverage with sets that are often factors of 5 to 10 smaller than a stand-alone Platt scaling baseline.
翻訳日:2022-10-13 05:53:37 公開日:2022-09-03
# 現在の時系列異常検出ベンチマークは欠陥があり、進歩の錯覚を生み出している

Current Time Series Anomaly Detection Benchmarks are Flawed and are Creating the Illusion of Progress ( http://arxiv.org/abs/2009.13807v5 )

ライセンス: Link先を確認
Renjie Wu, Eamonn J. Keogh(参考訳) 時系列異常検出はデータサイエンスにおいて長年にわたって重要な話題であり、論文は1950年代までさかのぼる。 しかし、近年はこの話題に対する関心が爆発的に高まり、その多くは他のドメインでのディープラーニングの成功や、他の時系列タスクによるものである。 これらの論文のほとんどは、yahoo、numenta、nasaなどによって作成された、人気のあるベンチマークデータセットの1つ以上でテストされている。 この作品では驚くべき主張をする。 これらのデータセットの個々のインスタンスの大多数は、4つ以上の欠陥に苦しむ。 これら4つの欠陥のため、多くの公表された異常検出アルゴリズムの比較は信頼性が低く、さらに重要なことは、近年の明らかな進歩の多くは幻想的なものだと考えている。 本稿では,これらの主張の実証に加えて,UCR Time Series Anomaly Archiveを紹介する。 我々は、このリソースがUCR Time Series Classification Archiveと同じような役割を果たすと信じており、コミュニティにアプローチ間の有意義な比較と全体的な進捗の有意義な指標を可能にするベンチマークを提供する。

Time series anomaly detection has been a perennially important topic in data science, with papers dating back to the 1950s. However, in recent years there has been an explosion of interest in this topic, much of it driven by the success of deep learning in other domains and for other time series tasks. Most of these papers test on one or more of a handful of popular benchmark datasets, created by Yahoo, Numenta, NASA, etc. In this work we make a surprising claim. The majority of the individual exemplars in these datasets suffer from one or more of four flaws. Because of these four flaws, we believe that many published comparisons of anomaly detection algorithms may be unreliable, and more importantly, much of the apparent progress in recent years may be illusionary. In addition to demonstrating these claims, with this paper we introduce the UCR Time Series Anomaly Archive. We believe that this resource will perform a similar role as the UCR Time Series Classification Archive, by providing the community with a benchmark that allows meaningful comparisons between approaches and a meaningful gauge of overall progress.
翻訳日:2022-10-13 05:26:43 公開日:2022-09-03
# 漸近ランダム化制御とバンディットへの応用

Asymptotic Randomised Control with applications to bandits ( http://arxiv.org/abs/2010.07252v2 )

ライセンス: Link先を確認
Samuel N. Cohen and Tanut Treetanthiploet(参考訳) 相関した(かつ単純な文脈的およびレストレスな)要素を持つ一般的なマルチアームバンディット問題を緩和制御問題と考える。 エントロピー正規化を導入することで、値関数に対する滑らかな漸近近似が得られる。 これにより、最適な決定プロセスの新しい半インデックス近似が得られる。 このセミインデックスは、学習プレミアムが環境で利用可能な情報の非対称性と報酬関数の非線形性を明示的に記述する楽観的(UCB)原理のように、探索-探索トレードオフを明示的にバランスさせるものとして解釈することができる。 Asymptotic Randomized Control (ARC) アルゴリズムの性能は、相関した多腕包帯に対する他のアプローチと良好に比較できる。

We consider a general multi-armed bandit problem with correlated (and simple contextual and restless) elements, as a relaxed control problem. By introducing an entropy regularisation, we obtain a smooth asymptotic approximation to the value function. This yields a novel semi-index approximation of the optimal decision process. This semi-index can be interpreted as explicitly balancing an exploration-exploitation trade-off as in the optimistic (UCB) principle where the learning premium explicitly describes asymmetry of information available in the environment and non-linearity in the reward function. Performance of the resulting Asymptotic Randomised Control (ARC) algorithm compares favourably well with other approaches to correlated multi-armed bandits.
翻訳日:2022-10-07 14:14:21 公開日:2022-09-03
# 物理制約データ駆動非線形材料モデリングのためのディープオートエンコーダ

Deep autoencoders for physics-constrained data-driven nonlinear materials modeling ( http://arxiv.org/abs/2209.04416v1 )

ライセンス: Link先を確認
Xiaolong He, Qizhi He, Jiun-Shyan Chen(参考訳) 物理に制約のあるデータ駆動コンピューティングは、材料データベースに基づいて複雑な材料のシミュレーションを可能にし、古典的な構成モデルの構築をバイパスする新しい計算パラダイムである。 しかし、高次元の応用や外挿一般化を扱うのは難しい。 本稿では,これらの非線形材料モデリングの基本問題に対処するために,データ駆動フレームワークに基づくディープラーニング技術を紹介する。 この目的のために、与えられた材料データベースの低次元表現(埋め込み)を学ぶために、自動エンコーダニューラルネットワークアーキテクチャを導入する。 次に、オフラインで訓練されたオートエンコーダと検出された埋め込み空間をオンラインデータ駆動計算に組み込んで、データベースから最適な材料状態の探索を低次元空間で行い、投影された材料データの堅牢性と予測可能性を高める。 数値安定性と代表構成多様体を確保するために,提案するオートエンコーダに基づくデータ駆動型解法に適合する凸性保存補間スキームを提案する。 本研究では, 非線形生体組織をモデル化し, 提案手法の適用性を示す。 また,提案手法のロバスト性と収束性を検討するために,データノイズ,データサイズ,スパーシティ,トレーニング初期化,モデルアーキテクチャに関するパラメトリックな研究も行った。

Physics-constrained data-driven computing is an emerging computational paradigm that allows simulation of complex materials directly based on material database and bypass the classical constitutive model construction. However, it remains difficult to deal with high-dimensional applications and extrapolative generalization. This paper introduces deep learning techniques under the data-driven framework to address these fundamental issues in nonlinear materials modeling. To this end, an autoencoder neural network architecture is introduced to learn the underlying low-dimensional representation (embedding) of the given material database. The offline trained autoencoder and the discovered embedding space are then incorporated in the online data-driven computation such that the search of optimal material state from database can be performed on a low-dimensional space, aiming to enhance the robustness and predictability with projected material data. To ensure numerical stability and representative constitutive manifold, a convexity-preserving interpolation scheme tailored to the proposed autoencoder-based data-driven solver is proposed for constructing the material state. In this study, the applicability of the proposed approach is demonstrated by modeling nonlinear biological tissues. A parametric study on data noise, data size and sparsity, training initialization, and model architectures, is also conducted to examine the robustness and convergence property of the proposed approach.
翻訳日:2022-09-18 16:53:35 公開日:2022-09-03
# 二次勾配: 単位勾配アルゴリズムとニュートン法

Quadratic Gradient: Uniting Gradient Algorithm and Newton Method as One ( http://arxiv.org/abs/2209.03282v1 )

ライセンス: Link先を確認
John Chiang(参考訳) ニュートン法が浮動小数点数を1つだけ使うためには、行探索技術に不適当かもしれない。 勾配と同じ大きさの柱ベクトルは、単にフロート数よりも良い場合があり、それぞれの勾配要素を異なる速度で加速することができる。 さらに、ヘッセン行列と同じ順序の正方行列は、ヘッセン行列を修正するのに役立つかもしれない。 チアンは勾配を加速するために柱ベクトルと正方行列、すなわち対角行列の間に何かを適用し、さらに二次勾配と呼ばれるより高速な勾配変種を提案した。 本稿では,2次勾配の新しいバージョンを構築するための新しい方法を提案する。 この新たな二次勾配は、固定ヘッセン・ニュートン法の収束条件を満たすものではない。 しかし, 実験結果から, コンバージェンスレートにおいて, 元のものよりも優れた性能を示した。 また、Chiangは、一階勾配降下法におけるヘッセン行列と学習率の関係があるかもしれないと推測している。 浮動小数点数 $\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ が勾配法のよい学習率であることを証明する。

It might be inadequate for the line search technique for Newton's method to use only one floating point number. A column vector of the same size as the gradient might be better than a mere float number to accelerate each of the gradient elements with different rates. Moreover, a square matrix of the same order as the Hessian matrix might be helpful to correct the Hessian matrix. Chiang applied something between a column vector and a square matrix, namely a diagonal matrix, to accelerate the gradient and further proposed a faster gradient variant called quadratic gradient. In this paper, we present a new way to build a new version of the quadratic gradient. This new quadratic gradient doesn't satisfy the convergence conditions of the fixed Hessian Newton's method. However, experimental results show that it sometimes has a better performance than the original one in convergence rate. Also, Chiang speculates that there might be a relation between the Hessian matrix and the learning rate for the first-order gradient descent method. We prove that the floating number $\frac{1}{\epsilon + \max \{| \lambda_i | \}}$ can be a good learning rate of the gradient methods, where $\epsilon$ is a number to avoid division by zero and $\lambda_i$ the eigenvalues of the Hessian matrix.
翻訳日:2022-09-08 13:12:09 公開日:2022-09-03
# Sharpは、ミスバウンドオンライン学習のいくつかのモデルに対する盗聴フィードバックの価格に縛られる

Sharp bounds on the price of bandit feedback for several models of mistake-bounded online learning ( http://arxiv.org/abs/2209.01366v1 )

ライセンス: Link先を確認
Raymond Feng, Jesse Geneson, Andrew Lee, and Espen Slettnes(参考訳) 誤り境界モデルのいくつかの変種に対する帯域フィードバックの価格の急激な境界を決定する。 論文の最初の部分は、$r$-input weak reinforcement modelと$r$-input delay, ambiguous reinforcement modelの境界を示している。 どちらのモデルでも、敵は各ラウンドに$r$の入力を与え、$r$の推測が正しい場合のみ正しい答えを示す。 2つのモデルの唯一の違いは、遅れてあいまいなモデルでは、学習者はラウンドの次の入力を受け取る前に各入力に答えなければならず、一方学習者は弱い強化モデルで一度にすべての$r$入力を受け取る。 本論文の第2部では,置換パターンを用いたオンライン学習モデルを紹介し,サブ置換に関する統計を推測することで,置換の集合から置換を学習しようとする。 これらの置換モデルでは、バンドイットフィードバックの価格の急な限界が証明される。

We determine sharp bounds on the price of bandit feedback for several variants of the mistake-bound model. The first part of the paper presents bounds on the $r$-input weak reinforcement model and the $r$-input delayed, ambiguous reinforcement model. In both models, the adversary gives $r$ inputs in each round and only indicates a correct answer if all $r$ guesses are correct. The only difference between the two models is that in the delayed, ambiguous model, the learner must answer each input before receiving the next input of the round, while the learner receives all $r$ inputs at once in the weak reinforcement model. In the second part of the paper, we introduce models for online learning with permutation patterns, in which a learner attempts to learn a permutation from a set of permutations by guessing statistics related to sub-permutations. For these permutation models, we prove sharp bounds on the price of bandit feedback.
翻訳日:2022-09-07 15:39:14 公開日:2022-09-03
# 深層学習による養蜂音の同定

Identify The Beehive Sound Using Deep Learning ( http://arxiv.org/abs/2209.01374v1 )

ライセンス: Link先を確認
Shah Jafor Sadeek Quaderi, Sadia Afrin Labonno, Sadia Mostafa and Shamim Akhter(参考訳) 花は、デュラーを環境から取り除く上で重要な役割を果たす。 開花植物のライフサイクルには、受粉、受精、開花、種子形成、分散、発芽が含まれる。 ハチはすべての開花植物の約75%を受粉する。 環境汚染、気候変動、自然景観破壊などにより、自然の生息地が脅かされ、ミツバチの数を継続的に減少させる。 その結果、いくつかの研究者がこの問題を解決しようとしている。 ビーヒーブ音の録音に音響的分類を適用することは、その内部の変化を検出する方法である。 本研究では,録音された音に逐次ニューラルネットワーク,畳み込みニューラルネットワーク,再帰的ニューラルネットワークといったディープラーニング技術を用いて,蜂の鳴き声を非趣味音から分類する。 さらに,深層学習手法を用いて,サポートベクターマシン,決定木,ランダムフォレスト,na\"iveベイズなど,一般的な非深層学習手法の比較研究を行った。 この手法は録音された音(25~75%の雑音)でも検証される。

Flowers play an essential role in removing the duller from the environment. The life cycle of the flowering plants involves pollination, fertilization, flowering, seed-formation, dispersion, and germination. Honeybees pollinate approximately 75% of all flowering plants. Environmental pollution, climate change, natural landscape demolition, and so on, threaten the natural habitats, thus continuously reducing the number of honeybees. As a result, several researchers are attempting to resolve this issue. Applying acoustic classification to recordings of beehive sounds may be a way of detecting changes within them. In this research, we use deep learning techniques, namely Sequential Neural Network, Convolutional Neural Network, and Recurrent Neural Network, on the recorded sounds to classify bee sounds from the nonbeehive noises. In addition, we perform a comparative study among some popular non-deep learning techniques, namely Support Vector Machine, Decision Tree, Random Forest, and Na\"ive Bayes, with the deep learning techniques. The techniques are also verified on the combined recorded sounds (25-75% noises).
翻訳日:2022-09-07 15:38:57 公開日:2022-09-03
# 電力消費予測のためのRNNにおけるツリーベース学習

Tree-Based Learning in RNNs for Power Consumption Forecasting ( http://arxiv.org/abs/2209.01378v1 )

ライセンス: Link先を確認
Roberto Baviera, Pietro Manzoni(参考訳) RNN(p)と呼ばれる複数の時間ラグで動作するリカレントニューラルネットワークは、自己回帰ARX(p)モデルの自然な一般化である。 時間、日、週、年ごとの相互作用が共存するエネルギーセクターで起こるように、異なる時間スケールが特定の現象に影響を与える強力な予測ツールである。 BPTTは、RNNの学習アルゴリズムとして業界標準である。 我々は、RNN(p)モデルをトレーニングする場合、時間と空間の複雑さの観点から、他の学習アルゴリズムの方がはるかに効率的であることが証明された。 また,未学習ネットワークのツリー表現を利用した新たな学習アルゴリズムである木組再帰学習を導入し,さらに効果的であるように思われる。 本稿では,時間スケールでの電力消費予測へのRNN(p)モデルの適用について述べる。実験により,提案アルゴリズムの効率と,選択したモデルによるエネルギー消費の確率的予測における予測精度について検証した。

A Recurrent Neural Network that operates on several time lags, called an RNN(p), is the natural generalization of an Autoregressive ARX(p) model. It is a powerful forecasting tool when different time scales can influence a given phenomenon, as it happens in the energy sector where hourly, daily, weekly and yearly interactions coexist. The cost-effective BPTT is the industry standard as learning algorithm for RNNs. We prove that, when training RNN(p) models, other learning algorithms turn out to be much more efficient in terms of both time and space complexity. We also introduce a new learning algorithm, the Tree Recombined Recurrent Learning, that leverages on a tree representation of the unrolled network and appears to be even more effective. We present an application of RNN(p) models for power consumption forecasting on the hourly scale: experimental results demonstrate the efficiency of the proposed algorithm and the excellent predictive accuracy achieved by the selected model both in point and in probabilistic forecasting of the energy consumption.
翻訳日:2022-09-07 15:38:39 公開日:2022-09-03
# SaleNet:EEGを用いた注意レベル評価のための低消費電力エンドツーエンドCNNアクセラレータ

SaleNet: A low-power end-to-end CNN accelerator for sustained attention level evaluation using EEG ( http://arxiv.org/abs/2209.01386v1 )

ライセンス: Link先を確認
Chao Zhang, Zijian Tang, Taoming Guo, Jiaxin Lei, Jiaxin Xiao, Anhe Wang, Shuo Bai, Milin Zhang(参考訳) 本稿では,前頭前頭脳波(EEG)を用いた注意レベル評価のための終端畳み込みニューラルネットワーク(CNN)であるSaleNetを提案する。 集団畳み込み,大域平均プーリング (GAP) , 近ゼロプルーニング, 重みクラスタリング, およびモデル圧縮の量子化を併用して, 総圧縮比183.11xとなるバイアス駆動プルーニング法を提案する。 本研究において、圧縮販売網は、記録された6-subject eegデータベース上で84.2%の最先端の被写体非依存的注意レベル分類精度を得る。 SaleNetは、競争力0.11W、エネルギー効率8.19GOps/WのArtix-7 FPGA上で実装されている。

This paper proposes SaleNet - an end-to-end convolutional neural network (CNN) for sustained attention level evaluation using prefrontal electroencephalogram (EEG). A bias-driven pruning method is proposed together with group convolution, global average pooling (GAP), near-zero pruning, weight clustering and quantization for the model compression, achieving a total compression ratio of 183.11x. The compressed SaleNet obtains a state-of-the-art subject-independent sustained attention level classification accuracy of 84.2% on the recorded 6-subject EEG database in this work. The SaleNet is implemented on a Artix-7 FPGA with a competitive power consumption of 0.11 W and an energy-efficiency of 8.19 GOps/W.
翻訳日:2022-09-07 15:38:22 公開日:2022-09-03
# 解釈可能な時系列モデリングのための学習微分演算子

Learning Differential Operators for Interpretable Time Series Modeling ( http://arxiv.org/abs/2209.01491v1 )

ライセンス: Link先を確認
Yingtao Luo, Chang Xu, Yang Liu, Weiqing Liu, Shun Zheng and Jiang Bian(参考訳) データからのシーケンシャルパターンのモデリングは、様々な時系列予測タスクの中核である。 ディープラーニングモデルは、多くの伝統的なモデルを大きく上回っているが、これらのブラックボックスモデルは、一般的に予測と意思決定における説明可能性に欠けている。 理解可能な数学的表現で基礎となる傾向を明らかにするために、科学者や経済学者は偏微分方程式(pdes)を使ってシーケンシャルパターンの高度に非線形なダイナミクスを説明する傾向がある。 しかし、通常、ドメインエキスパートの知識と一連の単純化された仮定が必要であり、それは必ずしも実用的ではなく、絶えず変化する世界から逸脱することができる。 時間進化力学を説明するためにデータから微分関係を動的に学習することは可能か? 本研究では,逐次データから解釈可能なPDEモデルを自動的に取得する学習フレームワークを提案する。 特に、このフレームワークは $p$-blocks と呼ばれる学習可能な微分ブロックで構成されており、理論上、任意の時間発展する複素連続関数を近似できることが証明されている。 さらに,動的シフトを捉えるために,ハイブリッドPDEモデルのハイパーパラメータを動的に最適化するメタ学習コントローラを導入する。 ファイナンシャル、エンジニアリング、ヘルスデータの時系列予測に関する大規模な実験は、我々のモデルが貴重な解釈可能性を提供し、最先端のモデルに匹敵する性能を達成できることを示している。 実験的な研究から、数個の微分作用素の学習が、膨大な計算複雑性を伴わないシーケンシャルダイナミクスの大きなトレンドを捉えていることが分かる。

Modeling sequential patterns from data is at the core of various time series forecasting tasks. Deep learning models have greatly outperformed many traditional models, but these black-box models generally lack explainability in prediction and decision making. To reveal the underlying trend with understandable mathematical expressions, scientists and economists tend to use partial differential equations (PDEs) to explain the highly nonlinear dynamics of sequential patterns. However, it usually requires domain expert knowledge and a series of simplified assumptions, which is not always practical and can deviate from the ever-changing world. Is it possible to learn the differential relations from data dynamically to explain the time-evolving dynamics? In this work, we propose an learning framework that can automatically obtain interpretable PDE models from sequential data. Particularly, this framework is comprised of learnable differential blocks, named $P$-blocks, which is proved to be able to approximate any time-evolving complex continuous functions in theory. Moreover, to capture the dynamics shift, this framework introduces a meta-learning controller to dynamically optimize the hyper-parameters of a hybrid PDE model. Extensive experiments on times series forecasting of financial, engineering, and health data show that our model can provide valuable interpretability and achieve comparable performance to state-of-the-art models. From empirical studies, we find that learning a few differential operators may capture the major trend of sequential dynamics without massive computational complexity.
翻訳日:2022-09-07 15:38:09 公開日:2022-09-03
# streamnet: white matter streamline analysisのためのwae

StreamNet: A WAE for White Matter Streamline Analysis ( http://arxiv.org/abs/2209.01498v1 )

ライセンス: Link先を確認
Andrew Lizarraga, Katherine L. Narr, Kristy A. Donald, Shantanu H. Joshi(参考訳) ホワイトマター・ストリームラインの集合の高度に異質な幾何学解析のためのオートエンコーダアーキテクチャであるStreamNetを提案する。 このフレームワークはwasserstein-1メトリックの幾何保存特性を利用して、ストリームラインのバンドル全体の直接エンコーディングと再構成を実現する。 本モデルでは, 個体群における流線分布構造を正確に把握するだけでなく, 実流線と合成流線の優れた復元性能を実現できることを示す。 繊維形状の類似度を計測するアートバンドル比較測定の最近の状況を用いて,T1強調拡散イメージングによる白色物質の流動性評価を行った。

We present StreamNet, an autoencoder architecture for the analysis of the highly heterogeneous geometry of large collections of white matter streamlines. This proposed framework takes advantage of geometry-preserving properties of the Wasserstein-1 metric in order to achieve direct encoding and reconstruction of entire bundles of streamlines. We show that the model not only accurately captures the distributive structures of streamlines in the population, but is also able to achieve superior reconstruction performance between real and synthetic streamlines. Experimental model performance is evaluated on white matter streamlines resulting from T1-weighted diffusion imaging of 40 healthy controls using recent state of the art bundle comparison metric that measures fiber-shape similarities.
翻訳日:2022-09-07 15:37:45 公開日:2022-09-03
# 空間変数一般化ガウスモデルに基づく共同画像復元と特徴抽出のための変分アプローチ

A Variational Approach for Joint Image Recovery and Features Extraction Based on Spatially Varying Generalised Gaussian Models ( http://arxiv.org/abs/2209.01375v1 )

ライセンス: Link先を確認
Emilie Chouzenoux, Marie-Caroline Corbineau, Jean-Christophe Pesquet, Gabriele Scrivanti(参考訳) 再構成/特徴抽出の連立問題は画像処理において難しい課題である。 画像の復元と特徴の抽出を共同で行う。 本稿では,まず,この問題の非滑らかかつ非凸な変分定式化を提案する。 この目的のために、指数を含むパラメータが空間不変である全多元一般化ガウス事前を導入する。 第二に、提案した非凸目的関数の構造を効率的に活用する交互近位最適化アルゴリズムを設計する。 また,このアルゴリズムの収束を解析する。 ジョイントセグメンテーション/デブロアリングタスクの数値実験で示すように,提案手法は高品質な結果をもたらす。

The joint problem of reconstruction / feature extraction is a challenging task in image processing. It consists in performing, in a joint manner, the restoration of an image and the extraction of its features. In this work, we firstly propose a novel nonsmooth and nonconvex variational formulation of the problem. For this purpose, we introduce a versatile generalised Gaussian prior whose parameters, including its exponent, are space-variant. Secondly, we design an alternating proximal-based optimisation algorithm that efficiently exploits the structure of the proposed nonconvex objective function. We also analyze the convergence of this algorithm. As shown in numerical experiments conducted on joint segmentation/deblurring tasks, the proposed method provides high-quality results.
翻訳日:2022-09-07 15:32:28 公開日:2022-09-03
# TransPolymer: ポリマー特性予測のためのトランスフォーマーベース言語モデル

TransPolymer: a Transformer-based Language Model for Polymer Property Predictions ( http://arxiv.org/abs/2209.01307v1 )

ライセンス: Link先を確認
Changwen Xu, Yuyang Wang, Amir Barati Farimani(参考訳) ポリマー物性の精密かつ効率的な予測は、高分子の発達と設計において非常に重要である。 従来, 高分子の機能評価には, 高価で時間を要する実験やシミュレーションが必要であった。 近年,様々な自然言語処理タスクにおいて,注意機構を備えたトランスフォーマーモデルの性能が向上している。 しかし、このような方法は高分子科学では研究されていない。 本稿では,ポリマー特性予測のためのトランスフォーマーベース言語モデルTransPolymerについて報告する。 提案する高分子トークン化剤により, トランスポリマーは高分子配列から直接表現を学習できる。 モデルは、大きなラベルのないデータセットで事前学習し、その後様々なポリマー特性に関する下流データセットでモデルを微調整する。 TransPolymerは8つのデータセットすべてで優れたパフォーマンスを実現し、ほとんどのダウンストリームタスクで他のベースラインを大幅に上回る。 さらに, 教師付きトランスポリマーおよび他の言語モデルに対する事前訓練されたトランスポリマーの改良は, 表現学習における大規模非ラベルデータに対する事前訓練の有意な利点を増大させる。 実験の結果, 高分子配列の理解における注意機構の重要性が示された。 データサイエンスの視点で, 合理的なポリマー設計と構造とプロパティの関係の理解を促進するための有望な計算ツールとして, このモデルを強調する。

Accurate and efficient prediction of polymer properties is of great significance in polymer development and design. Conventionally, expensive and time-consuming experiments or simulations are required to evaluate the function of polymers. Recently, Transformer models, equipped with attention mechanisms, have exhibited superior performance in various natural language processing tasks. However, such methods have not been investigated in polymer sciences. Herein, we report TransPolymer, a Transformer-based language model for polymer property prediction. Owing to our proposed polymer tokenizer with chemical awareness, TransPolymer can learn representations directly from polymer sequences. The model learns expressive representations by pretraining on a large unlabeled dataset, followed by finetuning the model on downstream datasets concerning various polymer properties. TransPolymer achieves superior performance in all eight datasets and surpasses other baselines significantly on most downstream tasks. Moreover, the improvement by the pretrained TransPolymer over supervised TransPolymer and other language models strengthens the significant benefits of pretraining on large unlabeled data in representation learning. Experiment results further demonstrate the important role of the attention mechanism in understanding polymer sequences. We highlight this model as a promising computational tool for promoting rational polymer design and understanding structure-property relationships in a data science view.
翻訳日:2022-09-07 15:21:02 公開日:2022-09-03
# 電子健康記録に基づく深層安定表現学習

Deep Stable Representation Learning on Electronic Health Records ( http://arxiv.org/abs/2209.01321v1 )

ライセンス: Link先を確認
Yingtao Luo, Zhaocheng Liu and Qiang Liu(参考訳) 深層学習モデルは患者の電子健康記録(EHR)の有望な疾患予測性能を達成した。 しかし、I.I.D.仮説の下で開発されたほとんどのモデルは、非依存的な分布シフトを考慮せず、ディープラーニングモデルの一般化能力をOF-Distribution(OOD)データに還元する。 この設定では、異なる環境で変化する可能性のある急激な統計的相関が利用され、深層学習モデルの準最適性能を引き起こす可能性がある。 トレーニング分布における術式と診断の不安定な相関は,過去のERHと今後の診断との間に急激な相関をもたらす可能性がある。 この問題に対処するために、我々はCausal Healthcare Embedding (CHE)と呼ばれる因果表現学習手法を提案する。 CHEは、診断と手順の依存関係を取り除くことで、突発的な統計的関係を取り除くことを目的としている。 我々はHilbert-Schmidt Independence Criterion (HSIC)を導入し, 組込み診断と術式特徴の独立度を測定した。 因果的視点分析に基づき,異なる環境における安定したEHR学習のために,このような急激な関係を取り除くために,サンプル重み付け手法を実行する。 さらに,提案手法は,既存のEHR深層学習モデルを拡張可能な,フレキシブルなプラグアンドプレイモジュールとして利用することができる。 2つの公開データセットと5つの最先端ベースラインに関する広範囲な実験は、cheが分散データのディープラーニングモデルの予測精度を大きなマージンで向上できることを明確に示している。 さらに、解釈可能性の研究は、CHEが因果構造をうまく活用し、予測のための歴史的記録のより合理的な貢献を反映できることを示している。

Deep learning models have achieved promising disease prediction performance of the Electronic Health Records (EHR) of patients. However, most models developed under the I.I.D. hypothesis fail to consider the agnostic distribution shifts, diminishing the generalization ability of deep learning models to Out-Of-Distribution (OOD) data. In this setting, spurious statistical correlations that may change in different environments will be exploited, which can cause sub-optimal performances of deep learning models. The unstable correlation between procedures and diagnoses existed in the training distribution can cause spurious correlation between historical EHR and future diagnosis. To address this problem, we propose to use a causal representation learning method called Causal Healthcare Embedding (CHE). CHE aims at eliminating the spurious statistical relationship by removing the dependencies between diagnoses and procedures. We introduce the Hilbert-Schmidt Independence Criterion (HSIC) to measure the degree of independence between the embedded diagnosis and procedure features. Based on causal view analyses, we perform the sample weighting technique to get rid of such spurious relationship for the stable learning of EHR across different environments. Moreover, our proposed CHE method can be used as a flexible plug-and-play module that can enhance existing deep learning models on EHR. Extensive experiments on two public datasets and five state-of-the-art baselines unequivocally show that CHE can improve the prediction accuracy of deep learning models on out-of-distribution data by a large margin. In addition, the interpretability study shows that CHE could successfully leverage causal structures to reflect a more reasonable contribution of historical records for predictions.
翻訳日:2022-09-07 15:20:45 公開日:2022-09-03
# 空間軌道の分類

Classifying Spatial Trajectories ( http://arxiv.org/abs/2209.01322v1 )

ライセンス: Link先を確認
Hasan Pourmahmood-Aghababa and Jeff M. Phillips(参考訳) 5つの実世界のデータセットで測定された空間表現のみを用いて軌道を分類する方法に関する最初の総合的研究を行った。 比較では、一般的な距離のKNN分類器や、各軌跡のベクトル化表現を用いたより一般的な分類器として、20の異なる分類器が考えられる。 また, トラジェクトリのベクトル化手法をデータ駆動方式で開発し, 関連するランドマークを選定し, これらの手法が本研究でもっとも有効であることを示す。 これらのベクトル化アプローチはシンプルで効率的であり、確立された輸送モード分類タスクにおいて最先端の精度を提供する。 本研究は、これらの結果を達成するための新しい単純な手法の導入を含む、軌跡の分類の基準を設定し、このトピックに関する必然的な将来研究の厳格な標準を設定する。

We provide the first comprehensive study on how to classify trajectories using only their spatial representations, measured on 5 real-world data sets. Our comparison considers 20 distinct classifiers arising either as a KNN classifier of a popular distance, or as a more general type of classifier using a vectorized representation of each trajectory. We additionally develop new methods for how to vectorize trajectories via a data-driven method to select the associated landmarks, and these methods prove among the most effective in our study. These vectorized approaches are simple and efficient to use, and also provide state-of-the-art accuracy on an established transportation mode classification task. In all, this study sets the standard for how to classify trajectories, including introducing new simple techniques to achieve these results, and sets a rigorous standard for the inevitable future study on this topic.
翻訳日:2022-09-07 15:20:18 公開日:2022-09-03
# フィッシングurl検出:回避に堅牢なネットワークベースのアプローチ

Phishing URL Detection: A Network-based Approach Robust to Evasion ( http://arxiv.org/abs/2209.01454v1 )

ライセンス: Link先を確認
Taeri Kim, Noseong Park, Jiwon Hong, Sang-Wook Kim(参考訳) 多くのサイバー攻撃はフィッシングURLの拡散から始まる。 これらのフィッシングURLをクリックすると、被害者の個人情報が攻撃者に漏洩する。 フィッシングURLを検出する機械学習手法が提案されている。 しかし、いまだにフィッシングURLの回避、すなわちパターンを操作することで良心的なふりをするフィッシングURLを検出するために探索されていない。 多くの場合 攻撃者は i) フィッシングウェブページの再利用は,全く新しいセットの作成に費用がかかるため,自明な費用を要しない。 二 民間情報を必要とせず、他の者より安いホスティング事業者を好むこと。 三 コスト効率の面で共有ホスティングを好むこと。 iv) 時に、既存の検出メソッドを避けるために、良性ドメイン、IPアドレス、URL文字列パターンを使用する。 そこで,これらの行動特性に触発されて,正当なパターン,すなわち回避にロバストなフィッシングurlを正確に検出するネットワークベース推論手法を提案する。 ネットワークアプローチでは、フィッシングurlは、ネットワーク内の隣人の大多数が同時に回避されない限り、回避後もファシィとして識別される。 本手法は,最先端の手法であるf-1が0.89であるのに対して,優れた特徴量に基づく手法では0.84である。

Many cyberattacks start with disseminating phishing URLs. When clicking these phishing URLs, the victim's private information is leaked to the attacker. There have been proposed several machine learning methods to detect phishing URLs. However, it still remains under-explored to detect phishing URLs with evasion, i.e., phishing URLs that pretend to be benign by manipulating patterns. In many cases, the attacker i) reuses prepared phishing web pages because making a completely brand-new set costs non-trivial expenses, ii) prefers hosting companies that do not require private information and are cheaper than others, iii) prefers shared hosting for cost efficiency, and iv) sometimes uses benign domains, IP addresses, and URL string patterns to evade existing detection methods. Inspired by those behavioral characteristics, we present a network-based inference method to accurately detect phishing URLs camouflaged with legitimate patterns, i.e., robust to evasion. In the network approach, a phishing URL will be still identified as phishy even after evasion unless a majority of its neighbors in the network are evaded at the same time. Our method consistently shows better detection performance throughout various experimental tests than state-of-the-art methods, e.g., F-1 of 0.89 for our method vs. 0.84 for the best feature-based method.
翻訳日:2022-09-07 15:20:03 公開日:2022-09-03
# ラグランジアングラフニューラルネットワークを用いた粒子系系のダイナミクスの学習

Learning the Dynamics of Particle-based Systems with Lagrangian Graph Neural Networks ( http://arxiv.org/abs/2209.01476v1 )

ライセンス: Link先を確認
Ravinder Bhattoo, Sayan Ranu and N. M. Anoop Krishnan(参考訳) 物理系は一般に粒子の組合せとして表され、個々の力学が系の力学を支配する。 しかし、伝統的なアプローチでは、これらの粒子の力学を推測するためにエネルギーや力などの抽象的な量の知識を必要とする。 本稿では,粒子系系のラグランジアンを軌道から直接学習するための強い帰納的バイアスを与える,ラグランジアングラフニューラルネットワーク(lgnn)という枠組みを提案する。 我々は、制約とドラッグを伴う挑戦的なシステムに対するアプローチをテストする。LGnnは、フィードフォワードラグランジアンニューラルネットワーク(Lnn)などのベースラインよりもパフォーマンスが向上する。 また,訓練されたシステムよりも2桁大きいシステムと,モデルに認識されないハイブリッドシステムをシミュレートすることにより,システムのゼロショット一般化可能性を示す。 LGnnのグラフアーキテクチャはLnnと比較して学習を著しく単純化し、データの約20倍の性能を持つ。 最後に,モデルによって学習された抵抗力と制約力に関する物理的洞察を直接提供するlgnnの解釈可能性を示す。 したがってlgnnは、純粋に観測可能な量から物理システムのダイナミクスを理解するための補足を提供することができる。

Physical systems are commonly represented as a combination of particles, the individual dynamics of which govern the system dynamics. However, traditional approaches require the knowledge of several abstract quantities such as the energy or force to infer the dynamics of these particles. Here, we present a framework, namely, Lagrangian graph neural network (LGnn), that provides a strong inductive bias to learn the Lagrangian of a particle-based system directly from the trajectory. We test our approach on challenging systems with constraints and drag -- LGnn outperforms baselines such as feed-forward Lagrangian neural network (Lnn) with improved performance. We also show the zero-shot generalizability of the system by simulating systems two orders of magnitude larger than the trained one and also hybrid systems that are unseen by the model, a unique feature. The graph architecture of LGnn significantly simplifies the learning in comparison to Lnn with ~25 times better performance on ~20 times smaller amounts of data. Finally, we show the interpretability of LGnn, which directly provides physical insights on drag and constraint forces learned by the model. LGnn can thus provide a fillip toward understanding the dynamics of physical systems purely from observable quantities.
翻訳日:2022-09-07 15:19:41 公開日:2022-09-03
# 低消費電力ハードウェアベースディープラーニング診断支援ケーススタディ

Low-Power Hardware-Based Deep-Learning Diagnostics Support Case Study ( http://arxiv.org/abs/2209.01507v1 )

ライセンス: Link先を確認
Khushal Sethi, Vivek Parmar and Manan Suri(参考訳) ディープラーニングの研究は、様々な技術革新や応用の出現につながる幅広い関心を生んでいる。 ディープラーニング研究のかなりの割合が視覚ベースのアプリケーションに焦点を当てているため、低消費電力でポータブルな医療診断支援ソリューションを実現するためにこれらの技術を使用する可能性がある。 本稿では,PoCケーススタディのための顕微鏡診断支援システムの組み込みハードウェアによる実装を提案する。 (a)濃厚な血液塗抹中のマラリア。 b)スプーム試料中の結核、及び (c)便サンプルにおける腸管寄生虫感染 我々はSqueeze-Netベースのモデルを用いてネットワークサイズと計算時間を短縮する。 また,学習モデルのメモリフットプリントをさらに削減するために,トレーニング量子化技術を利用する。 これにより、実験室の専門家レベルの精度をスタンドアロンの組込みハードウェアプラットフォームとして分類する病原体を顕微鏡で検出することができる。 提案した実装は、従来のCPUベースの実装に比べて6倍効率が高く、推論時間は$\sim$3 ms/sampleである。

Deep learning research has generated widespread interest leading to emergence of a large variety of technological innovations and applications. As significant proportion of deep learning research focuses on vision based applications, there exists a potential for using some of these techniques to enable low-power portable health-care diagnostic support solutions. In this paper, we propose an embedded-hardware-based implementation of microscopy diagnostic support system for PoC case study on: (a) Malaria in thick blood smears, (b) Tuberculosis in sputum samples, and (c) Intestinal parasite infection in stool samples. We use a Squeeze-Net based model to reduce the network size and computation time. We also utilize the Trained Quantization technique to further reduce memory footprint of the learned models. This enables microscopy-based detection of pathogens that classifies with laboratory expert level accuracy as a standalone embedded hardware platform. The proposed implementation is 6x more power-efficient compared to conventional CPU-based implementation and has an inference time of $\sim$ 3 ms/sample.
翻訳日:2022-09-07 15:19:21 公開日:2022-09-03
# ユーザ特化学習を伴わないSSVEP BCI スパラ用 DNN の移動学習

Transfer Learning of an Ensemble of DNNs for SSVEP BCI Spellers without User-Specific Training ( http://arxiv.org/abs/2209.01511v1 )

ライセンス: Link先を確認
Osman Berke Guney, Huseyin Ozkan(参考訳) 目的:脳波(脳波)を用いて測定された定常視覚誘発電位(SSVEPs)は、脳-コンピュータインタフェース(BCI)スペルで十分な情報伝達率(ITR)を得る。 しかし、文献における現在の高いパフォーマンスssvep bciスペルは、eeg実験によるデータ収集、アルゴリズムのトレーニング、キャリブレーション(すべてシステムの使用前に行われる)を含む、システム適応のための新しいユーザ毎のユーザ固有のトレーニングを初期的に長め、疲れさせる必要がある。 これはbcisの普及を妨げている。 実用性を確保するため,ディープニューラルネットワーク(DNN)のアンサンブルに基づく,ユーザ固有のトレーニングを必要としない,高度に新規なターゲット識別手法を提案する。 方法: 前回実施した脳波実験の参加者から既に存在する文献データセットを利用して,まずグローバルターゲット識別子DNNをトレーニングし,各参加者に微調整する。 我々は、この微調整されたDNNのアンサンブルを新しいユーザインスタンスに転送し、参加者の統計的類似性に応じて最も代表的なDNNkを判定し、アンサンブル予測の重み付けによるターゲットキャラクタの予測を行う。 結果:2つの大規模ベンチマークとBETAデータセットにおいて,本手法は155.51ビット/分,114.64ビット/分ITRを達成している。 https://github.com/osmanberke/Ensemble-of-DNNs 結論:提案手法は,[0.2-1.0]秒間のすべての刺激時間に対して,最先端の代替手段を著しく上回る。 意義:我々のEnsemble-DNN法は,BCIスペルの日常的な展開を促進する可能性があり,かつ,ユーザ固有のトレーニングを伴わずに即時システム使用を可能にする。

Objective: Steady-state visually evoked potentials (SSVEPs), measured with EEG (electroencephalogram), yield decent information transfer rates (ITR) in brain-computer interface (BCI) spellers. However, the current high performing SSVEP BCI spellers in the literature require an initial lengthy and tiring user-specific training for each new user for system adaptation, including data collection with EEG experiments, algorithm training and calibration (all are before the actual use of the system). This impedes the widespread use of BCIs. To ensure practicality, we propose a highly novel target identification method based on an ensemble of deep neural networks (DNNs), which does not require any sort of user-specific training. Method: We exploit already-existing literature datasets from participants of previously conducted EEG experiments to train a global target identifier DNN first, which is then fine-tuned to each participant. We transfer this ensemble of fine-tuned DNNs to the new user instance, determine the k most representative DNNs according to the participants' statistical similarities to the new user, and predict the target character through a weighted combination of the ensemble predictions. Results: On two large-scale benchmark and BETA datasets, our method achieves impressive 155.51 bits/min and 114.64 bits/min ITRs. Code is available for reproducibility: https://github.com/osmanberke/Ensemble-of-DNNs Conclusion: The proposed method significantly outperforms all the state-of-the-art alternatives for all stimulation durations in [0.2-1.0] seconds on both datasets. Significance: Our Ensemble-DNN method has the potential to promote the practical widespread deployment of BCI spellers in daily lives as we provide the highest performance while enabling the immediate system use without any user-specific training.
翻訳日:2022-09-07 15:19:07 公開日:2022-09-03
# HammingMesh: 大規模ディープラーニングのためのネットワークトポロジ

HammingMesh: A Network Topology for Large-Scale Deep Learning ( http://arxiv.org/abs/2209.01346v1 )

ライセンス: Link先を確認
Torsten Hoefler, Tommaso Bonato, Daniele De Sensi, Salvatore Di Girolamo, Shigang Li, Marco Heddes, Jon Belk, Deepak Goel, Miguel Castro, Steve Scott(参考訳) 多くのマイクロアーキテクチャ最適化は、ディープニューラルネットワークの膨大な処理能力を解き放ち、それがai革命の原動力となった。 このような最適化の欠如により、現代のAIの成長は、トレーニングシステム、特にデータムーブメントのパフォーマンスによって妨げられている。 単一のアクセラレータに注目するのではなく,大規模トレーニングにおけるデータ移動特性をシステム規模で調査する。 ワークロード分析に基づいてhammingmeshを設計した。hammingmeshは、ジョブスケジューリングの柔軟性が高く、低コストで高い帯域幅を提供する、新しいネットワークトポロジーです。 具体的には、HammingMeshは2次元の並列性を持つディープラーニングトレーニングジョブに対して、完全な帯域幅と分離をサポートすることができる。 さらに、汎用トラフィックのための高いグローバル帯域幅もサポートする。 したがってhammingmeshは、将来の大規模ディープラーニングシステムを、帯域幅の極端な要件で駆動する。

Numerous microarchitectural optimizations unlocked tremendous processing power for deep neural networks that in turn fueled the AI revolution. With the exhaustion of such optimizations, the growth of modern AI is now gated by the performance of training systems, especially their data movement. Instead of focusing on single accelerators, we investigate data-movement characteristics of large-scale training at full system scale. Based on our workload analysis, we design HammingMesh, a novel network topology that provides high bandwidth at low cost with high job scheduling flexibility. Specifically, HammingMesh can support full bandwidth and isolation to deep learning training jobs with two dimensions of parallelism. Furthermore, it also supports high global bandwidth for generic traffic. Thus, HammingMesh will power future large-scale deep learning systems with extreme bandwidth requirements.
翻訳日:2022-09-07 15:13:14 公開日:2022-09-03
# 複雑な環境におけるロボット経路計画のための知識に基づく遺伝的アルゴリズム

A Novel Knowledge-Based Genetic Algorithm for Robot Path Planning in Complex Environments ( http://arxiv.org/abs/2209.01482v1 )

ライセンス: Link先を確認
Yanrong Hu, Simon X. Yang(参考訳) 本稿では,非構造化複雑な環境における移動ロボットの経路計画のための新しい知識に基づく遺伝的アルゴリズムを提案する。 提案する遺伝的アルゴリズムは,ロボット経路計画の領域知識を,局所探索技術を組み合わせた特殊演算子に組み込む。 ロボットパスの特異かつ簡便な表現を提案し, 衝突を高精度に検出し, ロボットパスの品質をよく反映する簡易かつ効果的な経路評価法を開発した。 提案アルゴリズムは, 静的・動的複合環境において, 最適に近いロボット経路を求めることができる。 提案アルゴリズムの有効性と効率をシミュレーション研究により実証した。 ロボットの経路計画問題に対する遺伝的アルゴリズムの提案において, 特殊遺伝子操作者が果たせない役割を比較研究により示している。

In this paper, a novel knowledge-based genetic algorithm for path planning of a mobile robot in unstructured complex environments is proposed, where five problem-specific operators are developed for efficient robot path planning. The proposed genetic algorithm incorporates the domain knowledge of robot path planning into its specialized operators, some of which also combine a local search technique. A unique and simple representation of the robot path is proposed and a simple but effective path evaluation method is developed, where the collisions can be accurately detected and the quality of a robot path is well reflected. The proposed algorithm is capable of finding a near-optimal robot path in both static and dynamic complex environments. The effectiveness and efficiency of the proposed algorithm are demonstrated by simulation studies. The irreplaceable role of the specialized genetic operators in the proposed genetic algorithm for solving the robot path planning problem is demonstrated through a comparison study.
翻訳日:2022-09-07 15:07:26 公開日:2022-09-03
# バイオインスパイアされたニューラルダイナミクスを考慮した無人水中車両のハイブリッド追尾制御

A Hybrid Tracking Control Strategy for an Unmanned Underwater Vehicle Aided with Bioinspired Neural Dynamics ( http://arxiv.org/abs/2209.01484v1 )

ライセンス: Link先を確認
Zhe Xu, Tao Yan, Simon X. Yang, S. Andrew Gadsden(参考訳) トラッキング制御はロボット工学における重要な研究テーマである。 本稿では,生体インスパイアされた神経動力学モデルに基づく無人潜水機(uuv)のハイブリッド制御戦略を提案する。 強化されたバックステッピング運動制御戦略は、最初に鋭い速度ジャンプを避けるために開発され、従来の方法と比較して滑らかな速度指令を提供する。 そして,スライディングモード制御を新たに提案し,チャタリングを不要とした滑らかで連続的なトルク制御を実現する。 比較研究において、提案された複合ハイブリッド制御戦略により制御信号の滑らかさが保証され、これは実世界での応用、特に複雑な水中環境で運用する必要がある水中無人機において重要である。

Tracking control has been a vital research topic in robotics. This paper presents a novel hybrid control strategy for an unmanned underwater vehicle (UUV) based on a bioinspired neural dynamics model. An enhanced backstepping kinematic control strategy is first developed to avoid sharp velocity jumps and provides smooth velocity commands relative to conventional methods. Then, a novel sliding mode control is proposed, which is capable of providing smooth and continuous torque commands free from chattering. In comparative studies, the proposed combined hybrid control strategy has ensured control signals smoothness, which is critical in real world applications, especially for an unmanned underwater vehicle that needs to operate in complex underwater environments.
翻訳日:2022-09-07 15:07:13 公開日:2022-09-03
# 医用画像分割のためのノルムと形状制約による非教師なし領域適応

Source-Free Unsupervised Domain Adaptation with Norm and Shape Constraints for Medical Image Segmentation ( http://arxiv.org/abs/2209.01300v1 )

ライセンス: Link先を確認
Satoshi Kondo(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、教師付き学習に必要な基礎的真理ラベルを得るのが難しい問題を解決する重要な技術の一つである。 一般的に、UDAはトレーニングプロセス中にソースドメインとターゲットドメインのすべてのサンプルが利用可能であると仮定する。 しかし、データプライバシーの問題を扱うアプリケーションでは、これは現実的な仮定ではない。 この制限を克服するために、ソースデータのないuda(source-free unsupervised domain adaptation、sfuda)が最近提案されている。 本稿では,医用画像分割のためのSFUDA法を提案する。 UDAで一般的に使用されるエントロピー最小化法に加えて,対象臓器の形状制約を維持するために,対象領域における特徴規範を回避するための損失関数を導入する。 提案手法の汎用性と堅牢性を示すために,複数種類のソース・ターゲットドメインの組み合わせを含むデータセットを用いて実験を行った。 提案手法は,すべてのデータセットにおいて最先端技術よりも優れていることを確認した。

Unsupervised domain adaptation (UDA) is one of the key technologies to solve a problem where it is hard to obtain ground truth labels needed for supervised learning. In general, UDA assumes that all samples from source and target domains are available during the training process. However, this is not a realistic assumption under applications where data privacy issues are concerned. To overcome this limitation, UDA without source data, referred to source-free unsupervised domain adaptation (SFUDA) has been recently proposed. Here, we propose a SFUDA method for medical image segmentation. In addition to the entropy minimization method, which is commonly used in UDA, we introduce a loss function for avoiding feature norms in the target domain small and a prior to preserve shape constraints of the target organ. We conduct experiments using datasets including multiple types of source-target domain combinations in order to show the versatility and robustness of our method. We confirm that our method outperforms the state-of-the-art in all datasets.
翻訳日:2022-09-07 14:58:01 公開日:2022-09-03
# 学習した圧縮領域のセマンティックセグメンテーション

Semantic Segmentation in Learned Compressed Domain ( http://arxiv.org/abs/2209.01355v1 )

ライセンス: Link先を確認
Jinming Liu and Heming Sun and Jiro Katto(参考訳) ほとんどのマシンビジョンタスク(セマンティックセグメンテーションなど)は、画像圧縮アルゴリズム(JPEGなど)によって符号化されデコードされた画像に基づいている。 しかし、これらのデコードされた画像は歪みを導入し、人間の知覚に最適化され、マシンビジョンタスクの性能が準最適となる。 本稿では,圧縮領域をベースとしたセグメンテーションタスクの改善手法を提案する。 一 符号化により得られる圧縮表現の冗長性を低減するため、動的及び静的チャネル選択法を提案する。 二) 圧縮表現をセグメンテーションネットワークの特徴として変換するために、2つの異なる変換モジュールを探索し、分析する。 実験の結果,最先端の圧縮ドメインベースに比べて最大15.8\%のビットレートを節約できる一方で,最大83.6\%のビットレートと44.8\%の推論時間を節約できることがわかった。

Most machine vision tasks (e.g., semantic segmentation) are based on images encoded and decoded by image compression algorithms (e.g., JPEG). However, these decoded images in the pixel domain introduce distortion, and they are optimized for human perception, making the performance of machine vision tasks suboptimal. In this paper, we propose a method based on the compressed domain to improve segmentation tasks. i) A dynamic and a static channel selection method are proposed to reduce the redundancy of compressed representations that are obtained by encoding. ii) Two different transform modules are explored and analyzed to help the compressed representation be transformed as the features in the segmentation network. The experimental results show that we can save up to 15.8\% bitrates compared with a state-of-the-art compressed domain-based work while saving up to about 83.6\% bitrates and 44.8\% inference time compared with the pixel domain-based method.
翻訳日:2022-09-07 14:57:45 公開日:2022-09-03
# 深部特徴を用いた病理組織像に基づく乳腺腫瘍の分類と勾配強調法の検討

Classification of Breast Tumours Based on Histopathology Images Using Deep Features and Ensemble of Gradient Boosting Methods ( http://arxiv.org/abs/2209.01380v1 )

ライセンス: Link先を確認
Mohammad Reza Abbasniya, Sayed Ali Sheikholeslamzadeh, Hamid Nasiri, Samaneh Emami(参考訳) 乳がんは世界中で最も一般的ながんである。 乳がんの早期診断は、治療の効率を大幅に改善することができる。 コンピュータ支援診断システム(CAD)は,信頼性,精度,手頃さから広く採用されている。 乳がんの診断には様々な画像診断法があるが,最も正確な症例の1つは病理組織学である。 提案するCADシステムの特徴抽出器の主案として,Deep Feature Transfer Learningが用いられている。 本研究では16種類の事前学習ネットワークがテストされているが,本研究の主な焦点は分類段階である。 inception-resnet-v2は残差ネットワークとインセプションネットワークの両方で利益を上げており、全てのテストcnnにおいて乳癌病理像において最良の特徴抽出能力を示している。 分類段階では,CatBoost,XGBoost,LightGBMのアンサンブルが最も平均精度が高い。 breakhisデータセットは提案手法の評価に用いられた。 breakhisは7909個の病理組織像(良性2,480個、悪性5,429個)を4つの拡大因子に含む。 提案手法の精度(IRv2-CXL)は,BreakHisデータセットの70%を40x,100x,200x,400x倍率は96.82%,95.84%,97.01%,96.15%である。 乳がん自動検出のほとんどの研究は特徴抽出に焦点を合わせており、分類段階にたどり着いた。 IRv2-CXLは、CatBoost、XGBoost、LightGBMの利点を組み合わせられるソフト投票アンサンブル法を用いることで、全ての倍率でより良い結果または同等の結果を示した。

Breast cancer is the most common cancer among women worldwide. Early-stage diagnosis of breast cancer can significantly improve the efficiency of treatment. Computer-aided diagnosis (CAD) systems are widely adopted in this issue due to their reliability, accuracy and affordability. There are different imaging techniques for a breast cancer diagnosis; one of the most accurate ones is histopathology which is used in this paper. Deep feature transfer learning is used as the main idea of the proposed CAD system's feature extractor. Although 16 different pre-trained networks have been tested in this study, our main focus is on the classification phase. The Inception-ResNet-v2 which has both residual and inception networks profits together has shown the best feature extraction capability in the case of breast cancer histopathology images among all tested CNNs. In the classification phase, the ensemble of CatBoost, XGBoost and LightGBM has provided the best average accuracy. The BreakHis dataset was used to evaluate the proposed method. BreakHis contains 7909 histopathology images (2,480 benign and 5,429 malignant) in four magnification factors. The proposed method's accuracy (IRv2-CXL) using 70% of BreakHis dataset as training data in 40x, 100x, 200x and 400x magnification is 96.82%, 95.84%, 97.01% and 96.15%, respectively. Most studies on automated breast cancer detection have focused on feature extraction, which made us attend to the classification phase. IRv2-CXL has shown better or comparable results in all magnifications due to using the soft voting ensemble method which could combine the advantages of CatBoost, XGBoost and LightGBM together.
翻訳日:2022-09-07 14:57:27 公開日:2022-09-03
# 深層学習は術前および術後のグリオーマ患者におけるMRIによる2次元および体積的腫瘍負担測定を自動化する

Deep learning automates bidimensional and volumetric tumor burden measurement from MRI in pre- and post-operative glioblastoma patients ( http://arxiv.org/abs/2209.01402v1 )

ライセンス: Link先を確認
Jakub Nalepa, Krzysztof Kotowski, Bartosz Machura, Szymon Adamski, Oskar Bozek, Bartosz Eksner, Bartosz Kokoszka, Tomasz Pekala, Mateusz Radom, Marek Strzelczak, Lukasz Zarudzki, Agata Krason, Filippo Arcadu, Jean Tessier(参考訳) 磁気共鳴画像(MRI)による腫瘍負担評価は、グリオ芽腫の治療効果の評価の中心である。 この評価は複雑であり、疾患の多様性と複雑さが高いため、高い多様性に結びついている。 本研究では,この課題に対処し,グリオブラスト腫患者の完全自動エンドツーエンド解析のためのディープラーニングパイプラインを提案する。 本手法は, 腫瘍, 海馬, 外科的空洞などの腫瘍亜領域を第1段階で同時に同定し, 現状の神経腫瘍診断基準(RANO)に従って, 容積および2次元の計測値を算出する。 また,人間の専門家が腫瘍のサブ領域を分類し,後にディープラーニングモデルを訓練する際に使用されるセグメンテーション信頼度を捉えるための,厳密な手動アノテーションプロセスを導入する。 The results of our extensive experimental study performed over 760 pre-operative and 504 post-operative adult patients with glioma obtained from the public database (acquired at 19 sites in years 2021-2020) and from a clinical treatment trial (47 and 69 sites for pre-/post-operative patients, 2009-2011) and backed up with thorough quantitative, qualitative and statistical analysis revealed that our pipeline performs accurate segmentation of pre- and post-operative MRIs in a fraction of the manual delineation time (up to 20 times faster than humans). この2次元および体積測定は専門の放射線技師と強く一致しており,RANO測定は腫瘍の負担を定量化するのに必ずしも十分ではないことを示した。

Tumor burden assessment by magnetic resonance imaging (MRI) is central to the evaluation of treatment response for glioblastoma. This assessment is complex to perform and associated with high variability due to the high heterogeneity and complexity of the disease. In this work, we tackle this issue and propose a deep learning pipeline for the fully automated end-to-end analysis of glioblastoma patients. Our approach simultaneously identifies tumor sub-regions, including the enhancing tumor, peritumoral edema and surgical cavity in the first step, and then calculates the volumetric and bidimensional measurements that follow the current Response Assessment in Neuro-Oncology (RANO) criteria. Also, we introduce a rigorous manual annotation process which was followed to delineate the tumor sub-regions by the human experts, and to capture their segmentation confidences that are later used while training the deep learning models. The results of our extensive experimental study performed over 760 pre-operative and 504 post-operative adult patients with glioma obtained from the public database (acquired at 19 sites in years 2021-2020) and from a clinical treatment trial (47 and 69 sites for pre-/post-operative patients, 2009-2011) and backed up with thorough quantitative, qualitative and statistical analysis revealed that our pipeline performs accurate segmentation of pre- and post-operative MRIs in a fraction of the manual delineation time (up to 20 times faster than humans). The bidimensional and volumetric measurements were in strong agreement with expert radiologists, and we showed that RANO measurements are not always sufficient to quantify tumor burden.
翻訳日:2022-09-07 14:56:57 公開日:2022-09-03
# 5g edge上のディープライブビデオ広告の配置

Deep Live Video Ad Placement on the 5G Edge ( http://arxiv.org/abs/2209.01421v1 )

ライセンス: Link先を確認
Mohammad Hosseini(参考訳) ビデオ放送業界は近年大きく成長しており、特にエンドユーザーにパーソナライズされたコンテンツを配信している。 ビデオ放送はテレビを超えて成長を続けているが、ビデオ広告は視聴者に直接ターゲットメッセージを配信するための重要なマーケティングツールとなっている。 しかし、ブロードバンドテレビにとって残念なことに、テレビコマーシャルは幅広いオーディエンスをターゲットにしているため、ユーザー固有のパーソナライズされた広告コンテンツが欠落している。 本稿では,ビデオ・オン・デマンド(VoD)とライブ・ブロードキャストTVコンテンツの両方をMMTストリーミングプロトコル上で配信するための,当社の手法と設計した広告配置システムのアーキテクチャを簡潔に述べる。 本稿の目的は,将来の5G MECプラットフォームに展開するターゲット型,パーソナライズ型,ユーザ固有の広告サービスを,モバイル事業者の広告収入を増大させる可能性を示すことである。

The video broadcasting industry has been growing significantly in the recent years, specially on delivering personalized contents to the end users. While video broadcasting has continued to grow beyond TV, video adverting has become a key marketing tool to deliver targeted messages directly to the audience. However, unfortunately for broadband TV, a key problem is that the TV commercials target the broad audience, therefore lacking user-specific and personalized ad contents. In this paper, we propose a deep edge-cloud ad-placement system, and briefly describe our methodologies and the architecture of our designed ad placement system for delivering both the Video on Demand (VoD) and live broadcast TV contents over MMT streaming protocol. The aim of our paper is to showcase how to enable targeted, personalized, and user-specific advertising services deployed on the future 5G MEC platforms, which in turn can have high potentials to increase ad revenues for the mobile operator industry.
翻訳日:2022-09-07 14:56:33 公開日:2022-09-03
# 短い公式による説明可能性:実装を伴う命題論理の場合

Explainability via Short Formulas: the Case of Propositional Logic with Implementation ( http://arxiv.org/abs/2209.01403v1 )

ライセンス: Link先を確認
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander(参考訳) 説明可能性の概念を論理と公式の大きさの観点で定義し、説明可能性の定義を非常に一般的な設定で多くの関連づける。 我々の主な関心は、入力モデルにおける入力公式の真理値を説明することを目的とした、いわゆる特別説明問題である。 この説明は、(1)入力モデル上の入力式と一致し、(2)関連する真理値を入力式、すなわち各モデル上でグローバルに伝達する最小サイズの公式である。 重要な例として、この設定における命題論理を考察し、多項式階層の第2レベルに対して特別な説明可能性問題が完備であることを示す。 また,この問題を解集合プログラミングにおいて実装し,n-queens に対する解の説明や集合問題の支配に関してその能力について検討する。

We conceptualize explainability in terms of logic and formula size, giving a number of related definitions of explainability in a very general setting. Our main interest is the so-called special explanation problem which aims to explain the truth value of an input formula in an input model. The explanation is a formula of minimal size that (1) agrees with the input formula on the input model and (2) transmits the involved truth value to the input formula globally, i.e., on every model. As an important example case, we study propositional logic in this setting and show that the special explainability problem is complete for the second level of the polynomial hierarchy. We also provide an implementation of this problem in answer set programming and investigate its capacity in relation to explaining answers to the n-queens and dominating set problems.
翻訳日:2022-09-07 14:43:32 公開日:2022-09-03
# MMKGR:マルチホップマルチモーダル知識グラフ推論

MMKGR: Multi-hop Multi-modal Knowledge Graph Reasoning ( http://arxiv.org/abs/2209.01416v1 )

ライセンス: Link先を確認
Shangfei Zheng, Weiqing Wang, Jianfeng Qu, Hongzhi Yin, Wei Chen and Lei Zhao(参考訳) マルチモーダル知識グラフ(mkgs)には、関係三重項だけでなく、関連するマルチモーダル補助データ(テキストや画像など)も含まれており、知識の多様性を高めている。 しかし, 自然不完全性はmkgの応用を著しく阻害している。 この問題に取り組むために、既存の研究では、マルチモーダルな特徴を融合した後の知識の欠如を推測するために、埋め込みに基づく推論モデルを採用している。 しかし, これらの手法の推論性能は, 1) マルチモーダルな補助的特徴の非効率な融合, (2) 複雑な推論能力の欠如, および, より多くの知識の欠落を推測できるマルチホップ推論の実行能力の欠如などによって制限されている。 これらの問題を解決するために,MMKGR(Multi-hop Multi-modal Knowledge Graph Reasoning)という新しいモデルを提案する。 具体的には,(1)十分な注意相互作用と雑音低減により効果的なマルチモーダル補完特徴を生成するために設計された統合ゲートアテンションネットワーク,(2)コンポーネント(1)で得られた特徴に基づいてマルチホップ推論処理を行うことで,欠落要素を予測するための補完特徴認識強化学習手法,の2つの要素を含む。 実験の結果,MMKGRはMKG推論タスクにおける最先端手法よりも優れていた。

Multi-modal knowledge graphs (MKGs) include not only the relation triplets, but also related multi-modal auxiliary data (i.e., texts and images), which enhance the diversity of knowledge. However, the natural incompleteness has significantly hindered the applications of MKGs. To tackle the problem, existing studies employ the embedding-based reasoning models to infer the missing knowledge after fusing the multi-modal features. However, the reasoning performance of these methods is limited due to the following problems: (1) ineffective fusion of multi-modal auxiliary features; (2) lack of complex reasoning ability as well as inability to conduct the multi-hop reasoning which is able to infer more missing knowledge. To overcome these problems, we propose a novel model entitled MMKGR (Multi-hop Multi-modal Knowledge Graph Reasoning). Specifically, the model contains the following two components: (1) a unified gate-attention network which is designed to generate effective multi-modal complementary features through sufficient attention interaction and noise reduction; (2) a complementary feature-aware reinforcement learning method which is proposed to predict missing elements by performing the multi-hop reasoning process, based on the features obtained in component (1). The experimental results demonstrate that MMKGR outperforms the state-of-the-art approaches in the MKG reasoning task.
翻訳日:2022-09-07 14:43:18 公開日:2022-09-03
# 双腕自由浮遊型宇宙ロボットの運動計画のための事前方針指導による強化学習

Reinforcement Learning with Prior Policy Guidance for Motion Planning of Dual-Arm Free-Floating Space Robot ( http://arxiv.org/abs/2209.01434v1 )

ライセンス: Link先を確認
Yuxue Cao, Shengjie Wang, Xiang Zheng, Wenke Ma, Xinru Xie, Lei Liu(参考訳) 有望な技術としての強化学習手法は、自由浮遊型宇宙ロボットの運動計画において優れた結果を得た。 しかし、計画寸法の増大とシステムダイナミクスのカップリングの強化により、双腕自由浮遊型宇宙ロボットの動作計画がいまだに未解決の課題となっている。 特に,エンドエフェクタのポーズ制約が欠如しているため,非協力的なオブジェクトをキャプチャする作業は処理できない。 この問題に対処するために,RLに基づく手法により計画精度を効率的に向上する新しいアルゴリズム,EfficientLPTを提案する。 私たちの中心となる貢献は、事前知識指導による混合ポリシーの構築と、より合理的な報酬機能を構築するために無限規範の導入です。 さらに,回転速度の異なる回転物体を捕捉することに成功した。

Reinforcement learning methods as a promising technique have achieved superior results in the motion planning of free-floating space robots. However, due to the increase in planning dimension and the intensification of system dynamics coupling, the motion planning of dual-arm free-floating space robots remains an open challenge. In particular, the current study cannot handle the task of capturing a non-cooperative object due to the lack of the pose constraint of the end-effectors. To address the problem, we propose a novel algorithm, EfficientLPT, to facilitate RL-based methods to improve planning accuracy efficiently. Our core contributions are constructing a mixed policy with prior knowledge guidance and introducing infinite norm to build a more reasonable reward function. Furthermore, our method successfully captures a rotating object with different spinning speeds.
翻訳日:2022-09-07 14:42:50 公開日:2022-09-03
# ソフトウェア設計ネットワークにおけるモデルフリー深層強化学習

Model-Free Deep Reinforcement Learning in Software-Defined Networks ( http://arxiv.org/abs/2209.01490v1 )

ライセンス: Link先を確認
Luke Borchjes, Clement Nyirenda, Louise Leenen(参考訳) 本稿では,ソフトウェア定義ネットワークにおけるサイバーセキュリティに対する2つの深層強化学習手法を比較した。 ディープQネットワークに対するニューラルエピソード制御が実装され、ダブルディープQネットワークと比較されている。 2つのアルゴリズムはゼロサムゲームと同様の形式で実装されている。 ディフェンダーが勝つために必要なターン量を含む2つのゲーム結果に対して、2尾のTテスト分析を行う。 別の比較は、各ゲーム内のエージェントのゲームスコアに基づいて行われる。 この分析は、どのアルゴリズムがゲームパフォーマーでベストかを判断し、それら間に大きな違いがあるかどうかを判断し、一方が他方よりも好ましいかどうかを示す。 この2つのアプローチには統計的に有意な差は認められなかった。

This paper compares two deep reinforcement learning approaches for cyber security in software defined networking. Neural Episodic Control to Deep Q-Network has been implemented and compared with that of Double Deep Q-Networks. The two algorithms are implemented in a format similar to that of a zero-sum game. A two-tailed T-test analysis is done on the two game results containing the amount of turns taken for the defender to win. Another comparison is done on the game scores of the agents in the respective games. The analysis is done to determine which algorithm is the best in game performer and whether there is a significant difference between them, demonstrating if one would have greater preference over the other. It was found that there is no significant statistical difference between the two approaches.
翻訳日:2022-09-07 14:42:37 公開日:2022-09-03
# FedAR+: 住宅における誤ラベルデータによるアプライアンス認識のためのフェデレートラーニングアプローチ

FedAR+: A Federated Learning Approach to Appliance Recognition with Mislabeled Data in Residential Buildings ( http://arxiv.org/abs/2209.01338v1 )

ライセンス: Link先を確認
Ashish Gupta, Hari Prabhat Gupta, and Sajal K. Das(参考訳) 人々の生活水準の高まりと通信技術の急速な成長により、住宅環境は賢く接続性が良くなり、全体のエネルギー消費が大幅に増加している。 家電製品が主要なエネルギー消費国であるため、その認識は未使用を回避し、エネルギーを節約し、スマート環境をより持続可能なものにすることが重要となる。 アプライアンス認識モデルは、伝統的に中央サーバ(サービスプロバイダ)で、スマートプラグを介して記録された電力消費データをクライアント(消費者)から収集することで、プライバシー侵害を引き起こす。 さらに、アプライアンスを非設計のスマートプラグに接続したときに現れるノイズの多いラベルにも、データは影響を受けます。 これらの課題を共同で解決しつつ,federated learning 手法である fedar+ を提案する。federated model training では,誤ったラベル付きトレーニングデータであっても,クライアント間の分散モデルトレーニングを,プライバシ保護の方法で実現している。 FedAR+は、重みとラベル分布を組み込んだ結合損失関数である適応ノイズハンドリング法を導入し、ノイズのあるラベルに対するアプライアンス認識モデルを強化する。 集合住宅にスマートプラグを配置することで、2つの既存のデータセットとともにラベル付きデータセットを収集し、FedAR+のパフォーマンスを評価する。 実験結果から,提案手法は雑音ラベルの最大30~%の濃度を効果的に処理でき,また,従来の解を高い精度で上回ることができることがわかった。

With the enhancement of people's living standards and rapid growth of communication technologies, residential environments are becoming smart and well-connected, increasing overall energy consumption substantially. As household appliances are the primary energy consumers, their recognition becomes crucial to avoid unattended usage, thereby conserving energy and making smart environments more sustainable. An appliance recognition model is traditionally trained at a central server (service provider) by collecting electricity consumption data, recorded via smart plugs, from the clients (consumers), causing a privacy breach. Besides that, the data are susceptible to noisy labels that may appear when an appliance gets connected to a non-designated smart plug. While addressing these issues jointly, we propose a novel federated learning approach to appliance recognition, called FedAR+, enabling decentralized model training across clients in a privacy preserving way even with mislabeled training data. FedAR+ introduces an adaptive noise handling method, essentially a joint loss function incorporating weights and label distribution, to empower the appliance recognition model against noisy labels. By deploying smart plugs in an apartment complex, we collect a labeled dataset that, along with two existing datasets, are utilized to evaluate the performance of FedAR+. Experimental results show that our approach can effectively handle up to $30\%$ concentration of noisy labels while outperforming the prior solutions by a large margin on accuracy.
翻訳日:2022-09-07 14:32:45 公開日:2022-09-03
# ハイパーグラフ畳み込みニューラルネットワークによるクラスタリング技術

Hypergraph convolutional neural network-based clustering technique ( http://arxiv.org/abs/2209.01391v1 )

ライセンス: Link先を確認
Loc H. Tran, Nguyen Trinh, Linh H. Tran(参考訳) 本稿では,ハイパーグラフ畳み込みニューラルネットワークを用いたクラスタリング手法を提案する。 この手法は、citeseerデータセットとcoraデータセットのクラスタリング問題を解決するために用いられる。 各データセットは、特徴行列とハイパーグラフの入射行列(すなわち、特徴行列から構築された)を含む。 この新しいクラスタリング法は両方の行列を利用する。 当初、ハイパーグラフオートエンコーダを用いて、入射行列と特徴行列の両方を高次元空間から低次元空間に変換する。 最後に,k平均クラスタリング手法を変換行列に適用する。 ハイパーグラフ畳み込みニューラルネットワーク(CNN)ベースのクラスタリング技術は、他の古典的なクラスタリング技術よりも、実験中のパフォーマンスが向上した。

This paper constitutes the novel hypergraph convolutional neural networkbased clustering technique. This technique is employed to solve the clustering problem for the Citeseer dataset and the Cora dataset. Each dataset contains the feature matrix and the incidence matrix of the hypergraph (i.e., constructed from the feature matrix). This novel clustering method utilizes both matrices. Initially, the hypergraph auto-encoders are employed to transform both the incidence matrix and the feature matrix from high dimensional space to low dimensional space. In the end, we apply the k-means clustering technique to the transformed matrix. The hypergraph convolutional neural network (CNN)-based clustering technique presented a better result on performance during experiments than those of the other classical clustering techniques.
翻訳日:2022-09-07 14:32:20 公開日:2022-09-03
# インダクティブリンク予測を用いた非連結新興知識グラフ

Disconnected Emerging Knowledge Graph Oriented Inductive Link Prediction ( http://arxiv.org/abs/2209.01397v1 )

ライセンス: Link先を確認
Yufeng Zhang (1), Weiqing Wang (2), Hongzhi Yin (3), Pengpeng Zhao (1), Wei Chen (1), Lei Zhao (1) ((1) Soochow University, (2) Monash University, (3) The University of Queensland)(参考訳) 帰納的リンク予測(ILP)は、KGsの進化的な性質を考慮して、新興知識グラフ(KGs)における未知のエンティティのリンクを予測することである。 より難しいシナリオは、新興KGは非連結新興KG(DEKG)と呼ばれる未確認の実体のみで構成されていることである。 DEKGの既存の研究は、囲むリンク、すなわち新興KG内のリンクを予測することのみに焦点を当てている。 元のKGからDECGへの進化情報を伝達するブリッジリンクは、これまでの研究では研究されていない。 このギャップを埋めるために、以下の2つのコンポーネントからなるDKG-ILP(Disconnect Emerging Knowledge Graph Oriented Inductive Link Prediction)という新しいモデルを提案する。 1)モジュールCLRM(Contrastive Learning-based Relation-specific Feature Modeling)は,オリジナルKGとDECG間で共有されるグローバルな関係に基づく意味的特徴を,新たなサンプリング戦略によって抽出する。 2)モジュールGSM(GNNに基づく部分グラフモデリング)は,各リンクの局所的な部分グラフトポロジ情報を抽出するために提案される。 いくつかのベンチマークデータセットで実施された広範な実験により、DECG-ILPは、包み込みとブリッジングリンク予測のための最先端の手法と比較して明らかな性能改善があることが示された。 ソースコードはオンラインで入手できる。

Inductive link prediction (ILP) is to predict links for unseen entities in emerging knowledge graphs (KGs), considering the evolving nature of KGs. A more challenging scenario is that emerging KGs consist of only unseen entities, called as disconnected emerging KGs (DEKGs). Existing studies for DEKGs only focus on predicting enclosing links, i.e., predicting links inside the emerging KG. The bridging links, which carry the evolutionary information from the original KG to DEKG, have not been investigated by previous work so far. To fill in the gap, we propose a novel model entitled DEKG-ILP (Disconnected Emerging Knowledge Graph Oriented Inductive Link Prediction) that consists of the following two components. (1) The module CLRM (Contrastive Learning-based Relation-specific Feature Modeling) is developed to extract global relation-based semantic features that are shared between original KGs and DEKGs with a novel sampling strategy. (2) The module GSM (GNN-based Subgraph Modeling) is proposed to extract the local subgraph topological information around each link in KGs. The extensive experiments conducted on several benchmark datasets demonstrate that DEKG-ILP has obvious performance improvements compared with state-of-the-art methods for both enclosing and bridging link prediction. The source code is available online.
翻訳日:2022-09-07 14:32:09 公開日:2022-09-03
# BlackBoxモデルの入力制約の形式的検証と検証を支援する否定的選択手法

Negative Selection Approach to support Formal Verification and Validation of BlackBox Models' Input Constraints ( http://arxiv.org/abs/2209.01411v1 )

ライセンス: Link先を確認
Abdul-Rauf Nuhu, Kishor Datta Gupta, Wendwosen Bellete Bedada, Mahmoud Nabil, Lydia Asrat Zeleke, Abdollah Homaifar, and Edward Tunstel(参考訳) ブラックボックスモデルの形式検証のための検証誘導テストケースをサポートするために、分割入力空間から安全でないサブ要求を生成することは、研究者にとって難しい問題である。 探索空間のサイズは、徹底的な探索を非現実的にする。 本稿では,分割入力空間における安全でない候補部分要求を探索するためのメタヒューリスティックなアプローチについて検討する。 提案手法では,候補の安全でない領域を特定できる負選択アルゴリズム(NSA)を提案する。 NSAアルゴリズムのメタヒューリスティックな能力により、これらの領域のサブセットを検証しながら、巨大な安全でない領域を推定できるようになった。 分割された入力空間の並列実行を利用して安全な領域を生成する。 安全領域の事前知識に基づくNSAは、候補の安全でない地域を特定するために使用され、マラブーフレームワークは、NSAの結果を検証するために使用される。 予備実験および評価の結果,marabouフレームワークを用いて精度の高い検証を行った場合,安全でないサブ要件が得られた。

Generating unsafe sub-requirements from a partitioned input space to support verification-guided test cases for formal verification of black-box models is a challenging problem for researchers. The size of the search space makes exhaustive search computationally impractical. This paper investigates a meta-heuristic approach to search for unsafe candidate sub-requirements in partitioned input space. We present a Negative Selection Algorithm (NSA) for identifying the candidates' unsafe regions within given safety properties. The Meta-heuristic capability of the NSA algorithm made it possible to estimate vast unsafe regions while validating a subset of these regions. We utilize a parallel execution of partitioned input space to produce safe areas. The NSA based on the prior knowledge of the safe regions is used to identify candidate unsafe region areas and the Marabou framework is then used to validate the NSA results. Our preliminary experimentation and evaluation show that the procedure finds candidate unsafe sub-requirements when validated with the Marabou framework with high precision.
翻訳日:2022-09-07 14:31:42 公開日:2022-09-03
# フェデレーション学習におけるコミュニケーションラウンド削減のための構築環境データセットからの騒音抑制

Suppressing Noise from Built Environment Datasets to Reduce Communication Rounds for Convergence of Federated Learning ( http://arxiv.org/abs/2209.01417v1 )

ライセンス: Link先を確認
Rahul Mishra, Hari Prabhat Gupta, Tanima Dutta, and Sajal K. Das(参考訳) スマートセンシングは、組み込み環境での監視と制御のための、簡単で便利なデータ駆動メカニズムを提供する。 組み込み環境で生成されるデータはプライバシーに敏感で制限がある。 フェデレートラーニング(Federated Learning)は、プライベートデータと限定データを共有することなく、複数の参加者間のプライバシ保護コラボレーションを提供する、新たなパラダイムである。 参加者のデータセットのノイズラベルは、性能を低下させ、連合学習の収束のためのコミュニケーションラウンドの数を増やす。 このような大きなコミュニケーションラウンドでは、モデルをトレーニングするのに時間とエネルギーが必要になります。 本稿では,各参加者のデータセットにおける雑音ラベルの不等分布を抑制するためのフェデレート学習手法を提案する。 提案手法はまず,各参加者に対するデータセットの雑音比を推定し,サーバデータセットを用いて雑音比を正規化する。 提案手法は,サーバデータセットのバイアスを処理し,参加者のデータセットへの影響を最小限に抑える。 次に、正規化雑音比と各参加者の影響を用いて、参加者の最適重み付け貢献度を算出する。 さらに,提案手法の収束に必要な通信ラウンド数を推定するための式を導出する。 最後に,提案手法が通信ラウンドの観点から既存手法よりも有効であること,構築環境における性能向上が実証された。

Smart sensing provides an easier and convenient data-driven mechanism for monitoring and control in the built environment. Data generated in the built environment are privacy sensitive and limited. Federated learning is an emerging paradigm that provides privacy-preserving collaboration among multiple participants for model training without sharing private and limited data. The noisy labels in the datasets of the participants degrade the performance and increase the number of communication rounds for convergence of federated learning. Such large communication rounds require more time and energy to train the model. In this paper, we propose a federated learning approach to suppress the unequal distribution of the noisy labels in the dataset of each participant. The approach first estimates the noise ratio of the dataset for each participant and normalizes the noise ratio using the server dataset. The proposed approach can handle bias in the server dataset and minimizes its impact on the participants' dataset. Next, we calculate the optimal weighted contributions of the participants using the normalized noise ratio and influence of each participant. We further derive the expression to estimate the number of communication rounds required for the convergence of the proposed approach. Finally, experimental results demonstrate the effectiveness of the proposed approach over existing techniques in terms of the communication rounds and achieved performance in the built environment.
翻訳日:2022-09-07 14:31:27 公開日:2022-09-03
# 多言語ColBERT-X

Multilingual ColBERT-X ( http://arxiv.org/abs/2209.01335v1 )

ライセンス: Link先を確認
Dawn Lawrie and Eugene Yang and Douglas W. Oard and James Mayfield(参考訳) ColBERT-XはCross Language Information Retrieval (CLIR) の高密度検索モデルである。 CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。 関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。 ColBERT-Xは、文書のランク付けに事前訓練された多言語ニューラルネットワークモデルに依存しているため、多言語トレーニング手順は、MLIRに適したColBERT-Xのバージョンを可能にする。 本稿では,その訓練手順について述べる。 MLIRランキングにおいて重要な要素は、混合言語バッチを使用してXLM-Rを微調整することである。 モデルの微調整にはMS MARCOパスのニューラルマシン翻訳を用いる。

ColBERT-X is a dense retrieval model for Cross Language Information Retrieval (CLIR). In CLIR, documents are written in one natural language, while the queries are expressed in another. A related task is multilingual IR (MLIR) where the system creates a single ranked list of documents written in many languages. Given that ColBERT-X relies on a pretrained multilingual neural language model to rank documents, a multilingual training procedure can enable a version of ColBERT-X well-suited for MLIR. This paper describes that training procedure. An important factor for good MLIR ranking is fine-tuning XLM-R using mixed-language batches, where the same query is matched with documents in different languages in the same batch. Neural machine translations of MS MARCO passages are used to fine-tune the model.
翻訳日:2022-09-07 14:25:27 公開日:2022-09-03
# プロンプトの仕方は? 生成モデルの創造的応用における人-AIインタラクションのためのゼロショット学習の可能性と課題

How to Prompt? Opportunities and Challenges of Zero- and Few-Shot Learning for Human-AI Interaction in Creative Applications of Generative Models ( http://arxiv.org/abs/2209.01390v1 )

ライセンス: Link先を確認
Hai Dang, Lukas Mecke, Florian Lehmann, Sven Goller, Daniel Buschek(参考訳) 深層生成モデルは、高忠実なデジタルコンテンツの作り方を根本的に変える可能性があるが、制御が難しいことが多い。 生成モデルを実証することは、原則としてエンドユーザがゼロショットと数ショットの学習を創造的に活用して、AIアドホックに新たなタスクを割り当てることを可能にする、有望な最近の開発である。 しかし、効果的なプロンプトを書くエンドユーザの大多数は、現在、試行錯誤プロセスである。 これを解決するために,人間-AIインタラクションの新たなパラダイムとしてプロンプトを利用するインタラクティブなクリエイティブアプリケーションのための重要な機会と課題について論じる。 本分析に基づき,プロンプトをサポートするユーザインタフェースの設計目標を4つ提案する。 これらを具体的uiデザインスケッチで説明し,クリエイティブライティングのユースケースに注目した。 HCIとAIの研究コミュニティは、これらを出発点として、ゼロショットと少数ショットの学習が可能なモデルの適切なユーザインターフェースを開発することができる。

Deep generative models have the potential to fundamentally change the way we create high-fidelity digital content but are often hard to control. Prompting a generative model is a promising recent development that in principle enables end-users to creatively leverage zero-shot and few-shot learning to assign new tasks to an AI ad-hoc, simply by writing them down. However, for the majority of end-users writing effective prompts is currently largely a trial and error process. To address this, we discuss the key opportunities and challenges for interactive creative applications that use prompting as a new paradigm for Human-AI interaction. Based on our analysis, we propose four design goals for user interfaces that support prompting. We illustrate these with concrete UI design sketches, focusing on the use case of creative writing. The research community in HCI and AI can take these as starting points to develop adequate user interfaces for models capable of zero- and few-shot learning.
翻訳日:2022-09-07 14:25:14 公開日:2022-09-03
# togethernet:動的強調学習による画像復元と物体検出の橋渡し

TogetherNet: Bridging Image Restoration and Object Detection Together via Dynamic Enhancement Learning ( http://arxiv.org/abs/2209.01373v1 )

ライセンス: Link先を確認
Yongzhen Wang, Xuefeng Yan, Kaiwen Zhang, Lina Gong, Haoran Xie, Fu Lee Wang, Mingqiang Wei(参考訳) ヘイズ、雨、雪などの逆の気象条件は、しばしば捕獲された画像の品質を損なうことがあり、通常の画像で訓練された検出ネットワークはこれらのシナリオであまり一般化しない。 本稿では,画像復元と物体検出の組み合わせによって,悪天候下での最先端検出器の性能を高めることができるという興味深い疑問を提起する。 そこで本研究では,これら2つのサブタスクを動的強化学習によって結合し,悪天候下での物体を識別する,効果的かつ統一的な検出パラダイムを提案する。 togethernetは、画像デハジング/デリーニングを前処理ステップとして直感的に適用する既存の取り組みとは異なり、マルチタスク共同学習問題を考察している。 共同学習方式に従って、復元ネットワークによって生成されたクリーンな特徴を共有して、検出ネットワークのオブジェクト検出を改善することにより、悪天候時の検出能力の向上に寄与する。 ジョイント・ラーニング・アーキテクチャの他に,新たな動的トランスフォーマー機能拡張モジュールを設計し,コネクトネットの特徴抽出と表現能力を向上させる。 合成データと実世界のデータセットの両方に関する広範な実験によって、我々のコネクターネットは、定量的にも質的にも大きなマージンで最先端検出アプローチよりも優れています。 ソースコードはhttps://github.com/yz-wang/TogetherNetで入手できる。

Adverse weather conditions such as haze, rain, and snow often impair the quality of captured images, causing detection networks trained on normal images to generalize poorly in these scenarios. In this paper, we raise an intriguing question - if the combination of image restoration and object detection, can boost the performance of cutting-edge detectors in adverse weather conditions. To answer it, we propose an effective yet unified detection paradigm that bridges these two subtasks together via dynamic enhancement learning to discern objects in adverse weather conditions, called TogetherNet. Different from existing efforts that intuitively apply image dehazing/deraining as a pre-processing step, TogetherNet considers a multi-task joint learning problem. Following the joint learning scheme, clean features produced by the restoration network can be shared to learn better object detection in the detection network, thus helping TogetherNet enhance the detection capacity in adverse weather conditions. Besides the joint learning architecture, we design a new Dynamic Transformer Feature Enhancement module to improve the feature extraction and representation capabilities of TogetherNet. Extensive experiments on both synthetic and real-world datasets demonstrate that our TogetherNet outperforms the state-of-the-art detection approaches by a large margin both quantitatively and qualitatively. Source code is available at https://github.com/yz-wang/TogetherNet.
翻訳日:2022-09-07 13:58:07 公開日:2022-09-03
# Vision TransformersとYoloV5ベースのドライバDrowsiness Detection Framework

Vision Transformers and YoloV5 based Driver Drowsiness Detection Framework ( http://arxiv.org/abs/2209.01401v1 )

ライセンス: Link先を確認
Ghanta Sai Krishna, Kundrapu Supriya, Jai Vardhan and Mallikharjuna Rao K(参考訳) 人間のドライバーは、独特の運転特性によって異なる運転技術、知識、感情を持っている。 運転者の眠気は道路の安全を脅かす深刻な問題であり、道路事故をバイパスする効果的な眠気検出アルゴリズムを設計することが不可欠である。 コンピュータビジョン技術を用いて、運転者の正面面と自動車力学の異常な人間の運転行動を検出する問題に対して、様々な研究がなされている。 しかし、従来の手法では複雑な運転行動の特徴を捉えることはできない。 しかし、ディープラーニングアーキテクチャの起源とともに、ニューラルネットワークアルゴリズムを用いてドライバーの眠気の分析と認識のために、かなりの量の研究が行われている。 本稿では,ドライバの眠気認識のための視覚トランスフォーマーとyolov5アーキテクチャに基づく新しい枠組みを提案する。 関心領域抽出(ROI)を目的として,顔抽出のためのヨロV5事前訓練アーキテクチャを提案する。 本稿では,従来のアーキテクチャの限界から,パブリックデータセット UTA-RLDD でトレーニングし,検証したバイナリ画像分類のための視覚変換器を提案する。 このモデルはトレーニングと検証の精度で96.2\%と97.4\%を達成した。 さらなる評価のために、様々な光環境において39人の参加者によるカスタムデータセット上で提案フレームワークをテストし、95.5\%の精度を達成した。 実験により,スマートトランスポートシステムにおける本フレームワークの実用化の可能性を明らかにした。

Human drivers have distinct driving techniques, knowledge, and sentiments due to unique driving traits. Driver drowsiness has been a serious issue endangering road safety; therefore, it is essential to design an effective drowsiness detection algorithm to bypass road accidents. Miscellaneous research efforts have been approached the problem of detecting anomalous human driver behaviour to examine the frontal face of the driver and automobile dynamics via computer vision techniques. Still, the conventional methods cannot capture complicated driver behaviour features. However, with the origin of deep learning architectures, a substantial amount of research has also been executed to analyze and recognize driver's drowsiness using neural network algorithms. This paper introduces a novel framework based on vision transformers and YoloV5 architectures for driver drowsiness recognition. A custom YoloV5 pre-trained architecture is proposed for face extraction with the aim of extracting Region of Interest (ROI). Owing to the limitations of previous architectures, this paper introduces vision transformers for binary image classification which is trained and validated on a public dataset UTA-RLDD. The model had achieved 96.2\% and 97.4\% as it's training and validation accuracies respectively. For the further evaluation, proposed framework is tested on a custom dataset of 39 participants in various light circumstances and achieved 95.5\% accuracy. The conducted experimentations revealed the significant potential of our framework for practical applications in smart transportation systems.
翻訳日:2022-09-07 13:57:44 公開日:2022-09-03
# 文脈依存のモデリングによる正確なバイナリニューラルネットワークの実現

Towards Accurate Binary Neural Networks via Modeling Contextual Dependencies ( http://arxiv.org/abs/2209.01404v1 )

ライセンス: Link先を確認
Xingrun Xing, Yangguang Li, Wei Li, Wenrui Ding, Yalong Jiang, Yufeng Wang, Jing Shao, Chunlei Liu, Xianglong Liu(参考訳) 既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。 しかし、そのような単純なビット操作は文脈依存をモデル化する能力に欠けており、視覚モデルにおける識別的深層表現の学習に不可欠である。 本稿では,bnnが効果的な文脈依存性を学習できるバイナリニューラルモジュールの新しい設計を提案することで,この問題に取り組む。 まず,コンテキスト依存を直接モデル化するバイナリ畳み込みブロックの代替として,バイナリ多層パーセプトロン(mlp)ブロックを提案する。 短距離と長距離の機能依存性はいずれもバイナリmlpによってモデル化され、前者は局所帰納的バイアスを提供し、後者はバイナリ畳み込みにおいて限定的な受容的フィールドを壊す。 次に,コンテキスト依存を持つバイナリモデルのロバスト性を改善するために,コンテキスト動的埋め込みを計算して,一般的なバイナリ畳み込みブロックにおけるバイナリ化しきい値を決定する。 バイナリのMLPブロックとバイナリの畳み込みを改善して、BCDNetと呼ばれる明示的なコンテキスト依存モデリングでBNNを構築します。 標準のImageNet-1K分類ベンチマークでは、BCDNetは72.3%のTop-1精度を達成し、先行するバイナリメソッドを大きなマージンで上回っている。 特に、提案されたBCDNetは最先端のReActNet-Aを2.9%の精度で上回っている。 私たちのコードはhttps://github.com/Sense-GVT/BCDNで利用可能です。

Existing Binary Neural Networks (BNNs) mainly operate on local convolutions with binarization function. However, such simple bit operations lack the ability of modeling contextual dependencies, which is critical for learning discriminative deep representations in vision models. In this work, we tackle this issue by presenting new designs of binary neural modules, which enables BNNs to learn effective contextual dependencies. First, we propose a binary multi-layer perceptron (MLP) block as an alternative to binary convolution blocks to directly model contextual dependencies. Both short-range and long-range feature dependencies are modeled by binary MLPs, where the former provides local inductive bias and the latter breaks limited receptive field in binary convolutions. Second, to improve the robustness of binary models with contextual dependencies, we compute the contextual dynamic embeddings to determine the binarization thresholds in general binary convolutional blocks. Armed with our binary MLP blocks and improved binary convolution, we build the BNNs with explicit Contextual Dependency modeling, termed as BCDNet. On the standard ImageNet-1K classification benchmark, the BCDNet achieves 72.3% Top-1 accuracy and outperforms leading binary methods by a large margin. In particular, the proposed BCDNet exceeds the state-of-the-art ReActNet-A by 2.9% Top-1 accuracy with similar operations. Our code is available at https://github.com/Sense-GVT/BCDN
翻訳日:2022-09-07 13:57:25 公開日:2022-09-03
# きめ細かい行動認識のための動的時空間特殊化学習

Dynamic Spatio-Temporal Specialization Learning for Fine-Grained Action Recognition ( http://arxiv.org/abs/2209.01425v1 )

ライセンス: Link先を確認
Tianjiao Li, Lin Geng Foo, Qiuhong Ke, Hossein Rahmani, Anran Wang, Jinghua Wang, Jun Liu(参考訳) きめ細かい行動認識の目標は、微妙な違いを伴う行動カテゴリをうまく判別することである。 そこで本研究では,脳内の特定の領域を具体化して,特定の課題に対処するための視覚システムからインスピレーションを得た。 我々は、非常に類似したサンプルのサブセットに対してのみ活性化される特別なニューロンからなる新しい動的時空間特殊化(DSTS)モジュールを設計する。 訓練中は、特定のニューロンに識別的微細な違いを学習させ、これらの類似したサンプルを区別させ、きめ細かい認識を改善する。 さらに、時空間特殊化手法は、より空間的または時間的細かな情報をキャプチャするために、特殊ニューロンのアーキテクチャをさらに最適化し、ビデオの時空間的変化の広い範囲に取り組む。 最後に、トレーニング中のモデルの動的決定を最適化し、dstsモジュールの性能を向上させるために、上流下流学習アルゴリズムを設計する。 広く使われている2つの細粒度アクション認識データセットで最先端のパフォーマンスを得る。

The goal of fine-grained action recognition is to successfully discriminate between action categories with subtle differences. To tackle this, we derive inspiration from the human visual system which contains specialized regions in the brain that are dedicated towards handling specific tasks. We design a novel Dynamic Spatio-Temporal Specialization (DSTS) module, which consists of specialized neurons that are only activated for a subset of samples that are highly similar. During training, the loss forces the specialized neurons to learn discriminative fine-grained differences to distinguish between these similar samples, improving fine-grained recognition. Moreover, a spatio-temporal specialization method further optimizes the architectures of the specialized neurons to capture either more spatial or temporal fine-grained information, to better tackle the large range of spatio-temporal variations in the videos. Lastly, we design an Upstream-Downstream Learning algorithm to optimize our model's dynamic decisions during training, improving the performance of our DSTS module. We obtain state-of-the-art performance on two widely-used fine-grained action recognition datasets.
翻訳日:2022-09-07 13:57:02 公開日:2022-09-03
# 最近の深層学習に基づく手術データへの適用に関する包括的調査

A comprehensive survey on recent deep learning-based methods applied to surgical data ( http://arxiv.org/abs/2209.01435v1 )

ライセンス: Link先を確認
Mansoor Ali, Rafael Martinez Garcia Pena, Gilberto Ochoa Ruiz, Sharib Ali(参考訳) 最小限の侵襲手術は、疲労と患者へのリスクを引き起こす長い手続き時間に依存する。 これらのリスクを軽減するために、リアルタイムシステムは、現場を明確に理解し、手術中の誤算を避けることで、外科医のツールのナビゲートと追跡を支援する。 この方向にいくつかの取り組みがなされてきたが、多様なデータセットの欠如、非常にダイナミックなシーン、そして各患者の変動性は、堅牢なシステムを達成する上で大きなハードルを伴っている。 本研究では, 手術ツールの局所化, セグメンテーション, トラッキング, 3次元シーン認識など, 最近の機械学習によるアプローチを体系的に検討する。 さらに,本手法の現況と方向性を示し,臨床統合の背景にある合理的な根拠を提供する。

Minimally invasive surgery is highly operator dependant with lengthy procedural times causing fatigue and risk to patients. In order to mitigate these risks, real-time systems can help assist surgeons to navigate and track tools, by providing clear understanding of scene and avoid miscalculations during operation. While several efforts have been made in this direction, a lack of diverse datasets, as well as very dynamic scenes and its variability in each patient entails major hurdle in accomplishing robust systems. In this work, we present a systematic review of recent machine learning-based approaches including surgical tool localisation, segmentation, tracking and 3D scene perception. Furthermore, we present current gaps and directions of these invented methods and provide rational behind clinical integration of these approaches.
翻訳日:2022-09-07 13:56:45 公開日:2022-09-03
# neural sign reenactor: 深いフォトリアリスティックな手話再ターゲティング

Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting ( http://arxiv.org/abs/2209.01470v1 )

ライセンス: Link先を確認
Christina O. Tze, Panagiotis P. Filntisis, Athanasia-Lida Dimou, Anastasios Roussos, Petros Maragos(参考訳) 本稿では,ある人物の表情,頭部のポーズ,体の動きを,対象映像で他の人物に伝達する,ニューラルネットワークのレンダリングパイプラインを提案する。 我々は手話ビデオの難解なケースに適用する:手話利用者のソースビデオから、実行されたマニュアル(例えば、手形、手のひら方向、動き、位置)と非手動(例えば、目視、表情、頭の動き)のサインを、写真リアリスティックな方法で対象のビデオに忠実に転送することができる。 上記の手話通信に不可欠な手がかりを効果的に把握するために,近年導入されている身体,手,顔追跡の最も堅牢で信頼性の高い深層学習手法を効果的に組み合わせて構築する。 3D認識表現を用いて、推定された身体部分の動きを合成し、ターゲットシグナーに再ターゲットする。 次に、時間的に一貫した写真リアリスティックなビデオを生成するビデオレンダリングネットワークの条件入力として与えられる。 提案手法の有効性と既存手法に対する優位性を実証した,詳細な質的,定量的な評価と比較を行う。 本手法は前例のないリアリズムの有望な結果をもたらし,手話の匿名化に利用できる。 また、他のタイプの全身活動(ダンス、演技パフォーマンス、運動など)の再現や、手話生成システムの合成モジュールにも容易に適用することができる。

In this paper, we introduce a neural rendering pipeline for transferring the facial expressions, head pose and body movements of one person in a source video to another in a target video. We apply our method to the challenging case of Sign Language videos: given a source video of a sign language user, we can faithfully transfer the performed manual (e.g. handshape, palm orientation, movement, location) and non-manual (e.g. eye gaze, facial expressions, head movements) signs to a target video in a photo-realistic manner. To effectively capture the aforementioned cues, which are crucial for sign language communication, we build upon an effective combination of the most robust and reliable deep learning methods for body, hand and face tracking that have been introduced lately. Using a 3D-aware representation, the estimated motions of the body parts are combined and retargeted to the target signer. They are then given as conditional input to our Video Rendering Network, which generates temporally consistent and photo-realistic videos. We conduct detailed qualitative and quantitative evaluations and comparisons, which demonstrate the effectiveness of our approach and its advantages over existing approaches. Our method yields promising results of unprecedented realism and can be used for Sign Language Anonymization. In addition, it can be readily applicable to reenactment of other types of full body activities (dancing, acting performance, exercising, etc.), as well as to the synthesis module of Sign Language Production systems.
翻訳日:2022-09-07 13:56:31 公開日:2022-09-03
# クロスモーダル・ディエンタングルメントによるフォトリアリスティックな仮想ヒトの合成

Synthesizing Photorealistic Virtual Humans Through Cross-modal Disentanglement ( http://arxiv.org/abs/2209.01320v1 )

ライセンス: Link先を確認
Siddarth Ravichandran, Ond\v{r}ej Texler, Dimitar Dinev, Hyun Jae Kang(参考訳) 過去数十年にわたって、AmazonのAlexaやAppleのSiriといったデジタルアシスタントの登場から、Metaブランドの最新のメタバース活動に至るまで、人間の生活の多くの側面が仮想ドメインで強化されてきた。 これらの傾向は、人間を写実的に描写することの重要性を強調する。 これは近年、いわゆるディープフェイクやトーキーヘッド生成手法の急速な成長につながっている。 その印象的な結果と人気にもかかわらず、通常はテクスチャの品質、唇の同期、解像度といった定性的側面や、リアルタイムに走る能力といった実用的側面を欠いている。 仮想人間のアバターを実用的なシナリオで使用できるようにするために,高性能な仮想人間の顔合成のためのエンド・ツー・エンドのフレームワークを提案する。 本稿では,ビセムを中間音声表現として利用する新たなネットワークと,大域的な頭部運動を制御するために使用される異なるモーダルのばらつきを解消する階層的画像合成手法を用いた新しいデータ拡張戦略を提案する。 提案手法はリアルタイムに動作し,現在の最先端技術と比較して優れた結果が得られる。

Over the last few decades, many aspects of human life have been enhanced with virtual domains, from the advent of digital assistants such as Amazon's Alexa and Apple's Siri to the latest metaverse efforts of the rebranded Meta. These trends underscore the importance of generating photorealistic visual depictions of humans. This has led to the rapid growth of so-called deepfake and talking head generation methods in recent years. Despite their impressive results and popularity, they usually lack certain qualitative aspects such as texture quality, lips synchronization, or resolution, and practical aspects such as the ability to run in real-time. To allow for virtual human avatars to be used in practical scenarios, we propose an end-to-end framework for synthesizing high-quality virtual human faces capable of speech with a special emphasis on performance. We introduce a novel network utilizing visemes as an intermediate audio representation and a novel data augmentation strategy employing a hierarchical image synthesis approach that allows disentanglement of the different modalities used to control the global head motion. Our method runs in real-time, and is able to deliver superior results compared to the current state-of-the-art.
翻訳日:2022-09-07 13:50:13 公開日:2022-09-03
# クロストレーニングによる半監督セマンティックセマンティックセグメンテーション

Semi-Supervised Semantic Segmentation with Cross Teacher Training ( http://arxiv.org/abs/2209.01327v1 )

ライセンス: Link先を確認
Hui Xiao, Li Dong, Kangkang Song, Hao Xu, Shuibo Fu, Diqun Yan, Chengbin Peng(参考訳) 畳み込みニューラルネットワークはセマンティックセグメンテーションタスクにおいて顕著な性能を達成することができる。 しかし、そのようなニューラルネットワークアプローチはコストの高いピクセルレベルのアノテーションに大きく依存している。 半教師付き学習はこの問題に対処するための有望な解決だが、その性能は依然として完全に教師付き学習に遅れている。 本研究は,従来の半教師学習アプローチを大幅に改善する3つのモジュールによる教師間トレーニングフレームワークを提案する。 コアはクロス教師モジュールであり、ピアネットワーク間の結合と教師と学生ネットワーク間のエラー蓄積を同時に低減することができる。 さらに,相補的なコントラスト学習モジュールを2つ提案する。 高レベルモジュールはラベル付きデータからラベルなしデータに高品質な知識を転送し、特徴空間におけるクラス間の分離を促進する。 低レベルモジュールは、ピアネットワーク間の高品質な機能から学ぶ低品質の機能を促進する。 実験では、cross-teacherモジュールが従来の学生-教師のアプローチのパフォーマンスを大幅に向上させ、ベンチマークデータセットで最先端のメソッドを上回っています。 cttのソースコードがリリースされます。

Convolutional neural networks can achieve remarkable performance in semantic segmentation tasks. However, such neural network approaches heavily rely on costly pixel-level annotation. Semi-supervised learning is a promising resolution to tackle this issue, but its performance still far falls behind the fully supervised counterpart. This work proposes a cross-teacher training framework with three modules that significantly improves traditional semi-supervised learning approaches. The core is a cross-teacher module, which could simultaneously reduce the coupling among peer networks and the error accumulation between teacher and student networks. In addition, we propose two complementary contrastive learning modules. The high-level module can transfer high-quality knowledge from labeled data to unlabeled ones and promote separation between classes in feature space. The low-level module can encourage low-quality features learning from the high-quality features among peer networks. In experiments, the cross-teacher module significantly improves the performance of traditional student-teacher approaches, and our framework outperforms stateof-the-art methods on benchmark datasets. Our source code of CTT will be released.
翻訳日:2022-09-07 13:49:52 公開日:2022-09-03
# ファウショット学習のためのクラス特化チャネル注意

Class-Specific Channel Attention for Few-Shot Learning ( http://arxiv.org/abs/2209.01332v1 )

ライセンス: Link先を確認
Ying-Yu Chen, Jun-Wei Hsieh, Ming-Ching Chang(参考訳) 過度なデータを必要としないモデルトレーニングの能力のため、コンピュータビジョンでは少数ショット学習(fsl)が注目を集めている。 FSLは、トレーニングとテストのカテゴリ(ベース対新規セット)が大々的に多様化できるため、難しい。 大規模ラベル付きトレーニングセットから目標テストセットに学習知識を伝達することを目的とした従来型の移行ベースソリューションは,タスク分布の変化による重大な影響が適切に対処されていないため,制限されている。 本稿では,メートル法学習とチャネルアテンションの概念を取り入れ,トランスファーベース手法の解法を拡張する。 特徴バックボーンによって抽出された特徴表現をよりうまく活用するために,各クラスにCSCA重みベクトルを割り当てることで,各クラスにおける識別チャネルをハイライトするクラス特化チャネルアテンション(CSCA)モジュールを提案する。 グローバルクラスの特徴を学習するために設計された一般的な注目モジュールとは異なり、CSCAモジュールは局所的およびクラス固有の特徴を非常に効率的な計算で学習することを目的としている。 我々は,miniImagenet, Tiered-ImageNet, CIFAR-FS, CUB-200-2011などの標準ベンチマークにおいて, CSCAモジュールの性能を評価した。 実験はインダクティブおよびイン/クロスドメイン設定で行われる。 我々は新しい最先端の結果を得る。

Few-Shot Learning (FSL) has attracted growing attention in computer vision due to its capability in model training without the need for excessive data. FSL is challenging because the training and testing categories (the base vs. novel sets) can be largely diversified. Conventional transfer-based solutions that aim to transfer knowledge learned from large labeled training sets to target testing sets are limited, as critical adverse impacts of the shift in task distribution are not adequately addressed. In this paper, we extend the solution of transfer-based methods by incorporating the concept of metric-learning and channel attention. To better exploit the feature representations extracted by the feature backbone, we propose Class-Specific Channel Attention (CSCA) module, which learns to highlight the discriminative channels in each class by assigning each class one CSCA weight vector. Unlike general attention modules designed to learn global-class features, the CSCA module aims to learn local and class-specific features with very effective computation. We evaluated the performance of the CSCA module on standard benchmarks including miniImagenet, Tiered-ImageNet, CIFAR-FS, and CUB-200-2011. Experiments are performed in inductive and in/cross-domain settings. We achieve new state-of-the-art results.
翻訳日:2022-09-07 13:49:37 公開日:2022-09-03
# DSE-GAN:テキスト・画像生成のための動的セマンティック進化生成適応ネットワーク

DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for Text-to-Image Generation ( http://arxiv.org/abs/2209.01339v1 )

ライセンス: Link先を確認
Mengqi Huang, Zhendong Mao, Penghui Wang, Quan Wang, Yongdong Zhang(参考訳) テキストから画像への生成は、与えられたテキストと意味的に一致する現実的な画像を生成することを目的としている。 それまでの作業では、ジェネレータと識別器のペアを積み重ねて複数の対角訓練を行ない、すべての段階にわたって生成ガイダンスを提供するテキストセマンティクスが静的なままであった。 この研究は、各段階におけるテキストの特徴は、粗大な生成過程において多様かつ正確な意味指導を提供するために、歴史的段階(例えば、歴史的段階のテキストと画像の特徴)の状況に応じて適応的に再構成されるべきであると主張している。 そこで本研究では,動的セマンティック進化GAN(Dynamical Semantic Evolution GAN, DSE-GAN)を提案する。 具体的には,(1)動的セマンティック・エボリューション(DSE)モジュールを設計し,まず歴史的画像の特徴を集約して生成フィードバックを要約し,次に各段階で再構成するために必要な単語を動的に選択し,異なる粒度部分空間のセマンティクスを動的に拡張あるいは抑制することにより再構成する。 2) 単相多段階アーキテクチャ(SAMA)は,複雑な複数対角的学習要件を排除し,テキストと画像の相互作用のより多くの段階を許容し,最終的にDSEモジュールを促進する。 我々は総合的な実験を行い、DSE-GAN が CUB-200 と MSCOCO の2つの広く使用されているベンチマークにおいて、それぞれ 7.48 % と 37.8 % の相対 FID 改善を達成することを示す。

Text-to-image generation aims at generating realistic images which are semantically consistent with the given text. Previous works mainly adopt the multi-stage architecture by stacking generator-discriminator pairs to engage multiple adversarial training, where the text semantics used to provide generation guidance remain static across all stages. This work argues that text features at each stage should be adaptively re-composed conditioned on the status of the historical stage (i.e., historical stage's text and image features) to provide diversified and accurate semantic guidance during the coarse-to-fine generation process. We thereby propose a novel Dynamical Semantic Evolution GAN (DSE-GAN) to re-compose each stage's text features under a novel single adversarial multi-stage architecture. Specifically, we design (1) Dynamic Semantic Evolution (DSE) module, which first aggregates historical image features to summarize the generative feedback, and then dynamically selects words required to be re-composed at each stage as well as re-composed them by dynamically enhancing or suppressing different granularity subspace's semantics. (2) Single Adversarial Multi-stage Architecture (SAMA), which extends the previous structure by eliminating complicated multiple adversarial training requirements and therefore allows more stages of text-image interactions, and finally facilitates the DSE module. We conduct comprehensive experiments and show that DSE-GAN achieves 7.48\% and 37.8\% relative FID improvement on two widely used benchmarks, i.e., CUB-200 and MSCOCO, respectively.
翻訳日:2022-09-07 13:49:13 公開日:2022-09-03
# AI規制のクローズド・ループビュー:繰り返しインタラクション間の平等な影響

Closed-Loop View of the Regulation of AI: Equal Impact across Repeated Interactions ( http://arxiv.org/abs/2209.01410v1 )

ライセンス: Link先を確認
Quan Zhou and Ramen Ghosh and Robert Shorten and Jakub Marecek(参考訳) 近年、AIの規制に対する関心が高まっている。 我々は、平等な待遇と平等な影響の概念に基づく民権法に基づく見解を議論する。 AIシステムとそのユーザのクローズドループビューでは、同等の処理がループを通過する。 平等な影響は、我々の見解では、反復的な相互作用における平均的な長期的行動に関係している。 平均とその性質の存在を確立するためには、閉ループのエルゴード的性質とそのユニークな定常測度を研究する必要がある。

There has been much recent interest in the regulation of AI. We argue for a view based on civil-rights legislation, built on the notions of equal treatment and equal impact. In a closed-loop view of the AI system and its users, the equal treatment concerns one pass through the loop. Equal impact, in our view, concerns the long-run average behaviour across repeated interactions. In order to establish the existence of the average and its properties, one needs to study the ergodic properties of the closed-loop and its unique stationary measure.
翻訳日:2022-09-07 13:43:10 公開日:2022-09-03
# 数学語問題解決における合成一般化の改善

Improving Compositional Generalization in Math Word Problem Solving ( http://arxiv.org/abs/2209.01352v1 )

ライセンス: Link先を確認
Yunshi Lan, Lei Wang, Jing Jiang, Ee-Peng Lim(参考訳) 合成一般化とは、トレーニング中に観測されたデータコンポーネントに基づいて、新しく構成された入力データに一般化するモデルの能力を指す。 言語と問題解決のスキルにおいて、一般化が重要な側面であるため、異なるタスクに関する一連の構成的一般化分析をトリガーしている。 しかし、同様の数学用語問題(MWP)に関する議論は限られている。 本稿では,MWP問題解決における構成一般化について検討する。 具体的には,既存のMWPデータセットから合成分割を生成するデータ分割手法を提案する。 一方,構成の影響を分離するためにデータを合成する。 MWP問題解決における構成一般化を改善するために,訓練データに多様な構成変化を含む反復的データ拡張手法を提案し,MWP法と協調する。 評価中、一連の手法を検証し、評価されたデータセット上でそれらすべてが深刻な性能損失に遭遇することを確認する。 また,データ拡張法は一般的なMWP法の構成一般化を著しく改善する可能性がある。 コードはhttps://github.com/demoleiwang/CGMWPで入手できる。

Compositional generalization refers to a model's capability to generalize to newly composed input data based on the data components observed during training. It has triggered a series of compositional generalization analysis on different tasks as generalization is an important aspect of language and problem solving skills. However, the similar discussion on math word problems (MWPs) is limited. In this manuscript, we study compositional generalization in MWP solving. Specifically, we first introduce a data splitting method to create compositional splits from existing MWP datasets. Meanwhile, we synthesize data to isolate the effect of compositions. To improve the compositional generalization in MWP solving, we propose an iterative data augmentation method that includes diverse compositional variation into training data and could collaborate with MWP methods. During the evaluation, we examine a set of methods and find all of them encounter severe performance loss on the evaluated datasets. We also find our data augmentation method could significantly improve the compositional generalization of general MWP methods. Code is available at https://github.com/demoleiwang/CGMWP.
翻訳日:2022-09-07 13:34:00 公開日:2022-09-03
# CrossDial:中国のクロストークの対話データセット

CrossDial: An Entertaining Dialogue Dataset of Chinese Crosstalk ( http://arxiv.org/abs/2209.01370v1 )

ライセンス: Link先を確認
Baizhou Huang, Shikang Du, Xiaojun Wan(参考訳) クロストーク(Crosstalk)は中国の伝統芸能である。 2人のパフォーマーが対話の形で演奏するのが一般的である。 対話の典型的な特徴により、クロストークは観客を楽しませる目的で笑えるようにデザインされている。 本研究では,Webからクロールされた中国の古典的クロストークを多く含むオープンソースデータセットであるCrossDialを紹介する。 さらに、2つの新しいタスクを定義し、2つのベンチマークを提供し、クロストーク生成分野における現在の対話生成モデルの能力について検討する。 実験結果とケーススタディにより,クロストーク生成は簡単な手法では困難であり,今後の研究において興味深い話題となっている。

Crosstalk is a traditional Chinese theatrical performance art. It is commonly performed by two performers in the form of a dialogue. With the typical features of dialogues, crosstalks are also designed to be hilarious for the purpose of amusing the audience. In this study, we introduce CrossDial, the first open-source dataset containing most classic Chinese crosstalks crawled from the Web. Moreover, we define two new tasks, provide two benchmarks, and investigate the ability of current dialogue generation models in the field of crosstalk generation. The experiment results and case studies demonstrate that crosstalk generation is challenging for straightforward methods and remains an interesting topic for future works.
翻訳日:2022-09-07 13:33:47 公開日:2022-09-03
# STAD:低リソース関係抽出のための曖昧なデータによる自己学習

STAD: Self-Training with Ambiguous Data for Low-Resource Relation Extraction ( http://arxiv.org/abs/2209.01431v1 )

ライセンス: Link先を確認
Junjie Yu, Xing Wang, Jiangjiang Zhao, Chunjie Yang and Wenliang Chen(参考訳) 我々は,低リソース関係抽出のための簡易かつ効果的な自己学習手法STADを提案する。 このアプローチは最初に、教師モデルによって予測される確率に従って、自信のあるインスタンスと不確定なインスタンスという2つのグループに分類する。 主に自信のあるインスタンスのみを自己学習に使用するこれまでのほとんどの研究とは対照的に、不確実性のあるインスタンスを利用する。 そこで本研究では,不確定なインスタンスから曖昧だが有用なインスタンスを識別し,その関係を候補ラベル集合と負ラベル集合に分割する手法を提案する。 次に,不明瞭なインスタンスに対する負のラベル集合に対する集合負のトレーニング法と,自信のあるインスタンスに対する正のトレーニング法を提案する。 最後に,全てのデータから最終関係抽出システムを構築するための共同学習手法を提案する。 広く使われている2つのデータセットであるsemeval2010 task-8と低リソース設定で再設計された実験の結果、この新しいセルフトレーニングアプローチが、いくつかの競合するセルフトレーニングシステムと比較した場合、実際に有意かつ一貫した改善を達成していることを示している。 コードはhttps://github.com/jjyunlp/STADで公開されている。

We present a simple yet effective self-training approach, named as STAD, for low-resource relation extraction. The approach first classifies the auto-annotated instances into two groups: confident instances and uncertain instances, according to the probabilities predicted by a teacher model. In contrast to most previous studies, which mainly only use the confident instances for self-training, we make use of the uncertain instances. To this end, we propose a method to identify ambiguous but useful instances from the uncertain instances and then divide the relations into candidate-label set and negative-label set for each ambiguous instance. Next, we propose a set-negative training method on the negative-label sets for the ambiguous instances and a positive training method for the confident instances. Finally, a joint-training method is proposed to build the final relation extraction system on all data. Experimental results on two widely used datasets SemEval2010 Task-8 and Re-TACRED with low-resource settings demonstrate that this new self-training approach indeed achieves significant and consistent improvements when comparing to several competitive self-training systems. Code is publicly available at https://github.com/jjyunlp/STAD
翻訳日:2022-09-07 13:33:38 公開日:2022-09-03
# モンテカルロからニューラルネットワークへの境界値問題の近似

From Monte Carlo to neural networks approximations of boundary value problems ( http://arxiv.org/abs/2209.01432v1 )

ライセンス: Link先を確認
Lucian Beznea, Iulian Cimpean, Oana Lupascu-Stamate, Ionel Popescu, Arghir Zarnescu(参考訳) 本稿では,ポアソン方程式の解の確率的およびニューラルネットワーク近似,あるいは$\mathbb{R}^d$の一般有界領域における$C^2$のデータについて検討する。 私たちは2つの基本的な目標を目指しています。 第一に、最も重要なことは、ポアソン方程式の解が、ウォーキング・オン・スフィアズ・アルゴリズムのわずかな変化に基づいてモンテカルロ法によって超ノルムで数値的に近似できることである。 これにより、所定の近似誤差に対して効率的であり、次元の呪いを伴わない推定値が得られる。 さらに、全体のサンプル数は近似が実行される点に依存しない。 第2のゴールとして,得られたモンテカルロ解法が,最大多項式の大きさが$d$ 次元と所望の誤差で依存するポアソン問題に対して,relu deep neural network (dnn) 解をレンダリングすることを示した。 実際、ランダムDNNは、その次元における小さな近似誤差と低い多項式複雑性を高い確率で提供することを示す。

In this paper we study probabilistic and neural network approximations for solutions to Poisson equation subject to H\" older or $C^2$ data in general bounded domains of $\mathbb{R}^d$. We aim at two fundamental goals. The first, and the most important, we show that the solution to Poisson equation can be numerically approximated in the sup-norm by Monte Carlo methods based on a slight change of the walk on spheres algorithm. This provides estimates which are efficient with respect to the prescribed approximation error and without the curse of dimensionality. In addition, the overall number of samples does not not depend on the point at which the approximation is performed. As a second goal, we show that the obtained Monte Carlo solver renders ReLU deep neural network (DNN) solutions to Poisson problem, whose sizes depend at most polynomially in the dimension $d$ and in the desired error. In fact we show that the random DNN provides with high probability a small approximation error and low polynomial complexity in the dimension.
翻訳日:2022-09-07 13:25:24 公開日:2022-09-03
# 不正CT画像再構成のためのトランスを用いたマスケシングラムモデル : 予備的検討

Masked Sinogram Model with Transformer for ill-Posed Computed Tomography Reconstruction: a Preliminary Study ( http://arxiv.org/abs/2209.01356v1 )

ライセンス: Link先を確認
Zhengchun Liu, Rajkumar Kettimuthu, Ian Foster(参考訳) CT(Computed Tomography)は、物体に関する情報を異なる角度(投影または走査と呼ばれる)で収集するイメージング技術である。 そして、逆問題を解くことにより、スライスの内部構造を示す断面画像を生成する。 放射線量、投影角などの特定の要因によって制限され、生成した画像はうるさく、あるいは人工物を含むことができる。 自然言語処理におけるtransformerの成功にインスパイアされたこの予備研究の核となるアイデアは、トモグラフィーの投影を単語のトークンとして、横断断面(sinogram)の全体スキャンを自然言語処理の文脈で文として考えることである。 データ収集制限下でのCT再構成(例: Photon-Budget)や、CT再構成における逆問題の解を近似するデータ駆動解など、様々な下流アプリケーションのためのマスク付きシングラムモデル(MSM)とファインチューンMSMを訓練することにより、基礎モデルのアイデアを探求する。 この研究で使用されたモデルとデータはhttps://github.com/lzhengchun/TomoTx.comで公開されている。

Computed Tomography (CT) is an imaging technique where information about an object are collected at different angles (called projections or scans). Then the cross-sectional image showing the internal structure of the slice is produced by solving an inverse problem. Limited by certain factors such as radiation dosage, projection angles, the produced images can be noisy or contain artifacts. Inspired by the success of transformer for natural language processing, the core idea of this preliminary study is to consider a projection of tomography as a word token, and the whole scan of the cross-section (A.K.A. sinogram) as a sentence in the context of natural language processing. Then we explore the idea of foundation model by training a masked sinogram model (MSM) and fine-tune MSM for various downstream applications including CT reconstruction under data collections restriction (e.g., photon-budget) and a data-driven solution to approximate solutions of the inverse problem for CT reconstruction. Models and data used in this study are available at https://github.com/lzhengchun/TomoTx.
翻訳日:2022-09-07 13:21:18 公開日:2022-09-03
# ツリーテンソルネットワーク状態による生成モデリング

Generative Modeling via Tree Tensor Network States ( http://arxiv.org/abs/2209.01341v1 )

ライセンス: Link先を確認
Xun Tang, Yoonhaeng Hur, Yuehaw Khoo, Lexing Ying(参考訳) 本稿では,木テンソルネットワーク状態に基づく密度推定フレームワークを提案する。 提案手法は,chow-liuアルゴリズムを用いてツリートポロジーを決定し,スケッチ手法によりテンソルネットワーク成分を定義する線形方程式系を得る。 スケッチ関数の新しい選択はループを含むグラフィカルモデルを検討するために開発されている。 数値実験により、より詳細な複雑性保証が提供される。

In this paper, we present a density estimation framework based on tree tensor-network states. The proposed method consists of determining the tree topology with Chow-Liu algorithm, and obtaining a linear system of equations that defines the tensor-network components via sketching techniques. Novel choices of sketch functions are developed in order to consider graphical models that contain loops. Sample complexity guarantees are provided and further corroborated by numerical experiments.
翻訳日:2022-09-07 13:15:11 公開日:2022-09-03
# 音楽テンポ推定のための等変自己スーパービジョン

Equivariant Self-Supervision for Musical Tempo Estimation ( http://arxiv.org/abs/2209.01478v1 )

ライセンス: Link先を確認
Elio Quinton(参考訳) ラベル付きデータセットの必要性を緩和し、取得が困難でコストがかかるため、自己教師型手法が近年、表現学習のための有望な道として登場した。 コントラスト法(Contrastive method)は、オーディオ領域における自己監督において一般的な選択肢であり、通常、入力の変換に不変なモデルを強制することによって学習信号を提供する。 しかし、これらの方法は、モデルが自明な解で崩壊しないように、負のサンプリングやある種の正則化を行う必要がある。 本研究では,不変性の代わりに,自己スーパービジョン信号として等分散を用い,ラベルなしデータから音声テンポ表現を学習することを提案する。 学習中にネットワークが自明な解に崩壊することを防ぐ単純な損失関数を導出し、正規化や負のサンプリングを一切必要としない。 実験により, 等価自己スーパービジョンのみに依存してテンポ推定の有意義な表現を学習でき, 複数のベンチマークで教師あり手法に匹敵する性能が得られることを示した。 付加的な利点として,本手法は適度な計算資源しか必要としないため,広い研究コミュニティに引き続きアクセス可能である。

Self-supervised methods have emerged as a promising avenue for representation learning in the recent years since they alleviate the need for labeled datasets, which are scarce and expensive to acquire. Contrastive methods are a popular choice for self-supervision in the audio domain, and typically provide a learning signal by forcing the model to be invariant to some transformations of the input. These methods, however, require measures such as negative sampling or some form of regularisation to be taken to prevent the model from collapsing on trivial solutions. In this work, instead of invariance, we propose to use equivariance as a self-supervision signal to learn audio tempo representations from unlabelled data. We derive a simple loss function that prevents the network from collapsing on a trivial solution during training, without requiring any form of regularisation or negative sampling. Our experiments show that it is possible to learn meaningful representations for tempo estimation by solely relying on equivariant self-supervision, achieving performance comparable with supervised methods on several benchmarks. As an added benefit, our method only requires moderate compute resources and therefore remains accessible to a wide research community.
翻訳日:2022-09-07 13:09:13 公開日:2022-09-03
# スマートデータ分析のためのマルチモーダルおよびクロスモーダルai

Multimodal and Crossmodal AI for Smart Data Analysis ( http://arxiv.org/abs/2209.01308v1 )

ライセンス: Link先を確認
Minh-Son Dao(参考訳) 近年,マルチモーダル・クロスモーダルなAI技術がコミュニティの注目を集めている。 前者は不均一なデータを集めて補足情報を補い、堅牢な予測を強化することを目的としている。 後者は、一つのモダリティを利用して別のモダリティを予測することを目的としている。 両方のアプローチは同じターゲットを共有している: 収集した生データからスマートデータを生成するが、前者はよりモダリティを要求する一方、後者は様々なモダリティを減らすことを目指している。 本稿ではまず,スマートデータ解析におけるマルチモーダルAIとクロスモーダルAIの役割について論じる。 そして、上記のアプローチのバランスをとるために、MMCRAI(Multimodal and Crossmodal AI framework)を導入し、異なるドメインに簡単にスケールできるようにする。 このフレームワークはxdatapf(cross-data platform https://www.xdata.nict.jp/)に統合されている。 また、このフレームワークとxDataPF上に構築された様々なアプリケーションを紹介し、議論する。

Recently, the multimodal and crossmodal AI techniques have attracted the attention of communities. The former aims to collect disjointed and heterogeneous data to compensate for complementary information to enhance robust prediction. The latter targets to utilize one modality to predict another modality by discovering the common attention sharing between them. Although both approaches share the same target: generate smart data from collected raw data, the former demands more modalities while the latter aims to decrease the variety of modalities. This paper first discusses the role of multimodal and crossmodal AI in smart data analysis in general. Then, we introduce the multimodal and crossmodal AI framework (MMCRAI) to balance the abovementioned approaches and make it easy to scale into different domains. This framework is integrated into xDataPF (the cross-data platform https://www.xdata.nict.jp/). We also introduce and discuss various applications built on this framework and xDataPF.
翻訳日:2022-09-07 13:02:21 公開日:2022-09-03
# dualcam: きめ細かなリアルタイム交通光検出のための新しいベンチマークデータセット

DualCam: A Novel Benchmark Dataset for Fine-grained Real-time Traffic Light Detection ( http://arxiv.org/abs/2209.01357v1 )

ライセンス: Link先を確認
Harindu Jayarathne, Tharindu Samarakoon, Hasara Koralege, Asitha Divisekara, Ranga Rodrigo and Peshala Jayasekara(参考訳) 交通信号検出は、自動運転車が都市部を安全に移動するために不可欠である。 公に利用可能な交通灯データセットは、重要なナビゲーション情報を提供する遠方の交通灯を検出するアルゴリズムの開発には不十分である。 本研究では,都市道路と半都市道路をカバーする一対の狭角・広角カメラを用いた,新しいベンチマークトラヒックライトデータセットを提案する。 トレーニング用の1032イメージとテスト用の813の同期イメージペアを提供する。 さらに,定性解析のための同期ビデオペアも提供する。 データセットには1920$\times$1080の解像度の画像が含まれ、10の異なるクラスをカバーする。 さらに,2台のカメラからの出力を合成する後処理アルゴリズムを提案する。 その結果,従来の1つのカメラフレームを用いた手法に比べ,速度と精度のバランスをとることができた。

Traffic light detection is essential for self-driving cars to navigate safely in urban areas. Publicly available traffic light datasets are inadequate for the development of algorithms for detecting distant traffic lights that provide important navigation information. We introduce a novel benchmark traffic light dataset captured using a synchronized pair of narrow-angle and wide-angle cameras covering urban and semi-urban roads. We provide 1032 images for training and 813 synchronized image pairs for testing. Additionally, we provide synchronized video pairs for qualitative analysis. The dataset includes images of resolution 1920$\times$1080 covering 10 different classes. Furthermore, we propose a post-processing algorithm for combining outputs from the two cameras. Results show that our technique can strike a balance between speed and accuracy, compared to the conventional approach of using a single camera frame.
翻訳日:2022-09-07 13:02:08 公開日:2022-09-03
# ラベルを欠くマルチラベル学習のためのコントラスト埋め込みを保存するラベル構造

Label Structure Preserving Contrastive Embedding for Multi-Label Learning with Missing Labels ( http://arxiv.org/abs/2209.01314v1 )

ライセンス: Link先を確認
Zhongchen Ma, Lisha Li, Qirong Mao and Songcan Chen(参考訳) コントラスト学習(CL)は,多クラス分類や教師なし学習を指導する画像表現学習において,顕著な進歩を見せている。 しかし、これらのclメソッドは、与えられたアンカーイメージをマルチラベルシナリオでコントラストするために、正のインスタンスと負のインスタンスを定義することが困難であるため、直接マルチラベルイメージ分類に適応できない。 本稿では,誤りラベルを識別するためのラベル補正機構を導入することで,まずアンカー画像の個々の意味ラベルに対する正と負をエレガントに生成し,その後,誤りラベル(clml)を用いたマルチラベル画像分類における一意なコントラスト損失を定義する。 既存のマルチラベルCLの損失とは違って、CLMLは、欠落したラベルを扱うのに役立つことが示されている潜在表現空間において、低ランクのグローバルおよびローカルなラベル依存を保存している。 我々の知る限り、これは欠落したラベルシナリオにおける最初の一般的なマルチラベルCL損失であり、単一のハイパーパラメータだけで既存のマルチラベル学習手法の損失とシームレスにペアリングすることができる。 提案手法は,3つの標準データセットであるMSCOCO,VOC,NAS-WIDEでそれぞれ1.2%,1.6%,1.3%のマージンでResnet101モデルの分類性能を向上させる。 コードはhttps://github.com/chuangua/ContrastiveLossMLMLで入手できる。

Contrastive learning (CL) has shown impressive advances in image representation learning in whichever supervised multi-class classification or unsupervised learning. However, these CL methods fail to be directly adapted to multi-label image classification due to the difficulty in defining the positive and negative instances to contrast a given anchor image in multi-label scenario, let the label missing one alone, implying that borrowing a commonly-used way from contrastive multi-class learning to define them will incur a lot of false negative instances unfavorable for learning. In this paper, with the introduction of a label correction mechanism to identify missing labels, we first elegantly generate positives and negatives for individual semantic labels of an anchor image, then define a unique contrastive loss for multi-label image classification with missing labels (CLML), the loss is able to accurately bring images close to their true positive images and false negative images, far away from their true negative images. Different from existing multi-label CL losses, CLML also preserves low-rank global and local label dependencies in the latent representation space where such dependencies have been shown to be helpful in dealing with missing labels. To the best of our knowledge, this is the first general multi-label CL loss in the missing-label scenario and thus can seamlessly be paired with those losses of any existing multi-label learning methods just via a single hyperparameter. The proposed strategy has been shown to improve the classification performance of the Resnet101 model by margins of 1.2%, 1.6%, and 1.3% respectively on three standard datasets, MSCOCO, VOC, and NUS-WIDE. Code is available at https://github.com/chuangua/ContrastiveLossMLML.
翻訳日:2022-09-07 12:57:31 公開日:2022-09-03
# リップリーディング改善のためのトレーニング戦略

Training Strategies for Improved Lip-reading ( http://arxiv.org/abs/2209.01383v1 )

ライセンス: Link先を確認
Pingchuan Ma, Yujiang Wang, Stavros Petridis, Jie Shen, Maja Pantic(参考訳) いくつかのトレーニング戦略と時間モデルが、最近、独立した一連の作品において孤立した単語読解のために提案されている。 しかし、最良の戦略を組み合わせる可能性や、それらが与える影響についての調査は行われていない。 本稿では,最先端データ拡張手法,時間モデル,および自己蒸留や単語境界指標を用いた訓練戦略の性能を体系的に検討する。 その結果, 時間マスキング (tm) が最も重要であり, ミックスアップ, 密結合時相畳み込みネットワーク (dc-tcn) が分離単語のリップ読みに最適な時相モデルであることがわかった。 自己蒸留と単語境界指標の使用も有益であるが、少ない範囲で有用である。 これらの手法を組み合わせると、93.4%の分類精度が得られ、LRWデータセットの現在の最先端性能よりも4.6%向上した。 さらなるデータセットを事前トレーニングすることで、パフォーマンスをさらに94.1%向上させることができる。 各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することを明らかにする。

Several training strategies and temporal models have been recently proposed for isolated word lip-reading in a series of independent works. However, the potential of combining the best strategies and investigating the impact of each of them has not been explored. In this paper, we systematically investigate the performance of state-of-the-art data augmentation approaches, temporal models and other training strategies, like self-distillation and using word boundary indicators. Our results show that Time Masking (TM) is the most important augmentation followed by mixup and Densely-Connected Temporal Convolutional Networks (DC-TCN) are the best temporal model for lip-reading of isolated words. Using self-distillation and word boundary indicators is also beneficial but to a lesser extent. A combination of all the above methods results in a classification accuracy of 93.4%, which is an absolute improvement of 4.6% over the current state-of-the-art performance on the LRW dataset. The performance can be further improved to 94.1% by pre-training on additional datasets. An error analysis of the various training strategies reveals that the performance improves by increasing the classification accuracy of hard-to-recognise words.
翻訳日:2022-09-07 12:56:58 公開日:2022-09-03
# 大規模非定常タスク分布をあまり忘れないメタラーニング

Meta-Learning with Less Forgetting on Large-Scale Non-Stationary Task Distributions ( http://arxiv.org/abs/2209.01501v1 )

ライセンス: Link先を確認
Zhenyi Wang, Li Shen, Le Fang, Qiuling Suo, Donglin Zhan, Tiehang Duan, Mingchen Gao(参考訳) マシンインテリジェンスのパラダイムは、純粋に教師付き学習から、多くの疎結合なラベル付きデータが利用可能であり、ラベル付きデータが不足している、より実践的なシナリオへと移行する。 既存のアルゴリズムの多くは、基礎となるタスク分布が定常であると仮定している。 ここでは、タスクの分散が時間とともに進化するという、より現実的で困難な設定を考える。 この問題をSETSと略記したEvolving Task diStributionsを用いた半教師付きメタラーニングと呼ぶ。 このより現実的な環境では、2つの重要な課題が生じる。 (i)大量のラベルなしアウト・オブ・ディストリビューション(ood)データが存在する場合におけるラベルなしデータの使い方 (II) タスク分布シフトによる従来学習されていたタスク分布の破滅的な忘れ込みを防止する方法。 我々は,この2つの課題に取り組むために,半教師付きメタラーニング手法(order)を提案する。 具体的には、ラベルなしのoodデータでモデルを堅牢化するための新しい相互情報正規化を導入し、特徴空間で以前に学習された知識を記憶するために最適なトランスポート正規化を採用する。 さらに,72kタスクからなる大規模非定常半教師付きタスク分散をセットとして,非常に困難なデータセット上でこの手法をテストした。 大規模な実験により,提案するORDERは,タスク分布の進化を忘れて,関連する強いベースラインよりもOODデータに堅牢であることを示す。

The paradigm of machine intelligence moves from purely supervised learning to a more practical scenario when many loosely related unlabeled data are available and labeled data is scarce. Most existing algorithms assume that the underlying task distribution is stationary. Here we consider a more realistic and challenging setting in that task distributions evolve over time. We name this problem as Semi-supervised meta-learning with Evolving Task diStributions, abbreviated as SETS. Two key challenges arise in this more realistic setting: (i) how to use unlabeled data in the presence of a large amount of unlabeled out-of-distribution (OOD) data; and (ii) how to prevent catastrophic forgetting on previously learned task distributions due to the task distribution shift. We propose an OOD Robust and knowleDge presErved semi-supeRvised meta-learning approach (ORDER), to tackle these two major challenges. Specifically, our ORDER introduces a novel mutual information regularization to robustify the model with unlabeled OOD data and adopts an optimal transport regularization to remember previously learned knowledge in feature space. In addition, we test our method on a very challenging dataset: SETS on large-scale non-stationary semi-supervised task distributions consisting of (at least) 72K tasks. With extensive experiments, we demonstrate the proposed ORDER alleviates forgetting on evolving task distributions and is more robust to OOD data than related strong baselines.
翻訳日:2022-09-07 12:56:38 公開日:2022-09-03
# EMおよび関連反復アルゴリズムの幾何学

Geometry of EM and related iterative algorithms ( http://arxiv.org/abs/2209.01301v1 )

ライセンス: Link先を確認
Hideitsu Hino and Shotaro Akaho and Noboru Murata(参考訳) expectation-maximization (em) アルゴリズムは単純なメタアルゴリズムであり、観測データに測定値が欠けている場合や観測可能データと観測可能データからなる場合、統計推論の方法論として長年にわたって用いられてきた。 一般の性質はよく研究されており、個々の問題に適用する方法も数え切れないほどある。 本稿では,EMアルゴリズムの情報幾何学的定式化である$em$アルゴリズムとその拡張と様々な問題への応用について紹介する。 具体的には, 確率モデルの空間における主成分分析やモーダル回帰, 行列分解, 学習生成モデルといった, チャネル容量の計算アルゴリズム, 確率シンプレックスのパラメータ推定法, 特定の多変量解析法を, 幾何的な観点から, 深層学習において最近注目されているような外乱ロバスト推定アルゴリズムを定式化することが可能であることを示す。

The Expectation--Maximization (EM) algorithm is a simple meta-algorithm that has been used for many years as a methodology for statistical inference when there are missing measurements in the observed data or when the data is composed of observables and unobservables. Its general properties are well studied, and also, there are countless ways to apply it to individual problems. In this paper, we introduce the $em$ algorithm, an information geometric formulation of the EM algorithm, and its extensions and applications to various problems. Specifically, we will see that it is possible to formulate an outlier-robust inference algorithm, an algorithm for calculating channel capacity, parameter estimation methods on probability simplex, particular multivariate analysis methods such as principal component analysis in a space of probability models and modal regression, matrix factorization, and learning generative models, which have recently attracted attention in deep learning, from the geometric perspective.
翻訳日:2022-09-07 12:49:57 公開日:2022-09-03
# リンク予測に基づく知識ベースグラフセルフアテンションネットワークのための半教師付き学習

Semi-supervised Training for Knowledge Base Graph Self-attention Networks on Link Prediction ( http://arxiv.org/abs/2209.01350v1 )

ライセンス: Link先を確認
Shuanglong Yao, Dechang Pi, Junfu Chen, Yufei Liu, Zhiyuan Wu(参考訳) リンク予測の課題は、現実世界から事実を収集することの難しさに起因する不完全な知識の問題を解決することである。 GCNsベースのモデルは、その高度化によるリンク予測問題を解決するために広く応用されているが、GCNsベースのモデルは、構造と訓練過程における2つの問題に悩まされている。 1)GCN階層の変換方法は,GCNに基づく知識表現モデルにおいて複雑化する。 2) 知識グラフ収集プロセスの不完全性のため, ラベル付き負のサンプルには未収集事実が多数存在する。 そこで本研究では,隣接ノードの情報集約係数(自己アテンション)の特性を調べ,gat構造の自己アテンション機構を再設計する。 一方,人間の思考習慣に触発されて,事前学習モデルを用いた半教師付き自己学習法を考案した。 ベンチマークデータセット fb15k-237 と wn18rr の実験結果から,提案手法と半教師付き自己学習法がリンク予測タスクの性能を効果的に向上することが示された。 例えば、FB15k-237を見ると、提案手法はHits@1を約30%改善する。

The task of link prediction aims to solve the problem of incomplete knowledge caused by the difficulty of collecting facts from the real world. GCNs-based models are widely applied to solve link prediction problems due to their sophistication, but GCNs-based models are suffering from two problems in the structure and training process. 1) The transformation methods of GCN layers become increasingly complex in GCN-based knowledge representation models; 2) Due to the incompleteness of the knowledge graph collection process, there are many uncollected true facts in the labeled negative samples. Therefore, this paper investigates the characteristic of the information aggregation coefficient (self-attention) of adjacent nodes and redesigns the self-attention mechanism of the GAT structure. Meanwhile, inspired by human thinking habits, we designed a semi-supervised self-training method over pre-trained models. Experimental results on the benchmark datasets FB15k-237 and WN18RR show that our proposed self-attention mechanism and semi-supervised self-training method can effectively improve the performance of the link prediction task. If you look at FB15k-237, for example, the proposed method improves Hits@1 by about 30%.
翻訳日:2022-09-07 12:46:59 公開日:2022-09-03
# top-k曲線下の部分領域の最適化:理論と実践

Optimizing Partial Area Under the Top-k Curve: Theory and Practice ( http://arxiv.org/abs/2209.01398v1 )

ライセンス: Link先を確認
Zitai Wang, Qianqian Xu, Zhiyong Yang, Yuan He, Xiaochun Cao, Qingming Huang(参考訳) Top-kエラーはクラス間の不可避な意味的曖昧さのため、大規模分類ベンチマークで一般的な指標となっている。 トップk最適化に関する既存の文献は、一般に、計量自体の制限を無視しながら、トップk目標の最適化方法に焦点を当てている。 本稿では,top-kの目的が,誘導された予測が完全に無関係なラベルにトップランクを与えるような十分な識別を欠いていることを指摘する。 この問題を解決するため,AUTKC(Apartial Area Under the Top-k Curve)と呼ばれる新しい指標を開発した。 理論的解析により、AUTKCはより良い識別能力を示し、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランキングを与える。 これは、AUTKCが無関係なラベルをトップリストに掲載することを許していないことを示している。 さらに,提案手法を最適化するための実証的サロゲートリスク最小化フレームワークを提案する。 理論上,(1)ベイズ最適スコア関数のフィッシャー一貫性の十分条件,(2)単純なハイパーパラメータ設定下でのクラス数に影響を受けない一般化上限を提示する。 最後に,4つのベンチマークデータセットにおける実験結果から,提案フレームワークの有効性を検証した。

Top-k error has become a popular metric for large-scale classification benchmarks due to the inevitable semantic ambiguity among classes. Existing literature on top-k optimization generally focuses on the optimization method of the top-k objective, while ignoring the limitations of the metric itself. In this paper, we point out that the top-k objective lacks enough discrimination such that the induced predictions may give a totally irrelevant label a top rank. To fix this issue, we develop a novel metric named partial Area Under the top-k Curve (AUTKC). Theoretical analysis shows that AUTKC has a better discrimination ability, and its Bayes optimal score function could give a correct top-K ranking with respect to the conditional probability. This shows that AUTKC does not allow irrelevant labels to appear in the top list. Furthermore, we present an empirical surrogate risk minimization framework to optimize the proposed metric. Theoretically, we present (1) a sufficient condition for Fisher consistency of the Bayes optimal score function; (2) a generalization upper bound which is insensitive to the number of classes under a simple hyperparameter setting. Finally, the experimental results on four benchmark datasets validate the effectiveness of our proposed framework.
翻訳日:2022-09-07 12:46:41 公開日:2022-09-03
# クレームデータを用いた慢性腎疾患患者の腎置換療法開始の動的予測のための機械学習

Machine learning for dynamically predicting the onset of renal replacement therapy in chronic kidney disease patients using claims data ( http://arxiv.org/abs/2209.01469v1 )

ライセンス: Link先を確認
Daniel Lopez-Martinez and Christina Chen and Ming-Jun Chen(参考訳) 慢性腎疾患 (CKD) は徐々に進行する疾患であり、最終的には透析や腎移植を含む腎置換療法 (RRT) を必要とする。 RRTを必要とする患者を早期に同定することは、例えば透析のための高品質な血管アクセスを可能にすることで、患者の結果を改善する。 したがって、ケアチームによるRTの必要性の早期認識は、病気をうまく管理するための鍵となる。 残念ながら、RRT開始に一般的に使用される予測ツールはない。 本研究では, CKD患者に対して, クレームデータのみを用いて, RRTを1年間必要とした場合に, CKD患者を動的に識別する機械学習モデルを提案する。 このモデルを評価するために,約300万の医療受益者を調査し,800万以上の予測を行った。 その結果,90%以上の感度と特異性を有するリスク患者を識別できることがわかった。 本研究は,本手法が臨床応用される準備が整う前に追加の作業が必要であるが,本研究は,RTT成績の改善を目的とした早期の予防的介入を可能にするためのスクリーニングツールの基礎を提供する。

Chronic kidney disease (CKD) represents a slowly progressive disorder that can eventually require renal replacement therapy (RRT) including dialysis or renal transplantation. Early identification of patients who will require RRT (as much as 1 year in advance) improves patient outcomes, for example by allowing higher-quality vascular access for dialysis. Therefore, early recognition of the need for RRT by care teams is key to successfully managing the disease. Unfortunately, there is currently no commonly used predictive tool for RRT initiation. In this work, we present a machine learning model that dynamically identifies CKD patients at risk of requiring RRT up to one year in advance using only claims data. To evaluate the model, we studied approximately 3 million Medicare beneficiaries for which we made over 8 million predictions. We showed that the model can identify at risk patients with over 90% sensitivity and specificity. Although additional work is required before this approach is ready for clinical use, this study provides a basis for a screening tool to identify patients at risk within a time window that enables early proactive interventions intended to improve RRT outcomes.
翻訳日:2022-09-07 12:46:06 公開日:2022-09-03
# チェスのためのニューラルネットワーク

Neural Networks for Chess ( http://arxiv.org/abs/2209.01506v1 )

ライセンス: Link先を確認
Dominik Klein(参考訳) AlphaZero、Leela Chess Zero、Stockfish NNUEはコンピュータチェスに革命をもたらした。 本書は、このようなエンジンの技術的な内部動作について、完全な紹介を行っている。 第1章(導入)と第6章(結論): 第2章ではニューラルネットワークを導入し、alphazeroが使用するようなディープネットワークを構築するために使用される、基本的な構成要素をすべてカバーしている。 内容は、パーセプトロン、バックプロパゲーションと勾配降下、分類、回帰、多層パーセプトロン、ベクトル化技術、畳み込みネットワーク、スクイーズと励磁ネットワーク、完全連結ネットワーク、バッチ正規化と整流線形単位、残留層、過剰フィッティングと過剰フィッティングである。 第3章では、AlphaZeroと同様にチェスエンジンに使われる古典的な探索技術を紹介している。 内容はminimax、alpha-beta search、monte carlo tree searchなど。 第4章は、現代のチェスエンジンの設計方法を示している。 AlphaGo、AlphaGo Zero、AlphaZero以外では、Leela Chess Zero、Fat Fritz、Fat Fritz 2、Efficiently Updatable Neural Networks (NNUE)、Maiaをカバーしています。 第5章は、小型のAlphaZeroの実装についてである。 ヘキサポーンはチェスのミニマリズム版であり、その一例として使われている。 極小探索によりヘキサポーンを解き、教師付き学習のための訓練位置を生成する。 次に、AlphaZeroのようなトレーニングループを実装し、自己学習と強化学習を組み合わせることでトレーニングを行う。 最後に、alphazeroライクなトレーニングと教師付きトレーニングを比較する。

AlphaZero, Leela Chess Zero and Stockfish NNUE revolutionized Computer Chess. This book gives a complete introduction into the technical inner workings of such engines. The book is split into four main chapters -- excluding chapter 1 (introduction) and chapter 6 (conclusion): Chapter 2 introduces neural networks and covers all the basic building blocks that are used to build deep networks such as those used by AlphaZero. Contents include the perceptron, back-propagation and gradient descent, classification, regression, multilayer perceptron, vectorization techniques, convolutional networks, squeeze and excitation networks, fully connected networks, batch normalization and rectified linear units, residual layers, overfitting and underfitting. Chapter 3 introduces classical search techniques used for chess engines as well as those used by AlphaZero. Contents include minimax, alpha-beta search, and Monte Carlo tree search. Chapter 4 shows how modern chess engines are designed. Aside from the ground-breaking AlphaGo, AlphaGo Zero and AlphaZero we cover Leela Chess Zero, Fat Fritz, Fat Fritz 2 and Efficiently Updatable Neural Networks (NNUE) as well as Maia. Chapter 5 is about implementing a miniaturized AlphaZero. Hexapawn, a minimalistic version of chess, is used as an example for that. Hexapawn is solved by minimax search and training positions for supervised learning are generated. Then as a comparison, an AlphaZero-like training loop is implemented where training is done via self-play combined with reinforcement learning. Finally, AlphaZero-like training and supervised training are compared.
翻訳日:2022-09-07 12:45:40 公開日:2022-09-03
# 動的サンプル重み付けによるノイズロバスト双方向学習

Noise-Robust Bidirectional Learning with Dynamic Sample Reweighting ( http://arxiv.org/abs/2209.01334v1 )

ライセンス: Link先を確認
Chen-Chen Zong, Zheng-Tao Cao, Hong-Tao Guo, Yun Du, Ming-Kun Xie, Shao-Yuan Li, and Sheng-Jun Huang(参考訳) 標準のクロスエントロピー損失でトレーニングされたディープニューラルネットワークは、ノイズラベルを記憶する傾向が強く、パフォーマンスが低下する。 相補ラベルを用いた負の学習は、ノイズラベルが介入する場合はより堅牢であるが、非常に遅いモデル収束速度を持つ。 本稿では,正の学習が収束速度を保証し,負の学習がラベルノイズに頑健に対処する双方向学習方式を提案する。 さらに,標本確率分布に負学習の優れた判別能力を利用することで,ノイズラベル標本の効果をグローバルに弱めるための動的サンプル重み付け戦略を提案する。 さらに, 自己蒸留を組み合わせることで, モデル性能をさらに向上させる。 コードは \url{https://github.com/chenchenzong/bldr} で入手できる。

Deep neural networks trained with standard cross-entropy loss are more prone to memorize noisy labels, which degrades their performance. Negative learning using complementary labels is more robust when noisy labels intervene but with an extremely slow model convergence speed. In this paper, we first introduce a bidirectional learning scheme, where positive learning ensures convergence speed while negative learning robustly copes with label noise. Further, a dynamic sample reweighting strategy is proposed to globally weaken the effect of noise-labeled samples by exploiting the excellent discriminatory ability of negative learning on the sample probability distribution. In addition, we combine self-distillation to further improve the model performance. The code is available at \url{https://github.com/chenchenzong/BLDR}.
翻訳日:2022-09-07 12:38:08 公開日:2022-09-03
# サンプルワイズ非IIDデータに基づくFederated XGBoost

Federated XGBoost on Sample-Wise Non-IID Data ( http://arxiv.org/abs/2209.01340v1 )

ライセンス: Link先を確認
Katelinh Jones, Yuya Jeremy Ong, Yi Zhou, Nathalie Baracaldo(参考訳) フェデレーション学習(federated learning, fl)は、マシンラーニングアルゴリズムを分散的にトレーニングするためのパラダイムであり、トレーニングプロセスに関わるローカルなパーティの生データ分布を露呈することなく、アグリゲータとコミュニケーションしてモデルを作成し、トレーニングすることができる。 flのほとんどの研究はニューラルネットワークに基づくアプローチに焦点が当てられているが、xgboostのような木ベースの手法は、アルゴリズムの反復的および付加的特性を克服することの難しさから、連合学習において過小評価されている。 決定木ベースのモデル、特にxgboostは、非iidデータを処理することができる。これは、データの基本特性が分散化されており、自然に非iidになるリスクがあるため、連合学習フレームワークで使用されるアルゴリズムにとって重要である。 本稿では,Federated XGBoostが非IID分布に与える影響について,サンプルサイズに基づく様々なデータスキューシナリオで実験を行い,これらのモデルが非IIDシナリオでどのように機能するかを検討する。 我々は、複数の異なるデータセットと異なるデータスキューパーティションにまたがる広範囲な実験を行う。 実験の結果, 分割比が異なるにもかかわらず, モデルの性能は一定であり, 集中的に訓練されたモデルに対してほぼ等しく良好であった。

Federated Learning (FL) is a paradigm for jointly training machine learning algorithms in a decentralized manner which allows for parties to communicate with an aggregator to create and train a model, without exposing the underlying raw data distribution of the local parties involved in the training process. Most research in FL has been focused on Neural Network-based approaches, however Tree-Based methods, such as XGBoost, have been underexplored in Federated Learning due to the challenges in overcoming the iterative and additive characteristics of the algorithm. Decision tree-based models, in particular XGBoost, can handle non-IID data, which is significant for algorithms used in Federated Learning frameworks since the underlying characteristics of the data are decentralized and have risks of being non-IID by nature. In this paper, we focus on investigating the effects of how Federated XGBoost is impacted by non-IID distributions by performing experiments on various sample size-based data skew scenarios and how these models perform under various non-IID scenarios. We conduct a set of extensive experiments across multiple different datasets and different data skew partitions. Our experimental results demonstrate that despite the various partition ratios, the performance of the models stayed consistent and performed close to or equally well against models that were trained in a centralized manner.
翻訳日:2022-09-07 12:37:54 公開日:2022-09-03
# siamese表現学習によるアクション認識のための新しい自己認識蒸留法

A Novel Self-Knowledge Distillation Approach with Siamese Representation Learning for Action Recognition ( http://arxiv.org/abs/2209.01311v1 )

ライセンス: Link先を確認
Duc-Quang Vu, Trang Phung, Jia-Ching Wang(参考訳) 知識蒸留は、生徒のパフォーマンスを高めるために、重いネットワーク(教師)から小さなネットワーク(学生)への知識の効果的な伝達である。 知識蒸留の特別事例である自己知識蒸留は,学生のパフォーマンスを保ちながら,大規模な教員ネットワークトレーニングプロセスを取り除くために提案されている。 本稿では,二つの異なる視点の2つの表現ベクトル間の差を最小化するsiamese representation learningを用いた,新しい自己認識蒸留法を提案する。 提案手法は, 軟式ラベル蒸留と表現ベクトルの類似性を利用したSKD-SRLである。 したがって、SKD-SRLは、同じデータポイントの様々なビューにおいて、より一貫性のある予測と表現を生成することができる。 ベンチマークは様々な標準データセットで評価されている。 実験の結果,SKD-SRLはネットワークに関係なく既存の教師あり学習法や知識蒸留法と比較して精度を著しく向上することがわかった。

Knowledge distillation is an effective transfer of knowledge from a heavy network (teacher) to a small network (student) to boost students' performance. Self-knowledge distillation, the special case of knowledge distillation, has been proposed to remove the large teacher network training process while preserving the student's performance. This paper introduces a novel Self-knowledge distillation approach via Siamese representation learning, which minimizes the difference between two representation vectors of the two different views from a given sample. Our proposed method, SKD-SRL, utilizes both soft label distillation and the similarity of representation vectors. Therefore, SKD-SRL can generate more consistent predictions and representations in various views of the same data point. Our benchmark has been evaluated on various standard datasets. The experimental results have shown that SKD-SRL significantly improves the accuracy compared to existing supervised learning and knowledge distillation methods regardless of the networks.
翻訳日:2022-09-07 12:35:07 公開日:2022-09-03
# ステグアナリシスのための連続学習

Continual Learning for Steganalysis ( http://arxiv.org/abs/2209.01326v1 )

ライセンス: Link先を確認
Zihao Yin, Ruohan Meng and Zhili Zhou(参考訳) 既存のステガノグラフィーアルゴリズムを検出するために、最近のステグアナリシス法は、対応するペアカバー/ステゴ画像からなるデータセット上で畳み込みニューラルネットワーク(cnn)モデルを訓練する。 しかし、これらのステガ解析ツールが既存のステガノグラフィーアルゴリズムと新しいステガノグラフィーアルゴリズムの両方に対して効果的になるようにcnnモデルを完全に再訓練することは非効率的で非現実的である。 したがって、既存のステガノグラフィーモデルは、現実のシナリオでの応用を制限する新しいステガノグラフィーアルゴリズムの動的拡張性を欠いている。 そこで本研究では,steg analysisのためのパラメータ重要度推定(apie)に基づく連続学習方式を提案する。 このスキームでは、新しいステガノグラフィーアルゴリズムによって生成された新しい画像データセットに基づいてステガナリシスモデルをトレーニングすると、ネットワークパラメータを有効かつ効率的に更新し、その重要性を以前のトレーニングプロセスで評価する。 このアプローチは,従来のステガノグラフィーアルゴリズムに対する検出性を著しく低下させることなく,新しいステガノグラフィーアルゴリズムのパターンを学習するためのステガナリシスモデルを導くことができる。 実験により,新しいステガノグラフィーアルゴリズムの拡張性が期待できることを示した。

To detect the existing steganographic algorithms, recent steganalysis methods usually train a Convolutional Neural Network (CNN) model on the dataset consisting of corresponding paired cover/stego-images. However, it is inefficient and impractical for those steganalysis tools to completely retrain the CNN model to make it effective against both the existing steganographic algorithms and a new emerging steganographic algorithm. Thus, existing steganalysis models usually lack dynamic extensibility for new steganographic algorithms, which limits their application in real-world scenarios. To address this issue, we propose an accurate parameter importance estimation (APIE) based-continual learning scheme for steganalysis. In this scheme, when a steganalysis model is trained on the new image dataset generated by the new steganographic algorithm, its network parameters are effectively and efficiently updated with sufficient consideration of their importance evaluated in the previous training process. This approach can guide the steganalysis model to learn the patterns of the new steganographic algorithm without significantly degrading the detectability against the previous steganographic algorithms. Experimental results demonstrate the proposed scheme has promising extensibility for new emerging steganographic algorithms.
翻訳日:2022-09-07 12:34:53 公開日:2022-09-03
# vieCap4H-VLSP 2021:Swin TransformerとAttention-based LSTMを用いたベトナムの医療領域の画像キャプション

vieCap4H-VLSP 2021: Vietnamese Image Captioning for Healthcare Domain using Swin Transformer and Attention-based LSTM ( http://arxiv.org/abs/2209.01304v1 )

ライセンス: Link先を確認
Thanh Tin Nguyen, Long H. Nguyen, Nhat Truong Pham, Liu Tai Nguyen, Van Huong Do, Hai Nguyen, Ngoc Duy Nguyen(参考訳) 本研究は,ベトナム語・音声処理(vlsp)課題2021において,医療領域におけるベトナム語画像キャプションの自動生成手法を提案する。 近年、画像キャプションでは、畳み込みニューラルネットワークベースのアーキテクチャをエンコーダとして、長い短期記憶(LSTM)をデコーダとして、文を生成する。 これらのモデルは、異なるデータセットで驚くほどよく機能する。 提案モデルにはエンコーダとデコーダもあるが,代わりにエンコーダのSwin Transformerと,デコーダのアテンションモジュールを組み合わせたLSTMを使用する。 本研究は,競技中に使用したトレーニング実験と技術について述べる。 我々のモデルはvietCap4HデータセットでBLEU4スコアの0.293を達成し、スコアはプライベートリーダーボードで3$^{rd}$にランク付けされる。 我々のコードは \url{https://git.io/JDdJm} にある。

This study presents our approach on the automatic Vietnamese image captioning for healthcare domain in text processing tasks of Vietnamese Language and Speech Processing (VLSP) Challenge 2021, as shown in Figure 1. In recent years, image captioning often employs a convolutional neural network-based architecture as an encoder and a long short-term memory (LSTM) as a decoder to generate sentences. These models perform remarkably well in different datasets. Our proposed model also has an encoder and a decoder, but we instead use a Swin Transformer in the encoder, and a LSTM combined with an attention module in the decoder. The study presents our training experiments and techniques used during the competition. Our model achieves a BLEU4 score of 0.293 on the vietCap4H dataset, and the score is ranked the 3$^{rd}$ place on the private leaderboard. Our code can be found at \url{https://git.io/JDdJm}.
翻訳日:2022-09-07 12:21:47 公開日:2022-09-03