このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221112となっている論文です。

PDF登録状況(公開日: 20221112)

TitleAuthorsAbstract論文公表日・翻訳日
# AlGaAs-GaAsヘテロ構造における量子調和振動子の実証と動作

Demonstration and operation of quantum harmonic oscillators in an AlGaAs-GaAs heterostructure ( http://arxiv.org/abs/2101.06575v2 )

ライセンス: Link先を確認
Guangqiang Mei, Pengfei Suo, Li Mao, Min Feng, and Limin Cao(参考訳) 量子力学における最も重要かつユビキタスなモデルシステムの1つである量子調和振動子(qho)は、等間隔のエネルギー準位や固有状態を持つ。 ここでは、AlGaAs/GaAsヘテロ構造中の水素置換基によって形成される、ほぼ理想的なQHOの新しいクラスを示す。 モデル計算に基づいて,AlGaAs/GaAsヘテロ界面に近いGa/Al格子サイトをデタドーピングSiドナーで置換した場合,正方形法則調和ポテンシャルを生じるクーロン力の回復を特徴とする水素性SiQHOが形成されることを示した。 これにより、エネルギー間隔が約8-9 mVのQHO状態が生じる。 本提案は,アルミニウム単電子トランジスタ(set)を用いたゲートチューニングとqho状態の測定により検証した。 0.5V以上の正のゲートバイアスに対して、周期 ~7-8 mV の鋭く速い発振が通常のクーロン遮断(CB)発振に加えて出現し、その挙動は我々の理論結果と定量的に一致し、QHOからの電子の調和運動を示す。 我々の結果は半導体ヘテロ構造におけるQHOの設計、構築、操作の一般的な原理を確立し、将来の量子応用の可能性を開くかもしれない。

The quantum harmonic oscillator (QHO), one of the most important and ubiquitous model systems in quantum mechanics, features equally spaced energy levels or eigenstates. Here we present a new class of nearly ideal QHOs formed by hydrogenic substitutional dopants in an AlGaAs/GaAs heterostructure. On the basis of model calculations, we demonstrate that, when a deta-doping Si donor substitutes the Ga/Al lattice site close to AlGaAs/GaAs heterointerface, a hydrogenic Si QHO, characterized by a restoring Coulomb force producing square law harmonic potential, is formed. This gives rise to QHO states with energy spacing of about ~8-9 meV. We experimentally confirm this proposal by utilizing gate tuning and measuring QHO states using an aluminum single-electron transistor (SET). A sharp and fast oscillation with period of ~7-8 mV appears in addition to the regular Coulomb blockade (CB) oscillation with much larger period, for positive gate biases above 0.5 V. The observation of fast oscillation and its behavior is quantitatively consistent with our theoretical result, manifesting the harmonic motion of electrons from the QHO. Our results might establish a general principle to design, construct and manipulate QHOs in semiconductor heterostructures, opening future possibilities for their quantum applications.
翻訳日:2023-04-14 23:15:46 公開日:2022-11-12
# 2次元双極子スピンアンサンブルにおける多体ダイナミクスの探索

Probing many-body dynamics in a two dimensional dipolar spin ensemble ( http://arxiv.org/abs/2103.12742v3 )

ライセンス: Link先を確認
Emily J. Davis, Bingtian Ye, Francisco Machado, Simon A. Meynell, Weijie Wu, Thomas Mittiga, William Schenken, Maxime Joos, Bryce Kobrin, Yuanqi Lyu, Zilin Wang, Dolev Bluvstein, Soonwon Choi, Chong Zu, Ania C. Bleszynski Jayich, and Norman Y. Yao(参考訳) 強相互作用系の量子力学を特徴づけるための最も直接的なアプローチは、その全多体状態の時間変化を測定することである。 このアプローチの概念的な単純さにもかかわらず、システムのサイズが大きくなるとすぐに難解になる。 代替の枠組みは、多体の力学を、プローブキュービットのデコヒーレンスによって測定できるノイズを生成するものとして考えることである。 そのようなプローブのデコヒーレンスダイナミクスは、多体システムについて何を教えてくれるのか? 特に、光アドレス可能なプローブスピンを用いて、強い相互作用を持つ磁気双極子の静的および動的特性を実験的に特徴づける。 実験プラットフォームは, ダイヤモンド中の窒素空孔 (nv) 色中心 (probe spin) と置換窒素不純物 (many-body system) の2種類のスピン欠陥からなる。 我々は,NVのデコヒーレンスプロファイルの関数形式に,多体系の次元,力学,障害のシグネチャが自然にコードされていることを示した。 これらの知見を生かして、窒素デルタドープダイヤモンド試料の2次元特性を直接特徴づける。 第一に、強く相互作用する双極子系におけるスピンダイナミクスの微視的性質に関する永続的な議論に対処する。 次に,多体系の相関時間に対する直接制御を示す。 最後に、NVとP1中心間の偏光交換を実証し、2次元スピン偏光アンサンブルを用いた量子センシングとシミュレーションの扉を開く。

The most direct approach for characterizing the quantum dynamics of a strongly-interacting system is to measure the time-evolution of its full many-body state. Despite the conceptual simplicity of this approach, it quickly becomes intractable as the system size grows. An alternate framework is to think of the many-body dynamics as generating noise, which can be measured by the decoherence of a probe qubit. Our work centers on the following question: What can the decoherence dynamics of such a probe tell us about the many-body system? In particular, we utilize optically addressable probe spins to experimentally characterize both static and dynamical properties of strongly-interacting magnetic dipoles. Our experimental platform consists of two types of spin defects in diamond: nitrogen-vacancy (NV) color centers (probe spins) and substitutional nitrogen impurities (many-body system). We demonstrate that signatures of the many-body system's dimensionality, dynamics, and disorder are naturally encoded in the functional form of the NV's decoherence profile. Leveraging these insights, we directly characterize the two-dimensional nature of a nitrogen delta-doped diamond sample. In addition, we explore two distinct facets of the many-body dynamics: First, we address a persistent debate about the microscopic nature of spin dynamics in strongly-interacting dipolar systems. Second, we demonstrate direct control over the correlation time of the many-body system. Finally, we demonstrate polarization exchange between NV and P1 centers, opening the door to quantum sensing and simulation using two-dimensional spin-polarized ensembles.
翻訳日:2023-04-07 02:07:43 公開日:2022-11-12
# 純状態の動的混合における普遍性のオンセット

Onset of universality in the dynamical mixing of a pure state ( http://arxiv.org/abs/2109.10495v2 )

ライセンス: Link先を確認
M. Carrera-N\'u\~nez, A. M. Mart\'inez-Arg\"uello, J. M. Torres, E. J. Torres-Herrera(参考訳) 我々は、ハミルトンのガウス直交アンサンブル(GOE)を用いて、同じ純粋状態の進化によって生じるランダム密度行列の時間ダイナミクスを研究する。 得られた混合状態のスペクトル統計は、ランダム行列理論(RMT)によりよく説明され、GOEからガウスユニタリアンサンブル(GUE)への相互交叉を、それぞれ短時間と大々的に行うことを示す。 密度行列のべき級数を時間関数とする半解析的処理を用いて、ヒルベルト空間次元の逆数としてスケールする特性時間でクロスオーバーが発生することを見出した。 RMTの結果は、GUE統計が広く到達するカオス状態における多体ローカライゼーションのパラダイムモデルと対比される一方、短時間では、統計は考慮された部分空間の特異性に強く依存する。

We study the time dynamics of random density matrices generated by evolving the same pure state using a Gaussian orthogonal ensemble (GOE) of Hamiltonians. We show that the spectral statistics of the resulting mixed state is well described by random matrix theory (RMT) and undergoes a crossover from the GOE to the Gaussian unitary ensemble (GUE) for short and large times respectively. Using a semi-analytical treatment relying on a power series of the density matrix as a function of time, we find that the crossover occurs in a characteristic time that scales as the inverse of the Hilbert space dimension. The RMT results are contrasted with a paradigmatic model of many-body localization in the chaotic regime, where the GUE statistics is reached at large times, while for short times the statistics strongly depends on the peculiarity of the considered subspace.
翻訳日:2023-03-14 01:26:22 公開日:2022-11-12
# カオスのプローブとしての正規化作用素の成長

Growth of a renormalized operator as a probe of chaos ( http://arxiv.org/abs/2110.15306v2 )

ライセンス: Link先を確認
Xing Huang and Binchao Zhang(参考訳) ホログラム的再正規化群流下で進化した作用素のサイズは, スケールとともに線形に成長し, この挙動をカオス境界の飽和の顕在化として解釈する。 この予想を検証するために、2つの異なる玩具モデルにおける演算子の成長を調べる。 1つ目は、ランダムなユニタリ回路から構築されたmeraライクなテンソルネットワークで、オペレータサイズはout-of-time-ordered correlator (otoc) を用いて定義される。 2番目のモデルは完全テンソルの誤り訂正符号であり、演算子のサイズは論理演算子を実現するシングルサイト物理演算子の数を用いて計算される。 いずれの場合も直線的な成長が観察される。

We propose that the size of an operator evolved under holographic renormalization group flow shall grow linearly with the scale and interpret this behavior as a manifestation of the saturation of the chaos bound. To test this conjecture, we study the operator growth in two different toy models. The first is a MERA-like tensor network built from a random unitary circuit with the operator size defined using the integrated out-of-time-ordered correlator (OTOC). The second model is an error-correcting code of perfect tensors, and the operator size is computed using the number of single-site physical operators that realize the logical operator. In both cases, we observe linear growth.
翻訳日:2023-03-10 00:46:32 公開日:2022-11-12
# ウィグナーのアプローチは、全ての異なる分割を用いた多部非局所性の検出を可能にした

Wigner's approach enabled detection of multipartite nonlocality using all different bipartitions ( http://arxiv.org/abs/2202.11475v3 )

ライセンス: Link先を確認
Sumit Nandi, Debashis Saha, Dipankar Home and A.S.Majumdar(参考訳) ベルのアプローチと異なり、ウィグナーは局所実数論的不等式(英語版)(lr)の形式を導いており、この不等式は量子力学的に二分体が極度に絡み合っている状態に対して違反している。 その後、このアプローチは多部LR不等式を得るために一般化された。 しかし、そのような一般化されたウィグナーの不等式の違反は、多部類系の全ての異なる分割の間の非局所性を保証するものではない。 本研究において、この制限は、N-粒子系のすべての異なる分割に関してLR不等式の集合の導出により、ウィグナーのアプローチをさらに一般化することによって克服された。 そのような集合に属する個々のLR不等式の量子力学的違反は、以下の意味での多部非局所性の性質のより詳細な特徴付けを提供することで、多部非局所性を厳格に証明する。 LR不等式の全集合の任意の不等式に対する量子力学的違反は、非局所性を示す対応する分割の同定を可能にする。 これは、Svetlichnyの不等式や一般化のような他の多部式LR不等式とは対照的であり、非局所的に相関する特定の分割が存在するかどうかを検出できない。 本論文で開発されたスキームの有効性は,三部および四部状態に対して示される。

Distinct from Bell's approach, Wigner had derived a form of local realist (LR) inequality which is quantum mechanically violated for a bipartite maximally entangled state. Subsequently, this approach was generalized to obtain a multipartite LR inequality. However, the violation of such generalised Wigner's inequality does not guarantee nonlocality between all possible different bipartitions of the multipartite system. In the present work, this limitation has been overcome by formulating a further generalisation of Wigner's approach through the derivation of a set of LR inequalities with respect to all different bipartitions of a N-partite system. Quantum mechanical violations of all individual LR inequalities belonging to such a set would rigorously certify multipartite nonlocality by also providing a finer characterisation of the nature of multipartite nonlocality in the following sense. The quantum mechanical violation of any given inequality of our complete set of LR inequalities would enable identification of the corresponding bipartition which exhibits nonlocality. This is in contrast to other multipartite LR inequalities such as the Svetlichny inequality or its generalisation that cannot be used to detect whether there is any particular bipartition which is nonlocally correlated. The efficacy of the scheme developed in this paper is illustrated for the tripartite and quadripartite states.
翻訳日:2023-02-24 03:42:14 公開日:2022-11-12
# 没入型仮想環境と不安テストによる地震の緊急訓練改善の試み

Improving Emergency Training for Earthquakes Through Immersive Virtual Environments and Anxiety Tests: A Case Study ( http://arxiv.org/abs/2205.04993v2 )

ライセンス: Link先を確認
Mohammad Sadra Rajabi, Hosein Taghaddos, Mehdi Zahrai(参考訳) 毎年、大きな地震が発生しているため、地震が発生しやすい国は財政的な被害と生命の喪失に苦しむ。 本質的安全対策の指導は,地震時の基本手順を遂行できる世代へとつながり,この自然災害における生命の喪失を防止する上で重要かつ効果的な解決策となる。 近年、仮想現実技術は、人々に安全について教育するためのツールとなっている。 本稿では,地震のストレス条件下での住民の誤った意思決定に対する教育と予知の効果を評価する。 この目的のために、テヘラン市の学校で提案された教室から仮想モデルが設計され、構築されている。 その結果,20歳から25歳までの児童生徒20名を対象に,現実的に提示される2つの教育シナリオと仮想モデルについて調査を行った。 上述のサンプルでは,従来の教室で10名の学生が安全対策を指導した。 10人の学生の第2グループは仮想教室に参加しました。 地震に対する安全対策の評価試験を2週間後に実施した。 さらに, うつ病, 不安, ストレステスト (DASS) とベック不安インベントリ (BAI) の2つの自己申告試験を第2グループに割り当て, 2つの異なるシナリオ下での視力効果を評価した。 その結果、仮想現実技術による教育は、従来の教育アプローチに比べて高いパフォーマンスレベルをもたらすことがわかった。 さらに、地震を事前に検出する能力は、ストレスを制御し、イベントが発生した場合の適切な判断を決定する上で重要な要因である。

Because of the occurrence of severe and large magnitude earthquakes each year, earthquake-prone countries suffer considerable financial damage and loss of life. Teaching essential safety measures will lead to a generation that can perform basic procedures during an earthquake, which is an important and effective solution in preventing the loss of life in this natural disaster. In recent years, virtual reality technology is a tool that has been used to educate people on safety matters. This paper evaluates the effect of education and premonition on the incorrect decision-making of residents under the stressful conditions of an earthquake. For this purpose, a virtual model has been designed and built from a proposed classroom in a school of the city of Tehran. Accordingly, two educational scenarios, presented in reality and the virtual model respectively, were conducted on a statistical sample of 20 students within the range of 20 to 25 years of age. Within the mentioned sample, the first group of 10 students were taught safety measures in a traditional classroom. The second group of 10 students participated in a virtual classroom. Evaluation tests on safety measures against earthquakes were distributed after two weeks. Furthermore, two self-reporting tests of Depression, anxiety, stress test (DASS), and Beck Anxiety Inventory (BAI) were assigned to the second group to evaluate the effect of foresight under two different scenarios. The results show that educating through virtual reality technology yields a higher performance level relative to the traditional approach to education. Additionally, the ability to detect earthquakes ahead of time is an influential factor in controlling stress and determining the right decisions should the event occur.
翻訳日:2023-02-19 16:48:15 公開日:2022-11-12
# インターネットアクセスの権利のためのデジタルインドからの教訓

Lessons from Digital India for the Right to Internet Access ( http://arxiv.org/abs/2211.06740v1 )

ライセンス: Link先を確認
Kaustubh D. Dhole(参考訳) インドの家屋の65%しかインターネットにアクセスできないため、デジタルインドは性別と都市タイプで大きなインターネット格差に直面している。 人口のほぼ3分の1に不可欠なサービスをレンダリングするには、インターネットアクセスの基本的な権利をプロビジョニングするだけでなく、そのシンプルで安価で安全なアクセシビリティを保証するための特定の建設的なステップを踏む必要がある。 このような権利の確立は、データプライバシ、インターネットの潜在的害からの保護、公平に扱われる要件などに必要な他の補助的権利の道を開くことになる。 まず、世界倫理の上級講師であるmerten reglitz氏と、この分野に大きな影響を与えたインターネットの創始者の一人であるvincent cerf氏による、インターネットアクセスの普遍的権利に関する2つの議論について論じた。 インターネットアクセスが基本的権利として扱われるべき理由を特に議論する。 我々は、インドから学んだことを議論し、それらをグローバルな議論とコンテキスト化し、インターネットの分断を排除する政府法という形で、インドやその他の地域でインターネットアクセスを確立することについて議論する。

With only 65% of Indian houses having access to the Internet, digital India faces a significant Internet divide across gender and city types. Rendering essential services inaccessible to almost a third of the population necessitates not only provisioning a fundamental right to Internet access but taking specific constructive steps to assure its simple, affordable and safe accessibility. Establishing such a right would also pave way for other ancillary rights required for data privacy, protection from Internet's possible harms and the requirement to be treated fairly. We first discuss two arguments on the universal right to Internet access; from Merten Reglitz, a senior lecturer on Global Ethics and from Vincent Cerf, one of the founding creators of the Internet who has had a profound influence on the field. We specifically argue why Internet access should be treated as a fundamental right. We discuss the learnings from India, contextualizing them with the global debate and argue for establishing Internet access as a fundamental right in India and elsewhere in the form of government legislation to eliminate Internet divide.
翻訳日:2023-02-19 12:25:54 公開日:2022-11-12
# AtomistかHolistか? より生産的なai倫理対話のための診断とビジョン

Atomist or Holist? A Diagnosis and Vision for More Productive Interdisciplinary AI Ethics Dialogue ( http://arxiv.org/abs/2208.09174v3 )

ライセンス: Link先を確認
Travis Greene, Amit Dhurandhar, Galit Shmueli(参考訳) 新たなAIベースの技術の社会的影響の認識が高まる中、主要なAIおよびMLカンファレンスやジャーナルは、倫理的影響のステートメントを含め、倫理的レビューを受けるために論文を奨励または要求する。 この動きはAI研究における倫理の役割に関する熱い議論を巻き起こし、時には名前を呼ぶことや「キャンセル」の脅威へと発展させた。 この対立を、atomistイデオロギーとholistイデオロギーの対立と診断します。 とりわけ、解剖学者は事実は価値から切り離すべきだと信じているが、ホリストは事実と価値は互いに不可解でなければならないと信じている。 学際分極を減らすことを目的として、各イデオロギーの中核的信念と仮定を説明するために、多くの哲学的・歴史的資料を描き出した。 最後に、我々は、倫理的不一致の間により大きな共感を示し、AI研究が社会に利益をもたらすことを保証するための4つの戦略を提案している。

In response to growing recognition of the social impact of new AI-based technologies, major AI and ML conferences and journals now encourage or require papers to include ethics impact statements and undergo ethics reviews. This move has sparked heated debate concerning the role of ethics in AI research, at times devolving into name-calling and threats of "cancellation." We diagnose this conflict as one between atomist and holist ideologies. Among other things, atomists believe facts are and should be kept separate from values, while holists believe facts and values are and should be inextricable from one another. With the goal of reducing disciplinary polarization, we draw on numerous philosophical and historical sources to describe each ideology's core beliefs and assumptions. Finally, we call on atomists and holists within the ever-expanding data science community to exhibit greater empathy during ethical disagreements and propose four targeted strategies to ensure AI research benefits society.
翻訳日:2023-02-19 10:35:38 公開日:2022-11-12
# 空間形状間の類似度測定のための量子インスパイアプロトコル

Quantum-inspired protocol for measuring the degree of similarity between spatial shapes ( http://arxiv.org/abs/2208.12778v2 )

ライセンス: Link先を確認
Daniel F. Urrego and Juan P. Torres(参考訳) 我々は、各ビームの振幅と位相を測定することなく、2つの光ビームに埋め込まれた2つの空間形状の類似性の度合いを定量化できる {\it quantum-inspired} プロトコルを実験的に提案した。 代わりに、結合された光ビームの偏光度を測定することで、必要な情報を取得することができ、実験的に実装するのがずっと容易である。 このプロトコルは、分離不能な光ビームを使用し、その主な特徴は、異なる自由度(偏光と空間形状)を独立に記述できないことである。

We put forward and demonstrate experimentally a {\it quantum-inspired} protocol that allows to quantify the degree of similarity between two spatial shapes embedded in two optical beams without the need to measure the amplitude and phase across each beam. Instead the sought-after information can be retrieved measuring the degree of polarization of the combined optical beam, a measurement that is much easier to implement experimentally. The protocol makes use of non-separable optical beams, whose main trait is that different degrees of freedom (polarization and spatial shape here) can not be described independently.
翻訳日:2023-01-29 14:35:42 公開日:2022-11-12
# 複合近似と局所密度基底集合を用いたnmr遮蔽定数の効率的な計算

Efficient Calculation of NMR Shielding Constants Using Composite Method Approximations and Locally Dense Basis Sets ( http://arxiv.org/abs/2209.04578v2 )

ライセンス: Link先を確認
Jiashu Liang, Zhe Wang, Jie Li, Jonathan Wong, Xiao Liu, Brad Ganoe, Teresa Head-Gordon, Martin Head-Gordon(参考訳) 本稿では, 局所密度基底集合 (LDBS) による合成法近似を適用し, NMR遮蔽定数の計算を効率よく行う方法を提案する。 基底集合の pcSseg-n 級数は n$\geq1$ のときに pcS-n 級数と同様の精度を示し、計算コストをわずかに削減できる。 密度汎関数計算に非常に有効な2つのLDBS分割スキームを同定する。 106分子の基準法により評価された290H,C,N,Oシールド値を含む最近のNS372データベースの大規模なサブセットを選択し,高,中,低計算コストの手法を慎重に評価し,実用的なレコメンデーションを行う。 本評価では, 従来の電子構造法(DFT法と波動関数法)を大域的基礎計算と併用し, 満足なLDBS手法の1つ, およびLDBS方式の併用範囲について検討した。 99以上の方法が評価された。 そこで本研究では、4つの核をまたいだ3つの異なる精度と時間要件を満たす方法を推奨する。

This paper presents a systematic study of applying composite method approximations with locally dense basis sets (LDBS) to efficiently calculate NMR shielding constants in small and medium-sized molecules. The pcSseg-n series of basis sets are shown to have similar accuracy to the pcS-n series when n $\geq1$ and can slightly reduce compute costs. We identify two different LDBS partition schemes that perform very effectively for density functional calculations. We select a large subset of the recent NS372 database containing 290 H, C, N, and O shielding values evaluated by reference methods on 106 molecules to carefully assess methods of the high, medium, and low compute costs to make practical recommendations. Our assessment covers conventional electronic structure methods (DFT and wavefunction) with global basis calculations, as well as their use in one of the satisfactory LDBS approaches, and a range of composite approaches, also with and without LDBS. Altogether 99 methods are evaluated. On this basis, we recommend different methods to reach three different levels of accuracy and time requirements across the four nuclei considered.
翻訳日:2023-01-27 02:53:15 公開日:2022-11-12
# 相対論的量子力学における確率と測定

Probability and Measurement in Relativistic Quantum Mechanics ( http://arxiv.org/abs/2209.12411v2 )

ライセンス: Link先を確認
Ed Seidewitz(参考訳) 量子力学の確率的性質は、伝統的に測定された時のシステムの状態の「崩壊」を通じて導入される。 その他の解釈問題の中で、この概念は「崩壊」が同時性の相対性に反するため、相対論的量子力学には特に不適当である。 その結果、相対論的量子力学の解釈は、しばしば崩壊が起こらないエベレットの「多くの世界」アプローチをとる。 しかし、これは異なる可能な「世界」に対する確率を定義する方法の難しさにつながります。 本稿では、宇宙の状態が、その内部に記録された測定の非コヒーレントなヒストリーに分解される相対論的測定モデルを提供することにより、この難しさに対処する。 ズレックの不変性の概念はこの相対論的時空の文脈に一般化することができ、ボルンの規則と一致するこれらの量子ヒストリーのいずれかの確率の客観的な定義を与える。 この結果、繰り返し繰り返される実験の統計は、繰り返しの回数が増えるにつれて生まれた規則に従う傾向がある。 このような実験に実際に使用する波動関数は、普遍固有状態の非常に粗い重ね合わせの局所的還元であり、それらの「集合」は、我々の宇宙の「真の」固有状態の測定から得られた追加的な知識に基づく更新として再解釈することができる。

The probabilistic nature of quantum mechanics is traditionally introduced through the "collapse" of the state of a system when it is measured. Among other interpretational problems, this conception is particularly unappealing for relativistic quantum mechanics, since such a "collapse" violates the relativity of simultaneity. As a result, interpretations of relativistic quantum mechanics often take an Everettian "many worlds" approach in which collapse does not happen. But this then leads to difficulties in how to even define probabilities over different possible "worlds". The present paper addresses this difficulty by providing a relativistic model of measurement, in which the state of the universe is decomposed into decoherent histories of measurements recorded within it. Zurek's concept of envariance can be generalized to this context of relativistic spacetime, giving an objective definition of the probability of any one of these quantum histories, consistent with Born's rule. This then leads to the statistics of any repeated experiment also tending to follow the Born rule as the number of repetitions increases. The wave functions that we actually use for such experiments are local reductions of very coarse-grained superpositions of universal eigenstates, and their "collapse" can be re-interpreted as simply an update based on additional incremental knowledge gained from a measurement about the "real" eigenstate of our universe.
翻訳日:2023-01-25 03:17:00 公開日:2022-11-12
# QEDにおける弾性$e^+ e^-$散乱におけるスピン相関

Comment on "Spin correlations in elastic $e^+ e^-$ scattering in QED" ( http://arxiv.org/abs/2209.13986v3 )

ライセンス: Link先を確認
Kort Beck and Gabriel Jacobo(参考訳) 前回の研究では、「QEDの弾性$e^+ e^-$散乱におけるスピン相関」 (Yongram, 2018) が、QEDの木のレベルで電子-陽電子散乱(ババ散乱)の創発的粒子としての絡み合った電子と陽電子のスピン相関を計算した。 著者の作品を再現しようとすると、異なる結果が得られました。 本研究では、全エネルギーでの電子-陽電子散乱に対する完全(初期および最終偏極状態)と部分(ただ最終偏極状態)の偏極確率振幅の計算を示す。 ヨングラムは、クレーター=ホルン不等式(CHI)の違反は、どちらの場合もすべてのエネルギーで起こると主張しているが、完全偏光散乱では、高エネルギー限界を含む速度が$\beta \gtrsim 0.696$で、QEDと量子力学の基礎との合意を支持する。 しかし、最初は偏極のない粒子では、chiの違反は見つからなかった。

In the previous work, "Spin correlations in elastic $e^+ e^-$ scattering in QED" (Yongram, 2018), spin correlations for entangled electrons and positrons as emergent particles of electron-positron scattering (also known as Bhabha scattering) were calculated at tree level in QED. When trying to reproduce the author's work, we have found different results. In this work, we show the calculation for fully (initial and final polarized states) and partially (just final polarized states) polarized probability amplitudes for electron-positron scattering at all energies. While Yongram claims that violation of Clauser-Horne inequality (CHI) occurs at all energies for both mentioned cases, for fully polarized scattering we found violation of the CHI for speeds $\beta \gtrsim 0.696$, including the high energy limit, supporting the agreement between QED and foundations of quantum mechanics. However, for initially unpolarized particles we found no violation of the CHI.
翻訳日:2023-01-24 19:44:14 公開日:2022-11-12
# 有限1次元系の測度に基づく量子計算:弦順序は計算力を意味する

Measurement-based quantum computation in finite one-dimensional systems: string order implies computational power ( http://arxiv.org/abs/2210.05089v2 )

ライセンス: Link先を確認
Robert Raussendorf, Wang Yang, and Arnab Adhikary(参考訳) 本研究では,空間次元1において,近距離対称資源状態における測定ベース量子計算(MBQC)のパワーを評価するための新しい枠組みを提案する。 既知よりも少ない仮定を必要とする。 形式主義は有限拡張系(熱力学の極限とは対照的に)を扱うことができ、翻訳不変性を必要としない。 さらに,MBQC計算パワーと文字列順序との接続性を強化する。 すなわち、適切な文字列順序パラメータの集合が 0 でないとき、対応するユニタリゲートの集合が任意にユニタリに近い忠実度で実現可能であることを確かめる。

We present a new framework for assessing the power of measurement-based quantum computation (MBQC) on short-range entangled symmetric resource states, in spatial dimension one. It requires fewer assumptions than previously known. The formalism can handle finitely extended systems (as opposed to the thermodynamic limit), and does not require translation-invariance. Further, we strengthen the connection between MBQC computational power and string order. Namely, we establish that whenever a suitable set of string order parameters is non-zero, a corresponding set of unitary gates can be realized with fidelity arbitrarily close to unity.
翻訳日:2023-01-22 22:37:04 公開日:2022-11-12
# 量子アニール時間における下界

Lower Bounds on Quantum Annealing Times ( http://arxiv.org/abs/2210.15687v2 )

ライセンス: Link先を確認
Luis Pedro Garc\'ia-Pintos, Lucas T. Brady, Jacob Bringewatt, Yi-Kai Liu(参考訳) 断熱定理は、目標基底状態を作成するのに必要な時間に対する十分な条件を与える。 より一般的な量子アニールプロトコルでターゲット状態を作ることができるが、断熱的な状態を超えた厳密な結果は稀である。 ここでは、量子アニールを成功させるのに必要な時間における低い境界を導出する。 境界は、ローランドとサーフの非構造探索モデル、ハミングのスパイク問題、強磁性のpスピンモデルという3つのおもちゃモデルによって漸近的に飽和している。 私たちの限界は、これらのスケジュールが最適なスケーリングを持つことを示しています。 また, 高速アニールにはエネルギー固有状態のコヒーレントな重ね合わせが必要であり, 量子コヒーレンスを計算資源として活用することが示唆された。

The adiabatic theorem provides sufficient conditions for the time needed to prepare a target ground state. While it is possible to prepare a target state much faster with more general quantum annealing protocols, rigorous results beyond the adiabatic regime are rare. Here, we provide such a result, deriving lower bounds on the time needed to successfully perform quantum annealing. The bounds are asymptotically saturated by three toy models where fast annealing schedules are known: the Roland and Cerf unstructured search model, the Hamming spike problem, and the ferromagnetic p-spin model. Our bounds demonstrate that these schedules have optimal scaling. Our results also show that rapid annealing requires coherent superpositions of energy eigenstates, singling out quantum coherence as a computational resource.
翻訳日:2023-01-21 07:54:37 公開日:2022-11-12
# ショートカット下のカルノー様熱機関と冷凍機の等温性に対する普遍最適化効率とバウンド

Universal optimization efficiency and bounds of Carnot-like heat engines and refrigerators under shortcuts to isothermality ( http://arxiv.org/abs/2211.01773v2 )

ライセンス: Link先を確認
Yanchao Zhang and Shuang Wang(参考訳) 系-貯留層相互作用を円滑に修飾する等温性へのショートカットの量子熱力学プロトコルを基礎として, 全体散逸定数を保ちながら, 等温プロセスを著しく高速化することができる(第10, 031015(2020))。 我々は, 熱機関の最適化効率と冷凍機の性能の最適化係数を, 2つの統一最適化基準, チ基準とオメガ基準で導出した。 また, ヒートエンジンや冷蔵庫の普遍的な下界と上界を導出し, 極めて非対称なケースで到達可能であることを見出した。

Based on a quantum thermodynamic protocol for shortcut to isothermality that smoothly modify the system-reservoir interaction can significantly speed up an isothermal process while keeping the overall dissipation constant [Phys. Rev. X. 10, 031015 (2020)], we extend the study of optimization performance of Carnot-like heat engines and refrigerators in a straightforward and unified way. We derive the universal optimization efficiency of heat engines and the optimization coefficient of performance of refrigerators under two unified optimization criterions, i.e., chi criterion and omega criterion. We also derived the universal lower and upper bounds for heat engines and refrigerators, and found that these bounds can be reached under extremely asymmetric cases.
翻訳日:2023-01-20 16:31:14 公開日:2022-11-12
# QUBO量子アニールのための分極・対数埋め込み

Divide-and-conquer embedding for QUBO quantum annealing ( http://arxiv.org/abs/2211.02184v2 )

ライセンス: Link先を確認
Minjae Jo, Michael Hanks, M. S. Kim(参考訳) 量子アニールは複雑なNPハード問題に対する効果的なヒューリスティックである。 しかし、量子優位性の明確な実証は、主に量子ハードウェアに問題を埋め込むことの難しさに制約されている。 Girvin--Newmanアルゴリズムのようなコミュニティ検出手法は、大きな問題に対する分割対コンカレントアプローチを提供することができる。 本稿では,組込み品質の典型的な尺度を意図的に悪化させ,部分的解法を改善する問題に焦点を当てた組込み分割を提案する。 まず、この手法を整数分解問題の非常に不規則なグラフに適用し、この初期テストに合格して、より規則的な幾何学的フラストレーションシステムを考える。 その結果,組込み問題に着目したアプローチは,性能を桁違いに改善できることがわかった。

Quantum annealing promises to be an effective heuristic for complex NP-hard problems. However, clear demonstrations of quantum advantage are wanting, primarily constrained by the difficulty of embedding the problem into the quantum hardware. Community detection methods such as the Girvin--Newman algorithm can provide a divide-and-conquer approach to large problems. Here, we propose a problem-focused division for embedding, deliberately worsening typical measures of embedding quality to improve the partial solutions we obtain. We apply this approach first to the highly irregular graph of an integer factorisation problem and, passing this initial test, move on to consider more regular geometrically frustrated systems. Our results show that a problem-focused approach to embedding can improve performance by orders of magnitude.
翻訳日:2023-01-20 11:35:57 公開日:2022-11-12
# 12.6 dB 長期高公益周期運転のためのボウティーキャビティから 1550 nm の絞り光

12.6 dB squeezed light at 1550 nm from a bow-tie cavity for long-term high duty cycle operation ( http://arxiv.org/abs/2211.06632v1 )

ライセンス: Link先を確認
Biveen Shajilal, Oliver Thearle, Aaron Tranter, Yuerui Lu, Elanor Huntington, Syed Assad, Ping Koy Lam and Jiri Janousek(参考訳) スクイーズ状態は、多くの応用を持つ興味深い量子状態のクラスである。 本研究は, 減圧真空発生のためのボウタイ光パラメトリック増幅器(OPA)の設計, 特性, 動作について述べる。 本稿では,ポストセレクションに基づく連続可変量子情報プロトコル,クラスタ状態量子コンピューティング,量子気象学,重力波検出器に適合するシステムの高デューティサイクル動作と長期安定性について報告する。 50時間の連続運転で、測定されたスクイーズレベルは10dB以上であり、義務サイクルは96.6%である。 あるいは、異なる動作モードでは、ストレッサーはリロックなしで12時間にわたって量子ノイズ限界以下で10dBを動作させることができ、平均1.9dBのスケズが可能である。 また,12.6dBの最大スクイーズレベルを1550nmで測定した。 これは、現在まで1550nmと報告されている最も優れたスキューズ結果の1つである。 本稿では,opaの全体的な安定性,信頼性,長寿命に寄与する実験の設計面と,ロッキングの自動化手法と異なる動作モードについて考察する。

Squeezed states are an interesting class of quantum states that have numerous applications. This work presents the design, characterisation, and operation of a bow-tie optical parametric amplifier (OPA) for squeezed vacuum generation. We report the high duty cycle operation and long-term stability of the system that makes it suitable for post-selection based continuous-variable quantum information protocols, cluster-state quantum computing, quantum metrology, and potentially gravitational wave detectors. Over a 50 hour continuous operation, the measured squeezing levels were greater than 10 dB with a duty cycle of 96.6%. Alternatively, in a different mode of operation, the squeezer can also operate 10 dB below the quantum noise limit over a 12 hour period with no relocks, with an average squeezing of 11.9 dB. We also measured a maximum squeezing level of 12.6 dB at 1550 nm. This represents one of the best reported squeezing results at 1550 nm to date for a bow-tie cavity. We discuss the design aspects of the experiment that contribute to the overall stability, reliability, and longevity of the OPA, along with the automated locking schemes and different modes of operation.
翻訳日:2023-01-19 17:54:50 公開日:2022-11-12
# マルチスケール輸送方程式に対する量子差分法の時間複雑性解析

Time complexity analysis of quantum difference methods for the multiscale transport equations ( http://arxiv.org/abs/2211.06593v1 )

ライセンス: Link先を確認
He Xiaoyang, Jin Shi, Yu Yue(参考訳) 量子アルゴリズムを用いて多スケール輸送方程式を解くための有限差分法の時間複雑性について検討する。 古典的処理と量子処理の両方の時間複雑性が標準的な明示的スキームスケールに対して$\mathcal{O}(1/\varepsilon)$であるのに対し、$\varepsilon$は小さなスケーリングパラメータであり、一方偶数のパリティに基づく漸近保存(AP)スキームの複雑さは$\varepsilon$に依存しない。 これは、多スケール輸送や運動方程式を解く際に、量子コンピューティングのマルチスケール問題にAP(およびおそらく他の効率的なマルチスケール)スキームを使うことが依然として重要であることを示している。

We investigate time complexities of finite difference methods for solving the multiscale transport equation with quantum algorithms. We find that the time complexities of both the classical treatment and quantum treatment for a standard explicit scheme scale as $\mathcal{O}(1/\varepsilon)$, where $\varepsilon$ is the small scaling parameter, while the complexities for the even-odd parity based Asymptotic-Preserving (AP) scheme do not depend on $\varepsilon$. This indicates that it is still of great importance to use AP (and probably other efficient multiscale) schemes for multiscale problems in quantum computing when solving multiscale transport or kinetic equations.
翻訳日:2023-01-19 17:54:17 公開日:2022-11-12
# 二次元非有界量子バックフロー

Unbounded quantum backflow in two dimensions ( http://arxiv.org/abs/2211.06539v1 )

ライセンス: Link先を確認
Maximilien Barbier, Arseni Goussev, and Shashi C. L. Srivastava(参考訳) 量子逆流 (quantum backflow) とは、確率が量子粒子の運動量と反対方向に流れるという事実を指す。 この現象は、1次元の系では小さく、脆弱で、最大バックフローの量が有界であることが判明している。 量子バックフローは、1次元の場合とは対照的に退化エネルギー固有状態を可能にする2次元系において劇的に異なる特徴を示す。 本研究では,磁束線により,中心に固定された有限円板上を移動し,中心および通常円板に貫通する荷電粒子の場合について検討する。 量子バックフローは(ある意味では)アンバウンド可能であることが証明され、この系は、この基本的な量子現象の実験的な観測に関する有望な物理プラットフォームとなっている。

Quantum backflow refers to the counterintuitive fact that the probability can flow in the direction opposite to the momentum of a quantum particle. This phenomenon has been seen to be small and fragile for one-dimensional systems, in which the maximal amount of backflow has been found to be bounded. Quantum backflow exhibits dramatically different features in two-dimensional systems that, contrary to the one-dimensional case, allow for degenerate energy eigenstates. Here we investigate the case of a charged particle that is confined to move on a finite disk punctured at the center and that is pierced through the center, and normally to the disk, by a magnetic flux line. We demonstrate that quantum backflow can be unbounded (in a certain sense), which makes this system a promising physical platform regarding the yet-to-be-performed experimental observation of this fundamental quantum phenomenon.
翻訳日:2023-01-19 17:53:57 公開日:2022-11-12
# トランモン量子ビットの高次ラムゼー曲線における雑音特異的ビート

Noise-specific beats in the higher-level Ramsey curves of a transmon qubit ( http://arxiv.org/abs/2211.06531v1 )

ライセンス: Link先を確認
L.A. Martinez, Z. Peng, D. Appel\"o, D.M. Tennant, N. Anders Petersson, J. L DuBois, Y. J. Rosen(参考訳) 超伝導トランスモンデバイスやより一般的な帯電感度の高いデバイスでは、低周波時間相関の1/f$電荷ノイズと準粒子誘起パリティフリップの存在下での$t_2^*$の測定は、全体のデファスメント時間を過小評価することができる。 電荷の変動は、いくつかのラムジー縞曲線の重ね合わせで観察されるビーティングパターンとして現れ、電荷の変動を説明する現象論的ラムジー曲線モデルで再現される。 T_2^*$dephasing時間を求め、より正確に全dephasing時間を表す。 現象論的モデルはリンドブラッドマスター方程式モデルと比較される。 どちらのモデルも互いに一致しており、実験データも一致している。 最後に、現象論的定式化により、低周波ノイズに対するパワースペクトル密度(psd)を、複数のラムゼー曲線の重ね合わせから推測できる簡単な方法を可能にする。

In the higher levels of superconducting transmon devices, and more generally charge sensitive devices, $T_2^*$ measurements made in the presence of low-frequency time-correlated $1/f$ charge noise and quasiparticle-induced parity flips can give an underestimation of the total dephasing time. The charge variations manifest as beating patterns observed in the overlay of several Ramsey fringe curves, and are reproduced with a phenomenological Ramsey curve model which accounts for the charge variations. $T_2^*$ dephasing times which more accurately represent the total dephasing time are obtained. The phenomenological model is compared with a Lindblad master equation model. Both models are found to be in agreement with one another and the experimental data. Finally, the phenomenological formulation enables a simple method in which the power spectral density (PSD) for the low-frequency noise can be inferred from the overlay of several Ramsey curves.
翻訳日:2023-01-19 17:53:35 公開日:2022-11-12
# プログラマブル超伝導プロセッサにおける2量子量子アルゴリズムの実現

Realization of two-qutrit quantum algorithms on a programmable superconducting processor ( http://arxiv.org/abs/2211.06523v1 )

ライセンス: Link先を確認
Tanay Roy, Ziqian Li, Eliot Kapit, David I. Schuster(参考訳) 量子3レベルシステムまたはクトリッツを基本単位として量子情報を処理することは、現代の量子ビットベースのアーキテクチャの代替であり、重要な計算上の利点を提供する可能性がある。 2つのトランスモンの3番目のエネルギー固有状態を利用して、完全にプログラム可能な2量子量子プロセッサを実証する。 2量子ゲートの効率的な実装を可能にする9次元ヒルベルト空間における優れた接続を実現するためのパラメトリック結合器を開発した。 我々は、deutsch-jozsa、bernstein-vazirani、grover's searchなどのアルゴリズムを実現することでプロセッサを特徴付ける。 我々の効率的なアンシラフリープロトコルは、Groverの増幅の2つの段階が、量子的に有利な未構造化探索の成功率を向上させることを示せる。 本結果は,汎用量子コンピュータのビルディングブロックとしてトランスモンを用いて,完全プログラム可能な3次量子プロセッサを構築する方法である。

Processing quantum information using quantum three-level systems or qutrits as the fundamental unit is an alternative to contemporary qubit-based architectures with the potential to provide significant computational advantages. We demonstrate a fully programmable two-qutrit quantum processor by utilizing the third energy eigenstates of two transmons. We develop a parametric coupler to achieve excellent connectivity in the nine-dimensional Hilbert space enabling efficient implementations of two-qutrit gates. We characterize our processor by realizing several algorithms like Deutsch-Jozsa, Bernstein-Vazirani, and Grover's search. Our efficient ancilla-free protocols allow us to show that two stages of Grover's amplification can improve the success rates of an unstructured search with quantum advantage. Our results pave the way for building fully programmable ternary quantum processors using transmons as building blocks for a universal quantum computer.
翻訳日:2023-01-19 17:53:20 公開日:2022-11-12
# 不整合テキスト音声系列に対する自己調整型融合表現学習モデル

A Self-Adjusting Fusion Representation Learning Model for Unaligned Text-Audio Sequences ( http://arxiv.org/abs/2212.11772v1 )

ライセンス: Link先を確認
Kaicheng Yang, Ruxuan Zhang, Hua Xu, Kai Gao(参考訳) モーダル間相互作用はマルチモーダル感情分析において不可欠である。 異なるモダリティシーケンスは通常非アライメントであるため、融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の一つである。 本稿では,非整合テキストおよび音声シーケンスから直接,堅牢な相互拡散表現を学習するために,自己調整型融合表現学習モデル(SA-FRLM)を提案する。 従来の研究と異なり、我々のモデルは異なるモダリティ間の相互作用を最大限に活用するだけでなく、ユニモーダル特性の保護を最大化する。 具体的には、まずクロスモーダルアライメントモジュールを使用して、異なるモジュラリティ特徴を同じ次元に投影する。 次に、テキストとオーディオシーケンス間のモーダル間相互作用をモデル化し、融合表現を初期化する。 その後、sa-frlmのコアユニットとして、オリジナルのユニモーダル特性を保護するためにクロスモーダル調整トランスが提案されている。 単一のモーダルストリームを使用することで、融合表現を動的に適応させることができる。 公共マルチモーダル感情分析データセットCMU-MOSIとCMU-MOSEIについて検討した。 実験の結果,不整合なテキスト音声列におけるすべてのメトリクスの性能が大幅に向上したことがわかった。

Inter-modal interaction plays an indispensable role in multimodal sentiment analysis. Due to different modalities sequences are usually non-alignment, how to integrate relevant information of each modality to learn fusion representations has been one of the central challenges in multimodal learning. In this paper, a Self-Adjusting Fusion Representation Learning Model (SA-FRLM) is proposed to learn robust crossmodal fusion representations directly from the unaligned text and audio sequences. Different from previous works, our model not only makes full use of the interaction between different modalities but also maximizes the protection of the unimodal characteristics. Specifically, we first employ a crossmodal alignment module to project different modalities features to the same dimension. The crossmodal collaboration attention is then adopted to model the inter-modal interaction between text and audio sequences and initialize the fusion representations. After that, as the core unit of the SA-FRLM, the crossmodal adjustment transformer is proposed to protect original unimodal characteristics. It can dynamically adapt the fusion representations by using single modal streams. We evaluate our approach on the public multimodal sentiment analysis datasets CMU-MOSI and CMU-MOSEI. The experiment results show that our model has significantly improved the performance of all the metrics on the unaligned text-audio sequences.
翻訳日:2023-01-19 17:50:18 公開日:2022-11-12
# 短距離ポテンシャルを持つ2次元磁気ワイルディラック作用素のスペクトル特性

Spectral properties of the 2D magnetic Weyl-Dirac operator with a short-range potential ( http://arxiv.org/abs/2211.06765v1 )

ライセンス: Link先を確認
M.B. Alves, O.M. Del Cima, D.H.T. Franco, E.A. Pereira(参考訳) この論文は、ワイル・ディラックあるいは質量を持たないディラック作用素のスペクトル特性の研究に費やし、等質磁場中の次元2の量子準粒子の挙動を記述し、キラル磁場によって摂動された$B^{\rm ext}$、無限遠で崩壊した$b^{\rm ind}$、ベッセル・マクドナルド型短距離スカラー電位$V$について述べる。 これらの作用素は、最近Eurで提案されたプリスタングラフェンのようなQED$_3$モデルの作用から現れる。 Phys J. B93 (2020) 187。 まず, ワイルディラック作用素の離散スペクトルにおける状態の存在を, $v=0$ を仮定して, 零点と第一(縮退)ランダウ準位の間で定式化する。 連続して、$V_s \not=0$とすると、$V_s$は$s$-waveに付随する魅力的なポテンシャルであり、これはプリスチングラフェンのようなQED$_3$モデルにおける電荷キャリア間のM{\o}ller散乱ポテンシャルを解析する際に現れるもので、演算子の負の固有値の和に対して、$|\boldsymbol{\sigma} \cdot \boldsymbol{p}_{\boldsymbol{A}_\pm}|+V_s$を提供する。 ここで、$\boldsymbol{\sigma}$ はパウリ行列のベクトルであり、$\boldsymbol{p}_{\boldsymbol{a}_\pm}=\boldsymbol{p}-\boldsymbol{a}_\pm$、$\boldsymbol{p}=-i\boldsymbol{\nabla}$ は二次元運動量作用素、$\boldsymbol{a}_\pm$ は磁気ベクトルポテンシャルである。 この副産物として、磁場の存在下でのグラフェン中のバイポーラロンの安定性がある。

This paper is devoted to the study of the spectral properties of the Weyl-Dirac or massless Dirac operators, describing the behavior of quantum quasi-particles in dimension 2 in a homogeneous magnetic field, $B^{\rm ext}$, perturbed by a chiral-magnetic field, $b^{\rm ind}$, with decay at infinity and a short-range scalar electric potential, $V$, of the Bessel-Macdonald type. These operators emerge from the action of a pristine graphene-like QED$_3$ model recently proposed in Eur. Phys. J. B93} (2020) 187. First, we establish the existence of states in the discrete spectrum of the Weyl-Dirac operators between the zeroth and the first (degenerate) Landau level assuming that $V=0$. In sequence, with $V_s \not= 0$, where $V_s$ is an attractive potential associated with the $s$-wave, which emerges when analyzing the $s$- and $p$-wave M{\o}ller scattering potentials among the charge carriers in the pristine graphene-like QED$_3$ model, we provide lower bounds for the sum of the negative eigenvalues of the operators $|\boldsymbol{\sigma} \cdot \boldsymbol{p}_{\boldsymbol{A}_\pm}|+ V_s$. Here, $\boldsymbol{\sigma}$ is the vector of Pauli matrices, $\boldsymbol{p}_{\boldsymbol{A}_\pm}=\boldsymbol{p}-\boldsymbol{A}_\pm$, with $\boldsymbol{p}=-i\boldsymbol{\nabla}$ the two-dimensional momentum operator and $\boldsymbol{A}_\pm$ certain magnetic vector potentials. As a by-product of this, we have the stability of bipolarons in graphene in the presence of magnetic fields.
翻訳日:2023-01-19 17:49:57 公開日:2022-11-12
# lewis-riesenfeld dynamical invariant法による2つの周波数ジャンプを持つ時間依存量子調和振動子の厳密解

Exact solution of a time-dependent quantum harmonic oscillator with two frequency jumps via the Lewis-Riesenfeld dynamical invariant method ( http://arxiv.org/abs/2211.06756v1 )

ライセンス: Link先を確認
Stanley S. Coelho, Lucas Queiroz, Danilo T. Alves(参考訳) 最近の論文では、Tibaduiza et al。 [braz. j. phys. 50, (2020)] は、厳密な代数的手法により、最初に周波数$\omega_0$を持つ量子調和振動子のダイナミクスを、周波数$\omega_1$に急ジャンプさせ、ある時間間隔の後に、最初の周波数$\omega_0$に戻る別のジャンプを研究した。 本稿では、力学不変量のルイス・リーゼンフェルド法(lewis-riesenfeld method of dynamical invariants)という別の手法を用いて、同じ物理系を解析し、tibaduiza et al. のスクイーズパラメータ、位置と運動量演算子の量子揺らぎ、基本状態から任意のエネルギー固有状態への遷移の確率振幅について、正確な解析式を再有する。 これは、LR法で得られた結果だけでなく、Tibaduizaらによって発見された結果も確認する。 さらに, 基本状態とは異なる初期状態を考慮して, 平均エネルギー値, 平均励起数, 遷移確率の原式も提示する。 ジャンプ後の発振器の平均エネルギーは、$\omega_1<\omega_0$ であっても、ジャンプ前の平均エネルギーと等しいかそれ以上であることを示す。 また,ジャンプ間の時間間隔の特別な値に対して,発振器は同じ初期状態に戻ることを示す。

In a recent paper, Tibaduiza et al. [Braz. J. Phys. 50, (2020)] studied, by means of an exact algebraic method, the dynamics of a quantum harmonic oscillator that, initially with frequency $\omega_0$, undergoes an abrupt jump to a frequency $\omega_1$ and, after a certain time interval, another jump returning to its initial frequency $\omega_0$. In the present paper, using another method, namely the Lewis-Riesenfeld method of dynamical invariants, we investigate the same physical system and reobtain the exact analytical formulas of Tibaduiza et al. for the squeeze parameters, the quantum fluctuations of the position and momentum operators, and the probability amplitude of a transition from the fundamental state to an arbitrary energy eigenstate. This not only confirms our results, obtained via the LR method, but also those found by Tibaduiza et al.. In addition, we also present original expressions for the mean energy value, for the mean number of excitations, and for the transition probabilities, considering the initial state different from the fundamental. We show that the mean energy of the oscillator, after the jumps, is equal or greater than that before these jumps, even when $\omega_1<\omega_0$. We also show that, for special values of the time interval between the jumps, the oscillator returns to the same initial state.
翻訳日:2023-01-19 17:49:06 公開日:2022-11-12
# ユニタリ演算の線形結合を用いたプログラマブルフォトニック量子プロセッサにおけるハミルトニアンダイナミクスのシミュレーション

Simulating Hamiltonian dynamics in a programmable photonic quantum processor using linear combinations of unitary operations ( http://arxiv.org/abs/2211.06723v1 )

ライセンス: Link先を確認
Yue Yu, Yulin Chi, Chonghao Zhai, Jieshan Huang, Qihuang Gong and Jianwei Wang(参考訳) 量子コンピュータにおける物理系と分子系の動的進化のシミュレーションは多くの応用に基本的な関心がある。 その実装には効率的な量子シミュレーションアルゴリズムが必要である。 リー-トロッター-スズキ近似アルゴリズム(英: lie-trotter-suzuki approximation algorithm)は、量子力学シミュレーションにおける基本的なアルゴリズムである。 近似精度を向上させるために,複数トロッタライズを線形に組み合わせた多積アルゴリズムが提案されている。 しかし、量子コンピュータでこのような多積ロータライズを実装することは実験的に困難であり、その成功確率は限られている。 そこで本研究では,多積トロッタライゼーションを改良し,難読振幅増幅と組み合わせて高いシミュレーション精度と高い成功確率を同時に達成する。 本研究では,4量子ビット状態の初期化,操作,測定,線形に結合した制御単位ゲートの列化を可能にし,電子スピン系と核スピン系の力学をエミュレートする,シリコンの集積フォトニクスプログラマブル量子シミュレーターにおける修正多積アルゴリズムを実験的に実装した。 理論と実験の結果は一致しており、修正された多積アルゴリズムは従来のロータライズやほぼ決定論的成功確率よりも高い精度でハミルトン力学をシミュレートできることを示した。 本稿では,演算の線形結合に基づく小型量子シミュレータで多積アルゴリズムを証明し,量子力学シミュレーションの実用化を約束する。

Simulating the dynamic evolutions of physical and molecular systems in a quantum computer is of fundamental interest in many applications. Its implementation requires efficient quantum simulation algorithms. The Lie-Trotter-Suzuki approximation algorithm, also well known as the Trotterization, is a basic algorithm in quantum dynamic simulation. A multi-product algorithm that is a linear combination of multiple Trotterizations has been proposed to improve the approximation accuracy. Implementing such multi-product Trotterization in quantum computers however remains experimentally challenging and its success probability is limited. Here, we modify the multi-product Trotterization and combine it with the oblivious amplitude amplification to simultaneously reach a high simulation precision and high success probability. We experimentally implement the modified multi-product algorithm in an integrated-photonics programmable quantum simulator in silicon, which allows the initialization, manipulation and measurement of four-qubit states and a sequence of linearly combined controlled-unitary gates, to emulate the dynamics of a coupled electron and nuclear spins system. Theoretical and experimental results are in good agreement, and they both show the modified multi-product algorithm can simulate Hamiltonian dynamics with a higher precision than conventional Trotterizations and a nearly deterministic success probability. We certificate the multi-product algorithm in a small-scale quantum simulator based on linear combinations of operations, and this work promises the practical implementations of quantum dynamics simulations.
翻訳日:2023-01-19 17:48:35 公開日:2022-11-12
# 量子誤り検出コードによる表現回路の保護

Protecting Expressive Circuits with a Quantum Error Detection Code ( http://arxiv.org/abs/2211.06703v1 )

ライセンス: Link先を確認
Chris N. Self, Marcello Benedetti, David Amaro(参考訳) 量子誤差補正は、量子コンピュータが量子システムのシミュレーションのような関連するタスクをスピードアップする方法を開く。 しかし、完全フォールトトレラントな量子エラー補正は、既存の量子コンピュータでは資源集約的すぎる。 この文脈では、既存のトラップ型コンピュータの実装のために$[k+2,k,2]$量子エラー検出コードを開発します。 k$論理量子ビットを$k+2$物理量子ビットにエンコードし、フォールトトレラントな状態初期化とシンドローム測定回路を示し、任意の単一量子ビットエラーを検出する。 局所的および大域的論理回転の普遍的な集合を提供し、特に2つの量子ビットのみを物理的に支持する。 高忠実性 -- 非フォールトトレラントでも -- このユニバーサルゲートセットのコンパイルは、すべて接続可能なトラップイオンコンピュータに存在する2ビット物理回転のおかげで可能である。 論理演算子の特定の構造を考えると、アイスバーグ符号(iceberg code)と呼ばれる。 12-qubit Quantinuum H1-2ハードウェア上で、最大256層までの8個の論理量子ビットの回路の保護を示し、論理量子体積を2^8$に飽和させ、回路内でのシンドローム測定の頻度を増大させる正の効果を示す。 これらの結果は、既存のトラップイオン量子コンピュータ上で表現回路を保護するためのアイスバーグ符号の実用性を示している。

Quantum error correction opens the way for quantum computers to speed up relevant tasks like simulating quantum systems. However, fully fault-tolerant quantum error correction is too resource intensive for existing quantum computers. In this context we develop the $[[k+2,k,2]]$ quantum error detection code, for implementations on existing trapped-ion computers. Encoding $k$ logical qubits into $k+2$ physical qubits, this code presents fault-tolerant state initialisation and syndrome measurement circuits that can detect any single-qubit error. It provides a universal set of local and global logical rotations that, notably, have physical support on only two qubits. A high-fidelity -- though non fault-tolerant -- compilation of this universal gate set is possible thanks to the two-qubit physical rotations present in trapped-ion computers with all-to-all connectivity. Given the particular structure of the logical operators, we nickname it the Iceberg code. On the 12-qubit Quantinuum H1-2 hardware we demonstrate the protection of circuits of 8 logical qubits with up to 256 layers, saturate the logical quantum volume of $2^8$, and show the positive effect of increasing the frequency of syndrome measurements within the circuit. These results illustrate the practical usefulness of the Iceberg code to protect expressive circuits on existing trapped-ion quantum computers.
翻訳日:2023-01-19 17:48:09 公開日:2022-11-12
# 量子ネットワークにおけるマルチパーティエンタングルメントルーティング

Multiparty Entanglement Routing in Quantum Networks ( http://arxiv.org/abs/2211.06690v1 )

ライセンス: Link先を確認
Vaisakh Mannalath and Anirban Pathak(参考訳) 複数のユーザ間での絡み合いの分散は、量子ネットワークにおける根本的な問題であり、効率的なソリューションを必要とする。 本研究では,任意の位相の量子ネットワークにおいて,最大絡み合い状態(GHZn)を抽出するためのプロトコルを提案する。 これはグラフ状態形式に基づいており、ネットワーク状態に最小限の仮定を必要とする。 このプロトコルは、ネットワークノードのローカル測定とユーザ毎の1キュービットメモリのみを必要とする。 両部交絡ルーティングの既存のプロトコルも、隣接するネットワークアーキテクチャで改善されている。 この目的のために、ネットワーク内の異なる経路間の階層をその有効性に基づいて確立するために、偏化の概念を用いる。 このアプローチでは、下層のグラフ状態の対称性を利用して、パフォーマンスのよいアルゴリズムを得る。

Distributing entanglement among multiple users is a fundamental problem in quantum networks, requiring an efficient solution. In this work, a protocol is proposed for extracting maximally entangled (GHZn) states for any number of parties in quantum networks of arbitrary topology. It is based on the graph state formalism and requires minimal assumptions on the network state. The protocol only requires local measurements at the network nodes and just a single qubit memory per user. Existing protocols on bipartite entanglement routing are also improved for specific nearest-neighbor network architectures. To this end, the concept of majorization is utilized to establish a hierarchy among different paths in a network based on their efficacy. This approach utilizes the symmetry of the underlying graph state to obtain better-performing algorithms.
翻訳日:2023-01-19 17:47:42 公開日:2022-11-12
# マイクロ波におけるQubit制御のための超伝導変調回路

Superconductor modulation circuits for Qubit control at microwave frequencies ( http://arxiv.org/abs/2211.06667v1 )

ライセンス: Link先を確認
Sasan Razmkhah, Ali Bozbey and Pascal Febvre(参考訳) 量子ビットの読み出しと制御は、量子コンピュータのスケーリングにおける制限要因である。 理想的な解決策は、量子系から近いエネルギー効率のよい超伝導回路を統合して、極低温での究極の性能を達成するために、消費電力の桁違いの低い前処理タスクを実行することである。 この文脈では、単一フラックス量子 (SFQ) と断熱量子フラックスパラメタトロン (AQFP) 回路は、低温量子ビットの読み出しと制御システムを設計するための自然エネルギー効率の高い候補である。 我々は,ミキサ段に印加した入力波形に基づいて,数十ghzで生成された信号を変調できる超伝導関数発生器を設計した。 この装置は4.2Kで動作し、信号はマッチング回路によって~mKステージに送信される。

Readout and control of qubits are a limiting factor in scaling quantum computers. The ideal solution is to integrate energy-efficient superconductor circuits close from the quantum system to perform pre-processing tasks with orders of magnitude lower power consumption, hence correspondingly lower noise, to reach ultimate performance at cryogenic temperatures. In this context single flux quantum (SFQ) and adiabatic quantum flux parametron (AQFP) circuits are natural energy-efficient candidates to design cryogenic qubits readout and control systems. We have designed a superconductor-based function generator that can modulate the generated signal at tens of GHz, based on the input waveform applied to the mixer stage. This device works at 4.2K and the signal is transmitted by a matching circuit to the ~mK stage.
翻訳日:2023-01-19 17:47:22 公開日:2022-11-12
# マクロスピン系における単一マグノンの量子制御

Quantum control of a single magnon in a macroscopic spin system ( http://arxiv.org/abs/2211.06644v1 )

ライセンス: Link先を確認
Da Xu, Xu-Ke Gu, He-Kang Li, Yuan-Chao Weng, Yi-Pu Wang, Jie Li, H. Wang, Shi-Yao Zhu, J. Q. You(参考訳) 古典的でない量子状態は、古典的なものとは異なる量子系の重要な特徴である。 しかし、マクロスピン系における量子状態の生成とコヒーレント制御は依然として顕著な課題である。 ここでは、マイクロ波空洞を介して超伝導量子ビットに結合した1~mmメートルのイットリウム-鉄-ガーネット球体における単一マグノンの量子制御を実験的に実証する。 Autler-Townes効果を介して量子ビット周波数 {\it in situ} をチューニングすることにより、単一マグノンと真空の重畳状態を含む古典的でない量子状態を生成するために、この単一のマグノンを操作する。 さらに,Wignerトモグラフィーによる非古典的状態の決定論的生成を確認した。 我々の実験は、マクロスピン系における非古典的量子状態の決定論的生成を初めて報告し、量子工学におけるその有望な応用を探求する方法を提供する。

Non-classical quantum states are the pivotal features of a quantum system that differs from its classical counterpart. However, the generation and coherent control of quantum states in a macroscopic spin system remain an outstanding challenge. Here we experimentally demonstrate the quantum control of a single magnon in a macroscopic spin system (i.e., 1~mm-diameter yttrium-iron-garnet sphere) coupled to a superconducting qubit via a microwave cavity. By tuning the qubit frequency {\it in situ} via the Autler-Townes effect, we manipulate this single magnon to generate its non-classical quantum states, including the single-magnon state and the superposition state of a single magnon and vacuum. Moreover, we confirm the deterministic generation of these non-classical states by Wigner tomography. Our experiment offers the first reported deterministic generation of the non-classical quantum states in a macroscopic spin system and paves a way to explore its promising applications in quantum engineering.
翻訳日:2023-01-19 17:47:10 公開日:2022-11-12
# あなたのdetrでハンガリー語をバックプロパゲートする方法は?

How to Backpropagate through Hungarian in Your DETR? ( http://arxiv.org/abs/2211.14448v1 )

ライセンス: Link先を確認
Lingji Chen, Alok Sharma, Chinmay Shirore, Chengjie Zhang, Balarama Raju Buddharaju(参考訳) トランスフォーマエンコーダ-デコーダアーキテクチャとセットベースのグローバルロスを用いた検出トランスフォーマ(detr)アプローチは、多くのトランスフォーマベースのアプリケーションにおいてビルディングブロックとなっている。 しかし、最初に提示されたように、割り当てコストとグローバルな損失は一致せず、すなわち前者を減らすことは、後者を減らすことは保証されない。 また、ハンガリーのような組合せ解法を用いる場合には勾配の問題も無視される。 本稿では,グローバル損失を代入非依存項の和として表現し,代入コスト行列を定義するために使用可能な代入依存項を示す。 次に、割り当て問題のパラメータに対する最適割り当てコストの一般化勾配に関する最近の結果を用いて、ネットワークパラメータに関する損失の一般化勾配を定義し、バックプロパゲーションを適切に行う。 同じ損失重みを用いた実験では興味深い収束特性を示し,さらなる性能向上の可能性を示した。

The DEtection TRansformer (DETR) approach, which uses a transformer encoder-decoder architecture and a set-based global loss, has become a building block in many transformer based applications. However, as originally presented, the assignment cost and the global loss are not aligned, i.e., reducing the former is likely but not guaranteed to reduce the latter. And the issue of gradient is ignored when a combinatorial solver such as Hungarian is used. In this paper we show that the global loss can be expressed as the sum of an assignment-independent term, and an assignment-dependent term which can be used to define the assignment cost matrix. Recent results on generalized gradients of optimal assignment cost with respect to parameters of an assignment problem are then used to define generalized gradients of the loss with respect to network parameters, and backpropagation is carried out properly. Our experiments using the same loss weights show interesting convergence properties and a potential for further performance improvements.
翻訳日:2022-12-04 14:51:35 公開日:2022-11-12
# deltanet:covid-19診断のためのコンディショナルメディカルレポート生成

DeltaNet:Conditional Medical Report Generation for COVID-19 Diagnosis ( http://arxiv.org/abs/2211.13229v1 )

ライセンス: Link先を確認
Xian Wu, Shuxin Yang, Zhaopeng Qiu, Shen Ge, Yangtian Yan, Xingwang Wu, Yefeng Zheng, S. Kevin Zhou, Li Xiao(参考訳) 早期スクリーニングと診断は、COVID-19患者の治療に不可欠である。 金の標準RT-PCRに加えて、X線やCTなどの放射線画像も患者のスクリーニングや追跡において重要な手段である。 しかし, 過剰な患者数のため, 報告書は放射線科医にとって重荷となる。 放射線技師の作業量を削減するため,医療報告を自動生成するDeltaNetを提案する。 エンコーダとデコーダでレポートを生成する典型的なイメージキャプションアプローチとは異なり、DeltaNetは条件付き生成プロセスを適用する。 特に医療画像の場合、DeltaNetは3つのステップを使ってレポートを生成する。 1) 関連医療報告書,すなわち同一又は類似の患者からの過去の報告を検索すること。 2) 検索された画像と現在の画像を比較して相違点を見出す。 3) 条件付報告書に基づいて, 識別された相違に対応する新たなレポートを作成する。 DeltaNetは最先端のアプローチよりも優れています。 COVID-19以外にも、提案されているDeltaNetは他の疾患にも適用できる。 胸部疾患に対する一般IU-XrayおよびMIMIC-CXRデータセットの一般化能力を検証した。 コードは \url{https://github.com/LX-doctorAI1/DeltaNet} で入手できる。

Fast screening and diagnosis are critical in COVID-19 patient treatment. In addition to the gold standard RT-PCR, radiological imaging like X-ray and CT also works as an important means in patient screening and follow-up. However, due to the excessive number of patients, writing reports becomes a heavy burden for radiologists. To reduce the workload of radiologists, we propose DeltaNet to generate medical reports automatically. Different from typical image captioning approaches that generate reports with an encoder and a decoder, DeltaNet applies a conditional generation process. In particular, given a medical image, DeltaNet employs three steps to generate a report: 1) first retrieving related medical reports, i.e., the historical reports from the same or similar patients; 2) then comparing retrieved images and current image to find the differences; 3) finally generating a new report to accommodate identified differences based on the conditional report. We evaluate DeltaNet on a COVID-19 dataset, where DeltaNet outperforms state-of-the-art approaches. Besides COVID-19, the proposed DeltaNet can be applied to other diseases as well. We validate its generalization capabilities on the public IU-Xray and MIMIC-CXR datasets for chest-related diseases. Code is available at \url{https://github.com/LX-doctorAI1/DeltaNet}.
翻訳日:2022-12-04 14:43:09 公開日:2022-11-12
# ニューラルアーキテクチャサーチ(NAS)を用いた埋め込みヘキサデシマルディジギットのためのニューラルネットワークに基づく数学的操作プロトコルの開発

Development of a Neural Network-Based Mathematical Operation Protocol for Embedded Hexadecimal Digits Using Neural Architecture Search (NAS) ( http://arxiv.org/abs/2211.15416v1 )

ライセンス: Link先を確認
Victor Robila (1), Kexin Pei (2), and Junfeng Yang (2) ((1) Hunter College High School, (2) Columbia University)(参考訳) 組込み6進数を用いた効率的な機械学習手法を開発することは有益である。 ニューラルアーキテクチャサーチ(NAS)による機械学習モデルとモデルの比較により、人間が開発したモデルに対する最終的なテスト損失0.2937でこの問題を解決するための効率的なアプローチを決定する。

It is beneficial to develop an efficient machine-learning based method for addition using embedded hexadecimal digits. Through a comparison between human-developed machine learning model and models sampled through Neural Architecture Search (NAS) we determine an efficient approach to solve this problem with a final testing loss of 0.2937 for a human-developed model.
翻訳日:2022-12-04 14:42:23 公開日:2022-11-12
# BARTに基づくポアソン過程の推論

BART-based inference for Poisson processes ( http://arxiv.org/abs/2005.07927v2 )

ライセンス: Link先を確認
Stamatina Lamprinakou, Mauricio Barahona, Seth Flaxman, Sarah Filippi, Axel Gandy, Emma McCoy(参考訳) BART(Bayesian Additive Regression Trees)の有効性は、非パラメトリック回帰や分類を含む様々な文脈で実証されている。 非均一ポアソン過程の強度を推定するためのBARTスキームを導入する。 ポアソン強度推定は、医療画像、天体物理学、ネットワークトラフィック分析など様々な応用において重要な課題である。 新しいアプローチは、非パラメトリック回帰設定における強度の完全な後部推論を可能にする。 提案手法の性能は, 最大5次元の合成データセットと実データセットのシミュレーション研究により実証され, 代替手法と比較された。

The effectiveness of Bayesian Additive Regression Trees (BART) has been demonstrated in a variety of contexts including non-parametric regression and classification. A BART scheme for estimating the intensity of inhomogeneous Poisson processes is introduced. Poisson intensity estimation is a vital task in various applications including medical imaging, astrophysics and network traffic analysis. The new approach enables full posterior inference of the intensity in a non-parametric regression setting. The performance of the novel scheme is demonstrated through simulation studies on synthetic and real datasets up to five dimensions, and the new scheme is compared with alternative approaches.
翻訳日:2022-12-02 14:10:12 公開日:2022-11-12
# CausaLM: 対実言語モデルによる因果モデル記述

CausaLM: Causal Model Explanation Through Counterfactual Language Models ( http://arxiv.org/abs/2005.13407v5 )

ライセンス: Link先を確認
Amir Feder, Nadav Oved, Uri Shalit, Roi Reichart(参考訳) ディープニューラルネットワークによる予測を理解することは、非常に難しいが、その普及には不可欠である。 すべての機械学習ベースの手法と同様に、トレーニングデータと同じくらい優れており、望ましくないバイアスを捉えることもできる。 このようなバイアスが存在するかどうかを理解するのに役立つツールはあるが、相関関係と因果関係を区別せず、テキストベースのモデルや高レベルの言語概念の推論に不適当かもしれない。 与えられたモデルに対する関心の概念の因果効果を推定する鍵となる問題は、この推定が既存の世代技術では困難である反実例の生成を必要とすることである。 このギャップを埋めるために,反事実言語表現モデルを用いた因果モデル記述のフレームワークであるcausormを提案する。 提案手法は,問題の因果グラフから導かれる補助的逆問題を伴う深層文脈化埋め込みモデルの微調整に基づく。 具体的には, BERT などの言語表現モデルでは, 補助的対向事前学習タスクを慎重に選択することにより, 対象とする概念に対する反実的表現を効果的に学習し, その真の因果関係がモデル性能に与える影響を推定することができることを示す。 提案手法の副産物は,テスト概念の影響を受けない言語表現モデルであり,データ中の不必要なバイアスを緩和するのに有用である。

Understanding predictions made by deep neural networks is notoriously difficult, but also crucial to their dissemination. As all machine learning based methods, they are as good as their training data, and can also capture unwanted biases. While there are tools that can help understand whether such biases exist, they do not distinguish between correlation and causation, and might be ill-suited for text-based models and for reasoning about high level language concepts. A key problem of estimating the causal effect of a concept of interest on a given model is that this estimation requires the generation of counterfactual examples, which is challenging with existing generation technology. To bridge that gap, we propose CausaLM, a framework for producing causal model explanations using counterfactual language representation models. Our approach is based on fine-tuning of deep contextualized embedding models with auxiliary adversarial tasks derived from the causal graph of the problem. Concretely, we show that by carefully choosing auxiliary adversarial pre-training tasks, language representation models such as BERT can effectively learn a counterfactual representation for a given concept of interest, and be used to estimate its true causal effect on model performance. A byproduct of our method is a language representation model that is unaffected by the tested concept, which can be useful in mitigating unwanted bias ingrained in the data.
翻訳日:2022-11-28 07:54:32 公開日:2022-11-12
# 量子化学習のための部分スクラッチオフロッキーチケットの爆発

Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware Training ( http://arxiv.org/abs/2211.08544v1 )

ライセンス: Link先を確認
Yunshan Zhong, Mingbao Lin, Yuxin Zhang, Gongrui Nan, Fei Chao, Rongrong Ji(参考訳) 量子化アウェアトレーニング(qat)は、量子化ネットワークのパフォーマンスを保ちながら広く普及している。 現代のQATでは、全ての量子化重量がトレーニングプロセス全体に対して更新される。 本稿では,我々が観察した興味深い現象をもとに,この経験に挑戦する。 具体的には、量子化された重みの大部分が、いくつかのトレーニング期間を経て最適な量子化レベルに達します。 この単純で価値の高い観測は、無意味な更新を避けるために、残りのトレーニング期間でこれらの重みの勾配計算をゼロにするきっかけとなりました。 このチケットを効果的に見つけるために、フル精度のチケットと量子化レベルの距離が制御可能な閾値より小さい場合、重量を凍結する「抽選チケットスクラッカー」(LTS)と呼ばれるヒューリスティック手法を開発した。 驚いたことに、提案されたltsは一般的に、30\%-60\%の重量更新と15\%-30\%の後方通過のフロップを取り除き、それでも比較したベースラインと同等またはそれ以上の性能が得られる。 例えば、ベースラインと比較してLTSは2ビットのResNet-18を 1.41 %改善し、56 %の重量更新と28 %のFLOPを削減した。

Quantization-aware training (QAT) receives extensive popularity as it well retains the performance of quantized networks. In QAT, the contemporary experience is that all quantized weights are updated for an entire training process. In this paper, this experience is challenged based on an interesting phenomenon we observed. Specifically, a large portion of quantized weights reaches the optimal quantization level after a few training epochs, which we refer to as the partly scratch-off lottery ticket. This straightforward-yet-valuable observation naturally inspires us to zero out gradient calculations of these weights in the remaining training period to avoid meaningless updating. To effectively find the ticket, we develop a heuristic method, dubbed as lottery ticket scratcher (LTS), which freezes a weight once the distance between the full-precision one and its quantization level is smaller than a controllable threshold. Surprisingly, the proposed LTS typically eliminates 30\%-60\% weight updating and 15\%-30\% FLOPs of the backward pass, while still resulting on par with or even better performance than the compared baseline. For example, compared with the baseline, LTS improves 2-bit ResNet-18 by 1.41\%, eliminating 56\% weight updating and 28\% FLOPs of the backward pass.
翻訳日:2022-11-17 15:24:34 公開日:2022-11-12
# CXTrack: コンテキスト情報による3Dポイントクラウドトラッキングの改善

CXTrack: Improving 3D Point Cloud Tracking with Contextual Information ( http://arxiv.org/abs/2211.08542v1 )

ライセンス: Link先を確認
Tian-Xing Xu, Yuan-Chen Guo, Yu-Kun Lai, Song-Hai Zhang(参考訳) 3d単一物体追跡は、自動運転など多くのアプリケーションにおいて重要な役割を果たす。 外観のばらつきが大きいことや、咬合による点のスパーシティやセンサー能力の制限などにより、依然として課題となっている。 したがって、2つの連続するフレーム間のコンテキスト情報は、効果的なオブジェクト追跡に不可欠である。 しかし、そのような有用な情報を含む点はしばしば見過ごされ、既存の手法で抜け出され、重要な文脈知識の使用が不十分になる。 この問題に対処するために,CXTrackを提案する。CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークで,ConteXtual情報を利用して追跡結果を改善する。 具体的には、2つの連続するフレームと前のバウンディングボックスから点特徴を直接取り出し、コンテキスト情報を探索し、ターゲットキューを暗黙的に伝播するターゲット中心トランスフォーマーネットワークを設計する。 そこで本稿では,あらゆる大きさの物体の正確な位置決めを実現するために,新しい中心埋め込みモジュールを備えたトランスベース位置決めヘッドを提案する。 KITTI、nuScenes、Waymo Open Datasetの3つの大規模なデータセットに対する大規模な実験は、CXTrackが29FPSで実行中に最先端のトラッキングパフォーマンスを達成することを示している。

3D single object tracking plays an essential role in many applications, such as autonomous driving. It remains a challenging problem due to the large appearance variation and the sparsity of points caused by occlusion and limited sensor capabilities. Therefore, contextual information across two consecutive frames is crucial for effective object tracking. However, points containing such useful information are often overlooked and cropped out in existing methods, leading to insufficient use of important contextual knowledge. To address this issue, we propose CXTrack, a novel transformer-based network for 3D object tracking, which exploits ConteXtual information to improve the tracking results. Specifically, we design a target-centric transformer network that directly takes point features from two consecutive frames and the previous bounding box as input to explore contextual information and implicitly propagate target cues. To achieve accurate localization for objects of all sizes, we propose a transformer-based localization head with a novel center embedding module to distinguish the target from distractors. Extensive experiments on three large-scale datasets, KITTI, nuScenes and Waymo Open Dataset, show that CXTrack achieves state-of-the-art tracking performance while running at 29 FPS.
翻訳日:2022-11-17 15:12:03 公開日:2022-11-12
# LLEDA -- 生涯の自己監督型ドメイン適応

LLEDA -- Lifelong Self-Supervised Domain Adaptation ( http://arxiv.org/abs/2211.09027v1 )

ライセンス: Link先を確認
Mamatha Thota, Dewei Yi and Georgios Leontidis(参考訳) 生涯にわたるドメイン適応は、ドメイン間の差異と歴史的データの有効性のため、機械学習において依然として困難な課題である。 究極の目標は、以前に獲得した知識を保持しながら、分布シフトを学ぶことである。 補足学習システム(CLS)理論に着想を得て,LLEDA(Lifelong Self-Supervised Domain Adaptation)と呼ばれる新しいフレームワークを提案する。 LLEDAは、生のデータピクセルではなく隠れた表現を再生し、自己教師付き学習を用いてドメインに依存しない知識伝達を行うことによって、破滅的な忘れに対処する。 lledaはソースまたはターゲットドメインのラベルにアクセスせず、任意の時間に1つのドメインにアクセスするのみである。 大規模な実験により,提案手法はいくつかの他の手法よりも優れており,長期的適応が期待できるが,新しい領域に移動すると破滅的な忘れがちである。

Lifelong domain adaptation remains a challenging task in machine learning due to the differences among the domains and the unavailability of historical data. The ultimate goal is to learn the distributional shifts while retaining the previously gained knowledge. Inspired by the Complementary Learning Systems (CLS) theory, we propose a novel framework called Lifelong Self-Supervised Domain Adaptation (LLEDA). LLEDA addresses catastrophic forgetting by replaying hidden representations rather than raw data pixels and domain-agnostic knowledge transfer using self-supervised learning. LLEDA does not access labels from the source or the target domain and only has access to a single domain at any given time. Extensive experiments demonstrate that the proposed method outperforms several other methods and results in a long-term adaptation, while being less prone to catastrophic forgetting when transferred to new domains.
翻訳日:2022-11-17 14:18:04 公開日:2022-11-12
# 深層強化学習による道路網上のオンライン異常部分軌道検出

Online Anomalous Subtrajectory Detection on Road Networks with Deep Reinforcement Learning ( http://arxiv.org/abs/2211.08415v1 )

ライセンス: Link先を確認
Qianru Zhang, Zheng Wang, Cheng Long, Chao Huang, Siu-Ming Yiu, Yiding Liu, Gao Cong, Jieming Shi(参考訳) 異常軌道の検出は多くの位置ベースアプリケーションにおいて重要な課題となっている。 この課題には多くのアプローチが提案されているが、(1)軌道データ内の細粒度の異常を検出できないこと、(2)非データ駆動であること、(3)収集に要する十分な監督ラベルの要求など、様々な問題がある。 本稿では,既存の手法の問題点をすべて回避した新しい強化学習型ソリューションrl4oasdを提案する。 RL4OASDには2つのネットワークがあり、1つは道路ネットワークと軌道の特徴を学習し、もう1つは学習した特徴に基づいて異常なサブトラジェクトリを検出する。 2つの実データに対して大規模な実験を行い、その結果、我々のソリューションは最先端の手法(20~30%の改善)を著しく上回り、オンライン検出(新たに生成された各データポイントの処理に0.1ms未満の時間を要する)に効率的であることを示した。

Detecting anomalous trajectories has become an important task in many location-based applications. While many approaches have been proposed for this task, they suffer from various issues including (1) incapability of detecting anomalous subtrajectories, which are finer-grained anomalies in trajectory data, and/or (2) non-data driven, and/or (3) requirement of sufficient supervision labels which are costly to collect. In this paper, we propose a novel reinforcement learning based solution called RL4OASD, which avoids all aforementioned issues of existing approaches. RL4OASD involves two networks, one responsible for learning features of road networks and trajectories and the other responsible for detecting anomalous subtrajectories based on the learned features, and the two networks can be trained iteratively without labeled data. Extensive experiments are conducted on two real datasets, and the results show that our solution can significantly outperform the state-of-the-art methods (with 20-30% improvement) and is efficient for online detection (it takes less than 0.1ms to process each newly generated data point).
翻訳日:2022-11-16 16:04:20 公開日:2022-11-12
# physiq: 理学療法における運動のオフサイト品質評価

PhysiQ: Off-site Quality Assessment of Exercise in Physical Therapy ( http://arxiv.org/abs/2211.08245v1 )

ライセンス: Link先を確認
Hanchen David Wang, Meiyi Ma(参考訳) 身体療法(pt)は、運動性、機能、健康を回復し維持する上で重要である。 多くの現場活動や身体運動はセラピストや臨床医の監督の下で行われる。 しかし、監督の欠如、品質評価の欠如、自己修正などにより、自宅での運動の姿勢を正確に行うことはできない。 そこで本稿では,受動的感覚検出による運動活動の連続的追跡と定量的測定を行う新しいフレームワークであるphysiqを設計した。 本フレームワークでは, 類似性比較によるPTの進展に基づく分類と相対的品質による絶対品質を計測する, マルチタスク時空間シームズニューラルネットワークを新たに構築する。 physiqは運動の範囲、安定性、反復の3つの指標で運動をデジタル化し評価する。

Physical therapy (PT) is crucial for patients to restore and maintain mobility, function, and well-being. Many on-site activities and body exercises are performed under the supervision of therapists or clinicians. However, the postures of some exercises at home cannot be performed accurately due to the lack of supervision, quality assessment, and self-correction. Therefore, in this paper, we design a new framework, PhysiQ, that continuously tracks and quantitatively measures people's off-site exercise activity through passive sensory detection. In the framework, we create a novel multi-task spatio-temporal Siamese Neural Network that measures the absolute quality through classification and relative quality based on an individual's PT progress through similarity comparison. PhysiQ digitizes and evaluates exercises in three different metrics: range of motions, stability, and repetition.
翻訳日:2022-11-16 15:28:07 公開日:2022-11-12
# モチフトポロジーによるカクテルパーティー効果とマガーク効果のためのスパイクニューラルネットワークの改良

Motif-topology improved Spiking Neural Network for the Cocktail Party Effect and McGurk Effect ( http://arxiv.org/abs/2211.07641v1 )

ライセンス: Link先を確認
Shuncheng Jia and Tielin Zhang and Ruichen Zuo and Bo Xu(参考訳) ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)の複雑な機能形成において、ネットワークアーキテクチャと学習原則が重要な役割を担っている。 SNNは、動的スパイキングニューロン、機能的に指定されたアーキテクチャ、効率的な学習パラダイムなど、ANNよりも生物学的特徴を取り入れた新しい人工ネットワークであると考えられている。 ネットワークアーキテクチャは、ネットワークの機能の具現化も考慮されている。 本稿では,マルチ感覚統合と認知現象シミュレーションのためのモチーフトポロジー改善SNN(M-SNN)を提案する。 私たちがシミュレーションした認知現象シミュレーションにはカクテルパーティ効果とマクグルク効果が含まれており、これは多くの研究者によって議論されている。 我々のM-SNNは,ネットワークモチーフと呼ばれるメタ演算子によって構成されている。 3ノードネットワークの源は、空間的または時間的データセットから事前学習された人工的ネットワークからのトポロジーである。 単一感覚分類課題では,ネットワークモチーフトポロジを用いたM-SNNの精度は,使用せずに純粋なフィードフォワードネットワークトポロジよりも高かった。 多感覚統合タスクにおいて,人工ネットワークモチーフを用いたM-SNNの性能は,BRPを用いた最先端SNNよりも優れていた。 さらに、M-SNNは、より少ない計算コストでカクテルパーティー効果とマガーク効果をシミュレートできる。 人工ネットワークのモチーフは、SNNの多感覚統合に寄与し、認知現象をシミュレートする利点を提供する、いくつかの先行知識として考えられる。

Network architectures and learning principles are playing key in forming complex functions in artificial neural networks (ANNs) and spiking neural networks (SNNs). SNNs are considered the new-generation artificial networks by incorporating more biological features than ANNs, including dynamic spiking neurons, functionally specified architectures, and efficient learning paradigms. Network architectures are also considered embodying the function of the network. Here, we propose a Motif-topology improved SNN (M-SNN) for the efficient multi-sensory integration and cognitive phenomenon simulations. The cognitive phenomenon simulation we simulated includes the cocktail party effect and McGurk effect, which are discussed by many researchers. Our M-SNN constituted by the meta operator called network motifs. The source of 3-node network motifs topology from artificial one pre-learned from the spatial or temporal dataset. In the single-sensory classification task, the results showed the accuracy of M-SNN using network motif topologies was higher than the pure feedforward network topology without using them. In the multi-sensory integration task, the performance of M-SNN using artificial network motif was better than the state-of-the-art SNN using BRP (biologically-plausible reward propagation). Furthermore, the M-SNN could better simulate the cocktail party effect and McGurk effect with lower computational cost. We think the artificial network motifs could be considered as some prior knowledge that would contribute to the multi-sensory integration of SNNs and provide more benefits for simulating the cognitive phenomenon.
翻訳日:2022-11-16 13:14:24 公開日:2022-11-12
# 一般化相対エントロピー規則化による経験的リスク最小化

Empirical Risk Minimization with Generalized Relative Entropy Regularization ( http://arxiv.org/abs/2211.06617v1 )

ライセンス: Link先を確認
Samir M. Perlaza, Gaetan Bisson, I\~naki Esnaola, Alain Jean-Marie, Stefano Rini(参考訳) 相対エントロピー正則化(ERM-RER)を伴う経験的リスク最小化(ERM)問題は、基準測度が確率測度ではなくa~$\sigma$-finite測度であるという仮定の下で検討される。 この仮定は ERM-RER (g-ERM-RER) 問題を一般化し、モデルの集合に対する事前知識の組み入れにおいてより大きな柔軟性を実現する。 g-ERM-RER問題の解は、基準測度と相互に絶対的に連続するユニークな確率測度であることが示され、ERM問題に対するおそらくほぼ正しい(PAC)保証を示す。 与えられたデータセットに対して、実験的リスクは、g-ERM-RER問題に対する解からモデルがサンプリングされたときに、亜ガウス確率変数であることが示される。 最後に, g-ERM-RER問題の解から得られる偏差に対する経験的リスクの感度について検討した。 特に、感度の絶対値の期待値は、モデルとデータセットの間のラウタム情報の平方根によって、定数係数まで上界であることが示されている。

The empirical risk minimization (ERM) problem with relative entropy regularization (ERM-RER) is investigated under the assumption that the reference measure is a~$\sigma$-finite measure instead of a probability measure. This assumption leads to a generalization of the ERM-RER (g-ERM-RER) problem that allows for a larger degree of flexibility in the incorporation of prior knowledge over the set of models. The solution of the g-ERM-RER problem is shown to be a unique probability measure mutually absolutely continuous with the reference measure and to exhibit a probably-approximately-correct (PAC) guarantee for the ERM problem. For a given dataset, the empirical risk is shown to be a sub-Gaussian random variable when the models are sampled from the solution to the g-ERM-RER problem. Finally, the sensitivity of the expected empirical risk to deviations from the solution of the g-ERM-RER problem is studied. In particular, the expectation of the absolute value of sensitivity is shown to be upper bounded, up to a constant factor, by the square root of the lautum information between the models and the datasets.
翻訳日:2022-11-15 21:38:59 公開日:2022-11-12
# CACTO: 軌道最適化による連続的アクター批判 - グローバルな最適性を目指して

CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality ( http://arxiv.org/abs/2211.06625v1 )

ライセンス: Link先を確認
Gianluigi Grandesso, Gastone P. Rosati Papini, Patrick M. Wensing and Andrea Del Prete(参考訳) 本稿では、軌道最適化(TO)と強化学習(RL)を1つのフレームワークで組み合わせた動的システムの連続制御のための新しいアルゴリズムを提案する。 このアルゴリズムの背後にあるモチベーションは、非凸コスト関数を最小化するために連続非線形系に適用する場合のTOとRLの主な2つの制限である。 特に、検索が ``good''' の最小値近くで初期化されていない場合、ローカルな最小値で立ち往生する可能性がある。 一方、連続状態と制御空間を扱う場合、RLトレーニングプロセスは過度に長く、探索戦略に強く依存する可能性がある。 そこで,本アルゴリズムは,TO-guided RL ポリシサーチにより,TO の初期推定プロバイダとして使用すると,軌道最適化プロセスが局所最適値に収束しにくくなるような `good' 制御ポリシを学習する。 本手法は, 6次元状態の自動車モデルや3次元平面マニピュレータなど, 異なる動的システムによる非凸障害物回避を特徴とする到達問題に対して検証した。 この結果より, DDPG RLアルゴリズムよりも計算効率が良く, 局所最小値の回避にCACTOが有効であることが示唆された。

This paper presents a novel algorithm for the continuous control of dynamical systems that combines Trajectory Optimization (TO) and Reinforcement Learning (RL) in a single framework. The motivations behind this algorithm are the two main limitations of TO and RL when applied to continuous nonlinear systems to minimize a non-convex cost function. Specifically, TO can get stuck in poor local minima when the search is not initialized close to a ``good'' minimum. On the other hand, when dealing with continuous state and control spaces, the RL training process may be excessively long and strongly dependent on the exploration strategy. Thus, our algorithm learns a ``good'' control policy via TO-guided RL policy search that, when used as initial guess provider for TO, makes the trajectory optimization process less prone to converge to poor local optima. Our method is validated on several reaching problems featuring non-convex obstacle avoidance with different dynamical systems, including a car model with 6d state, and a 3-joint planar manipulator. Our results show the great capabilities of CACTO in escaping local minima, while being more computationally efficient than the DDPG RL algorithm.
翻訳日:2022-11-15 20:41:30 公開日:2022-11-12
# 力学系の学習:オープン量子システムダイナミクスからの例

Learning dynamical systems: an example from open quantum system dynamics ( http://arxiv.org/abs/2211.06678v1 )

ライセンス: Link先を確認
Pietro Novelli(参考訳) データから動的システムを学習するために設計された機械学習アルゴリズムは、観測されたダイナミクスを予測、制御、解釈するために使用できる。 この研究では、オープン量子系力学の文脈において、そのようなアルゴリズムの1つ、すなわちクープマン演算子学習の使用を例示する。 我々は,小さなスピンチェーンのダイナミクスとデファスゲートを組み合わせることにより,クープマン作用素学習が密度行列の進化だけでなく,系に関連する全ての物理観測性も効率的に学習する手法であることを示す。 最後に、学習されたkoopman演算子のスペクトル分解を利用して、基礎となるダイナミクスによって従う対称性をデータから直接推測する方法を示す。

Machine learning algorithms designed to learn dynamical systems from data can be used to forecast, control and interpret the observed dynamics. In this work we exemplify the use of one of such algorithms, namely Koopman operator learning, in the context of open quantum system dynamics. We will study the dynamics of a small spin chain coupled with dephasing gates and show how Koopman operator learning is an approach to efficiently learn not only the evolution of the density matrix, but also of every physical observable associated to the system. Finally, leveraging the spectral decomposition of the learned Koopman operator, we show how symmetries obeyed by the underlying dynamics can be inferred directly from data.
翻訳日:2022-11-15 20:41:07 公開日:2022-11-12
# 結合型生物地球化学物理モデルのベイズ学習

Bayesian Learning of Coupled Biogeochemical-Physical Models ( http://arxiv.org/abs/2211.06714v1 )

ライセンス: Link先を確認
Abhinav Gupta and Pierre F. J. Lermusiaux(参考訳) 海洋生態系の予測モデルは様々なニーズに使われている。 わずかな測定と無数の海洋過程の限定的な理解のため、不確実性は存在する。 パラメータ値にはモデル不確実性、多様なパラメータ化を伴う関数形式、必要となる複雑さのレベル、したがって状態フィールドがある。 本研究では,候補モデルの空間における補間と新しいモデルの発見を可能にする原理的ベイズモデル学習手法を開発し,状態場とパラメータ値,およびすべての学習量の連立確率分布を推定する。 偏微分方程式 (pdes) に支配される高次元・多分野力学の課題を, 状態拡張と計算効率の良いガウス混合モデル, 動的直交フィルタを用いて解決する。 我々の革新には、候補モデルを単一の一般モデルに統一する特別な確率的パラメータと、高密度候補モデル空間を生成する確率的部分関数近似が含まれる。 それらは多くの候補モデルを扱うことができ、それらはおそらく正確ではなく、互換性のあるモデルや組み込みモデルで未知の機能形式を学ぶことができる。 我々の新しい方法論は一般化可能であり、解釈可能であり、新しい手法を発見するためにモデルの空間から外挿する。 我々は,3-5成分生態系モデルと結合した海山を流れる流れに基づく一連の双対実験を行った。 学習スキルを定量化し,ハイパーパラメータに対する収束度と感度を評価する。 我々のPDEフレームワークはモデル候補の識別に成功し、高密度関数空間を探索することで事前知識の欠如を学習し、非ガウス統計を捉えながら関節確率を更新する。 データを最もよく説明するパラメータ値とモデル定式化が識別される。

Predictive models for marine ecosystems are used for a variety of needs. Due to sparse measurements and limited understanding of the myriad of ocean processes, there is however uncertainty. There is model uncertainty in the parameter values, functional forms with diverse parameterizations, level of complexity needed, and thus in the state fields. We develop a principled Bayesian model learning methodology that allows interpolation in the space of candidate models and discovery of new models, all while estimating state fields and parameter values, as well as the joint probability distributions of all learned quantities. We address the challenges of high-dimensional and multidisciplinary dynamics governed by partial differential equations (PDEs) by using state augmentation and the computationally efficient Gaussian Mixture Model - Dynamically Orthogonal filter. Our innovations include special stochastic parameters to unify candidate models into a single general model and stochastic piecewise function approximations to generate dense candidate model spaces. They allow handling many candidate models, possibly none of which are accurate, and learning elusive unknown functional forms in compatible and embedded models. Our new methodology is generalizable and interpretable and extrapolates out of the space of models to discover new ones. We perform a series of twin experiments based on flows past a seamount coupled with three-to-five component ecosystem models, including flows with chaotic advection. We quantify learning skills, and evaluate convergence and sensitivity to hyper-parameters. Our PDE framework successfully discriminates among model candidates, learns in the absence of prior knowledge by searching in dense function spaces, and updates joint probabilities while capturing non-Gaussian statistics. The parameter values and model formulations that best explain the data are identified.
翻訳日:2022-11-15 20:40:54 公開日:2022-11-12
# PriMask: モバイルクラウド推論のためのカスケードおよび衝突耐性データマスキング

PriMask: Cascadable and Collusion-Resilient Data Masking for Mobile Cloud Inference ( http://arxiv.org/abs/2211.06716v1 )

ライセンス: Link先を確認
Linshan Jiang, Qun Song, Rui Tan, Mo Li(参考訳) 大規模深層モデルに基づく推論タスクには,モバイルクラウドのオフロードが不可欠である。 しかし、プライバシに富んだ推測データをクラウドに送信することは懸念を引き起こす。 本稿では,モバイル端末がマスネットと呼ばれる秘密の小型ニューラルネットワークを用いて送信前のデータをマスキングするシステムprimuskの設計について述べる。 PriMaskは、データを復元したり、特定のプライベート属性を抽出するクラウドの能力を著しく低下させる。 MaskNetは、クラウドの推論サービスを変更することなく、モバイルがシームレスにその使用をオプトインまたはオフできる、というケースがあります。 さらに、モバイルは異なるマスクネットを使用するため、クラウドと一部のモバイルとの結合は、他のモバイルに対する保護を弱めない。 そこで我々は,新しいMaskNetを(2秒で)高速に生成するニューラルネットワークをトレーニングするために, {\em split adversarial learning} 法を考案した。 多様なモダリティと複雑さを持つ3つのモバイルセンシングアプリケーション、すなわち、人間の活動認識、都市環境のクラウドセンシング、運転行動認識に適用する。 結果は、3つのアプリケーションすべてでPriMaskの有効性を示している。

Mobile cloud offloading is indispensable for inference tasks based on large-scale deep models. However, transmitting privacy-rich inference data to the cloud incurs concerns. This paper presents the design of a system called PriMask, in which the mobile device uses a secret small-scale neural network called MaskNet to mask the data before transmission. PriMask significantly weakens the cloud's capability to recover the data or extract certain private attributes. The MaskNet is em cascadable in that the mobile can opt in to or out of its use seamlessly without any modifications to the cloud's inference service. Moreover, the mobiles use different MaskNets, such that the collusion between the cloud and some mobiles does not weaken the protection for other mobiles. We devise a {\em split adversarial learning} method to train a neural network that generates a new MaskNet quickly (within two seconds) at run time. We apply PriMask to three mobile sensing applications with diverse modalities and complexities, i.e., human activity recognition, urban environment crowdsensing, and driver behavior recognition. Results show PriMask's effectiveness in all three applications.
翻訳日:2022-11-15 20:40:25 公開日:2022-11-12
# 深層学習による説明可能性と教育のための合成癌組織学

Deep Learning Generates Synthetic Cancer Histology for Explainability and Education ( http://arxiv.org/abs/2211.06522v1 )

ライセンス: Link先を確認
James M. Dolezal, Rachelle Wolk, Hanna M. Hieromnimon, Frederick M. Howard, Andrew Srisuwananukorn, Dmitry Karpeyev, Siddhi Ramesh, Sara Kochanny, Jung Woo Kwon, Meghana Agni, Richard C. Simon, Chandni Desai, Raghad Kherallah, Tung D. Nguyen, Jefree J. Schulte, Kimberly Cole, Galina Khramtsova, Marina Chiara Garassino, Aliya N. Husain, Huihua Li, Robert Grossman, Nicole A. Cipriani, Alexander T. Pearson(参考訳) ディープニューラルネットワークを含む人工知能(AI)の手法は、人間の病理学者と一致したり、超えたりできる精度で、定期的な組織学から腫瘍の迅速な分子分類を提供することができる。 ニューラルネットワークがどのように予測を下すかは依然として大きな課題だが、説明可能性ツールは、対応する組織学的特徴が十分に理解されていないときにモデルが何を学んだかを理解するのに役立つ。 conditional generative adversarial networks (cgans)は、合成画像を生成し、画像クラス間の微妙な違いを示すaiモデルである。 ここでは,cGANを用いて分子サブタイプの腫瘍を分類し,関連する組織学的特徴を呈するモデルを記述する。 我々は cGAN を活用して, サブタイプ形態の理解を改善するために, クラスおよびレイヤブレンディングの可視化を作成する。 最後に, 病理研修生の教育に人工組織学を応用し, 明快で直感的なcGAN視覚化が腫瘍生物学の組織学的発現の人間的理解を補強し, 改善することを示す。

Artificial intelligence (AI) methods including deep neural networks can provide rapid molecular classification of tumors from routine histology with accuracy that can match or exceed human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools can help provide insights into what models have learned when corresponding histologic features are poorly understood. Conditional generative adversarial networks (cGANs) are AI models that generate synthetic images and illustrate subtle differences between image classes. Here, we describe the use of a cGAN for explaining models trained to classify molecularly-subtyped tumors, exposing associated histologic features. We leverage cGANs to create class- and layer-blending visualizations to improve understanding of subtype morphology. Finally, we demonstrate the potential use of synthetic histology for augmenting pathology trainee education and show that clear, intuitive cGAN visualizations can reinforce and improve human understanding of histologic manifestations of tumor biology
翻訳日:2022-11-15 20:20:59 公開日:2022-11-12
# kinematics transformer:transformerを用いたソフトロボットの逆モデリング問題を解決する

Kinematics Transformer: Solving The Inverse Modeling Problem of Soft Robots using Transformers ( http://arxiv.org/abs/2211.06643v1 )

ライセンス: Link先を確認
Abdelrahman Alkhodary, Berke Gur(参考訳) ソフトロボットマニピュレータは、海洋環境などの脆弱な環境において、従来の剛性マニピュレータよりも多くの利点を提供する。 しかし, ロボットの形状, 動き, 力制御に必要な解析的逆モデルの開発は難しい問題である。 解析モデルの代替として、強力な機械学習手法を用いて数値モデルを学習することができる。 本稿では,ソフトロボット四肢の正確な逆運動モデルを開発するために,Kinematics Transformerを提案する。 提案手法は,逆運動学問題を逐次予測問題として再キャストし,トランスアーキテクチャに基づく。 数値シミュレーションにより,提案手法がソフト肢の制御に効果的に利用できることが明らかとなった。 ベンチマーク研究は、提案手法がベースラインフィードフォワードニューラルネットワークよりも精度と精度が高いことも明らかにした。

Soft robotic manipulators provide numerous advantages over conventional rigid manipulators in fragile environments such as the marine environment. However, developing analytic inverse models necessary for shape, motion, and force control of such robots remains a challenging problem. As an alternative to analytic models, numerical models can be learned using powerful machine learned methods. In this paper, the Kinematics Transformer is proposed for developing accurate and precise inverse kinematic models of soft robotic limbs. The proposed method re-casts the inverse kinematics problem as a sequential prediction problem and is based on the transformer architecture. Numerical simulations reveal that the proposed method can effectively be used in controlling a soft limb. Benchmark studies also reveal that the proposed method has better accuracy and precision compared to the baseline feed-forward neural network
翻訳日:2022-11-15 20:03:53 公開日:2022-11-12
# スペクトルグラフアルゴリズムを用いたトランスフォーマとオートエンコーダの統合による分子データの希薄化予測

Integrating Transformer and Autoencoder Techniques with Spectral Graph Algorithms for the Prediction of Scarcely Labeled Molecular Data ( http://arxiv.org/abs/2211.06759v1 )

ライセンス: Link先を確認
Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei(参考訳) 分子科学や生物学的科学では、実験は高価で時間がかかり、しばしば倫理的な制約を受ける。 そのため、小さなデータセットや少ないラベルのデータセットから望ましいプロパティを予測するという困難なタスクに直面することが多い。 転送学習は有利であるが、関連する大規模データセットの存在が必要である。 本稿では,merriman-bence-osher (mbo) 技術を用いた3つのグラフモデルを提案する。 特に、グラフベースのmboスキームの修正は、少ないラベルのデータセットを扱うために、自家製のトランスフォーマーやオートエンコーダなど、最先端の技術と統合されている。 さらに、コンセンサス技術についても詳述する。 提案モデルは5つのベンチマークデータセットを用いて検証される。 また,小規模データセットにおける性能の良さで知られているサポートベクターマシン,ランダムフォレスト,勾配強化決定木など,競合する他の手法と徹底的に比較する。 残余相似度(R-S)スコアとR-S指標を用いて各種手法の性能解析を行った。 大規模計算実験と理論解析により、データセットの1%をラベル付きデータとして使用しても、新しいモデルは非常によく機能することが示された。

In molecular and biological sciences, experiments are expensive, time-consuming, and often subject to ethical constraints. Consequently, one often faces the challenging task of predicting desirable properties from small data sets or scarcely-labeled data sets. Although transfer learning can be advantageous, it requires the existence of a related large data set. This work introduces three graph-based models incorporating Merriman-Bence-Osher (MBO) techniques to tackle this challenge. Specifically, graph-based modifications of the MBO scheme is integrated with state-of-the-art techniques, including a home-made transformer and an autoencoder, in order to deal with scarcely-labeled data sets. In addition, a consensus technique is detailed. The proposed models are validated using five benchmark data sets. We also provide a thorough comparison to other competing methods, such as support vector machines, random forests, and gradient boosted decision trees, which are known for their good performance on small data sets. The performances of various methods are analyzed using residue-similarity (R-S) scores and R-S indices. Extensive computational experiments and theoretical analysis show that the new models perform very well even when as little as 1% of the data set is used as labeled data.
翻訳日:2022-11-15 20:03:39 公開日:2022-11-12
# 独立の前提の定式化

Formalizing the presumption of independence ( http://arxiv.org/abs/2211.06738v1 )

ライセンス: Link先を確認
Paul Christiano, Eric Neyman, Mark Xu(参考訳) 数学的証明は、確実な結論を導くことを目的としているが、非常に類似した推論プロセスを使用して、修正に開放された不確実な推定を行うことができる。 そのような推論における重要な要素は、$X$と$Y$の相関関係に関する具体的な情報がない場合に、$\mathbb{E}[XY] = \mathbb{E}[X] \mathbb{E}[Y]$の"デフォルト"推定値を使用することである。 このヒューリスティックに基づく推論は一般的であり、直感的に説得力があり、しばしば非常に成功した。 本稿では,このタイプのデファシブル推論の形式化の可能性として,ヒューリスティックな推定器の概念を紹介する。 既存の候補に満たされないヒューリスティック推定器に対して直感的に望ましいコヒーレンス特性のセットを導入する。 独立の仮定の直観的に妥当な応用を形式化するヒューリスティックな推定器は、スプリアスな議論を受け入れることなく存在するのか?

Mathematical proof aims to deliver confident conclusions, but a very similar process of deduction can be used to make uncertain estimates that are open to revision. A key ingredient in such reasoning is the use of a "default" estimate of $\mathbb{E}[XY] = \mathbb{E}[X] \mathbb{E}[Y]$ in the absence of any specific information about the correlation between $X$ and $Y$, which we call *the presumption of independence*. Reasoning based on this heuristic is commonplace, intuitively compelling, and often quite successful -- but completely informal. In this paper we introduce the concept of a heuristic estimator as a potential formalization of this type of defeasible reasoning. We introduce a set of intuitively desirable coherence properties for heuristic estimators that are not satisfied by any existing candidates. Then we present our main open problem: is there a heuristic estimator that formalizes intuitively valid applications of the presumption of independence without also accepting spurious arguments?
翻訳日:2022-11-15 19:54:13 公開日:2022-11-12
# 一般化分布意味論と分布の射影族

The generalised distribution semantics and projective families of distributions ( http://arxiv.org/abs/2211.06751v1 )

ライセンス: Link先を確認
Felix Weitk\"amper(参考訳) 確率論理プログラミングの基礎となる分布セマンティクスを,その本質的概念,自由ランダム成分の分離,決定論的部分の抽出により一般化する。 これは、確率的データベース、確率的有限モデル理論、離散持ち上げベイズネットワークからフレームワークを包含する、論理プログラミング以外の中核的な考えを抽象化する。 To demonstrate the usefulness of such a general approach, we completely characterise the projective families of distributions representable in the generalised distribution semantics and we demonstrate both that large classes of interesting projective families cannot be represented in a generalised distribution semantics and that already a very limited fragment of logic programming (acyclic determinate logic programs) in the determinsitic part suffices to represent all those projective families that are representable in the generalised distribution semantics at all.

We generalise the distribution semantics underpinning probabilistic logic programming by distilling its essential concept, the separation of a free random component and a deterministic part. This abstracts the core ideas beyond logic programming as such to encompass frameworks from probabilistic databases, probabilistic finite model theory and discrete lifted Bayesian networks. To demonstrate the usefulness of such a general approach, we completely characterise the projective families of distributions representable in the generalised distribution semantics and we demonstrate both that large classes of interesting projective families cannot be represented in a generalised distribution semantics and that already a very limited fragment of logic programming (acyclic determinate logic programs) in the determinsitic part suffices to represent all those projective families that are representable in the generalised distribution semantics at all.
翻訳日:2022-11-15 19:53:51 公開日:2022-11-12
# eコマースにおけるダークパターン:データセットとそのベースライン評価

Dark patterns in e-commerce: a dataset and its baseline evaluations ( http://arxiv.org/abs/2211.06543v1 )

ライセンス: Link先を確認
Yuki Yada, Jiaying Feng, Tsuneo Matsumoto, Nao Fukushima, Fuyuko Kido, Hayato Yamana(参考訳) オンラインサービスのユーザーインターフェースデザインであるダークパターンは、意図しないアクションをユーザに誘導する。 近年、プライバシーと公平性の問題としてダークパターンが提起されている。 このように、暗黒パターンの検出に関する幅広い研究が待ち望まれている。 本研究では,ダークパターン検出のためのデータセットを構築し,最先端機械学習手法によるベースライン検出性能を作成した。 オリジナルのデータセットは、ショッピングサイトから1,818の暗いパターンのテキストからなるMathurらの研究から2019年に得られた。 そして、Mathurらのデータセットと同じウェブサイトからテキストを検索することで、負のサンプル、すなわち非ダークパターンのテキストを追加した。 また,最新の機械学習手法を用いて,BERT,RoBERTa,ALBERT,XLNetなどの検出精度をベースラインとして示す。 5倍のクロスバリデーションの結果,RoBERTaでは0.975の精度を達成できた。 データセットとベースラインのソースコードはhttps://github.com/yamanalab/ec-darkpatternで入手できる。

Dark patterns, which are user interface designs in online services, induce users to take unintended actions. Recently, dark patterns have been raised as an issue of privacy and fairness. Thus, a wide range of research on detecting dark patterns is eagerly awaited. In this work, we constructed a dataset for dark pattern detection and prepared its baseline detection performance with state-of-the-art machine learning methods. The original dataset was obtained from Mathur et al.'s study in 2019, which consists of 1,818 dark pattern texts from shopping sites. Then, we added negative samples, i.e., non-dark pattern texts, by retrieving texts from the same websites as Mathur et al.'s dataset. We also applied state-of-the-art machine learning methods to show the automatic detection accuracy as baselines, including BERT, RoBERTa, ALBERT, and XLNet. As a result of 5-fold cross-validation, we achieved the highest accuracy of 0.975 with RoBERTa. The dataset and baseline source codes are available at https://github.com/yamanalab/ec-darkpattern.
翻訳日:2022-11-15 19:52:31 公開日:2022-11-12
# オンラインk- Search問題に対するPareto-Optimal Learning-Augmented Algorithms

Pareto-Optimal Learning-Augmented Algorithms for Online k-Search Problems ( http://arxiv.org/abs/2211.06567v1 )

ライセンス: Link先を確認
Russell Lee, Bo Sun, John C.S. Lui, Mohammad Hajiesmaili(参考訳) 本稿では,k-max および k-min 探索問題に対するオンラインアルゴリズムの設計に機械学習による予測を利用する。 我々のアルゴリズムは、予測が正確である場合(すなわち一貫性)、あるいは予測が任意に間違っている場合(すなわち堅牢性)に、オフラインアルゴリズムと競合する性能を後から得ることができる。 さらに, このアルゴリズムは, k-max や k-min 探索のための他のアルゴリズムが, 与えられたロバスト性の整合性を改善することができないような, 整合性とロバスト性の間のパレート最適トレードオフを達成したことを示す。 アルゴリズムのパフォーマンスを示すために、ビットコインを売買する実験で評価します。

This paper leverages machine learned predictions to design online algorithms for the k-max and k-min search problems. Our algorithms can achieve performances competitive with the offline algorithm in hindsight when the predictions are accurate (i.e., consistency) and also provide worst-case guarantees when the predictions are arbitrarily wrong (i.e., robustness). Further, we show that our algorithms have attained the Pareto-optimal trade-off between consistency and robustness, where no other algorithms for k-max or k-min search can improve on the consistency for a given robustness. To demonstrate the performance of our algorithms, we evaluate them in experiments of buying and selling Bitcoin.
翻訳日:2022-11-15 19:52:15 公開日:2022-11-12
# 連続時間ネットワークモデリングのための有意な結合グラフニューラルネットワーク

Significant Ties Graph Neural Networks for Continuous-Time Temporal Networks Modeling ( http://arxiv.org/abs/2211.06590v1 )

ライセンス: Link先を確認
Jiayun Wu, Tao Jia, Yansong Wang, Li Tao(参考訳) 時間的ネットワークは複雑な進化システムのモデリングに適している。 ソーシャルネットワーク分析、レコメンデーションシステム、疫学など、幅広い応用がある。 近年、このような動的システムのモデリングは多くの領域で大きな注目を集めている。 しかし、既存のほとんどのアプローチは、時間的ネットワークの離散スナップショットを取って、同じ重要性で全てのイベントをモデル化する。 本稿では,有意な関係を捕捉し記述する新しいフレームワークである,有意なTies Graph Neural Networks (STGNN)を提案する。 相互作用の多様性をより良くモデル化するために、STGNNは、最も重要な歴史的隣人の情報を整理し、ノードペアの重要性を適応的に取得する新しい集約メカニズムを導入した。 4つの実ネットワークの実験結果から,提案手法の有効性が示された。

Temporal networks are suitable for modeling complex evolving systems. It has a wide range of applications, such as social network analysis, recommender systems, and epidemiology. Recently, modeling such dynamic systems has drawn great attention in many domains. However, most existing approaches resort to taking discrete snapshots of the temporal networks and modeling all events with equal importance. This paper proposes Significant Ties Graph Neural Networks (STGNN), a novel framework that captures and describes significant ties. To better model the diversity of interactions, STGNN introduces a novel aggregation mechanism to organize the most significant historical neighbors' information and adaptively obtain the significance of node pairs. Experimental results on four real networks demonstrate the effectiveness of the proposed framework.
翻訳日:2022-11-15 19:52:01 公開日:2022-11-12
# データ強化, カリキュラム学習, マルチタスク強化による DistilHuBERT のノイズのない条件に対するロバスト性の改善

Improving the Robustness of DistilHuBERT to Unseen Noisy Conditions via Data Augmentation, Curriculum Learning, and Multi-Task Enhancement ( http://arxiv.org/abs/2211.06562v1 )

ライセンス: Link先を確認
Heitor R. Guimar\~aes, Arthur Pimentel, Anderson R. Avila, Mehdi Rezagholizadeh, Tiago H. Falk(参考訳) 自己教師型音声表現学習は、音声信号から意味のある要素を抽出することを目的としており、後に音声や感情認識など、様々な下流タスクにまたがって使用できる。 しかし、HuBERTのような既存のモデルはかなり大きいため、エッジ音声アプリケーションには適さない可能性がある。 さらに、現実的な応用は、一般的にノイズや室内残響による音声の劣化を伴うため、モデルがそのような環境要因に対して堅牢な表現を提供する必要がある。 そこで本研究では,ヒューバートを元のサイズのごく一部に分解するいわゆるディズティルフベールモデル(distilhubert model)を構築し,以下の3つの修正を加えた。 (i) 生徒モデルが教師モデルからクリーン表現を蒸留する必要がある間に、学習データをノイズと残響で強化すること。 (ii)モデルトレインとして騒音レベルが増加するカリキュラム学習手法を導入し、コンバージェンスとより堅牢な表現の作成を支援する。 三 モデルが蒸留作業と共同でクリーンな波形を再構築するマルチタスク学習手法を導入することにより、表現に対する環境のさらなる堅牢性を確保するための拡張ステップとして機能する。 3つのスーパーブタスクに関する実験では、従来のディチルヒューベルト法よりも元のヒューバート法の方が優れていることが示され、そこでは'in the wild' のエッジ音声アプリケーションに対する提案手法の利点が示された。

Self-supervised speech representation learning aims to extract meaningful factors from the speech signal that can later be used across different downstream tasks, such as speech and/or emotion recognition. Existing models, such as HuBERT, however, can be fairly large thus may not be suitable for edge speech applications. Moreover, realistic applications typically involve speech corrupted by noise and room reverberation, hence models need to provide representations that are robust to such environmental factors. In this study, we build on the so-called DistilHuBERT model, which distils HuBERT to a fraction of its original size, with three modifications, namely: (i) augment the training data with noise and reverberation, while the student model needs to distill the clean representations from the teacher model; (ii) introduce a curriculum learning approach where increasing levels of noise are introduced as the model trains, thus helping with convergence and with the creation of more robust representations; and (iii) introduce a multi-task learning approach where the model also reconstructs the clean waveform jointly with the distillation task, thus also acting as an enhancement step to ensure additional environment robustness to the representation. Experiments on three SUPERB tasks show the advantages of the proposed method not only relative to the original DistilHuBERT, but also to the original HuBERT, thus showing the advantages of the proposed method for ``in the wild'' edge speech applications.
翻訳日:2022-11-15 19:36:21 公開日:2022-11-12
# ダイナミックビジョンセンサのための照明による色再構成

Illumination-Based Color Reconstruction for the Dynamic Vision Sensor ( http://arxiv.org/abs/2211.06695v1 )

ライセンス: Link先を確認
Khen Cohen, Omer Hershko, Homer Levy, David Mendlovic, and Dan Raviv(参考訳) この研究は、ダイナミック・ビジョン・センサー(DVS)を介して色付き画像を再構成する技術の現状を示す。 dvsは、撮像された波長(色)や強度レベルに関する情報を持たない、輝度の2値変化のみを示すイメージセンサである。 本稿では,dvsとアクティブカラー光源を用いて全空間分解能カラー画像を再構成する新しい手法を提案する。 我々はDVS応答を分析し、線形ベースと畳み込みニューラルネットワークの2つの再構成アルゴリズムを提案する。 また,照明や距離などの環境条件の変化に対して,アルゴリズムの堅牢性を示す。 最後に, 過去の作品と比較し, 成果の達成方法を示す。

This work demonstrates a novel, state of the art method to reconstruct colored images via the Dynamic Vision Sensor (DVS). The DVS is an image sensor that indicates only a binary change in brightness, with no information about the captured wavelength (color), or intensity level. We present a novel method to reconstruct a full spatial resolution colored image with the DVS and an active colored light source. We analyze the DVS response and present two reconstruction algorithms: Linear based and Convolutional Neural Network Based. In addition, we demonstrate our algorithm robustness to changes in environmental conditions such as illumination and distance. Finally, comparing with previous works, we show how we reach the state of the art results.
翻訳日:2022-11-15 19:35:30 公開日:2022-11-12
# 深層学習を用いたヒト冠動脈画像における構造制約仮想組織染色

Structural constrained virtual histology staining for human coronary imaging using deep learning ( http://arxiv.org/abs/2211.06737v1 )

ライセンス: Link先を確認
Xueshen Li, Hongshan Liu, Xiaoyu Song, Brigitta C. Brott, Silvio H. Litovsky, Yu Gan(参考訳) 冠動脈疾患(CAD)の診断には病理組織学的検討が重要である。 しかし、組織学は侵襲的で時間を要する。 本稿では,オプティカル・コヒーレンス・トモグラフィ(oct)画像を用いて仮想組織学的染色を行い,リアルタイムの組織学的可視化を実現することを提案する。 我々は,冠動脈CT像を仮想組織像に転送する深層学習ネットワーク,すなわちCorary-GANを開発した。 冠状動脈造影像の構造的制約を特に考慮し,従来のGAN法よりも優れた画像生成性能を実現する。 実験の結果, 冠状ganは実際の組織像と類似した仮想組織像を生成し, ヒト冠状動脈の層を明らかにした。

Histopathological analysis is crucial in artery characterization for coronary artery disease (CAD). However, histology requires an invasive and time-consuming process. In this paper, we propose to generate virtual histology staining using Optical Coherence Tomography (OCT) images to enable real-time histological visualization. We develop a deep learning network, namely Coronary-GAN, to transfer coronary OCT images to virtual histology images. With a special consideration on the structural constraints in coronary OCT images, our method achieves better image generation performance than the conventional GAN-based method. The experimental results indicate that Coronary-GAN generates virtual histology images that are similar to real histology images, revealing the human coronary layers.
翻訳日:2022-11-15 19:35:20 公開日:2022-11-12
# 均一暗号を用いたプライバシー保護型クレジットカード不正検出

Privacy-Preserving Credit Card Fraud Detection using Homomorphic Encryption ( http://arxiv.org/abs/2211.06675v1 )

ライセンス: Link先を確認
David Nugent(参考訳) クレジットカード詐欺は金融機関とその顧客が継続的に直面する問題であり、不正検知システムによって軽減される。 しかし、これらのシステムは、顧客のプライバシーの欠如と、カードプロバイダにデータ侵害の脆弱性をもたらす、機密性の高い顧客トランザクションデータを使用する必要がある。 本稿では,同型暗号を用いた暗号化トランザクションにおけるプライベート不正検出システムを提案する。 XGBoostとフィードフォワード分類器ニューラルネットワークという2つのモデルは、平文データに基づく不正検出として訓練されている。 その後、プライベート推論に同型暗号化を使用するモデルに変換される。 レイテンシ、ストレージ、検出結果について、ユースケースとデプロイの可能性について論じる。 XGBoostモデルは、ニューラルネットワークの296msに比べて、暗号化推論が6ms以下で、パフォーマンスが向上している。 しかし、安全なデプロイがより簡単であるため、ニューラルネットワークの実装が望ましいかもしれない。 シミュレーションとさらなる開発のためのシステム用のコードベースも提供される。

Credit card fraud is a problem continuously faced by financial institutions and their customers, which is mitigated by fraud detection systems. However, these systems require the use of sensitive customer transaction data, which introduces both a lack of privacy for the customer and a data breach vulnerability to the card provider. This paper proposes a system for private fraud detection on encrypted transactions using homomorphic encryption. Two models, XGBoost and a feedforward classifier neural network, are trained as fraud detectors on plaintext data. They are then converted to models which use homomorphic encryption for private inference. Latency, storage, and detection results are discussed, along with use cases and feasibility of deployment. The XGBoost model has better performance, with an encrypted inference as low as 6ms, compared to 296ms for the neural network. However, the neural network implementation may still be preferred, as it is simpler to deploy securely. A codebase for the system is also provided, for simulation and further development.
翻訳日:2022-11-15 19:26:35 公開日:2022-11-12
# 機能的オブジェクト指向ネットワークを用いたロボット調理のためのタスクツリー検索アルゴリズム

Task Tree Retrieval Algorithms for Robotic Cooking Using The Functional Object-Oriented Network ( http://arxiv.org/abs/2211.06743v1 )

ライセンス: Link先を確認
Sai Chaitanya Balli(参考訳) 機能的オブジェクト指向ネットワークを用いて,与えられた目標ノードのタスクツリーを生成する3つの探索アルゴリズムを実装した。 本論文では, アプローチ, プロセス, 結果について述べる。

Using the Functional Object-Oriented Network, we have implemented three search algorithms for generating the task trees for the given goal nodes. The approach, process, and results are written in this paper.
翻訳日:2022-11-15 19:26:23 公開日:2022-11-12
# 社会支援ロボットの設計原理としての人間自律性

Human Autonomy as a Design Principle for Socially Assistive Robots ( http://arxiv.org/abs/2211.06748v1 )

ライセンス: Link先を確認
Jason R. Wilson(参考訳) 高いレベルのロボット自律性は共通の目標であるが、ロボットの自律性が高ければ高いほど、ロボットで作業する人間の自律性が低くなるという大きなリスクがある。 すでに自治レベルが低下している高齢者のような脆弱な人口にとって、これはさらに大きな懸念である。 我々は,社会支援ロボットの設計の中心に,人間の自律性が必要であることを提案する。 この目標に向けて,我々は自律性を定義し,ユーザの自律性を支援するための社会ロボットのアーキテクチャ要件を提供する。 設計の取り組みの例として、私たちはAssistアーキテクチャの特徴をいくつか説明します。

High levels of robot autonomy are a common goal, but there is a significant risk that the greater the autonomy of the robot the lesser the autonomy of the human working with the robot. For vulnerable populations like older adults who already have a diminished level of autonomy, this is an even greater concern. We propose that human autonomy needs to be at the center of the design for socially assistive robots. Towards this goal, we define autonomy and then provide architectural requirements for social robots to support the user's autonomy. As an example of a design effort, we describe some of the features of our Assist architecture.
翻訳日:2022-11-15 19:26:19 公開日:2022-11-12
# Seamful XAI: 説明可能なAIでSeamfulデザインを運用

Seamful XAI: Operationalizing Seamful Design in Explainable AI ( http://arxiv.org/abs/2211.06753v1 )

ライセンス: Link先を確認
Upol Ehsan, Q. Vera Liao, Samir Passi, Mark O. Riedl, Hal Daume III(参考訳) AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。 ブラックボックスのAIシステムは、ユーザー体験をシームレスにすることができるが、シームを隠蔽することで、AIのミスからフォールアウトを軽減できる。 説明可能なAI(XAI)はアルゴリズムの不透明性に主に取り組んだが、シームフルデザインは社会技術やインフラのミスマッチを戦略的に明らかにすることで人間中心のXAIを育むことができると提案する。 本稿では,(1)「シーム」をaiコンテキストに概念的に移行し,(2)利害関係者がシームでデザインすることを支援するデザインプロセスを開発することにより,説明可能性とユーザエージェンシーを高めることにより,シームフルxaiの概念を紹介する。 現実のユースケースから情報を得たシナリオベースの共同設計活動を用いて、43人のAI実践者とユーザによるこのプロセスについて検討する。 私たちは、このプロセスが実践者がAIでシームを予測し、作り出すのにどのように役立つか、Seamfulnessが説明可能性を改善し、エンドユーザに力を与え、Responsible AIを促進するかについて、経験的な洞察、含意、批判的な考察を共有します。

Mistakes in AI systems are inevitable, arising from both technical limitations and sociotechnical gaps. While black-boxing AI systems can make the user experience seamless, hiding the seams risks disempowering users to mitigate fallouts from AI mistakes. While Explainable AI (XAI) has predominantly tackled algorithmic opaqueness, we propose that seamful design can foster Humancentered XAI by strategically revealing sociotechnical and infrastructural mismatches. We introduce the notion of Seamful XAI by (1) conceptually transferring "seams" to the AI context and (2) developing a design process that helps stakeholders design with seams, thereby augmenting explainability and user agency. We explore this process with 43 AI practitioners and users, using a scenario-based co-design activity informed by real-world use cases. We share empirical insights, implications, and critical reflections on how this process can help practitioners anticipate and craft seams in AI, how seamfulness can improve explainability, empower end-users, and facilitate Responsible AI.
翻訳日:2022-11-15 19:26:09 公開日:2022-11-12
# ベクトル量子符号化による深層強化学習

Deep Reinforcement Learning with Vector Quantized Encoding ( http://arxiv.org/abs/2211.06733v1 )

ライセンス: Link先を確認
Liang Zhang, Justin Lieffers, Adarsh Pyarelal(参考訳) 人間の意思決定は、しばしば類似した状態をカテゴリに組み合わせ、実際の状態ではなくカテゴリのレベルで推論する。 この直感で導かれた本研究では, 深部強化学習(RL)法における状態特徴のクラスタリング手法を提案する。 具体的には,vector quantized reinforcement learning(vq-rl)と呼ばれる,ベクトル量子化(vq)符号化に基づく補助分類タスクで古典rlパイプラインを拡張し,ポリシトレーニングに適合するプラグイン・アンド・プレイフレームワークを提案する。 vq符号化法は、類似したセマンティクスを持つ特徴をクラスタに分類し、古典的なディープrl法と比較して、より優れた分離でより密なクラスタを生成する。 さらに,クラスタ間の分離を向上し,VQトレーニングに伴うリスクを回避するために,2つの正規化手法を導入する。 シミュレーションでは,VQ-RLが解釈性を改善し,その強靭性および深部RLの一般化に与える影響を検証した。

Human decision-making often involves combining similar states into categories and reasoning at the level of the categories rather than the actual states. Guided by this intuition, we propose a novel method for clustering state features in deep reinforcement learning (RL) methods to improve their interpretability. Specifically, we propose a plug-and-play framework termed \emph{vector quantized reinforcement learning} (VQ-RL) that extends classic RL pipelines with an auxiliary classification task based on vector quantized (VQ) encoding and aligns with policy training. The VQ encoding method categorizes features with similar semantics into clusters and results in tighter clusters with better separation compared to classic deep RL methods, thus enabling neural models to learn similarities and differences between states better. Furthermore, we introduce two regularization methods to help increase the separation between clusters and avoid the risks associated with VQ training. In simulations, we demonstrate that VQ-RL improves interpretability and investigate its impact on robustness and generalization of deep RL.
翻訳日:2022-11-15 19:10:48 公開日:2022-11-12
# 専門知識の問題:専門的なフィードバックから学ぶ

The Expertise Problem: Learning from Specialized Feedback ( http://arxiv.org/abs/2211.06519v1 )

ライセンス: Link先を確認
Oliver Daniels-Koch, Rachel Freedman(参考訳) ヒューマンフィードバックからの強化学習(RLHF)は、エージェントが困難なタスクを実行するための強力な技術である。 しかし、特に人間の教師が関連する知識や経験を欠いている場合、人間のフィードバックはうるさい。 専門知識のレベルは教師によって異なり、ある教師はタスクのさまざまなコンポーネントに対する専門知識のレベルが異なる可能性がある。 複数の教師から学習するRLHFアルゴリズムは、専門的な問題に直面している。与えられたフィードバックの信頼性は、その教師の出身地と、その教師がタスクの関連するコンポーネントにどの程度特化しているかに依存する。 既存のrlhfアルゴリズムは、すべての評価が同じ分布から来ていると仮定し、この人的および人的ばらつきを回避し、専門知識の多様性を考慮しない。 我々はこの問題を形式化し、既存のRLHFベンチマークの拡張として実装し、最先端のRLHFアルゴリズムの性能を評価し、クエリと教師の選択を改善する技術を探究する。 私たちの重要な貢献は、専門知識の問題を実証し、特徴づけ、将来のソリューションをテストするためのオープンソース実装を提供することです。

Reinforcement learning from human feedback (RLHF) is a powerful technique for training agents to perform difficult-to-specify tasks. However, human feedback can be noisy, particularly when human teachers lack relevant knowledge or experience. Levels of expertise vary across teachers, and a given teacher may have differing levels of expertise for different components of a task. RLHF algorithms that learn from multiple teachers therefore face an expertise problem: the reliability of a given piece of feedback depends both on the teacher that it comes from and how specialized that teacher is on relevant components of the task. Existing state-of-the-art RLHF algorithms assume that all evaluations come from the same distribution, obscuring this inter- and intra-human variance, and preventing them from accounting for or taking advantage of variations in expertise. We formalize this problem, implement it as an extension of an existing RLHF benchmark, evaluate the performance of a state-of-the-art RLHF algorithm, and explore techniques to improve query and teacher selection. Our key contribution is to demonstrate and characterize the expertise problem, and to provide an open-source implementation for testing future solutions.
翻訳日:2022-11-15 19:00:48 公開日:2022-11-12
# モバイルヘルスのための行動可能リコース

Actionable Recourse via GANs for Mobile Health ( http://arxiv.org/abs/2211.06525v1 )

ライセンス: Link先を確認
Jennifer Chien, Anna Guitart, Ana Fernandez del Rio, Africa Perianez, Lauren Bellhouse(参考訳) モバイル・ヘルス・アプリは、適応的な介入を行うのに使用できるデータ収集のユニークな手段を提供しており、予測された結果がそうした介入の選択に大きく影響する。 recourse via counterfactualsは、ユーザの予測を変更するための具体的メカニズムを提供する。 望ましい予測の可能性を増大させる妥当な行動を特定することで、ステークホルダーは予測に関してエージェンシーを受けることができる。 さらに、リコメンデーションメカニズムは、因果的介入の特徴の候補に関する洞察を提供するのに役立つ反ファクト的推論を可能にする。 本報告では,GAN 生成したモバイル医療用リコースの実現可能性について,健常者を対象としたデジタルトレーニングツールである Safe Delivery App を用いて,アンサンブル・サバイバル分析に基づく中間的エンゲージメントの予測を行った。

Mobile health apps provide a unique means of collecting data that can be used to deliver adaptive interventions.The predicted outcomes considerably influence the selection of such interventions. Recourse via counterfactuals provides tangible mechanisms to modify user predictions. By identifying plausible actions that increase the likelihood of a desired prediction, stakeholders are afforded agency over their predictions. Furthermore, recourse mechanisms enable counterfactual reasoning that can help provide insights into candidates for causal interventional features. We demonstrate the feasibility of GAN-generated recourse for mobile health applications on ensemble-survival-analysis-based prediction of medium-term engagement in the Safe Delivery App, a digital training tool for skilled birth attendants.
翻訳日:2022-11-15 19:00:28 公開日:2022-11-12
# モデルに基づく条件付き独立性テストによるpcアルゴリズムの効率向上

Improving the Efficiency of the PC Algorithm by Using Model-Based Conditional Independence Tests ( http://arxiv.org/abs/2211.06536v1 )

ライセンス: Link先を確認
Erica Cai, Andrew McGregor, David Jensen(参考訳) 因果構造を学ぶことは、計画、ロボット工学、説明など、人工知能の多くの領域で有用である。 PC利用条件独立(CI)テストのような制約に基づく構造学習アルゴリズムは因果構造を推論する。 従来のCIテストの統計力は、条件セットのサイズが大きくなるにつれて急速に低下するため、制約ベースのアルゴリズムはより小さな条件セットを優先してCIテストを実行する。 しかし、現代の条件付き独立性テストの多くはモデルベースであり、これらのテストは、非常に大きな条件付き集合でも統計力を維持するよく規則化されたモデルを使っている。 これは、制約ベースのアルゴリズムに対する興味深い新しい戦略であり、実行されたciテストの総数を減少させる可能性がある: 大きな条件付き変数ペア まず、条件付き無依存を素早く発見する前処理ステップとして、小さな条件付きセットを好むより伝統的な戦略に移行する。 ランダムに選択された大規模条件集合上でCIテストを実行することに依存するPCアルゴリズムの事前処理ステップを提案する。 我々は,実世界のシステムに対応する有向非巡回グラフ(DAG)と,Erd\H{o}s-Renyi DAGの実証的および理論的解析を行う。 以上の結果から,PCアルゴリズム単独で行うCIテストのうち,0.5%から36%,そして10%未満で,PC前処理プラスPC(P3PC)が従来のPCアルゴリズムよりもはるかに少ないCIテストを実行することがわかった。 実世界のシステムに対応するDAGにとって、効率向上は特に重要である。

Learning causal structure is useful in many areas of artificial intelligence, including planning, robotics, and explanation. Constraint-based structure learning algorithms such as PC use conditional independence (CI) tests to infer causal structure. Traditionally, constraint-based algorithms perform CI tests with a preference for smaller-sized conditioning sets, partially because the statistical power of conventional CI tests declines rapidly as the size of the conditioning set increases. However, many modern conditional independence tests are model-based, and these tests use well-regularized models that maintain statistical power even with very large conditioning sets. This suggests an intriguing new strategy for constraint-based algorithms which may result in a reduction of the total number of CI tests performed: Test variable pairs with large conditioning sets first, as a pre-processing step that finds some conditional independencies quickly, before moving on to the more conventional strategy that favors small conditioning sets. We propose such a pre-processing step for the PC algorithm which relies on performing CI tests on a few randomly selected large conditioning sets. We perform an empirical analysis on directed acyclic graphs (DAGs) that correspond to real-world systems and both empirical and theoretical analyses for Erd\H{o}s-Renyi DAGs. Our results show that Pre-Processing Plus PC (P3PC) performs far fewer CI tests than the original PC algorithm, between 0.5% to 36%, and often less than 10%, of the CI tests that the PC algorithm alone performs. The efficiency gains are particularly significant for the DAGs corresponding to real-world systems.
翻訳日:2022-11-15 19:00:15 公開日:2022-11-12
# フローベース生成モデルによるイノベーティブドラッグ様分子生成

Innovative Drug-like Molecule Generation from Flow-based Generative Model ( http://arxiv.org/abs/2211.06566v1 )

ライセンス: Link先を確認
Haotian Zhang, Linxiaoyi Wan(参考訳) 深層学習法を用いて生体分子が与えられた薬物を設計するため、近年、多くのモデルが公表されている。 人々は通常、特定のタンパク質が与えられた新しい分子を設計するために生成モデルを用いた。 LiGANは畳み込みニューラルネットワークで開発されたディープラーニングモデルのベースラインとみなされた。 近年,graphbpは,グラフニューラルネットワークと多層性知覚を用いたフローベース生成モデルを用いて,従来の分子ドッキング法よりも結合親和性が優れる革新的な「リアル」化学物質を予測できることを示した。 しかし、これらの方法は全てタンパク質を剛体とみなし、結合に関連するタンパク質のごく一部しか含まない。 しかし、タンパク質の動態は薬物結合に必須である。 GraphBPをベースとして,タンパク質データバンクからより強固な処理を生成することを提案した。 結果は計算化学アルゴリズムを用いて妥当性と結合親和性によって評価される。

To design a drug given a biological molecule by using deep learning methods, there are many successful models published recently. People commonly used generative models to design new molecules given certain protein. LiGAN was regarded as the baseline of deep learning model which was developed on convolutional neural networks. Recently, GraphBP showed its ability to predict innovative "real" chemicals that the binding affinity outperformed with traditional molecular docking methods by using a flow-based generative model with a graph neural network and multilayer perception. However, all those methods regarded proteins as rigid bodies and only include a very small part of proteins related to binding. However, the dynamics of proteins are essential for drug binding. Based on GraphBP, we proposed to generate more solid work derived from protein data bank. The results will be evaluated by validity and binding affinity by using a computational chemistry algorithm.
翻訳日:2022-11-15 18:59:47 公開日:2022-11-12
# ニューラルネットワーク関数の高対称性について

On the High Symmetry of Neural Network Functions ( http://arxiv.org/abs/2211.06603v1 )

ライセンス: Link先を確認
Umberto Michelucci(参考訳) ニューラルネットワークのトレーニングは、高次元最適化問題を解決することを意味する。 通常、目的はネットワーク関数と呼ばれるものに依存する損失関数を最小限にすることであり、言い換えれば、ある入力を与えられたネットワーク出力を与える関数である。 この関数は、ネットワークアーキテクチャに依存する多数のパラメータ(重みとしても知られる)に依存する。 一般に、この最適化問題の目標は、ネットワーク機能のグローバル最小値を見つけることである。 本稿では、ニューラルネットワークの設計方法から、パラメータ空間においてニューラルネットワーク関数が非常に大きな対称性を示す方法について論じる。 この研究は、ニューラルネットワーク関数が多くの等価なミニマを持つことを示す。言い換えれば、損失関数に同じ値を与え、同じ正確な出力を与えるミニマは、前方ニューラルネットワークを供給するための各レイヤのニューロン数や畳み込みニューラルネットワークのフィルタ数と因数的に増加する。 ニューロンとレイヤーの数が大きいと、同等のミニマの数が非常に速く成長する。 これはもちろん、ニューラルネットワークがトレーニング中にミニマにどのように収束するかの研究に影響を及ぼす。 この結果は知られているが、本論文で初めて適切な数学的議論が提示され、等価ミニマ数の推定が導かれる。

Training neural networks means solving a high-dimensional optimization problem. Normally the goal is to minimize a loss function that depends on what is called the network function, or in other words the function that gives the network output given a certain input. This function depends on a large number of parameters, also known as weights, that depends on the network architecture. In general the goal of this optimization problem is to find the global minimum of the network function. In this paper it is discussed how due to how neural networks are designed, the neural network function present a very large symmetry in the parameter space. This work shows how the neural network function has a number of equivalent minima, in other words minima that give the same value for the loss function and the same exact output, that grows factorially with the number of neurons in each layer for feed forward neural network or with the number of filters in a convolutional neural networks. When the number of neurons and layers is large, the number of equivalent minima grows extremely fast. This will have of course consequences for the study of how neural networks converges to minima during training. This results is known, but in this paper for the first time a proper mathematical discussion is presented and an estimate of the number of equivalent minima is derived.
翻訳日:2022-11-15 18:59:34 公開日:2022-11-12
# マルコフ連鎖理論を用いたグラフニューラルネットワークの解析

Analysis of Graph Neural Networks with Theory of Markov Chains ( http://arxiv.org/abs/2211.06605v1 )

ライセンス: Link先を確認
Weichen Zhao, Chenguang Wang, Congying Han, Tiande Guo(参考訳) 本稿では,emph{graph neural network} (GNN) の解釈と解析のための理論的ツールを提供する。 グラフ上のマルコフ連鎖を用いてGNNの前方伝播過程を数学的にモデル化する。 グラフニューラルネットワークは、マルコフ連鎖が時間的均一であるかどうかに基づいて、演算子一貫性とオペレータ一貫性の2つのクラスに分けられる。 そこで我々は,GNN研究において重要な問題であるemph{over-smoothing}について検討する。 我々は, 任意の初期分布を定常分布に収束させることで, オーバースムーシング問題を解決した。 オーバースムーシング問題を緩和するための従来の手法の有効性を実証する。 さらに、演算子一貫性GNNはマルコフの指数速度での過度な平滑化を回避できないという結論を与える。 演算子不整合GNNの場合、理論的には過剰なスムーシングを避けるのに十分な条件を与える。 この条件に基づき、ニューラルネットワークのトレーニングに柔軟に追加できる正規化項を提案する。 最後に,この条件の有効性を検証する実験を設計する。 その結果,提案する十分条件により性能が向上するだけでなく,過飽和現象を緩和できることがわかった。

In this paper, we provide a theoretical tool for the interpretation and analysis of \emph{graph neural networks} (GNNs). We use Markov chains on graphs to mathematically model the forward propagation processes of GNNs. The graph neural networks are divided into two classes of operator-consistent and operator-inconsistent based on whether the Markov chains are time-homogeneous. Based on this, we study \emph{over-smoothing} which is an important problem in GNN research. We attribute the over-smoothing problem to the convergence of an arbitrary initial distribution to a stationary distribution. We prove the effectiveness of the previous methods for alleviating the over-smoothing problem. Further, we give the conclusion that operator-consistent GNN cannot avoid over-smoothing at an exponential rate in the Markovian sense. For operator-inconsistent GNN, we theoretically give a sufficient condition for avoiding over-smoothing. Based on this condition, we propose a regularization term which can be flexibly added to the training of the neural network. Finally, we design experiments to verify the effectiveness of this condition. Results show that our proposed sufficient condition not only improves the performance but also alleviates the over-smoothing phenomenon.
翻訳日:2022-11-15 18:59:15 公開日:2022-11-12
# Modular Clinical Decision Support Networks (MoDN) -- Updatable, Interpretable, Portable Predictions for Evolving Clinical Environments

Modular Clinical Decision Support Networks (MoDN) -- Updatable, Interpretable, and Portable Predictions for Evolving Clinical Environments ( http://arxiv.org/abs/2211.06637v1 )

ライセンス: Link先を確認
C\'ecile Trottet, Thijs Vogels, Martin Jaggi, Mary-Anne Hartley(参考訳) データ駆動型臨床意思決定支援システム(CDSS)は、個人化された確率的ガイダンスでケアを改善し標準化する可能性がある。 しかし、必要となるデータのサイズは類似のCDSSからの協調学習を必要とし、これはしばしば不調和または不完全な相互運用(IIO)であり、それらの特徴セットが完全に重複していないことを意味する。 本稿では,IIOデータセット間のフレキシブルなプライバシ保護学習を実現するモジュール型臨床意思決定支援ネットワーク(MoDN)を提案する。 modnは特徴特異的ニューラルネットワークモジュールで構成される新しい決定木である。 患者を動的にパーソナライズした表現を生成し、診断の予測を複数行い、相談のステップごとに実行可能である。 モジュール設計により、特定の機能に対するトレーニング更新を分割し、データを共有せずにIIOデータセット間で協調的に学習することができる。

Data-driven Clinical Decision Support Systems (CDSS) have the potential to improve and standardise care with personalised probabilistic guidance. However, the size of data required necessitates collaborative learning from analogous CDSS's, which are often unsharable or imperfectly interoperable (IIO), meaning their feature sets are not perfectly overlapping. We propose Modular Clinical Decision Support Networks (MoDN) which allow flexible, privacy-preserving learning across IIO datasets, while providing interpretable, continuous predictive feedback to the clinician. MoDN is a novel decision tree composed of feature-specific neural network modules. It creates dynamic personalised representations of patients, and can make multiple predictions of diagnoses, updatable at each step of a consultation. The modular design allows it to compartmentalise training updates to specific features and collaboratively learn between IIO datasets without sharing any data.
翻訳日:2022-11-15 18:59:00 公開日:2022-11-12
# クリック後変換率予測の曖昧化のための一般化二重ロバスト学習フレームワーク

A Generalized Doubly Robust Learning Framework for Debiasing Post-Click Conversion Rate Prediction ( http://arxiv.org/abs/2211.06684v1 )

ライセンス: Link先を確認
Quanyu Dai, Haoxuan Li, Peng Wu, Zhenhua Dong, Xiao-Hua Zhou, Rui Zhang, Rui zhang, Jie Sun(参考訳) クリック後変換率(CVR)予測は,幅広い産業アプリケーションにおいて,ユーザの関心事発見とプラットフォーム収益の増大に不可欠な課題である。 このタスクの最も困難な問題の1つは、ユーザの固有の自己選択行動とシステムの項目選択プロセスによって引き起こされる厳密な選択バイアスの存在である。 現在、Doublely robust(DR)学習アプローチは、CVR予測を損なうための最先端のパフォーマンスを実現する。 しかし,本論文では,DR手法の偏り,分散,一般化境界を理論的に解析することにより,従来のDR手法では,不正確な正当性スコア推定や計算誤差による一般化が不十分である可能性が示唆された。 このような分析により、既存のDRメソッドを統一するだけでなく、異なるアプリケーションシナリオに対応する一連の新しいデバイアス手法を開発するための貴重な機会を提供する、汎用的な学習フレームワークを提案する。 本フレームワークでは,DR-BIASとDR-MSEという2つの新しいDR手法を提案する。 DR-BIASはDR損失のバイアスを直接制御し、DR-MSEはバイアスと分散を柔軟にバランスさせ、より優れた一般化性能を実現する。 さらに,CVR予測におけるDR-MSEの3段階共同学習最適化手法と,それに対応する効率的な学習アルゴリズムを提案する。 提案手法の有効性を検証するために,実世界データと半合成データの両方について広範な実験を行った。

Post-click conversion rate (CVR) prediction is an essential task for discovering user interests and increasing platform revenues in a range of industrial applications. One of the most challenging problems of this task is the existence of severe selection bias caused by the inherent self-selection behavior of users and the item selection process of systems. Currently, doubly robust (DR) learning approaches achieve the state-of-the-art performance for debiasing CVR prediction. However, in this paper, by theoretically analyzing the bias, variance and generalization bounds of DR methods, we find that existing DR approaches may have poor generalization caused by inaccurate estimation of propensity scores and imputation errors, which often occur in practice. Motivated by such analysis, we propose a generalized learning framework that not only unifies existing DR methods, but also provides a valuable opportunity to develop a series of new debiasing techniques to accommodate different application scenarios. Based on the framework, we propose two new DR methods, namely DR-BIAS and DR-MSE. DR-BIAS directly controls the bias of DR loss, while DR-MSE balances the bias and variance flexibly, which achieves better generalization performance. In addition, we propose a novel tri-level joint learning optimization method for DR-MSE in CVR prediction, and an efficient training algorithm correspondingly. We conduct extensive experiments on both real-world and semi-synthetic datasets, which validate the effectiveness of our proposed methods.
翻訳日:2022-11-15 18:58:41 公開日:2022-11-12
# マルチモーダル確率的融合プロンプトに基づく少数ショットマルチモーダル感情分析

Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts ( http://arxiv.org/abs/2211.06607v1 )

ライセンス: Link先を確認
Xiaocui Yang, Shi Feng, Daling Wang, Pengfei Hong, Soujanya Poria(参考訳) マルチモーダル感情分析(multimodal sentiment analysis)は、web上のマルチモーダルコンテンツの爆発を伴うトレンドトピックである。 マルチモーダル感情分析の現在の研究は、大規模教師付きデータに依存している。 監督されたデータの照合は時間がかかり、労働集約的です。 そのため, 数発マルチモーダル感情分析の問題点を検討することが不可欠である。 従来の数ショットモデルでは、一般的に言語モデルプロンプトを使用しており、低リソース設定のパフォーマンスを改善することができる。 しかし、テキストプロンプトは他のモダリティからの情報を無視する。 マルチモーダルな感情検出のための多様な手がかりを提供するマルチモーダル確率核融合プロンプトを提案する。 まず、異なるモーダルプロンプトの差を低減するために、統一マルチモーダルプロンプトを設計する。 モデルのロバスト性を改善するために,入力毎に多種多様なプロンプトを活用し,出力予測を融合する確率的手法を提案する。 3つのデータセットで広範な実験を行い,本手法の有効性を確認した。

Multimodal sentiment analysis is a trending topic with the explosion of multimodal content on the web. Present studies in multimodal sentiment analysis rely on large-scale supervised data. Collating supervised data is time-consuming and labor-intensive. As such, it is essential to investigate the problem of few-shot multimodal sentiment analysis. Previous works in few-shot models generally use language model prompts, which can improve performance in low-resource settings. However, the textual prompt ignores the information from other modalities. We propose Multimodal Probabilistic Fusion Prompts, which can provide diverse cues for multimodal sentiment detection. We first design a unified multimodal prompt to reduce the discrepancy in different modal prompts. To improve the robustness of our model, we then leverage multiple diverse prompts for each input and propose a probabilistic method to fuse the output predictions. Extensive experiments conducted on three datasets confirm the effectiveness of our approach.
翻訳日:2022-11-15 18:50:10 公開日:2022-11-12
# ニューラルミシンを用いた構造保存型3次元衣服モデリング

Structure-Preserving 3D Garment Modeling with Neural Sewing Machines ( http://arxiv.org/abs/2211.06701v1 )

ライセンス: Link先を確認
Xipeng Chen, Guangrun Wang, Dizhong Zhu, Xiaodan Liang, Philip H. S. Torr and Liang Lin(参考訳) 3Dガーメントモデリングはコンピュータビジョンとグラフィックスの領域において重要かつ困難なトピックであり、衣服表現学習、衣服再構成、制御可能な衣服操作に注目が集まる一方で、既存の手法は特定のカテゴリーや比較的単純なトポロジーで衣服をモデル化することに制約されていた。 本稿では, 多様な形状とトポロジを持つ衣服の表現を学習し, 3次元衣料の再構築と制御可能な操作にうまく応用できる, 構造保存型3次元衣料品モデリングの学習基盤であるニューラル縫製機(NSM)を提案する。 まず,縫製パターンを統一した縫製パターン符号化モジュールを用いて縫製パターン埋め込みを行い,縫製パターンが3d衣服の固有構造とトポロジーを正確に記述できることを示す。 次に,3d衣料デコーダを用いて,マスク付きuv位置マップを用いて3d衣料に埋め込まれた縫製パターンをデコードする。 予測された3次元衣服の本質的な構造を維持するために,内パネル構造保存損失,パネル構造保存損失,およびフレームワークの学習過程における表面正規損失を導入する。 縫製パターンを多種多様な衣服形状とカテゴリで表したパブリック3次元衣服データセット上でNSMを評価した。 広汎な実験により,NSMは多種多様な衣服形状とトポロジで3D衣服を表現でき,保存された構造で2D画像からリアルに3D衣服を再構築し,立体衣服のカテゴリ,形状,トポロジを正確に操作し,最先端の手法よりも鮮明なマージンを達成できることが示された。

3D Garment modeling is a critical and challenging topic in the area of computer vision and graphics, with increasing attention focused on garment representation learning, garment reconstruction, and controllable garment manipulation, whereas existing methods were constrained to model garments under specific categories or with relatively simple topologies. In this paper, we propose a novel Neural Sewing Machine (NSM), a learning-based framework for structure-preserving 3D garment modeling, which is capable of learning representations for garments with diverse shapes and topologies and is successfully applied to 3D garment reconstruction and controllable manipulation. To model generic garments, we first obtain sewing pattern embedding via a unified sewing pattern encoding module, as the sewing pattern can accurately describe the intrinsic structure and the topology of the 3D garment. Then we use a 3D garment decoder to decode the sewing pattern embedding into a 3D garment using the UV-position maps with masks. To preserve the intrinsic structure of the predicted 3D garment, we introduce an inner-panel structure-preserving loss, an inter-panel structure-preserving loss, and a surface-normal loss in the learning process of our framework. We evaluate NSM on the public 3D garment dataset with sewing patterns with diverse garment shapes and categories. Extensive experiments demonstrate that the proposed NSM is capable of representing 3D garments under diverse garment shapes and topologies, realistically reconstructing 3D garments from 2D images with the preserved structure, and accurately manipulating the 3D garment categories, shapes, and topologies, outperforming the state-of-the-art methods by a clear margin.
翻訳日:2022-11-15 18:17:56 公開日:2022-11-12
# cGANを用いた心電図記録の自動抽出とデジタル化

Auto Lead Extraction and Digitization of ECG Paper Records using cGAN ( http://arxiv.org/abs/2211.06720v1 )

ライセンス: Link先を確認
Rupali Patil, Bhairav Narkhede, Shubham Varma, Shreyans Suraliya, Ninad Mehendale(参考訳) 目的:心電図(ECG)は、心臓病の診断に使用される最も単純かつ高速な生体医学検査である。 ECG信号は一般に紙形式で格納されるため、データの保存と分析が困難になる。 紙ECGレコードからECGのリードをキャプチャする一方で、多くのバックグラウンド情報がキャプチャされ、誤ったデータ解釈がもたらされる。 方法: カメラを用いた12個の心電図画像から12個の鉛を個別に抽出する深層学習モデルを提案する。 また,ECGの解析と複雑なパラメータの計算を簡単にするために,紙ECGフォーマットを保存可能なデジタルフォーマットに変換する手法を提案する。 You Only Look Once, Version 3 (YOLOv3) アルゴリズムは画像中の鉛を抽出するために使われている。 これらのリードは別のディープラーニングモデルに渡され、ECG信号と背景をシングルリード画像から分離する。 その後、ECG信号上で垂直走査を行い、1次元(1D)デジタル形式に変換する。 デジタル化を行うために,ピクセル2ピクセルの深層学習モデルを用いてECG信号をバイナライズした。 結果: 提案手法は97.4 %の精度を達成できた。 結論: 論文ECGの情報は時間とともに消えていく。 したがって、デジタル化されたECG信号は、いつでもレコードを保存してアクセスすることができる。 これは心電図の頻繁な報告を必要とする心臓患者にとって非常に有益である。 このデータは、データを解析できるコンピュータアルゴリズムの開発に使用できるため、保存されたデータは研究目的にも有用である。

Purpose: An Electrocardiogram (ECG) is the simplest and fastest bio-medical test that is used to detect any heart-related disease. ECG signals are generally stored in paper form, which makes it difficult to store and analyze the data. While capturing ECG leads from paper ECG records, a lot of background information is also captured, which results in incorrect data interpretation. Methods: We propose a deep learning-based model for individually extracting all 12 leads from 12-lead ECG images captured using a camera. To simplify the analysis of the ECG and the calculation of complex parameters, we also propose a method to convert the paper ECG format into a storable digital format. The You Only Look Once, Version 3 (YOLOv3) algorithm has been used to extract the leads present in the image. These leads are then passed on to another deep learning model which separates the ECG signal and background from the single-lead image. After that, vertical scanning is performed on the ECG signal to convert it into a 1-Dimensional (1D) digital form. To perform the task of digitalization, we used the pix-2-pix deep learning model and binarized the ECG signals. Results: Our proposed method was able to achieve an accuracy of 97.4 %. Conclusion: The information on the paper ECG fades away over time. Hence, the digitized ECG signals make it possible to store the records and access them anytime. This proves highly beneficial for heart patients who require frequent ECG reports. The stored data can also be useful for research purposes, as this data can be used to develop computer algorithms that are capable of analyzing the data.
翻訳日:2022-11-15 18:17:24 公開日:2022-11-12
# MultiCrossViT:構造MRIと機能的ネットワーク接続データを用いた統合失調症予測用マルチモーダル視覚変換器

MultiCrossViT: Multimodal Vision Transformer for Schizophrenia Prediction using Structural MRI and Functional Network Connectivity Data ( http://arxiv.org/abs/2211.06726v1 )

ライセンス: Link先を確認
Yuda Bi, Anees Abrol, Zening Fu, Vince Calhoun(参考訳) Vision Transformer (ViT)は、画像分類やオブジェクト認識といった現実のコンピュータビジョン問題に対処できる、先駆的なディープラーニングフレームワークである。 重要なのは、ViTが畳み込みニューラルネットワーク(CNN)のような従来のディープラーニングモデルを上回ることが証明されていることだ。 最近になって、多くのViT変異が医療画像の分野に移植され、特に脳画像データにおいて、様々な重要な分類とセグメンテーションの課題が解決された。 本研究では,統合失調症予測のための構造的MRI(sMRI)と静的機能的ネットワーク接続(sFNC)データの両方を解析できるマルチモーダル深層学習パイプラインであるMultiCrossViTを提案する。 最小限のトレーニング対象を持つデータセットでは、新しいモデルは0.832のAUCを達成できる。 最後に, 統合失調症に関連する複数の脳領域と共分散パターンを, トランスフォーマーエンコーダの特徴を抽出することにより可視化する。

Vision Transformer (ViT) is a pioneering deep learning framework that can address real-world computer vision issues, such as image classification and object recognition. Importantly, ViTs are proven to outperform traditional deep learning models, such as convolutional neural networks (CNNs). Relatively recently, a number of ViT mutations have been transplanted into the field of medical imaging, thereby resolving a variety of critical classification and segmentation challenges, especially in terms of brain imaging data. In this work, we provide a novel multimodal deep learning pipeline, MultiCrossViT, which is capable of analyzing both structural MRI (sMRI) and static functional network connectivity (sFNC) data for the prediction of schizophrenia disease. On a dataset with minimal training subjects, our novel model can achieve an AUC of 0.832. Finally, we visualize multiple brain regions and covariance patterns most relevant to schizophrenia based on the resulting ViT attention maps by extracting features from transformer encoders.
翻訳日:2022-11-15 18:17:02 公開日:2022-11-12
# MixBin: 予算のバイナリ化を目指す

MixBin: Towards Budgeted Binarization ( http://arxiv.org/abs/2211.06739v1 )

ライセンス: Link先を確認
Udbhav Bamba, Neeraj Anand, Dilip K. Prasad, Deepak K. Gupta(参考訳) バイナリ化は、ニューラルネットワーク圧縮の最も効果的な方法のひとつであることが証明されており、元のモデルのFLOPを広範囲に削減している。 しかし、このようなレベルの圧縮は、しばしば性能の大幅な低下を伴う。 ネットワークの部分的なバイナリ化を容易にすることで、パフォーマンス低下を軽減するいくつかのアプローチが存在するが、単一のネットワークでバイナリと全精度パラメータを混合する体系的なアプローチはまだ欠けている。 本稿では,制御された感覚でニューラルネットワークの部分二元化を行うパラダイムを提案し,予算付き二元ニューラルネットワーク(b2nn)を構築する。 本研究では,b2nn を構成する反復探索型戦略である mixbin を提案する。 mixbinは、ネットワークのおよその分数をバイナリとして明示的に選択することで、所定の予算で推論コストを適用できる柔軟性を提供する。 我々は、MixBin戦略から得られたB2NNが、ネットワーク層のランダムな選択から得られるものよりもはるかに優れていることを示す。 半二項化を効果的に行うためには、B2NNの完全精度とバイナリコンポーネントの両方を適切に最適化することが重要である。 また、このプロセスにおいて活性化関数の選択が大きな影響を与えることを実証し、この問題を回避するために、B2NNのバイナリコンポーネントと同様に、全精度で有効な活性化関数として使用できるBinReLUを提案する。 実験的研究により、binreluはb2nnの全ての可能なシナリオで他の活性化関数よりも優れていることが判明した。 最後に,ベンチマークデータセットを用いた分類とオブジェクト追跡におけるmixbinの有効性を示す。

Binarization has proven to be amongst the most effective ways of neural network compression, reducing the FLOPs of the original model by a large extent. However, such levels of compression are often accompanied by a significant drop in the performance. There exist some approaches that reduce this performance drop by facilitating partial binarization of the network, however, a systematic approach to mix binary and full-precision parameters in a single network is still missing. In this paper, we propose a paradigm to perform partial binarization of neural networks in a controlled sense, thereby constructing budgeted binary neural network (B2NN). We present MixBin, an iterative search-based strategy that constructs B2NN through optimized mixing of the binary and full-precision components. MixBin allows to explicitly choose the approximate fraction of the network to be kept as binary, thereby presenting the flexibility to adapt the inference cost at a prescribed budget. We demonstrate through experiments that B2NNs obtained from our MixBin strategy are significantly better than those obtained from random selection of the network layers. To perform partial binarization in an effective manner, it is important that both the full-precision as well as the binary components of the B2NN are appropriately optimized. We also demonstrate that the choice of the activation function can have a significant effect on this process, and to circumvent this issue, we present BinReLU, that can be used as an effective activation function for the full-precision as well as the binary components of any B2NN. Experimental investigations reveal that BinReLU outperforms the other activation functions in all possible scenarios of B2NN: zero-, partial- as well as full binarization. Finally, we demonstrate the efficacy of MixBin on the tasks of classification and object tracking using benchmark datasets.
翻訳日:2022-11-15 18:16:45 公開日:2022-11-12
# 生体認証のための少数ショット学習

Few-Shot Learning for Biometric Verification ( http://arxiv.org/abs/2211.06761v1 )

ライセンス: Link先を確認
Umaid M. Zaffar, Marium Aslam, Muhammad Imran Malik and Saad Bin Ahmed(参考訳) 機械学習アプリケーションでは、できるだけ多くの情報を供給することが一般的である。 ほとんどの場合、モデルはより正確に予測できる大規模なデータセットを扱うことができる。 データ不足の存在下では、Few-Shot Learning(FSL)アプローチは、トレーニングデータに制限のあるより正確なアルゴリズムを構築することを目的としている。 本稿では,Few-Shot 学習手法による最先端のアキュラシーと比較し,バイオメトリックスデータの検証を行う,新しいエンドツーエンド軽量アーキテクチャを提案する。 高密度層は最先端のディープラーニングモデルの複雑さを増し、低消費電力アプリケーションでの使用を阻害する。 提案するアプローチでは、浅層ネットワークと従来の機械学習手法を組み合わせることで、手作りの機能を活用し、シグネチャ、眼窩領域、虹彩、顔、指紋など、マルチモーダルソースからのバイオメトリックイメージを検証する。 本研究では,False Acceptance Rate (FAR) を厳格に監視する自己推定しきい値を導入し,その結果を一般化し,ローカルデータ分布に偏りやすいROC曲線からユーザ定義しきい値を排除する。 このハイブリッドモデルは、バイオメトリックユースケースにおけるデータの不足を補うために、数ショットの学習の恩恵を受ける。 汎用バイオメトリックデータセットを用いた広範囲な実験を行った。 その結果,生体認証システムに対する有効解が得られた。

In machine learning applications, it is common practice to feed as much information as possible. In most cases, the model can handle large data sets that allow to predict more accurately. In the presence of data scarcity, a Few-Shot learning (FSL) approach aims to build more accurate algorithms with limited training data. We propose a novel end-to-end lightweight architecture that verifies biometric data by producing competitive results as compared to state-of-the-art accuracies through Few-Shot learning methods. The dense layers add to the complexity of state-of-the-art deep learning models which inhibits them to be used in low-power applications. In presented approach, a shallow network is coupled with a conventional machine learning technique that exploits hand-crafted features to verify biometric images from multi-modal sources such as signatures, periocular region, iris, face, fingerprints etc. We introduce a self-estimated threshold that strictly monitors False Acceptance Rate (FAR) while generalizing its results hence eliminating user-defined thresholds from ROC curves that are likely to be biased on local data distribution. This hybrid model benefits from few-shot learning to make up for scarcity of data in biometric use-cases. We have conducted extensive experimentation with commonly used biometric datasets. The obtained results provided an effective solution for biometric verification systems.
翻訳日:2022-11-15 18:16:18 公開日:2022-11-12
# OpenGait: より良い実践性に向けた歩行認識の再考

OpenGait: Revisiting Gait Recognition Toward Better Practicality ( http://arxiv.org/abs/2211.06597v1 )

ライセンス: Link先を確認
Chao Fan and Junhao Liang and Chuanfu Shen and Saihui Hou and Yongzhen Huang and Shiqi Yu(参考訳) 歩行認識は長距離識別技術の中でも最も重要な技術であり、研究と産業の両方で人気が高まっている。 屋内のデータセットでは大きな進歩があったが、多くの証拠は歩行認識技術が野生では不十分であることを示している。 さらに重要なことは、事前の作業からの結論が評価データセットによって変わることです。 したがって,本論文のより重要な目標は,特定のモデルに限らず,より実践性の高い総合的なベンチマーク研究を行うことである。 そこで我々はまず,OpenGaitという,柔軟かつ効率的な歩行認識コードベースを開発した。 OpenGaitをベースとして,最近の歩行認識の発達を,アブレーション実験の再実施によって深く再考する。 引き続き、先行研究の隠れた問題や、今後の研究への新たな洞察を見出す。 これらの発見に触発されて、構造的にシンプルで、経験的に強力で、事実上堅牢なベースラインモデルであるGaitBaseを開発した。 実験として,複数の公開データセット上で,現在行われている多くの歩行認識手法とgaitbaseを包括的に比較し,その結果から,gaitbaseは屋内や屋外の状況によらず,ほとんどのケースで著しく高い性能を達成していることが示唆された。 ソースコードは \url{https://github.com/shiqiyu/opengait} で入手できる。

Gait recognition is one of the most important long-distance identification technologies and increasingly gains popularity in both research and industry communities. Although significant progress has been made in indoor datasets, much evidence shows that gait recognition techniques perform poorly in the wild. More importantly, we also find that many conclusions from prior works change with the evaluation datasets. Therefore, the more critical goal of this paper is to present a comprehensive benchmark study for better practicality rather than only a particular model for better performance. To this end, we first develop a flexible and efficient gait recognition codebase named OpenGait. Based on OpenGait, we deeply revisit the recent development of gait recognition by re-conducting the ablative experiments. Encouragingly, we find many hidden troubles of prior works and new insights for future research. Inspired by these discoveries, we develop a structurally simple, empirically powerful and practically robust baseline model, GaitBase. Experimentally, we comprehensively compare GaitBase with many current gait recognition methods on multiple public datasets, and the results reflect that GaitBase achieves significantly strong performance in most cases regardless of indoor or outdoor situations. The source code is available at \url{https://github.com/ShiqiYu/OpenGait}.
翻訳日:2022-11-15 18:08:39 公開日:2022-11-12
# AU-Aware Vision Transformer for Biased Facial Expression Recognition

AU-Aware Vision Transformers for Biased Facial Expression Recognition ( http://arxiv.org/abs/2211.06609v1 )

ライセンス: Link先を確認
Shuyi Mao, Xinpeng Li, Qingyang Wu, and Xiaojiang Peng(参考訳) 研究は、ドメインバイアスとラベルバイアスが異なる表情認識(FER)データセットに存在することを証明し、他のデータセットを追加することで特定のデータセットのパフォーマンスを改善するのが難しくなった。 FERバイアス問題に関して、最近の研究は主に高度なドメイン適応アルゴリズムによるドメイン横断問題に焦点を当てている。 本稿では、クロスドメインデータセットを活用することでFERパフォーマンスを向上する方法について述べる。 粗い、偏りのある表現ラベルとは異なり、顔行動単位(AU)はきめ細やかで、心理学的な研究によって示唆される。 これを受けて、異なるFERデータセットのAU情報を利用してパフォーマンスを向上し、以下のように貢献する。 まず,複数のFERデータセットのナイーブな共同トレーニングが個別データセットのFER性能に有害であることを実験的に示す。 さらに、FERデータセットバイアスを測定するために、表現特異的平均画像とAUコサイン距離を導入する。 この新しい測定は,関節訓練の実験的劣化と一貫性のある結論を示す。 次に,概念的に新しいフレームワークau-aware vision transformer (au-vit)を提案する。 AUまたは擬似AUラベルで補助データセットを共同でトレーニングすることで、個々のデータセットのパフォーマンスを向上させる。 また、AU-ViTは現実世界の閉塞に対して堅牢であることも判明した。 さらに,注意深い初期化vitが高度な深層畳み込みネットワークと同等の性能を達成できることを初めて証明した。 私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。 コードとモデルはまもなくリリースされる予定だ。

Studies have proven that domain bias and label bias exist in different Facial Expression Recognition (FER) datasets, making it hard to improve the performance of a specific dataset by adding other datasets. For the FER bias issue, recent researches mainly focus on the cross-domain issue with advanced domain adaption algorithms. This paper addresses another problem: how to boost FER performance by leveraging cross-domain datasets. Unlike the coarse and biased expression label, the facial Action Unit (AU) is fine-grained and objective suggested by psychological studies. Motivated by this, we resort to the AU information of different FER datasets for performance boosting and make contributions as follows. First, we experimentally show that the naive joint training of multiple FER datasets is harmful to the FER performance of individual datasets. We further introduce expression-specific mean images and AU cosine distances to measure FER dataset bias. This novel measurement shows consistent conclusions with experimental degradation of joint training. Second, we propose a simple yet conceptually-new framework, AU-aware Vision Transformer (AU-ViT). It improves the performance of individual datasets by jointly training auxiliary datasets with AU or pseudo-AU labels. We also find that the AU-ViT is robust to real-world occlusions. Moreover, for the first time, we prove that a carefully-initialized ViT achieves comparable performance to advanced deep convolutional networks. Our AU-ViT achieves state-of-the-art performance on three popular datasets, namely 91.10% on RAF-DB, 65.59% on AffectNet, and 90.15% on FERPlus. The code and models will be released soon.
翻訳日:2022-11-15 18:08:18 公開日:2022-11-12
# marlin: 顔ビデオ表現学習のためのマスク付きオートエンコーダ

MARLIN: Masked Autoencoder for facial video Representation LearnINg ( http://arxiv.org/abs/2211.06627v1 )

ライセンス: Link先を確認
Zhixi Cai, Shreya Ghosh, Kalin Stefanov, Abhinav Dhall, Jianfei Cai, Hamid Rezatofighi, Reza Haffari, Munawar Hayat(参考訳) 本稿では,表情属性認識 (far), 表情認識 (fer), ディープフェイク検出 (dfd), 口唇同期 (ls) などの様々な顔分析タスクにおいて, 映像から普遍的な表情表現を学習するための自己教師ありアプローチを提案する。 提案するフレームワークはMARLINという顔ビデオの自動エンコーダで,十分に利用可能なウェブクローリング顔ビデオから,非常に堅牢で汎用的な顔埋め込みを学習する。 難しい補助課題として、MARLINは、目、鼻、口、唇、皮膚を含む密集した顔領域から顔の時空間的詳細を再構成し、局所的および世界的側面を捉え、汎用的で伝達可能な特徴をコード化するのに役立つ。 様々な下流タスクに関する様々な実験を通じて、MARLINは優れた顔ビデオエンコーダであり、特徴抽出器であり、FAR(1.13%)、FER(2.64%)、DFD(1.86%)、LS(29.36%)、低データ体制でも一貫して機能することを示した。 私たちのコードと事前訓練されたモデルは公開されます。

This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our codes and pre-trained models will be made public.
翻訳日:2022-11-15 18:07:51 公開日:2022-11-12
# 壁画損傷の進行的インペインティングを指導する線画

Line Drawing Guided Progressive Inpainting of Mural Damages ( http://arxiv.org/abs/2211.06649v1 )

ライセンス: Link先を確認
Luxi Li, Qin Zou, Fan Zhang, Hongkai Yu, Long Chen, Chengfang Song, Xianfeng Huang, Xiaoguang Wang(参考訳) 壁画塗装とは、壁画の損傷や欠落箇所を修復して視覚的な外観を復元することを指す。 既存の画像塗装法の多くは、ターゲット画像のみを入力とし、損傷を直接修復して視覚的に妥当な結果を生成する傾向にある。 これらの手法は、人間の顔、織物のテクスチャ、印刷されたテキストなどの特定の物体の復元や完成において高い性能を発揮するが、様々な対象の壁画、特に大きな損傷を受けた壁画の修復には適さない。 また,絵具の彩色の違いから,壁画の彩色は自然画の彩色に比べて明らかな彩色バイアスに悩まされる可能性がある。 そこで本稿では,線画ガイドによる進行壁画塗装法を提案する。 塗工工程は、それぞれ構造復元ネットワーク(srn)と色補正ネットワーク(ccn)によって実行される構造復元と色補正の2つのステップに分けられる。 構造復元では,SRNによる大規模コンテンツ信頼性と構造安定性の保証として線描画を用いる。 色補正において、ccnは欠落画素の局所的な色調整を行い、色バイアスとエッジジャンプの悪影響を低減させる。 提案手法は,現在の画像塗装法に対して評価される。 壁画の塗装において,提案手法の質的,定量的に優れることを示す。 コードとデータは{https://github.com/qinnzou/mural-image-inpainting}で入手できる。

Mural image inpainting refers to repairing the damage or missing areas in a mural image to restore the visual appearance. Most existing image-inpainting methods tend to take a target image as the only input and directly repair the damage to generate a visually plausible result. These methods obtain high performance in restoration or completion of some specific objects, e.g., human face, fabric texture, and printed texts, etc., however, are not suitable for repairing murals with varied subjects, especially for murals with large damaged areas. Moreover, due to the discrete colors in paints, mural inpainting may suffer from apparent color bias as compared to natural image inpainting. To this end, in this paper, we propose a line drawing guided progressive mural inpainting method. It divides the inpainting process into two steps: structure reconstruction and color correction, executed by a structure reconstruction network (SRN) and a color correction network (CCN), respectively. In the structure reconstruction, line drawings are used by SRN as a guarantee for large-scale content authenticity and structural stability. In the color correction, CCN operates a local color adjustment for missing pixels which reduces the negative effects of color bias and edge jumping. The proposed approach is evaluated against the current state-of-the-art image inpainting methods. Qualitative and quantitative results demonstrate the superiority of the proposed method in mural image inpainting. The codes and data are available at {https://github.com/qinnzou/mural-image-inpainting}.
翻訳日:2022-11-15 18:07:22 公開日:2022-11-12
# スタイルGAN2モデル適応法を用いた無教師下顔の異常評価

Unsupervised Anomaly Appraisal of Cleft Faces Using a StyleGAN2-based Model Adaptation Technique ( http://arxiv.org/abs/2211.06659v1 )

ライセンス: Link先を確認
Abdullah Hayajneh, Mohammad Shaqfeh, Erchin Serpedin, Mitchell A. Stotland(参考訳) 本稿では,人間の顔における先天性口唇異常を一貫して検出し,局所化し,評価する新しい機械学習フレームワークを提案する。 目標は、顔の違いを普遍的に客観的に測定し、人間の判断と一致する再建的な手術結果を提供することである。 提案手法では, モデル適応を用いたStyleGAN2生成逆数ネットワークを用いて, 顔の正常化を図り, 画素単位の減算手法を用いて変形度を連続的に測定する。 提案するフレームワークの完全なパイプラインは, 画像前処理, 顔の正規化, 色変換, 形態的侵食, 熱マップ生成, 異常点の3段階からなる。 このフレームワークの特徴を生かして、解剖学的異常を細かく識別するヒートマップが提案されている。 提案手法は,人間の評価を含むコンピュータシミュレーションと調査によって検証される。 提案したコンピュータモデルによる異常スコアは、人間の顔の違いのレーティングと密接に相関しており、ピアソンのrスコアは0.942であった。

This paper presents a novel machine learning framework to consistently detect, localize and rate congenital cleft lip anomalies in human faces. The goal is to provide a universal, objective measure of facial differences and reconstructive surgical outcomes that matches human judgments. The proposed method employs the StyleGAN2 generative adversarial network with model adaptation to produce normalized transformations of cleft-affected faces in order to allow for subsequent measurement of deformity using a pixel-wise subtraction approach. The complete pipeline of the proposed framework consists of the following steps: image preprocessing, face normalization, color transformation, morphological erosion, heat-map generation and abnormality scoring. Heatmaps that finely discern anatomic anomalies are proposed by exploiting the features of the considered framework. The proposed framework is validated through computer simulations and surveys containing human ratings. The anomaly scores yielded by the proposed computer model correlate closely with the human ratings of facial differences, leading to 0.942 Pearson's r score.
翻訳日:2022-11-15 18:07:00 公開日:2022-11-12
# 深部空間の遠方:最近近傍の近距離分布検出

Far Away in the Deep Space: Nearest-Neighbor-Based Dense Out-of-Distribution Detection ( http://arxiv.org/abs/2211.06660v1 )

ライセンス: Link先を確認
Silvio Galesso, Max Argus, Thomas Brox(参考訳) 分布外検出の鍵は、分布内データまたはその特徴表現の密度推定である。 この問題に対する優れたパラメトリック解は、よく計算された分類データには存在するが、セマンティックセグメンテーションのような複雑な領域には適さない。 本稿では、k-nearest-neighborsアプローチが、小さな参照データセットとランタイムで驚くほど良い結果を得ることができ、近隣の数やサポートセットサイズの選択といったハイパーパラメータに関して堅牢であることを示す。 さらに, 標準パラメトリック手法の異常値と組み合わせることで, k-Nearest-Neighborsと組み合わせて新しい物体を検出するのに, トランスフォーマーの特徴が特に適していることを示す。 究極的には、このアプローチは単純かつ非侵襲的であり、すなわち、プライマリセグメンテーションのパフォーマンスに影響せず、異常の例のトレーニングを避け、+23%と+16%の ap 改善をそれぞれ roadanomaly と streethazard で行った共通ベンチマークで最先端の結果を得る。

The key to out-of-distribution detection is density estimation of the in-distribution data or of its feature representations. While good parametric solutions to this problem exist for well curated classification data, these are less suitable for complex domains, such as semantic segmentation. In this paper, we show that a k-Nearest-Neighbors approach can achieve surprisingly good results with small reference datasets and runtimes, and be robust with respect to hyperparameters, such as the number of neighbors and the choice of the support set size. Moreover, we show that it combines well with anomaly scores from standard parametric approaches, and we find that transformer features are particularly well suited to detect novel objects in combination with k-Nearest-Neighbors. Ultimately, the approach is simple and non-invasive, i.e., it does not affect the primary segmentation performance, avoids training on examples of anomalies, and achieves state-of-the-art results on the common benchmarks with +23% and +16% AP improvements on on RoadAnomaly and StreetHazards respectively.
翻訳日:2022-11-15 18:06:42 公開日:2022-11-12
# NeighborTrack: 隣のトラックレットとのマッチングによる単一オブジェクト追跡の改善

NeighborTrack: Improving Single Object Tracking by Bipartite Matching with Neighbor Tracklets ( http://arxiv.org/abs/2211.06663v1 )

ライセンス: Link先を確認
Yu-Hsi Chen, Chien-Yao Wang, Cheng-Yun Yang, Hung-Shuo Chang, Youn-Long Lin, Yung-Yu Chuang, and Hong-Yuan Mark Liao(参考訳) 本研究では,追従対象の周辺情報を利用して単一対象追跡(SOT)結果の検証と改善を行う,NeighborTrackというポストプロセッサを提案する。 追加のデータやリトレーニングは不要だ。 代わりに、バックボーンSOTネットワークによって予測される信頼スコアを使用して、近隣情報を自動的に導き、この情報を使用して追跡結果を改善する。 隠されたターゲットを追跡する場合、その外観は信頼できない。 しかし,一般的なサイムズネットワークでは,高い信頼度を持つ隣人によって誤解される可能性があるため,信頼度を単独で読み取るだけで追跡対象が隠蔽されているかどうかを判断できないことが多い。 提案したNeighborTrackは、非閉鎖の隣人の情報を利用して、追跡対象を再確認し、対象が閉鎖された場合の偽追跡を低減する。 閉塞による影響を減少させるだけでなく、オブジェクトの出現変化によるトラッキング問題も修正する。 NeighborTrackは、SOTネットワークやポストプロセッシングメソッドに依存しない。 短期オブジェクト追跡で一般的に使用されるVOTチャレンジデータセットでは、Ocean、TransT、OSTrackの3つの有名なSOTネットワークを平均${1.92\%}$EAOと${2.11\%}$ロバストネスで改善する。 OSTrackをベースとした中長期追跡実験では、最先端の${72.25\%}$AUC on LaSOTと${75.7\%}$AO on GOT-10Kを実現している。

We propose a post-processor, called NeighborTrack, that leverages neighbor information of the tracking target to validate and improve single-object tracking (SOT) results. It requires no additional data or retraining. Instead, it uses the confidence score predicted by the backbone SOT network to automatically derive neighbor information and then uses this information to improve the tracking results. When tracking an occluded target, its appearance features are untrustworthy. However, a general siamese network often cannot tell whether the tracked object is occluded by reading the confidence score alone, because it could be misled by neighbors with high confidence scores. Our proposed NeighborTrack takes advantage of unoccluded neighbors' information to reconfirm the tracking target and reduces false tracking when the target is occluded. It not only reduces the impact caused by occlusion, but also fixes tracking problems caused by object appearance changes. NeighborTrack is agnostic to SOT networks and post-processing methods. For the VOT challenge dataset commonly used in short-term object tracking, we improve three famous SOT networks, Ocean, TransT, and OSTrack, by an average of ${1.92\%}$ EAO and ${2.11\%}$ robustness. For the mid- and long-term tracking experiments based on OSTrack, we achieve state-of-the-art ${72.25\%}$ AUC on LaSOT and ${75.7\%}$ AO on GOT-10K.
翻訳日:2022-11-15 18:06:17 公開日:2022-11-12
# 部分的視覚的セマンティックな埋め込み: 分節学習によるファッションインテリジェンスシステム

Partial Visual-Semantic Embedding: Fashion Intelligence System with Sensitive Part-by-Part Learning ( http://arxiv.org/abs/2211.06688v1 )

ライセンス: Link先を確認
Ryotaro Shimizu, Takuma Nakamura, Masayuki Goto(参考訳) 本研究では,「カジュアル」や「カルト・カジュアル」や「オフィス・カジュアル」といった,ファッションに特有の抽象的かつ複雑な表現を定量化し,ユーザのファッション理解を支援するために,VSEモデルに基づくファッションインテリジェンスシステムを提案する。 しかし、既存のvseモデルは、髪、トップス、パンツ、スカート、靴など、複数の部分から構成されている状況をサポートしていない。 本稿では,ファッション座標の各部分にセンシティブな学習を可能にする部分的VSEを提案する。 提案モデルは部分的に組込み表現を学習する。 これにより、既存の様々な実用機能を維持し、特定の部分にのみ変更を加えるイメージ検索タスクと、特定の部分にフォーカスするイメージ並べ替えタスクを可能にする。 これは従来のモデルでは不可能だった。 定性的および定量的評価実験から,提案モデルが計算複雑性を増大させることなく従来のモデルよりも優れていることを示す。

In this study, we propose a technology called the Fashion Intelligence System based on the visual-semantic embedding (VSE) model to quantify abstract and complex expressions unique to fashion, such as ''casual,'' ''adult-casual,'' and ''office-casual,'' and to support users' understanding of fashion. However, the existing VSE model does not support the situations in which the image is composed of multiple parts such as hair, tops, pants, skirts, and shoes. We propose partial VSE, which enables sensitive learning for each part of the fashion coordinates. The proposed model partially learns embedded representations. This helps retain the various existing practical functionalities and enables image-retrieval tasks in which changes are made only to the specified parts and image reordering tasks that focus on the specified parts. This was not possible with conventional models. Based on both the qualitative and quantitative evaluation experiments, we show that the proposed model is superior to conventional models without increasing the computational complexity.
翻訳日:2022-11-15 18:05:49 公開日:2022-11-12
# TINC:木構造インプシットニューラル圧縮

TINC: Tree-structured Implicit Neural Compression ( http://arxiv.org/abs/2211.06689v1 )

ライセンス: Link先を確認
Runzhao Yang, Tingxiong Xiao, Yuxiao Cheng, Jinli Suo, Qionghai Dai(参考訳) Inlicit Neural representation (INR)は、少数のパラメータを用いて高い忠実度でターゲットシーンを記述することができ、有望なデータ圧縮技術として登場している。 しかし、INRは本質的にスペクトル範囲が限られており、多様な複雑なデータの冗長性を効果的に除去することは自明ではない。 予備的な研究は、対象データにおける大域的または局所的な相関のみを活用できるため、性能が制限される。 本稿では,局所領域に対してコンパクトな表現を行い,これらの局所表現の共有特徴を階層的に抽出する木構造型インプリシトニューラルネットワーク圧縮(TINC)を提案する。 具体的には, mlpを分割した局所領域に適合させ, これらのmlpを木構造に整理し, 空間距離に応じてパラメータを共有する。 パラメータ共有方式は隣接領域間の連続性を保証するだけでなく、局所的および非局所的な冗長性も同時に除去する。 大規模な実験により、TINCはINRの圧縮精度を改善し、商用ツールや他のディープラーニングベースの手法よりも印象的な圧縮能力を示した。 さらに、このアプローチは柔軟性が高く、さまざまなデータやパラメータ設定に合わせて調整できる。 再現可能なすべてのコードはgithubでリリースされる予定だ。

Implicit neural representation (INR) can describe the target scenes with high fidelity using a small number of parameters, and is emerging as a promising data compression technique. However, INR in intrinsically of limited spectrum coverage, and it is non-trivial to remove redundancy in diverse complex data effectively. Preliminary studies can only exploit either global or local correlation in the target data and thus of limited performance. In this paper, we propose a Tree-structured Implicit Neural Compression (TINC) to conduct compact representation for local regions and extract the shared features of these local representations in a hierarchical manner. Specifically, we use MLPs to fit the partitioned local regions, and these MLPs are organized in tree structure to share parameters according to the spatial distance. The parameter sharing scheme not only ensures the continuity between adjacent regions, but also jointly removes the local and non-local redundancy. Extensive experiments show that TINC improves the compression fidelity of INR, and has shown impressive compression capabilities over commercial tools and other deep learning based methods. Besides, the approach is of high flexibility and can be tailored for different data and parameter settings. All the reproducible codes are going to be released on github.
翻訳日:2022-11-15 18:05:30 公開日:2022-11-12
# 健全物体検出のための多段階特徴集約フレームワーク

Multistep feature aggregation framework for salient object detection ( http://arxiv.org/abs/2211.06697v1 )

ライセンス: Link先を確認
Xiaogang Liu Shuang Song(参考訳) 近年、高レベルな特徴や低レベルな特徴が、高レベルなオブジェクトの配置に協力できるような、多機能なオブジェクト検出技術が開発されている。 以前の手法の多くは、サルエントオブジェクト検出において優れた性能を達成している。 高レベルと低レベルの機能を融合することで、多数の特徴情報を抽出することができる。 一般的には、これらを片道フレームワークで実行し、最終的な機能出力まで、変数の機能をインターウィーブしています。 これは、サラレンシーマップのぼやけや不正確な位置化を引き起こす可能性がある。 これらの課題を克服するため,我々は,多元対応 (dr) モジュール,マルチスケールインタラクション (msi) モジュール,および機能強化 (fe) モジュールを含む3つのモジュールで構成された,高度オブジェクト検出のための多段階特徴集約 (msfa) フレームワークを提案する。 6つのベンチマークデータセットの実験結果は、MSFAが最先端のパフォーマンスを達成することを示す。

Recent works on salient object detection have made use of multi-scale features in a way such that high-level features and low-level features can collaborate in locating salient objects. Many of the previous methods have achieved great performance in salient object detection. By merging the high-level and low-level features, a large number of feature information can be extracted. Generally, they are doing these in a one-way framework, and interweaving the variable features all the way to the final feature output. Which may cause some blurring or inaccurate localization of saliency maps. To overcome these difficulties, we introduce a multistep feature aggregation (MSFA) framework for salient object detection, which is composed of three modules, including the Diverse Reception (DR) module, multiscale interaction (MSI) module and Feature Enhancement (FE) module to accomplish better multi-level feature fusion. Experimental results on six benchmark datasets demonstrate that MSFA achieves state-of-the-art performance.
翻訳日:2022-11-15 18:05:09 公開日:2022-11-12
# 建設における説明可能な人工知能:コンテンツ、コンテキスト、プロセス、成果評価フレームワーク

Explainable Artificial Intelligence in Construction: The Content, Context, Process, Outcome Evaluation Framework ( http://arxiv.org/abs/2211.06561v1 )

ライセンス: Link先を確認
Peter ED Love, Jane Matthews, Weili Fang, Stuart Porter, Hanbin Luo and Lieyun Ding(参考訳) 説明可能な人工知能は、新しく進化する概念である。 建設への影響はまだ実現されていないが、近い将来、その影響は深まるだろう。 それでも、XAIは建設において限定的な注目を集めている。 その結果、建設組織がXAIの何、なぜ、どのように、いつを理解できるかを理解するための評価枠組みが普及していない。 本稿では,XAIの採用と効果的管理を正当化するためのコンテンツ,コンテキスト,プロセス,成果評価フレームワークを開発することで,この空白を埋めることを目的とする。 この新フレームワークの紹介と解説の後、今後の研究にその意義について論じる。 我々の新しいフレームワークは概念的だが、建設組織がXAIのビジネス価値と利益の実現に向けて進むための参考枠を提供する。

Explainable artificial intelligence is an emerging and evolving concept. Its impact on construction, though yet to be realised, will be profound in the foreseeable future. Still, XAI has received limited attention in construction. As a result, no evaluation frameworks have been propagated to enable construction organisations to understand the what, why, how, and when of XAI. Our paper aims to fill this void by developing a content, context, process, and outcome evaluation framework that can be used to justify the adoption and effective management of XAI. After introducing and describing this novel framework, we discuss its implications for future research. While our novel framework is conceptual, it provides a frame of reference for construction organisations to make headway toward realising XAI business value and benefits.
翻訳日:2022-11-15 17:59:49 公開日:2022-11-12
# 説明可能な人工知能:概念、方法、および建設研究の機会

Explainable Artificial Intelligence: Precepts, Methods, and Opportunities for Research in Construction ( http://arxiv.org/abs/2211.06579v1 )

ライセンス: Link先を確認
Peter ED Love, Weili Fang, Jane Matthews, Stuart Porter, Hanbin Luo, and Lieyun Ding(参考訳) 説明可能な人工知能は、他の産業分野での重要性が増しているにもかかわらず、建設において限られた注目を集めている。 本稿では,建設におけるその可能性に対する意識を高めるために,XAIについて概説する。 本総説では,XAI文献の規範とアプローチを含む分類法を論じる。 利害関係者のデシダラタとデータと情報融合に焦点を当てた将来のXAI研究の機会を特定し,議論する。 我々は、AIの採用と建設における統合に対する懐疑論とためらいを和らげるために、新たな調査ラインを刺激する機会を期待する。

Explainable artificial intelligence has received limited attention in construction despite its growing importance in various other industrial sectors. In this paper, we provide a narrative review of XAI to raise awareness about its potential in construction. Our review develops a taxonomy of the XAI literature comprising its precepts and approaches. Opportunities for future XAI research focusing on stakeholder desiderata and data and information fusion are identified and discussed. We hope the opportunities we suggest stimulate new lines of inquiry to help alleviate the scepticism and hesitancy toward AI adoption and integration in construction.
翻訳日:2022-11-15 17:59:38 公開日:2022-11-12
# データ駆動型道路地図の自動修正手法

Data-driven Approach for Automatically Correcting Faulty Road Maps ( http://arxiv.org/abs/2211.06544v1 )

ライセンス: Link先を確認
Soojung Hong, Kwanghee Choi(参考訳) 道路網の維持は労働集約的であり、特に道路が頻繁に変化する発展途上国では特に顕著である。 大規模な高解像度衛星画像の豊富さとデータ駆動型ビジョン技術の進歩により、この現実世界の問題を解決するために多くの自動道路抽出手法が導入された。 しかし,その性能は実サービスにおける道路地図抽出の完全自動化に限られている。 したがって, 道路地図の半自動検出と補修という, 抽出した道路地図に対して, ループ内アプローチを採用するサービスが多い。 本稿は,道路地図の修正に新たなデータ駆動アプローチを導入することで,後者にのみ焦点をあてた。 道路形状ごとにカスタムメイドのアルゴリズムを使わずに複雑な道路ジオメトリに取り組むための画像インペインティング手法を導入し,任意の道路地図セグメンテーションモデルに容易に適用できる手法を提案する。 提案手法は, 直交道路, 直交道路, T-ジャンクション, 交差点など, 各種道路地形のベースラインと比較し, 提案手法の有効性を実証する。

Maintaining road networks is labor-intensive, especially in actively developing countries where the road frequently changes. Many automatic road extraction approaches have been introduced to solve this real-world problem, fueled by the abundance of large-scale high-resolution satellite imagery and advances in data-driven vision technology. However, their performance is limited to fully automating road map extraction in real-world services. Hence, many services employ the human-in-the-loop approaches on the extracted road maps: semi-automatic detection and repairment of faulty road maps. Our paper exclusively focuses on the latter, introducing a novel data-driven approach for fixing road maps. We incorporate image inpainting approaches to tackle complex road geometries without custom-made algorithms for each road shape, yielding a method that is readily applicable to any road map segmentation model. We compare our method with the baselines on various road geometries, such as straight and curvy roads, T-junctions, and intersections, to demonstrate the effectiveness of our approach.
翻訳日:2022-11-15 17:58:13 公開日:2022-11-12
# ThreshNet: リージョン特有なThresholdingにヒントを得たセグメンテーションリファインメント

ThreshNet: Segmentation Refinement Inspired by Region-Specific Thresholding ( http://arxiv.org/abs/2211.06560v1 )

ライセンス: Link先を確認
Savinay Nagendra, Chaopeng Shen, Daniel Kifer(参考訳) 本稿では,バイナリセグメンテーションタスク用に設計されたニューラルネットワークの出力を洗練するための後処理手法ThreshNetを提案する。 ThreshNetは、ベースネットワークが生成した信頼マップとグローバルおよびローカルのパッチ情報を使用して、最先端のメソッドのパフォーマンスを大幅に改善する。 バイナリセグメンテーションモデルは一般的に信頼度マップを0.5(またはその他の固定数)で信頼度スコアをしきい値にすることで予測に変換する。 しかし、最良のしきい値が画像に依存しており、多くの場合、領域固有の -- 画像の異なる部分は、異なるしきい値を使用することで恩恵を受ける。 そのためThreshNetは、トレーニングされたセグメンテーションモデルを採用し、トレーニングメカニズムの一部としてリージョン固有のしきい値を含むメモリ効率の高い後処理アーキテクチャを使用して、その予測を修正することを学ぶ。 我々の実験によると、ThreshNetはバイナリセグメンテーションとサリエンシ検出における最先端の手法を、通常mIoUとmBAで3~5%改善する。

We present ThreshNet, a post-processing method to refine the output of neural networks designed for binary segmentation tasks. ThreshNet uses the confidence map produced by a base network along with global and local patch information to significantly improve the performance of even state-of-the-art methods. Binary segmentation models typically convert confidence maps into predictions by thresholding the confidence scores at 0.5 (or some other fixed number). However, we observe that the best threshold is image-dependent and often even region-specific -- different parts of the image benefit from using different thresholds. Thus ThreshNet takes a trained segmentation model and learns to correct its predictions by using a memory-efficient post-processing architecture that incorporates region-specific thresholds as part of the training mechanism. Our experiments show that ThreshNet consistently improves over current the state-of-the-art methods in binary segmentation and saliency detection, typically by 3 to 5% in mIoU and mBA.
翻訳日:2022-11-15 17:57:55 公開日:2022-11-12
# MSLKANet:シーンテキスト削除のための大規模カーネル注意ネットワーク

MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text Removal ( http://arxiv.org/abs/2211.06565v1 )

ライセンス: Link先を確認
Guangtao Lyu (School of Computer Science and Artificial Intelligence, Wuhan University of Technology, China)(参考訳) シーンのテキストの除去は、テキストを取り除き、自然画像の知覚的に妥当な背景情報で領域を満たすことを目的としている。 プライバシー保護、シーンテキストの検索、テキスト編集といった様々な用途で注目を集めている。 ディープラーニングの発展に伴い、従来の手法は大幅に改善されている。 しかし、既存の手法のほとんどは、大きな知覚的分野やグローバルな情報を無視しているようである。 先駆的な手法は、収穫された画像から全画像へのトレーニングデータを変更するだけで、大幅に改善できる。 本稿では,全画像におけるシーンテキスト除去のためのマルチスケールネットワークmslkanetを提案する。 そこで本研究では,テキスト領域と背景の長距離依存性をさまざまな粒度レベルで把握するためのマルチスケール大規模カーネルアテンション(MSLKA)を提案する。 さらに,大きなカーネル分解機構とアトラスな空間ピラミッドプールを組み合わせることで,大きな受容場と計算コストを低く保ちながら,より有効な空間空間ピラミッドプール(LKSPP)を構築する。 実験結果から,提案手法は,合成および実世界の両方のデータセット上での最先端性能と,提案手法のMSLKAとLKSPPの有効性が示唆された。

Scene text removal aims to remove the text and fill the regions with perceptually plausible background information in natural images. It has attracted increasing attention due to its various applications in privacy protection, scene text retrieval, and text editing. With the development of deep learning, the previous methods have achieved significant improvements. However, most of the existing methods seem to ignore the large perceptive fields and global information. The pioneer method can get significant improvements by only changing training data from the cropped image to the full image. In this paper, we present a single-stage multi-scale network MSLKANet for scene text removal in full images. For obtaining large perceptive fields and global information, we propose multi-scale large kernel attention (MSLKA) to obtain long-range dependencies between the text regions and the backgrounds at various granularity levels. Furthermore, we combine the large kernel decomposition mechanism and atrous spatial pyramid pooling to build a large kernel spatial pyramid pooling (LKSPP), which can perceive more valid pixels in the spatial dimension while maintaining large receptive fields and low cost of computation. Extensive experimental results indicate that the proposed method achieves state-of-the-art performance on both synthetic and real-world datasets and the effectiveness of the proposed components MSLKA and LKSPP.
翻訳日:2022-11-15 17:57:34 公開日:2022-11-12
# 精度・完全・ロバストな容器分割のための親和性特徴強化

Affinity Feature Strengthening for Accurate, Complete and Robust Vessel Segmentation ( http://arxiv.org/abs/2211.06578v1 )

ライセンス: Link先を確認
Tianyi Shi, Xiaohuan Ding, Wei Zhou, Feng Pan, Zengqiang Yan, Xiang Bai and Xin Yang(参考訳) 血管分割は、冠動脈病変、網膜血管疾患、脳動脈瘤の検出など、多くの医療画像応用において必須である。 高い画素精度、完全なトポロジー構造、様々なコントラスト変動に対するロバスト性は、容器セグメンテーションの3つの重要な側面である。 しかし、既存の手法のほとんどは専用設計による部分の達成にのみ焦点を合わせており、3つの目標を同時に達成できるものは少ない。 本稿では,マルチスケール・アフィニティに基づくコントラスト非感受性アプローチを適用した新しいアフィニティ特徴強化ネットワーク(afn)を提案する。 具体的には、各画素に対して、予測されたマスク画像上の画素と隣人のセマンティックな関係をキャプチャするマルチスケール親和性フィールドを導出する。 このような多スケールアフィニティ場は、異なるサイズの容器セグメントの局所トポロジーを効果的に表現することができる。 一方、画像強度には依存せず、様々な照明やコントラストの変化に対して堅牢である。 さらに,それに対応するアフィニティフィールドの空間的およびスケール的適応重みを学習し,血管の特徴を強化する。 X-ray angiography coronary vessel dataset (XCAD), portal vein dataset (PV), digital subtraction angiography cerebrovascular vessel dataset (DSA) およびRetinal vessel dataset (DRIVE) の4種類の血管データセットを用いてAFNを評価した。 4つのデータセットの広範な実験結果から、afnは精度とトポロジーの指標の両方において最先端の手法よりも優れており、一方、既存の方法よりも様々なコントラスト変化に対して堅牢であることが示された。 コードは公開されます。

Vessel segmentation is essential in many medical image applications, such as the detection of coronary stenoses, retinal vessel diseases and brain aneurysms. A high pixel-wise accuracy, complete topology structure and robustness to various contrast variations are three critical aspects of vessel segmentation. However, most existing methods only focus on achieving part of them via dedicated designs while few of them can concurrently achieve the three goals. In this paper, we present a novel affinity feature strengthening network (AFN) which adopts a contrast-insensitive approach based on multiscale affinity to jointly model topology and refine pixel-wise segmentation features. Specifically, for each pixel we derive a multiscale affinity field which captures the semantic relationships of the pixel with its neighbors on the predicted mask image. Such a multiscale affinity field can effectively represent the local topology of a vessel segment of different sizes. Meanwhile, it does not depend on image intensities and hence is robust to various illumination and contrast changes. We further learn spatial- and scale-aware adaptive weights for the corresponding affinity fields to strengthen vessel features. We evaluate our AFN on four different types of vascular datasets: X-ray angiography coronary vessel dataset (XCAD), portal vein dataset (PV), digital subtraction angiography cerebrovascular vessel dataset (DSA) and retinal vessel dataset (DRIVE). Extensive experimental results on the four datasets demonstrate that our AFN outperforms the state-of-the-art methods in terms of both higher accuracy and topological metrics, and meanwhile is more robust to various contrast changes than existing methods. Codes will be made public.
翻訳日:2022-11-15 17:57:11 公開日:2022-11-12
# 歴史的文書画像のバイナリ化向上のための変分拡張

Variational Augmentation for Enhancing Historical Document Image Binarization ( http://arxiv.org/abs/2211.06581v1 )

ライセンス: Link先を確認
Avirup Dey, Nibaran Das, Mita Nasipuri(参考訳) 歴史的文書画像バイナリ化は画像処理においてよく知られたセグメント化問題である。 ユビキタスにもかかわらず、従来のしきい値アルゴリズムは、ひどく劣化した文書画像に対して限定的な成功を収めた。 ディープラーニングの出現に伴い、いくつかのセグメンテーションモデルが提案され、この分野で大きな進歩を遂げたが、大規模なトレーニングデータセットが利用できないことで制限された。 この問題を軽減するために、我々は2段階の新たなフレームワークを提案し、その1つは変動推論を用いて劣化サンプルを生成するジェネレータと、もう1つは生成されたデータをトレーニングするCNNベースのバイナライゼーションネットワークである。 このフレームワークをdibcoデータセット上で評価し,従来の最先端手法と競合する結果を得た。

Historical Document Image Binarization is a well-known segmentation problem in image processing. Despite ubiquity, traditional thresholding algorithms achieved limited success on severely degraded document images. With the advent of deep learning, several segmentation models were proposed that made significant progress in the field but were limited by the unavailability of large training datasets. To mitigate this problem, we have proposed a novel two-stage framework -- the first of which comprises a generator that generates degraded samples using variational inference and the second being a CNN-based binarization network that trains on the generated data. We evaluated our framework on a range of DIBCO datasets, where it achieved competitive results against previous state-of-the-art methods.
翻訳日:2022-11-15 17:56:39 公開日:2022-11-12
# DEYO: ステップバイステップオブジェクト検出のためのYOLO付きDETR

DEYO: DETR with YOLO for Step-by-Step Object Detection ( http://arxiv.org/abs/2211.06588v1 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) オブジェクト検出はコンピュータビジョンにおいて重要なトピックであり、後処理は典型的なオブジェクト検出パイプラインの重要な部分であり、従来のオブジェクト検出モデルの性能に重大なボトルネックをもたらす。 第1のエンドツーエンドターゲット検出モデルである検出トランス(detr)は、アンカーや非最大抑制(nms)といった手動コンポーネントの要件を破棄し、ターゲット検出プロセスを著しく単純化する。 しかし、従来のオブジェクト検出モデルと比較して、DETRは非常にゆっくりと収束し、クエリの意味は曖昧である。 そこで本研究では,ステップ・バイ・ステップ(Step-by-Step)の概念に着想を得た2段階物体検出モデルであるDETR with YOLO (DEYO)を提案する。 DEYOは古典的なターゲット検出モデルとDETRのようなモデルをそれぞれ第1と第2のステージとする2段階アーキテクチャである。 具体的には、第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を向上させる。 一方、第2段は、第1段検出器の限界による性能劣化を補償する。 大規模な実験により、DeYOは12と36のエポックで50.6 APと52.1 APを獲得し、ResNet-50をCOCOデータセットのバックボーンとマルチスケール機能として利用した。 最適なDETRライクなモデルであるDINOと比較して、DYOモデルは2つのエポックな設定で1.6 APと1.2 APの大幅な性能向上を実現している。

Object detection is an important topic in computer vision, with post-processing, an essential part of the typical object detection pipeline, posing a significant bottleneck affecting the performance of traditional object detection models. The detection transformer (DETR), as the first end-to-end target detection model, discards the requirement of manual components like the anchor and non-maximum suppression (NMS), significantly simplifying the target detection process. However, compared with most traditional object detection models, DETR converges very slowly, and a query's meaning is obscure. Thus, inspired by the Step-by-Step concept, this paper proposes a new two-stage object detection model, named DETR with YOLO (DEYO), which relies on a progressive inference to solve the above problems. DEYO is a two-stage architecture comprising a classic target detection model and a DETR-like model as the first and second stages, respectively. Specifically, the first stage provides high-quality query and anchor feeding into the second stage, improving the performance and efficiency of the second stage compared to the original DETR model. Meanwhile, the second stage compensates for the performance degradation caused by the first stage detector's limitations. Extensive experiments demonstrate that DEYO attains 50.6 AP and 52.1 AP in 12 and 36 epochs, respectively, while utilizing ResNet-50 as the backbone and multi-scale features on the COCO dataset. Compared with DINO, an optimal DETR-like model, the developed DEYO model affords a significant performance improvement of 1.6 AP and 1.2 AP in two epoch settings.
翻訳日:2022-11-15 17:56:27 公開日:2022-11-12
# AltCLIP: CLIPにおける拡張言語機能のための言語エンコーダの変更

AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities ( http://arxiv.org/abs/2211.06679v1 )

ライセンス: Link先を確認
Zhongzhi Chen, Guang Liu, Bo-Wen Zhang, Fulong Ye, Qinghong Yang, Ledell Wu(参考訳) 本研究では,概念的に単純かつ効果的な二言語多モーダル表現モデルを訓練する手法を提案する。 openaiがリリースした事前学習されたマルチモーダル表現モデルクリップから始め、事前学習された多言語テキストエンコーダxlm-rにテキストエンコーダを切り替え、教師の学習とコントラスト学習からなる2段階のトレーニングスキーマで言語とイメージの表現をアレンジした。 我々は,幅広いタスクの評価を通じて本手法を検証する。 私たちはImageNet-CN、Flicker30k-CN、COCO-CNなどのタスクに最先端のパフォーマンスを設定しました。 さらに、ほぼ全てのタスクにおいてCLIPで非常に近いパフォーマンスを得ることができ、多言語理解などの拡張機能のためにCLIPのテキストエンコーダを変更できることが示唆された。 私たちのモデルとコードはhttps://github.com/FlagAI-Open/FlagAIで利用可能です。

In this work, we present a conceptually simple and effective method to train a strong bilingual multimodal representation model. Starting from the pretrained multimodal representation model CLIP released by OpenAI, we switched its text encoder with a pretrained multilingual text encoder XLM-R, and aligned both languages and image representations by a two-stage training schema consisting of teacher learning and contrastive learning. We validate our method through evaluations of a wide range of tasks. We set new state-of-the-art performances on a bunch of tasks including ImageNet-CN, Flicker30k- CN, and COCO-CN. Further, we obtain very close performances with CLIP on almost all tasks, suggesting that one can simply alter the text encoder in CLIP for extended capabilities such as multilingual understanding. Our models and code are available at https://github.com/FlagAI-Open/FlagAI.
翻訳日:2022-11-15 17:32:08 公開日:2022-11-12
# 最小摂動によるテクスチャ・アドバーナリーの生成

Generating Textual Adversaries with Minimal Perturbation ( http://arxiv.org/abs/2211.06571v1 )

ライセンス: Link先を確認
Xingyi Zhao, Lu Zhang, Depeng Xu, Shuhan Yuan(参考訳) 近年,テキストデータに対する単語レベルの攻撃手法が数多く提案されている。 しかし、候補語の組み合わせからなる膨大な検索空間のため、既存のアプローチは、相手語を作る際にテキストの意味を保存するという問題に直面している。 本稿では,最小の摂動を導入しながら,原文と高い類似性を有する敵文を見つけるための新たな攻撃戦略を開発する。 その理論的根拠は、小さな摂動を伴う敵対的テキストが、原文の意味をよりよく保存できることを期待している。 実験の結果,本手法は,最先端の攻撃手法と比較して,4つのベンチマークデータセットにおいて,高い成功率と低い摂動率を実現することが示された。

Many word-level adversarial attack approaches for textual data have been proposed in recent studies. However, due to the massive search space consisting of combinations of candidate words, the existing approaches face the problem of preserving the semantics of texts when crafting adversarial counterparts. In this paper, we develop a novel attack strategy to find adversarial texts with high similarity to the original texts while introducing minimal perturbation. The rationale is that we expect the adversarial texts with small perturbation can better preserve the semantic meaning of original texts. Experiments show that, compared with state-of-the-art attack approaches, our approach achieves higher success rates and lower perturbation rates in four benchmark datasets.
翻訳日:2022-11-15 17:21:06 公開日:2022-11-12
# ConceptX: 潜在概念分析のためのフレームワーク

ConceptX: A Framework for Latent Concept Analysis ( http://arxiv.org/abs/2211.06642v1 )

ライセンス: Link先を確認
Firoj Alam and Fahim Dalvi and Nadir Durrani and Hassan Sajjad and Abdul Rafae Khan and Jia Xu(参考訳) 深いニューラルネットワークの不透明さは、説明が精度と同じくらい重要なソリューションをデプロイする上で依然として課題である。 本稿では,事前学習言語モデル(plm)における潜在表現空間の解釈と注釈付けのためのヒューマン・イン・ザ・ループフレームワークであるconceptxを提案する。 これらのモデルから学習した概念を教師なしの手法で発見し,その概念の説明を人間が生成できるようにする。 プロセスを容易にするため,概念の自動アノテーション(従来の言語オントロジーに基づく)を提供する。 このようなアノテーションは、深いNLPモデルで学んだ潜在概念を直接表現する言語資源の開発を可能にする。 これらは伝統的な言語概念だけでなく、アノテーターがモデルのバイアスを示すのに役立つタスク特化概念やセンシティブな概念(性別や宗教的な意味に基づく単語)も含まれる。 フレームワークは2つの部分で構成される (i)概念発見及び (ii)アノテーションプラットフォーム。

The opacity of deep neural networks remains a challenge in deploying solutions where explanation is as important as precision. We present ConceptX, a human-in-the-loop framework for interpreting and annotating latent representational space in pre-trained Language Models (pLMs). We use an unsupervised method to discover concepts learned in these models and enable a graphical interface for humans to generate explanations for the concepts. To facilitate the process, we provide auto-annotations of the concepts (based on traditional linguistic ontologies). Such annotations enable development of a linguistic resource that directly represents latent concepts learned within deep NLP models. These include not just traditional linguistic concepts, but also task-specific or sensitive concepts (words grouped based on gender or religious connotation) that helps the annotators to mark bias in the model. The framework consists of two parts (i) concept discovery and (ii) annotation platform.
翻訳日:2022-11-15 17:20:54 公開日:2022-11-12
# NLPeer: ピアレビューの計算研究のための統一リソース

NLPeer: A Unified Resource for the Computational Study of Peer Review ( http://arxiv.org/abs/2211.06651v1 )

ライセンス: Link先を確認
Nils Dycke, Ilia Kuznetsov, Iryna Gurevych(参考訳) ピアレビューは学術出版の中核的な要素であるが、時間がかかり、かなりの専門知識が必要であり、誤りを起こしやすい。 NLPのピアレビュー支援への応用は、これらの問題を緩和することを目的としているが、明確にライセンスされたデータセットとマルチドメインコーパスの欠如は、ピアレビューのためのNLPの体系的な研究を妨げる。 この問題を解決するために,5K以上の論文と5つの異なる会場から11kレビューレポートを作成したNLPeerを紹介した。 論文草案,カメラ対応版,nlpコミュニティのピアレビューの新しいデータセットに加えて,統一データ表現を確立し,従来のピアレビューデータセットを拡張し,解析,構造化された紙表現,リッチなメタデータ,バージョニング情報を含める。 我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道を開く。 NLPeerを公開しています。

Peer review is a core component of scholarly publishing, yet it is time-consuming, requires considerable expertise, and is prone to error. The applications of NLP for peer reviewing assistance aim to mitigate those issues, but the lack of clearly licensed datasets and multi-domain corpora prevent the systematic study of NLP for peer review. To remedy this, we introduce NLPeer -- the first ethically sourced multidomain corpus of more than 5k papers and 11k review reports from five different venues. In addition to the new datasets of paper drafts, camera-ready versions and peer reviews from the NLP community, we establish a unified data representation, and augment previous peer review datasets to include parsed, structured paper representations, rich metadata and versioning information. Our work paves the path towards systematic, multi-faceted, evidence-based study of peer review in NLP and beyond. We make NLPeer publicly available.
翻訳日:2022-11-15 17:20:38 公開日:2022-11-12
# ニューラル言語ステレオグラフィーにおけるセグメンテーションの曖昧さ

Addressing Segmentation Ambiguity in Neural Linguistic Steganography ( http://arxiv.org/abs/2211.06662v1 )

ライセンス: Link先を確認
Jumon Nozaki, Yugo Murawaki(参考訳) ueoka et al. (2021)を除いて、神経言語学的ステガノグラフィーに関する以前の研究は、送り手が盗聴者の疑念を喚起するのを避けるためにカバーテキストを遠ざけなければならないという事実を見逃していた。 本稿では,セグメンテーションの曖昧さが,受信側において時折デコード障害を引き起こすことを実証する。 サブワードの近さにより、この問題は今やどんな言語にも影響を及ぼす。 単語境界のない言語にも適用可能な,この問題を克服するための簡単な手法を提案する。

Previous studies on neural linguistic steganography, except Ueoka et al. (2021), overlook the fact that the sender must detokenize cover texts to avoid arousing the eavesdropper's suspicion. In this paper, we demonstrate that segmentation ambiguity indeed causes occasional decoding failures at the receiver's side. With the near-ubiquity of subwords, this problem now affects any language. We propose simple tricks to overcome this problem, which are even applicable to languages without explicit word boundaries.
翻訳日:2022-11-15 17:20:20 公開日:2022-11-12
# 肺結節切除のための放射線ゲノムパイプラインとCTスキャンによるEGFR変異の予測

A Radiogenomics Pipeline for Lung Nodules Segmentation and Prediction of EGFR Mutation Status from CT Scans ( http://arxiv.org/abs/2211.06620v1 )

ライセンス: Link先を確認
Ivo Gollini Navarrete, Mohammad Yaqub(参考訳) 肺がんは世界中で主要な死因である。 肺癌の早期発見は、より良好な予後に不可欠である。 放射線ゲノミクス(Radiogenomics)は、患者の結果を非侵襲的にモデル化するための医療画像とゲノム機能を組み合わせた新興分野である。 この研究は 放射性ゲノミクスのパイプラインです 1)注意及び再発ブロックを介して肺がんを分断する新規混合建築(RA-セグ) 2)表皮成長因子受容体(EGFR)変異を識別するための深部特徴分類器。 提案アルゴリズムを複数の公開データセット上で評価し,その一般化性とロバスト性を評価する。 提案手法は,既存のベースラインおよびsomaアプローチ(73.54 dice,93 f1スコア)よりも優れていることを示す。

Lung cancer is a leading cause of death worldwide. Early-stage detection of lung cancer is essential for a more favorable prognosis. Radiogenomics is an emerging discipline that combines medical imaging and genomics features for modeling patient outcomes non-invasively. This study presents a radiogenomics pipeline that has: 1) a novel mixed architecture (RA-Seg) to segment lung cancer through attention and recurrent blocks; and 2) deep feature classifiers to distinguish Epidermal Growth Factor Receptor (EGFR) mutation status. We evaluate the proposed algorithm on multiple public datasets to assess its generalizability and robustness. We demonstrate how the proposed segmentation and classification methods outperform existing baseline and SOTA approaches (73.54 Dice and 93 F1 scores).
翻訳日:2022-11-15 17:13:37 公開日:2022-11-12
# 畳み込みニューラルネットワークによる心臓MRIの幾何学的変換予測

Prediction of Geometric Transformation on Cardiac MRI via Convolutional Neural Network ( http://arxiv.org/abs/2211.06641v1 )

ライセンス: Link先を確認
Xin Gao(参考訳) 医用画像の分野において、深層畳み込みニューラルネットワーク(convnets)は、画像特徴を学習する非並列能力により、分類、セグメンテーション、登録作業において大きな成功を収めている。 しかし、これらのタスクは、しばしば大量の手動のアノテートデータを必要とし、労働集約的である。 したがって,教師なしのセマンティクス的特徴学習タスクを研究することは重要である。 本研究では,画像に適用される幾何学的変換を認識するためにConvNetsを訓練し,幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。 数学用語で幾何変換の集合を正確に定義し、空間次元と時間次元の区別を考慮してこのモデルを3次元に一般化する。 異なるモダリティ(bSSFP,T2,LGE)のCMR画像に対する自己監督法の評価を行い,96.4%,97.5%,96.4%の精度を得た。 論文のコードとモデルは、https://github.com/gaoxin492/geometric_transformation_cmrで公開します。

In the field of medical image, deep convolutional neural networks(ConvNets) have achieved great success in the classification, segmentation, and registration tasks thanks to their unparalleled capacity to learn image features. However, these tasks often require large amounts of manually annotated data and are labor-intensive. Therefore, it is of significant importance for us to study unsupervised semantic feature learning tasks. In our work, we propose to learn features in medical images by training ConvNets to recognize the geometric transformation applied to images and present a simple self-supervised task that can easily predict the geometric transformation. We precisely define a set of geometric transformations in mathematical terms and generalize this model to 3D, taking into account the distinction between spatial and time dimensions. We evaluated our self-supervised method on CMR images of different modalities (bSSFP, T2, LGE) and achieved accuracies of 96.4%, 97.5%, and 96.4%, respectively. The code and models of our paper will be published on: https://github.com/gaoxin492/Geometric_Transformation_CMR
翻訳日:2022-11-15 17:13:25 公開日:2022-11-12
# DriftRec: ブラインド画像復元タスクへの拡散モデルの適用

DriftRec: Adapting diffusion models to blind image restoration tasks ( http://arxiv.org/abs/2211.06757v1 )

ライセンス: Link先を確認
Simon Welker, Henry N. Chapman, Timo Gerkmann(参考訳) 本研究では,高圧縮レベルのjpegアーティファクト除去を例として,拡散モデルの高忠実度生成能力を用いてブラインド画像復元課題を解決する。 本研究では, 拡散モデルの前方確率微分方程式のエレガントな修正を行い, 復元作業に適用し, ドリフトrec法と命名する。 DriftRecと同一のネットワークアーキテクチャとJPEG再構成のための最先端技術を用いて,DriftRecを$L_2$レグレッションベースラインと比較したところ,この手法は,ぼやけた画像を生成するベースラインの傾向から逃れることができ,クリーンな画像の分布をより忠実に復元できることを示す。 きれいで腐敗した画像の分布がガウス以前の画像よりもかなり近いという考え方を生かして,低レベルの付加ノイズしか必要とせず,さらなる最適化を必要とせずとも比較的少ないサンプリングステップが必要となる。

In this work, we utilize the high-fidelity generation abilities of diffusion models to solve blind image restoration tasks, using JPEG artifact removal at high compression levels as an example. We propose an elegant modification of the forward stochastic differential equation of diffusion models to adapt them to restoration tasks and name our method DriftRec. Comparing DriftRec against an $L_2$ regression baseline with the same network architecture and a state-of-the-art technique for JPEG reconstruction, we show that our approach can escape both baselines' tendency to generate blurry images, and recovers the distribution of clean images significantly more faithfully while only requiring a dataset of clean/corrupted image pairs and no knowledge about the corruption operation. By utilizing the idea that the distributions of clean and corrupted images are much closer to each other than to a Gaussian prior, our approach requires only low levels of added noise, and thus needs comparatively few sampling steps even without further optimizations.
翻訳日:2022-11-15 17:13:06 公開日:2022-11-12
# プライベート機械学習のためのマルチエポック行列分解機構

Multi-Epoch Matrix Factorization Mechanisms for Private Machine Learning ( http://arxiv.org/abs/2211.06530v1 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, H. Brendan McMahan, Keith Rush, and Abhradeep Thakurta(参考訳) 我々は、データセットの複数のパス(エポック)を含む勾配に基づく機械学習(ML)トレーニングのための新しい差分プライベート(DP)メカニズムを導入し、達成可能なプライバシ・ユーティリティ・コンピューティングトレードオフを大幅に改善する。 我々の重要な貢献は、DMRST2022のアプローチを大幅に一般化し、オンライン行列分解DP機構を複数の参加者に拡張することである。 まず、より単純なスカラー貢献に対して、文毎のベクトル貢献で問題を低減できる条件を提示する。 これを用いて、凸プログラムとしてSGD変種に対する最適(各反復点における全二乗誤差)行列機構の構築を定式化する。 双対関数に対する閉形式解による効率的な最適化アルゴリズムを提案する。 扱いやすいが、オフラインで凸問題を解くことと、トレーニング中に必要なノイズマスクを計算することは、多くのトレーニングステップが必要な場合、非常に高価になる。 これに対処するために, 計算量を大幅に削減し, 少ないユーティリティ削減でフーリエ変換ベースの機構を設計する。 画像分類のための例レベルDPと、言語モデリングのためのユーザレベルDPの2つのタスクに対する大規模な実証的評価は、以前の最先端技術よりも大幅に改善されている。 我々の主な応用はMLであるが、主要なDP結果は任意の線形クエリに適用可能であるため、より広い適用性を持つ可能性がある。

We introduce new differentially private (DP) mechanisms for gradient-based machine learning (ML) training involving multiple passes (epochs) of a dataset, substantially improving the achievable privacy-utility-computation tradeoffs. Our key contribution is an extension of the online matrix factorization DP mechanism to multiple participations, substantially generalizing the approach of DMRST2022. We first give conditions under which it is possible to reduce the problem with per-iteration vector contributions to the simpler one of scalar contributions. Using this, we formulate the construction of optimal (in total squared error at each iterate) matrix mechanisms for SGD variants as a convex program. We propose an efficient optimization algorithm via a closed form solution to the dual function. While tractable, both solving the convex problem offline and computing the necessary noise masks during training can become prohibitively expensive when many training steps are necessary. To address this, we design a Fourier-transform-based mechanism with significantly less computation and only a minor utility decrease. Extensive empirical evaluation on two tasks: example-level DP for image classification and user-level DP for language modeling, demonstrate substantial improvements over the previous state-of-the-art. Though our primary application is to ML, we note our main DP results are applicable to arbitrary linear queries and hence may have much broader applicability.
翻訳日:2022-11-15 17:04:03 公開日:2022-11-12
# RISE: 敏感な変数を用いたロバスト個別決定学習

RISE: Robust Individualized Decision Learning with Sensitive Variables ( http://arxiv.org/abs/2211.06569v1 )

ライセンス: Link先を確認
Xiaoqing Tan, Zhengling Qi, Christopher W. Seymour, Lu Tang(参考訳) 本稿では,センシティブな変数が収集可能なデータであり,介入決定に重要である,敏感な変数を持つ,堅牢な個別化決定学習フレームワークであるriseを紹介する。 ナイーブなベースラインは、決定ルールの学習においてこれらのセンシティブな変数を無視することであり、重大な不確実性とバイアスをもたらす。 そこで本研究では,オフライントレーニング中にセンシティブな変数を取り入れつつ,モデル展開時に学習した決定ルールの入力に含めない決定学習フレームワークを提案する。 具体的には、因果的観点からは、決定時に利用できない敏感な変数によって引き起こされる個人の最悪の結果を改善することを目的としている。 平均最適目的を用いた既存の文献と異なり、新しく定義された分位または不フィムの最適決定規則を見つけることによって、堅牢な学習フレームワークを提案する。 提案手法の信頼性は, 合成実験と実世界の3つの応用により実証された。

This paper introduces RISE, a robust individualized decision learning framework with sensitive variables, where sensitive variables are collectible data and important to the intervention decision, but their inclusion in decision making is prohibited due to reasons such as delayed availability or fairness concerns. A naive baseline is to ignore these sensitive variables in learning decision rules, leading to significant uncertainty and bias. To address this, we propose a decision learning framework to incorporate sensitive variables during offline training but not include them in the input of the learned decision rule during model deployment. Specifically, from a causal perspective, the proposed framework intends to improve the worst-case outcomes of individuals caused by sensitive variables that are unavailable at the time of decision. Unlike most existing literature that uses mean-optimal objectives, we propose a robust learning framework by finding a newly defined quantile- or infimum-optimal decision rule. The reliable performance of the proposed method is demonstrated through synthetic experiments and three real-world applications.
翻訳日:2022-11-15 17:03:38 公開日:2022-11-12
# メンバーシップ推論のプライバシ

Provable Membership Inference Privacy ( http://arxiv.org/abs/2211.06582v1 )

ライセンス: Link先を確認
Zachary Izzo, Jinsung Yoon, Sercan O. Arik, James Zou(参考訳) 金融や医療といった機密性の高いデータを扱うアプリケーションでは、データのプライバシを保存する必要性が機械学習モデル開発にとって重要な障壁となる。 ディファレンシャルプライバシ(dp)は、証明可能なプライバシの標準標準として登場した。 しかし、DPの強力な理論的保証はしばしば機械学習のユーティリティの大幅な低下の犠牲となり、DPの保証自体を解釈するのは困難である。 本研究では,これらの課題に対処するため,新しいプライバシー概念である会員推測プライバシー(MIP)を提案する。 MIP と DP の関係を正確に評価し,DP の保証に要する量に比べて乱数率の少ない MIP を実現できることを示す。 MIP保証は、メンバーシップ推論攻撃の成功率の観点からも容易に解釈できる。 我々の理論的結果は、パラメトリックモデルトレーニングを含む連続的な出力を持つアルゴリズムのラッパーとして使用できる、MPIを保証するための単純なアルゴリズムも生み出す。

In applications involving sensitive data, such as finance and healthcare, the necessity for preserving data privacy can be a significant barrier to machine learning model development. Differential privacy (DP) has emerged as one canonical standard for provable privacy. However, DP's strong theoretical guarantees often come at the cost of a large drop in its utility for machine learning, and DP guarantees themselves can be difficult to interpret. In this work, we propose a novel privacy notion, membership inference privacy (MIP), to address these challenges. We give a precise characterization of the relationship between MIP and DP, and show that MIP can be achieved using less amount of randomness compared to the amount required for guaranteeing DP, leading to a smaller drop in utility. MIP guarantees are also easily interpretable in terms of the success rate of membership inference attacks. Our theoretical results also give rise to a simple algorithm for guaranteeing MIP which can be used as a wrapper around any algorithm with a continuous output, including parametric model training.
翻訳日:2022-11-15 17:03:22 公開日:2022-11-12
# 自己教師付き離散音声単位を用いたワンショット韻律と話者変換システム

A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units ( http://arxiv.org/abs/2211.06535v1 )

ライセンス: Link先を確認
Li-Wei Chen, Shinji Watanabe, Alexander Rudnicky(参考訳) 本稿では,ピッチ,リズム,話者属性について,単発音声変換(vc)を実現する統一システムを提案する。 既存の作品は一般的に韻律と言語内容の相関を無視し、変換された音声の自然さの低下につながる。 さらに、適切な言語機能がないため、変換後の言語コンテンツを正確に保存できない。 これらの問題に対処するために、自己教師付き離散音声単位を言語表現として活用するカスケードモジュールシステムを提案する。 これらの離散単位はリズムモデリングに不可欠な時間情報を提供する。 本システムでは,まず音声レベルの韻律と話者表現を生波形から抽出する。 韻律表現が与えられると、韻律予測器は発話中の各離散単位のピッチ、エネルギー、持続時間を推定する。 合成器は、予測された韻律、話者表現、離散単位に基づいてさらに音声を再構成する。 実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性といった従来の手法よりも優れていた。 コードとサンプルは公開されている。

We present a unified system to realize one-shot voice conversion (VC) on the pitch, rhythm, and speaker attributes. Existing works generally ignore the correlation between prosody and language content, leading to the degradation of naturalness in converted speech. Additionally, the lack of proper language features prevents these systems from accurately preserving language content after conversion. To address these issues, we devise a cascaded modular system leveraging self-supervised discrete speech units as language representation. These discrete units provide duration information essential for rhythm modeling. Our system first extracts utterance-level prosody and speaker representations from the raw waveform. Given the prosody representation, a prosody predictor estimates pitch, energy, and duration for each discrete unit in the utterance. A synthesizer further reconstructs speech based on the predicted prosody, speaker representation, and discrete units. Experiments show that our system outperforms previous approaches in naturalness, intelligibility, speaker transferability, and prosody transferability. Code and samples are publicly available.
翻訳日:2022-11-15 16:55:53 公開日:2022-11-12
# チャネル間プーリングを用いた量子分割ニューラルネットワーク学習

Quantum Split Neural Network Learning using Cross-Channel Pooling ( http://arxiv.org/abs/2211.06524v1 )

ライセンス: Link先を確認
Won Joon Yun, Hankyul Baek, Joongheon Kim(参考訳) 近年、量子は量子機械学習、量子通信、量子コンピュータといった様々な分野に魅了されている。 中でも量子フェデレーション学習(QFL)は近年注目を集めており、量子ニューラルネットワーク(QNN)をフェデレーション学習(FL)に統合している。 従来のQFL法とは対照的に,分割学習の拡張版である量子分割学習(QSL)を提案する。 古典コンピューティングにおいて、分割学習は、より高速な収束、通信コスト、さらにはプライバシーにおいて多くの利点を示してきた。 QSLをフル活用するために,QNNによる量子状態トモグラフィのユニークな性質を活用するクロスチャネルプーリングを提案する。 数値的な結果から,QSLはQFLよりも1.64%高いトップ1の精度を達成できるだけでなく,MNIST分類タスクにおけるプライバシ保護を示す。

In recent years, quantum has been attracted by various fields such as quantum machine learning, quantum communication, and quantum computers. Among them, quantum federated learning (QFL) has recently received increasing attention, where quantum neural networks (QNNs) are integrated into federated learning (FL). In contrast to the existing QFL methods, we propose quantum split learning (QSL), which is the extension version of split learning. In classical computing, split learning has shown many advantages in faster convergence, communication cost, and even privacy. To fully utilize QSL, we propose crosschannel pooling which leverages the unique nature of quantum state tomography that is made by QNN. In numerical results, we corroborate that QSL achieves not only 1.64% higher top-1 accuracy than QFL but shows privacy-preserving in the MNIST classification task.
翻訳日:2022-11-15 16:55:23 公開日:2022-11-12
# Rewards Encoding Environment Dynamicsは参照型強化学習を改善する

Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning ( http://arxiv.org/abs/2211.06527v1 )

ライセンス: Link先を確認
Katherine Metcalf and Miguel Sarabia and Barry-John Theobald(参考訳) 嗜好に基づく強化学習(RL)アルゴリズムは、人間の嗜好フィードバックからそれらを蒸留することで、手作りの報酬関数の落とし穴を避けるのに役立つが、比較的単純な作業であっても、人間に必要なラベルが多すぎるため、それらは実用的ではない。 本研究では、報酬関数(REED)における環境ダイナミクスの符号化により、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数が劇的に減少することを示す。 我々は、REEDに基づく手法が状態-作用空間を分割し、優先データセットに含まれない状態-作用ペアへの一般化を容易にすることを仮定する。 REEDは、自己監督された時間的整合性タスクを通じて状態-作用表現の符号化環境ダイナミクスと、状態-作用表現から優先度に基づく報酬関数をブートストラップするの間を反復する。 事前のアプローチでは、優先ラベル付きトラジェクトリペアのみをトレーニングするが、REEDはポリシートレーニング中に経験したすべての遷移に対して状態-アクション表現を公開する。 本稿では, PrefPPO [1] と PEBBLE [2] の嗜好学習フレームワークにおける REED の利点を考察し,政策学習の速度と最終的な政策性能の両方に対する実験条件の改善を実証する。 例えば、50の選好ラベルを持つ四足歩行や歩行では、REEDベースの報酬関数は、真理報酬政策の83%と66%を回復し、REEDなしでは38\%と21\%しか回復しない。 一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。

Preference-based reinforcement learning (RL) algorithms help avoid the pitfalls of hand-crafted reward functions by distilling them from human preference feedback, but they remain impractical due to the burdensome number of labels required from the human, even for relatively simple tasks. In this work, we demonstrate that encoding environment dynamics in the reward function (REED) dramatically reduces the number of preference labels required in state-of-the-art preference-based RL frameworks. We hypothesize that REED-based methods better partition the state-action space and facilitate generalization to state-action pairs not included in the preference dataset. REED iterates between encoding environment dynamics in a state-action representation via a self-supervised temporal consistency task, and bootstrapping the preference-based reward function from the state-action representation. Whereas prior approaches train only on the preference-labelled trajectory pairs, REED exposes the state-action representation to all transitions experienced during policy training. We explore the benefits of REED within the PrefPPO [1] and PEBBLE [2] preference learning frameworks and demonstrate improvements across experimental conditions to both the speed of policy learning and the final policy performance. For example, on quadruped-walk and walker-walk with 50 preference labels, REED-based reward functions recover 83% and 66% of ground truth reward policy performance and without REED only 38\% and 21\% are recovered. For some domains, REED-based reward functions result in policies that outperform policies trained on the ground truth reward.
翻訳日:2022-11-15 16:55:08 公開日:2022-11-12
# tapas: 合成データのプライバシー監査のためのツールボックス

TAPAS: a Toolbox for Adversarial Privacy Auditing of Synthetic Data ( http://arxiv.org/abs/2211.06550v1 )

ライセンス: Link先を確認
Florimond Houssiau, James Jordon, Samuel N. Cohen, Owen Daniel, Andrew Elliott, James Geddes, Callum Mole, Camila Rangel-Smith, Lukasz Szpruch(参考訳) 大規模に収集された個人データは、意思決定の改善とイノベーションの加速を約束する。 しかし、そのようなデータの共有と利用は、プライバシーの深刻な懸念を引き起こす。 有望な解決策は、実際のデータの代わりに、人工的な記録を共有できる合成データを作ることである。 合成記録は実際の人間に関連付けられていないため、直感的には古典的な再識別攻撃を防いでいる。 しかし、プライバシーを守るには不十分だ。 ここでは、さまざまなシナリオ下で合成データのプライバシーを評価するための攻撃用ツールボックスであるTAPASを紹介する。 これらの攻撃には、先行作品の一般化と新しい攻撃が含まれる。 また,合成データに対するプライバシの脅威を推論する汎用フレームワークを導入し,tapaをいくつかの例で紹介する。

Personal data collected at scale promises to improve decision-making and accelerate innovation. However, sharing and using such data raises serious privacy concerns. A promising solution is to produce synthetic data, artificial records to share instead of real data. Since synthetic records are not linked to real persons, this intuitively prevents classical re-identification attacks. However, this is insufficient to protect privacy. We here present TAPAS, a toolbox of attacks to evaluate synthetic data privacy under a wide range of scenarios. These attacks include generalizations of prior works and novel attacks. We also introduce a general framework for reasoning about privacy threats to synthetic data and showcase TAPAS on several examples.
翻訳日:2022-11-15 16:54:37 公開日:2022-11-12
# 自己教師型フレームワイズを用いた音声品質評価

Efficient Speech Quality Assessment using Self-supervised Framewise Embeddings ( http://arxiv.org/abs/2211.06646v1 )

ライセンス: Link先を確認
Karl El Hajal, Zihan Wu, Neil Scheidwasser-Clow, Gasser Elbanna and Milos Cernak(参考訳) 音声研究者、開発者、言語病理学者、システム品質エンジニアには、自動音声品質評価が不可欠である。 現在の最先端システムは、時間依存モデリングと組み合わせたフレームワイズ音声特徴(手動または学習可能な)に基づいている。 本稿では,ConferenceSpeech 2022 Challengeにおいて,最高のパフォーマンスモデルに匹敵する効率のよいシステムを提案する。 提案システムの特徴は,パラメータの少ない (40-60x), FLOPSが少ない (100x), メモリ消費が少ない (10-15x), レイテンシが低い (30x) ことである。 したがって、音声品質の実践者は、より高速に繰り返し、リソース制限されたハードウェアにシステムをデプロイし、全体として、提案システムは持続可能な機械学習に寄与する。 この論文は、フレームワイズが発話レベルの埋め込みよりも優れており、音響条件モデリングによるマルチタスクトレーニングは、より良い解釈を提供しながら、音声品質の予測を損なわないと結論付けている。

Automatic speech quality assessment is essential for audio researchers, developers, speech and language pathologists, and system quality engineers. The current state-of-the-art systems are based on framewise speech features (hand-engineered or learnable) combined with time dependency modeling. This paper proposes an efficient system with results comparable to the best performing model in the ConferencingSpeech 2022 challenge. Our proposed system is characterized by a smaller number of parameters (40-60x), fewer FLOPS (100x), lower memory consumption (10-15x), and lower latency (30x). Speech quality practitioners can therefore iterate much faster, deploy the system on resource-limited hardware, and, overall, the proposed system contributes to sustainable machine learning. The paper also concludes that framewise embeddings outperform utterance-level embeddings and that multi-task training with acoustic conditions modeling does not degrade speech quality prediction while providing better interpretation.
翻訳日:2022-11-15 16:54:28 公開日:2022-11-12
# 言語指導型ロボットマニピュレーションのためのニューロシンボリックプログラムの学習

Learning Neuro-symbolic Programs for Language Guided Robot Manipulation ( http://arxiv.org/abs/2211.06652v1 )

ライセンス: Link先を確認
Namasivayam Kalithasan, Himanshu Singh, Vishal Bindal, Arnav Tuli, Vishwajeet Agrawal, Rahul Jain, Parag Singla, Rohan Paul(参考訳) 自然言語命令と入力および出力シーンが与えられた場合、所望の出力シーンとなる入力シーン上でロボットが実行可能な操作プログラムを出力できるニューロシンボリックモデルをトレーニングすることを目的としている。 このタスクの以前のアプローチには、以下の制限がある。 (i)訓練中に見られるもの以上の一般化を制限する概念を手書き記号に頼る([1]) 二 指示からアクションシーケンスを推測するが、密集したサブゴールの監督が必要 [2] 又は (iii)複雑な命令の解釈に固有のより深いオブジェクト中心の推論に必要な意味論の欠如 [3]。 対照的に、我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監視を必要としないエンドツーエンドの差別化が可能であり、潜在神経オブジェクト中心の表現で機能するシンボリック推論構造を利用し、入力シーンの深い推論を可能にする。 我々のアプローチの中心はモジュラー構造であり、階層的な命令パーサと、RLで訓練された非絡み合った動作表現を学習するための操作モジュールで構成されています。 実験では,7-DOFマニピュレータを用いたシミュレーション環境において,異なるステップ数を持つ命令と異なるオブジェクト数を持つシーン,未知の属性の組み合わせを持つオブジェクトのシミュレーション実験を行い,モデルがこのような変動に頑健であり,特に一般化設定において,既存のベースラインよりもはるかに優れていることを示す。

Given a natural language instruction, and an input and an output scene, our goal is to train a neuro-symbolic model which can output a manipulation program that can be executed by the robot on the input scene resulting in the desired output scene. Prior approaches for this task possess one of the following limitations: (i) rely on hand-coded symbols for concepts limiting generalization beyond those seen during training [1] (ii) infer action sequences from instructions but require dense sub-goal supervision [2] or (iii) lack semantics required for deeper object-centric reasoning inherent in interpreting complex instructions [3]. In contrast, our approach is neuro-symbolic and can handle linguistic as well as perceptual variations, is end-to-end differentiable requiring no intermediate supervision, and makes use of symbolic reasoning constructs which operate on a latent neural object-centric representation, allowing for deeper reasoning over the input scene. Central to our approach is a modular structure, consisting of a hierarchical instruction parser, and a manipulation module to learn disentangled action representations, both trained via RL. Our experiments on a simulated environment with a 7-DOF manipulator, consisting of instructions with varying number of steps, as well as scenes with different number of objects, and objects with unseen attribute combinations, demonstrate that our model is robust to such variations, and significantly outperforms existing baselines, particularly in generalization settings.
翻訳日:2022-11-15 16:54:13 公開日:2022-11-12
# 迷走神経鎮静時のマスク面の痛み検出

Pain Detection in Masked Faces during Procedural Sedation ( http://arxiv.org/abs/2211.06694v1 )

ライセンス: Link先を確認
Y. Zarghami, S. Mafeld, A. Conway, B. Taati(参考訳) 鎮静術を施行した患者のケアの質には痛みのモニタリングが不可欠である。 痛みを検出するための自動メカニズムは鎮静用量滴定を改善することができる。 顔の痛み検出に関するこれまでの研究は、隠蔽された顔の痛みを検出するコンピュータビジョン法の生存可能性を示している。 しかし、手術中の患者の顔は、医療機器やマスクで部分的に遮られることが多い。 人工的に閉塞した顔の痛み検出に関する以前の予備的な研究は、目の周りの狭いバンドからの痛みを検出できるアプローチを示している。 本研究は,介入放射線科で手術中の14例のマスキング顔の映像データを収集し,このデータセットを用いて深層学習モデルを訓練した。 このモデルは痛みの表情を正確に検出することができ、因果的時間的平滑化の後、平均精度(AP)が0.72、受信機動作特性曲線(AUC)が0.82となった。 これらの結果はベースラインモデルよりも優れており、手続き鎮静中のマスク面の痛み検出におけるコンピュータビジョンアプローチの有効性を示す。 モデルが公開データセット上でトレーニングされ、鎮静ビデオ上でテストされた場合、データセット間のパフォーマンスも検査される。 痛み表現が2つのデータセットで異なる方法を定性的に検討する。

Pain monitoring is essential to the quality of care for patients undergoing a medical procedure with sedation. An automated mechanism for detecting pain could improve sedation dose titration. Previous studies on facial pain detection have shown the viability of computer vision methods in detecting pain in unoccluded faces. However, the faces of patients undergoing procedures are often partially occluded by medical devices and face masks. A previous preliminary study on pain detection on artificially occluded faces has shown a feasible approach to detect pain from a narrow band around the eyes. This study has collected video data from masked faces of 14 patients undergoing procedures in an interventional radiology department and has trained a deep learning model using this dataset. The model was able to detect expressions of pain accurately and, after causal temporal smoothing, achieved an average precision (AP) of 0.72 and an area under the receiver operating characteristic curve (AUC) of 0.82. These results outperform baseline models and show viability of computer vision approaches for pain detection of masked faces during procedural sedation. Cross-dataset performance is also examined when a model is trained on a publicly available dataset and tested on the sedation videos. The ways in which pain expressions differ in the two datasets are qualitatively examined.
翻訳日:2022-11-15 16:48:12 公開日:2022-11-12
# モデルアンサンブルを用いた超レイア障害検証のための深部顔面表現型の改善

Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification Using Model Ensembles ( http://arxiv.org/abs/2211.06764v1 )

ライセンス: Link先を確認
Alexander Hustinx, Fabio Hellmann, \"Omer S\"umer, Behnam Javanmardi, Elisabeth Andr\'e, Peter Krawitz, Tzung-Chien Hsieh(参考訳) 希少な遺伝疾患は世界の人口の6%以上に影響を与える。 稀な疾患は非常に多種多様であるため、診断は困難である。 多くの疾患は、臨床医が患者を診断するためのヒントとなる顔の特徴を認識している。 gestaltmatcherのような以前の研究は、alexnetに似たdcnnが生成した表現ベクトルを利用して、高次元特徴空間の患者とマッチングし、超希薄な疾患を支援する。 しかし、gestaltmatcherで転送学習に使用されるアーキテクチャとデータセットは時代遅れになっている。 さらに、未確認の超希少障害に対するより良い表現ベクトルを生成するためのモデルを訓練する方法はまだ研究されていない。 超希薄な疾患を持つ患者の全体的な不足のため、モデルを直接訓練することは不可能である。 そこで我々はまず,gestaltmatcher dcnnを最先端の顔認識アプローチであるiresnetからarcfaceに置き換えた影響を解析した。 さらに、転送学習のための異なる顔認識データセットを実験した。 さらに, 一般顔認証モデルとモデルとを混合したテスト時間拡張法とモデルアンサンブルを提案し, ウルトララレ障害の障害検証精度を向上させることを試みた。 提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。

Rare genetic disorders affect more than 6% of the global population. Reaching a diagnosis is challenging because rare disorders are very diverse. Many disorders have recognizable facial features that are hints for clinicians to diagnose patients. Previous work, such as GestaltMatcher, utilized representation vectors produced by a DCNN similar to AlexNet to match patients in high-dimensional feature space to support "unseen" ultra-rare disorders. However, the architecture and dataset used for transfer learning in GestaltMatcher have become outdated. Moreover, a way to train the model for generating better representation vectors for unseen ultra-rare disorders has not yet been studied. Because of the overall scarcity of patients with ultra-rare disorders, it is infeasible to directly train a model on them. Therefore, we first analyzed the influence of replacing GestaltMatcher DCNN with a state-of-the-art face recognition approach, iResNet with ArcFace. Additionally, we experimented with different face recognition datasets for transfer learning. Furthermore, we proposed test-time augmentation, and model ensembles that mix general face verification models and models specific for verifying disorders to improve the disorder verification accuracy of unseen ultra-rare disorders. Our proposed ensemble model achieves state-of-the-art performance on both seen and unseen disorders.
翻訳日:2022-11-15 16:44:59 公開日:2022-11-12
# スタイルベースニューラルラジアンスフィールドのための3次元認識符号化

3D-Aware Encoding for Style-based Neural Radiance Fields ( http://arxiv.org/abs/2211.06583v1 )

ライセンス: Link先を確認
Yu-Jhe Li, Tao Xu, Bichen Wu, Ningyuan Zheng, Xiaoliang Dai, Albert Pumarola, Peizhao Zhang, Peter Vajda, Kris Kitani(参考訳) スタイルベースニューラル放射場(StyleNeRFなど)におけるNeRF逆変換の課題に取り組む。 そこで本研究では,nnf生成器の潜在空間に入力画像を投影するインバージョン関数を学習し,その潜在コードに基づいて元の画像の新しいビューを合成する。 2次元生成モデルにおけるGANインバージョンと比較すると、NeRFインバージョンは単に必要ではない。 1)入力画像の同一性を保持するだけでなく、 2) 生成した新規ビューにおける3次元一貫性を確保する。 これは、単一のビューイメージから得られた潜在コードは、複数のビューで不変である必要がある。 この課題に対処するために,スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。 第1段階では,入力画像を潜在コードに変換するベースエンコーダを導入する。 潜在コードがビュー不変であり、3次元一貫した新しいビュー画像の合成を可能にするため、ベースエンコーダのトレーニングにアイデンティティコントラスト学習を利用する。 第2に、入力画像の同一性を保つため、潜在コードを洗練し、出力画像により詳細な情報を追加するための精細エンコーダを導入する。 重要なのは、このモデルの新規性は、潜在多様体上に横たわっている最も近い潜在コードを生成する1段エンコーダの設計にあるため、2段目の改良は、nerf多様体に近い。 提案する2段エンコーダは,画像再構成とノベルビューレンダリングの両方において,既存のエンコーダよりも質的かつ定量的に優れていることを実証する。

We tackle the task of NeRF inversion for style-based neural radiance fields, (e.g., StyleNeRF). In the task, we aim to learn an inversion function to project an input image to the latent space of a NeRF generator and then synthesize novel views of the original image based on the latent code. Compared with GAN inversion for 2D generative models, NeRF inversion not only needs to 1) preserve the identity of the input image, but also 2) ensure 3D consistency in generated novel views. This requires the latent code obtained from the single-view image to be invariant across multiple views. To address this new challenge, we propose a two-stage encoder for style-based NeRF inversion. In the first stage, we introduce a base encoder that converts the input image to a latent code. To ensure the latent code is view-invariant and is able to synthesize 3D consistent novel view images, we utilize identity contrastive learning to train the base encoder. Second, to better preserve the identity of the input image, we introduce a refining encoder to refine the latent code and add finer details to the output image. Importantly note that the novelty of this model lies in the design of its first-stage encoder which produces the closest latent code lying on the latent manifold and thus the refinement in the second stage would be close to the NeRF manifold. Through extensive experiments, we demonstrate that our proposed two-stage encoder qualitatively and quantitatively exhibits superiority over the existing encoders for inversion in both image reconstruction and novel-view rendering.
翻訳日:2022-11-15 16:35:35 公開日:2022-11-12
# ノイズガバナンスによるグラフニューラルネットワークのロバストトレーニング

Robust Training of Graph Neural Networks via Noise Governance ( http://arxiv.org/abs/2211.06614v1 )

ライセンス: Link先を確認
Siyi Qian, Haochao Ying, Renjun Hu, Jingbo Zhou, Jintai Chen, Danny Z. Chen, Jian Wu(参考訳) グラフニューラルネットワーク(GNN)は、半教師付き学習のモデルとして広く使われている。 しかし、ラベルノイズの存在下でのGNNの堅牢性は、ほとんど探索されていない問題である。 本稿では,グラフのノードのラベルがノイズだけでなく少ないという,重要かつ困難なシナリオについて考察する。 このシナリオでは、ラベルノイズの伝搬と学習不足により、GNNの性能は劣化しがちである。 これらの問題に対処するために、ラベルノイズを明示的に制御することを学ぶことで、より堅牢性を実現する新しいRTGNN(Robust Training of Graph Neural Networks via Noise Governance)フレームワークを提案する。 具体的には、補足的監督として自己強化と整合性正規化を導入する。 自己強化監視は、ディープニューラルネットワークの記憶効果にインスパイアされ、ノイズラベルの修正を目的としている。 さらに、一貫性の規則化は、ビュー間およびビュー内の両方の観点からの模倣損失を通じて、GNNがノイズラベルに過度に適合することを防ぐ。 このような監視を活用すべく、ラベルをクリーンでノイズの多いタイプに分割し、不正確なラベルを修正し、ラベルのないノードに擬似ラベルを生成する。 異なる種類のラベルを持つノードの監督は適応的に選択される。 これにより、ノイズの多いラベルの影響を制限しながら、クリーンなラベルから十分な学習が可能になる。 RTGNNフレームワークの有効性を評価するための広範囲な実験を行い、2種類のラベルノイズと様々なノイズ率を持つ最先端手法よりも一貫した性能を検証した。

Graph Neural Networks (GNNs) have become widely-used models for semi-supervised learning. However, the robustness of GNNs in the presence of label noise remains a largely under-explored problem. In this paper, we consider an important yet challenging scenario where labels on nodes of graphs are not only noisy but also scarce. In this scenario, the performance of GNNs is prone to degrade due to label noise propagation and insufficient learning. To address these issues, we propose a novel RTGNN (Robust Training of Graph Neural Networks via Noise Governance) framework that achieves better robustness by learning to explicitly govern label noise. More specifically, we introduce self-reinforcement and consistency regularization as supplemental supervision. The self-reinforcement supervision is inspired by the memorization effects of deep neural networks and aims to correct noisy labels. Further, the consistency regularization prevents GNNs from overfitting to noisy labels via mimicry loss in both the inter-view and intra-view perspectives. To leverage such supervisions, we divide labels into clean and noisy types, rectify inaccurate labels, and further generate pseudo-labels on unlabeled nodes. Supervision for nodes with different types of labels is then chosen adaptively. This enables sufficient learning from clean labels while limiting the impact of noisy ones. We conduct extensive experiments to evaluate the effectiveness of our RTGNN framework, and the results validate its consistent superior performance over state-of-the-art methods with two types of label noises and various noise rates.
翻訳日:2022-11-15 16:29:38 公開日:2022-11-12
# 説明可能な強化学習に関する調査 : 概念,アルゴリズム,課題

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges ( http://arxiv.org/abs/2211.06665v1 )

ライセンス: Link先を確認
Yunpeng Qing, Shunyu Liu, Jie Song, Mingli Song(参考訳) 強化学習(rl)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。 ディープラーニングの復活によって、Deep RL(DRL)は、幅広い複雑な制御タスクに対して大きな成功を収めた。 励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。 この問題を軽減するために,本質的な解釈可能性やポストホックな説明可能性を構築することで,知的エージェントの内部動作に光をあてる文学が多数提案されている。 本稿では,eXplainable RL (XRL) に関する既存研究の総合的なレビューを行い,先行研究をモデル記述,報酬記述,状態記述,タスク記述に明確に分類する新たな分類法を提案する。 また,人間の知識を逆に活用してエージェントの学習効率と最終性能を向上するRL手法をレビュー,強調する一方,XRL分野ではこのような手法は無視されることが多い。 XRLにおけるいくつかのオープンな課題と機会について論じる。 この調査は、XRLの高度な要約とより良い理解を提供し、より効果的なXRLソリューションの研究を動機付けることを目的としている。 対応するオープンソースコードはhttps://github.com/Plankson/awesome-explainable-reinforcement-learningに分類される。

Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and final performance of agents while this kind of method is often ignored in XRL field. Some open challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization and better understanding of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
翻訳日:2022-11-15 16:29:16 公開日:2022-11-12
# カテゴリーデータに基づくビジネスインテリジェンスとデータ駆動根本原因分析のためのパイプライン

A Pipeline for Business Intelligence and Data-Driven Root Cause Analysis on Categorical Data ( http://arxiv.org/abs/2211.06717v1 )

ライセンス: Link先を確認
Shubham Thakar, Dhananjay Kalbande(参考訳) ビジネスインテリジェンス(bi)は、ビジネス内で戦略的に適用される既存のデータから得られた知識である。 データマイニングは、統計データモデリングを用いてデータからBIを抽出する技術または方法である。 収集されたさまざまなデータ項目間の関係や相関関係を見つけることで、ビジネスパフォーマンスの向上や、少なくとも何が起こっているのか理解を深めることができる。 root cause analysis (rca) は、適切な解を特定するために問題や事象の根本原因を発見することである。 RCAは、イベントが発生した理由を示し、将来的な問題の発生を避けるのに役立つ。 本稿では,データからビジネスインサイトを得るための新たなクラスタリングとアソシエーションルールマイニングパイプラインを提案する。 このパイプラインの結果は、これらのルールを評価するために、連続性、先行性、および様々なメトリクスを持つアソシエーションルールの形式でなされる。 このパイプラインの結果は、重要なビジネス判断のアンカーとなり、データサイエンティストが既存のモデルのアップデートや新しいモデルの開発に使用できる。 イベントの発生は、生成されたルールの先行者によって説明される。 したがって、この出力はデータ駆動の根本原因分析にも役立つ。

Business intelligence (BI) is any knowledge derived from existing data that may be strategically applied within a business. Data mining is a technique or method for extracting BI from data using statistical data modeling. Finding relationships or correlations between the various data items that have been collected can be used to boost business performance or at the very least better comprehend what is going on. Root cause analysis (RCA) is discovering the root causes of problems or events to identify appropriate solutions. RCA can show why an event occurred and this can help in avoiding occurrences of an issue in the future. This paper proposes a new clustering + association rule mining pipeline for getting business insights from data. The results of this pipeline are in the form of association rules having consequents, antecedents, and various metrics to evaluate these rules. The results of this pipeline can help in anchoring important business decisions and can also be used by data scientists for updating existing models or while developing new ones. The occurrence of any event is explained by its antecedents in the generated rules. Hence this output can also help in data-driven root cause analysis.
翻訳日:2022-11-15 16:28:49 公開日:2022-11-12
# 複数の時空間分解能における特徴を用いたリアルタイムの人間の行動予測

Using Features at Multiple Temporal and Spatial Resolutions to Predict Human Behavior in Real Time ( http://arxiv.org/abs/2211.06721v1 )

ライセンス: Link先を確認
Liang Zhang, Justin Lieffers, Adarsh Pyarelal(参考訳) 複雑なタスクを行う場合、人間は自然に複数の時間的および空間的解像度を同時に判断する。 我々は、人間のチームメイトを効果的にモデル化する人工知能エージェント、すなわち計算的心の理論(tom)は、同じことをすべきであると主張する。 本稿では,人間の行動を予測するために,高分解能と低分解能の空間情報と時間情報を統合し,マインクラフト型環境における都市探索・救助(usar)ミッションのシミュレーションを行った被験者から収集したデータに基づいて評価する手法を提案する。 本モデルでは,3つのネットワークが同時にトレーニングされた動作予測のためのニューラルネットワークを用いて,高分解能特徴抽出のためのニューラルネットワークを構成する。 高分解能抽出器は、マンハッタンと人間のマインクラフトアバターの距離差を入力として、高分解能グリッドワールド表現から計算された最新の少数の行動に対して動的に変化する目標をエンコードする。 対照的に、低分解能抽出器は、低分解能グラフ表現から計算された歴史的状態行列を用いて、参加者の歴史的挙動を符号化する。 教師付き学習により,人間の行動予測のためのロバストな事前情報を取得し,長期的な観察を効果的に処理する。 実験の結果,高分解能情報のみを用いる手法に比べて予測精度は有意に向上した。

When performing complex tasks, humans naturally reason at multiple temporal and spatial resolutions simultaneously. We contend that for an artificially intelligent agent to effectively model human teammates, i.e., demonstrate computational theory of mind (ToM), it should do the same. In this paper, we present an approach for integrating high and low-resolution spatial and temporal information to predict human behavior in real time and evaluate it on data collected from human subjects performing simulated urban search and rescue (USAR) missions in a Minecraft-based environment. Our model composes neural networks for high and low-resolution feature extraction with a neural network for behavior prediction, with all three networks trained simultaneously. The high-resolution extractor encodes dynamically changing goals robustly by taking as input the Manhattan distance difference between the humans' Minecraft avatars and candidate goals in the environment for the latest few actions, computed from a high-resolution gridworld representation. In contrast, the low-resolution extractor encodes participants' historical behavior using a historical state matrix computed from a low-resolution graph representation. Through supervised learning, our model acquires a robust prior for human behavior prediction, and can effectively deal with long-term observations. Our experimental results demonstrate that our method significantly improves prediction accuracy compared to approaches that only use high-resolution information.
翻訳日:2022-11-15 16:28:30 公開日:2022-11-12
# グラフニューラルネットワークの自己教師付きグラフ構造再構成

Self-Supervised Graph Structure Refinement for Graph Neural Networks ( http://arxiv.org/abs/2211.06545v1 )

ライセンス: Link先を確認
Jianan Zhao, Qianlong Wen, Mingxuan Ju, Chuxu Zhang, Yanfang Ye(参考訳) グラフニューラルネットワーク(GNN)の隣接行列の学習を目的としたグラフ構造学習(GSL)は,GNNの性能向上に大きな可能性を示している。 既存のGSLの作業の多くは、推定隣接行列とGNNパラメータを下流タスクに最適化した共同学習フレームワークを適用している。 しかし、GSLは基本的にリンク予測タスクであるため、そのゴールは下流タスクのゴールと大きく異なる可能性がある。 これらの2つの目標の不整合は、潜在的な最適グラフ構造を学ぶためのGSL法を制限する。 さらに、協調学習フレームワークは、隣接行列の推定と最適化の過程において、時間と空間の観点からのスケーラビリティの問題に苦しむ。 これらの問題を緩和するために,プリトレイン・フィニチューンパイプラインを用いたグラフ構造改善(gsr)フレームワークを提案する。 特に、事前学習フェーズは、相互リンク予測タスクを含む多視点コントラスト学習フレームワークにより、基礎となるグラフ構造を包括的に推定することを目的としている。 そして、事前学習モデルにより推定されるエッジ確率に応じてエッジの追加及び削除によりグラフ構造を洗練する。 最後に、微調整GNNは事前訓練されたモデルによって初期化され、下流タスクに最適化される。 精巧なグラフ構造が微調整空間に静止しているため、GSRは優れたスケーラビリティと効率をもたらす微調整フェーズにおけるグラフ構造の推定と最適化を避けることができる。 さらに、微調整GNNは、知識の移行と精錬グラフの両方によって強化される。 提案モデルの有効性(ベンチマークデータセット6つで最高の性能)、効率、スケーラビリティ(32.8%のgpuメモリを使用した場合の13.8倍の高速化)を評価するために、広範囲な実験を行った。

Graph structure learning (GSL), which aims to learn the adjacency matrix for graph neural networks (GNNs), has shown great potential in boosting the performance of GNNs. Most existing GSL works apply a joint learning framework where the estimated adjacency matrix and GNN parameters are optimized for downstream tasks. However, as GSL is essentially a link prediction task, whose goal may largely differ from the goal of the downstream task. The inconsistency of these two goals limits the GSL methods to learn the potential optimal graph structure. Moreover, the joint learning framework suffers from scalability issues in terms of time and space during the process of estimation and optimization of the adjacency matrix. To mitigate these issues, we propose a graph structure refinement (GSR) framework with a pretrain-finetune pipeline. Specifically, The pre-training phase aims to comprehensively estimate the underlying graph structure by a multi-view contrastive learning framework with both intra- and inter-view link prediction tasks. Then, the graph structure is refined by adding and removing edges according to the edge probabilities estimated by the pre-trained model. Finally, the fine-tuning GNN is initialized by the pre-trained model and optimized toward downstream tasks. With the refined graph structure remaining static in the fine-tuning space, GSR avoids estimating and optimizing graph structure in the fine-tuning phase which enjoys great scalability and efficiency. Moreover, the fine-tuning GNN is boosted by both migrating knowledge and refining graphs. Extensive experiments are conducted to evaluate the effectiveness (best performance on six benchmark datasets), efficiency, and scalability (13.8x faster using 32.8% GPU memory compared to the best GSL baseline on Cora) of the proposed model.
翻訳日:2022-11-15 16:17:36 公開日:2022-11-12
# 人物姿勢と顔画像合成のための二部グラフ推論GAN

Bipartite Graph Reasoning GANs for Person Pose and Facial Image Synthesis ( http://arxiv.org/abs/2211.06719v1 )

ライセンス: Link先を確認
Hao Tang, Ling Shao, Philip H.S. Torr, Nicu Sebe(参考訳) 本稿では,人物のポーズと顔画像合成という2つの課題に対して,二部グラフによる生成的逆ネットワーク(bigraphgan)を提案する。 提案するグラフ生成器は,ポーズ-ポーズ関係とポーズ-イメージ関係をそれぞれモデル化する2つの新しいブロックから構成される。 特に,提案する二部グラフ推論(bgr)ブロックは,二部グラフにおけるソースとターゲットポーズの長距離交叉関係を推論することを目的としており,ポーズ変形に起因する課題を軽減している。 さらに,対話的な方法で人物の形状と外観の両方の特徴表現能力を効果的に更新し,強化する,新たなインタラクション・アンド・アグリゲーション(IA)ブロックを提案する。 さらに,各部分のポーズの変化をより正確に把握するために,二部グラフによる大域構造変換を異なる意味体/顔部分の異なる局所変換を学習するタスクを分解する,新しい部分認識二部グラフ推論(pbgr)ブロックを提案する。 3つの公開データセットを用いた2つの課題生成タスクの実験は、客観的な定量的スコアと主観的視覚的現実性の観点から提案手法の有効性を示す。 ソースコードとトレーニングされたモデルはhttps://github.com/ha0tang/bigraphganで入手できる。

We present a novel bipartite graph reasoning Generative Adversarial Network (BiGraphGAN) for two challenging tasks: person pose and facial image synthesis. The proposed graph generator consists of two novel blocks that aim to model the pose-to-pose and pose-to-image relations, respectively. Specifically, the proposed bipartite graph reasoning (BGR) block aims to reason the long-range cross relations between the source and target pose in a bipartite graph, which mitigates some of the challenges caused by pose deformation. Moreover, we propose a new interaction-and-aggregation (IA) block to effectively update and enhance the feature representation capability of both a person's shape and appearance in an interactive way. To further capture the change in pose of each part more precisely, we propose a novel part-aware bipartite graph reasoning (PBGR) block to decompose the task of reasoning the global structure transformation with a bipartite graph into learning different local transformations for different semantic body/face parts. Experiments on two challenging generation tasks with three public datasets demonstrate the effectiveness of the proposed methods in terms of objective quantitative scores and subjective visual realness. The source code and trained models are available at https://github.com/Ha0Tang/BiGraphGAN.
翻訳日:2022-11-15 16:11:45 公開日:2022-11-12
# 効率的な映像分類のための深部教師なしキーフレーム抽出

Deep Unsupervised Key Frame Extraction for Efficient Video Classification ( http://arxiv.org/abs/2211.06742v1 )

ライセンス: Link先を確認
Hao Tang, Lei Ding, Songsong Wu, Bin Ren, Nicu Sebe, Paolo Rota(参考訳) 大量のビデオ(YouTube、Huluなど)が毎日オンラインにアップロードされているため、ビデオ処理と分析が緊急課題となっている。 ビデオからの代表的なキーフレームの抽出は、コンピュータ資源や時間を大幅に削減するため、ビデオ処理や解析において非常に重要である。 近年は大きな進歩を遂げているが,既存の手法では性能と効率のバランスが取れていないため,大規模ビデオ分類は未解決のままである。 そこで本研究では,畳み込みニューラルネットワーク (cnn) とテンポラルセグメント密度ピーククラスタリング (tsdpc) を組み合わせた,キーフレームを教師なしで検索する手法を提案する。 提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。 もう一つは、ビデオの時間的情報を保存できることです。 これにより、ビデオ分類の効率が向上する。 さらに、cnnの上部にlong short-term memory network(lstm)を追加して分類性能をさらに向上させる。 さらに,様々な入力ネットワークの重み融合戦略が提案され,性能が向上した。 映像分類とキーフレーム抽出を同時に最適化することにより,より優れた分類性能と高効率を実現する。 提案手法を2つの一般的なデータセット(HMDB51とUCF101)上で評価し,提案手法が最先端のアプローチと比較して競争性能と効率性を達成することを示す。

Video processing and analysis have become an urgent task since a huge amount of videos (e.g., Youtube, Hulu) are uploaded online every day. The extraction of representative key frames from videos is very important in video processing and analysis since it greatly reduces computing resources and time. Although great progress has been made recently, large-scale video classification remains an open problem, as the existing methods have not well balanced the performance and efficiency simultaneously. To tackle this problem, this work presents an unsupervised method to retrieve the key frames, which combines Convolutional Neural Network (CNN) and Temporal Segment Density Peaks Clustering (TSDPC). The proposed TSDPC is a generic and powerful framework and it has two advantages compared with previous works, one is that it can calculate the number of key frames automatically. The other is that it can preserve the temporal information of the video. Thus it improves the efficiency of video classification. Furthermore, a Long Short-Term Memory network (LSTM) is added on the top of the CNN to further elevate the performance of classification. Moreover, a weight fusion strategy of different input networks is presented to boost the performance. By optimizing both video classification and key frame extraction simultaneously, we achieve better classification performance and higher efficiency. We evaluate our method on two popular datasets (i.e., HMDB51 and UCF101) and the experimental results consistently demonstrate that our strategy achieves competitive performance and efficiency compared with the state-of-the-art approaches.
翻訳日:2022-11-15 16:11:23 公開日:2022-11-12
# 集中治療室における顔AU検出のためのエンドツーエンド機械学習フレームワーク

End-to-End Machine Learning Framework for Facial AU Detection in Intensive Care Units ( http://arxiv.org/abs/2211.06570v1 )

ライセンス: Link先を確認
Subhash Nerella, Kia Khezeli, Andrea Davidson, Patrick Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室に入院した患者には痛みがよく起こる。 ICU患者の痛み評価は、特に非バーバル鎮静、機械的換気、挿管患者の臨床医やICUスタッフにとって依然として課題である。 現在の手動の観察に基づく痛み評価ツールは、投与される痛みの頻度によって制限され、観察者に主観的である。 顔の行動は観察に基づくツールの主要な構成要素である。 さらに, 顔動作単位(aus)を用いた痛みを伴う表情検出の可能性についても検討した。 しかし、これらのアプローチは制御された環境や半制御された環境に限られており、臨床環境では検証されていない。 本研究では,動的ICU環境における顔行動分析を対象とする最大のデータセットであるPain-ICUデータセットを提案する。 対象はフロリダ大学ヘルス・ハンドス病院でICUを受診した成人49例のAUを付加した76,388例の顔画像フレームである。 本研究では、Pain-ICUデータセットと外部データセットのAU検出のための2つの視覚トランスフォーマーモデル、すなわちViTとSWINを評価した。 ICUでリアルタイムAU検出を行う目的で,完全エンドツーエンドのAU検出パイプラインを開発した。 SWINトランスフォーマーベースは、Pain-ICUデータセットのホールドアウトテストパーティションで0.88F1スコアと0.85精度を達成した。

Pain is a common occurrence among patients admitted to Intensive Care Units. Pain assessment in ICU patients still remains a challenge for clinicians and ICU staff, specifically in cases of non-verbal sedated, mechanically ventilated, and intubated patients. Current manual observation-based pain assessment tools are limited by the frequency of pain observations administered and are subjective to the observer. Facial behavior is a major component in observation-based tools. Furthermore, previous literature shows the feasibility of painful facial expression detection using facial action units (AUs). However, these approaches are limited to controlled or semi-controlled environments and have never been validated in clinical settings. In this study, we present our Pain-ICU dataset, the largest dataset available targeting facial behavior analysis in the dynamic ICU environment. Our dataset comprises 76,388 patient facial image frames annotated with AUs obtained from 49 adult patients admitted to ICUs at the University of Florida Health Shands hospital. In this work, we evaluated two vision transformer models, namely ViT and SWIN, for AU detection on our Pain-ICU dataset and also external datasets. We developed a completely end-to-end AU detection pipeline with the objective of performing real-time AU detection in the ICU. The SWIN transformer Base variant achieved 0.88 F1-score and 0.85 accuracy on the held-out test partition of the Pain-ICU dataset.
翻訳日:2022-11-15 16:00:44 公開日:2022-11-12
# ABCAS: 自動安定化器としてのスペクトルノルムの適応境界制御

ABCAS: Adaptive Bound Control of spectral norm as Automatic Stabilizer ( http://arxiv.org/abs/2211.06595v1 )

ライセンス: Link先を確認
Shota Hirose, Shiori Maki, Naoki Wada, Heming Sun, Jiro Katto(参考訳) スペクトル正規化は、生成的逆ネットワークのトレーニングを安定化するための最良の方法の1つである。 スペクトル正規化は、実データと偽データの分布の間の判別器の勾配を制限する。 しかし、この正規化であっても、GANのトレーニングは失敗することがある。 本稿では,トレーニングデータセットによってはより厳しい制約が必要な場合があり,ABCASと呼ばれる適応正規化手法を提供する新しい安定化器を提案する。 本手法は,実データと偽データの分布距離をチェックすることにより,判別器のリプシッツ定数を適応的に決定する。 提案手法は,生成側ネットワークのトレーニングの安定性を改善し,生成画像のFr'echet Inception Distanceスコアを向上する。 また、3つのデータセットに適したスペクトルノルムについても検討した。 その結果をアブレーション研究として示す。

Spectral Normalization is one of the best methods for stabilizing the training of Generative Adversarial Network. Spectral Normalization limits the gradient of discriminator between the distribution between real data and fake data. However, even with this normalization, GAN's training sometimes fails. In this paper, we reveal that more severe restriction is sometimes needed depending on the training dataset, then we propose a novel stabilizer which offers an adaptive normalization method, called ABCAS. Our method decides discriminator's Lipschitz constant adaptively, by checking the distance of distributions of real and fake data. Our method improves the stability of the training of Generative Adversarial Network and achieved better Fr\'echet Inception Distance score of generated images. We also investigated suitable spectral norm for three datasets. We show the result as an ablation study.
翻訳日:2022-11-15 16:00:24 公開日:2022-11-12
# divide and contrast:adaptive contrastive learningによるソースフリードメイン適応

Divide and Contrast: Source-free Domain Adaptation via Adaptive Contrastive Learning ( http://arxiv.org/abs/2211.06612v1 )

ライセンス: Link先を確認
Ziyi Zhang, Weikai Chen, Hui Cheng, Zhen Li, Siyuan Li, Liang Lin, Guanbin Li(参考訳) 本稿では、ソースデータにアクセスせずに、ソースプリトレーニングされたモデルをターゲットドメインに適応させる、ソースフリードメイン適応(sfuda)と呼ばれる実用的なドメイン適応タスクについて検討する。 既存の技術は主に自己教師付き擬似ラベリングを活用して、クラスワイドなグローバルアライメント [1] を達成するか、地域間の特徴一貫性を促進する局所構造抽出に依存する[2]。 グローバルな"アプローチはノイズの多いラベルに敏感だが、"ローカルな"アプローチはソースバイアスに悩まされている。 本稿では,SFUDAにおける新たなパラダイムであるDivide and Contrast(DaC)について述べる。 ソースモデルの予測信頼度に基づいて、dacは対象データをソースライクなサンプルとターゲット固有のサンプルに分割する。 特に、ソースライクなサンプルは、比較的クリーンなラベルのおかげで、グローバルなクラスクラスタリングを学ぶために利用される。 よりノイズの多いターゲット固有のデータは、固有のローカル構造を学ぶためにインスタンスレベルで利用されます。 さらに、メモリバンクベースの最大平均損失(mmd)損失を用いて、ソースライクなドメインとターゲット固有のサンプルを整合させ、分散ミスマッチを低減させる。 VisDA、Office-Home、そしてより挑戦的なDomainNetに関する大規模な実験は、現在の最先端アプローチよりもDaCの優れたパフォーマンスを検証した。 コードはhttps://github.com/zyezhang/dac.gitで入手できる。

We investigate a practical domain adaptation task, called source-free domain adaptation (SFUDA), where the source-pretrained model is adapted to the target domain without access to the source data. Existing techniques mainly leverage self-supervised pseudo labeling to achieve class-wise global alignment [1] or rely on local structure extraction that encourages feature consistency among neighborhoods [2]. While impressive progress has been made, both lines of methods have their own drawbacks - the "global" approach is sensitive to noisy labels while the "local" counterpart suffers from source bias. In this paper, we present Divide and Contrast (DaC), a new paradigm for SFUDA that strives to connect the good ends of both worlds while bypassing their limitations. Based on the prediction confidence of the source model, DaC divides the target data into source-like and target-specific samples, where either group of samples is treated with tailored goals under an adaptive contrastive learning framework. Specifically, the source-like samples are utilized for learning global class clustering thanks to their relatively clean labels. The more noisy target-specific data are harnessed at the instance level for learning the intrinsic local structures. We further align the source-like domain with the target-specific samples using a memory bank-based Maximum Mean Discrepancy (MMD) loss to reduce the distribution mismatch. Extensive experiments on VisDA, Office-Home, and the more challenging DomainNet have verified the superior performance of DaC over current state-of-the-art approaches. The code is available at https://github.com/ZyeZhang/DaC.git.
翻訳日:2022-11-15 16:00:11 公開日:2022-11-12
# 接地言語理解のための対話型マルチモーダルデータセットの収集

Collecting Interactive Multi-modal Datasets for Grounded Language Understanding ( http://arxiv.org/abs/2211.06552v1 )

ライセンス: Link先を確認
Shrestha Mohanty, Negar Arabzadeh, Milagro Teruel, Yuxuan Sun, Artem Zholus, Alexey Skrynnik, Mikhail Burtsev, Kavya Srinet, Aleksandr Panov, Arthur Szlam, Marc-Alexandre C\^ot\'e, Julia kiseleva(参考訳) 人間の知性は新しいタスクや環境に迅速に適応できる。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 同様の機能をマシンで実現可能な研究を容易にするために,(1)自然言語タスクを用いた協調型実施エージェントの形式化,(2)大規模かつスケーラブルなデータ収集ツールの開発,(3)対話型接地言語理解のための最初のデータセットの収集を行った。

Human intelligence can remarkably adapt quickly to new tasks and environments. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research which can enable similar capabilities in machines, we made the following contributions (1) formalized the collaborative embodied agent using natural language task; (2) developed a tool for extensive and scalable data collection; and (3) collected the first dataset for interactive grounded language understanding.
翻訳日:2022-11-15 15:51:12 公開日:2022-11-12
# 細粒化エンティティセグメンテーション

Fine-Grained Entity Segmentation ( http://arxiv.org/abs/2211.05776v2 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Weidong Guo, Tiancheng Shen, Jiuxiang Gu, Wenbo Li, Jiaya Jia, Zhe Lin, Ming-Hsuan Yang(参考訳) 密集した画像分割タスク(semantic、panopticなど)では、既存のメソッドが認識できない画像ドメイン、事前定義されたクラス、画像の解像度と品質のバリエーションにうまく一般化できない。 これらの観察に動機づけられ、オープンワールドと高品質の密集したセグメンテーションに重点を置いた、細粒度のエンティティセグメンテーションを探索する大規模なエンティティセグメンテーションデータセットを構築した。 データセットには、さまざまな画像ドメインと解像度にまたがるイメージと、トレーニングとテストのための高品質なマスクアノテーションが含まれている。 本稿では,データセットの高品質かつ解像度の高い性質から,高品質セグメンテーションのためのクロップフォーマーを提案する。 cropformerは、複数の画像からのマスク予測を効果的にアンサンブルできる、最初のクエリベースのトランスフォーマーアーキテクチャである。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクに対して、1.9ドルの大きなAPゲインを達成しています。 データセットとコードはhttp://luqi.info/entityv2.github.io/でリリースされる。

In dense image segmentation tasks (e.g., semantic, panoptic), existing methods can hardly generalize well to unseen image domains, predefined classes, and image resolution & quality variations. Motivated by these observations, we construct a large-scale entity segmentation dataset to explore fine-grained entity segmentation, with a strong focus on open-world and high-quality dense segmentation. The dataset contains images spanning diverse image domains and resolutions, along with high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer for high-quality segmentation, which can improve mask prediction using high-res image crops that provide more fine-grained image details than the full image. CropFormer is the first query-based Transformer architecture that can effectively ensemble mask predictions from multiple image crops, by learning queries that can associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the challenging fine-grained entity segmentation task. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
翻訳日:2022-11-15 15:44:33 公開日:2022-11-12
# DATa:視覚的表現を用いたドメイン適応型ディープテーブル検出

DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical Representations ( http://arxiv.org/abs/2211.06648v1 )

ライセンス: Link先を確認
Hyebin Kwon, Joungbin An, Dongwoo Lee, Won-Yong Shin(参考訳) 手作りのヒューリスティックに基づくルールベースのアプローチだけでなく、ディープラーニングアプローチも開発することにより、テーブル検出にかなりの研究が注目されている。 近年の研究は改良された結果でテーブル検出に成功したが、テーブルレイアウトの特徴が基礎となるモデルがトレーニングされたソースドメインと異なる可能性のある転送ドメインで使用される場合、パフォーマンスが低下することが多い。 この問題を解決するために,信頼ラベルが少ない特定のターゲットドメインにおいて,満足度の高い性能を保証する新しいドメイン適応支援ディープテーブル検出手法であるDATaを提案する。 この目的のために、我々は新たに語彙的特徴と再学習に用いる拡張モデルを設計した。 具体的には、最先端のビジョンベースモデルをバックボーンネットワークとして事前トレーニングした後、視覚ベースモデルと多層パーセプトロン(MLP)アーキテクチャからなる拡張モデルをトレーニングする。 トレーニングされたMLPアーキテクチャに基づいて得られた新しい信頼度スコアと、バウンディングボックスとその信頼度スコアの初期予測を用いて、各信頼度スコアをより正確に算出する。 データの優越性を検証するために,実世界のベンチマークデータセットをソースドメインに,別のデータセットをマテリアルサイエンス論文からなるターゲットドメインに導入して実験評価を行う。 実験により,提案手法は対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。 このようなゲインは、信頼度スコア閾値の設定に応じて高い偽陽性または偽陰性を除去できるため可能である。

Considerable research attention has been paid to table detection by developing not only rule-based approaches reliant on hand-crafted heuristics but also deep learning approaches. Although recent studies successfully perform table detection with enhanced results, they often experience performance degradation when they are used for transferred domains whose table layout features might differ from the source domain in which the underlying model has been trained. To overcome this problem, we present DATa, a novel Domain Adaptation-aided deep Table detection method that guarantees satisfactory performance in a specific target domain where few trusted labels are available. To this end, we newly design lexical features and an augmented model used for re-training. More specifically, after pre-training one of state-of-the-art vision-based models as our backbone network, we re-train our augmented model, consisting of the vision-based model and the multilayer perceptron (MLP) architecture. Using new confidence scores acquired based on the trained MLP architecture as well as an initial prediction of bounding boxes and their confidence scores, we calculate each confidence score more accurately. To validate the superiority of DATa, we perform experimental evaluations by adopting a real-world benchmark dataset in a source domain and another dataset in our target domain consisting of materials science articles. Experimental results demonstrate that the proposed DATa method substantially outperforms competing methods that only utilize visual representations in the target domain. Such gains are possible owing to the capability of eliminating high false positives or false negatives according to the setting of a confidence score threshold.
翻訳日:2022-11-15 15:43:00 公開日:2022-11-12
# 生涯学習対話システム

Lifelong and Continual Learning Dialogue Systems ( http://arxiv.org/abs/2211.06553v1 )

ライセンス: Link先を確認
Sahisnu Mazumder, Bing Liu(参考訳) チャットボットとして知られる対話システムは、ユーザとのチャット会話やタスク指向の対話で様々なタスクをこなすために広く普及しているため、近年で普及している。 既存のチャットボットは通常、事前にコンパイルされたデータや手動でラベル付けされたデータからトレーニングされる。 多くは手動でコンパイルされた知識ベース(kbs)を使用している。 自然言語を理解する能力はまだ限られており、多くのエラーが発生する傾向にあり、ユーザ満足度は低い。 通常、よりラベル付きデータとより手動でコンパイルされた知識を持つエンジニアによって継続的に改善される必要がある。 本書では,チャットボットがユーザや作業環境との自己開始型対話を通じて,自分自身で継続的に学習する能力を実現するための,生涯学習対話システムの新たなパラダイムを紹介する。 システムがユーザとチャットしたり、外部ソースからより多くのことを学ぶようになると、会話の知識が増し、より良くなる。 本書は、会話中の新しい言語表現と語彙的・事実的知識をユーザから継続的に学習し、外部ソースから会話を遮断し、会話中に新しい訓練例を取得し、会話スキルを習得する、連続学習対話システムを構築するための最新の開発と技術を紹介する。 これらの一般的な話題とは別に、対話システムの特定の側面の連続学習に関する既存の研究も調査されている。 この本は、将来の研究のためのオープンチャレンジに関する議論で締めくくられている。

Dialogue systems, commonly known as chatbots, have gained escalating popularity in recent times due to their wide-spread applications in carrying out chit-chat conversations with users and task-oriented dialogues to accomplish various user tasks. Existing chatbots are usually trained from pre-collected and manually-labeled data and/or written with handcrafted rules. Many also use manually-compiled knowledge bases (KBs). Their ability to understand natural language is still limited, and they tend to produce many errors resulting in poor user satisfaction. Typically, they need to be constantly improved by engineers with more labeled data and more manually compiled knowledge. This book introduces the new paradigm of lifelong learning dialogue systems to endow chatbots the ability to learn continually by themselves through their own self-initiated interactions with their users and working environments to improve themselves. As the systems chat more and more with users or learn more and more from external sources, they become more and more knowledgeable and better and better at conversing. The book presents the latest developments and techniques for building such continual learning dialogue systems that continuously learn new language expressions and lexical and factual knowledge during conversation from users and off conversation from external sources, acquire new training examples during conversation, and learn conversational skills. Apart from these general topics, existing works on continual learning of some specific aspects of dialogue systems are also surveyed. The book concludes with a discussion of open challenges for future research.
翻訳日:2022-11-15 15:42:18 公開日:2022-11-12
# VieCap4H-VLSP 2021: ObjectAoA -- ベトナム画像キャプションの注意を伴うオブジェクト関係変換器の性能向上

VieCap4H-VLSP 2021: ObjectAoA -- Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning ( http://arxiv.org/abs/2211.05405v2 )

ライセンス: Link先を確認
Nghia Hieu Nguyen, Duong T.D. Vo, Minh-Quan Ha(参考訳) 現在、画像キャプションは、視覚情報を理解し、人間の言語を使って画像にこの視覚情報を記述する能力を必要とする、困難なタスクである。 本稿では,注目機構に着目した物体関連トランスアーキテクチャを拡張することにより,トランス方式の画像理解能力を向上させる効率的な手法を提案する。 VieCap4Hデータセットの実験により,提案手法は,VLSPが保持する画像キャプション共有タスクの公開テストとプライベートテストの両方において,元の構造を大幅に上回っていることがわかった。

Image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of transformer-based method by extending Object Relation Transformer architecture with Attention on Attention mechanism. Experiments on the VieCap4H dataset show that our proposed method significantly outperforms its original structure on both the public test and private test of the Image Captioning shared task held by VLSP.
翻訳日:2022-11-15 15:32:48 公開日:2022-11-12