このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220711となっている論文です。

PDF登録状況(公開日: 20220711)

TitleAuthorsAbstract論文公表日・翻訳日
# DPS-QKDにおける空間と時間ビンの等価性

Equivalence of space and time-bins in DPS-QKD ( http://arxiv.org/abs/2008.03083v2 )

ライセンス: Link先を確認
Gautam Shaw, Shyam Sridharan, Shashank Ranu, Foram Shingala, Prabha Mandayam and Anil Prabhakar(参考訳) DPS-QKDのキージェネレーション効率とセキュリティは、パス遅延数や時間ビン重ね合わせの増加とともに向上する。 時間ビンを用いた重ね合わせ状態の実装を実証し、パスベースの重ね合わせと等価性を確立することにより、差動位相シフト量子鍵分布(DPS-QKD)のための高次重ね合わせ状態の実装を簡易化する。 我々はDPS-QKDを105km以上の単一モード光ファイバーに設定し、2kbpsのセキュアな鍵レートで量子ビット誤り率を15%以下に設定した。 一時ガードバンドではQBERは10%未満に低下したが、キーレートは20%低下した。

Key generation efficiency, and security, in DPS-QKD improve with an increase in the number of path delays or time-bin superpositions. We demonstrate the implementation of super-position states using time-bins, and establish an equivalence with path-based superposition, thus yielding a simpler implementation of higher-order superposition states for differential phase-shift quantum key distribution (DPS-QKD). We set up DPS-QKD, over 105 km of single mode optical fiber, with a quantum bit error rate of less than 15% at a secure key rate of 2 kbps. With temporal guard bands, the QBER reduced to less than 10%, but with a 20% reduction in the key rate.
翻訳日:2023-05-06 21:54:41 公開日:2022-07-11
# サイエンスニュースにおける著者の思い込み : 名前付きエスニシティの幅広さ

Author Mentions in Science News Reveal Widespread Disparities Across Name-inferred Ethnicities ( http://arxiv.org/abs/2009.01896v2 )

ライセンス: Link先を確認
Hao Peng, Misha Teplitskiy, David Jurgens(参考訳) メディアは、科学的な知識を一般大衆に広める上で重要な役割を担い、仲間の研究者のプロファイルを高める。 しかし、どの研究者を特集するかというジャーナリストの選択は理解されていない。 米国内288ヶ所の223,587ヶ所のニュース記事の総合的なデータセットを用いて、各分野の研究論文100,486件を網羅し、その研究について科学者が名前から認識する民族性の機能として言及される割合を調査した。 この分析は、研究論文のみに注目することで、言及率の違いが研究品質やニュース性の違いによって引き起こされるという懸念を軽減する。 特定の民族に関連付けられた名前で言及率にかなりの差が見られる。 イギリス起源ではない研究者、特に東アジアやアフリカ由来の研究者は、特定の研究テーマの特定の科学会場をカバーする特定のニュースソースのストーリーをコントロールしている場合でも、自身の研究で言及される確率は、イギリス・オリジンの名前を持つ者に比べてかなり低い。 この相違は著者の場所によってのみ説明され、面接のスケジューリングの困難などの実用的要因が部分的な役割を担っていることを示唆している。 また、米国機関に加盟している著者の間では引用率に差があるため、英語の話し言葉が原因の1つになる可能性がある。 さらに、米国在住の作家の間では、ジャーナリストは名前ではなく著者の機関を使うことが多く、ジャーナリストの修辞的な選択も重要であることを示唆している。 全体としては、複数のメカニズムは、研究者がメディアの注目を集めている状況において、認識された民族間でかなりの格差を生じさせ、これらの格差は何千人もの学者に影響を与える可能性がある。

Media outlets play a key role in spreading scientific knowledge to the general public and raising the profile of researchers among their peers. Yet journalists' choices of which researchers to feature are poorly understood. We use a comprehensive dataset of 223,587 news stories from 288 U.S. outlets covering 100,486 research papers across all areas of science to investigate the rates at which scientists are mentioned in the stories about their work as a function of their perceived ethnicity from names. By focusing only on research papers news outlets chose to cover, the analysis reduces concerns that differences in mentions rates are driven by differences in research quality or newsworthiness. We find substantial disparities in mention rates across names associated with particular ethnicities. Researchers with names not from British origins, especially those with East Asian and African names, are significantly less likely to be mentioned in stories of their own research than those with British-origin names, even when controlling for stories of a particular news outlet covering a particular scientific venue on a particular research topic. The disparities are explained only in part by authors' locations, suggesting that pragmatic factors such as difficulties in scheduling interviews play a partial role. We also find that English speaking fluency may be one of the causes because there are disparities in quotation rates among authors affiliated with U.S. institutions. Furthermore, among U.S.-based authors, journalists more often use authors' institutions instead of names when referring to non-British-named authors, suggesting that journalists' rhetorical choices are also key. Overall, multiple mechanisms generate substantial disparities across perceived ethnicities in how researchers are covered in their media attention, and these disparities have likely affected thousands of scholars.
翻訳日:2023-05-03 22:45:05 公開日:2022-07-11
# CMB制約がCSLモデルに影を落としている」批判への対応

A response to criticisms on "CMB Constraints Cast a Shadow on CSL Model" ( http://arxiv.org/abs/2010.04067v3 )

ライセンス: Link先を確認
Jerome Martin, Vincent Vennin(参考訳) 我々の最近の手紙 "Cosmic Microwave background Constraints Cast a Shadow On Continuous Spontaneous Localization Models" [arXiv:1906.04405] は[G.R. Bengochea, G. Leon, P. Pearle, D. Sudarsky, arXiv:2008.05285] でも批判されている。 本回答では,これらの論文で提示された議論が不正確であるか,あるいは結果の堅牢性を確認するかを説明する。

Our recent letter "Cosmic Microwave Background Constraints Cast a Shadow On Continuous Spontaneous Localization Models" [arXiv:1906.04405] has recently been criticised in [G. R. Bengochea, G. Leon, P. Pearle, and D. Sudarsky, arXiv:2008.05285, see also arXiv:2006.05313]. In this reply, we explain why the arguments presented in those articles are either incorrect or a confirmation of the robustness of our results.
翻訳日:2023-04-29 19:54:40 公開日:2022-07-11
# 時間反転非不変頂点結合を持つ周期連鎖グラフのスペクトル

Spectrum of periodic chain graphs with time-reversal non-invariant vertex coupling ( http://arxiv.org/abs/2012.14344v2 )

ライセンス: Link先を確認
Marzieh Baradaran, Pavel Exner, Milos Tater(参考訳) 頂点における波動関数が時間反転に関して明らかに非不変な条件によって一致することを仮定して、隣接する各対の連結リンクを持つ環の周期鎖の形で量子グラフのスペクトル特性を調べる。 特に、そのような系の高エネルギー挙動と、そのようなグラフの一次セルの辺の一方がゼロに縮む場合の限界条件について論じる。 スペクトルはグラフの位相と幾何学に依存する。 エネルギーがスペクトルに属する確率は、頂点パリティとミラー対称性を反映した3つの異なる値を持ち、バンドパターンはグラフ辺長の可換性に影響される。

We investigate spectral properties of quantum graphs in the form of a periodic chain of rings with a connecting link between each adjacent pair, assuming that wave functions at the vertices are matched through conditions manifestly non-invariant with respect to time reversal. We discuss, in particular, the high-energy behavior of such systems and the limiting situations when one of the edges in the elementary cell of such a graph shrinks to zero. The spectrum depends on the topology and geometry of the graph. The probability that an energy belongs to the spectrum takes three different values reflecting the vertex parities and mirror symmetry, and the band patterns are influenced by commensurability of graph edge lengths.
翻訳日:2023-04-19 01:49:42 公開日:2022-07-11
# 宇宙論的連続自発局在(CSL)理論における崩壊作用素の選択について

On the choice of the collapse operator in cosmological Continuous Spontaneous Localisation (CSL) theories ( http://arxiv.org/abs/2103.01697v4 )

ライセンス: Link先を確認
Jerome Martin, Vincent Vennin(参考訳) 宇宙論的文脈における連続自発的局所化(CSL)理論は、崩壊作用素の選択に関する不確実性にさらされる。 本稿では,一般的な議論に基づいてその形式を制約する。 我々は、崩壊作用素が場変数にさえ存在する場合、波動関数の崩壊を誘導できないことを示す。 その代わり、奇数であれば、宇宙マイクロ波背景の測定で必要とされるように、結果がガウス統計に従って分布するように線型作用素のみが成り立つことが分かる。 提案する崩壊作用素に対するこれらの結果の意義について考察する。 宇宙論的CSL崩壊作用素は場変数において線形であるべきである。

The Continuous Spontaneous Localisation (CSL) theory in the cosmological context is subject to uncertainties related to the choice of the collapse operator. In this paper, we constrain its form based on generic arguments. We show that, if the collapse operator is even in the field variables, it is unable to induce the collapse of the wavefunction. Instead, if it is odd, we find that only linear operators are such that the outcomes are distributed according to Gaussian statistics, as required by measurements of the cosmic microwave background. We discuss implications of these results for previously proposed collapse operators. We conclude that the cosmological CSL collapse operator should be linear in the field variables.
翻訳日:2023-04-09 12:23:24 公開日:2022-07-11
# 高周波分解能を持つ位相感度量子分光

Phase sensitive quantum spectroscopy with high frequency resolution ( http://arxiv.org/abs/2105.08381v2 )

ライセンス: Link先を確認
Nicolas Staudenmaier, Simon Schmitt, Liam P. McGuinness, Fedor Jelezko(参考訳) スペクトル分析のための古典的なセンサーは広く使われているが、マイクロまたはナノスケールの空間分解能が欠けている。 一方、ナノスケールの精度で動作する量子センサは、広範囲の周波数に対して正確な周波数分解能を提供していない。 ダイヤモンド中の単一スピンを用いて、ナノスケールの空間分解能で100\,ghzまでの完全な信号再構成を可能にする量子プローブの測定プロトコルを提案する。 位相感度は 58\,\mathrm{nt/\sqrt{hz}}$ amplitude and $0.095\,\mathrm{rad/\sqrt{hz}}$ phase sensitivity and an relative frequency uncertainty of 10^{-12}$ for a $1.51\,\mathrm{ghz}$ signal within 10\,\mathrm{s}$ of integration である。 この技術は量子スペクトル分析法への道を開き、量子技術における電子スピン検出とナノサーキュトリーへの応用の可能性を持つ。

Classical sensors for spectrum analysis are widely used but lack micro- or nanoscale spatial resolution. On the other hand, quantum sensors, capable of working with nanoscale precision, do not provide precise frequency resolution over a wide range of frequencies. Using a single spin in diamond, we present a measurement protocol for quantum probes which enables full signal reconstruction on a nanoscale spatial resolution up to potentially 100\,GHz. We achieve $58\,\mathrm{nT/\sqrt{Hz}}$ amplitude and $0.095\,\mathrm{rad/\sqrt{Hz}}$ phase sensitivity and a relative frequency uncertainty of $10^{-12}$ for a $1.51\,\mathrm{GHz}$ signal within $10\,\mathrm{s}$ of integration. This technique opens the way to quantum spectrum analysis methods with potential applications in electron spin detection and nanocircuitry in quantum technologies.
翻訳日:2023-03-30 20:08:43 公開日:2022-07-11
# 量子格子系の$*$-自己同型に対するトロッター積公式

Trotter product formulae for $*$-automorphisms of quantum lattice systems ( http://arxiv.org/abs/2105.14168v4 )

ライセンス: Link先を確認
Sven Bachmann and Markus Lange(参考訳) 局所相互作用によって生成される無限量子格子系の力学 $t\mapsto\tau_t$ を考える。 相互作用が局所的な相互作用である有限個の項に分解すると、$\tau_t$ は n$ 自己同型の積によって効率的に近似され、それぞれが個々の項によって生成される交代積であることが分かる。 任意の整数 $m$ に対して、近似誤差が $n^{-m}$ となるような積公式(トロッターの精神の中で)を構築する。 我々の境界はノルムで、有限体積観測可能量で十分に近似された代数元に対して点的に成り立つ。

We consider the dynamics $t\mapsto\tau_t$ of an infinite quantum lattice system that is generated by a local interaction. If the interaction decomposes into a finite number of terms that are themselves local interactions, we show that $\tau_t$ can be efficiently approximated by a product of $n$ automorphisms, each of them being an alternating product generated by the individual terms. For any integer $m$, we construct a product formula (in the spirit of Trotter) such that the approximation error scales as $n^{-m}$. Our bounds hold in norm, pointwise for algebra elements that are sufficiently well approximated by finite volume observables.
翻訳日:2023-03-28 12:11:13 公開日:2022-07-11
# サブピコ秒弱コヒーレントパルスを用いたゲートInGaAs検出器の特性評価

Gated InGaAs Detector Characterization with Sub-Picosecond Weak Coherent Pulses ( http://arxiv.org/abs/2106.05599v3 )

ライセンス: Link先を確認
Gautam Kumar Shaw, Shyam Sridharan and Anil Prabhakar(参考訳) ゲート型ingaas単一光子検出器(spd)を特徴付ける手法を提案する。 モードロックされたサブピコ秒パルスレーザーからの超短パルスは、SPDゲート電圧の開始時と異なる到着時間で光子数を測定するために使用された。 ゲートウインドウ内の不均一検出確率は, 余剰バイアス, ゲートウインドウ幅, ホールドオフ時間といった様々な検出パラメータに対して, 余剰確率を推定するために利用した。 残差確率の減衰に適合するパワーローを用いて,捕獲されたキャリアの半減期の寿命を2.1マイクロ秒と推定した。 最後に、解像度55psのtime to digitalコンバータを用いてspdのタイミングジッタを定量化する。

We propose and demonstrate a method to characterize a gated InGaAs single-photon detector (SPD). Ultrashort weak coherent pulses, from a mode-locked sub-picosecond pulsed laser, were used to measure photon counts, at varying arrival times relative to the start of the SPD gate voltage. The uneven detection probabilities within the gate window were used to estimate the afterpulse probability with respect to various detector parameters: excess bias, width of gate window and hold-off time. We estimated a lifetime of 2.1 microseconds for the half-life of trapped carriers, using a power-law fit to the decay in afterpulse probability. Finally, we quantify the timing jitter of the SPD using a time to digital converter with a resolution of 55 ps.
翻訳日:2023-03-27 02:09:22 公開日:2022-07-11
# 一般化ベル状態の局所的に区別できない集合を見つける

Finding out all locally indistinguishable sets of generalized Bell states ( http://arxiv.org/abs/2109.07390v2 )

ライセンス: Link先を確認
Jiang-Tao Yuan, Ying-Hui Yang, and Cai-Hong Wang(参考訳) In general, for a bipartite quantum system $\mathbb{C}^{d}\otimes\mathbb{C}^{d}$ and an integer $k$ such that $4\leq k\le d$,there are few necessary and sufficient conditions for local discrimination of sets of $k$ generalized Bell states (GBSs) and it is difficult to locally distinguish $k$-GBS sets.The purpose of this paper is to completely solve the problem of local discrimination of GBS sets in some bipartite quantum systems.Firstly three practical and effective sufficient conditions are given,Fan$^{,}$s and Wang et al. $^{,}$s results [Phys Rev Lett 92, 177905 (2004); Phys Rev A 99, 022307 (2019)] can be deduced as special cases of these conditions.Secondly in $\mathbb{C}^{4}\otimes\mathbb{C}^{4}$, a necessary and sufficient condition for local discrimination of GBS sets is provided, and a list of all locally indistinguishable 4-GBS sets is provided,and then the problem of local discrimination of GBS sets is completely solved.In $\mathbb{C}^{5}\otimes\mathbb{C}^{5}$, a concise necessary and sufficient condition for one-way local discrimination of GBS sets is obtained,which gives an affirmative answer to the case $d=5$ of the problem proposed by Wang et al.

In general, for a bipartite quantum system $\mathbb{C}^{d}\otimes\mathbb{C}^{d}$ and an integer $k$ such that $4\leq k\le d$,there are few necessary and sufficient conditions for local discrimination of sets of $k$ generalized Bell states (GBSs) and it is difficult to locally distinguish $k$-GBS sets.The purpose of this paper is to completely solve the problem of local discrimination of GBS sets in some bipartite quantum systems.Firstly three practical and effective sufficient conditions are given,Fan$^{,}$s and Wang et al.$^{,}$s results [Phys Rev Lett 92, 177905 (2004); Phys Rev A 99, 022307 (2019)] can be deduced as special cases of these conditions.Secondly in $\mathbb{C}^{4}\otimes\mathbb{C}^{4}$, a necessary and sufficient condition for local discrimination of GBS sets is provided, and a list of all locally indistinguishable 4-GBS sets is provided,and then the problem of local discrimination of GBS sets is completely solved.In $\mathbb{C}^{5}\otimes\mathbb{C}^{5}$, a concise necessary and sufficient condition for one-way local discrimination of GBS sets is obtained,which gives an affirmative answer to the case $d=5$ of the problem proposed by Wang et al.
翻訳日:2023-03-15 00:47:20 公開日:2022-07-11
# 最小アルゴリズム冷却冷凍機の熱力学

Thermodynamics of a minimal algorithmic cooling refrigerator ( http://arxiv.org/abs/2109.14056v3 )

ライセンス: Link先を確認
Rodolfo Soldati, Durga Bhaktavatsala Rao Dasari, J\"org Wrachtrup, Eric Lutz(参考訳) 極小3量子ヒートバスアルゴリズム冷却冷凍機の熱力学的性能を理論的に実験的に検討した。 任意のサイクル数に対して, 性能係数, 冷却力, 目標量子ビットの偏極を解析的に計算し, 現実的な実験的不完全性を考慮した。 理想的可逆極限におけるそれらの基本上界を決定づけ、これらの値はダイヤモンドの窒素空白中心における3量子ビットの系を用いて実験的にアプローチできることを示した。

We investigate, theoretically and experimentally, the thermodynamic performance of a minimal three-qubit heat-bath algorithmic cooling refrigerator. We analytically compute the coefficient of performance, the cooling power and the polarization of the target qubit for an arbitrary number of cycles, taking realistic experimental imperfections into account. We determine their fundamental upper bounds in the ideal reversible limit and show that these values may be experimentally approached using a system of three qubits in a nitrogen-vacancy center in diamond.
翻訳日:2023-03-13 07:19:52 公開日:2022-07-11
# 量子リアリズム:公理化と量子化

Quantum realism: axiomatization and quantification ( http://arxiv.org/abs/2110.04870v2 )

ライセンス: Link先を確認
Alexandre C. Orthey Jr. and R. M. Angelo(参考訳) 顕微鏡世界の法則に沿った客観的現実の出現は、長年にわたる議論の焦点となっている。 最近のアプローチは、少なくとも一つの側面、すなわち、物理的な自由度で観測可能な情報の符号化は、そのような観測可能な情報が物理的現実の要素となるために必要な条件である、という合意に達したようである。 これを基本前提として量子情報理論に着想を得て、量子リアリズムの公理化(量子論と相容れないリアリズムの概念)を構築する。 我々の戦略は、量子リアリズムを 'metric'' の独立な方法で特徴づけることができる、物理的に動機づけられた原則を列挙することで構成されている。 モノトーンと実数論の測度を定義するいくつかの基準を導入し、フォン・ノイマン、r\'enyi、tsallisのエントロピーによって引き起こされるいくつかの有名な情報理論の中で潜在的な候補を探す。 提案する公理を(ほぼすべて)満たし、従って与えられた物理的可観測性の現実(または定性)の程度を忠実に推定できるエントロピー量化器のいくつかのクラスを明示的に構成する。 願わくば、我々のフレームワークは量子力学の基礎的な側面についてさらなる議論の場を提供するかもしれない。

The emergence of an objective reality in line with the laws of the microscopic world has been the focus of longstanding debates. Recent approaches seem to have reached a consensus at least with respect to one aspect, namely, that the encoding of information about a given observable in a physical degree of freedom is a necessary condition for such observable to become an element of the physical reality. Taking this as a fundamental premise and inspired by quantum information theory, here we build an axiomatization for quantum realism -- a notion of realism compatible with quantum theory. Our strategy consists of listing some physically-motivated principles able to characterize quantum realism in a ``metric'' independent manner. We introduce some criteria defining monotones and measures of realism and then search for potential candidates within some celebrated information theories -- those induced by the von Neumann, R\'enyi, and Tsallis entropies. We explicitly construct some classes of entropic quantifiers that are shown to satisfy (almost all of) the proposed axioms and hence can be taken as faithful estimates for the degree of reality (or definiteness) of a given physical observable. Hopefully, our framework may offer a formal ground for further discussions on foundational aspects of quantum mechanics.
翻訳日:2023-03-11 21:17:50 公開日:2022-07-11
# 量子スカラー場の演算子複雑性と宇宙論的摂動

Operator Complexity for Quantum Scalar Fields and Cosmological Perturbations ( http://arxiv.org/abs/2110.08356v3 )

ライセンス: Link先を確認
S. Shajidul Haque, Chandan Jana, Bret Underwood(参考訳) 量子高調波発振器の変位・収縮・回転演算子の演算子複雑性を計算する。 時間依存変位作用素の複雑性は定数であり、コヒーレント状態パラメータの大きさに等しいが、ジェネリック二次ハミルトニアンによるユニタリ進化の複雑さはスクイーズ量に比例し、ユニタリ作用素の時間依存位相に敏感である。 これらの結果は自由質量スカラー場の複雑さを研究するために応用され、その複雑性は急速線形成長の周期を持ち、uvカットオフによる飽和と空間次元の数によって決定される。 また、ド・ジッター空間における量子宇宙論的摂動のユニタリ進化の複雑さについても研究し、これは個々のフーリエモード対上の時間依存スクイーズと回転作用素として書ける。 後期の単一モード対の複雑さはeフォールドの数とともに直線的に増大する一方、初期の複雑性は演算子の複雑さが単体時間進化の段階に敏感であるために急速に振動する。 すべてのモードを統合すると、宇宙論的摂動の全体複雑性は、デ・ジッター空間の(指数関数的に)増大する体積の平方根としてスケールし、インフレーションが宇宙の複雑さの爆発的な増大をもたらすことを示唆する。

We calculate the operator complexity for the displacement, squeeze and rotation operators of a quantum harmonic oscillator. The complexity of the time-dependent displacement operator is constant, equal to the magnitude of the coherent state parameter, while the complexity of unitary evolution by a generic quadratic Hamiltonian is proportional to the amount of squeezing and is sensitive to the time-dependent phase of the unitary operator. We apply these results to study the complexity of a free massive scalar field, finding that the complexity has a period of rapid linear growth followed by a saturation determined by the UV cutoff and the number of spatial dimensions. We also study the complexity of the unitary evolution of quantum cosmological perturbations in de Sitter space, which can be written as time-dependent squeezing and rotation operators on individual Fourier mode pairs. The complexity of a single mode pair at late times grows linearly with the number of e-folds, while the complexity at early times oscillates rapidly due to the sensitivity of operator complexity to the phase of unitary time evolution. Integrating over all modes, the total complexity of cosmological perturbations scales as the square root of the (exponentially) growing volume of de Sitter space, suggesting that inflation leads to an explosive growth in complexity of the Universe.
翻訳日:2023-03-11 09:51:51 公開日:2022-07-11
# 作業とゆらぎ:コヒーレント対非コヒーレント・エルゴトロピー抽出

Work and Fluctuations: Coherent vs. Incoherent Ergotropy Extraction ( http://arxiv.org/abs/2111.03116v3 )

ライセンス: Link先を確認
Marcin {\L}obejko(参考訳) 理想重みによって与えられるエネルギー貯蔵装置に結合した孤立量子系の作業の準確率分布を考察する。 具体的には, 平均エネルギーの変化と重量分散の変化とのトレードオフを解析し, 作業は系のコヒーレントかつ非コヒーレントなエルゴトロピーから抽出される。 主に, 正のコヒーレントなエルゴトロピーの抽出は, 作業貯水池の非古典的状態を利用して, 作業変動の低減(分散損失による定量化)を伴いうることを明らかにした。 一方, 系のエルゴトロピーに対するコヒーレント寄与のダンピング関数を用いて, エネルギー分散の低い境界を定義することで, 量子ウェイトに対する揺らぎ-脱コヒーレンス関係を導出する。 具体的には、コヒーレンスからエルゴトロピーをアンロックすると高いゆらぎが生じ、コヒーレントエネルギーがアンロックされると発散する。 提案する作業抽出プロトコルは,コヒーレント抽出と非コヒーレント・エルゴトロピーとの有意な差異を示す: 前者は分散を減少させるが,その絶対値は,より多くのエネルギーが抽出された場合に発散する;後者の場合,ゲインは常に非負であるが,有限の作業ゆらぎで総(非コヒーレント)エルゴトロピーを抽出することができる。 さらに,その累積分布を物理的に解釈した準確率分布が測定の侵襲的性質を欠き,非一貫性状態の2点計測スキーム (tpm) に還元する手法を提案する。 最後に、量子ビットのワーク分散トレードオフを解析的に解決し、上述の量子および古典的レジームをすべて明らかにする。

We consider a quasi-probability distribution of work for an isolated quantum system coupled to the energy-storage device given by the ideal weight. Specifically, we analyze a trade-off between changes in average energy and changes in weight's variance, where work is extracted from the coherent and incoherent ergotropy of the system. Primarily, we reveal that the extraction of positive coherent ergotropy can be accompanied by the reduction of work fluctuations (quantified by a variance loss) by utilizing the non-classical states of a work reservoir. On the other hand, we derive a fluctuation-decoherence relation for a quantum weight, defining a lower bound of its energy dispersion via a dumping function of the coherent contribution to the system's ergotropy. Specifically, it reveals that unlocking ergotropy from coherences results in high fluctuations, which diverge when the total coherent energy is unlocked. The proposed autonomous protocol of work extraction shows a significant difference between extracting coherent and incoherent ergotropy: The former can decrease the variance, but its absolute value diverges if more and more energy is extracted, whereas for the latter, the gain is always non-negative, but a total (incoherent) ergotropy can be extracted with finite work fluctuations. Furthermore, we present the framework in terms of the introduced quasi-probability distribution, which has a physical interpretation of its cumulants, is free from the invasive nature of measurements, and reduces to the two-point measurement scheme (TPM) for incoherent states. Finally, we analytically solve the work-variance trade-off for a qubit, explicitly revealing all the above quantum and classical regimes.
翻訳日:2023-03-09 04:12:46 公開日:2022-07-11
# CSSハミング境界を越える有限レートQLDPC-GKP符号化方式

Finite Rate QLDPC-GKP Coding Scheme that Surpasses the CSS Hamming Bound ( http://arxiv.org/abs/2111.07029v2 )

ライセンス: Link先を確認
Nithin Raveendran, Narayanan Rengaswamy, Filip Rozp\k{e}dek, Ankur Raina, Liang Jiang, and Bane Vasi\'c(参考訳) 量子誤り訂正は、最近、コードキュービットの特定の物理エンコーディングの恩恵を受けていることが示されている。 特に、いくつかの研究者は、個々のコードキュービットが連続変数 GottesmanKitaev-Preskill (GKP) コードでエンコードされていると考え、その後、これらのGKP キュービットのサーフェスコードのような外部の離散変数符号を課した。 このような結合方式では、内部GKP誤差補正からのアナログ情報が外部コードのノイズ閾値を改善する。 しかし、表面コードは消滅し、距離を伸ばすために多くのリソースを必要としている。 本研究では,GKP符号を汎用量子低密度パリティチェック(QLDPC)符号と結合し,反復復号アルゴリズムにおいてGKPアナログ情報を利用する自然な方法を示す。 まず,ハードウェアフレンドリーなmin-sumアルゴリズム (MSA) である反復デコーダがGKPアナログ情報を利用する場合のノイズ閾値の改善を示す。 また、GKPアナログ情報とMSAの逐次更新スケジュールが組み合わされた場合、このスキームは、これらのコードファミリーのよく知られたCSSハミングを超えていることを示す。 さらに、GKPアナログ情報は、QLDPC符号のタナーグラフに有害なトラップセットをエスケープする反復デコーダに役立ち、論理誤差率曲線の誤差フロアを除去または著しく低下させる。 最後に,gkpアナログ情報に基づくチャネル容量とデコーダ設計と解析の改善に関する本研究から生じる新しい基礎的,実践的な疑問について述べる。

Quantum error correction has recently been shown to benefit greatly from specific physical encodings of the code qubits. In particular, several researchers have considered the individual code qubits being encoded with the continuous variable GottesmanKitaev-Preskill (GKP) code, and then imposed an outer discrete-variable code such as the surface code on these GKP qubits. Under such a concatenation scheme, the analog information from the inner GKP error correction improves the noise threshold of the outer code. However, the surface code has vanishing rate and demands a lot of resources with growing distance. In this work, we concatenate the GKP code with generic quantum low-density parity-check (QLDPC) codes and demonstrate a natural way to exploit the GKP analog information in iterative decoding algorithms. We first show the noise thresholds for two lifted product QLDPC code families, and then show the improvements of noise thresholds when the iterative decoder - a hardware-friendly min-sum algorithm (MSA) - utilizes the GKP analog information. We also show that, when the GKP analog information is combined with a sequential update schedule for MSA, the scheme surpasses the well-known CSS Hamming bound for these code families. Furthermore, we observe that the GKP analog information helps the iterative decoder in escaping harmful trapping sets in the Tanner graph of the QLDPC code, thereby eliminating or significantly lowering the error floor of the logical error rate curves. Finally, we discuss new fundamental and practical questions that arise from this work on channel capacity under GKP analog information, and on improving decoder design and analysis.
翻訳日:2023-03-08 05:55:49 公開日:2022-07-11
# 連続変数クラスタ状態における猫とグリッド状態の計測に基づく生成と保存

Measurement-based generation and preservation of cat and grid states within a continuous-variable cluster state ( http://arxiv.org/abs/2112.10311v2 )

ライセンス: Link先を確認
Miller Eaton, Carlos Gonz\'alez-Arciniegas, Rafael N. Alexander, Nicolas C. Menicucci, and Olivier Pfister(参考訳) 本稿では,gaussian cvクラスタ状態からschr\"odinger cat状態やgottesman-kitaev-preskill(gkp)グリッド状態など,量子誤差補正や普遍連続変数(cv)量子コンピューティングに不可欠な様々な量子状態を確実に生成するアルゴリズムを提案する。 本アルゴリズムは,クラスタ状態の標準ガウス情報処理を用いて,局所的な光子数分解測定値のみを付加したフォトンカウンティング支援ノードテレポーテーション法(phantm)に基づく。 我々はPhANTMが多項式ゲートを適用し、猫状態をクラスタ内に埋め込むことができることを示す。 この方法はガウスノイズに対する猫状態の安定化を図り、クラスター内の非ガウス性(non-gaussianity)を持続する。 キャット状態の育種プロトコルをPhANTMを用いてクラスタ状態処理に組み込むことができることを示す。

We present an algorithm to reliably generate various quantum states critical to quantum error correction and universal continuous-variable (CV) quantum computing, such as Schr\"odinger cat states and Gottesman-Kitaev-Preskill (GKP) grid states, out of Gaussian CV cluster states. Our algorithm is based on the Photon-counting-Assisted Node-Teleportation Method (PhANTM), which uses standard Gaussian information processing on the cluster state with the only addition of local photon-number-resolving measurements. We show that PhANTM can apply polynomial gates and embed cat states within the cluster. This method stabilizes cat states against Gaussian noise and perpetuates non-Gaussianity within the cluster. We show that existing protocols for breeding cat states can be embedded into cluster state processing using PhANTM.
翻訳日:2023-03-04 01:21:27 公開日:2022-07-11
# 人間-ロボット協調作業の複雑さの増大は、社会的に競合するロボットの必要性を高めるかもしれない

Increased Complexity of a Human-Robot Collaborative Task May Increase the Need for a Socially Competent Robot ( http://arxiv.org/abs/2207.04792v1 )

ライセンス: Link先を確認
Rebeka Kropiv\v{s}ek Leskovar and Tadej Petri\v{c}(参考訳) 人間とロボットのコラボレーションのための制御モデルを開発する上で重要な要素は、それがいかに人間のパートナーに受け入れられるかである。 許容可能な制御モデルを作成する方法の1つは、ロボットが人間の行動をより直感的に見せるように、人間の動作を模倣しようとすることである。 課題の複雑さがロボットパートナーの認識と受容にどう影響するかを調べるため,人間の協調作業において通常発生するリーダ・フォロワーダイナミクスを考慮に入れた,障害物回避のための新しい人間型ロボット制御モデルを提案する。 提案手法の性能と受容を障害物回避シナリオを用いて評価し,ロボットパートナーに対して,個々のタスクと協調作業のタスク性能を異なるリーダー従者ダイナミクスの役割で比較した。 評価結果から,ロボット制御手法は人間の動作を再現し,課題全体のタスク性能を向上させることができることがわかった。 しかし,ロボットパートナーの受容については,参加者の意見が異なっていた。 より複雑なタスクのために開発された類似の制御手法を用いた研究結果と比較すると,制御手法は動的視点からより複雑なタスクに適応したものの,提案した制御モデルの受理率が低くなった。 これは、手前の協調作業の複雑さが、より複雑な制御モデルだけでなく、より社会的に有能な制御モデルの必要性を高めることを示唆している。

An important factor in developing control models for human-robot collaboration is how acceptable they are to their human partners. One such method for creating acceptable control models is to attempt to mimic human-like behaviour in robots so that their actions appear more intuitive to humans. To investigate how task complexity affects human perception and acceptance of their robot partner, we propose a novel human-based robot control model for obstacle avoidance that can account for the leader-follower dynamics that normally occur in human collaboration. The performance and acceptance of the proposed control method were evaluated using an obstacle avoidance scenario in which we compared task performance between individual tasks and collaborative tasks with different leader-follower dynamics roles for the robotic partner. The evaluation results showed that the robot control method is able to replicate human behaviour to improve the overall task performance of the subject in collaboration. However, regarding the acceptance of the robotic partner, the participants' opinions were mixed. Compared to the results of a study with a similar control method developed for a less complex task, the new results show a lower acceptance of the proposed control model, even though the control method was adapted to the more complex task from a dynamic standpoint. This suggests that the complexity of the collaborative task at hand increases the need not only for a more complex control model but also a more socially competent control model.
翻訳日:2023-02-19 09:49:21 公開日:2022-07-11
# 世界貿易ネットワークを用いたリスク伝播の解析

Analysis of risk propagation using the world trade network ( http://arxiv.org/abs/2207.04717v1 )

ライセンス: Link先を確認
Sungyong Kim and Jinhyuk Yun(参考訳) 経済システムは、全てのエージェントが同時に相互作用する複雑なシステムの例である。 各国間の相互作用は、一般的に、貿易量に基づいて両国間の依存度を測定する様々な貿易ネットワークにおける資源の流れを用いて研究されている。 しかし、間接的な影響はすぐには明らかではない。 本稿では,間接的影響力を包含するパーソナライズされたページランク(ppr)を用いて構築した貿易ネットワークと直接取引ネットワークを比較した。 国内総生産(GDP)の国内総生産(GDP)の相関を分析した結果,PPR貿易ネットワークは,各国間のGDP相関を分析することにより,直接貿易よりも経済事象の伝播に関する説明力が高いことがわかった。 さらに,2022年のロシア・ウクライナ戦争において,経済危機拡大のエージェントベースモデルが実行された。 モデルはまた、PPRが直接取引ネットワークよりも実際の影響を効果的に説明していることを示している。 私たちの研究は、しばしば見過ごされる間接的・長距離的関係の重要性を強調する。

An economic system is an exemplar of a complex system in which all agents interact simultaneously. Interactions between countries have generally been studied using the flow of resources across diverse trade networks, in which the degree of dependence between two countries is typically measured based on the trade volume. However, indirect influences may not be immediately apparent. Herein, we compared a direct trade network to a trade network constructed using the personalized PageRank (PPR) encompassing indirect influences. By analyzing the correlation of the gross domestic product (GDP) between countries, we discovered that the PPR trade network has greater explanatory power on the propagation of economic events than direct trade by analyzing the GDP correlation between countries. To further validate our observations, an agent-based model of the spreading economic crisis was implemented for the Russia-Ukraine war of 2022. The model also demonstrates that the PPR explains the actual impact more effectively than the direct trade network. Our research highlights the significance of indirect and long-range relationships, which have often been overlooked
翻訳日:2023-02-19 09:48:41 公開日:2022-07-11
# アルゴリズム的公平性の実証的概念に向けて--等機会主義からの規範的指導

Towards Substantive Conceptions of Algorithmic Fairness: Normative Guidance from Equal Opportunity Doctrines ( http://arxiv.org/abs/2207.02912v2 )

ライセンス: Link先を確認
Falaah Arif Khan, Eleni Manis and Julia Stoyanovich(参考訳) 本研究では、政治哲学からの平等オッポチュニティ(EO)の教義を用いて、アルゴリズム的公正性の異なる概念に埋め込まれた規範的判断を明示する。 我々は、個別の意思決定点における公正な競争に狭く焦点をあてる形式的EOアプローチと、人々の公正な生活の機会を生涯を通してより均等に見る実質的なEOドクトリンとを対比する。 我々はこの分類法を用いて、不合理な結果の道徳的解釈を、人々が公正な人生のチャンスを持っていないときに、公正なコンテスト(前向きと後向き)の異なる概念の相違として提供する。 我々はこの結果を用いて、アルゴリズム的公正の実質的な概念を動機付け、EOの運楽主義的教義とRawlsの機会平等の原理に基づく2つの妥当な手続きを概説する。

In this work we use Equal Oppportunity (EO) doctrines from political philosophy to make explicit the normative judgements embedded in different conceptions of algorithmic fairness. We contrast formal EO approaches that narrowly focus on fair contests at discrete decision points, with substantive EO doctrines that look at people's fair life chances more holistically over the course of a lifetime. We use this taxonomy to provide a moral interpretation of the impossibility results as the incompatibility between different conceptions of a fair contest -- foward-looking versus backward-looking -- when people do not have fair life chances. We use this result to motivate substantive conceptions of algorithmic fairness and outline two plausible procedures based on the luck-egalitarian doctrine of EO, and Rawls's principle of fair equality of opportunity.
翻訳日:2023-02-19 09:45:39 公開日:2022-07-11
# Kwame for Science: 西アフリカにおける理科教育のためのSentence-BERTに基づくAI教師アシスタント

Kwame for Science: An AI Teaching Assistant Based on Sentence-BERT for Science Education in West Africa ( http://arxiv.org/abs/2206.13703v2 )

ライセンス: Link先を確認
George Boateng, Samuel John, Andrew Glago, Samuel Boateng, Victor Kumbol(参考訳) アフリカは生徒と教師の比率が高く、教師へのアクセスが制限されている。 その結果、学生は質問に対する答えを得るのに苦労する。 本研究では、これまでのai教育アシスタントであるkwameを拡張し、理科教育に応用し、webアプリとして展開した。 Kwame for Scienceは、西アフリカ上級中等試験(WASSCE)の総合科学科に基づいて、学生の質問に答える。 Kwame for Science(クウェーム・フォー・サイエンス)は、Sentence-BERTベースの質問応答ウェブアプリで、3段落を回答として表示する。 また、3段落に加え、過去試験に関する質問と回答のトップ5も表示している。 2.5週間の実世界展開によるkwame for scienceの予備評価では、11カ国で87.5% (n=56) の精度で190人のユーザーがいた。 Kwame for Scienceは、アフリカ全土の何百万人もの人々に、スケーラブルで費用効率の良い高品質の遠隔教育を提供する。

Africa has a high student-to-teacher ratio which limits students' access to teachers. Consequently, students struggle to get answers to their questions. In this work, we extended Kwame, our previous AI teaching assistant, adapted it for science education, and deployed it as a web app. Kwame for Science answers questions of students based on the Integrated Science subject of the West African Senior Secondary Certificate Examination (WASSCE). Kwame for Science is a Sentence-BERT-based question-answering web app that displays 3 paragraphs as answers along with a confidence score in response to science questions. Additionally, it displays the top 5 related past exam questions and their answers in addition to the 3 paragraphs. Our preliminary evaluation of the Kwame for Science with a 2.5-week real-world deployment showed a top 3 accuracy of 87.5% (n=56) with 190 users across 11 countries. Kwame for Science will enable the delivery of scalable, cost-effective, and quality remote education to millions of people across Africa.
翻訳日:2023-02-19 09:30:19 公開日:2022-07-11
# 多項式ハイゼンベルク代数のアフィンワイル群の特徴付け

An affine Weyl group characterization of polynomial Heisenberg algebras ( http://arxiv.org/abs/2204.11125v2 )

ライセンス: Link先を確認
V.S. Morales-Salgado(参考訳) 我々は、多項式ハイゼンベルク代数 (PHAs) として知られる調和振動子代数の変形を研究し、それらの間の接続を確立し、$A^{(1)}_m$ 型の拡張アフィンワイル群、すなわち$m$ は PHA の次数である。 この関係を確立するために、超対称量子力学を用いて多項式ハイゼンベルク代数を微分方程式の対称系に最初に接続する。 この接続は、以前は量子系と非線形微分方程式(特に第4および第5パインレフ方程式)を関連付けるために用いられてきた。 これを実行すると、Painlev\'e方程式のB\'acklund変換と拡張アフィンワイル群によって特徴づけられる対称形式の一般化に関する以前の研究を利用する。 この研究は量子系とそれらを特徴づける代数構造をよりよく理解するのに役立つ。

We study deformations of the harmonic oscillator algebra known as polynomial Heisenberg algebras (PHAs), and establish a connection between them and extended affine Weyl groups of type $A^{(1)}_m$, where $m$ is the degree of the PHA. To establish this connection, we employ supersymmetric quantum mechanics to first connect a polynomial Heisenberg algebra to symmetric systems of differential equations. This connection has been previously used to relate quantum systems to non-linear differential equations; most notably, the fourth and fifth Painlev\'e equations. Once this is done, we use previous studies on the B\"acklund transformations of Painlev\'e equations and generalizations of their symmetric forms characterized by extended affine Weyl groups. This work contributes to better understand quantum systems and the algebraic structures characterizing them.
翻訳日:2023-02-15 22:33:38 公開日:2022-07-11
# 無限射影エンタングル対状態の時間発展:接空間における勾配テンソルの更新

Time evolution of an infinite projected entangled pair state: a gradient tensor update in the tangent space ( http://arxiv.org/abs/2205.11067v3 )

ライセンス: Link先を確認
Jacek Dziarmaga(参考訳) 無限次元2次元量子格子系の時間発展は、無限射影エンタングル対状態 (ipeps) に適用されたスズキ-トロッター分解によって説明できる。 各トロッターゲートはテンソルネットワークの結合次元である$d$を増加させ、適切な誤差測度を最小化する方法で取り戻さなければならない。 本論文は, 完全更新 (FU) や単純な更新 (SU) , その中間近傍テンソル更新 (NTU) で用いられるような, 単純なエラー対策を超越し, 結合次元の増大による正確なiPEPSと, 切り落とされた新しいiPEPSとの重なりを, 直接的に最大化する。 最適化は、iPEPS変分多様体の接空間で実行される。 この勾配テンソル更新(GTU)は、2D量子イジングモデルにおける横場の急激なクエンチと、同じ2Dシステムにおける量子キブル・ズレーク機構のシミュレーションによってベンチマークされる。

Time evolution of an infinite 2D many body quantum lattice system can be described by the Suzuki-Trotter decomposition applied to the infinite projected entangled pair state (iPEPS). Each Trotter gate increases the bond dimension of the tensor network, $D$, that has to be truncated back in a way that minimizes a suitable error measure. This paper goes beyond simplified error measures -- like the one used in the full update (FU), the simple update (SU), and their intermediate neighborhood tensor update (NTU) -- and directly maximizes an overlap between the exact iPEPS with the increased bond dimension and the new iPEPS with the truncated one. The optimization is performed in a tangent space of the iPEPS variational manifold. This gradient tensor update (GTU) is benchmarked by a simulation of a sudden quench of a transverse field in the 2D quantum Ising model and the quantum Kibble-Zurek mechanism in the same 2D system.
翻訳日:2023-02-12 00:49:39 公開日:2022-07-11
# 非退化内部スクイージング:重力波検出のための全光学的損失耐性量子技術

Nondegenerate internal squeezing: an all-optical, loss-resistant quantum technique for gravitational-wave detection ( http://arxiv.org/abs/2206.06529v2 )

ライセンス: Link先を確認
James W. Gardner, Min Jet Yap, Vaishali Adya, Sheon Chua, Bram J. J. Slagmolen, and David E. McClelland(参考訳) キロヘルツ帯重力波の検出は、天体物理学、エキゾチック物質、宇宙論における発見を約束する。 干渉型重力波検出器のkilohertz量子ノイズ制限感度を改善するために、信号再生キャビティ内の光パラメトリック振動と異なる信号モードおよびアイドラーモード周波数の非退化内部スクイージングについて検討する。 解析的ハミルトンモデルを用いて、この安定で全光学的手法は光検出損失からの脱コヒーレンスに寛容であり、最適な読み出し方式でブロードバンド感度向上を実現することができることを示す。

The detection of kilohertz-band gravitational waves promises discoveries in astrophysics, exotic matter, and cosmology. To improve the kilohertz quantum noise-limited sensitivity of interferometric gravitational-wave detectors, we investigate nondegenerate internal squeezing: optical parametric oscillation inside the signal-recycling cavity with distinct signal-mode and idler-mode frequencies. We use an analytic Hamiltonian model to show that this stable, all-optical technique is tolerant to decoherence from optical detection loss and that it, with its optimal readout scheme, is feasible for broadband sensitivity enhancement.
翻訳日:2023-02-09 09:57:26 公開日:2022-07-11
# 小型真空ギャップトランスモン量子ビット : 超伝導表面損失の選択的・感度プローブ

Compact vacuum gap transmon qubits: Selective and sensitive probes for superconductor surface losses ( http://arxiv.org/abs/2206.14104v3 )

ライセンス: Link先を確認
M. Zemlicka, E. Redchenko, M. Peruzzo, F. Hassani, A. Trioni, S. Barzanjeh, J. M. Fink(参考訳) 最先端のトランスモン量子ビットは大きなコンデンサに依存しており、表面損失の減少によるコヒーレンスを体系的に改善している。 しかし、このアプローチはフットプリントと寄生クロスカップリングの両方を増加させ、最終的には放射損失によって制限される。 本研究では, 市販シリコンオン絶縁体ウエハとアルミニウムで蒸発したシャドウをマイクロ加工した広真空ギャップコンデンサを用いて, 36$ \times $39$ \mu$m$^2$と$\gtrsim$100 nmのトランスモン量子ビットを提示する。 hf蒸気の放出後、標準的なコプラナー回路と互換性のある平面内設計において、真空参加比を99.6\%まで達成する。 真空電場が最大22 V/mの小さなギャップに対する量子緩和時間測定は、長寿命の2レベル系(TLS)との可分に強い結合を示す二重指数崩壊を示す。 超伝導体-真空表面への20db以下の極めて高い選択性は、環境条件に曝露した酸化アルミニウムの単光子誘電損失を正確にバックアウトすることができる。 将来のスケーリングポテンシャルの面では、フットプリント面積が20 \mu \mathrm{s}^{-2}$で、T_1$デバイスがより大きなジオメトリーに依存し、NbTiN、TiN、Taなどの低損失超伝導体に対して大幅に改善されることが期待されている。

State-of-the-art transmon qubits rely on large capacitors which systematically improves their coherence due to reduced surface loss participation. However, this approach increases both the footprint and the parasitic cross-coupling and is ultimately limited by radiation losses - a potential roadblock for scaling up quantum processors to millions of qubits. In this work we present transmon qubits with sizes as low as 36$ \times $39$ \mu$m$^2$ with $\gtrsim$100 nm wide vacuum gap capacitors that are micro-machined from commercial silicon-on-insulator wafers and shadow evaporated with aluminum. After the release in HF vapor we achieve a vacuum participation ratio up to 99.6\% in an in-plane design that is compatible with standard coplanar circuits. Qubit relaxation time measurements for small gaps with high vacuum electric fields of up to 22 V/m reveal a double exponential decay indicating comparably strong coupling to long-lived two-level-systems (TLS). The exceptionally high selectivity of $>$20 dB to the superconductor-vacuum surface allows to precisely back out the sub-single-photon dielectric loss tangent of aluminum oxide exposed to ambient conditions. In terms of future scaling potential we achieve a qubit quality factor by footprint area of $20 \mu \mathrm{s}^{-2}$, which is on par with the highest $T_1$ devices relying on larger geometries and expected to improve substantially for lower loss superconductors like NbTiN, TiN or Ta.
翻訳日:2023-02-07 10:03:50 公開日:2022-07-11
# ラーモア時計におけるスピン揺らぎからのトンネル時間

Tunneling time from spin fluctuations in Larmor clock ( http://arxiv.org/abs/2207.03991v2 )

ライセンス: Link先を確認
Durmus Demir(参考訳) 量子粒子がポテンシャルエネルギー障壁をトンネルするために必要なトンネル時間(英語版)は、持続時間マーカーによって測定できる。 そのようなマーカーの1つは、幼虫の沈着によるスピン再配向である。 z$方向の弱い磁場では、larmorクロックはy$軸に沿った潜在的なエネルギー障壁に対して、$\tau_y$と$\tau_z$の2回読み込む。 問題は実際のトンネル時間(ATT)を決定することである。 B{\"u}ttikerは$\sqrt{\tau_y^2 + \tau_z^2}$をATTと定義している。 一方、Steinbergらは、$\tau_y$をATTと同一視している。 B{\"u}ttiker と Steinberg の時間は平均スピン成分に基づいているが、非可換スピン系の平均は、他の2つの成分を変動させる必要がある。 本研究では,スピン揺らぎの影響について検討し,ATTが$\tau_y + \frac{\tau_z^2}{\tau_y}$であることを示す。 我々は,ATT候補を解析し,変動に基づくATTが低バリア,高バリア,太バリア,古典力学のすべての限界において伝達時間として機能することを明らかにする。 我々は、Steinbergグループによる最新の実験データを用いて、この新たなATTを抽出する。 新しいATTはトンネル時間式として適合する。

Tunneling time, time needed for a quantum particle to tunnel through a potential energy barrier, can be measured by a duration marker. One such marker is spin reorientation due to Larmor precession. With a weak magnetic field in $z$ direction, the Larmor clock reads two times, $\tau_y$ and $\tau_z$, for a potential energy barrier along the $y$ axis. The problem is to determine the actual tunneling time (ATT). B{\"u}ttiker defines $\sqrt{\tau_y^2 + \tau_z^2}$ to be the ATT. Steinberg and others, on the other hand, identify $\tau_y$ with the ATT. The B{\"u}ttiker and Steinberg times are based on average spin components but in non-commuting spin system average of one component requires the other two to fluctuate. In the present work, we study the effects of spin fluctuations and show that the ATT can well be $\tau_y + \frac{\tau_z^2}{\tau_y}$. We analyze the ATT candidates and reveal that the fluctuation-based ATT acts as a transmission time in all of the low-barrier, high-barrier, thick-barrier and classical dynamics limits. We extract this new ATT using the most recent experimental data by the Steinberg group. The new ATT qualifies as a viable tunneling time formula.
翻訳日:2023-02-06 07:02:40 公開日:2022-07-11
# 有限温度におけるフェルミオンの量子力学における標的空間の絡み合い

Target space entanglement in quantum mechanics of fermions at finite temperature ( http://arxiv.org/abs/2207.04682v1 )

ライセンス: Link先を確認
Temma Hanyuda, Soichiro Mori, Sotaro Sugishita(参考訳) 有限温度における非相互作用フェルミオンの量子力学におけるターゲット空間の絡み合いを考える。 arXiv:2105.13726で研究された純粋な状態とは異なり、熱状態に対する(R\'enyi)エントロピーは、無限次元ヒルベルト空間の全ての状態が関与するため、単純な境界に従わない。 有限温度におけるN$フェルミオンに対するターゲット空間 R\'enyi エントロピーの一般式について検討し、1次元モデルにおけるエントロピーの数値結果を示す。 我々はまた、グランド・カノニカル・アンサンブルと比較して、大きな$N$の振る舞いも主張する。

We consider the target space entanglement in quantum mechanics of non-interacting fermions at finite temperature. Unlike pure states investigated in arXiv:2105.13726, the (R\'enyi) entanglement entropy for thermal states does not follow a simple bound because all states in the infinite-dimensional Hilbert space are involved. We investigate a general formula of the target space R\'enyi entropy for $N$ fermions at finite temperature, and present numerical results of the entropy in a one-dimensional model. We also argue the large $N$ behaviors with a comparison to the grand canonical ensemble.
翻訳日:2023-02-05 12:41:01 公開日:2022-07-11
# 超伝導キュービットキャビティ系のダイナミクスに及ぼす散逸と温度の影響の定量化

Quantifying the effects of dissipation and temperature on dynamics of a superconducting qubit-cavity system ( http://arxiv.org/abs/2207.04619v1 )

ライセンス: Link先を確認
Prashant Shukla(参考訳) ジョセフソン接合を含む超伝導回路は、共振器共振器に結合されマイクロ波信号を介して動作するマクロ量子2レベル系(qubit)を提供する。 本研究では, サブケルビン温度領域における拡散を含む空洞に結合した超伝導量子ビットのダイナミクスについて検討する。 最初のステップでは、古典的有限要素法を用いてキャビティと基本回路要素をシミュレートし、ジョセフソン接合をモデル化する。 次に、回路の量子化を行い、接合のエネルギー分割比を用いてシステムのフルハミルトニアンを得る。 ハミルトニアンのパラメータが得られたら、現実的な散逸パラメータの集合を用いて開量子系に対するリンドブラッド方程式を用いて力学を研究し、温度効果を含む。 最後に、量子インプリントを持つ時間を伴うシステムの周波数スペクトルおよび/またはダイナミクスを得る。 このようなデバイスは数ミリのケルビンで動作し、1Kの温度で量子挙動を観測できるパラメータのセットを探索する。

The superconducting circuits involving Josephson junction offer macroscopic quantum two-level system (qubit) which are coupled to cavity resonators and are operated via microwave signals. In this work, we study the dynamics of superconducting qubits coupled to a cavity with including dissipation in a subkelvin temperature domain. In the first step, a classical Finite Element Method is used to simulate the cavities and basic circuit elements to model Josephson junctions. Then the quantization of the circuit is done to obtain the full Hamiltonian of the system using energy partition ratios of the junctions. Once the parameters of Hamiltonian are obtained, the dynamics is studied via Lindblad equation for an open quantum system using a realistic set of dissipative parameters and include temperature effects. Finally, we get frequency spectra and/or dynamics of the system with time which have quantum imprints. Such devices work at tens of milli Kelvins and we search for a set of parameters which could enable to observe quantum behaviour at temperatures as high as 1 K.
翻訳日:2023-02-05 12:40:47 公開日:2022-07-11
# 遍歴マイクロ波光子のための一般化猫状態の試作

Experimental preparation of generalized cat states for itinerant microwave photons ( http://arxiv.org/abs/2207.04617v1 )

ライセンス: Link先を確認
Zenghui Bao, Zhiling Wang, Yukai Wu, Yan Li, Weizhou Cai, Weiting Wang, Yuwei Ma, Tianqi Cai, Xiyue Han, Jiahui Wang, Yipu Song, Luyan Sun, Hongyi Zhang, Luming Duan(参考訳) 一般化された猫状態は、様々な量子情報処理プロトコルにおいて非常に重要なコヒーレント状態の任意の重ね合わせを表す。 ここでは、超伝導量子ビットを含むマイクロ波共振器からコヒーレント状態光子を反射させることにより、マイクロ波領域で一般化した猫状態を生成するための汎用的アプローチを示す。 量子ビット状態のコヒーレント制御により、コヒーレント状態の重ね合わせを完全に制御できることを示す。 作製した猫状態は、量子状態依存反射光子の量子状態トモグラフィーによって検証される。 さらに, 資源理論に基づいて作製した猫状態の量子コヒーレンスを定量化し, コヒーレント状態の重ね合わせに対する良好な実験制御を明らかにした。 また、光子数統計量とスクイーズ特性も分析した。 驚くべきことに、4次スクイージングは実験状態において観察される。 これらの結果は、量子情報処理のために一般化された猫状態を適用する新たな可能性を開く。

Generalized cat states represent arbitrary superpositions of coherent states, which are of great importance in various quantum information processing protocols. Here we demonstrate a versatile approach to creating generalized itinerant cat states in the microwave domain, by reflecting coherent state photons from a microwave cavity containing a superconducting qubit. We show that, with a coherent control of the qubit state, a full control over the coherent state superposition can be realized. The prepared cat states are verified through quantum state tomography of the qubit state dependent reflection photon field. We further quantify quantum coherence in the prepared cat states based on the resource theory, revealing a good experimental control on the coherent state superpositions. The photon number statistic and the squeezing properties are also analyzed. Remarkably, fourth-order squeezing is observed in the experimental states. Those results open up new possibilities of applying generalized cat states for the purpose of quantum information processing.
翻訳日:2023-02-05 12:40:29 公開日:2022-07-11
# 非局所性をもつ直交積状態の小さな集合

Small set of orthogonal product states with nonlocality ( http://arxiv.org/abs/2207.04603v1 )

ライセンス: Link先を確認
Wang Yan-Ling, Chen Wei, Li Mao-Sheng(参考訳) 多部系における直交状態の集合は、状態の直交性を保存するために局所安定であるとされ、各部分集合から自明な局所測定のみを行うことができる。 局所的に安定な状態の集合は、ベル型非局所性とは異なる非局所性の形式を常に局所的に区別できない。 本研究では,局所的に安定な積状態の集合を小さいサイズで研究する。 まず、局所安定な積状態の集合のサイズに低い境界を与える。 拡張不可能な積基底(UPB)が局所的に区別できないことはよく知られている。 しかし、それらのいくつかは局所的に安定していない。 一方、最小サイズの UPB の小さな部分集合は局所的に安定であり、そのような UPB の非局所性は他の形式よりも強いことを示す。

A set of orthogonal states in multipartite systems is called to be locally stable if to preserving the orthogonality of the states, only trivial local measurement can be performed from each partite. Locally stable set of states are always locally indistinguishable yielding a form of nonlocality which is different from the Bell type nonlocality. In this work, we study the locally stable set of product states with small size. First, we give a lower bound on the size of locally stable set of product states. It is well known that unextendible product basis (UPB) is locally indistinguishable. But we find that some of them are not locally stable. On the other hand, there exists some small subset of minimum size UPB that are also locally stable which implies the nonlocality of such UPBs are stronger than other form.
翻訳日:2023-02-05 12:40:13 公開日:2022-07-11
# ポート型テレポーテーションの高次元化

Higher-dimensional performance of port-based teleportation ( http://arxiv.org/abs/2207.04593v1 )

ライセンス: Link先を確認
Zhi-Wei Wang and Samuel L. Braunstein(参考訳) ポートベーステレポーテーション(ポートベーステレポーテーション、Port-based teleportation、PBT)は、通常の量子テレポーテーションの一種。 しかし、高次元系の挙動は、次元$d=2$を超えて明示的に計算することは困難である。 実際、従来のヒルベルト空間表現に依存すると、次元が増大する指数的オーバーヘッドが伴う。 様々な成功尺度(例えば(絡み合い)忠実性など)の一般的な上界と下界は知られているが、高次元では自明になるものもある。 ここではグラフ理論代数(テンペリー・リーブ代数の部分集合)を構築し、これは表現のオーバーヘッドを無視できるような「かなり良い測定」のために、PSTの高次元性能を明示的に計算することができる。 このグラフィカル代数は成功確率を明示的に計算し、任意の次元$d$と低いポート数$N$の異なる結果と忠実さを区別し、さらに単純な上限を得る。 低$N$と任意の$d$の結果は、フィデリティが漸近的に${N}/{d^2}$に近づき、文献から1つの下界のパフォーマンスを確認することを示している。

Port-based teleportation (PBT) is a variation of regular quantum teleportation that operates without a final unitary correction. However, its behavior for higher-dimensional systems has been hard to calculate explicitly beyond dimension $d=2$. Indeed, relying on conventional Hilbert-space representations entails an exponential overhead with increasing dimension. Some general upper and lower bounds for various success measures, such as (entanglement) fidelity, are known, but some become trivial in higher dimensions. Here we construct a graph-theoretic algebra (a subset of Temperley-Lieb algebra) which allows us to explicitly compute the higher-dimensional performance of PBT for so-called "pretty-good measurements" with negligible representational overhead. This graphical algebra allows us to explicitly compute the success probability to distinguish the different outcomes and fidelity for arbitrary dimension $d$ and low number of ports $N$, obtaining in addition a simple upper bound. The results for low $N$ and arbitrary $d$ show that the fidelity asymptotically approaches ${N}/{d^2}$ for large $d$, confirming the performance of one lower bound from the literature.
翻訳日:2023-02-05 12:39:31 公開日:2022-07-11
# 局所フォノンモードの励起による大型イオン結晶のロバストゲート設計

Robust gate design for large ion crystals through excitation of local phonon modes ( http://arxiv.org/abs/2207.04583v1 )

ライセンス: Link先を確認
L.-M. Duan(参考訳) 本稿では,大きなイオン結晶に対して量子ゲートを絡み合うスケーラブルな設計法を提案する。 1) ゲート設計は普遍的であり,任意の大きさの大型イオン結晶に適用できる。 2) ゲートは、速度制限がなく、ラムディッケ地域外で動作することができる。 3) ゲートは連続波又はパルスレーザービームから駆動する。 4) ゲートは、レーザ光位相の遅い変動に影響を受けず、イオンの運動に対する熱状態で動作する。 5) 本質ゲートの不確かさは,実際の実験パラメータの下でのフォールトトレラント量子計算のしきい値よりもかなり低いレベルに低減することができる。 本稿では,従来のゲートスキームとは異なり,集団正規モードではなくイオンの局所振動モードの駆動に基づくゲート設計を提案し,ラムダイク領域外の多体量子力学を扱うハイゼンベルク方程式に基づく形式論を展開する。

We propose a scalable design of entangling quantum gates for large ion crystals with the following desirable features: 1) The gate design is universal and applicable for large ion crystals of arbitrary sizes; 2) The gate has no speed limitation and can work outside of the Lamb-Dicke region; 3) The gate operates by driving from either continuous-wave or pulsed laser beams; 4) The gate is insensitive to slow variation of the laser optical phase and works under a thermal state for the ions' motion; 5) The intrinsic gate infidelity can be reduced to a level well below the threshold for fault-tolerant quantum computation under realistic experimental parameters. Different from the previous gate schemes, here we propose a gate design based on driving of the local oscillation mode of the ions instead of the collective normal modes and develop a formalism based on the Heisenberg equations to deal with the many-body quantum dynamics outside of the Lamb-Dicke region.
翻訳日:2023-02-05 12:39:09 公開日:2022-07-11
# 不定因果構造によるパラメータ推定

Parameter estimation via indefinite causal structures ( http://arxiv.org/abs/2207.04838v1 )

ライセンス: Link先を確認
Lorenzo M. Procopio(参考訳) 量子フィッシャー情報(Quantum Fisher information)は、量子チャネルのパラメータを推定する際の究極の精度を与える主要なツールである。 本研究では,チャネルが因果順序の重畳状態にある場合において,3つのノイズチャネルを有する量子フィッシャー情報の解析式を提案する。 その結果,特定の組み合わせに対する因果順序数の増加に伴い,量子フィッシャー情報が増加することがわかった。 また、ある因果順序の組み合わせが、同じ数の因果順序に対して、他よりも精度が高いことを示す。 結果に基づき,不定因果構造を用いた探索スキームのための3つのチャネルを用いた因果順序の最適組み合わせを選択した。

Quantum Fisher information is the principal tool used to give the ultimate precision bound on the estimation of parameters for quantum channels. In this work, we present analytical expressions for the quantum Fisher information with three noisy channels for the case where the channels are in superposition of causal orders. We found that the quantum Fisher information increases as the number of causal orders increases for certain combinations. We also show that certain combinations of causal orders attain higher precision on bounds than others for the same number of causal orders. Based on our results, we chose the best combinations of causal orders with three channels for probing schemes using indefinite causal structures
翻訳日:2023-02-05 12:33:04 公開日:2022-07-11
# 中間回路計測のためのランダム化ベンチマークスイート

A randomized benchmarking suite for mid-circuit measurements ( http://arxiv.org/abs/2207.04836v1 )

ライセンス: Link先を確認
L. C. G. Govia, P. Jurcevic, S. T. Merkel and D. C. McKay(参考訳) 中間回路測定は、量子エラー補正、フォールトトレラント論理演算、測定に基づく量子コンピューティングなど、多くの量子情報コンピューティングプロトコルにおいて重要な要素である。 そのため、パフォーマンスを迅速かつ効率的に特徴づけたり、ベンチマークしたりする技術は非常に興味深い。 測定された量子ビット以外にも、サーキット中の測定が隣接する、測定されていない分光器量子ビットにどのような影響を及ぼすかを決定することも重要である。 本稿では,ランダム化ベンチマークのユビキタスパラダイムから開発された中回路計測ベンチマークスイートを提案する。 ベンチマークスイートを使用して、測定と分析の両方のキュービットのエラーを検出し、定量化する方法を示します。 我々は,IBM Quantum Falconデバイスから複数のキュービットの中間回路計測を同時に特徴付けることで,スイートのスケーラビリティを実証し,数値シミュレーションによる実験結果を支援する。

Mid-circuit measurements are a key component in many quantum information computing protocols, including quantum error correction, fault-tolerant logical operations, and measurement based quantum computing. As such, techniques to quickly and efficiently characterize or benchmark their performance are of great interest. Beyond the measured qubit, it is also relevant to determine what, if any, impact mid-circuit measurement has on adjacent, unmeasured, spectator qubits. Here, we present a mid-circuit measurement benchmarking suite developed from the ubiquitous paradigm of randomized benchmarking. We show how our benchmarking suite can be used to both detect as well as quantify errors on both measured and spectator qubits. We demonstrate the scalability of our suite by simultaneously characterizing mid-circuit measurement on multiple qubits from an IBM Quantum Falcon device, and support our experimental results with numerical simulations.
翻訳日:2023-02-05 12:32:55 公開日:2022-07-11
# 各分割における拡張不可能かつ分解不能な製品基底

Unextendible and uncompletable product bases in every bipartition ( http://arxiv.org/abs/2207.04763v1 )

ライセンス: Link先を確認
Fei Shi, Mao-Sheng Li, Xiande Zhang, and Qi Zhao(参考訳) 拡張不可能な積基底は量子情報理論において重要な対象であり、有界な絡み合い状態、絡み合いのない量子非局所性、量子違反のないベル不等式など幅広い応用を特徴とする。 非可算積基底と呼ばれる一般化された概念も多くの注目を集めている。 本稿では,DiVincenzoらによって提案された19年前の未解決の疑問に答える,各二分法における非完備な製品基盤について述べる。 【数学】Phys.238,379,2003] 結果として,このような拡張不能な製品ベースと情報のローカルな隠蔽とを接続し,未拡張な製品ベースが存在するための十分な条件を与える。 この結果は, 拡張不能な積基底の幾何学的理解を前進させる。

Unextendible product basis is an important object in quantum information theory and features a broad spectrum of applications, ranging bound entangled states, quantum nonlocality without entanglement, and Bell inequalities with no quantum violation. A generalized concept called uncompletable product basis also attracts much attention. In this paper, we find some unextendible product bases that are uncompletable product bases in every bipartition, which answers a 19 year-old open question proposed by DiVincenzo et al. [Commun. Math. Phys. 238, 379 (2003)]. As a consequence, we connect such unextendible product bases to local hiding of information and give a sufficient condition for the existence of an unextendible product basis, that is still an unextendible product basis in every bipartition. Our results advance the understanding of the geometry of unextendible product bases.
翻訳日:2023-02-05 12:32:14 公開日:2022-07-11
# 周期偏光非線形材料におけるテレコムバンド多重型自発パラメトリックダウンコンバージョン

Telecom-band Multi-Type Spontaneous Parametric Downconversion in Periodically Polarized Nonlinear Materials ( http://arxiv.org/abs/2207.04758v1 )

ライセンス: Link先を確認
Xi-Yu Liu, Ya-Fei Yu, Zheng-Jun Wei, Tian-Ming Zhao, Jin-Dong Wang(参考訳) 自然パラメトリックダウンコンバージョンは量子光学実験において重要な技術である。 本稿では, 周期偏光非線形材料における準位相整合過程の解析と計算を行う。 さらに, モノリシック材料における複数種類の準相整合を実現する一般的な方法を提案する。 最後に,サニャック干渉計に基づく複数の光子対を合成する新しい設計について述べる。 この技術は、通信用Cバンドの小さな光路に適用でき、コストと空間の両方を節約できる。

Spontaneous parametric downconversion is an essential technique in quantum optics experiments. In this paper, various quasi-phase-matching processes in several typical periodically polarized nonlinear materials are analyzed and calculated. Furthermore, a general method for realizing multiple types of quasi-phase-matching in a monolithic material is presented. Finally, a novel design to prepare multiple entangled photon pairs based on the Sagnac interferometer is discussed. This technology can be applied to tiny optical paths in the telecom C band, saving both cost and space.
翻訳日:2023-02-05 12:31:46 公開日:2022-07-11
# 高調波混合駆動による非線形2モード系の局在の位相制御:摂動解析と対称性の検討

Phase control of localization in the nonlinear two-mode system from harmonic mixing driving: Perturbative analysis and symmetry consideration ( http://arxiv.org/abs/2207.04756v1 )

ライセンス: Link先を確認
Xianchao Le, Zhao-Yun Zeng, Baiyuan Yang, Yunrong Luo, Jinpeng Xiao, Lei Li, Lisheng Wang, Yajiang Chen, Ai-Xi Chen, and Xiaobing Luo(参考訳) 本稿では,高調波混合場を駆動する非線形2モード系の対称性と基礎物理学を,多スケール漸近解析法を用いて厳密に解析する。 2階摂動理論の枠組みにおける効果的な説明は、非線形2モード系のフロケ固有スペクトルと動的特徴を理解するための正確な図式を提供し、対称性の考察の予測と完全に一致することを示す。 2種類の対称性がこのモデルの力学的特徴において重要な役割を果たすことが分かっており、そのメカニズムは効果的な記述の観点で解釈できる。 この結果は、ボース=アインシュタイン凝縮における原子局在の位相制御や非線形媒質中の光信号の切り替えに寄与する。

In this paper, we present a rigorous analysis of symmetry and underlying physics of the nonlinear two-mode system driven by a harmonic mixing field, by means of multiple scale asymptotic analysis method. The effective description in the framework of the second-order perturbative theory provides an accurate picture for understanding the Floquet eigenspectrum and dynamical features of the nonlinear two-mode system, showing full agreement with the prediction of symmetry considerations. We find that two types of symmetries play significant role in the dynamical features of this model, the mechanism behind which can be interpreted in terms of the effective description. The results are of relevance for the phase control of the atomic localization in Bose-Einstein condensates or switch of the optical signals in nonlinear mediums.
翻訳日:2023-02-05 12:31:37 公開日:2022-07-11
# 導波路中の巨大原子による最大エンタングル長寿命状態の生成

Generation of maximally-entangled long-lived states with giant atoms in a waveguide ( http://arxiv.org/abs/2207.04696v1 )

ライセンス: Link先を確認
Alan C. Santos, R. Bachelard(参考訳) 本稿では、導波路における光子相互作用による2つの人工巨原子間の効率的に絡み合いを生成する方法を示す。 ジャイアント原子の波長導波路への調整可能な崩壊過程と干渉過程を利用すると、突然の絡み合いの発生は巨大原子によって強く促進される。 共鳴古典場によってシステムが駆動されるとき、非常に絡み合った状態は定常状態の状態でも生成できる。 最大絡み合い状態に近い巨大光子束が観測されるため, システムによって放出される光の統計は, システム内の絡み合いの存在の証人として利用できることを示す。 この系で不整合に生成される量子相関の度合いを考えると、この結果は巨大原子系における量子相関の生成と光子統計の操作の幅広い道を開く。

In this paper we show how to generate efficiently entanglement between two artificial giant atoms with photon-mediated interactions in a waveguide. Taking advantage of the adjustable decay processes of giant atoms into the waveguide, and of the interference processes, spontaneous sudden birth of entanglement can be strongly enhanced with giant atoms. Highly entangled states can also be generated in the steady-state regime when the system is driven by a resonant classical field. We show that the statistics of the light emitted by the system can be used as a witness of the presence of entanglement in the system, since giant photon bunching is observed close to the regime of maximal entanglement. Given the degree of quantum correlations incoherently generated in this system, our results open a broad avenue for the generation of quantum correlations and manipulation of photon statistics in systems of giant atoms.
翻訳日:2023-02-05 12:31:23 公開日:2022-07-11
# 対称古典量子チャネルに対する量子メッセージによる信念伝播

Belief Propagation with Quantum Messages for Symmetric Classical-Quantum Channels ( http://arxiv.org/abs/2207.04984v1 )

ライセンス: Link先を確認
S. Brandsen, Avijit Mandal, and Henry D. Pfister(参考訳) 信念伝播 (bp) は、グラフ内の隣接ノード間でメッセージを渡すことによって、因子グラフに付随する限界分布を近似する古典的なアルゴリズムである。 1990年代にLDPC符号の強力な復号アルゴリズムとして人気を博した。 2016年、renesはquantum messages (bpqm) を用いた信念伝達を導入し、古典量子純粋状態チャネル上で送信されるツリーファクタグラフで定義された古典的なコードをデコードする方法を説明した。 そこで本研究では,BPQMを2次入力型対称量子 (BSCQ) チャネルへ拡張する手法を提案する。 この新しい対測定BPQM(PMBPQM)アプローチは一般に準最適であるが、ローカル操作で実装可能な具体的なBPQMデコーダを提供する。

Belief propagation (BP) is a classical algorithm that approximates the marginal distribution associated with a factor graph by passing messages between adjacent nodes in the graph. It gained popularity in the 1990's as a powerful decoding algorithm for LDPC codes. In 2016, Renes introduced a belief propagation with quantum messages (BPQM) and described how it could be used to decode classical codes defined by tree factor graphs that are sent over the classical-quantum pure-state channel. In this work, we propose an extension of BPQM to general binary-input symmetric classical-quantum (BSCQ) channels based on the implementation of a symmetric "paired measurement". While this new paired-measurement BPQM (PMBPQM) approach is suboptimal in general, it provides a concrete BPQM decoder that can be implemented with local operations.
翻訳日:2023-02-05 12:24:21 公開日:2022-07-11
# 超強結合系における量子トポロジー

Quantum topology in the ultrastrong coupling regime ( http://arxiv.org/abs/2207.04952v1 )

ライセンス: Link先を確認
C. A. Downing and A. J. Toghill(参考訳) 2つ以上のオブジェクト間の結合は、一般的に強いか弱いかに分類される。 例えばキャビティ量子電磁力学では、結合強度が損失率よりも大きいとき、カップリングは強みと呼ばれ、そうでない場合は弱さと呼ばれる。 超強結合は、相互作用エネルギーが非結合物体の素エネルギーと同じ等級である場合、量子物理学とそれ以上の新しいパラダイムを示す。 その結果、よく確立された現象に対する深い変化が起こり、例えば、超強結合系の基底状態は空ではなく、総励起数を保存していないプロセスの存在により仮想励起をホストする。 一般に励起の数が保存される量子トポロジカル系に対する超強結合の影響は、トポロジカル物質の大きな有用性にもかかわらず、ほとんど知られていない。 ここでは、超強結合と位相状態の微妙な相互作用が1次元配列でどのように現れるかを明らかにする。 理論的には、ハミルトンの飽和項と反回転項の組合せがリッチで多重励起効果のあるバンド構造において重要な役割を果たすことを示す超強結合系内の2レベル系の二量鎖を理論的に研究する。 特に、特異な位相的エッジ状態を明らかにし、反エッジ状態と呼ぶ位相的状態のフレーバーを導入し、量子空隙の顕著な幾何学的依存的再正規化を明らかにする。 その結果,超強量子トポロジーの新興分野における原始的システムの特徴と探索のための経路マップが得られた。

The coupling between two or more objects can generally be categorized as strong or weak. In cavity quantum electrodynamics for example, when the coupling strength is larger than the loss rate the coupling is termed strong, and otherwise it is dubbed weak. Ultrastrong coupling, where the interaction energy is of the same order of magnitude as the bare energies of the uncoupled objects, presents a new paradigm for quantum physics and beyond. As a consequence profound changes to well established phenomena occur, for instance the ground state in an ultrastrongly coupled system is not empty but hosts virtual excitations due to the existence of processes which do not conserve the total number of excitations. The implications of ultrastrong coupling for quantum topological systems, where the number of excitations are typically conserved, remain largely unknown despite the great utility of topological matter. Here we reveal how the delicate interplay between ultrastrong coupling and topological states manifests in a one-dimensional array. We study theoretically a dimerized chain of twolevel systems within the ultrastrong coupling regime, where the combined saturation and counter-rotating terms in the Hamiltonian are shown to play pivotal roles in the rich, multi-excitation effective bandstructure. In particular, we uncover unusual topological edge states, we introduce a flavour of topological state which we call an anti-edge state, and we reveal the remarkable geometric-dependent renormalizations of the quantum vaccum. Taken together, our results provide a route map for experimentalists to characterize and explore a prototypical system in the emerging field of ultrastrong quantum topology.
翻訳日:2023-02-05 12:24:08 公開日:2022-07-11
# 4量子ビット一重項状態との量子支援ビザンチン整合に対する資源分析

Resource analysis for quantum-aided Byzantine agreement with the four-qubit singlet state ( http://arxiv.org/abs/2207.04939v1 )

ライセンス: Link先を確認
Zolt\'an Guba, Istv\'an Finta, \'Akos Budai, L\'or\'ant Farkas, Zolt\'an Zimbor\'as, Andr\'as P\'alyi(参考訳) 分散コンピューティングでは、ビザンツ断層(Byzantine fault)は、コンポーネントが不整合に振る舞う状態であり、システムの異なるコンポーネントに対して異なる症状を示す。 正しいコンポーネント間のコンセンサスは、ビザンチンの障害があっても適切に作られた通信プロトコルによって達成できる。 分散量子状態上に構築された量子支援プロトコルは、従来のものよりも弾力性が高いため、考慮する価値がある。 従来の考え方に基づき,量子支援弱い放送プロトコルのパラメータ依存ファミリーを確立する。 プロトコルの障害確率の上限を計算し、量子リソース要求を最小限に抑える手順を定義し、説明する。 量子ネットワーク研究のためのノイズの多い中間スケール量子(nisq)デバイスの適合性を示す初期の研究に続いて、我々は公に利用可能な量子コンピュータ上でリソース量子状態を実験的に作成する。 我々の研究は、量子通信プロトコルを多ビットの絡み合った状態に展開する上で重要な工学的側面を強調している。

In distributed computing, a Byzantine fault is a condition where a component behaves inconsistently, showing different symptoms to different components of the system. Consensus among the correct components can be reached by appropriately crafted communication protocols even in the presence of byzantine faults. Quantum-aided protocols built upon distributed entangled quantum states are worth considering, as they are more resilient than traditional ones. Based on earlier ideas, here we establish a parameter-dependent family of quantum-aided weak broadcast protocols. We compute upper bounds on the failure probability of the protocol, and define and illustrate a procedure that minimizes the quantum resource requirements. Following earlier work demonstrating the suitability of noisy intermediate scale quantum (NISQ) devices for the study of quantum networks, we experimentally create our resource quantum state on publicly available quantum computers. Our work highlights important engineering aspects of the future deployment of quantum communication protocols with multi-qubit entangled states.
翻訳日:2023-02-05 12:23:41 公開日:2022-07-11
# Floquet 2-および3-level系における可変量子干渉効果

Tunable quantum interference effects in Floquet two- and three-level systems ( http://arxiv.org/abs/2207.04909v1 )

ライセンス: Link先を確認
Yingying Han, Minchen Qiao, Xiao-Qing Luo, Tie-Fu Li, Wenxian Zhang, Xiu-Hao Deng, J. Q. You, and Dapeng Yu(参考訳) 電磁誘導透過(EIT)やAutler-Townes splitting(ATS)など、光-物質相互作用を持つ非変調量子系の量子干渉効果が広く研究されている。 しかし、フレケット系(周期的な変調系)における同様の量子干渉効果は、リッチな新しい物理学をカバーすることはまれである。 本稿では,Floquet 2-および3-level系の量子干渉効果を解析的および数値的に検討する。 Floquet 2レベルシステムを用いたラウス様マルチピークスペクトルにおけるコヒーレント破壊トンネル効果を示し、プローブ場の強度を2乗波列で周期的に変調する。 Floquetシステムが第3レベルを介して非同期に制御されている場合、マルチピークは可変量子干渉で複数の透過窓に分割できることを実証する。 アカイケ情報量規準を用いた現象論的解析から、対称中央透明性窓はパラメータの選択に応じて従来のATSやEITと同様の機構を持ち、変調周期によって提供される量子干渉を制御する自由度も高いことを示した。 他の透明な窓は非対称で、従来のATS窓やEIT窓とは異なる。 これらの非自明な量子干渉効果は、フロケ系の応用を探求するスコープを開く。

Quantum interference effects in the unmodulated quantum systems with light-matter interaction have been widely studied, such as electromagnetically induced transparency (EIT) and Autler-Townes splitting (ATS). However, the similar quantum interference effects in the Floquet systems (i.e., periodically modulated systems), which might cover rich new physics, were rarely studied. In this article, we investigate the quantum interference effects in the Floquet two- and three-level systems analytically and numerically. We show a coherent destruction tunneling effect in a lotuslike multipeak spectrum with a Floquet two-level system, where the intensity of the probe field is periodically modulated with a square-wave sequence. We demonstrate that the multipeak split into multiple transparency windows with tunable quantum interference if the Floquet system is asynchronously controlled via a third level. Based on phenomenological analysis with Akaike information criterion, we show that the symmetric central transparency window has a similar mechanism to the traditional ATS or EIT depending on the choice of parameters, additional with an extra degree of freedom to control the quantum interference provided by the modulation period. The other transparent windows are shown to be asymmetric, different from the traditional ATS and EIT windows. These nontrivial quantum interference effects open up a scope to explore the applications of the Floquet systems.
翻訳日:2023-02-05 12:23:26 公開日:2022-07-11
# 時間依存ポテンシャルにおける境界状態形成

Bound State Formation in Time Dependent Potentials ( http://arxiv.org/abs/2207.04898v1 )

ライセンス: Link先を確認
Jan Rais, Hendrik van Hees and Carsten Greiner(参考訳) まず, 時間に依存しないシュレーディンガー方程式を解き, 外部の時間依存ポテンシャルを持つ時間依存系について検討する。 このために、空間的および時間的拡張が異なるガウスポテンシャルを導入し、この記述をその後のパルスやランダムな雑音ポテンシャルにも一般化する。 私たちの主な目標は、境界状態が人口増加・人口減少する時間スケールを研究することです。 特に,エネルギーと時間の不確実性関係と異なるエネルギー固有状態間の遷移時間との関係を明らかにする。 我々は,不確実性関係のために状態の形成が遅れるのではなく,摂動のパルス形状に従うことを証明した。 さらに、検討された量子系上の一階摂動理論の(非)適用性について検討する。

We study the temporal formation of quantum mechanical bound states within a one-dimensional attractive square-well potential, by first solving the time-independent Schroedinger equation and then study a time dependent system with an external time-dependent potential. For this we introduce Gaussian potentials with different spatial and temporal extensions, and generalize this description also for subsequent pulses and for random, noisy potentials. Our main goal is to study the time scales, in which the bound state is populated and depopulated. Particularly we clarify a likely connection between the uncertainty relation for energy and time and the transition time between different energy eigenstates. We demonstrate, that the formation of states is not delayed due to the uncertainty relation but follows the pulse shape of the perturbation. In addition we investigate the (non-)applicability of first-order perturbation theory on the considered quantum system.
翻訳日:2023-02-05 12:23:04 公開日:2022-07-11
# 数電子イオンを用いた標準モデル拡張試験

Testing Standard Model extensions with few-electron ions ( http://arxiv.org/abs/2207.04868v1 )

ライセンス: Link先を確認
Vincent Debierre and Natalia S. Oreshkina and Igor A. Valuev, Zolt\'an Harman and Chistoph H. Keitel(参考訳) 少なくとも4つの同位体に関する分光データを集めるとき、キングプロットの非線形性は標準模型を超えた物理学の兆候となる。 本研究は, 数電子イオンの同位体シフト分光法を用いた仮定的新しい相互作用の探索法の改良について述べる。 エネルギー準位やジャイロ磁性因子に対する小さな核補正は、標準模型内のキング線形性から逸脱し、コンファウンドの原因となる可能性があるため、非常に注意深く考慮されている。 この新たなアプローチでは、実験的なキング非線形性は、標準モデルの先行順序における消滅予測ではなく、キング非線形性に対する計算された標準モデル全体の寄与と比較される。 これにより、非常に高精度な実験体制でキング線形性解析が可能となり、矛盾を避けることができる。 標準模型パラメータを超えて設定できる境界は、キング非線形性を引き起こす小さな標準模型核補正の不確実性によって制限される。 一対の同位体に関する理論と実験の直接比較は、少数電子イオンに対するより適切なアプローチとして主張されている。

When collecting spectroscopic data on at least four isotopes, nonlinearities in the King plot are a possible sign of Physics beyond the Standard Model. In this work, an improved approach to the search for hypothetical new interactions with isotope shift spectroscopy of few-electron ions is presented. Very careful account is taken of the small nuclear corrections to the energy levels and the gyromagnetic factors, which cause deviations from King linearity within the Standard Model and are hence a possible source of confounds. In this new approach, the experimental King nonlinearity is not compared to the vanishing prediction of the Standard Model at the leading order, but to the calculated full Standard Model contribution to King nonlinearity. This makes searching for beyond-the-Standard-Model physics with King linearity analysis possible in a very-high-precision experimental regime, avoiding confounds. The bounds which can be set on beyond-the-Standard-Model parameters remain limited by the uncertainties on the small Standard Model nuclear corrections which cause King nonlinearity. Direct comparison between theory and experiment on a single pair of isotopes is advocated as a more suitable approach for few-electron ions.
翻訳日:2023-02-05 12:22:49 公開日:2022-07-11
# パラメータ化量子回路における情報の流れ

Information flow in parameterized quantum circuits ( http://arxiv.org/abs/2207.05149v1 )

ライセンス: Link先を確認
Abhinav Anand, Lasse Bj{\o}rn Kristensen, Felix Frohnert, Sukin Sim and Al\'an Aspuru-Guzik(参考訳) 本研究では,量子システム,特にパラメータ化量子回路における情報フローを定量化する新しい手法を提案する。 回路のグラフ表現を用い、ゲートノード間の相互情報を用いた新しい距離メートル法を提案する。 次に,距離測度に基づく経路を用いた変分アルゴリズムの最適化手順を提案する。 本稿では,変分量子固有解法を用いて,ハイゼンベルクモデルの基底状態エネルギーを計算するアルゴリズムの特徴について検討する。 さらに, 変分量子分類を用いた二元分類問題を解く手法を提案する。 数値シミュレーションから,本手法は近距離アルゴリズムで主に使用されるパラメータ化量子回路の最適化に有効であることを示す。 さらに,既存の確率的勾配に基づく手法の収束性を改善するために,情報フローに基づく経路を用いることもできる。

In this work, we introduce a new way to quantify information flow in quantum systems, especially for parameterized quantum circuits. We use a graph representation of the circuits and propose a new distance metric using the mutual information between gate nodes. We then present an optimization procedure for variational algorithms using paths based on the distance measure. We explore the features of the algorithm by means of the variational quantum eigensolver, in which we compute the ground state energies of the Heisenberg model. In addition, we employ the method to solve a binary classification problem using variational quantum classification. From numerical simulations, we show that our method can be successfully used for optimizing the parameterized quantum circuits primarily used in near-term algorithms. We further note that information-flow based paths can be used to improve convergence of existing stochastic gradient based methods.
翻訳日:2023-02-05 12:14:56 公開日:2022-07-11
# 衝突グラフェンプラズモンを用いた非線形量子論理

Nonlinear quantum logic with colliding graphene plasmons ( http://arxiv.org/abs/2207.05122v1 )

ライセンス: Link先を確認
Giuseppe Calaj\`o, Philipp K. Jenke, Lee A. Rozema, Philip Walther, Darrick E. Chang and Joel D. Cox(参考訳) グラフェンはナノスケールに非線形量子光学をもたらす有望なプラットフォームとして登場し、大きな固有光学非線形性により長寿命でアクティブな波長可変プラズモンポラリトンが強く相互作用できる。 ここでは, グラフェンナノリボン中の2つの対向伝播プラズモンの衝突を理論的に検討する。 このシナリオは、非線形光ファイバにおけるフォトニックゲートに対するシャピロ・ノーゴー定理によって課される制限を回避する多モード偏光ゲートの実装に対する興味深い可能性を示している。 パラダイム的な例として、ゲート性能が基本的に1つのプラズモン寿命によって制限されるような高忠実度条件付き$\pi$位相シフト(CZ)の実現可能性を示す。 これらの結果は、強い相互作用を持つポラリトンを持つ量子情報や多体応用への新しいエキサイティングな道を開く。

Graphene has emerged as a promising platform to bring nonlinear quantum optics to the nanoscale, where a large intrinsic optical nonlinearity enables long-lived and actively tunable plasmon polaritons to strongly interact. Here we theoretically study the collision between two counter-propagating plasmons in a graphene nanoribbon, where transversal subwavelength confinement endows propagating plasmons with %large effective masses a flat band dispersion that enhances their interaction. This scenario presents interesting possibilities towards the implementation of multi-mode polaritonic gates that circumvent limitations imposed by the Shapiro no-go theorem for photonic gates in nonlinear optical fibers. As a paradigmatic example we demonstrate the feasibility of a high fidelity conditional $\pi$ phase shift (CZ), where the gate performance is fundamentally limited only by the single plasmon lifetime. These results open new exciting avenues towards quantum information and many-body applications with strongly-interacting polaritons.
翻訳日:2023-02-05 12:14:43 公開日:2022-07-11
# 磁性開始時の異常点の自発的形成

Spontaneous Formation of Exceptional Points at the Onset of Magnetism ( http://arxiv.org/abs/2207.05097v1 )

ライセンス: Link先を確認
Lorenzo Crippa, Giorgio Sangiovanni and Jan Carl Budich(参考訳) トポロジカル半金属中の対称性が、長距離秩序の開始時に対称性を破る揺らぎによって、一般化的に安定な例外点(EP)のペアにどのように昇格するかを明らかにする。 この非エルミタン(NH)トポロジーへの新しい経路は、高温常磁性相から強相関した3次元トポロジカル絶縁体の表面で自然に発生する磁気的NHワイル相によって実証される。 ここでは、反対のスピンを持つ電子励起は時間的に大きく異なるため、陽極表面状態のカイラルスピンテクスチャーと不整合なスピンの反エルミタン構造が生まれ、EPの自発的な形成を促進する。 動的平均場理論の枠組みにおいて、顕微鏡的マルチバンドハバードモデルを非摂動的に解くことにより、この現象の数値的証拠を示す。

We reveal how symmetry protected nodal points in topological semimetals may be promoted to pairs of generically stable exceptional points (EPs) by symmetry-breaking fluctuations at the onset of long-range order. This novel route to non-Hermitian (NH) topology is exemplified by a magnetic NH Weyl phase spontaneously emerging at the surface of a strongly correlated three-dimensional topological insulator when entering the ferromagnetic regime from a high temperature paramagnetic phase. Here, electronic excitations with opposite spin acquire significantly different life-times, thus giving rise to an anti-Hermitian structure in spin that is incompatible with the chiral spin texture of the nodal surface states, and hence facilitates the spontaneous formation of EPs. We present numerical evidence of this phenomenon by solving a microscopic multi-band Hubbard model non-perturbatively in the framework of dynamical mean-field theory.
翻訳日:2023-02-05 12:14:25 公開日:2022-07-11
# QAOAは、良い古典的な文字列から始まり、立ち往生する

The QAOA gets stuck starting from a good classical string ( http://arxiv.org/abs/2207.05089v1 )

ライセンス: Link先を確認
Madelyn Cain, Edward Farhi, Sam Gutmann, Daniel Ranard, Eugene Tang(参考訳) 量子近似最適化アルゴリズム(QAOA)はビット列上のコスト関数を最大化するように設計されている。 初期状態は伝統的に全ての文字列上の重ね合わせであるが、QAOAを高速化しようとすると自然である:まず古典的アルゴリズムを使って良い文字列を生成し、その文字列に関連する計算基底状態から通常のQAOAを実行する。 本稿では,このqaoa初期化手法が劇的に失敗し,コスト関数のほとんど改善しない数値実験を報告する。 我々は,改善がまったくないレアインスタンスの基準を調査し,改善しないより典型的なケースについて統計的に考察する。 統計的引数は、適切な温度で熱アンサンブルを局所的に模倣する任意の弦に対して成り立つ。 我々の数値実験は、この性質が典型的な良い弦に対して成り立つことを示している。 我々は、私たちのネガティブな結果は、ウォームスタートQAOAの単純な導入にのみ適用され、文献の他のアプローチには適用されないことを強調する。 我々の理論的解析が将来のアルゴリズム設計に役立てることを願っている。

The Quantum Approximate Optimization Algorithm (QAOA) is designed to maximize a cost function over bit strings. While the initial state is traditionally a superposition over all strings, it is natural to try expediting the QAOA: first use a classical algorithm to produce some good string, and then run the ordinary QAOA starting in the computational basis state associated with that string. Here we report numerical experiments that this method of initializing the QAOA fails dramatically, exhibiting little to no improvement of the cost function. We investigate criteria for the rare instances in which there is any improvement at all, and we provide a statistical argument for the more typical case of no improvement. The statistical argument holds for any string that locally mimics the thermal ensemble at the appropriate temperature. Our numerical experiments indicate this property holds for typical good strings. We emphasize that our negative results only apply to our simple incarnation of the warm-start QAOA and may not apply to other approaches in the literature. We hope that our theoretical analysis will inform future algorithm design.
翻訳日:2023-02-05 12:14:08 公開日:2022-07-11
# 幾何学的絡み合いの絡み合い-複雑性一般化

An Entanglement-Complexity Generalization of the Geometric Entanglement ( http://arxiv.org/abs/2207.05052v1 )

ライセンス: Link先を確認
Alex Nico-Katz, Sougato Bose(参考訳) 本稿では,行列積状態形式を用いた純粋状態の幾何学的絡み合いの一般化のクラスを提案する。 この一般化は分離可能性の概念から完全に脱却され、絡み合いの複雑さが異なる対象状態への結合次元の関数として自由に調整することができる。 まず,従来の幾何学的絡み合いとは異なり,aklt基底状態の同定に成功しているトイスピン-1モデルを用いて,その値を示す。 そして、一軸およびロンボ異方性を持つハルダン鎖の位相図を調べ、一般化された幾何学的絡み合いがすべての位相とその絡み合いの複雑さをうまく検出できることを明らかにする。 最後に、乱れたスピン-1/2$ハイゼンベルクモデルを調べ、一般化された幾何学的絡み合いの差がエルゴード的局所的絡み合い遷移の誘引的シグネチャとして利用できることを示した。

We propose a class of generalizations of the geometric entanglement for pure states by exploiting the matrix product state formalism. This generalization is completely divested from the notion of separability and can be freely tuned as a function of the bond dimension to target states which vary in entanglement complexity. We first demonstrate its value in a toy spin-1 model where, unlike the conventional geometric entanglement, it successfully identifies the AKLT ground state. We then investigate the phase diagram of a Haldane chain with uniaxial and rhombic anisotropies, revealing that the generalized geometric entanglement can successfully detect all its phases and their entanglement complexity. Finally we investigate the disordered spin-$1/2$ Heisenberg model, where we find that differences in generalized geometric entanglements can be used as lucrative signatures of the ergodic-localized entanglement transition.
翻訳日:2023-02-05 12:13:38 公開日:2022-07-11
# 4レベル熱量子ナノマシンにおける2フォノン伝搬

Two-phonon propagation in a 4-level thermal quantum nanomachine ( http://arxiv.org/abs/2207.05021v1 )

ライセンス: Link先を確認
Y. Lai, C. McDwyer, P. Karwat, O. Hess(参考訳) 音の科学としての音波は物理学の確立された分野である。 光と類似して、エンジニアは音波を操作してがん細胞と戦うために光学場からツールを適応する。 ここでは,2つのフォノン,すなわち音波出力への熱の変換を同時に放出する熱勾配駆動型ナノマシンの概念を提案する。 我々の理論的研究は、将来の超音波デバイスに使用できるナノスケールのコンポーネントやシステムに光を当てている。

Acoustic waves, as science of sound, is an established field in physics. In analogy with light, engineers adapt tools from optic fields for manipulating sound waves to fight with cancer cells. Here we present a heat-gradient driven nanomachine concept for simultaneous emission of two phonons, i.e. a convertion of heat into a sonic wave output. Our theoretical work sheds light on nanoscale components or systems that could be used for future ultrasound devices.
翻訳日:2023-02-05 12:12:41 公開日:2022-07-11
# Google Landmark Retrieval 2020の第2位

2nd Place Solution to Google Landmark Retrieval 2020 ( http://arxiv.org/abs/2210.01624v1 )

ライセンス: Link先を確認
Min Yang, Cheng Cui, Xuetong Xue, Hui Ren, Kai Wei(参考訳) 本稿では,Google Landmark Retrieval Competition 2020の2位となるソリューションを提案する。 本稿では,局所的特徴量や空間的検証など,後処理を伴わないランドマーク検索のためのグローバル特徴モデルの学習手法を提案する。 このコンペティションでは,検索方法には2つの部分がある。 アークマージン損失のマージン値を高め、ステップごとに画像解像度を増大させることで、主にトレーニングを含む。 モデルはpaddlepaddleフレームワークとpytorchフレームワークでトレーニングされ、tensorflow 2.2に変換される。 この方法を用いて、パブリックスコアが0.40176、プライベートスコアが0.36278となり、Google Landmark Retrieval Competition 2020で2位となった。

This paper presents the 2nd place solution to the Google Landmark Retrieval Competition 2020. We propose a training method of global feature model for landmark retrieval without post-processing, such as local feature and spatial verification. There are two parts in our retrieval method in this competition. This training scheme mainly includes training by increasing margin value of arcmargin loss and increasing image resolution step by step. Models are trained by PaddlePaddle framework and Pytorch framework, and then converted to tensorflow 2.2. Using this method, we got a public score of 0.40176 and a private score of 0.36278 and achieved 2nd place in the Google Landmark Retrieval Competition 2020.
翻訳日:2023-02-05 12:06:51 公開日:2022-07-11
# 機械学習を用いたMM-SQCダイナミクスにおける軌道伝搬の実現

Realization of the Trajectory Propagation in the MM-SQC Dynamics by Using Machine Learning ( http://arxiv.org/abs/2207.05556v1 )

ライセンス: Link先を確認
Kunni Lin, Jiawei Peng, Chao Xu, Feng Long Gu and Zhenggang Lan(参考訳) メイヤー・ミラー写像ハミルトニアン (MM-SQC) に基づく対称準古典力学法の枠組みにおいて, 軌道に基づく非線形力学を実現するために, 教師付き機械学習 (ML) アプローチを適用した。 長い短期記憶リカレントニューラルネットワーク(LSTM-RNN)モデルの構築後、最初のサンプリング条件から軌道の進化全体を実行するために使用される。 提案手法は,複数の電子-フォノンカップリング模型の動力学シミュレーションにおいて,偏りや偏りのないエネルギー準位を持つ2点および3点系を対象とし,数点以上のフォノンモードを含むように,信頼性と正確性が証明された。 LSTM-RNNアプローチはまた、長期進化の正確かつ安定した結果を得る強力な能力を示している。 LSTM-RNNモデルは, MM-SQC力学における軌道進化における動的補正情報を完璧に捉えていることを示す。 我々の研究は、多くの自由度を持つ複素系の軌道に基づく非線形力学のシミュレーションにML法を用いる可能性を提供する。

The supervised machine learning (ML) approach is applied to realize the trajectory-based nonadiabatic dynamics within the framework of the symmetrical quasi-classical dynamics method based on the Meyer-Miller mapping Hamiltonian (MM-SQC). After the construction of the long short-term memory recurrent neural network (LSTM-RNN) model, it is used to perform the entire trajectory evolutions from initial sampling conditions. The proposed idea is proven to be reliable and accurate in the simulations of the dynamics of several site-exciton electron-phonon coupling models, which cover two-site and three-site systems with biased and unbiased energy levels, as well as include a few or many phonon modes. The LSTM-RNN approach also shows the powerful ability to obtain the accurate and stable results for the long-time evolutions. It indicates that the LSTM-RNN model perfectly captures of dynamical correction information in the trajectory evolution in the MM-SQC dynamics. Our work provides the possibility to employ the ML methods in the simulation of the trajectory-based nonadiabatic dynamic of complex systems with a large number of degrees of freedoms.
翻訳日:2023-02-05 12:06:15 公開日:2022-07-11
# 原子プローブトモグラフィーにおけるSiクラスターの電界後イオン化:理論的および実験的共同研究

Post-field ionization of Si clusters in atom probe tomography: A joint theoretical and experimental study ( http://arxiv.org/abs/2207.05230v1 )

ライセンス: Link先を確認
Ramya Cuduvally, Richard J. H. Morris, Giel Oosterbos, Piero Ferrari, Claudia Fleischmann, Richard G. Forbes and Wilfried Vandervorst(参考訳) Atom Probe Tomography(APT)の量子化の大きな課題は、同じ質量/電荷状態(m/n$)比を持つイオンを分離できないことである。 例えば、$^{75}{\rm{As}}^{+}$と$^{75}{\rm{As}}{_2}^{2+}$を~75 Da、$^{14}{\rm{N}}^+$と$^{28}{\rm{Si}}^{2+}$を~14 Daとすると、運動エネルギーの付加的な知識や質量分解力の大幅な改善なしに区別することはできない。 このような質量ピークの重なりはピーク割り当ての曖昧さをもたらし、合成の不確かさと再構成された体積内の原子の誤ったラベリングをもたらす。 電界拡散イオンの運動エネルギーを測定するための実用的な技術が存在しない中で,apt(post-field ionization)における多価荷電分子イオン/クラスターの生成を制御する基礎過程に基づいて,実験後解析手法の適用性について検討する。 操作条件の関数としての分子イオンのpfi挙動を予測する能力は、ピーク重なりの解消と組成の不確かさの最小化への第一歩となる。 この可能性について,広く受け入れられているkingham pfi理論を用いて,siクラスター (\rm{si}_2$,$\rm{si}_3$,$\rm{si}_4$) に対する電荷状態比の場依存性と理論的予測を比較して検討する。 次に、適合性の品質に影響を与えるモデルパラメータと、APTにおける分子イオンのPFIをよりよく理解できる可能性について論じる。 最後に, 提案手法の物質系への伝達性について検証し, より信頼性の高い結果を得るための方法を概説する。

A major challenge for Atom Probe Tomography (APT) quantification is the inability to decouple ions which possess the same mass/charge-state ($m/n$) ratio but a different mass. For example, $^{75}{\rm{As}}^{+}$ and $^{75}{\rm{As}}{_2}^{2+}$ at ~75 Da or $^{14}{\rm{N}}^+$ and $^{28}{\rm{Si}}^{2+}$ at ~14 Da, cannot be differentiated without the additional knowledge of their kinetic energy or a significant improvement of the mass resolving power. Such mass peak overlaps lead to ambiguities in peak assignment, resulting in compositional uncertainty and an incorrect labelling of the atoms in a reconstructed volume. In the absence of a practical technology for measuring the kinetic energy of the field-evaporated ions, we propose and then explore the applicability of a post-experimental analytical approach to resolve this problem based on the fundamental process that governs the production of multiply charged molecular ions/clusters in APT, i.e., Post-Field Ionization (PFI). The ability to predict the PFI behaviour of molecular ions as a function of operating conditions could offer the first step towards resolving peak overlap and minimizing compositional uncertainty. We explore this possibility by comparing the field dependence of the charge-state-ratio for Si clusters ($\rm{Si}_2$, $\rm{Si}_3$ and $\rm{Si}_4$) with theoretical predictions using the widely accepted Kingham PFI theory. We then discuss the model parameters that may affect the quality of the fit and the possible ways in which the PFI of molecular ions in APT can be better understood. Finally, we test the transferability of the proposed approach to different material systems and outline ways forward for achieving more reliable results.
翻訳日:2023-02-05 12:05:58 公開日:2022-07-11
# $\mathbf{k}\cdot\mathbf{p}$法によるナノワイヤ上に埋め込まれた量子ドットにおける共鳴から境界状態への遷移の研究

Study of the transition from resonance to bound states in quantum dots embedded on a nanowire using the $\mathbf{k}\cdot\mathbf{p}$ method ( http://arxiv.org/abs/2207.05206v1 )

ライセンス: Link先を確認
Natalia Giovenale and Omar Osenda}(参考訳) 量子ドットを埋め込んだ半導体ナノワイヤのバンド構造について検討する。 バンド構造はレイリー・リッツ変分法を用いて計算される。 2つの異なるタイプの量子ドットを考える。1つのタイプはナノワイヤに印加された静電ポテンシャルによって定義され、もう1つはナノワイヤのバンドパラメータに対してバンドオフセットを持つ材料を追加することで定義される。 導電帯とナノ構造の原子価帯のギャップにおける離散エネルギー準位の出現や、これらの準位のエネルギーと電線に沿って印加される磁場の強度の依存性には特に興味がある。 いくつかのシナリオが可能であることが示されており、特に興味があるのは離散状態の状態を共鳴に変換する可能性であり、その逆である。

We study the band structure of semiconductor nanowires with quantum dots embedded in them. The band structure is calculated using the Rayleigh-Ritz variational method. We consider quantum dots of two different types, one type is defined by electrostatic potentials applied to the nanowire, while the other one is defined by adding materials with band offsets with respect to the band parameters of the nanowire. We are particularly interested in the appearance of discrete energy levels in the gap between the conduction band and the valence band of the nanostructure, and in the dependence of the energy of these levels with the intensity of a magnetic field applied along the wire. It is shown that several scenarios are possible, being of particular interest the possibility of transforming states of the discrete into resonances and vice versa.
翻訳日:2023-02-05 12:05:06 公開日:2022-07-11
# サードパーティの絡み合いチャレンジの管理

Managing the Three-Party Entanglement Challenge ( http://arxiv.org/abs/2207.05170v1 )

ライセンス: Link先を確認
Songbo Xie and J. H. Eberly(参考訳) マルチパーティの量子絡み合いの課題を紹介し,近年の学習の成功について説明する。 量子論の反直観的特徴として広く受け入れられている絡み合いの評判を考えると、まず純粋状態絡みそのものを記述する。 マルチパーティキュービット状態に注意を向ける。 次に,ベル状態の2-qubitを超える絡み合いを拡大する上で,数十年にわたって困難であった特徴を紹介する。 本稿では,3ビットの絡み合いを解消する現在の理解について述べる。 これは必ずしも3量子状態空間の基本的な分割を、いわゆるGHZと$W$状態で識別される2つの完全に独立したセクターに考慮する。

We introduce the challenges of multi-party quantum entanglement and explain a recent success in learning to take its measure. Given the widely accepted reputation of entanglement as a counter-intuitive feature of quantum theory, we first describe pure-state entanglement itself. We restrict attention to multi-party qubit states. Then we introduce the features that have made it challenging for several decades to extend an entanglement measure beyond the 2-qubit case of Bell states. We finish with a description of the current understanding that solves the 3-qubit entanglement challenge. This necessarily takes into account the fundamental division of the 3-qubit state space into two completely independent sectors identified with the so-called GHZ and $W$ states.
翻訳日:2023-02-05 12:04:28 公開日:2022-07-11
# Swiftのカイラル量子ウォーク

Swift chiral quantum walks ( http://arxiv.org/abs/2207.05168v1 )

ライセンス: Link先を確認
Massimo Frigerio and Matteo G. A. Paris(参考訳) 連続時間量子ウォーク(CTQW)は、開始頂点の戻り確率が常に1に近い場合、セジタリーである。 最近の結果は、極大次数頂点から始めると、ラプラシアン行列と隣接行列によって生成されるctqwダイナミクスは、典型的には沈静であることを示している。 本稿では, グラフのエッジに適切な複素位相を加えることで, キラルCTQWを定義することにより, セデンタリティを解消し, 近接型のカイラル量子ウォークを高速に実現し, 最短時間で復帰確率をゼロにすることができることを示す。 また,ラプラシアンタイプの高速キラルctqwsに対するno-go定理も提供する。 以上の結果から,キラルCTQWでは達成できないタスクの汎用的評価が得られた。

A continuous-time quantum walk (CTQW) is sedentary if the return probability in the starting vertex is close to one at all times. Recent results imply that, when starting from a maximal degree vertex, the CTQW dynamics generated by the Laplacian and adjacency matrices are typically sedentary. In this paper, we show that the addition of appropriate complex phases to the edges of the graph, defining a chiral CTQW, can cure sedentarity and lead to swift chiral quantum walks of the adjacency type, which bring the returning probability to zero in the shortest time possible. We also provide a no-go theorem for swift chiral CTQWs of the Laplacian type. Our results provide one of the first, general characterization of tasks that can and cannot be achieved with chiral CTQWs.
翻訳日:2023-02-05 12:04:17 公開日:2022-07-11
# 不均衡深層学習における特徴偏差の同定と補正

Identifying and Compensating for Feature Deviation in Imbalanced Deep Learning ( http://arxiv.org/abs/2001.01385v4 )

ライセンス: Link先を確認
Han-Jia Ye, Hong-You Chen, De-Chuan Zhan, Wei-Lun Chao(参考訳) クラス不均衡のデータで訓練された分類器は、"マイナー"クラスのテストデータでは不十分であることが知られている。 本稿では,このようなシナリオでconvnet分類器の学習について検討する。 私たちは、ConvNetがマイナークラスにかなり適合していることを発見しました。 一連の分析を行い、学習されたconvnetが、小さなクラスのトレーニングとテストデータの間に、異なる特徴を生成するという、機能偏差現象を発見しました。 テストデータを低判定値領域にプッシュする特徴偏差の影響を補うために,ConvNetのトレーニングにクラス依存温度(CDT)を導入することを提案する。 CDTはトレーニングフェーズにおける機能偏差をシミュレートし、ConvNetはマイナークラスのデータに対する決定値を拡大し、テストフェーズにおける実際の機能偏差を克服する。 ベンチマークデータセットに対するアプローチを検証し、有望なパフォーマンスを実現する。 私たちの洞察が、クラス不均衡なディープラーニングの解決において、新たな考え方を刺激できることを願っています。

Classifiers trained with class-imbalanced data are known to perform poorly on test data of the "minor" classes, of which we have insufficient training data. In this paper, we investigate learning a ConvNet classifier under such a scenario. We found that a ConvNet significantly over-fits the minor classes, which is quite opposite to traditional machine learning algorithms that often under-fit minor classes. We conducted a series of analysis and discovered the feature deviation phenomenon -- the learned ConvNet generates deviated features between the training and test data of minor classes -- which explains how over-fitting happens. To compensate for the effect of feature deviation which pushes test data toward low decision value regions, we propose to incorporate class-dependent temperatures (CDT) in training a ConvNet. CDT simulates feature deviation in the training phase, forcing the ConvNet to enlarge the decision values for minor-class data so that it can overcome real feature deviation in the test phase. We validate our approach on benchmark datasets and achieve promising performance. We hope that our insights can inspire new ways of thinking in resolving class-imbalanced deep learning.
翻訳日:2023-01-14 01:51:30 公開日:2022-07-11
# ロバストな生成的潜在力学に対するヘテロシデスティック不確かさ

Heteroscedastic Uncertainty for Robust Generative Latent Dynamics ( http://arxiv.org/abs/2008.08157v2 )

ライセンス: Link先を確認
Oliver Limoyo and Bryan Chan and Filip Mari\'c and Brandon Wagstaff and Rupam Mahmood and Jonathan Kelly(参考訳) 強化学習や制御を含む多くの領域において、一連の高次元観察からダイナミクスを学習または同定することは難しい課題である。 この問題は最近、潜在力学による生成的視点から研究され、高次元の観測は、力学を学習できる低次元空間に埋め込まれている。 いくつかの成功にもかかわらず、潜伏力学モデルは実世界のロボットシステムには適用されておらず、学習された表現は、訓練中に見られない様々な知覚上の欠点やノイズ源に対して堅牢でなければならない。 本稿では, 長期計画と閉ループ制御に有効な潜在状態表現と関連するダイナミクスを, 知覚的に困難な条件下で共同で学習する手法を提案する。 本研究の主な貢献として,我々は,新規・外部分布(ood)入力を検出することにより,テスト時にヘテロシステティックあるいは入力固有の不確実性の概念を捉えることができることを示す。 本研究では,実世界のロボットマニピュレータが到達する2つの画像に基づくタスクについて,予測と制御実験の結果を示す。 本モデルでは, 入力劣化の程度が異なる場合に, 相補的不確実性のみを仮定するモデルと比較して, 精度が向上し, 制御性能が向上することを示した。

Learning or identifying dynamics from a sequence of high-dimensional observations is a difficult challenge in many domains, including reinforcement learning and control. The problem has recently been studied from a generative perspective through latent dynamics: high-dimensional observations are embedded into a lower-dimensional space in which the dynamics can be learned. Despite some successes, latent dynamics models have not yet been applied to real-world robotic systems where learned representations must be robust to a variety of perceptual confounds and noise sources not seen during training. In this paper, we present a method to jointly learn a latent state representation and the associated dynamics that is amenable for long-term planning and closed-loop control under perceptually difficult conditions. As our main contribution, we describe how our representation is able to capture a notion of heteroscedastic or input-specific uncertainty at test time by detecting novel or out-of-distribution (OOD) inputs. We present results from prediction and control experiments on two image-based tasks: a simulated pendulum balancing task and a real-world robotic manipulator reaching task. We demonstrate that our model produces significantly more accurate predictions and exhibits improved control performance, compared to a model that assumes homoscedastic uncertainty only, in the presence of varying degrees of input degradation.
翻訳日:2022-10-27 22:32:17 公開日:2022-07-11
# 制約のないシナリオにおける車両ナンバープレートの位置と認識に向けて

Towards End-to-end Car License Plate Location and Recognition in Unconstrained Scenarios ( http://arxiv.org/abs/2008.10916v2 )

ライセンス: Link先を確認
Shuxin Qin and Sijiang Liu(参考訳) 畳み込みニューラルネットワークの急速な発展により、車のナンバープレートの検出と認識の性能が大きく改善された。 それにもかかわらず、既存のほとんどのメソッドは検出と認識の問題を別々に解決し、実際のアプリケーションのデプロイを妨げる特定のシナリオに焦点を当てている。 これらの課題を克服するために,ライセンスプレートの検出と認識を同時に行うための効率的かつ正確な枠組みを提案する。 軽量で統一されたディープニューラルネットワークで、エンドツーエンドに最適化され、リアルタイムに動作する。 具体的には、アンカーフリー方式を採用して、対象領域の特徴を抽出・修正するために使用するライセンスプレートのバウンディングボックスと4つのコーナーを効率的に検出する。 次に、セグメンテーションなしで文字の特徴をさらに抽出するために、新しい畳み込みニューラルネットワークブランチを設計する。 最後に、認識タスクをシーケンスラベリング問題として扱い、コネクタリスト時間分類(CTC)により直接解決する。 様々な条件下で異なるシナリオから収集された画像を含むいくつかの公開データセットが評価のために選択される。 実験の結果,提案手法は従来の最先端手法よりも速度と精度において有意に優れていた。

Benefiting from the rapid development of convolutional neural networks, the performance of car license plate detection and recognition has been largely improved. Nonetheless, most existing methods solve detection and recognition problems separately, and focus on specific scenarios, which hinders the deployment for real-world applications. To overcome these challenges, we present an efficient and accurate framework to solve the license plate detection and recognition tasks simultaneously. It is a lightweight and unified deep neural network, that can be optimized end-to-end and work in real-time. Specifically, for unconstrained scenarios, an anchor-free method is adopted to efficiently detect the bounding box and four corners of a license plate, which are used to extract and rectify the target region features. Then, a novel convolutional neural network branch is designed to further extract features of characters without segmentation. Finally, the recognition task is treated as sequence labeling problems, which are solved by Connectionist Temporal Classification (CTC) directly. Several public datasets including images collected from different scenarios under various conditions are chosen for evaluation. Experimental results indicate that the proposed method significantly outperforms the previous state-of-the-art methods in both speed and precision.
翻訳日:2022-10-25 03:00:08 公開日:2022-07-11
# 離散アクティブ推論による報酬最大化

Reward Maximisation through Discrete Active Inference ( http://arxiv.org/abs/2009.08111v4 )

ライセンス: Link先を確認
Lancelot Da Costa, Noor Sajid, Thomas Parr, Karl Friston, Ryan Smith(参考訳) アクティブ推論(active inference)は、生物および人工エージェントの振る舞いをモデル化するための確率的枠組みであり、自由エネルギーの最小化の原理に由来する。 近年、このフレームワークは報酬の最大化を目標とする様々な状況にうまく適用され、代替手法に匹敵する、時には優れたパフォーマンスを提供する。 本稿では,アクティブ推論エージェントが報酬を最大化するのに最適な行動を行う方法と方法を示すことにより,報酬の最大化とアクティブ推論の関係を明らかにする。 具体的には,モデルに基づく強化学習と制御に対するいくつかのアプローチを基礎としたベルマン方程式の最適解を,能動推論が生成する条件を示す。 部分的に観測されたマルコフ決定過程において、標準能動推論スキームは1の計画地平線に対してベルマン最適作用を生成することができるが、それ以上ではない。 対照的に、最近開発された再帰的能動推論スキーム(sophisticated inference)は、任意の有限時間軸上のベルマン最適作用を生成することができる。 我々は,この分析を,能動推論と強化学習の幅広い関係に関する議論に付加する。

Active inference is a probabilistic framework for modelling the behaviour of biological and artificial agents, which derives from the principle of minimising free energy. In recent years, this framework has successfully been applied to a variety of situations where the goal was to maximise reward, offering comparable and sometimes superior performance to alternative approaches. In this paper, we clarify the connection between reward maximisation and active inference by demonstrating how and when active inference agents perform actions that are optimal for maximising reward. Precisely, we show the conditions under which active inference produces the optimal solution to the Bellman equation--a formulation that underlies several approaches to model-based reinforcement learning and control. On partially observed Markov decision processes, the standard active inference scheme can produce Bellman optimal actions for planning horizons of 1, but not beyond. In contrast, a recently developed recursive active inference scheme (sophisticated inference) can produce Bellman optimal actions on any finite temporal horizon. We append the analysis with a discussion of the broader relationship between active inference and reinforcement learning.
翻訳日:2022-10-17 12:04:44 公開日:2022-07-11
# TensorBNN:Tensorflowを用いたニューラルネットワークのベイズ推論

TensorBNN: Bayesian Inference for Neural Networks using Tensorflow ( http://arxiv.org/abs/2009.14393v3 )

ライセンス: Link先を確認
Braden Kronheim, Michelle Kuchera, and Harrison Prosper(参考訳) TensorBNNはTensorFlowをベースにした新しいパッケージで、現代のニューラルネットワークモデルにベイズ推論を実装している。 ニューラルネットワークモデルパラメータの後方密度は、ハミルトンモンテカルロを用いてサンプリングされた点雲として表される。 TensorBNNパッケージはTensorFlowのアーキテクチャとトレーニング機能を活用し、トレーニングと予測の段階でモダンなグラフィックス処理ユニット(GPU)を使用することができる。

TensorBNN is a new package based on TensorFlow that implements Bayesian inference for modern neural network models. The posterior density of neural network model parameters is represented as a point cloud sampled using Hamiltonian Monte Carlo. The TensorBNN package leverages TensorFlow's architecture and training features as well as its ability to use modern graphics processing units (GPU) in both the training and prediction stages.
翻訳日:2022-10-13 00:20:37 公開日:2022-07-11
# 複雑系のシミュレーションのための高精度サロゲートの効率的な学習

Efficient Learning of Accurate Surrogates for Simulations of Complex Systems ( http://arxiv.org/abs/2207.12855v1 )

ライセンス: Link先を確認
A. Diaw, M. McKerns, I. Sagert, L. G. Stanton, M. S. Murillo(参考訳) 機械学習の手法は、複雑な物理モデルのための計算量的に安価なサロゲートを構築するためにますます使われている。 これらのサロゲートの予測能力は、データがノイズ、スパース、時間に依存しない場合に発生する。 将来的なモデル評価の有効な予測を提供するサロゲートの発見に関心があるので,最適化型サンプリングによるオンライン学習手法を提案する。 この方法は現在のアプローチよりも2つの利点がある。 まず、モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。 第二に、新しいモデルの評価の後、サロゲートがテストされ、"score" が有効しきい値を下回れば "retrained" (更新) される。 ベンチマーク関数のテストにより、オプティマイザ指向のサンプリングは、スコアリング基準が全体的な精度を好む場合でも、局所的極端の精度の点で従来のサンプリング手法を上回っていることが分かる。 本手法を核物質のシミュレーションに適用し,核状態方程式の高精度なサロゲートを,いくつかのモデル評価を用いて高精度な計算から確実に自動生成できることを実証する。

Machine learning methods are increasingly used to build computationally inexpensive surrogates for complex physical models. The predictive capability of these surrogates suffers when data are noisy, sparse, or time-dependent. As we are interested in finding a surrogate that provides valid predictions of any potential future model evaluations, we introduce an online learning method empowered by optimizer-driven sampling. The method has two advantages over current approaches. First, it ensures that all turning points on the model response surface are included in the training data. Second, after any new model evaluations, surrogates are tested and "retrained" (updated) if the "score" drops below a validity threshold. Tests on benchmark functions reveal that optimizer-directed sampling generally outperforms traditional sampling methods in terms of accuracy around local extrema, even when the scoring metric favors overall accuracy. We apply our method to simulations of nuclear matter to demonstrate that highly accurate surrogates for the nuclear equation of state can be reliably auto-generated from expensive calculations using a few model evaluations.
翻訳日:2022-07-31 14:44:07 公開日:2022-07-11
# LIP:有意義な音声合成のための軽量インテリジェントプリプロセッサ

LIP: Lightweight Intelligent Preprocessor for meaningful text-to-speech ( http://arxiv.org/abs/2207.07118v1 )

ライセンス: Link先を確認
Harshvardhan Anand, Nansi Begam, Richa Verma, Sourav Ghosh, Harichandana B.S.S, Sumit Kumar(参考訳) 既存のTTS (Text-to-Speech) システムは、PII (Personal Identible Information) を持つメールから、絵文字や句読点のあるテキストメッセージへのメッセージを読む必要がある。 世界のオンライン人口の92%が毎日100億以上の絵文字を送信している。 プリプロセッサの欠如は、句読点やエモティコンのようなインフォグラフィックを含むメッセージを読み取るのに繋がる。 この問題は、メッセージング、sns(social networking site)インタラクションなど、現実世界のコミュニケーションで非常に一般的な句読点/絵文字の連続的なシーケンスがある場合、さらに悪化する。 本研究では,既存のTSシステムに下流に渡される前に,メッセージの可読性を高める軽量なインテリジェントプリプロセッサ(LIP)を導入することを目的とする。 我々は,テキストの可読性を向上させるためのプリプロセッサの一部として,縮小の増大,誓い言葉の検閲,piiのマスキングを含む複数のサブモジュールを提案する。 メモリフットプリントがわずか3.55MBで、最大50文字のテキストで4msの推論時間を持つため、我々のソリューションはリアルタイムデプロイメントに適している。 この研究は、オープン・インディペンデント・サーベイでベンチマークを試み、その結果、標準のTSエンジンと比較して、LIPを有効にしたTSエンジンに対して76.5%の好意を示す。

Existing Text-to-Speech (TTS) systems need to read messages from the email which may have Personal Identifiable Information (PII) to text messages that can have a streak of emojis and punctuation. 92% of the world's online population use emoji with more than 10 billion emojis sent everyday. Lack of preprocessor leads to messages being read as-is including punctuation and infographics like emoticons. This problem worsens if there is a continuous sequence of punctuation/emojis that are quite common in real-world communications like messaging, Social Networking Site (SNS) interactions, etc. In this work, we aim to introduce a lightweight intelligent preprocessor (LIP) that can enhance the readability of a message before being passed downstream to existing TTS systems. We propose multiple sub-modules including: expanding contraction, censoring swear words, and masking of PII, as part of our preprocessor to enhance the readability of text. With a memory footprint of only 3.55 MB and inference time of 4 ms for up to 50-character text, our solution is suitable for real-time deployment. This work being the first of its kind, we try to benchmark with an open independent survey, the result of which shows 76.5% preference towards LIP enabled TTS engine as compared to standard TTS.
翻訳日:2022-07-24 11:37:47 公開日:2022-07-11
# (参考訳) 深部CNNに基づく視覚に基づく低コストハンドジェスチャ認識システムによるヒューマンマシンインタフェースの設計

Design of Human Machine Interface through vision-based low-cost Hand Gesture Recognition system based on deep CNN ( http://arxiv.org/abs/2207.03112v2 )

ライセンス: CC BY 4.0
Abir Sen, Tapas Kumar Mishra and Ratnakar Dash(参考訳) 本稿では,リアルタイムなハンドジェスチャ認識システムに基づくヒューマンコンピュータインタフェース(hci)を提案する。 本システムは,(1)手検出,(2)ジェスチャーセグメンテーション,(3)手動学習による6つの事前学習CNNモデルの使用,(4)対話型ヒューマンマシンインタフェースの構築,(5)ジェスチャー制御仮想マウスの開発,(6)手動運動の滑らかさの向上に基づく手動位置推定のためのカルマンフィルタの使用,の6段階からなる。 6つの事前訓練された畳み込みニューラルネットワーク(CNN)モデル(VGG16、VGG19、ResNet50、ResNet101、Inception-V1、MobileNet-V1)が手ジェスチャー画像の分類に使用されている。 モデルパフォーマンスを評価するために、3つのマルチクラスデータセット(2つのパブリックデータセットと1つのカスタムデータセット)が使用されている。 モデルの性能を考慮すると、Inception-V1は他の5つの事前学習モデルと比較して、精度、精度、リコール、Fスコア値の分類性能が著しく向上していることが観察されている。 ジェスチャー認識システムは、マルチメディアアプリケーション(VLCプレーヤー、オーディオプレーヤー、ファイル管理、2D Super-Mario-Brosゲームなど)をリアルタイムでカスタマイズされたジェスチャーコマンドで制御するために拡張され、使用される。 このシステムの平均速度は35fps (秒単位のフレーム)に達し、リアルタイムシナリオの要件を満たす。

In this work, a real-time hand gesture recognition system-based human-computer interface (HCI) is presented. The system consists of six stages: (1) hand detection, (2) gesture segmentation, (3) use of six pre-trained CNN models by using the transfer-learning method, (4) building an interactive human-machine interface, (5) development of a gesture-controlled virtual mouse, (6) use of Kalman filter to estimate the hand position, based on that the smoothness of the motion of pointer is improved. Six pre-trained convolutional neural network (CNN) models (VGG16, VGG19, ResNet50, ResNet101, Inception-V1, and MobileNet-V1) have been used to classify hand gesture images. Three multi-class datasets (two publicly and one custom) have been used to evaluate the model performances. Considering the models' performances, it has been observed that Inception-V1 has significantly shown a better classification performance compared to the other five pre-trained models in terms of accuracy, precision, recall, and F-score values. The gesture recognition system is expanded and used to control multimedia applications (like VLC player, audio player, file management, playing 2D Super-Mario-Bros game, etc.) with different customized gesture commands in real-time scenarios. The average speed of this system has reached 35 fps (frame per seconds), which meets the requirements for the real-time scenario.
翻訳日:2022-07-16 10:56:22 公開日:2022-07-11
# (参考訳) クラスパス分解による等変表現学習

Equivariant Representation Learning via Class-Pose Decomposition ( http://arxiv.org/abs/2207.03116v2 )

ライセンス: CC BY 4.0
Giovanni Luca Marchetti, Gustaf Tegn\'er, Anastasiia Varava, Danica Kragic(参考訳) データの対称性に同値な表現を学習するための一般的な方法を提案する。 我々の中心的な考えは、不変因子と対称性群自身で潜在空間を分解することである。 コンポーネントは、それぞれ固有のデータクラスとポーズに意味的に対応します。 学習者は自己教師され、相対対称性情報に基づいてこれらの意味を推測する。 このアプローチは群論の理論的結果によって動機付けられ、損失のない、解釈可能で、絡み合った表現を保証する。 種々の対称性を持つデータセットを含む実験を通して、実証的研究を行う。 その結果,我々の表現はデータの幾何を捉え,他の等変表現学習フレームワークよりも優れていた。

We introduce a general method for learning representations that are equivariant to symmetries of data. Our central idea is to decompose the latent space in an invariant factor and the symmetry group itself. The components semantically correspond to intrinsic data classes and poses respectively. The learner is self-supervised and infers these semantics based on relative symmetry information. The approach is motivated by theoretical results from group theory and guarantees representations that are lossless, interpretable and disentangled. We provide an empirical investigation via experiments involving datasets with a variety of symmetries. Results show that our representations capture the geometry of data and outperform other equivariant representation learning frameworks.
翻訳日:2022-07-16 10:37:08 公開日:2022-07-11
# 干渉制限超信頼・低遅延通信:グラフニューラルネットワークか確率幾何学か?

Interference-Limited Ultra-Reliable and Low-Latency Communications: Graph Neural Networks or Stochastic Geometry? ( http://arxiv.org/abs/2207.06918v1 )

ライセンス: Link先を確認
Yuhong Liu, Changyang She, Yi Zhong, Wibowo Hardjawana, Fu-Chun Zheng, and Branka Vucetic(参考訳) 本稿では、干渉制限無線ネットワークにおける高信頼・低レイテンシ通信(URLLC)のQoS(Quality-of-Service)を改善することを目的とする。 チャネルコヒーレンス時間内で時間的多様性を得るために,まず干渉電力をランダム化するランダム反復方式を提案する。 次に,各パケットのリザーブドスロット数と繰り返し回数を最適化し,URLLCを達成できないユーザの比率として定義されたQoS違反確率を最小化する。 本研究では,繰り返しスキームを表現するためにランダムエッジグラフニューラルネットワーク (REGNN) を構築し,モデルのない教師なし学習手法を開発した。 対称なシナリオで確率幾何学を用いてQoS違反確率を解析し、モデルに基づくExhaustive Search (ES) 法を適用して最適解を求める。 シミュレーションの結果,対称シナリオでは,モデルフリー学習法とモデルベースes法で達成されたqos違反確率はほぼ同じであることがわかった。 より一般的なシナリオでは、カスケードされたREGNNは、異なるスケール、ネットワークトポロジ、セル密度、周波数再利用係数を持つ無線ネットワークにおいて非常によく一般化される。 モデルミスマッチの存在下で、モデルベースのESメソッドよりも優れています。

In this paper, we aim to improve the Quality-of-Service (QoS) of Ultra-Reliability and Low-Latency Communications (URLLC) in interference-limited wireless networks. To obtain time diversity within the channel coherence time, we first put forward a random repetition scheme that randomizes the interference power. Then, we optimize the number of reserved slots and the number of repetitions for each packet to minimize the QoS violation probability, defined as the percentage of users that cannot achieve URLLC. We build a cascaded Random Edge Graph Neural Network (REGNN) to represent the repetition scheme and develop a model-free unsupervised learning method to train it. We analyze the QoS violation probability using stochastic geometry in a symmetric scenario and apply a model-based Exhaustive Search (ES) method to find the optimal solution. Simulation results show that in the symmetric scenario, the QoS violation probabilities achieved by the model-free learning method and the model-based ES method are nearly the same. In more general scenarios, the cascaded REGNN generalizes very well in wireless networks with different scales, network topologies, cell densities, and frequency reuse factors. It outperforms the model-based ES method in the presence of the model mismatch.
翻訳日:2022-07-15 14:53:43 公開日:2022-07-11
# 確率的機能解析と多レベルベクトル場異常検出

Stochastic Functional Analysis and Multilevel Vector Field Anomaly Detection ( http://arxiv.org/abs/2207.06229v1 )

ライセンス: Link先を確認
Julio E Castrillon-Candas and Mark Kon(参考訳) 大規模ベクトル場データセットは、多くの応用分野において、マルチスペクトル光学およびレーダセンサーや現代のマルチモーダルMRIデータに共通している。 本稿では,多バンドベクトル場データを持つ領域を横断する名目確率行動の共分散構造に基づく異常検出のための新しい確率関数解析手法を提案する。 このようなランダムフィールドデータに最適なベクトル場 Karhunen-Loeve (KL) 展開を適用する。 一連の多階直交汎関数部分空間は、kl拡大から適応した領域の幾何学から構成される。 マルチレベルベースでランダムフィールドの投影を調べることで検出を行う。 異常は局所的および大域的情報に基づいて適切なノルム空間で定量化することができる。 さらに、信頼できる仮説テストは、データの確率分布に関する事前の仮定を必要としない制御可能な分布で形成される。 共分散関数のみが必要であるため、見積もりがかなり簡単になる。 さらに、このアプローチは情報を失うことなく確率ベクトルに基づく異常の融合を可能にする。 本手法は,アマゾン林における森林破壊と劣化の重要な問題に適用できる。 これは複雑な非単調な過程であり、森林は劣化し回復することができる。 この問題は、現在のマスキングアルゴリズムでは除去が難しい雲の存在によってさらに複雑になる。 センチネル2からのマルチスペクトル衛星データを用いて多レベルフィルタを構築し、異常を森林の初期状態からの逸脱として処理する。 森林異常は、頑健な仮説テストで定量化され、雲の覆いのような偽変種と区別される。 提案手法は,複数の帯域のデータをベクトル化コンプレックスで使用するという利点を示し,スカラーベースの手法よりも優れた異常検出を実現する。

Massive vector field datasets are common in multi-spectral optical and radar sensors and modern multimodal MRI data, among many other areas of application. In this paper we develop a novel stochastic functional analysis approach for detecting anomalies based on the covariance structure of nominal stochastic behavior across a domain with multi-band vector field data. An optimal vector field Karhunen-Loeve (KL) expansion is applied to such random field data. A series of multilevel orthogonal functional subspaces is constructed from the geometry of the domain, adapted from the KL expansion. Detection is achieved by examining the projection of the random field on the multilevel basis. The anomalies can be quantified in suitable normed spaces based on local and global information. In addition, reliable hypothesis tests are formed with controllable distributions that do not require prior assumptions on probability distributions of the data. Only the covariance function is needed, which makes for significantly simpler estimates. Furthermore this approach allows stochastic vector-based fusion of anomalies without any loss of information. The method is applied to the important problem of deforestation and degradation in the Amazon forest. This is a complex non-monotonic process, as forests can degrade and recover. This particular problem is further compounded by the presence of clouds that are hard to remove with current masking algorithms. Using multi-spectral satellite data from Sentinel 2, the multilevel filter is constructed and anomalies are treated as deviations from the initial state of the forest. Forest anomalies are quantified with robust hypothesis tests and distinguished from false variations such as cloud cover. Our approach shows the advantage of using multiple bands of data in a vectorized complex, leading to better anomaly detection beyond the capabilities of scalar-based methods.
翻訳日:2022-07-14 14:19:42 公開日:2022-07-11
# FD-GATDR : EHRを用いた医師推薦のためのフェデレーション型学習グラフアテンションネットワーク

FD-GATDR: A Federated-Decentralized-Learning Graph Attention Network for Doctor Recommendation Using EHR ( http://arxiv.org/abs/2207.05750v1 )

ライセンス: Link先を確認
Luning Bi, Yunlong Wang, Fan Zhang, Zhuqing Liu, Yong Cai, Emily Zhao(参考訳) 過去10年間、ビッグデータ技術の発展に伴い、患者情報は電子健康記録(ehrs)として保存されるようになった。 これらのデータを活用することで、様々な医師推薦システムが提案されている。 典型的には、これらの研究はEHRデータを平坦な構造で処理し、そこでは各遭遇を非秩序な特徴集合として扱う。 それでも,クレームに格納されたサービスシーケンスのような異質な構造化情報は無視されない。 本稿では,異種グラフアテンションネットワークを用いて患者と医師の潜在的なつながりを再構築するための時間埋め込み型医師レコメンデーションシステムを提案する。 また,交差病院における患者データ共有のプライバシ問題に対処するために,最小化最適化モデルに基づく統合分散分散学習手法を提案する。 グラフベースのレコメンデーションシステムは、EHRデータセット上で検証されている。 ベースラインモデルと比較して,提案手法はAUCを最大6.2%改善する。 提案するフェデレーションベースアルゴリズムは, 架空の核融合センターの性能だけでなく, O(1/T)の収束率も享受する。

In the past decade, with the development of big data technology, an increasing amount of patient information has been stored as electronic health records (EHRs). Leveraging these data, various doctor recommendation systems have been proposed. Typically, such studies process the EHR data in a flat-structured manner, where each encounter was treated as an unordered set of features. Nevertheless, the heterogeneous structured information such as service sequence stored in claims shall not be ignored. This paper presents a doctor recommendation system with time embedding to reconstruct the potential connections between patients and doctors using heterogeneous graph attention network. Besides, to address the privacy issue of patient data sharing crossing hospitals, a federated decentralized learning method based on a minimization optimization model is also proposed. The graph-based recommendation system has been validated on a EHR dataset. Compared to baseline models, the proposed method improves the AUC by up to 6.2%. And our proposed federated-based algorithm not only yields the fictitious fusion center's performance but also enjoys a convergence rate of O(1/T).
翻訳日:2022-07-14 12:51:23 公開日:2022-07-11
# PDEのためのニューロシンボリック溶液について

On NeuroSymbolic Solutions for PDEs ( http://arxiv.org/abs/2207.06240v1 )

ライセンス: Link先を確認
Ritam Majumdar, Vishal Jadhav, Anirudh Deodhar, Shirish Karande, Lovekesh Vig(参考訳) 物理情報ニューラルネットワーク(PINN)はPDEを数値的に解く代替手法として広く普及している。 経験的な成功にもかかわらず、勾配降下を伴うこのような制約下でのトレーニングの収束特性の理解をまだ構築中です。 明示的な帰納バイアスがなければ、ニューラルネットワークはサンプルの効率的な方法でシンプルでよく知られた関数の学習や近似に苦労することが知られている。 したがって、わずかなコロケーション点から誘導される数値近似は、領域全体にわたって一般化できない。 一方、記号形式は優れた一般化を示し、解釈性は有用な副産物である。 しかし、記号近似は簡潔かつ正確であるのに苦労することがある。 そこで本研究では、PDEの解を近似するためのNeuroSymbolicアプローチについて検討する。 我々のアプローチはいくつかの単純なケースで有効である。 非線形結合型PDEシステムによって制御される複数の物理量を持つコヴァズネイ流れについて, ナヴィエストークスに対する我々のアプローチの有効性について述べる。 ドメイン分割は、PINNが複雑な関数を近似するのに役立つ一般的なトリックになりつつある。 我々は神経シンボリックアプローチがこのような複雑な機能にも役立つことを観察する。 時間的に変化する2次元バーガー方程式に対するドメイン分割支援ニューロシンボリックアプローチの実証を行った。 最後に,パラメータ化されたPDEに対してPINNを解決し,初期境界条件を変更し,PDEの係数を変化させるシナリオについて考察する。 Hypernetworksはこれらの課題を克服することを約束している。 速度の利点と精度の向上を両立できるHyper-NeuroSymbolic Networksを設計できることを示す。 ニューロシンボリック近似は、ニューロシンボリック近似やシンボリック近似よりも一貫して1-2等級の等級である。

Physics Informed Neural Networks (PINNs) have gained immense popularity as an alternate method for numerically solving PDEs. Despite their empirical success we are still building an understanding of the convergence properties of training on such constraints with gradient descent. It is known that, in the absence of an explicit inductive bias, Neural Networks can struggle to learn or approximate even simple and well known functions in a sample efficient manner. Thus the numerical approximation induced from few collocation points may not generalize over the entire domain. Meanwhile, a symbolic form can exhibit good generalization, with interpretability as a useful byproduct. However, symbolic approximations can struggle to simultaneously be concise and accurate. Therefore in this work we explore a NeuroSymbolic approach to approximate the solution for PDEs. We observe that our approach work for several simple cases. We illustrate the efficacy of our approach on Navier Stokes: Kovasznay flow where there are multiple physical quantities of interest governed with non-linear coupled PDE system. Domain splitting is now becoming a popular trick to help PINNs approximate complex functions. We observe that a NeuroSymbolic approach can help such complex functions as well. We demonstrate Domain-splitting assisted NeuroSymbolic approach on a temporally varying two-dimensional Burger's equation. Finally we consider the scenario where PINNs have to be solved for parameterized PDEs, for changing Initial-Boundary Conditions and changes in the coefficient of the PDEs. Hypernetworks have shown to hold promise to overcome these challenges. We show that one can design Hyper-NeuroSymbolic Networks which can combine the benefits of speed and increased accuracy. We observe that that the NeuroSymbolic approximations are consistently 1-2 order of magnitude better than just the neural or symbolic approximations.
翻訳日:2022-07-14 12:50:47 公開日:2022-07-11
# (参考訳) 距離を保つ: 機械学習モニタリングにおけるサンプリングと距離閾値の決定

Keep your Distance: Determining Sampling and Distance Thresholds in Machine Learning Monitoring ( http://arxiv.org/abs/2207.05078v1 )

ライセンス: CC BY 4.0
Al-Harith Farhad, Ioannis Sorokos, Andreas Schmidt, Mohammed Naveed Akram, Koorosh Aslansefat, Daniel Schneider(参考訳) 機械学習~(ML)は近年、様々なアプリケーションやドメインで有望な結果を提供している。 しかし、多くの場合、信頼性や安全性などの品質を確保する必要がある。 この目的のために重要なのは、MLコンポーネントがアプリケーションスコープに適した状況にデプロイされているかどうかを判断することだ。 環境がオープンで変動しているコンポーネント、例えば自動運転車で見られるコンポーネントにとって、MLコンポーネントのトレーニング対象からの距離を決定するために運用状況を監視することが重要である。 この距離が大きすぎると判断された場合、アプリケーションはMLコンポーネントの結果を信頼できないと判断し、代わりにヒューマン演算子入力を使用するような代替に切り替える。 SafeMLは、トレーニングと運用データセットの統計的テストに基づいた距離測定を使用して、このような監視を行うためのモデルに依存しないアプローチである。 safemlを適切に設定する上での制限には、適切な距離しきい値を決定するだけでなく、信頼できる距離情報を得るために必要な運用サンプル数を決定するための体系的なアプローチの欠如が含まれている。 本研究では,実用的な手法を提供し,よく知られた交通標識認識問題やcarlaオープンソース自動車シミュレータを用いた実例での使用例を示すことで,これらの制約に対処する。

Machine Learning~(ML) has provided promising results in recent years across different applications and domains. However, in many cases, qualities such as reliability or even safety need to be ensured. To this end, one important aspect is to determine whether or not ML components are deployed in situations that are appropriate for their application scope. For components whose environments are open and variable, for instance those found in autonomous vehicles, it is therefore important to monitor their operational situation to determine its distance from the ML components' trained scope. If that distance is deemed too great, the application may choose to consider the ML component outcome unreliable and switch to alternatives, e.g. using human operator input instead. SafeML is a model-agnostic approach for performing such monitoring, using distance measures based on statistical testing of the training and operational datasets. Limitations in setting SafeML up properly include the lack of a systematic approach for determining, for a given application, how many operational samples are needed to yield reliable distance information as well as to determine an appropriate distance threshold. In this work, we address these limitations by providing a practical approach and demonstrate its use in a well known traffic sign recognition problem, and on an example using the CARLA open-source automotive simulator.
翻訳日:2022-07-14 05:41:21 公開日:2022-07-11
# (参考訳) 人-物体相互作用検出のための骨格対応グラフ畳み込みネットワーク

A Skeleton-aware Graph Convolutional Network for Human-Object Interaction Detection ( http://arxiv.org/abs/2207.05733v1 )

ライセンス: CC BY 4.0
Manli Zhu, Edmond S. L. Ho and Hubert P. H. Shum(参考訳) 視覚シーンの包括的理解には,人間と物体の相互作用の検出が不可欠である。 特に、人間と物体の間の空間的つながりは、相互作用を推論するための重要な手がかりである。 そこで本研究では,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。 我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉える。 視覚的特徴と人間と物体のペアから得られる空間的特徴を融合させる。 さらに,オブジェクトの構造情報を保存し,人間とオブジェクトのインタラクション検出を容易にするために,新しい骨格ベースのオブジェクトキーポイント表現を提案する。 SGCN4HOIの性能は、公開ベンチマークV-COCOデータセットで評価される。 実験の結果,提案手法は最先端のポーズベースモデルよりも優れ,他のモデルと競合する性能が得られた。

Detecting human-object interactions is essential for comprehensive understanding of visual scenes. In particular, spatial connections between humans and objects are important cues for reasoning interactions. To this end, we propose a skeleton-aware graph convolutional network for human-object interaction detection, named SGCN4HOI. Our network exploits the spatial connections between human keypoints and object keypoints to capture their fine-grained structural interactions via graph convolutions. It fuses such geometric features with visual features and spatial configuration features obtained from human-object pairs. Furthermore, to better preserve the object structural information and facilitate human-object interaction detection, we propose a novel skeleton-based object keypoints representation. The performance of SGCN4HOI is evaluated in the public benchmark V-COCO dataset. Experimental results show that the proposed approach outperforms the state-of-the-art pose-based models and achieves competitive performance against other models.
翻訳日:2022-07-14 05:29:55 公開日:2022-07-11
# (参考訳) タスクフリー連続学習のための進化的混合モデル学習

Learning an evolved mixture model for task-free continual learning ( http://arxiv.org/abs/2207.05080v1 )

ライセンス: CC BY 4.0
Fei Ye and Adrian G. Bors(参考訳) 近年,従来の学習情報を忘れることなく,深層学習モデルで新たな知識を習得できることから,継続学習(CL)が注目されている。 しかし、既存の仕事の多くはタスクのアイデンティティと境界を知る必要があるが、現実の状況では現実的ではない。 本稿では,clにおいて,明示的なタスク情報を持たない非定常データストリーム上でモデルをトレーニングするタスクフリー連続学習(tfcl)という,より挑戦的で現実的な設定について述べる。 tfclに対処するために,データ分散シフトに対応するために,ネットワークアーキテクチャを動的に拡張した混合モデルを提案する。 本研究では,Hilbert Schmidt Independence Criterion (HSIC) を用いて,各混合モデルコンポーネントに格納されている知識と現在のメモリバッファとの確率距離を評価することで,この拡張機構を実装した。 さらに,メモリの多様性を保ちながらメモリ過負荷を回避するため,ストアドサンプルを選択的に削除する2つの簡単なドロップアウト機構を導入する。 実験により,提案手法が優れた性能を発揮することを示す。

Recently, continual learning (CL) has gained significant interest because it enables deep learning models to acquire new knowledge without forgetting previously learnt information. However, most existing works require knowing the task identities and boundaries, which is not realistic in a real context. In this paper, we address a more challenging and realistic setting in CL, namely the Task-Free Continual Learning (TFCL) in which a model is trained on non-stationary data streams with no explicit task information. To address TFCL, we introduce an evolved mixture model whose network architecture is dynamically expanded to adapt to the data distribution shift. We implement this expansion mechanism by evaluating the probability distance between the knowledge stored in each mixture model component and the current memory buffer using the Hilbert Schmidt Independence Criterion (HSIC). We further introduce two simple dropout mechanisms to selectively remove stored examples in order to avoid memory overload while preserving memory diversity. Empirical results demonstrate that the proposed approach achieves excellent performance.
翻訳日:2022-07-14 05:14:47 公開日:2022-07-11
# (参考訳) fire 2021におけるurduにおける偽ニュース検出に関する共通課題の概要

Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 ( http://arxiv.org/abs/2207.05133v1 )

ライセンス: CC BY 4.0
Maaz Amjad, Sabur Butt, Hamza Imam Amjad, Alisa Zhila, Grigori Sidorov, Alexander Gelbukh(参考訳) 偽ニュースの自動検出は現代世界では非常に重要な課題である。 本研究では、urdufake@fire2021と呼ばれる第2の共有タスクについて報告する。 共有タスクの目標は、特にウルドゥー語において、この重要な問題を解決する効率的な方法を考え出すことをコミュニティに動機付けることである。 このタスクは、与えられたニュース記事を実または偽のニュース記事としてラベル付けするバイナリ分類問題として提起される。 主催者は5つのドメインからなるニュースからなるデータセットを提供する。 (i)健康。 (ii)スポーツ (iii)ショービズ (iv)技術、及び (v)ビジネス、トレーニングとテストセットに分かれる。 トレーニングセットには1300の注釈付ニュース記事(750のリアルニュース、550のフェイクニュース)と300のニュース記事(200のリアルニュース、100の偽ニュース)が含まれている。 7カ国(中国、エジプト、イスラエル、インド、メキシコ、パキスタン、アラブ首長国連邦)の34チームがUrduFake@FIRE2021の共有タスクに参加した。 そのうち18チームが実験結果を提出し、そのうち11チームがテクニカルレポートを提出した。 参加者が提出した技術レポートでは、カウントベースのBoW機能からワードベクトル埋め込み、従来のSVMからBERTやRoBERTaなどのトランスフォーマーを含むさまざまなニューラルネットワークアーキテクチャまで、数多くの機械学習アルゴリズムの使用など、さまざまなデータ表現テクニックが実証された。 今年の競技では、ベストパフォーマンスシステムはF1-macroスコア0.679を獲得し、これは過去最高スコア0.907 F1-macroよりも低かった。 確かに、過去から現在までのトレーニングセットは、かなり重複しているが、今年提供されたテストセットは完全に異なる。

Automatic detection of fake news is a highly important task in the contemporary world. This study reports the 2nd shared task called UrduFake@FIRE2021 on identifying fake news detection in Urdu. The goal of the shared task is to motivate the community to come up with efficient methods for solving this vital problem, particularly for the Urdu language. The task is posed as a binary classification problem to label a given news article as a real or a fake news article. The organizers provide a dataset comprising news in five domains: (i) Health, (ii) Sports, (iii) Showbiz, (iv) Technology, and (v) Business, split into training and testing sets. The training set contains 1300 annotated news articles -- 750 real news, 550 fake news, while the testing set contains 300 news articles -- 200 real, 100 fake news. 34 teams from 7 different countries (China, Egypt, Israel, India, Mexico, Pakistan, and UAE) registered to participate in the UrduFake@FIRE2021 shared task. Out of those, 18 teams submitted their experimental results, and 11 of those submitted their technical reports, which is substantially higher compared to the UrduFake shared task in 2020 when only 6 teams submitted their technical reports. The technical reports submitted by the participants demonstrated different data representation techniques ranging from count-based BoW features to word vector embeddings as well as the use of numerous machine learning algorithms ranging from traditional SVM to various neural network architectures including Transformers such as BERT and RoBERTa. In this year's competition, the best performing system obtained an F1-macro score of 0.679, which is lower than the past year's best result of 0.907 F1-macro. Admittedly, while training sets from the past and the current years overlap to a large extent, the testing set provided this year is completely different.
翻訳日:2022-07-14 05:03:46 公開日:2022-07-11
# (参考訳) 知識グラフによる効果的なマルチラベル認識攻撃に向けて

Towards Effective Multi-Label Recognition Attacks via Knowledge Graph Consistency ( http://arxiv.org/abs/2207.05137v1 )

ライセンス: CC BY 4.0
Hassan Mahmood, Ehsan Elhamifar(参考訳) 画像認識の現実的な応用の多くは、画像中のすべてのラベルを見つけることが目的であるマルチラベル学習を必要とする。 したがって、このようなシステムの逆画像摂動に対する堅牢性は非常に重要である。 しかし、近年の敵対的攻撃に関する大規模な研究にもかかわらず、既存の作品の範囲は主に、各画像が単一のラベルを含むマルチクラス設定に限られている。 本稿では,マルチラベル設定に対する多クラス攻撃のナイーブな拡張は,知識グラフによってモデル化されたラベル関係に違反し,一貫性検証スキームを用いて検出できることを示す。 そこで我々は,ラベル階層を尊重しながら,所望のターゲットセットを誤分類する小さな画像摂動を探索するグラフ一貫性多ラベル攻撃フレームワークを提案する。 2つのデータセットを広範囲に実験し、複数のマルチラベル認識モデルを用いて、本手法がナイーブなマルチラベル摂動とは異なり、ナレッジグラフに整合したモデル予測を生成できることを実証する。

Many real-world applications of image recognition require multi-label learning, whose goal is to find all labels in an image. Thus, robustness of such systems to adversarial image perturbations is extremely important. However, despite a large body of recent research on adversarial attacks, the scope of the existing works is mainly limited to the multi-class setting, where each image contains a single label. We show that the naive extensions of multi-class attacks to the multi-label setting lead to violating label relationships, modeled by a knowledge graph, and can be detected using a consistency verification scheme. Therefore, we propose a graph-consistent multi-label attack framework, which searches for small image perturbations that lead to misclassifying a desired target set while respecting label hierarchies. By extensive experiments on two datasets and using several multi-label recognition models, we show that our method generates extremely successful attacks that, unlike naive multi-label perturbations, can produce model predictions consistent with the knowledge graph.
翻訳日:2022-07-14 04:41:44 公開日:2022-07-11
# (参考訳) urdufake@fire2021:urduの偽ニュース識別に関する共有トラック

UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu ( http://arxiv.org/abs/2207.05144v1 )

ライセンス: CC BY 4.0
Maaz Amjad, Sabur Butt, Hamza Imam Amjad, Grigori Sidorov, Alisa Zhila, Alexander Gelbukh(参考訳) 本研究は,urdufake@fire2021と名づけられた,urdu言語の偽ニュース検出に関する2つ目のタスクについて報告する。 これは、与えられたニュース記事を2つのクラスに分類するタスクである二分分類問題である。 (i)本当のニュース、または (ii)偽ニュース。 この共有タスクでは、7つの異なる国(中国、エジプト、イスラエル、インド、メキシコ、パキスタン、uae)から34チームが参加登録し、18チームが実験結果を提出し、11チームが技術報告を提出した。 提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用した。 確率勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。

This study reports the second shared task named as UrduFake@FIRE2021 on identifying fake news detection in Urdu language. This is a binary classification problem in which the task is to classify a given news article into two classes: (i) real news, or (ii) fake news. In this shared task, 34 teams from 7 different countries (China, Egypt, Israel, India, Mexico, Pakistan, and UAE) registered to participate in the shared task, 18 teams submitted their experimental results and 11 teams submitted their technical reports. The proposed systems were based on various count-based features and used different classifiers as well as neural network architectures. The stochastic gradient descent (SGD) algorithm outperformed other classifiers and achieved 0.679 F-score.
翻訳日:2022-07-14 04:28:44 公開日:2022-07-11
# (参考訳) 特徴アンサンブル再訪による単一画像の雑音化

Denoising single images by feature ensemble revisited ( http://arxiv.org/abs/2207.05176v1 )

ライセンス: CC BY 4.0
Masud An Nur Islam Fahim, Nazmus Saqib, Shafkat Khan Siam, Ho Yub Jung(参考訳) 多くのコンピュータビジョンサブドメインにおいて、画像の切り離しは依然として難しい問題である。 最近の研究では、教師付き設定で大幅な改善が可能であることが示されている。 しかし、空間的忠実さや漫画のような平滑化といった問題はほとんど解決されず、決定的に見落とされたままである。 本研究は,上記の問題に対処する分別問題に対して,単純かつ効率的なアーキテクチャを提案する。 提案アーキテクチャでは, 長い, 深いカスケード接続ではなく, モジュール結合の概念を再検討し, 与えられた画像のよりクリーンな近似を復元する。 異なるモジュールが多目的表現をキャプチャでき、連結表現は低レベル画像復元のためのよりリッチな部分空間を生成する。 提案するアーキテクチャのパラメータ数は、以前のネットワークの大部分よりも小さく、現在の最先端のネットワークよりも大幅に改善されている。

Image denoising is still a challenging issue in many computer vision sub-domains. Recent studies show that significant improvements are made possible in a supervised setting. However, few challenges, such as spatial fidelity and cartoon-like smoothing remain unresolved or decisively overlooked. Our study proposes a simple yet efficient architecture for the denoising problem that addresses the aforementioned issues. The proposed architecture revisits the concept of modular concatenation instead of long and deeper cascaded connections, to recover a cleaner approximation of the given image. We find that different modules can capture versatile representations, and concatenated representation creates a richer subspace for low-level image restoration. The proposed architecture's number of parameters remains smaller than the number for most of the previous networks and still achieves significant improvements over the current state-of-the-art networks.
翻訳日:2022-07-14 04:23:52 公開日:2022-07-11
# (参考訳) リコメンデーションとトレンド分析を可能にする知識グラフ誘導:コーポレートリサーチコミュニティのユースケース

Knowledge Graph Induction enabling Recommending and Trend Analysis: A Corporate Research Community Use Case ( http://arxiv.org/abs/2207.05188v1 )

ライセンス: CC BY 4.0
Nandana Mihindukulasooriya, Mike Sava, Gaetano Rossiello, Md Faisal Mahbub Chowdhury, Irene Yachbes, Aditya Gidh, Jillian Duckwitz, Kovit Nisar, Michael Santos, Alfio Gliozzo(参考訳) 研究部門は、組織におけるイノベーションを推進する重要な役割を担っている。 洞察の収集、トレンドの追跡、新しい研究の活発化、そして定式化戦略は、ベロシティとボリュームの両方で情報量が増えるにつれて、研究者と幹部の両方にとってますます困難になりつつある。 本稿では、企業研究コミュニティであるibm researchが、セマンティックウェブ技術を用いて、研究プロジェクト、学術論文、データセット、成果、認識に関するコミュニティのさまざまなアプリケーションを統合することで得られた構造化データとテキストデータの両方から統一された知識グラフを誘導する方法のユースケースを提案する。 アプリケーション開発者にとってKnowledge Graphをより使いやすくするために、インジェクションされた知識を活用するための共通パターンのセットを特定し、それらをAPIとして公開しました。 これらのパターンは、最も価値のあるユースケースや、緩和すべきユーザの痛点を特定するユーザ調査から生まれました。 ビジネス利用のためのレコメンデーションと分析の2つのシナリオを概説する。 これらのシナリオを詳しく議論し、特にエンティティレコメンデーションに関する実証的な評価を提供する。 この作業で得られた方法論や教訓は、同様の課題に直面している他の組織にも適用できます。

A research division plays an important role of driving innovation in an organization. Drawing insights, following trends, keeping abreast of new research, and formulating strategies are increasingly becoming more challenging for both researchers and executives as the amount of information grows in both velocity and volume. In this paper we present a use case of how a corporate research community, IBM Research, utilizes Semantic Web technologies to induce a unified Knowledge Graph from both structured and textual data obtained by integrating various applications used by the community related to research projects, academic papers, datasets, achievements and recognition. In order to make the Knowledge Graph more accessible to application developers, we identified a set of common patterns for exploiting the induced knowledge and exposed them as APIs. Those patterns were born out of user research which identified the most valuable use cases or user pain points to be alleviated. We outline two distinct scenarios: recommendation and analytics for business use. We will discuss these scenarios in detail and provide an empirical evaluation on entity recommendation specifically. The methodology used and the lessons learned from this work can be applied to other organizations facing similar challenges.
翻訳日:2022-07-14 04:12:47 公開日:2022-07-11
# (参考訳) 道路側LiDARを用いた実時間・ロバスト3次元物体検出

Real-Time And Robust 3D Object Detection with Roadside LiDARs ( http://arxiv.org/abs/2207.05200v1 )

ライセンス: CC BY 4.0
Walter Zimmer, Jialong Wu, Xingcheng Zhou, Alois C. Knoll(参考訳) 本研究は,道路沿いのLiDARを用いた環境の3次元認識に着目し,自動運転における課題に対処することを目的とする。 道路沿いのLiDARにおける交通参加者をリアルタイムに検出できる3次元物体検出モデルを設計する。 我々のモデルは既存の3D検出器をベースラインとして使用し、精度を向上させる。 提案するモジュールの有効性を証明するため、3つの異なる車両およびインフラデータセット上でモデルをトレーニングし評価する。 検知器のドメイン適応能力を示すため、中国からのインフラストラクチャデータセットでトレーニングし、ドイツで記録された異なるデータセットで転送学習を行う。 検出器内の各モジュールについていくつかの実験とアブレーションを行い, 推定速度が45 hz (22 ms) であるのに対し, モデルがベースラインを有意なマージンで上回っていることを示す。 当社のlidarベースの3dディテクターでは、スマートシティのアプリケーションを使って、より広い視点で、コネクテッドおよびオートマチックな車両を提供することができます。 道路脇のセンサーに接続された車両は、角の周りの他の車両に関する情報を得て、経路や操縦計画を改善し、道路交通の安全性を高めることができる。

This work aims to address the challenges in autonomous driving by focusing on the 3D perception of the environment using roadside LiDARs. We design a 3D object detection model that can detect traffic participants in roadside LiDARs in real-time. Our model uses an existing 3D detector as a baseline and improves its accuracy. To prove the effectiveness of our proposed modules, we train and evaluate the model on three different vehicle and infrastructure datasets. To show the domain adaptation ability of our detector, we train it on an infrastructure dataset from China and perform transfer learning on a different dataset recorded in Germany. We do several sets of experiments and ablation studies for each module in the detector that show that our model outperforms the baseline by a significant margin, while the inference speed is at 45 Hz (22 ms). We make a significant contribution with our LiDAR-based 3D detector that can be used for smart city applications to provide connected and automated vehicles with a far-reaching view. Vehicles that are connected to the roadside sensors can get information about other vehicles around the corner to improve their path and maneuver planning and to increase road traffic safety.
翻訳日:2022-07-14 03:59:29 公開日:2022-07-11
# (参考訳) サロゲートモデルベースツリーを用いたシェープ計算

Shapley Computations Using Surrogate Model-Based Trees ( http://arxiv.org/abs/2207.05214v1 )

ライセンス: CC BY 4.0
Zhipu Zhou, Jie Chen, Linwei Hu(参考訳) シェープリー関連技術は、その望ましい性質から、グローバルとローカルの両方の解釈ツールとして注目されている。 しかし、条件付き予測を用いた計算は計算コストがかかる。 文献で示唆される近似法には限界がある。 本稿では,Surrogateモデルを用いたShapleyとSHAPの値を条件付き期待値に基づいて計算する手法を提案する。 シミュレーション研究により,提案手法は精度の向上,グローバルシャプリー解釈とシェープ解釈の統合,しきい値化手法により実行時間と精度のトレードオフが可能となった。

Shapley-related techniques have gained attention as both global and local interpretation tools because of their desirable properties. However, their computation using conditional expectations is computationally expensive. Approximation methods suggested in the literature have limitations. This paper proposes the use of a surrogate model-based tree to compute Shapley and SHAP values based on conditional expectation. Simulation studies show that the proposed algorithm provides improvements in accuracy, unifies global Shapley and SHAP interpretation, and the thresholding method provides a way to trade-off running time and accuracy.
翻訳日:2022-07-14 03:43:05 公開日:2022-07-11
# (参考訳) 言語モデルは、何を知っているか(特に)知る

Language Models (Mostly) Know What They Know ( http://arxiv.org/abs/2207.05221v1 )

ライセンス: CC BY 4.0
Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield Dodds, Nova DasSarma, Eli Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage, Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec, Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom Brown, Jack Clark, Nicholas Joseph, Ben Mann, Sam McCandlish, Chris Olah, Jared Kaplan(参考訳) 言語モデルが自身の主張の有効性を評価し、どの質問に正しく答えられるかを予測することができるかどうかについて検討する。 まず、より大規模なモデルは、適切なフォーマットで提供されるとき、多種多様な選択と真/偽の質問に基づいてうまく校正されていることを示す。 このように,オープンエンドサンプリングタスクに対する自己評価を,まずモデルに回答の提案を依頼し,その回答が正しい確率「p(true)」を評価することで行うことができる。 様々なタスクでp(true)のパフォーマンス、キャリブレーション、スケーリングを奨励しているのがわかります。 自己評価のパフォーマンスは、モデルが特定の可能性の妥当性を予測する前に、モデルが自身のサンプルの多くを考慮できるようにすることでさらに向上します。 次に,質問に対する「私は知っている」確率である「P(IK)」を予測するためにモデルを訓練できるかどうかを,特定の回答に言及することなく検討する。 モデルはP(IK)を予測するのに優れ、新しいタスクではP(IK)の校正に苦労するが、タスクを部分的に一般化する。 予測されたP(IK)確率は、文脈における関連する情報源の存在や、数学的単語問題の解に対するヒントの存在により、適切に増加する。 これらの観察が、より正直なモデルのトレーニングと、モデルが人間の文章の模倣以外の目的に基づいて訓練される場合に、正直がいかに一般化するかを調査する基礎となることを願っている。

We study whether language models can evaluate the validity of their own claims and predict which questions they will be able to answer correctly. We first show that larger models are well-calibrated on diverse multiple choice and true/false questions when they are provided in the right format. Thus we can approach self-evaluation on open-ended sampling tasks by asking models to first propose answers, and then to evaluate the probability "P(True)" that their answers are correct. We find encouraging performance, calibration, and scaling for P(True) on a diverse array of tasks. Performance at self-evaluation further improves when we allow models to consider many of their own samples before predicting the validity of one specific possibility. Next, we investigate whether models can be trained to predict "P(IK)", the probability that "I know" the answer to a question, without reference to any particular proposed answer. Models perform well at predicting P(IK) and partially generalize across tasks, though they struggle with calibration of P(IK) on new tasks. The predicted P(IK) probabilities also increase appropriately in the presence of relevant source materials in the context, and to the presence of hints towards the solution of mathematical word problems. We hope these observations lay the groundwork for training more honest models, and for investigating how honesty generalizes to cases where models are trained on objectives other than the imitation of human writing.
翻訳日:2022-07-14 03:35:24 公開日:2022-07-11
# (参考訳) ユーザ中心のタスク指向対話システムのブートストラップ

Bootstrapping a User-Centered Task-Oriented Dialogue System ( http://arxiv.org/abs/2207.05223v1 )

ライセンス: CC BY 4.0
Shijie Chen, Ziru Chen, Xiang Deng, Ashley Lewis, Lingbo Mo, Samuel Stevens, Zhen Wang, Xiang Yue, Tianshu Zhang, Yu Su, Huan Sun(参考訳) 本稿では,alexa prize taskbot challenge用に開発されたタスク指向対話システムtacobotを提案する。 TacoBotはユーザ中心の原則で設計されており、共同でアクセス可能な対話体験を提供することを目指している。 その目的に向けて、正確な言語理解、柔軟な対話管理、魅力的な応答生成を備える。 さらに、TacoBotは強力な検索エンジンと自動エンドツーエンドテストスイートによって支えられている。 TacoBotの開発をブートストラップとして、先進的なニューラルネットワーク処理モデルをトレーニングし、収集された実際の会話による対話体験を継続的に改善する一連のデータ拡張戦略を検討する。 準決勝でタコボットは平均3.55/5.0を記録した。

We present TacoBot, a task-oriented dialogue system built for the inaugural Alexa Prize TaskBot Challenge, which assists users in completing multi-step cooking and home improvement tasks. TacoBot is designed with a user-centered principle and aspires to deliver a collaborative and accessible dialogue experience. Towards that end, it is equipped with accurate language understanding, flexible dialogue management, and engaging response generation. Furthermore, TacoBot is backed by a strong search engine and an automated end-to-end test suite. In bootstrapping the development of TacoBot, we explore a series of data augmentation strategies to train advanced neural language processing models and continuously improve the dialogue experience with collected real conversations. At the end of the semifinals, TacoBot achieved an average rating of 3.55/5.0.
翻訳日:2022-07-14 03:33:57 公開日:2022-07-11
# (参考訳) 敵対的攻撃に対する連続学習の感受性

Susceptibility of Continual Learning Against Adversarial Attacks ( http://arxiv.org/abs/2207.05225v1 )

ライセンス: CC BY 4.0
Hikmat Khan, Pir Masoom Shah, Syed Farhan Alam Zaidi, Saif ul Islam(参考訳) 近年の連続的(増分的または生涯的)学習の進歩は、破滅的な結果につながる忘れの予防に集中しているが、対処すべき課題は2つある。 1つ目は,提案手法の堅牢性の評価である。 2つめは、学習したタスクのセキュリティを確保することです。 本稿では,忘れやすい連続学習タスク(現在のタスクと以前に学習されたタスクの両方を含む)の感受性に関する包括的研究を行う。 このような敵攻撃に対するタスクの脆弱性は、データの完全性とプライバシーに大きな問題を引き起こす。 タスク・インクリメンタル・ラーニング(Task-IL)のシナリオを考察し,正規化に基づく3つの実験,リプレイに基づく3つの実験,応答と模範的アプローチに基づく1つのハイブリッド手法について検討する。 これらの手法の堅牢性について検討する。 特に、現在または以前に学習されたタスクに属するクラスが誤分類されやすいことを実証するケースについて考察する。 我々の観察では、既存のタスク-ilアプローチの潜在的な限界が浮かび上がっています。 本研究は,提案する継続学習アプローチの頑健性を検討し,破滅的な学習の軽減に多大な努力を注ぐことを推奨する。

The recent advances in continual (incremental or lifelong) learning have concentrated on the prevention of forgetting that can lead to catastrophic consequences, but there are two outstanding challenges that must be addressed. The first is the evaluation of the robustness of the proposed methods. The second is ensuring the security of learned tasks remains largely unexplored. This paper presents a comprehensive study of the susceptibility of the continually learned tasks (including both current and previously learned tasks) that are vulnerable to forgetting. Such vulnerability of tasks against adversarial attacks raises profound issues in data integrity and privacy. We consider the task incremental learning (Task-IL) scenario and explore three regularization-based experiments, three replay-based experiments, and one hybrid technique based on the reply and exemplar approach. We examine the robustness of these methods. In particular, we consider cases where we demonstrate that any class belonging to the current or previously learned tasks is prone to misclassification. Our observations highlight the potential limitations of existing Task-IL approaches. Our empirical study recommends that the research community consider the robustness of the proposed continual learning approaches and invest extensive efforts in mitigating catastrophic forgetting.
翻訳日:2022-07-14 03:22:10 公開日:2022-07-11
# Dev2vec: 埋め込みスペースにおける開発者のドメインエキスパートを表現する

Dev2vec: Representing Domain Expertise of Developers in an Embedding Space ( http://arxiv.org/abs/2207.05132v1 )

ライセンス: Link先を確認
Arghavan Moradi Dakhel, Michel C. Desmarais, Foutse Khomh(参考訳) プロジェクトへのコントリビューションや仕事への参加に適切な候補を割り当てるのには、開発者のドメイン知識の正確な評価が重要です。 潜在的な候補は大きなプールから得ることができるので、このドメインの専門知識の自動評価は望ましい目標です。 以前の手法は単一のソフトウェアプロジェクトである程度成功したが、複数のプロジェクトにまたがる貢献から開発者ドメインの専門知識を評価することはより困難である。 本稿では,doc2vecを用いて,開発者のドメイン知識を組込みベクトルとして表現する。 これらのベクタは、コントリビュートしたリポジトリの記述、問題の解決履歴、コミット中のAPI呼び出しなど、開発者の専門知識の証拠を含む、さまざまなソースから派生している。 dev2vecと命名し、開発者の技術的専門化を表わす効果を実証する。 その結果,組込みベクトルにおける開発者の専門知識の符号化は最先端の手法より優れ,F1スコアは最大21%向上した。 さらに, 「課題解決履歴」 は, 組込み空間における開発者のドメイン知識を表現する情報源として最も有益であることが示唆された。

Accurate assessment of the domain expertise of developers is important for assigning the proper candidate to contribute to a project or to attend a job role. Since the potential candidate can come from a large pool, the automated assessment of this domain expertise is a desirable goal. While previous methods have had some success within a single software project, the assessment of a developer's domain expertise from contributions across multiple projects is more challenging. In this paper, we employ doc2vec to represent the domain expertise of developers as embedding vectors. These vectors are derived from different sources that contain evidence of developers' expertise, such as the description of repositories that they contributed, their issue resolving history, and API calls in their commits. We name it dev2vec and demonstrate its effectiveness in representing the technical specialization of developers. Our results indicate that encoding the expertise of developers in an embedding vector outperforms state-of-the-art methods and improves the F1-score up to 21%. Moreover, our findings suggest that ``issue resolving history'' of developers is the most informative source of information to represent the domain expertise of developers in embedding spaces.
翻訳日:2022-07-13 15:53:26 公開日:2022-07-11
# 「なぜそうするのか」 -- 機械学習のセキュリティに関する実践的視点-

"Why do so?" -- A Practical Perspective on Machine Learning Security ( http://arxiv.org/abs/2207.05164v1 )

ライセンス: Link先を確認
Kathrin Grosse, Lukas Bieringer, Tarek Richard Besold, Battista Biggio, Katharina Krombholz(参考訳) 機械学習のセキュリティに関する多くの学術研究にもかかわらず、機械学習システムに対する攻撃の発生についてはほとんど知られていない。 本稿では,産業従事者139名の定量的研究について報告する。 攻撃の発生と懸念を分析し,脅威の知覚と露出に影響を与える要因に関する統計的仮説を評価する。 我々の結果は、デプロイされた機械学習に対する現実世界の攻撃に光を当てた。 組織レベルでは、我々のサンプルに脅威暴露の予測因子は見つからないが、実施防御の量は、脅威にさらされること、あるいは標的になる可能性によって決まる。 また、個別の機械学習攻撃の関連性に関する実践者の回答を詳細に分析し、信頼できない意思決定、ビジネス情報漏洩、モデルへのバイアス導入といった複雑な懸念を明らかにします。 最後に、個人レベルでは、機械学習のセキュリティに関する事前知識が脅威認識に影響を及ぼすことがわかった。 私たちの研究は、現実の敵機械学習に関するさらなる研究の道を開く一方で、規制や監査の洞察も得られます。

Despite the large body of academic work on machine learning security, little is known about the occurrence of attacks on machine learning systems in the wild. In this paper, we report on a quantitative study with 139 industrial practitioners. We analyze attack occurrence and concern and evaluate statistical hypotheses on factors influencing threat perception and exposure. Our results shed light on real-world attacks on deployed machine learning. On the organizational level, while we find no predictors for threat exposure in our sample, the amount of implement defenses depends on exposure to threats or expected likelihood to become a target. We also provide a detailed analysis of practitioners' replies on the relevance of individual machine learning attacks, unveiling complex concerns like unreliable decision making, business information leakage, and bias introduction into models. Finally, we find that on the individual level, prior knowledge about machine learning security influences threat perception. Our work paves the way for more research about adversarial machine learning in practice, but yields also insights for regulation and auditing.
翻訳日:2022-07-13 15:53:05 公開日:2022-07-11
# 一般測地線上のpdesの学習変形を持つフーリエニューラル演算子

Fourier Neural Operator with Learned Deformations for PDEs on General Geometries ( http://arxiv.org/abs/2207.05209v1 )

ライセンス: Link先を確認
Zongyi Li, Daniel Zhengyu Huang, Burigede Liu, Anima Anandkumar(参考訳) 深層学習サーロゲートモデルは偏微分方程式(pdes)を解くことに有望である。 このうち、フーリエニューラル演算子(FNO)は精度が良く、流体の流れなど様々なPDE上で数値解法よりもはるかに高速である。 しかし、FNOは、一様格子を持つ矩形領域に限定される高速フーリエ変換(FFT)を用いる。 本研究では、任意の測地におけるPDEを解くための新しいフレームワーク、viz.、 Geo-FNOを提案する。 Geo-FNO は入力(物理)領域を不規則で、一様格子を持つ潜在空間に変形させることを学ぶ。 FFTを用いたFNOモデルは潜在空間に適用される。 得られた測地FNOモデルは、FFTの計算効率と任意の測地を扱う柔軟性の両方を有する。 私たちのGeo-FNOは、入力フォーマット、viz.、ポイントクラウド、メッシュ、設計パラメータもすべて有効な入力です。 我々は, 弾性, 塑性, オイラー方程式, ナビエ・ストークス方程式などの多種多様なPDEと, 前方モデリングと逆設計の問題を考える。 Geo-FNOは、標準的な数値解法よりも10^5$速く、FNOのような既存のMLベースのPDE解法を直接補間するよりも2倍精度が高い。

Deep learning surrogate models have shown promise in solving partial differential equations (PDEs). Among them, the Fourier neural operator (FNO) achieves good accuracy, and is significantly faster compared to numerical solvers, on a variety of PDEs, such as fluid flows. However, the FNO uses the Fast Fourier transform (FFT), which is limited to rectangular domains with uniform grids. In this work, we propose a new framework, viz., geo-FNO, to solve PDEs on arbitrary geometries. Geo-FNO learns to deform the input (physical) domain, which may be irregular, into a latent space with a uniform grid. The FNO model with the FFT is applied in the latent space. The resulting geo-FNO model has both the computation efficiency of FFT and the flexibility of handling arbitrary geometries. Our geo-FNO is also flexible in terms of its input formats, viz., point clouds, meshes, and design parameters are all valid inputs. We consider a variety of PDEs such as the Elasticity, Plasticity, Euler's, and Navier-Stokes equations, and both forward modeling and inverse design problems. Geo-FNO is $10^5$ times faster than the standard numerical solvers and twice more accurate compared to direct interpolation on existing ML-based PDE solvers such as the standard FNO.
翻訳日:2022-07-13 15:52:51 公開日:2022-07-11
# 宇宙グラフ:カタログを用いた大規模構造からの最適情報抽出

The Cosmic Graph: Optimal Information Extraction from Large-Scale Structure using Catalogues ( http://arxiv.org/abs/2207.05202v1 )

ライセンス: Link先を確認
T. Lucas Makinen, Tom Charnock, Pablo Lemos, Natalia Porqueres, Alan Heavens, Benjamin D. Wandelt(参考訳) グラフとして集計された離散カタログデータ上での宇宙情報の定量化に暗黙的なアプローチを提案する。 そこで我々は,模擬ダークマター・ハローカタログを用いた宇宙的推測を探索する。 我々は、グラフ表現の関数としてフィッシャー情報抽出を定量化するために、IMNN(Information Maximising Neural Networks)を用いる。 私たち a) 雑音のない極限における基礎となる宇宙論に対するモジュラーグラフ構造の高感度を示す。 b) 従来の統計との比較により,ネットワークが自動的に質量情報とクラスタリング情報を結合することを示すこと。 c) グラフニューラルネットワークは、カタログがノイズの多い調査の対象となる場合にも情報を取り出すことができることを実証し、 d) 非線形 imnn 要約がベイズ暗黙的帰納推論の漸近的最適圧縮統計としてどのように用いられるかを示す。 我々は2点相関関数に対して42の係数で小さな(\sim$100 オブジェクト)ハロカタログを持つ$\Omega_m, \sigma_8$パラメータ制約の面積を減らし、ネットワークが自動的に質量とクラスタリング情報を組み合わせることを示した。 この研究は、Jaxのグラフデータに新しいIMNNを実装し、数値または自動微分可能性を利用することができる。 また,グラフIMNNはネットワークが組み込まれているフィデューシャルモデルとはかけ離れたシミュレーションをうまく圧縮し,カタログ解析における$n$ポイント統計の代替となることを示す。

We present an implicit likelihood approach to quantifying cosmological information over discrete catalogue data, assembled as graphs. To do so, we explore cosmological inference using mock dark matter halo catalogues. We employ Information Maximising Neural Networks (IMNNs) to quantify Fisher information extraction as a function of graph representation. We a) demonstrate the high sensitivity of modular graph structure to the underlying cosmology in the noise-free limit, b) show that networks automatically combine mass and clustering information through comparisons to traditional statistics, c) demonstrate that graph neural networks can still extract information when catalogues are subject to noisy survey cuts, and d) illustrate how nonlinear IMNN summaries can be used as asymptotically optimal compressed statistics for Bayesian implicit likelihood inference. We reduce the area of joint $\Omega_m, \sigma_8$ parameter constraints with small ($\sim$100 object) halo catalogues by a factor of 42 over the two-point correlation function, and demonstrate that the networks automatically combine mass and clustering information. This work utilises a new IMNN implementation over graph data in Jax, which can take advantage of either numerical or auto-differentiability. We also show that graph IMNNs successfully compress simulations far from the fiducial model at which the network is fitted, indicating a promising alternative to $n$-point statistics in catalogue-based analyses.
翻訳日:2022-07-13 15:07:34 公開日:2022-07-11
# 心臓集団におけるパーソナライズされたヘルスケアを目指して:ウェアラブルECGモニタリングシステム、ECGロッシー圧縮スキーム、ResNetベースのAF検出器の開発

Towards Personalized Healthcare in Cardiac Population: The Development of a Wearable ECG Monitoring System, an ECG Lossy Compression Schema, and a ResNet-Based AF Detector ( http://arxiv.org/abs/2207.05138v1 )

ライセンス: Link先を確認
Wei-Ying Yi, Peng-Fei Liu, Sheung-Lai Lo, Ya-Fen Chan, Yu Zhou, Yee Leung, Kam-Sang Woo, Alex Pui-Wai Lee, Jia-Min Chen and Kwong-Sak Leung(参考訳) 心臓血管疾患(cvds)は世界で1番目に多い死因である。 心房細動(af)が様々なcvdと強い関連があるという証拠が増えているが、この心不整脈は通常、リスクのない非侵襲的かつ費用効率の高いツールである心電図(ecg)を用いて診断される。 被験者の心電図情報を連続的かつ遠隔に監視することで、生命を脅かす条件や障害が発生する前に、早期診断とAFのタイムリーな前処置の可能性を解き放つ。 最終的に、CVDの死亡率は減少する可能性がある。 本稿では,ウェアラブルecgデバイス,モバイルアプリケーション,バックエンドサーバを具体化するパーソナライズされた医療システムの設計と実装について述べる。 本システムは、ユーザのECG情報を継続的に監視し、パーソナライズされた健康警告/フィードバックを提供する。 ユーザーは、遠隔診断や介入などのために、このシステムを通じてペアの健康アドバイザーとコミュニケーションすることができる。 実装されたウェアラブルECGデバイスは、優れた整合性(CVRMS=5.5%)、許容整合性(CVRMS=12.1%)、無視可能なRRインターバル誤差(ARE<1.4%)を示した。 ウェアラブルデバイスのバッテリ寿命を向上させるために,ecg信号の準周期的特徴を利用した低損失圧縮スキーマを提案し,圧縮を実現する。 認識されたスキーマと比較すると、圧縮効率と歪みで他よりも優れており、MIT-BIHデータベースからのECG信号に対してCRの少なくとも2倍のPRDまたはRMSEを達成した。 提案システムで自動AF診断・スクリーニングを実現するため,ResNetベースのAF検出器を開発した。 2017年のPhystoNet CinCチャレンジのECG記録では、このAF検出器はF1=85.10%の平均テストとF1=87.31%のベストテストを得た。

Cardiovascular diseases (CVDs) are the number one cause of death worldwide. While there is growing evidence that the atrial fibrillation (AF) has strong associations with various CVDs, this heart arrhythmia is usually diagnosed using electrocardiography (ECG) which is a risk-free, non-intrusive, and cost-efficient tool. Continuously and remotely monitoring the subjects' ECG information unlocks the potentials of prompt pre-diagnosis and timely pre-treatment of AF before the development of any life-threatening conditions/diseases. Ultimately, the CVDs associated mortality could be reduced. In this manuscript, the design and implementation of a personalized healthcare system embodying a wearable ECG device, a mobile application, and a back-end server are presented. This system continuously monitors the users' ECG information to provide personalized health warnings/feedbacks. The users are able to communicate with their paired health advisors through this system for remote diagnoses, interventions, etc. The implemented wearable ECG devices have been evaluated and showed excellent intra-consistency (CVRMS=5.5%), acceptable inter-consistency (CVRMS=12.1%), and negligible RR-interval errors (ARE<1.4%). To boost the battery life of the wearable devices, a lossy compression schema utilizing the quasi-periodic feature of ECG signals to achieve compression was proposed. Compared to the recognized schemata, it outperformed the others in terms of compression efficiency and distortion, and achieved at least 2x of CR at a certain PRD or RMSE for ECG signals from the MIT-BIH database. To enable automated AF diagnosis/screening in the proposed system, a ResNet-based AF detector was developed. For the ECG records from the 2017 PhysioNet CinC challenge, this AF detector obtained an average testing F1=85.10% and a best testing F1=87.31%, outperforming the state-of-the-art.
翻訳日:2022-07-13 15:01:14 公開日:2022-07-11
# データセットにおける共有特徴の識別のためのジョイントnmfとデータセット距離測定

Joint NMF for Identification of Shared Features in Datasets and a Dataset Distance Measure ( http://arxiv.org/abs/2207.05112v1 )

ライセンス: Link先を確認
Hannah Friedman, Amani R. Maina-Kilaas, Julianna Schalkwyk, Hina Ahmed, Jamie Haddock(参考訳) 本稿では,非負行列因子分解を併用し,結果の因子分解を分析することにより,データセットの共有特徴を決定する新しい手法を提案する。 x_1,x_2$ を非負行列 $x_1 = as_1, x_2 = as_2$ に結合分解し、共有基底の $x_1, x_2$ が各データセットにどの程度近いかを決定する類似度尺度を導出する。 また,本手法と学習因子化に基づくデータセット距離測定法を提案する。 本手法は画像とテキストのデータセットにおける構造的差異の識別に成功している。 潜在的な応用としては、分類、盗作などの操作の検出、データセット間の関係の学習などがある。

In this paper, we derive a new method for determining shared features of datasets by employing joint non-negative matrix factorization and analyzing the resulting factorizations. Our approach uses the joint factorization of two dataset matrices $X_1,X_2$ into non-negative matrices $X_1 = AS_1, X_2 = AS_2$ to derive a similarity measure that determines how well a shared basis for $X_1, X_2$ approximates each dataset. We also propose a dataset distance measure built upon this method and the learned factorization. Our method is able to successfully identity differences in structure in both image and text datasets. Potential applications include classification, detecting plagiarism or other manipulation, and learning relationships between data sets.
翻訳日:2022-07-13 14:28:35 公開日:2022-07-11
# テキスト不変学習を用いた大腸炎スコアリングのためのパッチレベルインスタンス群判別

Patch-level instance-group discrimination with pretext-invariant learning for colitis scoring ( http://arxiv.org/abs/2207.05192v1 )

ライセンス: Link先を確認
Ziang Xu, Sharib Ali, Soumya Gupta, Simon Leedham, James E East, Jens Rittscher(参考訳) 炎症性腸疾患(IBD),特に潰瘍性大腸炎(UC)は内科医によって評価され,リスク層化・治療モニタリングの基礎となっている。 現在, 内視鏡的特徴化は, IBD患者に対して望ましくない臨床結果をもたらすことがほとんどである。 広範に使用されているが粘膜炎症の微妙な変化の信頼性が要求されるマヨ内視鏡検査(MES)システムに注目した。 既存のディープラーニングの分類手法では、これらの微粒な変化を検出できないため、UCのグレーディングは難しい課題である。 本研究では,自己教師付き学習(SSL)のためのプリテキスト不変表現学習(PLD-PIRL)を用いたパッチレベルの新しいインスタンスグループ識別手法を提案する。 本実験では,ベースライン教師付きネットワークや最先端SSL方式と比較して,精度とロバスト性の向上を実証した。 ベースライン(ResNet50)の分類と比較すると,提案したPLD-PIRLはホールドアウトテストデータでは4.75%,センターテストデータでは6.64%,トップ1の精度では6.64%向上した。

Inflammatory bowel disease (IBD), in particular ulcerative colitis (UC), is graded by endoscopists and this assessment is the basis for risk stratification and therapy monitoring. Presently, endoscopic characterisation is largely operator dependant leading to sometimes undesirable clinical outcomes for patients with IBD. We focus on the Mayo Endoscopic Scoring (MES) system which is widely used but requires the reliable identification of subtle changes in mucosal inflammation. Most existing deep learning classification methods cannot detect these fine-grained changes which make UC grading such a challenging task. In this work, we introduce a novel patch-level instance-group discrimination with pretext-invariant representation learning (PLD-PIRL) for self-supervised learning (SSL). Our experiments demonstrate both improved accuracy and robustness compared to the baseline supervised network and several state-of-the-art SSL methods. Compared to the baseline (ResNet50) supervised classification our proposed PLD-PIRL obtained an improvement of 4.75% on hold-out test data and 6.64% on unseen center test data for top-1 accuracy.
翻訳日:2022-07-13 14:02:37 公開日:2022-07-11
# PoeticTTS -- 文学研究のための制御可能な詩を読む

PoeticTTS -- Controllable Poetry Reading for Literary Studies ( http://arxiv.org/abs/2207.05549v1 )

ライセンス: Link先を確認
Julia Koch, Florian Lux, Nadja Schauffler, Toni Bernhart, Felix Dieterle, Jonas Kuhn, Sandra Richter, Gabriel Viehhauser, Ngoc Thang Vu(参考訳) 詩のための音声合成は、詩語固有の特定のイントネーションパターンのために困難である。 本研究は,文芸研究者が文章の対話,発話の実現,聞き手の詩知覚に関する仮説を体系的に検証するために,ほぼ人間に近い自然性を持つ詩を合成する手法を提案する。 文学研究におけるこれらの特別な要件を満たすために,人間の参照朗読から韻律値のクローン化を行い,その後,きめ細かな韻律制御を用いて合成音声を操作することで朗読w.r.t.特有の現象を変化させる。 詩におけるttsモデルの微調整は詩的イントネーションパターンを広く捉え、韻律的クローン化と操作に有益であり、客観的評価と人間の研究の両方において、我々のアプローチの成功を検証することができる。

Speech synthesis for poetry is challenging due to specific intonation patterns inherent to poetic speech. In this work, we propose an approach to synthesise poems with almost human like naturalness in order to enable literary scholars to systematically examine hypotheses on the interplay between text, spoken realisation, and the listener's perception of poems. To meet these special requirements for literary studies, we resynthesise poems by cloning prosodic values from a human reference recitation, and afterwards make use of fine-grained prosody control to manipulate the synthetic speech in a human-in-the-loop setting to alter the recitation w.r.t. specific phenomena. We find that finetuning our TTS model on poetry captures poetic intonation patterns to a large extent which is beneficial for prosody cloning and manipulation and verify the success of our approach both in an objective evaluation as well as in human studies.
翻訳日:2022-07-13 14:01:48 公開日:2022-07-11
# エンドツーエンド音声認識モデルのオンライン連続学習

Online Continual Learning of End-to-End Speech Recognition Models ( http://arxiv.org/abs/2207.05071v1 )

ライセンス: Link先を確認
Muqiao Yang, Ian Lane, Shinji Watanabe(参考訳) Lifelong Learningとしても知られるContinuous Learningは、新しいデータから継続的に学習することを目的としている。 音声認識における連続学習に関する先行研究は,複数の異なる音声認識タスクにまたがるモデルの適応に焦点が当てられているが,本稿では,単一タスクの自動音声認識のための実験的な設定法を提案する。 特に,同一課題に対する追加訓練データが時間とともに段階的に利用可能になる場合に着目し,オンライン勾配エピソディックメモリ(gem)法を用いたエンドツーエンド音声認識モデルへのインクリメンタルモデル更新の有効性を実証する。 さらに,オンライン連続学習と選択的サンプリング戦略により,計算コストを大幅に削減しながら,モデルをスクラッチから再トレーニングするのと同様の精度を維持できることを示す。 また,本手法を自己教師付き学習(ssl)機能で検証した。

Continual Learning, also known as Lifelong Learning, aims to continually learn from new data as it becomes available. While prior research on continual learning in automatic speech recognition has focused on the adaptation of models across multiple different speech recognition tasks, in this paper we propose an experimental setting for \textit{online continual learning} for automatic speech recognition of a single task. Specifically focusing on the case where additional training data for the same task becomes available incrementally over time, we demonstrate the effectiveness of performing incremental model updates to end-to-end speech recognition models with an online Gradient Episodic Memory (GEM) method. Moreover, we show that with online continual learning and a selective sampling strategy, we can maintain an accuracy that is similar to retraining a model from scratch while requiring significantly lower computation costs. We have also verified our method with self-supervised learning (SSL) features.
翻訳日:2022-07-13 14:01:11 公開日:2022-07-11
# 水平フェデレーション学習とintel sgxによるレコメンデーションシステムのためのセキュアな分散トレーニング

Horizontal Federated Learning and Secure Distributed Training for Recommendation System with Intel SGX ( http://arxiv.org/abs/2207.05079v1 )

ライセンス: Link先を確認
Siyuan Hui, Yuqiu Zhang, Albert Hu, Edmund Song(参考訳) ビッグデータ時代の到来と人工知能やその他の技術の発展により、データセキュリティとプライバシ保護がますます重要になっている。 推薦システムは我々の社会に多くの応用があるが、推薦システムのモデル構築はユーザーのデータと区別できないことが多い。 特にディープラーニングベースのレコメンデーションシステムでは、モデルの複雑さとディープラーニング自体の特性のため、トレーニングプロセスは長いトレーニング時間と豊富な計算資源を必要とするだけでなく、大量のユーザデータを使用する必要があるため、データセキュリティとプライバシ保護という面で大きな課題が生じる。 データセキュリティを確保しつつ、分散レコメンデーションシステムをトレーニングする方法は、緊急に解決すべき問題となっている。 本稿では,信頼された実行環境の実装であるIntel SGX(Software Guard Extensions)に基づく水平フェデレーション学習とセキュア分散トレーニングという2つのスキームを実装し,異なるシナリオでセキュアで分散されたシステムベースの学習スキームを実現するためのTensorFlowフレームワークを提案する。 我々は、パーソナライズとレコメンデーションのために設計されたニューラルネットワークベースの機械学習モデルである古典的なDeep Learning Recommendation Model (DLRM) を実験し、モデル性能にほぼ損失がないことを示す。 訓練速度は許容範囲内である。

With the advent of big data era and the development of artificial intelligence and other technologies, data security and privacy protection have become more important. Recommendation systems have many applications in our society, but the model construction of recommendation systems is often inseparable from users' data. Especially for deep learning-based recommendation systems, due to the complexity of the model and the characteristics of deep learning itself, its training process not only requires long training time and abundant computational resources but also needs to use a large amount of user data, which poses a considerable challenge in terms of data security and privacy protection. How to train a distributed recommendation system while ensuring data security has become an urgent problem to be solved. In this paper, we implement two schemes, Horizontal Federated Learning and Secure Distributed Training, based on Intel SGX(Software Guard Extensions), an implementation of a trusted execution environment, and TensorFlow framework, to achieve secure, distributed recommendation system-based learning schemes in different scenarios. We experiment on the classical Deep Learning Recommendation Model (DLRM), which is a neural network-based machine learning model designed for personalization and recommendation, and the results show that our implementation introduces approximately no loss in model performance. The training speed is within acceptable limits.
翻訳日:2022-07-13 14:00:55 公開日:2022-07-11
# RUSH:ランダムな平滑化によるロバストなコントラスト学習

RUSH: Robust Contrastive Learning via Randomized Smoothing ( http://arxiv.org/abs/2207.05127v1 )

ライセンス: Link先を確認
Yijiang Pang, Boyang Liu, Jiayu Zhou(参考訳) 近年,エキサイティングな対人ロバスト性を持つラベル効率を高めるために,自己指導型コントラスト事前訓練に対人トレーニングが取り入れられている。 しかし、その頑丈さは、高価な敵の訓練に費やされた。 本稿では,コントラストプリトレーニングがロバスト性と興味深いが暗黙のつながりを持つという事実を示し,このような自然なロバスト性は,標準的なコントラストプリトレーニングとランダム化スムージングを組み合わせた,敵対的攻撃に対する強力なロバストアルゴリズムの設計を可能にする。 標準的正確性と堅牢な正確性の両方を向上し、敵対的なトレーニングに比べてトレーニングコストを大幅に削減する。 提案したRUSHは,1次攻撃下での共通ベンチマーク (CIFAR-10, CIFAR-100, STL-10) において, 逆行訓練による堅牢な分類器よりも優れていることを示す。 特に、CIFAR-10に対する8/255 PGD攻撃の$\ell_{\infty}$-norm摂動では、バックボーンとしてResNet-18を使用したモデルが77.8%、標準精度87.9%に達した。 我々の研究は、最先端技術と比較して、堅牢な精度が15%以上向上し、標準精度がわずかに改善されている。

Recently, adversarial training has been incorporated in self-supervised contrastive pre-training to augment label efficiency with exciting adversarial robustness. However, the robustness came at a cost of expensive adversarial training. In this paper, we show a surprising fact that contrastive pre-training has an interesting yet implicit connection with robustness, and such natural robustness in the pre trained representation enables us to design a powerful robust algorithm against adversarial attacks, RUSH, that combines the standard contrastive pre-training and randomized smoothing. It boosts both standard accuracy and robust accuracy, and significantly reduces training costs as compared with adversarial training. We use extensive empirical studies to show that the proposed RUSH outperforms robust classifiers from adversarial training, by a significant margin on common benchmarks (CIFAR-10, CIFAR-100, and STL-10) under first-order attacks. In particular, under $\ell_{\infty}$-norm perturbations of size 8/255 PGD attack on CIFAR-10, our model using ResNet-18 as backbone reached 77.8% robust accuracy and 87.9% standard accuracy. Our work has an improvement of over 15% in robust accuracy and a slight improvement in standard accuracy, compared to the state-of-the-arts.
翻訳日:2022-07-13 13:58:55 公開日:2022-07-11
# 並列化GPU符号化アーキテクチャによる深層ロスレス画像符号化

Accelerated Deep Lossless Image Coding with Unified Paralleleized GPU Coding Architecture ( http://arxiv.org/abs/2207.05152v1 )

ライセンス: Link先を確認
Benjamin Lukas Cajus Barzen, Fedor Glazov, Jonas Geistert, Thomas Sikora(参考訳) 本研究では,フル解像度学習型ロスレス画像圧縮アルゴリズムであるdeep lossless image coding (dlic)を提案する。 我々のアルゴリズムはエントロピーエンコーダと組み合わせたニューラルネットワークに基づいている。 ニューラルネットワークは、ソース画像の各画素に対して密度推定を行う。 次に、密度推定を用いて対象画素を符号化し、圧縮率でFLIFを上回ります。 同様のアプローチが試みられている。 しかし、長い実行時間は現実世界のアプリケーションでは実現不可能である。 並列化GPUベースの実装を導入し、グレースケールの8ビット画像を1秒未満で符号化および復号化することができる。 DLICはニューラルネットワークを使用してエントロピーコーダの確率を推定するため、ドメイン固有の画像データに基づいてトレーニングすることができる。 磁気共鳴イメージング(MRI)画像を用いてDLICを適応し、訓練することにより、この能力を実証する。

We propose Deep Lossless Image Coding (DLIC), a full resolution learned lossless image compression algorithm. Our algorithm is based on a neural network combined with an entropy encoder. The neural network performs a density estimation on each pixel of the source image. The density estimation is then used to code the target pixel, beating FLIF in terms of compression rate. Similar approaches have been attempted. However, long run times make them unfeasible for real world applications. We introduce a parallelized GPU based implementation, allowing for encoding and decoding of grayscale, 8-bit images in less than one second. Because DLIC uses a neural network to estimate the probabilities used for the entropy coder, DLIC can be trained on domain specific image data. We demonstrate this capability by adapting and training DLIC with Magnet Resonance Imaging (MRI) images.
翻訳日:2022-07-13 13:58:29 公開日:2022-07-11
# 時間的パーソナルヘルスデータからニューラルな数値・テキスト生成に向けて

Towards Neural Numeric-To-Text Generation From Temporal Personal Health Data ( http://arxiv.org/abs/2207.05194v1 )

ライセンス: Link先を確認
Jonathan Harris, Mohammed J. Zaki(参考訳) ユーザーデータ(栄養素摂取量、ステップ数など)を追跡するために設計されたパーソナルヘルス技術の生産への関心が高まり、今や自然言語という形で日々のユーザーに有意義な行動的洞察を提示する機会がこれまでになく増えている。 この知識は行動意識を高め、健康目標を達成するために行動を起こすことができる。 また、個人の行動傾向を記述するのに必要な、膨大な個人の健康データと要約生成のギャップを埋めることもできる。 これまでの研究は、時間的個人的健康データに見られる興味深いパターンの自然言語要約を生成するために設計されたルールベースの時系列データ要約手法に焦点を当ててきた。 数値時間的パーソナルヘルスデータから自然言語サマリーを自動的に生成するために,再帰的,畳み込み的,トランスフォーマーベースのエンコーダ・デコーダモデルを検討する。 myfitnesspalにログインした実ユーザーの健康データにモデルの有効性を示し,高品質自然言語サマリーを自動生成できることを示した。 我々の研究は、個人の健康データから新しい意味のある時間的要約を自動的に生成するという野心的な目標に向けての第一歩となる。

With an increased interest in the production of personal health technologies designed to track user data (e.g., nutrient intake, step counts), there is now more opportunity than ever to surface meaningful behavioral insights to everyday users in the form of natural language. This knowledge can increase their behavioral awareness and allow them to take action to meet their health goals. It can also bridge the gap between the vast collection of personal health data and the summary generation required to describe an individual's behavioral tendencies. Previous work has focused on rule-based time-series data summarization methods designed to generate natural language summaries of interesting patterns found within temporal personal health data. We examine recurrent, convolutional, and Transformer-based encoder-decoder models to automatically generate natural language summaries from numeric temporal personal health data. We showcase the effectiveness of our models on real user health data logged in MyFitnessPal and show that we can automatically generate high-quality natural language summaries. Our work serves as a first step towards the ambitious goal of automatically generating novel and meaningful temporal summaries from personal health data.
翻訳日:2022-07-13 13:57:14 公開日:2022-07-11
# 世界の人々のきめ細かい活動

Fine-grained Activities of People Worldwide ( http://arxiv.org/abs/2207.05182v1 )

ライセンス: Link先を確認
Jeffrey Byrne, Greg Castanon, Zhongheng Li, Gil Ettinger(参考訳) 人間は毎日、シャツを着るか、ジャケットを着るか、手を振るか、ハイファイブを与えるかなど、微妙な差別的な動きを伴う多くの密接に関連した活動を行う。 倫理的視覚AIによる行動認識は、私たちの日常生活のパターンに関する洞察を与える可能性があるが、既存の活動認識データセットは、世界中の人間の活動の膨大な多様性を捉えていない。 この制限に対処するため,合意された被験者のオブジェクトやアクティビティを同時にアノテートしながらビデオを記録する無料モバイルアプリであるCollectorを紹介した。 この新しいデータ収集プラットフォームは、世界中の人々の最初の大規模できめ細かいアクティビティデータセットであるCAP(Consented Activity of People)データセットのキュレーションに使用された。 capデータセットには、33カ国の780人の被験者が収集した512の細粒度アクティビティラベルの1.45mビデオクリップが含まれている。 このデータセットにアクティビティ分類とアクティビティ検出ベンチマークを提供し、そのベースライン結果を分析して、世界中の人々が共通の活動を行う方法に関する洞察を得る。 データセット、ベンチマーク、評価ツール、公開リーダボード、モバイルアプリは、visym.github.io/capで利用できる。

Every day, humans perform many closely related activities that involve subtle discriminative motions, such as putting on a shirt vs. putting on a jacket, or shaking hands vs. giving a high five. Activity recognition by ethical visual AI could provide insights into our patterns of daily life, however existing activity recognition datasets do not capture the massive diversity of these human activities around the world. To address this limitation, we introduce Collector, a free mobile app to record video while simultaneously annotating objects and activities of consented subjects. This new data collection platform was used to curate the Consented Activities of People (CAP) dataset, the first large-scale, fine-grained activity dataset of people worldwide. The CAP dataset contains 1.45M video clips of 512 fine grained activity labels of daily life, collected by 780 subjects in 33 countries. We provide activity classification and activity detection benchmarks for this dataset, and analyze baseline results to gain insight into how people around with world perform common activities. The dataset, benchmarks, evaluation tools, public leaderboards and mobile apps are available for use at visym.github.io/cap.
翻訳日:2022-07-13 13:54:51 公開日:2022-07-11
# マルチエージェントマルチモーダル軌道予測に対する協調的不確実性

Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting ( http://arxiv.org/abs/2207.05195v1 )

ライセンス: Link先を確認
Bohan Tang, Yiqi Zhong, Chenxin Xu, Wei-Tao Wu, Ulrich Neumann, Yanfeng Wang, Ya Zhang, and Siheng Chen(参考訳) マルチモーダルマルチエージェント軌道予測では,2つの大きな課題が解決されていない。 1) 複数のエージェントの予測軌跡間に相関を引き起こす相互作用モジュールによる不確実性を測定する方法 2)複数の予測をランク付けし,最適な予測軌道を選択する方法。 これらの課題に対処するために、本研究は、インタラクションモジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(cu)を提案する。 次に,従来の変分等変量不確かさ推定器を用いて,回帰処理と不確かさ推定の両方を行う汎用のCU対応回帰フレームワークを構築した。 さらに,提案フレームワークをプラグインモジュールとして,現在のSOTAマルチエージェントマルチモーダル予測システムに適用し,SOTAシステムを実現する。 1) マルチエージェントマルチモーダル軌道予測タスクにおける不確実性の推定 2)複数の予測をランク付けし,推定不確実性に基づいて最適な予測を選択する。 人工データセットと2つの大規模マルチエージェント軌道予測ベンチマークについて広範な実験を行った。 実験によると 1) 合成データセット上では, CU対応回帰フレームワークにより, モデルがグランドトルースラプラス分布を適切に近似することができる。 2)マルチエージェント軌道予測ベンチマークでは,CU対応回帰フレームワークがSOTAシステムの性能向上に役立っている。 特に,提案手法は,nuscenesデータセット上で選択された最適予測の最終変位誤差について,ベクターネットを262cm改善するのに役立つ。 3)マルチエージェントマルチモーダル軌道予測システムでは,予測の不確実性は将来の確率と正の相関がある。 4) 推定CU値はエージェント間の対話情報と強く関連している。

In multi-modal multi-agent trajectory forecasting, two major challenges have not been fully tackled: 1) how to measure the uncertainty brought by the interaction module that causes correlations among the predicted trajectories of multiple agents; 2) how to rank the multiple predictions and select the optimal predicted trajectory. In order to handle these challenges, this work first proposes a novel concept, collaborative uncertainty (CU), which models the uncertainty resulting from interaction modules. Then we build a general CU-aware regression framework with an original permutation-equivariant uncertainty estimator to do both tasks of regression and uncertainty estimation. Further, we apply the proposed framework to current SOTA multi-agent multi-modal forecasting systems as a plugin module, which enables the SOTA systems to 1) estimate the uncertainty in the multi-agent multi-modal trajectory forecasting task; 2) rank the multiple predictions and select the optimal one based on the estimated uncertainty. We conduct extensive experiments on a synthetic dataset and two public large-scale multi-agent trajectory forecasting benchmarks. Experiments show that: 1) on the synthetic dataset, the CU-aware regression framework allows the model to appropriately approximate the ground-truth Laplace distribution; 2) on the multi-agent trajectory forecasting benchmarks, the CU-aware regression framework steadily helps SOTA systems improve their performances. Specially, the proposed framework helps VectorNet improve by 262 cm regarding the Final Displacement Error of the chosen optimal prediction on the nuScenes dataset; 3) for multi-agent multi-modal trajectory forecasting systems, prediction uncertainty is positively correlated with future stochasticity; and 4) the estimated CU values are highly related to the interactive information among agents.
翻訳日:2022-07-13 13:28:36 公開日:2022-07-11
# 異種グラフ間のマイトショット意味関係予測

Few-Shot Semantic Relation Prediction across Heterogeneous Graphs ( http://arxiv.org/abs/2207.05068v1 )

ライセンス: Link先を確認
Pengfei Ding, Yan Wang, Guanfeng Liu, and Xiaofang Zhou(参考訳) 意味的関係予測は、異なる種類のオブジェクトと異なるタイプのリンクからなる異種グラフにおけるオブジェクト間の暗黙の関係を掘り下げることを目的としている。 現実のシナリオでは、新しいセマンティックな関係は常に現れ、通常はラベル付きデータのみで現れる。 複数のヘテロジニアスグラフに様々な意味関係が存在するため、ラベル付きデータが少ない新しい意味関係を予測するのに役立つ既存の意味関係から転送可能な知識を抽出できる。 このことは、不均一グラフ間の少数ショット意味関係予測という新たな問題を引き起こす。 しかし、既存の手法では、大量のラベル付きサンプルを入力として必要とせず、固定された不均一性を持つ単一のグラフに焦点を当てているため、この問題は解決できない。 本稿では,この新たな課題をターゲットとして,メタGSという意味的関係予測のためのメタラーニングに基づくグラフニューラルネットワークを提案する。 まず、MetaGSはオブジェクト間のグラフ構造を複数の正規化サブグラフに分解し、2ビューグラフニューラルネットワークを用いて局所的な異種情報とこれらのサブグラフのグローバル構造情報をキャプチャする。 第二に、MetaGSはこれらのサブグラフの情報をハイパープロトタイプネットワークで集約し、既存のセマンティック関係から学習し、新しいセマンティック関係に適応させることができる。 第3に、高度に初期化された2視点グラフニューラルネットワークと超定型ネットワークを用いて、メタグは、ラベル付きデータの制限を克服しながら、異なるグラフから効率的に新しい意味関係を学習することができる。 3つの実世界のデータセットに対する大規模な実験は、最先端の手法よりもMetaGSの優れた性能を示している。

Semantic relation prediction aims to mine the implicit relationships between objects in heterogeneous graphs, which consist of different types of objects and different types of links. In real-world scenarios, new semantic relations constantly emerge and they typically appear with only a few labeled data. Since a variety of semantic relations exist in multiple heterogeneous graphs, the transferable knowledge can be mined from some existing semantic relations to help predict the new semantic relations with few labeled data. This inspires a novel problem of few-shot semantic relation prediction across heterogeneous graphs. However, the existing methods cannot solve this problem because they not only require a large number of labeled samples as input, but also focus on a single graph with a fixed heterogeneity. Targeting this novel and challenging problem, in this paper, we propose a Meta-learning based Graph neural network for Semantic relation prediction, named MetaGS. Firstly, MetaGS decomposes the graph structure between objects into multiple normalized subgraphs, then adopts a two-view graph neural network to capture local heterogeneous information and global structure information of these subgraphs. Secondly, MetaGS aggregates the information of these subgraphs with a hyper-prototypical network, which can learn from existing semantic relations and adapt to new semantic relations. Thirdly, using the well-initialized two-view graph neural network and hyper-prototypical network, MetaGS can effectively learn new semantic relations from different graphs while overcoming the limitation of few labeled data. Extensive experiments on three real-world datasets have demonstrated the superior performance of MetaGS over the state-of-the-art methods.
翻訳日:2022-07-13 13:27:50 公開日:2022-07-11
# DAUX:不確実性eXplanationsに対する密度に基づくアプローチ

DAUX: a Density-based Approach for Uncertainty eXplanations ( http://arxiv.org/abs/2207.05161v1 )

ライセンス: Link先を確認
Hao Sun, Boris van Breugel, Jonathan Crabbe, Nabeel Seedat, Mihaela van der Schaar(参考訳) 不確実性定量化(UQ)は、信頼できる機械学習モデルを作成する上で不可欠である。 近年、疑わしい例を示すuqメソッドが急増しているが、これらの方法が正確に何であるかはよく分かっていない。 本研究では,UQモデル自体を解釈するための仮定ライト法を提案する。 本稿では, 乱れ密度行列(カーネルによる誤分類密度の近似)を導入し, 与えられたUQ法で特定された疑わしい例を, 分布外(OOD)例, 境界(Bnd)例, 高分布不等化(IDM)例の3つのクラスに分類する。 大規模な実験を通じて、既存のUQ手法に光を当て、不確実性の原因がモデルによって異なることを示す。 さらに,提案フレームワークは,予測性能を向上させるために分類例をいかに活用できるかを示す。

Uncertainty quantification (UQ) is essential for creating trustworthy machine learning models. Recent years have seen a steep rise in UQ methods that can flag suspicious examples, however, it is often unclear what exactly these methods identify. In this work, we propose an assumption-light method for interpreting UQ models themselves. We introduce the confusion density matrix -- a kernel-based approximation of the misclassification density -- and use this to categorize suspicious examples identified by a given UQ method into three classes: out-of-distribution (OOD) examples, boundary (Bnd) examples, and examples in regions of high in-distribution misclassification (IDM). Through extensive experiments, we shed light on existing UQ methods and show that the cause of the uncertainty differs across models. Additionally, we show how the proposed framework can make use of the categorized examples to improve predictive performance.
翻訳日:2022-07-13 13:27:24 公開日:2022-07-11
# 弱教師付き検出変換器による新しい物体検出のスケーリング

Scaling Novel Object Detection with Weakly Supervised Detection Transformers ( http://arxiv.org/abs/2207.05205v1 )

ライセンス: Link先を確認
Tyler LaBonte, Yale Song, Xin Wang, Vibhav Vineet, Neel Joshi(参考訳) 弱教師付きオブジェクト検出(WSOD)により、画像レベルのクラスラベルを用いてオブジェクト検出をトレーニングすることができる。 しかし、現在のwsodモデルの実用的応用は限定的であり、小規模で運用され、広範な訓練と改良を必要とする。 Weakly Supervised Detection Transformerを提案する。これは、大規模事前学習データセットから数百の新規オブジェクトに対するWSODファインタニングへの効率的な知識伝達を可能にする。 我々は、事前学習された知識を活用して、WSODで使用される複数のインスタンス学習フレームワークを改善する。

Weakly supervised object detection (WSOD) enables object detectors to be trained using image-level class labels. However, the practical application of current WSOD models is limited, as they operate at small scales and require extensive training and refinement. We propose the Weakly Supervised Detection Transformer, which enables efficient knowledge transfer from a large-scale pretraining dataset to WSOD finetuning on hundreds of novel objects. We leverage pretrained knowledge to improve the multiple instance learning framework used in WSOD, and experiments show our approach outperforms the state-of-the-art on datasets with twice the novel classes than previously shown.
翻訳日:2022-07-13 13:22:55 公開日:2022-07-11
# 線形化深部画像を用いたctのためのベイジアン実験設計

Bayesian Experimental Design for Computed Tomography with the Linearised Deep Image Prior ( http://arxiv.org/abs/2207.05714v1 )

ライセンス: Link先を確認
Riccardo Barbano, Johannes Leuschner, Javier Antor\'an, Bangti Jin, Jos\'e Miguel Hern\'andez-Lobato(参考訳) sparse pilot scanに基づく適応設計を行い,ct再構成のための効果的な走査戦略を作成した。 線形化深部画像を用いた新しい手法を提案する。 これは、共役ガウス線形モデルの可搬性を維持しつつ、パイロット測定からの情報を角度選択基準に組み込むことができる。 優先方向の合成データセットでは、線形化されたDIP設計により、等角基底線に対して最大30%のスキャン数を削減できる。

We investigate adaptive design based on a single sparse pilot scan for generating effective scanning strategies for computed tomography reconstruction. We propose a novel approach using the linearised deep image prior. It allows incorporating information from the pilot measurements into the angle selection criteria, while maintaining the tractability of a conjugate Gaussian-linear model. On a synthetically generated dataset with preferential directions, linearised DIP design allows reducing the number of scans by up to 30% relative to an equidistant angle baseline.
翻訳日:2022-07-13 13:21:09 公開日:2022-07-11
# 視覚オドメトリーシステムにおける物理パッシブパッチ対向攻撃

Physical Passive Patch Adversarial Attacks on Visual Odometry Systems ( http://arxiv.org/abs/2207.05729v1 )

ライセンス: Link先を確認
Yaniv Nemcovsky, Matan Yaakoby, Alex M. Bronstein and Chaim Baskin(参考訳) ディープニューラルネットワークは、敵の摂動の影響を受けやすいことが知られており、ネットワークの出力を変化させ、厳格なノルムの制限の下で存在する小さな摂動である。 このような摂動は通常、特定の入力に合わせて議論されるが、一組の入力でモデルの出力を変更するために普遍摂動を構築することができる。 普遍的な摂動は、モデルの正確な入力に対する認識が不要であるため、敵攻撃のより現実的なケースを示す。 さらに、ユニバーサルアタック設定は、入力のセットが与えられた場合、モデルの出力をサンプル外データに変更することを目的とした、未取得データに対する一般化の主題を提起する。 本研究では,視覚計測に基づく自律ナビゲーションシステムにおける物理的受動パッチ対向攻撃について検討する。 視覚計測システムは2つの視点間の相対的なカメラの動きを推定することを目的としており、視覚に基づく自律ナビゲーションシステムによってその状態を推定するために頻繁に使用される。 このようなナビゲーションシステムでは、パッチの対向的摂動が深刻なセキュリティ上の問題を引き起こす。 我々の知る限りでは、現場にパッチ対向攻撃を配置することで、視覚計測モデルの誤差マージンを著しく向上させることができることが初めて示される。 我々は,合成クローズドループドローンナビゲーションデータの評価を行い,実データに同等の脆弱性が存在することを実証する。 提案手法のリファレンス実装と報告された実験は、https://github.com/patchadversarial attacks/patchadversarial attacksで提供される。

Deep neural networks are known to be susceptible to adversarial perturbations -- small perturbations that alter the output of the network and exist under strict norm limitations. While such perturbations are usually discussed as tailored to a specific input, a universal perturbation can be constructed to alter the model's output on a set of inputs. Universal perturbations present a more realistic case of adversarial attacks, as awareness of the model's exact input is not required. In addition, the universal attack setting raises the subject of generalization to unseen data, where given a set of inputs, the universal perturbations aim to alter the model's output on out-of-sample data. In this work, we study physical passive patch adversarial attacks on visual odometry-based autonomous navigation systems. A visual odometry system aims to infer the relative camera motion between two corresponding viewpoints, and is frequently used by vision-based autonomous navigation systems to estimate their state. For such navigation systems, a patch adversarial perturbation poses a severe security issue, as it can be used to mislead a system onto some collision course. To the best of our knowledge, we show for the first time that the error margin of a visual odometry model can be significantly increased by deploying patch adversarial attacks in the scene. We provide evaluation on synthetic closed-loop drone navigation data and demonstrate that a comparable vulnerability exists in real data. A reference implementation of the proposed method and the reported experiments is provided at https://github.com/patchadversarialattacks/patchadversarialattacks.
翻訳日:2022-07-13 13:21:00 公開日:2022-07-11
# 知識表現と推論のための脳内グラフスパイクニューラルネットワーク

Brain-inspired Graph Spiking Neural Networks for Commonsense Knowledge Representation and Reasoning ( http://arxiv.org/abs/2207.05561v1 )

ライセンス: Link先を確認
Hongjian Fang, Yi Zeng, Jianbo Tang, Yuwei Wang, Yao Liang, Xin Liu(参考訳) 神経科学、認知科学、心理学、人工知能において、人間の脳におけるニューラルネットワークがどのようにコモンセンスの知識を表現するか、そして完全な関連する推論タスクが重要な研究トピックである。 シンボルを表すために固定長ベクトルを使用する従来の人工ニューラルネットワークは、いくつかの特定のタスクにおいて優れたパフォーマンスを保っているが、人間の世界に対する認識の仕方とは程遠い、解釈性に欠けるブラックボックスである。 本研究は,神経科学における乳母細胞仮説に着想を得て,stdp機構をスパイキングニューラルネットワークの学習に組み込む方法と,ニューロン群が異なるニューロン群間の連続的な発火の完了を導くことによってシンボルを表現する方法を検討した。 異なるコミュニティのニューロン集団は、コモンセンス知識グラフ全体を構成し、巨大なグラフがニューラルネットワークをスパイクする。 さらに,生物学的強化学習過程をシミュレートするr-stdp(reward-modulated spiking timing-dependent plasticity)機構を導入し,関連する推論タスクを完了し,グラフ畳み込み型ニューラルネットワークと同等の精度と収束速度を実現する。 神経科学と認知科学の分野において、この論文は人間の脳が常識的な知識を表わす方法をさらに探究するための計算モデリングの基礎を提供した。 本稿では,人工知能の分野において,常識的知識表現の構築とスパイクニューラルネットワークの推論により,より堅牢で解釈可能なニューラルネットワークの実現に向けた探索の方向性を示した。

How neural networks in the human brain represent commonsense knowledge, and complete related reasoning tasks is an important research topic in neuroscience, cognitive science, psychology, and artificial intelligence. Although the traditional artificial neural network using fixed-length vectors to represent symbols has gained good performance in some specific tasks, it is still a black box that lacks interpretability, far from how humans perceive the world. Inspired by the grandmother-cell hypothesis in neuroscience, this work investigates how population encoding and spiking timing-dependent plasticity (STDP) mechanisms can be integrated into the learning of spiking neural networks, and how a population of neurons can represent a symbol via guiding the completion of sequential firing between different neuron populations. The neuron populations of different communities together constitute the entire commonsense knowledge graph, forming a giant graph spiking neural network. Moreover, we introduced the Reward-modulated spiking timing-dependent plasticity (R-STDP) mechanism to simulate the biological reinforcement learning process and completed the related reasoning tasks accordingly, achieving comparable accuracy and faster convergence speed than the graph convolutional artificial neural networks. For the fields of neuroscience and cognitive science, the work in this paper provided the foundation of computational modeling for further exploration of the way the human brain represents commonsense knowledge. For the field of artificial intelligence, this paper indicated the exploration direction for realizing a more robust and interpretable neural network by constructing a commonsense knowledge representation and reasoning spiking neural networks with solid biological plausibility.
翻訳日:2022-07-13 13:05:41 公開日:2022-07-11
# 無監督環境設計におけるグラウンドング・アレータリック不確かさ

Grounding Aleatoric Uncertainty in Unsupervised Environment Design ( http://arxiv.org/abs/2207.05219v1 )

ライセンス: Link先を確認
Minqi Jiang, Michael Dennis, Jack Parker-Holder, Andrei Lupu, Heinrich K\"uttler, Edward Grefenstette, Tim Rockt\"aschel, Jakob Foerster(参考訳) RL(Adaptive curricula in reinforcement learning)は、列車と試験環境の相違に頑健な政策を作成するのに有効であることが証明されている。 最近、unsupervised environment design (ued)フレームワークはrlのカリキュラムを一般化して環境全体のシーケンスを生成し、ロバストなminimax regretプロパティを持つ新しいメソッドを生み出した。 問題なのは、部分的に観察可能な設定や確率的な設定では、最適なポリシーは、意図した配置設定における環境のアレエータパラメータの基底分布に依存するが、カリキュラム学習は必ずしもトレーニング分布をシフトさせる。 我々は,この現象をカリキュラム誘起共変量シフト (CICS) として定式化し,そのパラメーターの出現が最適下方策にどのように寄与するかを説明する。 これらのパラメータを地上分布から直接サンプリングすることは問題を避けるが、カリキュラム学習を妨げる。 基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 基本トラストユーティリティ関数を最適化するミニマックス後悔UED手法であるSAMPLRを提案する。 提案手法は,全環境設定におけるロバスト性を高めつつ,地道分布下で最適性を保っていることを証明し,検証する。

Adaptive curricula in reinforcement learning (RL) have proven effective for producing policies robust to discrepancies between the train and test environment. Recently, the Unsupervised Environment Design (UED) framework generalized RL curricula to generating sequences of entire environments, leading to new methods with robust minimax regret properties. Problematically, in partially-observable or stochastic settings, optimal policies may depend on the ground-truth distribution over aleatoric parameters of the environment in the intended deployment setting, while curriculum learning necessarily shifts the training distribution. We formalize this phenomenon as curriculum-induced covariate shift (CICS), and describe how its occurrence in aleatoric parameters can lead to suboptimal policies. Directly sampling these parameters from the ground-truth distribution avoids the issue, but thwarts curriculum learning. We propose SAMPLR, a minimax regret UED method that optimizes the ground-truth utility function, even when the underlying training data is biased due to CICS. We prove, and validate on challenging domains, that our approach preserves optimality under the ground-truth distribution, while promoting robustness across the full range of environment settings.
翻訳日:2022-07-13 13:04:10 公開日:2022-07-11
# 汎用マルチソースドメイン適応のための領域ディスタングルの発見

Discovering Domain Disentanglement for Generalized Multi-source Domain Adaptation ( http://arxiv.org/abs/2207.05070v1 )

ライセンス: Link先を確認
Zixin Wang, Yadan Luo, Peng-Fei Zhang, Sen Wang, Zi Huang(参考訳) 典型的なマルチソースドメイン適応(MSDA)アプローチは、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。 それにもかかわらず、以前の研究は、各ソースドメインがターゲットドメインと同一のクラスのグループを共有していると厳密に仮定しており、ターゲットラベル空間が観測不可能であるため、ほとんど保証できない。 本稿では、より汎用的なMSDA(Generalized Multi-source Domain Adaptation)について考察し、ソースドメインは部分的に重複しており、ターゲットドメインは任意のソースドメインに表示されない新しいカテゴリを含むことができる。 この新たな設定は、ドメインの共存と、ソースとターゲットドメイン間のカテゴリシフトにより、既存のドメイン適応プロトコルよりも明らかになっています。 この問題に対処するために、各インスタンスのドメイン表現と意味的特徴を分割し、次元的独立を奨励する変分ドメイン・アンタングルメント(VDD)フレームワークを提案する。 未知クラスのターゲットサンプルを識別するために,信頼度スコアに基づいて擬似ラベルを未ラベルのターゲットデータに割り当てるオンライン擬似ラベリングを利用する。 2つのベンチマークデータセット上で行われた定量的および定性的な実験は、提案フレームワークの有効性を示す。

A typical multi-source domain adaptation (MSDA) approach aims to transfer knowledge learned from a set of labeled source domains, to an unlabeled target domain. Nevertheless, prior works strictly assume that each source domain shares the identical group of classes with the target domain, which could hardly be guaranteed as the target label space is not observable. In this paper, we consider a more versatile setting of MSDA, namely Generalized Multi-source Domain Adaptation, wherein the source domains are partially overlapped, and the target domain is allowed to contain novel categories that are not presented in any source domains. This new setting is more elusive than any existing domain adaptation protocols due to the coexistence of the domain and category shifts across the source and target domains. To address this issue, we propose a variational domain disentanglement (VDD) framework, which decomposes the domain representations and semantic features for each instance by encouraging dimension-wise independence. To identify the target samples of unknown classes, we leverage online pseudo labeling, which assigns the pseudo-labels to unlabeled target data based on the confidence scores. Quantitative and qualitative experiments conducted on two benchmark datasets demonstrate the validity of the proposed framework.
翻訳日:2022-07-13 13:02:35 公開日:2022-07-11
# 時(スポーキング)ニューロンを応用したマクロコラム構造

A Macrocolumn Architecture Implemented with Temporal (Spiking) Neurons ( http://arxiv.org/abs/2207.05081v1 )

ライセンス: Link先を確認
James E. Smith(参考訳) 計算脳をボトムアップから再構築するという長期的目標により、この文書の焦点はマクロカラム抽象層である。 基本的なマクロカラムアーキテクチャは、まずその動作をステートマシンモデルで記述することによって開発される。 次に、状態マシン関数は、時間計算をサポートするスパイクニューロンで実装される。 ニューロンモデルは活発なスパイクデンドライトに基づいており、ホーキンス/ヌメンタニューロンモデルをミラーしている。 このアーキテクチャは、エージェントがマクロカラムを使用してまず学習し、次にランダムに配置された特徴を含む2次元環境をナビゲートする研究ベンチマークで実証される。 環境はマクロカラム内で、エッジが特徴を接続する有向グラフとして表現され、ラベルはその間の相対的な変位を示す。

With the long-term goal of reverse-architecting the computational brain from the bottom up, the focus of this document is the macrocolumn abstraction layer. A basic macrocolumn architecture is developed by first describing its operation with a state machine model. Then state machine functions are implemented with spiking neurons that support temporal computation. The neuron model is based on active spiking dendrites and mirrors the Hawkins/Numenta neuron model. The architecture is demonstrated with a research benchmark in which an agent uses a macrocolumn to first learn and then navigate 2-d environments containing randomly placed features. Environments are represented in the macrocolumn as labeled directed graphs where edges connect features and labels indicate the relative displacements between them.
翻訳日:2022-07-13 12:58:10 公開日:2022-07-11
# (参考訳) 教師付きコントラスト学習のための脳認識代替

Brain-Aware Replacements for Supervised Contrastive Learning ( http://arxiv.org/abs/2207.04574v1 )

ライセンス: CC BY 4.0
Mehmet Sayg{\i}n Seyfio\u{g}lu, Zixuan Liu, Pranav Kamath, Sadjyot Gangolli, Sheng Wang, Thomas Grabowski, Linda Shapiro(参考訳) 脳MRIを用いたアルツハイマー病検出のための新しい枠組みを提案する。 このフレームワークは、ブレイン・アウェア・リプレースメント(BAR)と呼ばれるデータ拡張法から始まり、標準的な脳のパーセレーションを活用して、ランダムに選択されたMRIからアンカーMRIの医療関連脳の領域を置き換える。 接地真実の「ハード」ラベルも「ソフト」ラベルを作成するために、置換比率に応じて線形に混合される。 BARは、CutMixのような他のミックスベース手法と比較して、局所的な変動性の高い、現実的な外観の合成MRIを多種多様に生成する。 BAR上では, 軟質ラベルを用いた合成MRIの相似性を反映した表現の相対的類似性を学習することを目的とした, 軟質ラベル付き教師付きコントラスト損失を用いた。 この方法では、ハードラベルのエントロピー容量を完全に消耗することはありません。 本手法を用いて事前学習したモデルは, 合成試料の作成に用いたハードラベルを用いて, クロスエントロピー損失によりさらに微調整可能であることを示す。 提案手法は,scratchの教師付きトレーニングと最先端の自己教師付きトレーニングと微調整アプローチの両方に対して,バイナリ広告検出タスクで性能を検証した。 次に,barの性能を,他のミックスベースメソッドであるcutmixと比較し,フレームワークに組み込むことで評価した。 我々は,AD検出タスクの精度とリコールの両方において,我々のフレームワークが優れた結果をもたらすことを示す。

We propose a novel framework for Alzheimer's disease (AD) detection using brain MRIs. The framework starts with a data augmentation method called Brain-Aware Replacements (BAR), which leverages a standard brain parcellation to replace medically-relevant 3D brain regions in an anchor MRI from a randomly picked MRI to create synthetic samples. Ground truth "hard" labels are also linearly mixed depending on the replacement ratio in order to create "soft" labels. BAR produces a great variety of realistic-looking synthetic MRIs with higher local variability compared to other mix-based methods, such as CutMix. On top of BAR, we propose using a soft-label-capable supervised contrastive loss, aiming to learn the relative similarity of representations that reflect how mixed are the synthetic MRIs using our soft labels. This way, we do not fully exhaust the entropic capacity of our hard labels, since we only use them to create soft labels and synthetic MRIs through BAR. We show that a model pre-trained using our framework can be further fine-tuned with a cross-entropy loss using the hard labels that were used to create the synthetic samples. We validated the performance of our framework in a binary AD detection task against both from-scratch supervised training and state-of-the-art self-supervised training plus fine-tuning approaches. Then we evaluated BAR's individual performance compared to another mix-based method CutMix by integrating it within our framework. We show that our framework yields superior results in both precision and recall for the AD detection task.
翻訳日:2022-07-13 02:54:59 公開日:2022-07-11
# (参考訳) 深層ネットワークアーキテクチャに専門家の知識を注入した多段階解釈型睡眠ステージスコアリングシステム

A multi-level interpretable sleep stage scoring system by infusing experts' knowledge into a deep network architecture ( http://arxiv.org/abs/2207.04585v1 )

ライセンス: CC BY 4.0
Hamid Niknazar and Sara C. Mednick(参考訳) 近年、ディープラーニングはコンピュータビジョン、画像、信号処理など幅広い分野において可能性と効率を示している。 しかし、アルゴリズムによる決定や結果の解釈性が欠如しているため、ユーザアプリケーションでは翻訳上の課題が残る。 このブラックボックス問題は、医療関連意思決定のようなリスクの高いアプリケーションでは特に問題となる。 現在の研究目標は、透明なシステムを設計するためのステップとして、睡眠段階スコアの時系列分類のための解釈可能な深層学習システム(EEG)を設計することであった。 本研究では,マルチソムノグラフィー記録の視覚的解析において,人間が睡眠スコアリングに使用する一連の原則に基づくカーネルベース層を含む,解釈可能な深層ニューラルネットワークを開発した。 カーネルベースの畳み込み層がシステムの最初の層として定義され、ユーザ解釈に利用できるようになった。 訓練されたシステムとその結果は、訓練されたカーネルなどの脳波信号の微細構造と検出されたステージに対する各カーネルの影響から、ステージ間の遷移のようなマクロ構造まで4段階に解釈された。 提案システムは先行研究よりも高い性能を示し,解釈結果から,専門家の知識と整合性のある情報を学習したことが示された。

In recent years, deep learning has shown potential and efficiency in a wide area including computer vision, image and signal processing. Yet, translational challenges remain for user applications due to a lack of interpretability of algorithmic decisions and results. This black box problem is particularly problematic for high-risk applications such as medical-related decision-making. The current study goal was to design an interpretable deep learning system for time series classification of electroencephalogram (EEG) for sleep stage scoring as a step toward designing a transparent system. We have developed an interpretable deep neural network that includes a kernel-based layer based on a set of principles used for sleep scoring by human experts in the visual analysis of polysomnographic records. A kernel-based convolutional layer was defined and used as the first layer of the system and made available for user interpretation. The trained system and its results were interpreted in four levels from the microstructure of EEG signals, such as trained kernels and the effect of each kernel on the detected stages, to macrostructures, such as the transition between stages. The proposed system demonstrated greater performance than prior studies and the results of interpretation showed that the system learned information which was consistent with expert knowledge.
翻訳日:2022-07-13 02:44:11 公開日:2022-07-11
# (参考訳) 低ランク混合モデルに対するロイドアルゴリズムによる最適クラスタリング

Optimal Clustering by Lloyd Algorithm for Low-Rank Mixture Model ( http://arxiv.org/abs/2207.04600v1 )

ライセンス: CC BY 4.0
Zhongyuan Lyu and Dong Xia(参考訳) 本稿では,クラスタリング行列値観測における計算と統計の限界について検討する。 本稿では,従来のガウス混合モデル(GMM)を応用した低ランク混合モデル(LrMM)を提案する。 ロイドアルゴリズムと低ランク近似を統合して計算効率のよいクラスタリング法を設計する。 うまく初期化されるとアルゴリズムは高速に収束し、極小値の指数型クラスタリング誤差率を達成する。 一方,テンソルに基づくスペクトル法は良好な初期クラスタリングをもたらすことを示す。 GMMと比較して、最小マックス最適クラスタリング誤差率は、分離強度、すなわち人口中心行列間の最小距離によって決定される。 低ランク性を活用することで,提案手法は分離強度の弱さを享受できる。 しかし、GMMとは異なり、LrMMの統計的および計算的難易度は信号強度、すなわち人口中心行列の最小の非ゼロ特異値によって特徴づけられる。 分離強度が強いにもかかわらず、信号強度が十分強くなければ多項式時間アルゴリズムは整合性がないことを示す証拠が提供される。 低ランクロイドアルゴリズムの性能は、サブガウシアンノイズ下でさらに実証される。 LrMMにおける推定とクラスタリングの違いについて論じる。 低ランクロイドアルゴリズムの利点は包括的シミュレーション実験によって確かめられる。 最後に,本手法は実世界のデータセットの文献において,他の手法よりも優れている。

This paper investigates the computational and statistical limits in clustering matrix-valued observations. We propose a low-rank mixture model (LrMM), adapted from the classical Gaussian mixture model (GMM) to treat matrix-valued observations, which assumes low-rankness for population center matrices. A computationally efficient clustering method is designed by integrating Lloyd algorithm and low-rank approximation. Once well-initialized, the algorithm converges fast and achieves an exponential-type clustering error rate that is minimax optimal. Meanwhile, we show that a tensor-based spectral method delivers a good initial clustering. Comparable to GMM, the minimax optimal clustering error rate is decided by the separation strength, i.e, the minimal distance between population center matrices. By exploiting low-rankness, the proposed algorithm is blessed with a weaker requirement on separation strength. Unlike GMM, however, the statistical and computational difficulty of LrMM is characterized by the signal strength, i.e, the smallest non-zero singular values of population center matrices. Evidences are provided showing that no polynomial-time algorithm is consistent if the signal strength is not strong enough, even though the separation strength is strong. The performance of our low-rank Lloyd algorithm is further demonstrated under sub-Gaussian noise. Intriguing differences between estimation and clustering under LrMM are discussed. The merits of low-rank Lloyd algorithm are confirmed by comprehensive simulation experiments. Finally, our method outperforms others in the literature on real-world datasets.
翻訳日:2022-07-13 02:41:38 公開日:2022-07-11
# (参考訳) confounder-freeモデル構築のための特徴分布正規化に対するペナルティアプローチ

A Penalty Approach for Normalizing Feature Distributions to Build Confounder-Free Models ( http://arxiv.org/abs/2207.04607v1 )

ライセンス: CC BY 4.0
Anthony Vento and Qingyu Zhao and Robert Paul and Kilian M. Pohl and Ehsan Adeli(参考訳) 機械学習アルゴリズムを臨床応用に翻訳するには、変数(あるいはメタデータ)を結合する効果を考慮に入れるなど、解釈可能性に関連する課題に対処する必要がある。 コンファウンディング変数は、入力トレーニングデータとターゲット出力の関係に影響する。 このようなデータでモデルをトレーニングすると、変数の結合は学習した機能の分布に偏ります。 最近の有望なソリューションであるMetaData Normalization (MDN) は、学習不能なクローズドフォームソリューションに基づいてメタデータと各機能の線形関係を推定する。 しかし、この推定はミニバッチのサンプルサイズに制限されるため、トレーニング中にアプローチが不安定になる可能性がある。 本稿では,刑罰法(PDMN)を適用してMDN法を拡張した。 この問題を2レベルネスト最適化問題に落とし込みました。 次に、この最適化問題をペナルティ法を用いて近似し、MDN層内の線形パラメータをトレーニング可能とし、全てのサンプルから学習する。 これにより、PMDNは任意のアーキテクチャにプラグインでき、トランスフォーマーやリカレントモデルのようなバッチレベルの操作には適さない。 MDNによるモデル精度の向上とMDN上のMDNを用いた共同設立者からの独立性の向上を示す。

Translating machine learning algorithms into clinical applications requires addressing challenges related to interpretability, such as accounting for the effect of confounding variables (or metadata). Confounding variables affect the relationship between input training data and target outputs. When we train a model on such data, confounding variables will bias the distribution of the learned features. A recent promising solution, MetaData Normalization (MDN), estimates the linear relationship between the metadata and each feature based on a non-trainable closed-form solution. However, this estimation is confined by the sample size of a mini-batch and thereby may cause the approach to be unstable during training. In this paper, we extend the MDN method by applying a Penalty approach (referred to as PDMN). We cast the problem into a bi-level nested optimization problem. We then approximate this optimization problem using a penalty method so that the linear parameters within the MDN layer are trainable and learned on all samples. This enables PMDN to be plugged into any architectures, even those unfit to run batch-level operations, such as transformers and recurrent models. We show improvement in model accuracy and greater independence from confounders using PMDN over MDN in a synthetic experiment and a multi-label, multi-site dataset of magnetic resonance images (MRIs).
翻訳日:2022-07-13 02:39:09 公開日:2022-07-11
# (参考訳) 深層学習における相乗効果と対称性:データ,モデル,推論アルゴリズム間の相互作用

Synergy and Symmetry in Deep Learning: Interactions between the Data, Model, and Inference Algorithm ( http://arxiv.org/abs/2207.04612v1 )

ライセンス: CC BY 4.0
Lechao Xiao, Jeffrey Pennington(参考訳) 高次元での学習は次元性の呪いに苦しむのが一般的であるが、現代の機械学習手法は大量のデータを用いることなく、広範囲にわたる現実の学習問題に取り組む驚くべき力を示すことが多い。 これらの手法がいかにしてこの呪いを破るかは、深層学習理論における根本的な疑問である。 本稿では,データ (d), モデル (m), 推論アルゴリズム (i) を独立モジュールとして研究し, 先行研究によりこの問題を調査してきたが, 3重項 (d, m, i) を統合システムとして分析し, 次元の呪いを和らげる重要な相乗効果を明らかにした。 まず, 各種学習アルゴリズム(M, I)に関連する基本対称性について検討し, 完全連結ネットワーク(FCN), 局所連結ネットワーク(LCN), プールのない畳み込みネットワーク(GAP/VEC)の4つの原型アーキテクチャに着目した。 これらの対称性がデータ分布と互換性がある場合、学習は最も効率的であり、(D, M, I)三重項のメンバーが矛盾または最適でない場合、性能は著しく低下する。

Although learning in high dimensions is commonly believed to suffer from the curse of dimensionality, modern machine learning methods often exhibit an astonishing power to tackle a wide range of challenging real-world learning problems without using abundant amounts of data. How exactly these methods break this curse remains a fundamental open question in the theory of deep learning. While previous efforts have investigated this question by studying the data (D), model (M), and inference algorithm (I) as independent modules, in this paper, we analyze the triplet (D, M, I) as an integrated system and identify important synergies that help mitigate the curse of dimensionality. We first study the basic symmetries associated with various learning algorithms (M, I), focusing on four prototypical architectures in deep learning: fully-connected networks (FCN), locally-connected networks (LCN), and convolutional networks with and without pooling (GAP/VEC). We find that learning is most efficient when these symmetries are compatible with those of the data distribution and that performance significantly deteriorates when any member of the (D, M, I) triplet is inconsistent or suboptimal.
翻訳日:2022-07-13 02:27:46 公開日:2022-07-11
# (参考訳) 単段検出器によるインスタンスシャドー検出

Instance Shadow Detection with A Single-Stage Detector ( http://arxiv.org/abs/2207.04614v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Xiaowei Hu, Pheng-Ann Heng, Chi-Wing Fu(参考訳) 本稿では,シャドウインスタンスの検出を目的とした新たな問題であるシャドウ検出と,各シャドウを入力画像にキャストする関連オブジェクトインスタンスを定式化する。 このタスクにアプローチするために、shadowインスタンス、objectインスタンス、shadow-object関連用のマスクで新しいデータセットをコンパイルします。 次に,インスタンス陰影検出の性能を定量的に評価するための評価指標を設計する。 さらに,2方向関係学習モジュールと変形可能なマスクIoUヘッドが検出器内で提案され,影インスタンスとオブジェクトインスタンスの関係を直接学習し,予測されたマスクの精度を向上させる一段検出器の設計を行った。 最後に,本手法をインスタンスシャドー検出のベンチマークデータセットで定量的に定量的に評価し,光方向推定と写真編集への適用性を示す。

This paper formulates a new problem, instance shadow detection, which aims to detect shadow instance and the associated object instance that cast each shadow in the input image. To approach this task, we first compile a new dataset with the masks for shadow instances, object instances, and shadow-object associations. We then design an evaluation metric for quantitative evaluation of the performance of instance shadow detection. Further, we design a single-stage detector to perform instance shadow detection in an end-to-end manner, where the bidirectional relation learning module and the deformable maskIoU head are proposed in the detector to directly learn the relation between shadow instances and object instances and to improve the accuracy of the predicted masks. Finally, we quantitatively and qualitatively evaluate our method on the benchmark dataset of instance shadow detection and show the applicability of our method on light direction estimation and photo editing.
翻訳日:2022-07-13 01:52:39 公開日:2022-07-11
# (参考訳) 神経表面を有するエッジ保存近接光量ステレオ

Edge-preserving Near-light Photometric Stereo with Neural Surfaces ( http://arxiv.org/abs/2207.04622v1 )

ライセンス: CC BY 4.0
Heng Guo, Hiroaki Santo, Boxin Shi, Yasuyuki Matsushita(参考訳) 本稿では3次元再構成におけるシャープ深度を忠実に保存する近光測光ステレオ法を提案する。 深度偏微分や表面正規化を近似するために有限微分に依存する従来の方法とは異なり、近光光度ステレオで解析的に微分可能な神経表面を導入し、深度を画像座標の神経関数として表現する鋭い深さエッジにおける微分誤差を回避する。 さらに、ランベルシャン・アルベドを、表面の正規化と深さから生じる依存変数として定式化することで、深さ初期化の正確性が低下する。 合成シーンと実世界のシーンの両方で実験を行い,エッジ保存による形状復元法の有効性を実証した。

This paper presents a near-light photometric stereo method that faithfully preserves sharp depth edges in the 3D reconstruction. Unlike previous methods that rely on finite differentiation for approximating depth partial derivatives and surface normals, we introduce an analytically differentiable neural surface in near-light photometric stereo for avoiding differentiation errors at sharp depth edges, where the depth is represented as a neural function of the image coordinates. By further formulating the Lambertian albedo as a dependent variable resulting from the surface normal and depth, our method is insusceptible to inaccurate depth initialization. Experiments on both synthetic and real-world scenes demonstrate the effectiveness of our method for detailed shape recovery with edge preservation.
翻訳日:2022-07-13 01:24:24 公開日:2022-07-11
# (参考訳) SkexGen: 歪んだコードブックを用いたCAD構築シーケンスの自動回帰生成

SkexGen: Autoregressive Generation of CAD Construction Sequences with Disentangled Codebooks ( http://arxiv.org/abs/2207.04632v1 )

ライセンス: CC BY 4.0
Xiang Xu, Karl D.D. Willis, Joseph G. Lambourne, Chin-Yi Cheng, Pradeep Kumar Jayaraman, Yasutaka Furukawa(参考訳) 我々は、スケッチ・アンド・エクスクルード・モデリング操作を含むコンピュータ支援設計(CAD)構築シーケンスのための新しい自己回帰生成モデルであるSkexGenを提案する。 本モデルは、異なるトランスフォーマーアーキテクチャを用いて、構造列の位相的、幾何学的、押出的変化を異方コードブックにエンコードする。 自動回帰トランスフォーマーデコーダは、コードブックベクトルによって指定された特定の特性を共有するCAD構成シーケンスを生成する。 広汎な実験により,コードブック表現は多種多様な高品質CADモデルを生成し,ユーザ制御を強化し,設計空間の効率的な探索を可能にした。 コードはhttps://samxuxiang.github.io/skexgenで入手できる。

We present SkexGen, a novel autoregressive generative model for computer-aided design (CAD) construction sequences containing sketch-and-extrude modeling operations. Our model utilizes distinct Transformer architectures to encode topological, geometric, and extrusion variations of construction sequences into disentangled codebooks. Autoregressive Transformer decoders generate CAD construction sequences sharing certain properties specified by the codebook vectors. Extensive experiments demonstrate that our disentangled codebook representation generates diverse and high-quality CAD models, enhances user control, and enables efficient exploration of the design space. The code is available at https://samxuxiang.github.io/skexgen.
翻訳日:2022-07-13 01:12:21 公開日:2022-07-11
# (参考訳) SAR船舶分類のための双極化情報案内ネットワーク

A Dual-Polarization Information Guided Network for SAR Ship Classification ( http://arxiv.org/abs/2207.04639v1 )

ライセンス: CC BY 4.0
Tianwen Zhang, and Xiaoling Zhang(参考訳) 偏光を完全に活用して合成開口レーダ(SAR)船の分類を強化する方法は未解決の問題である。 そこで本稿では,DPIG-Net(Double-polarization information guided Network)を提案する。

How to fully utilize polarization to enhance synthetic aperture radar (SAR) ship classification remains an unresolved issue. Thus, we propose a dual-polarization information guided network (DPIG-Net) to solve it.
翻訳日:2022-07-13 00:54:55 公開日:2022-07-11
# (参考訳) スパースミキサーを用いた大規模ユニバーサルユーザ表現の学習

Learning Large-scale Universal User Representation with Sparse Mixture of Experts ( http://arxiv.org/abs/2207.04648v1 )

ライセンス: CC BY 4.0
Caigao Jiang, Siqiao Xue, James Zhang, Lingyue Liu, Zhibo Zhu, Hongyan Hao(参考訳) ユーザシーケンスの振る舞いの埋め込みを学習するのは、時間と高次元にわたる複雑な機能相互作用のため、非常に高度で難しい。 最近の基盤モデル、例えばBERTとその変種は、多くの研究者がこの分野で研究することを奨励している。 しかし、自然言語処理(NLP)タスクとは異なり、ユーザ行動モデルのパラメータは、主にユーザ埋め込み層から来ているため、既存のほとんどの作業は大規模なユーザ埋め込みのトレーニングに失敗する。 さらに,複数のダウンストリームタスクからユーザ表現を学習し,過去の研究ではシーソー現象に対処していない。 本稿では,複数のタスクから高品質なユーザ表現を得るための汎用フレームワークであるSUPERMOEを提案する。 具体的には、ユーザ動作シーケンスはmoeトランスフォーマーによってエンコードされ、モデルキャパシティを数十億のパラメータ、さらには数兆のパラメータに増やすことができます。 複数のタスクにまたがる学習時のシーソー現象に対処するために,タスクインジケータを用いた新しい損失関数を設計する。 我々は、パブリックデータセットで広範囲なオフライン実験を行い、プライベートな実ビジネスシナリオのオンライン実験を行う。 我々のアプローチは最先端モデルよりも最高のパフォーマンスを達成し,その結果,フレームワークの有効性を実証する。

Learning user sequence behaviour embedding is very sophisticated and challenging due to the complicated feature interactions over time and high dimensions of user features. Recent emerging foundation models, e.g., BERT and its variants, encourage a large body of researchers to investigate in this field. However, unlike natural language processing (NLP) tasks, the parameters of user behaviour model come mostly from user embedding layer, which makes most existing works fail in training a universal user embedding of large scale. Furthermore, user representations are learned from multiple downstream tasks, and the past research work do not address the seesaw phenomenon. In this paper, we propose SUPERMOE, a generic framework to obtain high quality user representation from multiple tasks. Specifically, the user behaviour sequences are encoded by MoE transformer, and we can thus increase the model capacity to billions of parameters, or even to trillions of parameters. In order to deal with seesaw phenomenon when learning across multiple tasks, we design a new loss function with task indicators. We perform extensive offline experiments on public datasets and online experiments on private real-world business scenarios. Our approach achieves the best performance over state-of-the-art models, and the results demonstrate the effectiveness of our framework.
翻訳日:2022-07-13 00:44:07 公開日:2022-07-11
# (参考訳) トピックグレードテキスト表現に基づく文書検索モデル

Topic-Grained Text Representation-based Model for Document Retrieval ( http://arxiv.org/abs/2207.04656v1 )

ライセンス: CC BY 4.0
Mengxue Du, Shasha Li, Jie Yu, Jun Ma, Bin Ji, Huijun Liu, Wuhang Lin, Zibo Yi(参考訳) 文書検索により、ユーザーは必要な文書を正確かつ迅速に見つけることができる。 検索効率の要求を満たすため、一般的なディープニューラルメソッドでは、文書表現をオフラインに保存することでオンラインマッチング時間を節約する表現ベースのマッチングパラダイムを採用している。 しかし、上記のパラダイムは、特に文書を単語のきめ細かい表現として保存する際に、広大なローカルストレージ空間を消費する。 そこで本稿では,TGTR(Topic-Grained Text Representation-based Model)を提案する。 表現に基づくマッチングのパラダイムに従って、TGTRは文書表現をオフラインに保存し、検索効率を確保する。 実験結果から,TGTRは単語粒度のベースラインと比較して,TREC CARやMS MARCOと連続的に競合するが,要求される記憶空間の1/10以下であることがわかった。 さらに,TGTRは,検索精度において,大域的なベースラインを超えている。

Document retrieval enables users to find their required documents accurately and quickly. To satisfy the requirement of retrieval efficiency, prevalent deep neural methods adopt a representation-based matching paradigm, which saves online matching time by pre-storing document representations offline. However, the above paradigm consumes vast local storage space, especially when storing the document as word-grained representations. To tackle this, we present TGTR, a Topic-Grained Text Representation-based Model for document retrieval. Following the representation-based matching paradigm, TGTR stores the document representations offline to ensure retrieval efficiency, whereas it significantly reduces the storage requirements by using novel topicgrained representations rather than traditional word-grained. Experimental results demonstrate that compared to word-grained baselines, TGTR is consistently competitive with them on TREC CAR and MS MARCO in terms of retrieval accuracy, but it requires less than 1/10 of the storage space required by them. Moreover, TGTR overwhelmingly surpasses global-grained baselines in terms of retrieval accuracy.
翻訳日:2022-07-13 00:32:34 公開日:2022-07-11
# (参考訳) summscore:クロスエンコーダに基づく要約品質のための総合評価指標

SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder ( http://arxiv.org/abs/2207.04660v1 )

ライセンス: CC BY 4.0
Wuhang Lin, Shasha Li, Chen Zhang, Bin Ji, Jie Yu, Jun Ma, Zibo Yi(参考訳) テキスト要約モデルは、人間の品質要件を満たす要約を生成するためにしばしば訓練される。 しかし,既存の要約テキストの評価基準は,要約品質の粗末なプロキシに過ぎず,人間の評価値との相関が低く,要約の多様性が阻害されている。 そこで本研究では,CrossEncoderに基づく要約品質評価のための総合指標であるSummScoreを提案する。 まず、元の要約計測モードを採用し、元のテキストの意味を比較することで、summscoreは要約の多様性の抑制を取り除きます。 SummScoreはテキストマッチング事前学習型クロスエンコーダの助けを借りて、要約のセマンティクス間の微妙な違いを効果的に捉えることができる。 第二に、包括性と解釈性を改善するために、SummScoreは4つのきめ細かいサブモデルで構成されている。 極めて限られたアノテートデータ上でのモデルの性能向上のために, 半教師付きマルチラウンドトレーニングを用いている。 SummScoreは上記の4次元の既存の評価指標と人間のスコアとの相関を著しく上回っている。 また,SummScoreの品質評価結果を16の主流要約モデル上で行った。

Text summarization models are often trained to produce summaries that meet human quality requirements. However, the existing evaluation metrics for summary text are only rough proxies for summary quality, suffering from low correlation with human scoring and inhibition of summary diversity. To solve these problems, we propose SummScore, a comprehensive metric for summary quality evaluation based on CrossEncoder. Firstly, by adopting the original-summary measurement mode and comparing the semantics of the original text, SummScore gets rid of the inhibition of summary diversity. With the help of the text-matching pre-training Cross-Encoder, SummScore can effectively capture the subtle differences between the semantics of summaries. Secondly, to improve the comprehensiveness and interpretability, SummScore consists of four fine-grained submodels, which measure Coherence, Consistency, Fluency, and Relevance separately. We use semi-supervised multi-rounds of training to improve the performance of our model on extremely limited annotated data. Extensive experiments show that SummScore significantly outperforms existing evaluation metrics in the above four dimensions in correlation with human scoring. We also provide the quality evaluation results of SummScore on 16 mainstream summarization models for later research.
翻訳日:2022-07-13 00:23:02 公開日:2022-07-11
# (参考訳) 人間中心の機械翻訳をスケールする言語は残っていない

No Language Left Behind: Scaling Human-Centered Machine Translation ( http://arxiv.org/abs/2207.04672v1 )

ライセンス: CC BY-SA 4.0
NLLB team, Marta R. Costa-juss\`a, James Cross, Onur \c{C}elebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzm\'an, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang (NLLB Team)(参考訳) 世界規模で言語の障壁を根絶するという目標によって、機械翻訳は、今日の人工知能研究の重要な焦点として固まった。 しかし、そのような取り組みは少数の言語のサブセットに集約され、ほとんどの低リソース言語が残されている。 倫理的考慮を念頭に置いて、安全で高品質な結果を確保しながら、200の言語の障壁を破るためには、何が必要でしょうか? 残された言語は、まず、ネイティブスピーカーとの探索的なインタビューを通じて、低リソース言語翻訳サポートの必要性をコンテキスト化することで、この課題に取り組みました。 そして、低リソース言語と高リソース言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成しました。 より具体的には、低リソース言語に適した新しい効率的なデータマイニング技術を用いて得られたデータに基づいて訓練されたSparsely Gated Mixture of Expertsに基づく条件付き計算モデルを開発した。 我々は,数千のタスクをトレーニングしながらオーバーフィッティングを回避するために,複数のアーキテクチャとトレーニングの改善を提案する。 批判的に,人間翻訳ベンチマークであるFlores-200を用いて4万以上の翻訳方向の評価を行い,人による評価とフロレス200の全言語を対象とした新しい毒性ベンチマークを併用して翻訳安全性を評価した。 本モデルは,先行技術に比べて44%bleuの改善を達成し,汎用翻訳システムの実現に向けた重要な基礎研究を行った。 最後に、この研究で説明したすべてのコントリビューションを、https://github.com/facebookresearch/fairseq/tree/nllbで公開しています。

Driven by the goal of eradicating language barriers on a global scale, machine translation has solidified itself as a key focus of artificial intelligence research today. However, such efforts have coalesced around a small subset of languages, leaving behind the vast majority of mostly low-resource languages. What does it take to break the 200 language barrier while ensuring safe, high quality results, all while keeping ethical considerations in mind? In No Language Left Behind, we took on this challenge by first contextualizing the need for low-resource language translation support through exploratory interviews with native speakers. Then, we created datasets and models aimed at narrowing the performance gap between low and high-resource languages. More specifically, we developed a conditional compute model based on Sparsely Gated Mixture of Experts that is trained on data obtained with novel and effective data mining techniques tailored for low-resource languages. We propose multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. Critically, we evaluated the performance of over 40,000 different translation directions using a human-translated benchmark, Flores-200, and combined human evaluation with a novel toxicity benchmark covering all languages in Flores-200 to assess translation safety. Our model achieves an improvement of 44% BLEU relative to the previous state-of-the-art, laying important groundwork towards realizing a universal translation system. Finally, we open source all contributions described in this work, accessible at https://github.com/facebookresearch/fairseq/tree/nllb.
翻訳日:2022-07-13 00:11:13 公開日:2022-07-11
# (参考訳) CAMS:ソーシャルメディア投稿におけるメンタルヘルス問題の因果分析のための注釈付きコーパス

CAMS: An Annotated Corpus for Causal Analysis of Mental Health Issues in Social Media Posts ( http://arxiv.org/abs/2207.04674v1 )

ライセンス: CC BY 4.0
Muskan Garg, Chandni Saxena, Veena Krishnan, Ruchi Joshi, Sriparna Saha, Vijay Mago, Bonnie J Dorr(参考訳) 研究コミュニティは、ソーシャルメディアの分析によるメンタルヘルス問題とその関連する理由の検出において、かなりの成長を見せている。 ソーシャルメディア投稿(cams)におけるメンタルヘルス問題の因果分析のための新しいデータセットを提案する。 因果分析への私たちの貢献は、因果解釈と因果分類の2つです。 本稿では,この因果解析のためのアノテーションスキーマを提案する。 2つの異なるデータセットでスキーマの有効性を示す。 (i)3155のreddit投稿のクロールと注釈 (ii)解釈可能な因果分析のために1896年インスタンスのsdcnlデータセットを再注釈する。 さらにこれらをCAMSデータセットと組み合わせて、関連するソースコードとともに、このリソースを公開します。 本稿では,CAMSデータセットから得られたモデルの実験結果と,従来のロジスティック回帰モデルが次善(CNN-LSTM)モデルよりも4.9倍精度で優れていることを示す。

Research community has witnessed substantial growth in the detection of mental health issues and their associated reasons from analysis of social media. We introduce a new dataset for Causal Analysis of Mental health issues in Social media posts (CAMS). Our contributions for causal analysis are two-fold: causal interpretation and causal categorization. We introduce an annotation schema for this task of causal analysis. We demonstrate the efficacy of our schema on two different datasets: (i) crawling and annotating 3155 Reddit posts and (ii) re-annotating the publicly available SDCNL dataset of 1896 instances for interpretable causal analysis. We further combine these into the CAMS dataset and make this resource publicly available along with associated source code: https://github.com/drmuskangarg/CAMS. We present experimental results of models learned from CAMS dataset and demonstrate that a classic Logistic Regression model outperforms the next best (CNN-LSTM) model by 4.9\% accuracy.
翻訳日:2022-07-13 00:08:26 公開日:2022-07-11
# (参考訳) COO:オノマトペアのコマトペア・データセットで任意のテキストを認識(動画あり)

COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated Texts ( http://arxiv.org/abs/2207.04675v1 )

ライセンス: CC BY-SA 4.0
Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa(参考訳) 不規則なテキストを認識することは、テキスト認識において難しいトピックである。 本研究を奨励するために,日本漫画におけるオノマトペテキストからなる,新しい漫画オノマトペデータセット(coo)を提案する。 COOは、非常に湾曲した、部分的に縮小したテキスト、任意に配置されたテキストなど、多くの任意のテキストを持っている。 さらに、いくつかのテキストはいくつかの部分に分けられる。 各部分は切り刻まれたテキストであり、それ自体は意味がない。 これらの部分は、意図した意味を表すためにリンクされるべきである。 そこで本研究では,テキスト間のリンクを予測する新しいタスクを提案する。 我々はオノマトペ領域を検出し,その意図する意味であるテキスト検出,テキスト認識,リンク予測の3つのタスクを実行する。 広範な実験を通じて,COOの特徴を分析した。 我々のデータとコードは \url{https://github.com/ku21fan/COO-Comic-Onomatopoeia} で利用可能です。

Recognizing irregular texts has been a challenging topic in text recognition. To encourage research on this topic, we provide a novel comic onomatopoeia dataset (COO), which consists of onomatopoeia texts in Japanese comics. COO has many arbitrary texts, such as extremely curved, partially shrunk texts, or arbitrarily placed texts. Furthermore, some texts are separated into several parts. Each part is a truncated text and is not meaningful by itself. These parts should be linked to represent the intended meaning. Thus, we propose a novel task that predicts the link between truncated texts. We conduct three tasks to detect the onomatopoeia region and capture its intended meaning: text detection, text recognition, and link prediction. Through extensive experiments, we analyze the characteristics of the COO. Our data and code are available at \url{https://github.com/ku21fan/COO-Comic-Onomatopoeia}.
翻訳日:2022-07-12 23:53:13 公開日:2022-07-11
# (参考訳) PUF-Phenotype:機械学習を用いたグループ内認証支援のためのロバストかつ耐雑音性アプローチ

PUF-Phenotype: A Robust and Noise-Resilient Approach to Aid Intra-Group-based Authentication with DRAM-PUFs Using Machine Learning ( http://arxiv.org/abs/2207.04692v1 )

ライセンス: CC BY 4.0
Owen Millwood, Jack Miskelly, Bohao Yang, Prosanta Gope, Elif Kavun, Chenghua Lin(参考訳) 現代社会では、高度にセキュアで信頼性の高い軽量システムの需要が高まっているため、Physically Unclonable Functions (PUF) は、高コストの暗号化技術とセキュアなキーストレージに代わる軽量な代替手段を約束し続けている。 PUFが約束するセキュリティ機能は、セキュアなシステムデザイナにとって非常に魅力的なものだが、さまざまな高度な攻撃に対して脆弱であることが示されている。 近年のML-MAでは、PUFのエラー訂正に必要なヘルパーデータを利用して、応答データの知識を必要とせずにPUFの応答を予測している。 これに対し、従来のストレージのPUF技術と、既知のチャレンジ・レスポンス・ペア(CRP)の比較とは対照的に、MLの助けを借りてPUFデバイスの認証についての研究が進んでいる。 本稿では,新しいPUF-Phenotypeの概念に基づくMLを用いた分類システムを提案する。 我々の知る限りでは、グループベースのPUF認証方式を実現するために、モデル毎に複数のデバイスにまたがる分類を初めて行う。 改良された深部畳み込みニューラルネットワーク(CNN)を用いて,複数の確立された分類器とともに特徴抽出を行う。 また,本モデルの性能をraspberry piデバイス上で検証し,提案モデルをリソース制約環境にデプロイする可能性について検証した。

As the demand for highly secure and dependable lightweight systems increases in the modern world, Physically Unclonable Functions (PUFs) continue to promise a lightweight alternative to high-cost encryption techniques and secure key storage. While the security features promised by PUFs are highly attractive for secure system designers, they have been shown to be vulnerable to various sophisticated attacks - most notably Machine Learning (ML) based modelling attacks (ML-MA) which attempt to digitally clone the PUF behaviour and thus undermine their security. More recent ML-MA have even exploited publicly known helper data required for PUF error correction in order to predict PUF responses without requiring knowledge of response data. In response to this, research is beginning to emerge regarding the authentication of PUF devices with the assistance of ML as opposed to traditional PUF techniques of storage and comparison of pre-known Challenge-Response pairs (CRPs). In this article, we propose a classification system using ML based on a novel `PUF-Phenotype' concept to accurately identify the origin and determine the validity of noisy memory derived (DRAM) PUF responses as an alternative to helper data-reliant denoising techniques. To our best knowledge, we are the first to perform classification over multiple devices per model to enable a group-based PUF authentication scheme. We achieve up to 98\% classification accuracy using a modified deep convolutional neural network (CNN) for feature extraction in conjunction with several well-established classifiers. We also experimentally verified the performance of our model on a Raspberry Pi device to determine the suitability of deploying our proposed model in a resource-constrained environment.
翻訳日:2022-07-12 23:34:00 公開日:2022-07-11
# (参考訳) 頸部異常細胞検出における文脈関係の探索

Exploring Contextual Relationships for Cervical Abnormal Cell Detection ( http://arxiv.org/abs/2207.04693v1 )

ライセンス: CC BY 4.0
Yixiong Liang, Shuo Feng, Qing Liu, Hulin Kuang, Liyan Liao, Yun Du, Nanying Che, Jianfeng Liu, Jianxin Wang(参考訳) 頸部異常細胞検出は、異常細胞と正常細胞の形態的差異が通常微妙であるため、難しい課題である。 頸部細胞が正常か異常かを決定するため、細胞病理学者は常に周囲の細胞を参照し、その異常を特定するために注意深い比較を行う。 これらの臨床行動を模倣するために, 頸部異常細胞検出の性能を高めるために, 文脈関係を検討することを提案する。 具体的には,各関心領域(RoI)の提案の特徴を高めるために,細胞と細胞間画像の文脈的関係を利用した。 そこで,RoI-relationship attention module (RRAM) と Global RoI attention module (GRAM) と呼ばれる2つのモジュールを開発し,それらの組み合わせ戦略についても検討した。 特徴ピラミッドネットワーク(FPN)を用いたシングルヘッドまたはダブルヘッドの高速R-CNNを用いて強力なベースラインを設定し,RRAMとGRAMを統合し,提案モジュールの有効性を検証する。 4万枚の細胞画像からなる頸部細胞検出データセットを用いて行った実験により、RRAMとGRAMの導入は、ベースライン法よりも平均精度(AP)が良いことが判明した。 さらに,RRAMとGRAMをカスケードする場合,本手法は最先端(SOTA)手法よりも優れる。 さらに,提案手法により画像レベルの分類やスメアレベルの分類が容易になることを示す。 コードとトレーニングされたモデルはhttps://github.com/CVIU-CSU/CR4CACDで公開されている。

Cervical abnormal cell detection is a challenging task as the morphological differences between abnormal cells and normal cells are usually subtle. To determine whether a cervical cell is normal or abnormal, cytopathologists always take surrounding cells as references and make careful comparison to identify its abnormality. To mimic these clinical behaviors, we propose to explore contextual relationships to boost the performance of cervical abnormal cell detection. Specifically, both contextual relationships between cells and cell-to-global images are exploited to enhance features of each region of interest (RoI) proposals. Accordingly, two modules, termed as RoI-relationship attention module (RRAM) and global RoI attention module (GRAM) are developed and their combination strategies are also investigated. We setup strong baselines by using single-head or double-head Faster R-CNN with feature pyramid network (FPN) and integrate our RRAM and GRAM into them to validate the effectiveness of the proposed modules. Experiments conducted on a large cervical cell detection dataset consisting of 40,000 cytology images reveal that the introduction of RRAM and GRAM both achieves better average precision (AP) than the baseline methods. Moreover, when cascading RRAM and GRAM, our method outperforms the state-of-the-art (SOTA) methods. Furthermore, we also show the proposed feature enhancing scheme can facilitate the image-level and smear-level classification. The code and trained models are publicly available at https://github.com/CVIU-CSU/CR4CACD.
翻訳日:2022-07-12 23:06:32 公開日:2022-07-11
# (参考訳) コンピュータビジョンを用いた児童・青年精神科における行動知覚の解釈可能性

Interpretability by design using computer vision for behavioral sensing in child and adolescent psychiatry ( http://arxiv.org/abs/2207.04724v1 )

ライセンス: CC BY 4.0
Flavia D. Frumosu, Nicole N. L{\o}nfeldt, A.-R. Cecilie Mora-Jensen, Sneha Das, Nicklas Leander Lund, A. Katrine Pagsberg, Line K. H. Clemmensen(参考訳) 観察は人間の行動や精神状態の理解と研究に欠かせない道具である。 しかし、人間の行動のコーディングは、信頼性が達成困難でバイアスがリスクとなる、時間を要する高価な作業である。 機械学習(ML)メソッドは、臨床および研究環境におけるアプリケーションの信頼性の向上、コスト削減、行動コーディングのスケールアップを提供する。 ここでは、コンピュータビジョンを用いて行動規範やゴールド標準行動評価システムの概念を導き、メンタルヘルスの専門家に親しみやすい解釈を提供する。 小児および青年期における強迫性障害を伴わない臨床診断面接のビデオから特徴を抽出した。 私たちの計算による評価は、ネガティブ感情、活動レベル/覚醒、不安に対する人間のエキスパート評価に匹敵するものでした。 意識と肯定的な影響概念について,我々のML評価は合理的に評価された。 しかし、視線と発声の結果は、データ品質の向上や追加データモダリティの必要性を示している。

Observation is an essential tool for understanding and studying human behavior and mental states. However, coding human behavior is a time-consuming, expensive task, in which reliability can be difficult to achieve and bias is a risk. Machine learning (ML) methods offer ways to improve reliability, decrease cost, and scale up behavioral coding for application in clinical and research settings. Here, we use computer vision to derive behavioral codes or concepts of a gold standard behavioral rating system, offering familiar interpretation for mental health professionals. Features were extracted from videos of clinical diagnostic interviews of children and adolescents with and without obsessive-compulsive disorder. Our computationally-derived ratings were comparable to human expert ratings for negative emotions, activity-level/arousal and anxiety. For the attention and positive affect concepts, our ML ratings performed reasonably. However, results for gaze and vocalization indicate a need for improved data quality or additional data modalities.
翻訳日:2022-07-12 22:16:37 公開日:2022-07-11
# (参考訳) NBCの解説にまつわる関連機能について

On Computing Relevant Features for Explaining NBCs ( http://arxiv.org/abs/2207.04748v1 )

ライセンス: CC BY 4.0
Yacine Izza and Joao Marques-Silva(参考訳) モデルに依存しない説明可能なAI(XAI)の進歩にもかかわらず、モデルに依存しないXAIは誤った説明をすることができる。 もう一つの選択肢は、PI説明を含むXAIの形式的アプローチである。 残念なことに、PI-Explanationsは重要な欠点も示しており、最も目に見えるのはおそらくそのサイズである。 関連する特徴の計算は、説明における特徴数に対する確率的精度のトレードオフとなる。 しかし、非常に単純な分類器であっても、関連する機能の計算セットの複雑さは禁じられている。 本稿では,naive bayes分類器(nbcs)に関連する集合の計算について検討し,実際に計算が容易であることを示す。 さらに, NBCでは, 関連特徴の簡潔なセットが得られることを確認した。

Despite the progress observed with model-agnostic explainable AI (XAI), it is the case that model-agnostic XAI can produce incorrect explanations. One alternative are the so-called formal approaches to XAI, that include PI-explanations. Unfortunately, PI-explanations also exhibit important drawbacks, the most visible of which is arguably their size. The computation of relevant features serves to trade off probabilistic precision for the number of features in an explanation. However, even for very simple classifiers, the complexity of computing sets of relevant features is prohibitive. This paper investigates the computation of relevant sets for Naive Bayes Classifiers (NBCs), and shows that, in practice, these are easy to compute. Furthermore, the experiments confirm that succinct sets of relevant features can be obtained with NBCs.
翻訳日:2022-07-12 22:06:35 公開日:2022-07-11
# (参考訳) DeepSNR: オフライン重力波検出のためのディープラーニング基盤

DeepSNR: A deep learning foundation for offline gravitational wave detection ( http://arxiv.org/abs/2207.04749v1 )

ライセンス: CC BY 4.0
Michael Andrews, Manfred Paulini, Luke Sellers, Alexey Bobrick, Gianni Martire, Haydn Vestal(参考訳) 重力波発見に関するすべての科学的主張は、背景過程に対する重要性を定量化するために、候補観測のオフライン統計分析に依存している。 LIGOの実験におけるこのようなオフライン検出パイプラインの現在の基礎はマッチングフィルタアルゴリズムであり、信号対雑音比に基づく統計を候補観測のランク付けのために生成する。 既存のディープラーニングに基づく重力波検出の試みは、信号感度と計算効率の両方において有望であり、確率スコアを出力する。 しかし、確率スコアは発見ワークフローに簡単には統合されず、ディープラーニングの使用を非発見指向のアプリケーションに制限している。 本稿では,Deep Learning Signal-to-Noise Ratio (DeepSNR) 検出パイプラインについて紹介する。 DeepSNRの性能は、最初の観測結果からオープンLIGOデータ中の二元ブラックホールの衝突候補とノイズ源とを同定することによって実証される。 ligo検出器応答の忠実度シミュレーションは、物理観測量の観点からディープラーニングモデルの最初の感度推定を示すために用いられる。 種々の実験的考察に基づくDeepSNRのロバスト性についても検討した。 その結果、より広い文脈で重力波や希少信号の科学的発見にDeepSNRを使う方法が明らかになり、ファイター信号や観測されない現象の検出が可能になった。

All scientific claims of gravitational wave discovery to date rely on the offline statistical analysis of candidate observations in order to quantify significance relative to background processes. The current foundation in such offline detection pipelines in experiments at LIGO is the matched-filter algorithm, which produces a signal-to-noise-ratio-based statistic for ranking candidate observations. Existing deep-learning-based attempts to detect gravitational waves, which have shown promise in both signal sensitivity and computational efficiency, output probability scores. However, probability scores are not easily integrated into discovery workflows, limiting the use of deep learning thus far to non-discovery-oriented applications. In this paper, the Deep Learning Signal-to-Noise Ratio (DeepSNR) detection pipeline, which uses a novel method for generating a signal-to-noise ratio ranking statistic from deep learning classifiers, is introduced, providing the first foundation for the use of deep learning algorithms in discovery-oriented pipelines. The performance of DeepSNR is demonstrated by identifying binary black hole merger candidates versus noise sources in open LIGO data from the first observation run. High-fidelity simulations of the LIGO detector responses are used to present the first sensitivity estimates of deep learning models in terms of physical observables. The robustness of DeepSNR under various experimental considerations is also investigated. The results pave the way for DeepSNR to be used in the scientific discovery of gravitational waves and rare signals in broader contexts, potentially enabling the detection of fainter signals and never-before-observed phenomena.
翻訳日:2022-07-12 21:45:43 公開日:2022-07-11
# (参考訳) メディア関心度を考慮した複数最適化手法を用いた後期核融合フレームワーク

A Late Fusion Framework with Multiple Optimization Methods for Media Interestingness ( http://arxiv.org/abs/2207.04762v1 )

ライセンス: CC BY 4.0
Maria Shoukat, Khubaib Ahmad, Naina Said, Nasir Ahmad, Mohammed Hassanuzaman, Kashif Ahmad(参考訳) マルチメディア分析、コンピュータビジョン(cv)、人工知能(ai)アルゴリズムの最近の進歩は、ユーザーの興味のあるマルチメディアコンテンツの自動分析と検索を可能にするいくつかの興味深いツールを生み出した。 しかし、興味のある内容を取得するには、感情や面白さレベルのような意味的特徴の分析と抽出が一般的である。 このような有意義な情報の抽出は複雑な作業であり、一般に個々のアルゴリズムの性能は非常に低い。 個々のアルゴリズムの性能を高める一つの方法は、融合スキームを用いて複数のアルゴリズムの予測能力を組み合わせることである。 これにより、個々のアルゴリズムが互いに補完し合い、パフォーマンスが向上する。 本稿では,CLEF Fusion 2022で導入されたメディア興味度スコア予測タスクの融合手法を提案する。 提案手法は,すべての誘導器を等しく扱うナイーブ核融合スキームと,複数の重み最適化手法を用いて個々の誘導器に重みを割り当てるメリットに基づく核融合スキームの両方を含む。 合計6つの最適化手法として,Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Nelder Mead, Trust Region Constrained (TRC), Limited-Memory Broyden Fletcher Goldfarb Shanno Algorithm (LBFGSA), Truncated Newton Algorithm (TNA)を用いた。 その結果, PSO, TNAの平均精度は0.109であり, 平均精度は10。 タスクは複雑で、一般的にスコアは低いです。 提示された分析が将来の研究の基盤となると信じている。

The recent advancement in Multimedia Analytical, Computer Vision (CV), and Artificial Intelligence (AI) algorithms resulted in several interesting tools allowing an automatic analysis and retrieval of multimedia content of users' interests. However, retrieving the content of interest generally involves analysis and extraction of semantic features, such as emotions and interestingness-level. The extraction of such meaningful information is a complex task and generally, the performance of individual algorithms is very low. One way to enhance the performance of the individual algorithms is to combine the predictive capabilities of multiple algorithms using fusion schemes. This allows the individual algorithms to complement each other, leading to improved performance. This paper proposes several fusion methods for the media interestingness score prediction task introduced in CLEF Fusion 2022. The proposed methods include both a naive fusion scheme, where all the inducers are treated equally and a merit-based fusion scheme where multiple weight optimization methods are employed to assign weights to the individual inducers. In total, we used six optimization methods including a Particle Swarm Optimization (PSO), a Genetic Algorithm (GA), Nelder Mead, Trust Region Constrained (TRC), and Limited-memory Broyden Fletcher Goldfarb Shanno Algorithm (LBFGSA), and Truncated Newton Algorithm (TNA). Overall better results are obtained with PSO and TNA achieving 0.109 mean average precision at 10. The task is complex and generally, scores are low. We believe the presented analysis will provide a baseline for future research in the domain.
翻訳日:2022-07-12 21:22:05 公開日:2022-07-11
# (参考訳) 条件付きモーメント制約に対する汎関数的経験的確率推定

Functional Generalized Empirical Likelihood Estimation for Conditional Moment Restrictions ( http://arxiv.org/abs/2207.04771v1 )

ライセンス: CC BY 4.0
Heiner Kremer, Jia-Jie Zhu, Krikamol Muandet, Bernhard Sch\"olkopf(参考訳) 因果推論、経済学、そしてより一般的には、ロバストな機械学習は条件付きモーメント制限として表現できるが、非条件付きモーメント制限の連続性を解決する必要があるため、見積もりは困難になる。 従来の研究は、一般化モーメント法(GMM)を連続モーメント制限に拡張することでこの問題に対処した。 対照的に、一般化経験的可能性(GEL)はより一般的なフレームワークを提供し、GMMベースの推定器と比較して、より良好な小サンプル特性を享受することが示されている。 機械学習の最近の発展の恩恵を受けるため、任意のモデルを活用可能なGELの機能的再構成を提供する。 その結果生じる無限次元最適化問題の双対定式化に動機づけられ,実用的な手法を考案し,漸近的性質を探求する。 最後に,2つの条件付きモーメント制限問題に対する最先端の経験的性能を実現する,カーネルおよびニューラルネットワークによる推定器の実装を提案する。

Important problems in causal inference, economics, and, more generally, robust machine learning can be expressed as conditional moment restrictions, but estimation becomes challenging as it requires solving a continuum of unconditional moment restrictions. Previous works addressed this problem by extending the generalized method of moments (GMM) to continuum moment restrictions. In contrast, generalized empirical likelihood (GEL) provides a more general framework and has been shown to enjoy favorable small-sample properties compared to GMM-based estimators. To benefit from recent developments in machine learning, we provide a functional reformulation of GEL in which arbitrary models can be leveraged. Motivated by a dual formulation of the resulting infinite dimensional optimization problem, we devise a practical method and explore its asymptotic properties. Finally, we provide kernel- and neural network-based implementations of the estimator, which achieve state-of-the-art empirical performance on two conditional moment restriction problems.
翻訳日:2022-07-12 21:11:07 公開日:2022-07-11
# (参考訳) SALSA:変圧器で格子暗号を攻撃

SALSA: Attacking Lattice Cryptography with Transformers ( http://arxiv.org/abs/2207.04785v1 )

ライセンス: CC BY 4.0
Emily Wenger, Mingjie Chen, Fran\c{c}ois Charton, Kristin Lauter(参考訳) 現在デプロイされている公開鍵暗号システムは、フルスケールの量子コンピュータによる攻撃に対して脆弱である。 その結果、「量子耐性」暗号系は需要が高く、Learning With Errors (LWE)と呼ばれる難しい問題に基づく格子ベースの暗号系が標準化の強力な競争相手として登場した。 本研究では、モジュラー演算を実行するようにトランスフォーマーを訓練し、半学習モデルと統計的暗号解析技術を組み合わせることにより、LWEベースの暗号スキームに対する機械学習攻撃であるSALSAを提案する。 SALSAは、疎いバイナリシークレットを持つ小規模から中規模のLWEインスタンスのシークレットを完全に復元することができ、現実世界のLWEベースの暗号システムを攻撃するためにスケールすることができる。

Currently deployed public-key cryptosystems will be vulnerable to attacks by full-scale quantum computers. Consequently, "quantum resistant" cryptosystems are in high demand, and lattice-based cryptosystems, based on a hard problem known as Learning With Errors (LWE), have emerged as strong contenders for standardization. In this work, we train transformers to perform modular arithmetic and combine half-trained models with statistical cryptanalysis techniques to propose SALSA: a machine learning attack on LWE-based cryptographic schemes. SALSA can fully recover secrets for small-to-mid size LWE instances with sparse binary secrets, and may scale to attack real-world LWE-based cryptosystems.
翻訳日:2022-07-12 20:32:48 公開日:2022-07-11
# (参考訳) TArC: チュニジアのアラブ系コーパスの最初の完成版

TArC: Tunisian Arabish Corpus First complete release ( http://arxiv.org/abs/2207.04796v1 )

ライセンス: CC BY-SA 4.0
Elisa Gugliotta (1, 2, 3), Marco Dinarelli (1) ((1) Universit\'e Grenoble Alpes, Laboratoires: LIG - Getalp Group (2) LIDILEM, (3) Sapienza University of Rome)(参考訳) 本稿では,デジタル会話のためのラテン文字記述システムであるarabiziで符号化されたチュニジアアラビア語に関するプロジェクトの最終結果について述べる。 このプロジェクトは、コーパスと、単語の分類、翻訳、トークン化、posタグ、補間といった言語情報の様々なレベルをアノテートするために作られたnlpツールという、2つの統合的で独立したリソースの作成につながった。 我々は,計算手法と言語方法論の観点で選択し,その結果を改善するための戦略について議論する。 研究の経緯を概説するために実施した実験について報告する。 最後に,計算と言語の研究においてこれらの資源の可能性を信じている理由について述べる。 キーワード:チュニジアアラビジ、注釈付きコーパス、ニューラルネットワークアーキテクチャ

In this paper we present the final result of a project on Tunisian Arabic encoded in Arabizi, the Latin-based writing system for digital conversations. The project led to the creation of two integrated and independent resources: a corpus and a NLP tool created to annotate the former with various levels of linguistic information: word classification, transliteration, tokenization, POS-tagging, lemmatization. We discuss our choices in terms of computational and linguistic methodology and the strategies adopted to improve our results. We report on the experiments performed in order to outline our research path. Finally, we explain why we believe in the potential of these resources for both computational and linguistic researches. Keywords: Tunisian Arabizi, Annotated Corpus, Neural Network Architecture
翻訳日:2022-07-12 19:53:38 公開日:2022-07-11
# (参考訳) 正しい過去を残してニューラルネットワークを修復する

Repairing Neural Networks by Leaving the Right Past Behind ( http://arxiv.org/abs/2207.04806v1 )

ライセンス: CC BY 4.0
Ryutaro Tanno, Melanie F. Pradier, Aditya Nori, Yingzhen Li(参考訳) 機械学習モデルの予測失敗は、誤ったラベル、外れ値、選択バイアスなどのトレーニングデータの欠陥から生じることが多い。 しかしながら、特定の障害モードに責任を負うデータポイントは、一般的には、障害を修復するメカニズムとして知られてはいない。 この研究はベイジアンによる継続的学習の考え方を浮き彫りにして、両方の汎用フレームワークを開発し、ターゲットの失敗を引き起こしたトレーニング例を特定し、それらに関する情報を消去することでモデルを修正する。 このフレームワークは、モデル修復という新たな問題に対して、継続的学習の最近の進歩を自然に活用し、既存の影響関数やデータ削除を具体例として仮定する。 実験により,提案手法は,不正なトレーニングデータの同定と,汎用的なモデル障害の修正のベースラインを上回っている。

Prediction failures of machine learning models often arise from deficiencies in training data, such as incorrect labels, outliers, and selection biases. However, such data points that are responsible for a given failure mode are generally not known a priori, let alone a mechanism for repairing the failure. This work draws on the Bayesian view of continual learning, and develops a generic framework for both, identifying training examples that have given rise to the target failure, and fixing the model through erasing information about them. This framework naturally allows leveraging recent advances in continual learning to this new problem of model repairment, while subsuming the existing works on influence functions and data deletion as specific instances. Experimentally, the proposed approach outperforms the baselines for both identification of detrimental training data and fixing model failures in a generalisable manner.
翻訳日:2022-07-12 19:32:09 公開日:2022-07-11
# (参考訳) CT肝画像のコンテントベース画像検索のための臨床的動機付け自己監督的アプローチ

A clinically motivated self-supervised approach for content-based image retrieval of CT liver images ( http://arxiv.org/abs/2207.04812v1 )

ライセンス: CC BY 4.0
Kristoffer Knutsen Wickstr{\o}m and Eirik Agnalt {\O}stmo and Keyur Radiya and Karl {\O}yvind Mikalsen and Michael Christian Kampffmeyer and Robert Jenssen(参考訳) 深層学習に基づくCT肝画像のコンテントベース画像検索(CBIR)のアプローチは研究の活発な分野であるが、いくつかの限界がある。 まず、ラベル付きデータに大きく依存しているため、取得が困難でコストがかかる可能性がある。 第2に、深いCBIRシステムの信頼性を制限する透明性と説明性がない。 本研究では,(1)訓練手順にドメイン知識を組み込んだ自己教師型学習フレームワークを提案し,(2)CT肝画像のCBIRにおける最初の表現学習説明可能性分析を提供する。 その結果、複数のメトリクスをまたいだ標準的な自己教師付きアプローチと比較して、パフォーマンスが向上し、データセット全体の一般化が向上した。 さらに,CBIRの文脈における最初の表現学習説明可能性分析を行い,特徴抽出プロセスにおける新たな洞察を明らかにする。 最後に,提案フレームワークのユーザビリティを実証するクロスサーベイションCBIRを用いて,ケーススタディを行う。 我々の提案するフレームワークは、ラベルのないデータをうまく活用できる信頼性の高い深部CBIRシステムを作成する上で重要な役割を担っていると信じている。

Deep learning-based approaches for content-based image retrieval (CBIR) of CT liver images is an active field of research, but suffers from some critical limitations. First, they are heavily reliant on labeled data, which can be challenging and costly to acquire. Second, they lack transparency and explainability, which limits the trustworthiness of deep CBIR systems. We address these limitations by (1) proposing a self-supervised learning framework that incorporates domain-knowledge into the training procedure and (2) providing the first representation learning explainability analysis in the context of CBIR of CT liver images. Results demonstrate improved performance compared to the standard self-supervised approach across several metrics, as well as improved generalisation across datasets. Further, we conduct the first representation learning explainability analysis in the context of CBIR, which reveals new insights into the feature extraction process. Lastly, we perform a case study with cross-examination CBIR that demonstrates the usability of our proposed framework. We believe that our proposed framework could play a vital role in creating trustworthy deep CBIR systems that can successfully take advantage of unlabeled data.
翻訳日:2022-07-12 19:05:54 公開日:2022-07-11
# (参考訳) グローバル感度解析手法を用いた進化的アルゴリズムハイパーパラメータのランクと有効性の評価

Assessing Ranking and Effectiveness of Evolutionary Algorithm Hyperparameters Using Global Sensitivity Analysis Methodologies ( http://arxiv.org/abs/2207.04820v1 )

ライセンス: CC BY 4.0
Varun Ojha and Jon Timmis and Giuseppe Nicosia(参考訳) アルゴリズム構成問題として,2つの単目的および2つの多目的大域最適化アルゴリズムの包括的大域的感度解析を提案する。 すなわち,ハイパーパラメータがアルゴリズムの性能に与える影響について,その直接効果と他のハイパーパラメータとの相互作用効果の観点から検討する。 morris lhs、morris、sobolの3つの感度分析法を用いて、共分散行列適応進化戦略、微分進化、非支配的ソート遺伝アルゴリズムiii、および分解に基づく多目的進化アルゴリズムの可変ハイパーパラメータを体系的に分析し、ハイパーパラメータの振る舞いをサンプリング法とパフォーマンスメトリクスに明らかにする。 つまり、ハイパーパラメータがパターンにどんな影響を与えるか、その相互作用の仕方、相互作用の度合い、そしてそれらの直接的影響の程度といった疑問に答えるのです。 その結果、ハイパーパラメータのランク付けはチューニングの順序を示唆し、影響のパターンはアルゴリズムの安定性を明らかにする。

We present a comprehensive global sensitivity analysis of two single-objective and two multi-objective state-of-the-art global optimization evolutionary algorithms as an algorithm configuration problem. That is, we investigate the quality of influence hyperparameters have on the performance of algorithms in terms of their direct effect and interaction effect with other hyperparameters. Using three sensitivity analysis methods, Morris LHS, Morris, and Sobol, to systematically analyze tunable hyperparameters of covariance matrix adaptation evolutionary strategy, differential evolution, non-dominated sorting genetic algorithm III, and multi-objective evolutionary algorithm based on decomposition, the framework reveals the behaviors of hyperparameters to sampling methods and performance metrics. That is, it answers questions like what hyperparameters influence patterns, how they interact, how much they interact, and how much their direct influence is. Consequently, the ranking of hyperparameters suggests their order of tuning, and the pattern of influence reveals the stability of the algorithms.
翻訳日:2022-07-12 18:44:36 公開日:2022-07-11
# (参考訳) ニューラルネットワーク検索における長期再現性

Long-term Reproducibility for Neural Architecture Search ( http://arxiv.org/abs/2207.04821v1 )

ライセンス: CC BY 4.0
David Towers, Matthew Forshaw, Amir Atapour-Abarghouei, Andrew Stephen McGough(参考訳) コードは出版後に無視されることが多く、バグ修正やメンテナンスには学術的な「工藤」は存在しないという、現代の学界の悲しい反映です。 コードは多くの場合、利用できないか、バグが含まれているか、不完全なか、最新または未使用のライブラリに依存している。 これは再現性と一般的な科学的進歩に大きな影響を与える。 ニューラルアーキテクチャサーチ(NAS)はその例外ではなく、再現性に関する先行研究である。 しかし, 長期的な再現性は考慮されていない。 そこで我々は,長期NAS再現性チェックリストを提案する。 一般的なNASアプローチに対するチェックリストを評価し、これらのアプローチをより長期的な再現性を高める方法を提案する。

It is a sad reflection of modern academia that code is often ignored after publication -- there is no academic 'kudos' for bug fixes / maintenance. Code is often unavailable or, if available, contains bugs, is incomplete, or relies on out-of-date / unavailable libraries. This has a significant impact on reproducibility and general scientific progress. Neural Architecture Search (NAS) is no exception to this, with some prior work in reproducibility. However, we argue that these do not consider long-term reproducibility issues. We therefore propose a checklist for long-term NAS reproducibility. We evaluate our checklist against common NAS approaches along with proposing how we can retrospectively make these approaches more long-term reproducible.
翻訳日:2022-07-12 18:43:33 公開日:2022-07-11
# (参考訳) RRMSE投票レグレッタ:重み付け関数によるアンサンブル回帰の改善

RRMSE Voting Regressor: A weighting function based improvement to ensemble regression ( http://arxiv.org/abs/2207.04837v1 )

ライセンス: CC BY 4.0
Shikun Chen and Nguyen Manh Luc(参考訳) 本稿では, RRMSE (Relative Root Mean Square Error) に基づく重み付けについて述べる。 アンサンブル回帰の背景にある基本的な考え方は、数値的連続目標変数の学習における予測性能を改善するために、いくつかの基本回帰モデルを組み合わせることである。 アンサンブル投票回帰のデフォルトの重み設定は均一な重みであり、学習タスクのドメイン知識がなければ予測の重み付けは不可能であり、予測を改善するのは非常に困難である。 本研究は、rrmseに基づく重み付け関数を実装することにより、投票回帰の予測を改善することを試みる。 実験により、RTMSE投票回帰器は6つの一般的な回帰学習データセット上で、他の最先端のアンサンブル回帰アルゴリズムよりもはるかに優れた予測を行うことが示された。

This paper describes the RRMSE (Relative Root Mean Square Error) based weights to weight the occurrences of predictive values before averaging for the ensemble voting regression. The core idea behind ensemble regression is to combine several base regression models in order to improve the prediction performance in learning problems with a numeric continuous target variable. The default weights setting for the ensemble voting regression is uniform weights, and without domain knowledge of learning task, assigning weights for predictions are impossible, which makes it very difficult to improve the predictions. This work attempts to improve the prediction of voting regression by implementing the RRMSE based weighting function. Experiments show that RRMSE voting regressor produces significantly better predictions than other state-of-the-art ensemble regression algorithms on six popular regression learning datasets.
翻訳日:2022-07-12 18:37:18 公開日:2022-07-11
# (参考訳) ニューラルネットワークの平均次元 -- 相互作用効果の原因は何か?

The Mean Dimension of Neural Networks -- What causes the interaction effects? ( http://arxiv.org/abs/2207.04890v1 )

ライセンス: CC BY 4.0
Roman Hahn, Christoph Feinauer, Emanuele Borgonovo(参考訳) Owen氏とHoyt氏は先日、この有効次元が、人工ニューラルネットワークの基盤となる入出力マッピングに関する重要な構造情報を提供することを示した。 本研究は, 外部分布から再サンプリングすることなく, 与えられたデータセットからの平均次元を計算できる推定手法を提案する。 この設計は、特徴が独立であるときの総指標と、特徴が相関しているときの総指標の変種を生成する。 この変異がゼロ独立性を持つことを示す。 合成データセットを用いて、平均次元が層ごとにどのように発展し、活性化関数が相互作用の大きさに与える影響を分析する。 次に、平均次元を用いて、画像認識に最も広く用いられている畳み込みアーキテクチャ(LeNet、ResNet、DenseNet)を研究します。 そこで,画素相関を考慮した逆pca層の追加により,ニューラルネットワークをリトレーニングすることなく,非相関なpca変換特徴を処理できる平均次元の算出を提案する。 一般化された全指標を用いて、ポストホックな説明のためのヒートマップを作成し、PCA変換された特徴の平均次元を用いて、人工ニューラルネットワーク構造の相互比較を行う。 結果は、アーキテクチャ間の相互作用の大きさの違いに関する洞察と、トレーニング中に平均次元がどのように進化するかを示す。

Owen and Hoyt recently showed that the effective dimension offers key structural information about the input-output mapping underlying an artificial neural network. Along this line of research, this work proposes an estimation procedure that allows the calculation of the mean dimension from a given dataset, without resampling from external distributions. The design yields total indices when features are independent and a variant of total indices when features are correlated. We show that this variant possesses the zero independence property. With synthetic datasets, we analyse how the mean dimension evolves layer by layer and how the activation function impacts the magnitude of interactions. We then use the mean dimension to study some of the most widely employed convolutional architectures for image recognition (LeNet, ResNet, DenseNet). To account for pixel correlations, we propose calculating the mean dimension after the addition of an inverse PCA layer that allows one to work on uncorrelated PCA-transformed features, without the need to retrain the neural network. We use the generalized total indices to produce heatmaps for post-hoc explanations, and we employ the mean dimension on the PCA-transformed features for cross comparisons of the artificial neural networks structures. Results provide several insights on the difference in magnitude of interactions across the architectures, as well as indications on how the mean dimension evolves during training.
翻訳日:2022-07-12 18:30:02 公開日:2022-07-11
# (参考訳) Bottlenecks CLUB:複雑度、漏洩度、実用性に関する情報理論のトレードオフを統合する

Bottlenecks CLUB: Unifying Information-Theoretic Trade-offs Among Complexity, Leakage, and Utility ( http://arxiv.org/abs/2207.04895v1 )

ライセンス: CC BY 4.0
Behrooz Razeghi, Flavio P. Calmon, Deniz Gunduz, Slava Voloshynovskiy(参考訳) ボトルネック問題は、機械学習と情報理論の領域で最近注目を集めている最適化問題の重要なクラスである。 これらは生成モデル、公正な機械学習アルゴリズム、プライバシー保護機構の設計に広く使われ、様々なマルチユーザ通信問題において情報理論のパフォーマンス境界として現れる。 本研究では,複雑性推論ユーティリティ・ボトルネック(CLUB)モデルと呼ばれる最適化問題の一般的なファミリーを提案する。 i)情報理論プライバシモデルのための最先端文献の大部分を一般化する統一理論フレームワークを提供する。 (ii)一般的な生成モデルと判別モデルの新たな解釈を確立する。 (iii)生成圧縮モデルに対する新たな洞察の構築、 (iv)は、公正な生成モデルで使用することができる。 まず、複雑性に制約のあるプライバシーユーティリティ最適化問題としてCLUBモデルを定式化する。 次に、情報ボトルネック(IB)、プライバシーファネル(PF)、決定論的IB(DIB)、条件付きエントロピーボトルネック(CEB)、条件付きPF(CPF)といった、関連するボトルネック問題と接続する。 CLUBモデルは、他の情報理論プライバシモデルと同様に、これらの問題を一般化する。 そこで,ニューラルネットワークを用いた深部変分CLUB(DVCLUB)モデルを構築し,関連する情報量の変動近似をパラメータ化する。 これらの情報量に基づいて、教師付きおよび教師なしDVCLUBモデルの統一目的を示す。 DVCLUBモデルを教師なしのセットアップで活用すると、変分オートエンコーダ(VAE)、生成逆数ネットワーク(GAN)、ワッサーシュタイン GAN(WGAN)、ワッサーシュタインオートエンコーダ(WAE)、および逆数オートエンコーダ(AAE)モデルといった最先端の生成モデルと接続する。 次に、DVCLUBモデルは、機械学習モデルのトレーニングフェーズにおける望ましくないバイアスを軽減することを目的として、公正表現学習問題にも使用できることを示す。 クラブモデルの評価と解析のために,カラーmnistおよびcelebaデータセットに関する広範囲な定量的実験を行い,公開実装を行った。

Bottleneck problems are an important class of optimization problems that have recently gained increasing attention in the domain of machine learning and information theory. They are widely used in generative models, fair machine learning algorithms, design of privacy-assuring mechanisms, and appear as information-theoretic performance bounds in various multi-user communication problems. In this work, we propose a general family of optimization problems, termed as complexity-leakage-utility bottleneck (CLUB) model, which (i) provides a unified theoretical framework that generalizes most of the state-of-the-art literature for the information-theoretic privacy models, (ii) establishes a new interpretation of the popular generative and discriminative models, (iii) constructs new insights to the generative compression models, and (iv) can be used in the fair generative models. We first formulate the CLUB model as a complexity-constrained privacy-utility optimization problem. We then connect it with the closely related bottleneck problems, namely information bottleneck (IB), privacy funnel (PF), deterministic IB (DIB), conditional entropy bottleneck (CEB), and conditional PF (CPF). We show that the CLUB model generalizes all these problems as well as most other information-theoretic privacy models. Then, we construct the deep variational CLUB (DVCLUB) models by employing neural networks to parameterize variational approximations of the associated information quantities. Building upon these information quantities, we present unified objectives of the supervised and unsupervised DVCLUB models. Leveraging the DVCLUB model in an unsupervised setup, we then connect it with state-of-the-art generative models, such as variational auto-encoders (VAEs), generative adversarial networks (GANs), as well as the Wasserstein GAN (WGAN), Wasserstein auto-encoder (WAE), and adversarial auto-encoder (AAE) models through the optimal transport (OT) problem. We then show that the DVCLUB model can also be used in fair representation learning problems, where the goal is to mitigate the undesired bias during the training phase of a machine learning model. We conduct extensive quantitative experiments on colored-MNIST and CelebA datasets, with a public implementation available, to evaluate and analyze the CLUB model.
翻訳日:2022-07-12 18:11:55 公開日:2022-07-11
# (参考訳) 大規模言語モデルにおける長さ汎化の探索

Exploring Length Generalization in Large Language Models ( http://arxiv.org/abs/2207.04901v1 )

ライセンス: CC BY 4.0
Cem Anil, Yuhuai Wu, Anders Andreassen, Aitor Lewkowycz, Vedant Misra, Vinay Ramasesh, Ambrose Slone, Guy Gur-Ari, Ethan Dyer, Behnam Neyshabur(参考訳) 短い問題インスタンスからより長い問題インスタンスへ推論する能力は、推論タスクにおける分散の一般化の重要な形態であり、長い問題インスタンスがまれなデータセットから学習する場合に重要である。 これには、定理証明、量的数学問題の解法、小説の読み書きが含まれる。 本稿では,変圧器を用いた言語モデルの長さ一般化機能について検討した。 まず, 長さ汎化タスクにおけるナイーブな微調整トランスは, モデルスケールに依存しない有意な一般化欠陥を示す。 次に,事前学習された大規模言語モデルの文脈内学習能力とスクラッチパッドプロンプト(応答を生成する前に解ステップを出力するようにモデルを起動する)を組み合わせると,長大化が劇的に向上することを示す。 学習モダリティのそれぞれについて注意深い失敗分析を行い、より長い問題に一般化する能力を備えた言語モデルを装備する機会を強調する共通のミス源を特定する。

The ability to extrapolate from short problem instances to longer ones is an important form of out-of-distribution generalization in reasoning tasks, and is crucial when learning from datasets where longer problem instances are rare. These include theorem proving, solving quantitative mathematics problems, and reading/summarizing novels. In this paper, we run careful empirical studies exploring the length generalization capabilities of transformer-based language models. We first establish that naively finetuning transformers on length generalization tasks shows significant generalization deficiencies independent of model scale. We then show that combining pretrained large language models' in-context learning abilities with scratchpad prompting (asking the model to output solution steps before producing an answer) results in a dramatic improvement in length generalization. We run careful failure analyses on each of the learning modalities and identify common sources of mistakes that highlight opportunities in equipping language models with the ability to generalize to longer problems.
翻訳日:2022-07-12 18:09:27 公開日:2022-07-11
# (参考訳) 顔画像品質評価における余分なミス:新しいデータベースとモデル

Going the Extra Mile in Face Image Quality Assessment: A Novel Database and Model ( http://arxiv.org/abs/2207.04904v1 )

ライセンス: CC BY 4.0
Shaolin Su, Hanhe Lin, Vlad Hosu, Oliver Wiedemann, Jinqiu Sun, Yu Zhu, Hantao Liu, Yanning Zhang, Dietmar Saupe(参考訳) 画像品質評価(IQA)のためのコンピュータビジョンモデルは、人工物、ぼかし、露出不良、色などの一般的な画像劣化の主観効果を予測する。 既存のIQAデータセット(10%以下)における顔画像の不足は、低品質の顔画像を正確にフィルタリングしたり、超解像度、画像強調、生成などの顔画像処理のためのCVモデルを導くのに必要なIQAの精度を制限している。 本稿では,これまでで最大の注釈付きIQAデータベースを導入し,様々な状況,品質レベル,歪みタイプにおいて,2万件の顔(既存の顔のデータセットよりも桁違いに大きい)を含む。 さらに,データベースに基づいて,主観的顔の質を予測するための生成前の特徴を再現する新しい深層学習モデルを提案する。 十分に訓練された生成モデルで符号化されたリッチな統計情報を利用することで、画像の事前情報を生成し、それを潜在参照として提供し、盲点IQA作業を容易にする。 実験の結果,提案モデルの予測精度は顔 iqa タスクにおいて良好であった。

Computer vision models for image quality assessment (IQA) predict the subjective effect of generic image degradation, such as artefacts, blurs, bad exposure, or colors. The scarcity of face images in existing IQA datasets (below 10\%) is limiting the precision of IQA required for accurately filtering low-quality face images or guiding CV models for face image processing, such as super-resolution, image enhancement, and generation. In this paper, we first introduce the largest annotated IQA database to date that contains 20,000 human faces (an order of magnitude larger than all existing rated datasets of faces), of diverse individuals, in highly varied circumstances, quality levels, and distortion types. Based on the database, we further propose a novel deep learning model, which re-purposes generative prior features for predicting subjective face quality. By exploiting rich statistics encoded in well-trained generative models, we obtain generative prior information of the images and serve them as latent references to facilitate the blind IQA task. Experimental results demonstrate the superior prediction accuracy of the proposed model on the face IQA task.
翻訳日:2022-07-12 17:51:44 公開日:2022-07-11
# (参考訳) shrec'22トラック:スケッチベースの3d形状検索

SHREC'22 Track: Sketch-Based 3D Shape Retrieval in the Wild ( http://arxiv.org/abs/2207.04945v1 )

ライセンス: CC BY 4.0
Jie Qin, Shuaihang Yuan, Jiaxin Chen, Boulbaba Ben Amor, Yi Fang, Nhat Hoang-Xuan, Chi-Bien Chu, Khoi-Nguyen Nguyen-Ngoc, Thien-Tri Cao, Nhat-Khang Ngo, Tuan-Luc Huynh, Hai-Dang Nguyen, Minh-Triet Tran, Haoyang Luo, Jianning Wang, Zheng Zhang, Zihao Xin, Yang Wang, Feng Wang, Ying Tang, Haiqin Chen, Yan Wang, Qunying Zhou, Ji Zhang, Hongyuan Wang(参考訳) スケッチベースの3次元形状検索(SBSR)は重要な課題であるが、近年はますます注目を集めている。 既存のアプローチは、実際のアプリケーションシナリオを適切にシミュレートすることなく、制限された設定でこの問題に対処する。 リアルな設定を模倣するために、このトラックでは、異なるレベルの描画スキルを持つアマチュアが描いた大規模なスケッチと、cadモデルだけでなく、実物からスキャンされたモデルを含む様々な3d形状を採用する。 2つのSBSRタスクを定義し,46,000以上のCADモデル,1,700のリアルモデル,145,000のスケッチからなるベンチマークを構築した。 4チームがこのトラックに参加し,2つのタスクに対して15回の実行を提出した。 ベンチマーク,比較結果,オープンソース評価コードにより,3Dオブジェクト検索コミュニティにおけるこの方向の今後の研究が促進されることを期待する。

Sketch-based 3D shape retrieval (SBSR) is an important yet challenging task, which has drawn more and more attention in recent years. Existing approaches address the problem in a restricted setting, without appropriately simulating real application scenarios. To mimic the realistic setting, in this track, we adopt large-scale sketches drawn by amateurs of different levels of drawing skills, as well as a variety of 3D shapes including not only CAD models but also models scanned from real objects. We define two SBSR tasks and construct two benchmarks consisting of more than 46,000 CAD models, 1,700 realistic models, and 145,000 sketches in total. Four teams participated in this track and submitted 15 runs for the two tasks, evaluated by 7 commonly-adopted metrics. We hope that, the benchmarks, the comparative results, and the open-sourced evaluation code will foster future research in this direction among the 3D object retrieval community.
翻訳日:2022-07-12 17:32:11 公開日:2022-07-11
# (参考訳) TweetDIS:Weak Supervisionを使って構築された自然災害のための大規模なTwitterデータセット

TweetDIS: A Large Twitter Dataset for Natural Disasters Built using Weak Supervision ( http://arxiv.org/abs/2207.04947v1 )

ライセンス: CC BY 4.0
Ramya Tekumalla and Juan M. Banda(参考訳) ソーシャルメディアはしばしば自然災害時のコミュニケーションのライフラインとして利用される。 伝統的に、自然災害ツイートは自然災害の名前を使ってTwitterストリームからフィルタリングされ、フィルターされたツイートは人間のアノテーションのために送られる。 機械学習モデルのラベル付きセットを作成するためのヒューマンアノテーションのプロセスは、手間がかかり、時間を消費し、時には不正確であり、サイズやリアルタイム使用の面では、より重要ではない。 本研究では,銀の標準データセットを弱い監督を用いて収集する。 その有用性を検証するために,弱い教師データに基づく機械学習モデルを訓練し,地震,ハリケーン,洪水の3種類の自然災害を識別する。 その結果、銀標準データセットでトレーニングされたモデルは、手作業でキュレートされた金標準データセットを分類する際に90%以上の性能を達成した。 再現可能な研究と下流ユーティリティを実現するため,我々は科学コミュニティのための銀標準データセットをリリースする。

Social media is often utilized as a lifeline for communication during natural disasters. Traditionally, natural disaster tweets are filtered from the Twitter stream using the name of the natural disaster and the filtered tweets are sent for human annotation. The process of human annotation to create labeled sets for machine learning models is laborious, time consuming, at times inaccurate, and more importantly not scalable in terms of size and real-time use. In this work, we curate a silver standard dataset using weak supervision. In order to validate its utility, we train machine learning models on the weakly supervised data to identify three different types of natural disasters i.e earthquakes, hurricanes and floods. Our results demonstrate that models trained on the silver standard dataset achieved performance greater than 90% when classifying a manually curated, gold-standard dataset. To enable reproducible research and additional downstream utility, we release the silver standard dataset for the scientific community.
翻訳日:2022-07-12 17:15:19 公開日:2022-07-11
# (参考訳) 普遍微分方程式を用いたネットワーク力学系の構造推論

Structural Inference of Networked Dynamical Systems with Universal Differential Equations ( http://arxiv.org/abs/2207.04962v1 )

ライセンス: CC BY 4.0
James Koch, Zhao Chen, Aaron Tuor, Jan Drgona, Draguna Vrabie(参考訳) ネットワーク力学系は工学の分野において、例えば生物ネットワーク、反応ネットワーク、電力システムなどにおいて一般的である。 多くの系において、非線形性は同一(またはほぼ同一)単位の集団を駆動し、コヒーレント構造(波動やパターンなど)の出現や、その他の顕著なダイナミクス(同期やカオスなど)のような幅広い非自明な振る舞いを示す。 この研究で私たちは推論を試みます (i)人口の基本単位の固有物理 (ii)単位間で共有される基礎となるグラフィカルな構造 (iii) 境界状態の観測を与えられた与えられたネットワーク力学系のカップリング物理。 これらのタスクは普遍微分方程式(universal differential equation)の概念を中心に定式化されており、未知の力学系はニューラルネットワーク、事前(未知のパラメータ化を伴う)として知られる数学的用語、あるいはそれらの組み合わせで近似することができる。 本研究では,将来の状態予測だけでなく,ネットワークトポロジのシステム挙動の推測も行うことで,これらの推論タスクの価値を実証する。 これらの手法の有効性と有用性は、正準ネットワーク非線形結合振動子への応用によって示される。

Networked dynamical systems are common throughout science in engineering; e.g., biological networks, reaction networks, power systems, and the like. For many such systems, nonlinearity drives populations of identical (or near-identical) units to exhibit a wide range of nontrivial behaviors, such as the emergence of coherent structures (e.g., waves and patterns) or otherwise notable dynamics (e.g., synchrony and chaos). In this work, we seek to infer (i) the intrinsic physics of a base unit of a population, (ii) the underlying graphical structure shared between units, and (iii) the coupling physics of a given networked dynamical system given observations of nodal states. These tasks are formulated around the notion of the Universal Differential Equation, whereby unknown dynamical systems can be approximated with neural networks, mathematical terms known a priori (albeit with unknown parameterizations), or combinations of the two. We demonstrate the value of these inference tasks by investigating not only future state predictions but also the inference of system behavior on varied network topologies. The effectiveness and utility of these methods is shown with their application to canonical networked nonlinear coupled oscillators.
翻訳日:2022-07-12 17:03:07 公開日:2022-07-11
# (参考訳) 大規模知識グラフ埋め込みのためのハイパーパラメータ最適化について

Start Small, Think Big: On Hyperparameter Optimization for Large-Scale Knowledge Graph Embeddings ( http://arxiv.org/abs/2207.04979v1 )

ライセンス: CC BY 4.0
Adrian Kochsiek, Fritz Niesel, Rainer Gemulla(参考訳) 知識グラフ埋め込み(KGE)モデルは、マルチリレーショナルデータを用いて表現し、推論するための効果的で一般的なアプローチである。 以前の研究では、KGEモデルはハイパーパラメータ設定に敏感であり、適切な選択はデータセットに依存していることが示されている。 本稿では,超大規模知識グラフに対するハイパーパラメータ最適化(hpo)について検討する。 先行研究では、様々なヒューリスティック(例えば、サブグラフのトレーニングやエポックの少ない使用など)を用いることで、このコストを回避することが多かった。 我々は,そのようなヒューリスティックスやその他の低コスト近似手法の品質とコスト削減について,体系的に議論し,評価する。 この結果に基づき,グラフとエポックの削減技術を組み合わせた大規模KGEのための多値HPOアルゴリズムであるGraSHを導入する。 実験により,GraSHは大規模グラフの最先端の成果を低コストで得られることがわかった(総計3回の完全トレーニング)。

Knowledge graph embedding (KGE) models are an effective and popular approach to represent and reason with multi-relational data. Prior studies have shown that KGE models are sensitive to hyperparameter settings, however, and that suitable choices are dataset-dependent. In this paper, we explore hyperparameter optimization (HPO) for very large knowledge graphs, where the cost of evaluating individual hyperparameter configurations is excessive. Prior studies often avoided this cost by using various heuristics; e.g., by training on a subgraph or by using fewer epochs. We systematically discuss and evaluate the quality and cost savings of such heuristics and other low-cost approximation techniques. Based on our findings, we introduce GraSH, an efficient multi-fidelity HPO algorithm for large-scale KGEs that combines both graph and epoch reduction techniques and runs in multiple rounds of increasing fidelities. We conducted an experimental study and found that GraSH obtains state-of-the-art results on large graphs at a low cost (three complete training runs in total).
翻訳日:2022-07-12 16:48:42 公開日:2022-07-11
# あなたのフェアモデルはどうロバストか? 多様な公正戦略の堅牢性を探る

How Robust is your Fair Model? Exploring the Robustness of Diverse Fairness Strategies ( http://arxiv.org/abs/2207.04581v1 )

ライセンス: Link先を確認
Edward Small, Wei Shao, Zeliang Zhang, Peihan Liu, Jeffrey Chan, Kacper Sokol and Flora Salim(参考訳) 高度な意思決定における機械学習の導入により、アルゴリズムの公平性を保証することがますます重要になっている。 これに対し、フェアネスの数学的定義が多数提案され、フェアネスの定義を最大化するために様々な最適化技術が開発されている。 しかし、公正なソリューションはトレーニングデータの品質に依存しており、ノイズに非常に敏感である。 近年の研究では、新しい問題にアプローチする際に使用するべき戦略のタイプにおいて、ロバスト性(モデルが不明瞭なデータに対してうまく機能する能力)が重要な役割を果たすことが示されており、そのため、これらの戦略のロバスト性を測定することが根本的な問題となっている。 そこで本研究では,様々な公平性最適化戦略のロバスト性を測定するための新しい基準である \textit{robustness ratio} を提案する。 我々は,5つのベンチマークフェアネスデータセットに対して,最もポピュラーなフェアネス戦略の3つを用いて,最もポピュラーなフェアネス定義の4つについて,広範な実験を行った。 実験の結果,しきい値最適化に依拠する公平性は,他の手法をほとんど上回っているにもかかわらず,評価されたデータセットのノイズに対して非常に敏感であることが示された。 これは他の2つの方法とは対照的で、低ノイズシナリオでは公平ではないが、高ノイズシナリオではより公平である。 私たちの知る限りでは、公平な最適化戦略の堅牢さを定量的に評価するのは、当社が初めてです。 これは、様々なデータセットに最も適したフェアネス戦略を選択する際のガイドラインとなる可能性がある。

With the introduction of machine learning in high-stakes decision making, ensuring algorithmic fairness has become an increasingly important problem to solve. In response to this, many mathematical definitions of fairness have been proposed, and a variety of optimisation techniques have been developed, all designed to maximise a defined notion of fairness. However, fair solutions are reliant on the quality of the training data, and can be highly sensitive to noise. Recent studies have shown that robustness (the ability for a model to perform well on unseen data) plays a significant role in the type of strategy that should be used when approaching a new problem and, hence, measuring the robustness of these strategies has become a fundamental problem. In this work, we therefore propose a new criterion to measure the robustness of various fairness optimisation strategies - the \textit{robustness ratio}. We conduct multiple extensive experiments on five bench mark fairness data sets using three of the most popular fairness strategies with respect to four of the most popular definitions of fairness. Our experiments empirically show that fairness methods that rely on threshold optimisation are very sensitive to noise in all the evaluated data sets, despite mostly outperforming other methods. This is in contrast to the other two methods, which are less fair for low noise scenarios but fairer for high noise ones. To the best of our knowledge, we are the first to quantitatively evaluate the robustness of fairness optimisation strategies. This can potentially can serve as a guideline in choosing the most suitable fairness strategy for various data sets.
翻訳日:2022-07-12 16:31:55 公開日:2022-07-11
# dna保存のためのレベンシュテイン距離に対する深い二乗ユークリッド近似

Deep Squared Euclidean Approximation to the Levenshtein Distance for DNA Storage ( http://arxiv.org/abs/2207.04684v1 )

ライセンス: Link先を確認
Alan J.X. Guo, Cong Liang, Qing-Hu Hou(参考訳) 長寿命、高い貯蔵密度、メンテナンスコストの低さから、DNA分子に情報を保持することは大きな関心事である。 DNA保存パイプラインの重要なステップは、検索したDNA配列をそれらの類似性に応じて効率的にクラスタ化することである。 レベンシュテイン距離は2つのDNA配列の類似性で最も適しているが、計算複雑性の点で劣り、成熟したクラスタリングアルゴリズムと互換性が低い。 本研究では,シームズニューラルネットワーク,2乗ユークリッド埋め込み,チ二乗回帰を用いて,DNA配列に対する新しい2乗ユークリッド埋め込みを提案する。 レヴェンシュテイン距離は、埋め込みベクトル間の2乗ユークリッド距離によって近似される。 提案手法は理論的,実験的に解析される。 その結果,提案手法は効率的かつ堅牢であることがわかった。

Storing information in DNA molecules is of great interest because of its advantages in longevity, high storage density, and low maintenance cost. A key step in the DNA storage pipeline is to efficiently cluster the retrieved DNA sequences according to their similarities. Levenshtein distance is the most suitable metric on the similarity between two DNA sequences, but it is inferior in terms of computational complexity and less compatible with mature clustering algorithms. In this work, we propose a novel deep squared Euclidean embedding for DNA sequences using Siamese neural network, squared Euclidean embedding, and chi-squared regression. The Levenshtein distance is approximated by the squared Euclidean distance between the embedding vectors, which is fast calculated and clustering algorithm friendly. The proposed approach is analyzed theoretically and experimentally. The results show that the proposed embedding is efficient and robust.
翻訳日:2022-07-12 16:29:59 公開日:2022-07-11
# スクラッチから始めるな - 事前データを活用してロボット強化学習を自動化する

Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning ( http://arxiv.org/abs/2207.04703v1 )

ライセンス: Link先を確認
Homer Walke, Jonathan Yang, Albert Yu, Aviral Kumar, Jedrzej Orbik, Avi Singh, Sergey Levine(参考訳) 強化学習(rl)アルゴリズムは、ロボットシステムの自律的スキル獲得を可能にすることを約束している。 しかし、現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。 さらに、RLで学んだロボットポリシーは、学習対象の慎重に制御された設定を超えてデプロイされると失敗することが多い。 本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。 新しいタスクに直面すると、学習済みのスキルに適応して、新しいタスクを実行し、環境を初期状態に戻すことで、自分たちの環境リセットを効果的に行う。 実験の結果,ロボット強化学習に事前データを組み込むことで,自律学習が可能となり,学習のサンプル効率が大幅に向上し,一般化が向上した。

Reinforcement learning (RL) algorithms hold the promise of enabling autonomous skill acquisition for robotic systems. However, in practice, real-world robotic RL typically requires time consuming data collection and frequent human intervention to reset the environment. Moreover, robotic policies learned with RL often fail when deployed beyond the carefully controlled setting in which they were learned. In this work, we study how these challenges can all be tackled by effective utilization of diverse offline datasets collected from previously seen tasks. When faced with a new task, our system adapts previously learned skills to quickly learn to both perform the new task and return the environment to an initial state, effectively performing its own environment reset. Our empirical results demonstrate that incorporating prior data into robotic reinforcement learning enables autonomous learning, substantially improves sample-efficiency of learning, and enables better generalization.
翻訳日:2022-07-12 16:29:43 公開日:2022-07-11
# ニューラルネットワークにおける確率的勾配勾配と逆変動-平坦性関係について

On the Stochastic Gradient Descent and Inverse Variance-flatness Relation in Artificial Neural Networks ( http://arxiv.org/abs/2207.04932v1 )

ライセンス: Link先を確認
Xia Xiong, Yong-Cong Chen, Chunxiao Shi and Ping Ao(参考訳) ディープラーニングニューラルネットワークにおいて広く使われているアルゴリズムである確率勾配降下(SGD)は、その成功の背後にある理論的原理に関する継続的な研究を引き寄せている。 最近の研究では、神経重みのばらつきと、sgd (feng & tu, pnas 118,0027 (2021)) 下での解近傍の損失関数の平坦性との関係が明らかになった。 統計的原理に反すると思われるこの現象を調べるため,SGDの力学特性を解析するために確率分解を展開させる。 この方法はボルツマン分布で使用できる真の「エネルギー」関数を構成する。 新しいエネルギーは通常のコスト関数と異なり、SGDの下でIVF関係を説明する。 さらに,Fengの研究で確認されたスケーリング関係を検証する。 我々のアプローチは、古典的な統計力学と人工知能の新たな分野のギャップを埋め、後者により良いアルゴリズムをもたらす可能性がある。

Stochastic gradient descent (SGD), a widely used algorithm in deep-learning neural networks has attracted continuing studies for the theoretical principles behind its success. A recent work uncovered a generic inverse variance-flatness (IVF) relation between the variance of neural weights and the landscape flatness of loss function near solutions under SGD [Feng & Tu, PNAS 118,0027 (2021)]. To investigate this seemly violation of statistical principle, we deploy a stochastic decomposition to analyze the dynamical properties of SGD. The method constructs the true "energy" function which can be used by Boltzmann distribution. The new energy differs from the usual cost function and explains the IVF relation under SGD. We further verify the scaling relation identified in Feng's work. Our approach may bridge the gap between the classical statistical mechanics and the emerging discipline of artificial intelligence, with potential for better algorithm to the latter.
翻訳日:2022-07-12 16:29:17 公開日:2022-07-11
# 構造制約型深層学習モデルによる異種触媒発見の促進

Boosting Heterogeneous Catalyst Discovery by Structurally Constrained Deep Learning Models ( http://arxiv.org/abs/2207.05013v1 )

ライセンス: Link先を確認
Alexey N. Korovin, Innokentiy S. Humonen, Artem I. Samtsevich, Roman A. Eremin, Artem I. Vasilyev, Vladimir D. Lazarev, Semen A. Budennyy(参考訳) 新しい触媒の発見は、再生可能エネルギー源の採用を加速する可能性があるため、計算化学の重要なトピックの1つである。 最近開発されたグラフニューラルネットワーク(gnns)のようなディープラーニングアプローチは、新しい高性能触媒のモデリングのスコープを大きく広げる新たな機会を開く。 それにもかかわらず、特定の結晶構造のグラフ表現はあいまいな連結スキームと多数のノードとエッジの埋め込みのため、単純な作業ではない。 本稿では,Voronoiテッセル化によって修正され,Open Catalyst Projectデータセット内の触媒系のエネルギーを予測できるGNNの埋め込み改善について述べる。 グラフのエンリッチメントはボロノイテッセレーションによって計算され、対応する接触固形角とタイプ(直接または間接)はエッジの特徴と見なされ、ボロノイボリュームはノード特性として使用された。 補助的なアプローチは、固有原子特性(電気陰性度、周期、グループ位置)によるノード表現の強化であった。 提案する修正により、元のモデルの平均絶対誤差を改善でき、最終誤差はopen catalystプロジェクトデータセットでは1原子あたり651 mev、金属間データセットでは1原子あたり6 mevに匹敵する。 また、追加のデータセットを考慮すると、データの適切な選択は、物理ベースで1原子あたり20 meV以上の値に誤差を減少させることができる。

The discovery of new catalysts is one of the significant topics of computational chemistry as it has the potential to accelerate the adoption of renewable energy sources. Recently developed deep learning approaches such as graph neural networks (GNNs) open new opportunity to significantly extend scope for modelling novel high-performance catalysts. Nevertheless, the graph representation of particular crystal structure is not a straightforward task due to the ambiguous connectivity schemes and numerous embeddings of nodes and edges. Here we present embedding improvement for GNN that has been modified by Voronoi tesselation and is able to predict the energy of catalytic systems within Open Catalyst Project dataset. Enrichment of the graph was calculated via Voronoi tessellation and the corresponding contact solid angles and types (direct or indirect) were considered as features of edges and Voronoi volumes were used as node characteristics. The auxiliary approach was enriching node representation by intrinsic atomic properties (electronegativity, period and group position). Proposed modifications allowed us to improve the mean absolute error of the original model and the final error equals to 651 meV per atom on the Open Catalyst Project dataset and 6 meV per atom on the intermetallics dataset. Also, by consideration of additional dataset, we show that a sensible choice of data can decrease the error to values above physically-based 20 meV per atom threshold.
翻訳日:2022-07-12 16:29:03 公開日:2022-07-11
# 計画の象徴的行動としての継続的ドメインにおける時間的拡張スキルの学習

Learning Temporally Extended Skills in Continuous Domains as Symbolic Actions for Planning ( http://arxiv.org/abs/2207.05018v1 )

ライセンス: Link先を確認
Jan Achterhold, Markus Krimmel, Joerg Stueckler(参考訳) 長期計画と継続的な制御能力を必要とする問題は、既存の強化学習エージェントにとって大きな課題となる。 本稿では,環境の計画状態の象徴的離散的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。 我々はエージェントシーズを象徴的な効果を認識できる多様なスキルと呼ぶ。 我々は,本質的動機づけによる多様なスキルセットの教師なし学習に繋がる客観的かつ対応するアルゴリズムを定式化する。 スキルは、状態抽象化におけるスキル実行の効果をキャプチャする象徴的なフォワードモデルと共同で学習される。 学習後は,フォワードモデルを用いて長期計画を行い,その後,学習した連続行動制御技術を用いて計画を実行する。 提案アルゴリズムは、連続的な制御と長期計画能力の両方を必要とする複雑なタスクを高い成功率で解くために使用できるスキルとフォワードモデルを学習する。 他の平滑で階層的な強化学習ベースラインエージェントと比較し、実ロボットで実演することに成功した。

Problems which require both long-horizon planning and continuous control capabilities pose significant challenges to existing reinforcement learning agents. In this paper we introduce a novel hierarchical reinforcement learning agent which links temporally extended skills for continuous control with a forward model in a symbolic discrete abstraction of the environment's state for planning. We term our agent SEADS for Symbolic Effect-Aware Diverse Skills. We formulate an objective and corresponding algorithm which leads to unsupervised learning of a diverse set of skills through intrinsic motivation given a known state abstraction. The skills are jointly learned with the symbolic forward model which captures the effect of skill execution in the state abstraction. After training, we can leverage the skills as symbolic actions using the forward model for long-horizon planning and subsequently execute the plan using the learned continuous-action control skills. The proposed algorithm learns skills and forward models that can be used to solve complex tasks which require both continuous control and long-horizon planning capabilities with high success rate. It compares favorably with other flat and hierarchical reinforcement learning baseline agents and is successfully demonstrated with a real robot.
翻訳日:2022-07-12 16:28:41 公開日:2022-07-11
# エージェントベース輸送シミュレーションの並列ベイズ最適化

Parallel Bayesian Optimization of Agent-based Transportation Simulation ( http://arxiv.org/abs/2207.05041v1 )

ライセンス: Link先を確認
Kiran Chhatre, Sidney Feygin, Colin Sheppard, Rashid Waraich(参考訳) MATSim (Multi-Agent Transport Simulation Toolkit) は、道路交通、公共交通、貨物輸送、地域避難など様々な分野に適用される、オープンソースの大規模エージェントベースの交通計画プロジェクトである。 BEAM(Behavior, Energy, Autonomy, and Mobility)フレームワークはMATSimを拡張し、都市交通システムの強力でスケーラブルな分析を可能にする。 BEAMシミュレーションのエージェントは、マルチノードロジットモデルに基づく「モード選択」の振る舞いを示す。 本研究では,自転車,車,徒歩,乗用車,乗用車,乗用車,乗用車,乗用車,乗用車,乗用車プールの8つのモードについて検討した。 各モード選択の'alternative specific constants'は、実験中の特定のシナリオに関連する設定ファイルの臨界ハイパーパラメータである。 実験のすべてに'Urbansim-10k' BEAM のシナリオ(人口は10,000人)を使用します。 これらのハイパーパラメータは複雑な方法でシミュレーションに影響を与えるため、手動キャリブレーション法は時間を要する。 本稿では, 初期停止規則を持つ並列ベイズ最適化法を提案し, 最適構成に対するマルチインマルチアウト問題に対する高速収束を実現する。 私たちのモデルはオープンソースのHpBandSterパッケージをベースにしています。 このアプローチは、複数の1次元カーネル密度推定器 (KDE) の階層構造と安価な評価器 (Hyperband, a single multidimensional KDE) を組み合わせる。 我々のモデルは外挿に基づく早期停止規則も取り入れている。 本モデルにより,大規模BEAMシミュレーションの25%のL1ノルムを完全自律的に達成できる。 我々の知る限りでは、我々の研究は大規模なマルチエージェント輸送シミュレーションに適用された最初のものである。 この研究は、非常に大きな人口を持つシナリオのサロゲートモデリングに有用である。

MATSim (Multi-Agent Transport Simulation Toolkit) is an open source large-scale agent-based transportation planning project applied to various areas like road transport, public transport, freight transport, regional evacuation, etc. BEAM (Behavior, Energy, Autonomy, and Mobility) framework extends MATSim to enable powerful and scalable analysis of urban transportation systems. The agents from the BEAM simulation exhibit 'mode choice' behavior based on multinomial logit model. In our study, we consider eight mode choices viz. bike, car, walk, ride hail, driving to transit, walking to transit, ride hail to transit, and ride hail pooling. The 'alternative specific constants' for each mode choice are critical hyperparameters in a configuration file related to a particular scenario under experimentation. We use the 'Urbansim-10k' BEAM scenario (with 10,000 population size) for all our experiments. Since these hyperparameters affect the simulation in complex ways, manual calibration methods are time consuming. We present a parallel Bayesian optimization method with early stopping rule to achieve fast convergence for the given multi-in-multi-out problem to its optimal configurations. Our model is based on an open source HpBandSter package. This approach combines hierarchy of several 1D Kernel Density Estimators (KDE) with a cheap evaluator (Hyperband, a single multidimensional KDE). Our model has also incorporated extrapolation based early stopping rule. With our model, we could achieve a 25% L1 norm for a large-scale BEAM simulation in fully autonomous manner. To the best of our knowledge, our work is the first of its kind applied to large-scale multi-agent transportation simulations. This work can be useful for surrogate modeling of scenarios with very large populations.
翻訳日:2022-07-12 16:28:22 公開日:2022-07-11
# 不均一変形補償ネットワークによる学習ビデオ圧縮

Learned Video Compression via Heterogeneous Deformable Compensation Network ( http://arxiv.org/abs/2207.04589v1 )

ライセンス: Link先を確認
Huairui Wang, Zhenzhong Chen, Chang Wen Chen(参考訳) 学習されたビデオ圧縮は、動画圧縮技術の発展において重要な研究テーマとして最近登場しており、動き補償は最も難しい問題の一つであると考えられている。 本稿では,一大変形性カーネルのダウンサンプリング機能領域における不安定な圧縮性能の問題に対処するために,異種変形性補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。 より具体的には、光学フローワーピングやシングルサイズカーネルの変形可能なアライメントを利用する代わりに、提案アルゴリズムは、隣接する2つのフレームから特徴を抽出し、コンテンツ適応不均一な変形可能な(HetDeform)カーネルオフセットを推定する。 次に,HetDeform畳み込みによる参照特徴の変換を行い,動き補償を実現する。 さらに、より効率的なデータガウス化と一般化されたディビジョン正規化を実現するために、空間近傍分割正規化(SNCDN)を設計する。 さらに,最終品質向上のためのコンテキスト情報と時間情報を活用するマルチフレーム拡張再構成モジュールを提案する。 実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。

Learned video compression has recently emerged as an essential research topic in developing advanced video compression technologies, where motion compensation is considered one of the most challenging issues. In this paper, we propose a learned video compression framework via heterogeneous deformable compensation strategy (HDCVC) to tackle the problems of unstable compression performance caused by single-size deformable kernels in downsampled feature domain. More specifically, instead of utilizing optical flow warping or single-size-kernel deformable alignment, the proposed algorithm extracts features from the two adjacent frames to estimate content-adaptive heterogeneous deformable (HetDeform) kernel offsets. Then we transform the reference features with the HetDeform convolution to accomplish motion compensation. Moreover, we design a Spatial-Neighborhood-Conditioned Divisive Normalization (SNCDN) to achieve more effective data Gaussianization combined with the Generalized Divisive Normalization. Furthermore, we propose a multi-frame enhanced reconstruction module for exploiting context and temporal information for final quality enhancement. Experimental results indicate that HDCVC achieves superior performance than the recent state-of-the-art learned video compression approaches.
翻訳日:2022-07-12 16:26:58 公開日:2022-07-11
# 品質基準に基づく指紋のライブネス検出

Fingerprint Liveness Detection Based on Quality Measures ( http://arxiv.org/abs/2207.04809v1 )

ライセンス: Link先を確認
Javier Galbally, Fernando Alonso-Fernandez, Julian Fierrez, Javier Ortega-Garcia(参考訳) 品質測定に基づく生活度検出のための新しい指紋パラメタライゼーションを提案する。 この新しい特徴セットは完全なライブネス検出システムで使われ、3つの異なる光学センサーで取得された4,500以上の実画像と偽画像からなるlivdetコンペティションの開発セットでテストされている。 提案手法は,マルチセンサのシナリオに頑健であることが証明され,分類されたサンプルの93%の合計率を示す。 さらに、本手法は、従来研究した1つの画像のみを、実物か偽物かを決定するために指から1枚だけ必要とするという手法よりも、さらに有利である。

A new fingerprint parameterization for liveness detection based on quality measures is presented. The novel feature set is used in a complete liveness detection system and tested on the development set of the LivDET competition, comprising over 4,500 real and fake images acquired with three different optical sensors. The proposed solution proves to be robust to the multi-sensor scenario, and presents an overall rate of 93% of correctly classified samples. Furthermore, the liveness detection method presented has the added advantage over previously studied techniques of needing just one image from a finger to decide whether it is real or fake.
翻訳日:2022-07-12 16:26:38 公開日:2022-07-11
# 偽指紋攻撃に対する指紋認証システムの脆弱性について

On the vulnerability of fingerprint verification systems to fake fingerprint attacks ( http://arxiv.org/abs/2207.04813v1 )

ライセンス: Link先を確認
Javier Galbally, Julian Fierrez-Aguilar, Joaquin Rodriguez-Gonzalez, Fernando Alonso-Fernandez, Javier Ortega-Garcia, Marino Tapiador(参考訳) グミ指を生成する新しい方法が提示される。 中規模の偽指紋データベースを記述し、2つの異なる指紋認証システムを評価する。 実験では、実際の指紋による登録とテスト、偽の指紋による登録とテスト、本物の指紋による登録と偽の指紋によるテストの3つのシナリオが検討されている。 光学式およびサーマルスイープ式センサの試験結果が得られた。 どちらのシステムも直接攻撃に弱いことが示されている。

A new method to generate gummy fingers is presented. A medium-size fake fingerprint database is described and two different fingerprint verification systems are evaluated on it. Three different scenarios are considered in the experiments, namely: enrollment and test with real fingerprints, enrollment and test with fake fingerprints, and enrollment with real fingerprints and test with fake fingerprints. Results for an optical and a thermal sweeping sensors are given. Both systems are shown to be vulnerable to direct attacks.
翻訳日:2022-07-12 16:26:26 公開日:2022-07-11
# JPEG-XS符号ストリームへの前方誤差補正の適用

Forward Error Correction applied to JPEG-XS codestreams ( http://arxiv.org/abs/2207.04825v1 )

ライセンス: Link先を確認
Antoine Legrand, Beno\^it Macq, Christophe De Vleeschouwer(参考訳) JPEG-XSは制約があるが合理的なビットレート、低レイテンシを持つアプリケーションに対して、低複雑性の画像圧縮を提供する。 本稿では,ロッキーパケットネットワークにおけるJPEG-XSの展開について検討する。 低レイテンシを維持するため、フォワードエラー補正(FEC)が関心の保護メカニズムとして考えられている。 JPEG-XS のコードストリームは本質的にはスケーラブルではないが,コードストリーム分画の損失は,このコードストリーム分画がコードストリームヘッダ,係数情報,低頻度データに対応するかによって,復号画像の品質に異なる影響を与えることが観察された。 そこで本稿では,Reed-Solomon符号の冗長度をチャネル損失率とコードによって保護される情報の種類に応じて適応させる,レート歪みの最適不等誤差保護方式を提案する。 私たちの実験では、5%の損失率で平均二乗誤差を最大92%と65%削減できることが示されています。

JPEG-XS offers low complexity image compression for applications with constrained but reasonable bit-rate, and low latency. Our paper explores the deployment of JPEG-XS on lossy packet networks. To preserve low latency, Forward Error Correction (FEC) is envisioned as the protection mechanism of interest. Despite the JPEG-XS codestream is not scalable in essence, we observe that the loss of a codestream fraction impacts the decoded image quality differently, depending on whether this codestream fraction corresponds to codestream headers, to coefficients significance information, or to low/high frequency data, respectively. Hence, we propose a rate-distortion optimal unequal error protection scheme that adapts the redundancy level of Reed-Solomon codes according to the rate of channel losses and the type of information protected by the code. Our experiments demonstrate that, at 5% loss rates, it reduces the Mean Squared Error by up to 92% and 65%, compared to a transmission without and with optimal but equal protection, respectively.
翻訳日:2022-07-12 16:26:18 公開日:2022-07-11
# 正規化制約線形逆問題に対する多レベル幾何最適化

Multi-level Geometric Optimization for Regularised Constrained Linear Inverse Problems ( http://arxiv.org/abs/2207.04934v1 )

ライセンス: Link先を確認
Sebastian M\"uller, Stefania Petra, Matthias Zisler(参考訳) ボックス制約をスムーズに組み込んだ幾何的マルチレベル最適化手法を提案する。 ボックス制約付き最適化問題を考えると、異なる離散化レベルを持つモデルの階層構造を考える。 ファイナモデルは正確だが計算に費用がかかるが、粗いモデルは正確ではなく計算に安価である。 細かなレベルで作業する場合、複数レベルの最適化は、細かなレベルで更新を高速化する粗いモデルに基づいて探索方向を計算する。 さらに、階層構造によって誘導される幾何を利用して更新の実現可能性を保持する。 特に,本手法は制約や拡張といったマルチグリッド法の古典成分を制約のリーマン構造にまで拡張する。

We present a geometric multi-level optimization approach that smoothly incorporates box constraints. Given a box constrained optimization problem, we consider a hierarchy of models with varying discretization levels. Finer models are accurate but expensive to compute, while coarser models are less accurate but cheaper to compute. When working at the fine level, multi-level optimisation computes the search direction based on a coarser model which speeds up updates at the fine level. Moreover, exploiting geometry induced by the hierarchy the feasibility of the updates is preserved. In particular, our approach extends classical components of multigrid methods like restriction and prolongation to the Riemannian structure of our constraints.
翻訳日:2022-07-12 16:25:59 公開日:2022-07-11
# 視聴覚セグメンテーション

Audio-Visual Segmentation ( http://arxiv.org/abs/2207.05042v1 )

ライセンス: Link先を確認
Jinxing Zhou, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang, Yiran Zhong(参考訳) そこで本研究では,画像フレームに音を発生させる物体のピクセルレベルマップを出力することを目的として,avs(audio-visual segmentation)と呼ばれる新しい問題を提案する。 そこで本研究では,可聴ビデオ中の音像に対する画素単位のアノテーションを提供する,最初の音声視覚分割ベンチマーク(AVSBench)を構築した。 このベンチマークでは2つの設定が研究されている。 1)単一音源を用いた半教師付き音声視覚セグメンテーション 2)複数音源を用いた全教師付き視聴覚セグメンテーション avs問題に対処するために,音声セマンティクスを視覚セグメンテーションプロセスのためのガイダンスとして,時間的画素単位の音声-視覚インタラクションモジュールを用いた新しい手法を提案する。 また、トレーニング中の音声視覚マッピングを促進するために、正規化損失を設計する。 avsbenchにおける定量的・定性的な実験は,提案手法と関連するタスクの既存の手法を比較し,提案手法が音声と画素方向の視覚意味論の橋渡しに有望であることを実証した。 コードはhttps://github.com/OpenNLPLab/AVSBenchで入手できる。

We propose to explore a new problem called audio-visual segmentation (AVS), in which the goal is to output a pixel-level map of the object(s) that produce sound at the time of the image frame. To facilitate this research, we construct the first audio-visual segmentation benchmark (AVSBench), providing pixel-wise annotations for the sounding objects in audible videos. Two settings are studied with this benchmark: 1) semi-supervised audio-visual segmentation with a single sound source and 2) fully-supervised audio-visual segmentation with multiple sound sources. To deal with the AVS problem, we propose a novel method that uses a temporal pixel-wise audio-visual interaction module to inject audio semantics as guidance for the visual segmentation process. We also design a regularization loss to encourage the audio-visual mapping during training. Quantitative and qualitative experiments on the AVSBench compare our approach to several existing methods from related tasks, demonstrating that the proposed method is promising for building a bridge between the audio and pixel-wise visual semantics. Code is available at https://github.com/OpenNLPLab/AVSBench.
翻訳日:2022-07-12 16:25:50 公開日:2022-07-11
# 深層ニューラルネットワークを用いたスイッチトシステムの適応学習

Deep neural network based adaptive learning for switched systems ( http://arxiv.org/abs/2207.04623v1 )

ライセンス: Link先を確認
Junjie He, Zhihang Xu, Qifeng Liao(参考訳) 本稿では、スイッチングシステムに対するディープニューラルネットワークに基づく適応学習(DNN-AL)アプローチを提案する。 現在、ディープニューラルネットワークに基づく手法は未知の動的システムの制御方程式を学習するために積極的に開発されているが、その効率性は、離散時間瞬間に構造変化が存在するスイッチングシステムにおいて低下する可能性がある。 この新しいDNN-AL戦略では、観測されたデータセットはアダプティブにサブセットに分解され、各サブセットに構造的変化はない。 適応処理の間、DNNは階層的に構築され、未知の切替時刻が徐々に識別される。 特に、以前のイテレーションステップのネットワークパラメータは、後続のイテレーションステップでネットワークを初期化するために再利用され、DNNの効率的なトレーニング手順が提供される。 DNN-ALを用いて得られたDNNに対して,予測誤差の境界を設定する。 DNN-ALの効率を示すために数値解析を行った。

In this paper, we present a deep neural network based adaptive learning (DNN-AL) approach for switched systems. Currently, deep neural network based methods are actively developed for learning governing equations in unknown dynamic systems, but their efficiency can degenerate for switching systems, where structural changes exist at discrete time instants. In this new DNN-AL strategy, observed datasets are adaptively decomposed into subsets, such that no structural changes within each subset. During the adaptive procedures, DNNs are hierarchically constructed, and unknown switching time instants are gradually identified. Especially, network parameters at previous iteration steps are reused to initialize networks for the later iteration steps, which gives efficient training procedures for the DNNs. For the DNNs obtained through our DNN-AL, bounds of the prediction error are established. Numerical studies are conducted to demonstrate the efficiency of DNN-AL.
翻訳日:2022-07-12 16:21:43 公開日:2022-07-11
# 繰り返し2次オークションにおける動的予算変動

Dynamic Budget Throttling in Repeated Second-Price Auctions ( http://arxiv.org/abs/2207.04690v1 )

ライセンス: Link先を確認
Zhaohua Chen, Chang Wang, Qian Wang, Yuqi Pan, Zhuming Shi, Chuyue Tang, Zheng Cai, Yukun Ren, Zhihua Zhu, Xiaotie Deng(参考訳) Throttlingは、今日のオンライン広告市場で最も人気のある予算管理手法の1つである。 予算制約のある広告主がスロットリングを採用すると、広告プラットフォームが入札を推奨した後、オークションに参加するかどうかを選択できる。 本稿では,2次オークションを繰り返す場合の動的予算削減過程を理論的に考察する。 根本的な問題の本質的な特徴は、広告主が市場参入時に最も高い入札者の分布を知らないことである。 このような不確実性を取り除くことの難しさをモデル化するため、2つの異なる情報構造を順に検討する。 広告主は、全情報フィードバックで各ラウンドで最高の競争入札を得ることができた。 一方、部分的な情報フィードバックによって、広告主は彼女が参加するオークションで最も競争力のある入札しか取得できなかった。 オンライン広告クエリに対して同時配信学習と収益最適化を行うOGD-CBアルゴリズムを提案する。 どちらの設定でも、このアルゴリズムは流体適応スロットリングベンチマークに対して1O(1/T)の確率で$O(\sqrt{T\log T})の後悔を保証する。 隠れた最適化でさえも最小限の後悔に対して$\Omega(\sqrt{T})$の低い境界を証明することにより、アルゴリズムのほぼ最適性を確立する。 最後に, スロットリングの最適流体と, 予算管理法として広く採用されているペーシングの流体を比較した。 これらのベンチマークの数値関係は、予算管理のための異なるオンラインアルゴリズムの比較に関するさらなる洞察をもたらす。

Throttling is one of the most popular budget control methods in today's online advertising markets. When a budget-constrained advertiser employs throttling, she can choose whether to participate in an auction or not after the advertising platform recommends a bid. This paper focuses on the dynamic budget throttling process in repeated second-price auctions from a theoretical view. An essential feature of the underlying problem is that the advertiser does not know the distribution of the highest competing bid upon entering the market. To model the difficulty of eliminating such uncertainty, we consider two different information structures in order. The advertiser could obtain the highest competing bid in each round with full-information feedback. Meanwhile, with partial information feedback, the advertiser could only obtain the highest competing bid in the auctions she participates in. We propose the OGD-CB algorithm, which involves simultaneous distribution learning and revenue optimization facing online ad queries. In both settings, we demonstrate that this algorithm guarantees an $O(\sqrt{T\log T})$ regret with probability $1 - O(1/T)$ relative to the fluid adaptive throttling benchmark. By proving a lower bound of $\Omega(\sqrt{T})$ on the minimal regret for even the hindsight optimum, we establish the near optimality of our algorithm. Finally, we compare the fluid optimum of throttling to that of pacing, another widely adopted budget control method. The numerical relationship of these benchmarks benefits us with further insights into the comparison of different online algorithms for budget management.
翻訳日:2022-07-12 16:20:32 公開日:2022-07-11
# 音声中間表現を用いた話者匿名化

Speaker Anonymization with Phonetic Intermediate Representations ( http://arxiv.org/abs/2207.04834v1 )

ライセンス: Link先を確認
Sarina Meyer, Florian Lux, Pavel Denisov, Julia Koch, Pascal Tilli, Ngoc Thang Vu(参考訳) 本研究では,高品質な自動音声認識と合成システムを用いて,音声の書き起こしと匿名化話者埋め込みに基づく音声生成を行う話者匿名化パイプラインを提案する。 中間表現として電話を用いると、入力から話者識別情報のほぼ完全に除去され、元の音声コンテンツは可能な限り保存される。 LibriSpeech および VCTK corpora の実験結果から,2つの重要な所見が明らかになった。 1) 自動音声認識は不完全な書き起こしを生成するが, ニューラル音声合成システムはそのような誤りを処理できるため, システムの実現性と頑健性が期待できる。 2) 異なる資源からの話者埋め込みを組み合わせることは有用であり, 適切な正規化が重要である。 全体として、私たちの最後のベストシステムは、匿名化されたスピーチの知性と自然性を維持しながら、怠け者に対するプライバシーの堅牢性の観点から、voice privacy challenge 2020で提供されるベースラインを大幅に上回っています。

In this work, we propose a speaker anonymization pipeline that leverages high quality automatic speech recognition and synthesis systems to generate speech conditioned on phonetic transcriptions and anonymized speaker embeddings. Using phones as the intermediate representation ensures near complete elimination of speaker identity information from the input while preserving the original phonetic content as much as possible. Our experimental results on LibriSpeech and VCTK corpora reveal two key findings: 1) although automatic speech recognition produces imperfect transcriptions, our neural speech synthesis system can handle such errors, making our system feasible and robust, and 2) combining speaker embeddings from different resources is beneficial and their appropriate normalization is crucial. Overall, our final best system outperforms significantly the baselines provided in the Voice Privacy Challenge 2020 in terms of privacy robustness against a lazy-informed attacker while maintaining high intelligibility and naturalness of the anonymized speech.
翻訳日:2022-07-12 16:20:09 公開日:2022-07-11
# ニューラルおよびgpc作用素の代理:構成と発現速度境界

Neural and gpc operator surrogates: construction and expression rate bounds ( http://arxiv.org/abs/2207.04950v1 )

ライセンス: Link先を確認
Lukas Herrmann, Christoph Schwab, Jakob Zech(参考訳) 近似率は無限次元関数空間間の写像の深い代理として解析され、例えば線形偏微分方程式や非線形偏微分方程式のデータ対解写像などが挙げられる。 具体的には、無限次元ヒルベルト空間間の非線形正則写像に対するDeep Neural OperatorとGeneralized Polynomial Chaos (gpc) Operator surrogatesの近似速度について検討する。 関数空間からの演算子と出力は、安定なアフィン表現系によってパラメータ化される。 許容表現系は、考慮中の空間の正則基底、リース基底、あるいは適切な強フレームを構成する。 代数的表現速度境界は、有限ソボレフあるいはベッソフ正則性を持つ、表現される写像の領域と範囲を含む分離可能なヒルベルト空間のスケールで作用するディープニューラルとgpc演算子の両方に対して確立される。 トーラス上の線形楕円型PDEに対する係数解写像の表現速度境界による抽象概念について述べる。

Approximation rates are analyzed for deep surrogates of maps between infinite-dimensional function spaces, arising e.g. as data-to-solution maps of linear and nonlinear partial differential equations. Specifically, we study approximation rates for Deep Neural Operator and Generalized Polynomial Chaos (gpc) Operator surrogates for nonlinear, holomorphic maps between infinite-dimensional, separable Hilbert spaces. Operator in- and outputs from function spaces are assumed to be parametrized by stable, affine representation systems. Admissible representation systems comprise orthonormal bases, Riesz bases or suitable tight frames of the spaces under consideration. Algebraic expression rate bounds are established for both, deep neural and gpc operator surrogates acting in scales of separable Hilbert spaces containing domain and range of the map to be expressed, with finite Sobolev or Besov regularity. We illustrate the abstract concepts by expression rate bounds for the coefficient-to-solution map for a linear elliptic PDE on the torus.
翻訳日:2022-07-12 16:19:52 公開日:2022-07-11
# ウェーブレット条件付き正規化群

Wavelet Conditional Renormalization Group ( http://arxiv.org/abs/2207.04941v1 )

ライセンス: Link先を確認
Tanguy Marchand, Misaki Ozawa, Giulio Biroli, St\'ephane Mallat(参考訳) 実験やシミュレーションで観測されたフィールドや構成のデータセットから高次元確率分布を推定するためのマルチスケールアプローチを開発する。 このようにしてエネルギー関数(あるいはハミルトニアン)を推定し、統計物理学から宇宙論まで、様々な領域の多体系の新しいサンプルを効率的に生成することができる。 提案手法であるwavelet conditional renormalization group (wc-rg) は,粗粒体で条件づけされた"高速自由度"の条件付き確率のモデルとして,スケールごとに展開する。 これらの確率分布はスケール相互作用に関連するエネルギー関数によってモデル化され、直交ウェーブレット基底で表される。 wc-rgは全てのスケールでの相互作用エネルギーの和として微視的エネルギー関数を分解し、粗いものから細かいものまで、効率的に新しいサンプルを生成することができる。 位相遷移の近傍では、直接推定とサンプリングアルゴリズムの「臨界減速」を避ける。 これは理論上RGとウェーブレット理論の結果を組み合わせて説明され、ガウス理論と$\varphi^4$場の理論に対して数値的に検証される。 マルチスケールWC-RGエネルギーベースモデルは局所ポテンシャルモデルよりも一般的であり、複雑な多体相互作用系の物理をあらゆる長さスケールで捉えることができる。 これは宇宙論における暗黒物質分布を反映する弱重力レンズ場に対して示され、長い尾の確率分布との長距離相互作用を含む。 WC-RG は非平衡系において多くの潜在的な応用を持ち、基礎となる分布は知られていない。 最後に,WC-RGとディープネットワークアーキテクチャの関係について述べる。

We develop a multiscale approach to estimate high-dimensional probability distributions from a dataset of physical fields or configurations observed in experiments or simulations. In this way we can estimate energy functions (or Hamiltonians) and efficiently generate new samples of many-body systems in various domains, from statistical physics to cosmology. Our method -- the Wavelet Conditional Renormalization Group (WC-RG) -- proceeds scale by scale, estimating models for the conditional probabilities of "fast degrees of freedom" conditioned by coarse-grained fields. These probability distributions are modeled by energy functions associated with scale interactions, and are represented in an orthogonal wavelet basis. WC-RG decomposes the microscopic energy function as a sum of interaction energies at all scales and can efficiently generate new samples by going from coarse to fine scales. Near phase transitions, it avoids the "critical slowing down" of direct estimation and sampling algorithms. This is explained theoretically by combining results from RG and wavelet theories, and verified numerically for the Gaussian and $\varphi^4$ field theories. We show that multiscale WC-RG energy-based models are more general than local potential models and can capture the physics of complex many-body interacting systems at all length scales. This is demonstrated for weak-gravitational-lensing fields reflecting dark matter distributions in cosmology, which include long-range interactions with long-tail probability distributions. WC-RG has a large number of potential applications in non-equilibrium systems, where the underlying distribution is not known {\it a priori}. Finally, we discuss the connection between WC-RG and deep network architectures.
翻訳日:2022-07-12 16:19:34 公開日:2022-07-11
# (参考訳) エッジにおけるターボチャージインタラクティブNLP

Turbocharge Interactive NLP at the Edge ( http://arxiv.org/abs/2207.05022v1 )

ライセンス: CC BY 4.0
Liwei Guo, Wonkyo Choe, Felix Xiaozhu Lin(参考訳) 自然言語処理(nlp)推論は、ユーザのデータのプライバシの保護とネットワークラウンドトリップの回避にデバイス上での推論が不可欠であるモバイルアプリケーションで採用が増加している。 しかし、NLPモデルの前例のないサイズは、モバイルデバイスの2つの重要なリソースであるレイテンシとメモリの両方を強調している。 ターゲットのレイテンシを満たすため、モデル全体のメモリ保持はできるだけ早く実行を起動するが、1つのアプリのメモリフットプリントを数回増加させるため、モバイルメモリ管理によってリサイクルされる前に、そのメリットをわずかに制限する。 一方、オンデマンドのストレージからモデルを読み込むと、ユーザにとって満足な遅延範囲をはるかに超える数秒のIOが発生する。 そこで我々はSpeedy Transformer Inference (STI)を提案する。 モデルの最も重要な部分でio/computeリソースの利用を最大化するという重要なアイデアに基づいて、stiは2つの新しいテクニックによってレイテンシ/メモリの緊張を和らげる。 まず、モデルシャーディング。 STIはモデルパラメータを独立に調整可能なシャードとして管理し、正確性の重要性をプロファイルする。 次に、プリロードバッファによる弾性パイプライン計画。 STIはIO/計算パイプラインをインスタンス化し、小さなバッファを使用してシャードをプリロードし、早期に停止することなく実行をブートストラップする。 2つのコモディティ SoC の上に STI を構築し,実際の目標レイテンシ,CPU と GPU の両面において,幅広い NLP タスクに対して評価を行う。 我々は、STIが1~2桁のメモリで高い精度を実現し、競争上のベースラインを上回っていることを示した。

Natural Language Processing (NLP) inference is seeing increasing adoption by mobile applications, where on-device inference is desirable for crucially preserving user data privacy and avoiding network roundtrips. Yet, the unprecedented size of an NLP model stresses both latency and memory, the two key resources of a mobile device. To meet a target latency, holding the whole model in memory launches execution as soon as possible but increases one app's memory footprints by several times, limiting its benefits to only a few inferences before being recycled by mobile memory management. On the other hand, loading the model from storage on demand incurs a few seconds long IO, far exceeding the delay range satisfying to a user; pipelining layerwise model loading and execution does not hide IO either, due to the large skewness between IO and computation delays. To this end, we propose Speedy Transformer Inference (STI). Built on the key idea of maximizing IO/compute resource utilization on the most important parts of a model, STI reconciles the latency/memory tension via two novel techniques. First, model sharding. STI manages model parameters as independently tunable shards and profiles their importance to accuracy. Second, elastic pipeline planning with a preload buffer. STI instantiates an IO/computation pipeline and uses a small buffer for preload shards to bootstrap execution without stalling in early stages; it judiciously selects, tunes, and assembles shards per their importance for resource-elastic execution, which maximizes inference accuracy. Atop two commodity SoCs, we build STI and evaluate it against a wide range of NLP tasks, under a practical range of target latencies, and on both CPU and GPU. We demonstrate that, STI delivers high accuracies with 1--2 orders of magnitude lower memory, outperforming competitive baselines.
翻訳日:2022-07-12 16:17:18 公開日:2022-07-11
# バイナリネットワークのスパース化

Sparsifying Binary Networks ( http://arxiv.org/abs/2207.04974v1 )

ライセンス: Link先を確認
Riccardo Schiavone and Maria A. Zuluaga(参考訳) バイナリニューラルネットワーク(BNN)は、完全精度のディープニューラルネットワーク(DNN)と同等の精度で複雑なタスクを解く能力を示し、計算能力とストレージの要求を低減し、処理速度を向上する。 これらの特性は、IoT(Internet-of-Things)デバイスにおけるDNNベースのアプリケーションの開発とデプロイの魅力的な代替手段となる。 最近の改善にもかかわらず、非常に限られたリソースを持つ特定のデバイスで不十分な、固定的で制限された圧縮要因に悩まされている。 本研究では, スパース二元系ニューラルネットワーク (SBNN) とBNNの疎性を導入し, ネットワークの重みをバイナライズする新しい量子化関数を提案する。 提案したSBNNは高い圧縮係数を達成でき、推論時の演算数やパラメータを減らすことができる。 また、ハードウェアリソースの制約を尊重しながら、SBNN設計を支援するツールも提供する。 3つのデータセット上の線形および畳み込みネットワークに関する一連の実験を通じて,圧縮係数の異なる方法の一般化特性について検討した。 我々の実験は、SBNNは、一般化を損なうことなく高い圧縮率を達成でき、さらにBNNの操作を減らし、安価で低コストで限られたリソースのIoTデバイスやセンサーにDNNをデプロイする実行可能な選択肢となることを確認した。

Binary neural networks (BNNs) have demonstrated their ability to solve complex tasks with comparable accuracy as full-precision deep neural networks (DNNs), while also reducing computational power and storage requirements and increasing the processing speed. These properties make them an attractive alternative for the development and deployment of DNN-based applications in Internet-of-Things (IoT) devices. Despite the recent improvements, they suffer from a fixed and limited compression factor that may result insufficient for certain devices with very limited resources. In this work, we propose sparse binary neural networks (SBNNs), a novel model and training scheme which introduces sparsity in BNNs and a new quantization function for binarizing the network's weights. The proposed SBNN is able to achieve high compression factors and it reduces the number of operations and parameters at inference time. We also provide tools to assist the SBNN design, while respecting hardware resource constraints. We study the generalization properties of our method for different compression factors through a set of experiments on linear and convolutional networks on three datasets. Our experiments confirm that SBNNs can achieve high compression rates, without compromising generalization, while further reducing the operations of BNNs, making SBNNs a viable option for deploying DNNs in cheap, low-cost, limited-resources IoT devices and sensors.
翻訳日:2022-07-12 15:46:03 公開日:2022-07-11
# ブロックチェーン型フェデレートフォレスト車載ネットワーク侵入検知システムにおける逆行例の統計的検出

Statistical Detection of Adversarial examples in Blockchain-based Federated Forest In-vehicle Network Intrusion Detection Systems ( http://arxiv.org/abs/2207.04843v1 )

ライセンス: Link先を確認
Ibrahim Aliyu, Selinde van Engelenburg, Muhammed Bashir Muazu, Jinsul Kim, Chang Gyoon Lim(参考訳) IoV(Internet-of-Vehicle)は、コネクテッドカー(CV)、自律車(AV)、および他のIoVエンティティ間のシームレスな接続を容易にする。 IoVネットワークの侵入検知システム(IDS)は、車載ネットワークをサイバー攻撃から保護するために機械学習(ML)を利用することができる。 ブロックチェーンベースのフェデレートフォレスト(BFF)は、IoVエンティティのデータに基づいて、データの機密性を保護し、データの改ざんリスクを低減するとともに、MLモデルをトレーニングするために使用することができる。 しかし、この方法で作成されたMLモデルは、敵の例を用いた回避、中毒、探索攻撃に対して依然として脆弱である。 本報告では,BFF-IDSに対する各種の逆効果について検討する。 我々は,未知の敵検体を検出・抽出するための統計検出器の統合を提案した。 検出された未知のサンプルを検出器のデータセットに含めることで、BFF-IDSを拡張モデルで拡張し、元の既知の攻撃と新しい敵入力を検出する。 統計的対向検出器は,50サンプルと100サンプルのサンプルサイズで確実に対向例を検出した。 さらに、BFF-IDS(BFF-IDS(AUG))は、敵のサンプルを96%以上の精度で軽減することに成功した。 このアプローチでは、敵のサンプルが検出され、その後BFF-IDS(AUG)がアクティブセキュリティモデルとして採用されるたびに、モデルがサンドボックス内で拡張され続ける。 その結果,BFF-IDSの統計的対向検出器と検出された対向検体との統合が提案され,対向検体や他の未知の攻撃に対する持続的なセキュリティ・フレームワークが提供される。

The internet-of-Vehicle (IoV) can facilitate seamless connectivity between connected vehicles (CV), autonomous vehicles (AV), and other IoV entities. Intrusion Detection Systems (IDSs) for IoV networks can rely on machine learning (ML) to protect the in-vehicle network from cyber-attacks. Blockchain-based Federated Forests (BFFs) could be used to train ML models based on data from IoV entities while protecting the confidentiality of the data and reducing the risks of tampering with the data. However, ML models created this way are still vulnerable to evasion, poisoning, and exploratory attacks using adversarial examples. This paper investigates the impact of various possible adversarial examples on the BFF-IDS. We proposed integrating a statistical detector to detect and extract unknown adversarial samples. By including the unknown detected samples into the dataset of the detector, we augment the BFF-IDS with an additional model to detect original known attacks and the new adversarial inputs. The statistical adversarial detector confidently detected adversarial examples at the sample size of 50 and 100 input samples. Furthermore, the augmented BFF-IDS (BFF-IDS(AUG)) successfully mitigates the adversarial examples with more than 96% accuracy. With this approach, the model will continue to be augmented in a sandbox whenever an adversarial sample is detected and subsequently adopt the BFF-IDS(AUG) as the active security model. Consequently, the proposed integration of the statistical adversarial detector and the subsequent augmentation of the BFF-IDS with detected adversarial samples provides a sustainable security framework against adversarial examples and other unknown attacks.
翻訳日:2022-07-12 15:44:40 公開日:2022-07-11
# 複素照明器具のための学習ラミアンス場表現

A Learned Radiance-Field Representation for Complex Luminaires ( http://arxiv.org/abs/2207.05009v1 )

ライセンス: Link先を確認
Jorge Condor, Adri\'an Jarabo(参考訳) 本稿では,高画質オクツリーを用いた発光発光の効率的なレンダリング法を提案する。 複雑な照明器具は、照明器具内部の可視光路のため、レンダリングにおいて特に難しい問題である。 単純なプロキシ幾何学を用いて照明器具の幾何学的複雑さを低減し、神経放射場を用いて視覚複合発光光場を符号化する。 我々は、高ダイナミックレンジ、高周波コンテンツ、ヌルエミッション領域など、発光体を表現するためにNeRFを使用する複数の課題に、特殊な損失関数を提案することで取り組む。 レンダリングでは、発光器のNeRFをPlenoctreeに蒸留し、従来のレンダリングシステムに簡単に組み込むことができる。 我々の手法は、最小限の誤差を含む複雑な照明器具を含むシーンで最大2桁のスピードアップを可能にする。

We propose an efficient method for rendering complex luminaires using a high-quality octree-based representation of the luminaire emission. Complex luminaires are a particularly challenging problem in rendering, due to their caustic light paths inside the luminaire. We reduce the geometric complexity of luminaires by using a simple proxy geometry and encode the visually-complex emitted light field by using a neural radiance field. We tackle the multiple challenges of using NeRFs for representing luminaires, including their high dynamic range, high-frequency content and null-emission areas, by proposing a specialized loss function. For rendering, we distill our luminaires' NeRF into a Plenoctree, which we can be easily integrated into traditional rendering systems. Our approach allows for speed-ups of up to 2 orders of magnitude in scenes containing complex luminaires introducing minimal error.
翻訳日:2022-07-12 15:44:14 公開日:2022-07-11
# マルチモーダル感情認識のためのWav2vec 2.0とBERTの多レベル融合

Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion Recognition ( http://arxiv.org/abs/2207.04697v1 )

ライセンス: Link先を確認
Zihan Zhao, Yanfeng Wang, Yu Wang(参考訳) マルチモーダル感情認識の研究と応用は近年ますます人気が高まっている。 しかし、マルチモーダル感情認識はデータ不足の課題に直面している。 そこで本研究では,wav2vec 2.0 と bert を含む最先端の事前学習モデルを活用した転送学習手法を提案する。 コートテンションに基づく早期核融合と後期核融合を含む多段階核融合法について検討した。 また, フレームレベルの音声埋め込みだけでなく, 音声, 音節, 単語レベルの音声埋め込みなどのセグメントレベルの埋め込みも抽出し, さらなる性能向上を図る。 その結果,IEMOCAPデータセット上で,初期核融合モデルと後期核融合モデルと多粒度特徴抽出フレームワークを組み合わせることで,最適なベースラインアプローチを1.3%の未重み付き精度(UA)で上回る結果を得た。

The research and applications of multimodal emotion recognition have become increasingly popular recently. However, multimodal emotion recognition faces the challenge of lack of data. To solve this problem, we propose to use transfer learning which leverages state-of-the-art pre-trained models including wav2vec 2.0 and BERT for this task. Multi-level fusion approaches including coattention-based early fusion and late fusion with the models trained on both embeddings are explored. Also, a multi-granularity framework which extracts not only frame-level speech embeddings but also segment-level embeddings including phone, syllable and word-level speech embeddings is proposed to further boost the performance. By combining our coattention-based early fusion model and late fusion model with the multi-granularity feature extraction framework, we obtain result that outperforms best baseline approaches by 1.3% unweighted accuracy (UA) on the IEMOCAP dataset.
翻訳日:2022-07-12 15:43:45 公開日:2022-07-11
# lat: ビデオテキスト検索のためのサイクルコンシスタンス付き潜在翻訳

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval ( http://arxiv.org/abs/2207.04858v1 )

ライセンス: Link先を確認
Jinbin Bai, Chunhui Liu, Feiyue Ni, Haofan Wang, Mengying Hu, Xiaofeng Guo, Lele Cheng(参考訳) ビデオテキスト検索は、与えられたテキストクエリと候補ビデオプール間のテキストクエリに対応するビデオを選択することを目的とした、クロスモーダル表現学習問題のクラスである。 視覚言語事前学習の対照的なパラダイムは、大規模データセットと統一トランスフォーマーアーキテクチャで有望な成功を示し、共同潜在空間のパワーを実証している。 それにもかかわらず、視覚領域とテキスト領域の本質的な相違はいまだに排除されておらず、異なるモードをジョイント潜在空間に投影すると、単一のモダリティ内の情報の歪みが生じる可能性がある。 上記の問題を克服するために,視覚領域とテキスト領域のギャップを埋める結合潜在空間を必要とせず,ソースモダリティ空間 $\mathcal{s}$ からターゲットモダリティ空間 $\mathcal{t}$ への変換関係を学習するための新しいメカニズムを提案する。 さらに、翻訳間のサイクル一貫性を維持するために、$\mathcal{S}$から予測対象空間$\mathcal{T'}$への前方変換と$\mathcal{T'}$から$\mathcal{S}$への後方変換の両方を含むサイクル損失を採用する。 MSR-VTT, MSVD, DiDeMo のデータセットを用いた大規模な実験により,Vanilla State-of-the-art法と比較して,LaT アプローチの優位性と有効性を示した。

Video-text retrieval is a class of cross-modal representation learning problems, where the goal is to select the video which corresponds to the text query between a given text query and a pool of candidate videos. The contrastive paradigm of vision-language pretraining has shown promising success with large-scale datasets and unified transformer architecture, and demonstrated the power of a joint latent space. Despite this, the intrinsic divergence between the visual domain and textual domain is still far from being eliminated, and projecting different modalities into a joint latent space might result in the distorting of the information inside the single modality. To overcome the above issue, we present a novel mechanism for learning the translation relationship from a source modality space $\mathcal{S}$ to a target modality space $\mathcal{T}$ without the need for a joint latent space, which bridges the gap between visual and textual domains. Furthermore, to keep cycle consistency between translations, we adopt a cycle loss involving both forward translations from $\mathcal{S}$ to the predicted target space $\mathcal{T'}$, and backward translations from $\mathcal{T'}$ back to $\mathcal{S}$. Extensive experiments conducted on MSR-VTT, MSVD, and DiDeMo datasets demonstrate the superiority and effectiveness of our LaT approach compared with vanilla state-of-the-art methods.
翻訳日:2022-07-12 15:41:02 公開日:2022-07-11
# SDFEst: 符号付き距離場を用いたRGB-Dからの物体の分類と形状推定

SDFEst: Categorical Pose and Shape Estimation of Objects from RGB-D using Signed Distance Fields ( http://arxiv.org/abs/2207.04880v1 )

ライセンス: Link先を確認
Leonard Bruns and Patric Jensfelt(参考訳) 世界の豊かな幾何学的理解は、計画や操作といった多くのロボット応用の重要な要素である。 本稿では,RGB-D画像からオブジェクトのポーズと形状を推定するためのモジュールパイプラインを提案する。 提案手法のコアは生成形状モデルであり,新しい初期化ネットワークと微分可能なレンダラーを統合し,単一のビューや複数ビューから6次元のポーズと形状推定を可能にする。 高速な解析・合成最適化のための効率的な形状表現として,離散化符号距離場を用いる。 モジュラーフレームワークはマルチビューの最適化と拡張性を可能にする。 人工データと実データの両方についていくつかの実験を行い,最先端手法に対するアプローチの利点を実証した。 私たちはアプローチをhttps://github.com/roym899/sdfestでオープンソース化しました。

Rich geometric understanding of the world is an important component of many robotic applications such as planning and manipulation. In this paper, we present a modular pipeline for pose and shape estimation of objects from RGB-D images given their category. The core of our method is a generative shape model, which we integrate with a novel initialization network and a differentiable renderer to enable 6D pose and shape estimation from a single or multiple views. We investigate the use of discretized signed distance fields as an efficient shape representation for fast analysis-by-synthesis optimization. Our modular framework enables multi-view optimization and extensibility. We demonstrate the benefits of our approach over state-of-the-art methods in several experiments on both synthetic and real data. We open-source our approach at https://github.com/roym899/sdfest.
翻訳日:2022-07-12 15:40:35 公開日:2022-07-11
# 画像テキスト検索のためのモード内制約損失

Intra-Modal Constraint Loss For Image-Text Retrieval ( http://arxiv.org/abs/2207.05024v1 )

ライセンス: Link先を確認
Jianan Chen, Lu Zhang, Qiong Wang, Cong Bai, Kidiyo Kpalma(参考訳) クロスモーダル検索はコンピュータビジョンと自然言語処理領域の両方で注目を集めている。 畳み込みと繰り返しのニューラルネットワークの開発により、画像-テキストモダリティ間の検索のボトルネックはもはや画像とテキストの特徴の抽出ではなく、埋め込み空間における効率的な損失関数学習である。 多くの損失関数は不均一なモジュラリティからペアワイズな特徴に近づこうとする。 本稿では,画像とテキストの結合埋め込みをモダル内制約損失関数を用いて学習し,同じ均一なモードから負対の違反を低減する方法を提案する。 実験の結果,Flickr30KおよびMicrosoft COCOデータセット上で,最先端の双方向画像テキスト検索手法よりも優れていた。 私たちのコードは、https://github.com/CanonChen/IMC.comで公開されています。

Cross-modal retrieval has drawn much attention in both computer vision and natural language processing domains. With the development of convolutional and recurrent neural networks, the bottleneck of retrieval across image-text modalities is no longer the extraction of image and text features but an efficient loss function learning in embedding space. Many loss functions try to closer pairwise features from heterogeneous modalities. This paper proposes a method for learning joint embedding of images and texts using an intra-modal constraint loss function to reduce the violation of negative pairs from the same homogeneous modality. Experimental results show that our approach outperforms state-of-the-art bi-directional image-text retrieval methods on Flickr30K and Microsoft COCO datasets. Our code is publicly available: https://github.com/CanonChen/IMC.
翻訳日:2022-07-12 15:40:23 公開日:2022-07-11
# Fast-Vid2Vid:ビデオ間合成のための空間時間圧縮

Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis ( http://arxiv.org/abs/2207.05049v1 )

ライセンス: Link先を確認
Long Zhuo, Guangcong Wang, Shikai Li, Wayne Wu, Ziwei Liu(参考訳) ビデオ間合成(Vid2Vid)は,セマンティックマップのシーケンスから写真リアルな映像を生成することで,顕著な成果を上げている。 しかし、このパイプラインは高い計算コストと長い推論遅延に悩まされており、主に2つの重要な要因に依存している。 1)ネットワークアーキテクチャパラメータ、 2)シーケンシャルなデータストリーム。 近年,画像ベース生成モデルのパラメータは,より効率的なネットワークアーキテクチャによって大幅に圧縮されている。 それでも、既存の手法は主にネットワークアーキテクチャのスリム化とシーケンシャルなデータストリームのサイズを無視することに焦点を当てている。 さらに、時間的コヒーレンスが欠如しているため、映像ベースの圧縮は、映像タスクの圧縮に十分ではない。 本稿では,生成モデルのデータ面に着目した空間時間圧縮フレームワーク \textbf{fast-vid2vid} を提案する。 これは時間次元で計算資源を減らし、推論を加速する最初の試みである。 具体的には,入力データストリームを空間的に圧縮し,時間的冗長性を低減する。 提案した時空間知識蒸留後,低分解能データストリームを用いてキーフレームを合成できる。 最後に、Fast-Vid2Vidは、わずかなレイテンシで動き補正によって中間フレームを補間する。 標準ベンチマークでは、Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを削減している。

Video-to-Video synthesis (Vid2Vid) has achieved remarkable results in generating a photo-realistic video from a sequence of semantic maps. However, this pipeline suffers from high computational cost and long inference latency, which largely depends on two essential factors: 1) network architecture parameters, 2) sequential data stream. Recently, the parameters of image-based generative models have been significantly compressed via more efficient network architectures. Nevertheless, existing methods mainly focus on slimming network architectures and ignore the size of the sequential data stream. Moreover, due to the lack of temporal coherence, image-based compression is not sufficient for the compression of the video task. In this paper, we present a spatial-temporal compression framework, \textbf{Fast-Vid2Vid}, which focuses on data aspects of generative models. It makes the first attempt at time dimension to reduce computational resources and accelerate inference. Specifically, we compress the input data stream spatially and reduce the temporal redundancy. After the proposed spatial-temporal knowledge distillation, our model can synthesize key-frames using the low-resolution data stream. Finally, Fast-Vid2Vid interpolates intermediate frames by motion compensation with slight latency. On standard benchmarks, Fast-Vid2Vid achieves around real-time performance as 20 FPS and saves around 8x computational cost on a single V100 GPU.
翻訳日:2022-07-12 15:39:06 公開日:2022-07-11
# 分散分配回帰のための非線形十分次元削減

Nonlinear Sufficient Dimension Reduction for Distribution-on-Distribution Regression ( http://arxiv.org/abs/2207.04613v1 )

ライセンス: Link先を確認
Qi Zhang, Bing Li, and Lingzhou Xue(参考訳) 本稿では, 計量空間の構成員としてモデル化された, 予測と応答の両方が分布データである非線形十分次元低減のための新しい枠組みを提案する。 非線形な十分な次元の縮小を達成するための重要なステップは、計量空間上に普遍的なカーネルを構築することであり、その結果、十分な次元の縮小を決定する条件独立性を特徴付けるのに十分リッチな予測器と応答のためのカーネルヒルベルト空間を再現する。 多変量分布に対しては、よく知られたワッサースタイン距離の定位表現を用いて普遍核を構築し、多変量分布では、この目的を達成するために最近開発されたスライスされたワッサースタイン距離を用いる。 スライスされたワッサースタイン距離は、不定値ワッサースタイン距離の分位表現の集約によって計算できるので、多変量ワッサースタイン距離の計算は管理可能なレベルで維持される。 この方法は、出生率、死亡率分布データおよびカルガリー温度データを含むいくつかのデータセットに適用される。

We introduce a novel framework for nonlinear sufficient dimension reduction where both the predictor and the response are distributional data, which are modeled as members of a metric space. Our key step to achieving the nonlinear sufficient dimension reduction is to build universal kernels on the metric spaces, which results in reproducing kernel Hilbert spaces for the predictor and response that are rich enough to characterize the conditional independence that determines sufficient dimension reduction. For univariate distributions, we use the well-known quantile representation of the Wasserstein distance to construct the universal kernel; for multivariate distributions, we resort to the recently developed sliced Wasserstein distance to achieve this purpose. Since the sliced Wasserstein distance can be computed by aggregation of quantile representation of the univariate Wasserstein distance, the computation of multivariate Wasserstein distance is kept at a manageable level. The method is applied to several data sets, including fertility and mortality distribution data and Calgary temperature data.
翻訳日:2022-07-12 15:38:31 公開日:2022-07-11
# 自然言語処理を用いた相互資金分類の学習

Learning Mutual Fund Categorization using Natural Language Processing ( http://arxiv.org/abs/2207.04959v1 )

ライセンス: Link先を確認
Dimitrios Vamvourellis, Mate Attila Toth, Dhruv Desai, Dhagash Mehta, Stefano Pasquali(参考訳) 相互資金のカテゴリ化やetf(exchange-traded-funds)は、金融アナリストに、競合分析からポートフォリオの多様化の定量化に至るまで、さまざまな目的でピア分析を行うための役立った。 分類法は、通常 n-1a から抽出された構造化形式における資金構成データに依存する。 本稿では,自然言語処理(NLP)を用いて,非構造化データから分類システムを直接学習する研究を開始する。 入力データは,その形式で報告された投資戦略記述のみであり,対象変数はLipper Globalカテゴリであり,様々なNLPモデルを用いて,分類システムを高精度に学習可能であることを示す。 本研究の意義と応用、および既存の事前学習されたアーキテクチャの限界について、資金の分類を学ぶために適用することについて論じる。

Categorization of mutual funds or Exchange-Traded-funds (ETFs) have long served the financial analysts to perform peer analysis for various purposes starting from competitor analysis, to quantifying portfolio diversification. The categorization methodology usually relies on fund composition data in the structured format extracted from the Form N-1A. Here, we initiate a study to learn the categorization system directly from the unstructured data as depicted in the forms using natural language processing (NLP). Positing as a multi-class classification problem with the input data being only the investment strategy description as reported in the form and the target variable being the Lipper Global categories, and using various NLP models, we show that the categorization system can indeed be learned with high accuracy. We discuss implications and applications of our findings as well as limitations of existing pre-trained architectures in applying them to learn fund categorization.
翻訳日:2022-07-12 15:38:14 公開日:2022-07-11
# (参考訳) 競馬にAIは何ができるか?

What AI can do for horse-racing ? ( http://arxiv.org/abs/2207.04981v1 )

ライセンス: CC BY 4.0
Pierre Colle(参考訳) 1980年代以降、機械学習は競馬の予測に広く使われ、アルゴリズムが賭け市場で大きな役割を果たしている場所へと徐々に拡大してきた。 機械学習は、過去10年間で競馬の賭け市場を変えてきたが、大きな変化はまだ続くだろう。 ニューラルネットワーク(ディープラーニング)のパラダイムシフトは、単にレースの結果を予測する能力を改善するだけでなく、馬のレースに関する考え方全体を揺るがすことになるでしょう。 2012年以降、ディープラーニングはコンピュータビジョンと統計学習やゲーム理論における最先端の成果をますます提供してきた。 この3つの機械学習分野(コンピュータビジョン、統計学習、ゲーム理論)の収束が、次の10年でどのようにゲームチェンジャーになるかを説明する。 我々は、競馬は動物と人間の相互作用に取り組み、非人間中心の人工知能を構築する現実世界の実験室であると考えている。 このことが、馬の理解を深め、動物と人間全般の相互作用を良くするであろうと私たちは信じています。

Since the 1980s, machine learning has been widely used for horse-racing predictions, gradually expanding to where algorithms are now playing a huge role in the betting market. Machine learning has changed the horse-racing betting market over the last ten years, but main changes are still to come. The paradigm shift of neural networks (deep learning) may not only improve our ability to simply predict the outcome of a race, but it will also certainly shake our entire way of thinking about horse-racing - and maybe more generally about horses. Since 2012, deep learning provided more and more state-of-the-art results in computer vision and now statistical learning or game theory. We describe how the convergence of the three machine learning fields (computer vision, statistical learning, and game theory) will be game-changers in the next decade in our ability to predict and understand horse-racing. We consider that horse-racing is a real world laboratory where we can work on the animal-human interaction and build a non-anthropocentric Artificial Intelligence. We believe that this will lead us to understand the horses better and the interactions between animals and humans in general.
翻訳日:2022-07-12 15:35:50 公開日:2022-07-11
# 自己教師付きオブジェクト中心表現を用いた教師なし意味セグメンテーション

Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations ( http://arxiv.org/abs/2207.05027v1 )

ライセンス: Link先を確認
Andrii Zadaianchuk, Matthaeus Kleindessner, Yi Zhu, Francesco Locatello, Thomas Brox(参考訳) 本稿では、10年前の教師付きセマンティックセグメンテーションの分野の状況に合致したパフォーマンスで教師なしオブジェクト発見と意味セグメンテーションを可能にする、教師なし機能学習の最近の進歩を示す。 提案手法は,非教師付きサリエンシーマスクと自己教師付き特徴クラスタリングによるオブジェクト発見を行い,擬似ラベル上で意味セグメンテーションネットワークを訓練し,複数のオブジェクトを持つ画像上でシステムをブートストラップする手法である。 本研究は,最先端技術(47.3 mIoU)をはるかに超えたPASCALVOCの結果を報告するとともに,本手法は,81クラス全体を対象としたMS COCOにおいて,平均IoU19.6と20.%以上の34のカテゴリを検出した。

In this paper, we show that recent advances in self-supervised feature learning enable unsupervised object discovery and semantic segmentation with a performance that matches the state of the field on supervised semantic segmentation 10 years ago. We propose a methodology based on unsupervised saliency masks and self-supervised feature clustering to kickstart object discovery followed by training a semantic segmentation network on pseudo-labels to bootstrap the system on images with multiple objects. We present results on PASCAL VOC that go far beyond the current state of the art (47.3 mIoU), and we report for the first time results on MS COCO for the whole set of 81 classes: our method discovers 34 categories with more than $20\%$ IoU, while obtaining an average IoU of 19.6 for all 81 categories.
翻訳日:2022-07-12 15:23:59 公開日:2022-07-11
# 都市計画における公共価値の特定と空間紛争

Identifying public values and spatial conflicts in urban planning ( http://arxiv.org/abs/2207.04719v1 )

ライセンス: Link先を確認
Rico H. Herzog, Juliana E. Gon\c{c}alves, Geertje Slingerland, Reinout Kleinhans, Holger Prang, Frances Brazier, Trivik Verma(参考訳) 市民の多様でしばしば競合する価値を特定し、連続する公共価値の衝突を解決することは、包括的で統合的な都市開発にとって重要な意味を持つ。 研究者は、相対的で価値ある都市空間は、空間的にも時間的にも様々な紛争を引き起こすことを強調している。 公共価値紛争の概念は理論上は考えられているが、そのような価値とその都市空間における紛争を特定する実証研究は少ない。 本稿では, 公共価値理論とケーススタディ混合手法を用いて, 都市空間における公共価値の対立を実証的に調査する手法を提案する。 ドイツ・ハンブルクの公共参加地理情報システムからの4,528人の市民貢献の非構造化参加データを用いて、潜在的な価値衝突の領域を特定するために自然言語処理と空間クラスタリング技術が使用される。 4つの専門家ワークショップがこれらの定量的な結果を評価し、解釈している。 定量的および定性的な結果、19の一般公的な値、合計9の考古学的対立を統合した。 これらの結果に基づき, 都市空間の空間的価値を考慮し, 公共価値紛争の理論的概念を拡張した, 公共価値圏の新たな概念的ツールを提案する。

Identifying the diverse and often competing values of citizens, and resolving the consequent public value conflicts, are of significant importance for inclusive and integrated urban development. Scholars have highlighted that relational, value-laden urban space gives rise to many diverse conflicts that vary both spatially and temporally. Although notions of public value conflicts have been conceived in theory, there are very few empirical studies that identify such values and their conflicts in urban space. Building on public value theory and using a case-study mixed-methods approach, this paper proposes a new approach to empirically investigate public value conflicts in urban space. Using unstructured participatory data of 4,528 citizen contributions from a Public Participation Geographic Information Systems in Hamburg, Germany, natural language processing and spatial clustering techniques are used to identify areas of potential value conflicts. Four expert workshops assess and interpret these quantitative findings. Integrating both quantitative and qualitative results, 19 general public values and a total of 9 archetypical conflicts are identified. On the basis of these results, this paper proposes a new conceptual tool of Public Value Spheres that extends the theoretical notion of public-value conflicts and helps to further account for the value-laden nature of urban space.
翻訳日:2022-07-12 15:23:41 公開日:2022-07-11
# 不均衡データの部分再サンプリング

Partial Resampling of Imbalanced Data ( http://arxiv.org/abs/2207.04631v1 )

ライセンス: Link先を確認
Firuz Kamalov, Amir F. Atiya, Dina Elreedy(参考訳) 不均衡データは機械学習で頻繁に発生する問題である。 不均衡データのサンプリング技術に関する多くの文献があるが、最適なサンプリング比の問題に対処する研究は限られている。 本稿では,サンプリング比が分類精度に与える影響を大規模に研究し,文献のギャップを埋めようとしている。 一般的なサンプリング手法を10種類検討し,20種類のデータセットに基づく評価を行った。 数値実験の結果、最適なサンプリング比は0.7から0.8であり、正確な比率はデータセットによって異なることが示唆された。 さらに, 最適比を決定する上で, 元の不均衡比や特徴数などの要因が明確な役割を果たさないのに対して, データセット内のサンプル数には有意な効果が生じる可能性がある。

Imbalanced data is a frequently encountered problem in machine learning. Despite a vast amount of literature on sampling techniques for imbalanced data, there is a limited number of studies that address the issue of the optimal sampling ratio. In this paper, we attempt to fill the gap in the literature by conducting a large scale study of the effects of sampling ratio on classification accuracy. We consider 10 popular sampling methods and evaluate their performance over a range of ratios based on 20 datasets. The results of the numerical experiments suggest that the optimal sampling ratio is between 0.7 and 0.8 albeit the exact ratio varies depending on the dataset. Furthermore, we find that while factors such the original imbalance ratio or the number of features do not play a discernible role in determining the optimal ratio, the number of samples in the dataset may have a tangible effect.
翻訳日:2022-07-12 15:20:03 公開日:2022-07-11
# (参考訳) 言語モデルのための埋め込みリサイクル

Embedding Recycling for Language Models ( http://arxiv.org/abs/2207.04993v1 )

ライセンス: CC BY 4.0
Jon Saad-Falcon, Amanpreet Singh, Luca Soldaini, Mike D'Arcy, Arman Cohan, Doug Downey(参考訳) 大きなニューラルモデルによるトレーニングと推論は高価である。 しかし、多くのアプリケーションドメインでは、新しいタスクやモデルが頻繁に発生するが、基礎となるドキュメントはほとんど変わっていない。 本研究では, 組込みリサイクル (ER) を用いて, トレーニングや推論を行う際に, 従来のモデル実行時のアクティベーションを再利用することにより, 計算コストを低減させる方法について検討する。 ファインタニングのための小さな分類ヘッドの凍結に焦点をあてた以前の研究とは対照的に、未訓練モデルからの中間層の出力をキャッシュし、新しいタスクのために残りの層を微調整する手法を提案する。 提案手法は,学習中に100%高速化し,55~86%の高速化を実現し,科学的領域におけるテキスト分類やエンティティ認識タスクの精度に与える影響を無視できることを示した。 一般領域質問応答タスクでは、ERも同様のスピードアップを提供し、少ない精度で精度を下げる。 最後に,ERの課題と今後の方向性を明らかにする。

Training and inference with large neural models is expensive. However, for many application domains, while new tasks and models arise frequently, the underlying documents being modeled remain mostly unchanged. We study how to decrease computational cost in such settings through embedding recycling (ER): re-using activations from previous model runs when performing training or inference. In contrast to prior work focusing on freezing small classification heads for finetuning which often leads to notable drops in performance, we propose caching an intermediate layer's output from a pretrained model and finetuning the remaining layers for new tasks. We show that our method provides a 100% speedup during training and a 55-86% speedup for inference, and has negligible impacts on accuracy for text classification and entity recognition tasks in the scientific domain. For general-domain question answering tasks, ER offers a similar speedup and lowers accuracy by a small amount. Finally, we identify several open challenges and future directions for ER.
翻訳日:2022-07-12 15:17:29 公開日:2022-07-11
# 機械視による廃銅粒度評価システム

A Waste Copper Granules Rating System Based on Machine Vision ( http://arxiv.org/abs/2207.04575v1 )

ライセンス: Link先を確認
Kaikai Zhao, Yajie Cui, Zhaoxiang Liu, and Shiguo Lian(参考訳) 廃銅顆粒リサイクルの分野において, 技術者は廃銅顆粒中のあらゆる種類の不純物を識別し, 評価前の経験に依存する質量比率を推定できるべきである。 この手動評価法は、客観性と包括性に欠ける費用がかかる。 そこで本研究では, 機械視と深層学習に基づく廃銅粒度評価システムを提案する。 まず,評価タスクを2次元画像認識および純度回帰タスクに定式化する。 次に, 2段階の畳み込みレーティングネットワークを設計し, 廃棄物銅顆粒の質量純度と評価レベルを算出する。 評価ネットワークにはセグメンテーションネットワークと純度回帰ネットワークが含まれており、それぞれ、廃銅顆粒のセグメンテーションヒートマップと純度結果を算出する。 拡張データセット上で評価ネットワークをトレーニングした後、実廃銅顆粒実験により、提案したネットワークの有効性と優位性を示す。 具体的には, 精度, 有効性, 頑健性, 客観性の観点から, マニュアル方式よりも優れている。

In the field of waste copper granules recycling, engineers should be able to identify all different sorts of impurities in waste copper granules and estimate their mass proportion relying on experience before rating. This manual rating method is costly, lacking in objectivity and comprehensiveness. To tackle this problem, we propose a waste copper granules rating system based on machine vision and deep learning. We firstly formulate the rating task into a 2D image recognition and purity regression task. Then we design a two-stage convolutional rating network to compute the mass purity and rating level of waste copper granules. Our rating network includes a segmentation network and a purity regression network, which respectively calculate the semantic segmentation heatmaps and purity results of the waste copper granules. After training the rating network on the augmented datasets, experiments on real waste copper granules demonstrate the effectiveness and superiority of the proposed network. Specifically, our system is superior to the manual method in terms of accuracy, effectiveness, robustness, and objectivity.
翻訳日:2022-07-12 14:58:03 公開日:2022-07-11
# マルチモーダル車両軌道予測のための階層的潜在構造

Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory Forecasting ( http://arxiv.org/abs/2207.04624v1 )

ライセンス: Link先を確認
Dooseop Choi, KyoungWook Min(参考訳) 変分オートエンコーダ (VAE) は理論上エレガントで、訓練が容易で、多様体表現がよいため、データ分布のモデル化に広く利用されている。 しかし、画像再構成や合成タスクに適用すると、vaeは生成されたサンプルがぼやけやすいという制限を示す。 生成した軌道が隣接する車線の間に位置する同様の問題は、VAEに基づく軌道予測モデルでしばしば発生する。 この問題を軽減するため,vaeに基づく予測モデルに階層的潜在構造を導入する。 軌跡分布を単純な分布(またはモード)の混合として近似できるという仮定に基づき、低レベル潜在変数を用いて混合のそれぞれのモードをモデル化し、高レベル潜在変数を用いてモードの重みを表現する。 各モードを正確にモデル化するために,新しい方法で計算された2つの車線レベルコンテキストベクトルを用いて低レベル潜在変数を条件とし,一方は車線間相互作用に対応し,もう一方は車線間相互作用に対応する。 コンテキストベクトルは、提案されたモード選択ネットワークを介して重み付けをモデル化するためにも用いられる。 予測モデルを評価するために、2つの大規模な実世界のデータセットを使用する。 実験結果から,本モデルでは,鮮明なマルチモーダル軌道分布を生成できるだけでなく,予測精度において最先端(SOTA)モデルよりも優れていることが示された。 私たちのコードはhttps://github.com/d1024choi/hlstrajforecastで利用可能です。

Variational autoencoder (VAE) has widely been utilized for modeling data distributions because it is theoretically elegant, easy to train, and has nice manifold representations. However, when applied to image reconstruction and synthesis tasks, VAE shows the limitation that the generated sample tends to be blurry. We observe that a similar problem, in which the generated trajectory is located between adjacent lanes, often arises in VAE-based trajectory forecasting models. To mitigate this problem, we introduce a hierarchical latent structure into the VAE-based forecasting model. Based on the assumption that the trajectory distribution can be approximated as a mixture of simple distributions (or modes), the low-level latent variable is employed to model each mode of the mixture and the high-level latent variable is employed to represent the weights for the modes. To model each mode accurately, we condition the low-level latent variable using two lane-level context vectors computed in novel ways, one corresponds to vehicle-lane interaction and the other to vehicle-vehicle interaction. The context vectors are also used to model the weights via the proposed mode selection network. To evaluate our forecasting model, we use two large-scale real-world datasets. Experimental results show that our model is not only capable of generating clear multi-modal trajectory distributions but also outperforms the state-of-the-art (SOTA) models in terms of prediction accuracy. Our code is available at https://github.com/d1024choi/HLSTrajForecast.
翻訳日:2022-07-12 14:56:23 公開日:2022-07-11
# レキシコンと奥行き分離可能な畳み込みに基づく手書き文字認識システム

A Lexicon and Depth-wise Separable Convolution Based Handwritten Text Recognition System ( http://arxiv.org/abs/2207.04651v1 )

ライセンス: Link先を確認
Lalita Kumari, Sukhdeep Singh, VVS Rathore and Anuj Sharma(参考訳) 手書きの手書き文字認識は、パターン認識の領域において困難な研究課題である。 現在の最先端のアプローチには、畳み込みリカレントニューラルネットワークと多次元の長期記憶リカレントニューラルネットワーク技術に基づくモデルが含まれる。 これらの手法は非常に計算量が多く、モデルも設計レベルで複雑である。 近年の研究では、畳み込みニューラルネットワークとゲート畳み込みニューラルネットワークに基づくモデルの組み合わせにより、畳み込みリカレントニューラルネットワークに基づくモデルと比較してパラメータの数が少ないことが示されている。 本研究は、学習すべきパラメータの総数を減らすために、ゲート畳み込みニューラルネットワークと双方向ゲート再帰ユニットを組み合わせることで、標準畳み込みの代わりに深さ方向畳み込みを用いて、訓練対象パラメータの総数を削減する。 さらに,テスト段階では辞書ベースのワードビーム検索デコーダも搭載した。 また、モデル全体の精度を改善するのにも役立ちます。 iamデータセットでは文字誤り率3.84%、単語誤り率9.40%、ジョージ・ワシントンデータセットでは文字誤り率4.88%、単語誤り率は14.56%である。

Cursive handwritten text recognition is a challenging research problem in the domain of pattern recognition. The current state-of-the-art approaches include models based on convolutional recurrent neural networks and multi-dimensional long short-term memory recurrent neural networks techniques. These methods are highly computationally extensive as well model is complex at design level. In recent studies, combination of convolutional neural network and gated convolutional neural networks based models demonstrated less number of parameters in comparison to convolutional recurrent neural networks based models. In the direction to reduced the total number of parameters to be trained, in this work, we have used depthwise convolution in place of standard convolutions with a combination of gated-convolutional neural network and bidirectional gated recurrent unit to reduce the total number of parameters to be trained. Additionally, we have also included a lexicon based word beam search decoder at testing step. It also helps in improving the the overall accuracy of the model. We have obtained 3.84% character error rate and 9.40% word error rate on IAM dataset; 4.88% character error rate and 14.56% word error rate in George Washington dataset, respectively.
翻訳日:2022-07-12 14:55:59 公開日:2022-07-11
# 局所校正によるFederated Medical Image Segmentationのパーソナライズ

Personalizing Federated Medical Image Segmentation via Local Calibration ( http://arxiv.org/abs/2207.04655v1 )

ライセンス: Link先を確認
Jiacheng Wang, Yueming Jin, Liansheng Wang(参考訳) 複数の臨床サイトがデータセットを集中化することなく、グローバルなモデルを共同学習できるようにすることで、医療用画像セグメンテーション(fl)は有望な方向性である。 しかし、異なるサイトからの様々なデータ分布に単一のモデルを適用することは極めて困難である。 パーソナライズされたflは、グローバルサーバから共有される部分モデルパラメータのみを利用することでこの問題に対処し、残りは各サイトのローカルトレーニングで独自のデータ分散に適応させる。 しかし,既存のほとんどの手法は部分的パラメータ分割に重点を置いているが,局所的な訓練では「textit{inter-site in-consistencies}」は考慮していない。 本稿では, セグメンテーションを促進するために, 両者の現場間不整合を利用して, セグメンテーションを促進するための, パーソナライズされたフレームワークを提案する。 具体的には,各局所サイトが様々な特徴に別の注意を払っているため,まずコントラストサイトとチャネル選択操作を併用してエンコードされた特徴を校正する。 さらに,予測レベルの非一貫性の知識を活用し,あいまいな領域,例えば解剖学的境界のパーソナライズドモデリングを導出する。 予測をキャリブレーションする不一致マップを計算することで達成される。 本手法の有効性は,特徴の異なる3つの医用画像分割課題において検証され,最先端のパーソナライズfl法に対して一貫して優れた性能を示す。 コードはhttps://github.com/jcwang123/FedLCで入手できる。

Medical image segmentation under federated learning (FL) is a promising direction by allowing multiple clinical sites to collaboratively learn a global model without centralizing datasets. However, using a single model to adapt to various data distributions from different sites is extremely challenging. Personalized FL tackles this issue by only utilizing partial model parameters shared from global server, while keeping the rest to adapt to its own data distribution in the local training of each site. However, most existing methods concentrate on the partial parameter splitting, while do not consider the \textit{inter-site in-consistencies} during the local training, which in fact can facilitate the knowledge communication over sites to benefit the model learning for improving the local accuracy. In this paper, we propose a personalized federated framework with \textbf{L}ocal \textbf{C}alibration (LC-Fed), to leverage the inter-site in-consistencies in both \textit{feature- and prediction- levels} to boost the segmentation. Concretely, as each local site has its alternative attention on the various features, we first design the contrastive site embedding coupled with channel selection operation to calibrate the encoded features. Moreover, we propose to exploit the knowledge of prediction-level in-consistency to guide the personalized modeling on the ambiguous regions, e.g., anatomical boundaries. It is achieved by computing a disagreement-aware map to calibrate the prediction. Effectiveness of our method has been verified on three medical image segmentation tasks with different modalities, where our method consistently shows superior performance to the state-of-the-art personalized FL methods. Code is available at https://github.com/jcwang123/FedLC.
翻訳日:2022-07-12 14:55:39 公開日:2022-07-11
# 4次元点雲分割のための空間的・時間的変動の学習

Learning Spatial and Temporal Variations for 4D Point Cloud Segmentation ( http://arxiv.org/abs/2207.04673v1 )

ライセンス: Link先を確認
Shi Hanyu, Wei Jiacheng, Wang Hao, Liu Fayao and Lin Guosheng(参考訳) LiDARベースの3Dシーン認識は、自動運転の基本的で重要なタスクである。 LiDARに基づく3D認識タスクの最先端手法のほとんどは、単一のフレーム3Dポイントクラウドデータに焦点をあてており、これらの手法では時間情報は無視される。 フレーム間の時間情報は,特に運転シナリオにおいて,3次元シーンの知覚に重要な知識を提供する。 本稿では,空間的および時間的変動に着目し,3次元フレーム間の時間的情報の探索を行う。 時間変動を考慮した補間モジュールと時相ボクセル点修正器を設計し, 4次元点雲の時間変動を捉える。 時間変化認識補間は、時間的コヒーレンスおよび時間的変動情報をキャプチャすることにより、前および現在のフレームから局所的な特徴を生成する。 時間ボクセル点精製器は3次元点雲列上に時間グラフを構築し、時間変動をグラフ畳み込みモジュールでキャプチャする。 時間的ボクセル点積分器は粗いボクセル準位予測を微妙な点準位予測に変換する。 提案するモジュールにより,新しいネットワークTVSNは,SemanticKITTIとSemantiPOSSの最先端性能を実現する。 具体的には,semantickittiのマルチスキャンセグメンテーションタスクにおけるmiou(以前のベストアプローチに対して+5.5%)の52.5\%,semanticposs(以前のベストアプローチに対して+2.8%)の63.0%を達成した。

LiDAR-based 3D scene perception is a fundamental and important task for autonomous driving. Most state-of-the-art methods on LiDAR-based 3D recognition tasks focus on single frame 3D point cloud data, and the temporal information is ignored in those methods. We argue that the temporal information across the frames provides crucial knowledge for 3D scene perceptions, especially in the driving scenario. In this paper, we focus on spatial and temporal variations to better explore the temporal information across the 3D frames. We design a temporal variation-aware interpolation module and a temporal voxel-point refiner to capture the temporal variation in the 4D point cloud. The temporal variation-aware interpolation generates local features from the previous and current frames by capturing spatial coherence and temporal variation information. The temporal voxel-point refiner builds a temporal graph on the 3D point cloud sequences and captures the temporal variation with a graph convolution module. The temporal voxel-point refiner also transforms the coarse voxel-level predictions into fine point-level predictions. With our proposed modules, the new network TVSN achieves state-of-the-art performance on SemanticKITTI and SemantiPOSS. Specifically, our method achieves 52.5\% in mIoU (+5.5% against previous best approaches) on the multiple scan segmentation task on SemanticKITTI, and 63.0% on SemanticPOSS (+2.8% against previous best approaches).
翻訳日:2022-07-12 14:55:00 公開日:2022-07-11
# IMU運動ダイナミクスの統合によるスケールアウェア、ロバスト、および一般化不可能な単眼深度推定に向けて

Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics ( http://arxiv.org/abs/2207.04680v1 )

ライセンス: Link先を確認
Sen Zhang, Jing Zhang, and Dacheng Tao(参考訳) 教師なし単眼深度と自我運動推定は近年広く研究の注目を集めている。 現在の手法は高い精度に達しているが、単眼列の訓練から固有のスケールあいまいさのため、通常は真のスケールメトリックを学習できない。 本研究では,この課題に対処し,視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。 具体的には,imuフォトメトリックロスとクロスセンサーフォトメトリック一貫性ロスを提案し,密接な監督と絶対スケールを提供する。 両センサの相補的な情報をフル活用するために,カメラ中心の拡張カルマンフィルタ(EKF)を駆動し,視覚計測を観察する際のIMU事前積分動作を更新する。 さらに、ekfの定式化により、教師なしの手法では自我運動の不確実性測度の学習が可能となる。 トレーニング中に imu を活用することで、dynadepth は絶対的なスケールを学ぶだけでなく、照明変化や移動物体といった視覚の劣化に対するより良い一般化能力と堅牢性を提供する。 我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。

Unsupervised monocular depth and ego-motion estimation has drawn extensive research attention in recent years. Although current methods have reached a high up-to-scale accuracy, they usually fail to learn the true scale metric due to the inherent scale ambiguity from training with monocular sequences. In this work, we tackle this problem and propose DynaDepth, a novel scale-aware framework that integrates information from vision and IMU motion dynamics. Specifically, we first propose an IMU photometric loss and a cross-sensor photometric consistency loss to provide dense supervision and absolute scales. To fully exploit the complementary information from both sensors, we further drive a differentiable camera-centric extended Kalman filter (EKF) to update the IMU preintegrated motions when observing visual measurements. In addition, the EKF formulation enables learning an ego-motion uncertainty measure, which is non-trivial for unsupervised methods. By leveraging IMU during training, DynaDepth not only learns an absolute scale, but also provides a better generalization ability and robustness against vision degradation such as illumination change and moving objects. We validate the effectiveness of DynaDepth by conducting extensive experiments and simulations on the KITTI and Make3D datasets.
翻訳日:2022-07-12 14:54:36 公開日:2022-07-11
# 最適対向パッチを用いた単眼深度推定の物理的攻撃

Physical Attack on Monocular Depth Estimation with Optimal Adversarial Patches ( http://arxiv.org/abs/2207.04718v1 )

ライセンス: Link先を確認
Zhiyuan Cheng, James Liang, Hongjun Choi, Guanhong Tao, Zhiwen Cao, Dongfang Liu and Xiangyu Zhang(参考訳) ディープラーニングは、完全な視覚に基づく自律運転(AD)システム(例えばTeslaやToyota)において重要なコンポーネントであるモノクル深度推定(MDE)の性能を大幅に向上させた。 本研究では,学習に基づくMDEに対する攻撃を開発する。 特に、最適化に基づく手法を用いて、ステルスな物理オブジェクト指向の敵パッチを体系的に生成し、深さ推定を行う。 我々は,攻撃のステルス性と有効性を,オブジェクト指向の対角設計,感度領域の局所化,自然スタイルのカモフラージュとバランスさせる。 実世界の運転シナリオを用いて、同時MDEモデルに対する攻撃と、AD(つまり3Dオブジェクト検出)のダウンストリームタスクを評価する。 実験結果から, 車両後部領域の1/9のパッチを用いて, 物体検出において, 異なる対象物やモデルに対してステルス性, 有効, 堅牢な対向パッチを生成でき, 6m以上の平均深度推定誤差と93%の攻撃成功率(ASR)が得られることがわかった。 実車による3つの異なる運転経路でのフィールドテストでは、平均深度推定誤差が6メートル以上となり、連続ビデオフレームでの物体検出率は90.70%から5.16%に低下した。

Deep learning has substantially boosted the performance of Monocular Depth Estimation (MDE), a critical component in fully vision-based autonomous driving (AD) systems (e.g., Tesla and Toyota). In this work, we develop an attack against learning-based MDE. In particular, we use an optimization-based method to systematically generate stealthy physical-object-oriented adversarial patches to attack depth estimation. We balance the stealth and effectiveness of our attack with object-oriented adversarial design, sensitive region localization, and natural style camouflage. Using real-world driving scenarios, we evaluate our attack on concurrent MDE models and a representative downstream task for AD (i.e., 3D object detection). Experimental results show that our method can generate stealthy, effective, and robust adversarial patches for different target objects and models and achieves more than 6 meters mean depth estimation error and 93% attack success rate (ASR) in object detection with a patch of 1/9 of the vehicle's rear area. Field tests on three different driving routes with a real vehicle indicate that we cause over 6 meters mean depth estimation error and reduce the object detection rate from 90.70% to 5.16% in continuous video frames.
翻訳日:2022-07-12 14:54:14 公開日:2022-07-11
# 幾何学的一像フルボディリライティング

Geometry-aware Single-image Full-body Human Relighting ( http://arxiv.org/abs/2207.04750v1 )

ライセンス: Link先を確認
Chaonan Ji, Tao Yu, Kaiwen Guo, Jingxin Liu, Yebin Liu(参考訳) 単像人間の照明は、入力画像をアルベド、形状、照明に分解することで、新しい照明条件下でターゲットの人間を照らすことを目的としている。 妥当な照明効果は達成できるが、以前の方法はアルベドと照明の絡み合いと硬い影の欠如の両方に苦しむため、リアリズムは大きく低下する。 これら2つの問題に対処するために,従来のグラフィックレンダリングとニューラルレンダリングの併用配置に単一画像の幾何再構成を応用した,幾何学的一眼レフティングフレームワークを提案する。 消灯のために、unetアーキテクチャの欠点を探究し、修正hrnetを提案し、アルベドと照明のより良好な絡み合いを実現する。 本報告では,高周波数影を明示的にモデル化したレイトレーシング方式の画素ごとの照明表現を導入し,レイトレーシングシェーディングマップから現実的な影(ハードキャストシャドウを含む)を復元する学習型シェーディングリファインメントモジュールを提案する。 提案手法は, キャスティングシャドウなどのフォトリアリスティックな高周波シャドウを, 厳しい照明条件下で生成することができる。 提案手法は, 合成画像と実画像の両方において, 従来の手法よりも優れていた。

Single-image human relighting aims to relight a target human under new lighting conditions by decomposing the input image into albedo, shape and lighting. Although plausible relighting results can be achieved, previous methods suffer from both the entanglement between albedo and lighting and the lack of hard shadows, which significantly decrease the realism. To tackle these two problems, we propose a geometry-aware single-image human relighting framework that leverages single-image geometry reconstruction for joint deployment of traditional graphics rendering and neural rendering techniques. For the de-lighting, we explore the shortcomings of UNet architecture and propose a modified HRNet, achieving better disentanglement between albedo and lighting. For the relighting, we introduce a ray tracing-based per-pixel lighting representation that explicitly models high-frequency shadows and propose a learning-based shading refinement module to restore realistic shadows (including hard cast shadows) from the ray-traced shading maps. Our framework is able to generate photo-realistic high-frequency shadows such as cast shadows under challenging lighting conditions. Extensive experiments demonstrate that our proposed method outperforms previous methods on both synthetic and real images.
翻訳日:2022-07-12 14:52:52 公開日:2022-07-11
# イメージ除雪のためのスノーマスク誘導適応残雪ネットワーク

Snow Mask Guided Adaptive Residual Network for Image Snow Removal ( http://arxiv.org/abs/2207.04754v1 )

ライセンス: Link先を確認
Bodong Cheng, Juncheng Li, Ying Chen, Shuyi Zhang, Tieyong Zeng(参考訳) 厳しい天候下での画像復元は難しい作業です。 過去の作品の多くは、雨や風の現象を画像から除去することに焦点を当てていた。 しかし、雪は極めて一般的な大気現象であり、オブジェクト検出やセマンティクスセグメンテーションといった高レベルのコンピュータビジョンタスクのパフォーマンスに深刻な影響を与える。 近年,除雪法が提案され,ほとんどの手法が最適化対象として雪像を直接扱うようになっている。 しかし、雪の位置と形状の分布は複雑である。 したがって、雪片や雪片を効果的に検出できないことは、除雪やモデル性能の制限に影響を及ぼす。 これらの問題を解決するために,Snow Mask Guided Adaptive Residual Network (SMGARN)を提案する。 具体的には, Mask-Net, Guidance-Fusion Network (GF-Net), Reconstruct-Netの3つの部分で構成される。 まず,自己画素注意 (SA) とクロスピクセル注意 (CA) を併用したマスクネットを構築し,雪片の特徴を把握し,雪面の位置を正確に推定し,正確な雪面予測を行う。 次に、予測した雪マスクを特別に設計されたgf-netに送り、モデルに適応して雪を除去させる。 最後に、効率的な再構成ネットを用いてヴェイリング効果を除去し、画像を補正して雪のない最終画像を再構築する。 積極的実験により, SMGARNは既存の除雪方法よりも数値的に優れており, 再構成された画像は視覚コントラストにおいて明瞭であることがわかった。 すべてのコードは利用可能です。

Image restoration under severe weather is a challenging task. Most of the past works focused on removing rain and haze phenomena in images. However, snow is also an extremely common atmospheric phenomenon that will seriously affect the performance of high-level computer vision tasks, such as object detection and semantic segmentation. Recently, some methods have been proposed for snow removing, and most methods deal with snow images directly as the optimization object. However, the distribution of snow location and shape is complex. Therefore, failure to detect snowflakes / snow streak effectively will affect snow removing and limit the model performance. To solve these issues, we propose a Snow Mask Guided Adaptive Residual Network (SMGARN). Specifically, SMGARN consists of three parts, Mask-Net, Guidance-Fusion Network (GF-Net), and Reconstruct-Net. Firstly, we build a Mask-Net with Self-pixel Attention (SA) and Cross-pixel Attention (CA) to capture the features of snowflakes and accurately localized the location of the snow, thus predicting an accurate snow mask. Secondly, the predicted snow mask is sent into the specially designed GF-Net to adaptively guide the model to remove snow. Finally, an efficient Reconstruct-Net is used to remove the veiling effect and correct the image to reconstruct the final snow-free image. Extensive experiments show that our SMGARN numerically outperforms all existing snow removal methods, and the reconstructed images are clearer in visual contrast. All codes will be available.
翻訳日:2022-07-12 14:52:27 公開日:2022-07-11
# Waymo 3D検出リーダーボードへのMT-Net送信

MT-Net Submission to the Waymo 3D Detection Leaderboard ( http://arxiv.org/abs/2207.04781v1 )

ライセンス: Link先を確認
Shaoxiang Chen, Zequn Jie, Xiaolin Wei, Lin Ma(参考訳) 本技術報告では、Waymo 3D Detectionのリーダーボードについて紹介する。 私たちのネットワークはCenterpointアーキテクチャに基づいているが、大幅に改善されている。 我々は,多次元バックボーンを設計し,様々な大きさの物体をよりよく検出すると共に,よりリッチな監視信号を検出候補に動的に割り当てる最適なトランスポートベースターゲット割り当て戦略を提案する。 さらなる改善のために、テスト時間拡張とモデルセンスも適用します。 現在、waymo 3d detection leaderboardの78.45 maphで4位にランクインしています。

In this technical report, we introduce our submission to the Waymo 3D Detection leaderboard. Our network is based on the Centerpoint architecture, but with significant improvements. We design a 2D backbone to utilize multi-scale features for better detecting objects with various sizes, together with an optimal transport-based target assignment strategy, which dynamically assigns richer supervision signals to the detection candidates. We also apply test-time augmentation and model-ensemble for further improvements. Our submission currently ranks 4th place with 78.45 mAPH on the Waymo 3D Detection leaderboard.
翻訳日:2022-07-12 14:52:04 公開日:2022-07-11
# pcct : 不均衡医用画像分類のための進歩的クラス中心三重項損失

PCCT: Progressive Class-Center Triplet Loss for Imbalanced Medical Image Classification ( http://arxiv.org/abs/2207.04793v1 )

ライセンス: Link先を確認
Kanghao Chen, Weixian Lei, Rong Zhang, Shen Zhao, Wei-shi Zheng, Ruixuan Wang(参考訳) 不均衡トレーニングデータは、医用画像分類において重要な課題である。 本研究では,三重項サンプリング戦略と三重項損失形成を慎重に設計し,特に希少疾患の診断におけるクラス不均衡を緩和する新しい進歩型クラス中心三重項(pcct)フレームワークを提案する。 具体的には、PCCTフレームワークは、2つの連続的な段階を含む。 第1段階では、pcctはクラスバランスの三重項損失によって診断システムを訓練し、異なるクラスの分布を粗く分離する。 第2段階では、PCCTフレームワークは、クラス中心の3重項損失による診断システムをさらに改善し、各クラスによりコンパクトな分布をもたらす。 クラスバランスの三重項損失の場合、トレーニングイテレーション毎に三重項を等しくサンプリングし、不均衡なデータ問題を軽減する。 クラス中心による三重項損失では、各三重項の正と負のサンプルが対応するクラス中心に置き換えられ、クラス中心に近い同じクラスのデータ表現が強制される。 さらに、クラス中心三重項損失は、提案された枠組みの一般化を示すペアワイズランキング損失と四重項損失に拡張される。 広汎な実験により、PCCTフレームワークは、不均衡な訓練画像を用いた医用画像分類に効果的に機能する。 2つの皮膚画像データセットと1つの胸部X線データセットにおいて、各クラスの平均F1スコア86.2, 65.2, 90.66, 希少クラス81.4, 63.87, 81.92をそれぞれ取得し、最先端のパフォーマンスを達成し、クラス不均衡問題に対して広く使われている手法より優れている。

Imbalanced training data is a significant challenge for medical image classification. In this study, we propose a novel Progressive Class-Center Triplet (PCCT) framework to alleviate the class imbalance issue particularly for diagnosis of rare diseases, mainly by carefully designing the triplet sampling strategy and the triplet loss formation. Specifically, the PCCT framework includes two successive stages. In the first stage, PCCT trains the diagnosis system via a class-balanced triplet loss to coarsely separate distributions of different classes. In the second stage, the PCCT framework further improves the diagnosis system via a class-center involved triplet loss to cause a more compact distribution for each class. For the class-balanced triplet loss, triplets are sampled equally for each class at each training iteration, thus alleviating the imbalanced data issue. For the class-center involved triplet loss, the positive and negative samples in each triplet are replaced by their corresponding class centers, which enforces data representations of the same class closer to the class center. Furthermore, the class-center involved triplet loss is extended to the pair-wise ranking loss and the quadruplet loss, which demonstrates the generalization of the proposed framework. Extensive experiments support that the PCCT framework works effectively for medical image classification with imbalanced training images. On two skin image datasets and one chest X-ray dataset, the proposed approach respectively obtains the mean F1 score 86.2, 65.2, and 90.66 over all classes and 81.4, 63.87, and 81.92 for rare classes, achieving state-of-the-art performance and outperforming the widely used methods for the class imbalance issue.
翻訳日:2022-07-12 14:51:56 公開日:2022-07-11
# CCPL:Versatileスタイル転送におけるコントラストコヒーレンス保護

CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer ( http://arxiv.org/abs/2207.04808v1 )

ライセンス: Link先を確認
Zijie Wu, Zhen Zhu, Junping Du and Xiang Bai(参考訳) 本稿では,トレーニング中に映像を見ることなく,芸術的,写真的,映像的スタイルの同時転送が可能な汎用的なスタイル転送手法を提案する。 従来の単一フレーム法は、時間的一貫性を維持するために画像全体に強い制約を課しており、多くのケースで違反する可能性がある。 代わりに、グローバル不整合が局所的不整合に支配されているという軽微で合理的な仮定をし、局所的パッチに適用された一般的なコントラストコヒーレンス保存損失(CCPL)を考案する。 ccplはスタイライゼーションを損なうことなく、スタイル転送中にコンテンツソースの一貫性を保つことができる。 さらに、隣接する調節機構を持ち、局所的な歪みが大幅に減少し、視覚品質が大幅に向上する。 万能なスタイル転送における優れたパフォーマンスとは別に、画像から画像への変換など他のタスクにも容易に拡張できる。 さらに,コンテンツとスタイル機能を融合させるため,コンテンツ特徴の2次統計をスタイル特徴と効果的に整合させる簡易共分散変換(sct)を提案する。 CCPLを用いた多目的移動モデルの有効性を示す実験を行った。

In this paper, we aim to devise a universally versatile style transfer method capable of performing artistic, photo-realistic, and video style transfer jointly, without seeing videos during training. Previous single-frame methods assume a strong constraint on the whole image to maintain temporal consistency, which could be violated in many cases. Instead, we make a mild and reasonable assumption that global inconsistency is dominated by local inconsistencies and devise a generic Contrastive Coherence Preserving Loss (CCPL) applied to local patches. CCPL can preserve the coherence of the content source during style transfer without degrading stylization. Moreover, it owns a neighbor-regulating mechanism, resulting in a vast reduction of local distortions and considerable visual quality improvement. Aside from its superior performance on versatile style transfer, it can be easily extended to other tasks, such as image-to-image translation. Besides, to better fuse content and style features, we propose Simple Covariance Transformation (SCT) to effectively align second-order statistics of the content feature with the style feature. Experiments demonstrate the effectiveness of the resulting model for versatile style transfer, when armed with CCPL.
翻訳日:2022-07-12 14:51:24 公開日:2022-07-11
# 領域一般化都市シーンセグメンテーションのための逆方向拡張

Adversarial Style Augmentation for Domain Generalized Urban-Scene Segmentation ( http://arxiv.org/abs/2207.04892v1 )

ライセンス: Link先を確認
Zhun Zhong, Yuyang Zhao, Gim Hee Lee, Nicu Sebe(参考訳) 本稿では,ラベル付き合成(ソース)データのみを使用して頑健なモデルを学ぶことを目的とした,意味セグメンテーションにおける領域一般化の問題を考える。 このモデルは、未認識の実(ターゲット)ドメインでうまく機能することが期待されている。 本研究は,画像スタイルの変動がモデルの性能に大きく影響し,その特徴をチャネル平均と標準偏差によって表現できることを示した。 そこで本研究では,トレーニング中のハードなスタイリング画像を動的に生成し,モデルがソースドメインに過度に適合することを効果的に防止できる,新しい逆スタイル拡張(AdvStyle)手法を提案する。 具体的には、AdvStyleはスタイル機能を学習可能なパラメータとみなし、敵のトレーニングによって更新する。 学習した対角的特徴は、頑健なモデルトレーニングのための対角的イメージを構築するために使用される。 AdvStyleの実装は簡単で、異なるモデルに簡単に適用できる。 2つの合成から実のセマンティックセグメンテーションのベンチマーク実験により、AdvStyleは、目に見えない実領域におけるモデル性能を大幅に改善し、技術の現状を達成できることが示されている。 さらに、AdvStyleは、ドメイン一般化イメージ分類に使用することができ、検討されたデータセットに対して明確な改善をもたらす。

In this paper, we consider the problem of domain generalization in semantic segmentation, which aims to learn a robust model using only labeled synthetic (source) data. The model is expected to perform well on unseen real (target) domains. Our study finds that the image style variation can largely influence the model's performance and the style features can be well represented by the channel-wise mean and standard deviation of images. Inspired by this, we propose a novel adversarial style augmentation (AdvStyle) approach, which can dynamically generate hard stylized images during training and thus can effectively prevent the model from overfitting on the source domain. Specifically, AdvStyle regards the style feature as a learnable parameter and updates it by adversarial training. The learned adversarial style feature is used to construct an adversarial image for robust model training. AdvStyle is easy to implement and can be readily applied to different models. Experiments on two synthetic-to-real semantic segmentation benchmarks demonstrate that AdvStyle can significantly improve the model performance on unseen real domains and show that we can achieve the state of the art. Moreover, AdvStyle can be employed to domain generalized image classification and produces a clear improvement on the considered datasets.
翻訳日:2022-07-12 14:51:02 公開日:2022-07-11
# LiDAR点雲における凝縮ガス排ガスの検出

Detection of Condensed Vehicle Gas Exhaust in LiDAR Point Clouds ( http://arxiv.org/abs/2207.04908v1 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Marc Walessa, Daniel Meissner, Johannes Kopp, Klaus Dietmayer(参考訳) 自動運転アプリケーションで使用されるライダーセンサーは、悪天候によって悪影響を受ける。 一般的な効果の1つは、寒い気候下での自動車の排気ガスの凝縮である。 この日常的な現象は、LiDAR測定の品質に深刻な影響を与え、ゴーストオブジェクト検出などの人工物を作成することによって、環境認識の精度が低下する。 文献では、雨や霧のような悪天候のセグメンテーションは、学習に基づくアプローチを用いて達成される。 しかし、そのような方法は大量のラベル付きデータを必要とするため、非常に高価で手間がかかる。 本稿では, 自動車排気ガスの凝縮検出のための2段階のアプローチを提案する。 まず,各車両の排出領域を識別し,発生した場合の排ガスを検知する。 そして、ガスが排出される可能性のある空間領域の時間を通して、孤立した雲を検出する。 本手法を実際の都市データでテストし,異なるシナリオで確実にガス排出を検知できることを示し,オフラインのプレラベルやゴーストオブジェクト検出などのオンラインアプリケーションにアピールした。

LiDAR sensors used in autonomous driving applications are negatively affected by adverse weather conditions. One common, but understudied effect, is the condensation of vehicle gas exhaust in cold weather. This everyday phenomenon can severely impact the quality of LiDAR measurements, resulting in a less accurate environment perception by creating artifacts like ghost object detections. In the literature, the semantic segmentation of adverse weather effects like rain and fog is achieved using learning-based approaches. However, such methods require large sets of labeled data, which can be extremely expensive and laborious to get. We address this problem by presenting a two-step approach for the detection of condensed vehicle gas exhaust. First, we identify for each vehicle in a scene its emission area and detect gas exhaust if present. Then, isolated clouds are detected by modeling through time the regions of space where gas exhaust is likely to be present. We test our method on real urban data, showing that our approach can reliably detect gas exhaust in different scenarios, making it appealing for offline pre-labeling and online applications such as ghost object detection.
翻訳日:2022-07-12 14:50:38 公開日:2022-07-11
# 3次元視覚のための自己教師付き事前学習における不変性について

A Closer Look at Invariances in Self-supervised Pre-training for 3D Vision ( http://arxiv.org/abs/2207.04997v1 )

ライセンス: Link先を確認
Lanxiao Li and Michael Heizmann(参考訳) 3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。 情報表現を学習するために、以前の多くの研究は、3D特徴の不変性、例えば、同一シーンのビュー間の視点不変性、深さとRGB画像間のモード不変性、点雲とボクセル間のフォーマット不変性などを利用している。 彼らは有望な結果を得たが、以前の研究ではこれらの不変性の体系的および公正な比較が欠けている。 この問題に対処するため,本研究では,様々な事前学習手法を検討可能な統合フレームワークを初めて導入した。 詳細な実験を行い,3次元事前学習における異なる不変性の寄与について詳しく検討する。 また,コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習手法を提案する。 我々の手法で事前訓練されたモデルは下流タスクにおいて大幅な性能向上をもたらす。 例えば、事前訓練されたVoteNetは、SUN RGB-DとScanNetオブジェクト検出ベンチマークにおいて、明らかなマージンで、以前のメソッドよりも優れている。

Self-supervised pre-training for 3D vision has drawn increasing research interest in recent years. In order to learn informative representations, a lot of previous works exploit invariances of 3D features, \eg, perspective-invariance between views of the same scene, modality-invariance between depth and RGB images, format-invariance between point clouds and voxels. Although they have achieved promising results, previous researches lack a systematic and fair comparison of these invariances. To address this issue, our work, for the first time, introduces a unified framework, under which various pre-training methods can be investigated. We conduct extensive experiments and provide a closer look at the contributions of different invariances in 3D pre-training. Also, we propose a simple but effective method that jointly pre-trains a 3D encoder and a depth map encoder using contrastive learning. Models pre-trained with our method gain significant performance boost in downstream tasks. For instance, a pre-trained VoteNet outperforms previous methods on SUN RGB-D and ScanNet object detection benchmarks with a clear margin.
翻訳日:2022-07-12 14:50:22 公開日:2022-07-11
# (参考訳) トルコ談話銀行1.2の記載とトルコ談話における共通依存関係の検討

A description of Turkish Discourse Bank 1.2 and an examination of common dependencies in Turkish discourse ( http://arxiv.org/abs/2207.05008v1 )

ライセンス: CC BY 4.0
Deniz Zeyrek, Mustafa Erolcan Er(参考訳) 本稿では, トルコの談話銀行1.2について述べる。これは, 明示的あるいは暗黙的に伝えられる談話関係, 構成単位, ペン・談話ツリーバンク様式の感覚を注釈した談話コーパスの最新バージョンである。 本稿では,最近追加されたトークンの評価を行い,隣接する1対の談話関係の構成単位,すなわち共通議論,完全埋め込み,談話関係の部分的包摂の3つの依存関係パターンについて検討する。 主な発見は3つあります a) 暗黙的に伝達される関係は,データ内の明示的に伝達された関係よりも頻繁に発生する。 (b)隣り合う2つの暗黙の言論関係が、隣り合う2つの明示的な関係よりも議論を共有することが一般的である。 (c) 談話関係の完全な埋め込み及び部分的包摂は、コーパス内に広まっており、従属節が単独で選択されるのではなく、行列節と共に選択される傾向にある従属接続体によるものである。 最後に,トルコ語の談話解析における発見の意義について概説する。

We describe Turkish Discourse Bank 1.2, the latest version of a discourse corpus annotated for explicitly or implicitly conveyed discourse relations, their constitutive units, and senses in the Penn Discourse Treebank style. We present an evaluation of the recently added tokens and examine three commonly occurring dependency patterns that hold among the constitutive units of a pair of adjacent discourse relations, namely, shared arguments, full embedding and partial containment of a discourse relation. We present three major findings: (a) implicitly conveyed relations occur more often than explicitly conveyed relations in the data; (b) it is much more common for two adjacent implicit discourse relations to share an argument than for two adjacent explicit relations to do so; (c) both full embedding and partial containment of discourse relations are pervasive in the corpus, which can be partly due to subordinator connectives whose preposed subordinate clause tends to be selected together with the matrix clause rather than being selected alone. Finally, we briefly discuss the implications of our findings for Turkish discourse parsing.
翻訳日:2022-07-12 14:48:49 公開日:2022-07-11
# 擬似的手による連続的グラスピング関数の学習

Learning Continuous Grasping Function with a Dexterous Hand from Human Demonstrations ( http://arxiv.org/abs/2207.05053v1 )

ライセンス: Link先を確認
Jianglong Ye, Jiashun Wang, Binghao Huang, Yuzhe Qin, Xiaolong Wang(参考訳) そこで本研究では,暗黙関数を用いたデクスタラスハンド操作のための把持動作生成法を提案する。 連続的な時間入力により、モデルは連続的で滑らかな把握計画を生成することができる。 提案したモデルであるContinuous Grasping Function (CGF) を命名する。 CGFは3次元人間の実演を用いて条件付き変分オートエンコーダを用いて生成モデルを用いて学習する。 まず、大規模な人間と物体の相互作用軌道を、モーションリターゲティングによってロボットのデモに変換し、次にこれらのデモを使ってCGFを訓練する。 推定中, cgfを用いたサンプリングを行い, シミュレータ内で異なる把持計画を生成し, 実ロボットへの移動に成功するものを選択する。 多様な人間のデータをトレーニングすることで、cgfは一般化によって複数のオブジェクトを操作できる。 従来の計画アルゴリズムと比較して、CGFはより効率的であり、実のアレグロハンドでグリーピングする際の成功率を大幅に向上させる。 プロジェクトページはhttps://jianglongye.com/cgf

We propose to learn to generate grasping motion for manipulation with a dexterous hand using implicit functions. With continuous time inputs, the model can generate a continuous and smooth grasping plan. We name the proposed model Continuous Grasping Function (CGF). CGF is learned via generative modeling with a Conditional Variational Autoencoder using 3D human demonstrations. We will first convert the large-scale human-object interaction trajectories to robot demonstrations via motion retargeting, and then use these demonstrations to train CGF. During inference, we perform sampling with CGF to generate different grasping plans in the simulator and select the successful ones to transfer to the real robot. By training on diverse human data, our CGF allows generalization to manipulate multiple objects. Compared to previous planning algorithms, CGF is more efficient and achieves significant improvement on success rate when transferred to grasping with the real Allegro Hand. Our project page is at https://jianglongye.com/cgf
翻訳日:2022-07-12 14:35:13 公開日:2022-07-11
# GMN:実用的な文書情報抽出のための生成マルチモーダルネットワーク

GMN: Generative Multi-modal Network for Practical Document Information Extraction ( http://arxiv.org/abs/2207.04713v1 )

ライセンス: Link先を確認
Haoyu Cao, Jiefeng Ma, Antai Guo, Yiqing Hu, Hao Liu, Deqiang Jiang, Yinsong Liu, Bo Ren(参考訳) 文書情報抽出 (DIE) は, 実世界の様々な先進的な応用により, 注目を集めている。 近年の文献では競合的な結果が得られているが、ノイズの多いOCR結果や可変レイアウトを持つ複雑なドキュメントを扱う際には通常失敗する。 本稿では,これらの問題に対処するための実環境シナリオのためのGMN(Generative Multi-modal Network)を提案する。 慎重に設計された空間エンコーダとモード対応マスクモジュールにより、GMNはシーケンシャルな順序にシリアライズが難しい複雑なドキュメントを扱うことができる。 さらに、GMNはOCR結果の誤りを許容し、文字レベルのアノテーションを必要としない。 大規模な実験により、GMNはいくつかの公開DIEデータセット上で新しい最先端のパフォーマンスを達成し、特に現実的なシーンにおいて他の手法をはるかに上回っていることが示されている。

Document Information Extraction (DIE) has attracted increasing attention due to its various advanced applications in the real world. Although recent literature has already achieved competitive results, these approaches usually fail when dealing with complex documents with noisy OCR results or mutative layouts. This paper proposes Generative Multi-modal Network (GMN) for real-world scenarios to address these problems, which is a robust multi-modal generation method without predefined label categories. With the carefully designed spatial encoder and modal-aware mask module, GMN can deal with complex documents that are hard to serialized into sequential order. Moreover, GMN tolerates errors in OCR results and requires no character-level annotation, which is vital because fine-grained annotation of numerous documents is laborious and even requires annotators with specialized domain knowledge. Extensive experiments show that GMN achieves new state-of-the-art performance on several public DIE datasets and surpasses other methods by a large margin, especially in realistic scenes.
翻訳日:2022-07-12 14:32:27 公開日:2022-07-11
# (参考訳) タスクグラフィ:大規模3次元シーングラフを用いたロボットタスク計画の評価

TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs ( http://arxiv.org/abs/2207.05006v1 )

ライセンス: CC BY 4.0
Christopher Agia, Krishna Murthy Jatavallabhula, Mohamed Khodeir, Ondrej Miksik, Vibhav Vineet, Mustafa Mukadam, Liam Paull, Florian Shkurti(参考訳) 3dシーングラフ(3dsgs)は、シンボリック、トポロジカル、メトリックシーンの表現を統一する、新たな記述である。 しかし、典型的な3DSGは、小さな環境であっても数百のオブジェクトとシンボルを含んでいる。 3DSG上での大規模ロボットタスク計画ベンチマークであるTASKOGRAPHYを構築した。 この領域におけるほとんどのベンチマークは視覚に基づく計画に焦点を当てているが、私たちは計画のパフォーマンスと視覚的表現学習を分離するためにシンボリックプランニングを体系的に研究している。 既存の手法では,古典的・学習的プランナでも,完全な3DSGをリアルタイムに計画することができない。 両方のリアルタイム計画要求の進展 (a)トラクタブルプランニングのための3DSG b) 3DSG階層をよりよく活用するプランナーの設計。 従来の目標に向けて,タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。 後者の目標に向けて,学習ベースのプランナーが3dsg構造を活用できる手法である seek を提案し,現在のベストアプローチで要求される再計画クエリ数を桁違いに削減する。 私たちはすべてのコードとベースラインをオープンソース化し、ロボットタスク計画、学習、3dsgsの交点に沿ってさらなる研究を進めます。

3D scene graphs (3DSGs) are an emerging description; unifying symbolic, topological, and metric scene representations. However, typical 3DSGs contain hundreds of objects and symbols even for small environments; rendering task planning on the full graph impractical. We construct TASKOGRAPHY, the first large-scale robotic task planning benchmark over 3DSGs. While most benchmarking efforts in this area focus on vision-based planning, we systematically study symbolic planning, to decouple planning performance from visual representation learning. We observe that, among existing methods, neither classical nor learning-based planners are capable of real-time planning over full 3DSGs. Enabling real-time planning demands progress on both (a) sparsifying 3DSGs for tractable planning and (b) designing planners that better exploit 3DSG hierarchies. Towards the former goal, we propose SCRUB, a task-conditioned 3DSG sparsification method; enabling classical planners to match and in some cases surpass state-of-the-art learning-based planners. Towards the latter goal, we propose SEEK, a procedure enabling learning-based planners to exploit 3DSG structure, reducing the number of replanning queries required by current best approaches by an order of magnitude. We will open-source all code and baselines to spur further research along the intersections of robot task planning, learning and 3DSGs.
翻訳日:2022-07-12 14:22:36 公開日:2022-07-11
# SparseTIR:ディープラーニングにおけるスパースコンパイルのための構成可能な抽象化

SparseTIR: Composable Abstractions for Sparse Compilation in Deep Learning ( http://arxiv.org/abs/2207.04606v1 )

ライセンス: Link先を確認
Zihao Ye, Ruihang Lai, Junru Shao, Tianqi Chen, Luis Ceze(参考訳) スパーステンソルは、現代のディープラーニングワークロードにおいて、急速に重要なコンポーネントになりつつある。 しかし、高性能スパース演算子の開発は困難で面倒であり、既存のベンダーライブラリは新しい演算子からのエスカレート要求を満たすことができない。 スパーステンソルコンパイラはオペレータの開発を単純化するが、単一のスパースフォーマットではハードウェア効率を最大化できず、シングルショットコンパイラは最新のハードウェアやシステムの進歩に追随できないため、ディープラーニングのための効率的なスパースコンパイルは依然として困難である。 両課題に対処する鍵は,2種類の構成可能性であることを示す。 本稿では,深層学習ワークロードに対して,構成可能なフォーマットと構成可能な変換を提供するスパーステンソルコンパイル抽象化であるSparseTIRを提案する。 SparseTIRは、これらの構成可能なコンポーネントの上に検索空間を構築し、パフォーマンスチューニングを行う。 これらの改善により、sparsetirはシングルオペレーター向けのgpuにおけるベンダーライブラリに比べて一貫したパフォーマンスのスピードアップを得る: gnnオペレーターは1.1-3.3x、スパーストランスフォーマーオペレーターは1.1-4.4x。 SparseTIRはまた、GraphSAGEトレーニングの1.1-2.2x、RCCN推論の0.9-26xでエンドツーエンドのGNNを高速化する。

Sparse tensors are rapidly becoming critical components of modern deep learning workloads. However, developing high-performance sparse operators can be difficult and tedious, and existing vendor libraries cannot satisfy the escalating demands from new operators. Sparse tensor compilers simplify the development of operators, but efficient sparse compilation for deep learning remains challenging because a single sparse format cannot maximize hardware efficiency, and single-shot compilers cannot keep up with latest hardware and system advances. We show that the key to addressing both challenges is two forms of composability. In this paper, we propose SparseTIR, a sparse tensor compilation abstraction that offers composable formats and composable transformations for deep learning workloads. SparseTIR constructs a search space over these composable components for performance tuning. With these improvements, SparseTIR obtains consistent performance speedups vs vendor libraries on GPUs for single operators: 1.1-3.3x for GNN operators and 1.1-4.4x for sparse transformer operators. SparseTIR also accelerates end-to-end GNNs by 1.1-2.2x for GraphSAGE training and 0.9-26x for RGCN inference.
翻訳日:2022-07-12 13:58:38 公開日:2022-07-11
# エッジにおけるリアルタイムビジュアル処理のための超低消費電力TinyMLシステム

An Ultra-low Power TinyML System for Real-time Visual Processing at Edge ( http://arxiv.org/abs/2207.04663v1 )

ライセンス: Link先を確認
Kunran Xu, Huawei Zhang, Yishi Li, Yuhao Zhang, Rui Lai and Yi Liu(参考訳) リソースと電力を厳密に制限されたシステム上でaiワークロードを実行するtinyml(small machine learning)は、重要かつ困難なトピックである。 まず、様々な視覚タスクのための高効率cnnモデルを構築するための非常に小さなバックボーンを示す。 そして、特別に設計されたニューラルコプロセッサ(ncp)をmcuと接続して超低消費電力のtinymlシステムを構築し、チップにすべての機能と重みを格納し、チップ外のメモリアクセスにおけるレイテンシと消費電力の両方を完全に排除する。 さらに、アジャイル開発と迅速なデプロイメントを実現するためのアプリケーション固有の命令セットも提示されている。 実験の結果,提案したTinyMLシステムは精度が高く,オブジェクト検出と認識を30FPSで実現しつつ,160mWの超低消費電力を実現していることがわかった。 デモビデオは \url{https://www.youtube.com/watch? v=mIZPxtJ-9EY}。

Tiny machine learning (TinyML), executing AI workloads on resource and power strictly restricted systems, is an important and challenging topic. This brief firstly presents an extremely tiny backbone to construct high efficiency CNN models for various visual tasks. Then, a specially designed neural co-processor (NCP) is interconnected with MCU to build an ultra-low power TinyML system, which stores all features and weights on chip and completely removes both of latency and power consumption in off-chip memory access. Furthermore, an application specific instruction-set is further presented for realizing agile development and rapid deployment. Extensive experiments demonstrate that the proposed TinyML system based on our model, NCP and instruction set yields considerable accuracy and achieves a record ultra-low power of 160mW while implementing object detection and recognition at 30FPS. The demo video is available on \url{https://www.youtube.com/watch?v=mIZPxtJ-9EY}.
翻訳日:2022-07-12 13:58:14 公開日:2022-07-11
# 適応クリッピングによる(ほぼ)最適プライベート線形回帰

(Nearly) Optimal Private Linear Regression via Adaptive Clipping ( http://arxiv.org/abs/2207.04686v1 )

ライセンス: Link先を確認
Prateek Varshney, Abhradeep Thakurta, Prateek Jain(参考訳) 本研究では,各データポイントを固定サブガウシアン分布からサンプリングした微分プライベート線形回帰問題について検討する。 我々は,各イテレーションのポイントを置換せずにサンプリングした1パスミニバッチ確率勾配降下法(dp-ambssgd)を提案し,解析する。 DPにはノイズが追加されるが、ノイズ標準偏差はオンラインで推定される。 サブ最適誤差境界を持つ既存の$(\epsilon, \delta)$-dp技術と比較して、dp-ambssgdは、次元$d$、点数$n$、観測におけるノイズの標準偏差$\sigma$といった重要なパラメータの観点で、ほぼ最適な誤差境界を提供できる。 例えば、通常の分布から$d$次元の共変体をサンプリングする場合、プライバシーによるDP-AMBSSGDの過大な誤差は$\frac{\sigma^2 d}{N}(1+\frac{d}{\epsilon^2 N})$、つまり、サンプル数$N= \Omega(d \log d)$が線形回帰の標準的な操作規則であるときに有意である。 対照的に、この設定における既存の効率的なメソッドの誤差境界は、$\mathcal{O}\big(\frac{d^3}{\epsilon^2 N^2}\big)$, even for $\sigma=0$である。 つまり、定数$\epsilon$の場合、既存のテクニックは非自明な結果を与えるために$N=\Omega(d\sqrt{d})$を必要とする。

We study the problem of differentially private linear regression where each data point is sampled from a fixed sub-Gaussian style distribution. We propose and analyze a one-pass mini-batch stochastic gradient descent method (DP-AMBSSGD) where points in each iteration are sampled without replacement. Noise is added for DP but the noise standard deviation is estimated online. Compared to existing $(\epsilon, \delta)$-DP techniques which have sub-optimal error bounds, DP-AMBSSGD is able to provide nearly optimal error bounds in terms of key parameters like dimensionality $d$, number of points $N$, and the standard deviation $\sigma$ of the noise in observations. For example, when the $d$-dimensional covariates are sampled i.i.d. from the normal distribution, then the excess error of DP-AMBSSGD due to privacy is $\frac{\sigma^2 d}{N}(1+\frac{d}{\epsilon^2 N})$, i.e., the error is meaningful when number of samples $N= \Omega(d \log d)$ which is the standard operative regime for linear regression. In contrast, error bounds for existing efficient methods in this setting are: $\mathcal{O}\big(\frac{d^3}{\epsilon^2 N^2}\big)$, even for $\sigma=0$. That is, for constant $\epsilon$, the existing techniques require $N=\Omega(d\sqrt{d})$ to provide a non-trivial result.
翻訳日:2022-07-12 13:56:11 公開日:2022-07-11
# 材料設計のための不確かさを意識した混合変数機械学習

Uncertainty-aware Mixed-variable Machine Learning for Materials Design ( http://arxiv.org/abs/2207.04994v1 )

ライセンス: Link先を確認
Hengrui Zhang, Wei "Wayne" Chen, Akshay Iyer, Daniel W. Apley, Wei Chen(参考訳) データ駆動設計は、材料の発見を加速する可能性を示しているが、化学、構造、合成の広大な設計空間を探索するのにコストがかかるため困難である。 ベイジアン最適化(bo)は、不確実性を認識した機械学習モデルを使用して、評価する有望な設計を選択し、コストを削減する。 しかし,材料設計に特に興味を持つ数値変数とカテゴリー変数の混合boは十分に研究されていない。 本研究では,混合変数を用いた機械学習の不確実性定量化に対する頻繁かつベイズ的アプローチについて検討する。 次に、各グループからの人気代表モデル、ランダム森林に基づくロロモデル(頻度主義)、潜在変数ガウス過程モデル(ベイジアン)を用いて、BOにおけるそれらのパフォーマンスの体系的比較研究を行う。 数学関数の最適化における2つのモデルの有効性,および構造的および機能的材料の性質について検討し,問題次元と複雑性に関する性能差を観察する。 機械学習モデルの予測および不確実性推定能力を調べることにより、観測された性能差の解釈を提供する。 材料設計における多変量BOの頻繁性とベイズ不確実性を考慮した機械学習モデルの選択に関する実践的ガイダンスを提供する。

Data-driven design shows the promise of accelerating materials discovery but is challenging due to the prohibitive cost of searching the vast design space of chemistry, structure, and synthesis methods. Bayesian Optimization (BO) employs uncertainty-aware machine learning models to select promising designs to evaluate, hence reducing the cost. However, BO with mixed numerical and categorical variables, which is of particular interest in materials design, has not been well studied. In this work, we survey frequentist and Bayesian approaches to uncertainty quantification of machine learning with mixed variables. We then conduct a systematic comparative study of their performances in BO using a popular representative model from each group, the random forest-based Lolo model (frequentist) and the latent variable Gaussian process model (Bayesian). We examine the efficacy of the two models in the optimization of mathematical functions, as well as properties of structural and functional materials, where we observe performance differences as related to problem dimensionality and complexity. By investigating the machine learning models' predictive and uncertainty estimation capabilities, we provide interpretations of the observed performance differences. Our results provide practical guidance on choosing between frequentist and Bayesian uncertainty-aware machine learning models for mixed-variable BO in materials design.
翻訳日:2022-07-12 13:55:39 公開日:2022-07-11
# (参考訳) 非プロポーションハザードを持つ連体coxモデル

A Federated Cox Model with Non-Proportional Hazards ( http://arxiv.org/abs/2207.05050v1 )

ライセンス: CC BY 4.0
Dekai Zhang, Francesca Toni, Matthew Williams(参考訳) 最近の研究では、ニューラルネットワークがCoxモデルのような古典的な生存モデルを改善する可能性を示している。 しかしながら、ニューラルネットワークは通常、集中的に利用可能なデータに依存するが、医療データはセキュアなサイロに保持されることが多い。 本稿では,このデータセットに適合し,比例ハザード仮定を緩和し,時変コバルト効果を許容するフェデレートcoxモデルを提案する。 後者の観点では、我々のモデルは時間的な影響を明確に定義する必要はなく、前回の作業と比べて組織的なコストを削減します。 我々は、公開利用可能な臨床データセットを実験し、フェデレーションモデルが標準モデルと同様に機能できることを実証する。

Recent research has shown the potential for neural networks to improve upon classical survival models such as the Cox model, which is widely used in clinical practice. Neural networks, however, typically rely on data that are centrally available, whereas healthcare data are frequently held in secure silos. We present a federated Cox model that accommodates this data setting and also relaxes the proportional hazards assumption, allowing time-varying covariate effects. In this latter respect, our model does not require explicit specification of the time-varying effects, reducing upfront organisational costs compared to previous works. We experiment with publicly available clinical datasets and demonstrate that the federated model is able to perform as well as a standard model.
翻訳日:2022-07-12 13:53:06 公開日:2022-07-11
# 誰? 文献データを用いたDeep Author Name Disambiguation

Whois? Deep Author Name Disambiguation using Bibliographic Data ( http://arxiv.org/abs/2207.04772v1 )

ライセンス: Link先を確認
Zeyd Boukhers and Nagaraj Asundi Bahubali(参考訳) 著者数は年々指数関数的に増加しており、同じ名前の著者の数は比例的に増加している。 そのため、新たに出版された論文を適切な著者に割り当てることは困難である。 したがって、著者名Ambiguity(ANA)はデジタル図書館において重要なオープン問題であると考えられている。 本稿では,共著者と研究領域を活用することで,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。 この目的のために、約260万人の共著者によって書かれた500万以上の書誌記録を含むDBLPリポジトリのコレクションを使用します。 我々のアプローチは、同じ名前と同じ名前のイニシャルを共有する著者を最初にグループ化する。 各グループ内の著者は、対応する著者の検証された出版物のタイトルで表される、共同著者および研究領域との関係を捉えて特定される。 この目的のために、共著者とタイトルの表現から学習するニューラルネットワークモデルをトレーニングする。 大規模データセットに対して広範な実験を行い,提案手法の有効性を検証した。

As the number of authors is increasing exponentially over years, the number of authors sharing the same names is increasing proportionally. This makes it challenging to assign newly published papers to their adequate authors. Therefore, Author Name Ambiguity (ANA) is considered a critical open problem in digital libraries. This paper proposes an Author Name Disambiguation (AND) approach that links author names to their real-world entities by leveraging their co-authors and domain of research. To this end, we use a collection from the DBLP repository that contains more than 5 million bibliographic records authored by around 2.6 million co-authors. Our approach first groups authors who share the same last names and same first name initials. The author within each group is identified by capturing the relation with his/her co-authors and area of research, which is represented by the titles of the validated publications of the corresponding author. To this end, we train a neural network model that learns from the representations of the co-authors and titles. We validated the effectiveness of our approach by conducting extensive experiments on a large dataset.
翻訳日:2022-07-12 13:39:59 公開日:2022-07-11
# マルチモーダル多目的最適化:現状比較研究

Multimodal Multi-objective Optimization: Comparative Study of the State-of-the-Art ( http://arxiv.org/abs/2207.04730v1 )

ライセンス: Link先を確認
Wenhua Li, Tao Zhang, Rui Wang, Jing Liang(参考訳) マルチモーダル多目的問題(MMOP)は、決定空間における遠い解が、非常に類似した目的値に対応する実世界の問題に一般的に発生する。 MMOPの全ての解を得るために、多くのマルチモーダル多目的進化アルゴリズム(MMEA)が提案されている。 今のところ、最近提案された代表的MMEAのほとんどを包含する研究はほとんどなく、比較比較を行った。 本研究では,過去20年間の関連研究について概観する。 次に,多様性維持手法の異なる12の最先端アルゴリズムを選択し,その性能を既存のテストスイートと比較した。 実験結果から,異なるタイプのMMOPにおいて異なる手法の長所と短所が示され,特定のシナリオにおけるMMEAの選択・設計方法に関するガイダンスが得られた。

Multimodal multi-objective problems (MMOPs) commonly arise in real-world problems where distant solutions in decision space correspond to very similar objective values. To obtain all solutions for MMOPs, many multimodal multi-objective evolutionary algorithms (MMEAs) have been proposed. For now, few studies have encompassed most of the recently proposed representative MMEAs and made a comparative comparison. In this study, we first review the related works during the last two decades. Then, we choose 12 state-of-the-art algorithms that utilize different diversity-maintaining techniques and compared their performance on existing test suites. Experimental results indicate the strengths and weaknesses of different techniques on different types of MMOPs, thus providing guidance on how to select/design MMEAs in specific scenarios.
翻訳日:2022-07-12 13:39:30 公開日:2022-07-11
# (参考訳) 非教師付き意味的対応推定のデミスティファイション

Demystifying Unsupervised Semantic Correspondence Estimation ( http://arxiv.org/abs/2207.05054v1 )

ライセンス: CC BY 4.0
Mehmet Ayg\"un and Oisin Mac Aodha(参考訳) 教師なし学習のレンズを通して意味対応推定を行う。 我々は、バックボーンアーキテクチャ、事前学習戦略、事前学習および微調整データセットなどの要因を規定する標準化された評価プロトコルを用いて、複数の課題データセットにまたがる教師なし手法を徹底的に評価した。 これらの手法の障害モードをよりよく理解し、改善のための明確な経路を提供するために、セマンティックマッチングタスクにより適した新しいパフォーマンス指標とともに、新しい診断フレームワークを提供する。 最後に,事前学習した特徴の強みを活かし,訓練中の適合性を高める新しい教師なし対応手法を提案する。 これにより、現在の最先端手法と比較して、マッチング性能が大幅に向上する。

We explore semantic correspondence estimation through the lens of unsupervised learning. We thoroughly evaluate several recently proposed unsupervised methods across multiple challenging datasets using a standardized evaluation protocol where we vary factors such as the backbone architecture, the pre-training strategy, and the pre-training and finetuning datasets. To better understand the failure modes of these methods, and in order to provide a clearer path for improvement, we provide a new diagnostic framework along with a new performance metric that is better suited to the semantic matching task. Finally, we introduce a new unsupervised correspondence approach which utilizes the strength of pre-trained features while encouraging better matches during training. This results in significantly better matching performance compared to current state-of-the-art methods.
翻訳日:2022-07-12 13:37:30 公開日:2022-07-11
# マルチスタディブースティング:メルジング対組立の理論的考察

Multi-Study Boosting: Theoretical Considerations for Merging vs. Ensembling ( http://arxiv.org/abs/2207.04588v1 )

ライセンス: Link先を確認
Cathy Shyr, Pragya Sur, Giovanni Parmigiani and Prasad Patil(参考訳) クロススタディの再現性は、予測の一般化性を強調する強力なモデル評価基準である。 クロススタディレプリカブル予測モデルをトレーニングする場合、研究のマージと処理を別々に決定することが重要である。 我々は,予測・アウトカム関係における潜在的不均一性の存在下での促進アルゴリズムについて研究し,2つのマルチスタディ学習戦略を比較した。 1)すべての研究と訓練を1つのモデルに統合し、 2)マルチスタディ・アンサンブルは,各研究で個別のモデルを訓練し,その結果の予測をアンサンブルする。 回帰設定では,解析的遷移点に基づく理論的指針を提供し,マージがより有益であるか,あるいは線形学習者との協調が重要であるかを判断する。 さらに,成分単位線形学習者によるブースティングのための推定誤差の偏分散分解を特徴付ける。 本研究は, 乳がん遺伝子の発現データに対するマージ対アンサンブルの決定をいかに導くか, シミュレーションによる理論的遷移点の検証を行った。

Cross-study replicability is a powerful model evaluation criterion that emphasizes generalizability of predictions. When training cross-study replicable prediction models, it is critical to decide between merging and treating the studies separately. We study boosting algorithms in the presence of potential heterogeneity in predictor-outcome relationships across studies and compare two multi-study learning strategies: 1) merging all the studies and training a single model, and 2) multi-study ensembling, which involves training a separate model on each study and ensembling the resulting predictions. In the regression setting, we provide theoretical guidelines based on an analytical transition point to determine whether it is more beneficial to merge or to ensemble for boosting with linear learners. In addition, we characterize a bias-variance decomposition of estimation error for boosting with component-wise linear learners. We verify the theoretical transition point result in simulation and illustrate how it can guide the decision on merging vs. ensembling in an application to breast cancer gene expression data.
翻訳日:2022-07-12 13:32:36 公開日:2022-07-11
# 多様体上の正規化流れと確率経路のマッチング

Matching Normalizing Flows and Probability Paths on Manifolds ( http://arxiv.org/abs/2207.04711v1 )

ライセンス: Link先を確認
Heli Ben-Hamu, Samuel Cohen, Joey Bose, Brandon Amos, Aditya Grover, Maximilian Nickel, Ricky T.Q. Chen, Yaron Lipman(参考訳) 連続正規化フロー(cnfs)は、通常の微分方程式(ode)を解いて、事前分布をモデル分布に変換する生成モデルの一種である。 本稿では,CNFが生成する確率密度パスと目標確率密度パスとの間に生じる新たな分岐系であるPPDを最小化して,多様体上のCNFを訓練することを提案する。 PPDは、対数目標確率とCNFの定義ベクトル場に関する線形一階偏微分方程式である対数的質量保存公式を用いて定式化される。 PPDは、イテレーション毎にODEを解く必要性を横取りし、多様体データに簡単に適用し、高次元にスケールし、純粋なノイズとデータを有限時間で補間するターゲットパスの大規模なファミリーと互換性がある。 理論的には、ppd は束縛された古典的確率の発散を示す。 実験により, PPD の最小化によって得られた CNF は, 既存の低次元多様体のベンチマークにおいて, 精度とサンプル品質が得られることを示すとともに, 適度に高次元の多様体にスケールする生成モデルの最初の例である。

Continuous Normalizing Flows (CNFs) are a class of generative models that transform a prior distribution to a model distribution by solving an ordinary differential equation (ODE). We propose to train CNFs on manifolds by minimizing probability path divergence (PPD), a novel family of divergences between the probability density path generated by the CNF and a target probability density path. PPD is formulated using a logarithmic mass conservation formula which is a linear first order partial differential equation relating the log target probabilities and the CNF's defining vector field. PPD has several key benefits over existing methods: it sidesteps the need to solve an ODE per iteration, readily applies to manifold data, scales to high dimensions, and is compatible with a large family of target paths interpolating pure noise and data in finite time. Theoretically, PPD is shown to bound classical probability divergences. Empirically, we show that CNFs learned by minimizing PPD achieve state-of-the-art results in likelihoods and sample quality on existing low-dimensional manifold benchmarks, and is the first example of a generative model to scale to moderately high dimensional manifolds.
翻訳日:2022-07-12 13:32:20 公開日:2022-07-11
# 確率勾配降下に対する一様時間拡散近似について

On uniform-in-time diffusion approximation for stochastic gradient descent ( http://arxiv.org/abs/2207.04922v1 )

ライセンス: Link先を確認
Lei Li, Yuliang Wang(参考訳) 現在の文献における確率勾配降下(SGD)の拡散近似は、有限時間間隔でのみ有効である。 本稿では、sgd の均一時間拡散近似を、各ランダム損失関数の凸性を仮定せずに、期待損失が強い凸およびその他の穏やかな条件であることを仮定することによって確立する。 主な手法は、逆コルモゴロフ方程式に対する解の微分の指数的減衰率を確立することである。 一様時間近似により、ランダム目的関数 $f(\cdot;\xi)$ が強凸でない場合でも、連続確率微分方程式 (SDE) を通してSGDの漸近挙動を研究することができる。

The diffusion approximation of stochastic gradient descent (SGD) in current literature is only valid on a finite time interval. In this paper, we establish the uniform-in-time diffusion approximation of SGD, by only assuming that the expected loss is strongly convex and some other mild conditions, without assuming the convexity of each random loss function. The main technique is to establish the exponential decay rates of the derivatives of the solution to the backward Kolmogorov equation. The uniform-in-time approximation allows us to study asymptotic behaviors of SGD via the continuous stochastic differential equation (SDE) even when the random objective function $f(\cdot;\xi)$ is not strongly convex.
翻訳日:2022-07-12 13:31:57 公開日:2022-07-11
# 限られた情報源知識下でのワッサーシュタイン分布ロバスト性をもつ未知領域への一般化

Generalizing to Unseen Domains with Wasserstein Distributional Robustness under Limited Source Knowledge ( http://arxiv.org/abs/2207.04913v1 )

ライセンス: Link先を確認
Jingge Wang, Liyan Xie, Yao Xie, Shao-Lun Huang, Yang Li(参考訳) ドメインの一般化は、目に見えないターゲットドメインでうまく機能する普遍的なモデルを学習することを目的としており、複数のソースドメインからの知識を取り入れている。 本研究では,異なるクラス間の条件分布間で異なるドメインシフトが発生するシナリオについて考察する。 ソースドメインのラベル付きサンプルが限られている場合、既存のアプローチは十分に堅牢ではない。 この問題に対処するため,我々は分散ロバスト最適化の概念に触発されたwasserstein distributionally robust domain generalization (wdrdg) と呼ばれる新しいドメイン一般化フレームワークを提案する。 クラス固有のワッサーシュタインの不確かさ集合における条件分布に対するロバスト性を促進し、これらの不確かさ集合に対する分類器の最悪の性能を最適化する。 さらに、最適輸送を利用したテスト時間適応モジュールを開発し、未知のターゲットドメインとソースドメインの関係を定量化し、ターゲットデータに対する適応推論を行う。 回転MNIST,PACSおよびVLCSデータセットを用いた実験により,本手法が一般化シナリオにおけるロバスト性と差別性を効果的にバランスできることを示した。

Domain generalization aims at learning a universal model that performs well on unseen target domains, incorporating knowledge from multiple source domains. In this research, we consider the scenario where different domain shifts occur among conditional distributions of different classes across domains. When labeled samples in the source domains are limited, existing approaches are not sufficiently robust. To address this problem, we propose a novel domain generalization framework called Wasserstein Distributionally Robust Domain Generalization (WDRDG), inspired by the concept of distributionally robust optimization. We encourage robustness over conditional distributions within class-specific Wasserstein uncertainty sets and optimize the worst-case performance of a classifier over these uncertainty sets. We further develop a test-time adaptation module leveraging optimal transport to quantify the relationship between the unseen target domain and source domains to make adaptive inference for target data. Experiments on the Rotated MNIST, PACS and the VLCS datasets demonstrate that our method could effectively balance the robustness and discriminability in challenging generalization scenarios.
翻訳日:2022-07-12 13:29:54 公開日:2022-07-11
# Wave-ViT:視覚表現学習のためのウェーブレットとトランスフォーマーの統合

Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning ( http://arxiv.org/abs/2207.04978v1 )

ライセンス: Link先を確認
Ting Yao and Yingwei Pan and Yehao Li and Chong-Wah Ngo and Tao Mei(参考訳) Multi-scale Vision Transformer (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場し、Transformer の自己アテンション計算は入力パッチ番号を2乗スケールする。 したがって、既存のソリューションは一般に、計算コストを劇的に削減するために、キー/値に対するダウンサンプリング演算(例えば平均プール)を用いる。 本稿では,このような過度に攻撃的なダウンサンプリング設計は可逆的ではなく,特にオブジェクトの高周波成分(例えばテクスチャディテール)の情報を必然的に低下させるものであると主張する。 ウェーブレット理論によって動機付けられた新しいウェーブレットビジョン変換器 (\textbf{Wave-ViT}) を構築し、ウェーブレット変換と自己注意学習を統一的に行う。 この提案により、キー/値に対するロスレスダウンサンプリングによる自己着信学習が可能となり、効率-vs-accuracyトレードオフの追求が容易になる。 さらに、逆ウェーブレット変換を利用して、受信フィールドを拡大したローカルコンテキストを集約することで自己注意出力を強化する。 複数の視覚タスク(画像認識、オブジェクト検出、インスタンスセグメンテーションなど)に対する広範な実験を通じて、Wave-ViTの優位性を検証する。 性能は最先端のVTバックボーンを上回り、FLOPに匹敵する。 ソースコードは \url{https://github.com/YehLi/ImageNetModel} で入手できる。

Multi-scale Vision Transformer (ViT) has emerged as a powerful backbone for computer vision tasks, while the self-attention computation in Transformer scales quadratically w.r.t. the input patch number. Thus, existing solutions commonly employ down-sampling operations (e.g., average pooling) over keys/values to dramatically reduce the computational cost. In this work, we argue that such over-aggressive down-sampling design is not invertible and inevitably causes information dropping especially for high-frequency components in objects (e.g., texture details). Motivated by the wavelet theory, we construct a new Wavelet Vision Transformer (\textbf{Wave-ViT}) that formulates the invertible down-sampling with wavelet transforms and self-attention learning in a unified way. This proposal enables self-attention learning with lossless down-sampling over keys/values, facilitating the pursuing of a better efficiency-vs-accuracy trade-off. Furthermore, inverse wavelet transforms are leveraged to strengthen self-attention outputs by aggregating local contexts with enlarged receptive field. We validate the superiority of Wave-ViT through extensive experiments over multiple vision tasks (e.g., image recognition, object detection and instance segmentation). Its performances surpass state-of-the-art ViT backbones with comparable FLOPs. Source code is available at \url{https://github.com/YehLi/ImageNetModel}.
翻訳日:2022-07-12 13:29:35 公開日:2022-07-11
# (参考訳) 相関から因果関係へ:統計的プロセスとしての解釈可能な機械学習の形式化

From Correlation to Causation: Formalizing Interpretable Machine Learning as a Statistical Process ( http://arxiv.org/abs/2207.04969v1 )

ライセンス: CC BY 4.0
Lukas Klein, Mennatallah El-Assady and Paul F. J\"ager(参考訳) 説明可能なAI(XAI)は、致命的な決定のリスクが高い臨床診断など、安全に重要なシステムにおいて必要である。 しかし現時点では、XAIは明確に定義されたプロセスではなく、メソッドの緩いコレクションに似ている。 本稿では,XAIの最大部分群,解釈可能な機械学習(IML),古典統計学の概念的類似性について詳述する。 これらの類似性に基づき、統計的プロセスの線に沿ってIMLの形式化を示す。 この統計的視点を用いることで、機械学習モデルとimlメソッドを高度な統計ツールとして解釈することができる。 この解釈に基づいて,安全クリティカルな環境でのimlの成功と採用に不可欠な3つの重要な疑問を推測する。 これらの疑問を定式化することによって、IMLと古典統計学を区別する点と、この分野の将来に対する我々の視点について、さらに議論を巻き起こそうとしている。

Explainable AI (XAI) is a necessity in safety-critical systems such as in clinical diagnostics due to a high risk for fatal decisions. Currently, however, XAI resembles a loose collection of methods rather than a well-defined process. In this work, we elaborate on conceptual similarities between the largest subgroup of XAI, interpretable machine learning (IML), and classical statistics. Based on these similarities, we present a formalization of IML along the lines of a statistical process. Adopting this statistical view allows us to interpret machine learning models and IML methods as sophisticated statistical tools. Based on this interpretation, we infer three key questions, which we identify as crucial for the success and adoption of IML in safety-critical settings. By formulating these questions, we further aim to spark a discussion about what distinguishes IML from classical statistics and what our perspective implies for the future of the field.
翻訳日:2022-07-12 13:26:48 公開日:2022-07-11
# マルチモダリティ連想記憶:学習のためのフレームワーク

Multiple-Modality Associative Memory: a framework for Learning ( http://arxiv.org/abs/2207.04827v1 )

ライセンス: Link先を確認
Rodrigo Simas, Luis Sa-Couto, and Andreas Whichert(参考訳) 記憶から何年にもわたって見たことのない友人の顔を描くのは難しい仕事です。 しかし、もしパスを越えた場合、容易にお互いを認識することができます。 生体記憶には、本質を記憶し、その詳細を推測して知覚と一致させることができる印象的な圧縮アルゴリズムが備わっている。 ウィルショーの連想記憶のモデルは、この脳機能の計算モデルの候補であるが、現実のデータへの応用はスパース符号化問題(英語版)によって妨げられている。 視覚パターンをバイナリ特徴マップにマップする[31]というスパース符号化処方法が最近提案されているため,実世界のデータに対するwillshaw network(wn)の振る舞いを分析し,モデルの強みに対する重要な洞察を得ることができた。 WNの機能をさらに強化するため,マルチモーダルアーキテクチャを提案する。 この新しい設定では、メモリは複数のモダリティ(例えば、ビジュアルまたはテキスト)を同時に格納する。 トレーニング後、モデルは、サブセットが知覚されたときに欠落したモダリティを推測するために使用され、タスクを学習するための柔軟なフレームワークとして機能する。 このモデルをMNISTデータセット上で評価した。 画像とラベルの両方をモダリティとして保存することで、パターン補完、分類、生成を単一モデルで実現することに成功した。

Drawing from memory the face of a friend you have not seen in years is a difficult task. However, if you happen to cross paths, you would easily recognize each other. The biological memory is equipped with an impressive compression algorithm that can store the essential, and then infer the details to match perception. Willshaw's model of Associative memory is a likely candidate for a computational model of this brain function, but its application on real-world data is hindered by the so-called Sparse Coding Problem. Due to a recently proposed sparse encoding prescription [31], which maps visual patterns into binary feature maps, we were able to analyze the behavior of the Willshaw Network (WN) on real-world data and gain key insights into the strengths of the model. To further enhance the capabilities of the WN, we propose the Multiple-Modality architecture. In this new setting, the memory stores several modalities (e.g., visual, or textual) simultaneously. After training, the model can be used to infer missing modalities when just a subset is perceived, thus serving as a flexible framework for learning tasks. We evaluated the model on the MNIST dataset. By storing both the images and labels as modalities, we were able to successfully perform pattern completion, classification, and generation with a single model.
翻訳日:2022-07-12 13:08:35 公開日:2022-07-11
# Hybrid Skip: UNetアーキテクチャのための生物学的にインスパイアされたスキップ接続

Hybrid Skip: A Biologically Inspired Skip Connection for the UNet Architecture ( http://arxiv.org/abs/2207.04721v1 )

ライセンス: Link先を確認
Nikolaos Zioulis, Georgios Albanis, Petros Drakoulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras(参考訳) 本研究では、2つの画像を同時に符号化する画像であるハイブリッド画像の知覚錯覚に依存するUNetアーキテクチャに対して、生物学的にインスパイアされた長距離スキップ接続を導入する。 初期のエンコーダ機能とより深いデコーダ機能との融合により、UNetモデルはよりきめ細かい密度予測を生成することができる。 セグメンテーションタスクで証明されているが、ネットワークの利点は、これらの長距離スキップ接続がテクスチャ転送アーティファクトを増加させるので、密集した回帰タスクで重み付けされる。 特に深度推定において、これは滑らかさを損なうとともに、深度マップの片方向の滑らかな性質のためにタスクに有害な偽陽性エッジを導入する。 提案するhybridskip接続は,エッジ保存とスムースを損なうテクスチャ伝達アーティファクトの最小化とのトレードオフのバランスが向上した。 これは、ハイブリット-スキップ接続が高周波数、低周波数、エンコーダ、デコーダのそれぞれに与える適切な情報交換によって達成される。

In this work we introduce a biologically inspired long-range skip connection for the UNet architecture that relies on the perceptual illusion of hybrid images, being images that simultaneously encode two images. The fusion of early encoder features with deeper decoder ones allows UNet models to produce finer-grained dense predictions. While proven in segmentation tasks, the network's benefits are down-weighted for dense regression tasks as these long-range skip connections additionally result in texture transfer artifacts. Specifically for depth estimation, this hurts smoothness and introduces false positive edges which are detrimental to the task due to the depth maps' piece-wise smooth nature. The proposed HybridSkip connections show improved performance in balancing the trade-off between edge preservation, and the minimization of texture transfer artifacts that hurt smoothness. This is achieved by the proper and balanced exchange of information that Hybrid-Skip connections offer between the high and low frequency, encoder and decoder features, respectively.
翻訳日:2022-07-12 13:08:14 公開日:2022-07-11
# um4:ゼロリソースニューラルマシン翻訳のための統合多言語多教師学習モデル

UM4: Unified Multilingual Multiple Teacher-Student Model for Zero-Resource Neural Machine Translation ( http://arxiv.org/abs/2207.04900v1 )

ライセンス: Link先を確認
Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Shuangzhi Wu, Hongcheng Guo, Zhoujun Li, Furu Wei(参考訳) ほとんどの言語間の翻訳タスクは、並列コーパスが利用できないゼロリソース翻訳問題に属する。 MNMT(Multilingual Neural Machine Translation)は、2つのパスピボット翻訳と比較して、すべての言語で共有セマンティック空間を用いたワンパス翻訳を可能にするが、ピボット法では性能が劣ることが多い。 本論文では,NMTのための統一多言語多言語学習モデル(UM4)を提案する。 本手法は,ゼロリソース翻訳の学生モデルを指導するために,ソース・教師,ターゲット・教師,ピボット・教師のモデルを統一する。 ソース教師及びターゲット教師は、ソース側とターゲット側の両方の蒸留知識により、ターゲット翻訳を直接学習するよう学生に強制する。 単言語コーパスはピボット教師モデルによってさらに活用され、学生モデルが強化される。 実験の結果,72方向のモデルがwmtベンチマークの従来の手法を大きく上回っていることがわかった。

Most translation tasks among languages belong to the zero-resource translation problem where parallel corpora are unavailable. Multilingual neural machine translation (MNMT) enables one-pass translation using shared semantic space for all languages compared to the two-pass pivot translation but often underperforms the pivot-based method. In this paper, we propose a novel method, named as Unified Multilingual Multiple teacher-student Model for NMT (UM4). Our method unifies source-teacher, target-teacher, and pivot-teacher models to guide the student model for the zero-resource translation. The source teacher and target teacher force the student to learn the direct source to target translation by the distilled knowledge on both source and target sides. The monolingual corpus is further leveraged by the pivot-teacher model to enhance the student model. Experimental results demonstrate that our model of 72 directions significantly outperforms previous methods on the WMT benchmark.
翻訳日:2022-07-12 13:07:05 公開日:2022-07-11
# 多言語ニューラルマシン翻訳のための高速言語訓練

High-resource Language-specific Training for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2207.04906v1 )

ライセンス: Link先を確認
Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Zhoujun Li, Furu Wei(参考訳) 複数の言語ペアで訓練されたMNMT(Multilingual Neural Machine Translation)は、モデルパラメータが少なく、複数の言語間で知識を共有することでトレーニングコストが低いため、かなりの注目を集めている。 それにもかかわらず、多言語訓練は、特に高リソース言語において、異なる翻訳方向間の負の干渉のため、共有パラメータにおける言語干渉変性に苦しめられている。 本稿では,言語固有の選択機構を持つ二段階学習を採用する負の干渉を軽減するために,高資源言語特化学習(hlt-mt)を用いた多言語翻訳モデルを提案する。 具体的には,まず,多言語モデルを高リソースペアのみで訓練し,デコーダの上部にある言語固有のモジュールを選択して,高リソース方向の翻訳品質を向上させる。 次に、モデルは、高リソース言語(hrls)から低リソース言語(lrl)への知識の転送のために、利用可能なすべてのコーパスでさらに訓練される。 実験結果から,HLT-MTはWMT-10およびOPUS-100ベンチマークにおいて,様々な強いベースラインよりも優れていた。 さらに,多言語訓練における否定的干渉を緩和する手法の有効性を検証する実験を行った。

Multilingual neural machine translation (MNMT) trained in multiple language pairs has attracted considerable attention due to fewer model parameters and lower training costs by sharing knowledge among multiple languages. Nonetheless, multilingual training is plagued by language interference degeneration in shared parameters because of the negative interference among different translation directions, especially on high-resource languages. In this paper, we propose the multilingual translation model with the high-resource language-specific training (HLT-MT) to alleviate the negative interference, which adopts the two-stage training with the language-specific selection mechanism. Specifically, we first train the multilingual model only with the high-resource pairs and select the language-specific modules at the top of the decoder to enhance the translation quality of high-resource directions. Next, the model is further trained on all available corpora to transfer knowledge from high-resource languages (HRLs) to low-resource languages (LRLs). Experimental results show that HLT-MT outperforms various strong baselines on WMT-10 and OPUS-100 benchmarks. Furthermore, the analytic experiments validate the effectiveness of our method in mitigating the negative interference in multilingual training.
翻訳日:2022-07-12 13:06:48 公開日:2022-07-11
# インデックス付き中間領域を含まない経時的ドメイン適応

Gradual Domain Adaptation without Indexed Intermediate Domains ( http://arxiv.org/abs/2207.04587v1 )

ライセンス: Link先を確認
Hong-You Chen, Wei-Lun Chao(参考訳) 教師なし領域適応の有効性は、ソースとターゲットドメインの間に大きな相違があるときに低下する。 グラデーショナルドメイン適応(GDA)は、ソースからターゲットへと徐々にシフトする追加のラベルのないデータを活用することで、そのような問題を緩和する1つの有望な方法である。 中間領域に沿ってモデルを順次適応させることで、GDAは全体的な適応性能を大幅に改善する。 しかし実際には、余分なラベルのないデータは中間領域に分割して適切にインデックス化されず、gdaの適用性が制限される。 本稿では,中間領域のシーケンスが既に利用できない場合の探索方法について検討する。 具体的には,progressive domain discriminator training(プログレッシブドメイン判別子トレーニング)を通じて,粗いドメイン発見ステップから始める粗いto-fineフレームワークを提案する。 この粗い領域列は、新しいサイクル整合性損失を通じて細かなインデックス化ステップを実行し、それによって次の中間ドメインが現在の中間ドメインの十分な識別的知識を保持することを促す。 結果のドメインシーケンスはGDAアルゴリズムで使用することができる。 GDAのベンチマークデータセットでは、中間DOmain Labeler (IDOL) と名づけた我々のアプローチが、事前定義されたドメインシーケンスと比較して、同等あるいはそれ以上の適応性能を実現し、GDAをより適用可能で、ドメインシーケンスの品質に堅牢であることを示す。 コードはhttps://github.com/hongyouc/idolで入手できる。

The effectiveness of unsupervised domain adaptation degrades when there is a large discrepancy between the source and target domains. Gradual domain adaptation (GDA) is one promising way to mitigate such an issue, by leveraging additional unlabeled data that gradually shift from the source to the target. Through sequentially adapting the model along the "indexed" intermediate domains, GDA substantially improves the overall adaptation performance. In practice, however, the extra unlabeled data may not be separated into intermediate domains and indexed properly, limiting the applicability of GDA. In this paper, we investigate how to discover the sequence of intermediate domains when it is not already available. Concretely, we propose a coarse-to-fine framework, which starts with a coarse domain discovery step via progressive domain discriminator training. This coarse domain sequence then undergoes a fine indexing step via a novel cycle-consistency loss, which encourages the next intermediate domain to preserve sufficient discriminative knowledge of the current intermediate domain. The resulting domain sequence can then be used by a GDA algorithm. On benchmark data sets of GDA, we show that our approach, which we name Intermediate DOmain Labeler (IDOL), can lead to comparable or even better adaptation performance compared to the pre-defined domain sequence, making GDA more applicable and robust to the quality of domain sequences. Codes are available at https://github.com/hongyouc/IDOL.
翻訳日:2022-07-12 13:05:00 公開日:2022-07-11
# 連続学習における破滅的忘れを和らげる鍵は一貫性である

Consistency is the key to further mitigating catastrophic forgetting in continual learning ( http://arxiv.org/abs/2207.04998v1 )

ライセンス: Link先を確認
Prashant Bhat, Bahram Zonooz, Elahe Arani(参考訳) ディープニューラルネットワークは、以前に学習したタスクの破滅的な忘れのために、複数のシーケンシャルなタスクを継続的に学習する。 従来のタスクサンプルをバッファに明示的に格納し、それらを現在のタスクサンプルとインターリーブするリハーサルベースの手法は、忘れを緩和するのに最も効果的であることが証明されている。 しかし、経験リプレイ(er)はバッファサイズで性能が保証されるため、低バッファレジームと長いタスクシーケンスではうまく動作しない。 ソフトターゲットの予測の一貫性は、データの豊富な類似性構造をソフトターゲットが捉えるほど、以前のタスクに関連する情報を保存するerに役立つ。 そこで本研究では,ERフレームワークにおける整合性正規化の役割について検討する。 また,自己教師付きプリテキストタスクとして一貫性の正規化をキャストすることで,多種多様な自己教師付き学習手法を正規化として利用することを提案する。 モデルキャリブレーションと自然の腐敗に対する堅牢性を同時に向上させる一方で、予測の一貫性を規則化すると、継続的な学習シナリオをすべて忘れてしまう。 正規化の異なるファミリーの中で、厳密な一貫性の制約はERにおける以前のタスク情報をよりよく保存する。

Deep neural networks struggle to continually learn multiple sequential tasks due to catastrophic forgetting of previously learned tasks. Rehearsal-based methods which explicitly store previous task samples in the buffer and interleave them with the current task samples have proven to be the most effective in mitigating forgetting. However, Experience Replay (ER) does not perform well under low-buffer regimes and longer task sequences as its performance is commensurate with the buffer size. Consistency in predictions of soft-targets can assist ER in preserving information pertaining to previous tasks better as soft-targets capture the rich similarity structure of the data. Therefore, we examine the role of consistency regularization in ER framework under various continual learning scenarios. We also propose to cast consistency regularization as a self-supervised pretext task thereby enabling the use of a wide variety of self-supervised learning methods as regularizers. While simultaneously enhancing model calibration and robustness to natural corruptions, regularizing consistency in predictions results in lesser forgetting across all continual learning scenarios. Among the different families of regularizers, we find that stricter consistency constraints preserve previous task information in ER better.
翻訳日:2022-07-12 13:04:33 公開日:2022-07-11
# PSP-HDRI$+$:人間中心型コンピュータビジョンモデルの事前学習のための合成データセット生成装置

PSP-HDRI$+$: A Synthetic Dataset Generator for Pre-Training of Human-Centric Computer Vision Models ( http://arxiv.org/abs/2207.05025v1 )

ライセンス: Link先を確認
Salehe Erfanian Ebadi, Saurav Dhakad, Sanjay Vishwakarma, Chunpu Wang, You-Cyuan Jhang, Maciek Chociej, Adam Crespi, Alex Thaman, Sujoy Ganguly(参考訳) 本稿では,イメージネットや他の大規模合成データ代替品よりも優れた事前学習代替品であることが証明される新しい合成データ生成器psp-hdri$+$を提案する。 我々は,out-of-distribution (ood) セットでテストした場合でも,合成データによる事前トレーニングにより,代替モデルよりも優れたパフォーマンスが得られることを実証する。 さらに,市販モデルアーキテクチャを用いた個人キーポイント推定指標によって導かれるアブレーション研究を用いて,合成データ生成装置の操作方法を示し,モデルの性能をさらに向上させる。

We introduce a new synthetic data generator PSP-HDRI$+$ that proves to be a superior pre-training alternative to ImageNet and other large-scale synthetic data counterparts. We demonstrate that pre-training with our synthetic data will yield a more general model that performs better than alternatives even when tested on out-of-distribution (OOD) sets. Furthermore, using ablation studies guided by person keypoint estimation metrics with an off-the-shelf model architecture, we show how to manipulate our synthetic data generator to further improve model performance.
翻訳日:2022-07-12 13:03:31 公開日:2022-07-11
# ライドシェアリングにおける要求予測のための基本ゲート型注意リカレントネットワーク

A Baselined Gated Attention Recurrent Network for Request Prediction in Ridesharing ( http://arxiv.org/abs/2207.04709v1 )

ライセンス: Link先を確認
Jingran Shen, Nikos Tziritas and Georgios Theodoropoulos(参考訳) ライドシェアリングは、ドライバーと乗客の両方にとって利便性とコスト効率、および国連持続可能な開発目標の実現に貢献する可能性から、世界的に人気がある。 その結果、近年、将来の配車要求を予測し、事前に車両のスケジュールを提供することを目的として、RSODP(Origin-Destination Prediction for Ridesharing)問題に対する研究の関心が爆発的に高まった。 既存の予測モデルの多くはDeep Learningを利用しているが、空間力学と時間力学の両方を効果的に考慮していない。 本稿では,空間的特徴量を抽出するためのグラフ畳み込み,時間的特徴量を抽出するリカレントモジュール,最終結果を計算するベースラインド・トランスファー層,マルチヘッド・ゲート・アテンションを用いたベースラインド・アテンション・リカレント・ネットワーク(bgarn)を提案する。 このモデルはPyTorchとDGL(ディープグラフライブラリ)で実装され、ニューヨークタクシー需要データセットを用いて実験的に評価されている。 その結果,bgarnは他のモデルよりも予測精度が優れていることがわかった。

Ridesharing has received global popularity due to its convenience and cost efficiency for both drivers and passengers and its strong potential to contribute to the implementation of the UN Sustainable Development Goals. As a result recent years have witnessed an explosion of research interest in the RSODP (Origin-Destination Prediction for Ridesharing) problem with the goal of predicting the future ridesharing requests and providing schedules for vehicles ahead of time. Most of existing prediction models utilise Deep Learning, however they fail to effectively consider both spatial and temporal dynamics. In this paper the Baselined Gated Attention Recurrent Network (BGARN), is proposed, which uses graph convolution with multi-head gated attention to extract spatial features, a recurrent module to extract temporal features, and a baselined transferring layer to calculate the final results. The model is implemented with PyTorch and DGL (Deep Graph Library) and is experimentally evaluated using the New York Taxi Demand Dataset. The results show that BGARN outperforms all the other existing models in terms of prediction accuracy.
翻訳日:2022-07-12 13:02:27 公開日:2022-07-11
# 知性の出現に対する自制主義と自制主義の原理について

On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence ( http://arxiv.org/abs/2207.04630v1 )

ライセンス: Link先を確認
Yi Ma and Doris Tsao and Heung-Yeung Shum(参考訳) 深層ネットワークと人工知能の復活から10年を経た今,我々は,インテリジェンスの全体像の中の深層ネットワークを理解するための理論的枠組みを提案している。 パシモニーと自己整合性の2つの基本原理を導入し、知性、人工的、または自然の出現の基盤となると信じている。 これら2つの原理は古典的ルーツが豊富であるが、完全に測定可能かつ計算可能な方法で新たに記述できると主張する。 より具体的に言うと、この2つの原則は効率的で効率的な計算フレームワーク、圧縮クローズドループ転写につながり、現代のディープネットワークと多くの人工知能の実践の進化を統一し、説明する。 視覚的データのモデリングを例に挙げるが、この2つの原則は、自律的なインテリジェントシステムの幅広いファミリーの理解を統一し、脳を理解するためのフレームワークを提供すると信じている。

Ten years into the revival of deep networks and artificial intelligence, we propose a theoretical framework that sheds light on understanding deep networks within a bigger picture of Intelligence in general. We introduce two fundamental principles, Parsimony and Self-consistency, that we believe to be cornerstones for the emergence of Intelligence, artificial or natural. While these two principles have rich classical roots, we argue that they can be stated anew in entirely measurable and computable ways. More specifically, the two principles lead to an effective and efficient computational framework, compressive closed-loop transcription, that unifies and explains the evolution of modern deep networks and many artificial intelligence practices. While we mainly use modeling of visual data as an example, we believe the two principles will unify understanding of broad families of autonomous intelligent systems and provide a framework for understanding the brain.
翻訳日:2022-07-12 13:02:05 公開日:2022-07-11
# 放射能レポート生成のためのクロスモーダルプロトタイプ駆動ネットワーク

Cross-modal Prototype Driven Network for Radiology Report Generation ( http://arxiv.org/abs/2207.04818v1 )

ライセンス: Link先を確認
Jun Wang, Abhir Bhalerao, and Yulan He(参考訳) 放射線レポート生成(rrg)は、人間のような言語で放射線画像を自動的に記述することを目的としており、放射線学者の仕事を支援する可能性があり、手動報告の負担を軽減できる。 従来のアプローチではエンコーダ-デコーダアーキテクチャを採用し、単一モーダルな特徴学習に重点を置いている。 本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。 クロスモーダルのプロトタイプを記録できる共有クロスモーダルのプロトタイプマトリックス、クロスモーダルのプロトタイプを学習し、視覚的およびテキスト的特徴にクロスモーダルの情報を埋め込むクロスモーダルのプロトタイプネットワーク、マルチレーベルのプロトタイプ学習を有効にし拡張するためのマルチラベルのコントラスト的損失の改善である。 XPRONET は IU-Xray と MIMIC-CXR のベンチマークで大幅に改善されており、その性能は IU-Xray と MIMIC-CXR に匹敵する性能で最近の最先端のアプローチを上回っている。

Radiology report generation (RRG) aims to describe automatically a radiology image with human-like language and could potentially support the work of radiologists, reducing the burden of manual reporting. Previous approaches often adopt an encoder-decoder architecture and focus on single-modal feature learning, while few studies explore cross-modal feature interaction. Here we propose a Cross-modal PROtotype driven NETwork (XPRONET) to promote cross-modal pattern learning and exploit it to improve the task of radiology report generation. This is achieved by three well-designed, fully differentiable and complementary modules: a shared cross-modal prototype matrix to record the cross-modal prototypes; a cross-modal prototype network to learn the cross-modal prototypes and embed the cross-modal information into the visual and textual features; and an improved multi-label contrastive loss to enable and enhance multi-label prototype learning. XPRONET obtains substantial improvements on the IU-Xray and MIMIC-CXR benchmarks, where its performance exceeds recent state-of-the-art approaches by a large margin on IU-Xray and comparable performance on MIMIC-CXR.
翻訳日:2022-07-12 13:01:48 公開日:2022-07-11
# シーングラフ生成のための適応的細粒述語学習

Adaptive Fine-Grained Predicates Learning for Scene Graph Generation ( http://arxiv.org/abs/2207.04602v1 )

ライセンス: Link先を確認
Xinyu Lyu, Lianli Gao, Pengpeng Zeng, Heng Tao Shen, Jingkuan Song(参考訳) 現在のシーングラフ生成(SGG)モデルの性能は、女性オン/スタンディングオン/ウォーキングオンビーチなど、区別が難しい述語によって著しく妨げられている。 一般的なsggモデルは頭述語を予測し、再バランス戦略は尾のカテゴリーを好む傾向があるため、区別が難しい述語を適切に扱うことはできない。 そこで,本稿では,sgg における識別困難述語を識別することを目的とした適応的細粒度述語学習 (fgpl-a) を提案する。 まず,モデルの動的学習ペースを保ちながら述語相関を適応的に探索する適応述語格子(pl-a)を提案する。 実際、PL-AはSGGデータセットから初期化され、モデルによる現在のミニバッチの予測を探索することで洗練される。 本稿では,pl-aを用いて,モデルの動的学習状態に関する細かな監督により,モデルの識別プロセスを段階的に規則化し,バランスと効率的な学習プロセスを確保する適応的カテゴリー識別損失(cdl-a)と適応的エンティティ識別損失(edl-a)を提案する。 提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上し,新たな最先端性能を実現している。 さらに,文対グラフ検索とキャプション課題の実験により,本手法の実用性がさらに示された。

The performance of current Scene Graph Generation (SGG) models is severely hampered by hard-to-distinguish predicates, e.g., woman-on/standing on/walking on-beach. As general SGG models tend to predict head predicates and re-balancing strategies prefer tail categories, none of them can appropriately handle hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating hard-to-distinguish objects, we propose an Adaptive Fine-Grained Predicates Learning (FGPL-A) which aims at differentiating hard-to-distinguish predicates for SGG. First, we introduce an Adaptive Predicate Lattice (PL-A) to figure out hard-to-distinguish predicates, which adaptively explores predicate correlations in keeping with model's dynamic learning pace. Practically, PL-A is initialized from SGG dataset, and gets refined by exploring model's predictions of current mini-batch. Utilizing PL-A, we propose an Adaptive Category Discriminating Loss (CDL-A) and an Adaptive Entity Discriminating Loss (EDL-A), which progressively regularize model's discriminating process with fine-grained supervision concerning model's dynamic learning status, ensuring balanced and efficient learning process. Extensive experimental results show that our proposed model-agnostic strategy significantly boosts performance of benchmark models on VG-SGG and GQA-SGG datasets by up to 175% and 76% on Mean Recall@100, achieving new state-of-the-art performance. Moreover, experiments on Sentence-to-Graph Retrieval and Image Captioning tasks further demonstrate practicability of our method.
翻訳日:2022-07-12 13:00:52 公開日:2022-07-11
# DCCF:高分解能画像調和のための深層包括カラーフィルタ学習フレームワーク

DCCF: Deep Comprehensible Color Filter Learning Framework for High-Resolution Image Harmonization ( http://arxiv.org/abs/2207.04788v1 )

ライセンス: Link先を確認
Ben Xue, Shenghui Ran, Quan Chen, Rongfei Jia, Binqiang Zhao, Xing Tang(参考訳) 画像色調和アルゴリズムは、異なる条件下で撮影された前景と背景画像の色分布を自動的に一致させることを目的としている。 従来のディープラーニングモデルでは、高解像度(HR)画像処理とモデルの理解性という、実用上重要な2つの問題を無視していた。 本稿では,高分解能画像調和のための新しいDeep Comprehensible Color Filter (DCCF) 学習フレームワークを提案する。 具体的には、DCCFは最初、元の入力画像をその低解像度(LR)カウンタにサンプリングし、最後に4つの人間の理解可能なニューラルフィルタ(色調、飽和度、値、減衰率)をエンドツーエンドに学習し、最終的にこれらのフィルタを元の入力画像に適用し、調和した結果を得る。 理解しやすいニューラルフィルタから恩恵を受ければ、ユーザがディープモデルと協力して必要な結果を得るためのシンプルで効率的なハンドラを、必要ならばごくわずかな労力で提供できるでしょう。 大規模な実験により、DCCF学習フレームワークの有効性が実証され、MSEとPSNRでそれぞれ7.63%と1.69%の改善を達成し、iHarmony4データセットにおける最先端のポストプロセッシング手法よりも優れていた。

Image color harmonization algorithm aims to automatically match the color distribution of foreground and background images captured in different conditions. Previous deep learning based models neglect two issues that are critical for practical applications, namely high resolution (HR) image processing and model comprehensibility. In this paper, we propose a novel Deep Comprehensible Color Filter (DCCF) learning framework for high-resolution image harmonization. Specifically, DCCF first downsamples the original input image to its low-resolution (LR) counter-part, then learns four human comprehensible neural filters (i.e. hue, saturation, value and attentive rendering filters) in an end-to-end manner, finally applies these filters to the original input image to get the harmonized result. Benefiting from the comprehensible neural filters, we could provide a simple yet efficient handler for users to cooperate with deep model to get the desired results with very little effort when necessary. Extensive experiments demonstrate the effectiveness of DCCF learning framework and it outperforms state-of-the-art post-processing method on iHarmony4 dataset on images' full-resolutions by achieving 7.63% and 1.69% relative improvements on MSE and PSNR respectively.
翻訳日:2022-07-12 13:00:20 公開日:2022-07-11
# デュアルビジョントランス

Dual Vision Transformer ( http://arxiv.org/abs/2207.04976v1 )

ライセンス: Link先を確認
Ting Yao and Yehao Li and Yingwei Pan and Yu Wang and Xiao-Ping Zhang and Tao Mei(参考訳) 先行研究は自己認識機構の計算コストを削減するためのいくつかの戦略を提案した。 これらの研究の多くは、それぞれが計算の複雑さをはるかに少なくする局所的特徴抽出手順に自己着脱手順を分解することを検討している。 しかし、地域情報は通常、ダウンサンプリングによって失った望ましくない情報を犠牲にしてのみ達成される。 本稿では,dual vision transformer (dual-vit) という,コスト削減を目的とした新しいトランスフォーマーアーキテクチャを提案する。 新しいアーキテクチャには、より効率的にトークンベクトルをグローバルセマンティクスに圧縮し、複雑さの順序を下げる重要なセマンティクス経路が組み込まれている。 このような圧縮されたグローバルセマンティクスは、別の構築されたピクセル経路を通して、より細かいピクセルレベルの詳細を学ぶ上で有用な事前情報として機能する。 セマンティックパスとピクセルパスは統合され、共同で訓練され、両方の経路を通して拡張された自己認識情報を並列に拡散する。 そのため、Dual-ViTは計算の複雑さを減らすことができる。 我々は、Dual-ViTが訓練の複雑さを低減したSOTAトランスフォーマーアーキテクチャよりも優れた精度を提供することを示す。 ソースコードは \url{https://github.com/YehLi/ImageNetModel} で入手できる。

Prior works have proposed several strategies to reduce the computational cost of self-attention mechanism. Many of these works consider decomposing the self-attention procedure into regional and local feature extraction procedures that each incurs a much smaller computational complexity. However, regional information is typically only achieved at the expense of undesirable information lost owing to down-sampling. In this paper, we propose a novel Transformer architecture that aims to mitigate the cost issue, named Dual Vision Transformer (Dual-ViT). The new architecture incorporates a critical semantic pathway that can more efficiently compress token vectors into global semantics with reduced order of complexity. Such compressed global semantics then serve as useful prior information in learning finer pixel level details, through another constructed pixel pathway. The semantic pathway and pixel pathway are then integrated together and are jointly trained, spreading the enhanced self-attention information in parallel through both of the pathways. Dual-ViT is henceforth able to reduce the computational complexity without compromising much accuracy. We empirically demonstrate that Dual-ViT provides superior accuracy than SOTA Transformer architectures with reduced training complexity. Source code is available at \url{https://github.com/YehLi/ImageNetModel}.
翻訳日:2022-07-12 12:59:52 公開日:2022-07-11
# (参考訳) コントラスト最大化フレームワークにおけるイベント崩壊

Event Collapse in Contrast Maximization Frameworks ( http://arxiv.org/abs/2207.04007v2 )

ライセンス: CC BY 4.0
Shintaro Shiba, Yoshimitsu Aoki, Guillermo Gallego(参考訳) コントラスト最大化(cmax)は、エゴモーションやオプティカルフロー推定など、いくつかのイベントベースのコンピュータビジョンタスクに最先端の結果を提供するフレームワークである。 しかし、イベント崩壊(event collapse)と呼ばれる問題に苦しむ可能性がある。 先行研究は問題や回避策をほとんど無視しているため、この現象を詳細に分析することが不可欠である。 本研究は,その最も単純な形態で事象の崩壊を実証し,微分幾何学と物理に基づく時空変形の第一原理を用いて崩壊計量を提案する。 提案するメトリクスが事象の崩壊を緩和し,適切に設定されたワープを損なわないことを,公開データセットに実験的に示す。 我々の知る限りでは、提案した指標に基づく正則化器は、他の手法と比較して検討された実験環境における事象崩壊に対する唯一の効果的な解決策である。 この研究が、より複雑なワープモデルに取り組むためのさらなる研究を促すことを期待しています。

Contrast maximization (CMax) is a framework that provides state-of-the-art results on several event-based computer vision tasks, such as ego-motion or optical flow estimation. However, it may suffer from a problem called event collapse, which is an undesired solution where events are warped into too few pixels. As prior works have largely ignored the issue or proposed workarounds, it is imperative to analyze this phenomenon in detail. Our work demonstrates event collapse in its simplest form and proposes collapse metrics by using first principles of space-time deformation based on differential geometry and physics. We experimentally show on publicly available datasets that the proposed metrics mitigate event collapse and do not harm well-posed warps. To the best of our knowledge, regularizers based on the proposed metrics are the only effective solution against event collapse in the experimental settings considered, compared with other methods. We hope that this work inspires further research to tackle more complex warp models.
翻訳日:2022-07-12 11:26:25 公開日:2022-07-11
# 属性表現のコントラスト最適化によるゼロショット学習の促進

Boosting Zero-shot Learning via Contrastive Optimization of Attribute Representations ( http://arxiv.org/abs/2207.03824v2 )

ライセンス: Link先を確認
Yu Du, Miaojing Shi, Fangyun Wei, Guoqi Li(参考訳) Zero-shot Learning (ZSL) は、トレーニングセットにサンプルを持たないクラスを認識することを目的としている。 代表的なソリューションの1つは、視覚特徴と対応するクラスセマンティクスを関連付けて、新しいクラスを認識する埋め込み関数を直接学習することである。 このソリューションには多くの方法が拡張されており、最近のものは特に属性機能のような画像からリッチな特徴を抽出することに熱心である。 これらの属性特徴は通常、個々の画像内で抽出されるが、同じ属性に属する画像にまたがる特徴の共通特性は強調されない。 本稿では,画像以外の属性のプロトタイプを明示的に学習し,画像内の属性レベルの特徴を対照的に最適化することにより,ZSLを向上する新たなフレームワークを提案する。 新しいプロトタイプ生成モジュールは属性セマンティクスから属性プロトタイプを生成するように設計され、ハードな例ベースのコントラスト最適化スキームは、埋め込み空間における属性レベル機能を強化するために導入された。 フレームワークの構築と,CUB,SUN,AwA2という3つの標準ベンチマークの実験を行うために,CNNベースとTransformerベースの2つのバックボーンについて検討する。 これらのベンチマークの結果から,本手法は芸術の状態をかなり改善することが示された。 私たちのコードはhttps://github.com/dyabel/CoAR-ZSL.gitで公開されます。

Zero-shot learning (ZSL) aims to recognize classes that do not have samples in the training set. One representative solution is to directly learn an embedding function associating visual features with corresponding class semantics for recognizing new classes. Many methods extend upon this solution, and recent ones are especially keen on extracting rich features from images, e.g. attribute features. These attribute features are normally extracted within each individual image; however, the common traits for features across images yet belonging to the same attribute are not emphasized. In this paper, we propose a new framework to boost ZSL by explicitly learning attribute prototypes beyond images and contrastively optimizing them with attribute-level features within images. Besides the novel architecture, two elements are highlighted for attribute representations: a new prototype generation module is designed to generate attribute prototypes from attribute semantics; a hard example-based contrastive optimization scheme is introduced to reinforce attribute-level features in the embedding space. We explore two alternative backbones, CNN-based and transformer-based, to build our framework and conduct experiments on three standard benchmarks, CUB, SUN, AwA2. Results on these benchmarks demonstrate that our method improves the state of the art by a considerable margin. Our codes will be available at https://github.com/dyabel/CoAR-ZSL.git
翻訳日:2022-07-12 11:04:26 公開日:2022-07-11