このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220423となっている論文です。

PDF登録状況(公開日: 20220423)

TitleAuthorsAbstract論文公表日・翻訳日
# 時空双対性によるフラクタル、対数、体積則の絡み合った非熱的定常状態

Fractal, logarithmic and volume-law entangled non-thermal steady states via spacetime duality ( http://arxiv.org/abs/2103.06873v3 )

ライセンス: Link先を確認
Matteo Ippoliti, Tibor Rakovszky, Vedika Khemani(参考訳) 多体量子力学の非ユニタリ領域への拡張は、新しい平衡外絡相や相転移を含む一連のエキサイティングな発展をもたらした。 一方の空間と時間の間の双対変換と、他方のユニタリティと非ユニタリティは、対数的から拡張的まで、サブシステムサイズとの絡み合いのスケーリングにおいて、多種多様な振る舞いを示す非ユニタリー力学の定常状態相を実現するためにどのように使用できるかを示す。 非ユニタリ回路におけるこれらの結果が、対応するユニタリ回路における絡み合いの時間的増加と、境界デコヒーレンスによるユニタリ進化問題への正確なマッピングを通して、システムの一方の端から情報を「放射」する「境界デコヒーレンス」によってどのように異なるかを示す。 カオスユニタリ回路の時空双対では、このマッピングにより、他の既知の例とは異なるエントロピーに対する対数補正で、非熱的体積法則の絡み合った位相を発見できる。 最も顕著な点として、新しい定常状態相として \emph{fractal} エンタングルメントスケーリング、$S(\ell) \sim \ell^{\alpha}$ with tunable $0 < \alpha < 1$ for subsystems of size $\ell$ がある。 これらのフラクタル的に絡み合った状態は、エネルギー固有状態または動的定常状態として研究されてきた多体量子状態の族に質的に新しいエントリを与える。 また, 量子回路の空間的スライスと時間的スライス間の「テレポーテーション」の一種を用いて, 限られた量のポスト選択しか持たない新しい定常状態を作成するための実験プロトコルを提案する。

The extension of many-body quantum dynamics to the non-unitary domain has led to a series of exciting developments, including new out-of-equilibrium entanglement phases and phase transitions. We show how a duality transformation between space and time on one hand, and unitarity and non-unitarity on the other, can be used to realize steady state phases of non-unitary dynamics that exhibit a rich variety of behavior in their entanglement scaling with subsystem size -- from logarithmic to extensive to \emph{fractal}. We show how these outcomes in non-unitary circuits (that are "spacetime-dual" to unitary circuits) relate to the growth of entanglement in time in the corresponding unitary circuits, and how they differ, through an exact mapping to a problem of unitary evolution with boundary decoherence, in which information gets "radiated away" from one edge of the system. In spacetime-duals of chaotic unitary circuits, this mapping allows us to uncover a non-thermal volume-law entangled phase with a logarithmic correction to the entropy distinct from other known examples. Most notably, we also find novel steady state phases with \emph{fractal} entanglement scaling, $S(\ell) \sim \ell^{\alpha}$ with tunable $0 < \alpha < 1$ for subsystems of size $\ell$ in one dimension. These fractally entangled states add a qualitatively new entry to the families of many-body quantum states that have been studied as energy eigenstates or dynamical steady states, whose entropy almost always displays either area-law, volume-law or logarithmic scaling. We also present an experimental protocol for preparing these novel steady states with only a very limited amount of postselection via a type of "teleportation" between spacelike and timelike slices of quantum circuits.
翻訳日:2023-04-08 11:05:33 公開日:2022-04-23
# ホログラフィッククエンチの量子熱力学とQNECからの絡み合いの成長に関するバウンド

Quantum thermodynamics of holographic quenches and bounds on the growth of entanglement from the QNEC ( http://arxiv.org/abs/2109.09914v3 )

ライセンス: Link先を確認
Tanay Kibe, Ayan Mukhopadhyay, and Pratik Roy(参考訳) 量子ヌルエネルギー条件 (quantum null energy condition, qnec) は、ヌル方向に沿った部分領域の絡み合いエントロピーの変化の観点から、エネルギー-運動テンソル上の下界である。 多体系の量子熱力学の知見を得るため、QNECは2次元ホログラフィック理論において、無限メモリレス浴からのエネルギーモメンタム流入によって駆動されるクエンチにおける不可逆エントロピー生成を制限するかどうかを考察する。 古典的熱力学のクラウシウス不等式によって示されるエントロピーと温度の上昇は、バナドス・ティーテルボイム・ザネリの2倍の運動量を持つ熱状態間の遷移を引き起こすクエンチでQNECに違反しないほどには不十分である。 任意の初期状態に対して、温度(エントロピー)の一定増加に対するエントロピー(温度)の増加に関する下限と上限を決定することができる。 以上より,文献に存在が確立された非可逆エントロピー生成における量子下界と上界の明示的な例を示す。 また,QNECの非飽和状態とクエンチ後の時間とのモノトニックな挙動も見出され,その漸近値が解析的に決定される。 本研究は,長さ$l$の間隔の絡み合いエントロピーが,指数3/2$の時間で常に熱化することを示した。 さらに, エンタングルメントの初期2次成長係数を任意の$l$に対して解析的に決定し, 半無限区間におけるエンタングルメントの漸近的弾道成長の傾きが, 最終状態と初期状態のエントロピー密度の差の2倍であることを示す。 エンタングルメントの成長速度について, 表層および下層の境界を明示的に決定する。

The quantum null energy condition (QNEC) is a lower bound on the energy-momentum tensor in terms of the variation of the entanglement entropy of a sub-region along a null direction. To gain insights into quantum thermodynamics of many-body systems, we study if the QNEC restricts irreversible entropy production in quenches driven by energy-momentum inflow from an infinite memoryless bath in two-dimensional holographic theories. We find that an increase in both entropy and temperature, as implied by the Clausius inequality of classical thermodynamics, are necessary but not sufficient to not violate QNEC in quenches leading to transitions between thermal states with momentum which are dual to Banados-Teitelboim-Zanelli geometries. For an arbitrary initial state, we can determine the lower and upper bounds on the increase of entropy (temperature) for a fixed increase in temperature (entropy). Our results provide explicit instances of quantum lower and upper bounds on irreversible entropy production whose existence has been established in literature. We also find monotonic behavior of the non-saturation of the QNEC with time after a quench, and analytically determine their asymptotic values. Our study shows that the entanglement entropy of an interval of length $l$ always thermalizes in time $l/2$ with an exponent $3/2$. Furthermore, we determine the coefficient of initial quadratic growth of entanglement analytically for any $l$, and show that the slope of the asymptotic ballistic growth of entanglement for a semi-infinite interval is twice the difference of the entropy densities of the final and initial states. We determine explicit upper and lower bounds on these rates of growth of entanglement.
翻訳日:2023-03-14 03:38:18 公開日:2022-04-23
# 軽視によるトラップと結合

Trapping and binding by dephasing ( http://arxiv.org/abs/2109.13484v2 )

ライセンス: Link先を確認
Kaustav Mukherjee, Siddhartha Poddar, Sebastian W\"uster(参考訳) 粒子の結合とトラップは通常、ユニタリ量子力学によって記述される保守的な力に依存する。 また,最も単純なデコヒーレンスである空間依存型デファスティングから生じることも示している。 これは空間の選ばれた領域のみにおける連続的な弱位置測定に基づいており、実用的な実現法を提案する。 一つの粒子について、デファージングに基づく量子粒子を実演する。 2つの粒子に対して、分子状態が大きな分離でしか解離しない場合、反発相互作用にもかかわらずそれらの結合を実証する。 どちらの機構も実験的に利用可能であり、Rydberg原子がコールドガスの背景にある例を示す。

The binding and trapping of particles usually rely on conservative forces, described by unitary quantum dynamics. We show that both can also arise solely from spatially dependent dephasing, the simplest type of decoherence. This can be based on continuous weak position measurements in only selected regions of space, for which we propose a practical realisation. For a single particle, we demonstrate a quantum particle-in-the-box based on dephasing. For two particles, we demonstrate their binding despite repulsive interactions, if their molecular states are dephased at large separations only. Both mechanisms are experimentally accessible, as we show for an example with Rydberg atoms in a cold gas background.
翻訳日:2023-03-13 07:55:50 公開日:2022-04-23
# グリーン関数による量子欠陥埋め込み理論の定式化

Green's function formulation of quantum defect embedding theory ( http://arxiv.org/abs/2203.05493v2 )

ライセンス: Link先を確認
Nan Sheng, Christian Vorwerk, Marco Govoni, Giulia Galli(参考訳) 二重計数スキームが$g_0 w_0$近似内で厳密に導出される量子欠陥埋め込み理論(qdet)のグリーン関数の定式化を示す。 次に,この理論をダイヤモンド中のいくつかの欠陥に適用することにより,本手法のロバスト性を示す。 さらに, 活動空間の大きさと構成関数として, 収束結果を得るための戦略について検討する。 以上の結果から,QDETは固体中の欠陥の強い相関状態を調べるための有望な手法であることが示された。

We present a Green's function formulation of the quantum defect embedding theory (QDET) where a double counting scheme is rigorously derived within the $G_0 W_0$ approximation. We then show the robustness of our methodology by applying the theory with the newly derived scheme to several defects in diamond. Additionally, we discuss a strategy to obtain converged results as a function of the size and composition of the active space. Our results show that QDET is a promising approach to investigate strongly correlated states of defects in solids.
翻訳日:2023-02-22 11:58:25 公開日:2022-04-23
# プライバシ保護型クラウドコンピューティング - エコシステム,ライフサイクル,レイヤアーキテクチャ,今後のロードマップ

Privacy-Preserving Cloud Computing: Ecosystem, Life Cycle, Layered Architecture and Future Roadmap ( http://arxiv.org/abs/2204.11120v1 )

ライセンス: Link先を確認
Saeed Ahmadi (School of Computer Science, University of Guelph, Ontario, Canada) and Maliheh Salehfar (School of Management and Accounting Allameh Tabataba'i University, Tehran, Iran)(参考訳) プライバシ保護 クラウドコンピューティングは、様々な分野で多くのアプリケーションを持つ新興技術である。 スケーラビリティ、適応性、セキュリティの改善を可能にするため、クラウドコンピューティングは重要だ。 同様に、クラウドコンピューティングにおけるプライバシは、クラウドに格納されたデータの一貫性が維持されることを保証するため、重要である。 プライバシ保護クラウドコンピューティングに関する調査論文は、関連する分野における今後の研究の道を開く上で有効である。 本稿は,この領域の研究における既存トレンドの特定に加えて,ライフサイクルとプライバシ保護クラウドシステムのためのエコシステムとともに,階層型アーキテクチャを確立することで,既存のトレンドの特定を支援する。

Privacy-Preserving Cloud Computing is an emerging technology with many applications in various fields. Cloud computing is important because it allows for scalability, adaptability, and improved security. Likewise, privacy in cloud computing is important because it ensures that the integrity of data stored on the cloud maintains intact. This survey paper on privacy-preserving cloud computing can help pave the way for future research in related areas. This paper helps to identify existing trends by establishing a layered architecture along with a life cycle and an ecosystem for privacy-preserving cloud systems in addition to identifying the existing trends in research on this area.
翻訳日:2023-02-19 16:26:22 公開日:2022-04-23
# 脅威狩りを通じて狩猟者をハンターに変える - ライフサイクル、エコシステム、挑戦、aiの偉大な約束

Turning the Hunted into the Hunter via Threat Hunting: Life Cycle, Ecosystem, Challenges and the Great Promise of AI ( http://arxiv.org/abs/2204.11076v1 )

ライセンス: Link先を確認
Caroline Hillier (School of Computer Science, University of Guelph, ON, Canada) and Talieh Karroubi (School of Computer Science, University of Guelph, ON, Canada)(参考訳) 脅威狩りのライフサイクルは複雑な雰囲気であり、セキュリティを維持するために専門家から特別な注意を必要とする。 本稿では,脅威狩りのエコシステムを総合的に把握し,課題を特定し,人工知能(AI)の統合による未来を論じる,最近の研究の集合体である。 プライバシー保護のためのライフサイクルとエコシステムを特に確立し、関連する課題を特定します。 また、脅威狩りにおいてAIがいかに重要かを発見した。 この研究は、脅威狩りに有意義な進歩をもたらすための基礎的な知識を提供するので、この分野における将来の作業への道を開く。

The threat hunting lifecycle is a complex atmosphere that requires special attention from professionals to maintain security. This paper is a collection of recent work that gives a holistic view of the threat hunting ecosystem, identifies challenges, and discusses the future with the integration of artificial intelligence (AI). We specifically establish a life cycle and ecosystem for privacy-threat hunting in addition to identifying the related challenges. We also discovered how critical the use of AI is in threat hunting. This work paves the way for future work in this area as it provides the foundational knowledge to make meaningful advancements for threat hunting.
翻訳日:2023-02-19 16:26:12 公開日:2022-04-23
# ランクの公平性に対する一般化されたジーニ指標の最適化

Optimizing generalized Gini indices for fairness in rankings ( http://arxiv.org/abs/2204.06521v3 )

ライセンス: Link先を確認
Virginie Do and Nicolas Usunier(参考訳) 商品生産者や未満足のユーザを公平に対象とするレコメンデーションシステムの設計への関心が高まっている。 経済学における不平等測定の領域に触発された本論文では,推奨システムが最適化すべき規範的基準を特定する手段として,一般化されたジニ福祉機能(GGF)の利用について検討する。 GGFは人口の階級によって個人を重くし、平等を促進するために悪質な個人に重みを与える。 これらの重みによって、GGFはアイテム露光のギニ指数を最小化し、アイテム間の平等を促進したり、満足度の低い特定の量子化に注目する。 ランク付けのためのGGFは、差別化できないため最適化が難しい。 我々は,微分可能ソートに使用される非スムース最適化と投影演算子のツールを活用することで,この課題を解決した。 提案手法は,最大15万のユーザとアイテムの実際のデータセットを用いて実験を行い,様々なレコメンデーションタスクや公正基準のベースラインよりも優れたトレードオフが得られることを示す。

There is growing interest in designing recommender systems that aim at being fair towards item producers or their least satisfied users. Inspired by the domain of inequality measurement in economics, this paper explores the use of generalized Gini welfare functions (GGFs) as a means to specify the normative criterion that recommender systems should optimize for. GGFs weight individuals depending on their ranks in the population, giving more weight to worse-off individuals to promote equality. Depending on these weights, GGFs minimize the Gini index of item exposure to promote equality between items, or focus on the performance on specific quantiles of least satisfied users. GGFs for ranking are challenging to optimize because they are non-differentiable. We resolve this challenge by leveraging tools from non-smooth optimization and projection operators used in differentiable sorting. We present experiments using real datasets with up to 15k users and items, which show that our approach obtains better trade-offs than the baselines on a variety of recommendation tasks and fairness criteria.
翻訳日:2023-02-19 16:16:31 公開日:2022-04-23
# 情報理論における可観測性・チャネル・機器の非互換性

Incompatibility of observables, channels and instruments in information theories ( http://arxiv.org/abs/2204.07956v2 )

ライセンス: Link先を確認
Giacomo M. D'Ariano, Paolo Perinotti, Alessandro Tosini(参考訳) Every theory of information, including classical and quantum, can be studied in the framework of operational probabilistic theories--where the notion of test generalizes that of quantum instrument, namely a collection of quantum operations summing to a channel, and simple rules are given for the composition of tests in parallel and in sequence. Here we study the notion of compatibility for tests of an operational probabilistic theory. Following the quantum literature, we first introduce the notion of strong compatibility, and then we illustrate its ultimate relaxation, that we deem weak compatibility. It is shown that the two notions coincide in the case of observation tests--which are the counterpart of quantum POVMs--while there exist weakly compatible channels that are not strongly compatible. 我々は、理論が互換性のないテストを示すために必要かつ十分な条件を証明できる。 理論が不適合なテストを認めるのは、ある情報が外乱なしに抽出できない場合に限りである。

Every theory of information, including classical and quantum, can be studied in the framework of operational probabilistic theories--where the notion of test generalizes that of quantum instrument, namely a collection of quantum operations summing to a channel, and simple rules are given for the composition of tests in parallel and in sequence. Here we study the notion of compatibility for tests of an operational probabilistic theory. Following the quantum literature, we first introduce the notion of strong compatibility, and then we illustrate its ultimate relaxation, that we deem weak compatibility. It is shown that the two notions coincide in the case of observation tests--which are the counterpart of quantum POVMs--while there exist weakly compatible channels that are not strongly compatible. We prove necessary and sufficient conditions for a theory to exhibit incompatible tests. We show that a theory admits of incompatible tests if and only if some information cannot be extracted without disturbance.
翻訳日:2023-02-16 16:55:01 公開日:2022-04-23
# $n$- Photon Jaynes-Cummingsモデルにおける多重光子束放出

Multiple-photon bundle emission in the $n$-photon Jaynes-Cummings model ( http://arxiv.org/abs/2204.09899v2 )

ライセンス: Link先を確認
Shu-Yuan Jiang, Fen Zou, Yi Wang, Jin-Feng Huang, Xun-Wei Xu, Jie-Qiao Liao(参考訳) 我々は、n$-photonエキサイティングプロセスを通じて、単一モードの光学場と結合した2段階のシステムからなるn$-photon jaynes-cummingsモデルにおける多重光子束放出の研究を行った。 ここで、2段階の系は、近共振単色場によって強く駆動されるため、この系は、適切な共振条件下でゼロ光子状態と$n$-光子状態の間の超ラビ振動が起こるモロー状態で動作することができる。 我々は、光子数と標準等時高次相関関数を計算し、この系において多重光子束の放出が生じることを確かめる。 多重光子束の放出は、状態集団の量子軌道と、標準および一般化された時間遅延2次相関関数の両方を調査することによって確認される。 我々の研究は、多光子量子コヒーレントデバイスの研究への道を切り開いており、量子情報科学や技術に潜在的な応用が期待できる。

We study the multiple-photon bundle emission in the $n$-photon Jaynes-Cummings model composed of a two-level system coupled to a single-mode optical field via the $n$-photon exciting process. Here, the two-level system is strongly driven by a near-resonant monochromatic field, and hence the system can work in the Mollow regime, in which a super-Rabi oscillation between the zero-photon state and the $n$-photon state can take place under proper resonant conditions. We calculate the photon number populations and the standard equal-time high-order correlation functions, and find that the multiple-photon bundle emission can occur in this system. The multiple-photon bundle emission is also confirmed by investigating the quantum trajectories of the state populations and both the standard and generalized time-delay second-order correlation functions for multiple-photon bundle. Our work paves the way towards the study of multiple-photon quantum coherent devices, with potential application in quantum information sciences and technologies.
翻訳日:2023-02-16 03:51:45 公開日:2022-04-23
# 空間型量子鍵分布のためのCubeSatプラットフォーム

A CubeSat platform for space based quantum key distribution ( http://arxiv.org/abs/2204.11005v1 )

ライセンス: Link先を確認
Srihari Sivasankaran and Clarence Liu and Moritz Mihm and Alexander Ling(参考訳) 衛星ノードは、地上のファイバーリンクとフリースペースリンクの距離制限を克服することで、グローバル量子ネットワークを実現する。 しかし、衛星の量子源と受信機の設計は、大きさ、重量、消費電力、および機械的および熱的安定性の面では困難である。 これは、一般的なCubeSatプラットフォーム標準のようなコスト効率の良いナノサテライトにとって、より真実である。 ここでは,3u立方体サットであるsooqy-1の追跡ミッションを報告し,軌道上の偏光子の発生を実証した。 ミッションの次のイテレーションでは、偏光束縛された光子対のコンパクトな源に基づく衛星と地上の量子鍵分布を示し、我々は最近、飛行モデルに向けたマイルストーンとして完全に機能する実証器の統合を完了した。 我々はまた、現在シンガポールで建設中の光地上局の設計について、量子信号を受信するために簡潔に説明する。 最も重要なサブシステムを紹介し,操作の概念を説明する。

Satellite nodes are an enabler of global quantum networks by overcoming the distance limitations of fiber and free-space links on ground. The design of quantum sources and receivers for satellites, however, is challenging in terms of size, weight, and power consumption, as well as mechanical and thermal stability. This is all the more true for cost-efficient nanosatellites such as the popular CubeSat platform standard. Here we report on the follow-up mission of SpooQy-1, a 3U CubeSat that successfully demonstrated the generation of polarization-entangled photons in orbit. The next iteration of the mission will showcase satellite-to-ground quantum key distribution based on a compact source of polarization-entangled photon-pairs, and we have recently completed the integration of a fully functional demonstrator as a milestone towards the flight model. We also briefly describe the design of the optical ground station that we are currently building in Singapore for receiving the quantum signal. We present the most important subsystems and illustrate the concept of operation.
翻訳日:2023-02-15 22:37:13 公開日:2022-04-23
# 局所対称性破砕によるグラフェンの大域密度波不安定化

Triggering a global density wave instability in graphene via local symmetry-breaking ( http://arxiv.org/abs/2204.10999v1 )

ライセンス: Link先を確認
Amy C. Qu, Pascal Nigge, Stefan Link, Giorgio Levy, Matteo Michiardi, Parsa L. Spandar, Tiffany Matth\'e, Michael Schneider, Sergey Zhdanovich, Ulrich Starke, Christopher Guti\'errez, Andrea Damascelli(参考訳) 2次元量子材料は、電子的性質のチューニング性が高いため、対称性を損なう秩序相の出現を調べるためのロバストなプラットフォームを提供する。 例えば、積み重ねられた構造やねじれた構造からmoir\'e超格子を介してグラフェンに新しい電子バンド構造を作る能力は、いくつかの相関相や位相相の発見につながった。 本稿では,グラフェン中の初期対称性ブロッキング相をミリメートルスケールで誘導する方法を提案する。 極めて希薄な濃度(<\! 0.3\%$)の表層原子は自己集合し、グラフェン原子格子がkekul\e結合密度波相に崩壊し、炭素c-c結合対称性がグローバルに破られる。 角度分解光電子分光法(ARPES)や低エネルギー電子回折法(LEED)などの相補的な運動量分解技術を用いて、この密度波位相の存在を直接探査し、ディラック点におけるエネルギーギャップの開度を確認する。 さらに, このケクルアン密度波位相はフェルミ表面の様々なサイズや形状に対して生じ, この格子不安定性は強い電子-格子相互作用によって駆動されることが示唆された。 その結果, 自己集合吸着原子の希薄濃度は, 新たな量子相を二次元材料で設計する上で, 魅力的な代替手段となることがわかった。

Two-dimensional quantum materials offer a robust platform for investigating the emergence of symmetry-broken ordered phases owing to the high tuneability of their electronic properties. For instance, the ability to create new electronic band structures in graphene through moir\'e superlattices from stacked and twisted structures has led to the discovery of several correlated and topological phases. Here we report an alternative method to induce an incipient symmetry-broken phase in graphene at the millimetre scale. We show that an extremely dilute concentration ($<\!0.3\% $) of surface adatoms can self-assemble and trigger the collapse of the graphene atomic lattice into a distinct Kekul\'e bond density wave phase, whereby the carbon C-C bond symmetry is broken globally. Using complementary momentum-resolved techniques such as angle-resolved photoemission spectroscopy (ARPES) and low-energy electron diffraction (LEED), we directly probe the presence of this density wave phase and confirm the opening of an energy gap at the Dirac point. We further show that this Kekul\'e density wave phase occurs for various Fermi surface sizes and shapes, suggesting that this lattice instability is driven by strong electron-lattice interactions. Our results demonstrate that dilute concentrations of self-assembled adsorbed atoms offer an attractive alternative route towards designing novel quantum phases in two-dimensional materials.
翻訳日:2023-02-15 22:36:51 公開日:2022-04-23
# ancilla qubitsを使用しない量子誤差検出

Quantum Error Detection Without Using Ancilla Qubits ( http://arxiv.org/abs/2204.11114v1 )

ライセンス: Link先を確認
Nicolas J. Guerrero, David E. Weeks(参考訳) 本稿では,アンシラ量子ビットや中間回路計測を用いない誤り検出手法を記述し,実験的に実証する。 これはヒルベルト空間を拡張し、1つの論理量子ビットを複数の物理量子ビットを用いて符号化することで達成される。 例えば、2つの量子ビット符号化は$|0\rangle_l=|01\rangle$と$|1\rangle_l=|10\rangle$を識別する。 最終測定中に$|11\rangle$ または $|00\rangle$ が観測されると、エラーが宣言され、その後の分析には実行は含まれない。 簡単なビットフリップ符号化のためのコードワード、状態のエンコード方法、論理的な$U_3$と論理的な$C_x$ゲートを実装する方法、エラーを検出するための記述を提供する。 次に、トランスモンベースのIBM量子コンピュータ上でGreenberger-Horne-Zeilinger回路を実行し、入力空間は$N\in\{2,3,4,5\}$論理量子ビット、$Q\in\{1,2,3,4,5\}$論理量子ビットである。 その結果、$q=1$とエラー検出の有無を比較し、$q\in\{2,3,4\}$で大幅に改善しました。

In this paper, we describe and experimentally demonstrate an error detection scheme that does not employ ancilla qubits or mid-circuit measurements. This is achieved by expanding the Hilbert space where a single logical qubit is encoded using several physical qubits. For example, one possible two qubit encoding identifies $|0\rangle_L=|01\rangle$ and $|1\rangle_L=|10\rangle$. If during the final measurement a $|11\rangle$ or $|00\rangle$ is observed an error is declared and the run is not included in subsequent analysis. We provide codewords for a simple bit-flip encoding, a way to encode the states, a way to implement logical $U_3$ and logical $C_x$ gates, and a description of which errors can be detected. We then run Greenberger-Horne-Zeilinger circuits on the transmon based IBM quantum computers, with an input space of $N\in\{2,3,4,5\}$ logical qubits and $Q\in\{1,2,3,4,5\}$ physical qubits per logical qubit. The results are compared relative to $Q=1$ with and without error detection and we find a significant improvement for $Q\in\{2,3,4\}$.
翻訳日:2023-02-15 22:33:24 公開日:2022-04-23
# 黒体放射における双極子:運動量ゆらぎ、デコヒーレンス、抗力

Dipoles in blackbody radiation: Momentum fluctuations, decoherence, and drag force ( http://arxiv.org/abs/2204.11113v1 )

ライセンス: Link先を確認
Kanu Sinha and Peter W. Milonni(参考訳) ブラックボディ放射における小偏光粒子の運動量拡散定数に対して一般式が導出され、熱環境における粒子の長波長衝突非干渉率と密接な関係があることが示されている。 この拡散定数が、黒体放射によって引き起こされる2つの双極子の定常光子放出速度にどのように現れるかを示す。 さらに、黒体場を移動する小さな偏光性粒子上でのアインシュタイン-ホップの抗力について考察し、ローレンツの力変換から完全に相対論的形式を導出する。

A general expression is derived for the momentum diffusion constant of a small polarizable particle in blackbody radiation, and is shown to be closely related to the long-wavelength collisional decoherence rate for such a particle in a thermal environment. We show how this diffusion constant appears in the steady-state photon emission rate of two dipoles induced by blackbody radiation. We consider in addition the Einstein--Hopf drag force on a small polarizable particle moving in a blackbody field, and derive its fully relativistic form from the Lorentz transformation of forces.
翻訳日:2023-02-15 22:32:58 公開日:2022-04-23
# 相対論的ベクトルボソン系のベル型不等式

Bell-type inequalities for systems of relativistic vector bosons ( http://arxiv.org/abs/2204.11063v1 )

ライセンス: Link先を確認
Alan J. Barr, Pawel Caban, Jakub Rembieli\'nski(参考訳) ベクトルボソン対と反ボソン対の系に対するベル型不等式違反の可能性について詳細な解析を行った。 二成分系全体のスカラー状態の一般的な場合を考えると、これらの状態の2つの異なるクラスを特定し、それぞれのスピン測定結果の合同確率を決定する。 我々は,chsh,mermin,cglmpの不等式に対する期待値を計算し,一般化されたchsh不等式がスカラー状態のいずれかに違反するとは考えられないが,merminとcglmpの不等式の場合は状況が異なることを見出した。 さらに、違反の程度は2つの粒子の相対速度に依存する。

We perform a detailed analysis of the possible violation of various Bell-type inequalities for systems of vector boson-antiboson pairs. Considering the general case of an overall scalar state of the bipartite system, we identify two distinct classes of such states, and determine the joint probabilities of spin measurement outcomes for each them. We calculate the expectation values of the CHSH, Mermin and CGLMP inequalities and find that while the generalised CHSH inequality is not expected to be violated for any of the scalar states, in the case of the Mermin and CGLMP inequalities the situation is different -- these inequalities can be violated in certain scalar states while they cannot be violated in others. Moreover, the degree of violation depends on the relative speed of the two particles.
翻訳日:2023-02-15 22:32:18 公開日:2022-04-23
# 2次元ボーム軌道のカオス

Chaos in 2-d Bohmian Trajectories ( http://arxiv.org/abs/2204.11050v1 )

ライセンス: Link先を確認
Athanasios C. Tzemos and George Contopoulos(参考訳) 本稿では,2次元ボヘミア軌道におけるカオス発生の最も一般的なメカニズム,いわゆる 'nodal point-X-point complex' (NPXPC) 機構について概説する。 本発表は,Maple を用いた数値計算に基づいて,カオス発生の詳細と NPXPC 周辺のポテンシャルの形式について,新たな結果が得られた。

We make a short review of the most general mechanism for the generation of chaos in 2-d Bohmian trajectories, the so called `nodal point-X-point complex' (NPXPC) mechanism. The presentation is based on numerical calculations made with Maple and is enriched with new results on the details of the generation of chaos, and the form of the potential around the NPXPC.
翻訳日:2023-02-15 22:32:01 公開日:2022-04-23
# lab: リーダ・アドボケート・ベライバーに基づく最適化アルゴリズム

LAB: A Leader-Advocate-Believer Based Optimization Algorithm ( http://arxiv.org/abs/2204.11049v1 )

ライセンス: Link先を確認
Ruturaj Reddy, Anand J Kulkarni, Ganesh Krishnasamy, Apoorva S Shastri, Amir H. Gandomi(参考訳) 本論文では,工学的およびグローバルな最適化問題に対するリーダ・アドボケート・ビリーバーに基づく最適化アルゴリズム (LAB) と呼ばれる,社会に触発された新しいメタヒューリスティック手法を紹介する。 提案アルゴリズムは、グループ内の個人が同時に改善し、役割(リーダ、アドボケート、ベリバー)を確立しながら示すAIベースの競争行動に着想を得たものである。 他のメタヒューリスティックアルゴリズムを用いて計算時間と関数評価におけるLAB性能をベンチマークする。 ベンチマーク問題に加えて, アブレーブ水ジェット加工, 放電加工, マイクロ加工プロセス, およびチタン合金の最小潤滑環境における旋回パラメータ最適化など, 工学的課題の解決にLABアルゴリズムを適用した。 この結果は、ホタルアルゴリズム、コホート知能のバリエーション、遺伝的アルゴリズム、シミュレートアニーリング、粒子群最適化、マルチコーホート知能といった他のアルゴリズムよりも優れていた。 本研究の結果,LABは関数評価や計算時間の観点から,他のアルゴリズムよりも優れていた。 LABアルゴリズムの顕著な特徴とその制限についても論じている。

This manuscript introduces a new socio-inspired metaheuristic technique referred to as Leader-Advocate-Believer based optimization algorithm (LAB) for engineering and global optimization problems. The proposed algorithm is inspired by the AI-based competitive behaviour exhibited by the individuals in a group while simultaneously improving themselves and establishing a role (Leader, Advocate, Believer). LAB performance in computational time and function evaluations are benchmarked using other metaheuristic algorithms. Besides benchmark problems, the LAB algorithm was applied for solving challenging engineering problems, including abrasive water jet machining, electric discharge machining, micro-machining processes, and process parameter optimization for turning titanium alloy in a minimum quantity lubrication environment. The results were superior to the other algorithms compared such as Firefly Algorithm, Variations of Co-hort Intelligence, Genetic Algorithm, Simulated Annealing, Particle Swarm Optimisation, and Multi-Cohort Intelligence. The results from this study highlighted that the LAB outperforms the other algorithms in terms of function evaluations and computational time. The prominent features of the LAB algorithm along with its limitations are also discussed.
翻訳日:2023-02-15 22:31:54 公開日:2022-04-23
# 量子シミュレータのハイブリッドプログラミングのための簡単な量子状態符号化

Simple Quantum State Encodings for Hybrid Programming of Quantum Simulators ( http://arxiv.org/abs/2204.11042v1 )

ライセンス: Link先を確認
Thomas Gabor, Marian Lingsch Rosenfeld, Claudia Linnhoff-Popien(参考訳) 特にスパース量子状態は、単純な古典的データ構造で効率的に符号化することができる。 量子状態のエンコードに古典データベースを使うことの許容性を示すとともに、よりシンプルで「半量子」回路のみをターゲットとした量子シミュレーションのさらなる最適化を推奨する。

Especially sparse quantum states can be efficiently encoded with simple classical data structures. We show the admissibility of using a classical database to encode quantum states for a few practical examples and argue in favor of further optimizations for quantum simulation targeting simpler, only 'semi-quantum' circuits.
翻訳日:2023-02-15 22:31:35 公開日:2022-04-23
# 二次非拘束二元最適化による任意の目的関数の近似法

How to Approximate any Objective Function via Quadratic Unconstrained Binary Optimization ( http://arxiv.org/abs/2204.11035v1 )

ライセンス: Link先を確認
Thomas Gabor, Marian Lingsch Rosenfeld, Sebastian Feld, Claudia Linnhoff-Popien(参考訳) quadratic unconstrained binary optimization (qubo) は量子コンピュータを用いた最適化の標準フォーマットとなり、量子近似最適化アルゴリズム (qaoa) と量子アニーリング (qa) の両方において用いられるようになった。 ほぼ任意の問題をQUBOに変換する手法のツールキットを提案する。 (i)多項式として近似してから (ii)任意の多項式をquboに変換する。 本稿では,2つの問題(比率削減とロジスティック回帰)に対するアプローチの利用例を示す。

Quadratic unconstrained binary optimization (QUBO) has become the standard format for optimization using quantum computers, i.e., for both the quantum approximate optimization algorithm (QAOA) and quantum annealing (QA). We present a toolkit of methods to transform almost arbitrary problems to QUBO by (i) approximating them as a polynomial and then (ii) translating any polynomial to QUBO. We showcase the usage of our approaches on two example problems (ratio cut and logistic regression).
翻訳日:2023-02-15 22:31:29 公開日:2022-04-23
# オンライン学習におけるメトリクスフリー個人公平性

Metric-Free Individual Fairness in Online Learning ( http://arxiv.org/abs/2002.05474v6 )

ライセンス: Link先を確認
Yahav Bechavod, Christopher Jung, Zhiwei Steven Wu(参考訳) 個人的公正性の制約を考慮に入れたオンライン学習問題について検討し,同様の扱いが求められる。 個人的公正に関する以前の研究とは異なり、個人間の類似度尺度が知られているとは仮定せず、またそのような尺度が特定のパラメトリック形式を取ると仮定する。 代わりに,公平性違反を定量化せずに検出する監査者の存在を活用する。 各ラウンドにおいて、監査人は学習者の決定を精査し、学習者によって不公平に扱われる一対の個人を特定しようとする。 我々のモデルにおけるオンライン分類を標準オンライン分類に還元し、既存のオンライン学習アルゴリズムを活用して、サブ線形後悔と公正違反の数を達成するための一般的な還元フレームワークを提供する。 驚いたことに、データが分布から独立して引き出される確率的な環境では、非常に制限された公正フィードバックの形式にしかアクセスできないにもかかわらず、PACスタイルの公正性と精度の一般化保証(Rothblum and Yona (2018))を確立することができる。 我々のフェアネス一般化は定性的にロスブラムとヨナ [2018] の一様収束境界に一致し、同時に有意義な精度の一般化保証を提供する。 我々の結果はギレンらによるオープンな疑問を解決した。 2018] 基礎となる類似度尺度の強いパラメトリック形式を仮定しなくても,未知の個別公平性制約下でのオンライン学習が可能となることを示した。

We study an online learning problem subject to the constraint of individual fairness, which requires that similar individuals are treated similarly. Unlike prior work on individual fairness, we do not assume the similarity measure among individuals is known, nor do we assume that such measure takes a certain parametric form. Instead, we leverage the existence of an auditor who detects fairness violations without enunciating the quantitative measure. In each round, the auditor examines the learner's decisions and attempts to identify a pair of individuals that are treated unfairly by the learner. We provide a general reduction framework that reduces online classification in our model to standard online classification, which allows us to leverage existing online learning algorithms to achieve sub-linear regret and number of fairness violations. Surprisingly, in the stochastic setting where the data are drawn independently from a distribution, we are also able to establish PAC-style fairness and accuracy generalization guarantees (Rothblum and Yona [2018]), despite only having access to a very restricted form of fairness feedback. Our fairness generalization bound qualitatively matches the uniform convergence bound of Rothblum and Yona [2018], while also providing a meaningful accuracy generalization guarantee. Our results resolve an open question by Gillen et al. [2018] by showing that online learning under an unknown individual fairness constraint is possible even without assuming a strong parametric form of the underlying similarity measure.
翻訳日:2023-01-01 09:53:24 公開日:2022-04-23
# ディープハッシュ法に関する調査研究

A Survey on Deep Hashing Methods ( http://arxiv.org/abs/2003.03369v5 )

ライセンス: Link先を確認
Xiao Luo, Haixin Wang, Daqing Wu, Chong Chen, Minghua Deng, Jianqiang Huang, Xian-Sheng Hua(参考訳) 最寄りの探索は,データベースからクエリまでの距離が最小であり,コンピュータビジョンやデータマイニングなど,さまざまな分野の基本課題であるデータベース内のサンプルを取得することを目的としている。 ハッシュは計算と記憶の効率性において最も広く使われている手法の1つである。 ディープラーニングの発展により、ディープハッシュ法は従来の方法よりも多くの利点を示す。 本研究では,教師なしハッシュや教師なしハッシュを含む現在のディープハッシュアルゴリズムについて詳細に検討する。 具体的には,教師付きハッシュ法をペアワイズ法,ランキングベース法,ポイントワイズ法,量子化法に分類し,学習したハッシュコードの類似度を測定する。 さらに, 深い教師なしハッシュは, 類似度再構築に基づく手法, 擬似ラベルに基づく手法, 意味学習に基づく予測自由な自己教師あり学習に基づく手法に分類される。 また,半教師付きディープハッシュ,ドメイン適応型ディープハッシュ,マルチモーダルディープハッシュの3つの重要なトピックを紹介する。 一方、一般に使用される公開データセットと、ディープハッシュアルゴリズムのパフォーマンスを測定するスキームを提示する。 最後に,研究の方向性について考察する。

Nearest neighbor search aims to obtain the samples in the database with the smallest distances from them to the queries, which is a basic task in a range of fields, including computer vision and data mining. Hashing is one of the most widely used methods for its computational and storage efficiency. With the development of deep learning, deep hashing methods show more advantages than traditional methods. In this survey, we detailedly investigate current deep hashing algorithms including deep supervised hashing and deep unsupervised hashing. Specifically, we categorize deep supervised hashing methods into pairwise methods, ranking-based methods, pointwise methods as well as quantization according to how measuring the similarities of the learned hash codes. Moreover, deep unsupervised hashing is categorized into similarity reconstruction-based methods, pseudo-label-based methods and prediction-free self-supervised learning-based methods based on their semantic learning manners. We also introduce three related important topics including semi-supervised deep hashing, domain adaption deep hashing and multi-modal deep hashing. Meanwhile, we present some commonly used public datasets and the scheme to measure the performance of deep hashing algorithms. Finally, we discuss some potential research directions in conclusion.
翻訳日:2022-12-26 13:16:20 公開日:2022-04-23
# 点過程励起のための計量空間

A Metric Space for Point Process Excitations ( http://arxiv.org/abs/2005.02515v4 )

ライセンス: Link先を確認
Myrl G. Marmarelis, Greg Ver Steeg, Aram Galstyan(参考訳) 多変量ホークス過程は、イベントタイプ間のペアワイズ相互作用を特徴付ける非対称共分散構造のように振る舞うトリガー行列による自己および相互励起を可能にする。 すべての相互作用のフルランク推定は経験的な設定では不可能であることが多い。 時空間的応用を専門とするモデルは、空間的局所性を利用してこの障害を緩和し、実ユークリッド空間における時間と相対距離の分離にのみ依存する。 ここでは、このフレームワークを任意の多変量ホークスプロセスに一般化し、任意のイベントタイプを隠れた距離空間に埋め込むための容器として利用する。 具体的には,多変量点過程における事象励起間の隠れ幾何を明らかにするためのHHGモデルを提案する。 埋め込みの低次元は推論された相互作用の構造を定式化する。 多数の推定器を開発し、いくつかの実験を行うことでモデルを検証する。 特に,韓国の初期記録と最近のロサンゼルスで確認された症例の地域感染症の動態について検討した。 また,短いレコードの合成実験やオプションマーケットの探索,エボラ出血熱の流行などにより,幅広いアプリケーションにおける健全な相互作用を明らかにするポイントプロセスとともに埋め込みを学習することが実証された。

A multivariate Hawkes process enables self- and cross-excitations through a triggering matrix that behaves like an asymmetrical covariance structure, characterizing pairwise interactions between the event types. Full-rank estimation of all interactions is often infeasible in empirical settings. Models that specialize on a spatiotemporal application alleviate this obstacle by exploiting spatial locality, allowing the dyadic relationships between events to depend only on separation in time and relative distances in real Euclidean space. Here we generalize this framework to any multivariate Hawkes process, and harness it as a vessel for embedding arbitrary event types in a hidden metric space. Specifically, we propose a Hidden Hawkes Geometry (HHG) model to uncover the hidden geometry between event excitations in a multivariate point process. The low dimensionality of the embedding regularizes the structure of the inferred interactions. We develop a number of estimators and validate the model by conducting several experiments. In particular, we investigate regional infectivity dynamics of COVID-19 in an early South Korean record and recent Los Angeles confirmed cases. By additionally performing synthetic experiments on short records as well as explorations into options markets and the Ebola epidemic, we demonstrate that learning the embedding alongside a point process uncovers salient interactions in a broad range of applications.
翻訳日:2022-12-06 13:31:10 公開日:2022-04-23
# ファッションキャプション:意味的報酬による正確な説明の生成に向けて

Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards ( http://arxiv.org/abs/2008.02693v2 )

ライセンス: Link先を確認
Xuewen Yang, Heming Zhang, Di Jin, Yingru Liu, Chi-Hao Wu, Jianchao Tan, Dongliang Xie, Jue Wang, Xin Wang(参考訳) オンラインファッションアイテムの正確な説明を生成することは、顧客のショッピング体験の向上だけでなく、オンライン販売の増加にも重要である。 商品の属性を正しく提示する必要性に加えて、エンチャンティングスタイルの表現は顧客の興味を惹きつける可能性がある。 本研究の目的は,正確かつ表現豊かなファッションキャプションのための新しい学習フレームワークの開発である。 画像キャプションに関する一般的な作品とは異なり、ファッションアイテムの豊富な属性を識別し記述することは困難である。 まず属性を識別し,属性レベルの意味的報酬(ALS)と文レベルの意味的報酬(SLS)をメトリクスとして導入し,テキスト記述の質を向上させる。 さらに、我々のモデルのトレーニングを、最大推定(MLE)、属性埋め込み、強化学習(RL)と統合する。 学習を容易にするために,993k画像と130k対応の多様な記述を含む新しいファッションキャプションデータセット(facad)を構築した。 FACAD実験により,本モデルの有効性が示された。

Generating accurate descriptions for online fashion items is important not only for enhancing customers' shopping experiences, but also for the increase of online sales. Besides the need of correctly presenting the attributes of items, the expressions in an enchanting style could better attract customer interests. The goal of this work is to develop a novel learning framework for accurate and expressive fashion captioning. Different from popular work on image captioning, it is hard to identify and describe the rich attributes of fashion items. We seed the description of an item by first identifying its attributes, and introduce attribute-level semantic (ALS) reward and sentence-level semantic (SLS) reward as metrics to improve the quality of text descriptions. We further integrate the training of our model with maximum likelihood estimation (MLE), attribute embedding, and Reinforcement Learning (RL). To facilitate the learning, we build a new FAshion CAptioning Dataset (FACAD), which contains 993K images and 130K corresponding enchanting and diverse descriptions. Experiments on FACAD demonstrate the effectiveness of our model.
翻訳日:2022-11-02 07:19:27 公開日:2022-04-23
# 潜伏因子に対するマルチドメインLiNGAMによる因果発見

Causal Discovery with Multi-Domain LiNGAM for Latent Factors ( http://arxiv.org/abs/2009.09176v3 )

ライセンス: Link先を確認
Yan Zeng, Shohei Shimizu, Ruichu Cai, Feng Xie, Michio Yamamoto, Zhifeng Hao(参考訳) 観測データから潜伏因子の因果構造を明らかにすることは特に難しい問題である。 この問題に対するいくつかの取り組みにもかかわらず、既存のメソッドは単一ドメインのデータのみに焦点を当てている。 本稿では,すべての領域において興味のある潜在因子の因果構造が共有される潜在因子(md-lina)に対する多領域線形非ゲージ非巡回モデルを提案し,その同定結果を提供する。 このモデルはマルチドメインデータの因果表現を強化する。 モデル推定のための統合二相アルゴリズムを提案する。 特に,まず潜在因子を同定し,因子負荷行列を推定する。 次に,関心の共有潜在要因間の因果構造を明らかにするために,外部影響間の独立関係と多領域潜在要因と関心の潜在要因間の依存関係の特徴づけに基づくスコア関数を導出する。 提案手法は局所的に一貫した推定方法を提供する。 合成データと実世界のデータの両方における実験結果から,本手法の有効性と頑健性が示された。

Discovering causal structures among latent factors from observed data is a particularly challenging problem. Despite some efforts for this problem, existing methods focus on the single-domain data only. In this paper, we propose Multi-Domain Linear Non-Gaussian Acyclic Models for Latent Factors (MD-LiNA), where the causal structure among latent factors of interest is shared for all domains, and we provide its identification results. The model enriches the causal representation for multi-domain data. We propose an integrated two-phase algorithm to estimate the model. In particular, we first locate the latent factors and estimate the factor loading matrix. Then to uncover the causal structure among shared latent factors of interest, we derive a score function based on the characterization of independence relations between external influences and the dependence relations between multi-domain latent factors and latent factors of interest. We show that the proposed method provides locally consistent estimators. Experimental results on both synthetic and real-world data demonstrate the efficacy and robustness of our approach.
翻訳日:2022-10-16 21:03:15 公開日:2022-04-23
# fsd50k:人間のラベル付き音声イベントのオープンデータセット

FSD50K: An Open Dataset of Human-Labeled Sound Events ( http://arxiv.org/abs/2010.00475v2 )

ライセンス: Link先を確認
Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font, Xavier Serra(参考訳) 既存のサウンドイベント認識のためのデータセット(ser)は、youtubeビデオからの200万以上のトラックに基づいて、500以上のサウンドクラスを包含するaudiosetを除いて、比較的小さくてドメイン固有である。 しかし、audiosetは、事前計算されたオーディオ機能で構成される公式リリースであるため、オープンなデータセットではない。 オリジナルのオーディオトラックのダウンロードは、YouTubeビデオが徐々に消え、使用権が問題になるため、問題になる可能性がある。 代替ベンチマークデータセットを提供するため、sd50kは51k以上の音声クリップを含むオープンデータセットであり、オーディオセットオントロジーから引き出された200クラスを用いて100時間以上の音声を手動でラベル付けしている。 オーディオクリップはCreative Commonsライセンスでライセンスされており、データセットを自由に配布できる(波形を含む)。 本稿では,FSD50K作成プロセスの詳細をFreesoundデータの特徴に合わせて記述する。 音声インフォームドの使用を可能にするための制限と重要な要素について、包括的データセットの特徴付けを含む。 最後に,基本システムを提供するために音響イベント分類実験を行い,freesoundオーディオデータをserに分割する際に考慮すべき主な要因について考察する。 我々の目標は、SER研究のための新しいオープンベンチマークとして、コミュニティが広く採用するデータセットを開発することです。

Most existing datasets for sound event recognition (SER) are relatively small and/or domain-specific, with the exception of AudioSet, based on over 2M tracks from YouTube videos and encompassing over 500 sound classes. However, AudioSet is not an open dataset as its official release consists of pre-computed audio features. Downloading the original audio tracks can be problematic due to YouTube videos gradually disappearing and usage rights issues. To provide an alternative benchmark dataset and thus foster SER research, we introduce FSD50K, an open dataset containing over 51k audio clips totalling over 100h of audio manually labeled using 200 classes drawn from the AudioSet Ontology. The audio clips are licensed under Creative Commons licenses, making the dataset freely distributable (including waveforms). We provide a detailed description of the FSD50K creation process, tailored to the particularities of Freesound data, including challenges encountered and solutions adopted. We include a comprehensive dataset characterization along with discussion of limitations and key factors to allow its audio-informed usage. Finally, we conduct sound event classification experiments to provide baseline systems as well as insight on the main factors to consider when splitting Freesound audio data for SER. Our goal is to develop a dataset to be widely adopted by the community as a new open benchmark for SER research.
翻訳日:2022-10-12 07:43:21 公開日:2022-04-23
# 1ビット比較型勾配推定器

A One-bit, Comparison-Based Gradient Estimator ( http://arxiv.org/abs/2010.02479v3 )

ライセンス: Link先を確認
HanQin Cai, Daniel Mckenzie, Wotao Yin, Zhenliang Zhang(参考訳) 凸関数のゼロ次最適化について検討し,関数評価は利用できないと仮定する。 代わりに、$\textit{comparison oracle}$にしかアクセスできないため、2つのポイントが与えられた$x$と$y$は、どのポイントがより大きな関数値を持つかを示す情報の1ビットを返す。 (x)$または$f (y)$。 勾配を未知の信号として処理することにより,1ビット圧縮センシングのツールを用いて,正規化勾配のロバストで信頼性の高い推定器を構築する方法を示す。 次に、勾配降下法において、この推定器を用いたSCOBOというアルゴリズムを提案する。 $fのとき、 (x)$は、利用可能な低次元構造を持ち、SCOBOはクエリの複雑さの観点から最先端の手法より優れている。 我々の理論的な主張は広範な数値実験によって検証される。

We study zeroth-order optimization for convex functions where we further assume that function evaluations are unavailable. Instead, one only has access to a $\textit{comparison oracle}$, which given two points $x$ and $y$ returns a single bit of information indicating which point has larger function value, $f(x)$ or $f(y)$. By treating the gradient as an unknown signal to be recovered, we show how one can use tools from one-bit compressed sensing to construct a robust and reliable estimator of the normalized gradient. We then propose an algorithm, coined SCOBO, that uses this estimator within a gradient descent scheme. We show that when $f(x)$ has some low dimensional structure that can be exploited, SCOBO outperforms the state-of-the-art in terms of query complexity. Our theoretical claims are verified by extensive numerical experiments.
翻訳日:2022-10-10 06:01:37 公開日:2022-04-23
# (参考訳) 腫瘍微小環境における免疫細胞密度の定量化と腫瘍免疫空間関係の解明のための新しい枠組み

A Novel Framework for Quantification of Immune Cell Density and Characterization of Tumor-Immune Spatial Relationships in Tumor Microenvironment ( http://arxiv.org/abs/2204.12283v1 )

ライセンス: CC BY 4.0
Mahmudul Hasan, Jakub R. Kaczmarzyk, David Paredes, Lyanne Oblein, Jaymie Oentoro, Shahira Abousamra, Michael Horowitz, Dimitris Samaras, Chao Chen, Tahsin Kurc, Kenneth R. Shroyer, Joel Saltz(参考訳) 近くの細胞の組成に対する腫瘍生物学の影響を理解するには、しばしば生物学的に異なる腫瘍領域の影響を特徴づける必要がある。 バイオマーカーは生物学的に異なる腫瘍領域をラベル付けするために開発されたが、空間範囲の違いと異なるラベル付き領域の分布のために課題が生じる。 本稿では,腫瘍境界近傍の細胞に対する異なる腫瘍領域の影響を体系的に調査するための枠組みを提案する。 本フレームワークを膵癌における多発性免疫組織化学(mIHC)研究に適用し,生物学的に異なる腫瘍領域が腫瘍微小環境における免疫応答に与える影響を示す。 さらに,提案するフレームワークは,大規模なスライド画像解析に拡張可能であることを示す。

Understanding the impact of tumor biology on the composition of nearby cells often requires characterizing the impact of biologically distinct tumor regions. Biomarkers have been developed to label biologically distinct tumor regions, but challenges arise because of differences in the spatial extent and distribution of differentially labeled regions. In this work, we present a framework for systematically investigating the impact of distinct tumor regions on cells near the tumor borders, accounting their cross spatial distributions. We apply the framework to multiplex immunohistochemistry (mIHC) studies of pancreatic cancer and show its efficacy in demonstrating how biologically different tumor regions impact the immune response in the tumor microenvironment. Furthermore, we show that the proposed framework can be extended to largescale whole slide image analysis.
翻訳日:2022-04-28 05:27:27 公開日:2022-04-23
# グラフィカルな残留フロー

Graphical Residual Flows ( http://arxiv.org/abs/2204.11846v1 )

ライセンス: Link先を確認
Jacobie Mouton and Steve Kroon(参考訳) グラフィカルフローは、非自明な変数依存をエンコードすることでフローの正規化にさらに構造を追加する。 従来のグラフィカルフローモデルは, 密度推定の正規化方向, 推論の生成方向など, 単一の流れ方向に主眼を置いていた。 しかし、両方の方向でタスクを実行するために単一のフローを使用するには、モデルは安定かつ効率的なフロー反転を示す必要がある。 本研究は,可逆残差ネットワークに基づくグラフィックフローであるグラフィカル残差フローを導入する。 フローに依存性情報を組み込むアプローチは、これらのフローのヤコビ行列を正確に計算できることを意味します。 実験により, 作業性能が類似する他のフローよりも時間効率が高い, 安定かつ高精度なインバージョンが得られた。 さらに,このモデルでは,密度推定と推論タスクの両方において,他のグラフィカルフローと競合する性能を提供する。

Graphical flows add further structure to normalizing flows by encoding non-trivial variable dependencies. Previous graphical flow models have focused primarily on a single flow direction: the normalizing direction for density estimation, or the generative direction for inference. However, to use a single flow to perform tasks in both directions, the model must exhibit stable and efficient flow inversion. This work introduces graphical residual flows, a graphical flow based on invertible residual networks. Our approach to incorporating dependency information in the flow, means that we are able to calculate the Jacobian determinant of these flows exactly. Our experiments confirm that graphical residual flows provide stable and accurate inversion that is also more time-efficient than alternative flows with similar task performance. Furthermore, our model provides performance competitive with other graphical flows for both density estimation and inference tasks.
翻訳日:2022-04-27 13:53:53 公開日:2022-04-23
# ロジスティックELM:転がり軸受の新しい故障診断法

Logistic-ELM: A Novel Fault Diagnosis Method for Rolling Bearings ( http://arxiv.org/abs/2204.11845v1 )

ライセンス: Link先を確認
Zhenhua Tan, Jingyu Ning, Kai Peng, Zhenche Xia, and Danke Wu(参考訳) 転がり軸受の故障診断は, メカニカルコンディショニングの予測保守を実現する重要な手法である。 実産業システムでは, 転がり軸受の故障診断の主な課題は, 精度とリアルタイムの要件である。 既存の手法のほとんどは精度の確保に重点を置いており、リアルタイムの要求はしばしば無視される。 本稿では,両要件を考慮し,extreme learning machine (elm) とlogistic mappingに基づく転がり軸受の高速故障診断法であるlogistic-elmを提案する。 まず, 原振動信号から14種類の時間領域特徴を機械振動原理に従って同定し, その最適特徴を選択できる逐次前方選択(sfs)戦略を適用し, 基本予測精度と効率性を確保する。 次に, 高速断層分類のためのロジスティックELMを提案する。そこでは, ELMのバイアスを省略し, ランダムな入力重みをカオス的ロジスティックマッピングシーケンスに置き換える。 西日本予備大学(cwru)軸受データセンターにおける転がり軸受振動信号データセットについて,広範な実験を行った。 実験の結果,提案手法は予測精度において既存のSOTA比較法よりも優れており,最大精度は7つのサブデータ環境において100%であることがわかった。 関連するコードはhttps://github.com/TAN-OpenLab/logistic-ELMで公開されている。

The fault diagnosis of rolling bearings is a critical technique to realize predictive maintenance for mechanical condition monitoring. In real industrial systems, the main challenges for the fault diagnosis of rolling bearings pertain to the accuracy and real-time requirements. Most existing methods focus on ensuring the accuracy, and the real-time requirement is often neglected. In this paper, considering both requirements, we propose a novel fast fault diagnosis method for rolling bearings, based on extreme learning machine (ELM) and logistic mapping, named logistic-ELM. First, we identify 14 kinds of time-domain features from the original vibration signals according to mechanical vibration principles and adopt the sequential forward selection (SFS) strategy to select optimal features from them to ensure the basic predictive accuracy and efficiency. Next, we propose the logistic-ELM for fast fault classification, where the biases in ELM are omitted and the random input weights are replaced by the chaotic logistic mapping sequence which involves a higher uncorrelation to obtain more accurate results with fewer hidden neurons. We conduct extensive experiments on the rolling bearing vibration signal dataset of the Case Western Reserve University (CWRU) Bearing Data Centre. The experimental results show that the proposed approach outperforms existing SOTA comparison methods in terms of the predictive accuracy, and the highest accuracy is 100% in seven separate sub data environments. The relevant code is publicly available at https://github.com/TAN-OpenLab/logistic-ELM.
翻訳日:2022-04-27 12:40:17 公開日:2022-04-23
# SIReN-VAE:ベイジアンネットワークのレバレッジフローと記憶推論

SIReN-VAE: Leveraging Flows and Amortized Inference for Bayesian Networks ( http://arxiv.org/abs/2204.11847v1 )

ライセンス: Link先を確認
Jacobie Mouton and Steve Kroon(参考訳) 変分オートエンコーダの初期の研究は、単純な分布を持つ独立潜在変数を仮定した。 エンコーダネットワーク内の流れを正規化することで、潜在変数が非線形に絡み合うことを可能にし、近似後段の分布のよりリッチなクラスを作成し、潜在変数の層を積み重ねることで、生成モデルでより複雑な事前を指定できる。 この研究はベイジアンネットワークによって定義された任意の依存構造をVAEに組み込むことを検討する。 これは、フローの残留ブロックの重み行列を隠蔽することにより、条件独立性を符号化するグラフィカルな残留流れを伴う事前および推論ネットワークを拡張することで達成される。 モデルの性能をいくつかの合成データセットで比較し,データスパース設定においてその可能性を示す。

Initial work on variational autoencoders assumed independent latent variables with simple distributions. Subsequent work has explored incorporating more complex distributions and dependency structures: including normalizing flows in the encoder network allows latent variables to entangle non-linearly, creating a richer class of distributions for the approximate posterior, and stacking layers of latent variables allows more complex priors to be specified for the generative model. This work explores incorporating arbitrary dependency structures, as specified by Bayesian networks, into VAEs. This is achieved by extending both the prior and inference network with graphical residual flows - residual flows that encode conditional independence by masking the weight matrices of the flow's residual blocks. We compare our model's performance on several synthetic datasets and show its potential in data-sparse settings.
翻訳日:2022-04-27 12:37:41 公開日:2022-04-23
# (参考訳) open world compositional zero-shot learningにおける変分グラフ埋め込みの活用について

On Leveraging Variational Graph Embeddings for Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2204.11848v1 )

ライセンス: CC BY 4.0
Muhammad Umer Anwaar, Zhihui Pan, Martin Kleinsteuber(参考訳) 人間は既知の概念の新しい構成を識別し分類することができる。 構成ゼロショット学習(czsl: compositional zero-shot learning)のタスクは、原始概念、すなわち、オブジェクトと状態の合成を学習することである。 本研究では,新規合成の実現可能性,すなわち探索空間を不可避な合成が支配するオープンワールド設定について,事前の知識を仮定しない。 本稿では,プリミティブ概念(ノード)の変動埋め込みとそれらの構成(エッジ)の実現可能性を学ぶための構成的変分グラフオートエンコーダ(cvgae)アプローチを提案する。 このようなモデリングはCVGAEを現実世界のアプリケーションシナリオにスケーラブルにする。 これは計算的に非常に高価なSOTA法であるCGEとは対照的である。 例えば、ベンチマークC-GQAデータセットでは、CGEは3.94 x 10^5ノード、CVGAEは1323ノードしか必要としない。 グラフのマッピングとイメージの埋め込みを共通の埋め込み空間に学習する。 cvgaeはディープメトリック学習アプローチを採用し、投影されたグラフと画像埋め込みの双方向のコントラスト損失を通じて、この分野における類似度メトリックを学習する。 提案手法の有効性を3つのベンチマークデータセットで検証し,CVGAEで学習した表現が合成一般化に適していることを示す。

Humans are able to identify and categorize novel compositions of known concepts. The task in Compositional Zero-Shot learning (CZSL) is to learn composition of primitive concepts, i.e. objects and states, in such a way that even their novel compositions can be zero-shot classified. In this work, we do not assume any prior knowledge on the feasibility of novel compositions i.e.open-world setting, where infeasible compositions dominate the search space. We propose a Compositional Variational Graph Autoencoder (CVGAE) approach for learning the variational embeddings of the primitive concepts (nodes) as well as feasibility of their compositions (via edges). Such modelling makes CVGAE scalable to real-world application scenarios. This is in contrast to SOTA method, CGE, which is computationally very expensive. e.g.for benchmark C-GQA dataset, CGE requires 3.94 x 10^5 nodes, whereas CVGAE requires only 1323 nodes. We learn a mapping of the graph and image embeddings onto a common embedding space. CVGAE adopts a deep metric learning approach and learns a similarity metric in this space via bi-directional contrastive loss between projected graph and image embeddings. We validate the effectiveness of our approach on three benchmark datasets.We also demonstrate via an image retrieval task that the representations learnt by CVGAE are better suited for compositional generalization.
翻訳日:2022-04-27 12:33:42 公開日:2022-04-23
# (参考訳) BARTモデルに対する局所ガウス過程外挿法と因果推論への応用

Local Gaussian process extrapolation for BART models with applications to causal inference ( http://arxiv.org/abs/2204.10963v1 )

ライセンス: CC BY 4.0
Meijiang Wang, Jingyu He, P. Richard Hahn(参考訳) ベイズ加法回帰木(英: bayesian additive regression tree、bart)は、半パラメトリック回帰モデルである。 この成功にもかかわらず、BARTの標準実装は通常、トレーニングデータの範囲外において、不正確な予測と過度に狭い予測間隔を提供する。 本稿では, ガウス過程をBARTの葉ノードに移植し, 観測データの範囲外の点を予測するための新しい外挿法を提案する。 提案手法は,従来のBART実装と最近の予測推論のための頻繁な再サンプリング手法と比較される。 本稿では, 因果推論の難解な問題に新しいアプローチを適用し, 予測空間のいくつかの領域において, 処理単位または未処理単位のみが観測される(両方ではない)。 シミュレーション研究において、新しいアプローチはjackknife+のような一般的な代替品よりも優れた性能を誇っている。

Bayesian additive regression trees (BART) is a semi-parametric regression model offering state-of-the-art performance on out-of-sample prediction. Despite this success, standard implementations of BART typically provide inaccurate prediction and overly narrow prediction intervals at points outside the range of the training data. This paper proposes a novel extrapolation strategy that grafts Gaussian processes to the leaf nodes in BART for predicting points outside the range of the observed data. The new method is compared to standard BART implementations and recent frequentist resampling-based methods for predictive inference. We apply the new approach to a challenging problem from causal inference, wherein for some regions of predictor space, only treated or untreated units are observed (but not both). In simulations studies, the new approach boasts superior performance compared to popular alternatives, such as Jackknife+.
翻訳日:2022-04-27 11:09:23 公開日:2022-04-23
# (参考訳) システムレベルデータを用いた旅行者の経路選択選好の統計的推定

Statistical inference of travelers' route choice preferences with system-level data ( http://arxiv.org/abs/2204.10964v1 )

ライセンス: CC BY 4.0
Pablo Guarda, Sean Qian(参考訳) 従来のネットワークモデルは、シンプルで汎用的なユーティリティ関数に基づいて、すべての原点と終点のペア間の移動挙動をカプセル化する。 通常、実用関数は旅行時間のみで構成され、その係数は記述された嗜好データから得られる推定値に等しくなる。 このモデリング戦略は妥当であるが、個々のレベルのデータの固有のサンプリングバイアスは、ネットワークフローの集約よりもさらに増幅され、不正確なフロー推定につながる可能性がある。 このデータは、労働集約的で費用がかかり、短い期間に限定された調査や旅行日記から収集する必要がある。 これらの制約に対処するため,システムレベルのデータを用いて旅行者の実用機能を推定するために,古典的二段階定式化を拡張した。 我々は,交通数,交通速度,交通事故,社会デマログラフ情報などの属性を用いて,旅行者の実用機能を統計的に推定するために,非線形最小二乗法に基づく手法を定式化した。 最適化問題の数学的性質と擬凸性の解析は、正規化勾配降下の利用を動機付ける。 また,ユーティリティ関数係数の統計特性を検証し,属性選択を行うための仮説テストフレームワークを開発した。 合成データを用いた実験では、係数は一貫して回復され、仮説テストは旅行者の経路選択の決定要因となる属性を特定する信頼できる統計値であることが示されている。 さらに、モンテカルロ実験は、統計的推論が起源-運命行列のノイズや交通量、様々なレベルのセンサカバレッジに頑健であることを示唆している。 この方法論は、新型コロナウイルスの感染拡大前後に収集された、カリフォルニア州フレズノの実際のマルチソースデータを使って、大規模に展開される。

Traditional network models encapsulate travel behavior among all origin-destination pairs based on a simplified and generic utility function. Typically, the utility function consists of travel time solely and its coefficients are equated to estimates obtained from stated preference data. While this modeling strategy is reasonable, the inherent sampling bias in individual-level data may be further amplified over network flow aggregation, leading to inaccurate flow estimates. This data must be collected from surveys or travel diaries, which may be labor intensive, costly and limited to a small time period. To address these limitations, this study extends classical bi-level formulations to estimate travelers' utility functions with multiple attributes using system-level data. We formulate a methodology grounded on non-linear least squares to statistically infer travelers' utility function in the network context using traffic counts, traffic speeds, traffic incidents and sociodemographic information, among other attributes. The analysis of the mathematical properties of the optimization problem and of its pseudo-convexity motivate the use of normalized gradient descent. We also develop a hypothesis test framework to examine statistical properties of the utility function coefficients and to perform attributes selection. Experiments on synthetic data show that the coefficients are consistently recovered and that hypothesis tests are a reliable statistic to identify which attributes are determinants of travelers' route choices. Besides, a series of Monte-Carlo experiments suggest that statistical inference is robust to noise in the Origin-Destination matrix and in the traffic counts, and to various levels of sensor coverage. The methodology is also deployed at a large scale using real-world multi-source data in Fresno, CA collected before and during the COVID-19 outbreak.
翻訳日:2022-04-27 10:27:55 公開日:2022-04-23
# (参考訳) CLIP-Dissect:ディープビジョンネットワークにおけるニューロン表現の自動記述

CLIP-Dissect: Automatic Description of Neuron Representations in Deep Vision Networks ( http://arxiv.org/abs/2204.10965v1 )

ライセンス: CC BY 4.0
Tuomas Oikarinen, Tsui-Wei Weng(参考訳) 本稿では,視覚ネットワーク内の個々の隠れニューロンの機能を自動的に記述する新しい手法であるCLIP-Dissectを提案する。 CLIP-Dissectは、マルチモーダルビジョン/言語モデルの最近の進歩を活用して、既存のツールが成功するために必要なラベル付きデータや人間の例を必要とせずに、内部ニューロンをオープンな概念でラベル付けする。 その結果, クリップディステクトは, 隠れ層ニューロンに対する質的良質な記述だけでなく, 既存の神経細胞の方法よりも正確な説明が得られていることがわかった。 さらに,本手法は非常に柔軟であり,モデル非依存であり,新しい概念を容易に扱えるとともに,将来より優れたマルチモーダルモデルを活用するために拡張することができる。 最後に、CLIP-Dissectは計算効率が良く、数十分で大きな視覚モデル内の全てのニューロンをラベル付けする。

In this paper, we propose CLIP-Dissect, a new technique to automatically describe the function of individual hidden neurons inside vision networks. CLIP-Dissect leverages recent advances in multimodal vision/language models to label internal neurons with open-ended concepts without the need for any labeled data or human examples, which are required for existing tools to succeed. We show that CLIP-Dissect provides more accurate descriptions than existing methods for neurons where the ground-truth is available as well as qualitatively good descriptions for hidden layer neurons. In addition, our method is very flexible: it is model agnostic, can easily handle new concepts and can be extended to take advantage of better multimodal models in the future. Finally CLIP-Dissect is computationally efficient and labels all neurons of a layer in a large vision model in tens of minutes.
翻訳日:2022-04-27 10:23:12 公開日:2022-04-23
# (参考訳) 条件付きランダム林を用いた費用効率の良い個別処理ルールの最適化

An Efficient Approach for Optimizing the Cost-effective Individualized Treatment Rule Using Conditional Random Forest ( http://arxiv.org/abs/2204.10971v1 )

ライセンス: CC BY 4.0
Yizhe Xu, Tom H. Greene, Adam P. Bress, Brandon K. Bellows, Yue Zhang, Zugui Zhang, Paul Kolm, William S.Weintraub, Andrew S. Moran, Jincheng Shen(参考訳) コスト効率(CE)分析による医療政策立案を支援するために、観察研究からの証拠がますます重要になっている。 比較有効性研究と同様に、主観レベルの不均一性を考慮した健康経済評価は、一段階的な治療よりも費用対効果が高い個別化された治療規則(ITR)を生み出す。 したがって、そのようなコスト効率の高いitr(ce-itr)を学習するための統計的ツールを開発することは、潜在的な共起を適切に処理し、試行と観察の両方に応用できる因果推論の枠組みの下で非常に興味深い。 本稿では,net-monetary-benefit (nmb) の概念を用いて,医療給付と関連するコストのトレードオフを評価する。 我々は,CE-ITRを患者の特徴の関数として推定し,医療費を最小化し,医療資源の配分を最適化する。 条件付きランダム・フォレスト・アプローチを用いて,NMBに基づく分類アルゴリズムを用いて最適なCE-ITRを同定する。 提案の性能を評価するためにシミュレーション研究を行う。 SPRINT (Systolic Blood Pressure Intervention Trial) にトップパフォーマンスのアルゴリズムを適用し, カスタマイズした血圧療法のCEゲインについて検討した。

Evidence from observational studies has become increasingly important for supporting healthcare policy making via cost-effectiveness (CE) analyses. Similar as in comparative effectiveness studies, health economic evaluations that consider subject-level heterogeneity produce individualized treatment rules (ITRs) that are often more cost-effective than one-size-fits-all treatment. Thus, it is of great interest to develop statistical tools for learning such a cost-effective ITR (CE-ITR) under the causal inference framework that allows proper handling of potential confounding and can be applied to both trials and observational studies. In this paper, we use the concept of net-monetary-benefit (NMB) to assess the trade-off between health benefits and related costs. We estimate CE-ITR as a function of patients' characteristics that, when implemented, optimizes the allocation of limited healthcare resources by maximizing health gains while minimizing treatment-related costs. We employ the conditional random forest approach and identify the optimal CE-ITR using NMB-based classification algorithms, where two partitioned estimators are proposed for the subject-specific weights to effectively incorporate information from censored individuals. We conduct simulation studies to evaluate the performance of our proposals. We apply our top-performing algorithm to the NIH-funded Systolic Blood Pressure Intervention Trial (SPRINT) to illustrate the CE gains of assigning customized intensive blood pressure therapy.
翻訳日:2022-04-27 10:13:41 公開日:2022-04-23
# (参考訳) GRM: 視覚的位置検索のための勾配整形モジュール

GRM: Gradient Rectification Module for Visual Place Retrieval ( http://arxiv.org/abs/2204.10972v1 )

ライセンス: CC BY 4.0
Boshu Lei, Wenjie Ding, Limeng Qiao, Xi Qiu(参考訳) 視覚的な場所検索は、クエリ画像と似た場所を描写したデータベース内の画像を検索することを目的としている。 しかし、ネットワークで符号化された大域的ディスクリプタは通常低次元の主空間に陥り、検索性能に悪影響を及ぼす。 まず、この現象の原因を解析し、それが記述子の勾配の劣化分布によるものであることを指摘した。 次に、この問題を軽減するため、Gradient Rectification Module(GRM)と呼ばれる新しいモジュールを提案する。 最終プーリング層の後に追加することができる。 この加群は主空間の補空間への勾配を正すことができる。 したがって、ネットワークは全空間でより均一に記述子を生成することを奨励される。 最後に,複数のデータセットについて実験を行い,プロトタイプ学習フレームワークによる分類タスクに一般化する。

Visual place retrieval aims to search images in the database that depict similar places as the query image. However, global descriptors encoded by the network usually fall into a low dimensional principal space, which is harmful to the retrieval performance. We first analyze the cause of this phenomenon, pointing out that it is due to degraded distribution of the gradients of descriptors. Then, a new module called Gradient Rectification Module(GRM) is proposed to alleviate this issue. It can be appended after the final pooling layer. This module can rectify the gradients to the complement space of the principal space. Therefore, the network is encouraged to generate descriptors more uniformly in the whole space. At last, we conduct experiments on multiple datasets and generalize our method to classification task under prototype learning framework.
翻訳日:2022-04-27 09:48:34 公開日:2022-04-23
# (参考訳) 対照的ランダムウォークによる内在的報酬の発見

Discovering Intrinsic Reward with Contrastive Random Walk ( http://arxiv.org/abs/2204.10976v1 )

ライセンス: CC BY 4.0
Zixuan Pan, Zihao Wei, Yidong Huang, Aditya Gupta(参考訳) 本研究の目的は、好奇心の手法としてContrastive Random Walkを用いることにより、最適ポリシーへの迅速な収束を実現することであり、Contrastive Random Walkはニューラルネットワークを用いてランダムウォークの遷移行列を定義することである。 閉じたループで有意義な状態表現を学習する。 対照的なランダムウォークの喪失は、内在的な報酬となり、環境報酬に追加される。 我々の手法は,他の手法と比較して,同じイテレーション内で最も高い報酬を受け取るという意味で,非タブラルスパース報酬シナリオでうまく機能する。 一方、Contrastive Random Walkはより堅牢だ。 環境のランダム初期化によってパフォーマンスが大きく変わることはない。 また,適応的再起動と適切な温度がコントラストランダムウォークの性能に重要であることも確認した。

The aim of this paper is to demonstrate the efficacy of using Contrastive Random Walk as a curiosity method to achieve faster convergence to the optimal policy.Contrastive Random Walk defines the transition matrix of a random walk with the help of neural networks. It learns a meaningful state representation with a closed loop. The loss of Contrastive Random Walk serves as an intrinsic reward and is added to the environment reward. Our method works well in non-tabular sparse reward scenarios, in the sense that our method receives the highest reward within the same iterations compared to other methods. Meanwhile, Contrastive Random Walk is more robust. The performance doesn't change much with different random initialization of environments. We also find that adaptive restart and appropriate temperature are crucial to the performance of Contrastive Random Walk.
翻訳日:2022-04-27 09:47:44 公開日:2022-04-23
# (参考訳) 不完全予測を用いたオンライン組合せ最適化

Smoothed Online Combinatorial Optimization Using Imperfect Predictions ( http://arxiv.org/abs/2204.10979v1 )

ライセンス: CC BY 4.0
Kai Wang, Zhao Song, Georgios Theocharous, Sridhar Mahadevan(参考訳) Smoothed Online combinatorial Optimization(英語版)は、未知の変動コスト関数を最小化する組合せ決定を繰り返し選択する学習者が連続ラウンドでの切り替え決定にペナルティを課す。 本研究では,不完全な予測モデルが存在する場合のオンライン組合せ最適化問題を円滑に検討し,不確実性のある将来のコスト関数を予測する。 有限時間地平線計画に予測を用いることで, 全体の予測不確かさと追加の切り替えコストに依存する後悔につながることを示す。 この観察は、不確実性と切り替えコストのバランスをとるのに適したプランニングウィンドウを選択することを示唆し、累積的後悔の上下境界を保証したオンラインアルゴリズムに繋がる。 最後に,計画問題をほぼリアルタイムで解くための反復アルゴリズムを提案する。 提案アルゴリズムは, オンライン分散ストリーミング問題における他のベースラインと比較して, 累積的後悔を著しく改善したことを示す。

Smoothed online combinatorial optimization considers a learner who repeatedly chooses a combinatorial decision to minimize an unknown changing cost function with a penalty on switching decisions in consecutive rounds. We study smoothed online combinatorial optimization problems when an imperfect predictive model is available, where the model can forecast the future cost functions with uncertainty. We show that using predictions to plan for a finite time horizon leads to regret dependent on the total predictive uncertainty and an additional switching cost. This observation suggests choosing a suitable planning window to balance between uncertainty and switching cost, which leads to an online algorithm with guarantees on the upper and lower bounds of the cumulative regret. Lastly, we provide an iterative algorithm to approximately solve the planning problem in real-time. Empirically, our algorithm shows a significant improvement in cumulative regret compared to other baselines in synthetic online distributed streaming problems.
翻訳日:2022-04-27 09:39:21 公開日:2022-04-23
# (参考訳) タスク指向対話システムのための対話意味表現

Dialogue Meaning Representation for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2204.10989v1 )

ライセンス: CC BY 4.0
Xiangkun Hu, Junqi Dai, Hang Yan, Yi Zhang, Qipeng Guo, Xipeng Qiu, Zheng Zhang(参考訳) 対話の意味は、自然言語の発話の意味を明示的かつ機械可読な形式で表現する。 従来の作業は通常、複雑な言語表現のスケーラビリティに制限があるアノテーションにとって容易なインテントスロットフレームワークに従っています。 一連の著作は階層構造を導入することで表現問題を緩和するが、否定や共参照のような複雑な構成意味論の表現に挑戦する。 タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。 私たちの表現は、合成意味論とタスク固有の概念のリッチセマンティクスを表現するために、継承階層を持つノードとエッジのセットを含んでいます。 我々は,DMRを用いて,70k以上の発話を持つマルチターン対話データセットであるDMR-FastFoodを注釈付けした。 異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。 実験により、DMRは事前訓練されたSeq2Seqモデルとうまく解析できることが示され、GNNCorefはベースラインモデルよりも大きなマージンで優れていた。

Dialogue meaning representation formulates natural language utterance semantics in their conversational context in an explicit and machine-readable form. Previous work typically follows the intent-slot framework, which is easy for annotation yet limited on scalability for complex linguistic expressions. A line of works alleviates the representation issue by introducing hierarchical structures but challenging to express complex compositional semantics, such as negation and coreference. We propose Dialogue Meaning Representation (DMR), a flexible and easily extendable representation for task-oriented dialogue. Our representation contains a set of nodes and edges with inheritance hierarchy to represent rich semantics for compositional semantics and task-specific concepts. We annotated DMR-FastFood, a multi-turn dialogue dataset with more than 70k utterances, with DMR. We propose two evaluation tasks to evaluate different machine learning based dialogue models, and further propose a novel coreference resolution model GNNCoref for the graph-based coreference resolution task. Experiments show that DMR can be parsed well with pretrained Seq2Seq model, and GNNCoref outperforms the baseline models by a large margin.
翻訳日:2022-04-27 09:17:50 公開日:2022-04-23
# (参考訳) STC-IDS:知的連系車両の時空間相関解析に基づく侵入検知システム

STC-IDS: Spatial-Temporal Correlation Feature Analyzing based Intrusion Detection System for Intelligent Connected Vehicles ( http://arxiv.org/abs/2204.10990v1 )

ライセンス: CC BY 4.0
Mu Han, Pengzhou Cheng, and Fengwei Zhang(参考訳) 侵入検知は自動車通信の安全にとって重要な防御手段である。 正確なフレーム検出モデルは、車両が悪意のある攻撃を避けるのを助ける。 攻撃方法に関する不確実性と多様性は、この課題を難しくする。 しかし、既存の研究は、局所的な特徴やマルチフィーチャーの弱い特徴マッピングのみを考慮するという制限がある。 これらの制約に対処するために,車内通信トラフィック(STC-IDS)の時空間相関特性を用いた自動車侵入検出の新しいモデルを提案する。 具体的には,符号化検出アーキテクチャを利用する。 エンコーダ部は、空間的および時間的関係を同時に符号化する。 特徴間の関係を強化するために、注意ベースの畳み込みネットワークは、空間的特徴とチャネル的特徴を捕捉し、受容野を増加させる一方、注意-LSTMは以前の時系列や重要なバイトから重要な関係を構築する。 符号化された情報は検出器に渡され、力強い空間-時間的注意特徴を生成し、異常分類を可能にする。 特に、シングルフレームモデルとマルチフレームモデルはそれぞれ異なる利点を示すために構築される。 ベイズ最適化に基づく自動ハイパーパラメータ選択では、最適性能を得るためにモデルを訓練する。 実世界の車両攻撃データセットに基づく大規模な実証研究により、STC-IDSはベースライン法よりも優れており、ケーブルは効率を保ちながら偽陽性率が少ないことが示されている。

Intrusion detection is an important defensive measure for the security of automotive communications. Accurate frame detection models assist vehicles to avoid malicious attacks. Uncertainty and diversity regarding attack methods make this task challenging. However, the existing works have the limitation of only considering local features or the weak feature mapping of multi-features. To address these limitations, we present a novel model for automotive intrusion detection by spatial-temporal correlation features of in-vehicle communication traffic (STC-IDS). Specifically, the proposed model exploits an encoding-detection architecture. In the encoder part, spatial and temporal relations are encoded simultaneously. To strengthen the relationship between features, the attention-based convolution network still captures spatial and channel features to increase the receptive field, while attention-LSTM build important relationships from previous time series or crucial bytes. The encoded information is then passed to the detector for generating forceful spatial-temporal attention features and enabling anomaly classification. In particular, single-frame and multi-frame models are constructed to present different advantages respectively. Under automatic hyper-parameter selection based on Bayesian optimization, the model is trained to attain the best performance. Extensive empirical studies based on a real-world vehicle attack dataset demonstrate that STC-IDS has outperformed baseline methods and cables fewer false-positive rates while maintaining efficiency.
翻訳日:2022-04-27 08:59:48 公開日:2022-04-23
# (参考訳) 周波数注意インフォームドグラフ畳み込みネットワークを用いた脳性麻痺の予測

Cerebral Palsy Prediction with Frequency Attention Informed Graph Convolutional Networks ( http://arxiv.org/abs/2204.10997v1 )

ライセンス: CC BY 4.0
Haozheng Zhang, Hubert P. H. Shum and Edmond S. L. Ho(参考訳) 早期診断と介入は脳性麻痺 (cp) の治療の最重要部分と考えられているため, 効率的かつ解釈可能なcpの自動予測システムの設計が不可欠である。 cp児のヒト運動頻度と健常群との有意差を強調し, 予測性能の向上に寄与した。 しかし,既存の深層学習に基づく手法では,CP予測に幼児の動きの周波数情報を使用しなかった。 本稿では,周波数注意インフォームドグラフ畳み込みネットワークを提案し,消費者級rgbビデオデータセットであるmini-rgbdとrvi-38を用いて検証を行う。 提案する周波数アテンションモジュールは,分類性能とシステム解釈性の両方を改善する。 さらに、ノイズをフィルタリングしながら人間の関節位置データの臨界周波数を保持する周波数結合法を設計する。 我々の予測性能は、両方のデータセットに関する最先端の研究を実現する。 本研究は,cpの非侵襲的予測支援における周波数情報の有効性を示し,臨床資源が乏しい地域においてcpの早期診断を支援する手段を提供する。

Early diagnosis and intervention are clinically considered the paramount part of treating cerebral palsy (CP), so it is essential to design an efficient and interpretable automatic prediction system for CP. We highlight a significant difference between CP infants' frequency of human movement and that of the healthy group, which improves prediction performance. However, the existing deep learning-based methods did not use the frequency information of infants' movement for CP prediction. This paper proposes a frequency attention informed graph convolutional network and validates it on two consumer-grade RGB video datasets, namely MINI-RGBD and RVI-38 datasets. Our proposed frequency attention module aids in improving both classification performance and system interpretability. In addition, we design a frequency-binning method that retains the critical frequency of the human joint position data while filtering the noise. Our prediction performance achieves state-of-the-art research on both datasets. Our work demonstrates the effectiveness of frequency information in supporting the prediction of CP non-intrusively and provides a way for supporting the early diagnosis of CP in the resource-limited regions where the clinical resources are not abundant.
翻訳日:2022-04-27 08:28:56 公開日:2022-04-23
# (参考訳) テキスト誘導ファッション画像検索のための訓練と挑戦モデル

Training and challenging models for text-guided fashion image retrieval ( http://arxiv.org/abs/2204.11004v1 )

ライセンス: CC BY 4.0
Eric Dodds, Jack Culpepper, Gaurav Srivastava(参考訳) クエリ画像と修正キャプションを併用したカタログから関連する画像を取得することは、特にアパレルショッピングのようなドメインに利益をもたらす、困難なマルチモーダルタスクである。 既存のfashion iq (fiq) データセットで最先端のパフォーマンスを実現するモデリング手法とともに,新たな評価データセットである challenge fashion query (cfq) を導入する。 cfqは、字幕の正確さと条件付き画像の類似性を肯定的および否定的ラベルの相対的な字幕を含むことで、既存のベンチマークを補完する。 本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。 従来のモーダリティ融合機構はマルチモーダル事前訓練の利点を損なうが,性能向上のための残留注意融合機構を導入する。 私たちはcfqとコードを研究コミュニティにリリースします。

Retrieving relevant images from a catalog based on a query image together with a modifying caption is a challenging multimodal task that can particularly benefit domains like apparel shopping, where fine details and subtle variations may be best expressed through natural language. We introduce a new evaluation dataset, Challenging Fashion Queries (CFQ), as well as a modeling approach that achieves state-of-the-art performance on the existing Fashion IQ (FIQ) dataset. CFQ complements existing benchmarks by including relative captions with positive and negative labels of caption accuracy and conditional image similarity, where others provided only positive labels with a combined meaning. We demonstrate the importance of multimodal pretraining for the task and show that domain-specific weak supervision based on attribute labels can augment generic large-scale pretraining. While previous modality fusion mechanisms lose the benefits of multimodal pretraining, we introduce a residual attention fusion mechanism that improves performance. We release CFQ and our code to the research community.
翻訳日:2022-04-27 08:14:24 公開日:2022-04-23
# (参考訳) 動的多重グラフ注意による長期時空間予測

Long-term Spatio-temporal Forecasting via Dynamic Multiple-Graph Attention ( http://arxiv.org/abs/2204.11008v1 )

ライセンス: CC BY 4.0
Wei Shao, Zhiling Jin, Shuo Wang, Yufan Kang, Xiao Xiao, Hamid Menouar, Zhaofeng Zhang, Junshan Zhang, Flora Salim(参考訳) 駐車勧告や大気汚染監視などの現実のユビキタスアプリケーションの多くは、正確な長期時空間予測(LSTF)の恩恵を受けている。 LSTFは、空間的領域と時間的領域、文脈的情報、データ固有のパターン間の長期的な依存関係を利用する。 近年,マルチグラフニューラルネットワーク(mgnn)の予測性能向上の可能性が明らかにされている。 しかし, 従来のMGNN法は, 一般性の低いレベル, 文脈情報の不十分な利用, 不均衡グラフ融合アプローチといった問題により, LSTFに直接適用できない。 これらの問題に対処するため,各ノードのコンテキスト情報と長期時空間データ依存構造を表現するグラフモデルを構築した。 複数のグラフにまたがって情報を融合するために,グラフ内のノードとグラフ間のノードの相関を空間的注意とグラフ注意機構を介して特徴付ける,動的多グラフ融合モジュールを提案する。 さらに、異なるグラフにおける各ノードの重要性を示すトレーニング可能な重みテンソルを導入する。 2つの大規模データセットに対する大規模な実験により、LSTF予測タスクにおける既存のグラフニューラルネットワークモデルの性能が大幅に向上することを示した。

Many real-world ubiquitous applications, such as parking recommendations and air pollution monitoring, benefit significantly from accurate long-term spatio-temporal forecasting (LSTF). LSTF makes use of long-term dependency between spatial and temporal domains, contextual information, and inherent pattern in the data. Recent studies have revealed the potential of multi-graph neural networks (MGNNs) to improve prediction performance. However, existing MGNN methods cannot be directly applied to LSTF due to several issues: the low level of generality, insufficient use of contextual information, and the imbalanced graph fusion approach. To address these issues, we construct new graph models to represent the contextual information of each node and the long-term spatio-temporal data dependency structure. To fuse the information across multiple graphs, we propose a new dynamic multi-graph fusion module to characterize the correlations of nodes within a graph and the nodes across graphs via the spatial attention and graph attention mechanisms. Furthermore, we introduce a trainable weight tensor to indicate the importance of each node in different graphs. Extensive experiments on two large-scale datasets demonstrate that our proposed approaches significantly improve the performance of existing graph neural network models in LSTF prediction tasks.
翻訳日:2022-04-27 07:51:46 公開日:2022-04-23
# (参考訳) 非iidデータセットに対するフェデレーション幾何モンテカルロクラスタリング

Federated Geometric Monte Carlo Clustering to Counter Non-IID Datasets ( http://arxiv.org/abs/2204.11017v1 )

ライセンス: CC BY 4.0
Federico Lucchetti, J\'er\'emie Decouchant, Maria Fernandes, Lydia Y. Chen, Marcus V\"olp(参考訳) フェデレーション学習は、異なる場所で取得され、サイズや規則のために交換できないデータセット上で、クライアントが協調的にモデルをトレーニングすることを可能にする。 このような収集データはますます非独立的かつ非識別的に分散され(非iid)、トレーニング精度に悪影響を及ぼす。 これまでの研究では、非IIDデータセットがトレーニング精度に与える影響を軽減しようと試みていたが、実際的なデータセットは非IIDの特徴も含んでいた。 非IIDラベルと機能の両方に対処するため、中央サーバが集約可能なクライアントモデルを集約する新しいフレームワークであるFedGMCCを提案する。 FedGMCCクラスタリングは、クライアントモデルの出力空間をサンプリングし、損失多様体上の重み空間におけるそれらの位置を推測し、アフィン曲線のパラメトリゼーションを通じて幾何学的接続を計算するモンテカルロ法に依存している。 fedgmccは接続されたモデルをパス接続に沿って集約し、よりリッチなグローバルモデルを作り、すべての接続されたクライアントモデルの知識を取り入れます。 FedGMCCはEMNIST62とゲノム配列分類データセット(+63%)の収束率でFedAvgとFedProxを上回っている。 FedGMCCは、高い非IID特徴空間設定とラベルの不整合において、CFLに対するゲノムデータセットの精度(+4%)が向上する。

Federated learning allows clients to collaboratively train models on datasets that are acquired in different locations and that cannot be exchanged because of their size or regulations. Such collected data is increasingly non-independent and non-identically distributed (non-IID), negatively affecting training accuracy. Previous works tried to mitigate the effects of non-IID datasets on training accuracy, focusing mainly on non-IID labels, however practical datasets often also contain non-IID features. To address both non-IID labels and features, we propose FedGMCC, a novel framework where a central server aggregates client models that it can cluster together. FedGMCC clustering relies on a Monte Carlo procedure that samples the output space of client models, infers their position in the weight space on a loss manifold and computes their geometric connection via an affine curve parametrization. FedGMCC aggregates connected models along their path connectivity to produce a richer global model, incorporating knowledge of all connected client models. FedGMCC outperforms FedAvg and FedProx in terms of convergence rates on the EMNIST62 and a genomic sequence classification datasets (by up to +63%). FedGMCC yields an improved accuracy (+4%) on the genomic dataset with respect to CFL, in high non-IID feature space settings and label incongruency.
翻訳日:2022-04-27 07:40:05 公開日:2022-04-23
# (参考訳) VISTA: 自動小売チェックアウトのためのU-Netと画像カラーフルネスフレームフィルタにより強化された視覚変換器

VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame Filtration for Automatic Retail Checkout ( http://arxiv.org/abs/2204.11024v1 )

ライセンス: CC BY 4.0
Md. Istiak Hossain Shihab, Nazia Tasnim, Hasib Zunair, Labiba Kanij Rupty and Nabeel Mohammed(参考訳) マルチクラスの製品カウントと認識は、自動小売チェックアウトのために画像やビデオから製品アイテムを識別する。 この課題は、商品が重なり合うという現実世界のシナリオ、コンベアベルトの速い動き、スキャンされた商品の全体的な外観における大きな類似性、新しい商品、誤識別アイテムのネガティブな影響により、課題である。 また、トレーニングセットとテストセットとの間には、ドメインバイアスがあり、特に、提供されたトレーニングデータセットは、合成画像と、テストセットビデオは、手やトレイなどの外部オブジェクトからなる。 上記の課題に対処するため,ビデオシーケンスから個々のフレームを分割・分類する手法を提案する。 セグメンテーション方法は、統一された単一製品アイテムとハンドセグメンテーションと、ドメインバイアス問題に対処するエントロピーマスキングからなる。 マルチクラス分類法は視覚変換器(ViT)に基づく。 対象オブジェクトとフレームを識別するために,複数の画像処理手法を用いて,製品項目を持たないフレームを破棄するカスタムメトリックを提案する。 これらすべての機構を組み合わせることで,ai city challenge 2022 track 4のf1スコア0.4545で3位となった。 コードはすぐに手に入る

Multi-class product counting and recognition identifies product items from images or videos for automated retail checkout. The task is challenging due to the real-world scenario of occlusions where product items overlap, fast movement in the conveyor belt, large similarity in overall appearance of the items being scanned, novel products, and the negative impact of misidentifying items. Further, there is a domain bias between training and test sets, specifically, the provided training dataset consists of synthetic images and the test set videos consist of foreign objects such as hands and tray. To address these aforementioned issues, we propose to segment and classify individual frames from a video sequence. The segmentation method consists of a unified single product item- and hand-segmentation followed by entropy masking to address the domain bias problem. The multi-class classification method is based on Vision Transformers (ViT). To identify the frames with target objects, we utilize several image processing methods and propose a custom metric to discard frames not having any product items. Combining all these mechanisms, our best system achieves 3rd place in the AI City Challenge 2022 Track 4 with an F1 score of 0.4545. Code will be available at
翻訳日:2022-04-27 07:21:33 公開日:2022-04-23
# (参考訳) ソフトウェア工学における産学連携:certusモデル

Industry-Academia Research Collaboration in Software Engineering: The Certus Model ( http://arxiv.org/abs/2204.11039v1 )

ライセンス: CC BY-SA 4.0
Dusica Marijan, Arnaud Gotlieb(参考訳) コンテキスト: ソフトウェアエンジニアリング産業とアカデミックの間の研究コラボレーションは、業界におけるイノベーション能力の改善や、研究アイデアのモチベーションと検証のための現実世界環境など、双方に大きなメリットをもたらします。 しかし、ソフトウェア工学におけるスケーラブルで効果的な研究コラボレーションの構築は難しいことが知られている。 このような課題は多岐にわたるが,本稿では,産学の積極的対話と共同問題解決への継続的なコミットメントが支える参加型知識創造の課題に焦点をあてる。 目的:本稿は,参加型知識創造の文化を実現する産学連携の成功の要素について理解することを目的とする。 方法:我々は,ソフトウェアv&vに関するソフトウェア工学研究グループとノルウェーのit部門による8年間の共同研究にまたがる質的データ収集を行った。 収集したデータは分析され、Certus Modelと呼ばれる実用的なコラボレーションモデルに合成された。 結果: モデルは7段階に構成され, 研究プロジェクトの構築から研究成果の活用までの活動を記述する。 このように、セルトゥスモデルは、参加型研究知識創造のライフサイクル全体をカバーする異なるフェーズを記述し、文学から他のコラボレーションモデルを発展させる。 結論:certusモデルは、ソフトウェア工学の研究者と実践者の間の研究コラボレーションプロセスの要素を記述し、研究知識の共創と共同問題解決への継続的なコミットメントの原則に基づく。 モデルは、実験を通じて局所的なコンテキストに適応できる他のコンテキストに適用およびテストすることができる。

Context: Research collaborations between software engineering industry and academia can provide significant benefits to both sides, including improved innovation capacity for industry, and real-world environment for motivating and validating research ideas. However, building scalable and effective research collaborations in software engineering is known to be challenging. While such challenges can be varied and many, in this paper we focus on the challenges of achieving participative knowledge creation supported by active dialog between industry and academia and continuous commitment to joint problem solving. Objective: This paper aims to understand what are the elements of a successful industry-academia collaboration that enable the culture of participative knowledge creation. Method: We conducted participant observation collecting qualitative data spanning 8 years of collaborative research between a software engineering research group on software V&V and the Norwegian IT sector. The collected data was analyzed and synthesized into a practical collaboration model, named the Certus Model. Results: The model is structured in seven phases, describing activities from setting up research projects to the exploitation of research results. As such, the Certus model advances other collaborations models from literature by delineating different phases covering the complete life cycle of participative research knowledge creation. Conclusion: The Certus model describes the elements of a research collaboration process between researchers and practitioners in software engineering, grounded on the principles of research knowledge co-creation and continuous commitment to joint problem solving. The model can be applied and tested in other contexts where it may be adapted to the local context through experimentation.
翻訳日:2022-04-27 07:10:59 公開日:2022-04-23
# (参考訳) 表情認識のための補助行動単位グラフによる不確実なラベル補正

Uncertain Label Correction via Auxiliary Action Unit Graphs for Facial Expression Recognition ( http://arxiv.org/abs/2204.11053v1 )

ライセンス: CC BY 4.0
Yang Liu, Xingming Zhang, Janne Kauttonen, Guoying Zhao(参考訳) 高品質なアノテート画像は、ディープ表情認識(FER)法に重要である。 しかし、大規模な公開データセットに存在する不確実なラベルは、しばしばトレーニングプロセスを誤解させる。 本稿では, ulc-agと呼ばれる補助行動単位(au)グラフを用いて, 表情のラベル補正を実現する。 具体的には、重み付き正規化モジュールを導入し、有効なサンプルを強調し、バッチ毎にカテゴリの不均衡を抑制する。 感情とAU間の潜伏依存性に基づいて、グラフ畳み込み層を用いた補助分岐を加えて、グラフトポロジから意味情報を抽出する。 最後に、再ラベル戦略は、特徴の類似性をセマンティックテンプレートと比較することで曖昧なアノテーションを修正する。 ULC-AGはRAF-DBとAffectNetのデータセットでそれぞれ89.31%と61.57%の精度を達成し、ベースラインと最先端の手法を上回った。

High-quality annotated images are significant to deep facial expression recognition (FER) methods. However, uncertain labels, mostly existing in large-scale public datasets, often mislead the training process. In this paper, we achieve uncertain label correction of facial expressions using auxiliary action unit (AU) graphs, called ULC-AG. Specifically, a weighted regularization module is introduced to highlight valid samples and suppress category imbalance in every batch. Based on the latent dependency between emotions and AUs, an auxiliary branch using graph convolutional layers is added to extract the semantic information from graph topologies. Finally, a re-labeling strategy corrects the ambiguous annotations by comparing their feature similarities with semantic templates. Experiments show that our ULC-AG achieves 89.31% and 61.57% accuracy on RAF-DB and AffectNet datasets, respectively, outperforming the baseline and state-of-the-art methods.
翻訳日:2022-04-27 07:09:33 公開日:2022-04-23
# (参考訳) 変分オートエンコーダを用いた時系列の次元削減

Dimension Reduction for time series with Variational AutoEncoders ( http://arxiv.org/abs/2204.11060v1 )

ライセンス: CC BY 4.0
William Todo and Beatrice Laurent and Jean-Michel Loubes and Merwann Selmani(参考訳) 本研究では,一変量および多変量時系列データの次元削減手法について検討する。 特に,次元減少のためのウェーブレット分解と畳み込み変分オートエンコーダの比較を行う。 変分オートエンコーダはecgのような高次元データの次元を減らすのに良い選択肢であることを示す。 我々はこれらの比較を,多変数のECGデータセットで実世界で公開し,再現誤差を計量として利用する。 次に,これらのモデルの頑健性について,トレーニングや推論といったノイズデータを用いて検討する。 これらのテストは実世界の時系列データに存在する問題を反映することを目的としており、vaeは両方のテストに堅牢であった。

In this work, we explore dimensionality reduction techniques for univariate and multivariate time series data. We especially conduct a comparison between wavelet decomposition and convolutional variational autoencoders for dimension reduction. We show that variational autoencoders are a good option for reducing the dimension of high dimensional data like ECG. We make these comparisons on a real world, publicly available, ECG dataset that has lots of variability and use the reconstruction error as the metric. We then explore the robustness of these models with noisy data whether for training or inference. These tests are intended to reflect the problems that exist in real-world time series data and the VAE was robust to both tests.
翻訳日:2022-04-27 06:55:25 公開日:2022-04-23
# (参考訳) CORE:一貫性表現空間におけるシンプルで効果的なセッションベース勧告

CORE: Simple and Effective Session-based Recommendation within Consistent Representation Space ( http://arxiv.org/abs/2204.11067v1 )

ライセンス: CC BY 4.0
Yupeng Hou, Binbin Hu, Zhiqiang Zhang, Wayne Xin Zhao(参考訳) セッションベースレコメンデーション(sbr)とは、匿名セッション内の短期ユーザ行動に基づいて次の項目を予測するタスクである。 しかしながら、非線形エンコーダによって学習されたセッション埋め込みは通常、アイテム埋め込みと同じ表現空間にはないため、アイテムを推奨しながら一貫性のない予測問題が発生する。 この問題に対処するために,符号化処理と復号処理の両方の表現空間を統一する,COREというシンプルで効果的なフレームワークを提案する。 まず,入力項目の埋め込みをセッション埋め込みとして線形に組み合わせた表現一貫性エンコーダを設計し,セッションとアイテムが同じ表現空間にあることを保証する。 さらに,一貫した表現空間における埋め込みの過度な適合を防止するための頑健な距離測定手法を提案する。 提案手法の有効性と有効性を示す5つの実世界データセットに関する広範な実験を行った。 コードは、https://github.com/RUCAIBox/CORE.comで入手できる。

Session-based Recommendation (SBR) refers to the task of predicting the next item based on short-term user behaviors within an anonymous session. However, session embedding learned by a non-linear encoder is usually not in the same representation space as item embeddings, resulting in the inconsistent prediction issue while recommending items. To address this issue, we propose a simple and effective framework named CORE, which can unify the representation space for both the encoding and decoding processes. Firstly, we design a representation-consistent encoder that takes the linear combination of input item embeddings as session embedding, guaranteeing that sessions and items are in the same representation space. Besides, we propose a robust distance measuring method to prevent overfitting of embeddings in the consistent representation space. Extensive experiments conducted on five public real-world datasets demonstrate the effectiveness and efficiency of the proposed method. The code is available at: https://github.com/RUCAIBox/CORE.
翻訳日:2022-04-27 06:48:18 公開日:2022-04-23
# (参考訳) LitMind Dictionary: オープンソースオンライン辞書

LitMind Dictionary: An Open-Source Online Dictionary ( http://arxiv.org/abs/2204.11087v1 )

ライセンス: CC BY 4.0
Cunliang Kong, Xuezhi Fang, Liner Yang, Yun Chen, Erhong Yang(参考訳) 辞書は、単語の定義を提供することで、言語学習者が語彙を学ぶのに役立つ。 伝統的な辞書は、あらかじめ定義された在庫において単語感覚を個別の項目として提示するため、特定の文脈における単語の特定の意味を提供するのに必要な柔軟性に欠ける。 本稿では、単語を入力として、自動的に定義を出力として生成する、オープンソースのオンライン生成辞書であるlitmind dictionary(https://dictionary.litmind.ink)を紹介する。 最先端の定義生成モデルを採用し、中国語と英語だけでなく、中国語と英語の言語間クエリもサポートする。 さらに、ユーザフレンドリーなフロントエンドデザインで、クエリワードを迅速かつ簡単に理解することができる。 すべてのコードとデータはhttps://github.com/blcuicall/litmind-dictionaryで入手できる。

Dictionaries can help language learners to learn vocabulary by providing definitions of words. Since traditional dictionaries present word senses as discrete items in predefined inventories, they fall short of flexibility, which is required in providing specific meanings of words in particular contexts. In this paper, we introduce the LitMind Dictionary (https://dictionary.litmind.ink), an open-source online generative dictionary that takes a word and context containing the word as input and automatically generates a definition as output. Incorporating state-of-the-art definition generation models, it supports not only Chinese and English, but also Chinese-English cross-lingual queries. Moreover, it has a user-friendly front-end design that can help users understand the query words quickly and easily. All the code and data are available at https://github.com/blcuicall/litmind-dictionary.
翻訳日:2022-04-27 06:37:45 公開日:2022-04-23
# (参考訳) ドメイン適応は、オブジェクト認識を全員に役立てることができるか?

Can domain adaptation make object recognition work for everyone? ( http://arxiv.org/abs/2204.11122v1 )

ライセンス: CC BY 4.0
Viraj Prabhu, Ramprasaath R. Selvaraju, Judy Hoffman, Nikhil Naik(参考訳) 深層認識の急速な進歩にもかかわらず、現代のコンピュータビジョンデータセットは、先進的な世界と、そのようなデータセットで訓練されたモデルが、目に見えない地形の画像で過小評価されている。 本稿では,この性能ギャップを埋める際の非教師なし領域適応(UDA)の有効性について検討する。 そこで我々は、まず既存のデータセットから2つのシフトをキュレートし、地理的DA問題の研究を行い、データ分散シフトを超えた新たな課題を発見する: コンテキストシフト、オブジェクト周囲の空間が地理的に大きく変化する可能性があること、サブポジトリシフト、カテゴリー内分布がシフトする可能性があること、である。 本稿では,地理daにおける標準da手法の非効率性を実証し,対象認識の課題を解決するための地理的適応ソリューションの必要性を浮き彫りにした。

Despite the rapid progress in deep visual recognition, modern computer vision datasets significantly overrepresent the developed world and models trained on such datasets underperform on images from unseen geographies. We investigate the effectiveness of unsupervised domain adaptation (UDA) of such models across geographies at closing this performance gap. To do so, we first curate two shifts from existing datasets to study the Geographical DA problem, and discover new challenges beyond data distribution shift: context shift, wherein object surroundings may change significantly across geographies, and subpopulation shift, wherein the intra-category distributions may shift. We demonstrate the inefficacy of standard DA methods at Geographical DA, highlighting the need for specialized geographical adaptation solutions to address the challenge of making object recognition work for everyone.
翻訳日:2022-04-27 06:27:23 公開日:2022-04-23
# (参考訳) エンドツーエンドの機械学習パイプライン上でのShapleyの重要性によるデータデバッグ

Data Debugging with Shapley Importance over End-to-End Machine Learning Pipelines ( http://arxiv.org/abs/2204.11131v1 )

ライセンス: CC BY 4.0
Bojan Karla\v{s}, David Dao, Matteo Interlandi, Bo Li, Sebastian Schelter, Wentao Wu, Ce Zhang(参考訳) 現代の機械学習(ml)アプリケーションの開発はデータ中心であり、その1つの根本的な課題は、データ品質がmlトレーニングに与える影響を理解することである。 MLトレーニングのためのデータインフルエンスをモデル化することは、この10年間で大きな関心を集めており、トレーニングサンプルのShapley値を、トレーニングされたMLモデルのバリデーションの正確性や公平性といったユーティリティに関して計算することが一般的なフレームワークである。 残念なことに、最近の集中的な関心と研究にもかかわらず、既存の手法では単一のMLモデルのみを"分離"し、データ変換、機能抽出、MLトレーニングで構成されるエンドツーエンドのMLパイプラインを考慮していない。 Ease.ML/DataScopeは、エンドツーエンドのMLパイプライン上でトレーニングサンプルのShapley値を効率的に計算する最初のシステムである。 この目的のために、我々はまず、正のリレーショナル代数クエリに続いてK-nearest-neighbor(KNN)分類器という、MLパイプラインの特定のファミリーに対してShapley値を演算する新しいアルゴリズムフレームワークを開発した。 正準パイプラインの多くのサブファミリにおいて、共有値の計算はPTIMEで行われ、一般に共有値の指数複雑性とは対照的である。 そして、これを実践に当てはめました -- スクラブパイプラインを考えると、プロキシとして使用する標準的なパイプラインと近似します。 さまざまなユースケースやユーティリティを解説した広範な実験を実施します。 その結果、datascopeは最先端のモンテカルロ法よりも最大4桁高速でありながら、データデバッグにおいて相性が良く、より効果的であることが示された。

Developing modern machine learning (ML) applications is data-centric, of which one fundamental challenge is to understand the influence of data quality to ML training -- "Which training examples are 'guilty' in making the trained ML model predictions inaccurate or unfair?" Modeling data influence for ML training has attracted intensive interest over the last decade, and one popular framework is to compute the Shapley value of each training example with respect to utilities such as validation accuracy and fairness of the trained ML model. Unfortunately, despite recent intensive interest and research, existing methods only consider a single ML model "in isolation" and do not consider an end-to-end ML pipeline that consists of data transformations, feature extractors, and ML training. We present Ease.ML/DataScope, the first system that efficiently computes Shapley values of training examples over an end-to-end ML pipeline, and illustrate its applications in data debugging for ML training. To this end, we first develop a novel algorithmic framework that computes Shapley value over a specific family of ML pipelines that we call canonical pipelines: a positive relational algebra query followed by a K-nearest-neighbor (KNN) classifier. We show that, for many subfamilies of canonical pipelines, computing Shapley value is in PTIME, contrasting the exponential complexity of computing Shapley value in general. We then put this to practice -- given an sklearn pipeline, we approximate it with a canonical pipeline to use as a proxy. We conduct extensive experiments illustrating different use cases and utilities. Our results show that DataScope is up to four orders of magnitude faster over state-of-the-art Monte Carlo-based methods, while being comparably, and often even more, effective in data debugging.
翻訳日:2022-04-27 06:26:35 公開日:2022-04-23
# (参考訳) ロボットマニピュレーションのためのゼロショットタスク仕様を基礎モデルで実現できるか?

Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation? ( http://arxiv.org/abs/2204.11134v1 )

ライセンス: CC BY 4.0
Yuchen Cui, Scott Niekum, Abhinav Gupta, Vikash Kumar and Aravind Rajeswaran(参考訳) タスク仕様は自律ロボットのプログラミングの核心にある。 非熟練のエンドユーザの関与とパーソナライズされたロボットエージェントの究極の採用には,タスク仕様に対する低便宜が不可欠である。 タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。 前者は非専門家の解釈が困難であり、詳細な状態推定とシーン理解が必要となる。 後者では目標画像の生成が必要であり、人間がタスクを完了させる必要があり、自律ロボットの目的を破る。 本研究では,インターネットから取得した画像,所望のタスクの視覚的記述を提供する手書きスケッチ,あるいは単純な言語記述など,人間が容易に指定し,使用することができると期待されている,代替的で汎用的な目標仕様の形式について検討する。 これに対する予備的なステップとして,ゼロショット目標仕様のための大規模事前学習モデル(基礎モデル)の能力を調査し,シミュレーションロボット操作タスクと実世界のデータセットから有望な結果を得る。

Task specification is at the core of programming autonomous robots. A low-effort modality for task specification is critical for engagement of non-expert end-users and ultimate adoption of personalized robot agents. A widely studied approach to task specification is through goals, using either compact state vectors or goal images from the same robot scene. The former is hard to interpret for non-experts and necessitates detailed state estimation and scene understanding. The latter requires the generation of desired goal image, which often requires a human to complete the task, defeating the purpose of having autonomous robots. In this work, we explore alternate and more general forms of goal specification that are expected to be easier for humans to specify and use such as images obtained from the internet, hand sketches that provide a visual description of the desired task, or simple language descriptions. As a preliminary step towards this, we investigate the capabilities of large scale pre-trained models (foundation models) for zero-shot goal specification, and find promising results in a collection of simulated robot manipulation tasks and real-world datasets.
翻訳日:2022-04-27 06:24:32 公開日:2022-04-23
# (参考訳) gaborは十分である:gabor合成辞書を先行して解釈可能なディープ・デノイジング

Gabor is Enough: Interpretable Deep Denoising with a Gabor Synthesis Dictionary Prior ( http://arxiv.org/abs/2204.11146v1 )

ライセンス: CC BY-SA 4.0
Nikola Janju\v{s}evi\'c, Amirhossein Khalilian-Gourtani, and Yao Wang(参考訳) 自然言語と人工的な画像処理ニューラルネットワークは、配向選択性を持つ長い歴史を持ち、数学的にはガボルフィルタと呼ばれることが多い。 gaborのようなフィルタはcnn分類器の初期層や低レベルの画像処理ネットワークでも観測されている。 本研究では,自然像のCNNのフィルタを2次元実ガボルフィルタで学習するために,この観察を極端かつ明示的に制限する。 驚くべきことに、提案したネットワーク(GDLNet)は、一般的な完全畳み込みニューラルネットワークにおいて、学習パラメータのごく一部で、最先端の復調性能を達成できる。 さらに、このパラメータ化がベースネットワークのノイズレベルの一般化(トレーニングと推論ミスマッチ)特性を維持し、個々のgaborフィルタパラメータがdenoiserの性能に与える影響についても検証する。 本研究は,ネットワーク層間の学習スケールパラメータの欠如を重要視することで,辞書学習ネットワークのスライスコーディングを高速化することを示す。 我々のネットワークの成功は、低レベル画像処理CNNで使われる表現は、Gaborフィルタバンクと同じくらいシンプルで解釈可能であることを示唆している。

Image processing neural networks, natural and artificial, have a long history with orientation-selectivity, often described mathematically as Gabor filters. Gabor-like filters have been observed in the early layers of CNN classifiers and even throughout low-level image processing networks. In this work, we take this observation to the extreme and explicitly constrain the filters of a natural-image denoising CNN to be learned 2D real Gabor filters. Surprisingly, we find that the proposed network (GDLNet) can achieve near state-of-the-art denoising performance amongst popular fully convolutional neural networks, with only a fraction of the learned parameters. We further verify that this parameterization maintains the noise-level generalization (training vs. inference mismatch) characteristics of the base network, and investigate the contribution of individual Gabor filter parameters to the performance of the denoiser. We present positive findings for the interpretation of dictionary learning networks as performing accelerated sparse-coding via the importance of untied learned scale parameters between network layers. Our network's success suggests that representations used by low-level image processing CNNs can be as simple and interpretable as Gabor filterbanks.
翻訳日:2022-04-27 06:07:58 公開日:2022-04-23
# (参考訳) ランジュバンダイナミクスを用いたスパース符号化モデルの学習と推論

Learning and Inference in Sparse Coding Models with Langevin Dynamics ( http://arxiv.org/abs/2204.11150v1 )

ライセンス: CC BY 4.0
Michael Y.-S. Fang, Mayur Mudigonda, Ryan Zarcone, Amir Khosrowshahi, Bruno A. Olshausen(参考訳) 本稿では確率的潜在変数モデルで推論と学習が可能な確率的動的システムについて述べる。 このようなモデルにおける最も難しい問題 - 潜伏変数の後方分布をサンプリングする - は、電子系や神経系に固有の確率性の自然な源を利用することによって解決される。 ランゲヴィン力学を用いて潜伏変数を推論する連続時間方程式を導出したスパース符号化モデルのこのアイデアを実証する。 モデルパラメータは、別の連続時間方程式に従って同時に進化することによって学習され、デジタルアキュムレータやグローバルクロックの必要性を回避できる。 さらに, ランゲヴィン力学は, L1ノルムが小さいのに対して, 潜伏変数を0に設定することが推奨される'L0スパース'系において, 後部分布からサンプリングする効率的な手順をもたらすことを示す。 これによりモデルは、最適化が容易になるように緩和されたバージョンのスパーシティに頼るのではなく、スパーシティの概念を適切に取り入れることができる。 合成画像と自然画像の両方のデータセット上で提案された力学系のシミュレーションにより、モデルが確率論的に正しい推論が可能であり、辞書の学習とそれ以前のパラメータが可能であることを示す。

We describe a stochastic, dynamical system capable of inference and learning in a probabilistic latent variable model. The most challenging problem in such models - sampling the posterior distribution over latent variables - is proposed to be solved by harnessing natural sources of stochasticity inherent in electronic and neural systems. We demonstrate this idea for a sparse coding model by deriving a continuous-time equation for inferring its latent variables via Langevin dynamics. The model parameters are learned by simultaneously evolving according to another continuous-time equation, thus bypassing the need for digital accumulators or a global clock. Moreover we show that Langevin dynamics lead to an efficient procedure for sampling from the posterior distribution in the 'L0 sparse' regime, where latent variables are encouraged to be set to zero as opposed to having a small L1 norm. This allows the model to properly incorporate the notion of sparsity rather than having to resort to a relaxed version of sparsity to make optimization tractable. Simulations of the proposed dynamical system on both synthetic and natural image datasets demonstrate that the model is capable of probabilistically correct inference, enabling learning of the dictionary as well as parameters of the prior.
翻訳日:2022-04-27 05:57:15 公開日:2022-04-23
# 統合回折フォトニック演算ユニットを用いた全光学グラフ表現学習

All-optical graph representation learning using integrated diffractive photonic computing units ( http://arxiv.org/abs/2204.10978v1 )

ライセンス: Link先を確認
Tao Yan, Rui Yang, Ziyang Zheng, Xing Lin, Hongkai Xiong, Qionghai Dai(参考訳) フォトニックニューラルネットワークは、電子の代わりに光子を用いて脳にインスパイアされた計算を行う。 しかし、既存のアーキテクチャは、画像やビデオのような通常の構造を持つデータしか扱えないが、ユークリッド空間以外のグラフ構造化データ、例えばソーシャルネットワークやドキュメント共引用ネットワークに一般化できない。 本稿では,この制約に対処するために,統合型回折フォトニック演算ユニット (dpus) に基づいて,dgnn (diffractive graph neural network) と呼ばれる全光学グラフ表現学習アーキテクチャを提案する。 具体的には、DGNNは、ノード属性をDPUによって変換され、オンチップ光カプラによって集約されたストリップ光導波路に符号化し、特徴表現を抽出する。 各DPUは、グラフノード間で共有される学習可能なパラメータである金属構造を回折することで、電磁界を変調するメタラインの連続的な受動的層から構成される。 DGNNはノード近傍の複雑な依存関係を捕捉し、グラフ構造を渡る光速光メッセージ間における非線形遷移関数を除去する。 ベンチマークデータベースを用いたノードおよびグラフレベルの分類タスクにおけるDGNN抽出機能の利用を実演し、優れた性能を実現する。 深層学習を用いた大規模グラフデータ構造の高効率処理のためのアプリケーション固有の集積フォトニック回路を設計するための新たな方向性を開拓する。

Photonic neural networks perform brain-inspired computations using photons instead of electrons that can achieve substantially improved computing performance. However, existing architectures can only handle data with regular structures, e.g., images or videos, but fail to generalize to graph-structured data beyond Euclidean space, e.g., social networks or document co-citation networks. Here, we propose an all-optical graph representation learning architecture, termed diffractive graph neural network (DGNN), based on the integrated diffractive photonic computing units (DPUs) to address this limitation. Specifically, DGNN optically encodes node attributes into strip optical waveguides, which are transformed by DPUs and aggregated by on-chip optical couplers to extract their feature representations. Each DPU comprises successive passive layers of metalines to modulate the electromagnetic optical field via diffraction, where the metaline structures are learnable parameters shared across graph nodes. DGNN captures complex dependencies among the node neighborhoods and eliminates the nonlinear transition functions during the light-speed optical message passing over graph structures. We demonstrate the use of DGNN extracted features for node and graph-level classification tasks with benchmark databases and achieve superior performance. Our work opens up a new direction for designing application-specific integrated photonic circuits for high-efficiency processing of large-scale graph data structures using deep learning.
翻訳日:2022-04-26 15:57:06 公開日:2022-04-23
# スマートアプリ攻撃:androidアプリでディープラーニングモデルをハッキングする

Smart App Attack: Hacking Deep Learning Models in Android Apps ( http://arxiv.org/abs/2204.11075v1 )

ライセンス: Link先を確認
Yujin Huang, Chunyang Chen(参考訳) デバイス上のディープラーニングは、モバイルアプリケーションで急速に人気が高まっている。 スマートフォンからクラウドへのディープラーニングのオフロードと比較すると、デバイス上のディープラーニングは、ユーザのプライバシを保護しながらオフラインモデル推論を可能にする。 しかし、このようなメカニズムは必然的にユーザーのスマートフォンにモデルを格納し、攻撃者にアクセス可能な敵攻撃を招待する可能性がある。 オンデバイスモデルの特徴のため、既存のほとんどの敵攻撃はオンデバイスモデルに直接適用できない。 本稿では,デバイス上のモデルに対して,識別された転送学習アプローチとTensorFlow Hubからの事前学習モデルに基づいて,非常に類似したバイナリ分類モデルを構築することで,グレーボックスの逆攻撃フレームワークを導入する。 本研究では,事前学習モデル,データセット,転送学習手法,敵攻撃アルゴリズムを含む4種類の設定を用いて攻撃効果と汎用性を評価する。 その結果,提案した攻撃は,異なる設定によらず有効であり,最先端のベースラインを著しく上回ることがわかった。 さらに,Google Playから収集した実世界のディープラーニングモバイルアプリに関する実証的研究を行った。 トランスファーラーニングを採用する53のアプリのうち、71.7%が攻撃に成功しており、その中には医療、自動化、金融といった重要な利用シナリオがある。 結果は、ディープラーニングモバイルアプリ開発者がデバイス上でモデルをセキュアにするための認識と行動を求めるものだ。 この作業のコードはhttps://github.com/Jinxhy/SmartAppAttackで公開されている。

On-device deep learning is rapidly gaining popularity in mobile applications. Compared to offloading deep learning from smartphones to the cloud, on-device deep learning enables offline model inference while preserving user privacy. However, such mechanisms inevitably store models on users' smartphones and may invite adversarial attacks as they are accessible to attackers. Due to the characteristic of the on-device model, most existing adversarial attacks cannot be directly applied for on-device models. In this paper, we introduce a grey-box adversarial attack framework to hack on-device models by crafting highly similar binary classification models based on identified transfer learning approaches and pre-trained models from TensorFlow Hub. We evaluate the attack effectiveness and generality in terms of four different settings including pre-trained models, datasets, transfer learning approaches and adversarial attack algorithms. The results demonstrate that the proposed attacks remain effective regardless of different settings, and significantly outperform state-of-the-art baselines. We further conduct an empirical study on real-world deep learning mobile apps collected from Google Play. Among 53 apps adopting transfer learning, we find that 71.7\% of them can be successfully attacked, which includes popular ones in medicine, automation, and finance categories with critical usage scenarios. The results call for the awareness and actions of deep learning mobile app developers to secure the on-device models. The code of this work is available at https://github.com/Jinxhy/SmartAppAttack
翻訳日:2022-04-26 15:56:45 公開日:2022-04-23
# 土地分類のための大地観測データのセマンティクスについて

On the semantics of big Earth observation data for land classification ( http://arxiv.org/abs/2204.11082v1 )

ライセンス: Link先を確認
Gilberto Camara(参考訳) 本稿では,大地観測データを用いた土地分類の課題について論じる。 アプローチは、純粋なデータ駆動型メソッドが継続的変化を表現するのに不十分であると考えることです。 ビッグデータを扱うとき、音理論について論じる。 FAO の土地被覆分類システム (LCCS) などの既存の分類体系を改訂した後,LCCS などの提案は景観動態の複雑さを捉えることはできないと結論付けた。 次に,衛星画像時系列の解析に使用されている概念を調査し,これらの概念をイベントのインスタンスとして示す。 したがって、土地変化の継続的な監視には、オブジェクト識別を汎用パラダイムとして置き換える必要がある。 この論文は、ビッグデータの可能性を満たすために、イベントセマンティクスがデータ駆動手法をどのように改善するかを示す。

This paper discusses the challenges of using big Earth observation data for land classification. The approach taken is to consider pure data-driven methods to be insufficient to represent continuous change. We argue for sound theories when working with big data. After revising existing classification schemes such as FAO's Land Cover Classification System (LCCS), we conclude that LCCS and similar proposals cannot capture the complexity of landscape dynamics. We then investigate concepts that are being used for analyzing satellite image time series; we show these concepts to be instances of events. Therefore, for continuous monitoring of land change, event recognition needs to replace object identification as the prevailing paradigm. The paper concludes by showing how event semantics can improve data-driven methods to fulfil the potential of big data.
翻訳日:2022-04-26 15:56:26 公開日:2022-04-23
# 競争物理学インフォームドネットワーク

Competitive Physics Informed Networks ( http://arxiv.org/abs/2204.11144v1 )

ライセンス: Link先を確認
Qi Zeng, Spencer H. Bryngelson, Florian Sch\"afer(参考訳) 物理情報ニューラルネットワーク(PINN)は、ニューラルネットワークとして表現することで偏微分方程式(PDE)を解く。 元々のPINN実装は高い精度を提供しておらず、一般的には相対誤差が0.1\%である。 我々は、この制限を克服するために、競合pinn (cpinns) と呼ばれる敵対的アプローチを定式化し、テストする。 CPINNは差別者を訓練し、PINNの誤りを予測する。 判別器とピンは、正確なpde解を最適戦略とするゼロサムゲームに参加する。 このアプローチは、pde離散化の大きな条件数を絞り込む問題を回避する。 数値実験により、競争勾配勾配で訓練されたCPINNは、アダムまたは確率勾配で訓練されたPINNよりも2桁小さい誤差を達成できることが示された。

Physics Informed Neural Networks (PINNs) solve partial differential equations (PDEs) by representing them as neural networks. The original PINN implementation does not provide high accuracy, typically attaining about $0.1\%$ relative error. We formulate and test an adversarial approach called competitive PINNs (CPINNs) to overcome this limitation. CPINNs train a discriminator that is rewarded for predicting PINN mistakes. The discriminator and PINN participate in a zero-sum game with the exact PDE solution as an optimal strategy. This approach avoids the issue of squaring the large condition numbers of PDE discretizations. Numerical experiments show that a CPINN trained with competitive gradient descent can achieve errors two orders of magnitude smaller than that of a PINN trained with Adam or stochastic gradient descent.
翻訳日:2022-04-26 15:53:06 公開日:2022-04-23
# 空間相関によるカラー画像の検出

Detecting Recolored Image by Spatial Correlation ( http://arxiv.org/abs/2204.10973v1 )

ライセンス: Link先を確認
Yushu Zhang, Nuo Chen, Shuren Qi, Mingfu Xue, and Xiaochun Cao(参考訳) 画像の信頼性を確保することを目的とした画像鑑定学は、コピー・ムーブ、スプライシング、塗装などの一般的な画像操作に過去数十年で大きな進歩を遂げた。 しかし、画像のカラー値を操作して新しいスタイルを与える、画像のリカラー化と呼ばれる新しい編集技術に注意を向ける研究者はごくわずかである。 従来手法では, チャネル間の相関や照明の整合性の観点から, 従来の色付けに対処している。 本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。 理論的および数値解析により、再色操作は必然的に画素間の空間的相関を破壊し、統計的識別可能性の新しい先行を示唆する。 このような事実に基づいて,空間相関特徴の集合を生成し,畳み込みニューラルネットワークを用いてその集合から情報表現を学習する。 ネットワークのトレーニングには,大規模かつ高品質なデータセットを生成するために3つの再カラー化手法を用いる。 2つの再彩色シーンにおける大規模な実験結果から,空間的相関特性は高い判別性を示した。 提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。

Image forensics, aiming to ensure the authenticity of the image, has made great progress in dealing with common image manipulation such as copy-move, splicing, and inpainting in the past decades. However, only a few researchers pay attention to an emerging editing technique called image recoloring, which can manipulate the color values of an image to give it a new style. To prevent it from being used maliciously, the previous approaches address the conventional recoloring from the perspective of inter-channel correlation and illumination consistency. In this paper, we try to explore a solution from the perspective of the spatial correlation, which exhibits the generic detection capability for both conventional and deep learning-based recoloring. Through theoretical and numerical analysis, we find that the recoloring operation will inevitably destroy the spatial correlation between pixels, implying a new prior of statistical discriminability. Based on such fact, we generate a set of spatial correlation features and learn the informative representation from the set via a convolutional neural network. To train our network, we use three recoloring methods to generate a large-scale and high-quality data set. Extensive experimental results in two recoloring scenes demonstrate that the spatial correlation features are highly discriminative. Our method achieves the state-of-the-art detection accuracy on multiple benchmark datasets and exhibits well generalization for unknown types of recoloring methods.
翻訳日:2022-04-26 15:46:10 公開日:2022-04-23
# TerrainMesh: 連立2D-3D学習による空中画像からの計量意味的地層再構成

TerrainMesh: Metric-Semantic Terrain Reconstruction from Aerial Images Using Joint 2D-3D Learning ( http://arxiv.org/abs/2204.10993v1 )

ライセンス: Link先を確認
Qiaojun Feng, Nikolay Atanasov(参考訳) 本稿では,航空機から得られたRGB画像を用いた屋外地形図について考察する。 機能ベースのローカライズとマッピング技術がリアルタイム車両のオドメトリとスパースなキーポイント深度再構成をもたらす一方で、環境幾何学とセマンティクス(植生、建物など)の密集したモデルは通常、重要な計算とストレージによってオフラインで復元される。 本稿では,視覚オドメトリーアルゴリズムによって維持される各カメラキーフレームにおける局所的メトリック・セマンティクスメッシュを再構成する2d-3次元学習手法を開発した。 推定カメラ軌道を考えると、ローカルメッシュはグローバル環境モデルに組み立てられ、オンライン操作中の地形のトポロジとセマンティクスをキャプチャすることができる。 局所メッシュは初期化及び改良段階を用いて再構築される。 初期化段階では、頂点バーリ中心座標とスパースキーポイント深さ測定に関する最小二乗問題を解くことでメッシュ頂点標高を推定する。 改良段階において,2次元画像と意味的特徴をカメラプロジェクションを用いて3次元メッシュ頂点に関連付け,グラフ畳み込みを適用してメッシュ頂点空間座標と意味的特徴を2次元と3次元の同時監視に基づいて洗練する。 実空画像を用いた定量的・質的評価は,環境モニタリングおよび監視アプリケーションを支援する手法の可能性を示している。

This paper considers outdoor terrain mapping using RGB images obtained from an aerial vehicle. While feature-based localization and mapping techniques deliver real-time vehicle odometry and sparse keypoint depth reconstruction, a dense model of the environment geometry and semantics (vegetation, buildings, etc.) is usually recovered offline with significant computation and storage. This paper develops a joint 2D-3D learning approach to reconstruct a local metric-semantic mesh at each camera keyframe maintained by a visual odometry algorithm. Given the estimated camera trajectory, the local meshes can be assembled into a global environment model to capture the terrain topology and semantics during online operation. A local mesh is reconstructed using an initialization and refinement stage. In the initialization stage, we estimate the mesh vertex elevation by solving a least squares problem relating the vertex barycentric coordinates to the sparse keypoint depth measurements. In the refinement stage, we associate 2D image and semantic features with the 3D mesh vertices using camera projection and apply graph convolution to refine the mesh vertex spatial coordinates and semantic features based on joint 2D and 3D supervision. Quantitative and qualitative evaluation using real aerial images show the potential of our method to support environmental monitoring and surveillance applications.
翻訳日:2022-04-26 15:45:47 公開日:2022-04-23
# 差分投影プロファイロメトリーに基づく屋内同時位置推定とマッピング

Indoor simultaneous localization and mapping based on fringe projection profilometry ( http://arxiv.org/abs/2204.11020v1 )

ライセンス: Link先を確認
Yang Zhao, Kai Zhang, Haotian Yu, Yi Zhang, Dongliang Zheng, Jing Han(参考訳) 同時ローカライゼーションとマッピング(slam)は、自律運転から屋内ロボットまで、屋外や屋内のアプリケーションにおいて重要な役割を担っている。 屋外SLAMはLiDARやGPSの助けを借りて広く利用されている。 屋内アプリケーションでは、LiDAR技術は精度を満足せず、GPS信号は失われる。 屋内SLAMには正確かつ効率的なシーンセンシング技術が必要である。 最も有望な3Dセンシング技術として、FPP (fringe projection profilometry) システムを用いた屋内SLAMの機会は明らかであるが、これまではそのようなシステムが提供する精度と速度を十分に活用していなかった。 本稿では,FPPの座標変換関係に基づくFPPを用いた室内SLAM手法を提案する。 マッチングディスクリプタによって生成された対応を高速かつ正確なマッピングに使用し、センサのローカライズには2Dと3Dデクリプタ間の変換推定を用いる。 提案した室内SLAMは, 1ミリ付近の局所化とマッピングの精度を向上できることを示した。

Simultaneous Localization and Mapping (SLAM) plays an important role in outdoor and indoor applications ranging from autonomous driving to indoor robotics. Outdoor SLAM has been widely used with the assistance of LiDAR or GPS. For indoor applications, the LiDAR technique does not satisfy the accuracy requirement and the GPS signals will be lost. An accurate and efficient scene sensing technique is required for indoor SLAM. As the most promising 3D sensing technique, the opportunities for indoor SLAM with fringe projection profilometry (FPP) systems are obvious, but methods to date have not fully leveraged the accuracy and speed of sensing that such systems offer. In this paper, we propose a novel FPP-based indoor SLAM method based on the coordinate transformation relationship of FPP, where the 2D-to-3D descriptor-assisted is used for mapping and localization. The correspondences generated by matching descriptors are used for fast and accurate mapping, and the transform estimation between the 2D and 3D descriptors is used to localize the sensor. The provided experimental results demonstrate that the proposed indoor SLAM can achieve the localization and mapping accuracy around one millimeter.
翻訳日:2022-04-26 15:45:22 公開日:2022-04-23
# ハードラベル設定におけるデータフリーモデル盗み

Towards Data-Free Model Stealing in a Hard Label Setting ( http://arxiv.org/abs/2204.11022v1 )

ライセンス: Link先を確認
Sunandini Sanyal, Sravanti Addepalli, R. Venkatesh Babu(参考訳) サービスとしてデプロイされるマシンラーニングモデル(MLaaS)は、制限されたアクセスフレームワーク内でモデルを盗もうとする、ステルス攻撃のモデルに影響を受けやすい。 既存の攻撃は分類ネットワークのsoftmax予測を使用してほぼ完全なクローンモデルのパフォーマンスを示すが、ほとんどのapiはtop-1ラベルのみにアクセスできる。 本稿では,モデル勾配(ブラックボックス設定)やトレーニングデータセット(データフリー設定)を低クエリ予算でアクセスすることなく,top-1予測(ハードラベル設定)のみにアクセスして,マシンラーニングモデルを盗むことが可能であることを実証する。 本稿では,クローンネットワークの勾配を被害者の勾配の代用として利用することで,ハードラベル設定の課題を克服しつつ,学生とジェネレータのタンデムによるモデル盗みを効果的に訓練する新しいGANベースのフレームワークを提案する。 本稿では,公開可能な(潜在的に無関係な)データセットを先行画像として活用することにより,一般的なデータフリー設定に関連する膨大なクエリコストを克服することを提案する。 また,このようなデータがない場合でも,合成したサンプルを用いて,低照会予算で最新の結果が得られることを示す。 私たちは、100クラスのデータセット上で制限されたアクセス設定でモデル盗みのスケーラビリティを示す最初の例です。

Machine learning models deployed as a service (MLaaS) are susceptible to model stealing attacks, where an adversary attempts to steal the model within a restricted access framework. While existing attacks demonstrate near-perfect clone-model performance using softmax predictions of the classification network, most of the APIs allow access to only the top-1 labels. In this work, we show that it is indeed possible to steal Machine Learning models by accessing only top-1 predictions (Hard Label setting) as well, without access to model gradients (Black-Box setting) or even the training dataset (Data-Free setting) within a low query budget. We propose a novel GAN-based framework that trains the student and generator in tandem to steal the model effectively while overcoming the challenge of the hard label setting by utilizing gradients of the clone network as a proxy to the victim's gradients. We propose to overcome the large query costs associated with a typical Data-Free setting by utilizing publicly available (potentially unrelated) datasets as a weak image prior. We additionally show that even in the absence of such data, it is possible to achieve state-of-the-art results within a low query budget using synthetically crafted samples. We are the first to demonstrate the scalability of Model Stealing in a restricted access setting on a 100 class dataset as well.
翻訳日:2022-04-26 15:45:01 公開日:2022-04-23
# 神経画像分割のためのクラスバランス付きPixelNet

Class Balanced PixelNet for Neurological Image Segmentation ( http://arxiv.org/abs/2204.11048v1 )

ライセンス: Link先を確認
Mobarakol Islam and Hongliang Ren(参考訳) 本稿では,ピクセルレベル畳み込みニューラルネットワーク(cnn)を用いた脳腫瘍の自動分割手法(例えば,pixelnet)を提案する。 このモデルは、複数の畳み込み層から特徴を抽出し、それらを結合してハイパーカラムを形成し、最適化のためにわずかな数のピクセルをサンプリングする。 ハイパーカラムは、ピクセルワイド予測器のローカルとグローバルの両方のコンテキスト情報を保証する。 従来のピクセルレベルのセマンティクスセグメンテーションでは,空間冗長性が隣接画素間の情報学習を制限するトレーニングフェーズにおいて,数画素をサンプリングして統計的効率を確認する。 さらに、トレーニングデータのラベルスキューネスは、畳み込みモデルが医学データセットで一般的な問題である特定のクラスに収束することが多い。 サンプリング時間内に全クラスに対して等しいピクセル数を選択することでこの問題に対処する。 提案モデルは脳腫瘍および脳卒中病変分節データセットにおいて有望な結果を得た。

In this paper, we propose an automatic brain tumor segmentation approach (e.g., PixelNet) using a pixel-level convolutional neural network (CNN). The model extracts feature from multiple convolutional layers and concatenate them to form a hyper-column where samples a modest number of pixels for optimization. Hyper-column ensures both local and global contextual information for pixel-wise predictors. The model confirms the statistical efficiency by sampling a few pixels in the training phase where spatial redundancy limits the information learning among the neighboring pixels in conventional pixel-level semantic segmentation approaches. Besides, label skewness in training data leads the convolutional model often converge to certain classes which is a common problem in the medical dataset. We deal with this problem by selecting an equal number of pixels for all the classes in sampling time. The proposed model has achieved promising results in brain tumor and ischemic stroke lesion segmentation datasets.
翻訳日:2022-04-26 15:44:38 公開日:2022-04-23
# MLPハッシュ:ランダム化マルチ層パーセプトロンのハッシュによる顔テンプレート保護

MLP-Hash: Protecting Face Templates via Hashing of Randomized Multi-Layer Perceptron ( http://arxiv.org/abs/2204.11054v1 )

ライセンス: Link先を確認
Hatef Otroshi Shahreza, Vedrana Krivoku\'ca Hahn, S\'ebastien Marcel(参考訳) 顔認識システムの認証への応用は急速に進んでいる。 最先端の顔認識システム(SOTA)は高い認識性能を有するが、ユーザ毎に抽出され、システムのデータベースに格納される特徴には、プライバシに敏感な情報が含まれている。 そのため、データの妥協はユーザーのプライバシーを損なうことになる。 本稿では,MLP(Multi-weighted Multi-layer Perceptron)をユーザ固有のランダムな多層パーセプトロン(MLP)に渡し,MLP出力をバイナライズすることで,保護テンプレートを生成する。 ISO/IEC 30136標準要件を満たすため,本提案したバイオメトリックテンプレート保護法の非リンク性,不可逆性,認識性能を評価した。 提案手法は,MOBIOおよびLFWデータセットを用いたSOTA顔認識システムを用いた実験により,BioHashingおよびIoM Hashing(IoM-GRPおよびIoM-URP)テンプレート保護アルゴリズムと競合する性能を示した。 本論文では、他の研究者が我々の発見を検証し、我々の研究に基づいて構築できるように、これらの実験をオープンソースで実装する。

Applications of face recognition systems for authentication purposes are growing rapidly. Although state-of-the-art (SOTA) face recognition systems have high recognition performance, the features which are extracted for each user and are stored in the system's database contain privacy-sensitive information. Accordingly, compromising this data would jeopardize users' privacy. In this paper, we propose a new cancelable template protection method, dubbed MLP-hash, which generates protected templates by passing the extracted features through a user-specific randomly-weighted multi-layer perceptron (MLP) and binarizing the MLP output. We evaluated the unlinkability, irreversibility, and recognition performance of our proposed biometric template protection method to fulfill the ISO/IEC 30136 standard requirements. Our experiments with SOTA face recognition systems on the MOBIO and LFW datasets show that our method has competitive performance with the BioHashing and IoM Hashing (IoM-GRP and IoM-URP) template protection algorithms. We provide an open-source implementation of all the experiments presented in this paper so that other researchers can verify our findings and build upon our work.
翻訳日:2022-04-26 15:44:24 公開日:2022-04-23
# 実世界データから治療効果を推定する2重ロバストな手法が機械学習と合致する場合--比較研究

When Doubly Robust Methods Meet Machine Learning for Estimating Treatment Effects from Real-World Data: A Comparative Study ( http://arxiv.org/abs/2204.10969v1 )

ライセンス: Link先を確認
Xiaoqing Tan, Shu Yang, Wenyu Ye, Douglas E. Faries, Ilya Lipkovich, Zbigniew Kadziola(参考訳) 観察コホート研究は、比較有効性の研究や治療の安全性の評価にますます利用されている。 近年, マッチング, 重み付け, 回帰など, 異なる車両による処理モデルと結果モデルを組み合わせることで, 平均処理効果推定のための2つのロバストな手法が提案されている。 二重頑健な推定器の鍵となる利点は、平均的治療効果の一貫性のある推定器を得るためには、治療モデルまたは結果モデルのいずれかを正しく指定する必要があることである。 しかしながら、処理と結果モデルを使用するユニークな戦略と、これらの評価器と組み合わせてパフォーマンスを向上させる方法によって、二重に頑健な推定器がどう異なるかを理解するための作業はほとんど行われていない。 また、共変量選択の課題、共変量分布の重複、およびこれら2つの頑健な推定器の性能に対する処理効果についてはほとんど分かっていない。 本稿では,マッチング,重み付け,回帰といったカテゴリにおいて,複数の一般的な二重ロバストな手法について検討し,広範囲なシミュレーションと実世界のアプリケーションを用いて,異なる処理と結果モデリングを用いてそれらの性能を比較する。 機械学習を2倍のロバストな推定器に組み込むことで、対象の最大確率推定器を上回ることを見出した。 二重ロバストな推定器の適用方法に関する実践的ガイダンスを提供する。

Observational cohort studies are increasingly being used for comparative effectiveness research and to assess the safety of therapeutics. Recently, various doubly robust methods have been proposed for average treatment effect estimation by combining the treatment model and the outcome model via different vehicles, such as matching, weighting, and regression. The key advantage of the doubly robust estimators is that they require either the treatment model or the outcome model to be correctly specified to obtain a consistent estimator of the average treatment effect, and therefore lead to a more accurate and often more precise inference. However, little work has been done to understand how doubly robust estimators differ due to their unique strategies of using the treatment and outcome models and how machine learning techniques can be combined with these estimators to boost their performance. Also, little has been understood about the challenges of covariates selection, overlapping of the covariate distribution, and treatment effect heterogeneity on the performance of these doubly robust estimators. Here we examine multiple popular doubly robust methods in the categories of matching, weighting, or regression, and compare their performance using different treatment and outcome modeling via extensive simulations and a real-world application. We found that incorporating machine learning with doubly robust estimators such as the targeted maximum likelihood estimator outperforms. Practical guidance on how to apply doubly robust estimators is provided.
翻訳日:2022-04-26 15:39:51 公開日:2022-04-23
# 地下流サーロゲートモデルの効率的な構築のためのマルチフィデリティトレーニングデータとトランスファーラーニング

Use of Multifidelity Training Data and Transfer Learning for Efficient Construction of Subsurface Flow Surrogate Models ( http://arxiv.org/abs/2204.11138v1 )

ライセンス: Link先を確認
Su Jiang, Louis J. Durlofsky(参考訳) データ同化は、多くの高忠実度モデルをシミュレートする必要があるため、計算上の課題を示す。 様々な深層学習に基づく代理モデリング技術が開発され,これらの応用によるシミュレーションコストの低減が図られている。 しかし、データ駆動サロゲートモデルを構築するには、トレーニングサンプルを提供するために数千の高忠実度シミュレーション実行が必要であり、これらの計算はトレーニングを違法に高価にすることができる。 この問題に対処するため,本研究では,トレーニングシミュレーションのほとんどが粗いジオモデル上で実行されるフレームワークを提案する。 これらのモデルはフローベースのアップスケーリング手法を用いて構築される。 このフレームワークは、ネットワークトレーニングを3つのステップで達成する、既存のリカレント残余u-netアーキテクチャに組み込まれたトランスファーラーニング手順の使用を伴っている。 最初のステップです。 トレーニングの大部分が実行される場合、低忠実度シミュレーション結果のみを使用する。 出力層を訓練し、ネットワーク全体を微調整する第2ステップと第3ステップは、比較的少数の高忠実度シミュレーションを必要とする。 ここでは2500の低忠実度ランと200の高忠実度ランを使用し、トレーニングシミュレーションコストの約90%削減につながります。 本手法は3次元流路系における2相地下流れに適用し, 坑井により流れを駆動する。 マルチフィデリティデータでトレーニングされたサーロゲートモデルは、新しいジオモデルにおける動的圧力と飽和場を予測する際に、高フィデリティデータのみでトレーニングされた参照サーロゲートとほぼ同じ精度であることが示されている。 重要なことに、ネットワークはトレーニングの大部分で使用される低忠実度シミュレーションよりもはるかに正確な結果を提供する。 マルチフィデリティサロゲートはアンサンブルベースの手順を用いて履歴マッチングにも適用され、参照結果に対する精度が再び示される。

Data assimilation presents computational challenges because many high-fidelity models must be simulated. Various deep-learning-based surrogate modeling techniques have been developed to reduce the simulation costs associated with these applications. However, to construct data-driven surrogate models, several thousand high-fidelity simulation runs may be required to provide training samples, and these computations can make training prohibitively expensive. To address this issue, in this work we present a framework where most of the training simulations are performed on coarsened geomodels. These models are constructed using a flow-based upscaling method. The framework entails the use of a transfer-learning procedure, incorporated within an existing recurrent residual U-Net architecture, in which network training is accomplished in three steps. In the first step. where the bulk of the training is performed, only low-fidelity simulation results are used. The second and third steps, in which the output layer is trained and the overall network is fine-tuned, require a relatively small number of high-fidelity simulations. Here we use 2500 low-fidelity runs and 200 high-fidelity runs, which leads to about a 90% reduction in training simulation costs. The method is applied for two-phase subsurface flow in 3D channelized systems, with flow driven by wells. The surrogate model trained with multifidelity data is shown to be nearly as accurate as a reference surrogate trained with only high-fidelity data in predicting dynamic pressure and saturation fields in new geomodels. Importantly, the network provides results that are significantly more accurate than the low-fidelity simulations used for most of the training. The multifidelity surrogate is also applied for history matching using an ensemble-based procedure, where accuracy relative to reference results is again demonstrated.
翻訳日:2022-04-26 15:37:59 公開日:2022-04-23
# 決定木に対する幾何学平均メトリック学習に触発された新しい分割基準

A Novel Splitting Criterion Inspired by Geometric Mean Metric Learning for Decision Tree ( http://arxiv.org/abs/2204.11011v1 )

ライセンス: Link先を確認
Dan Li, Songcan Chen(参考訳) 決定木(dt)は、多くのアプリケーションにおいて印象的な性能と解釈性のため、永続的な研究の注目を集めている。 しかし、従来のUDT(univariate decision tree)の成長は、各内部ノードにおける不純物の最大減少とともに分割値を求めるためにすべての特徴をトラバースする必要があるため、非常に時間がかかる。 本稿では,成長速度を上げるために分割基準を新たに設計する。 この基準は、幾何平均距離学習(GMML)から誘導され、その対角化計量行列制約の下で最適化されるので、特徴判別能力の閉形式ランクが一度に取得でき、各ノードの上位1特徴が目的DT(dは対角化の略語であるdGMML-DTと呼ばれる)を成長するのに使用される。 提案手法とそれに対応するアンサンブルの性能をベンチマークデータセット上で評価した。 実験の結果、dGMML-DTは平均速度が10倍のUDTよりも、同等またはより良い分類結果が得られることがわかった。 さらに、dGMML-DTは、その多変数対応(dGMML-MDT)に簡単に拡張できる。

Decision tree (DT) attracts persistent research attention due to its impressive empirical performance and interpretability in numerous applications. However, the growth of traditional yet widely-used univariate decision trees (UDTs) is quite time-consuming as they need to traverse all the features to find the splitting value with the maximal reduction of the impurity at each internal node. In this paper, we newly design a splitting criterion to speed up the growth. The criterion is induced from Geometric Mean Metric Learning (GMML) and then optimized under its diagonalized metric matrix constraint, consequently, a closed-form rank of feature discriminant abilities can at once be obtained and the top 1 feature at each node used to grow an intent DT (called as dGMML-DT, where d is an abbreviation for diagonalization). We evaluated the performance of the proposed methods and their corresponding ensembles on benchmark datasets. The experiment shows that dGMML-DT achieves comparable or better classification results more efficiently than the UDTs with 10x average speedup. Furthermore, dGMML-DT can straightforwardly be extended to its multivariable counterpart (dGMML-MDT) without needing laborious operations.
翻訳日:2022-04-26 14:57:08 公開日:2022-04-23
# 異常検出のための勾配選好を考慮した識別的特徴学習フレームワーク

Discriminative Feature Learning Framework with Gradient Preference for Anomaly Detection ( http://arxiv.org/abs/2204.11014v1 )

ライセンス: Link先を確認
Muhao Xu, Xueying Zhou, Xizhan Gao, WeiKai He, Sijie Niu(参考訳) 教師なし表現学習は異常検出に広く使われ、印象的なパフォーマンスを達成している。 教師なし表現学習において,異常検出の性能を著しく向上させる重要な特徴ベクトルの抽出が不可欠である。 そこで本研究では,異常検出のための勾配優先型特徴学習フレームワークを提案する。 具体的には,まず勾配優先型セレクタの設計を行い,強力な特徴点を空間に格納し,冗長な特徴ベクトルの干渉を軽減し,推論効率を向上させる機能リポジトリを構築する。 次に,特徴ベクトルのゆるさを克服するために,特徴レポジトリをコンパクトな部分空間にマップするために,中心制約を伴う識別的特徴学習を提案する。 さらに,本手法は異常局所化に容易に拡張できる。 産業用および医療用異常検出データセットに関する広範囲な実験により,提案手法が異常検出と局所化の両方において競争的な結果をもたらすことを実証した。 さらに重要なこととして,本手法はショット異常検出において最先端の手法よりも優れている。

Unsupervised representation learning has been extensively employed in anomaly detection, achieving impressive performance. Extracting valuable feature vectors that can remarkably improve the performance of anomaly detection are essential in unsupervised representation learning. To this end, we propose a novel discriminative feature learning framework with gradient preference for anomaly detection. Specifically, we firstly design a gradient preference based selector to store powerful feature points in space and then construct a feature repository, which alleviate the interference of redundant feature vectors and improve inference efficiency. To overcome the looseness of feature vectors, secondly, we present a discriminative feature learning with center constrain to map the feature repository to a compact subspace, so that the anomalous samples are more distinguishable from the normal ones. Moreover, our method can be easily extended to anomaly localization. Extensive experiments on popular industrial and medical anomaly detection datasets demonstrate our proposed framework can achieve competitive results in both anomaly detection and localization. More important, our method outperforms the state-of-the-art in few shot anomaly detection.
翻訳日:2022-04-26 14:56:47 公開日:2022-04-23
# カッパとFスコアに基づく選択的クラスタリングアンサンブル

Selective clustering ensemble based on kappa and F-score ( http://arxiv.org/abs/2204.11062v1 )

ライセンス: Link先を確認
Jie Yan, Xin Liu, Ji Qi, Tao You and Zhong-Yuan Zhang(参考訳) クラスタリングアンサンブルは分割結果の精度とロバスト性の向上に優れた性能を有しており、近年は注目を集めている。 選択的クラスタリングアンサンブル(SCE)は、多様性と安定性に応じて、ベースパーティションまたはクラスタを選択することにより、アンサンブル性能をさらに向上させることができる。 しかし、多様性と安定性の間には対立があり、両者のトレードオフをどうするかは困難である。 ここで重要なのは、ベースパーティションとクラスタの品質を評価する方法だ。 本稿では,Kappa と F-score を用いた分割とクラスタの新たな評価手法を提案する。また,Kappa を用いて情報ベースパーティションを選択し,F-score を用いてクラスタの重み付けを行う新しい SCE 手法を提案する。 提案手法の有効性と効率を実データセット上で実証的に検証する。

Clustering ensemble has an impressive performance in improving the accuracy and robustness of partition results and has received much attention in recent years. Selective clustering ensemble (SCE) can further improve the ensemble performance by selecting base partitions or clusters in according to diversity and stability. However, there is a conflict between diversity and stability, and how to make the trade-off between the two is challenging. The key here is how to evaluate the quality of the base partitions and clusters. In this paper, we propose a new evaluation method for partitions and clusters using kappa and F-score, leading to a new SCE method, which uses kappa to select informative base partitions and uses F-score to weight clusters based on stability. The effectiveness and efficiency of the proposed method is empirically validated over real datasets.
翻訳日:2022-04-26 14:56:30 公開日:2022-04-23
# Grad-SAM: 勾配自己注意マップによるトランスフォーマーの説明

Grad-SAM: Explaining Transformers via Gradient Self-Attention Maps ( http://arxiv.org/abs/2204.11073v1 )

ライセンス: Link先を確認
Oren Barkan, Edan Hauon, Avi Caciularu, Ori Katz, Itzik Malkiel, Omri Armstrong, Noam Koenigstein(参考訳) トランスフォーマーベースの言語モデルは、多くの言語タスクにおいて最先端の技術を著しく進歩させた。 この革命が進むにつれて、モデル予測を説明する能力はNLPコミュニティにとって大きな関心事となっている。 本研究では, 自己認識単位を解析し, モデルの予測を最もよく説明する入力要素を同定する, グラディエントな自己認識マップ(Grad-SAM)を提案する。 様々なベンチマークによる大規模な評価では、Grad-SAMは最先端の代替よりも大幅に改善されている。

Transformer-based language models significantly advanced the state-of-the-art in many linguistic tasks. As this revolution continues, the ability to explain model predictions has become a major area of interest for the NLP community. In this work, we present Gradient Self-Attention Maps (Grad-SAM) - a novel gradient-based method that analyzes self-attention units and identifies the input elements that explain the model's prediction the best. Extensive evaluations on various benchmarks show that Grad-SAM obtains significant improvements over state-of-the-art alternatives.
翻訳日:2022-04-26 14:54:54 公開日:2022-04-23
# 各種ディープラーニングモデルを用いた時系列予測(TSF)

Time Series Forecasting (TSF) Using Various Deep Learning Models ( http://arxiv.org/abs/2204.11115v1 )

ライセンス: Link先を確認
Jimeng Shi, Mahek Jain, Giri Narasimhan(参考訳) 時系列予測(TSF)は、過去の時刻からの学習に基づいて、将来の時刻でターゲット変数を予測するために使用される。 問題を扱いやすくするために、学習方法は、過去の固定長窓からのデータを明示的な入力として使用する。 本稿では,予測モデルの性能が,異なるルックバックウィンドウサイズと未来への予測に要する時間の違いの関数としてどのように変化するかを検討する。 また,画像処理と自然言語処理領域で成功を収めた近年の注意に基づくトランスフォーマーモデルの性能についても考察する。 全体として,4つの異なるディープラーニング手法(rnn,lstm,gru,transformer)とベースライン法を比較した。 私たちが使用したデータセット(時間単位)は、uciウェブサイトの北京航空品質データセットで、5年間(2010-14)の時間単位で測定された多くの要因の多変量時系列を含む。 また,各モデルについて,性能とルックバックウィンドウサイズと予測時間点数との関係について報告する。 実験の結果, 変圧器モデルの性能は, 平均誤差が最も低く (mae = 14.599, 23.273) , 根平均二乗誤差 (rsme = 23.573, 38.131) であることがわかった。 振り返りウィンドウが未来に1時間近付くのに最適なサイズは1日であり、2日か4日は未来に3時間近づくのに最適である。

Time Series Forecasting (TSF) is used to predict the target variables at a future time point based on the learning from previous time points. To keep the problem tractable, learning methods use data from a fixed length window in the past as an explicit input. In this paper, we study how the performance of predictive models change as a function of different look-back window sizes and different amounts of time to predict into the future. We also consider the performance of the recent attention-based Transformer models, which has had good success in the image processing and natural language processing domains. In all, we compare four different deep learning methods (RNN, LSTM, GRU, and Transformer) along with a baseline method. The dataset (hourly) we used is the Beijing Air Quality Dataset from the UCI website, which includes a multivariate time series of many factors measured on an hourly basis for a period of 5 years (2010-14). For each model, we also report on the relationship between the performance and the look-back window sizes and the number of predicted time points into the future. Our experiments suggest that Transformer models have the best performance with the lowest Mean Average Errors (MAE = 14.599, 23.273) and Root Mean Square Errors (RSME = 23.573, 38.131) for most of our single-step and multi-steps predictions. The best size for the look-back window to predict 1 hour into the future appears to be one day, while 2 or 4 days perform the best to predict 3 hours into the future.
翻訳日:2022-04-26 14:54:45 公開日:2022-04-23
# U-NO:U字型ニューラルオペレータ

U-NO: U-shaped Neural Operators ( http://arxiv.org/abs/2204.11127v1 )

ライセンス: Link先を確認
Md Ashiqur Rahman, Zachary E. Ross, Kamyar Azizzadenesheli(参考訳) ニューラルネットワークは、無限次元空間、例えば関数空間の間の写像に古典的ニューラルネットワークを一般化する。 ニューラルネットワークに関する先行研究は、そのような写像を学ぶための一連の新しいアーキテクチャを提案し、偏微分方程式(pdes)の解法で前例のない成功を収めた。 本稿では,従来よりも深いニューラル演算子を実現するアーキテクチャであるU字型ニューラル演算子U-NOを提案する。 U-NOは関数予測における問題構造を利用し、高速なトレーニング、データ効率、高パラメータ選択の堅牢性を示す。 本稿では,PDE ベンチマークにおける U-NO の性能,すなわち Darcy のフロー則と Navier-Stokes 方程式について検討する。 u-noの結果,darcyのフローとnavier-stokes方程式における平均14%と38%の予測改善が得られた。

Neural operators generalize classical neural networks to maps between infinite-dimensional spaces, e.g. function spaces. Prior works on neural operators proposed a series of novel architectures to learn such maps and demonstrated unprecedented success in solving partial differential equations (PDEs). In this paper, we propose U-shaped Neural Operators U-NO, an architecture that allows for deeper neural operators compared to prior works. U-NOs exploit the problems structures in function predictions, demonstrate fast training, data efficiency, and robustness w.r.t hyperparameters choices. We study the performance of U-NO on PDE benchmarks, namely, Darcy's flow law and the Navier-Stokes equations. We show that U-NO results in average of 14% and 38% prediction improvement on the Darcy's flow and Navier-Stokes equations, respectively, over the state of art.
翻訳日:2022-04-26 14:54:17 公開日:2022-04-23
# シーケンスレコメンデーションのためのデカップリングサイド情報フュージョン

Decoupled Side Information Fusion for Sequential Recommendation ( http://arxiv.org/abs/2204.11046v1 )

ライセンス: Link先を確認
Yueqi Xie, Peilin Zhou, Sunghun Kim(参考訳) シーケンシャルレコメンデーション(SR)のためのサイド情報融合は、様々なサイド情報を効果的に活用し、次世代予測の性能を高めることを目的としている。 ほとんどの最先端の手法は自己認識ネットワーク上に構築されており、注目層の前にアイテムの埋め込みとサイド情報埋め込みを統合する様々なソリューションの探索に重点を置いている。 しかし, 各種埋め込みの早期統合は, ランクボトルネックによる注意行列の表現性を制限し, 勾配の柔軟性を制限していることを示す。 また、異種情報資源間の相互相関が混在し、注意の計算に余分な障害をもたらす。 そこで本研究では,入力から注目層へ側情報を移動させ,様々な側情報と項目表現の注意計算を分離する逐次レコメンデーション(dif-sr)のための分離側情報融合を提案する。 我々は,提案手法が高次注意行列とフレキシブル勾配を許容し,サイド情報融合のモデル化能力を高めることを理論的かつ実証的に示す。 また、副属性予測器を提案し、副次情報と項目表現学習の有益な相互作用をさらに活性化させる。 4つの実世界のデータセットに対する大規模な実験により、提案手法が最先端のSRモデルより安定して優れていることが示された。 さらなる研究により,提案手法は注目型SRモデルに容易に組み込むことができ,性能が著しく向上することが示された。 ソースコードはhttps://github.com/AIM-SE/DIF-SRで公開されています。

Side information fusion for sequential recommendation (SR) aims to effectively leverage various side information to enhance the performance of next-item prediction. Most state-of-the-art methods build on self-attention networks and focus on exploring various solutions to integrate the item embedding and side information embeddings before the attention layer. However, our analysis shows that the early integration of various types of embeddings limits the expressiveness of attention matrices due to a rank bottleneck and constrains the flexibility of gradients. Also, it involves mixed correlations among the different heterogeneous information resources, which brings extra disturbance to attention calculation. Motivated by this, we propose Decoupled Side Information Fusion for Sequential Recommendation (DIF-SR), which moves the side information from the input to the attention layer and decouples the attention calculation of various side information and item representation. We theoretically and empirically show that the proposed solution allows higher-rank attention matrices and flexible gradients to enhance the modeling capacity of side information fusion. Also, auxiliary attribute predictors are proposed to further activate the beneficial interaction between side information and item representation learning. Extensive experiments on four real-world datasets demonstrate that our proposed solution stably outperforms state-of-the-art SR models. Further studies show that our proposed solution can be readily incorporated into current attention-based SR models and significantly boost performance. Our source code is available at https://github.com/AIM-SE/DIF-SR.
翻訳日:2022-04-26 14:49:56 公開日:2022-04-23
# 深いガウス過程に基づくサイクロンを用いた気象影響画像の教師なし復元

Unsupervised Restoration of Weather-affected Images using Deep Gaussian Process-based CycleGAN ( http://arxiv.org/abs/2204.10970v1 )

ライセンス: Link先を確認
Rajeev Yasarla, Vishwanath A. Sindagi, Vishal M. Patel(参考訳) 既存の気象劣化画像の復元アプローチは、完全に監督されたパラダイムに従っており、トレーニングにはペアデータが必要である。 しかし、天候劣化のためのペアデータ収集は極めて困難であり、既存の手法では合成データのトレーニングが行われる。 本稿では,この問題を解決するために,cycleganに基づく深層ネットワークの監視手法を提案する。 具体的には、より効果的なトレーニングにつながるCycleGANのトレーニングに新たな損失を導入し、高品質な再構築を実現した。 これらの新たな損失は、予測されたクリーンイメージとオリジナルクリーンイメージの潜時空間埋め込みをDeep Gaussian Processesを通じて共同でモデル化することで得られる。 これにより、cycleganアーキテクチャは、知識をあるドメイン(さらに分解)から別のドメイン(クリーン)へより効果的に転送することができる。 提案手法は, 脱レイ, 脱ヘイジング, 脱スノーイングなどの異なる修復作業に効果的に適用できることを実証し, 気象特性を利用した他の教師なし手法をかなりのマージンで上回ることを示した。

Existing approaches for restoring weather-degraded images follow a fully-supervised paradigm and they require paired data for training. However, collecting paired data for weather degradations is extremely challenging, and existing methods end up training on synthetic data. To overcome this issue, we describe an approach for supervising deep networks that are based on CycleGAN, thereby enabling the use of unlabeled real-world data for training. Specifically, we introduce new losses for training CycleGAN that lead to more effective training, resulting in high-quality reconstructions. These new losses are obtained by jointly modeling the latent space embeddings of predicted clean images and original clean images through Deep Gaussian Processes. This enables the CycleGAN architecture to transfer the knowledge from one domain (weather-degraded) to another (clean) more effectively. We demonstrate that the proposed method can be effectively applied to different restoration tasks like de-raining, de-hazing and de-snowing and it outperforms other unsupervised techniques (that leverage weather-based characteristics) by a considerable margin.
翻訳日:2022-04-26 14:24:56 公開日:2022-04-23
# 予測文脈事前学習による点雲の表面再構成

Surface Reconstruction from Point Clouds by Learning Predictive Context Priors ( http://arxiv.org/abs/2204.11015v1 )

ライセンス: Link先を確認
Baorui Ma, Yu-Shen Liu, Matthias Zwicker, Zhizhong Han(参考訳) ポイントクラウドによる表面再構成は3次元コンピュータビジョンに不可欠である。 State-of-the-artメソッドは大規模なデータセットを利用して、まずローカルコンテキストを学習し、ローカルコンテキストを符号化するパラメータを持つニューラルネットワークベースの符号付き距離関数(SDF)として表現される。 推論時に特定のクエリロケーションでサーフェスを再構成するために、これらの手法は、与えられたクエリロケーションで(ローカルコンテキストを符号化するパラメータを最適化することによって)局所的な事前空間のベストマッチを探索することにより、ローカルな再構成ターゲットにマッチする。 しかし、これに先立ってローカルなコンテキストが必要となり、未発見の広範囲な対象領域に一般化することは困難である。 この問題を解決するために,特定の点群毎に予測的クエリを推論時に学習することで予測的コンテキスト優先を導入する。 具体的には,従来の手法と同様の大規模クラウドデータセットを用いて,まずローカルコンテキストをトレーニングする。 しかし, 予測クエリを学習することで予測コンテキストに先行する局所的文脈を特殊化し, 調整された空間的問合せ位置を元の位置の変位として予測する。 これは、特定のポイントクラウドに最も合うグローバルなSDFにつながります。 直観的には、クエリ予測は、固定されたクエリロケーションに制限されるのではなく、事前空間全体に先立って学習したローカルコンテキストを柔軟に検索することができる。 提案手法では, 符号付き距離, 正規化, あるいは重なり合う領域にまたがる符号付き距離融合の追加手順は不要である。 単一形状や複雑なシーンの表面再構成実験の結果, 広く使用されているベンチマークにおいて, 最先端よりも著しく改善が見られた。

Surface reconstruction from point clouds is vital for 3D computer vision. State-of-the-art methods leverage large datasets to first learn local context priors that are represented as neural network-based signed distance functions (SDFs) with some parameters encoding the local contexts. To reconstruct a surface at a specific query location at inference time, these methods then match the local reconstruction target by searching for the best match in the local prior space (by optimizing the parameters encoding the local context) at the given query location. However, this requires the local context prior to generalize to a wide variety of unseen target regions, which is hard to achieve. To resolve this issue, we introduce Predictive Context Priors by learning Predictive Queries for each specific point cloud at inference time. Specifically, we first train a local context prior using a large point cloud dataset similar to previous techniques. For surface reconstruction at inference time, however, we specialize the local context prior into our Predictive Context Prior by learning Predictive Queries, which predict adjusted spatial query locations as displacements of the original locations. This leads to a global SDF that fits the specific point cloud the best. Intuitively, the query prediction enables us to flexibly search the learned local context prior over the entire prior space, rather than being restricted to the fixed query locations, and this improves the generalizability. Our method does not require ground truth signed distances, normals, or any additional procedure of signed distance fusion across overlapping regions. Our experimental results in surface reconstruction for single shapes or complex scenes show significant improvements over the state-of-the-art under widely used benchmarks.
翻訳日:2022-04-26 14:23:20 公開日:2022-04-23
# 消去による学習:条件エントロピーに基づく移動可能分布外検出

Learning by Erasing: Conditional Entropy based Transferable Out-Of-Distribution Detection ( http://arxiv.org/abs/2204.11041v1 )

ライセンス: Link先を確認
Meng Xing, Zhiyong Feng, Yong Su and Changjae Oh(参考訳) out-of-distribution (ood)検出は、トレーニングとテストシナリオ間の分散シフトを処理するために不可欠である。 新しいin-distribution(id)データセットでは、既存のメソッドがデータセット固有の特徴表現やデータ分散をキャプチャするために再トレーニングする必要がある。 本稿では,新しいIDデータセットで再トレーニングする必要がないDGMに基づく転送可能なOOD検出手法を提案する。 我々は,各IDデータセットに排他的条件エントロピー分布を付与する画像消去戦略を設計し,異なるIDデータセット上でのDGMの後方確率分布の相違を判定する。 畳み込みニューラルネットワークの強力な表現能力のため、複雑なデータセットに基づいてトレーニングされたモデルでは、上記のIDデータセット間の不一致を再トレーニングすることなく捉え、転送可能なOOD検出を実現することができる。 提案手法を5つのデータセットに対して検証し,新しいIDデータセットにデプロイするために再トレーニングが必要な最先端グループベースのOOD検出手法に匹敵する性能を実現する。 私たちのコードはhttps://github.com/oohcioo/cetoodで利用可能です。

Out-of-distribution (OOD) detection is essential to handle the distribution shifts between training and test scenarios. For a new in-distribution (ID) dataset, existing methods require retraining to capture the dataset-specific feature representation or data distribution. In this paper, we propose a deep generative models (DGM) based transferable OOD detection method, which is unnecessary to retrain on a new ID dataset. We design an image erasing strategy to equip exclusive conditional entropy distribution for each ID dataset, which determines the discrepancy of DGM's posteriori ucertainty distribution on different ID datasets. Owing to the powerful representation capacity of convolutional neural networks, the proposed model trained on complex dataset can capture the above discrepancy between ID datasets without retraining and thus achieve transferable OOD detection. We validate the proposed method on five datasets and verity that ours achieves comparable performance to the state-of-the-art group based OOD detection methods that need to be retrained to deploy on new ID datasets. Our code is available at https://github.com/oOHCIOo/CETOOD.
翻訳日:2022-04-26 14:22:52 公開日:2022-04-23
# ロバストなセマンティックセグメンテーションのためのペアワイズ比較による学習形状優先

Learning Shape Priors by Pairwise Comparison for Robust Semantic Segmentation ( http://arxiv.org/abs/2204.11090v1 )

ライセンス: Link先を確認
Cong Xie, Hualuo Liu, Shilei Cao, Dong Wei, Kai Ma, Liansheng Wang, Yefeng Zheng(参考訳) 医用画像解析ではセマンティックセグメンテーションが重要である。 近年,従来の画像解析技術による形状前処理やオブジェクト間類似性の強い能力に触発されて,このような先行情報を活用するために多くのディープラーニング(DL)モデルが提案されている。 しかしながら、これらの2つの重要な事前情報は通常、既存のモデルで別々に研究される。 本稿では,1つのフレームワーク内での事前の両タイプをモデル化する新しいDLモデルを提案する。 具体的には、従来のエンコーダ-デコーダ構造に余分なエンコーダを導入し、エンコーダのシームス構造を作り、一方がターゲットイメージを入力として(画像エンコーダ)、他方がテンプレート画像とその前景領域を入力として(テンプレートエンコーダ)結合する。 テンプレートエンコーダは、テンプレート画像内の各前景クラスの形状先行および出現特性を符号化する。 両エンコーダからの情報を融合し,テンプレートエンコーダによって符号化された事前情報と,各前景クラスのオブジェクト間類似度をモデル化するために,コサイン類似度に基づくアテンションモジュールを提案する。 2つの公開データセットに関する広範囲な実験により,提案手法が競合する手法よりも優れた性能をもたらすことを実証した。

Semantic segmentation is important in medical image analysis. Inspired by the strong ability of traditional image analysis techniques in capturing shape priors and inter-subject similarity, many deep learning (DL) models have been recently proposed to exploit such prior information and achieved robust performance. However, these two types of important prior information are usually studied separately in existing models. In this paper, we propose a novel DL model to model both type of priors within a single framework. Specifically, we introduce an extra encoder into the classic encoder-decoder structure to form a Siamese structure for the encoders, where one of them takes a target image as input (the image-encoder), and the other concatenates a template image and its foreground regions as input (the template-encoder). The template-encoder encodes the shape priors and appearance characteristics of each foreground class in the template image. A cosine similarity based attention module is proposed to fuse the information from both encoders, to utilize both types of prior information encoded by the template-encoder and model the inter-subject similarity for each foreground class. Extensive experiments on two public datasets demonstrate that our proposed method can produce superior performance to competing methods.
翻訳日:2022-04-26 14:22:32 公開日:2022-04-23
# シーングラフ生成のためのダイアログによる視覚不足の補足

Supplementing Missing Visions via Dialog for Scene Graph Generations ( http://arxiv.org/abs/2204.11143v1 )

ライセンス: Link先を確認
Ye Zhu, Xiaoguang Zhu, Yuzhang Shang, Zhenghao Zhao, Yan Yan(参考訳) 現在のAIシステムは、入力された視覚データが様々なコンピュータビジョンタスクで競合するパフォーマンスを達成するのに十分であるという前提に依存している。 しかし、古典的なタスク設定は、様々な理由(例えば、制限された視野範囲や閉塞)により、完全な視覚データがアクセスできないという、難しいが一般的な現実的な状況を考えることは滅多にない。 そこで本研究では,不完全な視覚入力データを用いたコンピュータビジョンタスクの設定について検討する。 具体的には、様々なレベルの視覚的データ不足を入力として、SGG(Scene Graph Generation)タスクを利用する。 視覚的インプットの不足は直感的に性能低下につながるが,自然言語対話による視覚の不足を補うことで,タスクの目的を達成することを提案する。 既存のモデルと共同で学習できるモデル非依存の補足対話(si-dial)フレームワークを設計し、現在のaiシステムを自然言語における質問・回答対話の能力で内在させる。 本稿では,視覚的入力を欠いたタスク設定の実現可能性と,複数のベースラインに対して有望な性能向上を達成し,広範囲な実験と分析を通じて補助情報として提案するダイアログモジュールの有効性を示す。

Most current AI systems rely on the premise that the input visual data are sufficient to achieve competitive performance in various computer vision tasks. However, the classic task setup rarely considers the challenging, yet common practical situations where the complete visual data may be inaccessible due to various reasons (e.g., restricted view range and occlusions). To this end, we investigate a computer vision task setting with incomplete visual input data. Specifically, we exploit the Scene Graph Generation (SGG) task with various levels of visual data missingness as input. While insufficient visual input intuitively leads to performance drop, we propose to supplement the missing visions via the natural language dialog interactions to better accomplish the task objective. We design a model-agnostic Supplementary Interactive Dialog (SI-Dial) framework that can be jointly learned with most existing models, endowing the current AI systems with the ability of question-answer interactions in natural language. We demonstrate the feasibility of such a task setting with missing visual input and the effectiveness of our proposed dialog module as the supplementary information source through extensive experiments and analysis, by achieving promising performance improvement over multiple baselines.
翻訳日:2022-04-26 14:22:07 公開日:2022-04-23
# 量子機械学習による衛星画像のバンドル調整に向けて

Towards Bundle Adjustment for Satellite Imaging via Quantum Machine Learning ( http://arxiv.org/abs/2204.11133v1 )

ライセンス: Link先を確認
Nico Piatkowski, Thore Gerlach, Romain Hugues, Rafet Sifa, Christian Bauckhage, Frederic Barbaresco(参考訳) 与えられた画像の集合は、すべての画像が異なる時点と異なる視点で同じ領域のビューを表示する。 このタスクはすべての画像のアライメントであり、例えば、ポーズ、変化、地形などの関連情報を融合画像から抽出することができる。 本研究では,これらのサブタスクの計算複雑性が要求されるため,キーポイント抽出と特徴マッチングのための量子手法に着目した。 この目的のために,k-メドロイドクラスタリング,カーネル密度クラスタリング,近接探索,およびカーネル手法について検討し,これらの手法を量子アニールやゲートベース量子コンピュータで再計算する方法を解説する。 デジタル量子エミュレーションハードウェア、量子アニーラ、量子ゲートコンピュータでの実験結果は、古典系が依然として優れた結果をもたらすことを示している。 しかし、提案手法は、近い将来に古典的システムを上回る性能を持つ量子コンピューティング装置の現在および今後の世代に向けて準備が整っている。

Given is a set of images, where all images show views of the same area at different points in time and from different viewpoints. The task is the alignment of all images such that relevant information, e.g., poses, changes, and terrain, can be extracted from the fused image. In this work, we focus on quantum methods for keypoint extraction and feature matching, due to the demanding computational complexity of these sub-tasks. To this end, k-medoids clustering, kernel density clustering, nearest neighbor search, and kernel methods are investigated and it is explained how these methods can be re-formulated for quantum annealers and gate-based quantum computers. Experimental results obtained on digital quantum emulation hardware, quantum annealers, and quantum gate computers show that classical systems still deliver superior results. However, the proposed methods are ready for the current and upcoming generations of quantum computing devices which have the potential to outperform classical systems in the near future.
翻訳日:2022-04-26 13:50:33 公開日:2022-04-23
# GFCL: IoVの敵攻撃に対するGRUベースのフェデレーション継続的学習フレームワーク

GFCL: A GRU-based Federated Continual Learning Framework against Adversarial Attacks in IoV ( http://arxiv.org/abs/2204.11010v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 5GベースのInternet of Vehicles(IoV)ネットワークにおけるMLの統合により、インテリジェントトランスポートとスマートトラフィック管理が可能になった。 それでも、敵対的攻撃に対するセキュリティもますます難しい課題になりつつある。 特に、Deep Reinforcement Learning (DRL)は、IoVアプリケーションで広く使われているML設計の1つである。 標準のMLセキュリティ技術はDRLでは有効ではなく、アルゴリズムは環境との継続的な相互作用を通じてシーケンシャルな意思決定を学習し、環境は時間変化、動的、モバイルである。 本稿では, Gated Recurrent Unit (GRU) を用いたGFCL (Federated Continuousal Learning) による, IoV の敵攻撃に対する異常検出フレームワークを提案する。 目的は、攻撃サンプルからなる訓練データセットを持たずに、不正な振る舞いを学習し、検出する軽量でスケーラブルなフレームワークを提供することである。 gruを使って将来のデータシーケンスを予測し、連合学習に基づく分散方式で車両の不正行動を分析し検出する。 実世界の車両移動度トレースを用いたフレームワークの性能調査を行った。 その結果,提案手法の有効性が示された。

The integration of ML in 5G-based Internet of Vehicles (IoV) networks has enabled intelligent transportation and smart traffic management. Nonetheless, the security against adversarial attacks is also increasingly becoming a challenging task. Specifically, Deep Reinforcement Learning (DRL) is one of the widely used ML designs in IoV applications. The standard ML security techniques are not effective in DRL where the algorithm learns to solve sequential decision-making through continuous interaction with the environment, and the environment is time-varying, dynamic, and mobile. In this paper, we propose a Gated Recurrent Unit (GRU)-based federated continual learning (GFCL) anomaly detection framework against adversarial attacks in IoV. The objective is to present a lightweight and scalable framework that learns and detects the illegitimate behavior without having a-priori training dataset consisting of attack samples. We use GRU to predict a future data sequence to analyze and detect illegitimate behavior from vehicles in a federated learning-based distributed manner. We investigate the performance of our framework using real-world vehicle mobility traces. The results demonstrate the effectiveness of our proposed solution for different performance metrics.
翻訳日:2022-04-26 13:50:16 公開日:2022-04-23
# 自己教師付き学習ベースのMOS予測ネットワークの改善

Improving Self-Supervised Learning-based MOS Prediction Networks ( http://arxiv.org/abs/2204.11030v1 )

ライセンス: Link先を確認
B\'alint Gyires-T\'oth, Csaba Zaink\'o(参考訳) MOS(Mean Opinion Score)は、システムの品質評価に使用される主観的手法である。 電気通信(音声とビデオ)と音声合成システム(音声生成)は、この手法の多くの応用の1つである。 MOSテストは広く受け入れられているが、人間の入力が必要なため、時間とコストがかかる。 さらに、システムとテスト対象が異なるため、結果は実際には同等ではない。 一方で、以前のテストの多くでは、mos値の予測が可能なマシンラーニングモデルをトレーニングすることが可能でした。 MOS値を自動予測することで、上記の2つの問題を解決することができる。 本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。 我々はlibrispeechで事前学習したwav2vec 2.0モデルをlstmおよび非線形高密度層で拡張した。 我々は,転送学習,2段階および3段階の学習手法の事前処理,バッチの定式化,ドロップアウト蓄積(より大きなバッチサイズのために),予測の定量化を導入している。 この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。

MOS (Mean Opinion Score) is a subjective method used for the evaluation of a system's quality. Telecommunications (for voice and video), and speech synthesis systems (for generated speech) are a few of the many applications of the method. While MOS tests are widely accepted, they are time-consuming and costly since human input is required. In addition, since the systems and subjects of the tests differ, the results are not really comparable. On the other hand, a large number of previous tests allow us to train machine learning models that are capable of predicting MOS value. By automatically predicting MOS values, both the aforementioned issues can be resolved. The present work introduces data-, training- and post-training specific improvements to a previous self-supervised learning-based MOS prediction model. We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layers. We introduced transfer learning, target data preprocessing a two- and three-phase training method with different batch formulations, dropout accumulation (for larger batch sizes) and quantization of the predictions. The methods are evaluated using the shared synthetic speech dataset of the first Voice MOS challenge.
翻訳日:2022-04-26 13:49:59 公開日:2022-04-23
# スパース正規化のための分散動的安全スクリーニングアルゴリズム

Distributed Dynamic Safe Screening Algorithms for Sparse Regularization ( http://arxiv.org/abs/2204.10981v1 )

ライセンス: Link先を確認
Runxue Bao, Xidong Wu, Wenhan Xian, Heng Huang(参考訳) 分散最適化は大規模サンプルを用いたモデルトレーニングの最も効率的な方法の1つとして広く使われている。 しかし,大規模サンプルと高次元特徴を持つ大規模学習問題は,ビッグデータ時代において広く存在する。 セーフスクリーニングは、非活性な特徴をゼロ係数で捨てることで高次元モデルを高速化する一般的な手法である。 それでも、既存の安全なスクリーニング方法はシーケンシャルな設定に限られている。 本稿では,分散動的セーフスクリーニング(ddss)法を提案し,共有メモリと分散メモリアーキテクチャにそれぞれ適用することで,モデルとデータセットのスパース性を同時に享受することで,精度を損なうことなく大幅な高速化を実現する。 我々の知る限りでは、これは分散安全な動的スクリーニング法の最初の成果である。 理論的には,提案手法が全体の複雑さを小さくして線形収束率を達成し,有限個の反復においてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。 最後に,ベンチマークデータセットの広範な実験結果から,提案手法が優れていることを確認した。

Distributed optimization has been widely used as one of the most efficient approaches for model training with massive samples. However, large-scale learning problems with both massive samples and high-dimensional features widely exist in the era of big data. Safe screening is a popular technique to speed up high-dimensional models by discarding the inactive features with zero coefficients. Nevertheless, existing safe screening methods are limited to the sequential setting. In this paper, we propose a new distributed dynamic safe screening (DDSS) method for sparsity regularized models and apply it on shared-memory and distributed-memory architecture respectively, which can achieve significant speedup without any loss of accuracy by simultaneously enjoying the sparsity of the model and dataset. To the best of our knowledge, this is the first work of distributed safe dynamic screening method. Theoretically, we prove that the proposed method achieves the linear convergence rate with lower overall complexity and can eliminate almost all the inactive features in a finite number of iterations almost surely. Finally, extensive experimental results on benchmark datasets confirm the superiority of our proposed method.
翻訳日:2022-04-26 13:47:15 公開日:2022-04-23
# 容積型医用画像分割のための連合型コントラスト学習

Federated Contrastive Learning for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2204.10983v1 )

ライセンス: Link先を確認
Yawen Wu, Dewen Zeng, Zhepeng Wang, Yiyu Shi, Jingtong Hu(参考訳) 教師付きディープラーニングは、ハイパフォーマンスを達成するために大量のラベル付きデータを必要とする。 しかし、医用画像解析では、各サイトは限られた量のデータとラベルしか持たず、学習を効果的にしない。 フェデレートラーニング(FL)は、プライバシのためのトレーニングデータをローカルに保持しながら、共有モデルを学ぶことで、この点において役立つ。 従来のflはトレーニングのために完全なラベル付きデータを必要としており、高いラベルのコストと専門知識の要求のために不便あるいは時には取得が不可能である。 自己教師付き学習アプローチとしてのコントラスト学習(cl)は、ラベルのないデータから効果的に学習し、ニューラルネットワークエンコーダを事前学習し、少ないアノテーションで下流タスクを微調整することができる。 しかし、FLにおいてCLを採用する場合、各クライアント上の限られたデータ多様性は、FCL(Federated contrastive Learning)を非効率にする。 本稿では,限定的なアノテーションを用いたボリュームカルメディカルイメージセグメンテーションのためのfclフレームワークを提案する。 より具体的には、FCL事前学習プロセスの特徴を交換し、多様なコントラストデータを各サイトに提供し、生データをプライベートに保ちながら効率的なローカルCLを実現する。 交換された特徴に基づいて、グローバル構造マッチングはさらに構造的類似性を活用し、異なるサイト間で統一された特徴空間を学べるように、ローカルな特徴をリモートの特徴に合わせる。 心臓MRIデータセットを用いた実験により,提案手法は最先端技術と比較してセグメンテーション性能を大幅に向上することが示された。

Supervised deep learning needs a large amount of labeled data to achieve high performance. However, in medical imaging analysis, each site may only have a limited amount of data and labels, which makes learning ineffective. Federated learning (FL) can help in this regard by learning a shared model while keeping training data local for privacy. Traditional FL requires fully-labeled data for training, which is inconvenient or sometimes infeasible to obtain due to high labeling cost and the requirement of expertise. Contrastive learning (CL), as a self-supervised learning approach, can effectively learn from unlabeled data to pre-train a neural network encoder, followed by fine-tuning for downstream tasks with limited annotations. However, when adopting CL in FL, the limited data diversity on each client makes federated contrastive learning (FCL) ineffective. In this work, we propose an FCL framework for volumetric medical image segmentation with limited annotations. More specifically, we exchange the features in the FCL pre-training process such that diverse contrastive data are provided to each site for effective local CL while keeping raw data private. Based on the exchanged features, global structural matching further leverages the structural similarity to align local features to the remote ones such that a unified feature space can be learned among different sites. Experiments on a cardiac MRI dataset show the proposed framework substantially improves the segmentation performance compared with state-of-the-art techniques.
翻訳日:2022-04-26 13:46:28 公開日:2022-04-23
# 空間変換DenseNetを用いた転移不変癌組織分類

Transformation Invariant Cancerous Tissue Classification Using Spatially Transformed DenseNet ( http://arxiv.org/abs/2204.11066v1 )

ライセンス: Link先を確認
Omar Mahdi, Ali Bou Nassif(参考訳) そこで本研究では, 癌組織の非変分分類のための空間変換型DenseNetアーキテクチャを提案する。 我々のアーキテクチャはベース・デンジネット・アーキテクチャの精度を高め、変換不変な方法で操作する能力も加えつつ、ある種の不変性を提供しようとする他のモデルよりもシンプルである。

In this work, we introduce a spatially transformed DenseNet architecture for transformation invariant classification of cancer tissue. Our architecture increases the accuracy of the base DenseNet architecture while adding the ability to operate in a transformation invariant way while simultaneously being simpler than other models that try to provide some form of invariance.
翻訳日:2022-04-26 13:46:03 公開日:2022-04-23
# 幾何損失関数を用いた球面回転次元の低減

Spherical Rotation Dimension Reduction with Geometric Loss Functions ( http://arxiv.org/abs/2204.10975v1 )

ライセンス: Link先を確認
Hengrui Luo, Didong Li(参考訳) 現代のデータセットは、彼らが住んでいる空間の高次元と非自明なジオメトリを目撃する。 データ分析では、データセットの幾何学的構造を維持しながら、次元性を減らすのに役立ちます。 そこで本研究では,幾何学的情報を組み込んだ一般次元縮小手法を提案する。 我々の球面回転成分分析(SRCA)は、球面または楕円体を用いて低次元多様体を近似する次元還元法である。 本手法は, 理論やアルゴリズムの観点から球面成分分析(spca)法を一般化するだけでなく, 理論的保証を伴う最適化問題として, データの低ランク表現構造保存問題として, 本手法の包括的比較を行う。 最先端の競合製品と比較すると、サブスペースを少ないコンポーネントで正確に近似でき、構造的保存性も向上している。 さらに,本手法は,次元縮小タスクにおいて幾何的に誘導される損失関数を使用するという,より壮大なアイデアの具体化であることを示した。

Modern datasets witness high-dimensionality and nontrivial geometries of spaces they live in. It would be helpful in data analysis to reduce the dimensionality while retaining the geometric structure of the dataset. Motivated by this observation, we propose a general dimension reduction method by incorporating geometric information. Our Spherical Rotation Component Analysis (SRCA) is a dimension reduction method that uses spheres or ellipsoids, to approximate a low-dimensional manifold. This method not only generalizes the Spherical Component Analysis (SPCA) method in terms of theories and algorithms and presents a comprehensive comparison of our method, as an optimization problem with theoretical guarantee and also as a structural preserving low-rank representation of data. Results relative to state-of-the-art competitors show considerable gains in ability to accurately approximate the subspace with fewer components and better structural preserving. In addition, we have pointed out that this method is a specific incarnation of a grander idea of using a geometrically induced loss function in dimension reduction tasks.
翻訳日:2022-04-26 13:41:55 公開日:2022-04-23
# mucgec:中国語文法誤り訂正のためのマルチリファレンスマルチソース評価データセット

MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction ( http://arxiv.org/abs/2204.10994v1 )

ライセンス: Link先を確認
Yue Zhang, Zhenghua Li, Zuyi Bao, Jiacheng Li, Bo Zhang, Chen Li, Fei Huang, Min Zhang(参考訳) 本稿では,中国語文法誤り訂正(cgec)のための多元多元評価データセットであるmucgecについて,3つの異なる中国語-as-a-second-language(csl)学習者から収集した7,063文からなる。 各文は3つの注釈によって訂正され、その修正は専門家によって細心の注意を払ってレビューされ、1文あたり2.3参照となる。 我々は2つの主要なCGECモデル(Seq2Seq)とSeq2Edit(Seq2Edit)モデル(Seq2Edit)で実験を行い、どちらも大きな事前学習言語モデル(PLM)で拡張され、前回および我々のデータセット上で競合ベンチマーク性能を達成する。 また、複数参照の効果やシャルベースメトリクスを用いたCGEC評価手法についても論じる。 私たちのアノテーションガイドライン、データ、コードは、 \url{https://github.com/HillZhang 1999/MuCGEC}で利用可能です。

This paper presents MuCGEC, a multi-reference multi-source evaluation dataset for Chinese Grammatical Error Correction (CGEC), consisting of 7,063 sentences collected from three different Chinese-as-a-Second-Language (CSL) learner sources. Each sentence has been corrected by three annotators, and their corrections are meticulously reviewed by an expert, resulting in 2.3 references per sentence. We conduct experiments with two mainstream CGEC models, i.e., the sequence-to-sequence (Seq2Seq) model and the sequence-to-edit (Seq2Edit) model, both enhanced with large pretrained language models (PLMs), achieving competitive benchmark performance on previous and our datasets. We also discuss CGEC evaluation methodologies, including the effect of multiple references and using a char-based metric. Our annotation guidelines, data, and code are available at \url{https://github.com/HillZhang1999/MuCGEC}.
翻訳日:2022-04-26 13:39:42 公開日:2022-04-23
# wikimulti:クロスリンガル要約のためのコーパス

WikiMulti: a Corpus for Cross-Lingual Summarization ( http://arxiv.org/abs/2204.11104v1 )

ライセンス: Link先を確認
Pavel Tikhonov, Valentin Malykh(参考訳) 言語間要約(CLS)は、異なる言語のソース文書に対して、ある特定の言語で要約を生成するタスクである。 我々は,wikipediaの記事に基づく言語横断要約のための新しいデータセットwikimultiを15言語で紹介する。 さらなる研究のベースラインとして、既存の言語間抽象的な要約手法の性能をデータセット上で評価する。 データセットをここで公開しています。 https://github.com/tikhonovpavel/wikimulti

Cross-lingual summarization (CLS) is the task to produce a summary in one particular language for a source document in a different language. We introduce WikiMulti - a new dataset for cross-lingual summarization based on Wikipedia articles in 15 languages. As a set of baselines for further studies, we evaluate the performance of existing cross-lingual abstractive summarization methods on our dataset. We make our dataset publicly available here: https://github.com/tikhonovpavel/wikimulti
翻訳日:2022-04-26 13:39:23 公開日:2022-04-23
# リカレントスパース再建による視覚注意の創出

Visual Attention Emerges from Recurrent Sparse Reconstruction ( http://arxiv.org/abs/2204.10962v1 )

ライセンス: Link先を確認
Baifeng Shi, Yale Song, Neel Joshi, Trevor Darrell, Xin Wang(参考訳) 視覚の注意は、現代のニューラルネットワークが不足している領域である人間の視覚におけるノイズ、腐敗、分布シフトの下での堅牢な知覚を達成するのに役立つ。 本稿では,人間の視覚的注意機構の2つの特徴に基づく新たな注意体系であるVARS(Recurrent Sparse Restruction)について紹介する。 関連した特徴は、ニューロン間のリカレントな接続を通じてグループ化される。 VARSは、時間とともに安定したパターンに収束する繰り返し接続を持つアトラクタネットワークを採用する。 ネットワーク層は通常の微分方程式(odes)として表現され、データの基本パターンを符号化する"テンプレート"の辞書を使って入力のスパース再構成を等価に最適化する再帰的アトラクタネットワークとして注意を喚起する。 自己注意は単一ステップ最適化と空間制約のないVARSの特殊な場合であることを示す。 VARSは、一般的な視覚変換器における自己注意の代替として容易に利用でき、様々なベンチマークでその堅牢性を一貫して改善することができる。 コードはgithubで公開されている(https://github.com/bfshi/vars)。

Visual attention helps achieve robust perception under noise, corruption, and distribution shifts in human vision, which are areas where modern neural networks still fall short. We present VARS, Visual Attention from Recurrent Sparse reconstruction, a new attention formulation built on two prominent features of the human visual attention mechanism: recurrency and sparsity. Related features are grouped together via recurrent connections between neurons, with salient objects emerging via sparse regularization. VARS adopts an attractor network with recurrent connections that converges toward a stable pattern over time. Network layers are represented as ordinary differential equations (ODEs), formulating attention as a recurrent attractor network that equivalently optimizes the sparse reconstruction of input using a dictionary of "templates" encoding underlying patterns of data. We show that self-attention is a special case of VARS with a single-step optimization and no sparsity constraint. VARS can be readily used as a replacement for self-attention in popular vision transformers, consistently improving their robustness across various benchmarks. Code is released on GitHub (https://github.com/bfshi/VARS).
翻訳日:2022-04-26 12:59:31 公開日:2022-04-23
# 合成データセット設計によるニューラルアーキテクチャの研究

Investigating Neural Architectures by Synthetic Dataset Design ( http://arxiv.org/abs/2204.11045v1 )

ライセンス: Link先を確認
Adrien Courtois, Jean-Michel Morel, Pablo Arias(参考訳) 近年、多くの新しいニューラルネットワーク構造(アーキテクチャとレイヤ)が出現している。 与えられたタスクを解決するためには、ネットワークはその構造に反映されるある種の能力を必要とする。 必要な能力はそれぞれのタスクに依存する。 今のところ、提案された神経構造の実際の能力に関する体系的な研究はない。 それぞれの構造が何ができるのか、達成できないのかという問題は、共通ベンチマークのパフォーマンスによって部分的に答えられるだけである。 実際、自然データは複雑な未知の統計的手がかりを含んでいる。 したがって、与えられた神経構造がそのようなデータで何を利用するのかを知ることは不可能である。 本研究では,アドホックな合成データセットを設計することにより,各構造がネットワーク能力に与える影響を測定する手法をスケッチする。 各データセットは、与えられた能力を評価するために調整され、最も単純な形式に還元される。 以下の3つのネットワーク特性のそれぞれを評価するために3つのデータセットを構築することで、我々の方法論を説明する。 a) 遠方の推論と局所的な手がかりを関連付ける能力 b) 翻訳共変性及び c)同じ特性の画素をグループ化し、情報を共有できる能力。 最初の簡易な深度推定データセットを用いて、U-Netの深刻な非局所的欠陥を特定する。 次に,その構造を非局所層に埋め込むことで,この制約を解決する方法を評価する。 第2のデータセットを用いて、異なる位置符号化法を比較し、結果を用いて深度推定タスクにおけるU-Netをさらに改善する。 第3のデータセットは、より現実的な奥行き推定タスクを解決するためのセルフアテンションのようなメカニズムの必要性を示すのに役立つ。

Recent years have seen the emergence of many new neural network structures (architectures and layers). To solve a given task, a network requires a certain set of abilities reflected in its structure. The required abilities depend on each task. There is so far no systematic study of the real capacities of the proposed neural structures. The question of what each structure can and cannot achieve is only partially answered by its performance on common benchmarks. Indeed, natural data contain complex unknown statistical cues. It is therefore impossible to know what cues a given neural structure is taking advantage of in such data. In this work, we sketch a methodology to measure the effect of each structure on a network's ability, by designing ad hoc synthetic datasets. Each dataset is tailored to assess a given ability and is reduced to its simplest form: each input contains exactly the amount of information needed to solve the task. We illustrate our methodology by building three datasets to evaluate each of the three following network properties: a) the ability to link local cues to distant inferences, b) the translation covariance and c) the ability to group pixels with the same characteristics and share information among them. Using a first simplified depth estimation dataset, we pinpoint a serious nonlocal deficit of the U-Net. We then evaluate how to resolve this limitation by embedding its structure with nonlocal layers, which allow computing complex features with long-range dependencies. Using a second dataset, we compare different positional encoding methods and use the results to further improve the U-Net on the depth estimation task. The third introduced dataset serves to demonstrate the need for self-attention-like mechanisms for resolving more realistic depth estimation tasks.
翻訳日:2022-04-26 12:40:54 公開日:2022-04-23
# 大規模マルチタスク学習におけるタスク転送可能性の役割の検討

Exploring the Role of Task Transferability in Large-Scale Multi-Task Learning ( http://arxiv.org/abs/2204.11117v1 )

ライセンス: Link先を確認
Vishakh Padmakumar, Leonard Lausen, Miguel Ballesteros, Sheng Zha, He He, George Karypis(参考訳) 近年の研究では,多種多様なタスクによるマルチタスクトレーニングは,見当たらない目標タスクのダウンストリーム性能を均一に向上できることがわかった。 対照的に、タスク転送可能性に関する文献では、中間タスクの選択が下流タスクのパフォーマンスに大きく影響を与えることが確認されている。 本研究の目的は,マルチタスク表現学習におけるタスクのスケールと関連性の影響を解消することである。 平均して、タスク数の観点からみると、マルチタスク学習の規模が増加すると、より小さなマルチタスク設定よりも優れた学習表現が得られることが分かっています。 しかし、対象のタスクが事前にわかっている場合、関連するタスクのより小さなセットでのトレーニングは、計算コストの低減による大規模マルチタスクトレーニングと競合する。

Recent work has found that multi-task training with a large number of diverse tasks can uniformly improve downstream performance on unseen target tasks. In contrast, literature on task transferability has established that the choice of intermediate tasks can heavily affect downstream task performance. In this work, we aim to disentangle the effect of scale and relatedness of tasks in multi-task representation learning. We find that, on average, increasing the scale of multi-task learning, in terms of the number of tasks, indeed results in better learned representations than smaller multi-task setups. However, if the target tasks are known ahead of time, then training on a smaller set of related tasks is competitive to the large-scale multi-task training at a reduced computational cost.
翻訳日:2022-04-26 12:39:42 公開日:2022-04-23
# グラフニューラルネットワークのための強化因果説明器

Reinforced Causal Explainer for Graph Neural Networks ( http://arxiv.org/abs/2204.11028v1 )

ライセンス: Link先を確認
Xiang Wang, Yingxin Wu, An Zhang, Fuli Feng, Xiangnan He, Tat-Seng Chua(参考訳) グラフニューラルネットワーク(gnns)の探索には説明可能性が不可欠であり、“なぜgnnモデルは特定の予測を行うのか? 特徴属性は入力グラフの説明部分グラフをハイライトする一般的な手法であり、GNNモデルをその予測に導くことが妥当である。 様々な帰属法は、エッジの帰属として勾配的または注意的スコアを活用し、説明としてトップ帰属スコアを持つサルエントエッジを選択する。 選択されたエッジは線形的に独立しているため、エッジ間の依存関係は、特に連立効果など、ほとんど探索されていないままである。 我々は、この仮定の明白な欠点を、説明文を不信かつ冗長なものにする。 この課題に対処するために、強化学習エージェントReinforced Causal Explainer (RC-Explainer)を提案する。 説明サブグラフは、以前に選択されたサブグラフを接続するために、有能なエッジを追加することによって、順次構築される。 技術的には、そのポリシーネットワークはエッジ追加のアクションを予測し、その予測に対するアクションの因果効果を定量化する報酬を得る。 このような報酬は、新しく追加されたエッジと以前に追加されたエッジの依存関係を考慮し、彼らが協力し、より良い説明を追求する連合を形成するかどうかを反映している。 このように、rc-explainer は忠実で簡潔な説明を生成でき、見当たらないグラフに対するより良い一般化力を持つ。 3つのグラフ分類データセットで異なるgnnを説明するとき、rc-explainerはsomaアプローチの予測精度とコントラストを向上し、健全性チェックと視覚的検査を安全にパスする。 コードはhttps://github.com/xiangwang1223/reinforced_causal_explainerで入手できる。

Explainability is crucial for probing graph neural networks (GNNs), answering questions like "Why the GNN model makes a certain prediction?". Feature attribution is a prevalent technique of highlighting the explanatory subgraph in the input graph, which plausibly leads the GNN model to make its prediction. Various attribution methods exploit gradient-like or attention scores as the attributions of edges, then select the salient edges with top attribution scores as the explanation. However, most of these works make an untenable assumption - the selected edges are linearly independent - thus leaving the dependencies among edges largely unexplored, especially their coalition effect. We demonstrate unambiguous drawbacks of this assumption - making the explanatory subgraph unfaithful and verbose. To address this challenge, we propose a reinforcement learning agent, Reinforced Causal Explainer (RC-Explainer). It frames the explanation task as a sequential decision process - an explanatory subgraph is successively constructed by adding a salient edge to connect the previously selected subgraph. Technically, its policy network predicts the action of edge addition, and gets a reward that quantifies the action's causal effect on the prediction. Such reward accounts for the dependency of the newly-added edge and the previously-added edges, thus reflecting whether they collaborate together and form a coalition to pursue better explanations. As such, RC-Explainer is able to generate faithful and concise explanations, and has a better generalization power to unseen graphs. When explaining different GNNs on three graph classification datasets, RC-Explainer achieves better or comparable performance to SOTA approaches w.r.t. predictive accuracy and contrastivity, and safely passes sanity checks and visual inspections. Codes are available at https://github.com/xiangwang1223/reinforced_causal_explainer.
翻訳日:2022-04-26 12:39:29 公開日:2022-04-23
# Google Research Footballにおけるグラフニューラルネットワークベースのエージェント

Graph Neural Network based Agent in Google Research Football ( http://arxiv.org/abs/2204.11142v1 )

ライセンス: Link先を確認
Yizhan Niu, Jinglong Liu, Yuhao Shi, Jiren Zhu(参考訳) deep neural networks (dnn)は強化学習のための値関数やポリシーを近似することができ、強化学習アルゴリズムをより強力にする。 しかし、畳み込みニューラルネットワーク(CNN)のような一部のDNNは、強化学習の特定の状況下で入力から十分な情報を抽出したり、十分な特徴を得るのに時間がかかりすぎる。 例えば、Google Research Footballの入力データは、エージェントにサッカーを訓練する強化学習環境であり、選手の位置の小さなマップである。 情報はプレイヤーの座標だけでなく、プレイヤー間の関係にも含まれている。 CNNは十分な情報を抽出することも、トレーニングに時間がかかりすぎることもできない。 本稿では,グラフニューラルネットワーク(gnn)をモデルとした深層q学習ネットワーク(dqn)を提案する。 gnnは入力データをグラフに変換し、サッカー選手の位置をよりよく表現し、異なる選手間の相互作用に関するより多くの情報を抽出する。 2つのGNNが局所的および目標値関数を近似するので、このDQNはプレイヤーが値関数を使用して各アクションの予測値を見ることによって経験から学ぶことができる。 提案モデルは,他のDRLモデルよりも格段に少ないステップで性能を向上することにより,フットボールゲームにおけるGNNのパワーを実証した。

Deep neural networks (DNN) can approximate value functions or policies for reinforcement learning, which makes the reinforcement learning algorithms more powerful. However, some DNNs, such as convolutional neural networks (CNN), cannot extract enough information or take too long to obtain enough features from the inputs under specific circumstances of reinforcement learning. For example, the input data of Google Research Football, a reinforcement learning environment which trains agents to play football, is the small map of players' locations. The information is contained not only in the coordinates of players, but also in the relationships between different players. CNNs can neither extract enough information nor take too long to train. To address this issue, this paper proposes a deep q-learning network (DQN) with a graph neural network (GNN) as its model. The GNN transforms the input data into a graph which better represents the football players' locations so that it extracts more information of the interactions between different players. With two GNNs to approximate its local and target value functions, this DQN allows players to learn from their experience by using value functions to see the prospective value of each intended action. The proposed model demonstrated the power of GNN in the football game by outperforming other DRL models with significantly fewer steps.
翻訳日:2022-04-26 12:37:52 公開日:2022-04-23
# $\pi$BO: ベイズ最適化のためのユーザ信念による買収関数の拡張

$\pi$BO: Augmenting Acquisition Functions with User Beliefs for Bayesian Optimization ( http://arxiv.org/abs/2204.11051v1 )

ライセンス: Link先を確認
Carl Hvarfner, Danny Stoll, Artur Souza, Marius Lindauer, Frank Hutter, Luigi Nardi(参考訳) ベイズ最適化(BO)は機械学習(ML)アルゴリズムのハイパーパラメータ最適化(HPO)のための確立されたフレームワークであり、一般的なツールとなっている。 サンプル効率で知られているが、バニラBOは、実践者が最適位置の潜在的な位置について、容易に利用できる事前の信念を利用できない。 このようにBOは貴重な情報ソースを無視し、ML実践者へのアピールを減らす。 この問題を解決するために,ユーザが提供した確率分布の形で,最適位置に関する事前の信念を組み込んだ買収関数の一般化である$\pi$BOを提案する。 従来のアプローチとは異なり、$\pi$BOは概念的にはシンプルで、既存のライブラリや多くの取得関数と簡単に統合できる。 一般に期待されている改善獲得関数に$\pi$BOを適用すると、その前と独立に正規レートでの収束が証明される。 さらに、実験の結果、$\pi$BOは、幅広いベンチマークと先行特性で競合するアプローチよりも優れていることがわかった。 また、一般的なディープラーニングタスクの最先端パフォーマンスを$\pi$BOで改善し、12.5$\times$Time-to-accuracy BO のアプローチよりも高速であることを示す。

Bayesian optimization (BO) has become an established framework and popular tool for hyperparameter optimization (HPO) of machine learning (ML) algorithms. While known for its sample-efficiency, vanilla BO can not utilize readily available prior beliefs the practitioner has on the potential location of the optimum. Thus, BO disregards a valuable source of information, reducing its appeal to ML practitioners. To address this issue, we propose $\pi$BO, an acquisition function generalization which incorporates prior beliefs about the location of the optimum in the form of a probability distribution, provided by the user. In contrast to previous approaches, $\pi$BO is conceptually simple and can easily be integrated with existing libraries and many acquisition functions. We provide regret bounds when $\pi$BO is applied to the common Expected Improvement acquisition function and prove convergence at regular rates independently of the prior. Further, our experiments show that $\pi$BO outperforms competing approaches across a wide suite of benchmarks and prior characteristics. We also demonstrate that $\pi$BO improves on the state-of-the-art performance for a popular deep learning task, with a 12.5 $\times$ time-to-accuracy speedup over prominent BO approaches.
翻訳日:2022-04-26 12:36:15 公開日:2022-04-23
# AZホワイトネステスト:時空間グラフ上の非相関ノイズの試験

AZ-whiteness test: a test for uncorrelated noise on spatio-temporal graphs ( http://arxiv.org/abs/2204.11135v1 )

ライセンス: Link先を確認
Daniele Zambon and Cesare Alippi(参考訳) 本稿では、グラフに対する最初のホワイトネステスト、すなわち、動的グラフのノードに関連付けられた多変量時系列のホワイトネステストを提案する。 統計テストの目的は、近接時間観測中の連続的依存関係の発見と、基礎となるグラフを与えられた隣接観測間の空間的依存関係の発見である。 提案したテストは、システム識別文献からの従来のテストの時空間拡張であり、グラフ信号を含む同様の、より一般的なアプリケーションシナリオにおけるアプリケーションを見つける。 AZ-testは汎用性があり、基盤となるグラフが動的になり、トポロジやノードの集合が変化し、重み付けされる。 漸近分布(グラフエッジ数や時間的観測数の増加など)は知られており、同じ分散データを想定していない。 本研究では,合成問題と実世界の問題の両方において,テストの実用的価値を検証するとともに,グラフストリームに付加された予測残差を分析して,時空間予測モデルの品質を評価する方法を示す。

We present the first whiteness test for graphs, i.e., a whiteness test for multivariate time series associated with the nodes of a dynamic graph. The statistical test aims at finding serial dependencies among close-in-time observations, as well as spatial dependencies among neighboring observations given the underlying graph. The proposed test is a spatio-temporal extension of traditional tests from the system identification literature and finds applications in similar, yet more general, application scenarios involving graph signals. The AZ-test is versatile, allowing the underlying graph to be dynamic, changing in topology and set of nodes, and weighted, thus accounting for connections of different strength, as is the case in many application scenarios like transportation networks and sensor grids. The asymptotic distribution -- as the number of graph edges or temporal observations increases -- is known, and does not assume identically distributed data. We validate the practical value of the test on both synthetic and real-world problems, and show how the test can be employed to assess the quality of spatio-temporal forecasting models by analyzing the prediction residuals appended to the graphs stream.
翻訳日:2022-04-26 12:35:54 公開日:2022-04-23
# 画像対画像翻訳におけるコントラスト学習の否定性の検討

Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2204.11018v1 )

ライセンス: Link先を確認
Yupei Lin, Sen Zhang, Tianshui Chen, Yongyi Lu, Guangping Li and Yukai Shi(参考訳) unpaired image-to-image translationは、ソースドメインとターゲットドメインのマッピングを見つけることを目的としている。 ソース画像の教師付きラベルの欠如を解消するため,不一致画像間の可逆的関係を前提として,サイクル一貫性に基づく画像保存手法が提案されている。 しかし、この仮定はイメージペア間の限られた対応のみを使用する。 近年,パッチベース正負学習を用いた非ペア画像翻訳における画像対応のさらなる検討にコントラスト学習(cl)が用いられている。 パッチベースのコントラストルーチンは、自己相似性計算によって正を得、残りのパッチを負と認識する。 この柔軟な学習パラダイムは、低コストで補助的な文脈情報を得る。 負は印象的なサンプル番号を持ち、好奇心を持つので、私たちは質問に基づいて調査する:全ての負は特徴の対照的な学習に必要か? 本稿では,従来のclアプローチと異なり,情報理論的な観点からの否定について検討し,パッチのスパース化とランク付けにより,非ペア画像間変換(put)のための新たな否定的プルーニング技術を導入する。 提案するアルゴリズムは効率的で柔軟性があり,対応するパッチ間の重要な情報を安定して学習できる。 品質を量以上にすることで、より良い結果を得るためには、わずかなネガティブなパッチしか必要ありません。 最後に, 比較実験により, モデルの優越性, 安定性, 汎用性を検証する。

Unpaired image-to-image translation aims to find a mapping between the source domain and the target domain. To alleviate the problem of the lack of supervised labels for the source images, cycle-consistency based methods have been proposed for image structure preservation by assuming a reversible relationship between unpaired images. However, this assumption only uses limited correspondence between image pairs. Recently, contrastive learning (CL) has been used to further investigate the image correspondence in unpaired image translation by using patch-based positive/negative learning. Patch-based contrastive routines obtain the positives by self-similarity computation and recognize the rest patches as negatives. This flexible learning paradigm obtains auxiliary contextualized information at a low cost. As the negatives own an impressive sample number, with curiosity, we make an investigation based on a question: are all negatives necessary for feature contrastive learning? Unlike previous CL approaches that use negatives as much as possible, in this paper, we study the negatives from an information-theoretic perspective and introduce a new negative Pruning technology for Unpaired image-to-image Translation (PUT) by sparsifying and ranking the patches. The proposed algorithm is efficient, flexible and enables the model to learn essential information between corresponding patches stably. By putting quality over quantity, only a few negative patches are required to achieve better results. Lastly, we validate the superiority, stability, and versatility of our model through comparative experiments.
翻訳日:2022-04-26 12:10:03 公開日:2022-04-23