このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221103となっている論文です。

PDF登録状況(公開日: 20221103)

TitleAuthorsAbstract論文公表日・翻訳日
# 分数時間シナリオにおける2レベル量子系のユニタリ進化

Unitary evolution for a two-level quantum system in fractional-time scenario ( http://arxiv.org/abs/2208.13858v2 )

ライセンス: Link先を確認
D. Cius, L. Menon Jr., M. A. F. dos Santos, A. S. M. de Castro, F. M. Andrade(参考訳) 分数時間 Schr\"{o}dinger equation (FTSE) から得られる時間進化作用素は、時間におけるベクトル状態のノルムを保たないため、単位ではないと言われる。 時間依存的非エルミート量子形式(英語版)においてなされたように、トレースレスな非エルミート2レベル量子系に対して、非単位時間進化作用素をユニタリ作用素にマッピングできることを実証する。 これは、系がユニタリな方法で進化するエルミート時間依存のダイソン写像から構築された時間依存計量作用素を持つ力学ヒルベルト空間を考慮し、標準的な量子力学解釈を適切に行うことができる。 このアプローチを解明するために、ハミルトニアン作用素の3つの例と、FTSEの解から得られる対応するユニタリダイナミクスおよびそれぞれのダイソン写像を考える。

The time-evolution operator obtained from the fractional-time Schr\"{o}dinger equation (FTSE) is said to be non-unitary since it does not preserve the norm of the vector state in time. As done in the time-dependent non-Hermitian quantum formalism, for a traceless non-Hermitian two-level quantum system, we demonstrate that it is possible to map the non-unitary time-evolution operator in a unitary one. It is done by considering a dynamical Hilbert space with a time-dependent metric operator, constructed from a Hermitian time-dependent Dyson map, in respect to which the system evolves in a unitary way, and the standard quantum mechanics interpretation can be made properly. To elucidate our approach, we consider three examples of Hamiltonian operators and their corresponding unitary dynamics obtained from the solutions of FTSE, and the respective Dyson maps.
翻訳日:2023-01-28 14:24:41 公開日:2022-11-03
# 連結ウェッジ定理とその帰結

The connected wedge theorem and its consequences ( http://arxiv.org/abs/2210.00018v3 )

ライセンス: Link先を確認
Alex May, Jonathan Sorce and Beni Yoshida(参考訳) AdS/CFT対応では、バルク因果構造は境界絡みの結果をもたらす。 量子情報科学では、因果構造は情報処理の目的で分散した絡み合いに置き換えることができる。 本研究は,これらの文とそれらの関係の理解を深め,多くの新たな結果を得たものである。 中心的に、AdS/CFTにより記述された漸近的AdS$_{2+1}$時空の境界における$n$入力と$n$出力位置を考慮に入れた新しい定理である$n$-to-$n$連結ウェッジ定理を提示し、証明する。 これらの点のうち十分強い因果関係が存在する場合、境界内の一連の$n$関連領域は、領域の任意の二分割にわたって広範囲にn個の相互情報を持つ。 この証明は、零曲率条件を満たす古典時空と標準予想を満たす半古典時空の3つのバルク次元で成り立つ。 $n$-to-$n$連結ウェッジ定理は、バルク状態における因果接続がその境界双対の大きなNの絡み合う特徴からどのように現れるかの正確な例を示す。 量子情報理論は、特定の種類の因果ネットワークにおける情報処理に十分な1つの絡み合いのパターンを明らかにする。 我々は、このパターンも必要であり、この設定で情報処理を行うためのAdS/CFTにインスパイアされたプロトコルを提供する。 我々の定理は arXiv:1912.05649 で証明された 2$-to-$2$ 連結ウェッジ定理を一般化する。 また,ここで提示した証明の誤り,特に既存の証明手法が3つのバルク次元以上で動作するという虚偽の主張を訂正する。

In the AdS/CFT correspondence, bulk causal structure has consequences for boundary entanglement. In quantum information science, causal structures can be replaced by distributed entanglement for the purposes of information processing. In this work, we deepen the understanding of both of these statements, and their relationship, with a number of new results. Centrally, we present and prove a new theorem, the $n$-to-$n$ connected wedge theorem, which considers $n$ input and $n$ output locations at the boundary of an asymptotically AdS$_{2+1}$ spacetime described by AdS/CFT. When a sufficiently strong set of causal connections exists among these points in the bulk, a set of $n$ associated regions in the boundary will have extensive-in-N mutual information across any bipartition of the regions. The proof holds in three bulk dimensions for classical spacetimes satisfying the null curvature condition and for semiclassical spacetimes satisfying standard conjectures. The $n$-to-$n$ connected wedge theorem gives a precise example of how causal connections in a bulk state can emerge from large-N entanglement features of its boundary dual. It also has consequences for quantum information theory: it reveals one pattern of entanglement which is sufficient for information processing in a particular class of causal networks. We argue this pattern is also necessary, and give an AdS/CFT inspired protocol for information processing in this setting. Our theorem generalizes the $2$-to-$2$ connected wedge theorem proven in arXiv:1912.05649. We also correct some errors in the proof presented there, in particular a false claim that existing proof techniques work above three bulk dimensions.
翻訳日:2023-01-24 07:30:45 公開日:2022-11-03
# Gd$^{3+}$マルチレベルスピン系のオンチップ超伝導共振器への強結合

Strong coupling of a Gd$^{3+}$ multilevel spin system to an on-chip superconducting resonator ( http://arxiv.org/abs/2210.05053v2 )

ライセンス: Link先を確認
Giovanni Franco-Rivera, Josiah Cochran, Seiji Miyashita, Sylvain Bertaina and Irinel Chiorescu(参考訳) シェライト(CaWO$_4$)単結晶にホストされたGd$^{3+}=スピンアンサンブルと,コプラナーストリップライン超伝導キャビティの共振モードとの強い結合を報告し,スピン光子状態が146MHzに大きく分離されたことを報告する。 この相互作用は多層スピン系のディックモデルと結晶場ハミルトニアンによってよく説明されている。 結晶基底状態のかなりの摂動を生じるキャビティに光子が存在することによる結晶場パラメータの変化を観察する。 有限要素計算を用いて空洞感知量と平均スピン-光子結合強度を$g_0\approx$620 Hzで数値的に推定する。 最後に、共振器リングダウン信号をパルス長と振幅の関数として記録することにより、スピンキャビティ状態のダイナミクスをパルス測定により探索する。 その結果, 活性冷却法により, この多層系を基底状態に初期化する可能性を示した。

We report the realization of a strong coupling between a Gd$^{3+}$ spin ensemble hosted in a scheelite (CaWO$_4$) single crystal and the resonant mode of a coplanar stripline superconducting cavity leading to a large separation of spin-photon states of 146 MHz. The interaction is well described by the Dicke model and the crystal-field Hamiltonian of the multilevel spin system. We observe a change of the crystal-field parameters due to the presence of photons in the cavity that generates a significant perturbation of the crystal ground state. Using finite-element calculations, we numerically estimate the cavity sensing volume as well as the average spin-photon coupling strength of $g_0\approx$ 620 Hz. Lastly, the dynamics of the spin-cavity states are explored via pulsed measurements by recording the cavity ring-down signal as a function of pulse length and amplitude. The results indicate a potential method to initialize this multilevel system in its ground state via an active cooling process.
翻訳日:2023-01-23 00:49:35 公開日:2022-11-03
# 大空間量子重ね合わせのための質量独立スキーム

Mass Independent Scheme for Large Spatial Quantum Superpositions ( http://arxiv.org/abs/2210.05689v3 )

ライセンス: Link先を確認
Run Zhou, Ryan J. Marshman, Sougato Bose, Anupam Mazumdar(参考訳) シュリンガー・キャット状態のような大きな空間重畳に質量を積むことは重要かつ重要な課題である。 特に、エンタングルメントを介して実験室の重力の量子的性質をテストするには、大きな空間的重ね合わせ({\cal O}(10-100)$$\mu$m)、メソスコピック質量(m\sim {\cal O}(10^{-14} -10^{-15})$ kg)が必要となる。 現在、この空間的非局在化を達成する典型的な方法は、ウェーブパレット展開または量子アンシラ依存力(例えばスピン)を用いることであり、その効力は質量によって減少する。 したがって、質量から独立した空間分割を達成することは重要なオープンチャレンジである。 本稿では,電流搬送線からの磁気抵抗による重ね合わせの質量非依存性向上を実現する方法を提案する。 我々は、Stern-Gerlach効果を用いて小さな初期分割を生成するサンプルシステムを解析し、その上で、波動関数の初期モード分割から、重ね合わせサイズを${\cal O}(400-600)$$$\mu$mにするために、我々の反磁性法を適用した。 我々は,このスキームの分析的および数値的解析を行う。

Placing a large mass in a large spatial superposition, such as a Schr\"odinger Cat state is a significant and important challenge. In particular, testing the quantum nature of gravity in the laboratory via entanglement will require a large spatial superposition (${\cal O}(10-100)$ $\mu$m) of a mesoscopic mass ($m\sim {\cal O}(10^{-14} -10^{-15})$ kg). To date, the typical methods of achieving this spatial delocalization are to use wavepacket expansions or quantum ancilla (for example spin) dependent forces, all of whose efficacy reduces with mass. Thus achieving a spatial splitting independent of the mass is an important open challenge. In this paper, we present a method of achieving a mass-independent enhancement of superposition via diamagnetic repulsion from current-carrying wires. We analyse an example system which uses the Stern-Gerlach effect to creating a small initial splitting, and then apply our diamagnetic repulsion method to enhance the superposition size ${\cal O}(400-600)$ $\mu$m from an initial modest split of the wavefunction. We provide an analytic and numeric analysis of our scheme.
翻訳日:2023-01-22 22:01:43 公開日:2022-11-03
# トリパルタイト系における量子光学

Quantum optomechanics in tripartite systems ( http://arxiv.org/abs/2210.14967v2 )

ライセンス: Link先を確認
Ryan O. Behunin and Peter T. Rakich(参考訳) 低温下での長い寿命のため、機械振動子は量子情報科学の魅力的な資源であり、基礎物理学の試験場として認識されている。 これらの応用の鍵は、機械運動の量子状態を準備し、操作し、測定する能力である。 シュロディンガー方程式の正確な公式解を通じて、2つの異なる光学モード間の相互結合と音響共鳴を含む3部光学相互作用が、機械振動子の量子状態の合成と疑似化を可能にしていることを示す。

Owing to their long-lifetimes at cryogenic temperatures, mechanical oscillators are recognized as an attractive resource for quantum information science and as a testbed for fundamental physics. Key to these applications is the ability to prepare, manipulate and measure quantum states of mechanical motion. Through an exact formal solution to the Schrodinger equation, we show how tripartite optomechanical interactions, involving the mutual coupling between two distinct optical modes and an acoustic resonance enables quantum states of mechanical oscillators to be synthesized and interrogated.
翻訳日:2023-01-21 12:54:55 公開日:2022-11-03
# ベルの定理は量子力学の局所理論を許す

Bell's theorem allows local theories of quantum mechanics ( http://arxiv.org/abs/2211.01331v2 )

ライセンス: Link先を確認
Jonte R. Hance, Sabine Hossenfelder(参考訳) 最近の自然物理学の論説 (Nat)。 Phys (2022) 18, 961) は「隠された変数を使用するあらゆる理論は依然として非局所物理学を必要とする。 「''この主張を正し、なぜこれを正すことが重要かを説明します。

A recent Nature Physics editorial (Nat. Phys. (2022) 18, 961) falsely claims ``any theory that uses hidden variables still requires non-local physics.'' We correct this claim and explain why it is important to get this right.
翻訳日:2023-01-20 19:19:13 公開日:2022-11-03
# 量子シティー : 実用的短期大都市圏量子ネットワークのシミュレーション

Quantum City: simulation of a practical near-term metropolitan quantum network ( http://arxiv.org/abs/2211.01190v2 )

ライセンス: Link先を確認
Raja Yehia, Simon Neves, Eleni Diamanti and Iordanis Kerenidis(参考訳) 本稿では,エンドユーザーに対して限られたハードウェアリソースしか必要としないメトロポリタンスケール量子ネットワークのアーキテクチャと応用分析を行う。 離散イベントに基づく量子ネットワークシミュレーションツールであるNetSquidを用いて、トポロジ、ハードウェア、トラストの選択の観点から、2人以上のユーザが様々な構成で関与する複数の量子ネットワークプロトコルの性能を評価する。 我々の分析は、損失とエラーを考慮に入れ、現在または短期技術に対応する現実的なパラメータを考察する。 以上の結果から,現実的な量子化ネットワーク機能は現在到達範囲内であり,より高度な技術が利用可能になると,さらなる応用のための基盤が整うことができる。

We present the architecture and analyze the applications of a metropolitan-scale quantum network that requires only limited hardware resources for end users. Using NetSquid, a quantum network simulation tool based on discrete events, we assess the performance of several quantum network protocols involving two or more users in various configurations in terms of topology, hardware and trust choices. Our analysis takes losses and errors into account and considers realistic parameters corresponding to present or near-term technology. Our results show that practical quantum-enhanced network functionalities are within reach today and can prepare the ground for further applications when more advanced technology becomes available.
翻訳日:2023-01-20 16:47:32 公開日:2022-11-03
# 量子ゼロサムゲームにおける行列乗法重の更新:保存法則と再帰

Matrix Multiplicative Weights Updates in Quantum Zero-Sum Games: Conservation Laws & Recurrence ( http://arxiv.org/abs/2211.01681v1 )

ライセンス: Link先を確認
Rahul Jain, Georgios Piliouras and Ryann Sim(参考訳) 量子コンピューティングの最近の進歩、特に量子GANの導入により、量子ゼロサムゲーム理論への関心が高まり、古典ゲームのための学習アルゴリズムの範囲を量子領域へと広げた。 本稿では,行列乗算重み更新(乗算重み更新法の一般化)に基づく量子ゼロサムゲームにおける学習と,その連続的なアナログである量子リプリケータダイナミクスについて述べる。 各プレイヤーが量子複製子ダイナミクスに従って状態を選択すると、システムは量子情報理論的な意味で保存則を示す。 さらに,この系はポインカレ再発を示しており,ほぼすべての軌道が初期条件に無限に近い頻度で自発的に帰還することを示した。 我々の分析は古典ゲームの場合の過去の結果を一般化する。

Recent advances in quantum computing and in particular, the introduction of quantum GANs, have led to increased interest in quantum zero-sum game theory, extending the scope of learning algorithms for classical games into the quantum realm. In this paper, we focus on learning in quantum zero-sum games under Matrix Multiplicative Weights Update (a generalization of the multiplicative weights update method) and its continuous analogue, Quantum Replicator Dynamics. When each player selects their state according to quantum replicator dynamics, we show that the system exhibits conservation laws in a quantum-information theoretic sense. Moreover, we show that the system exhibits Poincare recurrence, meaning that almost all orbits return arbitrarily close to their initial conditions infinitely often. Our analysis generalizes previous results in the case of classical games.
翻訳日:2023-01-20 12:01:48 公開日:2022-11-03
# 非局在源からの超プランクスケールにおける半古典時空

Semiclassical spacetimes at super-Planckian scales from delocalized sources ( http://arxiv.org/abs/2211.01657v1 )

ライセンス: Link先を確認
Ali Akil, Mariano Cadoni, Leonardo Modesto, Mauro Oi, and Andrea Pierfrancesco Sanna(参考訳) 我々は、異なる位置の量子重ね合わせの源によって生成される重力場と時空距離を導出する。 まずニュートン近似(Newtonian approximation)を用いて、実効的な重力ポテンシャルを、ソースの位置に対する幅$R$のガウス分布における重力ポテンシャル作用素の期待値として計算する。 有効重力ポテンシャルは、一般相対性理論において完全に相対論的な計量に共変的に持ち上げられ、そのような情報源の状態を平均して生じる時空を記述する。 これらの結果が再派生され、量子参照フレームの観点で独立した構成を採用することによって拡張される。 我々は、漸近的に平坦な3種類の量子有効メトリックを見つけ、シュワルツシルト計量を大距離で再現する。 しかし、内部コアでは解が異なる。 源の位置にある量子不確実性$\Delta r\sim R$は、横二球の半径が0に縮むのを防ぐ。 量子重ね合わせ効果の強さに応じて、"quantum hair"の非特異なブラックホールと事象の地平線、致命的なヌルの喉を持つ一方向のワームホール、または可逆的なワームホールがある。 また,これら3つのモデルそれぞれの時空構造の幾何学的および熱力学的性質および現象論に関する詳細な研究も行った。

We derive the gravitational field and the spacetime metric generated by sources in quantum superposition of different locations. We start by working in a Newtonian approximation, in which the effective gravitational potential is computed as the expectation value of the gravitational potential operator in a Gaussian distribution of width $R$ for the position of the source. The effective gravitational potential is then covariantly uplifted to a fully relativistic metric in general relativity, describing the spacetime generated by averaging over the state of such sources. These results are then rederived and extended by adopting an independent construction in terms of quantum reference frames. We find three classes of quantum effective metrics which are all asymptotically flat and reproduce the Schwarzschild metric at great distances. The solutions differ, however, in the inner core. The quantum uncertainty $\Delta r\sim R$ in the position of the source prevents the radius of the transverse two-sphere to shrink to zero. Depending on the strength of the quantum superposition effects, we have either a nonsingular black hole with a ``quantum hair'' and an event horizon, a one-way wormhole with a critical null throat or a traversable wormhole. We also provide a detailed study of the geometric and thermodynamic properties of the spacetime structure for each of these three families of models, as well as their phenomenology.
翻訳日:2023-01-20 12:01:16 公開日:2022-11-03
# プルセルによる貴原子表面上の分子オーバーレイダの超放射抑制

Purcell-induced suppression of superradiance for molecular overlayers on noble atom surfaces ( http://arxiv.org/abs/2211.01653v1 )

ライセンス: Link先を確認
Johannes Fiedler and Kristian Berland and Stefan Yoshi Buhmann(参考訳) 誘電体媒体の存在下での分子の電磁応答に及ぼす環境の影響について検討する。 分子と環境の自由度の間の双極子-双極子結合を適用することにより、遷移エネルギーや双極子モーメントなどの分子の量子力学的性質全体を知ることで、複雑な系をその構成要素に還元し、誘電体表面に付着した単分子と少数分子の励起寿命を予測することができる。 導出理論は、両者の分離と配向に関する幾何学的な配置によって、2つの分子間の超輝度を記述することを可能にする。 誘電体球に結合した2つの分子間の超輝度の可能性を解析し、自由空間の通常考慮される波長を結合距離に置き換える関連する長さスケールの変化を判定し、集合的な効果が生じる長さスケールを大幅に削減する。

We study the impact of an environment on the electromagnetic responses of a molecule in the presence of a dielectric medium. By applying the dipole-dipole coupling between the molecule's and the environment's degrees of freedom, we can reduce the complex system into its components and predict excitation lifetimes of single and few molecules attached to a dielectric surface by knowing the entire quantum-mechanical properties of the molecules, such as transition energies and dipole moments. The derived theory allows for the description of superradiance between two molecules depending on the geometric arrangement between both concerning their separation and orientation with respect to each other. We analyse the possibility of superradiance between two molecules bound to a dielectric sphere and determine a change of the relevant length scale where the usually considered wavelength in free space is replaced with the binding distance, drastically reducing the length scales at which collective effects can take place.
翻訳日:2023-01-20 12:00:53 公開日:2022-11-03
# Sachdev-Ye-Kitaevモデルを用いた非エルミート多体量子カオスの普遍性とその極限

Universality and its limits in non-Hermitian many-body quantum chaos using the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2211.01650v1 )

ライセンス: Link先を確認
Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, and Jacobus J. M. Verbaarschot(参考訳) エルミート量子カオス系のスペクトル剛性は、ハイゼンベルク時間よりもはるかに短い時間スケールにおける動的普遍性の存在を示唆する。 長距離スペクトル相関器の詳細な解析により,多体非ヘルミット量子カオスにおけるこの時間スケールの類似性について検討した。 その目的のために、ゼロ空間次元におけるN$フェルミオンを記述した非エルミート的$q$-body Sachdev-Ye-Kitaev(nHSYK)モデルの数値分散とスペクトル形成係数について検討する。 非エルミート確率行列に対するこれらのスペクトル観測可能量の解析的および数値的解析と、慎重に展開した結果、nHSYKモデルと$q > 2$の時間スケールでの良好な一致が、$q$と急激に減少する。 解析的に特定された普遍性からの逸脱の源は、量子力学とは無関係なアンサンブル変動である。 固定された$q$ と十分大きな$n$ に対して、これらのゆらぎはハイゼンベルク時間後まで支配的となり、スペクトル形式因子は量子カオスの研究でもはや役に立たない。 いずれの場合においても、この結果は、完全な量子エルゴディシティの観測を効果的に遅らせる、弱化または消滅するスペクトル剛性を示す。 また,nHSYKモデルとランダム行列の両方に対して,非定常スペクトル相関を示す。 この非定常性は、量子力学にも関係しないが、量子カオス運動を記述するためにこれらの観測可能の固有の制限を指摘する。 一方, 非エルミート量子カオスの効果的な診断法として, 局所スペクトル形成因子を導入し, 集団変動の影響を受けないことが示されている。 $q = 2$の場合、ポアソン統計の飽和は$\log D$であり、$$$\sqrt D$ for $ q>2$であるのに対し、$D$は州の総数である。

Spectral rigidity in Hermitian quantum chaotic systems signals the presence of dynamical universal features at time scales that can be much shorter than the Heisenberg time. We study the analogue of this time scale in many-body non-Hermitian quantum chaos by a detailed analysis of long-range spectral correlators. For that purpose, we investigate the number variance and the spectral form factor of a non-Hermitian $q$-body Sachdev-Ye-Kitaev (nHSYK) model, which describes $N$ fermions in zero spatial dimensions. After an analytical and numerical analysis of these spectral observables for non-Hermitian random matrices, and a careful unfolding, we find good agreement with the nHSYK model for $q > 2$ starting at a time scale that decreases sharply with $q$. The source of deviation from universality, identified analytically, is ensemble fluctuations not related to the quantum dynamics. For fixed $q$ and large enough $N$, these fluctuations become dominant up until after the Heisenberg time, so that the spectral form factor is no longer useful for the study of quantum chaos. In all cases, our results point to a weakened or vanishing spectral rigidity that effectively delays the observation of full quantum ergodicity. We also show that the number variance displays non-stationary spectral correlations for both the nHSYK model and random matrices. This non-stationarity, also not related to the quantum dynamics, points to intrinsic limitations of these observables to describe the quantum chaotic motion. On the other hand, we introduce the local spectral form factor, which is shown to be stationary and not affected by collective fluctuations, and propose it as an effective diagnostic of non-Hermitian quantum chaos. For $q = 2$, we find saturation to Poisson statistics at a time scale of $\log D$, compared to a scale of $\sqrt D$ for $ q>2$, with $D $ the total number of states.
翻訳日:2023-01-20 12:00:36 公開日:2022-11-03
# InP HEMTの非線形性によるマイクロ波2モードスクイーズ状態の量子相関

Quantum Correlation of Microwave Two-mode Squeezed State Generated by Nonlinearity of InP HEMT ( http://arxiv.org/abs/2211.01620v1 )

ライセンス: Link先を確認
Ahmad Salmanogli(参考訳) この研究は、量子理論を用いた低温InP HEMT高周波回路解析に大きく集中し、トランジスタの非線形性が回路内で発生したモードの量子相関にどのように影響するかを調べる。 まず、回路の全ハミルトニアンを導出し、寄与する運動の動的方程式をハイゼンベルク・ランゲバン方程式を用いて検討する。 非線形ハミルトニアンを用いて、いくつかの成分はinp hemtの内部回路に結合し、回路特性を完全に取り扱う。 付随する成分は、非線形効果によって生じる。 その結果、理論計算により、回路で生成された状態は混合され、純粋な状態は生成されないことが示される。 これにより、2モードの圧縮熱状態が生成され、つまりガウス量子不一致の計算に集中して量子相関を評価することができる。 また、非線形性因子(回路内の非線形成分として表される)は、量子不協和が変化する圧縮熱状態に強く影響を与えることも見出した。 最後に、一次点として、非線形成分を工学することでモード間の量子相関を強化することは可能であるが、InP HEMTが4.2Kで動作するため、量子不協和はユニタリで絡み合ったマイクロ波光子よりも大きい。

This study significantly concentrates on cryogenic InP HEMT high-frequency circuit analysis using quantum theory to find how the transistor nonlinearity can affect the quantum correlation of the modes generated in the circuit. Firstly, the total Hamiltonian of the circuit is derived, and the dynamic equation of the motion contributed is examined using the Heisenberg-Langevin equation. Using the nonlinear Hamiltonian, some components are attached to the intrinsic internal circuit of InP HEMT to fully address the circuit characteristics. The components attached are arisen due to the nonlinearity effects. As a result, the theoretical calculations show that the states generated in the circuit are mixed, and no pure state is produced. Accordingly, the modified circuit generates the two-mode squeezed thermal state, which means one can focus on calculating the Gaussian quantum discord to evaluate quantum correlation. It is also found that the nonlinearity factors (addressed as the nonlinear components in the circuit) can intensely influence the squeezed thermal state by which the quantum discord is changed. Finally, as the primary point, it is concluded that although it is possible to enhance the quantum correlation between modes by engineering the nonlinear components; however, quantum discord greater than unity, entangled microwave photons, seems a challenging task since InP HEMT operates at 4.2 K.
翻訳日:2023-01-20 11:59:59 公開日:2022-11-03
# 周期的に蹴られた光学ラマン格子の移動端と臨界領域

Mobility edges and critical regions in periodically kicked incommensurate optical Raman lattice ( http://arxiv.org/abs/2211.01552v1 )

ライセンス: Link先を確認
Yucheng Wang(参考訳) 従来、拡張状態と局所状態とを分離する移動性エッジ(me)は、アンダーソン局在遷移を理解する中心的な概念である。 臨界状態は非局在状態と非エルゴード状態であり、拡張状態と局所状態の両方とは異なる第3タイプの基本状態である。 本稿では, フラクタル次元を用いた一次元周期的蹴り準周期光学ラマン格子の局所化現象について検討する。 本稿では, 高頻度状態における純粋拡張・臨界・局所化相と, 臨界領域と(局所化)領域とを分離するMes, キック時間の増加に伴う拡張・臨界・局所化領域の共存相とを含む豊富な位相図を示す。 また, 動的キックの影響を受けやすい位相境界の不安定性や, 再帰的局所化遷移の現象も見いだす。 最後に,現在の寒冷原子実験に基づいて研究モデルをいかに実現し,膨張ダイナミクスによってリッチ物理を検出するかを示す。 この結果は、新しい臨界相、ME、共存量子相、および周期的に起動された系の物理現象の研究および検出に関する洞察を与える。

Conventionally the mobility edge (ME) separating extended states from localized ones is a central concept in understanding Anderson localization transition. The critical state, being delocalized and non-ergodic, is a third type of fundamental state that is different from both the extended and localized states. Here we study the localization phenomena in a one dimensional periodically kicked quasiperiodic optical Raman lattice by using fractal dimensions. We show a rich phase diagram including the pure extended, critical and localized phases in the high frequency regime, the MEs separating the critical regions from the extended (localized) regions, and the coexisting phase of extended, critical and localized regions with increasing the kicked period. We also find the fragility of phase boundaries, which are more susceptible to the dynamical kick, and the phenomenon of the reentrant localization transition. Finally, we demonstrate how the studied model can be realized based on current cold atom experiments and how to detect the rich physics by the expansion dynamics. Our results provide insight into studying and detecting the novel critical phases, MEs, coexisting quantum phases, and some other physics phenomena in the periodically kicked systems.
翻訳日:2023-01-20 11:59:36 公開日:2022-11-03
# 量子マターによる量子幾何の探索

Exploring quantum geometry created by quantum matter ( http://arxiv.org/abs/2211.01525v1 )

ライセンス: Link先を確認
Abhay Ashtekar(参考訳) 厳密な可溶性モデルは、非摂動量子重力の概念的問題を探求するための優れたツールとなる。 摂動的アプローチでは、量子化される線形化重力場の2つの放射モードのみである。 この研究の目的は、物質源によって完全に支配される量子幾何学の「クーロンビック」な側面を調べることである。 3次元には重力波がないため、物質に結合した3次元重力はこの課題に理想的な場を提供する。 一般相対性理論の非線形性は、物質セクターの小さな量子ゆらぎを重力セクターにおける大きな影響に拡大することができる。 最後に、この分析は、物理的現実の性質の理解が、それが観測される理論レンズに敏感に依存する理由を、明らかに示す思考実験に繋がる。 理論がより豊かになるにつれて、新しいスケールが現れ、これまで考えられなかった新しい効果が引き起こされる。 このモデルは、このよく知られたチェーンの簡潔な実現を提供する。

Exactly soluble models can serve as excellent tools to explore conceptual issues in non-perturbative quantum gravity. In perturbative approaches, it is only the two radiative modes of the linearized gravitational field that are quantized. The goal of this investigation is to probe the `Coulombic' aspects of quantum geometry that are governed entirely by matter sources. Since there are no gravitational waves in 3 dimensions, 3-d gravity coupled to matter provides an ideal arena for this task. Our analysis will reveal novel aspects of quantum gravity that bring out limitations of classical and semi-classical theories in unforeseen regimes: non-linearities of general relativity can magnify small quantum fluctuations in the matter sector to large effects in the gravitational sector. Finally, this analysis leads to thought experiments that bring out rather starkly why understanding of the nature of physical reality depends sensitively on the theoretical lens with which it is probed. As theories becomes richer, new scales emerge, triggering novel effects that could not be imagined before. The model provides a concise realization of this well-known chain.
翻訳日:2023-01-20 11:59:17 公開日:2022-11-03
# e_g$軌道ハバード模型における軌道液体 : $d =infty$次元

Orbital liquid in the $e_g$ orbital Hubbard model in $d=\infty$ dimensions ( http://arxiv.org/abs/2211.01884v1 )

ライセンス: Link先を確認
Louis Felix Feiner and Andrzej M. Ole\'s(参考訳) 3次元の{e_g$ 軌道ハバードモデルは任意の次元 $d$ に一般化でき、結果の形式は要求によって一意的に決定される。 (i)$e_g$軌道の2倍の縮退は保持され、 (ii)立方体格子を超立方体格子に変換する。 局所クーロン相互作用$U$は直交軌道の各基底に対して不変であるが、運動エネルギーの形式は軌道基底に依存し、いわゆる複素軌道基底に対して最も対称な形式を取る。 特徴的には、このモデルには2つのホッピングチャネルがあり、1つは軌道フレア保存であり、もう1つは軌道フレア保存ではない。 非相互作用電子構造は、軌道が波動ベクトルに依存する平面波実軌道単粒子状態の2つの非退化バンドからなる。 後者の特徴により、各バンドは任意の充填で非偏極化され、非ガウス状態密度は$d=\infty$である。 textit{orbital liquid}状態は、これら2つのバンドを同じフェルミエネルギーに満たすことで得られる。 d\to\infty$という極限の軌道ハバード模型を調査し、グッツウィラー近似におけるオンサイトクーロン相互作用 $u$ を扱い、軌道液体と(不規則な)準軌道状態の相関エネルギーを決定する。 (...) 軌道上の液体は、実軌道を占有した強軌道秩序が好まれる十分大きなU$で半充填に近いにもかかわらず、$(n,U)$相図の至る所で基底状態であることが示される。 後者の特徴は、状態の密度の指数的尾が原因で数学的性質を持つ$d=\infty$に特有であることが示されている。

We demonstrate that the three-dimensional $e_g$ orbital Hubbard model can be generalized to arbitrary dimension $d$, and that the form of the result is determined uniquely by the requirements that (i) the two-fold degeneracy of the $e_g$ orbital be retained, and (ii) the cubic lattice be turned into a hypercubic lattice. While the local Coulomb interaction $U$ is invariant for each basis of orthogonal orbitals, the form of the kinetic energy depends on the orbital basis and takes the most symmetric form for the so-called complex-orbital basis. Characteristically, with respect to this basis, the model has two hopping channels, one that is orbital-flavor conserving, and a second one that is orbital-flavor non-conserving. We show that the noninteracting electronic structure consists of two nondegenerate bands of plane-wave real-orbital single-particle states for which the orbital depends on the wave vector. Due to the latter feature each band is unpolarized at any filling, and has a non-Gaussian density of states at $d=\infty$. The \textit{orbital liquid} state is obtained by filling these two bands up to the same Fermi energy. We investigate the $e_g$ orbital Hubbard model in the limit $d\to\infty$, treating the on-site Coulomb interaction $U$ within the Gutzwiller approximation, thus determining the correlation energy of the orbital liquid and the (disordered) para-orbital states. (...) We show that the orbital liquid is the ground state everywhere in the $(n,U)$ phase diagram except close to half-filling at sufficiently large $U$, where ferro-orbital order with real orbitals occupied is favored. The latter feature is shown to be specific for $d=\infty$, being of mathematical nature due to the exponential tails in the density of states.
翻訳日:2023-01-20 11:54:27 公開日:2022-11-03
# 多体量子ブーメラン効果

Many-body quantum boomerang effect ( http://arxiv.org/abs/2211.01870v1 )

ライセンス: Link先を確認
Jakub Janarek, Jakub Zakrzewski, and Dominique Delande(参考訳) 量子ブーメラン効果に対する多体相互作用の影響を数値的に研究する。 弱い相互作用のボソン、トンクス・ギラルドー気体、強い相互作用のボソン(弱い相互作用のフェルミオンにマッピングされる)である。 行列積状態に基づく準エクササイズ法である時間進化ブロックデシメーションアルゴリズムを用いて数値シミュレーションを行う。 弱い相互作用を持つボソンの場合、量子ブーメラン効果の部分的な破壊は、以前の平均場研究(Phys)と一致する。 rev. a \textbf{102}, 013303 (2020)]。 Tonks-Girardeau ガスについては、完全な量子ブーメラン効果の存在を示す。 強く相互作用するボソンに対しては、部分的ブーメラン効果を観察する。 量子ブーメラン効果の破壊は普遍的であり、粒子間の相互作用の詳細に依存しないことを示した。

We study numerically the impact of many-body interactions on the quantum boomerang effect. We consider various cases: weakly interacting bosons, the Tonks-Girardeau gas, and strongly interacting bosons (which may be mapped onto weakly interacting fermions). Numerical simulations are performed using the time-evolving block decimation algorithm, a quasi-exact method based on matrix product states. In the case of weakly interacting bosons, we find a partial destruction of the quantum boomerang effect, in agreement with the earlier mean-field study [Phys. Rev. A \textbf{102}, 013303 (2020)]. For the Tonks-Girardeau gas, we show the presence of the full quantum boomerang effect. For strongly interacting bosons, we observe a partial boomerang effect. We show that the destruction of the quantum boomerang effect is universal and does not depend on the details of the interaction between particles.
翻訳日:2023-01-20 11:53:53 公開日:2022-11-03
# スピノル不変量の代数と相対論的水素原子

Algebra of the spinor invariants and the relativistic hydrogen atom ( http://arxiv.org/abs/2211.01857v1 )

ライセンス: Link先を確認
A.A. Eremko, L.S. Brizhik, V.M. Loktev(参考訳) クーロンポテンシャルを持つディラック方程式は、超対称量子力学の手法にかかわることなく、ディラック方程式の3つのスピノル不変量の代数を用いて解くことができることが示されている。 ディラックハミルトニアンは回転変換に関して不変であり、これはディラック方程式の力学(隠れた)対称性 $ su(2) $ を示す。 ディラック方程式の総対称性は対称性 $ SO(3) \otimes SU(2) $ である。 so(3) $対称性群の生成子は全運動量演算子によって与えられ、su(2) $群の生成子はディラック、ジョンソン=リップマンおよび新しいスピノル不変量によって決定されるスピノル空間内のベクトル状態の回転によって与えられる。 ディラック問題に対する代数的アプローチを用いることで、相対論的水素原子の固有状態と固有エネルギーを計算でき、他の量子数の組み合わせとして表されるにもかかわらず、主量子数の基本的な役割を独立数として明らかにすることができる。

It is shown that the Dirac equation with the Coulomb potential can be solved using the algebra of the three spinor invariants of the Dirac equation without the involvement of the methods of supersymmetric quantum mechanics. The Dirac Hamiltonian is invariant with respect to the rotation transformation, which indicates the dynamical (hidden) symmetry $ SU(2) $ of the Dirac equation. The total symmetry of the Dirac equation is the symmetry $ SO(3) \otimes SU(2) $. The generator of the $ SO(3) $ symmetry group is given by the total momentum operator, and the generator of $ SU(2) $ group is given by the rotation of the vector-states in the spinor space, determined by the Dirac, Johnson-Lippmann, and the new spinor invariants. It is shown that using algebraic approach to the Dirac problem allows one to calculate the eigenstates and eigenenergies of the relativistic hydrogen atom and reveals the fundamental role of the principal quantum number as an independent number, even though it is represented as the combination of other quantum numbers.
翻訳日:2023-01-20 11:53:39 公開日:2022-11-03
# 古典波動関数と量子波動関数の演算子の起源について

On the Operator Origins of Classical and Quantum Wave Functions ( http://arxiv.org/abs/2211.01838v1 )

ライセンス: Link先を確認
Xerxes D. Arsiwalla, David Chester, Louis H. Kauffman(参考訳) 古典的クープマン・ヴォン・ノイマン波動関数 $\psi_{KvN}$ および量子力学的関数 $\psi_{QM}$ の作用素代数的起源について検討する。 我々は,非可換ポアソン,シンプレクティックおよび非可換微分構造に基づく演算子力学(OM)の定式化を導入する。 OM は、実世界の古典力学や量子力学に関連する代数構造が従う前量子代数として機能する。 特に、$\psi_{KvN}$と$\psi_{QM}$はどちらも前量子形式主義の結果である。 事前のヒルベルト空間は不要である。 OM は状態を呼び出すことなく演算子期待値の代数的概念を認める。 位相空間束 ${\cal E}$ はこのことから従う。 $\psi_{kvn}$と$\psi_{qm}$は${\cal e}$のセクションであることが示されている。 $\psi_{kvn}$ と $\psi_{qm}$ の違いは、${\cal e}$ 上の区間の「twisting」として解釈された量子化写像に由来する。 また、schr\"{o}dinger方程式はkoopman-von neumann方程式から得られることを示した。 このことはschr\"{o}dinger方程式も量子波動関数も基本構造ではないことを示唆する。 むしろ、どちらも前量子作用素代数に由来する。

We investigate operator algebraic origins of the classical Koopman-von Neumann wave function $\psi_{KvN}$ as well as the quantum mechanical one $\psi_{QM}$. We introduce a formalism of Operator Mechanics (OM) based on a noncommutative Poisson, symplectic and noncommutative differential structures. OM serves as a pre-quantum algebra from which algebraic structures relevant to real-world classical and quantum mechanics follow. In particular, $\psi_{KvN}$ and $\psi_{QM}$ are both consequences of this pre-quantum formalism. No a priori Hilbert space is needed. OM admits an algebraic notion of operator expectation values without invoking states. A phase space bundle ${\cal E}$ follows from this. $\psi_{KvN}$ and $\psi_{QM}$ are shown to be sections in ${\cal E}$. The difference between $\psi_{KvN}$ and $\psi_{QM}$ originates from a quantization map interpreted as "twisting" of sections over ${\cal E}$. We also show that the Schr\"{o}dinger equation is obtained from the Koopman-von Neumann equation. What this suggests is that neither the Schr\"{o}dinger equation nor the quantum wave function are fundamental structures. Rather, they both originate from a pre-quantum operator algebra.
翻訳日:2023-01-20 11:53:22 公開日:2022-11-03
# 非逆su-schrieffer-heeger chaiにおける巨大原子誘起ゼロモードと局在

Giant atom induced zero modes and localization in the nonreciprocal Su-Schrieffer-Heeger chai ( http://arxiv.org/abs/2211.01819v1 )

ライセンス: Link先を確認
Junjie Wang, Fude Li, and X. X. Yi(参考訳) 皮膚効果を有する非エルミート系の顕著な特徴は、境界条件に対するスペクトルと固有状態の感度である。 本論文では,境界条件の3つのタイプ,周期境界条件,開放境界条件,システムの欠陥について考察する。 この研究では、巨大原子によって提供される他のタイプの境界条件を導入する。 巨大原子は2つの点で非相互のSuSchrieffer-Heeger鎖に結合し、欠陥の役割を果たす。 系の固有状態のスペクトルと局在を研究し、巨大原子が非対称零モードを誘導できることを見出した。 注目すべき特徴は、左または右鎖-原子結合部位に局在したバルク状態が弱い局在状態にあることである。 この双極性局在は、翻訳的不変性が損なわれてもブロッホ状態につながる。 さらに, 2つの小さな原子の場合や強結合状態においても開境界条件よりも局所化が明らかに弱いことが判明した。 これらの興味深い結果は、巨大原子と非相互SSH鎖との非局所結合が固有状態の局在を弱めることを示している。 また,実空間における長時間ダイナミクスのリアプノフ指数は局所的なバルク状態の証人として作用することを示した。

A notable feature of non-Hermitian systems with skin effects is the sensitivity of their spectra and eigenstates to the boundary conditions. In the literature, three types of boundary conditions-periodic boundary condition,open boundary condition and a defect in the system as a boundary, are explored. In this work we introduce the other type of boundary condition provided by a giant atom. The giant atom couples to a nonreciprocal SuSchrieffer-Heeger chain at two points and plays the role of defects. We study the spectrum and localization of eigenstates of the system and find that the giant atom can induce asymmetric zero modes. A remarkable feature is that bulk states might localize at the left or the right chain-atom coupling sites in weak localization regimes. This bipolar localization leads to Bloch-like states, even though translational invariance is broken. Moreover, we find that the localization is obviously weaker than the case with two small atoms or open boundary conditions even in strong coupling regimes. These intriguing results indicate that nonlocal coupling of giant atom to a nonreciprocal SSH chain weakens localization of the eigenstates. We also show that the Lyapunov exponent in the long-time dynamics in real space can act as a witness of the localized bulk states.
翻訳日:2023-01-20 11:53:03 公開日:2022-11-03
# Autler-Townes分割による高忠実量子制御

High-fidelity quantum control via Autler-Townes splitting ( http://arxiv.org/abs/2211.01815v1 )

ライセンス: Link先を確認
Michele Delvecchio, Teodora Kirova, Ennio Arimondo, Donatella Ciampini, and Sandro Wimberger(参考訳) Autler-Townes分割系におけるターゲット状態の高忠実度化のための量子制御プロトコルを提案する。 進化に関わらない状態を断定的に除去することにより, 4段階のシステムから得られる近似3レベルシステムについて検討した。 我々の研究では、線形、アルカン、ローランド・セルフ関数を用いて、長い進化の期間において高い忠実性を得るシステムの2つの固有状態間の人口移動を行っている。 また, 実験装置の寿命制限を克服するため, 短距離から短距離までの断熱プロトコルを用いて, 断熱的進化を加速し, より高速な忠実度を実現することを提案する。

We propose quantum control protocols for the high-fidelity preparation of target states in systems with Autler-Townes splitting. We investigate an approximated three-level system obtained from a four-level one by adiabatically eliminating a state that does not participate in the evolution. In our work we use linear, arctan, and Roland-Cerf functions for transferring population between two eigenstates of the system obtaining a high fidelity for long evolution times. Additionally, in order to overcome the restriction given by the lifetimes of the experimental setup, we propose an accelerated adiabatic evolution with a shortcut to adiabaticity protocol, which allows us to reach fidelities close to one but much faster.
翻訳日:2023-01-20 11:52:43 公開日:2022-11-03
# マルコフ雑音下での制御強化量子距離論

Control-enhanced quantum metrology under Markovian noise ( http://arxiv.org/abs/2211.01803v1 )

ライセンス: Link先を確認
Yue Zhai, Xiaodong Yang, Kai Tang, Xinyue Long, Xinfang Nie, Tao Xin, Dawei Lu, and Jun Li(参考訳) 量子メソロジーは、適切な量子資源を利用することでパラメータ推定の精度を大幅に向上させると考えられている。 しかし、予測精度は現実的なノイズによって著しく歪められる。 そこで本研究では,これらのノイズに対する対策として,制御強化量子メトロジー手法を提案する。 提案手法では, パラメータの符号化を制御可能な制御で自動的に変更できるので, 検討中の雑音に敏感でない最適結果状態が得られる。 実演として,いくつかの典型的なマルコフ雑音チャネルにおける周波数推定問題に適用する。 制御強化スキームを標準スキームとアンシラ支援スキームと比較することにより,提案スキームはより優れた性能を示し,最大1桁の精度で推定精度を向上させることができることを示す。 さらに,核磁気共鳴システムにおける原理実証実験を行い,提案手法の有効性を検証する。 この研究は、現在の量子プラットフォームが現実的な雑音環境における量子力学のパワーを利用するのに役立つ。

Quantum metrology is supposed to significantly improve the precision of parameter estimation by utilizing suitable quantum resources. However, the predicted precision can be severely distorted by realistic noises. Here, we propose a control-enhanced quantum metrology scheme to defend against these noises for improving the metrology performance. Our scheme can automatically alter the parameter encoding dynamics with adjustable controls, thus leading to optimal resultant states that are less sensitive to the noises under consideration. As a demonstration, we numerically apply it to the problem of frequency estimation under several typical Markovian noise channels. Through comparing our control-enhanced scheme with the standard scheme and the ancilla-assisted scheme, we show that our scheme performs better and can improve the estimation precision up to around one order of magnitude. Furthermore, we conduct a proof-of-principle experiment in nuclear magnetic resonance system to verify the effectiveness of the proposed scheme. The research here is helpful for current quantum platforms to harness the power of quantum metrology in realistic noise environments.
翻訳日:2023-01-20 11:52:31 公開日:2022-11-03
# 絶縁体-金属モット遷移の電子コヒーレント制御

Electronic Coherent Control of an Insulator-to-Metal Mott Transition ( http://arxiv.org/abs/2211.01735v1 )

ライセンス: Link先を確認
Paolo Franceschini, Veronica R.Policht, Alessandra Milloch, Andrea Ronchi, Selene Mor, Simon Mellaerts, Wei-Fan Hsu, Stefania Pagliara, Gabriele Ferrini, Francesco Banfi, Michele Fabrizio, Mariela Menghini, Jean-Pierre Locquet, Stefano Dal Conte, Giulio Cerullo, and Claudio Giannetti(参考訳) 電子コヒーレンス損失よりも早く時間スケールでの光-物質相互作用を管理することは、固体-固体変換における最終生成物の完全な量子制御を達成する鍵となる。 本研究では,原型mott絶縁体v$_2$o$_3$における光誘起絶縁体-金属転移のコヒーレント電子制御を示す。 2つの位相同期光パルスによる特定のバンド間遷移の選択的励起は、状態の光誘起重ね合わせのコヒーレントな進化に依存する方法で相関バンドの軌道占有を制御する。 実験結果と光学ブロッホ方程式の数値解の比較により、5fsの電子コヒーレンス時間が得られる。 温度依存性実験により,絶縁体-金属間遷移臨界温度付近で電子コヒーレンス時間が向上し,電子コヒーレンス決定における揺らぎの役割が強調された。 これらの結果は、量子材料の機能性を選択的に切り替え、固体電子変換をコヒーレントに制御する新しい経路を開く。

Managing light-matter interaction on timescales faster than the loss of electronic coherence is key for achieving the full quantum control of final products in solid-solid transformations. In this work, we demonstrate coherent electronic control of the photoinduced insulator-to-metal transition in the prototypical Mott insulator V$_2$O$_3$. Selective excitation of a specific interband transition with two phase-locked light pulses manipulates the orbital occupation of the correlated bands in a way that depends on the coherent evolution of the photoinduced superposition of states. Comparison between experimental results and numerical solutions of the optical Bloch equations provides an electronic coherence time on the order of 5 fs. Temperature dependent experiments suggest that the electronic coherence time is enhanced in the vicinity of the insulator-to-metal transition critical temperature, thus highlighting the role of fluctuations in determining the electronic coherence. These results open new routes to selectively switch functionalities of quantum materials and coherently control solid-solid electronic transformations.
翻訳日:2023-01-20 11:52:15 公開日:2022-11-03
# 量子資源の異なる非協力型ゲームにおける社会福祉の改善

Improving social welfare in non-cooperative games with different types of quantum resources ( http://arxiv.org/abs/2211.01687v1 )

ライセンス: Link先を確認
Alastair A. Abbott, Mehdi Mhalla and Pierre Pocreau(参考訳) 我々は,Nash均衡の質の尺度である,異なる種類の量子資源が社会福祉を改善する方法を研究することによって,多部的非協調ゲームにおいて量子的優位性が得られるかを検討する。 量子社会福祉におけるこれらの利点がゲームのバイアスにどのように依存するかを検討し,疑似テレパシー戦略を用いて得られた分離を改善した。 2つの異なる量子設定が分析される: 1つ目は、プレイヤーが絡み合った量子状態に直接アクセスする、もう1つは、ここで紹介する量子デバイスから得られる古典的なアドバイスのみを与える。 与えられたゲーム $g$ に対して、これらの2つの設定は、それぞれ平衡相関集合 $q_\textrm{corr}(g)$ と $q(g)$ によって特徴づけられる異なる平衡性をもたらす。 Q(G)\subseteq Q_\textrm{corr}(G)$と、明示的な例ゲームとSDP最適化手法を併用することにより、2つの設定で達成可能な社会的福祉の厳密な分離の兆候が示される。 これは、量子測定を委譲する限界と利点を理解するための新たな角度を与える。

We investigate what quantum advantages can be obtained in multipartite non-cooperative games by studying how different types of quantum resources can improve social welfare, a measure of the quality of a Nash equilibrium. We study how these advantages in quantum social welfare depend on the bias of the game, and improve upon the separation that was previously obtained using pseudo-telepathic strategies. Two different quantum settings are analysed: a first, in which players are given direct access to an entangled quantum state, and a second, which we introduce here, in which they are only given classical advice obtained from quantum devices. For a given game $G$, these two settings give rise to different equilibria characterised by the sets of equilibrium correlations $Q_\textrm{corr}(G)$ and $Q(G)$, respectively. We show that $Q(G)\subseteq Q_\textrm{corr}(G)$ and, by considering explicit example games and exploiting SDP optimisation methods, provide indications of a strict separation between the social welfare attainable in the two settings. This provides a new angle towards understanding the limits and advantages of delegating quantum measurements.
翻訳日:2023-01-20 11:51:57 公開日:2022-11-03
# 量子熱雑音を伴う量子気象学の不定因数順序

Indefinite causal order for quantum metrology with quantum thermal noise ( http://arxiv.org/abs/2211.01684v1 )

ライセンス: Link先を確認
Francois Chapeau-Blondeau(参考訳) 量子熱雑音の影響を受ける量子ビットユニタリ作用素の位相推定の基本的なメトロロジー課題として,不定因果順序を持つスイッチト量子チャネルについて検討した。 特定の機能は無期限の順序でスイッチングチャネルで報告され、一定の順序の従来の推定アプローチでは利用できない。 位相推定は、制御キュービットのみを測定することで行うことができるが、ユニタリプロセスとは活発に相互作用せず、プローブキュービットのみが行う。 また、完全に偏極化された入力プローブやユニタリの回転軸に整列した入力プローブでは位相推定が可能となるが、従来のアプローチでは不可能である。 本研究は, 従来より対称で等方性な量子ビット偏極雑音を用いて行われた熱雑音に拡張し, 量子信号や情報処理に関連する不明確な因果順序を持つ量子チャネルの性質のタイムリーな探索に寄与する。

A switched quantum channel with indefinite causal order is studied for the fundamental metrological task of phase estimation on a qubit unitary operator affected by quantum thermal noise. Specific capabilities are reported in the switched channel with indefinite order, not accessible with conventional estimation approaches with definite order. Phase estimation can be performed by measuring the control qubit alone, although it does not actively interact with the unitary process -- only the probe qubit doing so. Also, phase estimation becomes possible with a fully depolarized input probe or with an input probe aligned with the rotation axis of the unitary, while this is never possible with conventional approaches. The present study extends to thermal noise, investigations previously carried out with the more symmetric and isotropic qubit depolarizing noise, and it contributes to the timely exploration of properties of quantum channels with indefinite causal order relevant to quantum signal and information processing.
翻訳日:2023-01-20 11:51:36 公開日:2022-11-03
# スピン量子ビット制御のための14nmの低温SRAMを用いた任意波形発生器

A cryogenic SRAM based arbitrary waveform generator in 14 nm for spin qubit control ( http://arxiv.org/abs/2211.02017v1 )

ライセンス: Link先を確認
Mridula Prathapan, Peter Mueller, Christian Menolfi, Matthias Braendli, Marcel Kossel, Pier Andrea Francese, David Heim, Maria Vittoria Oropallo, Andrea Ruffino, Cezar Zota and Thomas Morf(参考訳) キュービットゲート列の実現には、プログラム可能な振幅、持続時間、間隔、位相を持つコヒーレントマイクロ波制御パルスが必要である。 スピン量子ビットの低温制御のためのSRAMを用いた任意の波形生成器を提案する。 本研究では,14nmFinFET技術を用いた完全プログラマブル無線周波数任意波形発生器の低温動作を実証する。 制御プロセッサからの波形シーケンスはSRAMメモリアレイに格納することができ、リアルタイムでプログラムすることができる。 波形パターンは、ソース系列終端デジタルからアナログ変換器によりマイクロ波パルスに変換する。 チップは4Kで動作し、所望のキャリア周波数で任意のエンベロープ形状を生成することができる。 AWGの総消費電力は、ボーレートに応じて4Kで40-140mWである。 1-17ghzの広帯域の信号帯域を4kで測定し、平均スプリアス自由ダイナミックレンジ40dbで周波数分割多重化を用いて複数の量子ビット制御を実現する。 この研究は、低レイテンシエラー軽減を実現するために必要となる最適量子ビット制御と閉ループフィードバック制御への道を開く。

Realization of qubit gate sequences require coherent microwave control pulses with programmable amplitude, duration, spacing and phase. We propose an SRAM based arbitrary waveform generator for cryogenic control of spin qubits. We demonstrate in this work, the cryogenic operation of a fully programmable radio frequency arbitrary waveform generator in 14 nm FinFET technology. The waveform sequence from a control processor can be stored in an SRAM memory array, which can be programmed in real time. The waveform pattern is converted to microwave pulses by a source-series-terminated digital to analog converter. The chip is operational at 4 K, capable of generating an arbitrary envelope shape at the desired carrier frequency. Total power consumption of the AWG is 40-140mW at 4 K, depending upon the baud rate. A wide signal band of 1-17 GHz is measured at 4 K, while multiple qubit control can be achieved using frequency division multiplexing at an average spurious free dynamic range of 40 dB. This work paves the way to optimal qubit control and closed loop feedback control, which is necessary to achieve low latency error mitigation
翻訳日:2023-01-20 11:45:03 公開日:2022-11-03
# 弱変形軟導波路の境界状態

Bound states of weakly deformed soft waveguides ( http://arxiv.org/abs/2211.01989v1 )

ライセンス: Link先を確認
Pavel Exner, Sylwia Kondej, Vladimir Lotoreichik(参考訳) 本稿では,非有界ストリップ状領域の特性関数の倍数である2次元schr\"odinger演算子について,その厚みが変化し,$d > 0$ が定数,$\varepsilon > 0$ が小パラメータ,$f$ がコンパクトに支持された連続関数であるような関数 $\mathbb{r}\ni x \mapsto d+\varepsilon f(x)$ によって決定される,魅力的なポテンシャルを持つ2次元schr\"odinger operator を考える。 我々は、もし $\int_{\mathbb{R}} f \,\mathsf{d} x > 0$ であるなら、それぞれのシュリンガー作用素は、十分小さな$\varepsilon > 0$ に対して必須スペクトルのしきい値より下にある一意の単純固有値を持ち、この固有値の漸近展開を、体制 $\varepsilon\rightarrow 0$ で得られることを証明している。 各々の固有関数の漸近展開である $\varepsilon\rightarrow 0$ も得られる。 例えば、$\int_{\mathbb{R}} f \,\mathsf{d} x < 0$ の場合、離散スペクトルが十分小さいすべての$\varepsilon > 0$に対して空であることを示す。 臨界ケース $\int_{\mathbb{r}} f \,\mathsf{d} x = 0$ において、十分小さい$\varepsilon > 0$ に対して一意な境界状態が存在するための十分条件を導出する。

In this paper we consider the two-dimensional Schr\"odinger operator with an attractive potential which is a multiple of the characteristic function of an unbounded strip-shaped region, whose thickness is varying and is determined by the function $\mathbb{R}\ni x \mapsto d+\varepsilon f(x)$, where $d > 0$ is a constant, $\varepsilon > 0$ is a small parameter, and $f$ is a compactly supported continuous function. We prove that if $\int_{\mathbb{R}} f \,\mathsf{d} x > 0$, then the respective Schr\"odinger operator has a unique simple eigenvalue below the threshold of the essential spectrum for all sufficiently small $\varepsilon >0$ and we obtain the asymptotic expansion of this eigenvalue in the regime $\varepsilon\rightarrow 0$. An asymptotic expansion of the respective eigenfunction as $\varepsilon\rightarrow 0$ is also obtained. In the case that $\int_{\mathbb{R}} f \,\mathsf{d} x < 0$ we prove that the discrete spectrum is empty for all sufficiently small $\varepsilon > 0$. In the critical case $\int_{\mathbb{R}} f \,\mathsf{d} x = 0$, we derive a sufficient condition for the existence of a unique bound state for all sufficiently small $\varepsilon > 0$.
翻訳日:2023-01-20 11:44:32 公開日:2022-11-03
# 可逆双加群圏と一般化シュル直交

Invertible bimodule categories and generalized Schur orthogonality ( http://arxiv.org/abs/2211.01947v1 )

ライセンス: Link先を確認
Jacob C. Bridgeman, Laurens Lootens, Frank Verstraete(参考訳) シュール直交関係は群の表現論における基礎となる。 弱ホップ代数への一般化を利用して、与えられた双加群圏が可逆であるか否かを判定するために、骨格データに新しい容易に検証可能な条件を与え、それゆえモリタ同値を定義する。 第一の応用として、与えられた加群圏に関連する可逆双加群圏の全骨格データを構成するためのアルゴリズムを提供し、その基礎となる圏がユニタリであるときにユニタリゲージで得られる。 第2の応用として, 可逆性条件が mpo-インジェクティビティの概念と同値であることを示し, 位相次数を示す文字列ネットモデルのテンソルネットワーク表現に関するオープン質問を閉じる。 本稿では一般化ウィグナー-エッカート定理を含む一般化対称性の応用について論じる。

The Schur orthogonality relations are a cornerstone in the representation theory of groups. We utilize a generalization to weak Hopf algebras to provide a new, readily verifiable condition on the skeletal data for deciding whether a given bimodule category is invertible and therefore defines a Morita equivalence. As a first application, we provide an algorithm for the construction of the full skeletal data of the invertible bimodule category associated to a given module category, which is obtained in a unitary gauge when the underlying categories are unitary. As a second application, we show that our condition for invertibility is equivalent to the notion of MPO-injectivity, thereby closing an open question concerning tensor network representations of string-net models exhibiting topological order. We discuss applications to generalized symmetries, including a generalized Wigner-Eckart theorem.
翻訳日:2023-01-20 11:43:55 公開日:2022-11-03
# 移動検出器の存在下での量子ランダムウォーカー

Quantum Random Walker in Presence of a Moving Detector ( http://arxiv.org/abs/2211.01942v1 )

ライセンス: Link先を確認
Md Aquib Molla and Sanchari Goswami(参考訳) 本研究では,移動検知器が1次元の量子ランダムウォークの離散時間に与える影響について検討する。 占有確率$f(x,t;n,s)$は、検出数$n$とシフト数$s$が異なるものとして推定される。 検出器の初期位置である$x_D$の占有確率は、量子力学的効果が小さいが、$n$が大きいと低下する$n$が小さいときに向上する。 歩行の職業確率と無限歩行の確率の比率は、$\frac{1}{n^2}$のスケーリング挙動を示す。 これは、シフト数$s$の明確なスケーリング動作を示している。 ウォークの制限行動は、$x_D$が大きければ$n$が大きければ$s$が大きければ$、これらのケースのウォーカーがそれぞれ無限ウォーク、The Semi Infinite Walk、およびQuantum Walkに近づくときに観察される。

In this work, we study the effect of a moving detector on a discrete time one dimensional Quantum Random Walk where the movement is realized in the form of hopping/shifts. The occupation probability $f(x,t;n,s)$ is estimated as the number of detection $n$ and number of shift $s$ vary. It is seen that the occupation probability at the initial position $x_D$ of the detector is enhanced when $n$ is small which a quantum mechanical effect but decreases when $n$ is large. The ratio of occupation probabilities of our walk to that of an Infinite walk shows a scaling behavior of $\frac{1}{n^2}$. It shows a definite scaling behavior with number of shifts $s$ also. The limiting behaviours of the walk are observed when $x_D$ is large, $n$ is large and $s$ is large and the walker for these cases approach the Infinite Walk, The Semi Infinite Walk and the Quenched Quantum Walk respectively.
翻訳日:2023-01-20 11:43:41 公開日:2022-11-03
# 機械学習によるスピンネットワークを用いた最適温度計の発見

Discovery of Optimal Thermometers with Spin Networks aided by Machine-Learning ( http://arxiv.org/abs/2211.01934v1 )

ライセンス: Link先を確認
Paolo Abiuso, Paolo Andrea Erdman, Michael Ronen, Frank No\'e, G\'eraldine Haack, Mart\'i Perarnau-Llobet(参考訳) 与えられたプローブの熱容量$\mathcal{C}$は、その他の特性の中で温度推定の最大精度を決定する基本的な量である。 逆に、$\mathcal{c}$ は、プローブの構成数の2次スケーリングによって制限され、量子温度測定において基本的な限界を与える。 この基礎を現実的なプローブ、すなわち実験的に可観測性と結び付けることは、未解決の問題である。 本研究では,最適スピンネットワーク熱プローブの探索に機械学習手法を応用し,物体間相互作用に制限を加える。 これは単純なアーキテクチャにつながり、解析的に$\mathcal{C}$の理論的極大値を近似し、短距離および長距離相互作用の最適スケーリングを維持する。 我々のモデルは、現在利用可能な量子アニーラーにエンコードでき、量子熱エンジンから断熱グローバー探索まで、ハミルトン工学を必要とする他のタスクに応用できる。

The heat capacity $\mathcal{C}$ of a given probe is a fundamental quantity that determines, among other properties, the maximum precision in temperature estimation. In turn, $\mathcal{C}$ is limited by a quadratic scaling with the number of constituents of the probe, which provides a fundamental limit in quantum thermometry. Achieving this fundamental bound with realistic probes, i.e. experimentally amenable, remains an open problem. In this work, we exploit machine-learning techniques to discover optimal spin-network thermal probes, restricting ourselves to two-body interactions. This leads to simple architectures, which we show analytically to approximate the theoretical maximal value of $\mathcal{C}$ and maintain the optimal scaling for short- and long-range interactions. Our models can be encoded in currently available quantum annealers, and find application in other tasks requiring Hamiltonian engineering, ranging from quantum heat engines to adiabatic Grover's search.
翻訳日:2023-01-20 11:43:22 公開日:2022-11-03
# 中間回路計測とリセットによるクビット再利用

Exploiting Qubit Reuse through Mid-circuit Measurement and Reset ( http://arxiv.org/abs/2211.01925v1 )

ライセンス: Link先を確認
Fei Hua, Yuwei Jin, Yanhao Chen, John Lapeyre, Ali Javadi-Abhari and Eddy Z. Zhang(参考訳) 量子測定は、計算の最後に回路の結果を抽出するので、量子コンピューティングにとって重要である。 これまでは、すべての測定は回路の最後に行う必要があった。 さもないと重大なエラーが発生する。 しかし、今はそうではない。 最近、IBMはハードウェア(シミュレータによるソフトウェアの代わりに)による動的回路のサポートを開始した。 中間回路のハードウェア測定により、回路効率と忠実度を3つの側面から改善することができる。 a) qubit の使用を減らします。 (b)スワップ挿入の削減、及び (c) 忠実度が向上した。 実世界のアプリケーションであるbernstein verizani を用いて実ハードウェア上でこれを実演し,回路リソース使用率を60\%向上し,回路忠実度を15\%向上できることを示す。 我々は,キュービットの再利用,忠実度,ゲート数,回路長のトレードオフを見つけ,活用できるコンパイラ支援ツールを設計する。 また,特定のアプリケーションに対してqubitの再利用が有益かどうかを判定する手法を開発した。 本手法を代表的な応用として評価した。 資源使用量を最大80 %削減し、回路忠実度を最大20 %削減できる。

Quantum measurement is important to quantum computing as it extracts the outcome of the circuit at the end of the computation. Previously, all measurements have to be done at the end of the circuit. Otherwise, it will incur significant errors. But it is not the case now. Recently IBM started supporting dynamic circuits through hardware (instead of software by simulator). With mid-circuit hardware measurement, we can improve circuit efficacy and fidelity from three aspects: (a) reduced qubit usage, (b) reduced swap insertion, and (c) improved fidelity. We demonstrate this using real-world applications Bernstein Verizani on real hardware and show that circuit resource usage can be improved by 60\%, and circuit fidelity can be improved by 15\%. We design a compiler-assisted tool that can find and exploit the tradeoff between qubit reuse, fidelity, gate count, and circuit duration. We also developed a method for identifying whether qubit reuse will be beneficial for a given application. We evaluated our method on a representative set of essential applications. We can reduce resource usage by up to 80\% and circuit fidelity by up to 20\%.
翻訳日:2023-01-20 11:43:06 公開日:2022-11-03
# 量子四次発振器の確率的表現

Stochastic Representation of the Quantum Quartic Oscillator ( http://arxiv.org/abs/2211.01923v1 )

ライセンス: Link先を確認
Gennaro Tucci, Stefano De Nicola, Sascha Wald, and Andrea Gambassi(参考訳) 最近の実験的進歩は、量子系の非平衡力学を記述する理論ツールの開発に影響を与えた。 その中でも古典的確率過程の観点から量子スピン系の正確な表現が提案されている。 ここでは、この確率的アプローチのボゾン系への拡張に向けた第一歩として、1次元量子クォート振動子を考える。 古典変数の集合のダイナミクスを通して、この原型的モデルの時間発展を正確にパラメータ化する方法を示す。 これらの変数を確率過程として解釈することにより,システムの時間発展を数値的にシミュレートする新しい手法を提案する。 我々は, 解析的可解限界を考慮し, 既知の結果の代替導出を提供することにより, 結果のベンチマークを行う。

Recent experimental advances have inspired the development of theoretical tools to describe the non-equilibrium dynamics of quantum systems. Among them an exact representation of quantum spin systems in terms of classical stochastic processes has been proposed. Here we provide first steps towards the extension of this stochastic approach to bosonic systems by considering the one-dimensional quantum quartic oscillator. We show how to exactly parameterize the time evolution of this prototypical model via the dynamics of a set of classical variables. We interpret these variables as stochastic processes, which allows us to propose a novel way to numerically simulate the time evolution of the system. We benchmark our findings by considering analytically solvable limits and providing alternative derivations of known results.
翻訳日:2023-01-20 11:42:50 公開日:2022-11-03
# Hilbert-P'olya Conjecture に対する形式的自己随伴ハミルトニアン

Formally Self-Adjoint Hamiltonian for the Hilbert-P\'olya Conjecture ( http://arxiv.org/abs/2211.01899v1 )

ライセンス: Link先を確認
Enderalp Yakaboylu(参考訳) 固有値がリーマンゼータ函数の非自明な零点に対応する形式的自己随伴ハミルトニアンを構成する。 ベリーキーティングハミルトニアンをユニタリ変換により半直線上の数演算子に結合する二次元ハミルトニアンを考える。 我々は、一元作用素が圧縮(ダイレーション)作用素と数作用素の指数で成り立っており、スキーズパラメータが無限大に向かう傾向があるため、ハミルトニアンの固有函数を1次元に制限することを示した。 リーマンゼータ関数は、得られた拘束された波動関数の境界に現れ、課された境界条件の結果消滅する。 ここで示される形式的議論がより厳密に、特に、与えられた境界条件の下でハミルトニアンが自己随伴であることを厳密に示すことができるならば、我々のアプローチはリーマン予想が真であることを示す可能性を秘めている。

We construct a formally self-adjoint Hamiltonian whose eigenvalues correspond to the nontrivial zeros of the Riemann zeta function. We consider a two-dimensional Hamiltonian which couples the Berry-Keating Hamiltonian to the number operator on the half-line via a unitary transformation. We demonstrate that the unitary operator, which is composed of squeeze (dilation) operators and an exponential of the number operator, confines the eigenfunction of the Hamiltonian to one dimension as the squeezing parameter tends towards infinity. The Riemann zeta function appears at the boundary of the resulting confined wave function and vanishes as a result of the imposed boundary condition. If the formal argument presented here can be made more rigorous, particularly if it can be shown rigorously that the Hamiltonian remains self-adjoint under the imposed boundary condition, then our approach has the potential to imply that the Riemann hypothesis is true.
翻訳日:2023-01-20 11:42:40 公開日:2022-11-03
# 非線形熱電流の量子力学理論

Quantum kinetic theory of nonlinear thermal current ( http://arxiv.org/abs/2211.01895v1 )

ライセンス: Link先を確認
Harsh Varshney, Kamal Das, Pankaj Bhalla, and Amit Agarwal(参考訳) 温度勾配による2次非線形電子熱輸送について検討する。 温度勾配が存在する場合の熱輸送を記述するための量子力学理論フレームワークを開発する。 これを用いて, 固有散乱時間独立非線形熱電流と, 既知の非線形ドリュードおよびベリー曲率双極子寄与を予測した。 固有熱電流はバンド幾何量によって決定され、空間反転と時間反転の対称性が両立しない系でのみゼロでないことを示す。 傾斜した大規模ディラック系における熱応答の研究に, 理論を応用した。 異なる散乱時間依存性に加えて, 種々の電流寄与は低温限界において異なる温度依存性を有することを示す。 非線形熱輸送の系統的および包括的理論は,本質的熱応答に関する将来の理論的および実験的研究の道を開く。

We investigate the second-order nonlinear electronic thermal transport induced by temperature gradient. We develop the quantum kinetic theory framework to describe thermal transport in presence of a temperature gradient. Using this, we predict an intrinsic scattering time independent nonlinear thermal current in addition to the known extrinsic nonlinear Drude and Berry curvature dipole contributions. We show that the intrinsic thermal current is determined by the band geometric quantities and is non-zero only in systems where both the space inversion and time-reversal symmetries are broken. We employ the developed theory to study the thermal response in tilted massive Dirac systems. We show that besides the different scattering time dependence, the various current contributions have distinct temperature dependence in the low temperature limit. Our systematic and comprehensive theory for nonlinear thermal transport paves the way for future theoretical and experimental studies on intrinsic thermal responses.
翻訳日:2023-01-20 11:42:20 公開日:2022-11-03
# 粒子の古典モデルと量子ゲージ理論

Some Classical Models of Particles and Quantum Gauge Theories ( http://arxiv.org/abs/2211.02886v1 )

ライセンス: Link先を確認
Andrey Akhmeteli(参考訳) この記事では、量子力学の解釈とよく知られた量子ゲージ理論(Klein-Gordon-Maxwell Electrodynamics)、スピノル電磁力学(Dirac-Maxwell Electrodynamics)など、いくつかの数学的モデルのレビューと新しい結果を含む。 これらのモデルでは、進化は通常マクスウェル方程式によって記述される。 スカラー電磁力学の場合、スカラー複素波動関数はゲージ変換によって現実にすることができ、波動関数はスカラー電磁力学の方程式から代数的に取り除くことができ、修正されたマクスウェル方程式は磁場の独立な発展を記述する。 スピノル電気力学にも同様の結果が得られた。 ディラックスピノルの4つの成分のうち3つはディラック方程式から代数的に取り除くことができ、残りの成分はゲージ変換によって現実にすることができる。 同様の結果はヤン=ミルズ場におけるディラック方程式に対しても得られた。 量子ゲージ理論は現代物理学において中心的な役割を果たすので、この記事のアプローチは十分に一般的かもしれない。 一粒子波動関数は、多数の粒子と反粒子のプラズマ様集合としてモデル化することができる。 これはウィグナー分布関数のような、必ずしも非負ではない量子位相空間分布関数のシミュレーションを可能にするように見える。

The article contains a review and new results of some mathematical models relevant to the interpretation of quantum mechanics and emulating well-known quantum gauge theories, such as scalar electrodynamics (Klein-Gordon-Maxwell electrodynamics), spinor electrodynamics (Dirac-Maxwell electrodynamics), etc. In these models, evolution is typically described by modified Maxwell equations. In the case of scalar electrodynamics, the scalar complex wave function can be made real by a gauge transformation, the wave function can be algebraically eliminated from the equations of scalar electrodynamics, and the resulting modified Maxwell equations describe the independent evolution of the electromagnetic field. Similar results were obtained for spinor electrodynamics. Three out of four components of the Dirac spinor can be algebraically eliminated from the Dirac equation, and the remaining component can be made real by a gauge transformation. A similar result was obtained for the Dirac equation in the Yang-Mills field. As quantum gauge theories play a central role in modern physics, the approach of this article may be sufficiently general. One-particle wave functions can be modeled as plasma-like collections of a large number of particles and antiparticles. This seems to enable the simulation of quantum phase-space distribution functions, such as the Wigner distribution function, which are not necessarily non-negative.
翻訳日:2023-01-20 11:36:18 公開日:2022-11-03
# バイアスドノイズに対する3次元位相符号の調整

Tailoring three-dimensional topological codes for biased noise ( http://arxiv.org/abs/2211.02116v1 )

ライセンス: Link先を確認
Eric Huang, Arthur Pesah, Christopher T. Chubb, Michael Vasmer and Arpit Dua(参考訳) 2次元の位相安定符号は、高い記憶しきい値誤差率を示し、偏りのあるポーリ雑音下でのサブスレッショルド性能を改善することが示されている。 3次元(3D)位相符号は、非クリフォード論理ゲートの逆実装、単ショット復号法、フラクトン符号の並列化復号法、フラクタル格子符号の構成など、いくつかの利点がある。 そこで我々は,ポーリ雑音の偏りを考慮したストレージ性能向上のために,3次元トポロジカル符号の調整を行った。 様々な3Dトポロジコードのクリフォード変形を,無限バイアスのパウリ雑音下でのしきい値誤差率が50\%$であることを示す。 例えば、立方格子上の3d表面コード、チェッカーボード格子上の3d表面コード、シングルショットデコーダを備えたサブシステムコード、3dカラーコード、x-cubeモデル、sierpinskiモデル、haahコードといったフラクトンモデルなどです。 我々は,順序付き統計復号器(BP-OSD)を用いて,有限バイアスにおけるしきい値誤差率を調べる。 また, 3次元曲面符号に対して, 同じ符号距離に対して, ほぼ半分の物理量子ビットを適切な境界条件下で使用する回転レイアウトを提案する。 この回転レイアウトにコリメ周期次元を導入すると、無限のバイアスで重量$O(n)$の論理演算子と対応する$\exp[-O(n)]$の論理的故障率のサブスレッショルドスケーリングが発生し、そこで$n$はコード内の物理量子ビットの数である。 このスケーリングは、$O(1)$ローレートのパウリ誤差を持つ論理表現の存在により不安定であるが、そのような表現の数はクリフォード変形符号に対してのみ多項式的にスケールし、拡張された有効距離をもたらす。

Tailored topological stabilizer codes in two dimensions have been shown to exhibit high storage threshold error rates and improved subthreshold performance under biased Pauli noise. Three-dimensional (3D) topological codes can allow for several advantages including a transversal implementation of non-Clifford logical gates, single-shot decoding strategies, parallelized decoding in the case of fracton codes as well as construction of fractal lattice codes. Motivated by this, we tailor 3D topological codes for enhanced storage performance under biased Pauli noise. We present Clifford deformations of various 3D topological codes, such that they exhibit a threshold error rate of $50\%$ under infinitely biased Pauli noise. Our examples include the 3D surface code on the cubic lattice, the 3D surface code on a checkerboard lattice that lends itself to a subsystem code with a single-shot decoder, the 3D color code, as well as fracton models such as the X-cube model, the Sierpinski model and the Haah code. We use the belief propagation with ordered statistics decoder (BP-OSD) to study threshold error rates at finite bias. We also present a rotated layout for the 3D surface code, which uses roughly half the number of physical qubits for the same code distance under appropriate boundary conditions. Imposing coprime periodic dimensions on this rotated layout leads to logical operators of weight $O(n)$ at infinite bias and a corresponding $\exp[-O(n)]$ subthreshold scaling of the logical failure rate, where $n$ is the number of physical qubits in the code. Even though this scaling is unstable due to the existence of logical representations with $O(1)$ low-rate Pauli errors, the number of such representations scales only polynomially for the Clifford-deformed code, leading to an enhanced effective distance.
翻訳日:2023-01-20 11:35:43 公開日:2022-11-03
# 複合性に関する手法とその関連

Methods on compositeness and related aspects ( http://arxiv.org/abs/2211.02083v1 )

ライセンス: Link先を確認
J.A. Oller(参考訳) 多くの物理応用では、境界状態と共鳴が観測され、これらの状態が初等的か複合的かという疑問が提起される。 ここでは、量子力学における境界状態と共鳴の合成性を$X$で計算するいくつかの方法と、粒子数演算子の導入による量子場理論について詳述する。 共鳴について、$X$は通常複雑であり、$S$行列の特定の位相変換を用いて意味のある結果を得る方法について論じる。

In many physical applications, bound states and/or resonances are observed, which raises the question whether these states are elementary or composite. Here we elaborate on several methods for calculating the compositeness $X$ of bound states and resonances in Quantum Mechanics, and in Quantum Field Theory by introducing particle number operators. For resonances $X$ is typically complex and we discuss how to get meaningful results by using certain phase transformations in the $S$ matrix.
翻訳日:2023-01-20 11:34:44 公開日:2022-11-03
# 集積低温量子制御系へのシステム設計アプローチ

A system design approach toward integrated cryogenic quantum control systems ( http://arxiv.org/abs/2211.02081v1 )

ライセンス: Link先を確認
Mridula Prathapan, Peter Mueller, David Heim, Maria Vittoria Oropallo, Matthias Braendli, Pier Andrea Francese, Marcel Kossel, Andrea Ruffino, Cezar Zota, Eunjung Cha, and Thomas Morf(参考訳) 本稿では,大規模量子システムのための制御エレクトロニクスの設計について,システムレベルの視点を提供する。 高忠実性制御と読み出し、コヒーレントカップリング、キャリブレーションゲート、エラーレートの低い再構成可能な回路を備えた量子コンピューティングシステムは、優れた量子ボリュームを持つことが期待される。 低温CMOSは、機能サイズの最小化、コスト削減、消費電力削減、低レイテンシエラー修正の実装により、スケーラブルな量子コンピュータの実現において重要な役割を果たす。 スケーラブルなフィードバック制御システムを実現するためのアプローチとしては,メモリベース任意波形生成器(awg)の設計,ディジタルコンバータの広帯域無線周波数アナログ,アンプチェーンの統合,ゲートシーケンスに同期可能な状態判別器などがある。 7nmのような高度なCMOSノードに実装されたディジタルアシスト設計は、スケーリングによる低消費電力の利点を享受することができる。 キュービット読み出しチェーンは、デジタイザの前にいくつかの増幅段階を要求する。 我々は、最小面積のデジタイザ入力において必要なゲインを達成するために、社内で開発したInP HEMT LNAをCMOS LNAステージで統合することを提案する。 HEMT LNAと低温CMOS受信機との高インピーダンスマッチングを用いたアプローチは、インバータベースのCMOS LNAの設計制約を緩和し、完全に統合された量子ビットリードアウトチェーンへの道を歩むことができる。 クビット状態判別器は、ディジタイザ出力からクビット状態を算出するデジタル信号処理装置と、予め決定された閾値とから構成される。 提案方式は, 室温電子回路へのシリアルインタフェースによる誤差低減とデータレート低減のためのフィードバックに基づく最適制御を実現する。

In this paper, we provide a system level perspective on the design of control electronics for large scale quantum systems. Quantum computing systems with high-fidelity control and readout, coherent coupling, calibrated gates, and reconfigurable circuits with low error rates are expected to have superior quantum volumes. Cryogenic CMOS plays a crucial role in the realization of scalable quantum computers, by minimizing the feature size, lowering the cost, power consumption, and implementing low latency error correction. Our approach toward achieving scalable feed-back based control systems includes the design of memory based arbitrary waveform generators (AWG's), wide band radio frequency analog to digital converters, integrated amplifier chain, and state discriminators that can be synchronized with gate sequences. Digitally assisted designs, when implemented in an advanced CMOS node such as 7 nm can reap the benefits of low power due to scaling. A qubit readout chain demands several amplification stages before the digitizer. We propose the co-integration of our in-house developed InP HEMT LNAs with CMOS LNA stages to achieve the required gain at the digitizer input with minimal area. Our approach using high impedance matching between the HEMT LNA and the cryogenic CMOS receiver can relax the design constraints of an inverter-based CMOS LNA, paving the way toward a fully integrated qubit readout chain. The qubit state discriminator consists of a digital signal processor that computes the qubit state from the digitizer output and a pre-determined threshold. The proposed system realizes feedback-based optimal control for error mitigation and reduction of the required data rate through the serial interface to room temperature electronics.
翻訳日:2023-01-20 11:34:35 公開日:2022-11-03
# n$-quantumパーティの意思決定と真理性検証のためのquantum protocol:quantum coin flipping gameの解法と拡張

Quantum Protocol for Decision Making and Verifying Truthfulness among $N$-quantum Parties: Solution and Extension of the Quantum Coin Flipping Game ( http://arxiv.org/abs/2211.02073v1 )

ライセンス: Link先を確認
Kazuki Ikeda, Adam Lowe(参考訳) 我々は、量子チャネルを介して通信において誤動作や意図的に誤った情報を伝達する2つの当事者が互いの測定を検証し、互いの結果に同意するプロトコルを考案した。 これは、プレイヤーの不正行為の可能性が排除された量子コインフリップゲームの修正版に特に関係がある。 さらに、分析をN$-partiesに拡張し、各プレーヤーの計測値を検証するための複数のソリューションを提案する。 N$-partyシナリオの結果は、量子情報の検証が不可欠である将来の量子ネットワークの実装に特に関連がある可能性がある。

We devised a protocol that allows two parties, who may malfunction or intentionally convey incorrect information in communication through a quantum channel, to verify each other's measurements and agree on each other's results. This has particular relevance in a modified version of the quantum coin flipping game where the possibility of the players cheating is now removed. Furthermore, the analysis is extended to $N$-parties communicating with each other, where we propose multiple solutions for the verification of each player's measurement. The results in the $N$-party scenario could have particular relevance for the implementation of future quantum networks, where verification of quantum information is a necessity.
翻訳日:2023-01-20 11:34:04 公開日:2022-11-03
# 強結合における有限時間ランダウアー原理

Finite-time Landauer principle at strong coupling ( http://arxiv.org/abs/2211.02065v1 )

ライセンス: Link先を確認
Alberto Rolandi and Mart\'i Perarnau-Llobet(参考訳) ランダウアーの原理は、情報を消去する熱力学的コストに根本的な制限を与える。 その飽和は可逆等温過程を必要とし、したがって無限の時間を必要とする。 我々は,単一のフェルミオンモードの占有中にエンコードされたビットに対して,ランドウアーの原理の有限時間バージョンを開発した。 正確な非平衡力学を解くことによって、熱力学への幾何学的アプローチにより、遅い駆動状態における消去過程(フェルミオンのエネルギーと系-バス結合を制御パラメータとする)を最適化する。 数値的に解くことができる熱力学的計量と測地線方程式の解析式を求める。 これらの解は、非マルコフ的かつ強いカップリング効果を完全に考慮して、ランダウアーの束縛に対する有限時間補正を特徴付けるための最適な過程を与える。

Landauer's principle gives a fundamental limit to the thermodynamic cost of erasing information. Its saturation requires a reversible isothermal process, and hence infinite time. We develop a finite-time version of Landauer's principle for a bit encoded in the occupation of a single fermionic mode, which can be strongly coupled to a reservoir. By solving the exact non-equilibrium dynamics, we optimize erasure processes (taking both the fermion's energy and system-bath coupling as control parameters) in the slow driving regime through a geometric approach to thermodynamics. We find analytic expressions for the thermodynamic metric and geodesic equations, which can be solved numerically. Their solution yields optimal processes that allow us to characterize a finite-time correction to Landauer's bound, fully taking into account non-markovian and strong coupling effects.
翻訳日:2023-01-20 11:33:51 公開日:2022-11-03
# 可逆マルコフ鎖の量子ウォークにおける平均混合

Average Mixing in Quantum Walks of Reversible Markov Chains ( http://arxiv.org/abs/2211.02037v1 )

ライセンス: Link先を確認
Julien Sorci(参考訳) セゲディ量子ウォーク(Szegedy quantum walk)は、マルコフ連鎖の量子アナログを定義する離散時間量子ウォークモデルである。 量子ウォークの長期的挙動は平均混合行列と呼ばれる行列に符号化され、その行列はウォークの制限確率分布を初期状態として与える。 我々は、Szegedy量子ウォークの平均混合行列のバージョンを定義し、それが量子化するチェーンの制限挙動を、より容易に比較できるようにする。 我々はマルコフ連鎖のスペクトル分解の観点から混合行列の式を証明し、連鎖上の連続量子ウォークの混合行列との関係を示す。 特に,連続歩行における平均一様混合は,セゲディ歩行における平均一様混合を意味することを示す。 結論として,連続量子ウォークとセゲディ量子ウォークの両方において平均一様混合を許容する任意の大きさのマルコフ連鎖の例を示す。

The Szegedy quantum walk is a discrete time quantum walk model which defines a quantum analogue of any Markov chain. The long-term behavior of the quantum walk can be encoded in a matrix called the average mixing matrix, whose columns give the limiting probability distribution of the walk given an initial state. We define a version of the average mixing matrix of the Szegedy quantum walk which allows us to more readily compare the limiting behavior to that of the chain it quantizes. We prove a formula for our mixing matrix in terms of the spectral decomposition of the Markov chain and show a relationship with the mixing matrix of a continuous quantum walk on the chain. In particular, we prove that average uniform mixing in the continuous walk implies average uniform mixing in the Szegedy walk. We conclude by giving examples of Markov chains of arbitrarily large size which admit average uniform mixing in both the continuous and Szegedy quantum walk.
翻訳日:2023-01-20 11:33:38 公開日:2022-11-03
# 強化学習フレームワークを用いたA/Bテストにおける動的因果効果評価

Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework ( http://arxiv.org/abs/2002.01711v6 )

ライセンス: Link先を確認
Chengchun Shi, Xiaoyu Wang, Shikai Luo, Hongtu Zhu, Jieping Ye, Rui Song(参考訳) A/Bテストまたはオンライン実験は、新しい製品を製薬、技術、伝統産業の古い製品と比較するための標準的なビジネス戦略である。 主要な課題は、時間とともに一連の治療を受けるユニットが1つしか存在しない、双方向のマーケットプレイスプラットフォーム(例えばuber)のオンライン実験で発生する。 これらの実験では、ある時点における治療が現在の結果と将来の結果に影響を及ぼす。 本研究の目的は,a/bテストを実施するための強化学習フレームワークを,長期的治療効果を特徴付けながら導入することである。 提案手法により,シーケンシャルモニタリングとオンライン更新が可能となった。 一般的に異なる産業における様々な治療設計に適用できる。 さらに,テスト手順の理論的特性(例えば,サイズとパワー)を系統的に検討した。 最後に、我々のフレームワークを、シミュレーションデータと、技術企業から得られた実世界のデータ例の両方に適用し、現在の実践に対する優位性を実証する。 テストのPython実装はhttps://github.com/callmespring/CausalRL.comで公開されている。

A/B testing, or online experiment is a standard business strategy to compare a new product with an old one in pharmaceutical, technological, and traditional industries. Major challenges arise in online experiments of two-sided marketplace platforms (e.g., Uber) where there is only one unit that receives a sequence of treatments over time. In those experiments, the treatment at a given time impacts current outcome as well as future outcomes. The aim of this paper is to introduce a reinforcement learning framework for carrying A/B testing in these experiments, while characterizing the long-term treatment effects. Our proposed testing procedure allows for sequential monitoring and online updating. It is generally applicable to a variety of treatment designs in different industries. In addition, we systematically investigate the theoretical properties (e.g., size and power) of our testing procedure. Finally, we apply our framework to both simulated data and a real-world data example obtained from a technological company to illustrate its advantage over the current practice. A Python implementation of our test is available at https://github.com/callmespring/CausalRL.
翻訳日:2023-01-03 21:02:21 公開日:2022-11-03
# Approximate exploitability: 大規模ゲームで最高の反応を学ぶ

Approximate exploitability: Learning a best response in large games ( http://arxiv.org/abs/2004.09677v5 )

ライセンス: Link先を確認
Finbarr Timbers, Nolan Bard, Edward Lockhart, Marc Lanctot, Martin Schmid, Neil Burch, Julian Schrittwieser, Thomas Hubert, Michael Bowling(参考訳) 研究者たちは、ニューラルネットワークが敵対的な例や微妙な環境変化に弱いことを実証した。 人間にとって、結果として生じるエラーは、これらのエージェントに対する信頼を損なうようなものだ。 先行ゲーム研究において、エージェント評価はしばしば実践的なゲーム結果に焦点を当てた。 価値はあるが、このような評価は通常、最悪の結果に対する堅牢性の評価に失敗する。 コンピュータポーカーにおける以前の研究は、この最悪のケースのパフォーマンスを正確に、そして概ね評価する方法を調査した。 残念ながら、正確な計算はより大きなドメインでは不可能であり、既存の近似はポーカー固有の知識に依存している。 本稿では,エージェントに対する最善の応答を学習するスケーラブルな検索型深層強化学習アルゴリズムismcts-brを提案する。 本手法は,AlphaZeroをベースとしたエージェントを含む各種エージェントに対して,複数の2プレーヤゼロサムゲームで実演する。

Researchers have demonstrated that neural networks are vulnerable to adversarial examples and subtle environment changes, both of which one can view as a form of distribution shift. To humans, the resulting errors can look like blunders, eroding trust in these agents. In prior games research, agent evaluation often focused on the in-practice game outcomes. While valuable, such evaluation typically fails to evaluate robustness to worst-case outcomes. Prior research in computer poker has examined how to assess such worst-case performance, both exactly and approximately. Unfortunately, exact computation is infeasible with larger domains, and existing approximations rely on poker-specific knowledge. We introduce ISMCTS-BR, a scalable search-based deep reinforcement learning algorithm for learning a best response to an agent, thereby approximating worst-case performance. We demonstrate the technique in several two-player zero-sum games against a variety of agents, including several AlphaZero-based agents.
翻訳日:2022-12-11 18:02:36 公開日:2022-11-03
# 大規模事前学習言語モデルを用いたプレマーケット医療機器のFDA支援

Using Large Pre-Trained Language Model to Assist FDA in Premarket Medical Device ( http://arxiv.org/abs/2212.01217v1 )

ライセンス: Link先を確認
Zongzhe Xu(参考訳) 本稿では,FDA医療機器のマーケティングプロセスを支援する自然言語処理の可能性を提案する。 実際のデバイス記述は、CFRのFDATitle21におけるデバイス記述と一致して、対応するデバイスタイプを決定する。 FastTextのような事前訓練された単語埋め込みと文変換器のような大規模な事前学習された文埋め込みモデルの両方を、デバイス記述の特徴付けの精度で評価する。 また、これらのモデルがFDAデータベースに不正に分類されたデバイスを識別できるかどうかをテストする実験も行われた。 その結果,t5,mpnet,gpt-3を用いた文トランスフォーマは,手作業で検索しなければならない2585種類のデバイス記述と比較して,第115の結果に含まれる正しいラベルを狭くすることで,正しい分類を識別する精度が高いことがわかった。 一方で、すべての手法は、完全に不正にラベル付けされたデバイスを特定する際に高い精度を示すが、誤りであるが真のラベルと密接な関係がある偽のデバイス分類を識別できない。

This paper proposes a possible method using natural language processing that might assist in the FDA medical device marketing process. Actual device descriptions are taken and matched with the device description in FDA Title 21 of CFR to determine their corresponding device type. Both pre-trained word embeddings such as FastText and large pre-trained sentence embedding models such as sentence transformers are evaluated on their accuracy in characterizing a piece of device description. An experiment is also done to test whether these models can identify the devices wrongly classified in the FDA database. The result shows that sentence transformer with T5 and MPNet and GPT-3 semantic search embedding show high accuracy in identifying the correct classification by narrowing down the correct label to be contained in the first 15 most likely results, as compared to 2585 types of device descriptions that must be manually searched through. On the other hand, all methods demonstrate high accuracy in identifying completely incorrectly labeled devices, but all fail to identify false device classifications that are wrong but closely related to the true label.
翻訳日:2022-12-11 13:07:38 公開日:2022-11-03
# 近接相互作用に基づく多人数環境における活動認識におけるセンサアクティベーションの識別

Discriminating sensor activation in activity recognition within multi-occupancy environments based on nearby interaction ( http://arxiv.org/abs/2211.10355v1 )

ライセンス: Link先を確認
Aurora Polo-Rodriguez and Javier Medina-Quero(参考訳) 本研究は、近接相互作用に基づくマルチ占有環境におけるセンサアクティベーションを識別するコンピュータモデルを提案する。 現在の近接型および屋内位置推定法では、住民が日常の人間活動を行う場所や地域を推定できる。 本研究では, 位置とセンサのアクティベーションの空間的-時間的関係を記述し, 各居住者に対してセンサ相互作用行列を生成する。 これにより、古典的HARモデルを使用することで、マルチ占有問題の複雑さを低減できる。 UWBとバイナリセンサーを併用したケーススタディを示す。

This work presents a computer model to discriminate sensor activation in multi-occupancy environments based on proximity interaction. Current proximity-based and indoor location methods allow the estimation of the positions or areas where inhabitants carry out their daily human activities. The spatial-temporal relation between location and sensor activations is described in this work to generate a sensor interaction matrix for each inhabitant. This enables the use of classical HAR models to reduce the complexity of the multi-occupancy problem. A case study deployed with UWB and binary sensors is presented.
翻訳日:2022-11-27 13:35:11 公開日:2022-11-03
# ハイブリッドマルチパスTCPを用いた公平かつ効率的な分散エッジ学習

Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP ( http://arxiv.org/abs/2211.09723v1 )

ライセンス: Link先を確認
Shiva Raj Pokhrel, Jinho Choi and Anwar Walid(参考訳) 無線による分散エッジ学習(DEL)のボトルネックは、主にDELの集約(Agg-Avg)プロセスであるコンピューティングから通信へと移行した。 DELの既存のトランスミッション制御プロトコル(TCP)ベースのデータネットワークスキームは、アプリケーションに依存しないため、アプリケーション層要求に応じて調整を行うことができない。 その結果、彼らは膨大な過剰な時間と不公平さやストラグラーのような望ましくない問題を導入した。 他の事前緩和ソリューションには、パスをまたいだワーカーからのデータフローレートのバランスをとるという大きな制限があるが、パスがばらつきを示し、ストラグラーを引き起こすと、しばしば不均衡なバックログが発生する。 より生産的なdelを実現するために、モデルベースと深層強化学習(drl)ベースのmptcpを組み合わせることで、delのより迅速なイテレーションと(ストラグラーの改善による)公平性の向上を目指すハイブリッドマルチパスtcp(mptcp)を開発した。 ハイブリッドMPTCPは基本的に2つの急進的なTCP開発を統合する。 i)既存モデルに基づくmptcp制御戦略と成功例 二 新興DRLベースの技術を導入し、Agg-Avgプロセスの通信を緩和するための新しいハイブリッドMPTCPデータトランスポートを導入する。 大規模なエミュレーションの結果,提案したハイブリッドMPTCPは,過剰な時間消費を克服し,DELのアプリケーション層の不公平性を効果的に改善できることを示した。

The bottleneck of distributed edge learning (DEL) over wireless has shifted from computing to communication, primarily the aggregation-averaging (Agg-Avg) process of DEL. The existing transmission control protocol (TCP)-based data networking schemes for DEL are application-agnostic and fail to deliver adjustments according to application layer requirements. As a result, they introduce massive excess time and undesired issues such as unfairness and stragglers. Other prior mitigation solutions have significant limitations as they balance data flow rates from workers across paths but often incur imbalanced backlogs when the paths exhibit variance, causing stragglers. To facilitate a more productive DEL, we develop a hybrid multipath TCP (MPTCP) by combining model-based and deep reinforcement learning (DRL) based MPTCP for DEL that strives to realize quicker iteration of DEL and better fairness (by ameliorating stragglers). Hybrid MPTCP essentially integrates two radical TCP developments: i) successful existing model-based MPTCP control strategies and ii) advanced emerging DRL-based techniques, and introduces a novel hybrid MPTCP data transport for easing the communication of the Agg-Avg process. Extensive emulation results demonstrate that the proposed hybrid MPTCP can overcome excess time consumption and ameliorate the application layer unfairness of DEL effectively without injecting additional inconstancy and stragglers.
翻訳日:2022-11-20 14:01:01 公開日:2022-11-03
# 有限データからの重力電流再構成のための物理インフォームドニューラルネットワーク

Physics-informed neural networks for gravity currents reconstruction from limited data ( http://arxiv.org/abs/2211.09715v1 )

ライセンス: Link先を確認
Micka\"el Delcey, Yoann Cheny, S\'ebastien Kiesgen de Richter(参考訳) 本研究では, 物理インフォームドニューラルネットワーク(PINN)を用いた非定常重力電流の3次元再構成について検討した。 PINNの文脈では、目的関数がネットワーク予測と観測データとのミスマッチをペナルティ化し、自動微分を用いて基礎となる方程式を埋め込むニューラルネットワークを訓練することにより、流れ場を再構築する。 本研究は、正準ロック交換構成の高忠実度数値実験に依存する。 これにより、密度と速度に関する最先端の実験的な測定技術を模倣した、いくつかのトレーニングデータベース上で、PINNの再構築能力を定量的にベンチマークすることができる。 特に、光減衰法(lat)による空間平均密度測定がトレーニング手順に採用されている。 pinnによるフロー再構成のための最適実験セットアップは,実装の複雑さと推定フィールドの精度という2つの基準に従って提案されている。

The present work investigates the use of physics-informed neural networks (PINNs) for the 3D reconstruction of unsteady gravity currents from limited data. In the PINN context, the flow fields are reconstructed by training a neural network whose objective function penalizes the mismatch between the network predictions and the observed data and embeds the underlying equations using automatic differentiation. This study relies on a high-fidelity numerical experiment of the canonical lock-exchange configuration. This allows us to benchmark quantitatively the PINNs reconstruction capabilities on several training databases that mimic state-of-the-art experimental measurement techniques for density and velocity. Notably, spatially averaged density measurements by light attenuation technique (LAT) are employed for the training procedure. An optimal experimental setup for flow reconstruction by PINNs is proposed according to two criteria : the implementation complexity and the accuracy of the inferred fields.
翻訳日:2022-11-20 13:49:30 公開日:2022-11-03
# 生成モデルを用いた合成材料マイクロ構造画像の評価指標の検討

A Survey on Evaluation Metrics for Synthetic Material Micro-Structure Images from Generative Models ( http://arxiv.org/abs/2211.09727v1 )

ライセンス: Link先を確認
Devesh Shah (1), Anirudh Suresh (2), Alemayehu Admasu (1), Devesh Upadhyay (1), Kalyanmoy Deb (2) ((1) Ford Motor Company, (2) Michigan State University)(参考訳) 合成微細構造画像の評価は、機械学習と材料科学の研究が共に発展するにつれ、新たな問題となっている。 生成モデルから合成画像を評価する技術手法の典型例はFr'echet Inception Distanceに依存している。 しかし、これらや他の類似の手法は、物理的に正確なマイクロ構造と限られたデータセットサイズを特徴付けるユニークな特徴により、材料領域において制限されている。 本研究では, グラフェン強化ポリウレタン発泡体の走査電子顕微鏡(SEM)像について検討した。 本研究の目的は,物質科学領域における合成画像の品質評価のための指標の強化を検討することを目的として,既存の手法の欠点に関する知見を報告することである。

The evaluation of synthetic micro-structure images is an emerging problem as machine learning and materials science research have evolved together. Typical state of the art methods in evaluating synthetic images from generative models have relied on the Fr\'echet Inception Distance. However, this and other similar methods, are limited in the materials domain due to both the unique features that characterize physically accurate micro-structures and limited dataset sizes. In this study we evaluate a variety of methods on scanning electron microscope (SEM) images of graphene-reinforced polyurethane foams. The primary objective of this paper is to report our findings with regards to the shortcomings of existing methods so as to encourage the machine learning community to consider enhancements in metrics for assessing quality of synthetic images in the material science domain.
翻訳日:2022-11-20 13:40:18 公開日:2022-11-03
# 前に会った事ないの? 合成虹彩におけるアイデンティティ漏えいの評価

Haven't I Seen You Before? Assessing Identity Leakage in Synthetic Irises ( http://arxiv.org/abs/2211.05629v1 )

ライセンス: Link先を確認
Patrick Tinsley, Adam Czajka, Patrick Flynn(参考訳) generative adversarial network (gans) は、顔、動物、自動車などの物体の偽画像を合成する好適な方法であることが証明されている。 これらのモデルがisoに準拠した合成虹彩画像を生成することは驚くべきことではない。 本研究では,最新のGANモデルの1つ(StyleGAN3)をトレーニングし,2つの主要な目標を持つ偽の虹彩画像を生成する。 (i)GANが「今までにない」アイライズを産み出す能力を理解すること、 (II) GANの訓練時間の関数としてのID漏洩現象を調査する。 これまでの研究では、個人バイオメトリックデータは、トレーニングデータから合成サンプルに不注意に流れ、トレーニングデータセットに誤って現れる被験者のプライバシー上の懸念を提起している。 本稿では, GANトレーニングプロセスの様々な点における3つのアイリスマッチングの解析を行い, 実際のトレーニングサンプルが生成過程を通じて漏洩する危険のある場所と時期を診断する。 その結果,ほとんどの合成サンプルは同一性漏洩の兆候は示さないが,生成したサンプルのごく一部は,ほぼ完璧に一致し,一致は一致していることがわかった。 機械学習モデル開発プロセスにおいて、プライバシ、セキュリティ、信頼を優先するために、研究コミュニティは、合成データを使用することの利点と、潜在的なID漏洩からのプライバシーに対する脅威との微妙なバランスを取らなければならない。

Generative Adversarial Networks (GANs) have proven to be a preferred method of synthesizing fake images of objects, such as faces, animals, and automobiles. It is not surprising these models can also generate ISO-compliant, yet synthetic iris images, which can be used to augment training data for iris matchers and liveness detectors. In this work, we trained one of the most recent GAN models (StyleGAN3) to generate fake iris images with two primary goals: (i) to understand the GAN's ability to produce "never-before-seen" irises, and (ii) to investigate the phenomenon of identity leakage as a function of the GAN's training time. Previous work has shown that personal biometric data can inadvertently flow from training data into synthetic samples, raising a privacy concern for subjects who accidentally appear in the training dataset. This paper presents analysis for three different iris matchers at varying points in the GAN training process to diagnose where and when authentic training samples are in jeopardy of leaking through the generative process. Our results show that while most synthetic samples do not show signs of identity leakage, a handful of generated samples match authentic (training) samples nearly perfectly, with consensus across all matchers. In order to prioritize privacy, security, and trust in the machine learning model development process, the research community must strike a delicate balance between the benefits of using synthetic data and the corresponding threats against privacy from potential identity leakage.
翻訳日:2022-11-13 23:29:53 公開日:2022-11-03
# 強化学習による分離プロセスの合成

Synthesis of separation processes with reinforcement learning ( http://arxiv.org/abs/2211.04327v1 )

ライセンス: Link先を確認
Stephan C.P.A. van Kalmthout and Laurence I. Midgley and Meik B. Franke(参考訳) 本稿では, 商業フローシートシミュレータソフトウェア(Aspen Plus V12)における蒸留シーケンスの設計と最適化のための強化学習(RL)の実装について述べる。 SAC剤の目的は蒸留を利用して個々の成分中の炭化水素混合物を分離することであった。 その間、蒸留シーケンスによって生産される利益を最大化しようと試みる。 エージェントのすべてのアクションはPythonのSACエージェントによって設定され、APIを介してAspen Plusで通信された。 ここで蒸留塔はビルトインのRADFRACカラムを用いて模擬した。 これにより、PythonとAspen間のデータ転送のためのコネクションが確立され、エージェントは学習行動を示すことに成功した。 結果が得られたが,アスペンの使用は遅く(190時間),アスペンは並列化に適さないことがわかった。 したがって、AspenはRL問題の解決には不適合である。 コードとテーマはhttps://github.com/lollcat/Aspen-RLで公開されている。

This paper shows the implementation of reinforcement learning (RL) in commercial flowsheet simulator software (Aspen Plus V12) for designing and optimising a distillation sequence. The aim of the SAC agent was to separate a hydrocarbon mixture in its individual components by utilising distillation. While doing so it tries to maximise the profit produced by the distillation sequence. All actions of the agent were set by the SAC agent in Python and communicated in Aspen Plus via an API. Here the distillation column was simulated by use of the build-in RADFRAC column. With this a connection was established for data transfer between Python and Aspen and the agent succeeded to show learning behaviour, while increasing profit. Although results were generated, the use of Aspen was slow (190 hours) and Aspen was found unsuitable for parallelisation. This makes that Aspen is incompatible for solving RL problems. Code and thesis are available at https://github.com/lollcat/Aspen-RL
翻訳日:2022-11-13 23:27:28 公開日:2022-11-03
# DetAIL : 言語でドリフトを自動的に検出・解析するツール

DetAIL : A Tool to Automatically Detect and Analyze Drift In Language ( http://arxiv.org/abs/2211.04250v1 )

ライセンス: Link先を確認
Nishtha Madaan, Adithya Manjunatha, Hrithik Nambiar, Aviral Kumar Goel, Harivansh Kumar, Diptikalyan Saha, Srikanta Bedathur(参考訳) 機械学習とディープラーニングに基づく意思決定は、今日のソフトウェアの一部となっている。 この作業の目標は、機械学習とディープラーニングベースのシステムが従来のソフトウェアと同じくらい信頼されていることを保証することだ。 従来のソフトウェアは,静的解析やテスト,デバッグ,検証,修復といった厳密なプラクティスに従って,開発やメンテナンスライフサイクルを通じて信頼される。 同様に、機械学習システムでは、パフォーマンスが損なわれないように、これらのモデルを最新に保つ必要があります。 そのため、現在のシステムは、新しいデータが入り込むにつれて、これらのモデルの定期的な再トレーニングに依存している。 本研究では,新しいデータ入力時に発生するデータドリフトを計測し,スケジュールに関係なく,実際に再トレーニングが必要な場合に適応的にモデルを再トレーニングすることを提案する。 さらに, 与えられたペイロードテキストがドリフトした理由を把握するために, 文レベルとデータセットレベルで様々な説明を生成する。

Machine learning and deep learning-based decision making has become part of today's software. The goal of this work is to ensure that machine learning and deep learning-based systems are as trusted as traditional software. Traditional software is made dependable by following rigorous practice like static analysis, testing, debugging, verifying, and repairing throughout the development and maintenance life-cycle. Similarly for machine learning systems, we need to keep these models up to date so that their performance is not compromised. For this, current systems rely on scheduled re-training of these models as new data kicks in. In this work, we propose to measure the data drift that takes place when new data kicks in so that one can adaptively re-train the models whenever re-training is actually required irrespective of schedules. In addition to that, we generate various explanations at sentence level and dataset level to capture why a given payload text has drifted.
翻訳日:2022-11-13 23:21:53 公開日:2022-11-03
# MolE:薬物発見のための分子基盤モデル

MolE: a molecular foundation model for drug discovery ( http://arxiv.org/abs/2211.02657v1 )

ライセンス: Link先を確認
Oscar M\'endez-Lucio, Christos Nicolaou, Berton Earnshaw(参考訳) 化学構造に基づく特性を正確に予測するモデルは、薬品の発見に有用である。 しかし、多くの特性において、一般に、パブリックとプライベートのトレーニングセットは小さく、トレーニングデータ以外でモデルをうまく一般化することは困難である。 近年,大規模言語モデルでは,ラベルのない大規模データセットでの自己教師あり事前学習と,より小さなラベル付きデータセットの微調整によってこの問題に対処している。 本稿では,分子グラフにDeBERTaアーキテクチャを適用した分子基盤モデルであるMoleを,2段階の事前学習戦略とともに報告する。 プリトレーニングの第一段階は化学構造を学ぶことに焦点を当てた自己監督型アプローチであり、第二段階は生物情報を学ぶための大規模なマルチタスクアプローチである。 Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。

Models that accurately predict properties based on chemical structure are valuable tools in drug discovery. However, for many properties, public and private training sets are typically small, and it is difficult for the models to generalize well outside of the training data. Recently, large language models have addressed this problem by using self-supervised pretraining on large unlabeled datasets, followed by fine-tuning on smaller, labeled datasets. In this paper, we report MolE, a molecular foundation model that adapts the DeBERTa architecture to be used on molecular graphs together with a two-step pretraining strategy. The first step of pretraining is a self-supervised approach focused on learning chemical structures, and the second step is a massive multi-task approach to learn biological information. We show that fine-tuning pretrained MolE achieves state-of-the-art results on 9 of the 22 ADMET tasks included in the Therapeutic Data Commons.
翻訳日:2022-11-08 19:08:18 公開日:2022-11-03
# クッキーのないプライバシアウェア実験

Privacy Aware Experiments without Cookies ( http://arxiv.org/abs/2211.03758v1 )

ライセンス: Link先を確認
Shiv Shankar, Ritwik Sinha, Saayan Mitra, Moumita Sinha, Viswanathan Swaminathan, Sridhar Mahadevan(参考訳) 顧客のためにA/Bテストで代替Webエクスペリエンスを共同テストしたいブランドを2つ考えてみましょう。 このようなコラボレーティブなテストは、今日では \textit{third-party cookies} を使って有効になっている。 サードパーティのクッキーの即時除去により、このようなA/Bテストは不可能になる。 そこで,両ブランドは実験のハイレベルな集約パラメータにのみ同意し,代替体験をテストできる2段階実験設計を提案する。 私たちのデザインは顧客のプライバシーを尊重する。 平均治療効果 (ate) を推定し, 偏りが無く, 理論的に分散を計算した。 当社のデモでは、ブランドのマーケターがこのような実験をどのように設計し、結果を分析できるかを説明します。 実データおよびシミュレーションデータから,この手法が低分散のATEの有効推定値を提供し,ブランド間で重複するビジターの割合に頑健であることを示す。

Consider two brands that want to jointly test alternate web experiences for their customers with an A/B test. Such collaborative tests are today enabled using \textit{third-party cookies}, where each brand has information on the identity of visitors to another website. With the imminent elimination of third-party cookies, such A/B tests will become untenable. We propose a two-stage experimental design, where the two brands only need to agree on high-level aggregate parameters of the experiment to test the alternate experiences. Our design respects the privacy of customers. We propose an estimater of the Average Treatment Effect (ATE), show that it is unbiased and theoretically compute its variance. Our demonstration describes how a marketer for a brand can design such an experiment and analyze the results. On real and simulated data, we show that the approach provides valid estimate of the ATE with low variance and is robust to the proportion of visitors overlapping across the brands.
翻訳日:2022-11-08 18:40:27 公開日:2022-11-03
# ファジィセットに基づく回帰用ジョイント分布適応法と構造ディジタル双生児のオンライン損傷定量化への応用

A Fuzzy-set-based Joint Distribution Adaptation Method for Regression and its Application to Online Damage Quantification for Structural Digital Twin ( http://arxiv.org/abs/2211.02656v1 )

ライセンス: Link先を確認
Xuan Zhou and Claudio Sbarufatti and Marco Giglio and Leiting Dong(参考訳) オンライン損傷定量化はラベル付きデータ不足に苦しむ。 この文脈では、現在の診断タスクを支援するために、同様の構造や損傷からの履歴ラベル付きデータにドメイン適応を適用することが有益である。 しかし、ほとんどのドメイン適応法は分類のために設計されており、連続実数値ラベルを持つ回帰問題である損傷定量化に効率的に対処できない。 本研究はまず,この課題に対処するため,新しい領域適応手法であるオンラインファジィ集合を用いた回帰型統合分布適応法を提案する。 連続実値ラベルをファジィ集合を介してファジィクラスラベルに変換することにより、条件分布の不一致を計測し、回帰タスクの限界分布と条件分布を同時に考慮することができる。 さらに,提案手法と統合したオンライン損傷定量化の枠組みについて述べる。 本手法は, 異なる損傷箇所にまたがってドメイン適応を行い, シミュレーションから実験により, 騒音環境においても損傷定量化の精度を著しく向上させることのできる, 損傷ヘリコプターパネルの例を用いて検証されている。 個々の相違を考慮すると,提案手法を艦隊レベルのデジタル双生児に適用することが期待される。

Online damage quantification suffers from insufficient labeled data. In this context, adopting the domain adaptation on historical labeled data from similar structures/damages to assist the current diagnosis task would be beneficial. However, most domain adaptation methods are designed for classification and cannot efficiently address damage quantification, a regression problem with continuous real-valued labels. This study first proposes a novel domain adaptation method, the Online Fuzzy-set-based Joint Distribution Adaptation for Regression, to address this challenge. By converting the continuous real-valued labels to fuzzy class labels via fuzzy sets, the conditional distribution discrepancy is measured, and domain adaptation can simultaneously consider the marginal and conditional distribution for the regression task. Furthermore, a framework of online damage quantification integrated with the proposed domain adaptation method is presented. The method has been verified with an example of a damaged helicopter panel, in which domain adaptations are conducted across different damage locations and from simulation to experiment, proving the accuracy of damage quantification can be improved significantly even in a noisy environment. It is expected that the proposed approach to be applied to the fleet-level digital twin considering the individual differences.
翻訳日:2022-11-08 18:40:11 公開日:2022-11-03
# 統一された多視点正規直交非負グラフベースクラスタリングフレームワーク

Unified Multi-View Orthonormal Non-Negative Graph Based Clustering Framework ( http://arxiv.org/abs/2211.02883v1 )

ライセンス: Link先を確認
Liangchen Liu, Qiuhong Ke, Chaojie Li, Feiping Nie, Yingying Zhu(参考訳) スペクトルクラスタリングは教師なし学習に有効な手法である。 ほとんどの伝統的なスペクトルクラスタリングアルゴリズムは、2段階のプロシージャと変換された新しい表現を最終的なクラスタリング結果に適用する。 近年,実世界データにおける非負の特徴を活用し,協調して表現とクラスタリング結果を学習する進歩がみられた。 しかし、我々の知る限りでは、重要なマルチビュー情報をそれらのプロパティに組み込む統一モデルを考えることはなく、既存のメソッドのパフォーマンスを著しく制限している。 本稿では,非負の特徴を生かした新しいクラスタリングモデルを定式化し,さらに重要な点として,多視点情報を統一学習フレームワークumv-ongc (unified multi-view ortho normal non-negative graph based clustering framework) に組み込む。 次に,提案モデルに対する効果的な3段階反復解を導出し,その3段階から3つの部分問題に対して解析解を提供する。 また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。 3つのベンチマークデータセットに対する実験により,提案手法の有効性が示された。

Spectral clustering is an effective methodology for unsupervised learning. Most traditional spectral clustering algorithms involve a separate two-step procedure and apply the transformed new representations for the final clustering results. Recently, much progress has been made to utilize the non-negative feature property in real-world data and to jointly learn the representation and clustering results. However, to our knowledge, no previous work considers a unified model that incorporates the important multi-view information with those properties, which severely limits the performance of existing methods. In this paper, we formulate a novel clustering model, which exploits the non-negative feature property and, more importantly, incorporates the multi-view information into a unified joint learning framework: the unified multi-view orthonormal non-negative graph based clustering framework (Umv-ONGC). Then, we derive an effective three-stage iterative solution for the proposed model and provide analytic solutions for the three sub-problems from the three stages. We also explore, for the first time, the multi-model non-negative graph-based approach to clustering data based on deep features. Extensive experiments on three benchmark data sets demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-08 17:11:27 公開日:2022-11-03
# プライバシー保護の深層学習に基づく記録リンク

Privacy-preserving Deep Learning based Record Linkage ( http://arxiv.org/abs/2211.02161v1 )

ライセンス: Link先を確認
Thilina Ranbaduge, Dinusha Vatsalan, Ming Ding(参考訳) さまざまなデータベースにまたがる深層学習に基づくレコードのリンクは、データ統合とマイニングアプリケーションにおいて、複数のデータソースから新たな洞察を見つけるためにますます有用になっている。 しかしながら、プライバシと機密性に関する懸念から、組織は外部の関係者と機密データを共有できない場合が多いため、異なる組織のデータベース間のリンクを記録するためのディープラーニングモデルの構築とトレーニングが困難になる。 この制限を克服するために、我々は、複数の異なる組織が保持するセンシティブデータベースのリンクに使用できる、最初のディープラーニングベースのマルチパーティプライバシ保存レコードリンク(PPRL)プロトコルを提案する。 このアプローチでは、各データベース所有者がまずローカルなディープラーニングモデルをトレーニングし、それを安全な環境にアップロードし、安全に集約してグローバルモデルを作成する。 グローバルモデルはリンクユニットによって、ラベルのないレコードペアをマッチと非マッチと区別するために使用される。 我々は、差分プライバシーを利用して、再識別攻撃に対する証明可能なプライバシー保護を実現している。 提案手法のリンク品質とスケーラビリティを,複数の大規模実世界のデータベースを用いて評価し,既存の攻撃に対して十分なプライバシー保護を提供しながら高いリンク品質を実現することを示す。

Deep learning-based linkage of records across different databases is becoming increasingly useful in data integration and mining applications to discover new insights from multiple sources of data. However, due to privacy and confidentiality concerns, organisations often are not willing or allowed to share their sensitive data with any external parties, thus making it challenging to build/train deep learning models for record linkage across different organizations' databases. To overcome this limitation, we propose the first deep learning-based multi-party privacy-preserving record linkage (PPRL) protocol that can be used to link sensitive databases held by multiple different organisations. In our approach, each database owner first trains a local deep learning model, which is then uploaded to a secure environment and securely aggregated to create a global model. The global model is then used by a linkage unit to distinguish unlabelled record pairs as matches and non-matches. We utilise differential privacy to achieve provable privacy protection against re-identification attacks. We evaluate the linkage quality and scalability of our approach using several large real-world databases, showing that it can achieve high linkage quality while providing sufficient privacy protection against existing attacks.
翻訳日:2022-11-07 17:45:23 公開日:2022-11-03
# アライメント正規化による音声認識のストリーム化

Streaming Audio-Visual Speech Recognition with Alignment Regularization ( http://arxiv.org/abs/2211.02133v1 )

ライセンス: Link先を確認
Pingchuan Ma, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja Pantic(参考訳) 発話後すぐに単語を認識することは、現実のシナリオにおける自動音声認識(ASR)システムにとって重要な要件である。 その結果,ストリーミングオーディオのみのASRモデルに関する多くの研究が文献で紹介されている。 しかし,従来の作品では音声・視覚自動音声認識(AV-ASR)がほとんど注目されていない。 本研究では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。 オーディオとビジュアルエンコーダのニューラルネットワークはどちらもコンフォーマーアーキテクチャに基づいており、チャンクワイド・セルフアテンション(CSA)と因果畳み込みを用いてストリーム化されている。 デコーダニューラルネットワークを用いたストリーム認識は、共同CTC/アテンションスコアによる時間同期復号を行うトリガアテンション技術を用いて実現される。 CTCのようなフレームレベルのASR基準では、オーディオと視覚エンコーダからの同期応答は、共同AV決定プロセスにおいて重要である。 本研究では、音声と視覚エンコーダの同期を促進する新しいアライメント正規化手法を提案する。これにより、ストリーミングおよびオフラインAV-ASRモデルのための全てのSNRレベルの単語誤り率(WER)が向上する。 提案するav-asrモデルは,リップ読解文3(lrs3)データセットをオフラインとオンラインでそれぞれ2.0%,2.6%のwersを実現する。

Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
翻訳日:2022-11-07 17:37:51 公開日:2022-11-03
# 自然政策勾配法の幾何学と収束

Geometry and convergence of natural policy gradient methods ( http://arxiv.org/abs/2211.02105v1 )

ライセンス: Link先を確認
Johannes M\"uller and Guido Mont\'ufar(参考訳) 規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。 様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン測度に対する勾配流の解であることを示し、大域収束保証と収束率を得る。 特に, 条件エントロピーとエントロピーのヘッセン幾何学から生じることをkakade と morimura と共著者らによって提唱された指標を用いて, 非正規化および正規化npg流の線形収束を示す。 さらに、ログバリアのような他の凸関数から生じるヘッセン幾何学の線型収束率を得る。 最後に、正規化報酬を伴う離散時間NPG法を、正規化器のヘッセン幾何に関してNPGが定義される場合、不正確なニュートン法として解釈する。 これにより、ステップサイズに対するこれらの方法の局所二次収束速度は、ペナリゼーション強度と等しい。

We study the convergence of several natural policy gradient (NPG) methods in infinite-horizon discounted Markov decision processes with regular policy parametrizations. For a variety of NPGs and reward functions we show that the trajectories in state-action space are solutions of gradient flows with respect to Hessian geometries, based on which we obtain global convergence guarantees and convergence rates. In particular, we show linear convergence for unregularized and regularized NPG flows with the metrics proposed by Kakade and Morimura and co-authors by observing that these arise from the Hessian geometries of conditional entropy and entropy respectively. Further, we obtain sublinear convergence rates for Hessian geometries arising from other convex functions like log-barriers. Finally, we interpret the discrete-time NPG methods with regularized rewards as inexact Newton methods if the NPG is defined with respect to the Hessian geometry of the regularizer. This yields local quadratic convergence rates of these methods for step size equal to the penalization strength.
翻訳日:2022-11-07 17:37:03 公開日:2022-11-03
# 航空応用における強化学習に関する調査研究

A Survey on Reinforcement Learning in Aviation Applications ( http://arxiv.org/abs/2211.02147v1 )

ライセンス: Link先を確認
Pouria Razzaghi and Amin Tabrizian and Wei Guo and Shulu Chen and Abenezer Taye and Ellis Thompson and Alexis Bregeon and Ali Baheri and Peng Wei(参考訳) モデルベース制御と最適化手法と比較して、強化学習(RL)は、シーケンシャルな意思決定問題を定式化し解決するためのデータ駆動型学習ベースのフレームワークを提供する。 RLフレームワークは、航空業界におけるデータ可用性と計算能力の大幅な改善により、有望になった。 多くの航空ベースのアプリケーションは、逐次的な意思決定問題として定式化や処理が可能である。 いくつかはオフライン計画の問題であり、その他はオンラインで解決する必要がある。 本稿では,まず標準 rl 定式化と解法について述べる。 次に,航空における既存のRLベースアプリケーションの状況を調査した。 最後に、本論文を要約し、技術的ギャップを特定し、航空におけるRL研究の今後の方向性を提案する。

Compared with model-based control and optimization methods, reinforcement learning (RL) provides a data-driven, learning-based framework to formulate and solve sequential decision-making problems. The RL framework has become promising due to largely improved data availability and computing power in the aviation industry. Many aviation-based applications can be formulated or treated as sequential decision-making problems. Some of them are offline planning problems, while others need to be solved online and are safety-critical. In this survey paper, we first describe standard RL formulations and solutions. Then we survey the landscape of existing RL-based applications in aviation. Finally, we summarize the paper, identify the technical gaps, and suggest future directions of RL research in aviation.
翻訳日:2022-11-07 17:36:47 公開日:2022-11-03
# コアスタビリティによるフェデレーション学習の公正性

Fairness in Federated Learning via Core-Stability ( http://arxiv.org/abs/2211.02091v1 )

ライセンス: Link先を確認
Bhaskar Ray Chaudhury, Linyi Li, Mintong Kang, Bo Li, Ruta Mehta(参考訳) フェデレーション学習は、データプライバシを保護しながら、リッチな分散データから恩恵を受けるモデルを共同で最適化する効果的なパラダイムを提供する。 それでも、分散データの多様性は、ローカルエージェント間の公平性の定義と保証を困難にしている。 例えば、品質の低い他のエージェントがパフォーマンスを犠牲にするため、品質の高いデータを持つエージェントは直感的に「不公平」である。 現在人気の平等主義的かつ重み付けされた株式ベースの公正な措置は、前述の落とし穴に苦しむ。 本研究では,協調ゲーム理論と社会的選択理論の概念を用いて,この問題を形式的に表現し,公平性の問題に対処することを目的とする。 フェデレートされた設定における共有予測器を公正な公開意思決定問題として学習するタスクをモデル化し、コア安定公正の概念を定義する。$N$エージェントが与えられたとき、それらのユーティリティ(例えば$\frac{|S|}{N} U_S \geq U_N$)に基づいて、互いに連立関係を形成することで大きな利益をもたらすエージェントのサブセットは、$S$が存在しない。 コア安定予測器は、一部のエージェントによる低品質なローカルデータに対して堅牢であり、また、社会的選択における2つの好意的公正性と効率性の概念である確率性とパレート最適性を満たす。 次に、コア安定予測器を最適化する効率的なフェデレート学習プロトコルCoreFedを提案する。 CoreFedはエージェントの損失関数が凸であるときにコア安定予測器を決定する。 CoreFedは、スムーズなニューラルネットワークのように損失関数が凸でない場合、およそコア安定予測器も決定する。 さらに、角谷の不動点定理を用いたより一般的な設定におけるコア安定予測器の存在を示す。 最後に,2つの実世界のデータセットに対する分析を実証的に検証し,CoreFedがFedAvgよりも高いコア安定性のフェアネスを達成できることを示す。

Federated learning provides an effective paradigm to jointly optimize a model benefited from rich distributed data while protecting data privacy. Nonetheless, the heterogeneity nature of distributed data makes it challenging to define and ensure fairness among local agents. For instance, it is intuitively "unfair" for agents with data of high quality to sacrifice their performance due to other agents with low quality data. Currently popular egalitarian and weighted equity-based fairness measures suffer from the aforementioned pitfall. In this work, we aim to formally represent this problem and address these fairness issues using concepts from co-operative game theory and social choice theory. We model the task of learning a shared predictor in the federated setting as a fair public decision making problem, and then define the notion of core-stable fairness: Given $N$ agents, there is no subset of agents $S$ that can benefit significantly by forming a coalition among themselves based on their utilities $U_N$ and $U_S$ (i.e., $\frac{|S|}{N} U_S \geq U_N$). Core-stable predictors are robust to low quality local data from some agents, and additionally they satisfy Proportionality and Pareto-optimality, two well sought-after fairness and efficiency notions within social choice. We then propose an efficient federated learning protocol CoreFed to optimize a core stable predictor. CoreFed determines a core-stable predictor when the loss functions of the agents are convex. CoreFed also determines approximate core-stable predictors when the loss functions are not convex, like smooth neural networks. We further show the existence of core-stable predictors in more general settings using Kakutani's fixed point theorem. Finally, we empirically validate our analysis on two real-world datasets, and we show that CoreFed achieves higher core-stability fairness than FedAvg while having similar accuracy.
翻訳日:2022-11-07 17:30:07 公開日:2022-11-03
# HPCのための機械学習データセットとモデルFAIRの作成:方法論と事例研究

Making Machine Learning Datasets and Models FAIR for HPC: A Methodology and Case Study ( http://arxiv.org/abs/2211.02092v1 )

ライセンス: Link先を確認
Pei-Hung Lin, Chunhua Liao, Winson Chen, Tristan Vanderbruggen, Murali Emani, Hailu Xu(参考訳) FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。 しかし、これらの原則は機械学習に基づくプログラム分析とハイパフォーマンスコンピューティング(HPC)の最適化の分野ではまだ広く採用されていない。 本稿では,既存のFAIRnessアセスメントと改善技術を調査した後,HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。 提案手法は, 厳密な識別子, 豊富なメタデータ記述, ライセンス, 証明情報に関連する共通問題に関して, 具体的かつ実用的なFAIRネス向上のための総合的, 定量的な評価を含む。 さらに,提案手法を評価するために,代表訓練データセットを選択する。 この実験は、この方法論がデータセットとモデルのFAIRnessを19.1%から83.0%まで効果的に改善できることを示している。

The FAIR Guiding Principles aim to improve the findability, accessibility, interoperability, and reusability of digital content by making them both human and machine actionable. However, these principles have not yet been broadly adopted in the domain of machine learning-based program analyses and optimizations for High-Performance Computing (HPC). In this paper, we design a methodology to make HPC datasets and machine learning models FAIR after investigating existing FAIRness assessment and improvement techniques. Our methodology includes a comprehensive, quantitative assessment for elected data, followed by concrete, actionable suggestions to improve FAIRness with respect to common issues related to persistent identifiers, rich metadata descriptions, license and provenance information. Moreover, we select a representative training dataset to evaluate our methodology. The experiment shows the methodology can effectively improve the dataset and model's FAIRness from an initial score of 19.1% to the final score of 83.0%.
翻訳日:2022-11-07 17:29:28 公開日:2022-11-03
# 3次元形状類似性に基づく分子表現学習のコントラスト的アプローチ

A 3D-Shape Similarity-based Contrastive Approach to Molecular Representation Learning ( http://arxiv.org/abs/2211.02130v1 )

ライセンス: Link先を確認
Austin Atsango, Nathaniel L. Diamant, Ziqing Lu, Tommaso Biancalani, Gabriele Scalia, Kangway V. Chuang(参考訳) 分子形状と幾何学は重要な生体物理認識過程を規定するが、多くのグラフニューラルネットワークは分子特性予測のために3D情報を無視している。 本稿では,3次元表現を暗黙的に学習する,グラフニューラルネットワークのための新しいコントラスト学習手法である分子コントラスト学習(MolCLaSS)を提案する。 MolCLaSSは3次元のポーズを直接符号化したりターゲットにするのではなく、ガウスオーバーレイに基づいて類似した目的と一致し、分子形状の有意義な表現を学ぶ。 我々は,このフレームワークが2次元表現ができない3次元性の重要な側面を自然に捉え,足場ホッピングのための帰納的フレームワークを提供する方法を示す。

Molecular shape and geometry dictate key biophysical recognition processes, yet many graph neural networks disregard 3D information for molecular property prediction. Here, we propose a new contrastive-learning procedure for graph neural networks, Molecular Contrastive Learning from Shape Similarity (MolCLaSS), that implicitly learns a three-dimensional representation. Rather than directly encoding or targeting three-dimensional poses, MolCLaSS matches a similarity objective based on Gaussian overlays to learn a meaningful representation of molecular shape. We demonstrate how this framework naturally captures key aspects of three-dimensionality that two-dimensional representations cannot and provides an inductive framework for scaffold hopping.
翻訳日:2022-11-07 17:29:11 公開日:2022-11-03
# 専門家の混在による予測と計画の学習による安全な実世界の自律運転

Safe Real-World Autonomous Driving by Learning to Predict and Plan with a Mixture of Experts ( http://arxiv.org/abs/2211.02131v1 )

ライセンス: Link先を確認
Stefano Pini, Christian S. Perone, Aayush Ahuja, Ana Sofia Rufino Ferreira, Moritz Niendorf, Sergey Zagoruyko(参考訳) 自動運転車の目標は、公共道路を安全かつ快適に走行することだ。 安全を確保するために、伝統的な計画手法は手作りの規則に頼っている。 一方、機械学習ベースのシステムは、データでスケールし、より複雑な振る舞いを学ぶことができる。 しかし、彼らはしばしば、エージェントと自動運転車の軌道分布が安全を改善するために活用できることを無視する。 本稿では,自律走行車と他の道路エージェントの両方の将来の軌跡にまたがる分布を,予測と計画のための統合ニューラルネットワークアーキテクチャを用いてモデル化することを提案する。 推論中は、安全性と予測確率を考慮したコストを最小限に抑える計画軌道を選択する。 我々のアプローチは、軌道生成や最適化のためのルールベースのプランナに依存しておらず、より多くのトレーニングデータで改善され、実装が簡単です。 本手法を現実的なシミュレータを用いて広範囲に評価し,予測された軌道分布が異なる駆動プロファイルに対応することを示す。 また、都市部の公道での自動運転車への展開も成功し、快適さを損なうことなく安全に運転できることを確認しました。 パブリックな予測データセットでモデルをトレーニングし、テストするためのコードとロードテストのビデオは、https://weave.mobi/safepathnetで利用可能です。

The goal of autonomous vehicles is to navigate public roads safely and comfortably. To enforce safety, traditional planning approaches rely on handcrafted rules to generate trajectories. Machine learning-based systems, on the other hand, scale with data and are able to learn more complex behaviors. However, they often ignore that agents and self-driving vehicle trajectory distributions can be leveraged to improve safety. In this paper, we propose modeling a distribution over multiple future trajectories for both the self-driving vehicle and other road agents, using a unified neural network architecture for prediction and planning. During inference, we select the planning trajectory that minimizes a cost taking into account safety and the predicted probabilities. Our approach does not depend on any rule-based planners for trajectory generation or optimization, improves with more training data and is simple to implement. We extensively evaluate our method through a realistic simulator and show that the predicted trajectory distribution corresponds to different driving profiles. We also successfully deploy it on a self-driving vehicle on urban public roads, confirming that it drives safely without compromising comfort. The code for training and testing our model on a public prediction dataset and the video of the road test are available at https://woven.mobi/safepathnet
翻訳日:2022-11-07 17:28:58 公開日:2022-11-03
# リーマンADMM

A Riemannian ADMM ( http://arxiv.org/abs/2211.02163v1 )

ライセンス: Link先を確認
Jiaxiang Li, Shiqian Ma, Tejes Srivastava(参考訳) 目的が滑らかな函数と非滑らかな函数の和であるようなリーマン最適化問題のクラスを、周囲空間において考慮する。 このクラスの問題は、スパース主成分分析、スパーススペクトルクラスタリング、直交辞書学習のような機械学習や統計学における重要な応用を見出す。 本稿では,この問題を解くために,リーマン交互方向乗算器(ADMM)を提案する。 アルゴリズムは各イテレーションで容易に計算可能なステップを採用する。 提案アルゴリズムにおいて,$\epsilon$-stationary 点を求める場合の繰り返し複雑性を軽度な仮定で解析する。 我々の知る限りでは、これは非滑らかな目的を持つリーマン最適化問題を解くための証明可能な収束保証を持つ最初のリーマンADMMである。 提案手法の利点を実証するために, 数値実験を行った。

We consider a class of Riemannian optimization problems where the objective is the sum of a smooth function and a nonsmooth function, considered in the ambient space. This class of problems finds important applications in machine learning and statistics such as the sparse principal component analysis, sparse spectral clustering, and orthogonal dictionary learning. We propose a Riemannian alternating direction method of multipliers (ADMM) to solve this class of problems. Our algorithm adopts easily computable steps in each iteration. The iteration complexity of the proposed algorithm for obtaining an $\epsilon$-stationary point is analyzed under mild assumptions. To the best of our knowledge, this is the first Riemannian ADMM with provable convergence guarantee for solving Riemannian optimization problem with nonsmooth objective. Numerical experiments are conducted to demonstrate the advantage of the proposed method.
翻訳日:2022-11-07 17:28:36 公開日:2022-11-03
# MUSTACHE:キャッシュ消去のためのマルチステップ予測

MUSTACHE: Multi-Step-Ahead Predictions for Cache Eviction ( http://arxiv.org/abs/2211.02177v1 )

ライセンス: Link先を確認
Gabriele Tolomei and Lorenzo Takanen and Fabio Pinelli(参考訳) 本研究では,既存のポリシーのように修正されるのではなく,観測されたメモリアクセス要求から論理を学習する新しいページキャッシュ置換アルゴリズムMUSTACHEを提案する。 ページリクエスト予測問題をカテゴリー時系列予測タスクとして定式化する。 次に、学習したページ要求予測器に次の$k$のページメモリ参照を求め、最適なB\'el\'adyの置換アルゴリズムをよりよく近似する。 先進的なディープラーニングアーキテクチャを用いて予測手法を実装し,最高の性能を既存のオープンソースキャッシュシミュレータに統合する。 ベンチマークデータセットを用いた実験では、MUSTACHEはページ置換ヒューリスティック(正確にはLRU)よりも優れており、キャッシュヒット率を1.9%改善し、キャッシュミスを処理するのに必要な読み取り/書き込み数を18.4%と10.3%削減している。

In this work, we propose MUSTACHE, a new page cache replacement algorithm whose logic is learned from observed memory access requests rather than fixed like existing policies. We formulate the page request prediction problem as a categorical time series forecasting task. Then, our method queries the learned page request forecaster to obtain the next $k$ predicted page memory references to better approximate the optimal B\'el\'ady's replacement algorithm. We implement several forecasting techniques using advanced deep learning architectures and integrate the best-performing one into an existing open-source cache simulator. Experiments run on benchmark datasets show that MUSTACHE outperforms the best page replacement heuristic (i.e., exact LRU), improving the cache hit ratio by 1.9% and reducing the number of reads/writes required to handle cache misses by 18.4% and 10.3%.
翻訳日:2022-11-07 17:28:25 公開日:2022-11-03
# テーブル構造認識によるICTサプライチェーンソーシャルネットワークの効率的な情報共有

Efficient Information Sharing in ICT Supply Chain Social Network via Table Structure Recognition ( http://arxiv.org/abs/2211.02128v1 )

ライセンス: Link先を確認
Bin Xiao, Yakup Akkaya, Murat Simsek, Burak Kantarci, Ala Abu Alkheir(参考訳) global information and communications technology (ict) サプライチェーンは、すべてのタイプの参加者からなる複雑なネットワークである。 しばしば、サプライチェーンネットワークの関係、特性、およびサプライチェーン管理の発展について議論するソーシャルネットワークとして定式化されている。 情報共有はサプライチェーンの効率向上に重要な役割を担い、データシートはICTサプライチェーンにおけるe-componentコモディティを記述する最も一般的なデータ形式である。 しかし,電子文書の急増に伴い,人間の読取能力ははるかに超えており,複雑な表構造や異質なレイアウトのため,表データの自動処理も困難である。 表構造認識(TSR)は、表データを自動的に処理できるように、機械解釈可能な形式で複雑な構造を持つテーブルを表現することを目的としている。 本稿では, tsrを物体検出問題として定式化し, 複雑な表構造を直感的に表現し, 商品に関連する表データの構築を可能にすることを提案する。 境界のないレイアウトと小さなレイアウトに対処するため,各クラスの検出難度を考慮したコスト感受性損失関数を提案する。 また,テーブル内の列が同じ高さで,テーブル内の行が同じ幅で共有されるような,テーブルの文字を用いた新しいアンカー生成手法を提案する。 提案手法は,高速rcnnに基づいて実装し,平均精度 (ap) で94.79% を達成し,ベンチマークモデルで1.5% ap以上向上した。

The global Information and Communications Technology (ICT) supply chain is a complex network consisting of all types of participants. It is often formulated as a Social Network to discuss the supply chain network's relations, properties, and development in supply chain management. Information sharing plays a crucial role in improving the efficiency of the supply chain, and datasheets are the most common data format to describe e-component commodities in the ICT supply chain because of human readability. However, with the surging number of electronic documents, it has been far beyond the capacity of human readers, and it is also challenging to process tabular data automatically because of the complex table structures and heterogeneous layouts. Table Structure Recognition (TSR) aims to represent tables with complex structures in a machine-interpretable format so that the tabular data can be processed automatically. In this paper, we formulate TSR as an object detection problem and propose to generate an intuitive representation of a complex table structure to enable structuring of the tabular data related to the commodities. To cope with border-less and small layouts, we propose a cost-sensitive loss function by considering the detection difficulty of each class. Besides, we propose a novel anchor generation method using the character of tables that columns in a table should share an identical height, and rows in a table should share the same width. We implement our proposed method based on Faster-RCNN and achieve 94.79% on mean Average Precision (AP), and consistently improve more than 1.5% AP for different benchmark models.
翻訳日:2022-11-07 17:22:21 公開日:2022-11-03
# 胸部X線画像を用いたCOVID-19検出のための分布データの自動取得による半教師付き深層学習の改善

Improving Semi-supervised Deep Learning by using Automatic Thresholding to Deal with Out of Distribution Data for COVID-19 Detection using Chest X-ray Images ( http://arxiv.org/abs/2211.02142v1 )

ライセンス: Link先を確認
Isaac Benavides-Mata, Saul Calderon-Ramirez(参考訳) 半教師付き学習(SSL)では、ラベル付きデータが制限され、ラベルなしデータが広大な場合、ラベル付きデータとラベルなしデータの両方をトレーニングモデルに活用する。 ラベル付けされていないデータはラベル付きデータよりも広く利用でき、ラベル付きデータが不足している場合のモデルの一般化レベルを改善するためにこのデータを使用する。 しかし、実世界の無ラベルデータでは、ラベル付きデータセットの分布とは異なる分布が描かれる可能性がある。 これは分布ミスマッチとして知られている。 このような問題は一般にラベルのないデータソースがラベル付きデータと異なる場合に発生する。 例えば、医療画像領域では、胸部X線画像を用いて新型コロナウイルス検出装置を訓練する場合、異なる病院から採取された異なるラベルのないデータセットが使用される可能性がある。 本研究では,ラベルなしデータセットの分布外データをフィルタリングする自動しきい値設定手法を提案する。 ラベル付きデータセットとラベルなしデータセットの間のマハラノビス距離は、事前学習されたイメージネット特徴指数(FE)によって構築された特徴空間を用いて、ラベルなしの観測をスコアする。 胸部x線画像を用いたcovid-19検出器の訓練において,簡易な2つのしきい値法をテストした。 テスト方法は、半教師付きディープラーニングアーキテクチャをトレーニングする際に、ラベルのないデータを保存するための自動的な方法を提供する。

Semi-supervised learning (SSL) leverages both labeled and unlabeled data for training models when the labeled data is limited and the unlabeled data is vast. Frequently, the unlabeled data is more widely available than the labeled data, hence this data is used to improve the level of generalization of a model when the labeled data is scarce. However, in real-world settings unlabeled data might depict a different distribution than the labeled dataset distribution. This is known as distribution mismatch. Such problem generally occurs when the source of unlabeled data is different from the labeled data. For instance, in the medical imaging domain, when training a COVID-19 detector using chest X-ray images, different unlabeled datasets sampled from different hospitals might be used. In this work, we propose an automatic thresholding method to filter out-of-distribution data in the unlabeled dataset. We use the Mahalanobis distance between the labeled and unlabeled datasets using the feature space built by a pre-trained Image-net Feature Extractor (FE) to score each unlabeled observation. We test two simple automatic thresholding methods in the context of training a COVID-19 detector using chest X-ray images. The tested methods provide an automatic manner to define what unlabeled data to preserve when training a semi-supervised deep learning architecture.
翻訳日:2022-11-07 17:21:57 公開日:2022-11-03
# インテリジェント情報集約によるスケーラブルなマルチエージェント強化学習

Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation ( http://arxiv.org/abs/2211.02127v1 )

ライセンス: Link先を確認
Siddharth Nayak, Kenneth Choi, Wenqi Ding, Sydney Dolan, Karthik Gopalakrishnan, Hamsa Balakrishnan(参考訳) 各エージェントの局所的近傍で観測が制限された場合,マルチエージェントナビゲーションと衝突回避の問題を考える。 本稿では,マルチエージェント強化学習(MARL)のための新しいアーキテクチャであるInforMARLを提案する。 具体的には、InforMARLはアクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使って集約し、標準的なMARLアルゴリズムと併用することができる。 1) 学習中のインフォマレルは, 情報量が少ないにもかかわらず, ベースラインアプローチよりもサンプル効率と性能が優れており, (2) テストでは, 任意の数のエージェントや障害のある環境によく適用できることを示した。

We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles.
翻訳日:2022-11-07 17:19:17 公開日:2022-11-03
# エネルギーモデルに対する自己適応型ノイズコントラスト推定

Self-Adapting Noise-Contrastive Estimation for Energy-Based Models ( http://arxiv.org/abs/2211.02650v1 )

ライセンス: Link先を確認
Nathaniel Xu(参考訳) ノイズコントラスト推定(NCE)によるトレーニングエネルギーベースモデル(EBM)は理論的には実現可能であるが、実際は困難である。 効果的な学習では、特に高次元領域において、ノイズ分布はターゲット分布とほぼ同様である必要がある。 従来の研究は、別個の生成モデルとしてノイズ分布をモデル化し、EBMでこのノイズモデルを同時に訓練してきた。 この手法は、より効果的なノイズコントラスト推定を可能にするが、余分なメモリとトレーニングの複雑さのコストが伴う。 代わりに、この論文は、訓練軌道に沿ったESMの静的インスタンスをノイズ分布として利用する自己適応型NCEアルゴリズムを提案する。 トレーニング中、これらの静的インスタンスは徐々にターゲット分布に収束し、補助ノイズモデルを同時にトレーニングする必要性を回避する。 さらに,この自己適応型nceアルゴリズムをbregman divergencesの枠組みで表現し,ebmsの最大確率学習の一般化であることを示す。 提案アルゴリズムの性能は,様々なノイズ更新間隔で評価され,実験結果から,短い更新間隔が合成品質の向上につながることが示された。

Training energy-based models (EBMs) with noise-contrastive estimation (NCE) is theoretically feasible but practically challenging. Effective learning requires the noise distribution to be approximately similar to the target distribution, especially in high-dimensional domains. Previous works have explored modelling the noise distribution as a separate generative model, and then concurrently training this noise model with the EBM. While this method allows for more effective noise-contrastive estimation, it comes at the cost of extra memory and training complexity. Instead, this thesis proposes a self-adapting NCE algorithm which uses static instances of the EBM along its training trajectory as the noise distribution. During training, these static instances progressively converge to the target distribution, thereby circumventing the need to simultaneously train an auxiliary noise model. Moreover, we express this self-adapting NCE algorithm in the framework of Bregman divergences and show that it is a generalization of maximum likelihood learning for EBMs. The performance of our algorithm is evaluated across a range of noise update intervals, and experimental results show that shorter update intervals are conducive to higher synthesis quality.
翻訳日:2022-11-07 17:13:02 公開日:2022-11-03
# 創発的行動としての多エージェントシナリオにおけるグループ凝集

Group Cohesion in Multi-Agent Scenarios as an Emergent Behavior ( http://arxiv.org/abs/2211.02089v1 )

ライセンス: Link先を確認
Gianluca Georg Alois Volkmer, Nabil Alsabah(参考訳) 本稿では,psi認知アーキテクチャを用いて開発したマルチエージェントシミュレーションの設計と結果について考察する。 グループ・アフィリエーション,確実性,能力に本質的なニーズを持つエージェントが,エージェント間の社会的行動の出現につながることを実証する。 この行動は、集団内エージェントに対する利他主義や、集団外エージェントに対する敵対傾向を表現している。 また,パラメータ化がエージェントの挙動に劇的な影響を及ぼすことを示す。 例えば、外集団バイアスの導入は、エージェントを他グループのメンバーに対して積極的に振る舞わせるだけでなく、グループ内の凝集も増加させた。 同様に、環境要因と状況要因は、敵集団のエージェントが親しい友人になる、アウトリーチの出現を促進する。 全体として、このシミュレーションは一般に心理学的枠組みの力を示し、特にpsiパラダイムは創発的な方法で人間のような行動パターンをもたらす。

In this paper, we elaborate on the design and discuss the results of a multi-agent simulation that we have developed using the PSI cognitive architecture. We demonstrate that imbuing agents with intrinsic needs for group affiliation, certainty and competence will lead to the emergence of social behavior among agents. This behavior expresses itself in altruism toward in-group agents and adversarial tendencies toward out-group agents. Our simulation also shows how parameterization can have dramatic effects on agent behavior. Introducing an out-group bias, for example, not only made agents behave aggressively toward members of the other group, but it also increased in-group cohesion. Similarly, environmental and situational factors facilitated the emergence of outliers: agents from adversarial groups becoming close friends. Overall, this simulation showcases the power of psychological frameworks, in general, and the PSI paradigm, in particular, to bring about human-like behavioral patterns in an emergent fashion.
翻訳日:2022-11-07 17:12:35 公開日:2022-11-03
# 逆画像検索エンジン毎に異なるレベルの検索性を持つ抽象画像

Abstract Images Have Different Levels of Retrievability Per Reverse Image Search Engine ( http://arxiv.org/abs/2211.02115v1 )

ライセンス: Link先を確認
Shawn M. Jones and Diane Oyen(参考訳) 多くのコンピュータビジョン研究は自然画像に焦点を合わせてきたが、技術文書は通常、チャート、図形、図形、図形などの抽象画像で構成されている。 一般の検索エンジンはどの程度抽象的な画像を発見できるか? コンピュータビジョンと機械学習の最近の進歩は、リバースイメージ検索エンジンの台頭につながっている。 従来の検索エンジンがテキストクエリを受け取り、画像を含む文書結果のセットを返すと、逆画像検索はクエリとして画像を受け取り、結果として画像のセットを返す。 本稿では,一般的な逆画像検索エンジンが抽象画像の発見方法を評価する。 我々は、Baidu、Bing、Google、YandexによってよくインデックスされたウェブサイトであるWikimedia Commonsの画像を活用する実験を行った。 画像検索の難しさ(検索可能性)、送信された画像の比率(精度)、送信された画像(相互のランク)を見つける前に訪問者がレビューしなければならない結果の平均数を測定する。 同じ画像の中から同じ画像を見つけようとすると、yandexがベストを尽くす。 特定の画像を含むページを検索する場合、GoogleとYandexは、それぞれ0.8191から0.8297までの精度スコアの写真を発見した場合、他より優れている。 これらいずれの場合も、GoogleとYandexは、これらのカテゴリのイメージ間での検索可能性の差を最大54倍まで達成する抽象イメージよりも、自然なイメージの方が優れている。 これらの結果は、抽象画像を用いた技術文書の検索に一般的なウェブ検索エンジンを適用する人に影響を与える。

Much computer vision research has focused on natural images, but technical documents typically consist of abstract images, such as charts, drawings, diagrams, and schematics. How well do general web search engines discover abstract images? Recent advancements in computer vision and machine learning have led to the rise of reverse image search engines. Where conventional search engines accept a text query and return a set of document results, including images, a reverse image search accepts an image as a query and returns a set of images as results. This paper evaluates how well common reverse image search engines discover abstract images. We conducted an experiment leveraging images from Wikimedia Commons, a website known to be well indexed by Baidu, Bing, Google, and Yandex. We measure how difficult an image is to find again (retrievability), what percentage of images returned are relevant (precision), and the average number of results a visitor must review before finding the submitted image (mean reciprocal rank). When trying to discover the same image again among similar images, Yandex performs best. When searching for pages containing a specific image, Google and Yandex outperform the others when discovering photographs with precision scores ranging from 0.8191 to 0.8297, respectively. In both of these cases, Google and Yandex perform better with natural images than with abstract ones achieving a difference in retrievability as high as 54\% between images in these categories. These results affect anyone applying common web search engines to search for technical documents that use abstract images.
翻訳日:2022-11-07 17:10:22 公開日:2022-11-03
# ディープラーニングにおける適応バッチ正規化

An Adaptive Batch Normalization in Deep Learning ( http://arxiv.org/abs/2211.02050v1 )

ライセンス: Link先を確認
Wael Alsobhi, Tarik Alafif, Alaa Abdel-Hakim, Weiwei Zong(参考訳) バッチ正規化(BN)は、深層畳み込みニューラルネットワークのトレーニングを加速し、安定させる方法である。 しかし、BNはネットワーク構造内で連続的に機能するが、一部のトレーニングデータは必ずしもそれを必要とするとは限らない。 本研究では、BNを必要とするデータとそれを必要としないデータを分離する、しきい値に基づく適応BNアプローチを提案する。 実験により,提案手法はMNIST, Fashion-MNIST, CIFAR-10, CIFAR-100を用いて, 従来のBNよりも小バッチサイズで性能が向上することが示された。 また、ネットワーク安定性を高めるために内部変数変換の発生を低減する。

Batch Normalization (BN) is a way to accelerate and stabilize training in deep convolutional neural networks. However, the BN works continuously within the network structure, although some training data may not always require it. In this research work, we propose a threshold-based adaptive BN approach that separates the data that requires the BN and data that does not require it. The experimental evaluation demonstrates that proposed approach achieves better performance mostly in small batch sizes than the traditional BN using MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100. It also reduces the occurrence of internal variable transformation to increase network stability
翻訳日:2022-11-07 17:03:45 公開日:2022-11-03
# Federated Hypergradient Descent

Federated Hypergradient Descent ( http://arxiv.org/abs/2211.02106v1 )

ライセンス: Link先を確認
Andrew K Kan(参考訳) 本研究では,オンラインワンショット・プロシージャにおけるFL(Federated Learning)の自動パラメータチューニングと最適化の組み合わせについて検討する。 提案手法は,適応型クライアント学習率,局所ステップ数,バッチサイズに原理的アプローチを適用する。 フェデレートされた学習アプリケーションでは、トレーニングパイプラインにおける通信予算とローカル計算リソースの最小化が主な動機です。 従来、ハイパーパラメータチューニング手法は少なくともある程度の試行錯誤を含むが、これはサンプル非効率であることが知られている。 そこで本研究では,FATHOM(Federated AuTomatic Hyperparameter OptiMization)をワンショットオンラインプロシージャとして提案する。 関心のハイパーパラメータに関する解析的勾配の導出の課題と解決策について検討する。 私たちのアプローチは、ローカルデータを除いて、トレーニングプロセスに関わるすべてのコンポーネントについて完全な知識を持っているという事実に着想を得たものです。 FATHOMは、最適化された静的なパラメータを持つフェデレーション平均化(FedAvg)よりも通信効率が高く、全体的な計算効率も高いことを示す。 通信効率のよいワンショットオンラインプロシージャとして、FATHOMは、潜在的に無駄なチューニングプロセスを排除し、試行錯誤なしにトレーニング手順全体を通してハイパーパラメータを適応的に最適化することにより、コストの高い通信と限られた局所計算のボトルネックを解決する。 我々は,フェデレートEMNIST-62(FEMNIST)およびフェデレートスタックオーバーフロー(FSO)データセットを用いて,FedJAXをベースラインフレームワークとして,広範な実験実験により数値結果を示す。

In this work, we explore combining automatic hyperparameter tuning and optimization for federated learning (FL) in an online, one-shot procedure. We apply a principled approach on a method for adaptive client learning rate, number of local steps, and batch size. In our federated learning applications, our primary motivations are minimizing communication budget as well as local computational resources in the training pipeline. Conventionally, hyperparameter tuning methods involve at least some degree of trial-and-error, which is known to be sample inefficient. In order to address our motivations, we propose FATHOM (Federated AuTomatic Hyperparameter OptiMization) as a one-shot online procedure. We investigate the challenges and solutions of deriving analytical gradients with respect to the hyperparameters of interest. Our approach is inspired by the fact that, with the exception of local data, we have full knowledge of all components involved in our training process, and this fact can be exploited in our algorithm impactfully. We show that FATHOM is more communication efficient than Federated Averaging (FedAvg) with optimized, static valued hyperparameters, and is also more computationally efficient overall. As a communication efficient, one-shot online procedure, FATHOM solves the bottleneck of costly communication and limited local computation, by eliminating a potentially wasteful tuning process, and by optimizing the hyperparamters adaptively throughout the training procedure without trial-and-error. We show our numerical results through extensive empirical experiments with the Federated EMNIST-62 (FEMNIST) and Federated Stack Overflow (FSO) datasets, using FedJAX as our baseline framework.
翻訳日:2022-11-07 17:03:34 公開日:2022-11-03
# k$-additive choquet integral-based approach による機械学習における局所解釈可能性のシェープ値近似

A $k$-additive Choquet integral-based approach to approximate the SHAP values for local interpretability in machine learning ( http://arxiv.org/abs/2211.02166v1 )

ライセンス: Link先を確認
Guilherme Dean Pelegrina, Leonardo Tomazeli Duarte, Michel Grabisch(参考訳) 正確性に加えて、機械学習モデルに関する最近の研究では、結果をどのように解釈できるかという問題に対処している。 実際、複雑な機械学習モデルは、難しいアプリケーションでも正確性の観点から非常に良い結果を提供できるが、それらを解釈することは困難である。 そのようなモデルに対するいくつかの解釈可能性の提供を目的として、SHAPと呼ばれる最も有名な方法の1つは、興味のあるインスタンスの予測結果を説明するために、ゲーム理論からシェープリー値の概念を借りている。 SHAP値の計算には属性のすべてのアライアンスに関する以前の計算が必要であるため、計算コストは非常に高い。 したがって、Kernel SHAPと呼ばれるSHAPベースの手法は、そのような値を少ない計算労力で近似する効率的な戦略を採用する。 本稿では,Shapley値に基づく機械学習における局所的解釈可能性についても論じる。 まず、Choquet積分を用いて局所的解釈可能性を求めるSHAP法を簡単に定式化し、Shapley値とShapley相互作用指標の両方を導出する。 さらに,ゲーム理論からの$k$-加法ゲームの概念も採用し,shap値の推定における計算労力の削減に寄与した。 得られた結果から,提案手法ではSHAP値に近似するために属性の連立性に関する計算がより少ないことが確認された。

Besides accuracy, recent studies on machine learning models have been addressing the question on how the obtained results can be interpreted. Indeed, while complex machine learning models are able to provide very good results in terms of accuracy even in challenging applications, it is difficult to interpret them. Aiming at providing some interpretability for such models, one of the most famous methods, called SHAP, borrows the Shapley value concept from game theory in order to locally explain the predicted outcome of an instance of interest. As the SHAP values calculation needs previous computations on all possible coalitions of attributes, its computational cost can be very high. Therefore, a SHAP-based method called Kernel SHAP adopts an efficient strategy that approximate such values with less computational effort. In this paper, we also address local interpretability in machine learning based on Shapley values. Firstly, we provide a straightforward formulation of a SHAP-based method for local interpretability by using the Choquet integral, which leads to both Shapley values and Shapley interaction indices. Moreover, we also adopt the concept of $k$-additive games from game theory, which contributes to reduce the computational effort when estimating the SHAP values. The obtained results attest that our proposal needs less computations on coalitions of attributes to approximate the SHAP values.
翻訳日:2022-11-07 17:03:05 公開日:2022-11-03
# RBMはゼロステップのコントラスト分岐で訓練できるのか?

Can RBMs be trained with zero step contrastive divergence? ( http://arxiv.org/abs/2211.02174v1 )

ライセンス: Link先を確認
Charles K. Fisher(参考訳) 制限ボルツマン機械(RBM)は確率的生成モデルであり、原理的には最大極大で訓練できるが、実際にはContrastive Divergence (CD)と呼ばれる近似アルゴリズムによって訓練される。 一般に、cd-kアルゴリズムは、初期設定から開始したkステップマルコフ連鎖モンテカルロアルゴリズム(例えばブロックギブスサンプリング)から得られたサンプルを用いて、モデル分布に対する平均を推定する。 k の選択は通常 1 から 100 に変化する。 この技術的報告は、k=0でRBMを訓練するために、CDの修正版で簡単な近似サンプリングアルゴリズムを利用できるかどうかを考察する。 通常通り、この方法はMNISTで説明される。

Restricted Boltzmann Machines (RBMs) are probabilistic generative models that can be trained by maximum likelihood in principle, but are usually trained by an approximate algorithm called Contrastive Divergence (CD) in practice. In general, a CD-k algorithm estimates an average with respect to the model distribution using a sample obtained from a k-step Markov Chain Monte Carlo Algorithm (e.g., block Gibbs sampling) starting from some initial configuration. Choices of k typically vary from 1 to 100. This technical report explores if it's possible to leverage a simple approximate sampling algorithm with a modified version of CD in order to train an RBM with k=0. As usual, the method is illustrated on MNIST.
翻訳日:2022-11-07 17:02:42 公開日:2022-11-03
# スパイクニューラルネットワークのためのadcレスインメモリコンピューティングハードウェアとハードウェア・ソフトウェアの共同設計

Hardware/Software co-design with ADC-Less In-memory Computing Hardware for Spiking Neural Networks ( http://arxiv.org/abs/2211.02167v1 )

ライセンス: Link先を確認
Marco Paul E. Apolinario, Adarsh Kumar Kosta, Utkarsh Saxena, Kaushik Roy(参考訳) スパイキングニューラルネットワーク(SNN)は、資源制約されたエッジデバイス上でのシーケンシャルタスクのエネルギー効率の高い実装を実現する大きな可能性を秘めている。 しかし、標準GPUベースの商用エッジプラットフォームは、SNNのデプロイに最適化されていないため、高エネルギーとレイテンシが生じる。 アナログメモリ・コンピューティング (IMC) プラットフォームはエネルギー効率のよい推論エンジンとして機能するが、高速ADC (HP-ADC) の膨大なエネルギー、レイテンシ、領域要求により達成され、インメモリ・コンピューティングの利点を誇示している。 本稿では,従来のHP-ADCに代えて,センスアンプを1ビットのADCとして使用して,SNNをADC-Less IMCアーキテクチャにデプロイするハードウェア/ソフトウェア共同設計手法を提案する。 提案手法は,ハードウェア・アウェア・トレーニングによって最小限の精度劣化を生じさせ,単純な画像分類タスクを超えて複雑な逐次回帰タスクにスケールすることができる。 光フロー推定とジェスチャー認識の複雑なタスクの実験により、SNNトレーニング中にハードウェアの認識が徐々に増加し、ADC-Less IMCの非理想性による誤りを適応し、学習することが可能になった。 また、提案されたADC-Less IMCは、HP-ADC IMCと比較して、SNNモデルとワークロードに応じて、それぞれ2-7\times$と8.9-24.6\times$の大幅なエネルギーと遅延の改善を提供する。

Spiking Neural Networks (SNNs) are bio-plausible models that hold great potential for realizing energy-efficient implementations of sequential tasks on resource-constrained edge devices. However, commercial edge platforms based on standard GPUs are not optimized to deploy SNNs, resulting in high energy and latency. While analog In-Memory Computing (IMC) platforms can serve as energy-efficient inference engines, they are accursed by the immense energy, latency, and area requirements of high-precision ADCs (HP-ADC), overshadowing the benefits of in-memory computations. We propose a hardware/software co-design methodology to deploy SNNs into an ADC-Less IMC architecture using sense-amplifiers as 1-bit ADCs replacing conventional HP-ADCs and alleviating the above issues. Our proposed framework incurs minimal accuracy degradation by performing hardware-aware training and is able to scale beyond simple image classification tasks to more complex sequential regression tasks. Experiments on complex tasks of optical flow estimation and gesture recognition show that progressively increasing the hardware awareness during SNN training allows the model to adapt and learn the errors due to the non-idealities associated with ADC-Less IMC. Also, the proposed ADC-Less IMC offers significant energy and latency improvements, $2-7\times$ and $8.9-24.6\times$, respectively, depending on the SNN model and the workload, compared to HP-ADC IMC.
翻訳日:2022-11-07 16:45:57 公開日:2022-11-03
# グラフベースマルチカメラサッカー選手追跡装置

Graph-Based Multi-Camera Soccer Player Tracker ( http://arxiv.org/abs/2211.02125v1 )

ライセンス: Link先を確認
Jacek Komorowski, Grzegorz Kurzejamski(参考訳) 本稿では,サッカー場周辺に設置した複数のキャリブレーションカメラから,長撮影映像記録におけるサッカー選手の追跡を目的としたマルチカメラ追跡手法を提案する。 カメラとの距離が大きいため、個々のプレイヤーを視覚的に区別することが難しくなり、追跡対象の外観に依存する従来のソリューションのパフォーマンスに悪影響を及ぼす。 本手法は,各プレイヤーのダイナミクスと周辺プレイヤー間の相互作用に着目し,トラッキング性能の向上を図る。 キャリブレーション誤差の存在下で複数のカメラから検出を確実にマージすることの難しさを解決するために,トラッカーが複数のカメラからの生検出熱マップを直接操作する新しいトラッキング手法を提案する。 提案モデルは,Google Research Football Environmentを用いて生成された大規模な合成データセットに基づいて,実世界のデータを用いて微調整を行い,地中真実作成に伴うコストを削減する。

The paper presents a multi-camera tracking method intended for tracking soccer players in long shot video recordings from multiple calibrated cameras installed around the playing field. The large distance to the camera makes it difficult to visually distinguish individual players, which adversely affects the performance of traditional solutions relying on the appearance of tracked objects. Our method focuses on individual player dynamics and interactions between neighborhood players to improve tracking performance. To overcome the difficulty of reliably merging detections from multiple cameras in the presence of calibration errors, we propose the novel tracking approach, where the tracker operates directly on raw detection heat maps from multiple cameras. Our model is trained on a large synthetic dataset generated using Google Research Football Environment and fine-tuned using real-world data to reduce costs involved with ground truth preparation.
翻訳日:2022-11-07 16:45:27 公開日:2022-11-03
# 概要からの書籍表紙の合成

Book Cover Synthesis from the Summary ( http://arxiv.org/abs/2211.02138v1 )

ライセンス: Link先を確認
Emdadul Haque, Md. Faraz Kabir Khan, Mohammad Imrul Jubair, Jarin Anjum, Abrar Zahir Niloy(参考訳) 表紙は本の顔であり、読者にとって魅力の点である。 書籍の表紙のデザインは出版業界で欠かせない仕事だ。 本をカバーする上での大きな課題の1つは、本の内容のテーマを単一のイメージで表現することである。 本研究では,本書の要約と表紙の間には関係があるという事実に基づいて,人工知能を用いた書籍カバーの作成方法について検討する。 我々のモチベーションは、テキストから画像への合成手法を適用し、与えられたテキストやキャプションから画像を生成することである。 この目的のために,既存のテキスト・画像変換手法をいくつか検討し,提供された要約から本カバーを作成するための手法を提案する。 既存の書籍の要約とカバー画像の膨大なサンプルを含む英文書籍のデータセットを構築した。 本稿では,データセットをトレーニングモデルに使用するための収集,整理,前処理を行う手法について述べる。 本論文の要約から書籍の表紙を生成するために,異なるテキスト・画像合成技術を適用し,その結果を示す。

The cover is the face of a book and is a point of attraction for the readers. Designing book covers is an essential task in the publishing industry. One of the main challenges in creating a book cover is representing the theme of the book's content in a single image. In this research, we explore ways to produce a book cover using artificial intelligence based on the fact that there exists a relationship between the summary of the book and its cover. Our key motivation is the application of text-to-image synthesis methods to generate images from given text or captions. We explore several existing text-to-image conversion techniques for this purpose and propose an approach to exploit these frameworks for producing book covers from provided summaries. We construct a dataset of English books that contains a large number of samples of summaries of existing books and their cover images. In this paper, we describe our approach to collecting, organizing, and pre-processing the dataset to use it for training models. We apply different text-to-image synthesis techniques to generate book covers from the summary and exhibit the results in this paper.
翻訳日:2022-11-07 16:45:12 公開日:2022-11-03
# Shapes2Toon:単純な幾何学的形状からカートゥーン文字を生成する

Shapes2Toon: Generating Cartoon Characters from Simple Geometric Shapes ( http://arxiv.org/abs/2211.02141v1 )

ライセンス: Link先を確認
Simanta Deb Turja, Mohammad Imrul Jubair, Md. Shafiur Rahman, Md. Hasib Al Zadid, Mohtasim Hossain Shovon, Md. Faraz Kabir Khan(参考訳) カートゥーンは私たちのエンターテイメント文化の重要な部分です。 漫画を描くことはすべての人には当てはまらないが、そのキャラクターを近似する基本的な幾何学的プリミティブのアレンジを使って製作することは、芸術において非常に頻繁な技法である。 この技術の背後にある主要な動機は、人体と漫画の人物が、様々な基本的な幾何学的原始体に分解できることである。 基本形状の適切な配置を用いて図形を描く方法を示すチュートリアルが多数用意されており、漫画のキャラクターを作成するのに役立ちます。 この技法は子どもに漫画の描き方を教えるという点で非常に有益である。 本稿では,幾何学的プリミティブ(円)を結合し,与えられた近似値に応じてマンガ図形(ミッキーマウス)を生成する生成的逆ネットワークを用いて,このアプローチを自動化するためのツールであるshape2toonを開発した。 この目的のために,幾何学的に表現された漫画キャラクタのデータセットを作成した。 本論文では,画像から画像への翻訳手法をデータセットに適用し,その結果を報告する。 本システムでは幾何学形状の入力レイアウトからマンガキャラクタを生成できることを示す。 さらに,本研究の実践的意味として,Webベースのツールを紹介した。

Cartoons are an important part of our entertainment culture. Though drawing a cartoon is not for everyone, creating it using an arrangement of basic geometric primitives that approximates that character is a fairly frequent technique in art. The key motivation behind this technique is that human bodies - as well as cartoon figures - can be split down into various basic geometric primitives. Numerous tutorials are available that demonstrate how to draw figures using an appropriate arrangement of fundamental shapes, thus assisting us in creating cartoon characters. This technique is very beneficial for children in terms of teaching them how to draw cartoons. In this paper, we develop a tool - shape2toon - that aims to automate this approach by utilizing a generative adversarial network which combines geometric primitives (i.e. circles) and generate a cartoon figure (i.e. Mickey Mouse) depending on the given approximation. For this purpose, we created a dataset of geometrically represented cartoon characters. We apply an image-to-image translation technique on our dataset and report the results in this paper. The experimental results show that our system can generate cartoon characters from input layout of geometric shapes. In addition, we demonstrate a web-based tool as a practical implication of our work.
翻訳日:2022-11-07 16:44:57 公開日:2022-11-03
# FactorMatte: 再構成タスクのためのビデオマッチングの再定義

FactorMatte: Redefining Video Matting for Re-Composition Tasks ( http://arxiv.org/abs/2211.02145v1 )

ライセンス: Link先を確認
Zeqi Gu, Wenqi Xian, Noah Snavely, Abe Davis(参考訳) 本研究では,ビデオマッティング問題に対する代替的定式化である「ファクタ・マッティング」を提案する。 因子マッチングの目的は、ビデオの内容を独立したコンポーネントに分離することであり、それぞれが他のコンポーネントのコンテンツが削除されたシーンの偽版を視覚化することである。 因子の整合性は、層間の複雑な条件相互作用を考慮に入れた整合性問題のより一般的なベイズフレーミングによく一致することを示す。 そこで本研究では,スプラッシュ,シャドウ,リフレクションといった複雑な層間相互作用を持つビデオにおいても有用な分解を行う因子マッチング問題の解法を提案する。 本手法はビデオ毎にトレーニングされ,外部の大規模データセットの事前トレーニングやシーンの3d構造に関する知識を必要としない。 提案手法は,複雑なインタラクションを伴うシーンを分離できるだけでなく,従来のビデオマットや背景サブトラクションといった既存のタスクにおける最上位メソッドよりも優れていることを示す。 さらに,ダウンストリームタスクにおけるアプローチのメリットを実証する。 詳しくはプロジェクトのwebページを見て欲しい。 https://factormatte.github.io

We propose "factor matting", an alternative formulation of the video matting problem in terms of counterfactual video synthesis that is better suited for re-composition tasks. The goal of factor matting is to separate the contents of video into independent components, each visualizing a counterfactual version of the scene where contents of other components have been removed. We show that factor matting maps well to a more general Bayesian framing of the matting problem that accounts for complex conditional interactions between layers. Based on this observation, we present a method for solving the factor matting problem that produces useful decompositions even for video with complex cross-layer interactions like splashes, shadows, and reflections. Our method is trained per-video and requires neither pre-training on external large datasets, nor knowledge about the 3D structure of the scene. We conduct extensive experiments, and show that our method not only can disentangle scenes with complex interactions, but also outperforms top methods on existing tasks such as classical video matting and background subtraction. In addition, we demonstrate the benefits of our approach on a range of downstream tasks. Please refer to our project webpage for more details: https://factormatte.github.io
翻訳日:2022-11-07 16:44:35 公開日:2022-11-03
# 大規模実世界マルチパーソン追跡

Large Scale Real-World Multi-Person Tracking ( http://arxiv.org/abs/2211.02175v1 )

ライセンス: Link先を確認
Bing Shuai, Alessandro Bergamo, Uta Buechler, Andrew Berneshawi, Alyssa Boden, Joseph Tighe(参考訳) 本稿では,MOT17,HiEve,MOT20などの高品質なマルチオブジェクト追跡データセットよりも桁違いに大きい大規模マルチパーソン追跡データセット-\texttt{PersonPath22}を提案する。 このタスクのための大規模トレーニングとテストデータの欠如は、個人の密度の変動、実行中の行動、天気、日時など、広範囲のシナリオと状況において、トラッキングシステムのパフォーマンスをコミュニティが理解できることを制限している。 textt{personpath22}データセットは、これらのさまざまな条件を提供するために特にオープンソース化され、私たちのアノテーションには、これらの異なる次元に沿ってトラッカーのパフォーマンスを評価することができるリッチなメタデータが含まれています。 トレーニングデータがないため、トラッキングシステムのエンドツーエンドトレーニングの実行も制限されている。 したがって、最もパフォーマンスの高いトラッキングシステムは、外部の画像データセットでトレーニングされた強力な検出器に依存している。 このデータセットのリリースによって、大規模なビデオベースのトレーニングデータを活用する新たな研究ラインが実現することを期待しています。

This paper presents a new large scale multi-person tracking dataset -- \texttt{PersonPath22}, which is over an order of magnitude larger than currently available high quality multi-object tracking datasets such as MOT17, HiEve, and MOT20 datasets. The lack of large scale training and test data for this task has limited the community's ability to understand the performance of their tracking systems on a wide range of scenarios and conditions such as variations in person density, actions being performed, weather, and time of day. \texttt{PersonPath22} dataset was specifically sourced to provide a wide variety of these conditions and our annotations include rich meta-data such that the performance of a tracker can be evaluated along these different dimensions. The lack of training data has also limited the ability to perform end-to-end training of tracking systems. As such, the highest performing tracking systems all rely on strong detectors trained on external image datasets. We hope that the release of this dataset will enable new lines of research that take advantage of large scale video based training data.
翻訳日:2022-11-07 16:44:17 公開日:2022-11-03
# 自然言語推論のためのより良い表現学習を支援するログ情報

Logographic Information Aids Learning Better Representations for Natural Language Inference ( http://arxiv.org/abs/2211.02136v1 )

ライセンス: Link先を確認
Zijian Jin, Duygu Ataman(参考訳) 統計言語モデルは、伝統的に、単語やその他の形式単位の文脈分布に基づく表現学習を実装しているのに対し、文章の書誌的特徴に関連する情報はしばしば無視される。 一方で、言語モデルが大きくなり、信頼できる表現を学ぶためにより多くのデータが必要となると、このような仮定は、特にデータのスパーシティの条件下では後退し始める。 中国語やベトナム語を含む多くの言語は、表面形式がより小さなグラフ単位の視覚的な構成として表現され、しばしば多くの意味的手がかりを含む対数記法を使用している。 本稿では,より優れた意味表現を学習するために,ログ情報付き言語モデルを提供することの利点を考察する。 我々は、文脈情報とグリフ情報を組み合わせたマルチモーダル表現の利点を評価することにより、自然言語推論(NLI)タスクにおける仮説をテストする。 本評価の結果,文字型や文字体系が異なる6つの言語について,ロゴグラヒックシステムを持つ言語,特に出現率の低い単語にマルチモーダル組込みを用いることによる有意なメリットが示唆された。

Statistical language models conventionally implement representation learning based on the contextual distribution of words or other formal units, whereas any information related to the logographic features of written text are often ignored, assuming they should be retrieved relying on the cooccurence statistics. On the other hand, as language models become larger and require more data to learn reliable representations, such assumptions may start to fall back, especially under conditions of data sparsity. Many languages, including Chinese and Vietnamese, use logographic writing systems where surface forms are represented as a visual organization of smaller graphemic units, which often contain many semantic cues. In this paper, we present a novel study which explores the benefits of providing language models with logographic information in learning better semantic representations. We test our hypothesis in the natural language inference (NLI) task by evaluating the benefit of computing multi-modal representations that combine contextual information with glyph information. Our evaluation results in six languages with different typology and writing systems suggest significant benefits of using multi-modal embeddings in languages with logograhic systems, especially for words with less occurence statistics.
翻訳日:2022-11-07 16:36:26 公開日:2022-11-03
# テキスト生成のための時間認識プロンプト

Time-aware Prompting for Text Generation ( http://arxiv.org/abs/2211.02162v1 )

ライセンス: Link先を確認
Shuyang Cao and Lu Wang(参考訳) 本稿では,文書作成日時などのタイムスタンプを生成システムに組み込む効果について検討する。 1) 文書のタイムスタンプを自然言語文にエンコードするテキストプロンプト, (2) タイムスタンプを連続ベクトルに変換する線形プロンプトの2種類の時間認識プロンプトについて検討した。 将来的なデータポイントへの補間を検討するために、さらに、構造化された個人プロファイルとペアリングされた英語ウィキペディアの伝記記事の400万以上の時系列順の修正を含む、新しいデータ対テキスト生成データセットtempwikibioを紹介する。 tempwikibio上でのデータからテキストへの生成、コンテンツ転送データセット上でテキストからテキストへの生成、xsum上での要約を通じて、エンコーダとテキストによるリニアプロンプトにより、すべてのデータセットにおける生成品質が向上することを示す。 後から引き出されたデータをテストする際のパフォーマンス低下は少ないが、線形的なプロンプトは非時間的情報に集中し、人間の評価や感度分析によると、与えられたタイムスタンプに敏感でない。 一方、テキストプロンプトは与えられたタイムスタンプと出力日との関係を確立し、出力においてより現実的な時間情報を生成する。

In this paper, we study the effects of incorporating timestamps, such as document creation dates, into generation systems. Two types of time-aware prompts are investigated: (1) textual prompts that encode document timestamps in natural language sentences; and (2) linear prompts that convert timestamps into continuous vectors. To explore extrapolation to future data points, we further introduce a new data-to-text generation dataset, TempWikiBio, containing more than 4 millions of chronologically ordered revisions of biographical articles from English Wikipedia, each paired with structured personal profiles. Through data-to-text generation on TempWikiBio, text-to-text generation on the content transfer dataset, and summarization on XSum, we show that linear prompts on encoder and textual prompts improve the generation quality on all datasets. Despite having less performance drop when testing on data drawn from a later time, linear prompts focus more on non-temporal information and are less sensitive to the given timestamps, according to human evaluations and sensitivity analyses. Meanwhile, textual prompts establish the association between the given timestamps and the output dates, yielding more factual temporal information in the output.
翻訳日:2022-11-07 16:36:04 公開日:2022-11-03
# 翻訳スキップ接続 - 完全な畳み込みニューラルネットワークの受容領域を拡張する

Translated Skip Connections -- Expanding the Receptive Fields of Fully Convolutional Neural Networks ( http://arxiv.org/abs/2211.02111v1 )

ライセンス: Link先を確認
Joshua Bruton and Hairong Wang(参考訳) 完全な畳み込みニューラルネットワークの効果的な受容分野は、各畳み込みカーネルで見える入力の一部を定義するため、アーキテクチャの設計において重要な考慮事項である。 本稿では,従来のスキップ接続を拡張したニューラルネットワークモジュールであるtranslate skip connectionを提案する。 変換されたスキップ接続は、パラメータ空間のサイズと計算複雑性の両方に無視できる影響で、アーキテクチャの受容領域を幾何学的に増加させる。 翻訳されたスキップ接続をベンチマークアーキテクチャに埋め込むことで、我々のモジュールは完全な畳み込みニューラルネットワークの効果的な受容領域を拡張するために、他の4つのアプローチと一致または性能を向上することを示した。 我々は、新型コロナウイルス感染の検出、空中画像の分割、共通の対象の分割、自動運転車のセグメンテーションを含む、異なるドメインからの5つの現代画像セグメンテーションデータセットでこの結果を確認した。

The effective receptive field of a fully convolutional neural network is an important consideration when designing an architecture, as it defines the portion of the input visible to each convolutional kernel. We propose a neural network module, extending traditional skip connections, called the translated skip connection. Translated skip connections geometrically increase the receptive field of an architecture with negligible impact on both the size of the parameter space and computational complexity. By embedding translated skip connections into a benchmark architecture, we demonstrate that our module matches or outperforms four other approaches to expanding the effective receptive fields of fully convolutional neural networks. We confirm this result across five contemporary image segmentation datasets from disparate domains, including the detection of COVID-19 infection, segmentation of aerial imagery, common object segmentation, and segmentation for self-driving cars.
翻訳日:2022-11-07 16:25:16 公開日:2022-11-03
# UAV上のミリ波レーダによる複数物体の3次元再構成

3D Reconstruction of Multiple Objects by mmWave Radar on UAV ( http://arxiv.org/abs/2211.02150v1 )

ライセンス: Link先を確認
Yue Sun, Zhuoming Huang, Honggang Zhang, Xiaohui Liang(参考訳) 本稿では,UAVに搭載されたミリ波レーダセンサを用いて空間内の複数の物体の3次元形状を再構成する可能性を検討する。 UAVは宇宙の様々な場所でホバリングし、搭載されたレーダーセンサーはSAR(Synthetic Aperture Radar)で空間をスキャンすることで生のレーダーデータを収集する。 レーダデータはディープニューラルネットワークモデルに送信され、空間内の複数のオブジェクトの点雲再構成を出力する。 我々は2つの異なるモデルを評価する。 model 1は、最近提案された3drimr/r2pモデルであり、model 1の処理パイプラインにセグメンテーションステージを追加することでmodel 2が形成される。 実験により, 両モデルとも多重物体復元問題に有望であることが証明された。 また,モデル2はより濃密で滑らかな点雲を発生させるが,復元損失や物体の損失を増加させる可能性があることを示した。 さらに、両モデルとも、意図した走査点に浮かぶ小型UAVの不安定性や振動により不安定なSAR動作によって得られた高ノイズレーダデータに対して頑健であることが判明した。 本研究は3次元物体再構成にmmWaveレーダセンシングを応用するための有望な方向を示すものである。

In this paper, we explore the feasibility of utilizing a mmWave radar sensor installed on a UAV to reconstruct the 3D shapes of multiple objects in a space. The UAV hovers at various locations in the space, and its onboard radar senor collects raw radar data via scanning the space with Synthetic Aperture Radar (SAR) operation. The radar data is sent to a deep neural network model, which outputs the point cloud reconstruction of the multiple objects in the space. We evaluate two different models. Model 1 is our recently proposed 3DRIMR/R2P model, and Model 2 is formed by adding a segmentation stage in the processing pipeline of Model 1. Our experiments have demonstrated that both models are promising in solving the multiple object reconstruction problem. We also show that Model 2, despite producing denser and smoother point clouds, can lead to higher reconstruction loss or even loss of objects. In addition, we find that both models are robust to the highly noisy radar data obtained by unstable SAR operation due to the instability or vibration of a small UAV hovering at its intended scanning point. Our exploratory study has shown a promising direction of applying mmWave radar sensing in 3D object reconstruction.
翻訳日:2022-11-07 16:19:29 公開日:2022-11-03
# 進化戦略を用いたスポーツカメラのポースリファインメント

Sports Camera Pose Refinement Using an Evolution Strategy ( http://arxiv.org/abs/2211.02143v1 )

ライセンス: Link先を確認
Grzegorz Rype\'s\'c, Grzegorz Kurzejamski, Jacek Komorowski(参考訳) 本稿では,新しい進化戦略を用いたスポーツカメラのパラメータ最適化手法を提案する。 まず,スポーツフィールドのエッジまたはエリアベースセグメンテーションのためのニューラルネットワークアーキテクチャを開発した。 第2に,単一セグメントのスポーツフィールド画像に対して,外部カメラパラメータを改良することを目的とした進化戦略を実装した。 実世界のデータに対する最先端カメラのポーズ補正手法との比較実験により,提案アルゴリズムの優位性を実証した。 また,アブレーション研究を行い,本手法を一般化してカメラマトリックスを改良する方法を提案する。

This paper presents a robust end-to-end method for sports cameras extrinsic parameters optimization using a novel evolution strategy. First, we developed a neural network architecture for an edge or area-based segmentation of a sports field. Secondly, we implemented the evolution strategy, which purpose is to refine extrinsic camera parameters given a single, segmented sports field image. Experimental comparison with state-of-the-art camera pose refinement methods on real-world data demonstrates the superiority of the proposed algorithm. We also perform an ablation study and propose a way to generalize the method to additionally refine the intrinsic camera matrix.
翻訳日:2022-11-07 16:18:41 公開日:2022-11-03
# バイアスリーク保護属性のクエリは可能か? Smooth Sensitivityでプライバシーを達成

Can Querying for Bias Leak Protected Attributes? Achieving Privacy With Smooth Sensitivity ( http://arxiv.org/abs/2211.02139v1 )

ライセンス: Link先を確認
Faisal Hamman, Jiahao Chen, Sanghamitra Dutta(参考訳) 既存の規制は、モデル開発者が保護された属性(性別、人種など)にアクセスすることを禁止しており、しばしば保護されたグループを知らずに、人口に対する公平な評価をもたらす。 このようなシナリオでは、モデル開発者(保護された属性にアクセスできないモデルをトレーニングする)とコンプライアンスチーム(監査目的でデータセット全体にアクセスする可能性がある)を分離することが多い。 しかし、モデル開発者は、コンプライアンスチームにグループフェアネスメトリクスを問い合わせることで、バイアスのためにモデルをテストすることが許されるかもしれない。 本稿では,まず,統計的パリティや等化オッズといった公平度メトリクスのクエリが,個々の保護属性をモデル開発者に漏らす可能性があることを実証する。 テストデータセット内の対象個人の保護された属性を1つのクエリから識別できる戦略は常に存在することを実証する。 特に,圧縮センシング (n: テストデータセットのサイズ, nk: 最小グループのサイズ) を用いた nk<<<n の場合, o(nk log n/nk) クエリから保護された属性を再構築できることを示す。 我々の結果は、アルゴリズムの公正性に関して興味深い議論を巻き起こしている: 公正度メトリクスのクエリは、規制の遵守を保証する中立的なソリューションと見なすべきだろうか? あるいは、モデル開発者が特定の個人の保護された属性を識別するのに十分なクエリ数であれば、規制やプライバシの侵害になるのでしょうか? この違反に対処するために,ノイズをバイアスクエリのスムーズな感度に調整することで,差分プライバシーを実現する新しい手法であるAttribute-Concealを提案する。 また、成人データセットと合成データ(パラメータの範囲)に関する実験結果も含む。

Existing regulations prohibit model developers from accessing protected attributes (gender, race, etc.), often resulting in fairness assessments on populations without knowing their protected groups. In such scenarios, institutions often adopt a separation between the model developers (who train models with no access to the protected attributes) and a compliance team (who may have access to the entire dataset for auditing purpose). However, the model developers might be allowed to test their models for bias by querying the compliance team for group fairness metrics. In this paper, we first demonstrate that simply querying for fairness metrics, such as statistical parity and equalized odds can leak the protected attributes of individuals to the model developers. We demonstrate that there always exist strategies by which the model developers can identify the protected attribute of a targeted individual in the test dataset from just a single query. In particular, we show that one can reconstruct the protected attributes of all the individuals from O(Nk log n/Nk) queries when Nk<<n using techniques from compressed sensing (n: size of the test dataset, Nk: size of smallest group). Our results pose an interesting debate in algorithmic fairness: should querying for fairness metrics be viewed as a neutral-valued solution to ensure compliance with regulations? Or, does it constitute a violation of regulations and privacy if the number of queries answered is enough for the model developers to identify the protected attributes of specific individuals? To address this supposed violation, we also propose Attribute-Conceal, a novel technique that achieves differential privacy by calibrating noise to the smooth sensitivity of our bias query, outperforming naive techniques such as Laplace mechanism. We also include experimental results on the Adult dataset and synthetic data (broad range of parameters).
翻訳日:2022-11-07 16:18:17 公開日:2022-11-03
# 損失のない合意なし:ピアレビューにおける学習と社会的選択

No Agreement Without Loss: Learning and Social Choice in Peer Review ( http://arxiv.org/abs/2211.02144v1 )

ライセンス: Link先を確認
Pablo Barcel\'o and Mauricio Duarte and Crist\'obal Rojas and Tomasz Steifer(参考訳) ピアレビューシステムでは、レビュアーは、技術的品質や新規性など、提出の様々な特徴を評価するよう求められることが多い。 事前に定義された特徴ごとにスコアが与えられ、それに基づいてレビュアーは全体的な定量的なレコメンデーションを提供する必要がある。 しかし、レビュアーは機能の価値がどの程度異なるかが異なる。 各レビュアーが基準スコア(スコアベクター)からレコメンデーションまでの独自のマッピングを持ち、異なるレビュアーが異なるマッピングを念頭に置いていると仮定できる。 最近、Noothigattu, Shah and Procacciaは、$L(p,q)$損失関数に基づく経験的リスク最小化により集約されたマッピングを得るための新しい枠組みを導入し、社会選択論の意味でその公理的性質を研究した。 このフレームワークに関する新たな成果を多数提供しています。 一方,本研究では,多くのレビュアーの合意を適切に把握する手法と戦略の安全性のトレードオフについて検討する。 一方,ある非現実的な仮定を外すことで,既に報告された結果がもはや有効ではないことを示す。 さらに、一般的には、レビュアーが真の信念を任意に小さな変更を行うことで、ソリューションに重大な変更を加えることができるという意味で、戦略の保護は劇的に失敗する。 特に、この一般的な設定では、この方法が連続的なw.r.t.データでさえないので、戦略耐性の近似バージョンは不可能である。 最後に, 連続的なアグリゲーションアルゴリズムを提案し, 良好な公理特性を有することを示す。

In peer review systems, reviewers are often asked to evaluate various features of submissions, such as technical quality or novelty. A score is given to each of the predefined features and based on these the reviewer has to provide an overall quantitative recommendation. However, reviewers differ in how much they value different features. It may be assumed that each reviewer has her own mapping from a set of criteria scores (score vectors) to a recommendation, and that different reviewers have different mappings in mind. Recently, Noothigattu, Shah and Procaccia introduced a novel framework for obtaining an aggregated mapping by means of Empirical Risk Minimization based on $L(p,q)$ loss functions, and studied its axiomatic properties in the sense of social choice theory. We provide a body of new results about this framework. On the one hand we study a trade-off between strategy-proofness and the ability of the method to properly capture agreements of the majority of reviewers. On the other hand, we show that dropping a certain unrealistic assumption makes the previously reported results to be no longer valid. Moreover, in the general case, strategy-proofness fails dramatically in the sense that a reviewer is able to make significant changes to the solution in her favor by arbitrarily small changes to their true beliefs. In particular, no approximate version of strategy-proofness is possible in this general setting since the method is not even continuous w.r.t. the data. Finally we propose a modified aggregation algorithm which is continuous and show that it has good axiomatic properties.
翻訳日:2022-11-07 16:17:48 公開日:2022-11-03
# 漸近近傍を用いたロバスト時系列連鎖探索

Robust Time Series Chain Discovery with Incremental Nearest Neighbors ( http://arxiv.org/abs/2211.02146v1 )

ライセンス: Link先を確認
Li Zhang, Yan Zhu, Yifeng Gao, Jessica Lin(参考訳) 時系列のモチーフ発見は、時系列における意味のある反復パターンを特定するための基本的なタスクである。 近年,時系列データの連続的進化パターンを識別する時系列モチーフの拡張として時系列連鎖を導入した。 直交的に、時系列連鎖 (TSC) は時間的に順序付けられた時系列列の集合であり、全ての列はそれより前の列と似ているが、最後の列と最初の列は任意に異なる。 TSCは時系列で潜在的な連続的な進化傾向を明らかにし、複雑な系における異常事象の前駆体を特定することができる。 有望な解釈性にもかかわらず、残念なことに、既存のtscの定義には時系列の進化的部分を正確にカバーする能力が欠けていることが観察されている。 時系列列の近傍が時間とともにどのように変化するかを追跡する最近の研究に触発されて、進化しないパターンを排除しながら、進化するパターンをよりよく見つけられるように、データ内のノイズに対してより堅牢な新しいTSC定義を導入する。 さらに、発見された連鎖をランク付けする2つの新しい品質指標を提案する。 広範な経験的評価により、提案したTSC定義は、最先端のチェーンが、様々な実世界のデータセットにおいて有意義な規則性を明らかにすることができることを示す。

Time series motif discovery has been a fundamental task to identify meaningful repeated patterns in time series. Recently, time series chains were introduced as an expansion of time series motifs to identify the continuous evolving patterns in time series data. Informally, a time series chain (TSC) is a temporally ordered set of time series subsequences, in which every subsequence is similar to the one that precedes it, but the last and the first can be arbitrarily dissimilar. TSCs are shown to be able to reveal latent continuous evolving trends in the time series, and identify precursors of unusual events in complex systems. Despite its promising interpretability, unfortunately, we have observed that existing TSC definitions lack the ability to accurately cover the evolving part of a time series: the discovered chains can be easily cut by noise and can include non-evolving patterns, making them impractical in real-world applications. Inspired by a recent work that tracks how the nearest neighbor of a time series subsequence changes over time, we introduce a new TSC definition which is much more robust to noise in the data, in the sense that they can better locate the evolving patterns while excluding the non-evolving ones. We further propose two new quality metrics to rank the discovered chains. With extensive empirical evaluations, we demonstrate that the proposed TSC definition is significantly more robust to noise than the state of the art, and the top ranked chains discovered can reveal meaningful regularities in a variety of real world datasets.
翻訳日:2022-11-07 16:17:19 公開日:2022-11-03
# 逐次的意思決定のための因果説明の分解

Decomposing Counterfactual Explanations for Consequential Decision Making ( http://arxiv.org/abs/2211.02151v1 )

ライセンス: Link先を確認
Martin Pawelczyk and Lea Tiyavorabun and Gjergji Kasneci(参考訳) アルゴリズムリコースの目的は、実行可能な機能変更(例えば、クレジットカードの数を減らす)を提案することによって、自動意思決定の下で不利な決定(ローン拒否から承認まで)をリバースすることである。 低コストのリコースを生成するために、ほとんどの手法は独立して操作できる(IMF)という前提の下で機能する。 機能依存問題に対処するために、通常、リコース問題は因果リコースパラダイムを通して研究される。 しかし、因果モデルや構造方程式にエンコードされるような強い仮定は、因果依存構造が曖昧な複素領域におけるこれらの方法の適用性を妨げることがよく知られている。 本研究は,IMFと強い因果的仮定のギャップを埋める,新規かつ実践的なリコースフレームワークである「texttt{DEAR} (DisEntangling Algorithmic Recourse)」を開発する。 texttt{DEAR} は、有望なrecourse特徴のサブセットから共変特徴の潜在表現を遠ざけ、主要な実践的deiderataをキャプチャすることで、recourseを生成する。 実世界のデータに関する実験は、理論上モチベーションのあるリコースモデルと一致し、機能依存の存在下で信頼性と低コストのリコースを提供するフレームワークの能力を強調します。

The goal of algorithmic recourse is to reverse unfavorable decisions (e.g., from loan denial to approval) under automated decision making by suggesting actionable feature changes (e.g., reduce the number of credit cards). To generate low-cost recourse the majority of methods work under the assumption that the features are independently manipulable (IMF). To address the feature dependency issue the recourse problem is usually studied through the causal recourse paradigm. However, it is well known that strong assumptions, as encoded in causal models and structural equations, hinder the applicability of these methods in complex domains where causal dependency structures are ambiguous. In this work, we develop \texttt{DEAR} (DisEntangling Algorithmic Recourse), a novel and practical recourse framework that bridges the gap between the IMF and the strong causal assumptions. \texttt{DEAR} generates recourses by disentangling the latent representation of co-varying features from a subset of promising recourse features to capture the main practical recourse desiderata. Our experiments on real-world data corroborate our theoretically motivated recourse model and highlight our framework's ability to provide reliable, low-cost recourse in the presence of feature dependencies.
翻訳日:2022-11-07 16:16:51 公開日:2022-11-03
# Theta-Resonance:デザイン空間探索のための単一ステップ強化学習法

Theta-Resonance: A Single-Step Reinforcement Learning Method for Design Space Exploration ( http://arxiv.org/abs/2211.02052v1 )

ライセンス: Link先を確認
Masood S. Mortazavi, Tiancheng Qin, Ning Yan(参考訳) 特定の設計空間でサンプルを評価する環境(例えばシミュレータ)と重み付け評価メトリクスのセットが与えられ、シングルステップマルコフ決定プロセス(mdp)であるtheta-resonanceを使用して、より最適なサンプルを生成するインテリジェントエージェントを訓練することができる。 Theta-Resonanceでは、ニューラルネットワークが一定入力テンソルを消費し、各設計次元をサンプリングするための条件確率密度関数(PDF)のセットとしてポリシーを生成する。 既存のポリシー勾配アルゴリズムを深層強化学習(d-rl)に特化し,評価フィードバック(コスト,ペナルティ,報酬の観点から)を用いて,堅牢なアルゴリズム安定性と最小限の設計評価でポリシーネットワークを更新する。 簡単なSoC設計空間のコンテキスト内で複数のニューラルアーキテクチャ(ポリシーネットワーク)について検討し、設計空間探索(DSE)アルゴリズムの比較と改善のための合成空間探索問題を構築する方法を提案する。 分類的設計空間のみを提示するが、連続的および混合的連続離散設計空間を探索するためにtheta-resonanceの使い方も概説する。

Given an environment (e.g., a simulator) for evaluating samples in a specified design space and a set of weighted evaluation metrics -- one can use Theta-Resonance, a single-step Markov Decision Process (MDP), to train an intelligent agent producing progressively more optimal samples. In Theta-Resonance, a neural network consumes a constant input tensor and produces a policy as a set of conditional probability density functions (PDFs) for sampling each design dimension. We specialize existing policy gradient algorithms in deep reinforcement learning (D-RL) in order to use evaluation feedback (in terms of cost, penalty or reward) to update our policy network with robust algorithmic stability and minimal design evaluations. We study multiple neural architectures (for our policy network) within the context of a simple SoC design space and propose a method of constructing synthetic space exploration problems to compare and improve design space exploration (DSE) algorithms. Although we only present categorical design spaces, we also outline how to use Theta-Resonance in order to explore continuous and mixed continuous-discrete design spaces.
翻訳日:2022-11-07 16:09:38 公開日:2022-11-03
# 対照的値学習:単純なオフラインRLのための暗黙のモデル

Contrastive Value Learning: Implicit Models for Simple Offline RL ( http://arxiv.org/abs/2211.02100v1 )

ライセンス: Link先を確認
Bogdan Mazoure, Benjamin Eysenbach, Ofir Nachum, Jonathan Tompson(参考訳) モデルベース強化学習(rl)メソッドは、エージェントが環境と対話することなくアクションの結果を判断できるため、オフライン環境では魅力的である。 先行メソッドは1ステップのダイナミックスモデルを学び、現在の状態と動作から次の状態を予測する。 これらのモデルはエージェントにどのアクションを取るかを即時に伝えないが、より大きなrlフレームワークに統合する必要がある。 学習したモデルが各アクションの値を直接示すように、環境のダイナミクスを異なる方法でモデル化することはできますか? 本稿では,環境力学の暗黙的多段階モデルを学ぶコントラスト価値学習(CVL)を提案する。 このモデルは報酬関数にアクセスすることなく学習することができるが、それでもTD学習を必要とせずに、各アクションの価値を直接見積もることができる。 このモデルは多段階遷移を暗黙的に表現するため、高次元の観測を予測せずに高次元のタスクにスケールする。 CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。

Model-based reinforcement learning (RL) methods are appealing in the offline setting because they allow an agent to reason about the consequences of actions without interacting with the environment. Prior methods learn a 1-step dynamics model, which predicts the next state given the current state and action. These models do not immediately tell the agent which actions to take, but must be integrated into a larger RL framework. Can we model the environment dynamics in a different way, such that the learned model does directly indicate the value of each action? In this paper, we propose Contrastive Value Learning (CVL), which learns an implicit, multi-step model of the environment dynamics. This model can be learned without access to reward functions, but nonetheless can be used to directly estimate the value of each action, without requiring any TD learning. Because this model represents the multi-step transitions implicitly, it avoids having to predict high-dimensional observations and thus scales to high-dimensional tasks. Our experiments demonstrate that CVL outperforms prior offline RL methods on complex continuous control benchmarks.
翻訳日:2022-11-07 16:09:16 公開日:2022-11-03
# 欠落シフト下でのドメイン適応

Domain Adaptation under Missingness Shift ( http://arxiv.org/abs/2211.02093v1 )

ライセンス: Link先を確認
Helen Zhou, Sivaraman Balakrishnan, Zachary C. Lipton(参考訳) データの欠落率はしばしば記録保存ポリシーに依存するため、基礎となる機能が比較的安定している場合でも、時間や場所によって変化する可能性がある。 本稿では,DAMS(Missingness Shift)におけるドメイン適応の問題を紹介する。 ここでは、(ラベル付き)ソースデータと(ラベルなし)ターゲットデータは、異なるデータメカニズムに対して交換可能である。 データインジケータが不足している場合、DAMSは共変量シフトに還元できることを示す。 データインジケータが欠落している設定に焦点をあてて、以下の理論結果を完全にランダムに報告する。 (i)共変量シフトが違反している(適応が必要) (ii) 最適震源予測器は、定点よりも目標領域で悪化させることができる。 (iii)欠落率自体がない場合であっても、最適な目標予測器を識別することができる。 (iv) 線形モデルの場合, 簡単な解析調整により最適対象パラメータの一貫した推定値が得られる。 合成および半合成データ実験において,仮定が持たれた場合の手法の期待を実証する。 最後に、将来の拡張の豊富なファミリーについて論じる。

Rates of missing data often depend on record-keeping policies and thus may change across times and locations, even when the underlying features are comparatively stable. In this paper, we introduce the problem of Domain Adaptation under Missingness Shift (DAMS). Here, (labeled) source data and (unlabeled) target data would be exchangeable but for different missing data mechanisms. We show that when missing data indicators are available, DAMS can reduce to covariate shift. Focusing on the setting where missing data indicators are absent, we establish the following theoretical results for underreporting completely at random: (i) covariate shift is violated (adaptation is required); (ii) the optimal source predictor can perform worse on the target domain than a constant one; (iii) the optimal target predictor can be identified, even when the missingness rates themselves are not; and (iv) for linear models, a simple analytic adjustment yields consistent estimates of the optimal target parameters. In experiments on synthetic and semi-synthetic data, we demonstrate the promise of our methods when assumptions hold. Finally, we discuss a rich family of future extensions.
翻訳日:2022-11-07 16:08:00 公開日:2022-11-03
# オフザシェルフモデルを用いたゼロショット動画モーメント検索

Zero-shot Video Moment Retrieval With Off-the-Shelf Models ( http://arxiv.org/abs/2211.02178v1 )

ライセンス: Link先を確認
Anuj Diwan, Puyuan Peng, Raymond J. Mooney(参考訳) 機械学習コミュニティの大多数にとって、高品質な人間の注釈データを集めるための高価な性質と、限られた計算量で非常に大きな最先端の事前学習されたモデルを効率的に微調整できないことは、新しいタスクのためのモデルを構築するための大きなボトルネックである。 このようなタスクに対してゼロショットの単純なアプローチであるビデオモーメント検索(VMR)を提案し、追加の微調整を行わず、他のタスクで訓練された既製のモデルを簡単に再利用する。 3段階のアプローチは、モーメントの提案、モーメントクエリマッチング、ポストプロセッシングで構成されています。 VMRのQVHighlightsベンチマークでは、すべてのメトリクスにおいて、過去のゼロショットアプローチのパフォーマンスを少なくとも2.5倍改善し、ゼロショットと最先端の教師によるギャップを74%以上削減しました。 さらに、我々のゼロショットアプローチは、Recallメトリクスの非事前訓練された教師付きモデルに勝り、mAPメトリクスに非常に近いことを示し、短い時間で最高の事前訓練された教師付きモデルよりも優れたパフォーマンスを示す。 最後に,結果の要約と分析を行い,今後の興味深い方向性を提案する。

For the majority of the machine learning community, the expensive nature of collecting high-quality human-annotated data and the inability to efficiently finetune very large state-of-the-art pretrained models on limited compute are major bottlenecks for building models for new tasks. We propose a zero-shot simple approach for one such task, Video Moment Retrieval (VMR), that does not perform any additional finetuning and simply repurposes off-the-shelf models trained on other tasks. Our three-step approach consists of moment proposal, moment-query matching and postprocessing, all using only off-the-shelf models. On the QVHighlights benchmark for VMR, we vastly improve performance of previous zero-shot approaches by at least 2.5x on all metrics and reduce the gap between zero-shot and state-of-the-art supervised by over 74%. Further, we also show that our zero-shot approach beats non-pretrained supervised models on the Recall metrics and comes very close on mAP metrics; and that it also performs better than the best pretrained supervised model on shorter moments. Finally, we ablate and analyze our results and propose interesting future directions.
翻訳日:2022-11-07 16:02:02 公開日:2022-11-03
# マルチロケーションデータを用いた深層学習を用いたスカイイメージに基づく日射予測--ローカル、グローバル、トランスファーラーニングによるトレーニングモデル?

Sky-image-based solar forecasting using deep learning with multi-location data: training models locally, globally or via transfer learning? ( http://arxiv.org/abs/2211.02108v1 )

ライセンス: Link先を確認
Yuhao Nie, Quentin Paletta, Andea Scotta, Luis Martin Pomares, Guillaume Arbod, Sgouris Sgouridis, Joan Lasenby, Adam Brandt(参考訳) 深層学習モデルを用いた地上の天空画像からの日射予測は、太陽発電の不確実性を低減する大きな可能性を示している。 ディープラーニングモデルのトレーニングにおける最大の課題のひとつは、ラベル付きデータセットの可用性だ。 近年、ますます多くの天空画像データセットがオープンソース化され、正確で信頼性の高い太陽予測手法の開発が大きな成長を遂げている。 本研究では,世界中から収集した3つの異種データセットを用いて,深層学習に基づく太陽予報モデルのための3つの異なるトレーニング戦略について検討する。 具体的には,ローカルデータセット(ローカルモデル)に基づいて個別にトレーニングしたモデルと,異なる場所(グローバルモデル)から複数のデータセットを融合して共同でトレーニングしたモデルのパフォーマンスを比較し,事前学習した太陽予報モデルから新たな関心のデータセット(転送学習モデル)への知識伝達について検討する。 その結果、ローカルモデルがローカルにデプロイするとうまく機能することが示唆されたが、オフサイトに適用された場合の予測のスケールにおいて重大な誤差が観測される。 グローバルモデルは個々の場所にうまく適応できるが、トレーニング努力の増加の可能性を考慮する必要がある。 大規模で多様なソースデータセット上の事前トレーニングモデルと、ローカルターゲットデータセットへの転送は、一般的に、他の2つのトレーニング戦略よりも優れたパフォーマンスを達成する。 転送学習は、ローカルデータに制限がある場合に最も利益をもたらす。 トレーニングデータの80%削減により、データセット全体を使用してトレーニングされたローカルベースラインモデルよりも1%改善できる。 そこで我々は,太陽予報コミュニティの努力を,大量の画像を含む地球規模のデータセットに貢献し,さまざまな空条件で多彩なサンプルを表示するよう呼びかける。

Solar forecasting from ground-based sky images using deep learning models has shown great promise in reducing the uncertainty in solar power generation. One of the biggest challenges for training deep learning models is the availability of labeled datasets. With more and more sky image datasets open sourced in recent years, the development of accurate and reliable solar forecasting methods has seen a huge growth in potential. In this study, we explore three different training strategies for deep-learning-based solar forecasting models by leveraging three heterogeneous datasets collected around the world with drastically different climate patterns. Specifically, we compare the performance of models trained individually based on local datasets (local models) and models trained jointly based on the fusion of multiple datasets from different locations (global models), and we further examine the knowledge transfer from pre-trained solar forecasting models to a new dataset of interest (transfer learning models). The results suggest that the local models work well when deployed locally, but significant errors are observed for the scale of the prediction when applied offsite. The global model can adapt well to individual locations, while the possible increase in training efforts need to be taken into account. Pre-training models on a large and diversified source dataset and transferring to a local target dataset generally achieves superior performance over the other two training strategies. Transfer learning brings the most benefits when there are limited local data. With 80% less training data, it can achieve 1% improvement over the local baseline model trained using the entire dataset. Therefore, we call on the efforts from the solar forecasting community to contribute to a global dataset containing a massive amount of imagery and displaying diversified samples with a range of sky conditions.
翻訳日:2022-11-07 16:00:40 公開日:2022-11-03
# 畳み込みニューラルネットワークとストローク同定を用いた手書きアラビア語文字認識

Handwritten Arabic Character Recognition for Children Writ-ing Using Convolutional Neural Network and Stroke Identification ( http://arxiv.org/abs/2211.02119v1 )

ライセンス: Link先を確認
Mais Alheraki, Rawan Al-Matham and Hend Al-Khalifa(参考訳) 自動アラビア文字認識は機械学習の分野で最近研究されている問題の1つである。 ラテン言語とは異なり、アラビア語は、特に作家年齢などの要因によって引き起こされるパターンの多様性において、難しい課題を形成するセム語である。 ほとんどの研究は成人に焦点が当てられ、子供に関する最近の研究は1つに過ぎなかった。 さらに、最近の機械学習手法の多くは、画像から複雑な特徴を抽出できる強力なニューラルネットワークのクラスである畳み込みニューラルネットワークの使用に焦点を当てている。 本稿では,ヒジャーデータセットで91%の精度で手書き文字を認識する畳み込みニューラルネットワーク(CNN)モデルを提案する。 その結果、Hijjaデータセット作成者による提案モデルよりも優れた改善が得られたが、アラビア文字による文字認識の子どもにとって大きな課題が明らかにされた。 さらに,キャラクタ内のストローク数に基づく単一モデルではなく,マルチモデルを用いた新しいアプローチを提案し,平均予測精度96%に達したHijjaとAHCDをマージした。

Automatic Arabic handwritten recognition is one of the recently studied problems in the field of Machine Learning. Unlike Latin languages, Arabic is a Semitic language that forms a harder challenge, especially with variability of patterns caused by factors such as writer age. Most of the studies focused on adults, with only one recent study on children. Moreover, much of the recent Machine Learning methods focused on using Convolutional Neural Networks, a powerful class of neural networks that can extract complex features from images. In this paper we propose a convolutional neural network (CNN) model that recognizes children handwriting with an accuracy of 91% on the Hijja dataset, a recent dataset built by collecting images of the Arabic characters written by children, and 97% on Arabic Handwritten Character Dataset. The results showed a good improvement over the proposed model from the Hijja dataset authors, yet it reveals a bigger challenge to solve for children Arabic handwritten character recognition. Moreover, we proposed a new approach using multi models instead of single model based on the number of strokes in a character, and merged Hijja with AHCD which reached an averaged prediction accuracy of 96%.
翻訳日:2022-11-07 16:00:08 公開日:2022-11-03
# SEM画像における深層学習に基づく欠陥分類と検出:マスクR-CNNアプローチ

Deep Learning based Defect classification and detection in SEM images: A Mask R-CNN approach ( http://arxiv.org/abs/2211.02185v1 )

ライセンス: Link先を確認
Bappaditya Dey, Enrique Dehaerne, Kasem Khalil, Sandip Halder, Philippe Leray, and Magdy A. Bayoumi(参考訳) 本研究では,コンピュータビジョン,特に物体検出のためのディープラーニングアルゴリズムである mask-rcnn (regional convolutional neural network) の半導体欠陥検査領域への応用を実証した。 半導体製造における確率的欠陥検出と分類は、回路パターン次元を連続的に縮小する(例えば、32nm未満のピッチの場合)ため、難しい課題になってきた。 最先端の光学および電子ビーム検査ツールによる欠陥検査と分析は、一般的にいくつかの規則に基づく技術によって推進される。 本研究では,sem画像における欠陥インスタンス分割の精度向上と欠陥カテゴリ毎のマスク生成のために,これまでのディープラーニングに基づく欠陥分類と検出法を再検討し,拡張した。 これにより、各セグメンテーションされたマスクを抽出・校正し、各マスクを構成するピクセルを定量化し、各カテゴリの欠陥インスタンスをカウントしたり、ピクセルの観点から表面積を計算することが可能になります。 本研究の目的は, 橋梁, 断線, 線崩壊などのクラス間確率的欠陥パターンの検出とセグメント化, および, 強ピッチおよび薄型レジスト(高NAアプリケーション)に対して, クラス内マルチカテゴリ的欠陥ブリッジシナリオ(薄/薄/マルチライン/水平/水平/水平)を正確に区別することである。 提案手法は定量的にも定性的にも有効性を示す。

In this research work, we have demonstrated the application of Mask-RCNN (Regional Convolutional Neural Network), a deep-learning algorithm for computer vision and specifically object detection, to semiconductor defect inspection domain. Stochastic defect detection and classification during semiconductor manufacturing has grown to be a challenging task as we continuously shrink circuit pattern dimensions (e.g., for pitches less than 32 nm). Defect inspection and analysis by state-of-the-art optical and e-beam inspection tools is generally driven by some rule-based techniques, which in turn often causes to misclassification and thereby necessitating human expert intervention. In this work, we have revisited and extended our previous deep learning-based defect classification and detection method towards improved defect instance segmentation in SEM images with precise extent of defect as well as generating a mask for each defect category/instance. This also enables to extract and calibrate each segmented mask and quantify the pixels that make up each mask, which in turn enables us to count each categorical defect instances as well as to calculate the surface area in terms of pixels. We are aiming at detecting and segmenting different types of inter-class stochastic defect patterns such as bridge, break, and line collapse as well as to differentiate accurately between intra-class multi-categorical defect bridge scenarios (as thin/single/multi-line/horizontal/non-horizontal) for aggressive pitches as well as thin resists (High NA applications). Our proposed approach demonstrates its effectiveness both quantitatively and qualitatively.
翻訳日:2022-11-07 15:59:48 公開日:2022-11-03
# Pangu-Weather: 高速で正確な地球天気予報のための3次元高分解能モデル

Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast ( http://arxiv.org/abs/2211.02556v1 )

ライセンス: Link先を確認
Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, Qi Tian(参考訳) 本稿では,世界天気予報の迅速かつ高精度な深層学習システムであるPangu-Weatherを紹介する。 この目的のために,第5世代ECMWFリアナリシス(ERA5)データから,時給43ドルのグローバル気象データをダウンロードして,合計で256万ドル(約2億6500万円)のパラメータを持つ,いくつかのディープニューラルネットワークをトレーニングすることで,データ駆動環境を確立する。 予測の空間解像度は、ECMWF統合予測システム(IFS)に匹敵する0.25^\circ\times0.25^\circ$である。 さらに重要なことに、AIベースの手法は、すべての要因(例えば、地磁気、比湿度、風速、温度など)の正確さ(RMSEとACCの高度重み付け)と、すべての時間範囲(例えば、1時間から1週間)において、最先端の数値天気予報(NWP)手法を初めて上回る。 予測精度を改善するための2つの重要な戦略がある。 (i)高さ(圧力レベル)情報を立方体データに定式化する3次元地球固有変圧器(3dest)アーキテクチャの設計、 (ii)累積予測誤差を軽減するために階層的時間集約アルゴリズムを適用すること。 決定論的予測では、Pangu-Weatherは短距離から中距離の予測(すなわち予測時間は1時間から1週間)に大きな利点を示す。 Pangu-Weatherは、極端な天気予報(熱帯サイクロンの追跡など)や大規模なアンサンブル予測など、幅広い下流予測シナリオをサポートしている。 Pangu-Weather氏は、AIベースの手法が従来のNWP手法を超えることができるかどうかの議論を終わらせるだけでなく、ディープラーニングの天気予報システムを改善するための新しい方向性を明らかにしている。

In this paper, we present Pangu-Weather, a deep learning based system for fast and accurate global weather forecast. For this purpose, we establish a data-driven environment by downloading $43$ years of hourly global weather data from the 5th generation of ECMWF reanalysis (ERA5) data and train a few deep neural networks with about $256$ million parameters in total. The spatial resolution of forecast is $0.25^\circ\times0.25^\circ$, comparable to the ECMWF Integrated Forecast Systems (IFS). More importantly, for the first time, an AI-based method outperforms state-of-the-art numerical weather prediction (NWP) methods in terms of accuracy (latitude-weighted RMSE and ACC) of all factors (e.g., geopotential, specific humidity, wind speed, temperature, etc.) and in all time ranges (from one hour to one week). There are two key strategies to improve the prediction accuracy: (i) designing a 3D Earth Specific Transformer (3DEST) architecture that formulates the height (pressure level) information into cubic data, and (ii) applying a hierarchical temporal aggregation algorithm to alleviate cumulative forecast errors. In deterministic forecast, Pangu-Weather shows great advantages for short to medium-range forecast (i.e., forecast time ranges from one hour to one week). Pangu-Weather supports a wide range of downstream forecast scenarios, including extreme weather forecast (e.g., tropical cyclone tracking) and large-member ensemble forecast in real-time. Pangu-Weather not only ends the debate on whether AI-based methods can surpass conventional NWP methods, but also reveals novel directions for improving deep learning weather forecast systems.
翻訳日:2022-11-07 15:52:31 公開日:2022-11-03
# 時間フィードフォワード接続リカレントニューラルネットワークの改良

An Improved Time Feedforward Connections Recurrent Neural Networks ( http://arxiv.org/abs/2211.02561v1 )

ライセンス: Link先を確認
Jin Wang, Yongsong Zou, Se-Jung Lim(参考訳) リカレントニューラルネットワーク(RNN)は洪水予測や財務データ処理といった時間的問題に広く応用されている。 一方、従来のRNNモデルは、厳密な時系列依存性のため勾配問題を増幅し、長期記憶機能を実現するのが困難である。 一方、RNNセルは非常に複雑であり、計算量を大幅に増加させ、モデルトレーニング中に計算資源の無駄を引き起こす。 本稿では,勾配問題に対処するために,tfc-rnns(time feedforward connections recurrent neural networks)モデルを提案する。 時間 t-2 の隠れた状態が時間 t-1 の非線形変換なしに時間 t へ直接転送されるように平行分岐が導入された。 これはRNNの長期依存を改善するのに有効である。 その後、Single Gate Recurrent Unit(SGRU)という新しい細胞構造が提示された。 このセル構造は、RNNセルのパラメータ数を減少させ、計算複雑性を減少させる。 次に、新しいTFC-SGRUモデルとしてSGRUをTFC-RNNに適用することにより、上記の2つの課題を解決する。 最後に,提案したTFC-SGRUの性能を,長期記憶と対干渉機能の観点から検証した。 実験の結果,提案したTFC-SGRUモデルでは,時間ステップ1500で有用な情報を捕捉し,効果的にノイズを除去できることがわかった。 TFC-SGRUモデルの精度は、言語処理能力に関するLSTMやGRUモデルよりも優れている。

Recurrent Neural Networks (RNNs) have been widely applied to deal with temporal problems, such as flood forecasting and financial data processing. On the one hand, traditional RNNs models amplify the gradient issue due to the strict time serial dependency, making it difficult to realize a long-term memory function. On the other hand, RNNs cells are highly complex, which will significantly increase computational complexity and cause waste of computational resources during model training. In this paper, an improved Time Feedforward Connections Recurrent Neural Networks (TFC-RNNs) model was first proposed to address the gradient issue. A parallel branch was introduced for the hidden state at time t-2 to be directly transferred to time t without the nonlinear transformation at time t-1. This is effective in improving the long-term dependence of RNNs. Then, a novel cell structure named Single Gate Recurrent Unit (SGRU) was presented. This cell structure can reduce the number of parameters for RNNs cell, consequently reducing the computational complexity. Next, applying SGRU to TFC-RNNs as a new TFC-SGRU model solves the above two difficulties. Finally, the performance of our proposed TFC-SGRU was verified through several experiments in terms of long-term memory and anti-interference capabilities. Experimental results demonstrated that our proposed TFC-SGRU model can capture helpful information with time step 1500 and effectively filter out the noise. The TFC-SGRU model accuracy is better than the LSTM and GRU models regarding language processing ability.
翻訳日:2022-11-07 15:50:06 公開日:2022-11-03
# LMentry: 基本言語タスクの言語モデルベンチマーク

LMentry: A Language Model Benchmark of Elementary Language Tasks ( http://arxiv.org/abs/2211.02069v1 )

ライセンス: Link先を確認
Avia Efrat, Or Honovich, Omer Levy(参考訳) 大規模言語モデルのパフォーマンスが急速に向上するにつれ、ベンチマークもますます複雑になっています。 例えば、特定の単語を含む文を書いたり、リスト内のどの単語が特定のカテゴリに属するかを特定したり、2つの単語のうちどれが長いかを選択するといった、人間に自明なタスクの集合に焦点を合わせることで、この「武器競争」を避けるベンチマークであるlmentryを提案する。 LMentryは、大規模言語モデルの能力と堅牢性に関する迅速かつ解釈可能な洞察を提供するように設計されている。 実験の結果,人にはすぐにわかるが,OpenAIの最新175Bパラメータ命令調整モデルであるTextDavinci002など,大規模な言語モデルには大きな課題があることがわかった。 LMentryは、大規模な言語モデルの現代的評価アプローチを補完し、複雑なタスクのベンチマークスイートを使わずに、素早く、自動化され、簡単に実行できる「単体テスト」を提供する。

As the performance of large language models rapidly improves, benchmarks are getting larger and more complex as well. We present LMentry, a benchmark that avoids this "arms race" by focusing on a compact set of tasks that are trivial to humans, e.g. writing a sentence containing a specific word, identifying which words in a list belong to a specific category, or choosing which of two words is longer. LMentry is specifically designed to provide quick and interpretable insights into the capabilities and robustness of large language models. Our experiments reveal a wide variety of failure cases that, while immediately obvious to humans, pose a considerable challenge for large language models, including OpenAI's latest 175B-parameter instruction-tuned model, TextDavinci002. LMentry complements contemporary evaluation approaches of large language models, providing a quick, automatic, and easy-to-run "unit test", without resorting to large benchmark suites of complex tasks.
翻訳日:2022-11-07 15:42:38 公開日:2022-11-03
# 言語モデリングにおけるスキル注入の障壁を克服する--算術のケーススタディ

Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic ( http://arxiv.org/abs/2211.02098v1 )

ライセンス: Link先を確認
Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan(参考訳) 伝達学習能力を通じて、高度にパラメータ化された大規模事前学習言語モデルは、下流言語タスクにおいて、NLPのランドスケープを支配してきた。 言語学的に熟練しているが、これらのモデルが非言語的実体(数論と算術的推論)の学習を取り入れられないことは、数値的理解や厳密な数学的推論を必要とするタスクでの使用を制限している。 しかし,本稿で示すように,数学的推論にも熟達した汎用言語モデルの構築は,数値データセット上でのトレーニングほど直接的ではない。 本研究では,言語モデルが言語能力を維持しつつ,数学的に熟達できる新しい枠組みを考案する。 具体的には,非言語的スキルを言語モデルに注入しながら生じる言語スキルの破滅的な忘れを克服するために,情報理論的な介入を行う。

Through their transfer learning abilities, highly-parameterized large pre-trained language models have dominated the NLP landscape for a multitude of downstream language tasks. Though linguistically proficient, the inability of these models to incorporate the learning of non-linguistic entities (numerals and arithmetic reasoning) limits their usage for tasks that require numeric comprehension or strict mathematical reasoning. However, as we illustrate in this paper, building a general purpose language model that also happens to be proficient in mathematical reasoning is not as straight-forward as training it on a numeric dataset. In this work, we develop a novel framework that enables language models to be mathematically proficient while retaining their linguistic prowess. Specifically, we offer information-theoretic interventions to overcome the catastrophic forgetting of linguistic skills that occurs while injecting non-linguistic skills into language models.
翻訳日:2022-11-07 15:42:21 公開日:2022-11-03
# クロスモダリティ勾配調和によるマルチモーダル事前学習のスケーリング

Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization ( http://arxiv.org/abs/2211.02077v1 )

ライセンス: Link先を確認
Junru Wu, Yi Liang, Feng Han, Hassan Akbari, Zhangyang Wang, Cong Yu(参考訳) 自己教師付き事前学習は、最近、大規模なマルチモーダルデータで成功を示しており、最先端のコントラスト学習手法は、ビデオ/オーディオやビデオ/テキストペアのような、モダリティ間の入力から特徴一貫性を強制することが多い。 実際には、形式化と活用が便利であるにもかかわらず、このような相互モダリティアライメント(CMA)は、時間的アライメントであっても2つのモダリティを意味的に誤解することができるため、弱くノイズの多い監視である。 例えば、一般的に採用されている指導ビデオでも、話者は時として現在のフレームに視覚的に存在しないものを参照することができる。 我々は、モダリティ間の矛盾や偏見を引き起こす恐れがあり、従ってCMAがより大きく異質なデータによるトレーニングにスケールアップすることを禁じるかもしれないと推測する。 本論文は,最新のVATT事前学習においても,映像,音声,テキスト三重奏の異なるCMA損失の間には,強い勾配の衝突が生じ,それらが監視のノイズ源であることを示す。 次に、これらの勾配を2つの手法で調和させることを提案する。 (i)クロスモダリティ勾配配向:各試料三重項に対して異なるCMA損失勾配を変更することにより、それらの勾配方向がより整列される。 (ii)グラデーションに基づくカリキュラム学習:サンプル不確かさ指標のグラデーションコンフリクト情報を活用して、よりノイズの少ないサンプル三重項のトレーニングを優先するカリキュラム学習戦略を開発する。 これらのテクニックをHowTo100Mデータセット上のVATTの事前トレーニングに適用することにより、さまざまな下流タスクのパフォーマンスを一貫して改善します。 さらに,vatt事前トレーニングを,より複雑な非ナレーション性youtube8mデータセットにスケールアップすることで,最先端をさらに改善することができる。

Self-supervised pre-training recently demonstrates success on large-scale multimodal data, and state-of-the-art contrastive learning methods often enforce the feature consistency from cross-modality inputs, such as video/audio or video/text pairs. Despite its convenience to formulate and leverage in practice, such cross-modality alignment (CMA) is only a weak and noisy supervision, since two modalities can be semantically misaligned even they are temporally aligned. For example, even in the commonly adopted instructional videos, a speaker can sometimes refer to something that is not visually present in the current frame; and the semantic misalignment would only be more unpredictable for the raw videos from the internet. We conjecture that might cause conflicts and biases among modalities, and may hence prohibit CMA from scaling up to training with larger and more heterogeneous data. This paper first verifies our conjecture by observing that, even in the latest VATT pre-training using only instructional videos, there exist strong gradient conflicts between different CMA losses within the same video, audio, text triplet, indicating them as the noisy source of supervision. We then propose to harmonize such gradients, via two techniques: (i) cross-modality gradient realignment: modifying different CMA loss gradients for each sample triplet, so that their gradient directions are more aligned; and (ii) gradient-based curriculum learning: leveraging the gradient conflict information on an indicator of sample noisiness, to develop a curriculum learning strategy to prioritize training on less noisy sample triplets. Applying those techniques to pre-training VATT on the HowTo100M dataset, we consistently improve its performance on different downstream tasks. Moreover, we are able to scale VATT pre-training to more complicated non-narrative Youtube8M dataset to further improve the state-of-the-arts.
翻訳日:2022-11-07 15:41:44 公開日:2022-11-03
# 木突起を有する変圧器の固有の構成性

Characterizing Intrinsic Compositionality in Transformers with Tree Projections ( http://arxiv.org/abs/2211.01288v2 )

ライセンス: Link先を確認
Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning(参考訳) 言語データに基づいてトレーニングされた場合、トランスフォーマーはアーキテクチャの完全な能力を利用する任意の計算を学習するか、あるいは、人間の言語のような構成的意味システムに根ざした単純な木のような計算を学習するのか? 制限されたボトムアップ計算プロセスに基づく人間の言語理解の構成的説明と、入力の異なる部分間で情報を任意にルーティングできるトランスフォーマーのようなニューラルモデルの巨大な成功との間には、明らかな緊張関係がある。 一つの可能性は、これらのモデルは原則としては極めて柔軟であるが、実際には言語を階層的に解釈することを学び、最終的にボトムアップのツリー構造モデルによって予測可能なものに近い文表現を構築する。 この可能性を評価するために,木構造ネットワークの空間に任意のトランスフォーマーの振る舞いを投影する,教師なしかつパラメータフリーな手法について述べる。 入力文が与えられた場合、変換器の表現構築過程を近似する二分木と、変換器の動作が入力上で「ツリー様」であることを示すスコアを生成する。 このスコアの計算には追加のモデルのトレーニングは必要ないが、変圧器と木構造近似の間の適合性は確実に上界である。 この方法を用いて,3つの異なるタスクに対するトランスフォーマーが,教師なしのパーサーと同じ木を無監督で復元するなど,学習の過程でツリーライクになることを示す。 これらの木はモデル挙動を予測し、より木のようなモデルが合成一般化のテストでより良く一般化される。

When trained on language data, do transformers learn some arbitrary computation that utilizes the full capacity of the architecture or do they learn a simpler, tree-like computation, hypothesized to underlie compositional meaning systems like human languages? There is an apparent tension between compositional accounts of human language understanding, which are based on a restricted bottom-up computational process, and the enormous success of neural models like transformers, which can route information arbitrarily between different parts of their input. One possibility is that these models, while extremely flexible in principle, in practice learn to interpret language hierarchically, ultimately building sentence representations close to those predictable by a bottom-up, tree-structured model. To evaluate this possibility, we describe an unsupervised and parameter-free method to \emph{functionally project} the behavior of any transformer into the space of tree-structured networks. Given an input sentence, we produce a binary tree that approximates the transformer's representation-building process and a score that captures how "tree-like" the transformer's behavior is on the input. While calculation of this score does not require training any additional models, it provably upper-bounds the fit between a transformer and any tree-structured approximation. Using this method, we show that transformers for three different tasks become more tree-like over the course of training, in some cases unsupervisedly recovering the same trees as supervised parsers. These trees, in turn, are predictive of model behavior, with more tree-like models generalizing better on tests of compositional generalization.
翻訳日:2022-11-07 13:31:54 公開日:2022-11-03
# DBS: 分散ディープニューラルネットワークトレーニングのための動的バッチサイズ

DBS: Dynamic Batch Size For Distributed Deep Neural Network Training ( http://arxiv.org/abs/2007.11831v2 )

ライセンス: Link先を確認
Qing Ye, Yuhao Zhou, Mingjia Shi, Yanan Sun, Jiancheng Lv(参考訳) 同期確率勾配降下(s-sgd)やモデル平均化法といったデータ並列性を伴う同期戦略は、ディープニューラルネットワーク(dnn)の分散トレーニングにおいて広く利用されている。 特に、クラスタの各ワーカーは、DNNのコピーとデータセットの均等に分割されたシェアを固定されたミニバッチサイズでホストし、DNNのトレーニングを収束させ続ける。 計算能力の異なる労働者は、ネットワーク伝送の同期や遅延のために他の労働者を待たなければならないが、これは必然的に高性能な労働者が計算を浪費する結果となり、クラスタの利用は比較的低い。 本稿では,DNNの分散学習のための動的バッチサイズ(DBS)戦略を提案する。 具体的には、前回のエポックの事実に基づいて各作業者のパフォーマンスを第一に評価し、その作業者の現在のパフォーマンスを考慮してバッチサイズとデータセット分割を動的に調整し、クラスタの利用を改善する。 提案手法の有効性を検証するため,大規模実験を行い,提案手法がクラスタの性能を十分に活用し,トレーニング時間を短縮し,無関係なタスクによる障害を伴うロバスト性が良好であることを実証した。 さらに,提案手法の収束を証明するため,厳密な理論的解析も行われている。

Synchronous strategies with data parallelism, such as the Synchronous StochasticGradient Descent (S-SGD) and the model averaging methods, are widely utilizedin distributed training of Deep Neural Networks (DNNs), largely owing to itseasy implementation yet promising performance. Particularly, each worker ofthe cluster hosts a copy of the DNN and an evenly divided share of the datasetwith the fixed mini-batch size, to keep the training of DNNs convergence. In thestrategies, the workers with different computational capability, need to wait foreach other because of the synchronization and delays in network transmission,which will inevitably result in the high-performance workers wasting computation.Consequently, the utilization of the cluster is relatively low. To alleviate thisissue, we propose the Dynamic Batch Size (DBS) strategy for the distributedtraining of DNNs. Specifically, the performance of each worker is evaluatedfirst based on the fact in the previous epoch, and then the batch size and datasetpartition are dynamically adjusted in consideration of the current performanceof the worker, thereby improving the utilization of the cluster. To verify theeffectiveness of the proposed strategy, extensive experiments have been conducted,and the experimental results indicate that the proposed strategy can fully utilizethe performance of the cluster, reduce the training time, and have good robustnesswith disturbance by irrelevant tasks. Furthermore, rigorous theoretical analysis hasalso been provided to prove the convergence of the proposed strategy.
翻訳日:2022-11-07 12:14:16 公開日:2022-11-03
# MemoNet:CTR予測のためのマルチハッシュコードブックネットワークによる全横断特徴表現の記憶

MemoNet:Memorizing Representations of All Cross Features Efficiently via Multi-Hash Codebook Network for CTR Prediction ( http://arxiv.org/abs/2211.01334v2 )

ライセンス: Link先を確認
Pengtao Zhang and Junlin Zhang(参考訳) 自然言語処理(NLP)の新たな知見は,強い記憶能力が大きな言語モデルの成功に大きく貢献することを示している。これにより,CTRランキングモデルに独立記憶機構を明示的に導入して,すべてのクロスフィーチャの表現を学習し,記憶することが可能になる。 In this paper,we propose multi-Hash Codebook NETwork(HCNet) as the memory mechanism for efficiently learning and memorizing representations of all cross features in CTR tasks.HCNet uses multi-hash codebook as the main memory place and the whole memory procedure consists of three phases: multi-hash addressing,memory restoring and feature shrinking.HCNet can be regarded as a general module and can be incorporated into any current deep CTR model.We also propose a new CTR model named MemoNet which combines HCNet with a DNN backbone.Extensive experimental results on three public datasets show that MemoNet reaches superior performance over state-of-the-art approaches and validate the effectiveness of HCNet as a strong memory module.Besides, MemoNet shows the prominent feature of big models in NLP,which means we can enlarge the size of codebook in HCNet to sustainably obtain performance gains.Our work demonstrates the importance and feasibility of learning and memorizing representations of all cross features ,which sheds light on a new promising research direction.

New findings in natural language processing(NLP) demonstrate that the strong memorization capability contributes a lot to the success of large language models.This inspires us to explicitly bring an independent memory mechanism into CTR ranking model to learn and memorize all cross features'representations. In this paper,we propose multi-Hash Codebook NETwork(HCNet) as the memory mechanism for efficiently learning and memorizing representations of all cross features in CTR tasks.HCNet uses multi-hash codebook as the main memory place and the whole memory procedure consists of three phases: multi-hash addressing,memory restoring and feature shrinking.HCNet can be regarded as a general module and can be incorporated into any current deep CTR model.We also propose a new CTR model named MemoNet which combines HCNet with a DNN backbone.Extensive experimental results on three public datasets show that MemoNet reaches superior performance over state-of-the-art approaches and validate the effectiveness of HCNet as a strong memory module.Besides, MemoNet shows the prominent feature of big models in NLP,which means we can enlarge the size of codebook in HCNet to sustainably obtain performance gains.Our work demonstrates the importance and feasibility of learning and memorizing representations of all cross features ,which sheds light on a new promising research direction.
翻訳日:2022-11-06 14:47:58 公開日:2022-11-03
# Kuaipedia: 大規模マルチモーダルショートビデオ百科事典

Kuaipedia: a Large-scale Multi-modal Short-video Encyclopedia ( http://arxiv.org/abs/2211.00732v2 )

ライセンス: Link先を確認
Haojie Pan, Yuzhou Zhang, Zepeng Zhai, Ruiji Fu, Ming Liu, Yangqiu Song, Zhongyuan Wang and Bing Qin(参考訳) Wikipediaのようなオンライン百科事典は過去20年間によく開発され研究されてきた。 ウィキアイテムの属性やその他の情報は、ボランティアのコミュニティによって編集されたウィキページで見つけることができる。 しかし、伝統的なテキスト、画像、テーブルはwiki項目のいくつかの側面を表現できない。 例えば、『芝犬』について語るとき、その食べ物を守らないよう『食べ方』や『食べ方』をもっと気にするかもしれない。 現在、ショートビデオプラットフォームはオンラインの世界では目玉となっている。 TikTok、Instagram、Kuaishou、YouTube Shortsでも、ショートビデオアプリは今日のコンテンツの消費方法を変えました。 エンターテイメントのために短いビデオを制作する以外に、あらゆる人生で洞察に富んだ知識を共有する作家が増えている。 これらの短いビデオはナレッジビデオと呼ばれ、消費者がアイテム(例えば芝犬)について知りたがるあらゆる側面(例えば、毛髪やハウツーフィード)を表現でき、それらを系統的に分析し、オンライン百科事典のように整理することができる。 本稿では,中国で有名なショートビデオプラットフォームであるKuaishou(Kwai)の数十億本のビデオから抽出した,アイテム,アスペクト,ショートビデオからなる大規模マルチモーダル百科事典であるKuaipediaを提案する。 まず、複数のソースからアイテムを収集し、数百万のユーザのクエリからユーザ中心のアスペクトをマイニングしてアイテムアスペクトツリーを構築しました。 そこで我々は,「マルチモーダルアイテム-アスペクトリンク」と呼ばれる新しいタスクを提案し,ショートビデオをアイテム-アスペクトペアにリンクし,ショートビデオ・百科事典全体を構築する。 内科的評価は,我々の百科事典は大規模かつ高精度であることを示している。 また、Kuaipediaがエンティティタイピングやエンティティリンクといった基本的なアプリケーションにどのように役立つかを示すために、十分な外部実験も行っています。

Online encyclopedias, such as Wikipedia, have been well-developed and researched in the last two decades. One can find any attributes or other information of a wiki item on a wiki page edited by a community of volunteers. However, the traditional text, images and tables can hardly express some aspects of an wiki item. For example, when we talk about ``Shiba Inu'', one may care more about ``How to feed it'' or ``How to train it not to protect its food''. Currently, short-video platforms have become a hallmark in the online world. Whether you're on TikTok, Instagram, Kuaishou, or YouTube Shorts, short-video apps have changed how we consume and create content today. Except for producing short videos for entertainment, we can find more and more authors sharing insightful knowledge widely across all walks of life. These short videos, which we call knowledge videos, can easily express any aspects (e.g. hair or how-to-feed) consumers want to know about an item (e.g. Shiba Inu), and they can be systematically analyzed and organized like an online encyclopedia. In this paper, we propose Kuaipedia, a large-scale multi-modal encyclopedia consisting of items, aspects, and short videos lined to them, which was extracted from billions of videos of Kuaishou (Kwai), a well-known short-video platform in China. We first collected items from multiple sources and mined user-centered aspects from millions of users' queries to build an item-aspect tree. Then we propose a new task called ``multi-modal item-aspect linking'' as an expansion of ``entity linking'' to link short videos into item-aspect pairs and build the whole short-video encyclopedia. Intrinsic evaluations show that our encyclopedia is of large scale and highly accurate. We also conduct sufficient extrinsic experiments to show how Kuaipedia can help fundamental applications such as entity typing and entity linking.
翻訳日:2022-11-06 14:38:07 公開日:2022-11-03
# ギヤモータの終端試験における産業的ゆらぎ雑音下での音響異常検出特性の検討

Discussion of Features for Acoustic Anomaly Detection under Industrial Disturbing Noise in an End-of-Line Test of Geared Motors ( http://arxiv.org/abs/2211.01716v1 )

ライセンス: Link先を確認
Peter Wissbrock, David Pelkmann, and Yvonne Richter(参考訳) ギヤモータの終端試験では, 製品品質の評価が重要である。 時間的制約と変動量の多様性のため、アコースティック測定は振動測定よりも経済的である。 しかし,音響データは産業騒音の影響を受けている。 そこで本研究の目的は,ギア付モータエンドオブライン試験において異常検出に用いる特徴のロバスト性を検討することである。 典型的な断層と音響障害を持つ実世界のデータセットを音響アレイで記録する。 これには生産からの産業ノイズと、ロバスト性を比較するために使用される体系的な外乱が含まれる。 全体として,対数エンベロープスペクトルから抽出した特徴と心理音響的特徴を併用することを提案する。 この異常除去は、孤立林またはより普遍的な袋詰めランダムマイナーを用いて行う。 ほとんどの外乱は回避できるが、ハンマーや空気圧の使用はしばしば問題を引き起こす。 一般に、これらの結果は音響・振動計測に基づく調音監視作業において重要である。 さらに、一般的なシグナル処理と機械学習タスクを改善するために、実世界の問題記述が提示される。

In the end-of-line test of geared motors, the evaluation of product qual-ity is important. Due to time constraints and the high diversity of variants, acous-tic measurements are more economical than vibration measurements. However, the acoustic data is affected by industrial disturbing noise. Therefore, the aim of this study is to investigate the robustness of features used for anomaly detection in geared motor end-of-line testing. A real-world dataset with typical faults and acoustic disturbances is recorded by an acoustic array. This includes industrial noise from the production and systematically produced disturbances, used to compare the robustness. Overall, it is proposed to apply features extracted from a log-envelope spectrum together with psychoacoustic features. The anomaly de-tection is done by using the isolation forest or the more universal bagging random miner. Most disturbances can be circumvented, while the use of a hammer or air pressure often causes problems. In general, these results are important for condi-tion monitoring tasks that are based on acoustic or vibration measurements. Fur-thermore, a real-world problem description is presented to improve common sig-nal processing and machine learning tasks.
翻訳日:2022-11-04 14:45:04 公開日:2022-11-03
# デモ:le3d: プライバシーを守る軽量データドリフト検出フレームワーク

Demo: LE3D: A Privacy-preserving Lightweight Data Drift Detection Framework ( http://arxiv.org/abs/2211.01827v1 )

ライセンス: Link先を確認
Ioannis Mavromatis and Aftab Khan(参考訳) 本稿では,データの完全性と機密性を保持するための新しいデータドリフト検出フレームワーク le3d を提案する。 LE3Dは、IoT(Internet of Things)センサーデプロイメントにおける新しいドリフト検出メカニズムを評価する一般的なプラットフォームである。 我々のフレームワークは分散的に動作し、データのプライバシを保ちながら、最小限のオンライン再構成を伴う新しいセンサーに適応できる。 我々のフレームワークは現在、時系列IoTデータのための複数のドリフト推定器をサポートしており、新しいデータタイプやドリフト検出機構に容易に対応できるように拡張できる。 このデモでは、現実世界のようなシナリオでle3dの機能を説明します。

This paper presents LE3D; a novel data drift detection framework for preserving data integrity and confidentiality. LE3D is a generalisable platform for evaluating novel drift detection mechanisms within the Internet of Things (IoT) sensor deployments. Our framework operates in a distributed manner, preserving data privacy while still being adaptable to new sensors with minimal online reconfiguration. Our framework currently supports multiple drift estimators for time-series IoT data and can easily be extended to accommodate new data types and drift detection mechanisms. This demo will illustrate the functionality of LE3D under a real-world-like scenario.
翻訳日:2022-11-04 14:44:18 公開日:2022-11-03
# LE3D:資源制約デバイスのためのデータドリフト検出器の軽量アンサンブルフレームワーク

LE3D: A Lightweight Ensemble Framework of Data Drift Detectors for Resource-Constrained Devices ( http://arxiv.org/abs/2211.01840v1 )

ライセンス: Link先を確認
Ioannis Mavromatis and Adrian Sanchez-Mompo and Francesco Raimondo and James Pope and Marcello Bullo and Ingram Weeks and Vijay Kumar and Pietro Carnelli and George Oikonomou and Theodoros Spyridopoulos and Aftab Khan(参考訳) IoT(Internet of Things)センサーのデプロイ数が増加するにつれて、データの整合性が最重要になる。 センサーデータは、良性の原因や悪意のあるアクションによって変更できる。 ドリフトや不規則を検出するメカニズムは、IoTアプリケーションの状態における障害やデータのバイアスを防ぐことができる。 本稿では,センサの異常検出が可能なデータドリフト推定器のアンサンブルフレームワークLE3Dを提案する。 周辺IoTデバイスと連携して作業することで、ドリフトの種類(自然/異常)を特定し、エンドユーザに報告することもできる。 提案されたフレームワークは、リソース制約のあるIoTデバイス上で実行できる軽量で教師なしの実装である。 私たちのフレームワークは、オンライン再構成を最小限にした新しいセンサストリームや環境にも適応しています。 本手法を最先端のデータドリフト検出フレームワークと比較し,実世界の検出精度と実装の資源利用性の評価を行った。 本研究では,実世界のデータとエミュレートドリフトを用いて,検出精度を最大97%まで向上させる手法の有効性を示す。

Data integrity becomes paramount as the number of Internet of Things (IoT) sensor deployments increases. Sensor data can be altered by benign causes or malicious actions. Mechanisms that detect drifts and irregularities can prevent disruptions and data bias in the state of an IoT application. This paper presents LE3D, an ensemble framework of data drift estimators capable of detecting abnormal sensor behaviours. Working collaboratively with surrounding IoT devices, the type of drift (natural/abnormal) can also be identified and reported to the end-user. The proposed framework is a lightweight and unsupervised implementation able to run on resource-constrained IoT devices. Our framework is also generalisable, adapting to new sensor streams and environments with minimal online reconfiguration. We compare our method against state-of-the-art ensemble data drift detection frameworks, evaluating both the real-world detection accuracy as well as the resource utilisation of the implementation. Experimenting with real-world data and emulated drifts, we show the effectiveness of our method, which achieves up to 97% of detection accuracy while requiring minimal resources to run.
翻訳日:2022-11-04 14:44:07 公開日:2022-11-03
# ネットワークウェイトとしてのヒト生理学:超高速シミュレーションのための条件付き生成モデル

Human Biophysics as Network Weights: Conditional Generative Models for Ultra-fast Simulation ( http://arxiv.org/abs/2211.01856v1 )

ライセンス: Link先を確認
Shihan Ma, Alexander Kenneth Clarke, Kostiantyn Maksymenko, Samuel Deslauriers-Gauthier, Xinjun Sheng, Xiangyang Zhu, Dario Farina(参考訳) 生体物理システムのシミュレーションは、人間の生理学の基本的な理解に大きく貢献し、医療機器やヒューマンマシンインタフェースの発達の柱であり続けている。 しかし、その成功にもかかわらず、そのようなシミュレーションは通常、計算に高価な数値モデリングに依存しており、新しいシミュレーションパラメータに適応するにはしばしば非効率である。 これは人間の行動の動的モデル、例えば動く腕の筋肉によって生じる電界のモデリングにおける使用を制限する。 提案手法は条件付き生成モデルを用いて,コストを抑えつつ,基礎となる生成条件間の複雑な関係を学習する手法である。 この概念の実証として,深層潜伏変数モデルの要素と条件付き逆数学習を組み合わせたハイブリッドアーキテクチャであるBioMimeを提案し,既存のデータサンプルを変換して新しいモデリング仮定を反映し,条件付き分布から新しいデータをサンプリングできる生成モデルを構築した。 我々は,BioMimeが人間の筋肉生理学の複雑な数値モデルを正確に模倣し,この知識を用いて動的に変化するシステムからリアルタイムにサンプルを採取できることを実証した。 我々は、条件付き生成モデルを用いた伝達学習アプローチは、任意の数値モデルを持つ動的シミュレーションにとって有効な解であると主張する。

Simulations of biophysical systems have provided a huge contribution to our fundamental understanding of human physiology and remain a central pillar for developments in medical devices and human machine interfaces. However, despite their successes, such simulations usually rely on highly computationally expensive numerical modelling, which is often inefficient to adapt to new simulation parameters. This limits their use in dynamic models of human behavior, for example in modelling the electric fields generated by muscles in a moving arm. We propose the alternative approach to use conditional generative models, which can learn complex relationships between the underlying generative conditions whilst remaining inexpensive to sample from. As a demonstration of this concept, we present BioMime, a hybrid architecture that combines elements of deep latent variable models and conditional adversarial training to construct a generative model that can both transform existing data samples to reflect new modelling assumptions and sample new data from a conditioned distribution. We demonstrate that BioMime can learn to accurately mimic a complex numerical model of human muscle biophysics and then use this knowledge to continuously sample from a dynamically changing system in real-time. We argue that transfer learning approaches with conditional generative models are a viable solution for dynamic simulation with any numerical model.
翻訳日:2022-11-04 14:43:50 公開日:2022-11-03
# ワイヤレスフィンガープリンティングを用いたデバイス識別のための機械学習手法

Machine Learning Methods for Device Identification Using Wireless Fingerprinting ( http://arxiv.org/abs/2211.01963v1 )

ライセンス: Link先を確認
Sr{\dj}an \v{S}obot, Vukan Ninkovi\'c, Dejan Vukobratovi\'c, Milan Pavlovi\'c, Milo\v{s} Radovanovi\'c(参考訳) 産業用モノのインターネット(IoT)システムはますます無線通信標準に依存している。 一般的な産業シナリオでは、屋内無線iotデバイスはアクセスポイントと通信し、産業用センサー、ロボット、工場機械から収集されたデータを提供する。 IoTデバイスの静的または準静的な位置とアクセスポイントのため、IoTデバイスのチャネル条件の歴史的観察により、従来の識別子(MACやIPアドレスなど)を観測せずにデバイスを正確に識別することが可能になる。 近年、重要なIoTインフラストラクチャのためのサイバーセキュリティメカニズムとして、ワイヤレスフィンガープリントに基づくデバイス識別手法が注目されている。 本稿では,最も普及している携帯電話およびWi-FiIoT技術において,無線指紋を用いたデバイス識別のための大規模な機械学習アルゴリズムの体系的研究を行う。 我々は、無線指紋認証によるデバイス識別のための完全なエンドツーエンドソリューション設計の一部として、関連するデータセットを設計、実装、デプロイ、収集し、多数の機械学習アルゴリズムを訓練、テストする。 提案されたソリューションは現在,H2020プロジェクトであるCOLLABSの一部として,現実のIoT環境にデプロイされている。

Industrial Internet of Things (IoT) systems increasingly rely on wireless communication standards. In a common industrial scenario, indoor wireless IoT devices communicate with access points to deliver data collected from industrial sensors, robots and factory machines. Due to static or quasi-static locations of IoT devices and access points, historical observations of IoT device channel conditions provide a possibility to precisely identify the device without observing its traditional identifiers (e.g., MAC or IP address). Such device identification methods based on wireless fingerprinting gained increased attention lately as an additional cyber-security mechanism for critical IoT infrastructures. In this paper, we perform a systematic study of a large class of machine learning algorithms for device identification using wireless fingerprints for the most popular cellular and Wi-Fi IoT technologies. We design, implement, deploy, collect relevant data sets, train and test a multitude of machine learning algorithms, as a part of the complete end-to-end solution design for device identification via wireless fingerprinting. The proposed solution is currently being deployed in a real-world industrial IoT environment as part of H2020 project COLLABS.
翻訳日:2022-11-04 14:43:29 公開日:2022-11-03
# 埋め込みとエミュレーション:不確実性定量化を用いた力学系のパラメータ推定学習

Embed and Emulate: Learning to estimate parameters of dynamical systems with uncertainty quantification ( http://arxiv.org/abs/2211.01554v1 )

ライセンス: Link先を確認
Ruoxi Jiang, Rebecca Willett(参考訳) 本稿では,高次元力学系の不確実性推定を伴うパラメータ推定のための学習エミュレータについて検討する。 候補パラメータを入力し、対応するマルチチャネル時系列を出力する計算複雑なシミュレータへのアクセスを想定する。 私たちのタスクは、基礎となるパラメータの可能性のある値の範囲を正確に見積もることです。 標準的な反復的アプローチはシミュレータを何度も実行する必要がある。 本稿では,パラメータ推定のための高コストシミュレータを置き換えるエミュレータとともに,観測力学の特徴埋め込みを学習するための新しいフレームワークについて述べる。 対照的な学習手法を用いることで,本手法はパラメータと軌道領域間の固有データ特性を利用する。 396次元多スケールロレンツ96系において,本手法は,事前定義されたメトリックスと古典数値シミュレータに基づく典型的なパラメータ推定法を著しく上回り,ベースラインの計算時間の1.19%しか持たない。 アブレーション研究は、コントラスト学習を利用したパラメータ推定のための学習エミュレータを明示的に設計する可能性を強調している。

This paper explores learning emulators for parameter estimation with uncertainty estimation of high-dimensional dynamical systems. We assume access to a computationally complex simulator that inputs a candidate parameter and outputs a corresponding multichannel time series. Our task is to accurately estimate a range of likely values of the underlying parameters. Standard iterative approaches necessitate running the simulator many times, which is computationally prohibitive. This paper describes a novel framework for learning feature embeddings of observed dynamics jointly with an emulator that can replace high-cost simulators for parameter estimation. Leveraging a contrastive learning approach, our method exploits intrinsic data properties within and across parameter and trajectory domains. On a coupled 396-dimensional multiscale Lorenz 96 system, our method significantly outperforms a typical parameter estimation method based on predefined metrics and a classical numerical simulator, and with only 1.19% of the baseline's computation time. Ablation studies highlight the potential of explicitly designing learned emulators for parameter estimation by leveraging contrastive learning.
翻訳日:2022-11-04 14:38:28 公開日:2022-11-03
# 合成制御重量はバランスをとるか?

Are Synthetic Control Weights Balancing Score? ( http://arxiv.org/abs/2211.01575v1 )

ライセンス: Link先を確認
Harsh Parikh(参考訳) 本稿では,Synthetic Control (SC) の重み付けがランダム化制御試験をエミュレートする条件について概説する。 具体的には、もしそのようなSC重みが存在するなら、 (i)治療効果が正確に特定され、 (II)これらの重みは一様かつ累積的に有界であり、SC重みはスコアのバランスをとる。

In this short note, I outline conditions under which conditioning on Synthetic Control (SC) weights emulates a randomized control trial where the treatment status is independent of potential outcomes. Specifically, I demonstrate that if there exist SC weights such that (i) the treatment effects are exactly identified and (ii) these weights are uniformly and cumulatively bounded, then SC weights are balancing scores.
翻訳日:2022-11-04 14:38:09 公開日:2022-11-03
# 攻撃を避けるために: 医療用iomtシステムのための連合データ衛生防御

Try to Avoid Attacks: A Federated Data Sanitization Defense for Healthcare IoMT Systems ( http://arxiv.org/abs/2211.01592v1 )

ライセンス: Link先を確認
Chong Chen, Ying Gao, Leyu Shi, Siquan Huang(参考訳) ヘルスケアのIoMTシステムは、インテリジェントで、小型化され、日常生活に統合されつつある。 iomtの分散デバイスに関しては、データセキュリティを満たす際に、連合学習はクラウドベースのトレーニング手順を伴うトピック領域となっている。 しかし、IoMTの分布はデータ中毒攻撃から保護される危険性がある。 投薬されたデータは医療データを偽造することで製造され、IoMTシステムへのセキュリティ防衛を促す。 特定のラベルがないため、悪意のあるデータのフィルタリングはユニークな教師なしのシナリオである。 主な課題の1つは、様々な中毒攻撃に対する堅牢なデータフィルタリング方法を見つけることである。 本稿では,データ中毒攻撃からシステムを守るための新しい手法であるフェデレートデータ衛生防御を提案する。 この教師なしの問題を解決するために、我々はまずフェデレーション学習を用いて全てのデータをサブスペース領域に投影し、データをローカルに格納しているため、統一された特徴マッピングを確立する。 次に、フェデレーションクラスタリングを採用し、その特徴を再分類し、有毒データを明らかにする。 クラスタリングは、データの一貫性のある関連付けとそのセマンティクスに基づいている。 プライベートデータのクラスタリングが得られた後、シンプルで効率的な戦略でデータのサニタイズを行います。 最終的に、分散ImOTの各デバイスは、フェデレートされたデータ衛生化に従って悪意のあるデータをフィルタリングすることができる。 データ中毒に対する防御法の有効性を評価するため,広範囲な実験を行った。 さらに, 異なる毒素比のアプローチを考慮し, 高い精度と低攻撃成功率を実現している。

Healthcare IoMT systems are becoming intelligent, miniaturized, and more integrated into daily life. As for the distributed devices in the IoMT, federated learning has become a topical area with cloud-based training procedures when meeting data security. However, the distribution of IoMT has the risk of protection from data poisoning attacks. Poisoned data can be fabricated by falsifying medical data, which urges a security defense to IoMT systems. Due to the lack of specific labels, the filtering of malicious data is a unique unsupervised scenario. One of the main challenges is finding robust data filtering methods for various poisoning attacks. This paper introduces a Federated Data Sanitization Defense, a novel approach to protect the system from data poisoning attacks. To solve this unsupervised problem, we first use federated learning to project all the data to the subspace domain, allowing unified feature mapping to be established since the data is stored locally. Then we adopt the federated clustering to re-group their features to clarify the poisoned data. The clustering is based on the consistent association of data and its semantics. After we get the clustering of the private data, we do the data sanitization with a simple yet efficient strategy. In the end, each device of distributed ImOT is enabled to filter malicious data according to federated data sanitization. Extensive experiments are conducted to evaluate the efficacy of the proposed defense method against data poisoning attacks. Further, we consider our approach in the different poisoning ratios and achieve a high Accuracy and a low attack success rate.
翻訳日:2022-11-04 14:38:03 公開日:2022-11-03
# 非マルコフ環境における強化学習

Reinforcement Learning in Non-Markovian Environments ( http://arxiv.org/abs/2211.01595v1 )

ライセンス: Link先を確認
Siddharth Chandak, Vivek S Borkar, Parth Dodhia(参考訳) 任意の非マルコフ環境における強化学習のためのファン・ロイと共著者によって開発された新しいパラダイムに従い、古典的確率制御に触発された関連する定式化を提案する。

Following the novel paradigm developed by Van Roy and coauthors for reinforcement learning in arbitrary non-Markovian environments, we propose a related formulation inspired by classical stochastic control that reduces the problem to recursive computation of approximate sufficient statistics.
翻訳日:2022-11-04 14:37:43 公開日:2022-11-03
# 適応混合モデルを用いたタンデム信号処理によるゲノム信号の分類

Using Signal Processing in Tandem With Adapted Mixture Models for Classifying Genomic Signals ( http://arxiv.org/abs/2211.01603v1 )

ライセンス: Link先を確認
Saish Jaiswal, Shreya Nema, Hema A Murthy, Manikandan Narayanan(参考訳) ゲノムシグナル処理はバイオインフォマティクスにおいて、生体分子配列を分析し、DNA構造、遺伝子構造、タンパク質結合、配列の進化など、様々な知見を得るのに成功している。 しかし、特に複数の可変長配列を一貫して扱う必要がある場合、生体分子配列の適切なスペクトル表現を見つけることが課題である。 本研究では,ゲノム配列を異なる分類単位(ストレイン,フィラ,秩序など)に分類する,十分に検討された問題の文脈において,この課題に対処する。 本稿では,ガウス混合モデルを用いて信号処理を行い,系列のスペクトル表現を改善し,分類学的分類の精度を向上させる新しい手法を提案する。 配列はまずスペクトルに変換され、サブ空間に投影され、異なるタクソンに属する配列はより識別しやすい。 本手法は,確立されたベンチマークデータセットにおける同様の最先端手法を6.06%の精度で絶対マージンで上回っている。

Genomic signal processing has been used successfully in bioinformatics to analyze biomolecular sequences and gain varied insights into DNA structure, gene organization, protein binding, sequence evolution, etc. But challenges remain in finding the appropriate spectral representation of a biomolecular sequence, especially when multiple variable-length sequences need to be handled consistently. In this study, we address this challenge in the context of the well-studied problem of classifying genomic sequences into different taxonomic units (strain, phyla, order, etc.). We propose a novel technique that employs signal processing in tandem with Gaussian mixture models to improve the spectral representation of a sequence and subsequently the taxonomic classification accuracies. The sequences are first transformed into spectra, and projected to a subspace, where sequences belonging to different taxons are better distinguishable. Our method outperforms a similar state-of-the-art method on established benchmark datasets by an absolute margin of 6.06% accuracy.
翻訳日:2022-11-04 14:37:36 公開日:2022-11-03
# 雑音中の深層音声認識に対する敵対的攻撃検出のための領域特徴の活用

Leveraging Domain Features for Detecting Adversarial Attacks Against Deep Speech Recognition in Noise ( http://arxiv.org/abs/2211.01621v1 )

ライセンス: Link先を確認
Christian Heider Nielsen and Zheng-Hua Tan(参考訳) 近年,深層モデルに基づく音声認識 (ASR) において顕著な進歩が見られ,現実世界に広く展開されている。 同時に、深層asrシステムに対する敵対的な攻撃は非常に成功した。 これらの攻撃からASRシステムを守る様々な方法が提案されている。 しかし、既存の分類に基づく手法は、ドメイン固有の特徴の探索を欠いた深層学習モデルの設計に焦点を当てている。 この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。 さらに,敵対的攻撃を検出するために音声と非音声を別々に使用する可能性について分析した。 最後に,asrシステムの配置環境が悪くなることを考慮し,各種の音響ノイズと信号対雑音比の影響について検討した。 広範に実験した結果, 逆フィルタバンクの特性は, 清浄環境と騒音環境の両方において良好であり, 検出は音声と非音声の両方で有効であり, 音響ノイズは検出性能を著しく低下させることができることがわかった。

In recent years, significant progress has been made in deep model-based automatic speech recognition (ASR), leading to its widespread deployment in the real world. At the same time, adversarial attacks against deep ASR systems are highly successful. Various methods have been proposed to defend ASR systems from these attacks. However, existing classification based methods focus on the design of deep learning models while lacking exploration of domain specific features. This work leverages filter bank-based features to better capture the characteristics of attacks for improved detection. Furthermore, the paper analyses the potentials of using speech and non-speech parts separately in detecting adversarial attacks. In the end, considering adverse environments where ASR systems may be deployed, we study the impact of acoustic noise of various types and signal-to-noise ratios. Extensive experiments show that the inverse filter bank features generally perform better in both clean and noisy environments, the detection is effective using either speech or non-speech part, and the acoustic noise can largely degrade the detection performance.
翻訳日:2022-11-04 14:37:21 公開日:2022-11-03
# 騒音による切削:機械故障検出のための心理音響的特徴とエンベロープ的特徴の実証比較

Cutting Through the Noise: An Empirical Comparison of Psychoacoustic and Envelope-based Features for Machinery Fault Detection ( http://arxiv.org/abs/2211.01704v1 )

ライセンス: Link先を確認
Peter Wi{\ss}brock, Yvonne Richter, David Pelkmann, Zhao Ren, Gregory Palmer(参考訳) 音響に基づく断層検出は機械部品の健康状態を監視する可能性が高い。 しかし,産業環境の背景雑音は断層検出性能に悪影響を及ぼす可能性がある。 産業環境騒音に対する断層検出の堅牢性向上に限定的な注意が払われている。 そこで,本研究では,lbn(lenze production background-noise)実世界データセットと,arai(automated and noise-robust hearing inspection)システムを提案する。 アコースティックアレイは、マイナーな故障、主要な故障、または健康なモータからデータを取得するために使用される。 ベンチマークは、精神音響特性と、ギアボックスのエキスパート知識に基づいて異なるタイプの封筒特徴を比較するために提供される。 我々の知る限りでは、我々は初めて時間変化の心理音響的特徴を断層検出に適用した。 我々は、健康なモータのサンプルに基づいて最先端の1クラス分類器を訓練し、しきい値を用いて故障検出のための欠陥を分離する。 最も優れたアプローチは、0.87(対数包絡)、0.86(時変精神音響)、 0.91(両者の結合)の曲線下領域を達成する。

Acoustic-based fault detection has a high potential to monitor the health condition of mechanical parts. However, the background noise of an industrial environment may negatively influence the performance of fault detection. Limited attention has been paid to improving the robustness of fault detection against industrial environmental noise. Therefore, we present the Lenze production background-noise (LPBN) real-world dataset and an automated and noise-robust auditory inspection (ARAI) system for the end-of-line inspection of geared motors. An acoustic array is used to acquire data from motors with a minor fault, major fault, or which are healthy. A benchmark is provided to compare the psychoacoustic features with different types of envelope features based on expert knowledge of the gearbox. To the best of our knowledge, we are the first to apply time-varying psychoacoustic features for fault detection. We train a state-of-the-art one-class-classifier, on samples from healthy motors and separate the faulty ones for fault detection using a threshold. The best-performing approaches achieve an area under curve of 0.87 (logarithm envelope), 0.86 (time-varying psychoacoustics), and 0.91 (combination of both).
翻訳日:2022-11-04 14:37:06 公開日:2022-11-03
# 非凸有限サム最小化に対する適応確率的分散低減

Adaptive Stochastic Variance Reduction for Non-convex Finite-Sum Minimization ( http://arxiv.org/abs/2211.01851v1 )

ライセンス: Link先を確認
Ali Kavis, Stratis Skoulakis, Kimon Antonakopoulos, Leello Tadesse Dadi, Volkan Cevher(参考訳) 有限サム構造をもつ非凸関数である$L$-smooth を最小化するための適応分散還元法 AdaSpider を提案する。 本質的に、adaspider はadagrad にインスパイアされた [duchi et al., 2011, mcmahan & streeter, 2010] を組み合わせるが、[fang et al., 2018] で提案された再帰的確率的経路統合推定子とかなり異なる適応的なステップサイズスケジュールを組み合わせる。 我々の知る限り、Adaspiderはスムーズネス定数$L$、目標精度$\epsilon$、勾配ノルム上の任意の境界といった問題依存パラメータの知識を必要としないという意味で、最初のパラメータフリーな非凸分散還元法である。 そうすることで、$\epsilon$-stationary point を $\tilde{O}\left(n + \sqrt{n}/\epsilon^2\right)$ oracle-calls で計算できる。

We propose an adaptive variance-reduction method, called AdaSpider, for minimization of $L$-smooth, non-convex functions with a finite-sum structure. In essence, AdaSpider combines an AdaGrad-inspired [Duchi et al., 2011, McMahan & Streeter, 2010], but a fairly distinct, adaptive step-size schedule with the recursive stochastic path integrated estimator proposed in [Fang et al., 2018]. To our knowledge, Adaspider is the first parameter-free non-convex variance-reduction method in the sense that it does not require the knowledge of problem-dependent parameters, such as smoothness constant $L$, target accuracy $\epsilon$ or any bound on gradient norms. In doing so, we are able to compute an $\epsilon$-stationary point with $\tilde{O}\left(n + \sqrt{n}/\epsilon^2\right)$ oracle-calls, which matches the respective lower bound up to logarithmic factors.
翻訳日:2022-11-04 14:30:45 公開日:2022-11-03
# 差分プライバシーによるハイパーパラメータチューニングの再検討

Revisiting Hyperparameter Tuning with Differential Privacy ( http://arxiv.org/abs/2211.01852v1 )

ライセンス: Link先を確認
Youlong Ding and Xueyang Wu(参考訳) ハイパーパラメータチューニングは機械学習の応用において一般的なプラクティスであるが、全体的なプライバシパラメータに負の影響があるため、プライバシ保存機械学習に関する文献では一般的に無視される側面である。 本稿では,差分プライバシーを備えた効果的なハイパーパラメータチューニングフレームワークを提供することで,この根本的な課題に取り組むことを目的とする。 提案手法では,ハイパーパラメータ候補数に依存しないプライバシ損失パラメータを用いることで,広義のハイパーパラメータ探索空間を採用し,空間全体にわたってグリッド検索を行うことも可能である。 興味深いことに、ハイパーパラメータ検索から得られるユーティリティと相関し、プライバシとユーティリティの間の明示的かつ強制的なトレードオフを明らかにする。 理論的には、ハイパーパラメータチューニングによって引き起こされる追加のプライバシー損失は、取得したユーティリティの平方根によって上限される。 しかし、追加のプライバシー損失は、ユーティリティ用語の対数の二乗根のように経験的にスケールし、二重化ステップの設計の恩恵を受けることに注意する。

Hyperparameter tuning is a common practice in the application of machine learning but is a typically ignored aspect in the literature on privacy-preserving machine learning due to its negative effect on the overall privacy parameter. In this paper, we aim to tackle this fundamental yet challenging problem by providing an effective hyperparameter tuning framework with differential privacy. The proposed method allows us to adopt a broader hyperparameter search space and even to perform a grid search over the whole space, since its privacy loss parameter is independent of the number of hyperparameter candidates. Interestingly, it instead correlates with the utility gained from hyperparameter searching, revealing an explicit and mandatory trade-off between privacy and utility. Theoretically, we show that its additional privacy loss bound incurred by hyperparameter tuning is upper-bounded by the squared root of the gained utility. However, we note that the additional privacy loss bound would empirically scale like a squared root of the logarithm of the utility term, benefiting from the design of doubling step.
翻訳日:2022-11-04 14:30:17 公開日:2022-11-03
# 分散合成最適化のための高速適応運動量ベースフェデレート法

Faster Adaptive Momentum-Based Federated Methods for Distributed Composition Optimization ( http://arxiv.org/abs/2211.01883v1 )

ライセンス: Link先を確認
Feihu Huang(参考訳) 合成最適化は最近、メタ学習や強化学習など、多くの機械学習アプリケーションに現れる。 近年,多くの合成最適化アルゴリズムが提案・研究されているが,分散設定下での合成最適化を考える適応アルゴリズムはほとんどない。 一方, 既存の分散構成最適化手法は, 高サンプル化と通信複雑化に苦しむ。 そこで本論文では,運動量に基づく分散分散と局所sgd法に基づく非凸分散合成問題を解くために,より高速な運動量に基づくフェデレーション勾配降下アルゴリズム(mfcgdとadamfcgd)を開発した。 特に,適応型アルゴリズム (adamfcgd) では,適応型行列を用いて様々な適応型学習率を柔軟に組み込む。 さらに,非i.i.d.条件下でのアルゴリズムの強固な理論的解析を行い,既存のフェデレーション合成アルゴリズムよりも低いサンプルと通信の複雑度を同時に得ることを証明した。 特に、我々のアルゴリズムは、$\epsilon$-stationary pointを見つける際に$\tilde{o}(\epsilon^{-3})$のサンプル複雑性と$\tilde{o}(\epsilon^{-2})$の通信複雑さを得る。 我々は,アルゴリズムの効率性を示すために,堅牢なフェデレーション学習と分散メタ学習タスクの実験を行った。

Composition optimization recently appears in many machine learning applications such as meta learning and reinforcement learning. Recently many composition optimization algorithms have been proposed and studied, however, few adaptive algorithm considers the composition optimization under the distributed setting. Meanwhile, the existing distributed composition optimization methods still suffer from high sample and communication complexities. In the paper, thus, we develop a class of faster momentum-based federated compositional gradient descent algorithms (i.e., MFCGD and AdaMFCGD) to solve the nonconvex distributed composition problems, which builds on the momentum-based variance reduced and local-SGD techniques. In particular, our adaptive algorithm (i.e., AdaMFCGD) uses a unified adaptive matrix to flexibly incorporate various adaptive learning rates. Moreover, we provide a solid theoretical analysis for our algorithms under non-i.i.d. setting, and prove our algorithms obtain a lower sample and communication complexities simultaneously than the existing federated compositional algorithms. Specifically, our algorithms obtain lower sample complexity of $\tilde{O}(\epsilon^{-3})$ with lower communication complexity of $\tilde{O}(\epsilon^{-2})$ in finding an $\epsilon$-stationary point. We conduct the experiments on robust federated learning and distributed meta learning tasks to demonstrate efficiency of our algorithms.
翻訳日:2022-11-04 14:29:59 公開日:2022-11-03
# 有刺木を用いた火星電離層電子密度予測

Martian Ionosphere Electron Density Prediction Using Bagged Trees ( http://arxiv.org/abs/2211.01902v1 )

ライセンス: Link先を確認
Abdollah Masoud Darya, Noora Alameri, Muhammad Mubasshir Shaikh, Ilias Fernini(参考訳) 火星のいくつかのミッションで提供された火星の大気データは、火星の電離圏の状況を調査し研究する機会を広げた。 このように、電離圏モデルは、異なる空間的、時間的、宇宙的な気象条件に応じて、電離圏の挙動を理解する上で重要な役割を果たす。 この研究は、機械学習を用いて火星の電離圏の電子密度予測モデルを構築する試みである。 このモデルは、太陽の天頂にある電離圏を70度から90度の範囲でターゲットとし、火星の地球測量衛星の観測のみを利用する。 異なる機械学習手法の性能を, 根平均二乗誤差, 決定係数, 平均絶対誤差の観点から比較した。 評価した手法のうち,袋入り回帰木法が最良であった。 さらに、最適化された袋入り回帰木モデルは、ピーク電子密度値とピーク密度高さを根-平均二乗誤差と平均絶対誤差の点で求めた文献(miriとnemars)の他の火星電離圏モデルよりも優れていた。

The availability of Martian atmospheric data provided by several Martian missions broadened the opportunity to investigate and study the conditions of the Martian ionosphere. As such, ionospheric models play a crucial part in improving our understanding of ionospheric behavior in response to different spatial, temporal, and space weather conditions. This work represents an initial attempt to construct an electron density prediction model of the Martian ionosphere using machine learning. The model targets the ionosphere at solar zenith ranging from 70 to 90 degrees, and as such only utilizes observations from the Mars Global Surveyor mission. The performance of different machine learning methods was compared in terms of root mean square error, coefficient of determination, and mean absolute error. The bagged regression trees method performed best out of all the evaluated methods. Furthermore, the optimized bagged regression trees model outperformed other Martian ionosphere models from the literature (MIRI and NeMars) in finding the peak electron density value, and the peak density height in terms of root-mean-square error and mean absolute error.
翻訳日:2022-11-04 14:29:36 公開日:2022-11-03
# 部分的可観測性に基づく学習のための完全可観測ポリシーの活用

Leveraging Fully Observable Policies for Learning under Partial Observability ( http://arxiv.org/abs/2211.01991v1 )

ライセンス: Link先を確認
Hai Nguyen, Andrea Baisero, Dian Wang, Christopher Amato, Robert Platt(参考訳) 半可観測領域における強化学習は、可観測状態情報の欠如により困難である。 ありがたいことに、そのような状態情報を持つシミュレータでオフラインで学ぶことは、しばしば可能である。 特に,オフライントレーニング中に完全に観測可能なポリシ(状態エキスパートと呼ぶ)を使用して,オンラインパフォーマンスを改善する部分観測型強化学習手法を提案する。 エージェントは,Soft Actor-Critic (SAC)に基づいて,状態エキスパートと同じような動作のバランスをとり,部分観測可能性の下で高いリターンを得る。 当社のアプローチは、部分的可観測性の下で学べながら、完全な可観測性を持つ領域の探索と領域の一部に対して、完全な可観測性ポリシを活用することができます。 6つのロボティクス領域において,本手法は,純粋模倣,純粋強化学習,両タイプの逐次的あるいは並列結合,最新の最先端手法を同じ設定で上回っている。 画素からの操作タスクにおける物理ロボットへのポリシー伝達の成功は、部分的可観測性の下で興味深いポリシーを学習する際の我々のアプローチの実践性を示している。

Reinforcement learning in partially observable domains is challenging due to the lack of observable state information. Thankfully, learning offline in a simulator with such state information is often possible. In particular, we propose a method for partially observable reinforcement learning that uses a fully observable policy (which we call a state expert) during offline training to improve online performance. Based on Soft Actor-Critic (SAC), our agent balances performing actions similar to the state expert and getting high returns under partial observability. Our approach can leverage the fully-observable policy for exploration and parts of the domain that are fully observable while still being able to learn under partial observability. On six robotics domains, our method outperforms pure imitation, pure reinforcement learning, the sequential or parallel combination of both types, and a recent state-of-the-art method in the same setting. A successful policy transfer to a physical robot in a manipulation task from pixels shows our approach's practicality in learning interesting policies under partial observability.
翻訳日:2022-11-04 14:29:15 公開日:2022-11-03
# NaRPA: 宇宙飛行士のためのナビゲーションとレンダリングパイプライン

NaRPA: Navigation and Rendering Pipeline for Astronautics ( http://arxiv.org/abs/2211.01566v1 )

ライセンス: Link先を確認
Roshan Thomas Eapen, Ramchander Rao Bhaskara, Manoranjan Majji(参考訳) 本稿では,宇宙画像のための光輸送をモデル化しシミュレートする,新しいレイトレーシングベースのコンピュータグラフィックスエンジンnarpa(navigation and rendering pipeline for astronautics)を提案する。 NaRPAは、宇宙空間と地上空間の仮想観測を合成するために、大気やシェーディング効果に注意を向けた照明モデルを組み込んでいる。 画像レンダリングに加えて、エンジンには点雲、深度、輪郭マップの生成能力があり、受動的かつアクティブな視覚ベースのセンサーをシミュレートし、視覚ナビゲーションアルゴリズムの設計、テスト、検証を容易にする。 NaRPAの物理ベースレンダリング機能と提案アルゴリズムの有効性を,代表的空間ベース環境における応用を用いて実証した。 鍵となるデモンストレーションは、立体画像を生成するツールとしてNaRPAを含み、三角測量を用いた3次元座標推定に応用する。 NaRPAのもう一つの顕著な応用は、視覚に基づくナビゲーションとガイダンス操作をシミュレートするためのNaRPAエンジンの有効性を強調するために、画像ベースの姿勢推定のための新しい微分可能なレンダリング手法を提案することである。

This paper presents Navigation and Rendering Pipeline for Astronautics (NaRPA) - a novel ray-tracing-based computer graphics engine to model and simulate light transport for space-borne imaging. NaRPA incorporates lighting models with attention to atmospheric and shading effects for the synthesis of space-to-space and ground-to-space virtual observations. In addition to image rendering, the engine also possesses point cloud, depth, and contour map generation capabilities to simulate passive and active vision-based sensors and to facilitate the designing, testing, or verification of visual navigation algorithms. Physically based rendering capabilities of NaRPA and the efficacy of the proposed rendering algorithm are demonstrated using applications in representative space-based environments. A key demonstration includes NaRPA as a tool for generating stereo imagery and application in 3D coordinate estimation using triangulation. Another prominent application of NaRPA includes a novel differentiable rendering approach for image-based attitude estimation is proposed to highlight the efficacy of the NaRPA engine for simulating vision-based navigation and guidance operations.
翻訳日:2022-11-04 14:28:59 公開日:2022-11-03
# u-netネットワークを用いたmri画像の効率的な脳腫瘍分割

Using U-Net Network for Efficient Brain Tumor Segmentation in MRI Images ( http://arxiv.org/abs/2211.01885v1 )

ライセンス: Link先を確認
Jason Walsh, Alice Othmani, Mayank Jain, and Soumyabrata Dev(参考訳) 磁気共鳴イメージング(MRI)は、医用画像取得において最も一般的に用いられる非侵襲的手法である。 脳腫瘍の分節は、脳mriスキャンで腫瘍をアルゴリズム的に同定するプロセスである。 脳腫瘍セグメンテーションの文献では,多くのアプローチが提案されているが,本論文では,U-Netの軽量実装を提案する。 MRIスキャンのリアルタイムセグメンテーションを提供する以外に、提案した軽量U-Netのトレーニングには大量のデータを必要としない。 さらに、追加のデータ拡張ステップは不要である。 軽量なU-NetはBITEデータセット上で非常に有望な結果を示し、標準ベンチマークアルゴリズムを上回り89%の平均交叉結合(IoU)を達成する。 さらに、本研究では、脳腫瘍の単純な分割のために、元の3次元ボリューム画像の代わりに、3つの視点平面を効果的に利用することを示す。

Magnetic Resonance Imaging (MRI) is the most commonly used non-intrusive technique for medical image acquisition. Brain tumor segmentation is the process of algorithmically identifying tumors in brain MRI scans. While many approaches have been proposed in the literature for brain tumor segmentation, this paper proposes a lightweight implementation of U-Net. Apart from providing real-time segmentation of MRI scans, the proposed architecture does not need large amount of data to train the proposed lightweight U-Net. Moreover, no additional data augmentation step is required. The lightweight U-Net shows very promising results on BITE dataset and it achieves a mean intersection-over-union (IoU) of 89% while outperforming the standard benchmark algorithms. Additionally, this work demonstrates an effective use of the three perspective planes, instead of the original three-dimensional volumetric images, for simplified brain tumor segmentation.
翻訳日:2022-11-04 14:28:40 公開日:2022-11-03
# 超音波による乳房質量分類器の選択のための深部メタラーニング

Deep meta-learning for the selection of accurate ultrasound based breast mass classifier ( http://arxiv.org/abs/2211.01892v1 )

ライセンス: Link先を確認
Michal Byra, Piotr Karwat, Ivan Ryzhankow, Piotr Komorowski, Ziemowit Klimonda, Lukasz Fura, Anna Pawlowska, Norbert Zolek, Jerzy Litniewski(参考訳) 超音波(US)において,手作り形態およびテクスチャの特徴に基づく標準分類法は乳房の質量分化において良好な性能を示した。 ディープニューラルネットワーク(一般に「ブラックボックス」モデルと認識される)と比較して、古典的手法は医学的および物理的解釈がよく理解されている特徴に基づいている。 しかし, 形態的特徴に基づく分類器は, シャドーイングアーティファクトや未定義のマス境界の存在下では, 一般的には不十分であり, テクスチャベースの分類器は, ノイズが多すぎると故障する可能性がある。 したがって、実際には、特定の米国画像の外観に基づいて分類法を選択することは有益である。 本研究では,入力された乳房質量US画像を自動的に処理できる深層メタネットワークを開発し,乳房質量分化のための形状やテクスチャに基づく分類器の適用を推奨する。 予備結果は,手作りの特徴に基づく標準分類器の性能向上にメタラーニング技術が有効であることを示す。 メタラーニングに基づくアプローチにより、受信者の動作特性曲線0.95と精度0.91の領域を達成できた。

Standard classification methods based on handcrafted morphological and texture features have achieved good performance in breast mass differentiation in ultrasound (US). In comparison to deep neural networks, commonly perceived as "black-box" models, classical techniques are based on features that have well-understood medical and physical interpretation. However, classifiers based on morphological features commonly underperform in the presence of the shadowing artifact and ill-defined mass borders, while texture based classifiers may fail when the US image is too noisy. Therefore, in practice it would be beneficial to select the classification method based on the appearance of the particular US image. In this work, we develop a deep meta-network that can automatically process input breast mass US images and recommend whether to apply the shape or texture based classifier for the breast mass differentiation. Our preliminary results demonstrate that meta-learning techniques can be used to improve the performance of the standard classifiers based on handcrafted features. With the proposed meta-learning based approach, we achieved the area under the receiver operating characteristic curve of 0.95 and accuracy of 0.91.
翻訳日:2022-11-04 14:28:25 公開日:2022-11-03
# MarginNCE: 負のマージンによるロバストな音像定位

MarginNCE: Robust Sound Localization with a Negative Margin ( http://arxiv.org/abs/2211.01966v1 )

ライセンス: Link先を確認
Sooyoung Park, Arda Senocak, Joon Son Chung(参考訳) この研究の目的は、視覚シーンの音源を自己監視アプローチでローカライズすることである。 音源定位の文脈におけるコントラスト学習は、同じ音源からの音声と視覚のペアを正と仮定する音声と視覚信号の自然な対応を利用しており、ランダムに選択されたペアは負である。 しかし、このアプローチはノイズの多い対応をもたらし、例えば、互いに無関係な正の音声と視覚のペア信号、あるいは正のペアと意味論的に類似したサンプルを含む負のペアなどである。 この研究における重要な貢献は、コントラスト学習におけるより厳密な決定境界を用いることで、音源定位における雑音対応の効果を緩和できることである。 我々は,コントラスト損失を負のマージンでわずかに修正することにより,単純かつ効果的なアプローチを提案する。 実験結果から,本手法は最先端手法よりも高い性能を示した。 さらに,既存の手法に負のマージンを導入することで,性能が一貫した改善をもたらすことを示す。

The goal of this work is to localize sound sources in visual scenes with a self-supervised approach. Contrastive learning in the context of sound source localization leverages the natural correspondence between audio and visual signals where the audio-visual pairs from the same source are assumed as positive, while randomly selected pairs are negatives. However, this approach brings in noisy correspondences; for example, positive audio and visual pair signals that may be unrelated to each other, or negative pairs that may contain semantically similar samples to the positive one. Our key contribution in this work is to show that using a less strict decision boundary in contrastive learning can alleviate the effect of noisy correspondences in sound source localization. We propose a simple yet effective approach by slightly modifying the contrastive loss with a negative margin. Extensive experimental results show that our approach gives on-par or better performance than the state-of-the-art methods. Furthermore, we demonstrate that the introduction of a negative margin to existing methods results in a consistent improvement in performance.
翻訳日:2022-11-04 14:28:04 公開日:2022-11-03
# data-based polymer-unit fingerprint (pufp) : 機械学習のための新規な高分子有機半導体表現

Data-based Polymer-Unit Fingerprint (PUFp): A Newly Accessible Expression of Polymer Organic Semiconductors for Machine Learning ( http://arxiv.org/abs/2211.01583v1 )

ライセンス: Link先を確認
Xinyue Zhang and Genwang Wei and Ye Sheng and Jiong Yang and Caichao Ye and Wenqing Zhang(参考訳) 高性能有機半導体(OSC)の発見過程において, 材料性能において重要な役割を担う重要な機能ユニットを同定し, サブ構造・物性関係を確立することが, 材料開発において最重要となる。 本稿では,高分子ユニット指紋(PUFp)生成フレームワークについて述べる。 機械学習(ML)モデルは、678個のOSCデータを収集した構造入力としてPUFp情報を使用することで、構造-運動関係を決定できる。 445ユニットからなるポリマーユニットライブラリを構築し、OSCの移動性のための鍵となるポリマーユニットを同定する。 ポリマーユニットと移動性能の組み合わせを調べた結果,MLアプローチとPUFp情報を組み合わせた高分子OSC材料の設計手法が提案され,OSCの流動性を受動的に予測するだけでなく,新しい高流動OSC材料設計のための構造ガイダンスも積極的に提供する。 提案手法は,MLの事前評価と分類によって新たな材料をスクリーニングする能力を示し,新たなOSC発見にMLを適用するための代替手法である。

In the process of finding high-performance organic semiconductors (OSCs), it is of paramount importance in material development to identify important functional units that play key roles in material performance and subsequently establish substructure-property relationships. Herein, we describe a polymer-unit fingerprint (PUFp) generation framework. Machine learning (ML) models can be used to determine structure-mobility relationships by using PUFp information as structural input with 678 pieces of collected OSC data. A polymer-unit library consisting of 445 units is constructed, and the key polymer units for the mobility of OSCs are identified. By investigating the combinations of polymer units with mobility performance, a scheme for designing polymer OSC materials by combining ML approaches and PUFp information is proposed to not only passively predict OSC mobility but also actively provide structural guidance for new high-mobility OSC material design. The proposed scheme demonstrates the ability to screen new materials through pre-evaluation and classification ML steps and is an alternative methodology for applying ML in new high-mobility OSC discovery.
翻訳日:2022-11-04 14:21:54 公開日:2022-11-03
# 最適な行動優先:人間とaiのコラボレーションを改善するためのデータ効率の良い人間モデル

Optimal Behavior Prior: Data-Efficient Human Models for Improved Human-AI Collaboration ( http://arxiv.org/abs/2211.01602v1 )

ライセンス: Link先を確認
Mesut Yang, Micah Carroll, Anca Dragan(参考訳) aiエージェントは、人間の行動を予測するモデルから利益を得るように設計された。 しかし、現実的なモデルは膨大な量の人間データを必要とする傾向があるため、収集が難しいことが多い。 優れた事前化や初期化によって、データ効率のよいトレーニングが可能になるかも知れません。 一般的に、人々はランダムな機会よりも最適に振る舞う。 人間のモデルに先立って最適な行動を用いることで、これらのモデルがデータ効率が大幅に向上し、新しい環境に一般化できることを示す。 我々の直感は、そのような事前の訓練によって、そもそもどのようにタスクを行うかの基礎ではなく、人間の準最適性の微妙なニュアンスを捉えることに集中することができるということです。 また、これらの改良された人間モデルを使用することで、実際の人間データのみに基づくモデルを使用する場合と比較して、人間とAIのコラボレーション性能が向上することを示す。

AI agents designed to collaborate with people benefit from models that enable them to anticipate human behavior. However, realistic models tend to require vast amounts of human data, which is often hard to collect. A good prior or initialization could make for more data-efficient training, but what makes for a good prior on human behavior? Our work leverages a very simple assumption: people generally act closer to optimal than to random chance. We show that using optimal behavior as a prior for human models makes these models vastly more data-efficient and able to generalize to new environments. Our intuition is that such a prior enables the training to focus one's precious real-world data on capturing the subtle nuances of human suboptimality, instead of on the basics of how to do the task in the first place. We also show that using these improved human models often leads to better human-AI collaboration performance compared to using models based on real human data alone.
翻訳日:2022-11-04 14:21:33 公開日:2022-11-03
# ImageCAS:CT画像を用いた冠動脈セグメンテーションのための大規模データセットとベンチマーク

ImageCAS: A Large-Scale Dataset and Benchmark for Coronary Artery Segmentation based on Computed Tomography Angiography Images ( http://arxiv.org/abs/2211.01607v1 )

ライセンス: Link先を確認
An Zeng, Chunbiao Wu, Meiping Huang, Jian Zhuang, Shanshan Bi, Dan Pan, Najeeb Ullah, Kaleem Nawaz Khan, Tianchen Wang, Yiyu Shi, Xiaomeng Li, Guisen Lin, Xiaowei Xu(参考訳) 心臓血管疾患 (CVD) は非感染性疾患の約半数を占める。 冠動脈の血管狭窄はCVDの大きなリスクであると考えられている。 ctアンギオグラフィー(ct angiography, cta)は冠動脈診断における非侵襲的画像診断法の一つである。 臨床的に冠動脈の分画は冠動脈疾患の診断と定量化に不可欠である。 近年,この問題に対処する様々な研究が提案されている。 しかしながら、ほとんどの作品は社内のデータセットに依存しており、数十枚の画像のみを含むデータセットを一般に公開している作品はごくわずかである。 一方, ソースコードは公開されておらず, 既存の研究との比較は行われていないため, 手法の有効性を判断することは困難であり, コミュニティにおけるこの問題のさらなる探究を妨げている。 本稿では,CTA画像を用いた冠状動脈セグメンテーションのための大規模データセットを提案する。 さらに、我々はいくつかの典型的な既存手法の実装に最善を尽くしたベンチマークを実装した。 さらに,マルチスケールパッチ融合と2段階処理を組み合わせることで,船舶の細部を抽出する強力なベースライン手法を提案する。 包括的実験により,提案手法は提案した大規模データセットの既存手法よりも優れた性能を示した。 ベンチマークとデータセットはhttps://github.com/XiaoweiXu/ImageCAS-A-Large-Scale-Dataset-and-Benchmark-for-Coronary-Artery-Segmen tation-on-CTで公開されている。

Cardiovascular disease (CVD) accounts for about half of non-communicable diseases. Vessel stenosis in the coronary artery is considered to be the major risk of CVD. Computed tomography angiography (CTA) is one of the widely used noninvasive imaging modalities in coronary artery diagnosis due to its superior image resolution. Clinically, segmentation of coronary arteries is essential for the diagnosis and quantification of coronary artery disease. Recently, a variety of works have been proposed to address this problem. However, on one hand, most works rely on in-house datasets, and only a few works published their datasets to the public which only contain tens of images. On the other hand, their source code have not been published, and most follow-up works have not made comparison with existing works, which makes it difficult to judge the effectiveness of the methods and hinders the further exploration of this challenging yet critical problem in the community. In this paper, we propose a large-scale dataset for coronary artery segmentation on CTA images. In addition, we have implemented a benchmark in which we have tried our best to implement several typical existing methods. Furthermore, we propose a strong baseline method which combines multi-scale patch fusion and two-stage processing to extract the details of vessels. Comprehensive experiments show that the proposed method achieves better performance than existing works on the proposed large-scale dataset. The benchmark and the dataset are published at https://github.com/XiaoweiXu/ImageCAS-A-Large-Scale-Dataset-and-Benchmark-for-Coronary-Artery-Segmen tation-based-on-CT.
翻訳日:2022-11-04 14:21:15 公開日:2022-11-03
# Invertible Network Exploiting Inter Slice Congruenceを用いた低線量CT画像の自己監督

Self Supervised Low Dose Computed Tomography Image Denoising Using Invertible Network Exploiting Inter Slice Congruence ( http://arxiv.org/abs/2211.01618v1 )

ライセンス: Link先を確認
Sutanu Bera, Prabir Kumar Biswas(参考訳) ディープニューラルネットワークの復活は、低用量CT(LDCT)と正常用量CT(NDCT)画像ペア間の非線形変換関数を学習することにより、低用量CTの代替経路を生み出した。 しかし、LDCTとNDCTのペア画像は臨床環境ではほとんど利用できないため、ディープニューラルネットワークの展開は不可能である。 LDCT画像とNDCT画像のペア化の必要性を軽減するために, 自己監督型低用量CTデノベーション法を提案する。 具体的には、ノイズスライスと隣接した2つのノイズスライスの平均との間のピクセルベース平均平方距離を最小化するために、可逆ニューラルネットワークを訓練した。 以上のことは、ニューラルネットワークをトレーニングして、クリーンなNDCTとノイズの多いLDCT画像ペア間の距離を最小化するのと似ている。 また、インバータブルネットワークの逆マッピングの間、出力画像は、サイクル一貫性損失と同様に、元の入力画像にマッピングされる。 最後に、トレーニングされた非可逆ネットワークの前方マッピングを用いてLDCT画像のノイズ化を行う。 2つの公開データセットに関する広範囲な実験により、既存の教師なしメソッドに対して好適に動作できることが判明した。

The resurgence of deep neural networks has created an alternative pathway for low-dose computed tomography denoising by learning a nonlinear transformation function between low-dose CT (LDCT) and normal-dose CT (NDCT) image pairs. However, those paired LDCT and NDCT images are rarely available in the clinical environment, making deep neural network deployment infeasible. This study proposes a novel method for self-supervised low-dose CT denoising to alleviate the requirement of paired LDCT and NDCT images. Specifically, we have trained an invertible neural network to minimize the pixel-based mean square distance between a noisy slice and the average of its two immediate adjacent noisy slices. We have shown the aforementioned is similar to training a neural network to minimize the distance between clean NDCT and noisy LDCT image pairs. Again, during the reverse mapping of the invertible network, the output image is mapped to the original input image, similar to cycle consistency loss. Finally, the trained invertible network's forward mapping is used for denoising LDCT images. Extensive experiments on two publicly available datasets showed that our method performs favourably against other existing unsupervised methods.
翻訳日:2022-11-04 14:20:50 公開日:2022-11-03
# 雑音ラベルからの深層学習のための私的半教師付き知識伝達

Private Semi-supervised Knowledge Transfer for Deep Learning from Noisy Labels ( http://arxiv.org/abs/2211.01628v1 )

ライセンス: Link先を確認
Qiuchen Zhang, Jing Ma, Jian Lou, Li Xiong, and Xiaoqian Jiang(参考訳) 大規模データでトレーニングされたディープラーニングモデルは、多くの現実世界のタスクでパフォーマンス向上を達成している。 一方、医療記録などの機密データセットでトレーニングされたモデルを公開することは、プライバシーに関する深刻な懸念を引き起こす可能性がある。 これらの問題に対処するために、現在最先端のアプローチの1つは、強力なプライバシ保証を提供しながらモデルの実用性を維持するという有望な結果をもたらす教師の集まりのプライベートアグリゲーション(PATE)である。 PATEは、センシティブなデータに基づいて訓練された「教師モデル」のアンサンブルを結合し、学生モデルが訓練する未ラベルの公開データをラベル付けする教師の投票の騒々しい集計を通じて、知識を「学生モデル」に伝達する。 しかし、学生が学習した知識や投票されたラベルは、私的な集合のためうるさい。 ノイズラベルから直接学習することは、学生モデルの精度に大きな影響を及ぼす。 本稿では,現在進行している雑音ラベル学習機構とPATEフレームワークを組み合わせたPATE++機構を提案する。 GAN(Generative Adversarial Nets)の新たな構造を開発し,それらを効果的に統合する。 さらに,半教師モデル学習のための新しい雑音ラベル検出機構を開発し,雑音ラベル学習時の学習モデル性能をさらに向上させる。 本手法をFashion-MNISTとSVHNで評価し,従来のPATEの改善を示す。

Deep learning models trained on large-scale data have achieved encouraging performance in many real-world tasks. Meanwhile, publishing those models trained on sensitive datasets, such as medical records, could pose serious privacy concerns. To counter these issues, one of the current state-of-the-art approaches is the Private Aggregation of Teacher Ensembles, or PATE, which achieved promising results in preserving the utility of the model while providing a strong privacy guarantee. PATE combines an ensemble of "teacher models" trained on sensitive data and transfers the knowledge to a "student" model through the noisy aggregation of teachers' votes for labeling unlabeled public data which the student model will be trained on. However, the knowledge or voted labels learned by the student are noisy due to private aggregation. Learning directly from noisy labels can significantly impact the accuracy of the student model. In this paper, we propose the PATE++ mechanism, which combines the current advanced noisy label training mechanisms with the original PATE framework to enhance its accuracy. A novel structure of Generative Adversarial Nets (GANs) is developed in order to integrate them effectively. In addition, we develop a novel noisy label detection mechanism for semi-supervised model training to further improve student model performance when training with noisy labels. We evaluate our method on Fashion-MNIST and SVHN to show the improvements on the original PATE on all measures.
翻訳日:2022-11-04 14:20:26 公開日:2022-11-03
# 量子クロスプラットフォーム検証へのデータ駆動アプローチ

A Data-Driven Approach to Quantum Cross-Platform Verification ( http://arxiv.org/abs/2211.01668v1 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Ge Bai, Yuexuan Wang, Giulio Chiribella(参考訳) クロスプラットフォーム検証として知られる2つの非文字デバイスが同じように振る舞うかどうかをテストするタスクは、量子シミュレータと短期量子コンピュータのベンチマークに不可欠である。 システムの次元が増大するにつれて、クロスプラットフォームの検証はますます難しくなり、連続変数量子システムでは依然として難解なままである。 このレターでは、限られたノイズデータを扱うデータ駆動型アプローチを開発し、連続的な可変量子状態に適合する。 本手法は,計測データから構築した低次元状態表現に基づいて,量子状態の類似性を評価する畳み込みニューラルネットワークに基づいている。 ネットワークは古典的にシミュレートされたデータでオフラインでトレーニングすることができ、以前の手法ではクロスプラットフォームの検証が達成できなかった非ガウス量子状態上で実証される。 量子力学のクロスプラットフォーム検証や、2つの量子状態がガウスユニタリ変換に等しいかどうかを実験的に検証する問題にも適用することができる。

The task of testing whether two uncharacterized devices behave in the same way, known as cross-platform verification, is crucial for benchmarking quantum simulators and near-term quantum computers. Cross-platform verification becomes increasingly challenging as the system's dimensionality increases, and has so far remained intractable for continuous variable quantum systems. In this Letter, we develop a data-driven approach, working with limited noisy data and suitable for continuous variable quantum states. Our approach is based on a convolutional neural network that assesses the similarity of quantum states based on a lower-dimensional state representation built from measurement data. The network can be trained offline with classically simulated data, and is demonstrated here on non-Gaussian quantum states for which cross-platform verification could not be achieved with previous techniques. It can also be applied to cross-platform verification of quantum dynamics and to the problem of experimentally testing whether two quantum states are equivalent up to Gaussian unitary transformations.
翻訳日:2022-11-04 14:20:02 公開日:2022-11-03
# 12段階心電図分類のための深層学習モデルの解析 : 診断基準に類似した特徴について

Analysis of a Deep Learning Model for 12-Lead ECG Classification Reveals Learned Features Similar to Diagnostic Criteria ( http://arxiv.org/abs/2211.01738v1 )

ライセンス: Link先を確認
Theresa Bender, Jacqueline Michelle Beinecke, Dagmar Krefting, Carolin M\"uller, Henning Dathe, Tim Seidler, Nicolai Spicher, Anne-Christin Hauschild(参考訳) その顕著な性能にもかかわらず、深いニューラルネットワークは、その説明可能性の欠如によって部分的にあると考えられている臨床実践において未経験のままである。 本研究では,12誘導心電図分類のための前訓練深層ニューラルネットワーク(dnn)への帰属法を適用し,この「ブラックボックス」を開き,モデル予測と学習特徴の関係を理解する。 我々は、公開データセットからデータを分類し、帰属法は、分類された各信号のサンプルに「関連スコア」を割り当てる。 これにより、トレーニング中にネットワークが学んだことを分析し、定量的手法を提案する。 a) クラス b) リード,及び c) 平均ビート。 心房細動(af)と左房分枝ブロック(lbbb)に対する妥当性スコアの解析 : 健常者と比較して a) 高い分類確率で増加し、0前後の場合に誤分類に対応し、 b) 考慮すべき事項に関する臨床勧告に該当する。 さらに c) 可視P波とコンコーダントT波は, AFとLBBBの分類において, それぞれ明らかに負の相関点を示す。 要約すると、DNNは、心臓学の教科書知識に類似した特徴を学習したことを示唆している。

Despite their remarkable performance, deep neural networks remain unadopted in clinical practice, which is considered to be partially due to their lack in explainability. In this work, we apply attribution methods to a pre-trained deep neural network (DNN) for 12-lead electrocardiography classification to open this "black box" and understand the relationship between model prediction and learned features. We classify data from a public data set and the attribution methods assign a "relevance score" to each sample of the classified signals. This allows analyzing what the network learned during training, for which we propose quantitative methods: average relevance scores over a) classes, b) leads, and c) average beats. The analyses of relevance scores for atrial fibrillation (AF) and left bundle branch block (LBBB) compared to healthy controls show that their mean values a) increase with higher classification probability and correspond to false classifications when around zero, and b) correspond to clinical recommendations regarding which lead to consider. Furthermore, c) visible P-waves and concordant T-waves result in clearly negative relevance scores in AF and LBBB classification, respectively. In summary, our analysis suggests that the DNN learned features similar to cardiology textbook knowledge.
翻訳日:2022-11-04 14:19:44 公開日:2022-11-03
# 確率補間合成最小化のための最適アルゴリズム

Optimal Algorithms for Stochastic Complementary Composite Minimization ( http://arxiv.org/abs/2211.01758v1 )

ライセンス: Link先を確認
Alexandre d'Aspremont, Crist\'obal Guzm\'an, Cl\'ement Lezane(参考訳) 統計学と機械学習における正規化手法に着想を得て,確率的設定における相補的複合最小化について検討した。 この問題は、確率的一階神託と構造的一様凸(おそらくは非スムースかつ非リプシッツ)正規化項が与えられた(弱く)滑らかな関数の和の最小化に対応する。 密接に関連する設定で集中的に作業したにも関わらず、私たちの仕事の前には、この問題の複雑さの境界は知られていません。 予測と高い確率で、新たな過剰なリスク境界を提供することで、このギャップを埋めます。 我々のアルゴリズムはほぼ最適であり、このタイプの問題に対する新しい低い複雑性境界によって証明する。 我々は,我々の手法と最先端技術を比較した数値結果を提供することで結論付けた。

Inspired by regularization techniques in statistics and machine learning, we study complementary composite minimization in the stochastic setting. This problem corresponds to the minimization of the sum of a (weakly) smooth function endowed with a stochastic first-order oracle, and a structured uniformly convex (possibly nonsmooth and non-Lipschitz) regularization term. Despite intensive work on closely related settings, prior to our work no complexity bounds for this problem were known. We close this gap by providing novel excess risk bounds, both in expectation and with high probability. Our algorithms are nearly optimal, which we prove via novel lower complexity bounds for this class of problems. We conclude by providing numerical results comparing our methods to the state of the art.
翻訳日:2022-11-04 14:19:07 公開日:2022-11-03
# 教師なし・半監督システムによるクレーター形状の自動検索

Automatic Crater Shape Retrieval using Unsupervised and Semi-Supervised Systems ( http://arxiv.org/abs/2211.01933v1 )

ライセンス: Link先を確認
Atal Tewari, Vikrant Jain, Nitin Khanna(参考訳) 衝突クレーターは惑星体の表面への連続的な衝撃によって形成される。 最近の深層学習に基づくクレーター検出法はクレーターを円形の形状として扱い、クレーターの正確な形状を抽出するためにはあまり注意を払わない。 クレーターの正確な形状を抽出することは、クレーターの形成のような多くの高度な分析に役立つ。 本稿では,非教師なし深層学習と半教師付き深層学習を組み合わせることで,クレーターの形状を正確に抽出し,既存のカタログから欠落したクレーターを検出することを提案する。 教師なしの非深度学習において,クレーターの形状を抽出する適応的なリム抽出アルゴリズムを提案する。 この適応リム抽出アルゴリズムでは、DEMの標高分布を利用して、DEM由来の斜面に形態的操作を適用してクレーターの形状を抽出した。 クレーターの抽出された形状は、半教師付きディープラーニングで場所、大きさ、洗練された形状を得るために使用される。 さらに、抽出されたクレーターの形状を利用して、クレーターの直径、深さ、その他の形態因子の推定を改善する。 クレーターの形状、推定直径、その他の形態的要因による深さなどが公表される。

Impact craters are formed due to continuous impacts on the surface of planetary bodies. Most recent deep learning-based crater detection methods treat craters as circular shapes, and less attention is paid to extracting the exact shapes of craters. Extracting precise shapes of the craters can be helpful for many advanced analyses, such as crater formation. This paper proposes a combination of unsupervised non-deep learning and semi-supervised deep learning approach to accurately extract shapes of the craters and detect missing craters from the existing catalog. In unsupervised non-deep learning, we have proposed an adaptive rim extraction algorithm to extract craters' shapes. In this adaptive rim extraction algorithm, we utilized the elevation profiles of DEMs and applied morphological operation on DEM-derived slopes to extract craters' shapes. The extracted shapes of the craters are used in semi-supervised deep learning to get the locations, size, and refined shapes. Further, the extracted shapes of the craters are utilized to improve the estimate of the craters' diameter, depth, and other morphological factors. The craters' shape, estimated diameter, and depth with other morphological factors will be publicly available.
翻訳日:2022-11-04 14:12:53 公開日:2022-11-03
# 繰り返し可能なランダム置換集合

Repeatable random permutation set ( http://arxiv.org/abs/2211.01676v1 )

ライセンス: Link先を確認
Wenran Yang and Yong Deng(参考訳) Dempster-Shaferエビデンス理論(DST)に基づき、組合せ数を置換数に置き換えて順序情報を組み込むランダムな置換集合(RPS)を提案する。 さらにRPSは、すべてのアイテムが同じ順序で発生する場合、DSTを特別なケースとすることができる。 しかし、rpsではアイテムの繰り返しは許されない。 この問題に対処するために、アイテムの反復を考慮した繰り返し乱数置換セット(R2PS)を提案する。 左右の接合和の組合せ規則を提案し, 一貫性, 擬似マット効果, 結合性などの特性について検討した。 これらの特性に基づき、r2psの有効性を示す決定支援システム適用をシミュレートする。

Based on Dempster-Shafer evidence theory (DST), random permutation set (RPS) is proposed by replacing combinatorial number with permutation number and therefore incorporating order information. Besides, RPS could take DST as a special case when all items occur in the same order. However, the repetition of items is not allowed in RPS. To address this issue, we propose repeatable random permutation set (R2PS) which takes the repetition of items into consideration. The right and left junctional sum combination rules are proposed and their properties including consistency, pseudo-Matthew effect and associativity are researched. Based on these properties, a decision support system application is simulated to show the effectiveness of R2PS.
翻訳日:2022-11-04 14:12:24 公開日:2022-11-03
# 重量のオンザフライ計算による自己最適化モデルのスケールアップ

Scaling up the self-optimization model by means of on-the-fly computation of weights ( http://arxiv.org/abs/2211.01698v1 )

ライセンス: Link先を確認
Natalya Weber, Werner Koch, Tom Froese(参考訳) 自己最適化(SO)モデルは、「ソフト」人工生命(ALife)における自己組織化を研究する上で有用な計算モデルである。 これまでの研究は、比較的小さなネットワークサイズで行われており、多数のノードが相互接続されたネットワークで相互作用することによる複雑さから生じる、新たな現象の研究が先行している。 この研究は、ノード数に対して$\mathcal{O}\left(N^{2}\right)$としてスケールするSOモデルの新しい実装を導入し、これまで調査された数桁のシステムサイズを持つネットワークへのSOモデルの適用性を実証する。 我々のオンザフライ計算は、naive $\mathcal{o}\left(n^{3}\right)$アルゴリズムの計算コストを削減し、より大きなシステムサイズを調査し、将来の研究においてより多様で複雑なものを可能にする。

The Self-Optimization (SO) model is a useful computational model for investigating self-organization in "soft" Artificial life (ALife) as it has been shown to be general enough to model various complex adaptive systems. So far, existing work has been done on relatively small network sizes, precluding the investigation of novel phenomena that might emerge from the complexity arising from large numbers of nodes interacting in interconnected networks. This work introduces a novel implementation of the SO model that scales as $\mathcal{O}\left(N^{2}\right)$ with respect to the number of nodes $N$, and demonstrates the applicability of the SO model to networks with system sizes several orders of magnitude higher than previously was investigated. Removing the prohibitive computational cost of the naive $\mathcal{O}\left(N^{3}\right)$ algorithm, our on-the-fly computation paves the way for investigating substantially larger system sizes, allowing for more variety and complexity in future studies.
翻訳日:2022-11-04 14:12:11 公開日:2022-11-03
# 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model ( http://arxiv.org/abs/2211.01751v1 )

ライセンス: Link先を確認
Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov(参考訳) ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。 ストリーミングレシエーションは、音声強調モデルに将来の情報の小さなコンテキストのみを使用するよう制約するので、低レイテンシのストリーミング設定は一般的に困難であり、モデルの品質に重大な悪影響を及ぼすと仮定される。 しかしながら、ストリーミング生成のシーケンシャルな性質から、現在の生成時に以前の予測を使用することで、自己回帰の自然な可能性を提供する。 本稿では,自己回帰型低遅延音声強調モデルの訓練をシンプルかつ効果的に行う手法を提案する。 提案手法がアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを示す。

Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information, thus, the low-latency streaming setup is generally assumed to be challenging and has a significant negative effect on the model quality. However, due to the sequential nature of streaming generation, it provides a natural possibility for autoregression, i.e., using previous predictions when making current ones. In this paper, we present a simple, yet effective trick for training of autoregressive low-latency speech enhancement models. We demonstrate that the proposed technique leads to stable improvement across different architectures and training scenarios.
翻訳日:2022-11-04 14:11:52 公開日:2022-11-03
# 因果量子効果推定のためのベイズ半パラメトリック法

A Bayesian Semiparametric Method For Estimating Causal Quantile Effects ( http://arxiv.org/abs/2211.01591v1 )

ライセンス: Link先を確認
Steven G. Xu, Shu Yang and Brian J. Reich(参考訳) 標準因果推論は, 平均値による治療効果を特徴付けるが, 反事実分布は中心的な傾向だけでなく, 広がり, 形状も異なる可能性がある。 治療効果を総合的に評価するために,QTE(Quantile treatment effect)の推定に焦点をあてる。 累積分布関数の非滑らかな推定器を逆転させる既存の手法は確率密度関数の推論を禁止しているが、PDFは反実分布のより微妙な特徴を明らかにすることができる。 我々は,PDF や複数 QTE を含む,反現実分布の任意の関数を推測できる半パラメトリックな条件分布回帰モデルを採用する。 データの観測特性を考慮し,効率的なモデルを確立するため,各共変量による確率スコアを増大させる二重バランススコアを調整した。 モデリングの不確実性を適切に伝播するベイズ推定フレームワークを提供する。 シミュレーションにより, 共振調整に二重バランススコアを用いることで, 単一スコアのみの調整よりも性能が向上し, 提案した半パラメトリックモデルでは, 他の半パラメトリック手法よりもQTEを精度良く推定できることを示した。 提案手法をノースカロライナ州出生体重データセットに適用し,母親の喫煙が乳児の出生体重に及ぼす影響を分析した。

Standard causal inference characterizes treatment effect through averages, but the counterfactual distributions could be different in not only the central tendency but also spread and shape. To provide a comprehensive evaluation of treatment effects, we focus on estimating quantile treatment effects (QTEs). Existing methods that invert a nonsmooth estimator of the cumulative distribution functions forbid inference on probability density functions (PDFs), but PDFs can reveal more nuanced characteristics of the counterfactual distributions. We adopt a semiparametric conditional distribution regression model that allows inference on any functionals of counterfactual distributions, including PDFs and multiple QTEs. To account for the observational nature of the data and ensure an efficient model, we adjust for a double balancing score that augments the propensity score with individual covariates. We provide a Bayesian estimation framework that appropriately propagates modeling uncertainty. We show via simulations that the use of double balancing score for confounding adjustment improves performance over adjusting for any single score alone, and the proposed semiparametric model estimates QTEs more accurately than other semiparametric methods. We apply the proposed method to the North Carolina birth weight dataset to analyze the effect of maternal smoking on infant's birth weight.
翻訳日:2022-11-04 14:11:42 公開日:2022-11-03
# リーマン多様体モンテカルロ法による対数密度勾配共分散と自動計量テンソル

Log-density gradient covariance and automatic metric tensors for Riemann manifold Monte Carlo methods ( http://arxiv.org/abs/2211.01746v1 )

ライセンス: Link先を確認
Tore Selland Kleppe(参考訳) 特に非線形ベイズ階層モデルに適したリーマン多様体モンテカルロの計量テンソルを提案する。 計量テンソルは、対称正半定値対数密度勾配共分散(LGC)行列から構築される。 LGCは、ランダム変数と当該変数のパラメータの両方の結合情報内容と依存構造を測定する。 提案手法は高度に自動的であり、問題のモデルに付随する任意のスパーシティを活用できる。 最近提案された数値一般化ランダム化ハミルトニアンモンテカルロ過程のリーマン多様体の変種と組み合わせて実装された場合、提案手法は特にベイズ的階層モデルに関連するより挑戦的な対象分布に対して高い競争力を持つ。

A metric tensor for Riemann manifold Monte Carlo particularly suited for non-linear Bayesian hierarchical models is proposed. The metric tensor is built from here proposed symmetric positive semidefinite log-density gradient covariance (LGC) matrices. The LGCs measure the joint information content and dependence structure of both a random variable and the parameters of said variable. The proposed methodology is highly automatic and allows for exploitation of any sparsity associated with the model in question. When implemented in conjunction with a Riemann manifold variant of the recently proposed numerical generalized randomized Hamiltonian Monte Carlo processes, the proposed methodology is highly competitive, in particular for the more challenging target distributions associated with Bayesian hierarchical models.
翻訳日:2022-11-04 14:11:19 公開日:2022-11-03
# 仮定リーン変数の有意性テストのための予測共分散測定

The Projected Covariance Measure for assumption-lean variable significance testing ( http://arxiv.org/abs/2211.02039v1 )

ライセンス: Link先を確認
Anton Rask Lundborg, Ilmun Kim, Rajen D. Shah and Richard J. Samworth(参考訳) 変数や変数のグループの重要性をテストする $x$ 応答を予測するために$y$ を追加して covariates $z$ とすると、統計学におけるユビキタスなタスクである。 単純だが一般的なアプローチは線形モデルを特定し、x$ の回帰係数が 0 でないかどうかを調べることである。 しかし、モデルが不特定の場合、例えば、$X$が複雑な相互作用に関与している場合や、多くの偽の拒絶を引き起こす場合など、テストは力不足となる。 本研究では、条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$が$X$、$Z$が$X$に依存しないことを研究する。 本稿では,適応モデルやランダムフォレストなどの柔軟な非パラメトリックあるいは機械学習手法を利用して,堅牢なエラー制御と高出力を実現する,シンプルで汎用的なフレームワークを提案する。 この手順では、これらの方法を使って回帰を行い、まずデータの半分を使ってx$とz$で$y$の投射形式を推定し、その後、この投射法と残りのデータで$y$の期待条件共分散を推定する。 提案手法は一般に行われているが,この非パラメトリックテスト問題において,スプライン回帰を用いた手法のバージョンが極小最適率を達成できることを示す。 いくつかの既存手法と比較して,I型エラー制御とパワーの両面において,本手法の有効性を示す数値実験を行った。

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
翻訳日:2022-11-04 14:11:07 公開日:2022-11-03
# GPryを用いたガウス過程を用いた高速で堅牢なベイズ推論

Fast and robust Bayesian Inference using Gaussian Processes with GPry ( http://arxiv.org/abs/2211.02045v1 )

ライセンス: Link先を確認
Jonas El Gammal, Nils Sch\"oneberg, Jes\'us Torrado, Christian Fidler(参考訳) 一般(非ガウス)後方の素早いベイズ推定のためのGPryアルゴリズムを適度なパラメータ数で提案する。 gpryはgpuのようなトレーニング済みの特別なハードウェアは必要とせず、従来のモンテカルロ法をベイズ推論に置き換えることを目的としている。 本アルゴリズムは,ログポストのガウス過程サロゲートモデルを生成し,極値や非有限値を排除したサポートベクトルマシン分類器によって支援する。 アクティブな学習手法により,従来のモンテカルロ推定と比較して,必要な後続評価を桁違いに削減することができる。 提案アルゴリズムは, 最適位置における後頭部の並列評価を可能にし, 壁面時間をさらに短縮する。 アクティブラーニング方式とgpプリエントの定義において,後肢の特性を用いることにより性能が著しく向上した。 特に,異なる次元における後肢の期待動力学的範囲について考察した。 我々は、多くの合成および宇宙論の例に対してモデルをテストする。 gpryは、確率(あるいは理論観測可能性の計算)の評価時間が数秒のオーダーである場合、従来のモンテカルロ法よりも優れており、1分を超える評価時間は、従来の方法を使って数ヶ月かかる日数で推論することができる。 GPryはオープンソースのPythonパッケージ(pip install gpry)として配布されており、https://github.com/jonaselgammal/GPryで見ることができる。

We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
翻訳日:2022-11-04 14:10:37 公開日:2022-11-03
# hybrid-sd (\text{h}_{\text{sd}}$) : 自動音声認識タスクのための新しいハイブリッド評価指標

Hybrid-SD ($\text{H}_{\text{SD}}$) : A new hybrid evaluation metric for automatic speech recognition tasks ( http://arxiv.org/abs/2211.01722v1 )

ライセンス: Link先を確認
Zitha Sasindran, Harsha Yelchuri, Supreeth Rao and T. V. Prabhakar(参考訳) 自動音声認識(asr)システムのための評価指標としての単語誤り率(wer)の欠点、特に意図認識や対話システムなどの音声言語理解タスクに用いられる場合の問題点について多くの研究が進められている。 本稿では,意味的正当性と誤り率の両方を考慮したASRシステムのための新しいハイブリッド評価指標であるHybrid-SD(\text{H}_{\text{SD}}$)を提案する。 文の相似性スコア(SD)を生成するために,蒸留技術を用いて高速かつ軽量なSNanoBERTモデルを構築した。 実験の結果,SNanoBERTモデルはSRoBERTaより25.9倍小さく,38.8倍高速であることがわかった。 したがって、エッジデバイスにASRモデルでデプロイするのに適している。 また、$\text{H}_{\text{SD}}$は、インテント認識や名前付き一致認識(NER)といった下流タスクと強く関連していることを示す。

Many studies have examined the shortcomings of word error rate (WER) as an evaluation metric for automatic speech recognition (ASR) systems, particularly when used for spoken language understanding tasks such as intent recognition and dialogue systems. In this paper, we propose Hybrid-SD ($\text{H}_{\text{SD}}$), a new hybrid evaluation metric for ASR systems that takes into account both semantic correctness and error rate. To generate sentence dissimilarity scores (SD), we built a fast and lightweight SNanoBERT model using distillation techniques. Our experiments show that the SNanoBERT model is 25.9x smaller and 38.8x faster than SRoBERTa while achieving comparable results on well-known benchmarks. Hence, making it suitable for deploying with ASR models on edge devices. We also show that $\text{H}_{\text{SD}}$ correlates more strongly with downstream tasks such as intent recognition and named-entity recognition (NER).
翻訳日:2022-11-04 14:04:06 公開日:2022-11-03
# エンドツーエンドasrのための統計的表現の探索

Probing Statistical Representations For End-To-End ASR ( http://arxiv.org/abs/2211.01993v1 )

ライセンス: Link先を確認
Anna Ollerenshaw, Md Asif Jalal, Thomas Hain(参考訳) エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習して音声認識を行うことを目的としている。 この領域では、内部表現の依存関係とモデリングアプローチとの関係を分析する研究はほとんどない。 本稿では,SVCCAを用いてトランスフォーマーアーキテクチャ内のドメイン間言語モデル依存性を解析し,これらの知見をモデリングアプローチの活用に活用する。 その結果、トランスフォーマー層内の特定の神経表現は、認識性能に影響を与える相関行動を示すことがわかった。 この研究は、コンテキスト依存やASRのパフォーマンスに影響を与えるモデリングアプローチの分析を提供し、エンド・ツー・エンドのASRモデルの作成や適応、下流タスクにも使用することができる。

End-to-End automatic speech recognition (ASR) models aim to learn a generalised speech representation to perform recognition. In this domain there is little research to analyse internal representation dependencies and their relationship to modelling approaches. This paper investigates cross-domain language model dependencies within transformer architectures using SVCCA and uses these insights to exploit modelling approaches. It was found that specific neural representations within the transformer layers exhibit correlated behaviour which impacts recognition performance. Altogether, this work provides analysis of the modelling approaches affecting contextual dependencies and ASR performance, and can be used to create or adapt better performing End-to-End ASR models and also for downstream tasks.
翻訳日:2022-11-04 14:03:50 公開日:2022-11-03
# 話者照合のための多層埋め込みアグリゲーションによる動的カーネルとチャネル注意

Dynamic Kernels and Channel Attention with Multi-Layer Embedding Aggregation for Speaker Verification ( http://arxiv.org/abs/2211.02000v1 )

ライセンス: Link先を確認
Anna Ollerenshaw, Md Asif Jalal, Thomas Hain(参考訳) 最先端の話者検証フレームワークは、一般的に、より深い(より多くの層)とより広い(チャンネルの数)モデルを用いて、検証性能を向上させる音声強調技術に焦点を当てている。 本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いて,モデルパラメータを特徴条件に適応させる手法を提案する。 カーネルに対する注意重みは、音声からグローバル特徴を学ぶためにチャンネル注意と多層特徴集約によってさらに蒸留される。 このアプローチは、低いデータリソースで表現能力を改善するための効率的なソリューションを提供する。 これはモデルパラメータの構造の入力に対する自己適応のためである。 提案する動的畳み込みモデルは、voxceleb1テストセット上で1.62\%eerと0.18 minidcfを達成し、ecapa-tdnnと比較して17\%の相対的改善が得られた。

State-of-the-art speaker verification frameworks have typically focused on speech enhancement techniques with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN.
翻訳日:2022-11-04 14:03:36 公開日:2022-11-03
# 物理インフォームドディープラーニングを用いた弱重力レンズ用銀河画像デコンボリューション

Galaxy Image Deconvolution for Weak Gravitational Lensing with Physics-informed Deep Learning ( http://arxiv.org/abs/2211.01567v1 )

ライセンス: Link先を確認
Tianao Li and Emma Alexander(参考訳) 銀河画像から光学的および大気的なぼかしを除去することで、弱い重力レンズや銀河進化研究のための銀河形状の測定を大幅に改善する。 この不測の線形逆問題は通常、正規化前やディープラーニングによって強化されたデコンボリューションアルゴリズムで解決される。 我々は、銀河探査において、ポイントスプレッド関数(PSF)デコンボリューション問題に対するいわゆる「物理に基づくディープラーニング」アプローチを導入する。 本稿では,ポアソンノイズモデルを用いた乗算器の交互方向法(ADMM)にアルゴリズムアンローリングとプラグアンドプレイ手法を適用し,ニューラルネットワークを用いてシミュレーションされた銀河画像から適切な先行点を学習する。 輝度レベルが異なる銀河の時間的トレードオフを特徴とし、標準法に比べて26%(SNR=20)/48%(SNR=100)、近代法では14%(SNR=20)の改善を示した。

Removing optical and atmospheric blur from galaxy images significantly improves galaxy shape measurements for weak gravitational lensing and galaxy evolution studies. This ill-posed linear inverse problem is usually solved with deconvolution algorithms enhanced by regularisation priors or deep learning. We introduce a so-called "physics-based deep learning" approach to the Point Spread Function (PSF) deconvolution problem in galaxy surveys. We apply algorithm unrolling and the Plug-and-Play technique to the Alternating Direction Method of Multipliers (ADMM) with a Poisson noise model and use a neural network to learn appropriate priors from simulated galaxy images. We characterise the time-performance trade-off of several methods for galaxies of differing brightness levels, showing an improvement of 26% (SNR=20)/48% (SNR=100) compared to standard methods and 14% (SNR=20) compared to modern methods.
翻訳日:2022-11-04 14:02:37 公開日:2022-11-03
# 学習的サンプリングポリシーを用いた能動ct再構成

Active CT Reconstruction with a Learned Sampling Policy ( http://arxiv.org/abs/2211.01670v1 )

ライセンス: Link先を確認
Ce Wang, Kun Shang, Haimiao Zhang, Shang Zhao, Dong Liang, S. Kevin Zhou(参考訳) CT(Computed tomography)は、高品質な人体表現による臨床的意思決定を支援する画像技術である。 CTによる放射線線量を減らすために、保存された画質でスパースビューとリミテッドアングルCTを開発する。 しかし、これらの手法は固定的あるいは均一なサンプリング戦略で立ち往生しており、さらに少ない線量でより良い画像を得る可能性を抑制する。 本稿では,患者固有の高品質再構築のためのサンプリング位置を最適化するアクティブサンプリングポリシーの学習を通じて,この可能性を探る。 そこで本研究では,得られたシンノグラムを用いたオン・ザ・フライ・コンストラクションに基づくサンプリング位置のアクティブな推薦を行うための \textit{intelligent agent} を設計した。 このような設計により、一般的な一様サンプリングよりもNIH-AAPMデータセットの性能が向上する。 最後に, 臨床的に重要な関心領域 (RoI) の再現品質を向上したRoIアウェアリコンストラクションも実現した。 verseデータセットを用いた実験では,一様サンプリングでは達成が困難であるサンプリングポリシーの能力が実証された。

Computed tomography (CT) is a widely-used imaging technology that assists clinical decision-making with high-quality human body representations. To reduce the radiation dose posed by CT, sparse-view and limited-angle CT are developed with preserved image quality. However, these methods are still stuck with a fixed or uniform sampling strategy, which inhibits the possibility of acquiring a better image with an even reduced dose. In this paper, we explore this possibility via learning an active sampling policy that optimizes the sampling positions for patient-specific, high-quality reconstruction. To this end, we design an \textit{intelligent agent} for active recommendation of sampling positions based on on-the-fly reconstruction with obtained sinograms in a progressive fashion. With such a design, we achieve better performances on the NIH-AAPM dataset over popular uniform sampling, especially when the number of views is small. Finally, such a design also enables RoI-aware reconstruction with improved reconstruction quality within regions of interest (RoI's) that are clinically important. Experiments on the VerSe dataset demonstrate this ability of our sampling policy, which is difficult to achieve based on uniform sampling.
翻訳日:2022-11-04 14:02:19 公開日:2022-11-03
# MALUNet:皮膚病変セグメンテーションのためのマルチアテンションおよび軽量UNet

MALUNet: A Multi-Attention and Light-weight UNet for Skin Lesion Segmentation ( http://arxiv.org/abs/2211.01784v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Suncheng Xiang, Mingye Xie, Ting Liu and Yuzhuo Fu(参考訳) 近年、いくつかの先駆的な作品は、セグメント化性能を改善するためにより複雑なモジュールを適用することを好んでいる。 しかし,コンピュータ資源が限られているため,実際の臨床環境には適していない。 この課題に対処するため,本論文では,皮膚病変セグメンテーションの競合性能をパラメータと計算複雑性の最小コストで達成する軽量モデルを提案する。 Briefly, we propose four modules: (1) DGA consists of dilated convolution and gated attention mechanisms to extract global and local feature information; (2) IEA, which is based on external attention to characterize the overall datasets and enhance the connection between samples; (3) CAB is composed of 1D convolution and fully connected layers to perform a global and local fusion of multi-stage features to generate attention maps at channel axis; (4) SAB, which operates on multi-stage features by a shared 2D convolution to generate attention maps at spatial axis. 我々は、4つのモジュールをU字型アーキテクチャと組み合わせ、MALUNetと呼ばれる軽量な医用画像分割モデルを得る。 unetと比較して,miouとdscの指標をそれぞれ2.39%,1.49%改善し,パラメータ数と計算複雑性を44倍,166倍削減した。 さらに,2つの皮膚病変セグメンテーションデータセット(ISIC2017とISIC2018)の比較実験を行った。 実験結果から,本モデルはパラメータ数,計算複雑性,セグメンテーション性能のバランスをとる上での最先端性を実現していることがわかった。 コードはhttps://github.com/JCruan519/MALUNetで入手できる。

Recently, some pioneering works have preferred applying more complex modules to improve segmentation performances. However, it is not friendly for actual clinical environments due to limited computing resources. To address this challenge, we propose a light-weight model to achieve competitive performances for skin lesion segmentation at the lowest cost of parameters and computational complexity so far. Briefly, we propose four modules: (1) DGA consists of dilated convolution and gated attention mechanisms to extract global and local feature information; (2) IEA, which is based on external attention to characterize the overall datasets and enhance the connection between samples; (3) CAB is composed of 1D convolution and fully connected layers to perform a global and local fusion of multi-stage features to generate attention maps at channel axis; (4) SAB, which operates on multi-stage features by a shared 2D convolution to generate attention maps at spatial axis. We combine four modules with our U-shape architecture and obtain a light-weight medical image segmentation model dubbed as MALUNet. Compared with UNet, our model improves the mIoU and DSC metrics by 2.39% and 1.49%, respectively, with a 44x and 166x reduction in the number of parameters and computational complexity. In addition, we conduct comparison experiments on two skin lesion segmentation datasets (ISIC2017 and ISIC2018). Experimental results show that our model achieves state-of-the-art in balancing the number of parameters, computational complexity and segmentation performances. Code is available at https://github.com/JCruan519/MALUNet.
翻訳日:2022-11-04 14:01:57 公開日:2022-11-03
# 代表係数変動によるハイパースペクトル画像の高速ノイズ除去

Fast Noise Removal in Hyperspectral Images via Representative Coefficient Total Variation ( http://arxiv.org/abs/2211.01825v1 )

ライセンス: Link先を確認
Jiangjun Peng, Hailin Wang, Xiangyong Cao, Xinlin Liu, Xiangyu Rui and Deyu Meng(参考訳) データの構造的先行をマイニングすることは、モデルに基づく手法やデータに基づく手法を含む、ハイパースペクトル画像(HSI)のタスクを記述するための広く知られている技法である。 モデルベースの手法は優れた一般化能力を持つが、ランタイムはHSIデータ $ \mathbf{X} \in \mathbb{R}^{MN\times B}$ の大きいサイズのため、実際の状況の高速な処理要求を満たすことはできない。 データベースのメソッドでは、トレーニングされた新しいテストデータに対して非常に高速に実行する。 しかし、その一般化能力は常に不十分である。 本稿では,高速モデルに基づくhsiデノイジング手法を提案する。 具体的には,低位と局所的な滑らかな特性を同時に特徴付ける代表係数総変動 (rctv) という新しい正規化器を提案する。 RCTV正則化器は、代表係数行列 $\mathbf{U}\in\mathbb{R}^{MN\times R} (R\ll B)$ が元の HSI $\mathbf{X}$ を直交変換することで、$\mathbf{X}$ より前の強い局所滑らかさを継承できるという観測に基づいて提案される。 R/B$は非常に小さいので、RCTV正規化器に基づくHSI復調モデルは時間的複雑さが低い。 さらに、代表係数行列 $\mathbf{u}$ は雑音に対してロバストであるため、rctv正則化器はいくらかhsi消音モデルのロバスト性を促進することができる。 混合雑音除去に関する広範囲な実験により,提案手法は他の最先端手法と比較して,ノイズ除去性能と雑音除去速度の両方において優れていることが示された。 驚くべきことに,提案手法の発声速度は,モデルベース手法のすべてに匹敵し,ディープラーニングベースの手法に匹敵する。

Mining structural priors in data is a widely recognized technique for hyperspectral image (HSI) denoising tasks, whose typical ways include model-based methods and data-based methods. The model-based methods have good generalization ability, while the runtime cannot meet the fast processing requirements of the practical situations due to the large size of an HSI data $ \mathbf{X} \in \mathbb{R}^{MN\times B}$. For the data-based methods, they perform very fast on new test data once they have been trained. However, their generalization ability is always insufficient. In this paper, we propose a fast model-based HSI denoising approach. Specifically, we propose a novel regularizer named Representative Coefficient Total Variation (RCTV) to simultaneously characterize the low rank and local smooth properties. The RCTV regularizer is proposed based on the observation that the representative coefficient matrix $\mathbf{U}\in\mathbb{R}^{MN\times R} (R\ll B)$ obtained by orthogonally transforming the original HSI $\mathbf{X}$ can inherit the strong local-smooth prior of $\mathbf{X}$. Since $R/B$ is very small, the HSI denoising model based on the RCTV regularizer has lower time complexity. Additionally, we find that the representative coefficient matrix $\mathbf{U}$ is robust to noise, and thus the RCTV regularizer can somewhat promote the robustness of the HSI denoising model. Extensive experiments on mixed noise removal demonstrate the superiority of the proposed method both in denoising performance and denoising speed compared with other state-of-the-art methods. Remarkably, the denoising speed of our proposed method outperforms all the model-based techniques and is comparable with the deep learning-based approaches.
翻訳日:2022-11-04 14:01:34 公開日:2022-11-03
# ProfessionAl Go アノテーション datasEt (PAGE)

The ProfessionAl Go annotation datasEt (PAGE) ( http://arxiv.org/abs/2211.01559v1 )

ライセンス: Link先を確認
Yifan Gao, Danni Zhang and Haoyue Li(参考訳) Goのゲームは、ゲームレコードと分析ツールが不足しているため、非常に研究が進んでいない。 近年,AlphaZeroベースのアルゴリズムの出現とプロの競争が増加し,人間の囲碁を大規模に分析する絶好の機会となっている。 本稿では,2,007人のプロ選手による98,525のゲームを含むProfessionAl Goアノテーションデータ(PAGE)について述べる。 データセットには、動きごとにリッチなAI分析結果が含まれている。 さらにpageは、手作業によるクリーニングとラベリングの後、プレイヤーとゲームごとに詳細なメタデータを提供する。 データセットの予備解析の他に、データセットから恩恵を受けるサンプルタスクを提供し、複数の研究方向においてPAGEの潜在的な応用を実証する。 私たちの知る限りでは、PAGEはGoのゲームで広範なアノテーションを備えた最初のデータセットです。 この作業は[1]の拡張バージョンで、より詳細な説明、分析、アプリケーションを実行します。

The game of Go has been highly under-researched due to the lack of game records and analysis tools. In recent years, the increasing number of professional competitions and the advent of AlphaZero-based algorithms provide an excellent opportunity for analyzing human Go games on a large scale. In this paper, we present the ProfessionAl Go annotation datasEt (PAGE), containing 98,525 games played by 2,007 professional players and spans over 70 years. The dataset includes rich AI analysis results for each move. Moreover, PAGE provides detailed metadata for every player and game after manual cleaning and labeling. Beyond the preliminary analysis of the dataset, we provide sample tasks that benefit from our dataset to demonstrate the potential application of PAGE in multiple research directions. To the best of our knowledge, PAGE is the first dataset with extensive annotation in the game of Go. This work is an extended version of [1] where we perform a more detailed description, analysis, and application.
翻訳日:2022-11-04 13:54:43 公開日:2022-11-03
# ロボット調理におけるタスクツリー検索

Task Tree Retrieval for Robotic Cooking ( http://arxiv.org/abs/2211.01745v1 )

ライセンス: Link先を確認
Sandeep Bondalapati(参考訳) ロボティクスは創造性を育むために使われる。 人間は状況に応じて、独自の方法で仕事をすることができる。 この状況は料理にも当てはまる。 キッチンのロボット技術はプロセスを高速化し、作業量を削減できる。 しかし、キッチンでのロボティクスの可能性はまだ実現されていない。 このエッセイでは、人間の操作からの洞察に基づく構造的知識表現であるFOONが紹介されている。 故障率の低減とタスクが効果的に完了することを保証するため、動作の成功率に応じて重み付けされた値を操作に割り当てる3つの異なるアルゴリズムが実装されている。 この知識表現は、オープンソースレシピのビデオを使って作られた

Robotics is used to foster creativity. Humans can perform jobs in their unique manner, depending on the circumstances. This situation applies to food cooking. Robotic technology in the kitchen can speed up the process and reduce its workload. However, the potential of robotics in the kitchen is still unrealized. In this essay, the idea of FOON, a structural knowledge representation built on insights from human manipulations, is introduced. To reduce the failure rate and ensure that the task is effectively completed, three different algorithms have been implemented where weighted values have been assigned to the manipulations depending on the success rates of motion. This knowledge representation was created using videos of open-sourced recipes
翻訳日:2022-11-04 13:54:30 公開日:2022-11-03
# ソーシャルネットワークにおけるSybil-Proof Diffusionオークション

Sybil-Proof Diffusion Auction in Social Networks ( http://arxiv.org/abs/2211.01984v1 )

ライセンス: Link先を確認
Hongyin Chen, Xiaotie Deng, Ying Wang, Yue Wu, Dengji Zhao(参考訳) 拡散オークションは、ソーシャルネットワーク上で商品を販売する市場であり、既存の購入者にネットワークに隣人を招待して市場に参入させることが課題である。 既存のメカニズムは、非機能、インセンティブ互換性、社会福祉の最大化といった望ましい特性を目指して、様々な場面で課題を解決するために設計されている。 このメカニズムは、常に変化する構造を持つ動的ネットワークで使用されているため、買い手はネットワーク内で偽のノードを生成して、自身の利益のためにメカニズムを操作することができる。 このような攻撃によって、戦略エージェントは既存のメカニズムにおいて不公平な優位性を得る可能性がある。 この潜在的な攻撃に対抗するため,Sybil tax mechanism (STM) とSybil cluster mechanism (SCM) という2つの拡散吸引機構を提案し,Sybil-proofness とインセンティブの両立を実現する。 本提案は,購入者の利益を社会福祉と歳入を軽度に犠牲にしてシビル攻撃から保護する最初のメカニズムを提供する。

A diffusion auction is a market to sell commodities over a social network, where the challenge is to incentivize existing buyers to invite their neighbors in the network to join the market. Existing mechanisms have been designed to solve the challenge in various settings, aiming at desirable properties such as non-deficiency, incentive compatibility and social welfare maximization. Since the mechanisms are employed in dynamic networks with ever-changing structures, buyers could easily generate fake nodes in the network to manipulate the mechanisms for their own benefits, which is commonly known as the Sybil attack. We observe that strategic agents may gain an unfair advantage in existing mechanisms through such attacks. To resist this potential attack, we propose two diffusion auction mechanisms, the Sybil tax mechanism (STM) and the Sybil cluster mechanism (SCM), to achieve both Sybil-proofness and incentive compatibility in the single-item setting. Our proposal provides the first mechanisms to protect the interests of buyers against Sybil attacks with a mild sacrifice of social welfare and revenue.
翻訳日:2022-11-04 13:53:55 公開日:2022-11-03
# 連合学習における顧客選択:原則、課題、機会

Client Selection in Federated Learning: Principles, Challenges, and Opportunities ( http://arxiv.org/abs/2211.01549v1 )

ライセンス: Link先を確認
Lei Fu and Huanle Zhang and Ge Gao and Huajie Wang and Mi Zhang and Xin Liu(参考訳) 機械学習(ML)モデルをトレーニングするためのプライバシ保護パラダイムとして、フェデレートラーニング(FL)は、業界と学術の両方から大きな注目を集めています。 典型的なFLシナリオでは、クライアントはデータ分散とハードウェア構成の点で大きな異質性を示す。 したがって、各トレーニングラウンドのクライアントをランダムにサンプリングすることは、ヘテロジニアスクライアントからのローカル更新を十分に活用できないため、モデルの精度が低下し、収束速度が遅くなり、公平性が低下する。 FLクライアントの不均一性問題に対処するため,様々なクライアント選択アルゴリズムが開発され,性能改善が期待できる。 本稿では,FLクライアント選択の新興分野における最近の進歩とその課題と研究の機会を体系的に提示する。 このエキサイティングな研究トピックをより深く理解するために、アプリケーションに最適なクライアント選択メカニズムを実践者が選択できるようにしたいと思っています。

As a privacy-preserving paradigm for training Machine Learning (ML) models, Federated Learning (FL) has received tremendous attention from both industry and academia. In a typical FL scenario, clients exhibit significant heterogeneity in terms of data distribution and hardware configurations. Thus, randomly sampling clients in each training round may not fully exploit the local updates from heterogeneous clients, resulting in lower model accuracy, slower convergence rate, degraded fairness, etc. To tackle the FL client heterogeneity problem, various client selection algorithms have been developed, showing promising performance improvement. In this paper, we systematically present recent advances in the emerging field of FL client selection and its challenges and research opportunities. We hope to facilitate practitioners in choosing the most suitable client selection mechanisms for their applications, as well as inspire researchers and newcomers to better understand this exciting research topic.
翻訳日:2022-11-04 13:45:27 公開日:2022-11-03
# 自動車軌道モデルの実証ベイズ解析

An Empirical Bayes Analysis of Vehicle Trajectory Models ( http://arxiv.org/abs/2211.01696v1 )

ライセンス: Link先を確認
Yue Yao, Daniel Goehring, Joerg Reichardt(参考訳) モデル車両軌道におけるモデル複雑度と表現誤差のトレードオフに関する詳細な実験的検討を行った。 いくつかの大規模な公開データセットを分析し、単純な線形モデルは、非常に穏健なモデル複雑性において、関連する時間スケールよりも高い忠実度を持つ実世界の軌道を表すことを示す。 この発見により、軌道追跡と予測をベイズフィルタ問題として定式化することができる。 経験的ベイズ法を用いて、軌道追従問題において必要となる運動モデルに通知し、予測モデルの定式化に役立つデータからモデルパラメータに対する事前分布を推定する。 軌道予測タスクにおける線形モデルの使用は,その表現誤差がこのタスクの典型的な認識の不確実性よりもはるかに小さい。

We present an in-depth empirical analysis of the trade-off between model complexity and representation error in modelling vehicle trajectories. Analyzing several large public datasets, we show that simple linear models do represent realworld trajectories with high fidelity over relevant time scales at very moderate model complexity. This finding allows the formulation of trajectory tracking and prediction as a Bayesian filtering problem. Using an Empirical Bayes approach, we estimate prior distributions over model parameters from the data that inform the motion models necessary in the trajectory tracking problem and that can help regularize prediction models. We argue for the use of linear models in trajectory prediction tasks as their representation error is much smaller than the typical epistemic uncertainty in this task.
翻訳日:2022-11-04 13:45:10 公開日:2022-11-03
# 反復反転による学習制御

Learning Control by Iterative Inversion ( http://arxiv.org/abs/2211.01724v1 )

ライセンス: Link先を確認
Gal Leibovich, Guy Jacob, Or Avner, Gal Novik and Aviv Tamar(参考訳) 制御のための学習を$\textit{inverse problem}$-inverting a dynamical system to give the action that yield desired behavior として定式化する。 この定式化における重要な課題は$\textit{distribution shift}$ -- 学習エージェントは実行可能な軌道上でのみ前方マッピング(アクションの結果)を観察し、異なる望ましい振る舞いに対応する入力出力の逆マッピングを学ばなければならない。 分布シフトを伴う逆問題に対する一般的なレシピを提案する。$\textit{iterative inversion}$ -- 現在の入力分布(policy)の下で逆マッピングを学び、所望の出力サンプルで使用して新しい入力を取得し、繰り返す。 このように、反復反転は所望の逆写像に収束するが、写像自体の厳密な条件下では収束する。 次に、制御を学ぶために反復反転を適用する。 提案手法は,トラジェクタの映像埋め込みとして与えられた所望の動作の一連のデモンストレーションであり,ランダムな探索ノイズによって引き起こされる現在の方針によって生じるトラジェクタの模倣を反復的に学習する。 a-la反復反転(a-la iterative inversion)を模倣するトラジェクタを生成する場合、常に実証された軌道が$\textit{as input}$をポリシーに埋め込むことで、望ましい軌道分布への学習が促進される。 私たちの知識を最大限に活用するために、これは逆問題の観点から学習制御を初めて探求するものであり、その主な利点は単純さである -- 報酬は必要とせず、教師付き学習のみを採用し、最先端の軌道埋め込み技術や政策表現に容易にスケールできる。 VQ-VAE埋め込みとトランスフォーマーベースのポリシーにより、いくつかのタスクにおいて非自明な連続制御を示す。 また,報酬に基づく手法と比較して,多様な動作を模倣する性能の向上も報告した。

We formulate learning for control as an $\textit{inverse problem}$ -- inverting a dynamical system to give the actions which yield desired behavior. The key challenge in this formulation is a $\textit{distribution shift}$ -- the learning agent only observes the forward mapping (its actions' consequences) on trajectories that it can execute, yet must learn the inverse mapping for inputs-outputs that correspond to a different, desired behavior. We propose a general recipe for inverse problems with a distribution shift that we term $\textit{iterative inversion}$ -- learn the inverse mapping under the current input distribution (policy), then use it on the desired output samples to obtain new inputs, and repeat. As we show, iterative inversion can converge to the desired inverse mapping, but under rather strict conditions on the mapping itself. We next apply iterative inversion to learn control. Our input is a set of demonstrations of desired behavior, given as video embeddings of trajectories, and our method iteratively learns to imitate trajectories generated by the current policy, perturbed by random exploration noise. We find that constantly adding the demonstrated trajectory embeddings $\textit{as input}$ to the policy when generating trajectories to imitate, a-la iterative inversion, steers the learning towards the desired trajectory distribution. To the best of our knowledge, this is the first exploration of learning control from the viewpoint of inverse problems, and our main advantage is simplicity -- we do not require rewards, and only employ supervised learning, which easily scales to state-of-the-art trajectory embedding techniques and policy representations. With a VQ-VAE embedding, and a transformer-based policy, we demonstrate non-trivial continuous control on several tasks. We also report improved performance on imitating diverse behaviors compared to reward based methods.
翻訳日:2022-11-04 13:44:57 公開日:2022-11-03
# 教師なしアウトリアーモデル選択に向けて

Toward Unsupervised Outlier Model Selection ( http://arxiv.org/abs/2211.01834v1 )

ライセンス: Link先を確認
Yue Zhao, Sean Zhang, Leman Akoglu(参考訳) 現在、文献には外れ値検出アルゴリズムが不足していないが、教師なしの外れ値モデル選択(UOMS)の相補的および重要な問題は大いに検討されている。 そこで本研究では,提案手法であるelectを提案する。outlier detection algorithm と hyperparameter(s) を用いて,ラベルを伴わない新しいデータセットを探索する手法である。 ELECTはメタラーニングに基づいており、UOMSを促進するために新しいものと類似した過去のデータセットに事前の知識(例えばモデルパフォーマンス)を転送する。 ユニークなことに、データセットの類似度尺度はパフォーマンスに基づいており、これは過去に使用された他の指標よりも直接的で目標駆動である。 ELECTは、同様の過去のデータセットを適応的に検索するので、オンデマンドでアウトプットを提供し、さまざまな時間予算に対応できる。 大規模な実験により、ELECTは、モデル選択(iForestのような同じ人気モデルを使うことが多い)や、メタ機能に基づいたより最近の選択戦略を含む、幅広い基本的UOMSベースラインを著しく上回ります。

Today there exists no shortage of outlier detection algorithms in the literature, yet the complementary and critical problem of unsupervised outlier model selection (UOMS) is vastly understudied. In this work we propose ELECT, a new approach to select an effective candidate model, i.e. an outlier detection algorithm and its hyperparameter(s), to employ on a new dataset without any labels. At its core, ELECT is based on meta-learning; transferring prior knowledge (e.g. model performance) on historical datasets that are similar to the new one to facilitate UOMS. Uniquely, it employs a dataset similarity measure that is performance-based, which is more direct and goal-driven than other measures used in the past. ELECT adaptively searches for similar historical datasets, as such, it can serve an output on-demand, being able to accommodate varying time budgets. Extensive experiments show that ELECT significantly outperforms a wide range of basic UOMS baselines, including no model selection (always using the same popular model such as iForest) as well as more recent selection strategies based on meta-features.
翻訳日:2022-11-04 13:44:24 公開日:2022-11-03
# グラフオートエンコーダと線形モデルの関係

Relating graph auto-encoders to linear models ( http://arxiv.org/abs/2211.01858v1 )

ライセンス: Link先を確認
Solveig Klepper and Ulrike von Luxburg(参考訳) グラフオートエンコーダはユークリッドベクトル空間におけるグラフ表現を構築するために広く用いられている。 しかし、多くのタスク上の線形モデルがグラフオートエンコーダより優れていることが実証的に指摘されている。 本研究では,グラフオートエンコーダによって誘導される解空間が線形写像の解空間のサブセットであることを証明する。 これは、線形埋め込みモデルがグラフ畳み込みネットワークに基づくグラフオートエンコーダの表現力を持つことを示す。 ではなぜ非線形グラフオートエンコーダをまだ使っているのか? 一つの理由は、線形解空間を積極的に制限することで、学習と一般化を改善する帰納的バイアスをもたらす可能性があることである。 多くの研究者はこの目的に向けてエンコーダの非線形性が重要な要素であると信じているが、グラフのノード特徴をより強力な帰納バイアスとみなす。 線形モデルに対応するバイアスを導入し、解空間の変化を分析することによって理論的洞察を与える。 実験により,リニアエンコーダは特徴情報を用いて非線形エンコーダよりも優れることを示した。

Graph auto-encoders are widely used to construct graph representations in Euclidean vector spaces. However, it has already been pointed out empirically that linear models on many tasks can outperform graph auto-encoders. In our work, we prove that the solution space induced by graph auto-encoders is a subset of the solution space of a linear map. This demonstrates that linear embedding models have at least the representational power of graph auto-encoders based on graph convolutional networks. So why are we still using nonlinear graph auto-encoders? One reason could be that actively restricting the linear solution space might introduce an inductive bias that helps improve learning and generalization. While many researchers believe that the nonlinearity of the encoder is the critical ingredient towards this end, we instead identify the node features of the graph as a more powerful inductive bias. We give theoretical insights by introducing a corresponding bias in a linear model and analyzing the change in the solution space. Our experiments show that the linear encoder can outperform the nonlinear encoder when using feature information.
翻訳日:2022-11-04 13:44:03 公開日:2022-11-03
# スコアベース生成モデルの改良:最小スムースネス推定に基づくユーザフレンドリな境界

Improved Analysis of Score-based Generative Modeling: User-Friendly Bounds under Minimal Smoothness Assumptions ( http://arxiv.org/abs/2211.01916v1 )

ライセンス: Link先を確認
Hongrui Chen, Holden Lee, Jianfeng Lu(参考訳) 本稿では拡散に基づく生成モデルの理論解析に焦点をあてる。 L^2$-精度スコア推定器の下では,2次モーメントを持つデータ分布に対して,早期停止手法を用いるか,データ分布のスコア関数上での滑らかさ条件を仮定することにより,多項式複雑性を伴う収束保証を提供する。 この結果は任意の対数連結性や関数不等式を前提とせず、滑らかさに対数依存性を持つ。 特に、有限第二モーメント条件の下では、KL の発散を $\epsilon$-accuracy で近似することは $\tilde O\left(\frac{d^2 \log^2 (1/\delta)}{\epsilon^2}\right)$ steps で行うことができる。 1) 任意のデータ分布の分散-$\delta$ gaussian摂動 2) 1/\delta$-smoothスコア関数を持つデータ分布。 我々の理論解析は、異なる離散近似の定量的比較も提供し、実際の離散化点の選択を導くかもしれない。

In this paper, we focus on the theoretical analysis of diffusion-based generative modeling. Under an $L^2$-accurate score estimator, we provide convergence guarantees with polynomial complexity for any data distribution with second-order moment, by either employing an early stopping technique or assuming smoothness condition on the score function of the data distribution. Our result does not rely on any log-concavity or functional inequality assumption and has a logarithmic dependence on the smoothness. In particular, we show that under only a finite second moment condition, approximating the following in KL divergence in $\epsilon$-accuracy can be done in $\tilde O\left(\frac{d^2 \log^2 (1/\delta)}{\epsilon^2}\right)$ steps: 1) the variance-$\delta$ Gaussian perturbation of any data distribution; 2) data distributions with $1/\delta$-smooth score functions. Our theoretical analysis also provides quantitative comparison between different discrete approximations and may guide the choice of discretization points in practice.
翻訳日:2022-11-04 13:43:48 公開日:2022-11-03
# 176Bパラメータ言語モデルBLOOMの炭素フットプリントの推定

Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model ( http://arxiv.org/abs/2211.02001v1 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni, Sylvain Viguier, Anne-Laure Ligozat(参考訳) 機械学習(ML)の進歩には、機械学習モデルのトレーニングにはかなりの計算資源、エネルギー、材料が必要であるため、環境にコストがかかる。 本稿では,176ビリオンパラメータ言語モデルBLOOMの炭素フットプリントをライフサイクル全体にわたって定量化することを目的とする。 BLOOMの最終訓練は, 機器製造からエネルギー利用までの全プロセスを考慮した場合, 動的電力消費のみを考慮した場合, 約24.7トン, 50.5トンと見積もられた。 また,ユーザクエリをリアルタイムで受信するAPIエンドポイントを通じて,そのデプロイメントのエネルギー要件と二酸化炭素排出量についても検討する。 最後に、mlモデルの炭素フットプリントを正確に推定することの難しさと、炭素排出量報告の改善に寄与する今後の研究方向について論じる。

Progress in machine learning (ML) comes with a cost to the environment, given that training ML models requires significant computational resources, energy and materials. In the present article, we aim to quantify the carbon footprint of BLOOM, a 176-billion parameter language model, across its life cycle. We estimate that BLOOM's final training emitted approximately 24.7 tonnes of~\carboneq~if we consider only the dynamic power consumption, and 50.5 tonnes if we account for all processes ranging from equipment manufacturing to energy-based operational consumption. We also study the energy requirements and carbon emissions of its deployment for inference via an API endpoint receiving user queries in real-time. We conclude with a discussion regarding the difficulty of precisely estimating the carbon footprint of ML models and future research directions that can contribute towards improving carbon emissions reporting.
翻訳日:2022-11-04 13:43:25 公開日:2022-11-03
# プレトレーニングプレーンビジョントランスにおける階層性の再考

Rethinking Hierarchicies in Pre-trained Plain Vision Transformer ( http://arxiv.org/abs/2211.01785v1 )

ライセンス: Link先を確認
Yufei Xu, Jing Zhang, Qiming Zhang and Dacheng Tao(参考訳) マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。 しかし、カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使う代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。 さらに重要なのは、これらの階層的なViTは通常のViTの既修重量を再利用できないため、事前学習の要求は膨大な計算コストをもたらし、アルゴリズムと計算の複雑さが生じる。 本稿では,階層型アーキテクチャ設計を自己指導型事前学習から切り離すという新しい考え方を提案する。 私たちは、平易なViTを最小限の変更で階層的なものにします。 技術的には、線形埋め込み層のストライドを16から4に変更し、変圧器ブロック間の畳み込み(あるいは単純な平均)層を追加し、1/4から1/32に順次特徴量を減少させる。 その単純さにもかかわらず、ImageNet、MS COCO、Cityscapes、ADE20Kベンチマークの分類、検出、セグメンテーションタスクにおいて、通常のViTベースラインを上回っている。 この予備研究は、市販のチェックポイントを利用して事前訓練コストを回避しつつ、効果的な(階層的な)vitの開発にコミュニティの関心を惹きつけることを期待している。 コードとモデルはhttps://github.com/ViTAE-Transformer/HPViTでリリースされる。

Self-supervised pre-training vision transformer (ViT) via masked image modeling (MIM) has been proven very effective. However, customized algorithms should be carefully designed for the hierarchical ViTs, e.g., GreenMIM, instead of using the vanilla and simple MAE for the plain ViT. More importantly, since these hierarchical ViTs cannot reuse the off-the-shelf pre-trained weights of the plain ViTs, the requirement of pre-training them leads to a massive amount of computational cost, thereby incurring both algorithmic and computational complexity. In this paper, we address this problem by proposing a novel idea of disentangling the hierarchical architecture design from the self-supervised pre-training. We transform the plain ViT into a hierarchical one with minimal changes. Technically, we change the stride of linear embedding layer from 16 to 4 and add convolution (or simple average) pooling layers between the transformer blocks, thereby reducing the feature size from 1/4 to 1/32 sequentially. Despite its simplicity, it outperforms the plain ViT baseline in classification, detection, and segmentation tasks on ImageNet, MS COCO, Cityscapes, and ADE20K benchmarks, respectively. We hope this preliminary study could draw more attention from the community on developing effective (hierarchical) ViTs while avoiding the pre-training cost by leveraging the off-the-shelf checkpoints. The code and models will be released at https://github.com/ViTAE-Transformer/HPViT.
翻訳日:2022-11-04 13:37:53 公開日:2022-11-03
# 正常動脈および疾患動脈のct冠動脈造影画像、注釈および関連データ

Computed tomography coronary angiogram images, annotations and associated data of normal and diseased arteries ( http://arxiv.org/abs/2211.01859v1 )

ライセンス: Link先を確認
Ramtin Gharleghi, Dona Adikari, Katy Ellenberger, Mark Webster, Chris Ellis, Arcot Sowmya, Sze-Yuan Ooi, Susann Beier(参考訳) ct冠動脈造影(ctca)は、冠動脈の解剖と疾患を評価する非侵襲的方法である。 CTCAは冠動脈の仮想モデルを作成するのに最適である。 私たちの知る限り、全冠ツリーのセンタラインとセグメンテーションを含む公開データセットはありません。 正常20例, 疾患20例において, 冠状路の中心線, 石灰化スコア, メッシュの形で, 匿名化CTCA画像, ボクセルアノテーションおよび関連データを提供する。 画像は患者の情報とともに、Corronary Atlas (https://www.coronaryatlas.org/)の一部として、インフォームドされた同意書とともに得られた。 症例は正常(狭窄の兆候のないゼロカルシウムスコア)または病状(確認冠状動脈疾患)に分類された。 3人の専門家による手作業によるvoxel-wiseセグメンテーションは、多数決によって最終的なアノテーションを生成するために組み合わせられた。 提供されたデータは、3dプリンティングの患者固有のモデル、セグメンテーションアルゴリズムの開発と検証、医療関係者の教育と訓練、医療機器のテストなど、様々な研究目的に使用できる。

Computed Tomography Coronary Angiography (CTCA) is a non-invasive method to evaluate coronary artery anatomy and disease. CTCA is ideal for geometry reconstruction to create virtual models of coronary arteries. To our knowledge there is no public dataset that includes centrelines and segmentation of the full coronary tree. We provide anonymized CTCA images, voxel-wise annotations and associated data in the form of centrelines, calcification scores and meshes of the coronary lumen in 20 normal and 20 diseased cases. Images were obtained along with patient information with informed, written consent as part of Coronary Atlas (https://www.coronaryatlas.org/). Cases were classified as normal (zero calcium score with no signs of stenosis) or diseased (confirmed coronary artery disease). Manual voxel-wise segmentations by three experts were combined using majority voting to generate the final annotations. Provided data can be used for a variety of research purposes, such as 3D printing patient-specific models, development and validation of segmentation algorithms, education and training of medical personnel and in-silico analyses such as testing of medical devices.
翻訳日:2022-11-04 13:37:03 公開日:2022-11-03
# 半教師付き医用画像分割における生成モデルの有効性の検討

Analysing the effectiveness of a generative model for semi-supervised medical image segmentation ( http://arxiv.org/abs/2211.01886v1 )

ライセンス: Link先を確認
Margherita Rosnati, Fabio De Sousa Ribeiro, Miguel Monteiro, Daniel Coelho de Castro, Ben Glocker(参考訳) 画像分割は医療画像において重要であり、診断、治療、介入における臨床的意思決定のための貴重な量的情報を提供する。 自動セグメンテーションの最先端は依然として教師付き学習であり、U-Netのような差別モデルを採用している。 しかし、これらのモデルのトレーニングには大量の手動ラベル付きデータへのアクセスが必要であり、実際の医学的応用では入手が困難であることが多い。 このような環境では、半教師付き学習(SSL)は、より堅牢で信頼性の高いモデルを得るために、重複のないデータの豊富さを活用する。 近年、sslの魅力的な選択をするため、セマンティックセグメンテーションのための生成モデルが提案されている。 入力画像と出力ラベルマップのジョイント分布をキャプチャする能力は、ラベルのない画像から情報を組み込む自然な方法を提供する。 本稿では,セマンティックGANのような深部生成モデルが,医用画像分割問題に挑戦するための真の代替手段であるかどうかを考察する。 そこで我々は,大規模で公開可能な胸部X線データセットに適用した場合,識別的・生成的セグメンテーション手法のセグメンテーション性能,ロバスト性,潜在的サブグループ差を徹底的に評価した。

Image segmentation is important in medical imaging, providing valuable, quantitative information for clinical decision-making in diagnosis, therapy, and intervention. The state-of-the-art in automated segmentation remains supervised learning, employing discriminative models such as U-Net. However, training these models requires access to large amounts of manually labelled data which is often difficult to obtain in real medical applications. In such settings, semi-supervised learning (SSL) attempts to leverage the abundance of unlabelled data to obtain more robust and reliable models. Recently, generative models have been proposed for semantic segmentation, as they make an attractive choice for SSL. Their ability to capture the joint distribution over input images and output label maps provides a natural way to incorporate information from unlabelled images. This paper analyses whether deep generative models such as the SemanticGAN are truly viable alternatives to tackle challenging medical image segmentation problems. To that end, we thoroughly evaluate the segmentation performance, robustness, and potential subgroup disparities of discriminative and generative segmentation methods when applied to large-scale, publicly available chest X-ray datasets.
翻訳日:2022-11-04 13:36:45 公開日:2022-11-03
# フォトリアリスティック顔のしわ除去

Photorealistic Facial Wrinkles Removal ( http://arxiv.org/abs/2211.01930v1 )

ライセンス: Link先を確認
Marcelo Sanchez and Gil Triginer and Coloma Ballester and Lara Raad and Eduard Ramon(参考訳) 顔の属性の編集と修正は複雑な作業であり、通常は人間のアーティストが写真リアルな結果を得る必要がある。 その用途は多様であり、化粧品やデジタルメディアのリタッチといったいくつかの文脈で見られる。 近年,条件付き生成モデリングの進歩は,表情属性のリアルな修正に驚くべき結果をもたらしている。 しかし、現在の方法はまだアーティファクトになりがちで、年齢や性別のようなグローバル属性や、メガネや口ひげのようなローカルな中規模属性の修正に焦点が当てられている。 本研究では,顔のしわを修復するための2段階のアプローチを再考し,前例のない現実主義による結果を得る。 第一に、顔領域内のしわを検出するために、アートしわセグメントネットワークの状態を用いる。 次に、検出されたしわを除去するために塗工モジュールを使用し、周囲の皮膚と統計的に一致するテクスチャを充填する。 そこで本研究では,シワセグメンテーションネットワークを再利用し,シワを含む領域を塗りつぶし後にペナルティ化する新しい損失項を提案する。 本手法を定性的・定量的に評価し,ニワトリ除去作業の成果を定量的に評価した。 さらに, FFHQ-Wrinklesと呼ばれる最初の高分解能データセットを導入し, ひび割れ検出手法の評価を行った。

Editing and retouching facial attributes is a complex task that usually requires human artists to obtain photo-realistic results. Its applications are numerous and can be found in several contexts such as cosmetics or digital media retouching, to name a few. Recently, advancements in conditional generative modeling have shown astonishing results at modifying facial attributes in a realistic manner. However, current methods are still prone to artifacts, and focus on modifying global attributes like age and gender, or local mid-sized attributes like glasses or moustaches. In this work, we revisit a two-stage approach for retouching facial wrinkles and obtain results with unprecedented realism. First, a state of the art wrinkle segmentation network is used to detect the wrinkles within the facial region. Then, an inpainting module is used to remove the detected wrinkles, filling them in with a texture that is statistically consistent with the surrounding skin. To achieve this, we introduce a novel loss term that reuses the wrinkle segmentation network to penalize those regions that still contain wrinkles after the inpainting. We evaluate our method qualitatively and quantitatively, showing state of the art results for the task of wrinkle removal. Moreover, we introduce the first high-resolution dataset, named FFHQ-Wrinkles, to evaluate wrinkle detection methods.
翻訳日:2022-11-04 13:36:25 公開日:2022-11-03
# マルチイルミナント推定のためのcnnカラーコンステンシー法の再検討と最適化

Revisiting and Optimising a CNN Colour Constancy Method for Multi-Illuminant Estimation ( http://arxiv.org/abs/2211.01946v1 )

ライセンス: Link先を確認
Ghalia Hemrit and Joseph Meehan(参考訳) 色の一貫性の目的は、シーンの照明効果を画像の色から消し去り、物体の色を「白い」照明下で捉えたように復元することである。 カラーコンステンシー法の大部分において、最初のステップはシーンの照度を推定することである。 一般的には、照明は一様であると考えられている。 しかし、現実世界のシーンには、日光やスポットライトなど複数の照明が1つのシーンにまとめられている。 本稿では,深層cnnを用いたカラーコンステンシーのための多色イルミナントの推定と利用のための簡易かつ極めて効果的なフレームワークを提案する。 このアプローチは、マルチとシングルの照度の両方でうまく機能する。 cnn法による出力は、画像から滑らかに分割して色構成を行うシーンの地域別推定マップである。 提案手法は,近年の工法と技術の現状に優れ,有望な視覚的結果が得られる。

The aim of colour constancy is to discount the effect of the scene illumination from the image colours and restore the colours of the objects as captured under a 'white' illuminant. For the majority of colour constancy methods, the first step is to estimate the scene illuminant colour. Generally, it is assumed that the illumination is uniform in the scene. However, real world scenes have multiple illuminants, like sunlight and spot lights all together in one scene. We present in this paper a simple yet very effective framework using a deep CNN-based method to estimate and use multiple illuminants for colour constancy. Our approach works well in both the multi and single illuminant cases. The output of the CNN method is a region-wise estimate map of the scene which is smoothed and divided out from the image to perform colour constancy. The method that we propose outperforms other recent and state of the art methods and has promising visual results.
翻訳日:2022-11-04 13:36:03 公開日:2022-11-03
# SAP-DETR:高速モデル収束のためのサージェントポイントとキューベーストランス検出器間のギャップを埋める

SAP-DETR: Bridging the Gap Between Salient Points and Queries-Based Transformer Detector for Fast Model Convergency ( http://arxiv.org/abs/2211.02006v1 )

ライセンス: Link先を確認
Yang Liu, Yao Zhang, Yixin Wang, Yang Zhang, Jiang Tian, Zhongchao Shi, Jianping Fan, Zhiqiang He(参考訳) 近年、支配的なDETRベースのアプローチはトランスフォーマー検出器の収束を加速するために中心概念空間を適用している。 これらの手法は,対象対象物の中心への参照点を徐々に洗練し,更新された集中参照情報を用いて空間的注意を喚起する。 しかしながら、参照ポイントの集中化はクエリの給与を著しく低下させ、非差別的な空間的プリミティブのために検出器を混乱させる可能性がある。 本稿では,問合せの基準点とトランス検出器とのギャップを埋めるため,問合せ点からインスタンスオブジェクトへの変換として対象検出を扱い,問合せ点に基づくdetr(sap-detr)を提案する。 SAP-DETRでは、各オブジェクトクエリに対してクエリ固有の参照ポイントを明示的に初期化し、徐々にインスタンスオブジェクトに集約し、バウンディングボックスの両側からこれらのポイントまでの距離を予測する。 画像特徴からクエリ固有参照領域や他の条件極端領域に迅速に参加することにより、SAP-DETRは、サージェントポイントとクエリベースのトランスフォーマー検出器とのギャップを、かなりの収束速度で効果的に橋渡しすることができる。 我々は,SAP-DETRが競争性能の1.4倍の収束速度を達成できることを実証した。 標準トレーニングスキームでは、SAP-DETRは1.0 APでSOTAアプローチを安定的に促進する。 ResNet-DC-101に基づいて、SAP-DETRは46.9 APを達成した。

Recently, the dominant DETR-based approaches apply central-concept spatial prior to accelerate Transformer detector convergency. These methods gradually refine the reference points to the center of target objects and imbue object queries with the updated central reference information for spatially conditional attention. However, centralizing reference points may severely deteriorate queries' saliency and confuse detectors due to the indiscriminative spatial prior. To bridge the gap between the reference points of salient queries and Transformer detectors, we propose SAlient Point-based DETR (SAP-DETR) by treating object detection as a transformation from salient points to instance objects. In SAP-DETR, we explicitly initialize a query-specific reference point for each object query, gradually aggregate them into an instance object, and then predict the distance from each side of the bounding box to these points. By rapidly attending to query-specific reference region and other conditional extreme regions from the image features, SAP-DETR can effectively bridge the gap between the salient point and the query-based Transformer detector with a significant convergency speed. Our extensive experiments have demonstrated that SAP-DETR achieves 1.4 times convergency speed with competitive performance. Under the standard training scheme, SAP-DETR stably promotes the SOTA approaches by 1.0 AP. Based on ResNet-DC-101, SAP-DETR achieves 46.9 AP.
翻訳日:2022-11-04 13:35:50 公開日:2022-11-03
# 巨大事前学習画像モデルは普遍表現を抽出できるか?

Could Giant Pretrained Image Models Extract Universal Representations? ( http://arxiv.org/abs/2211.02043v1 )

ライセンス: Link先を確認
Yutong Lin, Ze Liu, Zheng Zhang, Han Hu, Nanning Zheng, Stephen Lin, Yue Cao(参考訳) 凍結事前学習モデルは、転送学習のための訓練済みのファインチューニングパラダイムの代替となる。 しかし、凍ったモデルでは下流のタスクに適応するためのパラメータが比較的少なく、入力/出力形式や価値ある情報の種類によってタスクが大きく異なるコンピュータビジョンでは問題となる。 本稿では,オブジェクト検出,意味セグメンテーション,ビデオアクション認識など,多様で代表的なコンピュータビジョンタスクに適用した場合の凍結事前学習モデルについて検討する。 この経験的分析から,私たちの研究は,この凍結設定に最も適合するプリトレーニングタスクは何か,冷凍設定をさまざまな下流タスクに柔軟にする方法,より大きなモデルサイズの影響について回答する。 さらに,30億のパラメータを持つ巨大凍結事前学習モデル(SwinV2-G)を用いて,COCOオブジェクト検出テストデブの60.0ボックスmAPと52.2マスクmAP,ADE20Kセマンティックセグメンテーションの57.6ヴァルmIoU,Kinetics-400アクション認識の81.7トップ-1の精度で,共有冷凍ベースネットワークの多種多様なベンチマーク上での競合性能を達成した。 この研究により、予め訓練された画像モデルを凍結するこの将来性のある経路に、より注意を向けることを期待します。

Frozen pretrained models have become a viable alternative to the pretraining-then-finetuning paradigm for transfer learning. However, with frozen models there are relatively few parameters available for adapting to downstream tasks, which is problematic in computer vision where tasks vary significantly in input/output format and the type of information that is of value. In this paper, we present a study of frozen pretrained models when applied to diverse and representative computer vision tasks, including object detection, semantic segmentation and video action recognition. From this empirical analysis, our work answers the questions of what pretraining task fits best with this frozen setting, how to make the frozen setting more flexible to various downstream tasks, and the effect of larger model sizes. We additionally examine the upper bound of performance using a giant frozen pretrained model with 3 billion parameters (SwinV2-G) and find that it reaches competitive performance on a varied set of major benchmarks with only one shared frozen base network: 60.0 box mAP and 52.2 mask mAP on COCO object detection test-dev, 57.6 val mIoU on ADE20K semantic segmentation, and 81.7 top-1 accuracy on Kinetics-400 action recognition. With this work, we hope to bring greater attention to this promising path of freezing pretrained image models.
翻訳日:2022-11-04 13:35:22 公開日:2022-11-03
# 地平面問題:単眼3次元物体検出に先立って地平面を拾うこと

Ground Plane Matters: Picking Up Ground Plane Prior in Monocular 3D Object Detection ( http://arxiv.org/abs/2211.01556v1 )

ライセンス: Link先を確認
Fan Yang, Xinhao Xu, Hui Chen, Yuchen Guo, Jungong Han, Kai Ni, Guiguang Ding(参考訳) 接地平面は、単眼3次元物体検出(m3od)において非常に有益な幾何学的手がかりである。 しかし、ほとんどの主流の手法では無視されている。 本稿では,先行する接地面の適用性を制限する2つの重要な要因,すなわち投射点位置決め問題と接地面傾斜問題を特定する。 M3ODに先立って地上機を拾うために,両問題を一度に解決する地上機拡張ネットワーク(GPENet)を提案する。 3dバウンディングボックス(bbox)のボトム頂点やボトムセンターを使用する代わりに、画像中の明示的なピクセルであり、ニューラルネットワークが検出しやすいオブジェクトの接点を利用する。 地平面傾斜問題に対して、GPENetは画像の水平線を推定し、地平面方程式を正確に推定する新しい数学的表現を導出する。 水平線の閉塞に対処するために教師なし垂直エッジマイニングアルゴリズムも提案されている。 さらに, 高精度な接触点と接地平面方程式を活用できる動的バックプロジェクション法に基づいて, 新たな3次元バウンディングボックス推定法を考案した。 さらに、m3odラベルのみを使用することで、追加のデータ収集やラベルアノテーションコストなしで、コンタクトポイントとホライズラインの擬似ラベルを簡単に生成できる。 KITTIベンチマークの大規模な実験により、我々のGPENetは、他の手法よりも優れ、最先端のパフォーマンスを達成でき、提案手法の有効性と優位性を十分に示している。 さらに,我々のGPENetはnuScenesデータセットのクロスデータセット評価において,他の手法よりも優れている。 私たちのコードとモデルは公開されます。

The ground plane prior is a very informative geometry clue in monocular 3D object detection (M3OD). However, it has been neglected by most mainstream methods. In this paper, we identify two key factors that limit the applicability of ground plane prior: the projection point localization issue and the ground plane tilt issue. To pick up the ground plane prior for M3OD, we propose a Ground Plane Enhanced Network (GPENet) which resolves both issues at one go. For the projection point localization issue, instead of using the bottom vertices or bottom center of the 3D bounding box (BBox), we leverage the object's ground contact points, which are explicit pixels in the image and easy for the neural network to detect. For the ground plane tilt problem, our GPENet estimates the horizon line in the image and derives a novel mathematical expression to accurately estimate the ground plane equation. An unsupervised vertical edge mining algorithm is also proposed to address the occlusion of the horizon line. Furthermore, we design a novel 3D bounding box deduction method based on a dynamic back projection algorithm, which could take advantage of the accurate contact points and the ground plane equation. Additionally, using only M3OD labels, contact point and horizon line pseudo labels can be easily generated with NO extra data collection and label annotation cost. Extensive experiments on the popular KITTI benchmark show that our GPENet can outperform other methods and achieve state-of-the-art performance, well demonstrating the effectiveness and the superiority of the proposed approach. Moreover, our GPENet works better than other methods in cross-dataset evaluation on the nuScenes dataset. Our code and models will be published.
翻訳日:2022-11-04 13:28:23 公開日:2022-11-03
# PolyBuilding: エンド・ツー・エンドビルディング抽出用ポリゴントランス

PolyBuilding: Polygon Transformer for End-to-End Building Extraction ( http://arxiv.org/abs/2211.01589v1 )

ライセンス: Link先を確認
Yuan Hu, Zhibin Wang, Zhou Huang, Yu Liu(参考訳) 完全エンドツーエンドのポリゴントランスであるPolyBuildingについて述べる。 polybuilding directはリモートセンシング画像から建物のベクトル表現を予測する。 エンコーダ-デコーダトランスフォーマーアーキテクチャを基盤とし、ビルディングバウンディングボックスとポリゴンを同時に出力する。 ポリゴンクエリの集合が与えられると、モデルはそれらの関係を学習し、画像からコンテキスト情報をエンコードし、固定された頂点数を持つ多角形の構築の最終集合を予測する。 コーナー分類は、推定中に建物壁に沿って冗長な頂点を除去するために使用できる、サンプルされたポイントと建物コーナーを区別するために行われる。 さらに1次元非最大抑制 (NMS) を適用し, 建物角近傍の頂点冗長性を低減する。 精製操作により、正規形状と低複雑性のポリゴンを効果的に得ることができる。 CrowdAIデータセットで包括的な実験が行われる。 定量的および定性的な結果から,本手法は従来の多角形構造抽出法よりも高い性能を示した。 また、ピクセルレベルのカバレッジ、インスタンスレベルの精度とリコール、および幾何レベルの特性(輪郭の正則性やポリゴンの複雑さを含む)の点で、新しい最先端技術を実現している。

We present PolyBuilding, a fully end-to-end polygon Transformer for building extraction. PolyBuilding direct predicts vector representation of buildings from remote sensing images. It builds upon an encoder-decoder transformer architecture and simultaneously outputs building bounding boxes and polygons. Given a set of polygon queries, the model learns the relations among them and encodes context information from the image to predict the final set of building polygons with fixed vertex numbers. Corner classification is performed to distinguish the building corners from the sampled points, which can be used to remove redundant vertices along the building walls during inference. A 1-d non-maximum suppression (NMS) is further applied to reduce vertex redundancy near the building corners. With the refinement operations, polygons with regular shapes and low complexity can be effectively obtained. Comprehensive experiments are conducted on the CrowdAI dataset. Quantitative and qualitative results show that our approach outperforms prior polygonal building extraction methods by a large margin. It also achieves a new state-of-the-art in terms of pixel-level coverage, instance-level precision and recall, and geometry-level properties (including contour regularity and polygon complexity).
翻訳日:2022-11-04 13:27:55 公開日:2022-11-03
# $\mathcal{x}$-metric:n-次元情報理論によるグループ登録とディープコンバインドコンピューティングの枠組み

$\mathcal{X}$-Metric: An N-Dimensional Information-Theoretic Framework for Groupwise Registration and Deep Combined Computing ( http://arxiv.org/abs/2211.01631v1 )

ライセンス: Link先を確認
Xinzhe Luo and Xiahai Zhuang(参考訳) 本稿では,統計的依存性を推定し,任意の数の医療画像間の解剖学的対応を見出すための汎用的確率的枠組みを提案する。 本手法は,一般解剖学を潜伏変数として表現し,非パラメトリック推定器を用いて外観モデルを推定することにより,N$次元関節強度分布の新たな定式化に基づいている。 最大可能性と期待最大化アルゴリズムとの接続により、$\mathcal{X}$-metric と呼ばれる Information\hyp{} 理論メトリックと $\mathcal{X}$-CoReg という共登録アルゴリズムが誘導され、$N$ 観測された画像を$\mathcal{O}(N)$の計算複雑性でグループ的に登録できる。 さらに、特定の画像の解剖学的ラベルが提供される弱制御シナリオに対して、本手法は自然に拡張される。 これにより、ディープラーニングで実装された複合型\hyp{}計算フレームワークが、エンドツーエンドで同時かつ協調的に登録およびセグメンテーションを実行する。 マルチモーダル・グループワイド・レジストレーション,ダイナミックコントラスト強調磁気共鳴画像の運動補正,マルチモーダル・メディカル・イメージのディープ・コンバインド・コンピューティングなど,モデルの汎用性と適用性を示す実験を行った。 その結果,本手法の精度と効率の両面から,様々な応用において優位性を示し,提案した画像の表現の利点を浮き彫りにした。

This paper presents a generic probabilistic framework for estimating the statistical dependency and finding the anatomical correspondences among an arbitrary number of medical images. The method builds on a novel formulation of the $N$-dimensional joint intensity distribution by representing the common anatomy as latent variables and estimating the appearance model with nonparametric estimators. Through connection to maximum likelihood and the expectation-maximization algorithm, an information\hyp{}theoretic metric called $\mathcal{X}$-metric and a co-registration algorithm named $\mathcal{X}$-CoReg are induced, allowing groupwise registration of the $N$ observed images with computational complexity of $\mathcal{O}(N)$. Moreover, the method naturally extends for a weakly-supervised scenario where anatomical labels of certain images are provided. This leads to a combined\hyp{}computing framework implemented with deep learning, which performs registration and segmentation simultaneously and collaboratively in an end-to-end fashion. Extensive experiments were conducted to demonstrate the versatility and applicability of our model, including multimodal groupwise registration, motion correction for dynamic contrast enhanced magnetic resonance images, and deep combined computing for multimodal medical images. Results show the superiority of our method in various applications in terms of both accuracy and efficiency, highlighting the advantage of the proposed representation of the imaging process.
翻訳日:2022-11-04 13:27:35 公開日:2022-11-03
# ビデオ超解像のためのフレーム間一貫性学習

Temporal Consistency Learning of inter-frames for Video Super-Resolution ( http://arxiv.org/abs/2211.01639v1 )

ライセンス: Link先を確認
Meiqin Liu, Shuo Jin, Chao Yao, Chunyu Lin and Yao Zhao(参考訳) ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。 重要な操作は、現在のフレーム再構築に相対的不整合フレームを利用し、結果の整合性を維持することである。 既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。 しかし、フレーム間の時間的一貫性に注目する研究はほとんどない。 本稿では,再建されたビデオの一貫性を高めるために,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。 時空間安定モジュールはフレーム間の自己アライメントを学習するために設計されている。 特に相関マッチングを用いて各フレームからの空間依存を利用して構造安定性を維持する。 さらに、自己注意機構を用いて時間対応を学習し、多フレーム間の時間整合性に適応的なワープ操作を実装する。 さらに、短期的および長期的な情報を活用するために、ハイブリッドリカレントアーキテクチャが設計されている。 さらに,時空間特徴の多段階融合を行うためのプログレッシブ融合モジュールを提案する。 そして、最終的に復元されたフレームは、これらの融合した特徴によって洗練される。 様々な実験の客観的および主観的な結果から、TCNetはいくつかの最先端手法と比較して、異なるベンチマークデータセットで優れた性能を示している。

Video super-resolution (VSR) is a task that aims to reconstruct high-resolution (HR) frames from the low-resolution (LR) reference frame and multiple neighboring frames. The vital operation is to utilize the relative misaligned frames for the current frame reconstruction and preserve the consistency of the results. Existing methods generally explore information propagation and frame alignment to improve the performance of VSR. However, few studies focus on the temporal consistency of inter-frames. In this paper, we propose a Temporal Consistency learning Network (TCNet) for VSR in an end-to-end manner, to enhance the consistency of the reconstructed videos. A spatio-temporal stability module is designed to learn the self-alignment from inter-frames. Especially, the correlative matching is employed to exploit the spatial dependency from each frame to maintain structural stability. Moreover, a self-attention mechanism is utilized to learn the temporal correspondence to implement an adaptive warping operation for temporal consistency among multi-frames. Besides, a hybrid recurrent architecture is designed to leverage short-term and long-term information. We further present a progressive fusion module to perform a multistage fusion of spatio-temporal features. And the final reconstructed frames are refined by these fused features. Objective and subjective results of various experiments demonstrate that TCNet has superior performance on different benchmark datasets, compared to several state-of-the-art methods.
翻訳日:2022-11-04 13:27:04 公開日:2022-11-03
# PointSee:イメージがポイントクラウドを強化

PointSee: Image Enhances Point Cloud ( http://arxiv.org/abs/2211.01664v1 )

ライセンス: Link先を確認
Lipeng Gu, Xuefeng Yan, Peng Cui, Lina Gong, Haoran Xie, Fu Lee Wang, Jin Qin, and Mingqiang Wei(参考訳) 3dオブジェクト検出のためのマルチモーダル情報を融合する傾向(3od)がある。 しかし,低軽量化,プラグアンドプレイの柔軟性の低下,不正確な機能アライメントといった問題はまだ解決されていない。 シーンイメージを組み込んだLiDAR点雲のセマンティックな特徴強化により,様々な3ODネットワークを容易にする軽量でフレキシブルで効果的なマルチモーダル融合ソリューションであるPointSeeを提案する。 HMは2D画像情報を用いて、オフラインの融合方式でLiDARポイントクラウドをデコレートし、既存の3ODネットワークを最小あるいは全く適応させ、SMは、ポイントワイドなセマンティック特徴を取得してLiDARポイントクラウドをさらに強化し、既存の3ODネットワークの性能を高める。 PointSeeの新しいアーキテクチャに加えて,2次元オブジェクト検出ネットワークの潜在的な不正確な回帰を緩和する,シンプルで効率的なトレーニング戦略を提案する。 ポピュラーな屋外/室内ベンチマークに関する大規模な実験は、20以上の最先端技術に対するPointSeeの数値的な改善を示している。

There is a trend to fuse multi-modal information for 3D object detection (3OD). However, the challenging problems of low lightweightness, poor flexibility of plug-and-play, and inaccurate alignment of features are still not well-solved, when designing multi-modal fusion newtorks. We propose PointSee, a lightweight, flexible and effective multi-modal fusion solution to facilitate various 3OD networks by semantic feature enhancement of LiDAR point clouds assembled with scene images. Beyond the existing wisdom of 3OD, PointSee consists of a hidden module (HM) and a seen module (SM): HM decorates LiDAR point clouds using 2D image information in an offline fusion manner, leading to minimal or even no adaptations of existing 3OD networks; SM further enriches the LiDAR point clouds by acquiring point-wise representative semantic features, leading to enhanced performance of existing 3OD networks. Besides the new architecture of PointSee, we propose a simple yet efficient training strategy, to ease the potential inaccurate regressions of 2D object detection networks. Extensive experiments on the popular outdoor/indoor benchmarks show numerical improvements of our PointSee over twenty-two state-of-the-arts.
翻訳日:2022-11-04 13:26:40 公開日:2022-11-03
# コンピュータビジョンにおける物理的敵の攻撃と防御:調査

Physically Adversarial Attacks and Defenses in Computer Vision: A Survey ( http://arxiv.org/abs/2211.01671v1 )

ライセンス: Link先を確認
Xingxing Wei, Bangzheng Pu, Jiefan Lu, and Baoyuan Wu(参考訳) ディープニューラルネットワーク(DNN)は様々な現実世界のシナリオで広く応用されているが、敵の例には弱い。 コンピュータビジョンにおける現在の敵攻撃は、それぞれの攻撃形態に応じてデジタル攻撃と物理的攻撃に分けられる。 デジタルピクセルの摂動を発生させるデジタルアタックと比較して、物理的なアタックは現実の世界でより実用的である。 物理的に敵対的な事例によって引き起こされる深刻なセキュリティ問題により、過去数年間のDNNの物理的敵対的堅牢性を評価するために多くの研究が提案されている。 本稿では,コンピュータビジョンにおける現在の物理的敵攻撃と物理的敵防御に対する調査を要約する。 分類の確立のために,攻撃タスク,攻撃形態,攻撃方法から,現在行われている物理的攻撃を整理する。 したがって、読者は異なる側面からこのトピックについて体系的な知識を得ることができる。 物理的防衛については,DNNモデルに対する前処理,内処理,後処理による分類を確立し,敵防衛を全面的に網羅する。 以上より,本研究分野の課題を論じ,今後の方向性を考察する。

Although Deep Neural Networks (DNNs) have been widely applied in various real-world scenarios, they are vulnerable to adversarial examples. The current adversarial attacks in computer vision can be divided into digital attacks and physical attacks according to their different attack forms. Compared with digital attacks, which generate perturbations in the digital pixels, physical attacks are more practical in the real world. Owing to the serious security problem caused by physically adversarial examples, many works have been proposed to evaluate the physically adversarial robustness of DNNs in the past years. In this paper, we summarize a survey versus the current physically adversarial attacks and physically adversarial defenses in computer vision. To establish a taxonomy, we organize the current physical attacks from attack tasks, attack forms, and attack methods, respectively. Thus, readers can have a systematic knowledge about this topic from different aspects. For the physical defenses, we establish the taxonomy from pre-processing, in-processing, and post-processing for the DNN models to achieve a full coverage of the adversarial defenses. Based on the above survey, we finally discuss the challenges of this research field and further outlook the future direction.
翻訳日:2022-11-04 13:26:18 公開日:2022-11-03
# 仮想画像の学習における進歩的変換学習

Progressive Transformation Learning For Leveraging Virtual Images in Training ( http://arxiv.org/abs/2211.01778v1 )

ライセンス: Link先を確認
Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra Shikhar Bhattacharyya(参考訳) 人間のような対象物を検出するために、UAVベースの画像を効果的に尋問するためには、広く異なる視点から捉えたさまざまなポーズを持つ人間のインスタンスを含む大規模なUAVベースのデータセットを取得することが不可欠である。 作業的かつコストのかかるデータキュレーションの代替手段として,本研究では,改良現実主義による変換仮想画像の追加により,徐々にトレーニングデータセットを増強するプログレッシブトランスフォーメーション・トランスフォーメーション・ラーニング(ptl)を導入する。 一般的に、条件付きganフレームワークにおけるvirtual2real transformation generatorは、実画像と仮想画像の間に大きなドメインギャップが存在する場合の品質低下に苦しむ。 ドメインギャップに対処するため、PTLは以下の3つのステップを段階的に反復する新しいアプローチを採用している。 1) 領域ギャップに応じて仮想画像のプールからサブセットを選択する。 2)選択した仮想画像から現実性を高めること、及び 3) 変換された仮想イメージをトレーニングセットに追加し,プールから削除する。 PTLでは、ドメインギャップを正確に定量化することが重要である。 そのため,仮想物体間のマハラノビス距離と表現空間内の各対象圏のガウス分布が容易に計算できる多変量ガウス分布として,与えられた物体検出器の特徴表現空間をモデル化できることを理論的に証明する。 実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。

To effectively interrogate UAV-based images for detecting objects of interest, such as humans, it is essential to acquire large-scale UAV-based datasets that include human instances with various poses captured from widely varying viewing angles. As a viable alternative to laborious and costly data curation, we introduce Progressive Transformation Learning (PTL), which gradually augments a training dataset by adding transformed virtual images with enhanced realism. Generally, a virtual2real transformation generator in the conditional GAN framework suffers from quality degradation when a large domain gap exists between real and virtual images. To deal with the domain gap, PTL takes a novel approach that progressively iterates the following three steps: 1) select a subset from a pool of virtual images according to the domain gap, 2) transform the selected virtual images to enhance realism, and 3) add the transformed virtual images to the training set while removing them from the pool. In PTL, accurately quantifying the domain gap is critical. To do that, we theoretically demonstrate that the feature representation space of a given object detector can be modeled as a multivariate Gaussian distribution from which the Mahalanobis distance between a virtual object and the Gaussian distribution of each object category in the representation space can be readily computed. Experiments show that PTL results in a substantial performance increase over the baseline, especially in the small data and the cross-domain regime.
翻訳日:2022-11-04 13:25:59 公開日:2022-11-03
# 深部時空間ネットワークにおける静的と動的情報の定量化と学習

Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks ( http://arxiv.org/abs/2211.01783v1 )

ライセンス: Link先を確認
Matthew Kowal, Mennatullah Siam, Md Amirul Islam, Neil D. B. Bruce, Richard P. Wildes, Konstantinos G. Derpanis(参考訳) 中間表現における深部時空間モデルによる情報の理解は限られている。 例えば、アクション認識アルゴリズムが単一フレームの視覚的な外観に大きく影響しているという証拠はあるが、潜在表現における静的バイアスをダイナミクスに対するバイアスと比較して評価するための定量的手法は存在しない。 本研究では,任意の時空間モデルの静的および動的バイアスを定量化するためのアプローチを提案し,そのアプローチを3つのタスク,アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)に適用する。 私たちの重要な発見は (i)ほとんどの検査モデルは静的情報に偏っている。 (ii)動力学的に偏っていると仮定されたいくつかのデータセットは、実際には静的情報に偏っている。 (iii) アーキテクチャ内の個々のチャネルは、静的、動的、または2つの組み合わせに偏りがある。 (iv)ほとんどのモデルは、トレーニングの前半で最大となるバイアスに収束する。 次に、これらのバイアスが動的バイアス付きデータセットのパフォーマンスにどのように影響するかを調査する。 動作認識のために,静的情報から動的情報へモデルを分離するセマンティックガイド付きドロップアウトであるStaticDropoutを提案する。 AVOSでは、従来のアーキテクチャと比較して、融合層とクロスコネクション層をうまく組み合わせて設計する。

There is limited understanding of the information captured by deep spatiotemporal models in their intermediate representations. For example, while evidence suggests that action recognition algorithms are heavily influenced by visual appearance in single frames, no quantitative methodology exists for evaluating such static bias in the latent representation compared to bias toward dynamics. We tackle this challenge by proposing an approach for quantifying the static and dynamic biases of any spatiotemporal model, and apply our approach to three tasks, action recognition, automatic video object segmentation (AVOS) and video instance segmentation (VIS). Our key findings are: (i) Most examined models are biased toward static information. (ii) Some datasets that are assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual channels in an architecture can be biased toward static, dynamic or a combination of the two. (iv) Most models converge to their culminating biases in the first half of training. We then explore how these biases affect performance on dynamically biased datasets. For action recognition, we propose StaticDropout, a semantically guided dropout that debiases a model from static information toward dynamics. For AVOS, we design a better combination of fusion and cross connection layers compared with previous architectures.
翻訳日:2022-11-04 13:25:34 公開日:2022-11-03
# 教師なし会話のための大規模事前学習モデルからの知識の抽出

Eliciting Knowledge from Large Pre-Trained Models for Unsupervised Knowledge-Grounded Conversation ( http://arxiv.org/abs/2211.01587v1 )

ライセンス: Link先を確認
Yanyang Li, Jianqiao Zhao, Michael R. Lyu, Liwei Wang(参考訳) 大規模事前学習の最近の進歩は、原文から知識を学ぶ可能性のある大きなモデルを提供する。 したがって、下流タスクの知識ベースとしてこれらの大きなモデルを活用できるかどうかを問うことは自然である。 本研究では,教師なしの知識に基づく会話において,上記の質問に答える。 我々は,大規模モデルから知識を引き出す手法を探究する。 人間の研究では、幻覚はあるものの、大きなモデルは共通の感覚を出力し、検索エンジンから直接検索できない事実を要約できるというユニークな利点を誇示している。 そこで,このような知識を対話生成に活用するために,生成した知識を雑音の知識源として扱い,後発の知識の強化と雑音の訓練戦略を提案する。 2つのベンチマークの実証結果は、最先端の手法よりも有利であることを示している。

Recent advances in large-scale pre-training provide large models with the potential to learn knowledge from the raw text. It is thus natural to ask whether it is possible to leverage these large models as knowledge bases for downstream tasks. In this work, we answer the aforementioned question in unsupervised knowledge-grounded conversation. We explore various methods that best elicit knowledge from large models. Our human study indicates that, though hallucinations exist, large models post the unique advantage of being able to output common sense and summarize facts that cannot be directly retrieved from the search engine. To better exploit such generated knowledge in dialogue generation, we treat the generated knowledge as a noisy knowledge source and propose the posterior-based reweighing as well as the noisy training strategy. Empirical results on two benchmarks show advantages over the state-of-the-art methods.
翻訳日:2022-11-04 13:18:44 公開日:2022-11-03
# 統計的法的分析のためのデータ効率のよいエンドツーエンド情報抽出

Data-efficient End-to-end Information Extraction for Statistical Legal Analysis ( http://arxiv.org/abs/2211.01692v1 )

ライセンス: Link先を確認
Wonseok Hwang, Saehee Eom, Hanuhl Lee, Hai Jin Park, Minjoon Seo(参考訳) 法律実務家はしばしば大量の文書に直面する。 例えば弁護士は、クライアントに有利な適切な前例を探し、法律上の前例の数は増え続けている。 法律検索エンジンは、個々の対象文書の発見と候補数の絞り込みを支援することができるが、検索された情報は構造化されていないテキストとしてしばしば提示され、ユーザーは情報過負荷につながる可能性のある各文書を徹底的に調べなければならない。 また、統計分析も困難である。 本稿では,法律文書のエンドツーエンド情報抽出(IE)システムを提案する。 生成タスクとしてIEを定式化することにより、ドメイン固有のエンジニアリング作業をせずに、様々なタスクに容易に適用できる。 韓国の先例による4つのIEタスクの実験結果から、我々のIEシステムは、ルールベースのベースラインに比べて、50のトレーニング例と、200のサンプルによるより高いスコア(平均5.4)で有能なスコア(平均2.3)を達成できることが示された。 最後に,我々のieシステムから得られた構造化情報から,韓国法制度のマクロな特徴を忠実に反映する,drunk driving と fraud の2つの事例を統計的に分析した。

Legal practitioners often face a vast amount of documents. Lawyers, for instance, search for appropriate precedents favorable to their clients, while the number of legal precedents is ever-growing. Although legal search engines can assist finding individual target documents and narrowing down the number of candidates, retrieved information is often presented as unstructured text and users have to examine each document thoroughly which could lead to information overloading. This also makes their statistical analysis challenging. Here, we present an end-to-end information extraction (IE) system for legal documents. By formulating IE as a generation task, our system can be easily applied to various tasks without domain-specific engineering effort. The experimental results of four IE tasks on Korean precedents shows that our IE system can achieve competent scores (-2.3 on average) compared to the rule-based baseline with as few as 50 training examples per task and higher score (+5.4 on average) with 200 examples. Finally, our statistical analysis on two case categories--drunk driving and fraud--with 35k precedents reveals the resulting structured information from our IE system faithfully reflects the macroscopic features of Korean legal system.
翻訳日:2022-11-04 13:18:31 公開日:2022-11-03
# 慢性腎疾患に対する音声コーパス

A speech corpus for chronic kidney disease ( http://arxiv.org/abs/2211.01705v1 )

ライセンス: Link先を確認
Jihyun Mun, Sunhee Kim, Myeong Ju Kim, Jiwon Ryu, Sejoong Kim, Minhwa Chung(参考訳) 本研究では,慢性腎臓病(CKD)患者の音声コーパスについて,病的音声分析,自動診断,重症度予測などの研究に使用する。 本稿では,このコーパス作成に関わるステップについて紹介し,音声関連パラメータと音声リストの選択,記録手法について述べる。 本コーパスの話者は,推定糸球体濾過率 (egfr) に基づいて分類された重症度が異なる289名のckd患者で, 持続母音, 文, 段落刺激を呈していた。 本研究は, CKD患者の声質, 音素レベルの発音, 韻律, 声門源, 空気力学パラメータの差異について比較検討した。

In this study, we present a speech corpus of patients with chronic kidney disease (CKD) that will be used for research on pathological voice analysis, automatic illness identification, and severity prediction. This paper introduces the steps involved in creating this corpus, including the choice of speech-related parameters and speech lists as well as the recording technique. The speakers in this corpus, 289 CKD patients with varying degrees of severity who were categorized based on estimated glomerular filtration rate (eGFR), delivered sustained vowels, sentence, and paragraph stimuli. This study compared and analyzed the voice characteristics of CKD patients with those of the control group; the results revealed differences in voice quality, phoneme-level pronunciation, prosody, glottal source, and aerodynamic parameters.
翻訳日:2022-11-04 13:18:09 公開日:2022-11-03
# リレーショナルトリプル抽出のためのクエリベースインスタンス識別ネットワーク

Query-based Instance Discrimination Network for Relational Triple Extraction ( http://arxiv.org/abs/2211.01797v1 )

ライセンス: Link先を確認
Zeqi Tan, Yongliang Shen, Xuming Hu, Wenqi Zhang, Xiaoxia Cheng, Weiming Lu and Yueting Zhuang(参考訳) 統合エンティティと関係抽出は、情報抽出の分野における中核的なタスクである。 最近のアプローチでは、通常は立体的な視点からリレーショナルトリプルの抽出を考慮し、関係固有のタグを学習するか、関係型ごとに別個の分類器を学習する。 しかし、それらは依然としてエラーの伝播、関係の冗長性、トリプル間の高レベル接続の欠如に悩まされている。 これらの問題に対処するために,リレーショナルトリプルのインスタンスレベル表現を構築するための新しいクエリベースアプローチを提案する。 クエリの埋め込みとトークンの埋め込みを比較することで、1ステップで全てのタイプのトリプルを抽出し、エラーの伝搬問題を排除できる。 さらに,リレーショナルトリプルのインスタンスレベル表現をコントラスト学習を通じて学習する。 このように、リレーショナルトリプルはリッチなクラスレベルのセマンティクスを包含するだけでなく、高次グローバル接続へのアクセスも可能である。 実験結果から,提案手法は5つのベンチマークにおいて最先端の手法であることがわかった。

Joint entity and relation extraction has been a core task in the field of information extraction. Recent approaches usually consider the extraction of relational triples from a stereoscopic perspective, either learning a relation-specific tagger or separate classifiers for each relation type. However, they still suffer from error propagation, relation redundancy and lack of high-level connections between triples. To address these issues, we propose a novel query-based approach to construct instance-level representations for relational triples. By metric-based comparison between query embeddings and token embeddings, we can extract all types of triples in one step, thus eliminating the error propagation problem. In addition, we learn the instance-level representation of relational triples via contrastive learning. In this way, relational triples can not only enclose rich class-level semantics but also access to high-order global connections. Experimental results show that our proposed method achieves the state of the art on five widely used benchmarks.
翻訳日:2022-11-04 13:17:55 公開日:2022-11-03
# マルチモーダル対話型タスクガイダンスシステムの開発におけるループアプローチの人間性

Human in the loop approaches in multi-modal conversational task guidance system development ( http://arxiv.org/abs/2211.01824v1 )

ライセンス: Link先を確認
Ramesh Manuvinakurike, Sovan Biswas, Giuseppe Raffa, Richard Beckwith, Anthony Rhodes, Meng Shi, Gesem Gudino Mejia, Saurav Sahay, Lama Nachman(参考訳) 作業支援のためのタスクガイダンスシステムの開発は依然として困難な課題である。 タスク指導における検索(情報検索)と会話システムの役割は、タスクパフォーマーが様々な目標を達成するのに役立つ大きな可能性を秘めている。 しかし、このような会話システムを提供するために対処しなければならない技術的課題はいくつかあり、一般的な監督アプローチでは、全体的なパフォーマンス、ユーザエクスペリエンス、現実的な状況への適応という観点で期待された結果を提供できない。 この予備的な作業では、まず、このようなシステムの開発にかかわる課題をいくつか取り上げる。 次に、利用可能な既存のデータセットの概要と、その制限を強調する。 最終的に、ループウィザード・オブ・オズに基づくデータ収集ツールを開発し、パイロット実験を行う。

Development of task guidance systems for aiding humans in a situated task remains a challenging problem. The role of search (information retrieval) and conversational systems for task guidance has immense potential to help the task performers achieve various goals. However, there are several technical challenges that need to be addressed to deliver such conversational systems, where common supervised approaches fail to deliver the expected results in terms of overall performance, user experience and adaptation to realistic conditions. In this preliminary work we first highlight some of the challenges involved during the development of such systems. We then provide an overview of existing datasets available and highlight their limitations. We finally develop a model-in-the-loop wizard-of-oz based data collection tool and perform a pilot experiment.
翻訳日:2022-11-04 13:17:36 公開日:2022-11-03
# テキスト要約のための潜時プロンプトチューニング

Latent Prompt Tuning for Text Summarization ( http://arxiv.org/abs/2211.01837v1 )

ライセンス: Link先を確認
Yubo Zhang, Xingxing Zhang, Xun Wang, Si-qing Chen and Furu Wei(参考訳) テキスト要約の制御には、異なる制御信号(長さ、キーワードなど)を持つプロンプトを用いることができる。 制御信号が利用可能であれば、生成した要約の性質を制御でき、(より多くの情報が提供されるため)要約品質を向上させることができる。 残念ながら、制御信号は推論時間中に利用できない。 本稿では,制御モードと制御モード(制御信号なし)モードの両方に適用可能な単一モデルであるlotusを提案する。 トレーニング中、ロータスは対照的な学習目標を用いて、ゴールドコントロール信号を持つプロンプトから潜在的なプロンプト表現を学習する。 実験では、4つの異なる要約データセットにまたがる強い(制御不能)要約モデルによって、制御不能モードのロータスが一貫して改善することを示した。 また、ユーザが指定した制御トークンを使って、生成した要約をプロンプトで制御できることを示す。

Prompts with different control signals (e.g., length, keywords, etc.) can be used to control text summarization. When control signals are available, they can control the properties of generated summaries and potentially improve summarization quality (since more information are given). Unfortunately, control signals are not already available during inference time. In this paper, we propose Lotus (shorthand for Latent Prompt Tuning for Summarization), which is a single model that can be applied in both controlled and uncontrolled (without control signals) modes. During training, Lotus learns latent prompt representations from prompts with gold control signals using a contrastive learning objective. Experiments show Lotus in uncontrolled mode consistently improves upon strong (uncontrollable) summarization models across four different summarization datasets. We also demonstrate generated summaries can be controlled using prompts with user specified control tokens.
翻訳日:2022-11-04 13:17:23 公開日:2022-11-03
# 繰り返し発生する言語のモデルに戻る

Circling Back to Recurrent Models of Language ( http://arxiv.org/abs/2211.01848v1 )

ライセンス: Link先を確認
G\'abor Melis(参考訳) 純粋なリカレントモデルの中には、今日のハードウェアで最適化が困難で非効率なものもあるため、必ずしも悪い言語モデルではない。 我々は、これらのモデルが若干改善された再帰セル、アーキテクチャ、目的、および最適化の組み合わせによって、改善できる程度で、これを実証する。 この過程で, 動的評価を伴う小規模データセットとenwik8上での言語モデリングの新たな技術を確立した。

Just because some purely recurrent models suffer from being hard to optimize and inefficient on today's hardware, they are not necessarily bad models of language. We demonstrate this by the extent to which these models can still be improved by a combination of a slightly better recurrent cell, architecture, objective, as well as optimization. In the process, we establish a new state of the art for language modelling on small datasets and on enwik8 with dynamic evaluation.
翻訳日:2022-11-04 13:17:11 公開日:2022-11-03
# クロスアテンションによる姿勢検出のための文脈情報統合

Contextual information integration for stance detection via cross-attention ( http://arxiv.org/abs/2211.01874v1 )

ライセンス: Link先を確認
Tilman Beck, Andreas Waldis, Iryna Gurevych(参考訳) スタンス検出は、ターゲットに対する著者のスタンスを識別し、ソーシャルメディアやニュースなどの様々なテキストドメインに適用する。 多くの場合、文脈情報へのアクセス不足のため、スタンスを推測することは困難である。 補完的コンテキストは知識ベースで見ることができるが、事前訓練された言語モデルにコンテキストを統合することは、グラフ構造のため自明ではない。 対照的に、我々は、トランスフォーマーアーキテクチャに合致するテキストとして文脈情報を統合するアプローチを探求する。 具体的には、クロスアテンションを介して情報を交換するデュアルエンコーダからなるモデルを訓練する。 このアーキテクチャは異種ソースからのコンテキスト情報の統合を可能にする。 構造化知識ソースから抽出した文脈を評価し,大規模言語モデルの構築を促す。 提案手法は,(1)ドメイン内,すなわち目に見えるターゲット,(2)ドメイン外,すなわちトレーニング中に見えないターゲットの両方において,大規模かつ多様なスタンス検出ベンチマークにおいて,競争ベースライン(平均1.9pp)を上回っている。 分析の結果,ターゲット固有のcue単語とのラベル相関を正則化できることがわかった。

Stance detection deals with the identification of an author's stance towards a target and is applied on various text domains like social media and news. In many cases, inferring the stance is challenging due to insufficient access to contextual information. Complementary context can be found in knowledge bases but integrating the context into pretrained language models is non-trivial due to their graph structure. In contrast, we explore an approach to integrate contextual information as text which aligns better with transformer architectures. Specifically, we train a model consisting of dual encoders which exchange information via cross-attention. This architecture allows for integrating contextual information from heterogeneous sources. We evaluate context extracted from structured knowledge sources and from prompting large language models. Our approach is able to outperform competitive baselines (1.9pp on average) on a large and diverse stance detection benchmark, both (1) in-domain, i.e. for seen targets, and (2) out-of-domain, i.e. for targets unseen during training. Our analysis shows that it is able to regularize for spurious label correlations with target-specific cue words.
翻訳日:2022-11-04 13:17:03 公開日:2022-11-03
# 笑うのはいつ? ユーモア検出のためのマルチモーダルアプローチとその強度

When to Laugh and How Hard? A Multimodal Approach to Detecting Humor and its Intensity ( http://arxiv.org/abs/2211.01889v1 )

ライセンス: Link先を確認
Khalid Alnajjar, Mika H\"am\"al\"ainen, J\"org Tiedemann, Jorma Laaksonen, Mikko Kurimo(参考訳) コメディ番組のダイアログを伴って録音された笑いは、観客にユーモラスな瞬間を明確にマークすることで笑わせる。 本稿では,マルチモーダルデータを用いた友人番組におけるユーモアの自動検出手法を提案する。 我々のモデルは、発話がユーモラスかどうかを認識し、その強度を評価することができる。 予告された笑いはユーモアを示す注釈として使われ、観客の笑いの長さは、あるジョークがどんなに面白いかを教えてくれる。 トレーニング期間中に,モデルが露出していないエピソードのモデルを評価した。 その結果, 発話の78%がユーモラスであるのか, 笑いの反応が600ミリ秒の平均的な絶対誤差でどれくらい続くべきかを, 本モデルが正しく検出できることがわかった。

Prerecorded laughter accompanying dialog in comedy TV shows encourages the audience to laugh by clearly marking humorous moments in the show. We present an approach for automatically detecting humor in the Friends TV show using multimodal data. Our model is capable of recognizing whether an utterance is humorous or not and assess the intensity of it. We use the prerecorded laughter in the show as annotation as it marks humor and the length of the audience's laughter tells us how funny a given joke is. We evaluate the model on episodes the model has not been exposed to during the training phase. Our results show that the model is capable of correctly detecting whether an utterance is humorous 78% of the time and how long the audience's laughter reaction should last with a mean absolute error of 600 milliseconds.
翻訳日:2022-11-04 13:16:43 公開日:2022-11-03
# 逆スケーリングはU字型になり得る

Inverse scaling can become U-shaped ( http://arxiv.org/abs/2211.02011v1 )

ライセンス: Link先を確認
Jason Wei, Yi Tay, Quoc V. Le(参考訳) 言語モデルのスケーリングはさまざまなタスクのパフォーマンスを改善するが、スケーリングがパフォーマンスを損なうシナリオもあるようだ。 例えば、逆スケーリング賞の第1ラウンドでは、より大きなモデルではパフォーマンスが悪化する4つの‘逆スケーリング’タスクを特定した。 これらのタスクは最大280Bパラメータのモデルで評価され、500ゼッタFLOPまで訓練された。 本稿では,この4つの課題について概観する。 Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。 このモデルサイズの増加とトレーニング計算により、4つのタスクのうち3つは、私たちが'U字型のスケーリング'と呼ぶものを示します。 一つの仮説は、タスクが 'true task' と 'distractor task' からなるときに u-shaped scaling が発生するというものである。 中規模のモデルは邪魔者タスクを実行し、パフォーマンスを損なうが、大規模なモデルだけが邪魔者タスクを無視し、真のタスクを実行できる。 u型スケーリングの存在は、大きなモデルでは逆スケーリングが成立しないことを意味する。 第2に,CoTのない基本的なプロンプトに加えて,チェーン・オブ・シント(CoT)プロンプトを用いた逆スケーリングタスクの評価を行った。 CoTのプロンプトでは、4つのタスク全てがU字型のスケーリングまたは正のスケーリングを示し、2つのタスクといくつかのサブタスクで完全な解決率を達成する。 このことは、"逆スケーリングタスク"という用語が未定義であることを示している。与えられたタスクは、1つのプロンプトでは逆スケーリング、別のプロンプトでは正またはU字のスケーリングであるかもしれない。

Although scaling language models improves performance on a range of tasks, there are apparently some scenarios where scaling hurts performance. For instance, the Inverse Scaling Prize Round 1 identified four ''inverse scaling'' tasks, for which performance gets worse for larger models. These tasks were evaluated on models of up to 280B parameters, trained up to 500 zettaFLOPs of compute. This paper takes a closer look at these four tasks. We evaluate models of up to 540B parameters, trained on five times more compute than those evaluated in the Inverse Scaling Prize. With this increased range of model sizes and training compute, three out of the four tasks exhibit what we call ''U-shaped scaling'' -- performance decreases up to a certain model size, and then increases again up to the largest model evaluated. One hypothesis is that U-shaped scaling occurs when a task comprises a ''true task'' and a ''distractor task''. Medium-size models can do the distractor task, which hurts performance, while only large-enough models can ignore the distractor task and do the true task. The existence of U-shaped scaling implies that inverse scaling may not hold for larger models. Second, we evaluate the inverse scaling tasks using chain-of-thought (CoT) prompting, in addition to basic prompting without CoT. With CoT prompting, all four tasks show either U-shaped scaling or positive scaling, achieving perfect solve rates on two tasks and several sub-tasks. This suggests that the term "inverse scaling task" is under-specified -- a given task may be inverse scaling for one prompt but positive or U-shaped scaling for a different prompt.
翻訳日:2022-11-04 13:16:29 公開日:2022-11-03
# フィードバックは良い、アクティブなフィードバックは良い: 注意をブロックするアクティブなフィードバックコード

Feedback is Good, Active Feedback is Better: Block Attention Active Feedback Codes ( http://arxiv.org/abs/2211.01730v1 )

ライセンス: Link先を確認
Emre Ozfatura and Yulin Shao and Amin Ghazanfari and Alberto Perotti and Branislav Popovic and Deniz Gunduz(参考訳) ディープニューラルネットワーク(dnn)が支援するチャネルコーディング設計、例えば、既存のコードのための低複雑さニューラルネットワークデコーダや、エンドツーエンドのニューラルネットワークベースのオートエンコーダ設計は、そのパフォーマンスと柔軟性の向上によって、近年関心を集めている。 フィードバックの存在下でのコミュニケーションはそのようなコミュニケーションシナリオのひとつであり、フィードバックチャネルのための実用的なコード設計は、何十年もコーディング理論においてオープンな課題であり続けている。 最近、DNNベースのデザインは、フィードバックを悪用する素晴らしい結果を示している。 特に、一般的なトランスフォーマーアーキテクチャを利用する汎用ブロックアテンションフィードバック(GBAF)符号は、ブロックエラー率(BLER)の性能において大幅に向上した。 しかし、従来の研究は主に受動フィードバックに焦点を合わせており、送信機は受信機で信号のノイズバージョンを観測する。 本研究では,gbaf符号をアクティブフィードバックのチャネルにも利用できることを示す。 本稿では,送信機と受信機に一対のトランスフォーマーアーキテクチャを実装し,特に低SNR方式のBLER性能を実現する。

Deep neural network (DNN)-assisted channel coding designs, such as low-complexity neural decoders for existing codes, or end-to-end neural-network-based auto-encoder designs are gaining interest recently due to their improved performance and flexibility; particularly for communication scenarios in which high-performing structured code designs do not exist. Communication in the presence of feedback is one such communication scenario, and practical code design for feedback channels has remained an open challenge in coding theory for many decades. Recently, DNN-based designs have shown impressive results in exploiting feedback. In particular, generalized block attention feedback (GBAF) codes, which utilizes the popular transformer architecture, achieved significant improvement in terms of the block error rate (BLER) performance. However, previous works have focused mainly on passive feedback, where the transmitter observes a noisy version of the signal at the receiver. In this work, we show that GBAF codes can also be used for channels with active feedback. We implement a pair of transformer architectures, at the transmitter and the receiver, which interact with each other sequentially, and achieve a new state-of-the-art BLER performance, especially in the low SNR regime.
翻訳日:2022-11-04 13:11:21 公開日:2022-11-03
# ISTAとFISTAの準次ノルム最小化

Proximal Subgradient Norm Minimization of ISTA and FISTA ( http://arxiv.org/abs/2211.01610v1 )

ライセンス: Link先を確認
Bowen Li, Bin Shi, Ya-xiang Yuan(参考訳) 一階スムーズな最適化のために、加速現象の研究には長い歴史がある。 最近まで、加速度につながるメカニズムは勾配補正項とその等価な暗黙速度形式によって発見されなかった。 さらに, 位相空間表現とリアプノフ関数を用いた高分解能微分方程式の枠組みに基づいて, 逆立方率でのネステロフの加速度勾配降下法(\textt{nag})の2乗勾配ノルムが発見された。 しかし、この結果は、例えばスパース表現を持つ線形逆問題など、実際に広く使われている複合最適化に直接一般化することはできない。 本稿では,ステップサイズ$s$ とリプシッツ定数 $l$ に関する複合最適化において用いられる重要な不等式を注意深く観察し,より厳密に改良できることを示す。 well-constructed Lyapunov 関数で発見されたより厳密な不等式を適用し、勾配補正や暗黙速度に関わらず位相空間表現による近位次ノルム最小化を得る。 さらに,反復的収縮緩和アルゴリズム (ista) のクラスに対する二乗的近位劣勾配ノルムは逆二乗率で収束し,高速な反復的収縮緩和アルゴリズム (fista) のクラスの二乗的近位劣勾配ノルムは逆立方率で収束する。

For first-order smooth optimization, the research on the acceleration phenomenon has a long-time history. Until recently, the mechanism leading to acceleration was not successfully uncovered by the gradient correction term and its equivalent implicit-velocity form. Furthermore, based on the high-resolution differential equation framework with the corresponding emerging techniques, phase-space representation and Lyapunov function, the squared gradient norm of Nesterov's accelerated gradient descent (\texttt{NAG}) method at an inverse cubic rate is discovered. However, this result cannot be directly generalized to composite optimization widely used in practice, e.g., the linear inverse problem with sparse representation. In this paper, we meticulously observe a pivotal inequality used in composite optimization about the step size $s$ and the Lipschitz constant $L$ and find that it can be improved tighter. We apply the tighter inequality discovered in the well-constructed Lyapunov function and then obtain the proximal subgradient norm minimization by the phase-space representation, regardless of gradient-correction or implicit-velocity. Furthermore, we demonstrate that the squared proximal subgradient norm for the class of iterative shrinkage-thresholding algorithms (ISTA) converges at an inverse square rate, and the squared proximal subgradient norm for the class of faster iterative shrinkage-thresholding algorithms (FISTA) is accelerated to convergence at an inverse cubic rate.
翻訳日:2022-11-04 13:10:49 公開日:2022-11-03
# RKHSにおける演算子を用いた意味的セグメンテーションのモデル不確かさの定量化

Quantifying Model Uncertainty for Semantic Segmentation using Operators in the RKHS ( http://arxiv.org/abs/2211.01999v1 )

ライセンス: Link先を確認
Rishabh Singh and Jose C. Principe(参考訳) セマンティックセグメンテーションのためのディープラーニングモデルは、タスクの非常に困難な性質のため、現実世界のアプリケーションの性能が低下する傾向にある。 モデル不確実性定量化(model uncertainty quantification, uq)は、セグメンテーションアウトプットをどの程度信頼するかを実践者が知ることによって、モデル信頼性の欠如というこの問題に対処する1つの方法である。 このアプリケーションドメインにおける現在のuqメソッドは、主に計算コストが高く、不確実性の中心モーメントのみを抽出することで、不確実性推定の品質を制限できるベイズベースのメソッドに制限されている。 本稿では,再生成核ヒルベルト空間 (rkhs) におけるモデルの特徴空間に関連する不確かさのマルチモーメント関数定義を利用する意味セグメンテーションモデルの高分解能予測不確実性定量化のための簡単な枠組みを提案する。 この枠組みから抽出された多重不確実性汎関数は、モデルの特徴空間の局所密度ダイナミクスによって定義され、従って、より不確実性領域を連続的に高次モーメントが定量化するように、特徴空間の固有確率密度関数(不確実性が最も高い領域)のテール領域に自動的に整列する。 これは従来のベイズ法よりもはるかに正確なモデル不確かさの見方をもたらす。 さらに、そのようなモーメントの抽出は単発計算で行われ、ベイジアンやアンサンブルのアプローチ(不確実性を定量化するためにモデルの多くの前方確率パスを含む)よりもはるかに高速である。 これらの利点は,2つのベンチマーク道路シーンセグメンテーションデータセット(CamvidとCityscapes)でトレーニングおよび評価を行う4つの最先端モデルアーキテクチャ上で実装されたフレームワークの実験的評価によって実証される。

Deep learning models for semantic segmentation are prone to poor performance in real-world applications due to the highly challenging nature of the task. Model uncertainty quantification (UQ) is one way to address this issue of lack of model trustworthiness by enabling the practitioner to know how much to trust a segmentation output. Current UQ methods in this application domain are mainly restricted to Bayesian based methods which are computationally expensive and are only able to extract central moments of uncertainty thereby limiting the quality of their uncertainty estimates. We present a simple framework for high-resolution predictive uncertainty quantification of semantic segmentation models that leverages a multi-moment functional definition of uncertainty associated with the model's feature space in the reproducing kernel Hilbert space (RKHS). The multiple uncertainty functionals extracted from this framework are defined by the local density dynamics of the model's feature space and hence automatically align themselves at the tail-regions of the intrinsic probability density function of the feature space (where uncertainty is the highest) in such a way that the successively higher order moments quantify the more uncertain regions. This leads to a significantly more accurate view of model uncertainty than conventional Bayesian methods. Moreover, the extraction of such moments is done in a single-shot computation making it much faster than Bayesian and ensemble approaches (that involve a high number of forward stochastic passes of the model to quantify its uncertainty). We demonstrate these advantages through experimental evaluations of our framework implemented over four different state-of-the-art model architectures that are trained and evaluated on two benchmark road-scene segmentation datasets (Camvid and Cityscapes).
翻訳日:2022-11-04 13:10:19 公開日:2022-11-03
# ノイズ観測によるゼロサムゲーム

Zero-Sum Games with Noisy Observations ( http://arxiv.org/abs/2211.01703v1 )

ライセンス: Link先を確認
Ke Sun, Samir M. Perlaza, and Alain Jean-Marie(参考訳) 本稿では,(1)プレイヤー(リーダー)の1人が,所定の確率測度(戦略)をサンプリングして行動を選択することを公然と約束し,(2)リーダーが2進路を介して相手(フォロワー)が観察する行動と,(3)リーダーの戦略の知識と,リーダーの行動のうるさい観察に基づいてその戦略を選択することを発表する,という前提の下で,2ドル=ゼロサムゲーム(ZSG)について検討する。 これらの条件下では、平衡は常に存在することが示され、ナッシュ平衡とスタックルバーグ平衡とはしばしば異なる。 ノイズにも拘わらず、リーダーの行動を観察することは、すべての可能なコミットメントに対して、従者にとって有益または非物質である。 コミットメントが歪みによって観測されるとき、平衡は必ずしも存在しない。 それでも、リーダーは、均衡改善の対象となる特定のケースで何らかの利益を得るかもしれない。 例えば、$\epsilon$-equilibriaは、リーダーがその相手の最良の反応を不当に予測できる準最適戦略にコミットする可能性がある。

In this paper, $2 \times 2$ zero-sum games (ZSGs) are studied under the following assumptions: (1) One of the players (the leader) publicly and irrevocably commits to choose its actions by sampling a given probability measure (strategy);(2) The leader announces its action, which is observed by its opponent (the follower) through a binary channel; and (3) the follower chooses its strategy based on the knowledge of the leader's strategy and the noisy observation of the leader's action. Under these conditions, the equilibrium is shown to always exist and be often different from the Nash and Stackelberg equilibria. Even subject to noise, observing the actions of the leader is either beneficial or immaterial to the follower for all possible commitments. When the commitment is observed subject to a distortion, the equilibrium does not necessarily exist. Nonetheless, the leader might still obtain some benefit in some specific cases subject to equilibrium refinements. For instance, $\epsilon$-equilibria might exist in which the leader commits to suboptimal strategies that allow unequivocally predicting the best response of its opponent.
翻訳日:2022-11-04 13:09:49 公開日:2022-11-03
# 低予測リスク領域におけるニューラルマシン翻訳の連続学習

Continual Learning of Neural Machine Translation within Low Forgetting Risk Regions ( http://arxiv.org/abs/2211.01542v1 )

ライセンス: Link先を確認
Shuhao Gu, Bojie Hu, Yang Feng(参考訳) 本稿では,従来のトレーニングデータにアクセスしたり,モデル分離を導入することなく,大規模事前学習型ニューラルマシン翻訳モデルの連続学習を検討する。 補助的損失を伴う多目的学習を行う広範に使用される正規化ベース手法は, 誤評価問題に苦しめられ, 従来課題と新しい課題のバランスが常に良好に保たれていない。 そこで本研究では,実損失の局所的特徴に基づく2段階学習手法を提案する。 まず、パラメータが更新されると、モデルが前のタスクのパフォーマンスを維持できるリスク領域を低く探索し、破滅的な忘れの問題を避ける。 そして、新しいタスクに適合するように、新しいトレーニングデータだけで、この領域内でモデルを継続的にトレーニングできます。 具体的には,モデル出力に対する損失の曲率とパラメータの影響を基準として,忘れられるリスク領域を探索する2つの手法を提案する。 我々はドメイン適応とより困難な言語適応タスクについて実験を行い、実験の結果、複数の強力なベースラインと比較して、この手法が大幅に改善できることが示されている。

This paper considers continual learning of large-scale pretrained neural machine translation model without accessing the previous training data or introducing model separation. We argue that the widely used regularization-based methods, which perform multi-objective learning with an auxiliary loss, suffer from the misestimate problem and cannot always achieve a good balance between the previous and new tasks. To solve the problem, we propose a two-stage training method based on the local features of the real loss. We first search low forgetting risk regions, where the model can retain the performance on the previous task as the parameters are updated, to avoid the catastrophic forgetting problem. Then we can continually train the model within this region only with the new training data to fit the new task. Specifically, we propose two methods to search the low forgetting risk regions, which are based on the curvature of loss and the impacts of the parameters on the model output, respectively. We conduct experiments on domain adaptation and more challenging language adaptation tasks, and the experimental results show that our method can achieve significant improvements compared with several strong baselines.
翻訳日:2022-11-04 13:08:20 公開日:2022-11-03
# PINTO: Prompt-Generated Rationals を用いた忠実な言語推論

PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales ( http://arxiv.org/abs/2211.01562v1 )

ライセンス: Link先を確認
Peifeng Wang, Aaron Chan, Filip Ilievski, Muhao Chen, Xiang Ren(参考訳) ニューラルネットワークモデル(LM)は、事前訓練されたパラメータに符号化された潜在知識を利用することで、様々な言語ベースの推論タスクにおいて印象的な結果を得た。 この推論プロセスをより明確にするために、最近の研究は、LMの内部知識の合理化を訓練したり、自由テキストの合理性を生成するように促したりすることで、同じLMまたは別個の理性理論によるタスク予測を導くことができる。 しかし、LMの合理化には高価な合理化アノテーションや計算が必要であり、それらの合理化がLMのタスク性能を改善したり、LMの意思決定を忠実に反映することを保証することはない。 本稿では,即時学習による合理化を行うLMパイプラインであるPINTOを提案し,反実正則化による合理化を忠実に行うことを学ぶ。 まず、PINTOは、凍結した合理化LMにフリーテキスト論理を生成することによって、タスク入力に適した推論過程をマップする。 第二に、pintoの推論lmを微調整し、生成した論理を文脈としてタスクを解き、一方、論理が摂動した場合の自信の薄い予測を出力するように正規化する。 4つのデータセットでPINTOはLMの一般化能力を大幅に向上し,分布内および分布外の両方で高い性能を示すことを示した。 また,PINTOの合理性は,競争ベースラインによって生成されるものよりもタスク予測に忠実であることがわかった。

Neural language models (LMs) have achieved impressive results on various language-based reasoning tasks by utilizing latent knowledge encoded in their own pretrained parameters. To make this reasoning process more explicit, recent works retrieve a rationalizing LM's internal knowledge by training or prompting it to generate free-text rationales, which can be used to guide task predictions made by either the same LM or a separate reasoning LM. However, rationalizing LMs require expensive rationale annotation and/or computation, without any assurance that their generated rationales improve LM task performance or faithfully reflect LM decision-making. In this paper, we propose PINTO, an LM pipeline that rationalizes via prompt-based learning, and learns to faithfully reason over rationales via counterfactual regularization. First, PINTO maps out a suitable reasoning process for the task input by prompting a frozen rationalizing LM to generate a free-text rationale. Second, PINTO's reasoning LM is fine-tuned to solve the task using the generated rationale as context, while regularized to output less confident predictions when the rationale is perturbed. Across four datasets, we show that PINTO significantly improves the generalization ability of the reasoning LM, yielding higher performance on both in-distribution and out-of-distribution test sets. Also, we find that PINTO's rationales are more faithful to its task predictions than those generated by competitive baselines.
翻訳日:2022-11-04 13:08:01 公開日:2022-11-03
# イベント抽出のためのオープンボキャブラリ引数の役割予測

Open-Vocabulary Argument Role Prediction for Event Extraction ( http://arxiv.org/abs/2211.01577v1 )

ライセンス: Link先を確認
Yizhu Jiao, Sha Li, Yiqing Xie, Ming Zhong, Heng Ji, Jiawei Han(参考訳) イベント抽出における引数の役割は、イベントとそれに参加する引数の関係を指す。 イベント抽出の大きな進歩にもかかわらず、既存の研究はドメインの専門家が事前に定義した役割に依存している。 これらの研究は、新たなイベントタイプや新しいドメインに役割を持たずに拡張する場合に明らかな弱点を露呈する。 したがって、引数ロールの自動カスタマイズにより多くの注意と労力が費やされる必要がある。 本稿では,本質的だが未熟なタスクであるオープンボキャブラリー引数の役割予測を定義する。 このタスクの目標は、所定のイベントタイプに対する引数ロールのセットを推論することである。 我々はこのタスクにrolepredという新しい教師なしフレームワークを提案する。 具体的には、入出力タスクとしてロール予測問題を定式化し、事前学習された言語モデルに候補ロールを生成するプロンプトを構築する。 候補引数を抽出・解析することにより、さらにイベント固有の役割がマージされ、選択される。 このタスクの研究を標準化するために、ウィキプピアから新しいイベント抽出データセットを収集し、リッチなセマンティクスを持つ142のカスタマイズされた引数ロールを含む。 このデータセットでは、RolePredは既存のメソッドを大きなマージンで上回る。 ソースコードとデータセットはgithubリポジトリで利用可能です。 https://github.com/yzjiao/rolepred

The argument role in event extraction refers to the relation between an event and an argument participating in it. Despite the great progress in event extraction, existing studies still depend on roles pre-defined by domain experts. These studies expose obvious weakness when extending to emerging event types or new domains without available roles. Therefore, more attention and effort needs to be devoted to automatically customizing argument roles. In this paper, we define this essential but under-explored task: open-vocabulary argument role prediction. The goal of this task is to infer a set of argument roles for a given event type. We propose a novel unsupervised framework, RolePred for this task. Specifically, we formulate the role prediction problem as an in-filling task and construct prompts for a pre-trained language model to generate candidate roles. By extracting and analyzing the candidate arguments, the event-specific roles are further merged and selected. To standardize the research of this task, we collect a new event extraction dataset from WikiPpedia including 142 customized argument roles with rich semantics. On this dataset, RolePred outperforms the existing methods by a large margin. Source code and dataset are available on our GitHub repository: https://github.com/yzjiao/RolePred
翻訳日:2022-11-04 13:07:32 公開日:2022-11-03
# 異種因果効果推定のためのモデル選択の実証分析

Empirical Analysis of Model Selection for Heterogenous Causal Effect Estimation ( http://arxiv.org/abs/2211.01939v1 )

ライセンス: Link先を確認
Divyat Mahajan, Ioannis Mitliagkas, Brady Neal, Vasilis Syrgkanis(参考訳) 因果推論におけるモデル選択の問題,特に2次的治療下での条件平均治療効果(CATE)推定について検討した。 機械学習におけるモデル選択とは異なり、あらゆるデータポイントに対する反実的ポテンシャルの結果を観察しないため、ここではクロスバリデーションのテクニックを使用することはできない。 したがって、反事実データに明示的に依存しないモデル選択手法を設計する必要がある。 クロスバリデーションの代替として,データから推定される補助的ニュアサンスモデル(確率スコアモデル,結果回帰モデル)に依存する様々な指標が文献に提案されている。 しかし、これらの指標の有効性は、それらの反事実データを観察できるため、合成データセットでのみ研究されている。 我々は、これらの指標の性能を判断するために広範な実証分析を行い、生成モデルの最新技術を活用し、複数の現実的なデータセットを組み込む。 実際のデータセットを忠実に模倣するデータセットを含む、データセット毎に415の推定値を選択するために、144データセットの9つのメトリクスを評価した。 さらに、AutoMLの最新技術を用いて、ニュアンスモデルに対する一貫したハイパーパラメータ選択を、メトリクス間で公平に比較する。

We study the problem of model selection in causal inference, specifically for the case of conditional average treatment effect (CATE) estimation under binary treatments. Unlike model selection in machine learning, we cannot use the technique of cross-validation here as we do not observe the counterfactual potential outcome for any data point. Hence, we need to design model selection techniques that do not explicitly rely on counterfactual data. As an alternative to cross-validation, there have been a variety of proxy metrics proposed in the literature, that depend on auxiliary nuisance models also estimated from the data (propensity score model, outcome regression model). However, the effectiveness of these metrics has only been studied on synthetic datasets as we can observe the counterfactual data for them. We conduct an extensive empirical analysis to judge the performance of these metrics, where we utilize the latest advances in generative modeling to incorporate multiple realistic datasets. We evaluate 9 metrics on 144 datasets for selecting between 415 estimators per dataset, including datasets that closely mimic real-world datasets. Further, we use the latest techniques from AutoML to ensure consistent hyperparameter selection for nuisance models for a fair comparison across metrics.
翻訳日:2022-11-04 13:01:47 公開日:2022-11-03
# 連合型多変量統計プロセス制御(FedMSPC)を目指して

Towards federated multivariate statistical process control (FedMSPC) ( http://arxiv.org/abs/2211.01645v1 )

ライセンス: Link先を確認
Du Nguyen Duy, David Gabauer, Ramin Nikzad-Langerodi(参考訳) 線形(生産-使用-処分)から循環型経済への移行は、現在の最先端情報通信技術に重大な課題をもたらす。 特に、バリューチェーンに沿って生成された(リアルタイム)データから、材料、プロセス、製品ストリームに関する統合された高レベルなビューを導出することは、いくつかの理由から難しい。 プライバシ上の懸念から、入力材料、プロセスパラメータ、およびバリューチェーンに沿った重要なパフォーマンス指標間の相互関係をキャプチャする統合プロセスモデルの構築が不可能になるからです。 本稿では,フェデレート主成分分析(PCA)とSecure Multiparty Computationに基づく,プライバシ保護・フェデレーション型多変量統計プロセス制御(FedMSPC)フレームワークを提案する。 提案手法はSECOMとST-AWFDの2つの産業ベンチマークデータセットで検証した。 実験により,提案手法の故障検出能力は,標準の単方向(複数方向)PCAと比較して優れていることが示された。 さらに,バリューチェーン内の各データホルダにプライバシ保存障害診断を提供し,セキュアなデータ共有とフェデレーションプロセスモデリングのメリットを生かすためのフレームワークの可能性を示す。

The ongoing transition from a linear (produce-use-dispose) to a circular economy poses significant challenges to current state-of-the-art information and communication technologies. In particular, the derivation of integrated, high-level views on material, process, and product streams from (real-time) data produced along value chains is challenging for several reasons. Most importantly, sufficiently rich data is often available yet not shared across company borders because of privacy concerns which make it impossible to build integrated process models that capture the interrelations between input materials, process parameters, and key performance indicators along value chains. In the current contribution, we propose a privacy-preserving, federated multivariate statistical process control (FedMSPC) framework based on Federated Principal Component Analysis (PCA) and Secure Multiparty Computation to foster the incentive for closer collaboration of stakeholders along value chains. We tested our approach on two industrial benchmark data sets - SECOM and ST-AWFD. Our empirical results demonstrate the superior fault detection capability of the proposed approach compared to standard, single-party (multiway) PCA. Furthermore, we showcase the possibility of our framework to provide privacy-preserving fault diagnosis to each data holder in the value chain to underpin the benefits of secure data sharing and federated process modeling.
翻訳日:2022-11-04 13:01:28 公開日:2022-11-03
# デュアルスムースネスを持つ信号からハイパーグラフを学習する

Learning Hypergraphs From Signals With Dual Smoothness Prior ( http://arxiv.org/abs/2211.01717v1 )

ライセンス: Link先を確認
Bohan Tang, Siheng Chen, Xiaowen Dong(参考訳) 意味のあるハイパーグラフトポロジーの構築は、2つ以上の実体を含む高次関係を持つ信号を処理する鍵となる。 観測信号からハイパーグラフ構造を学習し、データセットでハイパーグラフトポロジが利用できない場合には、エンティティ間の固有の関係を捉えることが重要である。 この問題の核心には2つの課題がある。 1)潜在ハイパーエッジの巨大な探索空間をどう扱うか、そして 2)ノード上で観測される信号とハイパーグラフ構造との関係を測定するための意味のある基準を定義する方法。 本稿では,最初の課題に対処するために,信号内の対関係を捉える学習可能なグラフ構造から理想のハイパーグラフ構造を導出することができると仮定する。 さらに,観察したノード信号とハイパーグラフ構造のマッピングを明らかにする,新しい二重平滑性を持つハイパーグラフ学習フレームワークを提案し,各ハイパーエッジは学習可能なグラフ構造において,ノード信号の平滑性とエッジ信号の平滑性の両方を持つサブグラフに対応する。 最後に,合成データと実世界データの両方について,提案フレームワークを評価するための広範囲な実験を行った。 実験により,本フレームワークは観測信号から有意義なハイパーグラフトポロジーを効率的に推定できることが示された。

The construction of a meaningful hypergraph topology is the key to processing signals with high-order relationships that involve more than two entities. Learning the hypergraph structure from the observed signals to capture the intrinsic relationships among the entities becomes crucial when a hypergraph topology is not readily available in the datasets. There are two challenges that lie at the heart of this problem: 1) how to handle the huge search space of potential hyperedges, and 2) how to define meaningful criteria to measure the relationship between the signals observed on nodes and the hypergraph structure. In this paper, to address the first challenge, we adopt the assumption that the ideal hypergraph structure can be derived from a learnable graph structure that captures the pairwise relations within signals. Further, we propose a hypergraph learning framework with a novel dual smoothness prior that reveals a mapping between the observed node signals and the hypergraph structure, whereby each hyperedge corresponds to a subgraph with both node signal smoothness and edge signal smoothness in the learnable graph structure. Finally, we conduct extensive experiments to evaluate the proposed framework on both synthetic and real world datasets. Experiments show that our proposed framework can efficiently infer meaningful hypergraph topologies from observed signals.
翻訳日:2022-11-04 13:01:05 公開日:2022-11-03
# Extra-Newton: 雑音適応型2次法の最初のアプローチ

Extra-Newton: A First Approach to Noise-Adaptive Accelerated Second-Order Methods ( http://arxiv.org/abs/2211.01832v1 )

ライセンス: Link先を確認
Kimon Antonakopoulos, Ali Kavis, Volkan Cevher(参考訳) 本研究では,二階滑らかな凸関数を最小化する普遍的かつ適応的な二階法を提案する。 このアルゴリズムは、oracleのフィードバックが分散$\sigma^2$で確率的であるときに$o(\sigma / \sqrt{t})$収束を達成し、決定論的オラクルで$o(1 / t^3)$に収束し、ここで$t$は反復数である。 この方法は、oracle aprioriの性質を知らずにこれらのレートを補間するものであり、これは、滑らかさのモジュラリティ、分散境界、制約付き集合の直径の知識に従わないパラメータフリー適応ステップサイズによって実現される。 我々の知る限りでは、これは二階最適化文献にそのような大域的保証を持つ最初の普遍的アルゴリズムである。

This work proposes a universal and adaptive second-order method for minimizing second-order smooth, convex functions. Our algorithm achieves $O(\sigma / \sqrt{T})$ convergence when the oracle feedback is stochastic with variance $\sigma^2$, and improves its convergence to $O( 1 / T^3)$ with deterministic oracles, where $T$ is the number of iterations. Our method also interpolates these rates without knowing the nature of the oracle apriori, which is enabled by a parameter-free adaptive step-size that is oblivious to the knowledge of smoothness modulus, variance bounds and the diameter of the constrained set. To our knowledge, this is the first universal algorithm with such global guarantees within the second-order optimization literature.
翻訳日:2022-11-04 13:00:46 公開日:2022-11-03
# 1つのSMPC呼び出しDPHelmet:大規模での微分プライベート分散学習

Single SMPC Invocation DPHelmet: Differentially Private Distributed Learning on a Large Scale ( http://arxiv.org/abs/2211.02003v1 )

ライセンス: Link先を確認
Moritz Kirschte, Sebastian Meiser, Saman Ardalan, Esfandiar Mohammadi(参考訳) 機械学習予測器の分散は、信頼できるサイトにセンシティブな生データを残しながら、大規模なデータセットの収集を可能にする。 局所的な学習支援ベクトルマシン(SVM)と,それらの平均値の計算は,多数のユーザに対してスケーラブルで,差分プライバシーを満足し,CIFAR-10のような非自明なタスクに適用可能な学習技術につながることを示す。 多くの参加者にとって、コミュニケーションコストは大きな課題の1つです。 我々は、効率的なセキュアなマルチパーティ要約プロトコルを1回だけ呼び出すことで、通信コストを低くする。 最先端機能抽出器(SimCLR)を利用することで,CIFAR-10のような非自明なタスクに対して,差分プライベートな凸学習者を利用することができる。 実験の結果、各データポイントが$50$を持つ${,}000$ユーザの場合、このスキームは最先端のスケーラブルな分散学習手法(異なる意味ではプライベートなフェデレーション学習、短いdp-fl)よりも優れており、通信コストが約$5倍削減されていることがわかった。 より一般に、そのような局所的に訓練されたモデルの平均的な可学習性(収束と均一安定性)を証明する。 強凸,滑らか,リプシッツ連続目的関数を必要とするだけで,局所的に確率的勾配降下 (sgd) によって訓練されるので,高いユーティリティ・プライバシートレードオフが得られる。

Distributing machine learning predictors enables the collection of large-scale datasets while leaving sensitive raw data at trustworthy sites. We show that locally training support vector machines (SVMs) and computing their averages leads to a learning technique that is scalable to a large number of users, satisfies differential privacy, and is applicable to non-trivial tasks, such as CIFAR-10. For a large number of participants, communication cost is one of the main challenges. We achieve a low communication cost by requiring only a single invocation of an efficient secure multiparty summation protocol. By relying on state-of-the-art feature extractors (SimCLR), we are able to utilize differentially private convex learners for non-trivial tasks such as CIFAR-10. Our experimental results illustrate that for $1{,}000$ users with $50$ data points each, our scheme outperforms state-of-the-art scalable distributed learning methods (differentially private federated learning, short DP-FL) while requiring around $500$ times fewer communication costs: For CIFAR-10, we achieve a classification accuracy of $79.7\,\%$ for an $\varepsilon = 0.59$ while DP-FL achieves $57.6\,\%$. More generally, we prove learnability properties for the average of such locally trained models: convergence and uniform stability. By only requiring strongly convex, smooth, and Lipschitz-continuous objective functions, locally trained via stochastic gradient descent (SGD), we achieve a strong utility-privacy tradeoff.
翻訳日:2022-11-04 13:00:30 公開日:2022-11-03
# 敵対的攻撃に対するブラックボックスモデルのデータフリー防御

Data-free Defense of Black Box Models Against Adversarial Attacks ( http://arxiv.org/abs/2211.01579v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Inder Khatri, Shubham Randive, Ruchit Rawal, Anirban Chakraborty(参考訳) いくつかの企業は、apiを通じてブラックボックスとしてのみ公開することにより、トレーニングされた深層モデル(アーキテクチャの詳細、学習重み、トレーニング詳細など)をサードパーティユーザから保護することが多い。 さらに、プロプライエタリな理由やセンシティブな懸念から、トレーニングデータへのアクセスも提供されない可能性がある。 我々は,データフリーセットアップにおいて,ブラックボックスモデルに敵対的ロバスト性を提供するための最初の試みを行う。 生成モデルによる合成データを構築し,モデル盗み技術を用いてサロゲートネットワークを訓練する。 本稿では,入力画像上で離散ウェーブレット分解を行う「ウェーブレットノイズ除去器(WNR)」を提案し,我々の「ウェーブレット係数選択モジュール(WCSM)」によって決定されるいくつかの重要な係数のみを慎重に選択する。 WNRによるノイズ除去後の画像の高周波コンテンツを復元するために,再構成した画像がサロゲートモデル上の元の予測に類似した係数を得る目的で,さらに「再生器」ネットワークを訓練する。 テスト時には、トレーニングされた再生器ネットワークと組み合わせたWNRがブラックボックスネットワークにプリプションされ、敵の精度が向上する。 本手法は,攻撃者がブラックボックスアーキテクチャ(Alexnet)に類似したサロゲートアーキテクチャ(Alexnet-half,Alexnet)をディフェンダーと同じモデルステーリング戦略で使用しても,ベースラインと比較してCIFAR-10の対角精度を38.98%,32.01%向上させる。 コードはhttps://github.com/vcl-iisc/data-free-black-box- defenseで入手できる。

Several companies often safeguard their trained deep models (i.e. details of architecture, learnt weights, training details etc.) from third-party users by exposing them only as black boxes through APIs. Moreover, they may not even provide access to the training data due to proprietary reasons or sensitivity concerns. We make the first attempt to provide adversarial robustness to the black box models in a data-free set up. We construct synthetic data via generative model and train surrogate network using model stealing techniques. To minimize adversarial contamination on perturbed samples, we propose `wavelet noise remover' (WNR) that performs discrete wavelet decomposition on input images and carefully select only a few important coefficients determined by our `wavelet coefficient selection module' (WCSM). To recover the high-frequency content of the image after noise removal via WNR, we further train a `regenerator' network with an objective to retrieve the coefficients such that the reconstructed image yields similar to original predictions on the surrogate model. At test time, WNR combined with trained regenerator network is prepended to the black box network, resulting in a high boost in adversarial accuracy. Our method improves the adversarial accuracy on CIFAR-10 by 38.98% and 32.01% on state-of-the-art Auto Attack compared to baseline, even when the attacker uses surrogate architecture (Alexnet-half and Alexnet) similar to the black box architecture (Alexnet) with same model stealing strategy as defender. The code is available at https://github.com/vcl-iisc/data-free-black-box-defense
翻訳日:2022-11-04 12:59:06 公開日:2022-11-03
# 条件付きGANと拡散モデルに対する効率的な空間スパース推論

Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models ( http://arxiv.org/abs/2211.02048v1 )

ライセンス: Link先を確認
Muyang Li, Ji Lin, Chenlin Meng, Stefano Ermon, Song Han, and Jun-Yan Zhu(参考訳) 画像編集中、既存の深層生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。 これは特にマイナーな編集操作において、計算のかなりの無駄につながる。 本研究では、編集領域の計算を選択的に行い、条件付きGANや拡散モデルを含む様々な生成モデルを高速化する汎用手法である空間スパース推論(SSI)を提案する。 重要なのは、ユーザが入力イメージを徐々に変更する傾向があることです。 これは、元のイメージの機能マップをキャッシュして再利用する動機となります。 編集画像が与えられた場合、編集領域に畳み込みフィルタを適用し、未編集領域のキャッシュ機能を再利用する。 さらに,本アルゴリズムを用いて,Sparse Incremental Generative Engine (SIGE) を提案する。 1.2%の領域でDDIMの計算を7.5$\times$、GauGANを18$\times$に減らし、視覚的忠実度を保っている。 SIGEでは、RTX 3090ではDDIMの速度を3.0倍、Apple M1 Pro CPUでは6.6$\times$、RTX 3090では4.2$\times$、Apple M1 Pro CPUでは14$\times$で加速します。

During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users tend to make gradual changes to the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited regions. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With 1.2%-area edited regions, our method reduces the computation of DDIM by 7.5$\times$ and GauGAN by 18$\times$ while preserving the visual fidelity. With SIGE, we accelerate the speed of DDIM by 3.0x on RTX 3090 and 6.6$\times$ on Apple M1 Pro CPU, and GauGAN by 4.2$\times$ on RTX 3090 and 14$\times$ on Apple M1 Pro CPU.
翻訳日:2022-11-04 12:58:33 公開日:2022-11-03
# nerf2nerf:神経放射野のペアワイズレジストレーション

nerf2nerf: Pairwise Registration of Neural Radiance Fields ( http://arxiv.org/abs/2211.01600v1 )

ライセンス: Link先を確認
Lily Goli, Daniel Rebain, Sara Sabour, Animesh Garg, Andrea Tagliasacchi(参考訳) We introduce a technique for pairwise registration of neural fields that extends classical optimization-based local registration (i.e. ICP) to operate on Neural Radiance Fields (NeRF) -- neural 3D scene representations trained from collections of calibrated images. NeRF does not decompose illumination and color, so to make registration invariant to illumination, we introduce the concept of a ''surface field'' -- a field distilled from a pre-trained NeRF model that measures the likelihood of a point being on the surface of an object. 次に,両シーンの表面場を整列する剛性変換を反復的に求めるロバストな最適化として nerf2nerf 登録を配置した。 我々の合成シーンは,従来の登録手法と定量的評価と比較が可能であり,実際のシーンでは実世界のシナリオにおいて,我々の技術の有効性を実証している。 https://nerf2nerf.github.io

We introduce a technique for pairwise registration of neural fields that extends classical optimization-based local registration (i.e. ICP) to operate on Neural Radiance Fields (NeRF) -- neural 3D scene representations trained from collections of calibrated images. NeRF does not decompose illumination and color, so to make registration invariant to illumination, we introduce the concept of a ''surface field'' -- a field distilled from a pre-trained NeRF model that measures the likelihood of a point being on the surface of an object. We then cast nerf2nerf registration as a robust optimization that iteratively seeks a rigid transformation that aligns the surface fields of the two scenes. We evaluate the effectiveness of our technique by introducing a dataset of pre-trained NeRF scenes -- our synthetic scenes enable quantitative evaluations and comparisons to classical registration techniques, while our real scenes demonstrate the validity of our technique in real-world scenarios. Additional results available at: https://nerf2nerf.github.io
翻訳日:2022-11-04 12:53:08 公開日:2022-11-03
# P4P:自律運転計画のための衝突認識運動予測

P4P: Conflict-Aware Motion Prediction for Planning in Autonomous Driving ( http://arxiv.org/abs/2211.01634v1 )

ライセンス: Link先を確認
Qiao Sun, Xin Huang, Brian C. Williams, Hang Zhao(参考訳) 動き予測は、対話的なシナリオで自動運転車の安全な動き計画を可能にするために不可欠である。 プランナーは、他のトラフィックエージェントとの潜在的な衝突を特定し、安全なプランを生成することができる。 既存の動き予測器は、しばしば予測エラーを減らすことに重点を置いているが、プランナーの衝突を特定するのにどの程度役立つかは、未解決の問題である。 本稿では,コンフリクトの同定の成功率などの新たなコンフリクト関連指標を用いて,最先端の予測器の評価を行う。 驚くべきことに、予測器は成功率が低いため、対話型シミュレータで予測計画システムをテストする場合、多数の衝突が発生する。 このギャップを埋めるために,物理学に基づく軌道生成器と学習に基づく関係予測器を組み合わせた,単純かつ効果的な代替手段を提案する。 Waymo Open Motion Datasetからのリアルなインタラクティブな駆動シナリオにおいて,既存の学習ベースの予測器よりも優れた性能を実現することを実証した。

Motion prediction is crucial in enabling safe motion planning for autonomous vehicles in interactive scenarios. It allows the planner to identify potential conflicts with other traffic agents and generate safe plans. Existing motion predictors often focus on reducing prediction errors, yet it remains an open question on how well they help identify the conflicts for the planner. In this paper, we evaluate state-of-the-art predictors through novel conflict-related metrics, such as the success rate of identifying conflicts. Surprisingly, the predictors suffer from a low success rate and thus lead to a large percentage of collisions when we test the prediction-planning system in an interactive simulator. To fill the gap, we propose a simple but effective alternative that combines a physics-based trajectory generator and a learning-based relation predictor to identify conflicts and infer conflict relations. We demonstrate that our predictor, P4P, achieves superior performance over existing learning-based predictors in realistic interactive driving scenarios from Waymo Open Motion Dataset.
翻訳日:2022-11-04 12:52:53 公開日:2022-11-03
# トポロジーデータ解析を用いた信頼性のあるマルウェア解析と検出

Reliable Malware Analysis and Detection using Topology Data Analysis ( http://arxiv.org/abs/2211.01535v1 )

ライセンス: Link先を確認
Lionel Nganyewou Tidjon and Foutse Khomh(参考訳) マルウェアはますます複雑になり、さまざまなインフラや個人用デバイスをターゲットにして、被害者の情報を収集、修正、破壊するネットワークに広がりつつある。 マルウェアの挙動は多型的、変成的、永続的であり、検出器をバイパスし、新しい環境に適応できる。 これにより、従来のエンドポイント検出・応答・侵入検出・防止システムでは分析・検出が困難になる。 マルウェアから守るため、最近の研究はシグネチャと機械学習に基づく異なる手法を提案している。 本稿では,tda(topological-based data analysis)と呼ばれる代数的トポロジカルアプローチを用いて,複雑なマルウェアパターンを効率的に解析し,検出する手法を提案する。 次に、無作為林、決定木、xgboost、lightgbmといった異なる分類器を用いて、TDA技術(永続性ホモロジー、トマト、TDAマッパー)と既存の技術(PCA、UMAP、t-SNE)を比較した。 また,マルウェア検出に最適なモデルを大規模に展開することを提案する。 その結果,PCAと組み合わせたTDA Mapperは,PCAと比較してクラスタリングやマルウェアクラスタ間の隠れた関係の同定に優れていた。 UMAPやt-SNEと比較して、実行時間が少ない重なり合うマルウェアクラスタを識別する方が、永続的なダイアグラムの方がよい。 マルウェア検出では、Random ForestとDecision Treeをt-SNEとPersistent Diagramで使用して、ノイズデータのパフォーマンスと堅牢性を向上することができる。

Increasingly, malwares are becoming complex and they are spreading on networks targeting different infrastructures and personal-end devices to collect, modify, and destroy victim information. Malware behaviors are polymorphic, metamorphic, persistent, able to hide to bypass detectors and adapt to new environments, and even leverage machine learning techniques to better damage targets. Thus, it makes them difficult to analyze and detect with traditional endpoint detection and response, intrusion detection and prevention systems. To defend against malwares, recent work has proposed different techniques based on signatures and machine learning. In this paper, we propose to use an algebraic topological approach called topological-based data analysis (TDA) to efficiently analyze and detect complex malware patterns. Next, we compare the different TDA techniques (i.e., persistence homology, tomato, TDA Mapper) and existing techniques (i.e., PCA, UMAP, t-SNE) using different classifiers including random forest, decision tree, xgboost, and lightgbm. We also propose some recommendations to deploy the best-identified models for malware detection at scale. Results show that TDA Mapper (combined with PCA) is better for clustering and for identifying hidden relationships between malware clusters compared to PCA. Persistent diagrams are better to identify overlapping malware clusters with low execution time compared to UMAP and t-SNE. For malware detection, malware analysts can use Random Forest and Decision Tree with t-SNE and Persistent Diagram to achieve better performance and robustness on noised data.
翻訳日:2022-11-04 12:51:49 公開日:2022-11-03
# 新たな犯罪データを用いた機械学習による犯罪予測

Crime Prediction using Machine Learning with a Novel Crime Dataset ( http://arxiv.org/abs/2211.01551v1 )

ライセンス: Link先を確認
Faisal Tareque Shohan, Abu Ubaida Akash, Muhammad Ibrahim, Mohammad Shafiul Alam(参考訳) 犯罪は法的弾圧を行う違法な行為である。 バングラデシュは貧困、人口増加、その他多くの社会経済的問題による犯罪率が高い。 法執行機関にとって、将来の犯罪活動を防ぐためには犯罪パターンを理解することが不可欠である。 この目的のために、これらの機関は構造化犯罪データベースを必要とする。 本稿では,バングラデシュにおける6574件の犯罪事件に関する時間的,地理的,天気,人口統計データを含む新たな犯罪データセットを提案する。 我々は、毎日の新聞アーカイブから7年間の犯罪ニュース記事を手作業で収集する。 これらの原文から基本的特徴を抽出する。 次に,これらの基本的な機能を用いて,位置情報と気象データの標準サービス提供者に相談し,収集した犯罪事件に関する情報を収集する。 さらにバングラデシュ国立国勢調査データから人口統計情報を収集する。 これらの情報を組み合わせて、標準の機械学習データセットが生成される。 犯罪予測タスクには36の機能が組み込まれている。 5つの教師付き機械学習分類アルゴリズムが新たに構築されたデータセット上で評価され、十分な結果が得られる。 また,データセットの様々な側面について探索分析を行う。 このデータセットはバングラデシュや他の国の犯罪発生予測システムの基礎となることが期待されている。 本研究の結果は、法執行機関が犯罪を予知し、封じ込め、犯罪パトロールや予防に最適な資源配分を確保するのに役立つ。

Crime is an unlawful act that carries legal repercussions. Bangladesh has a high crime rate due to poverty, population growth, and many other socio-economic issues. For law enforcement agencies, understanding crime patterns is essential for preventing future criminal activity. For this purpose, these agencies need structured crime database. This paper introduces a novel crime dataset that contains temporal, geographic, weather, and demographic data about 6574 crime incidents of Bangladesh. We manually gather crime news articles of a seven year time span from a daily newspaper archive. We extract basic features from these raw text. Using these basic features, we then consult standard service-providers of geo-location and weather data in order to garner these information related to the collected crime incidents. Furthermore, we collect demographic information from Bangladesh National Census data. All these information are combined that results in a standard machine learning dataset. Together, 36 features are engineered for the crime prediction task. Five supervised machine learning classification algorithms are then evaluated on this newly built dataset and satisfactory results are achieved. We also conduct exploratory analysis on various aspects the dataset. This dataset is expected to serve as the foundation for crime incidence prediction systems for Bangladesh and other countries. The findings of this study will help law enforcement agencies to forecast and contain crime as well as to ensure optimal resource allocation for crime patrol and prevention.
翻訳日:2022-11-04 12:51:15 公開日:2022-11-03
# 効率的なタスクと運動計画のためのシーケンスベース計画実現可能性予測

Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion Planning ( http://arxiv.org/abs/2211.01576v1 )

ライセンス: Link先を確認
Zhutian Yang, Caelan Reed Garrett, Dieter Fox(参考訳) 複雑な環境での長い水平動作を計画するロボットは、環境の幾何学がどの計画が実現可能か、すなわち、候補計画の全ての制約を満たすアクションパラメータ値が存在するかどうかを素早く判断できなければならない。 具体的かつ可動的な障害を含むタスクでは、典型的なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムが実行時の大半を、実現不可能な計画スケルトンによって課される解決不可能な制約満足問題の解決に費やしている。 我々は、初期状態、目標、および候補計画に基づいて計画実現可能性を予測する新しいトランスフォーマーベースのアーキテクチャPIGINetを開発し、画像とテキストの埋め込みを状態特徴と融合させた。 このモデルは、予測された満足度に応じて、TAMPプランナーが生成するプランの骨格をソートする。 学習可能なtampアルゴリズムのランタイムをキッチン再配置問題のいくつかの分布上で評価し,その性能を非学習ベースラインとアルゴリズムアブレーションと比較した。 実験の結果,PIGINetは計画の効率を大幅に改善し,障害物のあるピック・アンド・プレイスの問題を平均80%削減した。 また、オブジェクトの視覚的エンコーディングにより、見えないオブジェクトカテゴリの問題に対するゼロショットの一般化も達成している。

Robots planning long-horizon behavior in complex environments must be able to quickly reason about the impact of the environment's geometry on what plans are feasible, i.e., whether there exist action parameter values that satisfy all constraints on a candidate plan. In tasks involving articulated and movable obstacles, typical Task and Motion Planning (TAMP) algorithms spend most of their runtime attempting to solve unsolvable constraint satisfaction problems imposed by infeasible plan skeletons. We developed a novel Transformer-based architecture, PIGINet, that predicts plan feasibility based on the initial state, goal, and candidate plans, fusing image and text embeddings with state features. The model sorts the plan skeletons produced by a TAMP planner according to the predicted satisfiability likelihoods. We evaluate the runtime of our learning-enabled TAMP algorithm on several distributions of kitchen rearrangement problems, comparing its performance to that of non-learning baselines and algorithm ablations. Our experiments show that PIGINet substantially improves planning efficiency, cutting down runtime by 80% on average on pick-and-place problems with articulated obstacles. It also achieves zero-shot generalization to problems with unseen object categories thanks to its visual encoding of objects.
翻訳日:2022-11-04 12:50:54 公開日:2022-11-03
# GRAIMATTER Green Paper:TRE(Trusted Research Environments)から学習した機械学習(ML)モデルの開示制御に関する勧告

GRAIMATTER Green Paper: Recommendations for disclosure control of trained Machine Learning (ML) models from Trusted Research Environments (TREs) ( http://arxiv.org/abs/2211.01656v1 )

ライセンス: Link先を確認
Emily Jefferson, James Liley, Maeve Malone, Smarti Reel, Alba Crespi-Boixader, Xaroula Kerasidou, Francesco Tava, Andrew McCarthy, Richard Preen, Alberto Blanco-Justicia, Esma Mansouri-Benssassi, Josep Domingo-Ferrer, Jillian Beggs, Antony Chuter, Christian Cole, Felix Ritchie, Angela Daly, Simon Rogers, Jim Smith(参考訳) TREは、データ機密性を保護しながら、安全で透明な研究を可能にするため、様々な分野(健康、警察、税務、教育など)にわたる機密データの統計分析を支援するために、広く使われている。 TREでAIモデルをトレーニングしたいという学界や業界からの要望が増えている。 AIの分野は、ヒューマンエラーの発見、プロセスの合理化、タスク自動化、意思決定支援などのアプリケーションで急速に発展している。 これらの複雑なaiモデルは、記述と再現のためにより多くの情報を必要とし、そのような記述からセンシティブな個人データが推測される可能性を高めている。 TREは、これらのリスクに対して成熟したプロセスやコントロールを持っていません。 これは複雑なトピックであり、すべてのTREがすべてのリスクを認識している、あるいはTRE研究者がAI固有のトレーニングにおけるこれらのリスクに対処していると期待することは理にかなっている。 GRAIMATTERは、TREからトレーニング済みAIモデルを開示する際の追加リスクを回避するために、TREに有用な推奨案のドラフトセットを開発した。 これらの勧告の開発は、GRAIMATTER UKRI DARE UKスプリント研究プロジェクトによって資金提供された。 このリコメンデーションのこのバージョンは2022年9月にプロジェクトの終わりに公開された。 プロジェクト期間中に、これらの推奨事項を実際に拡張およびテストするために、今後の調査を行うための多くの領域を特定しました。 したがって、この文書は時間とともに進化することを期待している。

TREs are widely, and increasingly used to support statistical analysis of sensitive data across a range of sectors (e.g., health, police, tax and education) as they enable secure and transparent research whilst protecting data confidentiality. There is an increasing desire from academia and industry to train AI models in TREs. The field of AI is developing quickly with applications including spotting human errors, streamlining processes, task automation and decision support. These complex AI models require more information to describe and reproduce, increasing the possibility that sensitive personal data can be inferred from such descriptions. TREs do not have mature processes and controls against these risks. This is a complex topic, and it is unreasonable to expect all TREs to be aware of all risks or that TRE researchers have addressed these risks in AI-specific training. GRAIMATTER has developed a draft set of usable recommendations for TREs to guard against the additional risks when disclosing trained AI models from TREs. The development of these recommendations has been funded by the GRAIMATTER UKRI DARE UK sprint research project. This version of our recommendations was published at the end of the project in September 2022. During the course of the project, we have identified many areas for future investigations to expand and test these recommendations in practice. Therefore, we expect that this document will evolve over time.
翻訳日:2022-11-04 12:50:33 公開日:2022-11-03
# AI時代の責任体制--証明の負担に関するユースケース駆動分析

Liability regimes in the age of AI: a use-case driven analysis of the burden of proof ( http://arxiv.org/abs/2211.01817v1 )

ライセンス: Link先を確認
David Fern\'andez Llorca, Vicky Charisi, Ronan Hamon, Ignacio S\'anchez, Emilia G\'omez(参考訳) 人工知能(AI)を利用した新しいテクノロジーは、私たちの社会をより良く、破壊的に変革する可能性がある。 特に、データ駆動学習アプローチ(機械学習(ML))は、様々なアプリケーション領域における複数の技術の進歩において真の革命である。 しかし同時に、安全と基本的権利の両方に潜在的なリスクをもたらすこれらの方法論の固有の特性に対する懸念が高まっている。 これらのリスクを最小限に抑えるメカニズム(例えば、安全規制)があるが、これらは害が起こる可能性を排除せず、もしこれが起これば、被害者は補償を求めることができる。 したがって、責任体制は、これらのシステムを使用するか、または相互作用する被害者の基本的な保護を確保する上で重要な役割を果たす。 しかし、因果関係の欠如、不透明性、予測不能、あるいは自己と継続的学習能力など、aiシステムを本質的に危険にさらす同じ特徴は、因果関係を証明する上で大きな困難をもたらす。 本稿では,これらの難易度を示す3つのケーススタディと,それらに到達するための方法論について述べる。 具体的には, 清掃ロボット, 配送ドローン, 教育用ロボットの事例について述べる。 提案した分析の結果は、AI技術に関わる場合の被害者に対する証明の負担を軽減するために、責任体制の見直しの必要性を示唆している。

New emerging technologies powered by Artificial Intelligence (AI) have the potential to disruptively transform our societies for the better. In particular, data-driven learning approaches (i.e., Machine Learning (ML)) have been a true revolution in the advancement of multiple technologies in various application domains. But at the same time there is growing concerns about certain intrinsic characteristics of these methodologies that carry potential risks to both safety and fundamental rights. Although there are mechanisms in the adoption process to minimize these risks (e.g., safety regulations), these do not exclude the possibility of harm occurring, and if this happens, victims should be able to seek compensation. Liability regimes will therefore play a key role in ensuring basic protection for victims using or interacting with these systems. However, the same characteristics that make AI systems inherently risky, such as lack of causality, opacity, unpredictability or their self and continuous learning capabilities, lead to considerable difficulties when it comes to proving causation. This paper presents three case studies, as well as the methodology to reach them, that illustrate these difficulties. Specifically, we address the cases of cleaning robots, delivery drones and robots in education. The outcome of the proposed analysis suggests the need to revise liability regimes to alleviate the burden of proof on victims in cases involving AI technologies.
翻訳日:2022-11-04 12:50:09 公開日:2022-11-03
# 対数サンプルを用いないロバスト・ファウショット学習

Robust Few-shot Learning Without Using any Adversarial Samples ( http://arxiv.org/abs/2211.01598v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Ruchit Rawal, Inder Khatri, Anirban Chakraborty(参考訳) サンプルの取得と注釈付けのコストが高いことから、"ファウショット"学習は最も重要な問題となっている。 既存の作業は主にクリーンなデータのパフォーマンス向上と、敵対的ノイズに悩まされるデータに対する堅牢性に関する懸念の見落としに重点を置いている。 近年,高度なメタ学習手法を用いて,少数の問題とロバスト性目標を組み合わせる試みがいくつか行われている。 これらの手法は、訓練の各エピソードにおける逆サンプルの生成に依存しており、さらに計算負荷が増大する。 このような時間を要する複雑な手順を避けるために,逆方向のサンプルを必要としない単純な代替手段を提案する。 人間の認知的意思決定プロセスに触発されて,基礎クラスデータとそれに対応する低周波サンプルとの高レベル特徴マッチングを自己蒸留によって事前訓練段階に実施する。 このモデルは、コサイン類似性によって低周波クエリ集合の特徴の判別性がさらに向上する、新しいクラスのサンプルで微調整される。 CIFAR-FSデータセットの1ショット設定では、PGDと最先端のオートアタックの対向精度が60.55\%と62.05\%と大幅に向上し、ベースラインと比較してわずかに精度が低下した。 さらに、標準のトレーニング時間の1.69\times$と、最先端の敵対的メタラーニングメソッドよりも約$5\times$である。 コードはhttps://github.com/vcl-iisc/robust-few-shot-learningで入手できる。

The high cost of acquiring and annotating samples has made the `few-shot' learning problem of prime importance. Existing works mainly focus on improving performance on clean data and overlook robustness concerns on the data perturbed with adversarial noise. Recently, a few efforts have been made to combine the few-shot problem with the robustness objective using sophisticated Meta-Learning techniques. These methods rely on the generation of adversarial samples in every episode of training, which further adds a computational burden. To avoid such time-consuming and complicated procedures, we propose a simple but effective alternative that does not require any adversarial samples. Inspired by the cognitive decision-making process in humans, we enforce high-level feature matching between the base class data and their corresponding low-frequency samples in the pretraining stage via self distillation. The model is then fine-tuned on the samples of novel classes where we additionally improve the discriminability of low-frequency query set features via cosine similarity. On a 1-shot setting of the CIFAR-FS dataset, our method yields a massive improvement of $60.55\%$ & $62.05\%$ in adversarial accuracy on the PGD and state-of-the-art Auto Attack, respectively, with a minor drop in clean accuracy compared to the baseline. Moreover, our method only takes $1.69\times$ of the standard training time while being $\approx$ $5\times$ faster than state-of-the-art adversarial meta-learning methods. The code is available at https://github.com/vcl-iisc/robust-few-shot-learning.
翻訳日:2022-11-04 12:42:40 公開日:2022-11-03
# 野火の画像に基づく早期検出システム

Image-based Early Detection System for Wildfires ( http://arxiv.org/abs/2211.01629v1 )

ライセンス: Link先を確認
Omkar Ranadive, Jisu Kim, Serin Lee, Youngseo Cha, Heechan Park, Minkook Cho, Young K. Hwang(参考訳) 森林火災は、土地の損傷、財産の喪失、大気汚染、さらには人間の生命の喪失を引き起こす悲惨な現象である。 気候変動によって引き起こされる暖かく乾燥した環境のため、今後数年でより厳しく制御不能な山火事が起こると予想されている。 これは世界的な山火事を引き起こし、地球に恐ろしい結果をもたらす可能性がある。 そのため、山火事の拡散を防ぐための技術が不可欠になっている。 大きすぎる前に野火が広がるのを防ぐ一つの方法は、早期検出、すなわち実際の火災が始まる前に煙を検出することである。 本稿では,機械学習を用いて高い精度で山火事の煙を検知し,ユーザに即時警報を送信できるWildfire Detection and Alertシステムを提案する。 私たちの技術は現在、米国内で毎日何百ものカメラから送られてくるデータを監視するために使われています。 その結果,本システムは真検出率が高く,誤検出率が低いことがわかった。 また, 性能評価の結果から, 実際の人よりも山火事の煙が速く検出されることがわかった。

Wildfires are a disastrous phenomenon which cause damage to land, loss of property, air pollution, and even loss of human life. Due to the warmer and drier conditions created by climate change, more severe and uncontrollable wildfires are expected to occur in the coming years. This could lead to a global wildfire crisis and have dire consequences on our planet. Hence, it has become imperative to use technology to help prevent the spread of wildfires. One way to prevent the spread of wildfires before they become too large is to perform early detection i.e, detecting the smoke before the actual fire starts. In this paper, we present our Wildfire Detection and Alert System which use machine learning to detect wildfire smoke with a high degree of accuracy and can send immediate alerts to users. Our technology is currently being used in the USA to monitor data coming in from hundreds of cameras daily. We show that our system has a high true detection rate and a low false detection rate. Our performance evaluation study also shows that on an average our system detects wildfire smoke faster than an actual person.
翻訳日:2022-11-04 12:42:07 公開日:2022-11-03
# グラフニューラルネットワークにおける説明可能性の探索

Exploring Explainability Methods for Graph Neural Networks ( http://arxiv.org/abs/2211.01770v1 )

ライセンス: Link先を確認
Harsh Patel, Shivam Sahni(参考訳) 複雑な相互接続性情報をエンコードするディープラーニング手法、特にグラフニューラルネットワークが、さまざまな実際のタスクで使用されるようになると、そのような設定では説明可能性が必要となる。 本稿では,グラフに基づく超画素画像分類タスクにおいて,グラフ注意ネットワーク(GAT)に対する一般的な説明可能性アプローチの適用性を示す。 これらの手法の質的,定量的な性能を3つの異なるデータセットで評価し,その結果について述べる。 その結果、GNN、特にGATにおける説明可能性の概念に新たな光を当てた。

With the growing use of deep learning methods, particularly graph neural networks, which encode intricate interconnectedness information, for a variety of real tasks, there is a necessity for explainability in such settings. In this paper, we demonstrate the applicability of popular explainability approaches on Graph Attention Networks (GAT) for a graph-based super-pixel image classification task. We assess the qualitative and quantitative performance of these techniques on three different datasets and describe our findings. The results shed a fresh light on the notion of explainability in GNNs, particularly GATs.
翻訳日:2022-11-04 12:41:50 公開日:2022-11-03
# 安定拡散による合成画像データセットの評価

Evaluating a Synthetic Image Dataset Generated with Stable Diffusion ( http://arxiv.org/abs/2211.01777v1 )

ライセンス: Link先を確認
Andreas St\"ockl(参考訳) 我々は,Wordnet分類とそれを含む概念の定義を用いて,「安定拡散」画像生成モデルを用いて合成画像を生成する。 この合成画像データベースは、機械学習アプリケーションにおけるデータ拡張のためのトレーニングデータとして使用することができ、安定拡散モデルの能力を調べるために使用される。 解析によれば、安定拡散は多数の概念に対して正しい画像を生成することができるが、同時に様々な表現も生成できる。 結果は,検討したテスト概念と,非常に具体的な概念を持つ問題によって差異を示す。 これらの評価は視覚変換器モデルを用いて画像分類を行った。

We generate synthetic images with the "Stable Diffusion" image generation model using the Wordnet taxonomy and the definitions of concepts it contains. This synthetic image database can be used as training data for data augmentation in machine learning applications, and it is used to investigate the capabilities of the Stable Diffusion model. Analyses show that Stable Diffusion can produce correct images for a large number of concepts, but also a large variety of different representations. The results show differences depending on the test concepts considered and problems with very specific concepts. These evaluations were performed using a vision transformer model for image classification.
翻訳日:2022-11-04 12:41:42 公開日:2022-11-03
# ニューラルネットワークにおける明確な粗粒構造探索

Exploring explicit coarse-grainend structure in artificial neural networks ( http://arxiv.org/abs/2211.01779v1 )

ライセンス: Link先を確認
Xi-Ci Yang, Z. Y. Xie, Xiao-Tao Yang(参考訳) 本稿では,ニューラルネットワークの階層的粗粒度構造を用いて,性能を劣化させることなく解釈性を向上させることを提案する。 その考えは2つの状況に適用された。 ひとつはTaylorNetと呼ばれるニューラルネットワークで、入力データから出力結果への一般的なマッピングを、魔法の非線形アクティベーションに頼ることなく、直接テイラー級数の観点から近似することを目的としている。 もうひとつはデータ蒸留のための新しいセットアップで、入力データセットのマルチレベル抽象化を実行し、元のデータセットの関連する特徴を持つ新しいデータを生成し、分類のリファレンスとして使用することができる。 どちらの場合も、粗粒構造はネットワークを単純化し、解釈可能性と効率性の両方を改善する上で重要な役割を果たす。 この妥当性は、MNISTとCIFAR-10データセットで実証されている。 さらなる改善といくつかのオープン質問も議論されている。

We propose to employ the hierarchical coarse-grained structure in the artificial neural networks explicitly to improve the interpretability without degrading performance. The idea has been applied in two situations. One is a neural network called TaylorNet, which aims to approximate the general mapping from input data to output result in terms of Taylor series directly, without resorting to any magic nonlinear activations. The other is a new setup for data distillation, which can perform multi-level abstraction of the input dataset and generate new data that possesses the relevant features of the original dataset and can be used as references for classification. In both cases, the coarse-grained structure plays an important role in simplifying the network and improving both the interpretability and efficiency. The validity has been domonstrated on MNIST and CIFAR-10 datasets. Further improvement and some open questions related are also discussed.
翻訳日:2022-11-04 12:41:33 公開日:2022-11-03
# 自己類似行列に基づくCNNフィルタプルーニング

Self Similarity Matrix based CNN Filter Pruning ( http://arxiv.org/abs/2211.01814v1 )

ライセンス: Link先を確認
S Rakshith, Jayesh Rajkumar Vachhani, Sourabh Vasant Gothe, and Rishabh Khurana(参考訳) 近年、ディープラーニングソリューションのほとんどは、モバイルデバイスにデプロイされることを目標としています。 これにより、軽量モデルの開発がより差し迫ったものになる。 もうひとつのソリューションは、通常のディープラーニングモデルを最適化してpruneすることです。 本稿では,2次元CNNフィルタから計算した自己相似行列(SSM)を用いて,CNNモデルプルーニングの問題に取り組む。 出力に類似したアクティベーションマップに寄与する冗長フィルタをランク付けする2つの新しいアルゴリズムを提案する。 提案手法の重要な特徴の1つは,モデルのトレーニング後に微調整を行う必要がないことである。 訓練と刈り取りのプロセスが同時に完了する。 我々は,最も人気のあるCNNモデルであるResNetとVGGをベンチマークし,その性能をCIFAR-10データセットで記録する。

In recent years, most of the deep learning solutions are targeted to be deployed in mobile devices. This makes the need for development of lightweight models all the more imminent. Another solution is to optimize and prune regular deep learning models. In this paper, we tackle the problem of CNN model pruning with the help of Self-Similarity Matrix (SSM) computed from the 2D CNN filters. We propose two novel algorithms to rank and prune redundant filters which contribute similar activation maps to the output. One of the key features of our method is that there is no need of finetuning after training the model. Both the training and pruning process is completed simultaneously. We benchmark our method on two of the most popular CNN models - ResNet and VGG and record their performance on the CIFAR-10 dataset.
翻訳日:2022-11-04 12:41:18 公開日:2022-11-03
# ImageNet-X: 変分アノテーションによるモデルミスを理解する

ImageNet-X: Understanding Model Mistakes with Factor of Variation Annotations ( http://arxiv.org/abs/2211.01866v1 )

ライセンス: Link先を確認
Badr Youbi Idrissi, Diane Bouchacourt, Randall Balestriero, Ivan Evtimov, Caner Hazirbas, Nicolas Ballas, Pascal Vincent, Michal Drozdzal, David Lopez-Paz, Mark Ibrahim(参考訳) ディープラーニングのビジョンシステムは、信頼性が重要なアプリケーション間で広く展開される。 しかし、現在の最高のモデルでさえ、ポーズ、照明、背景が変わるとオブジェクトを認識できない可能性がある。 既存のベンチマークでは、モデルに挑戦する例が浮かび上がっているが、なぜそのようなミスが起こるのかは説明されていない。 このニーズに対処するために、imagenet-1k検証セット全体および1kトレーニングイメージのランダムサブセットのポーズ、背景、照明などの要素の16の人間のアノテーションセットであるimagenet-xを紹介する。 ImageNet-Xを組み込んだ2,200の現在の認識モデルを調査し,(1)モデルアーキテクチャの関数としての誤りの種類,(2)トランスフォーマー対畳み込み,(2)学習パラダイム,(2)教師付き対自己監督,(3)データ拡張などのトレーニング手順について検討する。 これらの選択にかかわらず、ImageNet-Xカテゴリ間で一貫した障害モードを持つモデルが見つかる。 また、データ拡張は特定の要因に対する堅牢性を向上させることができるが、他の要因に対する流出効果を誘発する。 例えば、強いランダムな切り抜きは小さな物体の頑丈さを損なう。 これらの知見は、現代のビジョンモデルの堅牢性の向上を示唆し、将来の研究は、追加データ収集とデータ拡張スキームの理解に焦点を当てるべきである。 これらの知見と合わせて,画像認識システムによる誤りのさらなる研究を促すために,ImageNet-Xに基づくツールキットをリリースする。

Deep learning vision systems are widely deployed across applications where reliability is critical. However, even today's best models can fail to recognize an object when its pose, lighting, or background varies. While existing benchmarks surface examples challenging for models, they do not explain why such mistakes arise. To address this need, we introduce ImageNet-X, a set of sixteen human annotations of factors such as pose, background, or lighting the entire ImageNet-1k validation set as well as a random subset of 12k training images. Equipped with ImageNet-X, we investigate 2,200 current recognition models and study the types of mistakes as a function of model's (1) architecture, e.g. transformer vs. convolutional, (2) learning paradigm, e.g. supervised vs. self-supervised, and (3) training procedures, e.g., data augmentation. Regardless of these choices, we find models have consistent failure modes across ImageNet-X categories. We also find that while data augmentation can improve robustness to certain factors, they induce spill-over effects to other factors. For example, strong random cropping hurts robustness on smaller objects. Together, these insights suggest to advance the robustness of modern vision models, future research should focus on collecting additional data and understanding data augmentation schemes. Along with these insights, we release a toolkit based on ImageNet-X to spur further study into the mistakes image recognition systems make.
翻訳日:2022-11-04 12:41:06 公開日:2022-11-03
# ダイナミック・スパース・部分観測環境における情報ゲインのためのセンサ制御

Sensor Control for Information Gain in Dynamic, Sparse and Partially Observed Environments ( http://arxiv.org/abs/2211.01527v1 )

ライセンス: Link先を確認
J. Brian Burns, Aravind Sundaresan, Pedro Sequeira, Vidyasagar Sadhu(参考訳) 本研究では,部分観測可能,動的,疎密なサンプル環境下での情報収集のための自律型センサ制御手法を提案する。 関心のある空間で部分的な観察を行うセンサを制御することで、その空間に存在する実体に関する情報を最大化する問題を考える。 本稿では,無線周波数(RF)スペクトルモニタリングの課題に対して,環境中の未知のダイナミック信号の探索と追跡を目標とするアプローチについて述べる。 そこで我々は,予測と情報ゲイン報酬を用いて報奨環境における情報最大化ポリシーを学習する,DAN(Deep Precipatory Network)強化学習(Reinforcement Learning, RL)フレームワークを開発した。 また、実際のRFスペクトル/フィールドからのサンプル取得が制限され、コストがかかる状況にまで拡張し、RFフィールドから採取した限られたサンプルから反復的に改善された環境モデルを用いてコントローラを微調整するオリジナルのRLアルゴリズムのモデルベースバージョンを提案する。 提案手法は,異なる複雑性のRF環境において,異なる報酬スキームと評価指標を用いて,ベースラインの専門家設計したコントローラに対して徹底的に検証した。 その結果,本システムは標準的なDANアーキテクチャよりも優れ,手書きエージェントよりも柔軟で堅牢であることがわかった。 また,本手法はエージェントが放出源の変化に適応するために学習しなければならない非定常環境に適用可能であることを示す。

We present an approach for autonomous sensor control for information gathering under partially observable, dynamic and sparsely sampled environments. We consider the problem of controlling a sensor that makes partial observations in some space of interest such that it maximizes information about entities present in that space. We describe our approach for the task of Radio-Frequency (RF) spectrum monitoring, where the goal is to search for and track unknown, dynamic signals in the environment. To this end, we develop and demonstrate enhancements of the Deep Anticipatory Network (DAN) Reinforcement Learning (RL) framework that uses prediction and information-gain rewards to learn information-maximization policies in reward-sparse environments. We also extend this problem to situations in which taking samples from the actual RF spectrum/field is limited and expensive, and propose a model-based version of the original RL algorithm that fine-tunes the controller using a model of the environment that is iteratively improved from limited samples taken from the RF field. Our approach was thoroughly validated by testing against baseline expert-designed controllers in simulated RF environments of different complexity, using different rewards schemes and evaluation metrics. The results show that our system outperforms the standard DAN architecture and is more flexible and robust than several hand-coded agents. We also show that our approach is adaptable to non-stationary environments where the agent has to learn to adapt to changes from the emitting sources.
翻訳日:2022-11-04 12:40:40 公開日:2022-11-03
# オフライン強化学習におけるモデル選択の不等式

Oracle Inequalities for Model Selection in Offline Reinforcement Learning ( http://arxiv.org/abs/2211.02016v1 )

ライセンス: Link先を確認
Jonathan N. Lee, George Tucker, Ofir Nachum, Bo Dai, Emma Brunskill(参考訳) オフライン強化学習(rl)では、学習者は事前のログデータを活用して、環境と対話することなく良い方針を学ぶ。 このような手法を実際に適用する上での大きな課題は、モデル選択と評価のための理論的および実践的なツールの欠如である。 そこで本研究では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。 学習者は、正方形ベルマン誤差を最小限に抑えるためにモデルクラスのネストシーケンスを与えられ、クラスの近似と推定誤差のバランスをとらなければならない。 対数係数まで最小値の最適オラクル不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。 このアルゴリズムであるModBEは、候補モデルクラスと汎用ベースオフラインRLアルゴリズムの集合として入力される。 ModBEは、新しい一方的な一般化テストを用いてモデルクラスを逐次削除することにより、最小限の完全モデルクラスの複雑さを伴って、残念なスケーリングを伴うポリシーを返す。 理論的な保証に加えて、概念的には単純で計算効率が良く、一連の二乗損失回帰問題を解き、クラス間の相対的二乗損失を比較する。 結論として,良質なモデルクラスを確実に選択できることを示す数値シミュレーションを行った。

In offline reinforcement learning (RL), a learner leverages prior logged data to learn a good policy without interacting with the environment. A major challenge in applying such methods in practice is the lack of both theoretically principled and practical tools for model selection and evaluation. To address this, we study the problem of model selection in offline RL with value function approximation. The learner is given a nested sequence of model classes to minimize squared Bellman error and must select among these to achieve a balance between approximation and estimation error of the classes. We propose the first model selection algorithm for offline RL that achieves minimax rate-optimal oracle inequalities up to logarithmic factors. The algorithm, ModBE, takes as input a collection of candidate model classes and a generic base offline RL algorithm. By successively eliminating model classes using a novel one-sided generalization test, ModBE returns a policy with regret scaling with the complexity of the minimally complete model class. In addition to its theoretical guarantees, it is conceptually simple and computationally efficient, amounting to solving a series of square loss regression problems and then comparing relative square loss between classes. We conclude with several numerical simulations showing it is capable of reliably selecting a good model class.
翻訳日:2022-11-04 12:34:13 公開日:2022-11-03
# ガウス過程による安全な探査における単調性の効果

Benefits of Monotonicity in Safe Exploration with Gaussian Processes ( http://arxiv.org/abs/2211.01561v1 )

ライセンス: Link先を確認
Arpan Losalka and Jonathan Scarlett(参考訳) 我々は,各サンプル点が所定の安全閾値以下の関数値を持つことを保証しながら,一連の動作に対して未知の関数を逐次最大化する問題を考察する。 我々は,カーネルベースおよびガウスプロセス法を用いて関数をモデル化するが,安全変数に関して関数が単調に増加しているという仮定では従来と異なる。 この仮定は、適応的な臨床試験設計やロボティクスといった様々な応用によって動機付けられている。 GP-UCB と SafeOpt のアルゴリズムからインスピレーションを得て,この問題に対するアルゴリズムであるモノトンセーフ UCB (M-SafeUCB) を提案する。 m-safeucb は、安全性、適切に定義された後悔の概念、および安全境界全体の発見に関して理論的保証を享受している。 さらに, 単調性仮定は, 得られる保証とアルゴリズムの単純さの両方において有意な利益をもたらすことを示す。 我々は,様々な機能に関する経験的評価を行うことで理論的知見を支持する。

We consider the problem of sequentially maximising an unknown function over a set of actions while ensuring that every sampled point has a function value below a given safety threshold. We model the function using kernel-based and Gaussian process methods, while differing from previous works in our assumption that the function is monotonically increasing with respect to a safety variable. This assumption is motivated by various practical applications such as adaptive clinical trial design and robotics. Taking inspiration from the GP-UCB and SafeOpt algorithms, we propose an algorithm, monotone safe UCB (M-SafeUCB) for this task. We show that M-SafeUCB enjoys theoretical guarantees in terms of safety, a suitably-defined regret notion, and approximately finding the entire safe boundary. In addition, we illustrate that the monotonicity assumption yields significant benefits in terms of both the guarantees obtained and the algorithmic simplicity. We support our theoretical findings by performing empirical evaluations on a variety of functions.
翻訳日:2022-11-04 12:33:15 公開日:2022-11-03
# フェデレーション平均の収束理論:滑らか性を超えて

A Convergence Theory for Federated Average: Beyond Smoothness ( http://arxiv.org/abs/2211.01588v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Zhao Song, Runzhou Tao, Guangyi Zhang(参考訳) フェデレートラーニングにより、大量のエッジコンピューティングデバイスが、データ共有を併用せずにモデルを学習できるようになる。 この設定における主要なアルゴリズムとして、局所デバイス上でSGD(Stochastic Gradient Descent)を並列に実行し、一度だけシーケンスを平均化するFederated Average FedAvgが、その単純さと通信コストの低さから広く使用されている。 しかし、近年の研究努力にもかかわらず、滑らか性以上の仮定に基づく理論的分析が欠如している。 本稿では,FedAvgの収束を解析する。 既存の作業と異なり、強い滑らかさの仮定を緩和します。 より具体的には、損失函数の半スムース性と半リプシッツ性(英語版)を仮定し、これは仮定定義において追加の一階項を持つ。 さらに、収束解析スキームにおいて一般的に用いられる有界勾配仮定よりも弱い勾配に有界を仮定する。 本稿では,フェデレーション学習に関する理論的収束研究について述べる。

Federated learning enables a large amount of edge computing devices to learn a model without data sharing jointly. As a leading algorithm in this setting, Federated Average FedAvg, which runs Stochastic Gradient Descent (SGD) in parallel on local devices and averages the sequences only once in a while, have been widely used due to their simplicity and low communication cost. However, despite recent research efforts, it lacks theoretical analysis under assumptions beyond smoothness. In this paper, we analyze the convergence of FedAvg. Different from the existing work, we relax the assumption of strong smoothness. More specifically, we assume the semi-smoothness and semi-Lipschitz properties for the loss function, which have an additional first-order term in assumption definitions. In addition, we also assume bound on the gradient, which is weaker than the commonly used bounded gradient assumption in the convergence analysis scheme. As a solution, this paper provides a theoretical convergence study on Federated Learning.
翻訳日:2022-11-04 12:32:58 公開日:2022-11-03
# グラフの有限空間上の等方的ガウス過程

Isotropic Gaussian Processes on Finite Spaces of Graphs ( http://arxiv.org/abs/2211.01689v1 )

ライセンス: Link先を確認
Viacheslav Borovitskiy, Mohammad Reza Karimi, Vignesh Ram Somnath, Andreas Krause(参考訳) 我々は、ループの有無にかかわらず、有向グラフや無向グラフの様々な集合上でガウス過程を事前定義する原理的な方法を提案する。 我々はこれらの集合に幾何学的構造を与え、近接性と対称性の概念を誘導し、それらを適切なメタグラフの頂点集合に変換する。 これに基づいて、この構造を尊重し、二乗指数やmat\'ernのようなユークリッド等方過程に類似した事前のクラスを記述する。 このようなガウス過程を通常のツールボックスやダウンストリームアプリケーションで使用可能にすることで,これらのプライオリティのカーネルを評価するという,見かけ上難解な問題に対する効率的な計算手法を提案する。 さらに、未重み付きグラフの同値類の集合を検討し、それに対する事前の適切なバージョンを定義する。 この場合、正確なカーネル計算は効率的に実行できないことを示すため、ハードネスの結果が証明される。 しかし,適度なサイズのケースを扱うための単純なモンテカルロ近似を提案する。 化学における応用に着想を得て,小型データレジームにおける実分子特性予測タスクにおける提案手法について述べる。

We propose a principled way to define Gaussian process priors on various sets of unweighted graphs: directed or undirected, with or without loops. We endow each of these sets with a geometric structure, inducing the notions of closeness and symmetries, by turning them into a vertex set of an appropriate metagraph. Building on this, we describe the class of priors that respect this structure and are analogous to the Euclidean isotropic processes, like squared exponential or Mat\'ern. We propose an efficient computational technique for the ostensibly intractable problem of evaluating these priors' kernels, making such Gaussian processes usable within the usual toolboxes and downstream applications. We go further to consider sets of equivalence classes of unweighted graphs and define the appropriate versions of priors thereon. We prove a hardness result, showing that in this case, exact kernel computation cannot be performed efficiently. However, we propose a simple Monte Carlo approximation for handling moderately sized cases. Inspired by applications in chemistry, we illustrate the proposed techniques on a real molecular property prediction task in the small data regime.
翻訳日:2022-11-04 12:32:42 公開日:2022-11-03
# 価格保証下での学習と収益の相転移

Phase Transitions in Learning and Earning under Price Protection Guarantee ( http://arxiv.org/abs/2211.01798v1 )

ライセンス: Link先を確認
Qing Feng and Ruihao Zhu and Stefanus Jasin(参考訳) 商品を過去に購入した顧客は、いわゆる価格保護期間(通常、購入日以降の一定の時間窓として定義される)に売り手から返金を受けることができる「価格保護保証」が普及したことにより、売り手が価格を下げることを決定した場合、当初不明な顧客需要を伴うデータ駆動動的価格設定のためのオンライン学習アルゴリズムの設計に対するそのようなポリシーの影響について検討する。 私たちは、会社がt$の時間ステップで製品を販売できるような設定を考えています。 この設定のために、価格保護期間の長さである$m$の値が学習プロセスの最適な後悔にどのように影響するかを特徴付ける。 最適な後悔は$\tilde{\Theta}(\sqrt{T}+\min\{M,\,T^{2/3}\})$であることを示す。 そこで, LEAPを提案する。これは, 対数的要因や二重対数的要因(販売者が利用できる価格が2つしかない場合に限る)に対して, 対数的要因にこの下限を合わせるために, \underline{L}earning と \underline{EA}rning の次数的探索型アルゴリズムである。 以上の結果から,M$に対する最適後悔の相転移が明らかとなった。 具体的には、M$が大きすぎる場合、最適の後悔は、価格保護の保証のない古典的な設定と比べて大きな違いはない。 また、M$が大きくなると最適な後悔がどれだけ悪化するかには上限があることも示している。 最後に,この問題に対する他のヒューリスティックな手法を乗り越える利点を示すために,広範な数値実験を行う。

Motivated by the prevalence of ``price protection guarantee", which allows a customer who purchased a product in the past to receive a refund from the seller during the so-called price protection period (typically defined as a certain time window after the purchase date) in case the seller decides to lower the price, we study the impact of such policy on the design of online learning algorithm for data-driven dynamic pricing with initially unknown customer demand. We consider a setting where a firm sells a product over a horizon of $T$ time steps. For this setting, we characterize how the value of $M$, the length of price protection period, can affect the optimal regret of the learning process. We show that the optimal regret is $\tilde{\Theta}(\sqrt{T}+\min\{M,\,T^{2/3}\})$ by first establishing a fundamental impossible regime with novel regret lower bound instances. Then, we propose LEAP, a phased exploration type algorithm for \underline{L}earning and \underline{EA}rning under \underline{P}rice Protection to match this lower bound up to logarithmic factors or even doubly logarithmic factors (when there are only two prices available to the seller). Our results reveal the surprising phase transitions of the optimal regret with respect to $M$. Specifically, when $M$ is not too large, the optimal regret has no major difference when compared to that of the classic setting with no price protection guarantee. We also show that there exists an upper limit on how much the optimal regret can deteriorate when $M$ grows large. Finally, we conduct extensive numerical experiments to show the benefit of LEAP over other heuristic methods for this problem.
翻訳日:2022-11-04 12:32:24 公開日:2022-11-03
# mmによる凸クラスタリング:階層クラスタリングを行う効率的なアルゴリズム

Convex Clustering through MM: An Efficient Algorithm to Perform Hierarchical Clustering ( http://arxiv.org/abs/2211.01877v1 )

ライセンス: Link先を確認
Daniel J. W. Touw, Patrick J. F. Groenen, Yoshikazu Terada(参考訳) 凸クラスタリングは階層的および$k$-meansクラスタリング特性を持つ現代的な手法である。 convexクラスタリングは、データに隠された複雑なクラスタリング構造をキャプチャできるが、既存のconvexクラスタリングアルゴリズムは、サンプルサイズが1万を超える大きなデータセットにはスケーラブルではない。 さらに,凸クラスタリングでは階層的クラスタリング構造が生成できない場合があることが知られている。 この望ましくない現象はクラスタ分割と呼ばれ、クラスタリング結果の解釈が困難になる。 本稿では,クラスタ融合とスパーシティを用いて,メモリ使用量を削減したクラスタ階層を強制する反復アルゴリズムである majorization-minimization (ccmm) による凸クラスタリングを提案する。 ccmmアルゴリズムでは、対角メジャー化手法は各イテレーションに対して非常に効率的な更新を行う。 現在のデスクトップコンピュータでは、CCMMアルゴリズムは70秒以内に7次元空間に100万以上のオブジェクトを含む単一のクラスタリング問題を解決することができる。

Convex clustering is a modern method with both hierarchical and $k$-means clustering characteristics. Although convex clustering can capture the complex clustering structure hidden in data, the existing convex clustering algorithms are not scalable to large data sets with sample sizes greater than ten thousand. Moreover, it is known that convex clustering sometimes fails to produce hierarchical clustering structures. This undesirable phenomenon is called cluster split and makes it difficult to interpret clustering results. In this paper, we propose convex clustering through majorization-minimization (CCMM) -- an iterative algorithm that uses cluster fusions and sparsity to enforce a complete cluster hierarchy with reduced memory usage. In the CCMM algorithm, the diagonal majorization technique makes a highly efficient update for each iteration. With a current desktop computer, the CCMM algorithm can solve a single clustering problem featuring over one million objects in seven-dimensional space within 70 seconds.
翻訳日:2022-11-04 12:31:51 公開日:2022-11-03
# コンバウンディング強度の連続推定器

A Consistent Estimator for Confounding Strength ( http://arxiv.org/abs/2211.01903v1 )

ライセンス: Link先を確認
Luca Rendsburg, Leena Chennuru Vankadara, Debarghya Ghoshdastidar, Ulrike von Luxburg(参考訳) 観測データへの回帰は、観測されていない発見の存在下で因果関係を捉えられない可能性がある。 結合力はこのミスマッチを測定するが、それを推定するには追加の仮定が必要である。 一般的な仮定は、高次元の濃度現象に依存する因果機構の独立性である。 高次元は共起強度の推定を可能にするが、適応推定器も必要である。 本稿では,janzing と sch\"olkopf (2018) による結合強度推定器の漸近的挙動を導出し,一般に一貫性がないことを示す。 次に、ランダム行列理論のツールを用いて、適応的で一貫した推定子を導出する。

Regression on observational data can fail to capture a causal relationship in the presence of unobserved confounding. Confounding strength measures this mismatch, but estimating it requires itself additional assumptions. A common assumption is the independence of causal mechanisms, which relies on concentration phenomena in high dimensions. While high dimensions enable the estimation of confounding strength, they also necessitate adapted estimators. In this paper, we derive the asymptotic behavior of the confounding strength estimator by Janzing and Sch\"olkopf (2018) and show that it is generally not consistent. We then use tools from random matrix theory to derive an adapted, consistent estimator.
翻訳日:2022-11-04 12:31:38 公開日:2022-11-03
# INGREX: グラフニューラルネットワークのためのインタラクティブな説明フレームワーク

INGREX: An Interactive Explanation Framework for Graph Neural Networks ( http://arxiv.org/abs/2211.01548v1 )

ライセンス: Link先を確認
Tien-Cuong Bui, Van-Duc Le, Wen-Syan Li, Sang Kyun Cha(参考訳) グラフニューラルネットワーク(GNN)は多くの現代的なアプリケーションで広く使われており、その決定には説明が必要である。 しかし、GNNの複雑さは予測の説明を困難にしている。 最近はいくつかの手法が提案されているが、単純な静的な説明しか提供できないため、多くのシナリオでは理解が難しい。 そこで本研究では,モデル予測の理解を支援するGNNの対話型説明フレームワークであるINGREXを紹介する。 フレームワークは複数の説明アルゴリズムと高度なライブラリに基づいて実装されている。 我々は,その有効性と有用性を示すために,GNN説明の共通要求をカバーする3つのシナリオでフレームワークを実証する。

Graph Neural Networks (GNNs) are widely used in many modern applications, necessitating explanations for their decisions. However, the complexity of GNNs makes it difficult to explain predictions. Even though several methods have been proposed lately, they can only provide simple and static explanations, which are difficult for users to understand in many scenarios. Therefore, we introduce INGREX, an interactive explanation framework for GNNs designed to aid users in comprehending model predictions. Our framework is implemented based on multiple explanation algorithms and advanced libraries. We demonstrate our framework in three scenarios covering common demands for GNN explanations to present its effectiveness and helpfulness.
翻訳日:2022-11-04 12:24:16 公開日:2022-11-03
# FedTP:トランスフォーマーパーソナライゼーションによるフェデレーション学習

FedTP: Federated Learning by Transformer Personalization ( http://arxiv.org/abs/2211.01572v1 )

ライセンス: Link先を確認
Hongxia Li, Zhongyi Cai, Jingya Wang, Jiangnan Tang, Weiping Ding, Chin-Teng Lin, and Ye Shi(参考訳) フェデレーション学習(Federated Learning)は、複数のクライアントがプライバシ保護の方法で機械学習モデルを共同でトレーニングする、新たな学習パラダイムである。 パーソナライズされた連合学習は、パーソナライズされたモデルを学習することで、クライアント間の多様性を克服するためにこのパラダイムを拡張します。 近年,連合学習にトランスフォーマーを適用しようとする試みがいくつかある。 しかし,フェデレーション学習アルゴリズムが自己意識に与える影響は研究されていない。 本稿では,この関係を考察し,フェデレーション平均化アルゴリズムがデータ不均一性が存在する場合の自己注意に負の影響があることを明らかにする。 これらの影響は、連合学習設定におけるTransformerモデルの能力を制限する。 そこで我々は,トランスフォーマーをベースとした新しいフェデレーション学習フレームワークであるFedTPを提案し,クライアント間で他のパラメータを集約しながら,各クライアントのパーソナライズされた自己意識を学習する。 本研究では,各クライアントの個別の自己認識レイヤをローカルに維持するバニラパーソナライゼーション機構の代わりに,クライアント間の連携をさらに促進し,FedTPの可視性と一般化を高めるための学習・個人化機構を開発する。 具体的には、サーバ上でハイパーネットワークを学習し、自己アテンションレイヤのパーソナライズされたプロジェクション行列を出力し、クライアントワイズクエリ、キー、値を生成することにより、学習対個人化を実現する。 さらに,FedTPの一般化を学習対個人化機構を用いて提案する。 特にfeedtpは、同じフェデレーションされたネットワークアーキテクチャを使用して、さまざまなイメージや言語タスクを実行するための便利な環境を提供します。 大規模な実験により、FedTPは非IIDシナリオで最先端の性能が得られることが検証された。 私たちのコードはオンラインで入手できる。

Federated learning is an emerging learning paradigm where multiple clients collaboratively train a machine learning model in a privacy-preserving manner. Personalized federated learning extends this paradigm to overcome heterogeneity across clients by learning personalized models. Recently, there have been some initial attempts to apply Transformers to federated learning. However, the impacts of federated learning algorithms on self-attention have not yet been studied. This paper investigates this relationship and reveals that federated averaging algorithms actually have a negative impact on self-attention where there is data heterogeneity. These impacts limit the capabilities of the Transformer model in federated learning settings. Based on this, we propose FedTP, a novel Transformer-based federated learning framework that learns personalized self-attention for each client while aggregating the other parameters among the clients. Instead of using a vanilla personalization mechanism that maintains personalized self-attention layers of each client locally, we develop a learn-to-personalize mechanism to further encourage the cooperation among clients and to increase the scablability and generalization of FedTP. Specifically, the learn-to-personalize is realized by learning a hypernetwork on the server that outputs the personalized projection matrices of self-attention layers to generate client-wise queries, keys and values. Furthermore, we present the generalization bound for FedTP with the learn-to-personalize mechanism. Notably, FedTP offers a convenient environment for performing a range of image and language tasks using the same federated network architecture - all of which benefit from Transformer personalization. Extensive experiments verify that FedTP with the learn-to-personalize mechanism yields state-of-the-art performance in non-IID scenarios. Our code is available online.
翻訳日:2022-11-04 12:24:07 公開日:2022-11-03
# Meta-PDE: メッシュなしでPDEを素早く解決する学習

Meta-PDE: Learning to Solve PDEs Quickly Without a Mesh ( http://arxiv.org/abs/2211.01604v1 )

ライセンス: Link先を確認
Tian Qin, Alex Beatson, Deniz Oktay, Nick McGreivy, Ryan P. Adams(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、しばしば計算的に解くのが困難であり、多くの設定において、多くの関連するPDEは、時間ステップごとに、あるいは様々な候補境界条件、パラメータ、幾何学的領域に対して解決されなければならない。 本稿では,関連するPDEの分布から,問題の迅速な解法を学習するメタラーニング手法を提案する。 我々はメタラーニング(MAMLとLEAP)を用いて、PDEソリューションのニューラルネットワーク表現の初期化を識別し、新しいタスクにおいてPDEの残余を迅速に最小化できるようにする。 本研究では,非線形ポアソン方程式,1次元バーガース方程式,およびパラメータ,ジオメトリ,境界条件の異なる超弾性方程式に対してメタ解法を適用する。 非線形ポアソン方程式と超弾性方程式の場合、これは中間精度の近似をベースライン有限要素解析(FEA)の解法よりも同等の精度で高速化する。 他の学習したソルバやサロゲートモデルと比較して、このメタラーニングアプローチは、高価な地上構造データからの監督なしに訓練することができ、メッシュを必要としない。

Partial differential equations (PDEs) are often computationally challenging to solve, and in many settings many related PDEs must be be solved either at every timestep or for a variety of candidate boundary conditions, parameters, or geometric domains. We present a meta-learning based method which learns to rapidly solve problems from a distribution of related PDEs. We use meta-learning (MAML and LEAP) to identify initializations for a neural network representation of the PDE solution such that a residual of the PDE can be quickly minimized on a novel task. We apply our meta-solving approach to a nonlinear Poisson's equation, 1D Burgers' equation, and hyperelasticity equations with varying parameters, geometries, and boundary conditions. The resulting Meta-PDE method finds qualitatively accurate solutions to most problems within a few gradient steps; for the nonlinear Poisson and hyper-elasticity equation this results in an intermediate accuracy approximation up to an order of magnitude faster than a baseline finite element analysis (FEA) solver with equivalent accuracy. In comparison to other learned solvers and surrogate models, this meta-learning approach can be trained without supervision from expensive ground-truth data, does not require a mesh, and can even be used when the geometry and topology varies between tasks.
翻訳日:2022-11-04 12:23:21 公開日:2022-11-03
# FedGen: 一般化可能なフェデレーションラーニング

FedGen: Generalizable Federated Learning ( http://arxiv.org/abs/2211.01914v1 )

ライセンス: Link先を確認
Praveen Venkateswaran, Vatche Isahagian, Vinod Muthusamy, Nalini Venkatasubramanian(参考訳) 機械学習の標準リスク最小化パラダイムに従う既存のフェデレーション学習モデルは、トレーニングデータに急激な相関が存在する場合、しばしば一般化に失敗する。 多くの実世界の分散環境では、偏りや分散デバイスやクライアント上のデータサンプリングの問題によって、誤った相関が発生する。 現在の一般化アプローチは、集中的なトレーニングのために設計され、ターゲットと不変因果関係を持つ特徴を識別しようとする。 しかし、このような不変リスク最小化アプローチは、多くのアプリケーションでは入手が難しい訓練データ分布のアプライオリ知識に依存している。 本稿では,FedGenと呼ばれる汎用的なフェデレーション学習フレームワークを提案する。これにより,クライアントは,学習分布の事前知識を必要とせずに,刺激的特徴と不変特徴を協調的に識別し,識別することができる。 我々は、異なるドメインからの実世界のデータセットに対するアプローチを評価し、FedGenが現在のフェデレーション学習アプローチよりもはるかに優れた一般化を実現するモデルをもたらすことを示す。

Existing federated learning models that follow the standard risk minimization paradigm of machine learning often fail to generalize in the presence of spurious correlations in the training data. In many real-world distributed settings, spurious correlations exist due to biases and data sampling issues on distributed devices or clients that can erroneously influence models. Current generalization approaches are designed for centralized training and attempt to identify features that have an invariant causal relationship with the target, thereby reducing the effect of spurious features. However, such invariant risk minimization approaches rely on apriori knowledge of training data distributions which is hard to obtain in many applications. In this work, we present a generalizable federated learning framework called FedGen, which allows clients to identify and distinguish between spurious and invariant features in a collaborative manner without prior knowledge of training distributions. We evaluate our approach on real-world datasets from different domains and show that FedGen results in models that achieve significantly better generalization than current federated learning approaches.
翻訳日:2022-11-04 12:22:56 公開日:2022-11-03
# ルールベースモデルの不確実性定量化

Uncertainty Quantification for Rule-Based Models ( http://arxiv.org/abs/2211.01915v1 )

ライセンス: Link先を確認
Yusik Kim(参考訳) 論理学の言語で記述されたルールベースの分類モデルは、確率をモデル化して統計モデルのように予測に変換するのではなく、ブール値を直接予測する。 既存の不確実性定量化アプローチの大半は、ルールベースのモデルでは利用できない連続的な出力を提供するモデルに依存している。 本研究では,二項出力を持つ二項分類器をブラックボックスとして取り込んだメタモデルの形で不確実な定量化フレームワークを提案し,その推定に対する信頼度とともに,与えられた入力でそのベースモデルの予測精度を推定する。 信頼度は入力領域の探索方法に基づいており、任意のOODシナリオで動作するように設計されている。 我々は,この不確実性モデルの有用性を,それを利用した断続的な分類器を構築し,その性能を様々なシナリオで観察することによって示す。

Rule-based classification models described in the language of logic directly predict boolean values, rather than modeling a probability and translating it into a prediction as done in statistical models. The vast majority of existing uncertainty quantification approaches rely on models providing continuous output not available to rule-based models. In this work, we propose an uncertainty quantification framework in the form of a meta-model that takes any binary classifier with binary output as a black box and estimates the prediction accuracy of that base model at a given input along with a level of confidence on that estimation. The confidence is based on how well that input region is explored and is designed to work in any OOD scenario. We demonstrate the usefulness of this uncertainty model by building an abstaining classifier powered by it and observing its performance in various scenarios.
翻訳日:2022-11-04 12:22:38 公開日:2022-11-03
# 認識型ニューラルネットワークによる微調整言語モデル

Fine-Tuning Language Models via Epistemic Neural Networks ( http://arxiv.org/abs/2211.01568v1 )

ライセンス: Link先を確認
Ian Osband, Seyed Mohammad Asghari, Benjamin Van Roy, Nat McAleese, John Aslanides, Geoffrey Irving(参考訳) 大規模言語モデルは、機械学習における強力な新しいパラダイムの一部である。 これらのモデルは、大きな教師なしテキストコーパスのトレーニングから幅広い能力を学びます。 多くのアプリケーションでは、これらの機能は特別なデータに対する追加のトレーニングによって微調整され、その設定のパフォーマンスが向上します。 本稿では,これらのモデルをエピネットで拡張する。モデルの不確実性を推定し,てんかん性神経ネットワーク(ENN)を形成するのに役立つ,小さなネットワークアーキテクチャである。 ennは、彼らが知らないことを理解できるニューラルネットワークです。 我々は、エピネットを用いて不確定なデータを優先順位付けすることにより、2倍少ないデータを使用しながら、タスクを同じパフォーマンスに微調整できることを示す。 また,理解を構築するために設計された合成ニューラルネットワーク生成モデルの性能について検討する。 それぞれの設定において、エピネットの使用はヒューリスティックなアクティブラーニングスキームより優れている。

Large language models are now part of a powerful new paradigm in machine learning. These models learn a wide range of capabilities from training on large unsupervised text corpora. In many applications, these capabilities are then fine-tuned through additional training on specialized data to improve performance in that setting. In this paper, we augment these models with an epinet: a small additional network architecture that helps to estimate model uncertainty and form an epistemic neural network (ENN). ENNs are neural networks that can know what they don't know. We show that, using an epinet to prioritize uncertain data, we can fine-tune BERT on GLUE tasks to the same performance while using 2x less data. We also investigate performance in synthetic neural network generative models designed to build understanding. In each setting, using an epinet outperforms heuristic active learning schemes.
翻訳日:2022-11-04 12:16:19 公開日:2022-11-03
# 文法的誤り訂正評価を再考する

Revisiting Grammatical Error Correction Evaluation and Beyond ( http://arxiv.org/abs/2211.01635v1 )

ライセンス: Link先を確認
Peiyuan Gong, Xuebo Liu, Heyan Huang, Min Zhang(参考訳) 事前学習に基づく(PTに基づく)自動評価指標(BERTScoreやBARTScoreなど)は、従来の重複に基づく手法よりも人間の判断との相関が優れているため、いくつかの文生成タスク(機械翻訳やテキスト要約など)で広く使用されている。 PT法は文法的誤り訂正(GEC)システムの訓練のデファクトスタンダードとなっているが、GEC評価は事前訓練された知識の恩恵を受けていない。 本稿では,事前学習によるGEC評価の理解と改善に向けた第一歩を踏み出す。 GEC評価にPTベースのメトリクスを任意に適用すると、インテリジェンスシステム出力(例えば、変化部品)への過度な注意が原因で、不満足な相関結果が得られることが最初に判明した。 この制限を緩和するために,PT-M2というPT-M2のみを用いて補正した部品を評価できる新しいGCC評価指標を提案する。 CoNLL14 評価タスクの実験結果から,PT-M2 は既存の手法よりも優れており,Pearson 0.949 の相関式が得られた。 さらに分析したところ、PT-M2は競合するGECシステムを評価するのに堅牢であることがわかった。 ソースコードとスクリプトはhttps://github.com/pygongnlp/pt-m2で無料で利用できる。

Pretraining-based (PT-based) automatic evaluation metrics (e.g., BERTScore and BARTScore) have been widely used in several sentence generation tasks (e.g., machine translation and text summarization) due to their better correlation with human judgments over traditional overlap-based methods. Although PT-based methods have become the de facto standard for training grammatical error correction (GEC) systems, GEC evaluation still does not benefit from pretrained knowledge. This paper takes the first step towards understanding and improving GEC evaluation with pretraining. We first find that arbitrarily applying PT-based metrics to GEC evaluation brings unsatisfactory correlation results because of the excessive attention to inessential systems outputs (e.g., unchanged parts). To alleviate the limitation, we propose a novel GEC evaluation metric to achieve the best of both worlds, namely PT-M2 which only uses PT-based metrics to score those corrected parts. Experimental results on the CoNLL14 evaluation task show that PT-M2 significantly outperforms existing methods, achieving a new state-of-the-art result of 0.949 Pearson correlation. Further analysis reveals that PT-M2 is robust to evaluate competitive GEC systems. Source code and scripts are freely available at https://github.com/pygongnlp/PT-M2.
翻訳日:2022-11-04 12:16:07 公開日:2022-11-03
# サブネットワークの適応最適化による事前学習型言語モデルの構築

Fine-Tuning Pre-Trained Language Models Effectively by Optimizing Subnetworks Adaptively ( http://arxiv.org/abs/2211.01642v1 )

ライセンス: Link先を確認
Haojie Zhang, Ge Li, Jia Li, Zhongjin Zhang, Yuqi Zhu, Zhi Jin(参考訳) 大規模事前学習された言語モデルは最近、幅広い下流タスクで印象的な成果を上げている。 しかし、限られたターゲットデータセット上で非常に大規模な事前訓練言語モデルを微調整することは、過度な適合と表現の劣化に悩まされることが多い。 本稿では,より有望なサブネットワークを適応的に選択し,バックプロパゲーションの勾配に基づいてステージング更新を行う,大規模事前学習モデルに対する動的パラメータ選択(dps)アルゴリズムを提案する。 GLUEベンチマークの実験では、DPSは全体的な性能と安定性の観点から従来の微調整法よりも優れており、可変事前学習言語モデルによるより良い結果が一貫して得られている。 さらに、DPSはドメイン外転送実験と低リソースシナリオを大幅に改善し、安定した一般的なコンテキスト特徴を維持でき、表現の崩壊を低減できることを示した。 コードはhttps://github.com/zhanghaojie077/dpsでリリースします。

Large-scale pre-trained language models have achieved impressive results on a wide range of downstream tasks recently. However, fine-tuning an extremely large-scale pre-trained language model on limited target datasets is often plagued by overfitting and representation degradation. In this paper, we propose a Dynamic Parameter Selection (DPS) algorithm for the large-scale pre-trained models during fine-tuning, which adaptively selects a more promising subnetwork to perform staging updates based on gradients of back-propagation. Experiments on the GLUE benchmark show that DPS outperforms previous fine-tuning methods in terms of overall performance and stability, and consistently achieves better results with variable pre-trained language models. In addition, DPS brings a large magnitude of improvement in out-of-domain transferring experiments and low-resource scenarios, which shows that it can maintain stable general contextual features and reduce the representation collapse. We release our code at https://github.com/ZhangHaojie077/DPS
翻訳日:2022-11-04 12:15:44 公開日:2022-11-03
# 引数の視覚状態追跡によるビデオイベント抽出

Video Event Extraction via Tracking Visual States of Arguments ( http://arxiv.org/abs/2211.01781v1 )

ライセンス: Link先を確認
Guang Yang, Manling Li, Xudong Lin, Jiajie Zhang, Shih-Fu Chang, Heng Ji(参考訳) ビデオイベント抽出は、ビデオから突出したイベントを検出し、各イベントの引数と意味的役割を識別することを目的としている。 既存の手法では、各フレームの全体像を捉え、きめ細かい引数レベルの情報を無視している。 事象を状態の変化として定義することから着想を得て,関連する全ての議論の視覚的状態の変化を追跡することによって,映像イベントを検出する新しい枠組みを提案する。 引数の視覚的な状態変化をキャプチャするために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間のインタラクションに分解する。 さらに、これらの変更をエンコードして追跡するために、Object State Embedding、Object Motion-Aware Embedding、Argument Interaction Embeddingを提案する。 様々なビデオイベント抽出タスクの実験は、最先端モデルと比較して大幅に改善されている。 特に動詞分類では,ビデオ状況認識においてf1@5の絶対値(19.53%の相対値)が3.49%に達する。

Video event extraction aims to detect salient events from a video and identify the arguments for each event as well as their semantic roles. Existing methods focus on capturing the overall visual scene of each frame, ignoring fine-grained argument-level information. Inspired by the definition of events as changes of states, we propose a novel framework to detect video events by tracking the changes in the visual states of all involved arguments, which are expected to provide the most informative evidence for the extraction of video events. In order to capture the visual state changes of arguments, we decompose them into changes in pixels within objects, displacements of objects, and interactions among multiple arguments. We further propose Object State Embedding, Object Motion-aware Embedding and Argument Interaction Embedding to encode and track these changes respectively. Experiments on various video event extraction tasks demonstrate significant improvements compared to state-of-the-art models. In particular, on verb classification, we achieve 3.49% absolute gains (19.53% relative gains) in F1@5 on Video Situation Recognition.
翻訳日:2022-11-04 12:15:27 公開日:2022-11-03
# 見えないものを見る:ビジュアルデータセットのエラーとバイアス

Seeing the Unseen: Errors and Bias in Visual Datasets ( http://arxiv.org/abs/2211.01847v1 )

ライセンス: Link先を確認
Hongrui Jin(参考訳) スマートフォンの顔認識から自動運転車の自動ルーティングまで、機械ビジョンアルゴリズムはこれらの機能の中核にある。 これらのシステムは、オブジェクトを特定して理解することで、画像に基づくタスクを解決する。 しかし、データセットのエラーは通常アルゴリズムによって引き起こされるか、拡大され、ときには黒人をゴリラとして認識したり、検索結果で民族を誤って表現したりするといった問題を引き起こす。 本稿では、データセットのエラーとその影響をトラックし、欠陥のあるデータセットは、限定されたカテゴリ、非包括的ソーシング、貧弱な分類の結果であることを示した。

From face recognition in smartphones to automatic routing on self-driving cars, machine vision algorithms lie in the core of these features. These systems solve image based tasks by identifying and understanding objects, subsequently making decisions from these information. However, errors in datasets are usually induced or even magnified in algorithms, at times resulting in issues such as recognising black people as gorillas and misrepresenting ethnicities in search results. This paper tracks the errors in datasets and their impacts, revealing that a flawed dataset could be a result of limited categories, incomprehensive sourcing and poor classification.
翻訳日:2022-11-04 12:14:51 公開日:2022-11-03
# Visio-Lingual Message Passingによる自然画像の接地シーングラフ

Grounding Scene Graphs on Natural Images via Visio-Lingual Message Passing ( http://arxiv.org/abs/2211.01969v1 )

ライセンス: Link先を確認
Aditay Tripathi, Anand Mishra, Anirban Chakraborty(参考訳) 本稿では,シーングラフで与えられた意味的関係制約に従うオブジェクトを協調的に接地する枠組みを提案する。 典型的な自然のシーンはいくつかの物体を含み、しばしばそれらの間の様々な複雑さの視覚的関係を示す。 これらのオブジェクト間の関係は、従来のオブジェクトクエリオンリーのローカライゼーションタスクと比較して、基盤性能を改善するための強いコンテキスト的手がかりを提供する。 シーングラフは、画像内のすべてのオブジェクトとその意味関係を表現する効率的で構造化された方法である。 シーンを表現する2つのモダリティを橋渡しし,文脈情報を利用してオブジェクトのローカライゼーションを改善するために,自然画像上でシーングラフを接地する問題を厳格に検討する。 そこで本研究では,VL-MPAGネット(Vizio-Lingual Message PAssing Graph Neural Network)と呼ばれる,グラフニューラルネットワークに基づく新しいアプローチを提案する。 VL-MPAG Netでは、まず、ノードとしてのオブジェクト提案と、それら間の妥当な関係を表す一対のノード間のエッジを持つ有向グラフを構築する。 そして、3段階のインターグラフおよびイントラグラフメッセージパッシングを行い、提案とクエリオブジェクトのコンテキスト依存表現を学習する。 これらのオブジェクト表現は、オブジェクトのローカライゼーションを生成する提案の評価に使用される。 提案手法は4つの公開データセットのベースラインを著しく上回っている。

This paper presents a framework for jointly grounding objects that follow certain semantic relationship constraints given in a scene graph. A typical natural scene contains several objects, often exhibiting visual relationships of varied complexities between them. These inter-object relationships provide strong contextual cues toward improving grounding performance compared to a traditional object query-only-based localization task. A scene graph is an efficient and structured way to represent all the objects and their semantic relationships in the image. In an attempt towards bridging these two modalities representing scenes and utilizing contextual information for improving object localization, we rigorously study the problem of grounding scene graphs on natural images. To this end, we propose a novel graph neural network-based approach referred to as Visio-Lingual Message PAssing Graph Neural Network (VL-MPAG Net). In VL-MPAG Net, we first construct a directed graph with object proposals as nodes and an edge between a pair of nodes representing a plausible relation between them. Then a three-step inter-graph and intra-graph message passing is performed to learn the context-dependent representation of the proposals and query objects. These object representations are used to score the proposals to generate object localization. The proposed method significantly outperforms the baselines on four public datasets.
翻訳日:2022-11-04 12:14:39 公開日:2022-11-03
# スペルから文法へ:中国語文法の誤り訂正のための新しい枠組み

From Spelling to Grammar: A New Framework for Chinese Grammatical Error Correction ( http://arxiv.org/abs/2211.01625v1 )

ライセンス: Link先を確認
Xiuyu Wu and Yunfang Wu(参考訳) 中国語の文法的誤り訂正(CGEC)は,異なる種類の誤りが混在する誤り列から正しい文を生成することを目的としている。 本稿では,CGECタスクをスペル誤り訂正と文法誤り訂正という2つのステップに分割する。 具体的には,パイプライン構造における誤差の蓄積を避けるため,精度の高い精度を得るため,単純だが効果的であるスペル誤り訂正のための新しいゼロショット法を提案する。 文法的誤り訂正に対処するため,ニューラルネットワークモデルを強化するために部分音声(POS)特徴と意味クラス特徴を設計し,対象文のPOSシーケンスを予測する補助タスクを提案する。 提案手法は,合成データやデータ拡張手法を使わずにCGECデータセット上で42.11 F0.5のスコアを得る。 さらに,本モデルでは,異なるPOS単語をキャプチャし,適切なPOS遷移規則を伝達する有意義なPOS表現を生成する。

Chinese Grammatical Error Correction (CGEC) aims to generate a correct sentence from an erroneous sequence, where different kinds of errors are mixed. This paper divides the CGEC task into two steps, namely spelling error correction and grammatical error correction. Specifically, we propose a novel zero-shot approach for spelling error correction, which is simple but effective, obtaining a high precision to avoid error accumulation of the pipeline structure. To handle grammatical error correction, we design part-of-speech (POS) features and semantic class features to enhance the neural network model, and propose an auxiliary task to predict the POS sequence of the target sentence. Our proposed framework achieves a 42.11 F0.5 score on CGEC dataset without using any synthetic data or data augmentation methods, which outperforms the previous state-of-the-art by a wide margin of 1.30 points. Moreover, our model produces meaningful POS representations that capture different POS words and convey reasonable POS transition rules.
翻訳日:2022-11-04 12:14:01 公開日:2022-11-03
# 連接型中国語単語分割とスパン構造解析

Joint Chinese Word Segmentation and Span-based Constituency Parsing ( http://arxiv.org/abs/2211.01638v1 )

ライセンス: Link先を確認
Zhicheng Wang, Tianyu Shi, Cong Liu(参考訳) 選挙区解析において、スパンベースの復号化は重要な方向である。 しかし、中国語の文では、その言語的特徴から、他のモデルを用いてまず単語のセグメンテーションを行い、一連の不確実性を導入し、一般に構成木の計算に誤りをもたらす必要がある。 本研究は,中国語の単語分割とSpanに基づくコンストラクタシーパーシングを併用し,パースツリー上の個々の漢字にラベルを追加する手法を提案する。 実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。

In constituency parsing, span-based decoding is an important direction. However, for Chinese sentences, because of their linguistic characteristics, it is necessary to utilize other models to perform word segmentation first, which introduces a series of uncertainties and generally leads to errors in the computation of the constituency tree afterward. This work proposes a method for joint Chinese word segmentation and Span-based Constituency Parsing by adding extra labels to individual Chinese characters on the parse trees. Through experiments, the proposed algorithm outperforms the recent models for joint segmentation and constituency parsing on CTB 5.1.
翻訳日:2022-11-04 12:13:44 公開日:2022-11-03
# マルチタスク微調整による言語間一般化

Crosslingual Generalization through Multitask Finetuning ( http://arxiv.org/abs/2211.01786v1 )

ライセンス: Link先を確認
Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff, Colin Raffel(参考訳) マルチタスク誘導ファインタニング(MTF)は、ゼロショット設定で新しいタスクに一般化するのに役立つことが示されているが、今のところMTFの探索は英語のデータとモデルに焦点を当てている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。 英語のプロンプトを用いた英語タスクにおける大規模多言語言語モデルの微調整により,事前学習コーパスにのみ現れる非英語言語へのタスク一般化が可能となる。 英語による多言語タスクの微調整は、英語および非英語タスクのパフォーマンスをさらに向上させ、様々な最先端のゼロショット結果をもたらす。 また、各データセットの言語に合うように英語から機械翻訳されたプロンプトを用いた多言語タスクの微調整についても検討する。 機械翻訳されたプロンプトのトレーニングは、それぞれの言語で人間が書いたプロンプトのパフォーマンスを向上させる。 驚くべきことに、モデルが意図しない言語でのタスクをゼロショットで一般化できることがわかった。 我々は、モデルがタスクと言語に依存しない高レベルな能力を学習していると推測する。 さらに、英語と機械翻訳のプロンプトを持つ46言語における教師付きデータセットの合成であるxP3を紹介する。 私たちのコード、データセット、モデルはhttps://github.com/bigscience-workshop/xmtf.comで公開されている。

Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and mT5 model families to produce finetuned variants called BLOOMZ and mT0. We find finetuning large multilingual language models on English tasks with English prompts allows for task generalization to non-English languages that appear only in the pretraining corpus. Finetuning on multilingual tasks with English prompts further improves performance on English and non-English tasks leading to various state-of-the-art zero-shot results. We also investigate finetuning on multilingual tasks with prompts that have been machine-translated from English to match the language of each dataset. We find training on these machine-translated prompts leads to better performance on human-written prompts in the respective languages. Surprisingly, we find models are capable of zero-shot generalization to tasks in languages they have never intentionally seen. We conjecture that the models are learning higher-level capabilities that are both task- and language-agnostic. In addition, we introduce xP3, a composite of supervised datasets in 46 languages with English and machine-translated prompts. Our code, datasets and models are publicly available at https://github.com/bigscience-workshop/xmtf.
翻訳日:2022-11-04 12:07:46 公開日:2022-11-03
# 大規模言語モデルは人間レベルのプロンプトエンジニアである

Large Language Models Are Human-Level Prompt Engineers ( http://arxiv.org/abs/2211.01910v1 )

ライセンス: Link先を確認
Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, Jimmy Ba(参考訳) 自然言語命令を条件にすることで、大規模言語モデル(LLM)は汎用コンピュータとして印象的な能力を示した。 しかしながら、タスクのパフォーマンスはモデルを制御するのに使用されるプロンプトの品質に大きく依存しており、最も効果的なプロンプトは人間が手作りしている。 古典的プログラム合成とプロンプトエンジニアリングへの人間的アプローチに着想を得て,自動命令生成と選択のための自動プロンプトエンジニア(ape)を提案する。 本手法では,LLMが提案する命令候補のプールを探索し,選択したスコア関数を最大化することにより,命令を「プログラム」として扱う。 選択した命令の質を評価するために,選択した命令に追従した別のLDMのゼロショット性能を評価する。 24個のNLPタスクに対する実験により、自動生成された命令は、以前のLCMベースラインよりも大きなマージンで優れ、19/24タスク上での人間のアノテータによる命令よりも優れた、あるいは同等のパフォーマンスが得られることが示された。 APEの性能を調べるために, 定性的かつ定量的な分析を行った。 ape-engineered promptsを,真理性やインフォメーション性に向いたモデルに適用し,標準のインコンテキスト学習プロンプトにプリプレプレフィドすることにより,マイナショット学習性能を向上させることを実証した。 Webページはhttps://sites.google.com/view/automatic-prompt-engineer.comでご覧ください。

By conditioning on natural language instructions, large language models (LLMs) have displayed impressive capabilities as general-purpose computers. However, task performance depends significantly on the quality of the prompt used to steer the model, and most effective prompts have been handcrafted by humans. Inspired by classical program synthesis and the human approach to prompt engineering, we propose Automatic Prompt Engineer (APE) for automatic instruction generation and selection. In our method, we treat the instruction as the "program," optimized by searching over a pool of instruction candidates proposed by an LLM in order to maximize a chosen score function. To evaluate the quality of the selected instruction, we evaluate the zero-shot performance of another LLM following the selected instruction. Experiments on 24 NLP tasks show that our automatically generated instructions outperform the prior LLM baseline by a large margin and achieve better or comparable performance to the instructions generated by human annotators on 19/24 tasks. We conduct extensive qualitative and quantitative analyses to explore the performance of APE. We show that APE-engineered prompts can be applied to steer models toward truthfulness and/or informativeness, as well as to improve few-shot learning performance by simply prepending them to standard in-context learning prompts. Please check out our webpage at https://sites.google.com/view/automatic-prompt-engineer.
翻訳日:2022-11-04 12:07:22 公開日:2022-11-03
# lilGym:強化学習による自然言語ビジュアル推論

lilGym: Natural Language Visual Reasoning with Reinforcement Learning ( http://arxiv.org/abs/2211.01994v1 )

ライセンス: Link先を確認
Anne Wu, Kiant\'e Brantley, Noriyuki Kojima and Yoav Artzi(参考訳) 視覚環境における言語条件強化学習のための新しいベンチマークであるlilgymを提案する。 LilGymは2,661の高度に構成された人間の記述された自然言語文に基づいており、対話的な視覚環境を基盤としている。 すべてのステートメントに,その意味を表す実行可能なpythonプログラムをアノテートすることで,可能なすべての世界状態において,正確な報酬計算を可能にします。 各ステートメントは複数の開始状態と報酬関数とペアになって、様々な困難を伴う数千の異なるマルコフ決定プロセスを形成する。 異なるモデルと学習体制でLilGymを実験する。 その結果,既存の手法では非自明な性能が得られるが,LilGymは難解なオープンな問題となることがわかった。 LilGymはhttps://lil.nlp.cornell.edu/lilgym/で入手できる。

We present lilGym, a new benchmark for language-conditioned reinforcement learning in visual environments. lilGym is based on 2,661 highly-compositional human-written natural language statements grounded in an interactive visual environment. We annotate all statements with executable Python programs representing their meaning to enable exact reward computation in every possible world state. Each statement is paired with multiple start states and reward functions to form thousands of distinct Markov Decision Processes of varying difficulty. We experiment with lilGym with different models and learning regimes. Our results and analysis show that while existing methods are able to achieve non-trivial performance, lilGym forms a challenging open problem. lilGym is available at https://lil.nlp.cornell.edu/lilgym/.
翻訳日:2022-11-04 12:06:57 公開日:2022-11-03
# Wasserstein-Barycenterへの輸送による公平かつ最適な分類

Fair and Optimal Classification via Transports to Wasserstein-Barycenter ( http://arxiv.org/abs/2211.01528v1 )

ライセンス: Link先を確認
Ruicheng Xian, Lang Yin, Han Zhao(参考訳) 自動意思決定システムの公正性は、アプリケーションが現実世界のハイテイクドメインに拡大するにつれて注目を集めている。 公正なMLシステムの設計を容易にするためには、公正さと予測力の間の潜在的なトレードオフと、与えられた公正さ制約の下で最適予測器の構築を理解することが不可欠である。 本稿では,グループフェアネス評価基準(dp)に基づく一般分類問題に対して,dp間のトレードオフとフェアネス最小コストと呼ばれる分類精度を正確に特徴付ける。 我々の洞察は、最適フェア分類器を見つけることは、確率単純体の頂点に制限された$\ell_1$-normの下でワッサーシュタイン・バリセンタ問題を解くことと等価である、というキーとなる観察に由来する。 この特性に触発されて,ベイズレグレッサの構成と,その出力分布からバリーセンタへの最適輸送により,この最小コストを達成する最適フェア分類器の構成を提案する。 本手法は,事前学習済み予測器を有限サンプル保証で補完し,dpフェアネスを満たすように処理後処理を行うアルゴリズムを自然に導出する。 実世界のデータセットの実験は、我々のアプローチの有効性を検証し、実証する。

Fairness in automated decision-making systems has gained increasing attention as their applications expand to real-world high-stakes domains. To facilitate the design of fair ML systems, it is essential to understand the potential trade-offs between fairness and predictive power, and the construction of the optimal predictor under a given fairness constraint. In this paper, for general classification problems under the group fairness criterion of demographic parity (DP), we precisely characterize the trade-off between DP and classification accuracy, referred to as the minimum cost of fairness. Our insight comes from the key observation that finding the optimal fair classifier is equivalent to solving a Wasserstein-barycenter problem under $\ell_1$-norm restricted to the vertices of the probability simplex. Inspired by our characterization, we provide a construction of an optimal fair classifier achieving this minimum cost via the composition of the Bayes regressor and optimal transports from its output distributions to the barycenter. Our construction naturally leads to an algorithm for post-processing any pre-trained predictor to satisfy DP fairness, complemented with finite sample guarantees. Experiments on real-world datasets verify and demonstrate the effectiveness of our approaches.
翻訳日:2022-11-04 12:06:43 公開日:2022-11-03
# ポート-Metriplectic Neural Network:複雑な物理系の熱力学インフォームド機械学習

Port-metriplectic neural networks: thermodynamics-informed machine learning of complex physical systems ( http://arxiv.org/abs/2211.01873v1 )

ライセンス: Link先を確認
Quercus Hern\'andez, Alberto Bad\'ias, Francisco Chinesta, El\'ias Cueto(参考訳) ポート・ハミルトン形式に基づく複雑な物理システムの機械学習のための帰納的バイアスを開発した。 学習物理学における熱力学の原理(エネルギーの保存、非負のエントロピー生成)を構築することで満足するために、ポート-ハミルトニアン形式を修正してポート-メトリエレクティック形式を得る。 構築したネットワークは,複雑なシステムの物理を部分的に学習できるため,この種のシステムの実験的特徴付けと後方学習プロセスに関連する負担を軽減することができる。 しかし、予測はシステム全体の規模で行うことができる。 提案手法の性能を例に示す。

We develop inductive biases for the machine learning of complex physical systems based on the port-Hamiltonian formalism. To satisfy by construction the principles of thermodynamics in the learned physics (conservation of energy, non-negative entropy production), we modify accordingly the port-Hamiltonian formalism so as to achieve a port-metriplectic one. We show that the constructed networks are able to learn the physics of complex systems by parts, thus alleviating the burden associated to the experimental characterization and posterior learning process of this kind of systems. Predictions can be done, however, at the scale of the complete system. Examples are shown on the performance of the proposed technique.
翻訳日:2022-11-04 12:06:20 公開日:2022-11-03
# 対話的意思決定のための後方サンプリングフレームワーク

A Posterior Sampling Framework for Interactive Decision Making ( http://arxiv.org/abs/2211.01962v1 )

ライセンス: Link先を確認
Han Zhong, Wei Xiong, Sirui Zheng, Liwei Wang, Zhaoran Wang, Zhuoran Yang, Tong Zhang(参考訳) 本稿では,マルコフ決定プロセス(MDP),部分的に観測可能なマルコフ決定プロセス(POMDP),予測状態表現(PSR)などを含む対話型意思決定の一般的な枠組みの下で,サンプル効率的な強化学習(RL)について検討する。 そこで本研究では,オンライン対話的意思決定における探索と搾取の基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化eluder coefficient(gec)を提案する。 具体的には、更新ポリシーの性能予測誤差と、過去のデータに基づいて評価されたサンプル内トレーニング誤差を比較することで、探索の難しさを捉える。 低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定するものである。 さらに,アルゴリズム設計の観点からは,モデルフリーとモデルベースの両方で,完全に観測可能かつ部分的に観測可能な設定で実装可能な,汎用的な後続サンプリングアルゴリズムを提案する。 提案アルゴリズムは,標準的な後部サンプリングアルゴリズムを2つの側面で修正する。 (i)より高い値の仮説に偏りを示す楽観的な事前分布を用いる。 (i)ログ型関数は過去のデータから評価された経験的損失であり,損失関数の選択はモデル自由学習とモデルベース学習の両方をサポートする。 提案アルゴリズムは, GEC の観点から, サブ線形後悔上限を確立することで, サンプリング効率がよいことを示す。 まとめると、我々は完全に観測可能かつ部分的に観測可能なRLについて、新しく統一された理解を提供する。

We study sample efficient reinforcement learning (RL) under the general framework of interactive decision making, which includes Markov decision process (MDP), partially observable Markov decision process (POMDP), and predictive state representation (PSR) as special cases. Toward finding the minimum assumption that empowers sample efficient learning, we propose a novel complexity measure, generalized eluder coefficient (GEC), which characterizes the fundamental tradeoff between exploration and exploitation in online interactive decision making. In specific, GEC captures the hardness of exploration by comparing the error of predicting the performance of the updated policy with the in-sample training error evaluated on the historical data. We show that RL problems with low GEC form a remarkably rich class, which subsumes low Bellman eluder dimension problems, bilinear class, low witness rank problems, PO-bilinear class, and generalized regular PSR, where generalized regular PSR, a new tractable PSR class identified by us, includes nearly all known tractable POMDPs. Furthermore, in terms of algorithm design, we propose a generic posterior sampling algorithm, which can be implemented in both model-free and model-based fashion, under both fully observable and partially observable settings. The proposed algorithm modifies the standard posterior sampling algorithm in two aspects: (i) we use an optimistic prior distribution that biases towards hypotheses with higher values and (ii) a loglikelihood function is set to be the empirical loss evaluated on the historical data, where the choice of loss function supports both model-free and model-based learning. We prove that the proposed algorithm is sample efficient by establishing a sublinear regret upper bound in terms of GEC. In summary, we provide a new and unified understanding of both fully observable and partially observable RL.
翻訳日:2022-11-04 12:06:06 公開日:2022-11-03
# StereoPose: バックビューNOCSによるステレオ画像からのカテゴリーレベル6次元透明物体位置推定

StereoPose: Category-Level 6D Transparent Object Pose Estimation from Stereo Images via Back-View NOCS ( http://arxiv.org/abs/2211.01644v1 )

ライセンス: Link先を確認
Kai Chen, Stephen James, Congying Sui, Yun-Hui Liu, Pieter Abbeel, Qi Dou(参考訳) 既存のカテゴリレベルのポーズ推定手法のほとんどは、オブジェクトポイントクラウドに依存している。 しかし、透明な物体を考えると、深度カメラは通常、意味のあるデータをキャプチャできないため、重大なアーティファクトを持つ点雲が発生する。 高品質のポイントクラウドがなければ、既存の手法は困難な透明なオブジェクトに適用できない。 そこで本研究では,透明な物体に理想的に適合する,カテゴリーレベルの物体ポーズ推定のためのステレオ画像フレームワークであるステレオポッセを提案する。 純粋なステレオ画像からロバストな推定を行うために,カテゴリレベルのポーズ推定をオブジェクトサイズ推定,初期ポーズ推定,ポーズリファインメントに分解するパイプラインを開発した。 StereoPose は正規化されたオブジェクト座標空間~(NOCS)の表現に基づいてオブジェクトのポーズを推定する。 画像コンテンツエイリアス化の問題に対処するため、透明なオブジェクトに対するバックビューNOCSマップをさらに定義する。 バックビューNOCSは、コンテンツエイリアスによるネットワーク学習のあいまいさを低減し、透明オブジェクトの背面にある情報的手がかりを利用してより正確なポーズ推定を行うことを目的としている。 ステレオフレームワークの性能をさらに向上するため、ステレオ機能融合のためのパララックスアテンションモジュールと、ネットワーク予測のステレオビュー整合性を改善するためのエピポーラロスを備える。 パブリックなtodデータセットに関する広範な実験は、カテゴリレベルの6d透明オブジェクトポーズ推定のためのステレオポスフレームワークの優位性を示している。

Most existing methods for category-level pose estimation rely on object point clouds. However, when considering transparent objects, depth cameras are usually not able to capture meaningful data, resulting in point clouds with severe artifacts. Without a high-quality point cloud, existing methods are not applicable to challenging transparent objects. To tackle this problem, we present StereoPose, a novel stereo image framework for category-level object pose estimation, ideally suited for transparent objects. For a robust estimation from pure stereo images, we develop a pipeline that decouples category-level pose estimation into object size estimation, initial pose estimation, and pose refinement. StereoPose then estimates object pose based on representation in the normalized object coordinate space~(NOCS). To address the issue of image content aliasing, we further define a back-view NOCS map for the transparent object. The back-view NOCS aims to reduce the network learning ambiguity caused by content aliasing, and leverage informative cues on the back of the transparent object for more accurate pose estimation. To further improve the performance of the stereo framework, StereoPose is equipped with a parallax attention module for stereo feature fusion and an epipolar loss for improving the stereo-view consistency of network predictions. Extensive experiments on the public TOD dataset demonstrate the superiority of the proposed StereoPose framework for category-level 6D transparent object pose estimation.
翻訳日:2022-11-04 12:05:28 公開日:2022-11-03
# 正確な人物認識を新しい高度と範囲に拡張する:BRIARデータセット

Expanding Accurate Person Recognition to New Altitudes and Ranges: The BRIAR Dataset ( http://arxiv.org/abs/2211.01917v1 )

ライセンス: Link先を確認
David Cornett III and Joel Brogan and Nell Barber and Deniz Aykac and Seth Baird and Nick Burchfield and Carl Dukes and Andrew Duncan and Regina Ferrell and Jim Goddard and Gavin Jager and Matt Larson and Bart Murphy and Christi Johnson and Ian Shelley and Nisha Srinivas and Brandon Stockwell and Leanne Thompson and Matt Yohe and Robert Zhang and Scott Dolvin and Hector J. Santos-Villalobos and David S. Bolme(参考訳) 顔認識技術は、ディープラーニングモデルで使用する大規模で複雑なトレーニングデータセットが利用できるため、近年大きく進歩している。 しかしこれらのデータセットは、通常、ニュースサイトやソーシャルメディアプラットフォームから取り除かれた画像で構成されているため、より高度なセキュリティ、法医学、軍事的応用において限られた用途がある。 これらの応用には低い解像度、長い範囲、高い視点が必要である。 これらの重要なニーズを満たすために,我々は,生体認証技術の研究開発(r&d)において極めて困難な条件下で使用されるように設計された,大規模マルチモーダルバイオメトリックデータセットの第1および第2サブセットを収集し,収集した。 これまでにデータセットには35万枚以上の静止画と約1000人の被験者の1300時間分の映像が含まれている。 このデータを収集するために、Nikon DSLRカメラ、さまざまな商用監視カメラ、特殊な長距離R&Dカメラ、Group 1とGroup 2 UAVプラットフォームを使用しました。 目標は、高度1000mまでの人物を正確に認識し、高度の高い角度から認識できるアルゴリズムの開発を支援することである。 これらの進歩は、顔認識技術の改善を含み、歩行と人体計測に基づく方法を用いた全身認識の分野での新しい研究をサポートする。 本稿では,データセットの収集とキュレーションに使用する手法と,データセットの特性について述べる。

Face recognition technology has advanced significantly in recent years due largely to the availability of large and increasingly complex training datasets for use in deep learning models. These datasets, however, typically comprise images scraped from news sites or social media platforms and, therefore, have limited utility in more advanced security, forensics, and military applications. These applications require lower resolution, longer ranges, and elevated viewpoints. To meet these critical needs, we collected and curated the first and second subsets of a large multi-modal biometric dataset designed for use in the research and development (R&D) of biometric recognition technologies under extremely challenging conditions. Thus far, the dataset includes more than 350,000 still images and over 1,300 hours of video footage of approximately 1,000 subjects. To collect this data, we used Nikon DSLR cameras, a variety of commercial surveillance cameras, specialized long-rage R&D cameras, and Group 1 and Group 2 UAV platforms. The goal is to support the development of algorithms capable of accurately recognizing people at ranges up to 1,000 m and from high angles of elevation. These advances will include improvements to the state of the art in face recognition and will support new research in the area of whole-body recognition using methods based on gait and anthropometry. This paper describes methods used to collect and curate the dataset, and the dataset's characteristics at the current stage.
翻訳日:2022-11-04 12:04:47 公開日:2022-11-03
# 動的グラフ学習を改善するための時間認識ランダムウォーク拡散

Time-aware Random Walk Diffusion to Improve Dynamic Graph Learning ( http://arxiv.org/abs/2211.01214v2 )

ライセンス: Link先を確認
Jong-whi Lee, Jinhong Jung(参考訳) 動的グラフニューラルネットワークの性能向上のために、動的グラフをどのように拡張するか? グラフ拡張は、GNNベースのモデルの学習性能を高めるために広く利用されている。 しかし、既存のアプローチのほとんどは、グラフを変換して入力された静的グラフ内の空間構造を強化するだけであり、時間的局所性(例えば、最近のエッジは、以前のものよりも影響が強く、動的グラフの強化には依然として困難である。 本研究では,グラフスナップショットの離散時間列として表される動的グラフの拡散に基づく新しい手法であるTiaRa(Time-aware Random Walk Diffusion)を提案する。 この目的のために,まず,時間的,時間的,時間的,時間的,時間的局所的なスコアをサーファーが歩けるように,時間的なランダムウォーク近接を設計する。 次に,時間認識されたランダムウォークに基づいて拡散行列を導出し,空間的および時間的局所性が拡張された隣接行列となることを示す。 広範な実験を通じて、TiaRaは与えられた動的グラフを効果的に拡張し、様々なグラフデータセットやタスクに対する動的GNNモデルを大幅に改善することを示した。

How can we augment a dynamic graph for improving the performance of dynamic graph neural networks? Graph augmentation has been widely utilized to boost the learning performance of GNN-based models. However, most existing approaches only enhance spatial structure within an input static graph by transforming the graph, and do not consider dynamics caused by time such as temporal locality, i.e., recent edges are more influential than earlier ones, which remains challenging for dynamic graph augmentation. In this work, we propose TiaRa (Time-aware Random Walk Diffusion), a novel diffusion-based method for augmenting a dynamic graph represented as a discrete-time sequence of graph snapshots. For this purpose, we first design a time-aware random walk proximity so that a surfer can walk along the time dimension as well as edges, resulting in spatially and temporally localized scores. We then derive our diffusion matrices based on the time-aware random walk, and show they become enhanced adjacency matrices that both spatial and temporal localities are augmented. Throughout extensive experiments, we demonstrate that TiaRa effectively augments a given dynamic graph, and leads to significant improvements in dynamic GNN models for various graph datasets and tasks.
翻訳日:2022-11-04 11:58:51 公開日:2022-11-03
# 医用画像超解像のための微調整逆数ネットワークモデル

Fine-tuned Generative Adversarial Network-based Model for Medical Images Super-Resolution ( http://arxiv.org/abs/2211.00577v2 )

ライセンス: Link先を確認
Alireza Aghelan, Modjtaba Rouhani(参考訳) 医用画像解析では、低解像度画像は医用画像の解釈性能に悪影響を及ぼし、誤診を引き起こす可能性がある。 単一画像超解像法(SISR)は、医用画像の解像度と品質を改善する。 現在、GAN(Generative Adversarial Networks)ベースの超解像モデルが広く使われており、非常に優れた性能を示している。 real-enhanced super- resolution generative adversarial network (real-esrgan) は、一般的な画像の超解像の分野で広く使われているganベースのモデルである。 自然のデータセットとは異なり、医療データセットは空間分解能があまり高くない。 転送学習は、外部データセット(しばしば自然データセット)でトレーニングされたモデルを使用し、それらを微調整して医療画像の解像度を向上させる効果的な方法の1つである。 提案手法では,Real-ESRGANモデルの事前学習したジェネレータと識別器ネットワークを医用画像データセットを用いて微調整する。 本稿では網膜像と胸部X線像について検討した。 我々は,網膜画像のSTAREデータセットと胸部X線(深セン)データセットを用いた。 提案モデルはより正確で自然なテクスチャを生成し,出力画像は元のReal-ESRGANモデルよりも細部と解像度がよい。

In medical image analysis, low-resolution images negatively affect the performance of medical image interpretation and may cause misdiagnosis. Single image super-resolution (SISR) methods can improve the resolution and quality of medical images. Currently, Generative Adversarial Networks (GAN) based super-resolution models are widely used and have shown very good performance. Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is one of the recent practical GAN-based models which is widely used in the field of general image super-resolution. Unlike natural datasets, medical datasets do not have very high spatial resolution. Transfer learning is one of the effective methods which uses models trained with external datasets (often natural datasets), and fine-tunes them to enhance the resolution of medical images. In our proposed approach, the pre-trained generator and discriminator networks of the Real-ESRGAN model are fine-tuned using medical image datasets. In this paper, we worked on retinal images and chest X-ray images. We used the STARE dataset of retinal images and Tuberculosis Chest X-rays (Shenzhen) dataset. The proposed model produces more accurate and natural textures, and the output images have better detail and resolution compared to the original Real-ESRGAN model.
翻訳日:2022-11-04 11:58:29 公開日:2022-11-03
# 自己監督型低用量CT設定におけるデュアルドメインデノナイジングの利点について

On the Benefit of Dual-domain Denoising in a Self-supervised Low-dose CT Setting ( http://arxiv.org/abs/2211.01111v2 )

ライセンス: Link先を確認
Fabian Wagner, Mareike Thies, Laura Pfaff, Oliver Aust, Sabrina Pechmann, Daniela Weidner, Noah Maul, Maximilian Rohleder, Mingxuan Gu, Jonas Utz, Felix Denzinger, Andreas Maier(参考訳) CTは3次元非侵襲的画像撮影に日常的に用いられている。 低用量取得における画像品質の回復のために、多数のデータ駆動型画像復調アルゴリズムが提案された。 しかしながら、適切な投影データや正しい再構成アルゴリズムへのアクセスが限られているため、生の検出器データに既に介入している方法に関する研究がかなり少ない。 本稿では,画像領域とプロジェクション領域の両方にデノージング演算子を含むエンドツーエンドのトレーラブルct再構成パイプラインを提案し,高線量ctデータを必要とせずに同時に最適化する。 以上の結果から,腹部CTでは82.4-94.1%/12.5-41.7% (PSNR/SSIM) ,XRMでは1.5-2.9%/0.4-0.5% (PSNR/SSIM) の改善が認められた。 そこで本研究では,ヘリカルCT再構成フレームワークを一般公開し,プロジェクションを生かし,異なるファンビーム再構成演算とエンドツーエンド学習に適したヘリカルプロジェクションデータを描画する。

Computed tomography (CT) is routinely used for three-dimensional non-invasive imaging. Numerous data-driven image denoising algorithms were proposed to restore image quality in low-dose acquisitions. However, considerably less research investigates methods already intervening in the raw detector data due to limited access to suitable projection data or correct reconstruction algorithms. In this work, we present an end-to-end trainable CT reconstruction pipeline that contains denoising operators in both the projection and the image domain and that are optimized simultaneously without requiring ground-truth high-dose CT data. Our experiments demonstrate that including an additional projection denoising operator improved the overall denoising performance by 82.4-94.1%/12.5-41.7% (PSNR/SSIM) on abdomen CT and 1.5-2.9%/0.4-0.5% (PSNR/SSIM) on XRM data relative to the low-dose baseline. We make our entire helical CT reconstruction framework publicly available that contains a raw projection rebinning step to render helical projection data suitable for differentiable fan-beam reconstruction operators and end-to-end learning.
翻訳日:2022-11-04 11:58:08 公開日:2022-11-03
# 変分推定による時間変化チャネルの推定

Variational Inference Aided Estimation of Time Varying Channels ( http://arxiv.org/abs/2210.17177v2 )

ライセンス: Link先を確認
Benedikt B\"ock, Michael Baur, Valentina Rizzello, Wolfgang Utschick(参考訳) 時間変化チャネルの推定を改善する一つの方法は、以前の観測の知識を取り入れることである。 この文脈では、Dynamical VAE(DVAE)は、時系列データの分布を学習するのに適した、有望なディープラーニング(DL)フレームワークを構築します。 我々はk-MemoryMarkovVAE (k-MMVAE)と呼ばれる新しいDVAEアーキテクチャを導入する。 [1]のアプローチに従うと、連続する観測の時間的相関を考慮したk-MMVAE支援チャネル推定器が導出される。 これらの結果から,k-MMVAE支援チャネル推定器は,メモリレス,あるいは経時変化チャネルに拡張した他の機械学習(ML)支援チャネル推定器よりも明らかに優れていることが示された。

One way to improve the estimation of time varying channels is to incorporate knowledge of previous observations. In this context, Dynamical VAEs (DVAEs) build a promising deep learning (DL) framework which is well suited to learn the distribution of time series data. We introduce a new DVAE architecture, called k-MemoryMarkovVAE (k-MMVAE), whose sparsity can be controlled by an additional memory parameter. Following the approach in [1] we derive a k-MMVAE aided channel estimator which takes temporal correlations of successive observations into account. The results are evaluated on simulated channels by QuaDRiGa and show that the k-MMVAE aided channel estimator clearly outperforms other machine learning (ML) aided estimators which are either memoryless or naively extended to time varying channels without major adaptions.
翻訳日:2022-11-04 11:57:48 公開日:2022-11-03
# 高速適応フェデレーションバイレベル最適化

Fast Adaptive Federated Bilevel Optimization ( http://arxiv.org/abs/2211.01122v2 )

ライセンス: Link先を確認
Feihu Huang(参考訳) バイレベル最適化は機械学習において一般的な階層モデルであり、メタラーニング、ハイパーパラメータ学習、ポリシー最適化といった多くの機械学習タスクに広く適用されている。 近年,2次最適化アルゴリズムが開発されているが,分散環境下での2次最適化に着目した適応アルゴリズムは少ない。 適応勾配法は分散最適化と非分散最適化の両方において優れた性能を示すことが知られている。 そこで本研究では,アッパーレベル (UL) 問題の目的関数が非凸であり,ローワーレベル (LL) 問題の目的関数が強い凸である分散バイレベル最適化問題の解法として,新しい適応型二レベル最適化アルゴリズム(AdaFBiO)を提案する。 特に,adafbioアルゴリズムは,運動量に基づく分散低減手法と局所sgdに基づいて,最もよく知られたサンプルと通信の複雑さを同時に獲得する。 特にadafbioアルゴリズムは統一適応行列を用いて様々な適応学習率を柔軟に組み込んでul問題とll問題の両方の変数を更新する。 さらに、AdaFBiOアルゴリズムの収束解析フレームワークを提供し、$\tilde{O}(\epsilon^{-3})$の通信複雑性を$\tilde{O}(\epsilon^{-2})$の通信複雑性で証明し、$\epsilon$-定常点を得る。 フェデレーションハイパー表現学習とフェデレーションデータハイパークリーニングタスクの実験結果は,アルゴリズムの効率性を検証する。

Bilevel optimization is a popular hierarchical model in machine learning, and has been widely applied to many machine learning tasks such as meta learning, hyperparameter learning and policy optimization. Although many bilevel optimization algorithms recently have been developed, few adaptive algorithm focuses on the bilevel optimization under the distributed setting. It is well known that the adaptive gradient methods show superior performances on both distributed and non-distributed optimization. In the paper, thus, we propose a novel adaptive federated bilevel optimization algorithm (i.e.,AdaFBiO) to solve the distributed bilevel optimization problems, where the objective function of Upper-Level (UL) problem is possibly nonconvex, and that of Lower-Level (LL) problem is strongly convex. Specifically, our AdaFBiO algorithm builds on the momentum-based variance reduced technique and local-SGD to obtain the best known sample and communication complexities simultaneously. In particular, our AdaFBiO algorithm uses the unified adaptive matrices to flexibly incorporate various adaptive learning rates to update variables in both UL and LL problems. Moreover, we provide a convergence analysis framework for our AdaFBiO algorithm, and prove it needs the sample complexity of $\tilde{O}(\epsilon^{-3})$ with communication complexity of $\tilde{O}(\epsilon^{-2})$ to obtain an $\epsilon$-stationary point. Experimental results on federated hyper-representation learning and federated data hyper-cleaning tasks verify efficiency of our algorithm.
翻訳日:2022-11-04 11:57:33 公開日:2022-11-03
# ニューラルアーキテクチャをスクラッチから発見する

Towards Discovering Neural Architectures from Scratch ( http://arxiv.org/abs/2211.01842v1 )

ライセンス: Link先を確認
Simon Schrodi, Danny Stoll, Binxin Ru, Rhea Sukthanker, Thomas Brox, Frank Hutter(参考訳) スクラッチからニューラルアーキテクチャの発見は、Neural Architecture Search(NAS)の長年の目標である。 広い範囲のニューラルアーキテクチャを探索することで、以前は考えられていなかったが、優れたアーキテクチャの発見が容易になる。 この研究では、アーキテクチャを代数的に表現することで、スクラッチからニューラルアーキテクチャを発見するための大きな一歩を踏み出します。 この代数的視点は、検索空間を設計するためのより一般的な方法へと導かれるので、文献から得られる共通空間よりも100桁大きい探索空間をコンパクトに表現することができる。 さらに,このような巨大な空間を効率的に探索するためのベイズ最適化戦略を提案し,探索空間設計と探索戦略が既存のベースラインよりも優れていることを示す。 代数的NASアプローチをオープンソース化し、PyTorchとTensorFlow用のAPIを提供します。

The discovery of neural architectures from scratch is the long-standing goal of Neural Architecture Search (NAS). Searching over a wide spectrum of neural architectures can facilitate the discovery of previously unconsidered but well-performing architectures. In this work, we take a large step towards discovering neural architectures from scratch by expressing architectures algebraically. This algebraic view leads to a more general method for designing search spaces, which allows us to compactly represent search spaces that are 100s of orders of magnitude larger than common spaces from the literature. Further, we propose a Bayesian Optimization strategy to efficiently search over such huge spaces, and demonstrate empirically that both our search space design and our search strategy can be superior to existing baselines. We open source our algebraic NAS approach and provide APIs for PyTorch and TensorFlow.
翻訳日:2022-11-04 11:57:03 公開日:2022-11-03
# HyperSound: Hypernetworksによる音声信号の暗黙のニューラル表現の生成

HyperSound: Generating Implicit Neural Representations of Audio Signals with Hypernetworks ( http://arxiv.org/abs/2211.01839v1 )

ライセンス: Link先を確認
Filip Szatkowski, Karol J. Piczak, Przemys{\l}aw Spurek, Jacek Tabor, Tomasz Trzci\'nski(参考訳) Inlicit Neural representations (INR) は急速に成長する研究分野であり、マルチメディア信号の代替手段を提供する。 INRの最近の応用には、画像超解像、高次元信号の圧縮、3Dレンダリングがある。 しかし、これらのソリューションは通常、ビジュアルデータに焦点を当てており、オーディオ領域への適応は自明ではない。 さらに、データサンプル毎に個別にトレーニングされたモデルが必要です。 この制限に対処するために,ハイパーネットワークを活用したメタ学習手法であるhypersoundを提案する。 本手法は他の最先端モデルに匹敵する品質で音波を再現できることを示す。

Implicit neural representations (INRs) are a rapidly growing research field, which provides alternative ways to represent multimedia signals. Recent applications of INRs include image super-resolution, compression of high-dimensional signals, or 3D rendering. However, these solutions usually focus on visual data, and adapting them to the audio domain is not trivial. Moreover, it requires a separately trained model for every data sample. To address this limitation, we propose HyperSound, a meta-learning method leveraging hypernetworks to produce INRs for audio signals unseen at training time. We show that our approach can reconstruct sound waves with quality comparable to other state-of-the-art models.
翻訳日:2022-11-04 11:56:51 公開日:2022-11-03
# ディープラーニングを用いたスパムレビュー検出

Spam Review Detection Using Deep Learning ( http://arxiv.org/abs/2211.01675v1 )

ライセンス: Link先を確認
G. M. Shahariar, Swapnil Biswas, Faiza Omar, Faisal Muhammad Shah, Samiha Binte Hassan(参考訳) スパムレビューを検出する堅牢で信頼性の高いシステムは、オンラインサイトから騙されることなく商品を購入するために、今日の世界では泣き叫ぶ必要性がある。 多くのオンラインサイトでは、レビューを投稿し、偽の有料レビューや非合法レビューのスコープを作成するオプションがある。 これらの簡潔なレビューは、一般大衆を誤解させ、レビューを信じるかどうかを混乱させる可能性がある。 スパムレビュー検出の問題を解決するために、著名な機械学習技術が導入された。 現在の研究の大部分は、オンラインレビューでは不十分なラベル付きデータを必要とする教師付き学習方法に集中している。 この記事の焦点は、偽のテキストレビューを検出することです。 そこで我々は,ラベル付きデータとラベルなしデータの両方を用いて,MLP(Multi-Layer Perceptron),畳み込みニューラルネットワーク(Convolutional Neural Network),Long Short-Term Memory(LSTM)であるRecurrent Neural Network(RNN)の変種を含む,スパムレビュー検出のためのディープラーニング手法を提案する。 また,Nav Bayes(NB),K Nearest Neighbor(KNN),Support Vector Machine(SVM)などの従来の機械学習分類器をスパムレビューの検出に適用し,従来型およびディープラーニング分類器の性能比較を行った。

A robust and reliable system of detecting spam reviews is a crying need in todays world in order to purchase products without being cheated from online sites. In many online sites, there are options for posting reviews, and thus creating scopes for fake paid reviews or untruthful reviews. These concocted reviews can mislead the general public and put them in a perplexity whether to believe the review or not. Prominent machine learning techniques have been introduced to solve the problem of spam review detection. The majority of current research has concentrated on supervised learning methods, which require labeled data - an inadequacy when it comes to online review. Our focus in this article is to detect any deceptive text reviews. In order to achieve that we have worked with both labeled and unlabeled data and proposed deep learning methods for spam review detection which includes Multi-Layer Perceptron (MLP), Convolutional Neural Network (CNN) and a variant of Recurrent Neural Network (RNN) that is Long Short-Term Memory (LSTM). We have also applied some traditional machine learning classifiers such as Nave Bayes (NB), K Nearest Neighbor (KNN) and Support Vector Machine (SVM) to detect spam reviews and finally, we have shown the performance comparison for both traditional and deep learning classifiers.
翻訳日:2022-11-04 11:56:19 公開日:2022-11-03
# 多言語節レベルの形態学のための最先端言語モデリング手法とデータ拡張手法の検討

Exploring the State-of-the-Art Language Modeling Methods and Data Augmentation Techniques for Multilingual Clause-Level Morphology ( http://arxiv.org/abs/2211.01736v1 )

ライセンス: Link先を確認
Emre Can Acikgoz, Tilek Chubakov, M\"uge Kural, G\"ozde G\"ul \c{S}ahin, Deniz Yuret(参考訳) 本稿では,KUIS-AI NLPチームの1$^{st}$ Shared Task on Multilingual Clause-level Morphology (MRL2022)について述べる。 我々は,共有タスクの3つの部分すべてについて,インフレクション,再帰,分析について紹介する。 データ拡張と組み合わせたトランスフォーマーモデルと、形態解析のための最先端言語モデリング技術を利用する2つのアプローチを主に検討する。 データ拡張は、インフレクションタスクにおけるほとんどの言語のパフォーマンスを著しく向上させる。 事前訓練されたmGPTモデルの修正調整は、低データ設定で回帰および解析タスクを適応するのに役立ちます。 さらに,公開のオープンソース補間ツールと単言語bertに基づく形態素特徴分類器を用いたパイプラインアーキテクチャを用いて,再帰および解析タスクを行った。 データ拡張とパイプラインアーキテクチャを備えたトランスフォーマーアーキテクチャは、インフレクションとリフレクションタスクで最高の結果を得たが、mgptのパイプラインとプレフィックスチューニングは、分析タスクで最高の結果を得た。 本手法は, 3つのタスクのそれぞれにおいて1位となり, mT5-baseline は 89 %, reflex は 80 %, analysis は 12 % に優れていた。 私たちのコード https://github.com/emrecanacikgoz/mrl2022 が公開されている。

This paper describes the KUIS-AI NLP team's submission for the 1$^{st}$ Shared Task on Multilingual Clause-level Morphology (MRL2022). We present our work on all three parts of the shared task: inflection, reinflection, and analysis. We mainly explore two approaches: Transformer models in combination with data augmentation, and exploiting the state-of-the-art language modeling techniques for morphological analysis. Data augmentation leads a remarkable performance improvement for most of the languages in the inflection task. Prefix-tuning on pretrained mGPT model helps us to adapt reinflection and analysis tasks in a low-data setting. Additionally, we used pipeline architectures using publicly available open source lemmatization tools and monolingual BERT-based morphological feature classifiers for reinflection and analysis tasks, respectively. While Transformer architectures with data augmentation and pipeline architectures achieved the best results for inflection and reinflection tasks, pipelines and prefix-tuning on mGPT received the highest results for the analysis task. Our methods achieved first place in each of the three tasks and outperforms mT5-baseline with ~89\% for inflection, ~80\% for reinflection and ~12\% for analysis. Our code https://github.com/emrecanacikgoz/mrl2022 is publicly available.
翻訳日:2022-11-04 11:55:55 公開日:2022-11-03
# Passage-Mask:Retriever-Readerモデルのための学習可能な正規化戦略

Passage-Mask: A Learnable Regularization Strategy for Retriever-Reader Models ( http://arxiv.org/abs/2211.00915v2 )

ライセンス: Link先を確認
Shujian Zhang, Chengyue Gong, Xingchao Liu(参考訳) Retriever-Readerモデルは、オープン質問応答や対話会話など、多くの異なるNLPタスク間での競合的なパフォーマンスを実現する。 本研究では,これらのモデルが上位検索経路を過小評価し易いことに気付き,標準訓練では検索通路全体を推論できない。 学習可能なパスマスク機構を導入し,トップランク検索経路からの影響を軽減し,モデルが過度に適合することを防止する。 マスク候補の少ない勾配分散を制御し、一発二段階最適化でマスク候補を選択することで、学習可能な正規化戦略は、回答生成を検索経路全体に集中させる。 オープンな質問応答,対話会話,事実検証の異なるタスクに対する実験は,我々の手法がベースラインを一貫して上回ることを示す。 大規模な実験とアブレーション研究により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。

Retriever-reader models achieve competitive performance across many different NLP tasks such as open question answering and dialogue conversations. In this work, we notice these models easily overfit the top-rank retrieval passages and standard training fails to reason over the entire retrieval passages. We introduce a learnable passage mask mechanism which desensitizes the impact from the top-rank retrieval passages and prevents the model from overfitting. Controlling the gradient variance with fewer mask candidates and selecting the mask candidates with one-shot bi-level optimization, our learnable regularization strategy enforces the answer generation to focus on the entire retrieval passages. Experiments on different tasks across open question answering, dialogue conversation, and fact verification show that our method consistently outperforms its baselines. Extensive experiments and ablation studies demonstrate that our method can be general, effective, and beneficial for many NLP tasks.
翻訳日:2022-11-04 11:49:21 公開日:2022-11-03
# SDCL:中国語スペルチェックのための自己拡張コントラスト学習

SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking ( http://arxiv.org/abs/2210.17168v3 )

ライセンス: Link先を確認
Xiaotian Zhang, Hang Yan, Sun Yu, Xipeng Qiu(参考訳) ホモホンの曖昧さのため、中国語のスペルチェック(csc)は広く応用されている。 既存のシステムは、通常、テキストエンコーディングにBERTを使用する。 しかし、CSCは音声情報とグラフ情報の両方を考慮する必要がある。 CSCタスクにBERTを適用するために,トークンレベルの自己蒸留コントラスト学習手法を提案する。 不正な文と対応する正しい文の両方を bert でエンコードする。 そして、比較学習損失を用いて、不正なトークンの隠れ状態が正しい文のそれに近いように規則化する。 3つのCSCデータセットに対して,本手法がベースラインよりも大幅に改善できることを確認した。

Due to the ambiguity of homophones, Chinese Spell Checking (CSC) has widespread applications. Existing systems typically utilize BERT for text encoding. However, CSC requires the model to account for both phonetic and graphemic information. To adapt BERT to the CSC task, we propose a token-level self-distillation contrastive learning method. We employ BERT to encode both the corrupted and corresponding correct sentence. Then, we use contrastive learning loss to regularize corrupted tokens' hidden states to be closer to counterparts in the correct sentence. On three CSC datasets, we confirmed our method provides a significant improvement above baselines.
翻訳日:2022-11-04 11:49:05 公開日:2022-11-03
# 中国のCLIP:中国の視力訓練

Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese ( http://arxiv.org/abs/2211.01335v2 )

ライセンス: Link先を確認
An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou(参考訳) CLIP(Radford et al., 2021)の驚異的な成功は、視覚言語事前学習におけるコントラスト学習の研究と応用を促進している。 本研究では,中国における画像テキストペアの大規模データセットを構築し,公開データセットからほとんどのデータを抽出し,新しいデータセット上で中国語のCLIPモデルを事前学習する。 77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発した。 さらに,まず画像エンコーダを凍結してモデルをトレーニングし,その後,すべてのパラメータを最適化してモデル性能を向上させる2段階事前学習法を提案する。 本研究では,ゼロショット学習と微調整のセットアップにおいて,ミュージ,flickr30k-cn,coco-cnの最先端性能を達成し,elevaterベンチマーク (li et al., 2022) の評価に基づいて,ゼロショット画像分類における競合性能を実現できることを示す。 コード、モデル、デモはhttps://github.com/OFA-Sys/ Chinese-CLIPで公開しました。

The tremendous success of CLIP (Radford et al., 2021) has promoted the research and application of contrastive learning for vision-language pretraining. In this work, we construct a large-scale dataset of image-text pairs in Chinese, where most data are retrieved from publicly available datasets, and we pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP models of multiple sizes, spanning from 77 to 958 million parameters. Furthermore, we propose a two-stage pretraining method, where the model is first trained with the image encoder frozen and then trained with all parameters being optimized, to achieve enhanced model performance. Our comprehensive experiments demonstrate that Chinese CLIP can achieve the state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups of zero-shot learning and finetuning, and it is able to achieve competitive performance in zero-shot image classification based on the evaluation on the ELEVATER benchmark (Li et al., 2022). We have released our codes, models, and demos in https://github.com/OFA-Sys/Chinese-CLIP
翻訳日:2022-11-04 11:48:56 公開日:2022-11-03
# stn:脳活動パターンから刺激カテゴリーを識別する新しいテンソルネットワーク法

STN: a new tensor network method to identify stimulus category from brain activity pattern ( http://arxiv.org/abs/2210.16993v2 )

ライセンス: Link先を確認
Chunyu Liu and Jiacai Zhang(参考訳) ニューラルデコードはまだ神経計算科学の課題でありホットな話題である。 近年,外的刺激下での脳の活性化情報を表す空間的・時間的構造情報を含む脳ネットワークパターンが研究されている。 従来の方法は、一般的な機械学習方法から直接脳ネットワークの特徴を抽出し、これらの特徴を分類器に入れ、外部刺激のデコードを実現する。 しかし,本手法では脳ネットワークに隠された多次元構造情報を効果的に抽出することはできない。 テンソル解析により, テンソル分解モデルにより, 多次元構造データ中の一意な時空間構造特性を抽出できることが示唆された。 本研究では,テンソル分解概念と刺激カテゴリー制約情報を含む刺激制約テンソル脳モデル(stn)を提案した。 このモデルは、実際の神経画像データセット(megおよびfmri)で検証された。 実験の結果、stnモデルは2つのモーダルデータセットの他の手法と比較して11.06%以上、18.46%の精度を示した。 これらの結果から,STNモデルの識別特性,特に意味情報を用いた物体刺激の復号化に優位性が示唆された。

Neural decoding is still a challenge and hot topic in neurocomputing science. Recently, many studies have shown that brain network pattern containing rich spatial and temporal structure information, which represented the activation information of brain under external stimuli. The traditional method is to extract brain network features directly from the common machine learning method, then put these features into the classifier, and realize to decode external stimuli. However, this method cannot effectively extract the multi-dimensional structural information, which is hidden in the brain network. The tensor researchers show that the tensor decomposition model can fully mine unique spatio-temporal structure characteristics in multi-dimensional structure data. This research proposed a stimulus constrain tensor brain model(STN), which involved the tensor decomposition idea and stimulus category constraint information. The model was verified on the real neuroimaging data sets (MEG and fMRI). The experimental results show that the STN model achieved more 11.06% and 18.46% compared with others methods on two modal data sets. These results imply the superiority of extracting discriminative characteristics about STN model, especially for decoding object stimuli with semantic information.
翻訳日:2022-11-04 11:48:14 公開日:2022-11-03
# synctalkface: 音声リップメモリによる正確なリップシンクによる会話顔生成

SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory ( http://arxiv.org/abs/2211.00924v2 )

ライセンス: Link先を確認
Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, Yong Man Ro(参考訳) 音声から発声顔を生成する課題は、口領域が入力音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。 従来の方法は、視聴覚表現学習を利用するか、ランドマークや3dモデルなどの中間構造情報を利用する。 しかし、ビデオ合成ステップでは唇の視覚情報を十分に提供していないため、音素レベルでの唇の細部を合成するのに苦労している。 この制限を克服するため,本研究では,入力音声に対応する口領域の視覚情報をもたらし,きめ細かな視覚的コヒーレンスを強制するAudio-Lip Memoryを提案する。 逐次的接地真理画像からの唇動作特徴を値メモリに記憶し、対応する音声特徴と整列させて、推論時に音声入力を用いて検索できるようにする。 したがって、検索した唇の動き特徴を視覚的ヒントとして利用することにより、合成工程における音声と視覚力学との相関を容易に行うことができる。 メモリを解析することにより、各メモリスロットに固有の唇特徴が記憶され、メモリアドレスに基づいて微妙な唇の動きを捉えていることを示す。 さらに,本モデルでは,音声-視覚同期損失とともに,リップ同期性能を向上させる視覚-視覚同期損失を導入する。 提案手法が入力音声に最もよく適合する口形状の高品質な映像を生成することを検証するため, 従来手法よりも優れた実験を行った。

The challenge of talking face generation from speech lies in aligning two different modal information, audio and video, such that the mouth region corresponds to input audio. Previous methods either exploit audio-visual representation learning or leverage intermediate structural information such as landmarks and 3D models. However, they struggle to synthesize fine details of the lips varying at the phoneme level as they do not sufficiently provide visual information of the lips at the video synthesis step. To overcome this limitation, our work proposes Audio-Lip Memory that brings in visual information of the mouth region corresponding to input audio and enforces fine-grained audio-visual coherence. It stores lip motion features from sequential ground truth images in the value memory and aligns them with corresponding audio features so that they can be retrieved using audio input at inference time. Therefore, using the retrieved lip motion features as visual hints, it can easily correlate audio with visual dynamics in the synthesis step. By analyzing the memory, we demonstrate that unique lip features are stored in each memory slot at the phoneme level, capturing subtle lip motion based on memory addressing. In addition, we introduce visual-visual synchronization loss which can enhance lip-syncing performance when used along with audio-visual synchronization loss in our model. Extensive experiments are performed to verify that our method generates high-quality video with mouth shapes that best align with the input audio, outperforming previous state-of-the-art methods.
翻訳日:2022-11-04 11:47:54 公開日:2022-11-03
# SL3D:自己監督型自己ラベル付き3D認識

SL3D: Self-supervised-Self-labeled 3D Recognition ( http://arxiv.org/abs/2210.16810v2 )

ライセンス: Link先を確認
Fernando Julio Cendra, Lan Ma, Jiajun Shen, Xiaojuan Qi(参考訳) 3d認識には、分類、オブジェクト検出、セマンティックセグメンテーションなど、多くの有望な結果がある。 しかし、これらの結果の多くは、高度に注釈付けされた現実世界の3Dデータを手作業で収集することに依存している。 そこで本稿では,非教師付き3D認識について検討し,自己教師付き自己ラベル型3D認識(SL3D)フレームワークを提案する。 SL3Dはクラスタリングと学習特徴表現という2つの結合した目的を同時に解決し、教師なし3D認識のための擬似ラベル付きデータを生成する。 SL3Dは汎用的なフレームワークであり、分類、オブジェクト検出、セマンティックセグメンテーションを含む様々な3D認識タスクに応用できる。 広範な実験がその効果を実証している。 コードはhttps://github.com/fcendra/sl3dで入手できる。

There are a lot of promising results in 3D recognition, including classification, object detection, and semantic segmentation. However, many of these results rely on manually collecting densely annotated real-world 3D data, which is highly time-consuming and expensive to obtain, limiting the scalability of 3D recognition tasks. Thus in this paper, we study unsupervised 3D recognition and propose a Self-supervised-Self-Labeled 3D Recognition (SL3D) framework. SL3D simultaneously solves two coupled objectives, i.e., clustering and learning feature representation to generate pseudo labeled data for unsupervised 3D recognition. SL3D is a generic framework and can be applied to solve different 3D recognition tasks, including classification, object detection, and semantic segmentation. Extensive experiments demonstrate its effectiveness. Code is available at https://github.com/fcendra/sl3d.
翻訳日:2022-11-04 11:47:30 公開日:2022-11-03
# DEArt: ヨーロッパ美術のデータセット

DEArt: Dataset of European Art ( http://arxiv.org/abs/2211.01226v2 )

ライセンス: Link先を確認
Artem Reshetnikov, Maria-Cristina Marinescu, Joaquim More Lopez(参考訳) 過去20年間に研究コミュニティに公開されてきた大規模なデータセットは、NLPやコンピュータビジョンのためのディープラーニングアルゴリズムの進歩の鍵となる要素である。 これらのデータセットは、概してアライメントされた画像/手動で注釈付きメタデータのペアであり、画像は日常生活の写真である。 一方、学術的かつ歴史的コンテンツは、必ずしも一般の聴衆に人気がない主題を扱い、必ずしも大量のデータポイントを含まない可能性があり、新しいデータは収集が困難または不可能である可能性がある。 科学データや健康データなど、いくつかの例外があるが、文化遺産(CH)ではそうではない。 コンピュータビジョンにおける最高のモデル(アートワークよりもテストする場合)のパフォーマンスの低さと、CHのための広範囲な注釈付きデータセットが欠如していること、そしてアートイメージが写真によってキャプチャされていないオブジェクトやアクションを描いているという事実は、CH固有のデータセットがこのコミュニティにとって非常に価値があることを示唆している。 本稿は,第2世紀から第8世紀にかけての絵画の参照を目的とした,物体検出・ポーズ分類データセットであるDEArtを提案する。 15,000以上の画像があり、約80%が非iconicで、69クラスのすべてのインスタンスを識別するバウンディングボックスの手動アノテーションと、12のポーズで人間に似たオブジェクトを識別できる。 これらのうち、50以上のクラスはch固有であり、そのため他のデータセットには現れない。 さらに、既存のデータセットにはポーズアノテーションが含まれていない。 以上の結果から,文化遺産領域のオブジェクト検出器は,伝達学習による汎用画像の最先端モデルに匹敵する精度を達成できることが示唆された。

Large datasets that were made publicly available to the research community over the last 20 years have been a key enabling factor for the advances in deep learning algorithms for NLP or computer vision. These datasets are generally pairs of aligned image / manually annotated metadata, where images are photographs of everyday life. Scholarly and historical content, on the other hand, treat subjects that are not necessarily popular to a general audience, they may not always contain a large number of data points, and new data may be difficult or impossible to collect. Some exceptions do exist, for instance, scientific or health data, but this is not the case for cultural heritage (CH). The poor performance of the best models in computer vision - when tested over artworks - coupled with the lack of extensively annotated datasets for CH, and the fact that artwork images depict objects and actions not captured by photographs, indicate that a CH-specific dataset would be highly valuable for this community. We propose DEArt, at this point primarily an object detection and pose classification dataset meant to be a reference for paintings between the XIIth and the XVIIIth centuries. It contains more than 15000 images, about 80% non-iconic, aligned with manual annotations for the bounding boxes identifying all instances of 69 classes as well as 12 possible poses for boxes identifying human-like objects. Of these, more than 50 classes are CH-specific and thus do not appear in other datasets; these reflect imaginary beings, symbolic entities and other categories related to art. Additionally, existing datasets do not include pose annotations. Our results show that object detectors for the cultural heritage domain can achieve a level of precision comparable to state-of-art models for generic images via transfer learning.
翻訳日:2022-11-04 11:47:16 公開日:2022-11-03
# 半監督的時間的行動セグメンテーションのための蒸留と収集

Distill and Collect for Semi-Supervised Temporal Action Segmentation ( http://arxiv.org/abs/2211.01311v2 )

ライセンス: Link先を確認
Sovan Biswas, Anthony Rhodes, Ramesh Manuvinakurike, Giuseppe Raffa, Richard Beckwith(参考訳) 最近の時間的アクションセグメンテーションアプローチでは、トレーニング中のフレームアノテーションが有効である必要がある。 これらのアノテーションは非常に高価で入手に時間がかかる。 これにより、限定されたアノテートデータしか利用できない場合のパフォーマンスが制限される。 対照的に、インターネットをスキャビングすることで、ドメイン内未注釈ビデオの大規模なコーパスを簡単に収集できる。 そこで本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用できる時間的行動分割タスクを提案する。 提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。 また,提案手法は時間制約として使用される動作順序を予測し,フレームラベルを推定し,無記名ビデオに対する監督の欠如を解消する。 最後に、2つの異なるデータセットに対する提案手法の評価により、限定されたアノテーションにもかかわらず、完全な監視と同等のパフォーマンスを実現する能力が示される。

Recent temporal action segmentation approaches need frame annotations during training to be effective. These annotations are very expensive and time-consuming to obtain. This limits their performances when only limited annotated data is available. In contrast, we can easily collect a large corpus of in-domain unannotated videos by scavenging through the internet. Thus, this paper proposes an approach for the temporal action segmentation task that can simultaneously leverage knowledge from annotated and unannotated video sequences. Our approach uses multi-stream distillation that repeatedly refines and finally combines their frame predictions. Our model also predicts the action order, which is later used as a temporal constraint while estimating frames labels to counter the lack of supervision for unannotated videos. In the end, our evaluation of the proposed approach on two different datasets demonstrates its capability to achieve comparable performance to the full supervision despite limited annotation.
翻訳日:2022-11-04 11:46:44 公開日:2022-11-03