このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230131となっている論文です。

PDF登録状況(公開日: 20230131)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子データ解析の改良

Improved quantum data analysis ( http://arxiv.org/abs/2011.10908v2 )

ライセンス: Link先を確認
Costin B\u{a}descu, Ryan O'Donnell(参考訳) 量子データ解析における基本ルーチンのよりサンプル効率の良いバージョンと簡単な証明を提供する。 特に、$O((\log^2 m)/\epsilon^2)$$d$次元状態 $\rho$ のサンプルのみを必要とする量子 "Threshold Search" アルゴリズムを与える。 つまり、$0 \le A_1, A_2, ..., A_m \le 1$ が$\mathrm{tr}(\rho A_i) \ge 1/2$ となると、このアルゴリズムは$\mathrm{tr}(\rho A_j) \ge 1/2-\epsilon$ で$j$ を求める。 その結果,Shadow Tomography アルゴリズムは$\tilde{O}((\log^2 m)(\log d)/\epsilon^4)$サンプルしか必要とせず,パラメータ $m$, $d$, $\epsilon$ に対して最もよく知られた依存を実現する。 これにより、$m$状態間の量子仮説選択の同じサンプル複雑性が生まれ、$\tilde{o}((\log^3 m)/\epsilon^2)$サンプルを用いる別の仮説選択法も与えられる。

We provide more sample-efficient versions of some basic routines in quantum data analysis, along with simpler proofs. Particularly, we give a quantum "Threshold Search" algorithm that requires only $O((\log^2 m)/\epsilon^2)$ samples of a $d$-dimensional state $\rho$. That is, given observables $0 \le A_1, A_2, ..., A_m \le 1$ such that $\mathrm{tr}(\rho A_i) \ge 1/2$ for at least one $i$, the algorithm finds $j$ with $\mathrm{tr}(\rho A_j) \ge 1/2-\epsilon$. As a consequence, we obtain a Shadow Tomography algorithm requiring only $\tilde{O}((\log^2 m)(\log d)/\epsilon^4)$ samples, which simultaneously achieves the best known dependence on each parameter $m$, $d$, $\epsilon$. This yields the same sample complexity for quantum Hypothesis Selection among $m$ states; we also give an alternative Hypothesis Selection method using $\tilde{O}((\log^3 m)/\epsilon^2)$ samples.
翻訳日:2023-04-23 11:10:36 公開日:2023-01-31
# 最適化量子ネットワーク

Optimized Quantum Networks ( http://arxiv.org/abs/2107.10275v3 )

ライセンス: Link先を確認
Jorge Miguel-Ramiro, Alexander Pirker and Wolfgang D\"ur(参考訳) 古典的ネットワークのトポロジはノード間の物理的リンクによって決定され、ネットワーク要求後、所望の接続を確立するためにリンクが使用される。 量子ネットワークは、ネットワーク要求に先立って異なる種類の絡み合いを生成する可能性を提供し、リンクを置換し、同じリソース状態で複数のネットワーク要求を満たすことができる。 これを利用して、基盤となる物理構造とは無関係に、量子量子ネットワークの所望の機能に合わせて設計する。 格納すべき絡み合いの種類は、すべての所望のネットワーク要求(例えば、有限集合から選択された特定のノード間の並列二部通信やマルチパーティイト通信)を満たすために選択されるが、ストレージ要求が最小化される。 これは、ローカル操作によって異なるターゲット状態に変換することができるネットワークノード間で共有されるマルチパートの絡み合った状態を使用することで実現できる。 所望の機能として,ネットワーク内の連結クラスタを識別するクラスタリングアルゴリズム,すなわち,絡み合いベースのネットワークに必要なネットワークトポロジ,および,すべての所望のネットワーク要求を満たすために,メモリ要求を低減したマルチパーティントリソース状態を構築するマージアルゴリズムを導入する。 これにより必要な時間とリソースが大幅に削減され、絡み合ったネットワークに特有の量子ネットワークを設計するための強力なツールが提供される。

The topology of classical networks is determined by physical links between nodes, and after a network request the links are used to establish the desired connections. Quantum networks offer the possibility to generate different kinds of entanglement prior to network requests, which can substitute links and allow one to fulfill multiple network requests with the same resource state. We utilize this to design entanglement-based quantum networks tailored to their desired functionality, independent of the underlying physical structure. The kind of entanglement to be stored is chosen to fulfill all desired network requests (i.e. parallel bipartite or multipartite communications between specific nodes chosen from some finite set), but in such a way that the storage requirement is minimized. This can be accomplished by using multipartite entangled states shared between network nodes that can be transformed by local operations to different target states. We introduce a clustering algorithm to identify connected clusters in the network for a given desired functionality, i.e. the required network topology of the entanglement-based network, and a merging algorithm that constructs multipartite entangled resource states with reduced memory requirement to fulfill all desired network requests. This leads to a significant reduction in required time and resources, and provides a powerful tool to design quantum networks that is unique to entanglement-based networks.
翻訳日:2023-03-21 07:29:59 公開日:2023-01-31
# 高バンドのない相互作用ボソンのカイラル軌道秩序

Chiral orbital order of interacting bosons without higher bands ( http://arxiv.org/abs/2111.13572v2 )

ライセンス: Link先を確認
Marco Di Liberto and Nathan Goldman(参考訳) 高いブロッホバンドにロードされた超低温原子は、カイラル軌道秩序の形成によって自発的に時間反転対称性を破る多体量子状態を実現するためのエレガントな設定を提供する。 この戦略の適用性は、高エネルギー帯における原子の有限寿命のため、依然として限られている。 ここでは,約$\pi$-flux(磁束量子の半分)でピアスされた正方形プラーペットを組み立てるボソニックガスに適した代替枠組みを提案する。 この設定は、正式には、$p$軌道にロードされる相互作用するボソニックガスと等価であることが示され、弱い、強いオンサイト相互作用の両方において、結果として生じるカイラル軌道秩序の結果を探索する。 我々は, 局所的なキラル流を特徴とする長寿命なギャップ付き集合モードを示す, キラル超流動渦格子の出現を実証した。 このキラル超流動相は十分に強い相互作用のためにキラルモット絶縁体へ相転移する。 我々の研究は、軌道秩序と物質のキラル相の出現のための実践的なルートとして、$\pi$-flux plaquettesの結合を確立している。

Ultracold atoms loaded into higher Bloch bands provide an elegant setting for realizing many-body quantum states that spontaneously break time-reversal symmetry through the formation of chiral orbital order. The applicability of this strategy remains nonetheless limited due to the finite lifetime of atoms in high-energy bands. Here we introduce an alternative framework, suitable for bosonic gases, which builds on assembling square plaquettes pierced by a $\pi$-flux (half a magnetic-flux quantum). This setting is shown to be formally equivalent to an interacting bosonic gas loaded into $p$ orbitals, and we explore the consequences of the resulting chiral orbital order, both for weak and strong onsite interactions. We demonstrate the emergence of a chiral superfluid vortex lattice, exhibiting a long-lived gapped collective mode that is characterized by local chiral currents. This chiral superfluid phase is shown to undergo a phase transition to a chiral Mott insulator for sufficiently strong interactions. Our work establishes coupled $\pi$-flux plaquettes as a practical route for the emergence of orbital order and chiral phases of matter.
翻訳日:2023-03-06 19:42:58 公開日:2023-01-31
# 量子2準位系の3光子励起

Three-photon excitation of quantum two-level systems ( http://arxiv.org/abs/2202.02034v2 )

ライセンス: Link先を確認
Viviana Villafa\~ne, Bianca Scaparra, Manuel Rieger, Stefan Appel, Rahul Trivedi, Tongtong Zhu, John Jarman, Rachel A. Oliver, Robert A. Taylor, Jonathan J. Finley, Kai Mueller(参考訳) 半導体量子ドットは共振三光子過程において効率的に励起できるが、共振二光子励起は強く抑制される。 時間依存フロケ理論は、多光子過程の強度を定量化し、実験結果をモデル化するために用いられる。 これらの遷移の効率は、半導体量子ドットの電子およびホール波動関数のパリティ考慮から直接引き出すことができる。 最後に,この手法を用いてInGaN量子ドットの固有特性を探索する。 非共鳴励起とは対照的に、電荷キャリアの緩やかな緩和は避けられ、最小のエネルギー励起状態の放射寿命を直接測定することができる。 放射エネルギーは共振駆動レーザ場から遠く離れているため、偏光フィルタリングは不要であり、非共振励起と比較して、より線形偏光度の高い放出が観察される。

We demonstrate that semiconductor quantum dots can be excited efficiently in a resonant three-photon process, whilst resonant two-photon excitation is highly suppressed. Time-dependent Floquet theory is used to quantify the strength of the multi-photon processes and model the experimental results. The efficiency of these transitions can be drawn directly from parity considerations in the electron and hole wavefunctions in semiconductor quantum dots. Finally, we exploit this technique to probe intrinsic properties of InGaN quantum dots. In contrast to non-resonant excitation, slow relaxation of charge carriers is avoided which allows us to measure directly the radiative lifetime of the lowest energy exciton states. Since the emission energy is detuned far from the resonant driving laser field, polarization filtering is not required and emission with a greater degree of linear polarization is observed compared to non-resonant excitation.
翻訳日:2023-02-26 21:00:26 公開日:2023-01-31
# 高分解能銀河シミュレーションに向けた深層学習による超新星シェル膨張の3次元時空間予測

3D-Spatiotemporal Forecasting the Expansion of Supernova Shells Using Deep Learning toward High-Resolution Galaxy Simulations ( http://arxiv.org/abs/2302.00026v1 )

ライセンス: Link先を確認
Keiya Hirashima, Kana Moriwaki, Michiko S. Fujii, Yutaka Hirai, Takayuki R. Saitoh, Junichiro Makino(参考訳) 短い時間領域のごく一部に対する小さな積分時間ステップは、超並列計算を用いた高解像度銀河シミュレーションのボトルネックである。 これは、将来の高解像度銀河シミュレーションのために解決する必要がある緊急問題である。 可能な1つの解決策は(ほぼ)ハミルトニアン分割法で、小さな時間ステップを必要とする領域のみを銀河全体から分離した小さな時間ステップに統合する。 特に、超新星爆発(SN)によるガスは、このようなシミュレーションでは最小の時間ステップを必要とすることが多い。 滑らかな粒子流体力学シミュレーションにおいて,SNeの影響を受ける粒子にハミルトニアン分割法を適用するためには,次の大域的な段階(銀河全体の積分時間ステップ)の間に,これらのSNの影響のある粒子が存在する領域を特定する必要がある。 本稿では,sn爆発後のシェル展開を予測するディープラーニングモデルと,予測領域におけるsn影響を受ける粒子を識別する画像処理アルゴリズムを開発した。 その結果,Sedov-Taylor 溶液を用いた解析法よりも高い同定率で,対象粒子の95%以上を同定できることがわかった。 ハミルトン分割法と組み合わさって,深層学習を用いた粒子選択法は,銀河シミュレーションの性能を極めて高分解能で向上させる。

Small integration timesteps for a small fraction of short-timescale regions are bottlenecks for high-resolution galaxy simulations using massively parallel computing. This is an urgent issue that needs to be resolved for future higher-resolution galaxy simulations. One possible solution is to use an (approximate) Hamiltonian splitting method, in which only regions requiring small timesteps are integrated with small timesteps, separated from the entire galaxy. In particular, gas affected by supernova (SN) explosions often requires the smallest timestep in such a simulation. To apply the Hamiltonian splitting method to the particles affected by SNe in a smoothed-particle hydrodynamics simulation, we need to identify the regions where such SN-affected particles reside during the subsequent global step (the integration timestep for the entire galaxy) in advance. In this paper, we developed a deep learning model to predict a shell expansion after a SN explosion and an image processing algorithm to identify SN-affected particles in the predicted regions. We found that we can identify more than 95 per cent of the target particles with our method, which is a better identification rate than using an analytic approach with the Sedov-Taylor solution. Combined with the Hamiltonian splitting method, our particle selection method using deep learning will improve the performance of galaxy simulations with extremely high resolution.
翻訳日:2023-02-26 15:05:13 公開日:2023-01-31
# ViewCo:マルチビューセマンティック一貫性によるテキストスーパービジョンセグメンテーションマスクの発見

ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency ( http://arxiv.org/abs/2302.10307v1 )

ライセンス: Link先を確認
Pengzhen Ren, Changlin Li, Hang Xu, Yi Zhu, Guangrun Wang, Jianzhuang Liu, Xiaojun Chang, Xiaodan Liang(参考訳) 近年,テキストによるセマンティックセグメンテーションの出現を助長し,テキスト管理から視覚表現を学ぶことに成功している。 しかし、既存の作品はピクセルのグルーピングとクロスモーダルなセマンティクスアライメントにフォーカスしているが、同じ画像の複数の拡張ビュー間の対応は無視している。 このような制限を克服するため,テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbf{View} \textbf{Co}sistent Learning (ViewCo)を提案する。 具体的には、まず、同一入力画像の複数のビューの対応を学習するために、テキスト間一貫性モデリングを提案する。 さらに、シームズ視覚エンコーダのセグメント特徴を対比することにより、テキスト監督のあいまいさ問題に対処するクロスビューセグメンテーション整合性モデリングを提案する。 テキスト・ツー・ビューの一貫性は、異なる作物を同じテキストに合わせるように促すことで、視覚的な特徴の密集した割り当ての恩恵を受ける一方で、クロスビューのセグメンテーションの一貫性モデリングは、セグメンテーションマスクの曖昧なテキスト監督の限界を克服する追加の自己スーパービジョンを提供する。 大規模画像テキストデータを用いてトレーニングすることで,任意のカテゴリのオブジェクトを直接ゼロショットでセグメンテーションすることができる。 大規模な実験により、ViewCoはPASCAL VOC2012、PASCAL Context、COCOで平均2.9 %、1.6 %、2.4 % mIoUを平均で上回っている。

Recently, great success has been made in learning visual representations from text supervision, facilitating the emergence of text-supervised semantic segmentation. However, existing works focus on pixel grouping and cross-modal semantic alignment, while ignoring the correspondence among multiple augmented views of the same image. To overcome such limitation, we propose multi-\textbf{View} \textbf{Co}nsistent learning (ViewCo) for text-supervised semantic segmentation. Specifically, we first propose text-to-views consistency modeling to learn correspondence for multiple views of the same input image. Additionally, we propose cross-view segmentation consistency modeling to address the ambiguity issue of text supervision by contrasting the segment features of Siamese visual encoders. The text-to-views consistency benefits the dense assignment of the visual features by encouraging different crops to align with the same text, while the cross-view segmentation consistency modeling provides additional self-supervision, overcoming the limitation of ambiguous text supervision for segmentation masks. Trained with large-scale image-text data, our model can directly segment objects of arbitrary categories in a zero-shot manner. Extensive experiments show that ViewCo outperforms state-of-the-art methods on average by up to 2.9\%, 1.6\%, and 2.4\% mIoU on PASCAL VOC2012, PASCAL Context, and COCO, respectively.
翻訳日:2023-02-26 14:18:25 公開日:2023-01-31
# KG-Hub -- 生物学的知識グラフの構築と交換

KG-Hub -- Building and Exchanging Biological Knowledge Graphs ( http://arxiv.org/abs/2302.10800v1 )

ライセンス: Link先を確認
J Harry Caufield, Tim Putman, Kevin Schaper, Deepak R Unni, Harshad Hegde, Tiffany J Callahan, Luca Cappelletti, Sierra AT Moxon, Vida Ravanmehr, Seth Carbon, Lauren E Chan, Katherina Cortes, Kent A Shefchek, Glass Elsarboukh, James P Balhoff, Tommaso Fontana, Nicolas Matentzoglu, Richard M Bruskiewich, Anne E Thessen, Nomi L Harris, Monica C Munoz-Torres, Melissa A Haendel, Peter N Robinson, Marcin P Joachimiak, Christopher J Mungall, Justin T Reese(参考訳) 知識グラフ(KGs)は、異種データを統合し、生物学や他の多くの領域で推論を行うための強力なアプローチであるが、知識グラフの下流での活用を構築、交換、促進するための一貫性のあるソリューションは欠如している。 ここでは,知識グラフの構築,交換,再利用を標準化したプラットフォームであるkg-hubを紹介する。 特徴としては、Biolink Model(生物データの標準化のための高レベルデータモデル)に準拠したグラフを生成するためのシンプルなモジュール式の抽出-変換-ロード(ETL)パターン、OBO(Open Biological and Biomedical Ontology)オントロジーの容易な統合、上流データソースのキャッシュによるダウンロード、安定したURLでバージョン管理と自動更新されたビルド、クラウドインフラストラクチャ上のKGアーティファクトのWebブラウズ可能なストレージ、プロジェクト間の変換サブグラフの再利用などがある。 現在のKG-Hubプロジェクトは、新型コロナウイルス研究、薬物再精製、微生物-環境相互作用、希少疾患研究などのユースケースにまたがっている。 kg-hubは知識グラフを解析し操作するツールを備えている。 また、KG-Hubはグラフ機械学習(ML)ツールと密接に統合されており、ノードの埋め込みやリンク予測やノード分類のためのモデルのトレーニングを含むグラフ機械学習を自動化することができる。

Knowledge graphs (KGs) are a powerful approach for integrating heterogeneous data and making inferences in biology and many other domains, but a coherent solution for constructing, exchanging, and facilitating the downstream use of knowledge graphs is lacking. Here we present KG-Hub, a platform that enables standardized construction, exchange, and reuse of knowledge graphs. Features include a simple, modular extract-transform-load (ETL) pattern for producing graphs compliant with Biolink Model (a high-level data model for standardizing biological data), easy integration of any OBO (Open Biological and Biomedical Ontologies) ontology, cached downloads of upstream data sources, versioned and automatically updated builds with stable URLs, web-browsable storage of KG artifacts on cloud infrastructure, and easy reuse of transformed subgraphs across projects. Current KG-Hub projects span use cases including COVID-19 research, drug repurposing, microbial-environmental interactions, and rare disease research. KG-Hub is equipped with tooling to easily analyze and manipulate knowledge graphs. KG-Hub is also tightly integrated with graph machine learning (ML) tools which allow automated graph machine learning, including node embeddings and training of models for link prediction and node classification.
翻訳日:2023-02-26 13:59:03 公開日:2023-01-31
# 不規則自己回帰モデルのオンライン推定法

Online estimation methods for irregular autoregressive models ( http://arxiv.org/abs/2302.10785v1 )

ライセンス: Link先を確認
Felipe Elorrieta, Lucas Osses, Matias C\'aceres, Susana Eyheramendy and Wilfredo Palma(参考訳) 過去数十年間、膨大な技術的成長が観察され、時間的データの収集が急速に蓄積されることがますます一般的になっている。 これにより、ますます正確なモデルの推定を通じて貴重な情報を抽出する機会が得られる。 しかし同時に、新しいデータが利用可能になると継続的にモデルを更新するという課題も課している。 この問題を解決するための現在利用可能な方法は、いわゆるオンライン学習手法であり、現在のパラメータ推定と新しいデータを使用して推定値を更新する。 これらのアプローチは、完全な生データの使用を避け、計算をスピードアップする。 本研究では,時系列モデルの文脈におけるパラメータ推定のための3つのオンライン学習アルゴリズムを検討する。 特に実装された方法は、勾配降下、ニュートンステップ、カルマンフィルタ再帰である。 これらのアルゴリズムは、最近開発された不規則に観察された自己回帰(iAR)モデルに適用される。 モンテカルロ実験により,提案手法の推定精度を評価した。 その結果、オンライン推定手法により、定期的および不規則に観測された時系列の両方でデータを生成するパラメータの正確な推定が可能となった。 これらのオンラインアプローチは数値的に効率的であり、計算時間を大幅に節約できる。 さらに,提案手法は,バッチ推定法とは異なり,時系列の挙動が変化するとパラメータ推定を迅速に適用可能であることを示す。

In the last decades, due to the huge technological growth observed, it has become increasingly common that a collection of temporal data rapidly accumulates in vast amounts. This provides an opportunity for extracting valuable information through the estimation of increasingly precise models. But at the same time it imposes the challenge of continuously updating the models as new data become available. Currently available methods for addressing this problem, the so-called online learning methods, use current parameter estimations and novel data to update the estimators. These approaches avoid using the full raw data and speeding up the computations. In this work we consider three online learning algorithms for parameters estimation in the context of time series models. In particular, the methods implemented are: gradient descent, Newton-step and Kalman filter recursions. These algorithms are applied to the recently developed irregularly observed autoregressive (iAR) model. The estimation accuracy of the proposed methods is assessed by means of Monte Carlo experiments. The results obtained show that the proposed online estimation methods allow for a precise estimation of the parameters that generate the data both for the regularly and irregularly observed time series. These online approaches are numerically efficient, allowing substantial computational time savings. Moreover, we show that the proposed methods are able to adapt the parameter estimates quickly when the time series behavior changes, unlike batch estimation methods.
翻訳日:2023-02-26 13:58:08 公開日:2023-01-31
# 3次元量子化Schr\"odinger-Newton非局所ソリトンのランダムウォークと非ガウス性

Random walk and non-Gaussianity of the 3D second-quantized Schr\"odinger-Newton nonlocal soliton ( http://arxiv.org/abs/2202.10741v4 )

ライセンス: Link先を確認
Claudio Conti(参考訳) 非局所量子流体はダークマッターモデルや量子シミュレーションや技術のためのツールとして現れる。 しかしながら、多次元の自己局所化された孤立波を含むような強非線形レジームは、量子的特徴にかかわる部分的に探究される。 第二量子化非局所非線形シュレーディンガー-ニュートン方程式における3D+1ソリトンのダイナミクスについて検討する。 質量のソリトン中心と他のパラメータの量子拡散を理論的に検討し、相互作用長を変化させる。 密度行列の正のP表現から生じる伊藤偏微分方程式の3次元+1シミュレーションは理論解析を検証した。 数値計算の結果、ソリトンの非ガウス統計の開始が明らかとなり、量子重力効果を示唆し、量子計算の資源となる可能性がある。 非ガウス性はソリトンパラメータの量子拡散と安定不変伝播の相互作用から生じる。 ゆらぎと非ガウス性は任意の非局所性と次元性に対して期待される普遍効果である。

Nonlocal quantum fluids emerge as dark-matter models and tools for quantum simulations and technologies. However, strongly nonlinear regimes, like those involving multi-dimensional self-localized solitary waves, are marginally explored for what concerns quantum features. We study the dynamics of 3D+1 solitons in the second-quantized nonlocal nonlinear Schroedinger-Newton equation. We theoretically investigate the quantum diffusion of the soliton center of mass and other parameters, varying the interaction length. 3D+1 simulations of the Ito partial differential equations arising from the positive P-representation of the density matrix validate the theoretical analysis. The numerical results unveil the onset of non-Gaussian statistics of the soliton, which may signal quantum-gravitational effects and be a resource for quantum computing. The non-Gaussianity arises from the interplay between the soliton parameter quantum diffusion and stable invariant propagation. The fluctuations and the non-Gaussianity are universal effects expected for any nonlocality and dimensionality.
翻訳日:2023-02-24 06:10:12 公開日:2023-01-31
# AI倫理を実践する - 組織AIガバナンスの時間ガラスモデル

Putting AI Ethics into Practice: The Hourglass Model of Organizational AI Governance ( http://arxiv.org/abs/2206.00335v2 )

ライセンス: Link先を確認
Matti M\"antym\"aki, Matti Minkkinen, Teemu Birkstedt, Mika Viljanen(参考訳) 人工知能(AI)の組織的利用は、様々な分野に急速に広まっている。 AIがもたらすメリットの認識に加えて、先進的なAI技術によってもたらされる偏見や差別といったリスクや潜在的な害に取り組む必要性に関するコンセンサスも増えている。 これらのリスクに取り組むために、AI倫理の原則が多数提案されているが、社会的に責任のあるAI開発を保証するための組織プロセスとプラクティスの概要は、初期段階にある。 包括的ガバナンスモデルの不透明さに対処するため、私たちは、AIシステムの開発と利用を目標とする組織AIガバナンスの時間ガラスモデルである、AIガバナンスフレームワークを紹介します。 このフレームワークは、AIシステムをデプロイする組織が倫理的AI原則を実践に翻訳し、今後の欧州AI法とAIシステムとプロセスの整合化を支援するように設計されている。 hourglassフレームワークには、環境、組織、AIシステムのレベルでのガバナンス要件が含まれている。 AIシステムレベルでは、ガバナンス要件とAIシステムのライフサイクルを結びつけて、システムのライフサイクル全体にわたってガバナンスを保証する。 ガバナンスモデルは、AIガバナンスの体系的な性質を強調し、新しい研究成果を実践的な実装、異なるAIガバナンスレイヤを接続するメカニズム、AIガバナンスアクター間のダイナミクスに開放する。 このモデルは、社会的受容性を確保し、リスクを軽減し、AIの可能性を実現するために必要なガバナンスコンポーネントを検討するための、組織的な意思決定者にとっての出発点でもある。

The organizational use of artificial intelligence (AI) has rapidly spread across various sectors. Alongside the awareness of the benefits brought by AI, there is a growing consensus on the necessity of tackling the risks and potential harms, such as bias and discrimination, brought about by advanced AI technologies. A multitude of AI ethics principles have been proposed to tackle these risks, but the outlines of organizational processes and practices for ensuring socially responsible AI development are in a nascent state. To address the paucity of comprehensive governance models, we present an AI governance framework, the hourglass model of organizational AI governance, which targets organizations that develop and use AI systems. The framework is designed to help organizations deploying AI systems translate ethical AI principles into practice and align their AI systems and processes with the forthcoming European AI Act. The hourglass framework includes governance requirements at the environmental, organizational, and AI system levels. At the AI system level, we connect governance requirements to AI system life cycles to ensure governance throughout the system's life span. The governance model highlights the systemic nature of AI governance and opens new research avenues into its practical implementation, the mechanisms that connect different AI governance layers, and the dynamics between the AI governance actors. The model also offers a starting point for organizational decision-makers to consider the governance components needed to ensure social acceptability, mitigate risks, and realize the potential of AI.
翻訳日:2023-02-19 17:24:35 公開日:2023-01-31
# どこにいるか:位置情報からオフラインのアクティビティを推測する

Where You Are Is What You Do: On Inferring Offline Activities From Location Data ( http://arxiv.org/abs/2301.13537v1 )

ライセンス: Link先を確認
Alameen Najjar, Kyle Mede(参考訳) 研究では、ある人の位置が、自分が関与している活動の種類を高い精度で示すことが示されている。 本稿では,ショッピングやダイニングといった基本的なオフライン活動を位置情報から推定する,現代の機械学習アルゴリズムの能力について検討する。 位置対応ソーシャルネットワークの何千人ものユーザの匿名化データを用いて、最先端の機械学習が手作業で優れているだけでなく(マクロF1>0.9)、表型モデルも優れた演奏者であることを実証的に実証した。 ここでは、文献の既存のギャップを埋めるだけでなく、位置情報の多様さや、表型機械学習モデルのアクセシビリティが高いことから、そのような能力の潜在的なリスクを浮き彫りにする。

Studies have shown that a person's location can reveal to a high degree of accuracy the type of activity they are engaged in. In this paper we investigate the ability of modern machine learning algorithms in inferring basic offline activities, e.g., shopping and dining, from location data. Using anonymized data of thousands of users of a prominent location-based social network, we empirically demonstrate that not only state-of-the-art machine learning excels at the task at hand (Macro-F1>0.9) but also tabular models are among the best performers. The findings we report here not only fill an existing gap in the literature, but also highlight the potential risks of such capabilities given the ubiquity of location data and the high accessibility of tabular machine learning models.
翻訳日:2023-02-19 13:58:39 公開日:2023-01-31
# ivory towerの解体:hci研究への特許引用の大規模分析

Breaking Out of the Ivory Tower: A Large-scale Analysis of Patent Citations to HCI Research ( http://arxiv.org/abs/2301.13431v1 )

ライセンス: Link先を確認
Hancheng Cao, Yujie Lu, Yuting Deng, Daniel A. McFarland, Michael S. Bernstein(参考訳) 人間とコンピュータの相互作用研究が産業に与える影響 すべての研究効果経路を追跡することは不可能であるが、翻訳研究影響測定に関する文献の増大は、産業が発明における研究をどのように認識し、引き出すかの指標として特許引用を提供する。 本稿では,過去30年間の米国特許におけるhci研究の引用を追跡し,まず7万件の特許引用を主要なhci研究会場に広範に実施する。 これらの会場からの論文の20.1%、UISTの論文の60-80%、SIGCHI主催の会場全体の広範なデータセットにおける論文の13%は、特許によって引用されている。 しかしながら、特許と論文引用の間の時間ラグは長く(10.5年)長くなり、HCIの研究と実践が効率的に結びついていないことが示唆される。

What is the impact of human-computer interaction research on industry? While it is impossible to track all research impact pathways, the growing literature on translational research impact measurement offers patent citations as one measure of how industry recognizes and draws on research in its inventions. In this paper, we perform a large-scale measurement study primarily of 70,000 patent citations to premier HCI research venues, tracing how HCI research are cited in United States patents over the last 30 years. We observe that 20.1% of papers from these venues, including 60--80% of papers at UIST and 13% of papers in a broader dataset of SIGCHI-sponsored venues overall, are cited by patents -- far greater than premier venues in science overall (9.7%) and NLP (11%). However, the time lag between a patent and its paper citations is long (10.5 years) and getting longer, suggesting that HCI research and practice may not be efficiently connected.
翻訳日:2023-02-19 13:58:25 公開日:2023-01-31
# 港湾用デジタル双生児:スマートシティとサプライチェーン双生児の経験から

Digital Twins for Ports: Derived from Smart City and Supply Chain Twinning Experience ( http://arxiv.org/abs/2301.10224v2 )

ライセンス: Link先を確認
Robert Klar, Anna Fredriksson, Vangelis Angelakis(参考訳) 港湾は、輸送の増加に対処する革新的な技術ソリューションを模索しており、同時に環境のフットプリントも改善している。 多面的および相互接続されたポートプロセスの効率を大幅に向上させる可能性を持つ新興技術はデジタルツインである。 デジタル双生児は多くの産業でうまく統合されているが、デジタル双生児を構成するものに関するクロスドメインな理解はいまだに欠けている。 さらに、ポートのような複雑なシステムにおけるデジタルツインの実装は、まだ初期段階にある。 本稿では,本研究のギャップを埋めるために,デジタル双生児を構成するものを網羅したクロスドメイン文献レビューを実施し,各発見が港にどの程度適用できるかを留意する。 ポートのデジタル双対は、機能的関連性だけでなく、要求や特性の観点からも、スマートシティやサプライチェーンのような複雑なシステムに最も匹敵するものであることが判明した。 実施した文献レビューでは,異なるポートプロセスとポート特性を考慮した結果,デジタルポートツインの3つのコア要件が明確となった。 これには、状況認識、インテリジェントな意思決定のための包括的なデータ分析機能、マルチステークホルダーのガバナンスとコラボレーションを促進するインターフェースの提供が含まれる。 最後に、港のデジタル双生児が、港湾資源、設備、運用を改善することで省エネにどのように貢献できるかについて、具体的な運用シナリオが提案されている。

Ports are striving for innovative technological solutions to cope with the ever-increasing growth of transport, while at the same time improving their environmental footprint. An emerging technology that has the potential to substantially increase the efficiency of the multifaceted and interconnected port processes is the digital twin. Although digital twins have been successfully integrated in many industries, there is still a lack of cross-domain understanding of what constitutes a digital twin. Furthermore, the implementation of the digital twin in complex systems such as the port is still in its infancy. This paper attempts to fill this research gap by conducting an extensive cross-domain literature review of what constitutes a digital twin, keeping in mind the extent to which the respective findings can be applied to the port. It turns out that the digital twin of the port is most comparable to complex systems such as smart cities and supply chains, both in terms of its functional relevance as well as in terms of its requirements and characteristics. The conducted literature review, considering the different port processes and port characteristics, results in the identification of three core requirements of a digital port twin, which are described in detail. These include situational awareness, comprehensive data analytics capabilities for intelligent decision making, and the provision of an interface to promote multi-stakeholder governance and collaboration. Finally, specific operational scenarios are proposed on how the port's digital twin can contribute to energy savings by improving the use of port resources, facilities and operations.
翻訳日:2023-02-19 13:49:06 公開日:2023-01-31
# 学生中心の学習管理システム活動と学業成績モデル--因果関係から因果関係へ

Student-centric Model of Learning Management System Activity and Academic Performance: from Correlation to Causation ( http://arxiv.org/abs/2210.15430v2 )

ライセンス: Link先を確認
Varun Mandalapu, Lujie Karen Chen, Sushruta Shetty, Zhiyuan Chen, Jiaqi Gong(参考訳) 近年,メタ認知や自己統制といった学習行動パターンを理解するために,学生の学習管理システム(LMS)におけるデジタルトレースをモデル化することへの関心が高まっている。 しかし、この目標を達成するには、既存の文献を考えると、対処すべき主な課題が2つある。 第一に、現在の研究のほとんどは、学生中心ではなくコース中心(すなわち、特定のコースのデータからモデルを構築する)であり、第二に、モデルの大多数は因果関係ではなく相関関係にある。 これらの問題は、キャンパス全体の学術的支援のほとんどが設計されている学生レベルで、最も有望な介入の要因を特定するのに困難である。 本稿では,LMS活動データを対象とした学生中心分析フレームワークについて検討し,観察データから抽出した相関性だけでなく因果的洞察も提供する。 2019年秋の1学期に米国の公立大学での主要学生を1651人のデータセットで計算することで,このアプローチを実証した。 このデータセットには、学生の詳細なLMSインタラクションログと、人口統計学や学業成績などの管理データが含まれている。 さらに、ログインの時間(例えば、chronotype)を特徴付けることができるように、lms行動指標のリポジトリを拡張します。 分析の結果,学生のログイン量は,他のログイン行動指標と比較して,学生の成績に強く相関し,因果関係があることが明らかとなった。 これらの知見が学生支援グループにとって、効果的でスケーラブルな介入を学生中心で目標とする活動を開始するための証拠となると期待している。

In recent years, there is a lot of interest in modeling students' digital traces in Learning Management System (LMS) to understand students' learning behavior patterns including aspects of meta-cognition and self-regulation, with the ultimate goal to turn those insights into actionable information to support students to improve their learning outcomes. In achieving this goal, however, there are two main issues that need to be addressed given the existing literature. Firstly, most of the current work is course-centered (i.e. models are built from data for a specific course) rather than student-centered; secondly, a vast majority of the models are correlational rather than causal. Those issues make it challenging to identify the most promising actionable factors for intervention at the student level where most of the campus-wide academic support is designed for. In this paper, we explored a student-centric analytical framework for LMS activity data that can provide not only correlational but causal insights mined from observational data. We demonstrated this approach using a dataset of 1651 computing major students at a public university in the US during one semester in the Fall of 2019. This dataset includes students' fine-grained LMS interaction logs and administrative data, e.g. demographics and academic performance. In addition, we expand the repository of LMS behavior indicators to include those that can characterize the time-of-the-day of login (e.g. chronotype). Our analysis showed that student login volume, compared with other login behavior indicators, is both strongly correlated and causally linked to student academic performance, especially among students with low academic performance. We envision that those insights will provide convincing evidence for college student support groups to launch student-centered and targeted interventions that are effective and scalable.
翻訳日:2023-02-19 12:06:05 公開日:2023-01-31
# ソーシャルネットワークにおけるインタラクションによるメモリインプリントのモデル化

Modeling Memory Imprints Induced by Interactions in Social Networks ( http://arxiv.org/abs/2210.03197v2 )

ライセンス: Link先を確認
James Flamino, Ross DeVito, Omar Lizardo, and Boleslaw K. Szymanski(参考訳) 関係の重要性の記憶インプリントは常に進化している。 それらは、関係に関わる人々間の社会的交流と、そのような出来事の間の腐敗によって促進され、関係が変化する。 ソーシャルネットワークにおける関係性の進化の重要性にもかかわらず、長期にわたる相互関係が人の関係性の重要性を刻印した記憶とどのように相関するかを探求する作業はほとんどない。 本稿では,よく知られた認知科学モデルを適用し,記憶力学を表現する。 2つの一意な長手データセットを用いて、各ノードの関係強度の記憶インプリントの一致を最大化するためにモデルのパラメータを適合させ、その強度によって順序付けられたこのノードの関係の基幹リストを呼出詳細記録から予測する。 ある集団で訓練されたこのモデルは、この集団だけでなく別の集団でも予測され、無関係な個人間での社会的相互作用の記憶のインプリントの普遍性が示唆される。 本稿では, 記憶障害のある個人を早期に検出するための, 社会的相互作用をメモリインプリントとしてモデル化するための基礎と, 邪魔にならないツールとしての可能性について述べる。

Memory imprints of the significance of relationships are constantly evolving. They are boosted by social interactions among people involved in relationships, and decay between such events, causing the relationships to change. Despite the importance of the evolution of relationships in social networks, there is little work exploring how interactions over extended periods correlate with people's memory imprints of relationship importance. In this paper, we represent memory dynamics by adapting a well-known cognitive science model. Using two unique longitudinal datasets, we fit the model's parameters to maximize agreement of the memory imprints of relationship strengths of a node predicted from call detail records with the ground-truth list of relationships of this node ordered by their strength. We find that this model, trained on one population, predicts not only on this population but also on a different one, suggesting the universality of memory imprints of social interactions among unrelated individuals. This paper lays the foundation for studying the modeling of social interactions as memory imprints, and its potential use as an unobtrusive tool to early detection of individuals with memory malfunctions.
翻訳日:2023-02-19 11:35:08 公開日:2023-01-31
# 弱プロキシは感度属性を欠くフェアネスに十分好適である

Weak Proxies are Sufficient and Preferable for Fairness with Missing Sensitive Attributes ( http://arxiv.org/abs/2210.03175v2 )

ライセンス: Link先を確認
Zhaowei Zhu, Yuanshun Yao, Jiankai Sun, Hang Li, Yang Liu(参考訳) データの機密性は、プライバシの制約のためにアクセスできないことが多いため、公正性の評価は実際に難しい場合がある。 業界が頻繁に採用するゴートアプローチは,Meta (Alao et al., 2021) や Twitter [Belli et al., 2022] といった,欠落したセンシティブな属性を予測するために,オフザシェルフプロキシモデルを使用することだ。 人気にもかかわらず,(1) 公正度を測る上で,直接プロキシは有効か,という重要な疑問が3つある。 2)そうでなければ,プロキシのみを用いて公正さを正確に評価することは可能か? (3) 利用者の個人情報を推測する倫理的論争を考えると、プライバシーを守るために弱い(不正確な)プロキシのみを使用することは可能か。 我々の理論的分析は、プロキシモデルを直接使用すれば(不公平な)誤った感覚が得られることを示している。 第2に、適切に同定された3つのプロキシのみを用いて、公正性を正確に測定できるアルゴリズムを開発する。 第3に、我々のアルゴリズムは弱いプロキシ(例えばCompASでは68.85%の精度しか使用できない)しか使用できないことを示し、ユーザーのプライバシーを保護している。 実験は理論解析を検証し,偏りを効果的に測定し軽減できることを示す。 私たちの結果は、プロキシを適切に使うための実践的なガイドラインのセットを示しています。 コードはgithub.com/UCSC-REAL/fair-evalで入手できる。

Evaluating fairness can be challenging in practice because the sensitive attributes of data are often inaccessible due to privacy constraints. The go-to approach that the industry frequently adopts is using off-the-shelf proxy models to predict the missing sensitive attributes, e.g. Meta [Alao et al., 2021] and Twitter [Belli et al., 2022]. Despite its popularity, there are three important questions unanswered: (1) Is directly using proxies efficacious in measuring fairness? (2) If not, is it possible to accurately evaluate fairness using proxies only? (3) Given the ethical controversy over inferring user private information, is it possible to only use weak (i.e. inaccurate) proxies in order to protect privacy? Our theoretical analyses show that directly using proxy models can give a false sense of (un)fairness. Second, we develop an algorithm that is able to measure fairness (provably) accurately with only three properly identified proxies. Third, we show that our algorithm allows the use of only weak proxies (e.g. with only 68.85%accuracy on COMPAS), adding an extra layer of protection on user privacy. Experiments validate our theoretical analyses and show our algorithm can effectively measure and mitigate bias. Our results imply a set of practical guidelines for practitioners on how to use proxies properly. Code is available at github.com/UCSC-REAL/fair-eval.
翻訳日:2023-02-19 11:34:48 公開日:2023-01-31
# prescriptive learning analyticsフレームワーク:prescriptive analyticsとchatgptによる予測モデリングと説明可能なaiへの展開

A Prescriptive Learning Analytics Framework: Beyond Predictive Modelling and onto Explainable AI with Prescriptive Analytics and ChatGPT ( http://arxiv.org/abs/2208.14582v2 )

ライセンス: Link先を確認
Teo Susnjak(参考訳) 学習分析の分野での最近の重要な研究は、リスクの高い学生を予測し、タイムリーな介入を開始し、保持と終了率を高めるために機械学習のアプローチを活用することに焦点を当てている。 これらの研究の大部分の全体的な特徴は予測の科学にのみ向けられている。 モデルの内部を解釈し、個々のケースの予測を利害関係者に説明することに関する予測分析の構成要素は、ほとんど無視されている。 さらに、データ駆動型規範分析を使用して、リスクのある学習者に対するエビデンスベースの修正アドバイスを自動的に生成しようとする研究が、その初期段階にある。 eXplainable AIは、最近出現した分野であり、透明な予測分析とリスクの高い学生に適切なアドバイスを生成する技術をサポートする最先端のツールを提供している。 本研究では,大規模言語モデルに最新の進歩を取り入れつつ,透過的機械学習と規範的分析を可能にする技術の両方を統合する新しいフレームワークを提案する。 本研究は,プログラム非補完のリスク学習者を特定するための予測モデルを用いて提案手法を実演する。 この研究は、ChatGPTを使ってリスクを抱えている人に対して、人間の読みやすい規範的フィードバックを生成するために、2つのケーススタディにおける規範的分析によって予測モデリングをどのように強化できるかをさらに示す。

A significant body of recent research in the field of Learning Analytics has focused on leveraging machine learning approaches for predicting at-risk students in order to initiate timely interventions and thereby elevate retention and completion rates. The overarching feature of the majority of these research studies has been on the science of prediction only. The component of predictive analytics concerned with interpreting the internals of the models and explaining their predictions for individual cases to stakeholders has largely been neglected. Additionally, works that attempt to employ data-driven prescriptive analytics to automatically generate evidence-based remedial advice for at-risk learners are in their infancy. eXplainable AI is a field that has recently emerged providing cutting-edge tools which support transparent predictive analytics and techniques for generating tailored advice for at-risk students. This study proposes a novel framework that unifies both transparent machine learning as well as techniques for enabling prescriptive analytics, while integrating the latest advances in large language models. This work practically demonstrates the proposed framework using predictive models for identifying at-risk learners of programme non-completion. The study then further demonstrates how predictive modelling can be augmented with prescriptive analytics on two case studies in order to generate human-readable prescriptive feedback for those who are at risk using ChatGPT.
翻訳日:2023-02-19 10:54:03 公開日:2023-01-31
# カオスBKLシナリオに対応する量子力学

Quantum dynamics corresponding to chaotic BKL scenario ( http://arxiv.org/abs/2204.11274v3 )

ライセンス: Link先を確認
Andrzej G\'o\'zd\'z, Aleksandra P\c{e}drak, and W{\l}odzimierz Piechocki(参考訳) 我々は積分量子化法を用いてベリンスキー・ハラトニコフ・リフシッツ(BKL)の解を定量化する。 量子化は、構成空間におけるその局在を回避した重力特異性を示す。 後者は空間座標と時間座標で定義されるが、これは一般相対性理論の共分散を尊重することができる同じ足場で扱われる。 相対量子摂動は、系が重力特異点に向かって進化するにつれて増加する。 量子ランダム性は、BKLシナリオの決定論的古典的カオスを増幅する。 さらに, 一般相対性理論の一般特異性は, 量子レベルでは避けることができ, 量子重力が正則理論になる可能性が十分高いという期待を裏付けることが示唆された。

We quantize the solution to the Belinski-Khalatnikov-Lifshitz (BKL) scenario using the integral quantization method. Quantization smears the gravitational singularity avoiding its localization in the configuration space. The latter is defined in terms of spatial and temporal coordinates, which are treated on the same footing that enables respecting covariance of general relativity. The relative quantum perturbations grow as the system evolves towards the gravitational singularity. The quantum randomness amplifies the deterministic classical chaos of the BKL scenario. Additionally, our results suggest that the generic singularity of general relativity can be avoided at quantum level giving support to the expectation that quantum gravity has good chance to be a regular theory.
翻訳日:2023-02-15 20:15:50 公開日:2023-01-31
# 量子状態の温度の操作的定義

Operational definition of the temperature of a quantum state ( http://arxiv.org/abs/2205.00017v2 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Mart\'i Perarnau-Llobet, Nicolas Brunner(参考訳) 温度は通常、熱平衡の物理系で定義される。 それにもかかわらず、温度の有意義な概念を単に熱状態(ギブス状態)以上の任意の量子状態に分類できるかどうか疑問に思うかもしれない。 本研究では,熱力学のゼロ法則に触発された操作課題を考慮した温度の概念を提案する。 具体的には、熱環境を冷却または加熱する量子システムの能力を定量化する2つの有効な温度を定義する。 このようにして、操作上有意義な温度の概念と任意の量子密度行列を関連付けることができる。 本稿では,本論文で論じられた概念との結びつきを確立するため,これらの有効温度の一般的な表現について述べる。 最後に、システムと熱環境の間の熱交換が量子参照フレームによって補助される、より洗練されたシナリオを考える。 これにより「コヒーレント量子触媒」の効果がもたらされ、コヒーレント触媒を用いることで系内の量子エネルギーコヒーレンスを活用できるようになり、現在ではより低温またはより高温になる。

Temperature is usually defined for physical systems at thermal equilibrium. Nevertheless one may wonder if it would be possible to attribute a meaningful notion of temperature to an arbitrary quantum state, beyond simply the thermal (Gibbs) state. In this work, we propose such a notion of temperature considering an operational task, inspired by the Zeroth Law of thermodynamics. Specifically, we define two effective temperatures for quantifying the ability of a quantum system to cool down or heat up a thermal environment. In this way we can associate an operationally meaningful notion of temperature to any quantum density matrix. We provide general expressions for these effective temperatures, for both single- and many-copy systems, establishing connections to concepts previously discussed in the literature. Finally, we consider a more sophisticated scenario where the heat exchange between the system and the thermal environment is assisted by a quantum reference frame. This leads to an effect of "coherent quantum catalysis", where the use of a coherent catalyst allows for exploiting quantum energetic coherences in the system, now leading to much colder or hotter effective temperatures.
翻訳日:2023-02-15 03:39:32 公開日:2023-01-31
# 時間反転破壊材料におけるホール効果の非線形電磁応答

Nonlinear electromagnetic response for Hall effect in time-reversal breaking materials ( http://arxiv.org/abs/2302.02819v1 )

ライセンス: Link先を確認
Anwei Zhang and Jun-Won Rhim(参考訳) 時間反転対称性を損なう物質はホール応答を持つことが知られている。 ここでは、電界における線形または非線形の従来の電流に加えて、平面内および垂直磁場に対する2次応答における時間反転破壊材料に別のホール電流が発生することを示す。 このようなホール応答は電磁場の振動によって生成され、ベリー曲率とバンド速度に付随する新しい双極子から生じる量子起源を持つ。 このホール効果を検出するために,LaAlO3/LaNiO3/LaAlO3量子井戸の大規模ディラックモデルを用いることが実証された。 本研究は,新しい非線形電磁応答の提案により,時間反転破断材料におけるホール効果の理論を広げるものである。

It is known that materials with broken time-reversal symmetry can have Hall responses. Here we show that in addition to the conventional currents, either linear or nonlinear in the electric field, another Hall current can occur in the time-reversal breaking materials within the second-order response to in-plane electric and vertical magnetic fields. Such a Hall response is generated by the oscillation of the electromagnetic field and has a quantum origin arising from a novel dipole associated with the Berry curvature and band velocity. We demonstrate that the massive Dirac model of LaAlO3/LaNiO3/LaAlO3 quantum well can be used to detect this Hall effect. Our work widens the theory of the Hall effect in the time-reversal breaking materials by proposing a new kind of nonlinear electromagnetic response.
翻訳日:2023-02-12 13:14:49 公開日:2023-01-31
# 学習に基づく静的マルウェア検出器のロバスト性

Certified Robustness of Learning-based Static Malware Detectors ( http://arxiv.org/abs/2302.01757v1 )

ライセンス: Link先を確認
Zhuoqun Huang, Neil G. Marchant, Keane Lucas, Lujo Bauer, Olga Ohrimenko and Benjamin I. P. Rubinstein(参考訳) 認証された防御は、敵の摂動に対するMLモデルの堅牢性を厳格に保証することを目的とした、敵の機械学習(ML)の最近の発展である。 多くの研究機関がコンピュータビジョンにおける防御を認定し、難解な脅威モデルとして$\ell_p$のノルムバウンド回避攻撃が採用されている。 しかし、この脅威モデルには視覚上の既知の制限があり、例えば入力が離散的である場合や複雑な制約を受ける場合など、他の領域には適用できない。 このギャップに動機づけられ、mlベースのシステムに対する攻撃が現実および現在の脅威となる領域であるマルウェア検出の認定防御について研究した。 バイトレベルのデータを扱う静的マルウェア検出システムについて検討する。 認証された防御は,(1) 標準的なガウス型ランダム化スキームを,実行ファイルのバイトやチャンクで動作する新しい削除型ランダム化スキームに置き換える,(2) 汎用的な編集距離で回避攻撃に対するロバスト性を測定する証明書を導出する,という,ランダム化平滑化のアプローチに基づいている。 高い精度を維持しながら達成可能なロバスト性証明書のサイズを評価するため,一般的な畳み込みマルウェア検出モデルであるMalConvを用いてマルウェアデータセットの実験を行った。 入力の91%を正確に分類でき、編集距離128バイト以下の敵の摂動に対して確実に堅牢である。 比較として、最大128バイトの置換(挿入や削除なし)の既存の認証は、78%の精度を達成している。 また、ロバスト性証明書が保守的であることを考慮し、最近公表されたいくつかの回避攻撃に対する実用的なロバスト性を評価し、場合によっては認定保証を超えるロバスト性を見出す。

Certified defenses are a recent development in adversarial machine learning (ML), which aim to rigorously guarantee the robustness of ML models to adversarial perturbations. A large body of work studies certified defenses in computer vision, where $\ell_p$ norm-bounded evasion attacks are adopted as a tractable threat model. However, this threat model has known limitations in vision, and is not applicable to other domains -- e.g., where inputs may be discrete or subject to complex constraints. Motivated by this gap, we study certified defenses for malware detection, a domain where attacks against ML-based systems are a real and current threat. We consider static malware detection systems that operate on byte-level data. Our certified defense is based on the approach of randomized smoothing which we adapt by: (1) replacing the standard Gaussian randomization scheme with a novel deletion randomization scheme that operates on bytes or chunks of an executable; and (2) deriving a certificate that measures robustness to evasion attacks in terms of generalized edit distance. To assess the size of robustness certificates that are achievable while maintaining high accuracy, we conduct experiments on malware datasets using a popular convolutional malware detection model, MalConv. We are able to accurately classify 91% of the inputs while being certifiably robust to any adversarial perturbations of edit distance 128 bytes or less. By comparison, an existing certification of up to 128 bytes of substitutions (without insertions or deletions) achieves an accuracy of 78%. In addition, given that robustness certificates are conservative, we evaluate practical robustness to several recently published evasion attacks and, in some cases, find robustness beyond certified guarantees.
翻訳日:2023-02-12 13:13:30 公開日:2023-01-31
# 最適化量子ビットルーティングによる量子計算の改善

Improving Quantum Computation by Optimized Qubit Routing ( http://arxiv.org/abs/2206.01294v3 )

ライセンス: Link先を確認
Friedrich Wagner, Andreas B\"armann, Frauke Liers, Markus Weissenb\"ack(参考訳) 本研究では,スワップ挿入による量子ビットルーティングのための高品質な分解手法を提案する。 この最適化問題は、特定の量子ハードウェアに量子アルゴリズムをコンパイルする文脈で発生する。 このアプローチでは、ルーティング問題をアロケーションサブプロブレムとトークン交換問題のセットに分解する。 これにより、アロケーション部とトークンスワッピング部を別々に扱うことができます。 nannicini et al. (arxiv:2106.06446) の qubit ルーティングモデルから割り当て部分を抽出することで、割り当てサブプロブレムをバイナリプログラムとして定式化する。 そこで,本研究では,全体の経路問題目標の上限を低くしたコスト関数を採用する。 我々は新しい有効不等式によって線形緩和を強化する。 トークンスワッピング部では、正確に分岐とバウンドのアルゴリズムを開発する。 この文脈では、トークンスワップ問題における既知の下位境界を改善する。 さらに,既存の近似アルゴリズムを改良する。 本稿では,統合割当問題とトークン交換問題に対する数値計算結果を示す。 近似アルゴリズムの分解と利用により、達成された解は地球規模で最適ではないかもしれない。 しかし、解は高速に得られ、典型的には最適に近い。 さらに、最先端のヒューリスティックと比較すると、ゲート数と出力回路の深さが大幅に減少する。 これらの数値を減らすことは、近い将来のハードウェア上で量子アルゴリズムを実行するときノイズを最小化するのに不可欠である。 その結果、新しい分解アプローチを用いることで、品質が向上したコンパイルアルゴリズムが実現される。 実際、新しいルーティング手順でコンパイルして実際のハードウェアで実行すると、量子近似最適化アルゴリズムの実験結果は、標準的なルーティング手法と比較して、ソリューションの品質が著しく向上することを示している。

In this work we propose a high-quality decomposition approach for qubit routing by swap insertion. This optimization problem arises in the context of compiling quantum algorithms onto specific quantum hardware. Our approach decomposes the routing problem into an allocation subproblem and a set of token swapping problems. This allows us to tackle the allocation part and the token swapping part separately. Extracting the allocation part from the qubit routing model of Nannicini et al. (arXiv:2106.06446), we formulate the allocation subproblem as a binary program. Herein, we employ a cost function that is a lower bound on the overall routing problem objective. We strengthen the linear relaxation by novel valid inequalities. For the token swapping part we develop an exact branch-and-bound algorithm. In this context, we improve upon known lower bounds on the token swapping problem. Furthermore, we enhance an existing approximation algorithm. We present numerical results for the integrated allocation and token swapping problem. Obtained solutions may not be globally optimal due to the decomposition and the usage of an approximation algorithm. However, the solutions are obtained fast and are typically close to optimal. In addition, there is a significant reduction in the number of gates and output circuit depth when compared to state-of-the-art heuristics. Reducing these figures is crucial for minimizing noise when running quantum algorithms on near-term hardware. As a consequence, using the novel decomposition approach leads to compiled algorithms with improved quality. Indeed, when compiled with the novel routing procedure and executed on real hardware, our experimental results for quantum approximate optimization algorithms show an significant increase in solution quality in comparison to standard routing methods.
翻訳日:2023-02-10 22:38:53 公開日:2023-01-31
# 連続測定による自由フェルミオン気体のケルディッシュ非線形シグマモデル

Keldysh Nonlinear Sigma Model for a Free-Fermion Gas under Continuous Measurements ( http://arxiv.org/abs/2207.03376v3 )

ライセンス: Link先を確認
Qinghong Yang, Yi Zuo, Dong E. Liu(参考訳) 連続射影測定対象の$d$次元自由フェルミオンガスの量子力学を解析的に解析する。 リンドブラッドマスター方程式を関数的ケルディシュ場理論にマッピングすることにより、時間局所ケディシュ非線形シグマモデルと呼ばれる実効理論を開発し、モニタリングされたシステムの物理を解析的に記述することができる。 我々の有効理論は、乱れたフェルミオン系を記述するために使われる理論に似ている。 有効理論の応用として, 弾性散乱時間を逆測定強度に置き換えた輸送特性について検討し, ドリュー形状の導電率を求める。 これらの類似性により、これらの2つの異なる概念、すなわち射影測定と障害は同じ枠組みで統一される。

We analytically analyze the quantum dynamics of a $d$-dimension free-fermion gas subject to continuous projective measurements. By mapping the Lindblad master equation to the functional Keldysh field theory, we develop an effective theory termed as the time-local Keldysh nonlinear sigma model, which enables us to analytically describe the physics of the monitored system. Our effective theory resembles to that used to describe the disordered fermionic systems. As an application of the effective theory, we study the transport property and obtain a Drude-form conductivity where the elastic scattering time is replaced by the inverse measurement strength. According to these similarities, these two different concepts, i.e., projective measurements and disorders, are unified in the same framework.
翻訳日:2023-02-06 07:11:06 公開日:2023-01-31
# 任意の自律量子系に対する熱力学則の拡張

Extending the laws of thermodynamics for arbitrary autonomous quantum systems ( http://arxiv.org/abs/2207.04850v4 )

ライセンス: Link先を確認
Cyril Elouard and Camille Lombard Latune(参考訳) 元々はマクロマシン向けに定式化されたが、熱力学の法則は、理想的な仕事の源(外部古典場)と熱(平衡系)に結合した量子系を保つことが最近示されている。 熱力学の法則の妥当性をより現実的で理想的でないエネルギー源にまで拡張することに注力している。 ここで、これらの拡張を超えて、任意の量子系間のエネルギー交換が熱力学の法則によって構成されていることを示す。 まず第2法則を一般化し、関連する仕事と熱交換を同定する。 理想的な仕事と熱源から既知の結果を回収した後、ハイブリッド作業と熱源の結果を分析した。 熱と作業源の役割を基本量子システムで同時に行う熱力学タスクを実現する顕微鏡機械を用いて、我々の一般的な法則を説明する。 我々の結果は、あらゆるスケールで現実的な量子デバイスのエネルギー的性能を理解し最適化するための視点を開いている。

Originally formulated for macroscopic machines, the laws of thermodynamics were recently shown to hold for quantum systems coupled to ideal sources of work (external classical fields) and heat (systems at equilibrium). Ongoing efforts have been focusing on extending the validity of thermodynamic laws to more realistic, non-ideal energy sources. Here, we go beyond these extensions and show that energy exchanges between arbitrary quantum systems are structured by the laws of thermodynamics. We first generalize the second law and identify the associated work and heat exchanges. After recovering known results from ideal work and heat sources, we analyze some consequences of hybrid work and heat sources. We illustrate our general laws with microscopic machines realizing thermodynamic tasks in which the roles of heat and work sources are simultaneously played by elementary quantum systems. Our results open perspectives to understand and optimize the energetic performances of realistic quantum devices, at any scale.
翻訳日:2023-02-05 12:22:32 公開日:2023-01-31
# AIモデルGPT-3(dis)は私たちを人間より良く表現する

AI model GPT-3 (dis)informs us better than humans ( http://arxiv.org/abs/2301.11924v2 )

ライセンス: Link先を確認
Giovanni Spitale, Nikola Biller-Andorno, Federico Germani(参考訳) 人工知能(ai)は、情報の作成と評価の方法を変えています。 本稿では,不正確な情報を正確な情報と区別できるかどうかを評価し,ツイートがオーガニックか合成か,すなわち,twitterユーザによって書かれたのか,あるいはaiモデルgpt-3で書かれているのかを判断する。 以上の結果から,GPT-3は両刃の剣であり,人間と比較すると理解しやすいが,より説得力のある偽情報を生成できることがわかった。 また、GPT-3で生成されたツイートと人間のツイートを区別できないことを示す。 結果から,不正情報に対するaiの危険性と,グローバルヘルスに利益をもたらすための情報キャンペーンの改善方法について考察する。

Artificial intelligence is changing the way we create and evaluate information, and this is happening during an infodemic, which has been having dramatic effects on global health. In this paper we evaluate whether recruited individuals can distinguish disinformation from accurate information, structured in the form of tweets, and determine whether a tweet is organic or synthetic, i.e., whether it has been written by a Twitter user or by the AI model GPT-3. Our results show that GPT-3 is a double-edge sword, which, in comparison with humans, can produce accurate information that is easier to understand, but can also produce more compelling disinformation. We also show that humans cannot distinguish tweets generated by GPT-3 from tweets written by human users. Starting from our results, we reflect on the dangers of AI for disinformation, and on how we can improve information campaigns to benefit global health.
翻訳日:2023-02-05 04:27:12 公開日:2023-01-31
# 超伝導量子ビット用モジュラーチューナブルカプラ

Modular tunable coupler for superconducting qubits ( http://arxiv.org/abs/2207.06607v2 )

ライセンス: Link先を確認
Daniel L. Campbell, Archana Kamal, Leonardo Ranzani, Michael Senatore, and Matthew LaHaye(参考訳) モジュラーで多機能な量子インターコネクトハードウェアの開発は、量子情報プラットフォームをより大きなサイズと機能へと拡大する上で重要なステップである。 超伝導量子システムでは、2量子ビットゲート演算の実行、量子データバスのエンコードやデコード、あるいはモダリティの相互接続などにおいて、高速でよく制御されたチューナブル回路結合器が最重要視される。 本稿では,三接合形dcsquidにおける磁束制御干渉による可変結合を実現する,多用途で内部可変なダブルトランスモン結合器(dtc)アーキテクチャを提案する。 重要なことに、DTCは結合データキュービットまたは回路共振器とは独立に内部的に定義されたゼロカップリング状態を持つ。 これは、高忠実度2量子ゲート演算、量子ビットリードアウト、量子バス対向といったいくつかのアプリケーションにおいて、高速で堅牢な線形結合を実現するモジュラー設計要素として特に魅力的である。

The development of modular and versatile quantum interconnect hardware is a key next step in the scaling of quantum information platforms to larger size and greater functionality. For superconducting quantum systems, fast and well-controlled tunable circuit couplers will be paramount for achieving high fidelity and resource efficient connectivity, whether for performing two-qubit gate operations, encoding or decoding a quantum data bus, or interfacing across modalities. Here we propose a versatile and internally-tunable double-transmon coupler (DTC) architecture that implements tunable coupling via flux-controlled interference in a three-junction dcSQUID. Crucially, the DTC possesses an internally defined zero-coupling state that is independent of the coupled data qubits or circuit resonators. This makes it particular attractive as a modular and versatile design element for realizing fast and robust linear coupling in several applications such as high-fidelity two-qubit gate operations, qubit readout, and quantum bus interfacing.
翻訳日:2023-02-05 01:37:45 公開日:2023-01-31
# 発展途上国を支える電子健康記録システムの再設計

Redesigning Electronic Health Record Systems to Support Developing Countries ( http://arxiv.org/abs/2302.01281v1 )

ライセンス: Link先を確認
Jean Marie Tshimula, D'Jeff K. Nkashama, Kalonji Kalala, Maximilien V. Dialufuma, Mbuyi Mukendi Didier, Hugues Kanda, Jean Tshibangu Muabila, Christian N. Mayemba(参考訳) 電子健康記録(ehr)は、医療エコシステムにおいて必須のツールとなり、患者の健康関連情報を患者に提供し、治療を改善する。 ほとんどの先進国は医療システムを改善するために EHR を活用しているが、コンピュータ化された患者医療情報システムを用いて臨床意思決定と公衆衛生を支援することは、発展途上国では依然として困難である。 本稿では,発展途上国に適した新しいEHRアーキテクチャを提案する。包摂性を高め,すべての社会階級や社会経済的地位に適したソリューションを提供するアーキテクチャである。 当社のアーキテクチャは,医療機関間の医療取引を許可するインターネットフリー(オフライン)ソリューションと,地理的に保護されていない地域や農村部におけるEHRの保管を前提としています。 さらに、人工知能が匿名の健康関連情報を活用して公衆衛生政策や監視を改善する方法について論じる。

Electronic Health Record (EHR) has become an essential tool in the healthcare ecosystem, providing authorized clinicians with patients' health-related information for better treatment. While most developed countries are taking advantage of EHRs to improve their healthcare system, it remains challenging in developing countries to support clinical decision-making and public health using a computerized patient healthcare information system. This paper proposes a novel EHR architecture suitable for developing countries--an architecture that fosters inclusion and provides solutions tailored to all social classes and socioeconomic statuses. Our architecture foresees an internet-free (offline) solution to allow medical transactions between healthcare organizations, and the storage of EHRs in geographically underserved and rural areas. Moreover, we discuss how artificial intelligence can leverage anonymous health-related information to enable better public health policy and surveillance.
翻訳日:2023-02-03 12:58:27 公開日:2023-01-31
# 高次元進化PDEのためのパラメトリック解のニューラル制御

Neural Control of Parametric Solutions for High-dimensional Evolution PDEs ( http://arxiv.org/abs/2302.00045v1 )

ライセンス: Link先を確認
Nathan Gaby and Xiaojing Ye and Haomin Zhou(参考訳) 進化偏微分方程式(PDE)の解演算子を近似する新しい計算フレームワークを開発した。 ディープニューラルネットワークなどの一般的な非線形還元次モデルを用いて与えられたpdeの解を近似することにより,モデルパラメータの進化がパラメータ空間における制御問題であることを示す。 そこで本研究では,パラメータ空間の制御ベクトル場を学習することにより,PDEの解演算子を近似する手法を提案する。 任意の初期値から、この制御フィールドはパラメータを操り、対応する縮小順序モデルがPDEを解くような軌道を生成することができる。 これにより計算コストを大幅に削減し、任意の初期条件で進化PDEを解くことができる。 半線形放物型PDEの多種多様なクラスを解く際に,提案手法の総合的誤差解析も行う。 様々な初期条件の異なる高次元進化PDEに関する数値実験により,提案手法の有望な結果が示された。

We develop a novel computational framework to approximate solution operators of evolution partial differential equations (PDEs). By employing a general nonlinear reduced-order model, such as a deep neural network, to approximate the solution of a given PDE, we realize that the evolution of the model parameter is a control problem in the parameter space. Based on this observation, we propose to approximate the solution operator of the PDE by learning the control vector field in the parameter space. From any initial value, this control field can steer the parameter to generate a trajectory such that the corresponding reduced-order model solves the PDE. This allows for substantially reduced computational cost to solve the evolution PDE with arbitrary initial conditions. We also develop comprehensive error analysis for the proposed method when solving a large class of semilinear parabolic PDEs. Numerical experiments on different high-dimensional evolution PDEs with various initial conditions demonstrate the promising results of the proposed method.
翻訳日:2023-02-02 18:38:45 公開日:2023-01-31
# 確率近似保証を用いた微分原始階層クラスタリング

Differentially-Private Hierarchical Clustering with Provable Approximation Guarantees ( http://arxiv.org/abs/2302.00037v1 )

ライセンス: Link先を確認
Jacob Imola, Alessandro Epasto, Mohammad Mahdian, Vincent Cohen-Addad, Vahab Mirrokni(参考訳) 階層的クラスタリング(Hierarchical Clustering)は、数十年の歴史と多数のアプリケーションを持つ、一般的な教師なし機械学習手法である。 我々は(dasgupta, 2016) によって導入された厳密な枠組みの下で階層的クラスタリングのための微分プライベート近似アルゴリズムの研究を開始する。 任意の$\epsilon$-DPアルゴリズムは入力データセットの$V$に対して$O(|V|^2/ \epsilon)$-additiveエラーを示さなければならない。 次に,$O(|V|^{2.5}/ \epsilon)$-additiveエラーを用いた多項式時間近似アルゴリズムと,下界を満たす指数時間アルゴリズムを示す。 下限を克服するために、グラフの一般的なモデルである確率的ブロックモデルに焦点をあて、ブロックを分離仮定して、ブロックを正確に復元するプライベートな1+o(1)$近似アルゴリズムを提案する。 最後に,アルゴリズムの実証的研究を行い,その性能を検証した。

Hierarchical Clustering is a popular unsupervised machine learning method with decades of history and numerous applications. We initiate the study of differentially private approximation algorithms for hierarchical clustering under the rigorous framework introduced by (Dasgupta, 2016). We show strong lower bounds for the problem: that any $\epsilon$-DP algorithm must exhibit $O(|V|^2/ \epsilon)$-additive error for an input dataset $V$. Then, we exhibit a polynomial-time approximation algorithm with $O(|V|^{2.5}/ \epsilon)$-additive error, and an exponential-time algorithm that meets the lower bound. To overcome the lower bound, we focus on the stochastic block model, a popular model of graphs, and, with a separation assumption on the blocks, propose a private $1+o(1)$ approximation algorithm which also recovers the blocks exactly. Finally, we perform an empirical study of our algorithms and validate their performance.
翻訳日:2023-02-02 18:38:30 公開日:2023-01-31
# Blackwell Discount Factorによる非カウントMDPのブラックウェルと平均最適性低減

Reducing Blackwell and Average Optimality to Discounted MDPs via the Blackwell Discount Factor ( http://arxiv.org/abs/2302.00036v1 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement and Marek Petrik(参考訳) 我々は,マルコフ決定過程(mdps)のブラックウェル値引き係数を導入する。 MDPの古典的な目標は、割引、平均、ブラックウェルの最適性である。 平均最適ポリシーを計算するための既存の多くのアプローチは、割引係数が1ドルに近い割引された最適ポリシーを解決しているが、エルゴディディティや弱いコミュニケーションのMDPのような強いあるいは検証の難しい仮定の下でのみ機能する。 本稿では、割引係数がブラックウェル割引係数$\gamma_{\mathrm{bw}}$より大きい場合、すべての割引された最適ポリシーがブラックウェル最適かつ平均最適となり、$\gamma_{\mathrm{bw}}$の一般上限が導出されることを示す。 上の$\gamma_{\mathrm{bw}}$の上限は、平均とブラックウェル最適性から割引された最適性への最初の還元と、平均とブラックウェル最適性に対する新しい多項式時間アルゴリズムを提供する。 我々の研究は、多項式と代数数の研究からMDPの分析に新しいアイデアをもたらす。 我々の結果はロバストなmdpにも適用でき、最初のアルゴリズムでロバストなブラックウェル最適ポリシーを計算できる。

We introduce the Blackwell discount factor for Markov Decision Processes (MDPs). Classical objectives for MDPs include discounted, average, and Blackwell optimality. Many existing approaches to computing average-optimal policies solve for discounted optimal policies with a discount factor close to $1$, but they only work under strong or hard-to-verify assumptions such as ergodicity or weakly communicating MDPs. In this paper, we show that when the discount factor is larger than the Blackwell discount factor $\gamma_{\mathrm{bw}}$, all discounted optimal policies become Blackwell- and average-optimal, and we derive a general upper bound on $\gamma_{\mathrm{bw}}$. The upper bound on $\gamma_{\mathrm{bw}}$ provides the first reduction from average and Blackwell optimality to discounted optimality, without any assumptions, and new polynomial-time algorithms for average- and Blackwell-optimal policies. Our work brings new ideas from the study of polynomials and algebraic numbers to the analysis of MDPs. Our results also apply to robust MDPs, enabling the first algorithms to compute robust Blackwell-optimal policies.
翻訳日:2023-02-02 18:38:13 公開日:2023-01-31
# ニューロメカニカルオートエンコーダ: 弾性とニューラルネットワークの非線形性を結合する学習

Neuromechanical Autoencoders: Learning to Couple Elastic and Neural Network Nonlinearity ( http://arxiv.org/abs/2302.00032v1 )

ライセンス: Link先を確認
Deniz Oktay, Mehran Mirramezani, Eder Medina, Ryan P. Adams(参考訳) インテリジェントな生物学的システムは、複雑な環境での実施と、神経系と身体の非線形力学特性との親密な相互作用によって特徴づけられる。 この調整は、運動系の力学が脳の計算負担を軽減するために共進化したものであり、「機械的知能」あるいは「形態的計算」と呼ばれる。 本研究では,複雑な非線形弾性体の形態と,それを制御するための深層ニューラルネットワークを共同で学習する,このプロセスの機械学習アナログの開発を目指す。 ニューロメカニカルオートエンコーダと呼ばれる従来のディープラーニングアーキテクチャに結合した、弾性力学の特殊微分可能なシミュレータを使用することで、勾配降下による形態計算を学習することができる。 我々のアプローチの鍵は、形態学的基質として機械的メタマテリアル(特に細胞性固体)を使用することである。 ディープニューラルネットワークが知覚と制御タスクに柔軟で超パラメトリックな関数近似子を提供するのと同じように、セル固体メタマテリアルは様々なアクティベーションタスクを近似するためのリッチで学習可能な空間として期待されている。 この研究では、これらの補完的な計算概念を利用して、材料とニューラルネットワーク制御を共同設計し、非直観的な機械的挙動を達成する。 我々は,「デジタルMNIST」タスクと同様に,翻訳,回転,形状マッチングを実現することができるかをシミュレーションで示す。 また,実世界の行動を検証する設計の一つを製作し,評価する。

Intelligent biological systems are characterized by their embodiment in a complex environment and the intimate interplay between their nervous systems and the nonlinear mechanical properties of their bodies. This coordination, in which the dynamics of the motor system co-evolved to reduce the computational burden on the brain, is referred to as ``mechanical intelligence'' or ``morphological computation''. In this work, we seek to develop machine learning analogs of this process, in which we jointly learn the morphology of complex nonlinear elastic solids along with a deep neural network to control it. By using a specialized differentiable simulator of elastic mechanics coupled to conventional deep learning architectures -- which we refer to as neuromechanical autoencoders -- we are able to learn to perform morphological computation via gradient descent. Key to our approach is the use of mechanical metamaterials -- cellular solids, in particular -- as the morphological substrate. Just as deep neural networks provide flexible and massively-parametric function approximators for perceptual and control tasks, cellular solid metamaterials are promising as a rich and learnable space for approximating a variety of actuation tasks. In this work we take advantage of these complementary computational concepts to co-design materials and neural network controls to achieve nonintuitive mechanical behavior. We demonstrate in simulation how it is possible to achieve translation, rotation, and shape matching, as well as a ``digital MNIST'' task. We additionally manufacture and evaluate one of the designs to verify its real-world behavior.
翻訳日:2023-02-02 18:37:50 公開日:2023-01-31
# 準粒子の相関誘発感度と非エルミート皮膚効果

Correlation-Induced Sensitivity and Non-Hermitian Skin Effect of Quasiparticles ( http://arxiv.org/abs/2302.00019v1 )

ライセンス: Link先を確認
Tommaso Micallo, Carl Lehmann, Jan Carl Budich(参考訳) 非エルミタン(NH)ハミルトニアンは、NH皮膚効果や境界条件に対する指数スペクトル感度など、ユニークな特徴を示すことが示されている。 本研究では,最近広く予測され観測されたこれらの驚くべき現象が,エルミート多体ハミルトニアンによって制御される閉相関フェルミオン系においてもどの程度発生するかを検討する。 ここで、効果的に nh 準粒子記述は、自然にグリーン関数形式において、散逸の固有源を表す粒子間散乱によって生じる。 具体的なプラットフォームとして, 境界条件の異なる拡張相互作用を持つSu-Schrieffer-Heeger (SSH) モデルを構築し, 正確な対角化と非平衡グリーン関数法を用いて解析する。 このようにして、このエルミート模型系の準粒子特性における前述のNH現象の存在を明らかにした。

Non-Hermitian (NH) Hamiltonians have been shown to exhibit unique signatures, including the NH skin effect and an exponential spectral sensitivity with respect to boundary conditions. Here, we investigate as to what extent these remarkable phenomena, recently predicted and observed in a broad range of settings, may also occur in closed correlated fermionic systems that are governed by a Hermitian many-body Hamiltonian. There, an effectively NH quasiparticle description naturally arises in the Green's function formalism due to inter-particle scattering that represents an inherent source of dissipation. As a concrete platform we construct an extended interacting Su-Schrieffer-Heeger (SSH) model subject to varying boundary conditions, which we analyze using exact diagonalization and non-equilibrium Green's function methods. That way, we clearly identify the presence of the aforementioned NH phenomena in the quasi-particle properties of this Hermitian model system.
翻訳日:2023-02-02 18:37:26 公開日:2023-01-31
# 非遺伝性は局在を誘導する:パワーローランダムバンド行列における善悪共振

Non-Hermiticity induces localization: good and bad resonances in power-law random banded matrices ( http://arxiv.org/abs/2302.00015v1 )

ライセンス: Link先を確認
Giuseppe De Tomasi and Ivan M. Khaymovich(参考訳) power-law random banded matrix (plrbm) はアンダーソン局在遷移 (at) を研究するためのパラダイムアンサンブルである。 $d$-次元において、PLRBM は非対角元 $H_{\vec{n}\vec{m}}\sim 1/|\vec{n}-\vec{m}|^\alpha$ で、AT が $\alpha=d$ であるようなランダム行列である。 本研究では, PLRBM の非ハーモニティ性に対する運命について検討する。 ランダムなオンサイト対角ポテンシャルが、ランダムなゲインロス条件の下で、オープンなシステムを模倣して複雑な値を取る場合を考える。 アンダーソン・レヴィトフ共鳴計数法を非エルミート系に一般化し,モデルの解析的理解を提供する。 この一般化は、非ハーモニティ性による競合する2つのメカニズムを識別する。 両者の競争は少なくとも$d/2\le \alpha\le d$となる。 臨界$\alpha$の値は、d>2$のエルミート乱れ短距離模型を思い起こさせるオンサイトポテンシャルの強さに依存する。 局所化位相内では、波動関数は、$\alpha<d$でも指数$\alpha$で代数的に局所化される。 この結果は非ハーミティティー誘発局在の例である。

The power-law random banded matrix (PLRBM) is a paradigmatic ensemble to study the Anderson localization transition (AT). In $d$-dimension the PLRBM are random matrices with algebraic decaying off-diagonal elements $H_{\vec{n}\vec{m}}\sim 1/|\vec{n}-\vec{m}|^\alpha$, having AT at $\alpha=d$. In this work, we investigate the fate of the PLRBM to non-Hermiticity. We consider the case where the random on-site diagonal potential takes complex values, mimicking an open system, subject to random gain-loss terms. We provide an analytical understanding of the model by generalizing the Anderson-Levitov resonance counting technique to the non-Hermitian case. This generalization identifies two competing mechanisms due to non-Hermiticity: one favoring localization and the other delocalization. The competition between the two gives rise to AT at $d/2\le \alpha\le d$. The value of the critical $\alpha$ depends on the strength of the on-site potential, reminiscent of Hermitian disordered short-range models in $d>2$. Within the localized phase, the wave functions are algebraically localized with an exponent $\alpha$ even for $\alpha<d$. This result provides an example of non-Hermiticity-induced localization.
翻訳日:2023-02-02 18:37:11 公開日:2023-01-31
# ダイヤモンド中の単一NV中心の温度依存性光物理

Temperature Dependent Photophysics of Single NV Centers in Diamond ( http://arxiv.org/abs/2302.00011v1 )

ライセンス: Link先を確認
Jodok Happacher, Juanita Bocque, Hossein T. Dinani, M\"arta A. Tschudin, Patrick Reiser, David A. Broadway, Jeronimo R. Maze, and Patrick Maletinsky(参考訳) ダイヤモンド中の個々のNV中心の温度および磁場依存性光発光(PL)について,低温から環境条件までの温度範囲を網羅的に検討した。 我々は,NVの室温有効励起状態構造の出現を直接観察し,NVのPLの温度依存性にひずみが与える強い影響を含むすべての知見を定量的に説明するモデルを構築した。 これらの結果は、NV励起状態における軌道平均化の理解を完了し、NV中心の基本的な理解とその量子センシングへの応用に重要な意味を持つ。

We present a comprehensive study of the temperature and magnetic-field dependent photoluminescence (PL) of individual NV centers in diamond, spanning the temperature-range from cryogenic to ambient conditions. We directly observe the emergence of the NV's room-temperature effective excited state structure and provide a clear explanation for a previously poorly understood broad quenching of NV PL at intermediate temperatures around 50 K. We develop a model that quantitatively explains all of our findings, including the strong impact that strain has on the temperaturedependence of the NV's PL. These results complete our understanding of orbital averaging in the NV excited state and have significant implications for the fundamental understanding of the NV center and its applications in quantum sensing.
翻訳日:2023-02-02 18:36:45 公開日:2023-01-31
# エンドツーエンドのレイテンシ予測のための低複雑性アプローチ

Low Complexity Approaches for End-to-End Latency Prediction ( http://arxiv.org/abs/2302.00004v1 )

ライセンス: Link先を確認
Pierre Larrenie (LIGM), Jean-Fran\c{c}ois Bercher (LIGM), Olivier Venard (ESYCOM), Iyad Lahsen-Cherif (INPT)(参考訳) Software Defined Networksは、ネットワークの効率を改善するための統計的およびAIベースの技術への扉を開いた。 特に、ネットワークの効率的なリソース利用に必要なパケット(VoIP、ビデオ、ファイルなど)と、そのニーズ(レイテンシ、帯域幅など)を意識してルーティングすることで、特定のアプリケーションに対する特定のQuality of Service(QoS)を確保する。 任意のレベルでキーパフォーマンス指標(KPI)を予測することは、ネットワーク帯域幅を保ちながらそのような問題に対処することができる。 この研究で解決された問題は、ローカルレベルで実装可能なKPI予測のための効率的で低コストなアルゴリズムの設計である。 我々は、エンドツーエンドのレイテンシ予測に焦点を当て、GNNにおける最近の国際課題から得られた公開データセットにアプローチと結果を説明する。 提案手法は,最先端のグローバルGNNソリューションと比較して,比較的低い精度で予測精度を保ちながら,トレーニングと推論の両面において,壁面時間を大幅に短縮する。

Software Defined Networks have opened the door to statistical and AI-based techniques to improve efficiency of networking. Especially to ensure a certain Quality of Service (QoS) for specific applications by routing packets with awareness on content nature (VoIP, video, files, etc.) and its needs (latency, bandwidth, etc.) to use efficiently resources of a network. Predicting various Key Performance Indicators (KPIs) at any level may handle such problems while preserving network bandwidth. The question addressed in this work is the design of efficient and low-cost algorithms for KPI prediction, implementable at the local level. We focus on end-to-end latency prediction, for which we illustrate our approaches and results on a public dataset from the recent international challenge on GNN [1]. We propose several low complexity, locally implementable approaches, achieving significantly lower wall time both for training and inference, with marginally worse prediction accuracy compared to state-of-the-art global GNN solutions.
翻訳日:2023-02-02 18:36:33 公開日:2023-01-31
# 機械読解モデルのロバスト性に及ぼす解答不能質問の影響

The Impacts of Unanswerable Questions on the Robustness of Machine Reading Comprehension Models ( http://arxiv.org/abs/2302.00094v1 )

ライセンス: Link先を確認
Son Quoc Tran, Phong Nguyen-Thuan Do, Uyen Le, Matt Kretchmar(参考訳) 事前訓練された言語モデルは、多くのMachine Reading Comprehension (MRC)ベンチマークで超人的な性能を達成した。 それでも、敵の攻撃に対して相対的に防御できないことで、彼らの自然言語理解に対する懐疑論が引き起こされた。 本稿では,SQuAD 2.0における疑わしい質問に対するトレーニングが,敵攻撃に対するMRCモデルの堅牢性向上に役立つかどうかを問う。 そこで我々は,SQuAD 1.1 または SQuAD 2.0 の3つの最先端言語モデルを微調整し,その堅牢性を評価する。 実験の結果,SQuAD 2.0で微調整された現在のモデルでは,SQuAD 1.1で微調整されたモデルに比べて,当初はそれ以上頑健ではないことがわかった。 さらに、SQuAD 2.0で微調整されたモデルの堅牢性は、追加のドメイン外のデータセットにまで拡張されている。 最後に、現在のMRCモデルが学習しているSQuAD 2.0のアーティファクトを明らかにするために、新たな敵攻撃を導入する。

Pretrained language models have achieved super-human performances on many Machine Reading Comprehension (MRC) benchmarks. Nevertheless, their relative inability to defend against adversarial attacks has spurred skepticism about their natural language understanding. In this paper, we ask whether training with unanswerable questions in SQuAD 2.0 can help improve the robustness of MRC models against adversarial attacks. To explore that question, we fine-tune three state-of-the-art language models on either SQuAD 1.1 or SQuAD 2.0 and then evaluate their robustness under adversarial attacks. Our experiments reveal that current models fine-tuned on SQuAD 2.0 do not initially appear to be any more robust than ones fine-tuned on SQuAD 1.1, yet they reveal a measure of hidden robustness that can be leveraged to realize actual performance gains. Furthermore, we find that the robustness of models fine-tuned on SQuAD 2.0 extends to additional out-of-domain datasets. Finally, we introduce a new adversarial attack to reveal artifacts of SQuAD 2.0 that current MRC models are learning.
翻訳日:2023-02-02 18:29:23 公開日:2023-01-31
# どうしてそんなことができるのか?

How can it be like that? ( http://arxiv.org/abs/2302.00084v1 )

ライセンス: Link先を確認
Jeffrey Bub(参考訳) リチャード・ファインマン(richard feynman)は、量子力学を誰も理解せず、「でも、そんなふうにできるのか? 理論の根底にある概念は、非常に困惑していますが、そんなに邪魔なことは簡単には特定できません。 オリバル・フライア(the quantum dissidents)、アダム・ベッカー(what is real?)、フィリップ・ボール(philip ball)の3冊の本は、それがいかにしてそのようなものなのかを語るためのライバルの試みであり、フライアとベッカーの本の場合、対立するキャンプ間の敵意について、時にはプロのキャリアに壊滅的な結果をもたらした。 私は3つの本で提起された問題をレビューし、ボアが(アージ・ピーターセンの『ボア』に拠れば)量子力学のネオ・ボヘリアン的、非表現的解釈の線に沿って「量子世界は存在しない」という声明で何を意味しているのかを議論する。 (元来は「量子世界:古い質問と新しい答えを解釈する」というレビュー記事としてマイナーチェンジで発表された。)

Richard Feynman famously said that nobody understands quantum mechanics and cautioned against asking: "But how can it be like that?" Something about the conceptual foundations of the theory is profoundly puzzling, but just what is so disturbing is not easy to pin down. Three books by Olival Freire (The Quantum Dissidents), Adam Becker (What is Real?), and Philip Ball (Beyond Weird) are about rival attempts to say how it can be like that and, in the case of the Freire and Becker books, about the hostility between opposing camps, which sometimes had devastating consequences for the professional careers of the protagonists. I review the issues raised in the three books, and I discuss what Bohr could have meant by the statement (attributed to Bohr by Aage Petersen) that "there is no quantum world," along the lines of a neo-Bohrian, non-representational interpretation of quantum mechanics. (Originally published, with minor changes, as a review article "Interpreting the quantum world: old questions and new answers.")
翻訳日:2023-02-02 18:29:03 公開日:2023-01-31
# 文脈内検索型言語モデル

In-Context Retrieval-Augmented Language Models ( http://arxiv.org/abs/2302.00083v1 )

ライセンス: Link先を確認
Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) Retrieval-Augmented Language Modeling (RALM) 法では、生成中の接地コーパスから関連文書の言語モデル(LM)を条件として、自然言語の帰属機構を提供しながら言語モデリングを大幅に改善することが示されている。 既存のRALMアプローチでは、外部情報の取り込みを容易にするため、LMアーキテクチャの変更に重点を置いている。 本稿では, LMアーキテクチャをそのままにして, 基礎となる文書を入力に残すという, 未探索の代替案を提案する。 市販汎用レトリバーを用いたインコンテキストALMは,モデルサイズや多様なコーパスに対して驚くほど大きなLMゲインを提供する。 また,文書検索とランキング機構をralm設定に特化することで,さらなる性能向上が期待できることを示す。 In-context RALM は、特に、事前訓練された LM を変更せずに使用し、API アクセスを介して使用する必要がある設定において、LM の接地率を高める可能性があると結論付けている。 そのために、コードを公開しています。

Retrieval-Augmented Language Modeling (RALM) methods, that condition a language model (LM) on relevant documents from a grounding corpus during generation, have been shown to significantly improve language modeling while also providing a natural source attribution mechanism. Existing RALM approaches focus on modifying the LM architecture in order to facilitate the incorporation of external information, significantly complicating deployment. This paper proposes an under-explored alternative, which we dub In-Context RALM: leaving the LM architecture unchanged and prepending grounding documents to the input. We show that in-context RALM which uses off-the-shelf general purpose retrievers provides surprisingly large LM gains across model sizes and diverse corpora. We also demonstrate that the document retrieval and ranking mechanism can be specialized to the RALM setting to further boost performance. We conclude that in-context RALM has considerable potential to increase the prevalence of LM grounding, particularly in settings where a pretrained LM must be used without modification or even via API access. To that end, we make our code publicly available.
翻訳日:2023-02-02 18:28:37 公開日:2023-01-31
# ganravel: 生成型adversarial networkにおけるユーザ主導の方向ディスタングル

GANravel: User-Driven Direction Disentanglement in Generative Adversarial Networks ( http://arxiv.org/abs/2302.00079v1 )

ライセンス: Link先を確認
Noyan Evirgen, Xiang 'Anthony' Chen(参考訳) generative adversarial networks (gans) には、画像編集、ドメイン翻訳、データインプテーションの欠如、クリエイティブワークのサポートなど、多くのアプリケーション領域がある。 ただし、ガンは「ブラックボックス」と見なされる。 特に、エンドユーザは、絡み合いによって編集方向を改善する方法のコントロールがほとんどない。 以前の作業では、編集方向をアンタングルする新しいGANアーキテクチャに焦点を当てていた。 あるいは,既存のGANアーキテクチャを補完し,ユーザが反復的に編集方向を改善できる,ユーザ主導の方向転換ツールであるGANravelを提案する。 参加者16名を対象にした2つのユーザスタディにおいて, GANravel のユーザは方向を乱し, 最先端の方向発見ベースラインよりも高い性能を示した。 第2のユーザ調査では、ganravelは犬のミームを作成する創造的なタスクに使われ、高品質の編集画像やgifを作成することができた。

Generative adversarial networks (GANs) have many application areas including image editing, domain translation, missing data imputation, and support for creative work. However, GANs are considered 'black boxes'. Specifically, the end-users have little control over how to improve editing directions through disentanglement. Prior work focused on new GAN architectures to disentangle editing directions. Alternatively, we propose GANravel a user-driven direction disentanglement tool that complements the existing GAN architectures and allows users to improve editing directions iteratively. In two user studies with 16 participants each, GANravel users were able to disentangle directions and outperformed the state-of-the-art direction discovery baselines in disentanglement performance. In the second user study, GANravel was used in a creative task of creating dog memes and was able to create high-quality edited images and GIFs.
翻訳日:2023-02-02 18:28:17 公開日:2023-01-31
# 低温原子のための時間軌道型チップトラップ

A time-orbiting potential chip trap for cold atoms ( http://arxiv.org/abs/2302.00078v1 )

ライセンス: Link先を確認
C. A. Sackett and J. C. Stickney(参考訳) 本稿では、時間軌道ポテンシャル技術を用いた原子チップトラップの設計について述べる。 この設計は他のチップトラップ方式に比べていくつかの利点がある。 チップには単純なクロスワイヤパターンと回転バイアスフィールドが使われている。 トラップは自然に円筒対称であり、球対称にすることができる。 光磁気トラップからの負荷は、トラップをチップから任意の距離に配置できるため容易である。 磁場を変形させて重力に対する支持勾配を与えることができ、三次元トラップを2次元ガイドに変換することができる。

We present a design for an atom chip trap that uses the time-orbiting potential technique. The design offers several advantages compared to other chip-trap methods. It uses a simple crossed-wire pattern on the chip, along with a rotating bias field. The trap is naturally cylindrically symmetric and can be made spherically symmetric. Loading from a magneto-optical trap is facilitated because the trap can be positioned an arbitrary distance from the chip. The fields can be modified to provide a gradient for support against gravity, and the three-dimensional trap can be adiabatically transformed into a two-dimensional guide.
翻訳日:2023-02-02 18:28:00 公開日:2023-01-31
# 道路運転行動に対する時間観測に基づく因果発見手法の評価

Evaluating Temporal Observation-Based Causal Discovery Techniques Applied to Road Driver Behaviour ( http://arxiv.org/abs/2302.00064v1 )

ライセンス: Link先を確認
Rhys Howard, Lars Kunze(参考訳) 自律ロボットは、環境における動的エージェントの振る舞いを判断する必要がある。 この目的のために、エージェントの相互作用を記述する因果モデルには優先順位が与えられると多くのアプローチが仮定される。 しかし、多くのアプリケーション・ドメインではそのようなモデルは存在せず、設計もできない。 したがって、低レベルの時間観測から高レベルの因果構造の学習(あるいは発見)は、AIとロボット工学の重要な問題である。 しかし、自律エージェントを含むシナリオへの因果発見法の応用は研究の初期段階にある。 時系列データ上で因果発見を行う方法は数多く存在するが、これらは実世界の相互行為において保証できない十分性や定常性といった仮定に依存している。 本稿では,同時観測に基づく時間因果発見手法を実世界および複数データセットからの合成運転シナリオに適用する。 本評価では, 実データと合成データのパフォーマンスを比較し, 比較することで, 手法の限界を実証し, 強調する。 最後に,自律型ロボティクスシナリオの因果発見に関するオープンな課題について考察し,現状の限界を克服するための今後の研究方向を提案する。

Autonomous robots are required to reason about the behaviour of dynamic agents in their environment. To this end, many approaches assume that causal models describing the interactions of agents are given a priori. However, in many application domains such models do not exist or cannot be engineered. Hence, the learning (or discovery) of high-level causal structures from low-level, temporal observations is a key problem in AI and robotics. However, the application of causal discovery methods to scenarios involving autonomous agents remains in the early stages of research. While a number of methods exist for performing causal discovery on time series data, these usually rely upon assumptions such as sufficiency and stationarity which cannot be guaranteed in interagent behavioural interactions in the real world. In this paper we are applying contemporary observation-based temporal causal discovery techniques to real world and synthetic driving scenarios from multiple datasets. Our evaluation demonstrates and highlights the limitations of state of the art approaches by comparing and contrasting the performance between real and synthetically generated data. Finally, based on our analysis, we discuss open issues related to causal discovery on autonomous robotics scenarios and propose future research directions for overcoming current limitations in the field.
翻訳日:2023-02-02 18:27:52 公開日:2023-01-31
# ラベル付きデータによる曲面空間上の動的流れ

Dynamic Flows on Curved Space Generated by Labeled Data ( http://arxiv.org/abs/2302.00061v1 )

ライセンス: Link先を確認
Xinru Hua, Truyen Nguyen, Tam Le, Jose Blanchet, Viet Anh Nguyen(参考訳) ラベル付きデータの不足は多くの機械学習タスクにおいて長年の課題である。 我々は,既存のデータセット(すなわちソース)を活用して,興味のあるデータセット(すなわちターゲット)に近い新しいサンプルを生成する勾配流法を提案する。 特徴ガウス多様体上の確率分布の空間に両方のデータセットを持ち上げて、最大平均誤差損失を最小化する勾配流法を開発する。 曲線特徴ガウス空間上の分布の勾配流を実行するために、空間のリーマン構造を解き、最適輸送計量によって誘導される損失関数のリーマン勾配を明示的に計算する。 実用的応用のために, 離散化フローを提案し, 最適流のグローバル収束を保証する条件付き結果を提供する。 実世界の複数のデータセットに対して提案した勾配流法の結果を概説し,移動学習環境における分類モデルの精度を向上できることを示す。

The scarcity of labeled data is a long-standing challenge for many machine learning tasks. We propose our gradient flow method to leverage the existing dataset (i.e., source) to generate new samples that are close to the dataset of interest (i.e., target). We lift both datasets to the space of probability distributions on the feature-Gaussian manifold, and then develop a gradient flow method that minimizes the maximum mean discrepancy loss. To perform the gradient flow of distributions on the curved feature-Gaussian space, we unravel the Riemannian structure of the space and compute explicitly the Riemannian gradient of the loss function induced by the optimal transport metric. For practical applications, we also propose a discretized flow, and provide conditional results guaranteeing the global convergence of the flow to the optimum. We illustrate the results of our proposed gradient flow method on several real-world datasets and show our method can improve the accuracy of classification models in transfer learning settings.
翻訳日:2023-02-02 18:27:34 公開日:2023-01-31
# グラフに基づく時系列異常検出:調査

Graph-based Time-Series Anomaly Detection: A Survey ( http://arxiv.org/abs/2302.00058v1 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho, Ali Karami, Narges Armanfard(参考訳) 近年の技術の進歩により、広範囲のシステムが時間とともに大量のデータを収集し続け、時系列を生成するようになった。 時系列データの異常を検出することは、eコマース、サイバーセキュリティ、医療監視など、さまざまなアプリケーションにおいて重要なタスクである。 しかし、時間系列異常検出(TSAD)は時間依存と構造依存の両方を考慮する必要があるため、非常に難しい。 最近のグラフベースのアプローチは、この分野の課題に取り組む上で素晴らしい進歩を遂げています。 本稿では,グラフに基づく時系列異常検出(G-TSAD)の総合的かつ最新のレビューを行う。 まず,時系列データの異なる種類の異常を識別するグラフベース手法の有意な可能性について検討する。 次に,時系列の文脈における最先端グラフ異常検出手法の構造化と包括的レビューを行う。 最後に,本研究分野における技術的課題と今後の展望について考察する。

With the recent advances in technology, a wide range of systems continues to collect a large amount of data over time and thus generating time series. Detecting anomalies in time series data is an important task in various applications such as e-commerce, cybersecurity, and health care monitoring. However, Time-series Anomaly Detection (TSAD) is very challenging as it requires considering both the temporal dependency and the structural dependency. Recent graph-based approaches have made impressive progress in tackling the challenges of this field. In this survey, we conduct a comprehensive and up-to-date review of Graph-based Time-series Anomaly Detection (G-TSAD). First, we explore the significant potential of graph-based methods in identifying different types of anomalies in time series data. Then, we provide a structured and comprehensive review of the state-of-the-art graph anomaly detection techniques in the context of time series. Finally, we discuss the technical challenges and potential future directions for possible improvements in this research field.
翻訳日:2023-02-02 18:27:19 公開日:2023-01-31
# TransformersがDirected Graphsを発表

Transformers Meet Directed Graphs ( http://arxiv.org/abs/2302.00049v1 )

ライセンス: Link先を確認
Simon Geisler, Yujia Li, Daniel Mankowitz, Ali Taylan Cemgil, Stephan G\"unnemann, Cosmin Paduraru(参考訳) トランスフォーマーは当初、テキストのシーケンシャル・ツー・シーケンスモデルとして提案されたが、画像、オーディオ、ビデオ、無向グラフなど、幅広いモダリティにおいて不可欠となった。 しかし、有向グラフのトランスフォーマーは、ソースコードや論理回路を含むユビキタスなドメインに適用できるにもかかわらず、驚くほど未熟な話題である。 本研究では,(1)磁気ラプラシアンの固有ベクトル,(2)組合せラプラシアンの方向認識一般化,(2)方向ランダムウォークエンコーディングという,有向グラフに対する方向認識と構造認識の2つの位置符号化を提案する。 実験では,ソートネットワークの正当性テストやソースコード理解など,下流のさまざまなタスクにおいて,方向情報の追加が有効であることを示す。 データフロー中心のグラフ構築とともに、我々のモデルはOpen Graph Benchmark Code2における技術の先行状態を14.7%向上させる。

Transformers were originally proposed as a sequence-to-sequence model for text but have become vital for a wide range of modalities, including images, audio, video, and undirected graphs. However, transformers for directed graphs are a surprisingly underexplored topic, despite their applicability to ubiquitous domains including source code and logic circuits. In this work, we propose two direction- and structure-aware positional encodings for directed graphs: (1) the eigenvectors of the Magnetic Laplacian - a direction-aware generalization of the combinatorial Laplacian; (2) directional random walk encodings. Empirically, we show that the extra directionality information is useful in various downstream tasks, including correctness testing of sorting networks and source code understanding. Together with a data-flow-centric graph construction, our model outperforms the prior state of the art on the Open Graph Benchmark Code2 relatively by 14.7%.
翻訳日:2023-02-02 18:27:08 公開日:2023-01-31
# 自己組織型ガウス混合モデルによる確率点雲モデリング

Probabilistic Point Cloud Modeling via Self-Organizing Gaussian Mixture Models ( http://arxiv.org/abs/2302.00047v1 )

ライセンス: Link先を確認
Kshitij Goel, Nathan Michael, Wennie Tabib(参考訳) このレターは、有限ガウス混合モデル(gmms)を用いた空間的ポイントクラウドデータの連続的確率的モデリング手法を示し、そこではシーンの複雑さに基づいてコンポーネントの数を適応させる。 モデルの忠実度とサイズとのバランスを取るという課題に対処するために、階層的かつ適応的な方法が提案されている。 代わりに、最先端マッピングアプローチは特定のユースケースのチューニングパラメータを必要とするが、多様な環境にまたがる一般化はしない。 このギャップに対処するために,センサデータの関連情報に基づいて,情報理論学習からの自己組織化原理を用いて,GMMモデルの複雑さを自動的に適応する。 このアプローチは、シーンの複雑さの異なる実世界のデータ上で、既存のポイントクラウドモデリング技術に対して評価される。

This letter presents a continuous probabilistic modeling methodology for spatial point cloud data using finite Gaussian Mixture Models (GMMs) where the number of components are adapted based on the scene complexity. Few hierarchical and adaptive methods have been proposed to address the challenge of balancing model fidelity with size. Instead, state-of-the-art mapping approaches require tuning parameters for specific use cases, but do not generalize across diverse environments. To address this gap, we utilize a self-organizing principle from information-theoretic learning to automatically adapt the complexity of the GMM model based on the relevant information in the sensor data. The approach is evaluated against existing point cloud modeling techniques on real-world data with varying degrees of scene complexity.
翻訳日:2023-02-02 18:26:54 公開日:2023-01-31
# コアセット選択とエントロピー規則化による高忠実度合成データの生成

Generating High Fidelity Synthetic Data via Coreset selection and Entropic Regularization ( http://arxiv.org/abs/2302.00138v1 )

ライセンス: Link先を確認
Omead Pooladzandi, Pasha Khosravi, Erik Nijkamp, Baharan Mirzasoleiman(参考訳) 生成モデルは、データ分布から引き出されたデータポイントを合成する能力を持つが、全ての生成されたサンプルが高品質であるとは限らない。 本稿では,coresets 選択法と `entropic regularization''' の組み合わせを用いて,最も高い忠実度サンプルを選択することを提案する。 我々は,変分オートエンコーダに類似したエネルギーベースモデルと,遅延前処理をエネルギーベースモデルで複雑化する推論モデルとジェネレータモデルを利用する。 半教師付き学習シナリオでは、ラベル付きデータセットの強化により、選択したサンプルのサブセットを追加することで、すべての合成サンプルを使用するよりも精度が向上することを示す。

Generative models have the ability to synthesize data points drawn from the data distribution, however, not all generated samples are high quality. In this paper, we propose using a combination of coresets selection methods and ``entropic regularization'' to select the highest fidelity samples. We leverage an Energy-Based Model which resembles a variational auto-encoder with an inference and generator model for which the latent prior is complexified by an energy-based model. In a semi-supervised learning scenario, we show that augmenting the labeled data-set, by adding our selected subset of samples, leads to better accuracy improvement rather than using all the synthetic samples.
翻訳日:2023-02-02 18:21:10 公開日:2023-01-31
# トポロジに基づくデータ表現の学習

Learning Topology-Preserving Data Representations ( http://arxiv.org/abs/2302.00136v1 )

ライセンス: Link先を確認
Ilya Trofimov, Daniil Cherniavskii, Eduard Tulchinskii, Nikita Balabin, Evgeny Burnaev, Serguei Barannikov(参考訳) 本稿では,トポロジ保存データ表現(次元減少)の学習手法を提案する。 本手法は, トポロジ的特徴(クラスタ, ループ, 2次元ヴォイドなど)の類似性とその局所化を強制することにより, データ多様体と潜在表現との位相的類似性を提供することを目的とする。 この手法の中核は、元の高次元データと潜時空間における低次元表現との間の表現トポロジディバージェンス(RTD)の最小化である。 RTD の最小化は、強い理論的保証を持つ位相的特徴の近接性を提供する。 本稿では,RTDの識別手法を開発し,オートエンコーダの損失項として適用する。 提案手法である`rtd-ae'は,線形相関,三重項距離ランキング精度,永続バーコード間のwasserstein距離などによって測定されるデータ多様体の全体構造とトポロジーをよりよく保存する。

We propose a method for learning topology-preserving data representations (dimensionality reduction). The method aims to provide topological similarity between the data manifold and its latent representation via enforcing the similarity in topological features (clusters, loops, 2D voids, etc.) and their localization. The core of the method is the minimization of the Representation Topology Divergence (RTD) between original high-dimensional data and low-dimensional representation in latent space. RTD minimization provides closeness in topological features with strong theoretical guarantees. We develop a scheme for RTD differentiation and apply it as a loss term for the autoencoder. The proposed method ``RTD-AE'' better preserves the global structure and topology of the data manifold than state-of-the-art competitors as measured by linear correlation, triplet distance ranking accuracy, and Wasserstein distance between persistence barcodes.
翻訳日:2023-02-02 18:20:57 公開日:2023-01-31
# 構文構造の普遍トポロジカル正則性:効率と最適化の分離

Universal Topological Regularities of Syntactic Structures: Decoupling Efficiency from Optimization ( http://arxiv.org/abs/2302.00129v1 )

ライセンス: Link先を確認
Ferm\'in Moscoso del Prado Mart\'in(参考訳) ヒトの構文構造は通常グラフとして表される。 多くの研究はそのようなグラフと言語列のマッピングに焦点を合わせてきたが、グラフ自体の形状(トポロジー)にはあまり注目されなかった。 本研究では,構文グラフのトポロジーが,それらの出現に繋がる過程の痕跡を明らかにする方法について検討する。 構文構造における新しい普遍的正則性について報告する: そのトポロジーは偶然よりもコミュニケーション的に効率的である。 このパターンは例外なく、研究されている124言語すべてに対して、言語家族やモダリティ(spoken, written, signed)にまたがる。 このパターンは、コミュニケーション効率を最適化するプロセスや、あるいは構築によって、精神言語学から知られている言語生成機構を反映したサブ線形優先アタッチメントプロセスの副産物として生じる。 この二重説明は、通信効率がいかに最適化を必要としないかを示している。 2つの選択肢のうち、最適化なしの効率性は、新しいパターンのより良い説明を提供する。

Human syntactic structures are usually represented as graphs. Much research has focused on the mapping between such graphs and linguistic sequences, but less attention has been paid to the shapes of the graphs themselves: their topologies. This study investigates how the topologies of syntactic graphs reveal traces of the processes that led to their emergence. I report a new universal regularity in syntactic structures: Their topology is communicatively efficient above chance. The pattern holds, without exception, for all 124 languages studied, across linguistic families and modalities (spoken, written, and signed). This pattern can arise from a process optimizing for communicative efficiency or, alternatively, by construction, as a by-effect of a sublinear preferential attachment process reflecting language production mechanisms known from psycholinguistics. This dual explanation shows how communicative efficiency, per se, does not require optimization. Among the two options, efficiency without optimization offers the better explanation for the new pattern.
翻訳日:2023-02-02 18:20:38 公開日:2023-01-31
# Eコマース多言語検索における機械翻訳の影響

Machine Translation Impact in E-commerce Multilingual Search ( http://arxiv.org/abs/2302.00119v1 )

ライセンス: Link先を確認
Bryan Zhang, Amita Misra(参考訳) 先行研究では,言語間情報検索の性能は機械翻訳の質と高い相関関係にあることが示唆された。 しかし、クエリの翻訳品質が向上しても、検索性能がさらに向上するメリットはほとんど、あるいは全く得られないしきい値が存在する可能性がある。 このしきい値は、ソースとターゲット言語、既存のMTシステムの品質、検索パイプラインなど、複数の要因に依存する可能性がある。 探索パイプラインにおけるMTシステムの改善の利点を明らかにするため,実トラフィックから収集した実験データセットを用いて,検索品質の感度とMT品質のレベルの違いについて検討した。 Bleu や Chrf などの MT 評価指標によって測定された言語対におけるMT システム品質の性能を体系的に改善し,検索精度指標への影響を判定し,改善戦略の導出を支援する信号抽出を行う。 この情報を用いて、複数の言語対のクエリ翻訳を比較し、最も有望な言語対を投資して改善する技術を開発した。

Previous work suggests that performance of cross-lingual information retrieval correlates highly with the quality of Machine Translation. However, there may be a threshold beyond which improving query translation quality yields little or no benefit to further improve the retrieval performance. This threshold may depend upon multiple factors including the source and target languages, the existing MT system quality and the search pipeline. In order to identify the benefit of improving an MT system for a given search pipeline, we investigate the sensitivity of retrieval quality to the presence of different levels of MT quality using experimental datasets collected from actual traffic. We systematically improve the performance of our MT systems quality on language pairs as measured by MT evaluation metrics including Bleu and Chrf to determine their impact on search precision metrics and extract signals that help to guide the improvement strategies. Using this information we develop techniques to compare query translations for multiple language pairs and identify the most promising language pairs to invest and improve.
翻訳日:2023-02-02 18:20:19 公開日:2023-01-31
# 負の確率に対する測度論的アプローチ

Measure-theoretic approach to negative probabilities ( http://arxiv.org/abs/2302.00118v1 )

ライセンス: Link先を確認
Elisa Monchietti, C\'esar Massri, J. Acacio de Barros and Federico Holik(参考訳) 本稿では,負の確率に対する測度論的アプローチについて詳述する。 文脈性尺度の自然概念を研究し,その主特性を特徴付ける。 次に、この測度を量子物理学の関連する例に適用する。 特に,量子コンピューティング回路における文脈性の役割について検討する。

In this work, we elaborate on a measure-theoretic approach to negative probabilities. We study a natural notion of contextuality measure and characterize its main properties. Then, we apply this measure to relevant examples of quantum physics. In particular, we study the role played by contextuality in quantum computing circuits.
翻訳日:2023-02-02 18:20:01 公開日:2023-01-31
# テキスト誘導ビデオ生成によるユニバーサルポリシーの学習

Learning Universal Policies via Text-Guided Video Generation ( http://arxiv.org/abs/2302.00111v1 )

ライセンス: Link先を確認
Yilun Dai, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Josh Tenenbaum, Dale Schuurmans, Pieter Abbeel(参考訳) 人工知能の目標は、さまざまなタスクを解決できるエージェントを構築することである。 テキスト誘導画像合成の最近の進歩は、複雑な新しい画像を生成する能力を持つ印象的なモデルを生み出した。 この成功に動機づけられたツールが、より汎用的なエージェントを構築するのに使えるかどうかを調査した。 具体的には、所望のゴールのテキスト符号化仕様を前提として、計画者は、将来計画されたアクションを記述した将来のフレームを合成し、生成したビデオから制御アクションを抽出する、テキスト条件付きビデオ生成問題としてシーケンシャル意思決定問題を論じる。 テキストを基礎となる目標仕様として活用することにより、自然かつ組合せ的に新しい目標に一般化することができる。 提案するポリシ・アズ・ビデオの定式化は,画像の統一空間における状態と動作空間の異なる環境を,例えば様々なロボット操作タスクにおける学習と一般化を可能にする。 最後に、事前訓練された言語埋め込みとインターネットから広く利用可能なビデオを活用することで、実際のロボットに対して非常に現実的なビデオプランを予測することによって、知識伝達を可能にする。

A goal of artificial intelligence is to construct an agent that can solve a wide variety of tasks. Recent progress in text-guided image synthesis has yielded models with an impressive ability to generate complex novel images, exhibiting combinatorial generalization across domains. Motivated by this success, we investigate whether such tools can be used to construct more general-purpose agents. Specifically, we cast the sequential decision making problem as a text-conditioned video generation problem, where, given a text-encoded specification of a desired goal, a planner synthesizes a set of future frames depicting its planned actions in the future, after which control actions are extracted from the generated video. By leveraging text as the underlying goal specification, we are able to naturally and combinatorially generalize to novel goals. The proposed policy-as-video formulation can further represent environments with different state and action spaces in a unified space of images, which, for example, enables learning and generalization across a variety of robot manipulation tasks. Finally, by leveraging pretrained language embeddings and widely available videos from the internet, the approach enables knowledge transfer through predicting highly realistic video plans for real robots.
翻訳日:2023-02-02 18:19:58 公開日:2023-01-31
# OrthoReg: 直交正規化によるグラフ正規化MLPの改善

OrthoReg: Improving Graph-regularized MLPs via Orthogonality Regularization ( http://arxiv.org/abs/2302.00109v1 )

ライセンス: Link先を確認
Hengrui Zhang, Shen Wang, Vassilis N. Ioannidis, Soji Adeshina, Jiani Zhang, Xiao Qin, Christos Faloutsos, Da Zheng, George Karypis, Philip S. Yu(参考訳) グラフニューラルネットワーク(gnns)は現在、グラフ構造データのモデリングにおいて支配的だが、推論のためのグラフ構造への高い依存は、広範な応用を妨げる。 対照的に、グラフ正規化MLP(GR-MLP)はグラフ構造情報を暗黙的にモデル重みに注入するが、その性能はほとんどのタスクにおいてGNNとほとんど一致しない。 これはGR-MLPの限られた性能の原因を研究する動機となっている。 本稿では,従来のGR-MLPから学習したノード埋め込みが,経験的観察と理論的解析により,最大数個の固有値が埋め込み空間を支配している現象である次元崩壊に苦しむことを示す。 その結果、学習ノード表現の表現力は制限される。 さらに,次元崩壊問題を緩和する新しいGR-MLPモデルOrthoRegを提案する。 ノード埋め込みの相関行列上のソフト正規化損失により、OrthoRegは直交ノード表現を明示的に奨励し、次元的に崩壊した表現を自然に回避できる。 冷間開始シナリオにおける従来の半教師付き半教師付き分類タスクと帰納ノード分類の実験は、その効果と優位性を示している。

Graph Neural Networks (GNNs) are currently dominating in modeling graph-structure data, while their high reliance on graph structure for inference significantly impedes them from widespread applications. By contrast, Graph-regularized MLPs (GR-MLPs) implicitly inject the graph structure information into model weights, while their performance can hardly match that of GNNs in most tasks. This motivates us to study the causes of the limited performance of GR-MLPs. In this paper, we first demonstrate that node embeddings learned from conventional GR-MLPs suffer from dimensional collapse, a phenomenon in which the largest a few eigenvalues dominate the embedding space, through empirical observations and theoretical analysis. As a result, the expressive power of the learned node representations is constrained. We further propose OrthoReg, a novel GR-MLP model to mitigate the dimensional collapse issue. Through a soft regularization loss on the correlation matrix of node embeddings, OrthoReg explicitly encourages orthogonal node representations and thus can naturally avoid dimensionally collapsed representations. Experiments on traditional transductive semi-supervised classification tasks and inductive node classification for cold-start scenarios demonstrate its effectiveness and superiority.
翻訳日:2023-02-02 18:19:37 公開日:2023-01-31
# 動的に変化する環境におけるオンライン学習

Online Learning in Dynamically Changing Environments ( http://arxiv.org/abs/2302.00103v1 )

ライセンス: Link先を確認
Changlong Wu, Ananth Grama, Wojciech Szpankowski(参考訳) 一般的な未知の非定常過程からサンプルを引き出す際に,オンライン学習とオンライン後悔の最小化の問題を検討する。 動的に変化するプロセスの概念をコスト$K$で導入し、そのプロセスの条件境界は任意に変化するが、異なる条件境界の数は$K$以上のラウンドで制限される。 そのようなプロセスに対して、厳密な($\sqrt{\log T}$ factorへの)有界な$O(\sqrt{KT\cdot\mathsf{VC}(\mathcal{H})\log T})$ 有限VC次元クラスである $\mathcal{H}$ に対する絶対損失(すなわち、期待されるミス分類損失)を証明します。 すると、この境界は($\log^3 T$ factorまで)厳密な($O(K\cdot\mathsf{VC}(\mathcal{H})\log^3 T)$を成立させることで、一般的な混合可能な損失に対して改善される。 一般凸損失の下での1$次元しきい値関数に対する線形な後悔を示すことによって、これらの結果を未知の基準測度を持つ一般的な滑らかな逆過程に拡張する。 この結果は,分布ブラインド(ユニバーサル)レジームにおける非定常サンプルを用いた後悔分析への第一歩と見なすことができる。 これはまた、仮説クラスの複雑性の研究を、データを生成するプロセスの複雑さの研究にシフトさせる新しい視点をもたらす。

We study the problem of online learning and online regret minimization when samples are drawn from a general unknown non-stationary process. We introduce the concept of a dynamic changing process with cost $K$, where the conditional marginals of the process can vary arbitrarily, but that the number of different conditional marginals is bounded by $K$ over $T$ rounds. For such processes we prove a tight (upto $\sqrt{\log T}$ factor) bound $O(\sqrt{KT\cdot\mathsf{VC}(\mathcal{H})\log T})$ for the expected worst case regret of any finite VC-dimensional class $\mathcal{H}$ under absolute loss (i.e., the expected miss-classification loss). We then improve this bound for general mixable losses, by establishing a tight (up to $\log^3 T$ factor) regret bound $O(K\cdot\mathsf{VC}(\mathcal{H})\log^3 T)$. We extend these results to general smooth adversary processes with unknown reference measure by showing a sub-linear regret bound for $1$-dimensional threshold functions under a general bounded convex loss. Our results can be viewed as a first step towards regret analysis with non-stationary samples in the distribution blind (universal) regime. This also brings a new viewpoint that shifts the study of complexity of the hypothesis classes to the study of the complexity of processes generating data.
翻訳日:2023-02-02 18:19:16 公開日:2023-01-31
# 量子ナノ構造シミュレーションのための第一原理からの物理インフォームド還元次学習

Physics-informed Reduced-Order Learning from the First Principles for Simulation of Quantum Nanostructures ( http://arxiv.org/abs/2302.00100v1 )

ライセンス: Link先を確認
Martin Veresko and Ming-Cheng Cheng(参考訳) Schr\\odinger方程式の多次元直接数値シミュレーション(DNS)は、生物学、医学、材料、電子・フォトニックデバイスなどの多くの応用を提供する量子ナノ構造の設計と解析に必要である。 大規模なナノ構造では、DNSに必要な広範な計算作業は、高い自由度(DoF)のために禁止される可能性がある。 本研究は,シュル=オディンガー方程式のシミュレーションを第一原理により実現し,高い精度と効率を達成するための低次学習アルゴリズムを用いる。 提案手法は,2つの量子ドット構造の研究に応用され,一方は外部電界下で動作し,他方は周期的境界条件による内部電位変動の影響を受けている。 前者はナノエレクトロニクスデバイスの典型的な操作に似ており、後者は密度汎関数理論の応用など、ナノ構造や材料のシミュレーションと設計に興味がある。 提案手法を用いることで,DNSと比較してDoFを3桁以上削減し,計算時間を2桁以上削減することで,高精度な予測が可能となる。 提案した物理インフォームドラーニング手法は、トレーニング条件を超えて、より高い外部場と未学習量子状態の内部ポテンシャルを含む正確な予測を提供することもできる。

Multi-dimensional direct numerical simulation (DNS) of the Schr\"odinger equation is needed for design and analysis of quantum nanostructures that offer numerous applications in biology, medicine, materials, electronic/photonic devices, etc. In large-scale nanostructures, extensive computational effort needed in DNS may become prohibitive due to the high degrees of freedom (DoF). This study employs a reduced-order learning algorithm, enabled by the first principles, for simulation of the Schr\"odinger equation to achieve high accuracy and efficiency. The proposed simulation methodology is applied to investigate two quantum-dot structures; one operates under external electric field, and the other is influenced by internal potential variation with periodic boundary conditions. The former is similar to typical operations of nanoelectronic devices, and the latter is of interest to simulation and design of nanostructures and materials, such as applications of density functional theory. Using the proposed methodology, a very accurate prediction can be realized with a reduction in the DoF by more than 3 orders of magnitude and in the computational time by 2 orders, compared to DNS. The proposed physics-informed learning methodology is also able to offer an accurate prediction beyond the training conditions, including higher external field and larger internal potential in untrained quantum states.
翻訳日:2023-02-02 18:18:40 公開日:2023-01-31
# Max-Product Belief Propagationを用いた雑音やベイジアンネットワークの学習

Learning noisy-OR Bayesian Networks with Max-Product Belief Propagation ( http://arxiv.org/abs/2302.00099v1 )

ライセンス: Link先を確認
Antoine Dedieu, Guangyao Zhou, Dileep George, Miguel Lazaro-Gredilla(参考訳) Noisy-OR Bayesian Networks (BN) は、バイナリデータにおけるリッチな統計的依存関係を表現する確率的グラフィカルモデルのファミリーである。 変分推論(VI)は、複雑な潜伏構造を持つノイズやBNを学習するための主要な手法である(Jaakkola & Jordan, 1999; Ji et al., 2020; Buhai et al., 2020)。 しかし 提案されたviは (a) ``explaining-away'' を誘導できない標準償却推論付き認識ネットワークを使用する、又は (b) 悪い局所最適に弱い単純な平均場後部(MF)を仮定する。 既存のMF VIメソッドはMFパラメータを逐次更新するので、本質的に遅い。 本稿では,複雑な潜在構造を持つ雑音やBNを学習するための代替アルゴリズムとして並列最大積を提案し,大規模データセットにスケールする高速確率的トレーニングスキームを導出する。 viが最先端のベンチマークで両手法を評価し,本手法が有効であることを示す。 a) 大きなスパース実データセット上の階層的潜在構造を持つノイズやBNを学習するために、Ji et al. (2020) よりも優れたテスト性能を達成する。 (b)バラバラな合成シーンからブハイ等(2020年)よりも高い基底的真理パラメータを回収する。 (c)Lazaro-Gredilla et al. (2021)の2次元ブラインドデコンボリューション問題を解き、二元行列分解を含む変種を解き、VIは破滅的に失敗し、最大2桁も遅くなる。

Noisy-OR Bayesian Networks (BNs) are a family of probabilistic graphical models which express rich statistical dependencies in binary data. Variational inference (VI) has been the main method proposed to learn noisy-OR BNs with complex latent structures (Jaakkola & Jordan, 1999; Ji et al., 2020; Buhai et al., 2020). However, the proposed VI approaches either (a) use a recognition network with standard amortized inference that cannot induce ``explaining-away''; or (b) assume a simple mean-field (MF) posterior which is vulnerable to bad local optima. Existing MF VI methods also update the MF parameters sequentially which makes them inherently slow. In this paper, we propose parallel max-product as an alternative algorithm for learning noisy-OR BNs with complex latent structures and we derive a fast stochastic training scheme that scales to large datasets. We evaluate both approaches on several benchmarks where VI is the state-of-the-art and show that our method (a) achieves better test performance than Ji et al. (2020) for learning noisy-OR BNs with hierarchical latent structures on large sparse real datasets; (b) recovers a higher number of ground truth parameters than Buhai et al. (2020) from cluttered synthetic scenes; and (c) solves the 2D blind deconvolution problem from Lazaro-Gredilla et al. (2021) and variant - including binary matrix factorization - while VI catastrophically fails and is up to two orders of magnitude slower.
翻訳日:2023-02-02 18:18:19 公開日:2023-01-31
# Clauser-Horne-Shimony-Holt不等式違反による未知状態の絡み合いの検出

Detecting entanglement of unknown states by violating the Clauser-Horne-Shimony-Holt inequality ( http://arxiv.org/abs/2302.00148v1 )

ライセンス: Link先を確認
J. Cort\'es-Vega, J. F. Barra, L. Pereira, and A. Delgado(参考訳) 絡み合った状態は量子力学において基本的な役割を担い、量子通信や量子コンピューティングなど多くの現代の応用の核となる。 したがって、状態が絡み合っているかどうかを決定することは重要なタスクである。 本稿では,未知の2量子ビット量子状態の絡み合いを検出する手法を提案する。 本手法は,clrowr-horne-shimony-holt不等式に違反することに基づく。 これにより、未知の量子状態を含むときでも不等式の値が最大になる。 不等式の値の増大につながる局所的な測定設定を反復的に生成する。 純粋および混合状態の数値シミュレーションにより,本アルゴリズムは数回の反復で2の古典限界を超えることを示した。

Entangled states play a fundamental role in Quantum Mechanics and are at the core of many contemporary applications, such as quantum communication and quantum computing. Therefore, determining whether a state is entangled or not is an important task. Here, we propose a method to detect the entanglement of unknown two-qubit quantum states. Our method is based on the violation of the Clauser-Horne-Shimony-Holt inequality. This maximizes the value of the inequality even when \lp{it} contains an unknown quantum state. The method iteratively generates local measurement settings that lead to increasing values of the inequality. We show by numerical simulations for pure and mixed states that our algorithm exceeds the classical limit of 2 after a few iterations.
翻訳日:2023-02-02 18:08:42 公開日:2023-01-31
# 個人化プライバシ監査とテスト時の最適化

Personalized Privacy Auditing and Optimization at Test Time ( http://arxiv.org/abs/2302.00077v1 )

ライセンス: Link先を確認
Cuong Tran, Ferdinando Fioretto(参考訳) 法律、銀行、雇用、医療決定を支援するために、一連のドメインで使用される多くの学習モデルは、潜在的に敏感なユーザーの情報を利用して推論を行う。 さらに、推論を実行するには機能の完全なセットが通常必要である。 これは学習システムを使用している個人にとって厳しいプライバシーリスクをもたらすだけでなく、公開情報の正確性を検証するために企業や組織が膨大な人的努力をしなければならない。 本稿では、モデルがテスト時に正確な予測を返すのに「emph{all}」入力機能を必要とするかどうかを問うとともに、パーソナライズされた設定の下では、最終的な決定に影響を与えることなく、これらの機能の小さなサブセットだけをリリースする必要があることを示す。 また、各個人によって提供される属性を選択する効率的なシーケンシャルアルゴリズムも提供する。 複数の学習課題に対する評価は、個人が情報の10倍程度しか報告できないことを示し、完全なユーザの情報を使用するモデルの同じレベルの精度を保証できることを示している。

A number of learning models used in consequential domains, such as to assist in legal, banking, hiring, and healthcare decisions, make use of potentially sensitive users' information to carry out inference. Further, the complete set of features is typically required to perform inference. This not only poses severe privacy risks for the individuals using the learning systems, but also requires companies and organizations massive human efforts to verify the correctness of the released information. This paper asks whether it is necessary to require \emph{all} input features for a model to return accurate predictions at test time and shows that, under a personalized setting, each individual may need to release only a small subset of these features without impacting the final decisions. The paper also provides an efficient sequential algorithm that chooses which attributes should be provided by each individual. Evaluation over several learning tasks shows that individuals may be able to report as little as 10\% of their information to ensure the same level of accuracy of a model that uses the complete users' information.
翻訳日:2023-02-02 14:03:00 公開日:2023-01-31
# バイアスドプロンプトによる視覚言語モデルのデバイアス

Debiasing Vision-Language Models via Biased Prompts ( http://arxiv.org/abs/2302.00070v1 )

ライセンス: Link先を確認
Ching-Yao Chuang, Varun Jampani, Yuanzhen Li, Antonio Torralba, Stefanie Jegelka(参考訳) 機械学習モデルは、トレーニングデータセットからバイアスを継承していることが示されている。 バイアスを増幅し、ゼロショット分類器やテキスト・ツー・イメージ生成モデルのような下流アプリケーションに伝播することができる。 本研究では,テキスト埋め込みにおける偏りのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。 特に,校正された投影行列で埋め込みされたテキストのみをデバイアスすることで,ロバストな分類器と公平な生成モデルが得られることを示す。 クローズドフォームソリューションは大規模パイプラインへの統合を容易にし,実験結果から,新たなデータやトレーニングを必要とせず,識別的および生成的視覚言語モデルの両方において,社会的バイアスと刺激的相関を効果的に低減することを示す。

Machine learning models have been shown to inherit biases from their training datasets, which can be particularly problematic for vision-language foundation models trained on uncurated datasets scraped from the internet. The biases can be amplified and propagated to downstream applications like zero-shot classifiers and text-to-image generative models. In this study, we propose a general approach for debiasing vision-language foundation models by projecting out biased directions in the text embedding. In particular, we show that debiasing only the text embedding with a calibrated projection matrix suffices to yield robust classifiers and fair generative models. The closed-form solution enables easy integration into large-scale pipelines, and empirical results demonstrate that our approach effectively reduces social bias and spurious correlation in both discriminative and generative vision-language models without the need for additional data or training.
翻訳日:2023-02-02 14:02:42 公開日:2023-01-31
# NASiam:シームズネットワークのためのニューラルネットワークによる効率的な表現学習

NASiam: Efficient Representation Learning using Neural Architecture Search for Siamese Networks ( http://arxiv.org/abs/2302.00059v1 )

ライセンス: Link先を確認
Alexandre Heuillet, Hedi Tabia, Hichem Arioui(参考訳) siamese networkは、自己教師付きビジュアル表現学習(ssl)を実現する最も傾向のある方法の1つである。 ハンドラベリングはコストがかかるため、SSLは大規模なラベルなしデータセットでディープラーニングをトレーニングすることで、重要な役割を果たすことができる。 一方、ニューラルネットワーク検索(NAS)は、新しいディープラーニングアーキテクチャを発見する技術としてますます重要になりつつある。 しかし、強化学習や進化的アルゴリズムに基づく初期のnas法は、強烈な計算とメモリコストに苦しんだ。 対照的に、勾配ベースのアプローチである differentiable nas は、より効率的であることの利点があり、そのため過去数年間、多くの注目を集めてきた。 本稿では,従来のベースラインの単純さを保ちつつ,シャムネットワークベースのコントラスト学習フレームワーク(例えばsimclr,simsiam,moco)内の多層型パーセプトロンプロジェクタと予測子(エンコーダ/予測子ペア)アーキテクチャを改善するために,初めて微分可能なnasを使用する新しいアプローチであるnasiamを提案する。 我々は,多層パーセプトロンを対象とする探索空間を考案し,その内部に標準relu活性化関数の代替案をいくつか検討した。 これらの新しいアーキテクチャにより、ResNetのバックボーン畳み込みモデルは強力な表現を効率的に学習できることを示す。 NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。 我々はNASが発見するアーキテクチャの構成について議論し、なぜ崩壊を防げるかという仮説を公表する。 私たちのコードはhttps://github.com/aheuillet/NASiamで利用可能です。

Siamese networks are one of the most trending methods to achieve self-supervised visual representation learning (SSL). Since hand labeling is costly, SSL can play a crucial part by allowing deep learning to train on large unlabeled datasets. Meanwhile, Neural Architecture Search (NAS) is becoming increasingly important as a technique to discover novel deep learning architectures. However, early NAS methods based on reinforcement learning or evolutionary algorithms suffered from ludicrous computational and memory costs. In contrast, differentiable NAS, a gradient-based approach, has the advantage of being much more efficient and has thus retained most of the attention in the past few years. In this article, we present NASiam, a novel approach that uses for the first time differentiable NAS to improve the multilayer perceptron projector and predictor (encoder/predictor pair) architectures inside siamese-networks-based contrastive learning frameworks (e.g., SimCLR, SimSiam, and MoCo) while preserving the simplicity of previous baselines. We crafted a search space designed explicitly for multilayer perceptrons, inside which we explored several alternatives to the standard ReLU activation function. We show that these new architectures allow ResNet backbone convolutional models to learn strong representations efficiently. NASiam reaches competitive performance in both small-scale (i.e., CIFAR-10/CIFAR-100) and large-scale (i.e., ImageNet) image classification datasets while costing only a few GPU hours. We discuss the composition of the NAS-discovered architectures and emit hypotheses on why they manage to prevent collapsing behavior. Our code is available at https://github.com/aheuillet/NASiam.
翻訳日:2023-02-02 14:02:28 公開日:2023-01-31
# スクリーニング分類器の群内識別について

On the Within-Group Discrimination of Screening Classifiers ( http://arxiv.org/abs/2302.00025v1 )

ライセンス: Link先を確認
Nastaran Okati, Stratis Tsirtsis and Manuel Gomez Rodriguez(参考訳) スクリーニング分類器は、様々な選択プロセスにおいて資格のある候補を特定するためにますます使われる。 この文脈では、分類器が校正された場合、期待して、しきい値決定規則を用いて所望の適格候補数を含む最小の候補を特定できることが最近示されている。 これにより、分類器をスクリーニングする唯一の要件としてキャリブレーションにフォーカスするサポートが提供される。 本稿では,校正された分類器を使用するスクリーニングポリシーが,グループ内差別の未熟なタイプに苦しむ可能性があることを論じる。 さらに、分類器が各群内の自然な単調性である内群単調性を満たすと、この種の識別は避けられると論じる。 次に,動的計画に基づく効率的な後処理アルゴリズムを導入し,その確率推定がグループ内単調性を満たすように,与えられた校正分類器を最小に修正する。 我々は,US Census Surveyデータを用いて本アルゴリズムを検証し,予測粒度とショートリストサイズの観点から,グループ内単調性が小さいコストで実現できることを示す。

Screening classifiers are increasingly used to identify qualified candidates in a variety of selection processes. In this context, it has been recently shown that, if a classifier is calibrated, one can identify the smallest set of candidates which contains, in expectation, a desired number of qualified candidates using a threshold decision rule. This lends support to focusing on calibration as the only requirement for screening classifiers. In this paper, we argue that screening policies that use calibrated classifiers may suffer from an understudied type of within-group discrimination -- they may discriminate against qualified members within demographic groups of interest. Further, we argue that this type of discrimination can be avoided if classifiers satisfy within-group monotonicity, a natural monotonicity property within each of the groups. Then, we introduce an efficient post-processing algorithm based on dynamic programming to minimally modify a given calibrated classifier so that its probability estimates satisfy within-group monotonicity. We validate our algorithm using US Census survey data and show that within-group monotonicity can be often achieved at a small cost in terms of prediction granularity and shortlist size.
翻訳日:2023-02-02 14:01:57 公開日:2023-01-31
# 予測モデル容量の増大における外部記憶の力

The Power of External Memory in Increasing Predictive Model Capacity ( http://arxiv.org/abs/2302.00003v1 )

ライセンス: Link先を確認
Cenk Baykal, Dylan J Cutler, Nishanth Dikkala, Nikhil Ghosh, Rina Panigrahy, Xin Wang(参考訳) ディープネットワークに疎結合を導入する方法の1つは、ネットワークの異なるレイヤをわずかに見上げるパラメータの外部テーブルをアタッチすることである。 パラメータの大部分を外部テーブルに格納することで、推論時間を増加させることなく、モデルのキャパシティを増加させることができる。 テーブルにアクセスするためのルックアップ関数は何で、テーブルの内容はどのように消費されますか? テーブルにアクセスするための顕著な方法 1)表のインデックスとして単語/ワードピースのトークンidを使用する。 2) lshは各レイヤのトークンベクトルをバケットのテーブルにハッシュし、 3) テーブルエントリへの学習可能なsoftmaxスタイルのルーティング。 コンテンツを使用するには、入力表現の追加/連結、異なる入力を専門とするエキスパートネットワークとしてコンテンツを使用する。 本研究では,既存のアイデアとその組み合わせの厳密な実験的評価を行う。 また,計算時間を増加させることなくトークン次元を増加させる新たな手法を提案するとともに,言語モデリングにおけるその効果を実証する。

One way of introducing sparsity into deep networks is by attaching an external table of parameters that is sparsely looked up at different layers of the network. By storing the bulk of the parameters in the external table, one can increase the capacity of the model without necessarily increasing the inference time. Two crucial questions in this setting are then: what is the lookup function for accessing the table and how are the contents of the table consumed? Prominent methods for accessing the table include 1) using words/wordpieces token-ids as table indices, 2) LSH hashing the token vector in each layer into a table of buckets, and 3) learnable softmax style routing to a table entry. The ways to consume the contents include adding/concatenating to input representation, and using the contents as expert networks that specialize to different inputs. In this work, we conduct rigorous experimental evaluations of existing ideas and their combinations. We also introduce a new method, alternating updates, that enables access to an increased token dimension without increasing the computation time, and demonstrate its effectiveness in language modeling.
翻訳日:2023-02-02 14:01:37 公開日:2023-01-31
# 複数のカメラを用いたサッカーボール検出システムの設計と実装

Design and Implementation of A Soccer Ball Detection System with Multiple Cameras ( http://arxiv.org/abs/2302.00123v1 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Zhongfeng Kang, Wenhan Zhang(参考訳) 3次元における中小物体の検出は常にフロンティア探査の問題であった。 この技術はスポーツ分析、ゲーム、バーチャルリアリティー、ヒューマンアニメーションなどの分野に広く応用されている。 従来の3次元小型ターゲット検出技術は、高コスト、低精度、不便という欠点があるため、実際に適用することは困難である。 機械学習とディープラーニングの開発により、コンピュータビジョンアルゴリズムの技術はより成熟している。 没入型メディア体験の創造はスポーツにおいて非常に重要な研究課題であると考えられている。 本研究の主な目的は,サッカーの試合生中継システムの研究と実装を目的とした,複数台のカメラによるサッカー検出の課題の探索と解決である。 マルチカメラを用いてターゲットボールを検知し、対象物体の閉塞、動き、低照度で3次元の位置を決定する。 本稿では,複数台のカメラでリアルタイムに目標を捕捉するサッカー検知システムの設計と実装を行った。 主な作業は主にサッカー検出器、単一カメラ検出、マルチカメラ検出の3つの部分からなる。 システムは、ターゲットの3次元位置を得るためにバンドル調整を使用し、GPUはデータ前処理を加速し、ターゲットの正確なリアルタイムキャプチャを実現する。 システムをテストすることで、システムは3Dで動くターゲットを正確に検出し、捉えることができる。 さらに,本論文の解法は,バスケットボールやサッカーなどの大規模競技で再利用可能である。 システムフレームワークは、他の同様のエンジニアリングプロジェクトシステムにうまく移植することができる。 市場に投入された。

The detection of small and medium-sized objects in three dimensions has always been a frontier exploration problem. This technology has a very wide application in sports analysis, games, virtual reality, human animation and other fields. The traditional three-dimensional small target detection technology has the disadvantages of high cost, low precision and inconvenience, so it is difficult to apply in practice. With the development of machine learning and deep learning, the technology of computer vision algorithms is becoming more mature. Creating an immersive media experience is considered to be a very important research work in sports. The main work is to explore and solve the problem of football detection under the multiple cameras, aiming at the research and implementation of the live broadcast system of football matches. Using multi cameras detects a target ball and determines its position in three dimension with the occlusion, motion, low illumination of the target object. This paper designed and implemented football detection system under multiple cameras for the detection and capture of targets in real-time matches. The main work mainly consists of three parts, football detector, single camera detection, and multi-cameras detection. The system used bundle adjustment to obtain the three-dimensional position of the target, and the GPU to accelerates data pre-processing and achieve accurate real-time capture of the target. By testing the system, it shows that the system can accurately detect and capture the moving targets in 3D. In addition, the solution in this paper is reusable for large-scale competitions, like basketball and soccer. The system framework can be well transplanted into other similar engineering project systems. It has been put into the market.
翻訳日:2023-02-02 13:54:32 公開日:2023-01-31
# 自己監督型視覚変換器を用いた不動産特性評価

Real Estate Property Valuation using Self-Supervised Vision Transformers ( http://arxiv.org/abs/2302.00117v1 )

ライセンス: Link先を確認
Mahdieh Yazdani and Maziar Raissi(参考訳) 近年,不動産市場における人工知能(AI)の利用が増加している。 本稿では,コンピュータビジョンとディープラーニングにおける最近のブレークスルーである自己教師型ビジョントランスフォーマーを活用した,資産評価の新しい手法を提案する。 提案アルゴリズムは,不動産データに基づいて学習した機械学習,コンピュータビジョン,ヘドニック価格モデルを組み合わせて,その資産の価値を推定する。 私たちはコロラド州ボルダー市で不動産のデータセットを収集し、事前処理し、アルゴリズムのトレーニング、検証、テストに利用しました。 私たちのデータセットは質的なイメージ(家の内装、外装、ストリートビューを含む)と、寝室の数、浴室、正方形の映像、ロットスクエアの映像、資産年齢、犯罪率、アメニティの近接といった定量的特徴で構成されていました。 我々は,Root Mean Squared Error (RMSE) などの指標を用いて,モデルの性能評価を行った。 以上の結果から,これらの手法はRMSE値の低い特性を正確に予測できることが示唆された。 提案アルゴリズムは、プロパティイメージを活用せず、現実世界のアプリケーションで使用できる可能性を持つ従来の評価手法よりも優れている。

The use of Artificial Intelligence (AI) in the real estate market has been growing in recent years. In this paper, we propose a new method for property valuation that utilizes self-supervised vision transformers, a recent breakthrough in computer vision and deep learning. Our proposed algorithm uses a combination of machine learning, computer vision and hedonic pricing models trained on real estate data to estimate the value of a given property. We collected and pre-processed a data set of real estate properties in the city of Boulder, Colorado and used it to train, validate and test our algorithm. Our data set consisted of qualitative images (including house interiors, exteriors, and street views) as well as quantitative features such as the number of bedrooms, bathrooms, square footage, lot square footage, property age, crime rates, and proximity to amenities. We evaluated the performance of our model using metrics such as Root Mean Squared Error (RMSE). Our findings indicate that these techniques are able to accurately predict the value of properties, with a low RMSE. The proposed algorithm outperforms traditional appraisal methods that do not leverage property images and has the potential to be used in real-world applications.
翻訳日:2023-02-02 13:53:48 公開日:2023-01-31
# 逐次学習の分散化

Distributed sequential federated learning ( http://arxiv.org/abs/2302.00107v1 )

ライセンス: Link先を確認
Z. F. Wang, X. Y. Zhang, Y-c I. Chang(参考訳) 複数のサイトに格納されたデータの分析がより普及し、データストレージと通信のセキュリティに関する新たな懸念が高まっている。 集中的なデータを必要としないフェデレーション学習は、重いデータ転送を防止し、価値あるデータを保護し、個人情報を保護するための一般的なアプローチである。 そのため、別の地域におけるデータ分析から得られる情報を収集する方法が重要な統計問題となっている。 一般的に用いられる平均化手法は,データ不均一性や各サイト間の相容れない結果のために適さない可能性があり,その結果,個々の分析結果から得られる情報の損失が生じる可能性がある。 分散コンピューティングによるフェデレーション学習における逐次的手法を用いることで、分析プロセスの統合と高速化が容易になる。 データ通信による情報セキュリティや重交通といった潜在的な問題に遭遇することなく、ローカルデータを解析することで、価値ある情報を効率的かつ効果的に集約するデータ駆動手法を開発した。 さらに,一般線形モデルに適用した場合のデータ駆動型サンプルサイズや推定精度など,従来の逐次適応設計の特性を保存できることを示す。 シミュレーションデータの数値的研究とメキシコの32の病院から収集したCOVID-19データへの応用を用いて,提案手法を概説した。

The analysis of data stored in multiple sites has become more popular, raising new concerns about the security of data storage and communication. Federated learning, which does not require centralizing data, is a common approach to preventing heavy data transportation, securing valued data, and protecting personal information protection. Therefore, determining how to aggregate the information obtained from the analysis of data in separate local sites has become an important statistical issue. The commonly used averaging methods may not be suitable due to data nonhomogeneity and incomparable results among individual sites, and applying them may result in the loss of information obtained from the individual analyses. Using a sequential method in federated learning with distributed computing can facilitate the integration and accelerate the analysis process. We develop a data-driven method for efficiently and effectively aggregating valued information by analyzing local data without encountering potential issues such as information security and heavy transportation due to data communication. In addition, the proposed method can preserve the properties of classical sequential adaptive design, such as data-driven sample size and estimation precision when applied to generalized linear models. We use numerical studies of simulated data and an application to COVID-19 data collected from 32 hospitals in Mexico, to illustrate the proposed method.
翻訳日:2023-02-02 13:53:15 公開日:2023-01-31
# クラウドソーシングデータラベリングによるフェデレーション学習のための真正なインセンティブメカニズム

Truthful Incentive Mechanism for Federated Learning with Crowdsourced Data Labeling ( http://arxiv.org/abs/2302.00106v1 )

ライセンス: Link先を確認
Yuxi Zhao, Xiaowen Gong, Shiwen Mao(参考訳) FL(Federated Learning)は、クライアントのデータをFLサーバに送信することなく、クライアントのデバイス上で機械学習(ML)モデルを分散的にトレーニングする、有望なパラダイムとして登場した。 mlの多くのアプリケーションでは、トレーニングデータのラベルを人間のエージェントによって手動で生成する必要がある。 本稿では,FLの各クライアントのローカルデータをクライアントが手動でラベル付けするクラウドソースデータラベルを用いてFLについて検討する。 ローカルなデータラベリングやローカルなモデル計算を望まないクライアントの戦略的振る舞いを考慮し、ローカルなモデルをFLサーバに誤レポートする可能性がある。 我々は,クライアントのデータラベリング作業,局所計算作業,報告された局所モデルの関数として,トレーニング損失の性能限界を特徴付ける。 我々は、戦略的クライアントに真の取り組みを動機付け、真のローカルモデルをサーバに報告する真正なインセンティブメカニズムを考案する。 真面目な設計は、クライアントの努力とローカルモデルに対するトレーニング損失の非自明な依存を利用する。 真理的なメカニズムの下では、サーバの最適局所計算作業割り当てを特徴付ける。 クラウドソースデータラベリングを用いたFLアルゴリズムと実験によるインセンティブメカニズムの評価を行った。

Federated learning (FL) has emerged as a promising paradigm that trains machine learning (ML) models on clients' devices in a distributed manner without the need of transmitting clients' data to the FL server. In many applications of ML, the labels of training data need to be generated manually by human agents. In this paper, we study FL with crowdsourced data labeling where the local data of each participating client of FL are labeled manually by the client. We consider the strategic behavior of clients who may not make desired effort in their local data labeling and local model computation and may misreport their local models to the FL server. We characterize the performance bounds on the training loss as a function of clients' data labeling effort, local computation effort, and reported local models. We devise truthful incentive mechanisms which incentivize strategic clients to make truthful efforts and report true local models to the server. The truthful design exploits the non-trivial dependence of the training loss on clients' efforts and local models. Under the truthful mechanisms, we characterize the server's optimal local computation effort assignments. We evaluate the proposed FL algorithms with crowdsourced data labeling and the incentive mechanisms using experiments.
翻訳日:2023-02-02 13:52:55 公開日:2023-01-31
# 量子機械学習におけるフーリエ級数重み

Fourier series weight in quantum machine learning ( http://arxiv.org/abs/2302.00105v1 )

ライセンス: Link先を確認
Parfait Atchade-Adelomou and Kent Larson(参考訳) 本研究では,量子機械学習モデルにおけるフーリエ級数の影響を確認することを目的とする。 この目的を達成するために、モデル、テスト、デモを提案します。 我々はハミルトニアン符号化を利用した量子機械学習を設計した。 微妙な変化により、三角法補間、二分法および多クラス分類器、および量子信号処理アプリケーションを実行した。 また,量子機械学習に基づいてフーリエ係数を近似的に決定するブロック図を提案した。 提案するすべてのモデルをpennylaneフレームワークを使って実行し,テストした。

In this work, we aim to confirm the impact of the Fourier series on the quantum machine learning model. We will propose models, tests, and demonstrations to achieve this objective. We designed a quantum machine learning leveraged on the Hamiltonian encoding. With a subtle change, we performed the trigonometric interpolation, binary and multiclass classifier, and a quantum signal processing application. We also proposed a block diagram of determining approximately the Fourier coefficient based on quantum machine learning. We performed and tested all the proposed models using the Pennylane framework.
翻訳日:2023-02-02 13:52:36 公開日:2023-01-31
# ニュース記事中の有害な議題の検出

Detecting Harmful Agendas in News Articles ( http://arxiv.org/abs/2302.00102v1 )

ライセンス: Link先を確認
Melanie Subbiah, Amrita Bhattacharjee, Bobby Yilun Hua, Tharindu Kumarage, Huan Liu, Kathleen McKeown(参考訳) オンラインで操作されるニュースは、その拡散を抑えるために自動化システムを使う必要がある、という問題が増えつつある。 我々は、誤情報や偽情報検出が研究されているが、ニュース記事の有害な議題を検出するという重要なオープンチャレンジへの投資が欠如しており、有害な議題を特定することは、現実世界の害の最大の可能性を秘めているニュースキャンペーンにフラグを付けることが重要であると論じている。 さらに、検閲に関する真の懸念から、有害なアジェンダ検出器は有効であると解釈する必要がある。 本稿では,新たな課題を提案し,アジェンダ識別のための注釈付きニュース記事のデータセットであるNewsAgendasをリリースする。 この課題に対して,解釈可能なシステムがいかに有効かを示し,ブラックボックスモデルと相容れない性能を示す。

Manipulated news online is a growing problem which necessitates the use of automated systems to curtail its spread. We argue that while misinformation and disinformation detection have been studied, there has been a lack of investment in the important open challenge of detecting harmful agendas in news articles; identifying harmful agendas is critical to flag news campaigns with the greatest potential for real world harm. Moreover, due to real concerns around censorship, harmful agenda detectors must be interpretable to be effective. In this work, we propose this new task and release a dataset, NewsAgendas, of annotated news articles for agenda identification. We show how interpretable systems can be effective on this task and demonstrate that they can perform comparably to black-box models.
翻訳日:2023-02-02 13:52:28 公開日:2023-01-31
# 野生における科学計算のための深層能動学習

Deep Active Learning for Scientific Computing in the Wild ( http://arxiv.org/abs/2302.00098v1 )

ライセンス: Link先を確認
Simiao Ren, Yang Deng, Willie J. Padilla, Leslie Collins and Jordan Malof(参考訳) ディープラーニング(DL)は科学コンピューティングコミュニティに革命をもたらしている。 通常高価なシミュレーションや実験によって引き起こされるデータギャップを減らすために、科学計算コミュニティにとって有望な解決策としてアクティブラーニングが特定されている。 しかし、deep active learning (dal)の文献は現在、画像分類問題とプールベースの手法で占められているが、これは科学計算の問題に直接転送することはできない。 ここでは,10の最先端DAL法と8つのベンチマーク問題を用いて,科学計算問題に対するDAL法の堅牢性について検討する。 驚いたことに、DAL法の大部分は、理想的なプールサイズが不明な場合のランダムサンプリングと比較しても堅牢ではない。 さらにDAL手法の有効性とロバスト性を解析し、科学計算問題に対する堅牢なDALには多様性が必要であることを示唆する。

Deep learning (DL) is revolutionizing the scientific computing community. To reduce the data gap caused by usually expensive simulations or experimentation, active learning has been identified as a promising solution for the scientific computing community. However, the deep active learning (DAL) literature is currently dominated by image classification problems and pool-based methods, which are not directly transferrable to scientific computing problems, dominated by regression problems with no pre-defined 'pool' of unlabeled data. Here for the first time, we investigate the robustness of DAL methods for scientific computing problems using ten state-of-the-art DAL methods and eight benchmark problems. We show that, to our surprise, the majority of the DAL methods are not robust even compared to random sampling when the ideal pool size is unknown. We further analyze the effectiveness and robustness of DAL methods and suggest that diversity is necessary for a robust DAL for scientific computing problems.
翻訳日:2023-02-02 13:52:14 公開日:2023-01-31
# 大規模言語モデルは関係のない文脈で容易に抽出できる

Large Language Models Can Be Easily Distracted by Irrelevant Context ( http://arxiv.org/abs/2302.00093v1 )

ライセンス: Link先を確認
Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed Chi, Nathanael Sch\"arli, Denny Zhou(参考訳) 大規模言語モデルは様々な自然言語処理タスクで印象的なパフォーマンスを達成している。 しかしながら、これまでは主に、入力コンテキスト内のすべての情報がタスクの解決に関係しているベンチマークで評価されてきた。 本研究では,大規模言語モデルの分散性,すなわち,関係のない文脈でモデル解の精度がどのように影響するかを検討する。 特に,問題記述に無関係な情報を含む算術推論データセットである無関係文脈(gsm-ic)を用いた小学校数学を紹介する。 我々はこのベンチマークを用いて,大規模言語モデルにおける最先端プロンプト手法の分散性を測定し,無関係情報を含む場合,モデル性能が劇的に低下することを確認した。 また,この不足を緩和するためのいくつかのアプローチを明らかにする。例えば,自己矛盾による復号化や,無関係な情報を無視するように言語モデルに指示するプロンプトの追加などである。

Large language models have achieved impressive performance on various natural language processing tasks. However, so far they have been evaluated primarily on benchmarks where all information in the input context is relevant for solving the task. In this work, we investigate the distractibility of large language models, i.e., how the model problem-solving accuracy can be influenced by irrelevant context. In particular, we introduce Grade-School Math with Irrelevant Context (GSM-IC), an arithmetic reasoning dataset with irrelevant information in the problem description. We use this benchmark to measure the distractibility of cutting-edge prompting techniques for large language models, and find that the model performance is dramatically decreased when irrelevant information is included. We also identify several approaches for mitigating this deficiency, such as decoding with self-consistency and adding to the prompt an instruction that tells the language model to ignore the irrelevant information.
翻訳日:2023-02-02 13:51:57 公開日:2023-01-31
# 最適)ギャップを意識する:敵対的ネットのためのギャップ対応学習率スケジューリング

Mind the (optimality) Gap: A Gap-Aware Learning Rate Scheduler for Adversarial Nets ( http://arxiv.org/abs/2302.00089v1 )

ライセンス: Link先を確認
Hussein Hazimeh, Natalia Ponomareva(参考訳) 敵ネットは、生成モデリング(GAN)、伝達学習、公平性など、様々な領域において強力であることが証明されている。 しかし、一階法を用いて敵ネットのトレーニングに成功したことは大きな課題である。 通常、競合するネットワーク間の微妙なバランスを維持するためには、学習率の慎重に選択する必要がある。 本稿では,適切なバランスを維持するために,相手の学習率を動的に適応させる新しい学習率スケジューラを設計する。 スケジューラは、理想の対向ネットの損失が一定の既定値であるという事実によって駆動される。 したがって、スケジューラは、最適化された対向ネットの損失を理想的なネットワークの損失に近づけるように設計されている。 我々は,画像生成のためのganとドメイン適応のための逆ネットという2つの一般的なアプリケーションにおけるスケジューラの有効性を調べるために,大規模実験を行った。 実験の結果,スケジューラでトレーニングした対向ネットは分散しにくく,チューニングが著しく少ないことがわかった。 例えばcelebaでは、スケジューラを持つganは、スケジューラなしで必要なチューニング予算の10分の1しか必要としない。 さらに、スケジューラは、統計的にモデル品質が大幅に改善され、画像生成のためのフレシェ開始距離が最大$27\%、ドメイン適応のためのテスト精度が$3\%になる。

Adversarial nets have proved to be powerful in various domains including generative modeling (GANs), transfer learning, and fairness. However, successfully training adversarial nets using first-order methods remains a major challenge. Typically, careful choices of the learning rates are needed to maintain the delicate balance between the competing networks. In this paper, we design a novel learning rate scheduler that dynamically adapts the learning rate of the adversary to maintain the right balance. The scheduler is driven by the fact that the loss of an ideal adversarial net is a constant known a priori. The scheduler is thus designed to keep the loss of the optimized adversarial net close to that of an ideal network. We run large-scale experiments to study the effectiveness of the scheduler on two popular applications: GANs for image generation and adversarial nets for domain adaptation. Our experiments indicate that adversarial nets trained with the scheduler are less likely to diverge and require significantly less tuning. For example, on CelebA, a GAN with the scheduler requires only one-tenth of the tuning budget needed without a scheduler. Moreover, the scheduler leads to statistically significant improvements in model quality, reaching up to $27\%$ in Frechet Inception Distance for image generation and $3\%$ in test accuracy for domain adaptation.
翻訳日:2023-02-02 13:51:41 公開日:2023-01-31
# 相関性に基づくロバスト回帰に対する適応的スパース性

Adaptive sparseness for correntropy-based robust regression via automatic relevance determination ( http://arxiv.org/abs/2302.00082v1 )

ライセンス: Link先を確認
Yuanhao Li, Badong Chen, Okito Yamashita, Natsue Yoshimura, Yasuharu Koike(参考訳) スパースネスとロバストネスは多くの機械学習シナリオにおいて2つの重要な特性である。 本研究では,mcc(maximum correntropy criterion)に基づくロバスト回帰アルゴリズムについて,mcc法とベイズフレームワークにおける自動妥当性判定(ard)法を統合することにより,mccに基づくロバスト回帰を適応的スパース性で実装できることを示す。 具体的には, MCC の固有雑音仮定を用いて明示的な確率関数を導出し, 変分ベイズ推定に先立って ARD を用いた最大後続推定を実現する。 既存のロバストかつスパースなMCC回帰と比較して、MCC-ARD回帰は正規化強度を制御する正規化ハイパーパラメータの厄介なチューニングを根絶することができる。 さらに, MCC-ARDは, L1正規化MCCよりも優れた予測性能と特徴選択能力を実現している。

Sparseness and robustness are two important properties for many machine learning scenarios. In the present study, regarding the maximum correntropy criterion (MCC) based robust regression algorithm, we investigate to integrate the MCC method with the automatic relevance determination (ARD) technique in a Bayesian framework, so that MCC-based robust regression could be implemented with adaptive sparseness. To be specific, we use an inherent noise assumption from the MCC to derive an explicit likelihood function, and realize the maximum a posteriori (MAP) estimation with the ARD prior by variational Bayesian inference. Compared to the existing robust and sparse L1-regularized MCC regression, the proposed MCC-ARD regression can eradicate the troublesome tuning for the regularization hyper-parameter which controls the regularization strength. Further, MCC-ARD achieves superior prediction performance and feature selection capability than L1-regularized MCC, as demonstrated by a noisy and high-dimensional simulation study.
翻訳日:2023-02-02 13:51:18 公開日:2023-01-31
# オフラインモデル選択のためのbellmanエラーの再検討

Revisiting Bellman Errors for Offline Model Selection ( http://arxiv.org/abs/2302.00141v1 )

ライセンス: Link先を確認
Joshua P. Zitovsky (1), Daniel de Marchi (1), Rishabh Agarwal (2), Michael R. Kosorok (1) ((1) University of North Carolina at Chapel Hill, (2) Google Research Brain Team)(参考訳) オフラインモデル選択(OMS)は、ログデータのみを付与する多くのポリシーセットからベストポリシーを選択することで、実世界の環境でオフラインRLを適用する上で重要である。 広く研究されてきた考え方は、関連するQ-函数の平均2乗ベルマン誤差(MSBE)に基づいてポリシーを選択することである。 しかし、ベルマンの誤りで十分なOMS性能を得るのに苦労し、多くの研究者がこのアイデアを放棄した。 理論的および経験的分析を通じて、ベルマン誤差による悲観的な結果が得られた理由を解明し、ベルマン誤差に基づくOMSアルゴリズムがうまく機能する条件を特定する。 さらに,従来の手法よりも精度の高いmsbeの新しい推定器を開発し,atariゲームを含む多様な離散制御タスクにおいて印象的なoms性能を得る。 私たちは、研究者がより簡単にOMS実験を行えるように、データとコードをオープンソースにしています。

Offline model selection (OMS), that is, choosing the best policy from a set of many policies given only logged data, is crucial for applying offline RL in real-world settings. One idea that has been extensively explored is to select policies based on the mean squared Bellman error (MSBE) of the associated Q-functions. However, previous work has struggled to obtain adequate OMS performance with Bellman errors, leading many researchers to abandon the idea. Through theoretical and empirical analyses, we elucidate why previous work has seen pessimistic results with Bellman errors and identify conditions under which OMS algorithms based on Bellman errors will perform well. Moreover, we develop a new estimator of the MSBE that is more accurate than prior methods and obtains impressive OMS performance on diverse discrete control tasks, including Atari games. We open-source our data and code to enable researchers to conduct OMS experiments more easily.
翻訳日:2023-02-02 13:42:06 公開日:2023-01-31
# 継続的学習に関する包括的調査:理論・方法・応用

A Comprehensive Survey of Continual Learning: Theory, Method and Application ( http://arxiv.org/abs/2302.00487v1 )

ライセンス: Link先を確認
Liyuan Wang, Xingxing Zhang, Hang Su, Jun Zhu(参考訳) 現実世界のダイナミクスに対処するためには、インテリジェントエージェントはその生涯を通じてインクリメンタルに知識を取得し、更新し、蓄積し、活用する必要がある。 この能力は連続学習と呼ばれ、AIシステムが適応的に開発するための基盤を提供する。 一般的な意味では、連続学習は破滅的な放棄によって明示的に制限され、新しいタスクの学習は通常、古いタスクの劇的なパフォーマンス低下をもたらす。 この他にも、継続的な学習の理解と応用を大きく広げる多くの進歩が近年現れている。 この方向への関心の高まりは、その現実的な重要性と複雑さを示している。 本研究では,基礎的設定,理論的基礎,代表的方法,実践的応用を橋渡しする継続的学習に関する総合的な調査を行う。 既存の理論的および実証的な結果に基づいて,連続学習の一般的な目的を,資源効率の文脈における適切な安定性・塑性トレードオフと適切なタスク内一般化可能性を保証するものとして要約する。 次に,最先端かつ精巧な分類法を提供し,代表的な戦略が継続的学習をどのように扱うか,それらがどのように様々な応用における特定の課題に適応するかを広範囲に分析する。 現在の傾向, 方向性, 神経科学との学際的関係の観点からの継続的な学習の深い議論を通じて, このような全体論的な視点は, この分野以降の探究を大いに促進できると信じている。

To cope with real-world dynamics, an intelligent agent needs to incrementally acquire, update, accumulate, and exploit knowledge throughout its lifetime. This ability, known as continual learning, provides a foundation for AI systems to develop themselves adaptively. In a general sense, continual learning is explicitly limited by catastrophic forgetting, where learning a new task usually results in a dramatic performance drop of the old tasks. Beyond this, increasingly numerous advances have emerged in recent years that largely extend the understanding and application of continual learning. The growing and widespread interest in this direction demonstrates its realistic significance as well as complexity. In this work, we present a comprehensive survey of continual learning, seeking to bridge the basic settings, theoretical foundations, representative methods, and practical applications. Based on existing theoretical and empirical results, we summarize the general objectives of continual learning as ensuring a proper stability-plasticity trade-off and an adequate intra/inter-task generalizability in the context of resource efficiency. Then we provide a state-of-the-art and elaborated taxonomy, extensively analyzing how representative strategies address continual learning, and how they are adapted to particular challenges in various applications. Through an in-depth discussion of continual learning in terms of the current trends, cross-directional prospects and interdisciplinary connections with neuroscience, we believe that such a holistic perspective can greatly facilitate subsequent exploration in this field and beyond.
翻訳日:2023-02-02 12:59:23 公開日:2023-01-31
# BOSとEOSラベルの組み合わせによる文の同定

Sentence Identification with BOS and EOS Label Combinations ( http://arxiv.org/abs/2301.13352v1 )

ライセンス: Link先を確認
Takuma Udagawa, Hiroshi Kanayama, Issei Yoshida(参考訳) この文は多くのNLPアプリケーションの基本単位である。 文セグメント化は、入力テキストを文の終端(EOS)を境界として連続した文に分割する最初の前処理タスクとして広く使用されている。 このタスクの定式化は、入力テキストが文のみからなるという強い仮定や、私たちがセンテンシャルユニット(sus)と呼ぶものに依存している。 しかし、現実世界のテキストはメタデータ、文の断片、非言語的マーカーなどの非意味単位(NSU)をしばしば含んでいて、SUの一部として扱うのは不合理または望ましくない。 この問題に取り組むために,与えられたテキスト中のnsusを除外しながらsusを識別することを目的とした,新しい文識別タスクを定式化する。 文識別を行うために,文の開始点(BOS)とEOSラベルを組み合わせて,動的プログラミングに基づく最も確率の高いSUとNSUを決定する,シンプルで効果的な手法を提案する。 このタスクを評価するために,ユニバーサル依存コーパスを文識別ベンチマークに変換するための言語に依存しない自動手順を設計する。 最後に, 文識別タスクに関する実験により, 提案手法は, EOSラベルのみを利用する文分割ベースラインよりも優れていることを示した。

The sentence is a fundamental unit in many NLP applications. Sentence segmentation is widely used as the first preprocessing task, where an input text is split into consecutive sentences considering the end of the sentence (EOS) as their boundaries. This task formulation relies on a strong assumption that the input text consists only of sentences, or what we call the sentential units (SUs). However, real-world texts often contain non-sentential units (NSUs) such as metadata, sentence fragments, nonlinguistic markers, etc. which are unreasonable or undesirable to be treated as a part of an SU. To tackle this issue, we formulate a novel task of sentence identification, where the goal is to identify SUs while excluding NSUs in a given text. To conduct sentence identification, we propose a simple yet effective method which combines the beginning of the sentence (BOS) and EOS labels to determine the most probable SUs and NSUs based on dynamic programming. To evaluate this task, we design an automatic, language-independent procedure to convert the Universal Dependencies corpora into sentence identification benchmarks. Finally, our experiments on the sentence identification task demonstrate that our proposed method generally outperforms sentence segmentation baselines which only utilize EOS labels.
翻訳日:2023-02-01 18:11:29 公開日:2023-01-31
# スパース符号化による無拘束動的後悔

Unconstrained Dynamic Regret via Sparse Coding ( http://arxiv.org/abs/2301.13349v1 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) 時系列予測によってモチベーションを得たオンライン線形最適化(OLO)は,ドメインは非有界であり,アルゴリズムの性能はその動的後悔によって測定される。 いずれかを扱うには、コンパレータシーケンスの特定の複雑さ尺度に依存すること、具体的には、制約のないOLOにおけるコンパレータノルム、ダイナミックな後悔におけるパス長に依存することが必要です。 これら2つの複雑性尺度の組み合わせに適応する最近の研究(jacobsen & cutkosky, 2022)とは対照的に、問題をスパースコーディングに再キャストして別の複雑性尺度を提案する。 適応性は、環境に関するより複雑な事前知識を自然に活用する単純なモジュラーフレームワークによって達成できる。 また,新しい連続時間機械を用いて設計した静的非拘束型OLOに対して,新しい勾配適応アルゴリズムを提案する。 これは独立した関心事かもしれない。

Motivated by time series forecasting, we study Online Linear Optimization (OLO) under the coupling of two problem structures: the domain is unbounded, and the performance of an algorithm is measured by its dynamic regret. Handling either of them requires the regret bound to depend on certain complexity measure of the comparator sequence -- specifically, the comparator norm in unconstrained OLO, and the path length in dynamic regret. In contrast to a recent work (Jacobsen & Cutkosky, 2022) that adapts to the combination of these two complexity measures, we propose an alternative complexity measure by recasting the problem into sparse coding. Adaptivity can be achieved by a simple modular framework, which naturally exploits more intricate prior knowledge of the environment. Along the way, we also present a new gradient adaptive algorithm for static unconstrained OLO, designed using novel continuous time machinery. This could be of independent interest.
翻訳日:2023-02-01 18:11:07 公開日:2023-01-31
# 動的メディエーション分析のための強化学習フレームワーク

A Reinforcement Learning Framework for Dynamic Mediation Analysis ( http://arxiv.org/abs/2301.13348v1 )

ライセンス: Link先を確認
Lin Ge, Jitao Wang, Chengchun Shi, Zhenke Wu, Rui Song(参考訳) メディエーション分析は、治療と結果の間のメディエーター変数を介して伝達される因果効果を学習し、因果関係を解明するために様々な科学領域で注目される。 現存するほとんどの研究は、各被験者が1つの時点にしか治療を受けないポイント露光の研究に焦点をあてている。 しかし、治療が時間とともに順次割り当てられ、動的メディエーション効果が主要な関心事となるアプリケーション(例えば、モバイルヘルス)が多数存在する。 強化学習(RL)フレームワークを提案することで、無限地平地の設定における動的媒介効果を初めて評価する。 平均治療効果を即時直接効果、即時媒介効果、遅延直接効果、遅延媒介効果に分解する。 それぞれの効果成分を同定すると、RLフレームワークの下でより頑健で半パラメトリックで効率的な推定器を開発し、これらの因果効果を推算する。 提案手法の優れた性能は、広範な数値研究、理論的結果、および移動型健康データセットの分析を通じて実証される。

Mediation analysis learns the causal effect transmitted via mediator variables between treatments and outcomes and receives increasing attention in various scientific domains to elucidate causal relations. Most existing works focus on point-exposure studies where each subject only receives one treatment at a single time point. However, there are a number of applications (e.g., mobile health) where the treatments are sequentially assigned over time and the dynamic mediation effects are of primary interest. Proposing a reinforcement learning (RL) framework, we are the first to evaluate dynamic mediation effects in settings with infinite horizons. We decompose the average treatment effect into an immediate direct effect, an immediate mediation effect, a delayed direct effect, and a delayed mediation effect. Upon the identification of each effect component, we further develop robust and semi-parametrically efficient estimators under the RL framework to infer these causal effects. The superior performance of the proposed method is demonstrated through extensive numerical studies, theoretical results, and an analysis of a mobile health dataset.
翻訳日:2023-02-01 18:10:51 公開日:2023-01-31
# パラメータ効率の良いFew Shot学習のための微分エンターメント

Differentiable Entailment for Parameter Efficient Few Shot Learning ( http://arxiv.org/abs/2301.13345v1 )

ライセンス: Link先を確認
Ethan Kim and Jerry Yang(参考訳) トレーニング済みの言語モデルは、限られた数のトレーニング例を使用しながら、下流のタスクに適応することができる。 しかし、すべてのモデルパラメータを最適化する必要がある場合、実用アプリケーションは制限される。 本研究では,パラメータ効率の厳密な定義を取り入れつつ,パラメータ効率を向上する新しい手法を適用した。 我々の訓練方法は 1) 自然言語タスクをentailment Task \cite{wang_entailment_2021} として再構成した中間訓練 2)テンプレートとラベルトークンの微分可能最適化 \cite{zhang_differentiable_2021}。 モデルパラメータの3\%を最適化し、バッチ推論を可能にすることによって、モデルのより効率的な展開を可能にしながら、任意のタスクに拡張可能な単純なモデル非依存アプローチを提案する。

Few-shot learning allows pre-trained language models to adapt to downstream tasks while using a limited number of training examples. However, practical applications are limited when all model parameters must be optimized. In this work we apply a new technique for parameter efficient few shot learning while adopting a strict definition of parameter efficiency. Our training method combines 1) intermediate training by reformulating natural language tasks as entailment tasks \cite{wang_entailment_2021} and 2) differentiable optimization of template and label tokens \cite{zhang_differentiable_2021}. We quantify the tradeoff between parameter efficiency and performance in the few-shot regime and propose a simple model agnostic approach that can be extended to any task By achieving competitive performance while only optimizing 3\% of a model's parameters and allowing for batched inference, we allow for more efficient practical deployment of models.
翻訳日:2023-02-01 18:10:33 公開日:2023-01-31
# 強化学習における政策伝達のための少数ショット画像とセマンティック翻訳

Few-Shot Image-to-Semantics Translation for Policy Transfer in Reinforcement Learning ( http://arxiv.org/abs/2301.13343v1 )

ライセンス: Link先を確認
Rei Sato, Kazuto Fukuchi, Jun Sakuma, Youhei Akimoto(参考訳) 視覚に基づくロボット制御エージェントの学習難易度を軽減すべく,画像から音声への翻訳による方針伝達について検討した。 この問題は、2つの環境を想定している: 意味論を持つシミュレータ環境、すなわち、状態空間としての低次元および必須情報、および状態空間としてのイメージを持つ実世界環境。 画像からセマンティクスへのマッピングを学習することにより、シミュレータで事前訓練されたポリシーを現実世界に移行し、学習に要する現実世界のエージェントインタラクションを排除し、コストがかかり危険である。 さらに, 画像からセマンティックスへのマッピングは, 他のタイプのsim-to-real転送戦略に対して, 得られたポリシの訓練と解釈可能性において, 計算効率の面で有利である。 トレーニングデータセットを作成するための人的アノテーションコストであるイメージ・ツー・セマンティックス・マッピングの学習の難しさに対処するために,シミュレータ環境における遷移関数とのペア増強とアクティブラーニングという2つの手法を提案する。 提案手法は,翻訳性能を低下させることなくアノテーションコストの低減を図り,提案手法はアノテーションなしで既存の手法よりも優れていた。

We investigate policy transfer using image-to-semantics translation to mitigate learning difficulties in vision-based robotics control agents. This problem assumes two environments: a simulator environment with semantics, that is, low-dimensional and essential information, as the state space, and a real-world environment with images as the state space. By learning mapping from images to semantics, we can transfer a policy, pre-trained in the simulator, to the real world, thereby eliminating real-world on-policy agent interactions to learn, which are costly and risky. In addition, using image-to-semantics mapping is advantageous in terms of the computational efficiency to train the policy and the interpretability of the obtained policy over other types of sim-to-real transfer strategies. To tackle the main difficulty in learning image-to-semantics mapping, namely the human annotation cost for producing a training dataset, we propose two techniques: pair augmentation with the transition function in the simulator environment and active learning. We observed a reduction in the annotation cost without a decline in the performance of the transfer, and the proposed approach outperformed the existing approach without annotation.
翻訳日:2023-02-01 18:10:21 公開日:2023-01-31
# グラフコントラスト学習における親和性不確実性に基づくハードネガティブマイニング

Affinity Uncertainty-based Hard Negative Mining in Graph Contrastive Learning ( http://arxiv.org/abs/2301.13340v1 )

ライセンス: Link先を確認
Chaoxi Niu, Guansong Pang, Ling Chen(参考訳) ハードネガティブマイニングは,グラフコントラスト学習(gcl)を含む多種多様なデータ型に対する自己教師ありコントラスト学習(cl)の強化に有効である。 既存のハードネスを意識したCLメソッドは、通常、アンカーインスタンスと最もよく似た負のインスタンスをハードネガティブとして扱い、特に画像データにおいてCLのパフォーマンスを改善するのに役立つ。 しかし、このアプローチはしばしばハードネガティブを特定することに失敗するが、グラフデータに多くの偽陰性をもたらす。 これは主に、学習されたグラフ表現が、過剰な滑らかな表現やグラフデータの非i.d.問題のために十分に識別できないためである。 本稿では,集合的親和性情報(すなわち,負のインスタンスとアンカーのインスタンスの間の2組のペアワイズ親和性)に基づく識別モデルを構築し,gclの強負をマイニングする新しい手法を提案する。 特に,本提案手法は,各負のインスタンスとアンカーインスタンスとの親和性について,識別モデルの信頼性/不確かさを評価し,アンカーインスタンスに対してその硬度重みを決定する。 この不確実性情報を重み付け項を介して既存のGCL損失関数に組み込んで性能を高める。 拡張gclは理論的に、得られたgcl損失は三重項損失と同値であり、適応マージンは各負のインスタンスの学習された不確かさに指数関数的に比例する。 10のグラフデータセットに関する広範囲な実験は、我々のアプローチが 一 グラフ及びノード分類タスクにおいて、異なる最先端gclメソッドを一貫して強化すること、及び 二 敵の攻撃に対する強固さを著しく改善すること。

Hard negative mining has shown effective in enhancing self-supervised contrastive learning (CL) on diverse data types, including graph contrastive learning (GCL). Existing hardness-aware CL methods typically treat negative instances that are most similar to the anchor instance as hard negatives, which helps improve the CL performance, especially on image data. However, this approach often fails to identify the hard negatives but leads to many false negatives on graph data. This is mainly due to that the learned graph representations are not sufficiently discriminative due to over-smooth representations and/or non-i.i.d. issues in graph data. To tackle this problem, this paper proposes a novel approach that builds a discriminative model on collective affinity information (i.e, two sets of pairwise affinities between the negative instances and the anchor instance) to mine hard negatives in GCL. In particular, the proposed approach evaluates how confident/uncertain the discriminative model is about the affinity of each negative instance to an anchor instance to determine its hardness weight relative to the anchor instance. This uncertainty information is then incorporated into existing GCL loss functions via a weighting term to enhance their performance. The enhanced GCL is theoretically grounded that the resulting GCL loss is equivalent to a triplet loss with an adaptive margin being exponentially proportional to the learned uncertainty of each negative instance. Extensive experiments on 10 graph datasets show that our approach i) consistently enhances different state-of-the-art GCL methods in both graph and node classification tasks, and ii) significantly improves their robustness against adversarial attacks.
翻訳日:2023-02-01 18:09:59 公開日:2023-01-31
# 連続時空間変圧器

Continuous Spatiotemporal Transformers ( http://arxiv.org/abs/2301.13338v1 )

ライセンス: Link先を確認
Antonio H. de O. Fonseca, Emanuele Zappala, Josue Ortega Caro, David van Dijk(参考訳) 時空間力学系のモデリングは機械学習の基本的な課題である。 トランスフォーマーモデルは、データの解釈可能な表現を提供するnlpおよびコンピュータビジョンで非常に成功している。 しかし、連続力学系のモデリングにおける変圧器の制限は、基本的に離散時間と空間モデルであり、したがって連続サンプリングに関する保証がないことである。 この課題に対処するため,我々は連続システムモデリング用に設計された新しいトランスフォーマアーキテクチャである連続時空間トランスフォーマ(cst)を提案する。 この新しいフレームワークは、ソボレフ空間の最適化による連続的でスムーズな出力を保証する。 我々はCSTを従来のトランスフォーマーや時空間力学モデリング法と比較し、カルシウムイメージングデータから脳のダイナミクスを学習するなど、合成および実システムにおける多くのタスクにおいて優れた性能を発揮する。

Modeling spatiotemporal dynamical systems is a fundamental challenge in machine learning. Transformer models have been very successful in NLP and computer vision where they provide interpretable representations of data. However, a limitation of transformers in modeling continuous dynamical systems is that they are fundamentally discrete time and space models and thus have no guarantees regarding continuous sampling. To address this challenge, we present the Continuous Spatiotemporal Transformer (CST), a new transformer architecture that is designed for the modeling of continuous systems. This new framework guarantees a continuous and smooth output via optimization in Sobolev space. We benchmark CST against traditional transformers as well as other spatiotemporal dynamics modeling methods and achieve superior performance in a number of tasks on synthetic and real systems, including learning brain dynamics from calcium imaging data.
翻訳日:2023-02-01 18:09:29 公開日:2023-01-31
# ミススペクテーション・ローバストシーケンスニューラルな類似性

Misspecification-robust Sequential Neural Likelihood ( http://arxiv.org/abs/2301.13368v1 )

ライセンス: Link先を確認
Ryan P. Kelly and David J. Nott and David T. Frazier and David J. Warne and Chris Drovandi(参考訳) シミュレーションベース推論 (sbi) 技術は, 機械論モデルとシミュレーション可能なモデルのパラメータ推定に欠かせないツールである。 ベイズ近似計算やベイズ合成可能性のようなSBIに対する統計的アプローチは、明確に特定され、不特定な設定でよく研究されている。 しかし、ほとんどの実装は、多くのモデルシミュレーションが無駄になる非効率である。 逐次的ニューラルチャンス(SNL)のようなニューラルアプローチは、全てのモデルシミュレーションを利用して確率関数のサロゲートを構築する。 しかし、SNLアプローチはモデルミス仕様の下では不十分であることが示されている。 本稿では,SNLの非特異性をモデル化し,そのモデルが不十分な領域を同定する手法を提案する。 いくつかの例に新しいアプローチの有用性を示す。

Simulation-based inference (SBI) techniques are now an essential tool for the parameter estimation of mechanistic and simulatable models with intractable likelihoods. Statistical approaches to SBI such as approximate Bayesian computation and Bayesian synthetic likelihood have been well studied in the well specified and misspecified settings. However, most implementations are inefficient in that many model simulations are wasted. Neural approaches such as sequential neural likelihood (SNL) have been developed that exploit all model simulations to build a surrogate of the likelihood function. However, SNL approaches have been shown to perform poorly under model misspecification. In this paper, we develop a new method for SNL that is robust to model misspecification and can identify areas where the model is deficient. We demonstrate the usefulness of the new approach on several illustrative examples.
翻訳日:2023-02-01 18:02:28 公開日:2023-01-31
# CaraNet:小さな医療対象のセグメンテーションのためのコンテキスト軸逆アテンションネットワーク

CaraNet: Context Axial Reverse Attention Network for Segmentation of Small Medical Objects ( http://arxiv.org/abs/2301.13366v1 )

ライセンス: Link先を確認
Ange Lou, Shuyue Guan, Murray Loew(参考訳) 疾患の診断と治療には, 医用画像の正確かつ確実な分離が重要である。 様々な物体のサイズ、形状、および走査モーダル性のため、これは難しい課題である。 近年、多くの畳み込みニューラルネットワーク(CNN)がセグメンテーションタスク用に設計され、大きな成功を収めている。 しかし、オブジェクトのサイズを十分に考慮している研究はほとんどなく、したがって小さなオブジェクトのセグメンテーションの性能は低い。 これは病気の早期発見に大きな影響を与える可能性がある。 本稿では,いくつかの最先端モデルと比較して,小さなオブジェクトのセグメンテーション性能を向上させるためのコンテキスト軸逆アテンションネットワーク(CaraNet)を提案する。 caranet は axial reserve attention (ara) と channel-wise feature pyramid (cfp) モジュールを適用し、小さな医療対象の特徴情報を発掘する。 そして、6つの異なる測定指標でモデルを評価する。 脳腫瘍(BraTS 2018)とポリープ(Kvasir-SEG, CVC-ColonDB, CVC-ClinicDB, CVC-300, ETIS-LaribPolypDB)のセグメンテーションデータセットをテストした。 私たちのカラネットは平均ダイスセグメンテーションの精度をトップランクで達成し,小型医療機器のセグメンテーションにおけるカラネットのアドバンテージを示す。

Segmenting medical images accurately and reliably is important for disease diagnosis and treatment. It is a challenging task because of the wide variety of objects' sizes, shapes, and scanning modalities. Recently, many convolutional neural networks (CNN) have been designed for segmentation tasks and achieved great success. Few studies, however, have fully considered the sizes of objects, and thus most demonstrate poor performance for small objects segmentation. This can have a significant impact on the early detection of diseases. This paper proposes a Context Axial Reverse Attention Network (CaraNet) to improve the segmentation performance on small objects compared with several recent state-of-the-art models. CaraNet applies axial reserve attention (ARA) and channel-wise feature pyramid (CFP) module to dig feature information of small medical object. And we evaluate our model by six different measurement metrics. We test our CaraNet on brain tumor (BraTS 2018) and polyp (Kvasir-SEG, CVC-ColonDB, CVC-ClinicDB, CVC-300, and ETIS-LaribPolypDB) segmentation datasets. Our CaraNet achieves the top-rank mean Dice segmentation accuracy, and results show a distinct advantage of CaraNet in the segmentation of small medical objects.
翻訳日:2023-02-01 18:02:09 公開日:2023-01-31
# Bosonic Quantum Memristorに対する可変非マルコフ性

Tunable Non-Markovianity for Bosonic Quantum Memristors ( http://arxiv.org/abs/2301.13365v1 )

ライセンス: Link先を確認
J.-L. Tang, G. Alvarado Barrios, E. Solano and F. Albarr\'an-Arriagada(参考訳) 熱貯留層に埋め込まれた補助量子ビットの集合への結合1によるボソニックモードの非マルコビアン性の調整可能な制御について検討した。 具体的には、Tavis-Cummingsモデルにより記述された補助量子ビットに結合したキャビティ2モードを考える。 メリットの図式として、3 では力学的非マルコフ性(英語版)(dynamical non-Markovianity)を、システムの初期状態への回帰傾向として定義する。 この動的非マルコフ性5が量子ビット周波数でどのように操作できるかを考察する。 補助系6の制御がキャビティダイナミクスに有効時間依存的減衰率として影響を及ぼすことを見出した。 最後に、この7つの波長可変時間依存的減衰速度が、ニューロモルフィック量子技術開発の基本となる8つの記憶効果を含むボソニック量子メmristorにどのように調整されるかを示す。

We study the tunable control of the non-Markovianity of a bosonic mode due to its coupling 1 to a set of auxiliary qubits, both embedded in a thermal reservoir. Specifically, we consider a cavity 2 mode coupled to auxiliary qubits described by the Tavis-Cummings model. As a figure of merit, 3 we define the dynamical non-Markovianity as the tendency of a system to return to its initial state, 4 instead of evolving monotonically to its steady state. We study how this dynamical non-Markovianity 5 can be manipulated in terms of the qubit frequency. We find that the control of the auxiliary systems 6 affects the cavity dynamics as an effective time-dependent decay rate. Finally, we show how this 7 tunable time-dependent decay rate can be tuned to engineer bosonic quantum memristors, involving 8 memory effects that are fundamental for developing neuromorphic quantum technologies.
翻訳日:2023-02-01 18:01:45 公開日:2023-01-31
# ショートカットファインチューニングによるDDPMサンプリングの最適化

Optimizing DDPM Sampling with Shortcut Fine-Tuning ( http://arxiv.org/abs/2301.13362v1 )

ライセンス: Link先を確認
Ying Fan, Kangwook Lee(参考訳) 本研究では,事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングに挑戦する新しいアプローチであるショートカットファインチューニング(SFT)を提案する。 SFTは、後方拡散過程を学ぶ代わりに、積分確率メトリック(IPM)の直接最小化によるDDPMサンプリングの微調整を提唱している。 これにより、サンプルは後方拡散プロセスから逸脱して、より効率的で効率的なサンプリングショートカットを見つけることができる。 また,特定の仮定の下で拡散モデルの勾配降下がポリシー勾配アプローチと等価であることを証明し,ddpmを微調整するためのポリシー勾配法と類似した新しいアルゴリズムを提案する。 実験結果から,本手法は既存の高速ddpmサンプラーをさらに向上させ,様々なデータセットにまたがるフルステップモデルに匹敵する,あるいは匹敵する品質のサンプルが得られることを示した。

In this study, we propose Shortcut Fine-tuning (SFT), a new approach for addressing the challenge of fast sampling of pretrained Denoising Diffusion Probabilistic Models (DDPMs). SFT advocates for the fine-tuning of DDPM samplers through the direct minimization of Integral Probability Metrics (IPM), instead of learning the backward diffusion process. This enables samplers to discover an alternative and more efficient sampling shortcut, deviating from the backward diffusion process. We also propose a new algorithm that is similar to the policy gradient method for fine-tuning DDPMs by proving that under certain assumptions, the gradient descent of diffusion models is equivalent to the policy gradient approach. Through empirical evaluation, we demonstrate that our fine-tuning method can further enhance existing fast DDPM samplers, resulting in sample quality comparable to or even surpassing that of the full-step model across various datasets.
翻訳日:2023-02-01 18:01:28 公開日:2023-01-31
# ドメイン適応意味セグメンテーションのための自己学習とアクティブ学習を組み合わせた反復ループ学習

Iterative Loop Learning Combining Self-Training and Active Learning for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2301.13361v1 )

ライセンス: Link先を確認
Licong Guan, Xue Yuan(参考訳) 近年,この問題を軽減するために,自己学習とアクティブラーニングが提案されている。 自己学習は、膨大なラベル付きデータでモデルの精度を向上させることができるが、ノイズを含む擬似ラベルは、限られたまたは不均衡なトレーニングデータで生成される。 人間の指導がなければ、最適以下のモデルも存在します。 アクティブラーニングは介入すべきより効果的なデータを選択できるが、大量のラベルのないデータが使われないため、モデルの精度は向上しない。 そして、ドメイン差が大きいとサブ最適サンプルをクエリする確率が増加し、アノテーションのコストが増加する。 本稿では,ドメイン適応型セマンティックセグメンテーションのための自己学習とアクティブラーニングを組み合わせた反復ループ学習手法を提案する。 この方法は、まず自己学習を使って大量のラベルのないデータを学習し、モデルの精度を高め、アクティブラーニングのためのより正確な選択モデルを提供する。 第二に、アクティブラーニングのサンプル選択戦略と組み合わせることで、自己学習の修正に手作業による介入が用いられる。 最小限のラベルコストで最高のパフォーマンスを達成するための反復ループ。 その結果, GTAV から Cityscapes , SynTHIA から Cityscapes へのタスクに対して, 従来手法と比較して4.9% mIoU と 5.2% mIoU の改善が得られた。 コードは利用可能だ。

Recently, self-training and active learning have been proposed to alleviate this problem. Self-training can improve model accuracy with massive unlabeled data, but some pseudo labels containing noise would be generated with limited or imbalanced training data. And there will be suboptimal models if human guidance is absent. Active learning can select more effective data to intervene, while the model accuracy can not be improved because the massive unlabeled data are not used. And the probability of querying sub-optimal samples will increase when the domain difference is too large, increasing annotation cost. This paper proposes an iterative loop learning method combining Self-Training and Active Learning (STAL) for domain adaptive semantic segmentation. The method first uses self-training to learn massive unlabeled data to improve model accuracy and provide more accurate selection models for active learning. Secondly, combined with the sample selection strategy of active learning, manual intervention is used to correct the self-training learning. Iterative loop to achieve the best performance with minimal label cost. Extensive experiments show that our method establishes state-of-the-art performance on tasks of GTAV to Cityscapes, SYNTHIA to Cityscapes, improving by 4.9% mIoU and 5.2% mIoU, compared to the previous best method, respectively. Code will be available.
翻訳日:2023-02-01 18:01:13 公開日:2023-01-31
# 畳み込みニューラルネットワーク(CNN)による骨格に基づく人間行動認識

Skeleton-based Human Action Recognition via Convolutional Neural Networks (CNN) ( http://arxiv.org/abs/2301.13360v1 )

ライセンス: Link先を確認
Ayman Ali, Ekkasit Pinyoanuntapong, Pu Wang, Mohsen Dorodchi(参考訳) 近年, 計算効率, 代表的特徴, 照明のばらつきなど, 様々な有利な特徴から, 研究コミュニティにおける骨格に基づく行動認識への関心が高まっている。 それにもかかわらず、研究者は骨格表現と抽出された特徴を通して人間の行動を表現する最も最適な方法を探求し、研究を続けている。 その結果、人間の行動認識データセットの成長と可用性は著しく上昇した。 さらに、様々なコンピュータビジョンタスクの顕著な進歩により、ディープラーニングベースのアルゴリズムが広く普及している。 骨格に基づく行動認識における最先端の貢献のほとんどは、人体を表現し特徴を抽出するグラフニューラルネットワーク(GCN)アーキテクチャを取り入れている。 我々の研究は、CNN(Convolutional Neural Networks)がGCNに匹敵する結果が得られることを示した。 我々のアプローチは厳格に検証され、NTU-60データセットで95%のスコアを得た。

Recently, there has been a remarkable increase in the interest towards skeleton-based action recognition within the research community, owing to its various advantageous features, including computational efficiency, representative features, and illumination invariance. Despite this, researchers continue to explore and investigate the most optimal way to represent human actions through skeleton representation and the extracted features. As a result, the growth and availability of human action recognition datasets have risen substantially. In addition, deep learning-based algorithms have gained widespread popularity due to the remarkable advancements in various computer vision tasks. Most state-of-the-art contributions in skeleton-based action recognition incorporate a Graph Neural Network (GCN) architecture for representing the human body and extracting features. Our research demonstrates that Convolutional Neural Networks (CNNs) can attain comparable results to GCN, provided that the proper training techniques, augmentations, and optimizers are applied. Our approach has been rigorously validated, and we have achieved a score of 95% on the NTU-60 dataset
翻訳日:2023-02-01 18:00:49 公開日:2023-01-31
# im-iad:工業用画像異常検出ベンチマーク

IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing ( http://arxiv.org/abs/2301.13359v1 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Jiaqi Liu, Jiayi Lyu, Yong Liu, Chengjie Wang, Feng Zheng, Yaochu Jin(参考訳) 画像異常検出(英: Image Anomaly Detection, IAD)は、産業生産におけるコンピュータビジョンの課題である。 近年多くの高度なアルゴリズムが公表されているが、性能は大幅に低下している。 実際のIM設定の欠如は、現実世界のアプリケーションにおけるこれらの手法の開発と利用を妨げていると考えられる。 我々の知る限り、IAD法は体系的に評価されていない。 その結果、研究者は異なるケースや特殊なケースのために設計されているため、分析を困難にしている。 この問題を解決するために,まず,様々な監視レベル(教師なしと半教師なし),少数ショット学習,連続学習,ノイズラベル,メモリ使用量,推論速度などを含む,アルゴリズムの性能を評価するための一様im設定を提案する。 さらに、均一な設定で7つの主流データセットに16のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を巧みに構築する。 我々の広範な実験(合計17,017件)は、im設定下でiadアルゴリズムの再設計や選択に関する深い洞察を提供する。 次に、提案するベンチマークIM-IADは、今後の方向性と同様に課題を与える。 再現性とアクセシビリティを向上させるため、IM-IADのソースコードはhttps://github.com/M-3LAB/IM-IAD.comにアップロードされる。

Image anomaly detection (IAD) is an emerging and vital computer vision task in industrial manufacturing (IM). Recently many advanced algorithms have been published, but their performance deviates greatly. We realize that the lack of actual IM settings most probably hinders the development and usage of these methods in real-world applications. As far as we know, IAD methods are not evaluated systematically. As a result, this makes it difficult for researchers to analyze them because they are designed for different or special cases. To solve this problem, we first propose a uniform IM setting to assess how well these algorithms perform, which includes several aspects, i.e., various levels of supervision (unsupervised vs. semi-supervised), few-shot learning, continual learning, noisy labels, memory usage, and inference speed. Moreover, we skillfully build a comprehensive image anomaly detection benchmark (IM-IAD) that includes 16 algorithms on 7 mainstream datasets with uniform settings. Our extensive experiments (17,017 in total) provide in-depth insights for IAD algorithm redesign or selection under the IM setting. Next, the proposed benchmark IM-IAD gives challenges as well as directions for the future. To foster reproducibility and accessibility, the source code of IM-IAD is uploaded on the website, https://github.com/M-3LAB/IM-IAD.
翻訳日:2023-02-01 18:00:34 公開日:2023-01-31
# 可逆画像のデノイジングとそれを超える階層的不等角表現

Hierarchical Disentangled Representation for Invertible Image Denoising and Beyond ( http://arxiv.org/abs/2301.13358v1 )

ライセンス: Link先を確認
Wenchao Du, Hu Chen, Yi Zhang, and H. Yang(参考訳) 画像のデノイジングは複雑な劣化による典型的な不適切な問題である。 正規化フローに基づくリード法は、決定論的写像の代わりに可逆変換を用いてこの問題を解こうとしている。 しかし、暗黙の単射写像はよく調べられていない。 画像の高周波部分にノイズが現れる傾向にあるという潜時観察に着想を得て, 一般の非可逆ニューラルネットワークに非絡み合い学習のアイデアを注入し, 高周波部分からノイズを分離する, 完全可逆デノナイジング法を提案する。 より具体的には、ノイズ像を可逆変換を伴うクリーンな低周波およびハイブリッドな高周波部品に分解し、次に潜在空間におけるケース固有ノイズと高周波成分を分解する。 これにより、ノイズのない低周波部品と高周波部品とを逆にマージしてデノナイジングを可能にする。 さらに,低周波画像情報のほとんどを分解し,かつ,高周波部分からのノイズを粗度から細度に分離するフレキシブルな階層的不等角化フレームワークを構築した。 実画像のデノイジング,jpeg圧縮アーティファクト除去,医療用低線量ct画像復元に関する広範な実験により,提案手法が定量的指標と視覚品質の両方において,計算コストを著しく低減し,競合する性能を達成できることが実証された。

Image denoising is a typical ill-posed problem due to complex degradation. Leading methods based on normalizing flows have tried to solve this problem with an invertible transformation instead of a deterministic mapping. However, the implicit bijective mapping is not explored well. Inspired by a latent observation that noise tends to appear in the high-frequency part of the image, we propose a fully invertible denoising method that injects the idea of disentangled learning into a general invertible neural network to split noise from the high-frequency part. More specifically, we decompose the noisy image into clean low-frequency and hybrid high-frequency parts with an invertible transformation and then disentangle case-specific noise and high-frequency components in the latent space. In this way, denoising is made tractable by inversely merging noiseless low and high-frequency parts. Furthermore, we construct a flexible hierarchical disentangling framework, which aims to decompose most of the low-frequency image information while disentangling noise from the high-frequency part in a coarse-to-fine manner. Extensive experiments on real image denoising, JPEG compressed artifact removal, and medical low-dose CT image restoration have demonstrated that the proposed method achieves competing performance on both quantitative metrics and visual quality, with significantly less computational cost.
翻訳日:2023-02-01 18:00:13 公開日:2023-01-31
# トランスフォーマー法医学における敵対的攻撃の推理時間的証拠

Inference Time Evidences of Adversarial Attacks for Forensic on Transformers ( http://arxiv.org/abs/2301.13356v1 )

ライセンス: Link先を確認
Hugo Lemarchant, Liangzi Li, Yiming Qian, Yuta Nakashima, Hajime Nagahara(参考訳) 視覚変換器(ViT)は、画像分類における最先端のパフォーマンスを達成するため、視覚タスクにおいて非常に一般的なパラダイムになりつつある。 しかしながら、初期の研究は、このネットワーク構造が敵の攻撃に対して堅牢性を高めたことを示唆していたが、ViTはまだ脆弱であると主張する研究もある。 本稿では,ネットワークの入力と出力と潜在機能を用いて,推論時間中に逆攻撃を検出する最初の試みを示す。 我々は,vitに基づくモデルの入力,出力,潜在ベクトルの4つの定量化(あるいは導出)を設計,その推論のシグネチャを提供する。 その結果、入力(画像)と出力(後確率)からの定量化は、クリーンなサンプルと逆さまのサンプルを区別するのに有望であるが、潜在ベクトルは識別力が少ないが、逆摂動がどのように機能するかについての洞察を与えている。

Vision Transformers (ViTs) are becoming a very popular paradigm for vision tasks as they achieve state-of-the-art performance on image classification. However, although early works implied that this network structure had increased robustness against adversarial attacks, some works argue ViTs are still vulnerable. This paper presents our first attempt toward detecting adversarial attacks during inference time using the network's input and outputs as well as latent features. We design four quantifications (or derivatives) of input, output, and latent vectors of ViT-based models that provide a signature of the inference, which could be beneficial for the attack detection, and empirically study their behavior over clean samples and adversarial samples. The results demonstrate that the quantifications from input (images) and output (posterior probabilities) are promising for distinguishing clean and adversarial samples, while latent vectors offer less discriminative power, though they give some insights on how adversarial perturbations work.
翻訳日:2023-02-01 17:59:46 公開日:2023-01-31
# 測定効率の高い量子クリロフ部分空間対角化

Measurement-efficient quantum Krylov subspace diagonalisation ( http://arxiv.org/abs/2301.13353v1 )

ライセンス: Link先を確認
Zongkang Zhang, Anbang Wang, Xiaosi Xu, Ying Li(参考訳) クリロフ部分空間法は線型代数問題において最も重要な古典的数値法の一つのカテゴリであり、それらの量子一般化はより強力である。 しかし、量子クリロフ部分空間アルゴリズムは、量子測定における必然的な統計的ゆらぎのためにエラーを起こしやすい。 この問題に対処するために,統計誤差と測定コストを解析するための一般的な理論的枠組みを開発した。 この枠組みに基づき、測定コストを最小化できるハミルトニアン・パワー・クリロフ部分空間を構成する量子アルゴリズムを提案する。 本アルゴリズムでは,ハミルトニアンのパワー関数とガウス関数の積を,量子コンピュータ上で評価できるように,実時間発展の積分として表現する。 我々のアルゴリズムを他の確立された量子クリロフ部分空間アルゴリズムと比較し、2つの顕著な例を解く。 その結果,本アルゴリズムの計測値は,通常,他のアルゴリズムの10^4$から10^{12}$であることがわかった。 このような改善は、プロジェクタを基底状態に構成するコストの削減に起因することができる。 これらの結果から,本アルゴリズムは統計的変動に対して極めて頑健であり,実用的な応用に期待できることを示す。

The Krylov subspace methods, being one category of the most important classical numerical methods for linear algebra problems, their quantum generalisation can be much more powerful. However, quantum Krylov subspace algorithms are prone to errors due to inevitable statistical fluctuations in quantum measurements. To address this problem, we develop a general theoretical framework to analyse the statistical error and measurement cost. Based on the framework, we propose a quantum algorithm to construct the Hamiltonian-power Krylov subspace that can minimise the measurement cost. In our algorithm, the product of power and Gaussian functions of the Hamiltonian is expressed as an integral of the real-time evolution, such that it can be evaluated on a quantum computer. We compare our algorithm with other established quantum Krylov subspace algorithms in solving two prominent examples. It is shown that the measurement number in our algorithm is typically $10^4$ to $10^{12}$ times smaller than other algorithms. Such an improvement can be attributed to the reduced cost of composing projectors onto the ground state. These results show that our algorithm is exceptionally robust to statistical fluctuations and promising for practical applications.
翻訳日:2023-02-01 17:59:27 公開日:2023-01-31
# リテラシーからの栄養:大規模言語モデルからの創発的スキルとしてのデータサイエンス

Numeracy from Literacy: Data Science as an Emergent Skill from Large Language Models ( http://arxiv.org/abs/2301.13382v1 )

ライセンス: Link先を確認
David Noever, Forrest McKee(参考訳) OpenAIのChatGPTやGPT-3のような大規模言語モデル(LLM)は、リテラシーを数字化するための翻訳課題を探求するためのユニークなテストベッドを提供する。 以前の18ヶ月前から1000倍小型の変圧器は基本的な算術を提供できなかった。 ここで説明する4つの複雑なデータセットの統計解析は、単純な規則で記憶または符号化できない算術演算を組み合わせる。 本研究は、文の完成から実際の数値理解の領域への次の予測が成功するかどうかを考察する。 例えば、LLMが最初にメモリからロードするか、pythonライブラリを使ってランダムに生成するインメモリデータセットに関する記述統計のケースを強調している。 その結果得られた探索的データ分析は、モデルがカテゴリの合計をグループ化し、特徴の重要度を推測し、相関を導出し、線形回帰を用いて見当たらないテストケースを予測する能力を示す。 モデルのテスト可能な範囲を拡張するために、リコールだけで創発的数理を説明できないようなランダムな行を削除および追加する。

Large language models (LLM) such as OpenAI's ChatGPT and GPT-3 offer unique testbeds for exploring the translation challenges of turning literacy into numeracy. Previous publicly-available transformer models from eighteen months prior and 1000 times smaller failed to provide basic arithmetic. The statistical analysis of four complex datasets described here combines arithmetic manipulations that cannot be memorized or encoded by simple rules. The work examines whether next-token prediction succeeds from sentence completion into the realm of actual numerical understanding. For example, the work highlights cases for descriptive statistics on in-memory datasets that the LLM initially loads from memory or generates randomly using python libraries. The resulting exploratory data analysis showcases the model's capabilities to group by or pivot categorical sums, infer feature importance, derive correlations, and predict unseen test cases using linear regression. To extend the model's testable range, the research deletes and appends random rows such that recall alone cannot explain emergent numeracy.
翻訳日:2023-02-01 17:53:32 公開日:2023-01-31
# ソース不要なドメイン適応がノイズラベルによる学習に遭遇する時

When Source-Free Domain Adaptation Meets Learning with Noisy Labels ( http://arxiv.org/abs/2301.13381v1 )

ライセンス: Link先を確認
Li Yi, Gezheng Xu, Pengcheng Xu, Jiaqi Li, Ruizhi Pu, Charles Ling, A. Ian McLeod and Boyu Wang(参考訳) 最近のsfda(state-of-the-art source-free domain adaptation)法は、プライベートなソースデータにアクセスせずに、ソースドメインからラベルなしのターゲットドメインへの知識の適用に成功した、機能空間における有意義なクラスタ構造を学ぶことに重点を置いている。 しかし、既存の手法は、ドメインシフトによってノイズになりうるソースモデルによって生成される擬似ラベルに依存している。 本稿では,ラベルノイズ(LLN)を用いた学習の観点からSFDAについて検討する。 従来のLLNシナリオのラベルノイズとは異なり、SFDAのラベルノイズは異なる分布仮定に従っていることを示す。 また, この差が, SFDA のラベルノイズに対処できない分布仮定に依存する既存のLLN法を立証する。 実証的な証拠は、既存のLLN法を適用してSFDAの問題を解決する際に、限界的な改善のみが達成されることを示している。 一方,2つのシナリオにはラベルノイズに根本的な違いがあるものの,従来のラベルノイズ設定ではこれまで観測されていた早期学習現象(ETP)がSFDA問題でも観察できることが理論的に証明されている。 SFDAのラベルノイズに対処するためにETPを活用することで既存のSFDAアルゴリズムを大幅に改善した。

Recent state-of-the-art source-free domain adaptation (SFDA) methods have focused on learning meaningful cluster structures in the feature space, which have succeeded in adapting the knowledge from source domain to unlabeled target domain without accessing the private source data. However, existing methods rely on the pseudo-labels generated by source models that can be noisy due to domain shift. In this paper, we study SFDA from the perspective of learning with label noise (LLN). Unlike the label noise in the conventional LLN scenario, we prove that the label noise in SFDA follows a different distribution assumption. We also prove that such a difference makes existing LLN methods that rely on their distribution assumptions unable to address the label noise in SFDA. Empirical evidence suggests that only marginal improvements are achieved when applying the existing LLN methods to solve the SFDA problem. On the other hand, although there exists a fundamental difference between the label noise in the two scenarios, we demonstrate theoretically that the early-time training phenomenon (ETP), which has been previously observed in conventional label noise settings, can also be observed in the SFDA problem. Extensive experiments demonstrate significant improvements to existing SFDA algorithms by leveraging ETP to address the label noise in SFDA.
翻訳日:2023-02-01 17:53:12 公開日:2023-01-31
# グラフカットを用いた時間周波数領域オーディオクロスフェードの自動生成

Automated Time-frequency Domain Audio Crossfades using Graph Cuts ( http://arxiv.org/abs/2301.13380v1 )

ライセンス: Link先を確認
Kyle Robinson, Dan Brown(参考訳) あるオーディオクリップから別のオーディオクリップへスムーズに移行する問題は、特に音楽消費がプロのキュレートされたライブストリーミングラジオからパーソナルな再生デバイスやサービスへと移行してきたため、多くの音楽消費シナリオで発生する。 周波数スペクトルをビンに判別し,各ビンの遷移時間を求めることによって,音声クリップから別の音声クリップへ自動的に遷移する新しい方法を提案する。 この問題をグラフフロー最適化の1つ、具体的にはmin-cut/max-flowと表現する。

The problem of transitioning smoothly from one audio clip to another arises in many music consumption scenarios, especially as music consumption has moved from professionally curated and live-streamed radios to personal playback devices and services. we present the first steps toward a new method of automatically transitioning from one audio clip to another by discretizing the frequency spectrum into bins and then finding transition times for each bin. We phrase the problem as one of graph flow optimization; specifically min-cut/max-flow.
翻訳日:2023-02-01 17:52:50 公開日:2023-01-31
# 忠実な思考連鎖の推論

Faithful Chain-of-Thought Reasoning ( http://arxiv.org/abs/2301.13379v1 )

ライセンス: Link先を確認
Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, Chris Callison-Burch(参考訳) CoT(Chain-of-Thought)が言語モデル(LM)のパフォーマンスを、複雑な推論タスクで促進する一方で、生成された推論チェーンは、モデルが解答(すなわち忠実性)にどのように到着するかを必ずしも反映していない。 我々は,論理処理を翻訳(自然言語クエリ$\rightarrow$シンボリック推論チェーン)と問題解決(reasoning chain$\rightarrow$ answer)の2段階に分解し,それぞれlmと決定論的解法を用いて忠実に構成するフレームワークであるfancy cotを提案する。 4つの異なるドメインから10の推論データセットに対して,提案手法の有効性を示す。 10つのデータセットのうち9つで、平均精度は4.4で、計画では1.9で、マルチホップ質問回答(QA)では4.0で、論理推論では18.1で上回っている。 自己一貫性のデコードと合わせて、10のデータセットのうち7つで新しい最先端の少数ショット性能を達成し、忠実性と正確性の間に強い相乗効果を示す。

While Chain-of-Thought (CoT) prompting boosts Language Models' (LM) performance on a gamut of complex reasoning tasks, the generated reasoning chain does not necessarily reflect how the model arrives at the answer (aka. faithfulness). We propose Faithful CoT, a faithful-by-construction framework that decomposes a reasoning task into two stages: Translation (Natural Language query $\rightarrow$ symbolic reasoning chain) and Problem Solving (reasoning chain $\rightarrow$ answer), using an LM and a deterministic solver respectively. We demonstrate the efficacy of our approach on 10 reasoning datasets from 4 diverse domains. It outperforms traditional CoT prompting on 9 out of the 10 datasets, with an average accuracy gain of 4.4 on Math Word Problems, 1.9 on Planning, 4.0 on Multi-hop Question Answering (QA), and 18.1 on Logical Inference, under greedy decoding. Together with self-consistency decoding, we achieve new state-of-the-art few-shot performance on 7 out of the 10 datasets, showing a strong synergy between faithfulness and accuracy.
翻訳日:2023-02-01 17:52:40 公開日:2023-01-31
# オーバーフロー回避による低精度蓄積のための量子ニューラルネットワーク

Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance ( http://arxiv.org/abs/2301.13376v1 )

ライセンス: Link先を確認
Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig(参考訳) 本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。 我々は、アキュムレータビット幅境界を用いてトレーニング中にパラメータを制約する手段として、重み正規化を利用する。 提案手法は,浮動小数点ベースラインに対してモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。 そして、この削減により、カスタムFPGAベースのアクセラレータの設計効率が向上することを示す。 最後に,本アルゴリズムは,ユーザ定義ビット幅のアキュミュレータに重みを適合させるだけでなく,重みの空間性と圧縮性も向上することを示す。 8ビットの重みとアクティベーションでトレーニングされたベンチマークモデル全体にわたって、量子化されたニューラルネットワークの隠れ層を16ビットのアキュムレータに適合させることで、平均98.2%の間隔が得られ、全ての圧縮速度は46.5倍となり、浮動小数点性能の99.2%を維持している。

We introduce a quantization-aware training algorithm that guarantees avoiding numerical overflow when reducing the precision of accumulators during inference. We leverage weight normalization as a means of constraining parameters during training using accumulator bit width bounds that we derive. We evaluate our algorithm across multiple quantized models that we train for different tasks, showing that our approach can reduce the precision of accumulators while maintaining model accuracy with respect to a floating-point baseline. We then show that this reduction translates to increased design efficiency for custom FPGA-based accelerators. Finally, we show that our algorithm not only constrains weights to fit into an accumulator of user-defined bit width, but also increases the sparsity and compressibility of the resulting weights. Across all of our benchmark models trained with 8-bit weights and activations, we observe that constraining the hidden layers of quantized neural networks to fit into 16-bit accumulators yields an average 98.2% sparsity with an estimated compression rate of 46.5x all while maintaining 99.2% of the floating-point performance.
翻訳日:2023-02-01 17:52:17 公開日:2023-01-31
# ロバスト性保証を用いた安全強化学習のための最適輸送摂動

Optimal Transport Perturbations for Safe Reinforcement Learning with Robustness Guarantees ( http://arxiv.org/abs/2301.13375v1 )

ライセンス: Link先を確認
James Queeney, Erhan Can Ozcan, Ioannis Ch. Paschalidis, Christos G. Cassandras(参考訳) 強固さと安全性は、現実世界の意思決定アプリケーションにおける深層強化学習の信頼性の高い展開に不可欠である。 特に、トレーニング中のデータ収集プロセスに限定的な仮定をしながら、一般的な環境障害が存在する場合の堅牢で安全なパフォーマンスを保証するアルゴリズムが必要である。 本研究では,最適輸送コスト不確実性セットを用いて,堅牢性を保証する安全強化学習フレームワークを提案する。 名目訓練環境で収集されたデータのみを使用して完全にオフラインで適用可能な最適輸送摂動に基づく効率的かつ理論的に支援された実装を提供する。 我々は,実世界の強化学習スイートにおいて,安全制約を伴う各種連続制御タスクにおけるロバストで安全な手法の性能を示す。

Robustness and safety are critical for the trustworthy deployment of deep reinforcement learning in real-world decision making applications. In particular, we require algorithms that can guarantee robust, safe performance in the presence of general environment disturbances, while making limited assumptions on the data collection process during training. In this work, we propose a safe reinforcement learning framework with robustness guarantees through the use of an optimal transport cost uncertainty set. We provide an efficient, theoretically supported implementation based on Optimal Transport Perturbations, which can be applied in a completely offline fashion using only data collected in a nominal training environment. We demonstrate the robust, safe performance of our approach on a variety of continuous control tasks with safety constraints in the Real-World Reinforcement Learning Suite.
翻訳日:2023-02-01 17:51:55 公開日:2023-01-31
# ポリシー埋め込みによる進化的強化学習の実現

Enabling surrogate-assisted evolutionary reinforcement learning via policy embedding ( http://arxiv.org/abs/2301.13374v1 )

ライセンス: Link先を確認
Lan Tang, Xiaxi Li, Jinyuan Zhang, Guiying Li, Peng Yang and Ke Tang(参考訳) 深層ニューラルネットワーク(dnn)ベースのポリシーの重みパラメータを最適化するために進化的アルゴリズム(eas)を適用する進化的強化学習(erl)は、従来の強化学習法に代わるものとして広く認められてきた。 しかし、反復的に生成される集団の評価は通常、大量の計算時間を必要とし、ERLの適用性を制限する可能性があるため、違法なコストがかかる可能性がある。 サロゲートはEAの評価の計算負担を軽減するためにしばしば用いられる。 残念ながら、ERLでは、ポリシーの各個人は通常、DNNの数百万の重みパラメータを表現している。 この高次元の政策表現は、ERLにサロゲートを応用してトレーニングを高速化する大きな挑戦をもたらした。 本稿では,PE-SAERLフレームワークを初めて提案し,ポリシ埋め込み(PE)による代理支援による進化的強化学習を実現する。 5つのアタリゲームにおける実験結果から,提案手法は4つの最先端アルゴリズムよりも効率的に動作可能であることが示された。 トレーニングプロセスは、テストされたゲームで最大7倍加速され、surrogateやpeを使わないゲームと比較される。

Evolutionary Reinforcement Learning (ERL) that applying Evolutionary Algorithms (EAs) to optimize the weight parameters of Deep Neural Network (DNN) based policies has been widely regarded as an alternative to traditional reinforcement learning methods. However, the evaluation of the iteratively generated population usually requires a large amount of computational time and can be prohibitively expensive, which may potentially restrict the applicability of ERL. Surrogate is often used to reduce the computational burden of evaluation in EAs. Unfortunately, in ERL, each individual of policy usually represents millions of weights parameters of DNN. This high-dimensional representation of policy has introduced a great challenge to the application of surrogates into ERL to speed up training. This paper proposes a PE-SAERL Framework to at the first time enable surrogate-assisted evolutionary reinforcement learning via policy embedding (PE). Empirical results on 5 Atari games show that the proposed method can perform more efficiently than the four state-of-the-art algorithms. The training process is accelerated up to 7x on tested games, comparing to its counterpart without the surrogate and PE.
翻訳日:2023-02-01 17:51:44 公開日:2023-01-31
# 因果推論モデルによるオープンドメイン対話評価の改善

Improving Open-Domain Dialogue Evaluation with a Causal Inference Model ( http://arxiv.org/abs/2301.13372v1 )

ライセンス: Link先を確認
Cat P. Le, Luke Dai, Michael Johnston, Yang Liu, Marilyn Walker, Reza Ghanadan(参考訳) オープンドメイン対話システムの研究において,効果的な評価手法は依然として重要な課題である。 明示的な満足度評価はユーザによって引き起こされるが、ユーザは質問時に評価を提供しておらず、与えられた評価は極めて主観的である。 専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。 本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の作成について検討する。 4つの異なるアプローチを比較します。 まず、エンド・ツー・エンド・トランスフォーマーを用いてベースラインモデルをトレーニングし、生の対話テキストから直接評価を予測する。 他の3つの方法は、2段階のアプローチの変種であり、まずターンレベルで解釈可能な特徴を抽出し、その特徴の中から矛盾、反復、不利、賛辞、批判を示すユーザー対話の振る舞いを捉えている。 我々はこれらの特徴を対話レベルに投影し、対話レベルMLP回帰モデル、対話レベルLSTM、および対実的LSTM(CF-LSTM)と呼ばれる新しい因果推論モデルを用いて評価を予測する。 提案するCF-LSTMは、ターンレベルの特徴から導かれる仮説に依存する複数の回帰器を用いて評価を予測する、ターンレベルの特徴に対するシーケンシャルモデルである。 因果推論モデルとして、cf-lstmは低レーティングなど特定のイベントの根本原因を学ぶことを目的としている。 また、ユーザ評価を組み込んで、4つのモデルすべてで分類実験を行います。 Alexa Prize SocialBotによる会話データの評価実験において、CF-LSTMは対話のレーティングと分類の予測に最適であることを示す。

Effective evaluation methods remain a significant challenge for research on open-domain conversational dialogue systems. Explicit satisfaction ratings can be elicited from users, but users often do not provide ratings when asked, and those they give can be highly subjective. Post-hoc ratings by experts are an alternative, but these can be both expensive and complex to collect. Here, we explore the creation of automated methods for predicting both expert and user ratings of open-domain dialogues. We compare four different approaches. First, we train a baseline model using an end-to-end transformer to predict ratings directly from the raw dialogue text. The other three methods are variants of a two-stage approach in which we first extract interpretable features at the turn level that capture, among other aspects, user dialogue behaviors indicating contradiction, repetition, disinterest, compliments, or criticism. We project these features to the dialogue level and train a dialogue-level MLP regression model, a dialogue-level LSTM, and a novel causal inference model called counterfactual-LSTM (CF-LSTM) to predict ratings. The proposed CF-LSTM is a sequential model over turn-level features which predicts ratings using multiple regressors depending on hypotheses derived from the turn-level features. As a causal inference model, CF-LSTM aims to learn the underlying causes of a specific event, such as a low rating. We also bin the user ratings and perform classification experiments with all four models. In evaluation experiments on conversational data from the Alexa Prize SocialBot, we show that the CF-LSTM achieves the best performance for predicting dialogue ratings and classification.
翻訳日:2023-02-01 17:51:25 公開日:2023-01-31
# 高次元における不一致の解消

Demystifying Disagreement-on-the-Line in High Dimensions ( http://arxiv.org/abs/2301.13371v1 )

ライセンス: Link先を確認
Donghwan Lee, Behrad Moniri, Xinmeng Huang, Edgar Dobriban, Hamed Hassani(参考訳) 特に、シフト(ターゲット)ドメインからのラベルなしデータと、元の(ソース)ドメインからのラベル付きデータのみを持つ場合、分散シフト下での機械学習モデルのパフォーマンス評価は困難である。 最近の研究は、異なるランダム性で訓練された2つのモデルが同じ入力で異なる程度である不一致の概念がこの問題に取り組む鍵であることを示唆している。 実験により,不一致と予測誤差が強く結びついており,モデルの性能を推定するために用いられている。 実験により、対象領域下の分類誤差は、しばしばソース領域下の分類誤差の線形関数であり、この性質が保持されるたびに、ソース領域とターゲット領域下の不一致は、同じ線形関係に従う。 本研究では,高次元ランダム特徴回帰における不一致を解析するための理論的基礎を構築し,不一致がどのような条件下で発生するかを検討する。 CIFAR-10-C、Tiny ImageNet-C、Camelyon17の実験は、我々の理論と一致しており、理論的な発見の普遍性を支持する。

Evaluating the performance of machine learning models under distribution shift is challenging, especially when we only have unlabeled data from the shifted (target) domain, along with labeled data from the original (source) domain. Recent work suggests that the notion of disagreement, the degree to which two models trained with different randomness differ on the same input, is a key to tackle this problem. Experimentally, disagreement and prediction error have been shown to be strongly connected, which has been used to estimate model performance. Experiments have lead to the discovery of the disagreement-on-the-line phenomenon, whereby the classification error under the target domain is often a linear function of the classification error under the source domain; and whenever this property holds, disagreement under the source and target domain follow the same linear relation. In this work, we develop a theoretical foundation for analyzing disagreement in high-dimensional random features regression; and study under what conditions the disagreement-on-the-line phenomenon occurs in our setting. Experiments on CIFAR-10-C, Tiny ImageNet-C, and Camelyon17 are consistent with our theory and support the universality of the theoretical findings.
翻訳日:2023-02-01 17:50:58 公開日:2023-01-31
# 機械表現可能なパラメータを持つニューラルネットワークの自動微分の正確性について

On the Correctness of Automatic Differentiation for Neural Networks with Machine-Representable Parameters ( http://arxiv.org/abs/2301.13370v1 )

ライセンス: Link先を確認
Wonyeol Lee, Sejun Park, Alex Aiken(参考訳) 最近の研究では、実数に対する自動微分はほとんど常に数学的に正確な意味で正しいことが示されている。 しかし、実際のプログラムは実数ではなく機械表現可能な数(例えば浮動小数点数)で動作する。 本稿では,ニューラルネットワークのパラメータ空間が機械表現可能な数のみからなる場合,自動微分の正しさについて検討する。 バイアスパラメータを持つニューラルネットワークに対して、ネットワークが微分可能な全てのパラメータにおいて、自動微分が正しいことを証明する。 対照的に、ネットワークが微分不可能である全てのパラメータは正しくない。 このパラメータの非微分不可能な集合をよりよく理解するために、活性化関数の非微分可能性の数で線型であるそのサイズに厳密な束縛を証明し、この集合に含まれるパラメータに必要な簡単な条件を与える。 さらに, 自動微分は, 非微分集合上でもクラーク部分導関数を常に計算できることも証明する。 また、バイアスパラメータなしでニューラルネットワークにこれらの結果を拡張します。

Recent work has shown that automatic differentiation over the reals is almost always correct in a mathematically precise sense. However, actual programs work with machine-representable numbers (e.g., floating-point numbers), not reals. In this paper, we study the correctness of automatic differentiation when the parameter space of a neural network consists solely of machine-representable numbers. For a neural network with bias parameters, we prove that automatic differentiation is correct at all parameters where the network is differentiable. In contrast, it is incorrect at all parameters where the network is non-differentiable, since it never informs non-differentiability. To better understand this non-differentiable set of parameters, we prove a tight bound on its size, which is linear in the number of non-differentiabilities in activation functions, and provide a simple necessary and sufficient condition for a parameter to be in this set. We further prove that automatic differentiation always computes a Clarke subderivative, even on the non-differentiable set. We also extend these results to neural networks possibly without bias parameters.
翻訳日:2023-02-01 17:50:37 公開日:2023-01-31
# 逐次戦略的スクリーニング

Sequential Strategic Screening ( http://arxiv.org/abs/2301.13397v1 )

ライセンス: Link先を確認
Lee Cohen, Saeed Sharifi-Malvajerd, Kevin Stangl, Ali Vakilian, Juba Ziani(参考訳) 複数の分類器を用いたスクリーニングプロセスにおける戦略行動の研究を開始する。 我々は,各個人がすべての分類器を同時に満たさなければならない接続的設定と,成功する個人が一度に1つの分類器を満足しなければならない順序的設定の2つの対照的な設定に焦点を当てる。 言い換えれば,戦略分類とスクリーニングプロセスの組み合わせについて紹介する。 逐次スクリーニングパイプラインは,各テストの逐次順序付けを,すべてのテストが同時に満たされることなく,分類器間のジグザグに活用できる,新しい,驚くべき動作を示す。 各分類器の正の領域の交点から遠い場合でも、限定的な操作予算を用いて、個人が正の成果を得ることができることを示す。 最後に,このような操作に頑健な逐次的スクリーニングプロセスの設計を目標とする学習者について考察し,自然目標を最適化する学習者の構成について述べる。

We initiate the study of strategic behavior in screening processes with multiple classifiers. We focus on two contrasting settings: a conjunctive setting in which an individual must satisfy all classifiers simultaneously, and a sequential setting in which an individual to succeed must satisfy classifiers one at a time. In other words, we introduce the combination of strategic classification with screening processes. We show that sequential screening pipelines exhibit new and surprising behavior where individuals can exploit the sequential ordering of the tests to zig-zag between classifiers without having to simultaneously satisfy all of them. We demonstrate an individual can obtain a positive outcome using a limited manipulation budget even when far from the intersection of the positive regions of every classifier. Finally, we consider a learner whose goal is to design a sequential screening process that is robust to such manipulations, and provide a construction for the learner that optimizes a natural objective.
翻訳日:2023-02-01 17:43:26 公開日:2023-01-31
# 3オペレータ分割による予測と最適化の高速化

Faster Predict-and-Optimize with Three-Operator Splitting ( http://arxiv.org/abs/2301.13395v1 )

ライセンス: Link先を確認
Daniel McKenzie, Samy Wu Fung, Howard Heaton(参考訳) 多くの実用的な環境では、組合せ問題は類似するが異なるパラメータ w で繰り返し解かなければならない。 しかし、w は直接観測されておらず、w と相関する文脈データ d のみが利用できる。 与えられたdを予測するためにニューラルネットワークを使う誘惑があるが、そのようなモデルのトレーニングには、ニューラルネットワークのトレーニングに使用される勾配ベースのフレームワークと組合せ最適化の離散的な性質を調和させる必要がある。 この問題を克服する一つのアプローチは、組合せ問題の連続的な緩和を考えることである。 既存のそのようなアプローチは、小さな問題(10-100変数)に対して非常に有効であることが示されているが、大きな問題に対してうまくスケールできない。 本研究では,最近の演算子分割結果を用いて,何千もの変数の問題に対して,トレーニングやスケールの容易なシステムの設計を行う方法を示す。

In many practical settings, a combinatorial problem must be repeatedly solved with similar, but distinct parameters w. Yet, w is not directly observed; only contextual data d that correlates with w is available. It is tempting to use a neural network to predict w given d, but training such a model requires reconciling the discrete nature of combinatorial optimization with the gradient-based frameworks used to train neural networks. One approach to overcoming this issue is to consider a continuous relaxation of the combinatorial problem. While existing such approaches have shown to be highly effective on small problems (10-100 variables) they do not scale well to large problems. In this work, we show how recent results in operator splitting can be used to design such a system which is easy to train and scales effortlessly to problems with thousands of variables.
翻訳日:2023-02-01 17:43:11 公開日:2023-01-31
# おそらくいつでも安全な確率的組合せ半バンド

Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits ( http://arxiv.org/abs/2301.13393v1 )

ライセンス: Link先を確認
Yunlong Hou, Vincent Y. F. Tan and Zixin Zhong(参考訳) 本論文では,各段階におけるリスクの未発生に関するオンライン意思決定に関する懸念に乗じて,最も安全と思われる確率的半帯域問題を定式化する。 この問題では、エージェントは、$L$グラウンドアイテムのセットから、最大で$K$のサイズのサブセットを選択するオプションが与えられる。 各項目は、そのリスクを表すばらつきと同様に、ある平均報酬に関連付けられている。 エージェントが発生するリスクを軽減するために、少なくとも1〜\delta$という確率で、t$の全時間にわたって、エージェントが選択する各選択肢には、分散の合計が特定の分散予算を超えない項目を含むべきである。 これを、おそらくいつでも安全な制約と呼ぶ。 この制約の下で、時間の地平線上での後悔を最小限に抑えるアルゴリズム {\sc PASCombUCB} を設計し、分析する。 付随する情報理論の下界を発達させることにより、問題依存パラダイムと問題非依存パラダイムの両方の下で、ほぼ漸近的に最適であることを示す。 提案する問題設定, 提案アルゴリズム, 新規解析は, エージェントが一度に複数の項目を選択できるレコメンデーションシステムやトランスポーテーションなどのドメインに適用され, リスク全体を制御したいと考えている。

Motivated by concerns about making online decisions that incur undue amount of risk at each time step, in this paper, we formulate the probably anytime-safe stochastic combinatorial semi-bandits problem. In this problem, the agent is given the option to select a subset of size at most $K$ from a set of $L$ ground items. Each item is associated to a certain mean reward as well as a variance that represents its risk. To mitigate the risk that the agent incurs, we require that with probability at least $1-\delta$, over the entire horizon of time $T$, each of the choices that the agent makes should contain items whose sum of variances does not exceed a certain variance budget. We call this probably anytime-safe constraint. Under this constraint, we design and analyze an algorithm {\sc PASCombUCB} that minimizes the regret over the horizon of time $T$. By developing accompanying information-theoretic lower bounds, we show under both the problem-dependent and problem-independent paradigms, {\sc PASCombUCB} is almost asymptotically optimal. Our problem setup, the proposed {\sc PASCombUCB} algorithm, and novel analyses are applicable to domains such as recommendation systems and transportation in which an agent is allowed to choose multiple items at a single time step and wishes to control the risk over the whole time horizon.
翻訳日:2023-02-01 17:42:56 公開日:2023-01-31
# グラフ骨格のない組合せ因果帯域

Combinatorial Causal Bandits without Graph Skeleton ( http://arxiv.org/abs/2301.13392v1 )

ライセンス: Link先を確認
Shi Feng, Nuoya Xiong, Wei Chen(参考訳) 組み合わせ因果帯域(CCB)において、学習エージェントは各ラウンドの変数のサブセットを選択して介入し、観測された変数からフィードバックを収集し、期待される後悔やサンプルの複雑さを最小限に抑える。 従来の研究は、一般因果モデルとバイナリ一般化線形モデル(BGLM)の両方でこの問題を研究する。 しかし、それら全ては因果グラフ構造の事前知識を必要とする。 本稿では,二元一般因果モデルとBGLMのグラフ構造を持たないCCB問題を考察する。 まず、一般的な因果モデルにおけるCCB問題に対する累積的後悔の指数的下限を提供する。 指数関数的に大きなパラメータ空間を克服するために、BGLM 上の CCB 問題を考える。 グラフスケルトンがなくても,BGLMに対する後悔最小化アルゴリズムを設計し,O(\sqrt{T}\ln T)$期待の後悔を実現することを示す。 この漸近的後悔は、グラフ構造に依存する最先端のアルゴリズムと同じである。 さらに、漸近的表記法でカバーされる重量ギャップを取り除くために、$O(T^{\frac{2}{3}}\ln T)$に対する後悔を犠牲にする。 最後に,グラフ構造を使わずにCCB問題を純粋に探索するための議論とアルゴリズムについて述べる。

In combinatorial causal bandits (CCB), the learning agent chooses a subset of variables in each round to intervene and collects feedback from the observed variables to minimize expected regret or sample complexity. Previous works study this problem in both general causal models and binary generalized linear models (BGLMs). However, all of them require prior knowledge of causal graph structure. This paper studies the CCB problem without the graph structure on binary general causal models and BGLMs. We first provide an exponential lower bound of cumulative regrets for the CCB problem on general causal models. To overcome the exponentially large space of parameters, we then consider the CCB problem on BGLMs. We design a regret minimization algorithm for BGLMs even without the graph skeleton and show that it still achieves $O(\sqrt{T}\ln T)$ expected regret. This asymptotic regret is the same as the state-of-art algorithms relying on the graph structure. Moreover, we sacrifice the regret to $O(T^{\frac{2}{3}}\ln T)$ to remove the weight gap covered by the asymptotic notation. At last, we give some discussions and algorithms for pure exploration of the CCB problem without the graph structure.
翻訳日:2023-02-01 17:42:31 公開日:2023-01-31
# プライバシー保護データ蒸留のための個人カーネル誘導点(DP-KIP)

Differentially Private Kernel Inducing Points (DP-KIP) for Privacy-preserving Data Distillation ( http://arxiv.org/abs/2301.13389v1 )

ライセンス: Link先を確認
Margarita Vinaroz and Mi Jung Park(参考訳) データ蒸留はプライバシーを守ると信じがちだが、既知の攻撃に対するデータ蒸留の実証的堅牢性は、証明可能なプライバシー保証を意味するものではない。 本稿では,DP-KIP(differentially private kernel inducing points)と呼ばれる,プライバシー保護のためのデータ蒸留アルゴリズムを開発した。 DP-KIPは、カーネルリッジ回帰(KRR)におけるDP-SGDのインスタンス化である。 最近の研究の後、我々はニューラルネットワークカーネルを用いてKRR損失を最小限に抑え、蒸留したデータポイント(カーネル誘導点)を推定する。 我々はDP-KIPの計算効率の良いJAX実装を提供し、いくつかの一般的な画像および表形式のデータセットを用いて、差分プライバシー保証付きデータ蒸留の有効性を示す。

While it is tempting to believe that data distillation preserves privacy, distilled data's empirical robustness against known attacks does not imply a provable privacy guarantee. Here, we develop a provably privacy-preserving data distillation algorithm, called differentially private kernel inducing points (DP-KIP). DP-KIP is an instantiation of DP-SGD on kernel ridge regression (KRR). Following a recent work, we use neural tangent kernels and minimize the KRR loss to estimate the distilled datapoints (i.e., kernel inducing points). We provide a computationally efficient JAX implementation of DP-KIP, which we test on several popular image and tabular datasets to show its efficacy in data distillation with differential privacy guarantees.
翻訳日:2023-02-01 17:42:12 公開日:2023-01-31
# 小さなチームのための大規模な音楽レコメンデーション研究

Large Music Recommendation Studies for Small Teams ( http://arxiv.org/abs/2301.13388v1 )

ライセンス: Link先を確認
Kyle Robinson, Dan Brown(参考訳) 直接の業界提携なしにライブ音楽レコメンデーション研究を行うことは、特に小規模チームにとって、非常に難しい作業である。 このような評価に興味を持つ将来の研究者を助けるために、我々は、潜在的なソリューションとともに、このような評価システムを生成する過程で直面する多くの困難を提示する。 これらの問題は、ユーザ、データ、計算、アプリケーションアーキテクチャのトピックに及びます。

Running live music recommendation studies without direct industry partnerships can be a prohibitively daunting task, especially for small teams. In order to help future researchers interested in such evaluations, we present a number of struggles we faced in the process of generating our own such evaluation system alongside potential solutions. These problems span the topics of users, data, computation, and application architecture.
翻訳日:2023-02-01 17:41:58 公開日:2023-01-31
# ポプラ樹の参照自由測地のための深層学習

Deep Learning for Reference-Free Geolocation for Poplar Trees ( http://arxiv.org/abs/2301.13387v1 )

ライセンス: Link先を確認
Cai W. John, Owen Queen, Wellington Muchero, and Scott J. Emrich(参考訳) 精密農業における中核的な課題は、ある作物に有利な気候条件と生態条件の同定である。 最も簡潔なアプローチは位置決めであり、遺伝子構成に基づいてサンプルの原産地を特定することである。 本稿では,米国エネルギー省が全国で収穫する高速回転型バイオ燃料作物として同定したPopulus trichocarpa(Poplar)のゲノム位置について検討する。 特に,レファレンスフリーな視点からジオロケーションにアプローチし,異種呼出しやアライメントといった計算集約的なプロセスの必要性を回避している。 我々のモデルであるMashNetはランダムにサンプリングされた配列断片からポプラ木の緯度と経度を予測する。 提案手法は全ゲノム配列データに基づく最先端手法であるlocatorと同等の性能を示す。 MashNet は Locator の 22.1 km^2 と比較して 34.0 km^2 の誤差を達成する。 mashnetにより、栽培者は、遺伝子型に基づいて成長環境において最も生産的な自然品種を迅速かつ効率的に識別することができる。 本稿では,機械学習コミュニティによるさらなる開発のためのフレームワークとデータソースを提供しながら,精密農業のための位置情報について検討する。

A core task in precision agriculture is the identification of climatic and ecological conditions that are advantageous for a given crop. The most succinct approach is geolocation, which is concerned with locating the native region of a given sample based on its genetic makeup. Here, we investigate genomic geolocation of Populus trichocarpa, or poplar, which has been identified by the US Department of Energy as a fast-rotation biofuel crop to be harvested nationwide. In particular, we approach geolocation from a reference-free perspective, circumventing the need for compute-intensive processes such as variant calling and alignment. Our model, MashNet, predicts latitude and longitude for poplar trees from randomly-sampled, unaligned sequence fragments. We show that our model performs comparably to Locator, a state-of-the-art method based on aligned whole-genome sequence data. MashNet achieves an error of 34.0 km^2 compared to Locator's 22.1 km^2. MashNet allows growers to quickly and efficiently identify natural varieties that will be most productive in their growth environment based on genotype. This paper explores geolocation for precision agriculture while providing a framework and data source for further development by the machine learning community.
翻訳日:2023-02-01 17:41:52 公開日:2023-01-31
# 点中心マーカーの魚眼交通データセット

Fisheye traffic data set of point center markers ( http://arxiv.org/abs/2301.13385v1 )

ライセンス: Link先を確認
Chung-I Huang, Wei-Yu Chen, Wei Jan Ko, Jih-Sheng Chang, Chen-Kai Sun, Hui Hung Yu, Fang-Pang Lin(参考訳) 本研究では、オープンなデータ市場プラットフォームと、160,000のマーカーと18,000の画像を含むデータセットを提案する。 本稿では、このデータセットがより新しいデータ価値とアプリケーションをもたらすことを期待し、データセットのフォーマットと使用法を紹介し、このデータセットでトレーニングされたディープラーニング車両検出のデモンストレーションを示す。

This study presents an open data-market platform and a dataset containing 160,000 markers and 18,000 images. We hope that this dataset will bring more new data value and applications In this paper, we introduce the format and usage of the dataset, and we show a demonstration of deep learning vehicle detection trained by this dataset.
翻訳日:2023-02-01 17:41:37 公開日:2023-01-31
# GaitSADA:mm波歩行認識のための自己調整型ドメイン適応

GaitSADA: Self-Aligned Domain Adaptation for mmWave Gait Recognition ( http://arxiv.org/abs/2301.13384v1 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong (1), Ayman Ali (1), Kalvik Jakkala (1), Pu Wang (1), Minwoo Lee (1), Qucheng Peng (2), Chen Chen (2), Zhi Sun (3) ((1) University of North Carolina at Charlotte, (2) University of Central Florida, (3) Tsinghua University)(参考訳) mmWaveレーダを用いた歩行認識は,mmWaveレーダの帰還信号から人間の歩行バイオメトリックスを捉える新しいユーザ識別法である。 この技術はプライバシー保護を提供し、天候や照明条件に耐性がある。 しかし、その一般化性能はまだ不明であり、実際の展開を制限している。 この問題に対処するため,本論文では,mmWave測位データにおける空間的・時間的領域シフトの存在を明らかにするために,非合成データセットを収集,解析し,識別精度に大きな影響を及ぼす。 この問題に対処するために、GaitSADAと呼ばれる新しい自己整合ドメイン適応法を提案する。 GaitSADAは2段階の半教師付きモデルトレーニング手法を用いてシステム一般化性能を向上させる。 第1段階は半教師付きコントラスト学習、第2段階は半教師付き一貫性トレーニングとセントロイドアライメントを用いる。 大規模な実験により、GaitSADAはデータレギュレーションの低い場合の平均15.41%で代表的ドメイン適応法より優れていた。

mmWave radar-based gait recognition is a novel user identification method that captures human gait biometrics from mmWave radar return signals. This technology offers privacy protection and is resilient to weather and lighting conditions. However, its generalization performance is yet unknown and limits its practical deployment. To address this problem, in this paper, a non-synthetic dataset is collected and analyzed to reveal the presence of spatial and temporal domain shifts in mmWave gait biometric data, which significantly impacts identification accuracy. To address this issue, a novel self-aligned domain adaptation method called GaitSADA is proposed. GaitSADA improves system generalization performance by using a two-stage semi-supervised model training approach. The first stage uses semi-supervised contrastive learning and the second stage uses semi-supervised consistency training with centroid alignment. Extensive experiments show that GaitSADA outperforms representative domain adaptation methods by an average of 15.41% in low data regimes.
翻訳日:2023-02-01 17:41:32 公開日:2023-01-31
# 逐次音楽生成課題におけるピッチと計量格子の符号化法の比較分析

An Comparative Analysis of Different Pitch and Metrical Grid Encoding Methods in the Task of Sequential Music Generation ( http://arxiv.org/abs/2301.13383v1 )

ライセンス: Link先を確認
Yuqiang Li, Shengchen Li, George Fazekas(参考訳) ピッチとメーターは2つの基本的な音楽特徴であり、研究者は通常、特定の目標に応じて異なる符号化方法を選択する。 しかし、異なる符号化手法の利点と欠点は議論されていない。 本稿では,2つの低レベル特徴であるピッチとメーターがトークンベースの逐次音楽生成モデルの性能に与える影響を総合的に分析する。 まず、よく使われるMIDI数値エンコーディングとあまり使われていないクラスオクターブエンコーディングを比較した。 第二に、符号化されたシーケンスに高密度なバー内メートル法格子を補助特徴として課す。 メートル法グリッドの異なる複雑さと分解能を比較する。 複雑さについては、単一トークンのアプローチと複数トークンのアプローチを比較し、グリッドの解像度では0(エイブレーション)、1(バーレベル)、4(ダウンビートレベル)12(第8トリプレットレベル)から64(64番目のノートグリッドレベル)までを比較し、持続時間では4、8、12、16のサブディビジョンを比較する。 全ての異なるエンコーディングは、メロディ生成タスクのために個別に訓練されたTransformer-XLモデルでテストされる。 テストデータセットに対する複数の客観的評価指標の分布類似性について, クラスオクターブ符号化は, ピッチ関連指標を用いたMIDI符号化よりも有意に優れており, より微細な格子とマルチトーケングリッドはリズム品質を向上するが, 初期の訓練段階では過度に適合する。 その結果、ピッチ埋め込み空間と単分岐グリッドエンコーディングの試験損失という2つの側面からオーバーフィッティングの一般的な現象を示す。 実用的観点からは、我々はどちらも実現可能性を示し、より小さなネットワークとより低い埋め込み次元を生成タスクに使用することによる、容易な過適合問題の懸念を提起する。 この発見は、機能工学の観点で未来モデルにも貢献できる。

Pitch and meter are two fundamental music features for symbolic music generation tasks, where researchers usually choose different encoding methods depending on specific goals. However, the advantages and drawbacks of different encoding methods have not been frequently discussed. This paper presents a integrated analysis of the influence of two low-level feature, pitch and meter, on the performance of a token-based sequential music generation model. First, the commonly used MIDI number encoding and a less used class-octave encoding are compared. Second, an dense intra-bar metric grid is imposed to the encoded sequence as auxiliary features. Different complexity and resolutions of the metric grid are compared. For complexity, the single token approach and the multiple token approach are compared; for grid resolution, 0 (ablation), 1 (bar-level), 4 (downbeat-level) 12, (8th-triplet-level) up to 64 (64th-note-grid-level) are compared; for duration resolution, 4, 8, 12 and 16 subdivisions per beat are compared. All different encodings are tested on separately trained Transformer-XL models for a melody generation task. Regarding distribution similarity of several objective evaluation metrics to the test dataset, results suggest that the class-octave encoding significantly outperforms the taken-for-granted MIDI encoding on pitch-related metrics; finer grids and multiple-token grids improve the rhythmic quality, but also suffer from over-fitting at early training stage. Results display a general phenomenon of over-fitting from two aspects, the pitch embedding space and the test loss of the single-token grid encoding. From a practical perspective, we both demonstrate the feasibility and raise the concern of easy over-fitting problem of using smaller networks and lower embedding dimensions on the generation task. The findings can also contribute to futural models in terms of feature engineering.
翻訳日:2023-02-01 17:41:15 公開日:2023-01-31
# 超人フェアネス

Superhuman Fairness ( http://arxiv.org/abs/2301.13420v1 )

ライセンス: Link先を確認
Omid Memarrast, Linh Vu, Brian Ziebart(参考訳) 機械学習に基づく意思決定の公平性は、教師あり機械学習手法の設計においてますます重要になっている。 ほとんどのフェアネスアプローチは、パフォーマンス測度(例えば、精度、ログ損失、AUC)とフェアネス測度(例えば、人口統計学的パリティ、等化奇数)の間の特定のトレードオフを最適化する。 適切なパフォーマンスと公正のトレードオフは指定されているのか? 代わりに、複数の予測性能と公平性尺度で人間の決定を上回らせるスーパーヒューマンフェアネスを導入することで、模倣学習タスクとして公正な機械学習を再キャストする。 私たちはこのアプローチの利点を最適でない決定で示します。

The fairness of machine learning-based decisions has become an increasingly important focus in the design of supervised machine learning methods. Most fairness approaches optimize a specified trade-off between performance measure(s) (e.g., accuracy, log loss, or AUC) and fairness metric(s) (e.g., demographic parity, equalized odds). This begs the question: are the right performance-fairness trade-offs being specified? We instead re-cast fair machine learning as an imitation learning task by introducing superhuman fairness, which seeks to simultaneously outperform human decisions on multiple predictive performance and fairness measures. We demonstrate the benefits of this approach given suboptimal decisions.
翻訳日:2023-02-01 17:35:21 公開日:2023-01-31
# 超解像深部における繰り返し構造注意誘導

Recurrent Structure Attention Guidance for Depth Super-Resolution ( http://arxiv.org/abs/2301.13419v1 )

ライセンス: Link先を確認
Jiayi Yuan, Haobo Jiang, Xiang Li, Jianjun Qian, Jun Li, Jian Yang(参考訳) 画像誘導は深度超解像に有効な戦略である。 既存のほとんどの手法では手作りの演算子を用いて、低分解能深度マップから高周波(HF)および低周波(LF)成分を分解し、画像特徴と直接結合することでHF成分を誘導する。 しかし、手設計のオペレーターは通常、複雑な深度マップの外観が多様であるため、hfマップ(例えば歪んだり、構造的に欠けたり)を引き起こす。 さらに、全ての画像特徴がhfマップに正の影響を与えるわけではないため、直接連結化はしばしば弱い誘導をもたらす。 本稿では,2つの重要な部分からなるrsag(recurrent structure attention guided)フレームワークを開発した。 まず,適応周波数領域分離のためのマルチスケールフィルタを用いた深層コントラストネットワークを導入し,大規模フィルタから小型フィルタへのコントラストネットワークを適用し,高画質hf予測のための画素コントラストを計算する。 第2に,粗結合誘導の代わりに,最新の深度推定と画像特徴を反復的に活用し,明瞭なパターンと境界を同時選択し,高精度な奥行き復元のための高精度なガイダンスを提供することを目的とした再帰的構造注意ブロックを提案する。 さらに,分解したLFマップのエッジ構造を強化するために,HFマップの特徴を融合する。 実験により,本手法は最先端の深度超解像法と比較して優れた性能が得られることが示された。

Image guidance is an effective strategy for depth super-resolution. Generally, most existing methods employ hand-crafted operators to decompose the high-frequency (HF) and low-frequency (LF) ingredients from low-resolution depth maps and guide the HF ingredients by directly concatenating them with image features. However, the hand-designed operators usually cause inferior HF maps (e.g., distorted or structurally missing) due to the diverse appearance of complex depth maps. Moreover, the direct concatenation often results in weak guidance because not all image features have a positive effect on the HF maps. In this paper, we develop a recurrent structure attention guided (RSAG) framework, consisting of two important parts. First, we introduce a deep contrastive network with multi-scale filters for adaptive frequency-domain separation, which adopts contrastive networks from large filters to small ones to calculate the pixel contrasts for adaptive high-quality HF predictions. Second, instead of the coarse concatenation guidance, we propose a recurrent structure attention block, which iteratively utilizes the latest depth estimation and the image features to jointly select clear patterns and boundaries, aiming at providing refined guidance for accurate depth recovery. In addition, we fuse the features of HF maps to enhance the edge structures in the decomposed LF maps. Extensive experiments show that our approach obtains superior performance compared with state-of-the-art depth super-resolution methods.
翻訳日:2023-02-01 17:35:09 公開日:2023-01-31
# braixdet:不完全アノテーションによる乳腺悪性病変検出の学習

BRAIxDet: Learning to Detect Malignant Breast Lesion with Incomplete Annotations ( http://arxiv.org/abs/2301.13418v1 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Chong Wang, Michael Elliott, Chun Fung Kwok, Carlos Pe na-Solorzano, Yu Tian, Fengbei Liu, Helen Frazer, Davis J. McCarthy, Gustavo Carneiro(参考訳) マンモグラムのスクリーニングから悪性病変を検出する方法は、通常、完全な注釈付きデータセットで訓練され、画像はがん病変の局所化と分類でラベル付けされる。 しかし、現実世界の検診用マンモグラムデータセットは、完全に注釈付けされた部分集合と、グローバル分類(つまり、病変の局所化のない部分集合)で弱い注釈を持つ。 このようなデータセットの大きさを考えると、研究者は通常、弱いアノテートされたサブセットとのジレンマに直面します。 第1の選択肢は、データセット全体を使用しないため、検出精度を低下させる。第2の選択肢は、専門家の放射線技師がアノテーションを行う必要があるため、高価すぎる。 本稿では,このジレンマの中間的解決法を提案する。これは,不完全アノテーションによる悪性乳腺病変検出と呼ばれる,弱い,半教師あり学習問題としてトレーニングを定式化するものである。 この問題に対処するため,本手法は以下の2つの段階からなる。 1)データセット全体からの監督が弱いマルチビューマンモグラム分類器の事前学習,および 2) 訓練された分類器を、セミ教師付き学生-教師学習で訓練されたマルチビュー検出器に拡張し、トレーニングセットは、完全かつ弱注釈のマンモグラムを含む。 不完全アノテーションを含む2つの実世界の検診用マンモグラムデータセットの広範な検出結果を示し,本手法が不完全アノテーションによる悪性乳腺病変の検出に最先端の結果をもたらすことを示す。

Methods to detect malignant lesions from screening mammograms are usually trained with fully annotated datasets, where images are labelled with the localisation and classification of cancerous lesions. However, real-world screening mammogram datasets commonly have a subset that is fully annotated and another subset that is weakly annotated with just the global classification (i.e., without lesion localisation). Given the large size of such datasets, researchers usually face a dilemma with the weakly annotated subset: to not use it or to fully annotate it. The first option will reduce detection accuracy because it does not use the whole dataset, and the second option is too expensive given that the annotation needs to be done by expert radiologists. In this paper, we propose a middle-ground solution for the dilemma, which is to formulate the training as a weakly- and semi-supervised learning problem that we refer to as malignant breast lesion detection with incomplete annotations. To address this problem, our new method comprises two stages, namely: 1) pre-training a multi-view mammogram classifier with weak supervision from the whole dataset, and 2) extending the trained classifier to become a multi-view detector that is trained with semi-supervised student-teacher learning, where the training set contains fully and weakly-annotated mammograms. We provide extensive detection results on two real-world screening mammogram datasets containing incomplete annotations, and show that our proposed approach achieves state-of-the-art results in the detection of malignant breast lesions with incomplete annotations.
翻訳日:2023-02-01 17:34:42 公開日:2023-01-31
# 実深度超解像のための構造フロー誘導ネットワーク

Structure Flow-Guided Network for Real Depth Super-Resolution ( http://arxiv.org/abs/2301.13416v1 )

ライセンス: Link先を確認
Jiayi Yuan, Haobo Jiang, Xiang Li, Jianjun Qian, Jun Li, Jian Yang(参考訳) リアルデプス・スーパーレゾリューション(DSR)は、合成設定とは異なり、実世界の低解像度(LR)深度マップの自然な劣化に起因する構造歪みとエッジノイズのために難しい課題である。 これらの敗北により、深度マップとRGBガイダンスの間に大きな構造上の矛盾が生じ、RGB構造ガイダンスを混乱させ、それによってDSRの品質が低下する可能性がある。 本稿では,RGB構造情報転送を高精度な深度アップサンプリングに導くために,モジュール間フローマップを学習する構造フロー誘導型DSRフレームワークを提案する。 具体的には,フロー誘導型アップサンプリングネットワーク(CFUNet)と,フロー強化型ピラミッドエッジアテンションネットワーク(PEANet)から構成される。 CFUNetには、幾何的および意味的相関と信頼性のある相互モーダリティフロー学習を組み合わせた三元的自己認識モジュールが含まれている。 次に、学習したフローマップと、粗い高分解能(HR)深度予測のためのグリッドサンプリング機構を組み合わせる。 PEANetは、学習したフローマップをエッジアテンションとしてピラミッドネットワークに統合して、深度エッジ改善のためのエッジ中心のガイダンス機能を階層的に学習することを目標としている。 実および合成dsrデータセットに関する広範囲な実験により,本手法が最先端手法と比較して優れた性能を実現することを検証した。

Real depth super-resolution (DSR), unlike synthetic settings, is a challenging task due to the structural distortion and the edge noise caused by the natural degradation in real-world low-resolution (LR) depth maps. These defeats result in significant structure inconsistency between the depth map and the RGB guidance, which potentially confuses the RGB-structure guidance and thereby degrades the DSR quality. In this paper, we propose a novel structure flow-guided DSR framework, where a cross-modality flow map is learned to guide the RGB-structure information transferring for precise depth upsampling. Specifically, our framework consists of a cross-modality flow-guided upsampling network (CFUNet) and a flow-enhanced pyramid edge attention network (PEANet). CFUNet contains a trilateral self-attention module combining both the geometric and semantic correlations for reliable cross-modality flow learning. Then, the learned flow maps are combined with the grid-sampling mechanism for coarse high-resolution (HR) depth prediction. PEANet targets at integrating the learned flow map as the edge attention into a pyramid network to hierarchically learn the edge-focused guidance feature for depth edge refinement. Extensive experiments on real and synthetic DSR datasets verify that our approach achieves excellent performance compared to state-of-the-art methods.
翻訳日:2023-02-01 17:34:17 公開日:2023-01-31
# LogAI: ログ分析とインテリジェンスのためのライブラリ

LogAI: A Library for Log Analytics and Intelligence ( http://arxiv.org/abs/2301.13415v1 )

ライセンス: Link先を確認
Qian Cheng, Amrita Saha, Wenzhuo Yang, Chenghao Liu, Doyen Sahoo, Steven Hoi(参考訳) ソフトウェアとシステムログは、システム内で実行されるプロセスのランタイム情報を記録する。 これらのログは可観測性データの最も重要かつユビキタスな形式となり、開発者がシステムの振る舞いを理解し、システムの状態を監視し、問題を解決するのに役立ちます。 しかし、特にクラウド、検索エンジン、ソーシャルメディアなどのような複雑な分散システムでは、生成したログの量は(1日にペタバイトのオーダーで)非常に多い。 これにより、大量の生ログを処理し、洞察を生成するAIベースのログベースの分析およびインテリジェンスソリューションの開発に関する多くの研究が推進された。 複数のAIベースのログ分析タスクを均一に実行可能にするため、ログ分析とインテリジェンスのためのワンストップのオープンソースライブラリであるLogAI(https://github.com/salesforce/logai)を導入する。 logaiはログ要約、ログクラスタリング、ログ異常検出などのタスクをサポートする。 OpenTelemetryデータモデルを採用し、さまざまなログ管理プラットフォームとの互換性を実現する。 LogAIは統一されたモデルインターフェースを提供し、人気のある時系列、統計学習、ディープラーニングモデルを提供する。 また、LogAIは対話型分析を行うためのアウトオブボックスGUIも提供する。 LogAIを使えば、ログを処理する余分な労力を要さずに、ログ異常検出のための人気のあるディープラーニングアルゴリズムを簡単にベンチマークすることができます。 学術研究と産業プロトタイピングの両方に利益をもたらす幅広いアプリケーションに対応するために、LogAIをオープンソースにしました。

Software and System logs record runtime information about processes executing within a system. These logs have become the most critical and ubiquitous forms of observability data that help developers understand system behavior, monitor system health and resolve issues. However, the volume of logs generated can be humongous (of the order of petabytes per day) especially for complex distributed systems, such as cloud, search engine, social media, etc. This has propelled a lot of research on developing AI-based log based analytics and intelligence solutions that can process huge volume of raw logs and generate insights. In order to enable users to perform multiple types of AI-based log analysis tasks in a uniform manner, we introduce LogAI (https://github.com/salesforce/logai), a one-stop open source library for log analytics and intelligence. LogAI supports tasks such as log summarization, log clustering and log anomaly detection. It adopts the OpenTelemetry data model, to enable compatibility with different log management platforms. LogAI provides a unified model interface and provides popular time-series, statistical learning and deep learning models. Alongside this, LogAI also provides an out-of-the-box GUI for users to conduct interactive analysis. With LogAI, we can also easily benchmark popular deep learning algorithms for log anomaly detection without putting in redundant effort to process the logs. We have opensourced LogAI to cater to a wide range of applications benefiting both academic research and industrial prototyping.
翻訳日:2023-02-01 17:33:53 公開日:2023-01-31
# 力・トルクセンサのないロボットマニピュレーション

Fine Robotic Manipulation without Force/Torque Sensor ( http://arxiv.org/abs/2301.13413v1 )

ライセンス: Link先を確認
Shilin Shan, Quang-Cuong Pham(参考訳) フォースセンシングとフォースコントロールは多くの産業用途に欠かせない。 通常は6軸のフォース/トルク(F/T)センサーがロボットの手首と端エフェクターの間に装着され、環境がロボットに与える力とトルク(外部レンチ)を測定する。 典型的な6軸F/Tセンサーは高い精度で測定できるが、ドリフトや外部衝撃に対して高価で脆弱である。 ロボットの内部信号のみを使用して外部レンチを推定する既存の方法は、スコープが限られている:例えば、レンチ推定精度は、高い精度の力制御を必要とするアセンブリのようなタスクとは対照的に、主として自由空間の動きと単純な接触において検証された。 本稿では,トレーニングデータ構造に特に注意を向けることで,外部レンチを内部信号のみに基づいて,幅広いシナリオで正確に推定することが可能である,というニューラルネットに基づく手法を提案する。 例示として,100ミクロンクリアランスのピン挿入実験とハンドガイド実験を,外部f/tセンサや関節トルクセンサを使わずに実施した。 我々の結果は、既存の270万台の産業用ロボットに、追加ハードウェアを使わずにフォースセンシングとフォースコントロール機能を搭載する可能性を開く。

Force Sensing and Force Control are essential to many industrial applications. Typically, a 6-axis Force/Torque (F/T) sensor is mounted between the robot's wrist and the end-effector in order to measure the forces and torques exerted by the environment onto the robot (the external wrench). Although a typical 6-axis F/T sensor can provide highly accurate measurements, it is expensive and vulnerable to drift and external impacts. Existing methods aiming at estimating the external wrench using only the robot's internal signals are limited in scope: for example, wrench estimation accuracy was mostly validated in free-space motions and simple contacts as opposed to tasks like assembly that require high-precision force control. Here we present a Neural Network based method and argue that by devoting particular attention to the training data structure, it is possible to accurately estimate the external wrench in a wide range of scenarios based solely on internal signals. As an illustration, we demonstrate a pin insertion experiment with 100-micron clearance and a hand-guiding experiment, both performed without external F/T sensors or joint torque sensors. Our result opens the possibility of equipping the existing 2.7 million industrial robots with Force Sensing and Force Control capabilities without any additional hardware.
翻訳日:2023-02-01 17:33:33 公開日:2023-01-31
# 変分特徴集合によるFew-Shotオブジェクト検出

Few-Shot Object Detection via Variational Feature Aggregation ( http://arxiv.org/abs/2301.13411v1 )

ライセンス: Link先を確認
Jiaming Han, Yuqiang Ren, Jian Ding, Ke Yan, Gui-Song Xia(参考訳) 少数ショットのオブジェクト検出器は、しばしば豊富なベースサンプルで訓練され、少数ショットの新規な例で微調整されるため、学習されたモデルは、通常、ベースクラスに偏り、新しいサンプルのばらつきに敏感である。 この問題に対処するために,我々は2つの新しい特徴集約スキームを持つメタラーニングフレームワークを提案する。 より正確には、まず、クエリとサポート機能をカテゴリに関係なく集約できるクラス非依存アグリゲーション(caa)メソッドを示します。 異なるクラス間の相互作用はクラスに依存しない表現を促進し、ベースクラスと新しいクラス間の混乱を減らす。 CAAをベースとして,ロバストな特徴集約のためのクラスレベルサポート機能にサポート例をエンコードする変分特徴集約(VFA)手法を提案する。 支援例の分散に対してより頑健な分布からクラス分布とサンプル変動特徴を推定するために変分オートエンコーダを用いる。 また,対象の局所化に影響を与えることなく,分類枝上でvfaを行うように分類タスクと回帰タスクを分離する。 PASCAL VOC および COCO の大規模実験により,本手法は強いベースライン (最大16 %) と過去の最先端手法 (平均4 %) を著しく上回っていることが示された。 コードは次の通り。 \url{https://github.com/csuhan/VFA}

As few-shot object detectors are often trained with abundant base samples and fine-tuned on few-shot novel examples,the learned models are usually biased to base classes and sensitive to the variance of novel examples. To address this issue, we propose a meta-learning framework with two novel feature aggregation schemes. More precisely, we first present a Class-Agnostic Aggregation (CAA) method, where the query and support features can be aggregated regardless of their categories. The interactions between different classes encourage class-agnostic representations and reduce confusion between base and novel classes. Based on the CAA, we then propose a Variational Feature Aggregation (VFA) method, which encodes support examples into class-level support features for robust feature aggregation. We use a variational autoencoder to estimate class distributions and sample variational features from distributions that are more robust to the variance of support examples. Besides, we decouple classification and regression tasks so that VFA is performed on the classification branch without affecting object localization. Extensive experiments on PASCAL VOC and COCO demonstrate that our method significantly outperforms a strong baseline (up to 16\%) and previous state-of-the-art methods (4\% in average). Code will be available at: \url{https://github.com/csuhan/VFA}
翻訳日:2023-02-01 17:33:11 公開日:2023-01-31
# モジュラー多段軽量グラフトランスフォーマネットワークによる2次元人物ポーズと形状推定

A Modular Multi-stage Lightweight Graph Transformer Network for Human Pose and Shape Estimation from 2D Human Pose ( http://arxiv.org/abs/2301.13403v1 )

ライセンス: Link先を確認
Ayman Ali, Ekkasit Pinyoanuntapong, Pu Wang, Mohsen Dorodchi(参考訳) 本研究では,既存の深層学習に基づくメッシュ再構成手法が直面する課題について,精度と計算効率のバランスをとることで解決する。 これらの手法は典型的には精度を優先し、ネットワークサイズが大きくなり、計算が複雑になり、仮想現実システムのような現実のシナリオにおける現実的な応用を妨げる可能性がある。 そこで本研究では,人間のポーズと形状を推定する多段軽量なグラフベースのトランスフォーマーネットワークを提案する。 提案手法は,グラフトランスフォーマーを用いて2次元人間のポーズにおける構造的および暗黙的な関節関係を解析する2D-to-3Dリフトモジュールと,抽出したポーズ特徴とメッシュテンプレートを組み合わせたメッシュ回帰モジュールとから構成される。

In this research, we address the challenge faced by existing deep learning-based human mesh reconstruction methods in balancing accuracy and computational efficiency. These methods typically prioritize accuracy, resulting in large network sizes and excessive computational complexity, which may hinder their practical application in real-world scenarios, such as virtual reality systems. To address this issue, we introduce a modular multi-stage lightweight graph-based transformer network for human pose and shape estimation from 2D human pose, a pose-based human mesh reconstruction approach that prioritizes computational efficiency without sacrificing reconstruction accuracy. Our method consists of a 2D-to-3D lifter module that utilizes graph transformers to analyze structured and implicit joint correlations in 2D human poses, and a mesh regression module that combines the extracted pose features with a mesh template to produce the final human mesh parameters.
翻訳日:2023-02-01 17:32:47 公開日:2023-01-31
# ReGANIE: 正確な実画像編集のためのGANインバージョンエラーの修正

ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing ( http://arxiv.org/abs/2301.13402v1 )

ライセンス: Link先を確認
Bingchuan Li, Tianxiang Ma, Peng Zhang, Miao Hua, Wei Liu, Qian He, Zili Yi(参考訳) styleganファミリは高忠実な画像生成に成功し、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で信頼性の高い編集を可能にするが、実際の画像をその潜在空間に投影することは、反転品質と編集可能性との間に固有のトレードオフに直面する。 既存のエンコーダベースまたは最適化ベースのStyleGANインバージョン手法はトレードオフを緩和しようとするが、性能は限られている。 この問題を根本的に解決するために,2つの異なるネットワークを2つのネットワークに分割して編集・再構築する手法を提案する。 具体的には、第1段階において、w空間指向のスタイルガン反転ネットワークを訓練し、画像反転および編集に使用し、編集性を確保しつつ、復元品質を犠牲にする。 第2相では、注意深く設計された整流ネットワークを用いて逆誤差を補正し、理想的な再構成を行う。 実験の結果,編集性を犠牲にすることなくほぼ完全な再構成が可能であり,実際の画像の正確な操作が可能であった。 さらに,整流ネットワークの性能評価を行い,非認識操作型やドメイン外画像に対して大きな汎用性を見いだした。

The StyleGAN family succeed in high-fidelity image generation and allow for flexible and plausible editing of generated images by manipulating the semantic-rich latent style space.However, projecting a real image into its latent space encounters an inherent trade-off between inversion quality and editability. Existing encoder-based or optimization-based StyleGAN inversion methods attempt to mitigate the trade-off but see limited performance. To fundamentally resolve this problem, we propose a novel two-phase framework by designating two separate networks to tackle editing and reconstruction respectively, instead of balancing the two. Specifically, in Phase I, a W-space-oriented StyleGAN inversion network is trained and used to perform image inversion and editing, which assures the editability but sacrifices reconstruction quality. In Phase II, a carefully designed rectifying network is utilized to rectify the inversion errors and perform ideal reconstruction. Experimental results show that our approach yields near-perfect reconstructions without sacrificing the editability, thus allowing accurate manipulation of real images. Further, we evaluate the performance of our rectifying network, and see great generalizability towards unseen manipulation types and out-of-domain images.
翻訳日:2023-02-01 17:32:31 公開日:2023-01-31
# 未知に分類:新しいベイズ型ニューラルネットワーク

Classified as unknown: A novel Bayesian neural network ( http://arxiv.org/abs/2301.13401v1 )

ライセンス: Link先を確認
Tianbo Yang and Tianshuo Yang(参考訳) 本稿では,probit関数を用いたsoftmaxアクティベーション関数の出力分布パラメータの推定を行う。 応用として、完全連結ニューラルネットワークのための新しい効率的なベイズ学習アルゴリズムを開発し、ベイズ推論フレームワーク内でクローズドフォームでトレーニングと予測を行う。 このアプローチは逐次学習を可能にし、計算コストの高い勾配計算やモンテカルロサンプリングを必要としない。 本研究は,二進分類のための単一パーセプトロンに対するベイズアルゴリズムを,多クラス分類のための多層パーセプトロンに一般化する。

We establish estimations for the parameters of the output distribution for the softmax activation function using the probit function. As an application, we develop a new efficient Bayesian learning algorithm for fully connected neural networks, where training and predictions are performed within the Bayesian inference framework in closed-form. This approach allows sequential learning and requires no computationally expensive gradient calculation and Monte Carlo sampling. Our work generalizes the Bayesian algorithm for a single perceptron for binary classification in \cite{H} to multi-layer perceptrons for multi-class classification.
翻訳日:2023-02-01 17:32:09 公開日:2023-01-31
# 物理ベースのビルディングエミュレータのためのデータ駆動モデリングと制御フレームワーク

A Data-Driven Modeling and Control Framework for Physics-Based Building Emulators ( http://arxiv.org/abs/2301.13447v1 )

ライセンス: Link先を確認
Chihyeon Song and Aayushman Sharma and Raman Goyal and Alejandro Brito and Saman Mostafavi(参考訳) 物理に基づく建築エミュレータのためのデータ駆動モデリングおよび制御フレームワークを提案する。 私たちのアプローチは (a)モデル評価を高速化し、安価な勾配を提供し、モデル予測制御(MPC)における後退地平線に対して良好な予測精度を有する微分代理モデルのオフライントレーニング b)非線形ビルディングhvac mpc問題の定式化と解法。 ビルディング最適化テストフレームワーク(BOPTEST)において、複数のサロゲートモデルと最適化フレームワークを用いて、モデリングおよび制御性能を広範囲に検証する。 このフレームワークは他のモデリング手法と互換性があり、異なる制御形式でカスタマイズできる。 モジュラリティは、物理ベースのビルディングエミュレータの開発で現在開発中のテストケースに対する将来的なアプローチを可能にし、大きな建物で予測コントローラをプロトタイプ化するための道を提供する。

We present a data-driven modeling and control framework for physics-based building emulators. Our approach comprises: (a) Offline training of differentiable surrogate models that speed up model evaluations, provide cheap gradients, and have good predictive accuracy for the receding horizon in Model Predictive Control (MPC) and (b) Formulating and solving nonlinear building HVAC MPC problems. We extensively verify the modeling and control performance using multiple surrogate models and optimization frameworks for different available test cases in the Building Optimization Testing Framework (BOPTEST). The framework is compatible with other modeling techniques and customizable with different control formulations. The modularity makes the approach future-proof for test cases currently in development for physics-based building emulators and provides a path toward prototyping predictive controllers in large buildings.
翻訳日:2023-02-01 17:25:32 公開日:2023-01-31
# 強化学習におけるシャープ変数依存境界:確率的・決定論的環境における両世界のベスト

Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments ( http://arxiv.org/abs/2301.13446v1 )

ライセンス: Link先を確認
Runlong Zhou, Zihan Zhang, Simon S. Du(参考訳) マルコフ決定過程(MDP)に対する分散依存的後悔境界について検討した。 分散依存的後悔保証を持つアルゴリズムは、分散度が低い環境(例えば、決定論的MDPの絶え間ない後悔を楽しむなど)を自動で利用することができる。 既存のアルゴリズムは分散非依存または準最適である。 まず,環境の細粒度分散特性を特徴付ける2つの新しい環境規範を提案する。 モデルに基づく手法では,MVP アルゴリズムの変種 (Zhang et al., 2021a) を設計し,本アルゴリズムが提案するノルムに対する分散依存境界を満足することを示す新しい解析手法を用いる。 特に、この境界は確率的および決定論的mdpの両方に最適であり、その種類の最初の結果である。 さらに,新しいcapped-doubling reference updateスケジュールを用いた参照関数型アルゴリズムの設計により,分散依存的後悔境界を持つモデルフリーアルゴリズムの研究をさらに開始する。 最後に、上界を補完する下界も提供します。

We study variance-dependent regret bounds for Markov decision processes (MDPs). Algorithms with variance-dependent regret guarantees can automatically exploit environments with low variance (e.g., enjoying constant regret on deterministic MDPs). The existing algorithms are either variance-independent or suboptimal. We first propose two new environment norms to characterize the fine-grained variance properties of the environment. For model-based methods, we design a variant of the MVP algorithm (Zhang et al., 2021a) and use new analysis techniques show to this algorithm enjoys variance-dependent bounds with respect to our proposed norms. In particular, this bound is simultaneously minimax optimal for both stochastic and deterministic MDPs, the first result of its kind. We further initiate the study on model-free algorithms with variance-dependent regret bounds by designing a reference-function-based algorithm with a novel capped-doubling reference update schedule. Lastly, we also provide lower bounds to complement our upper bounds.
翻訳日:2023-02-01 17:25:19 公開日:2023-01-31
# ディープ・ビジュアル・モデリングにおける説明可能なAI:方法とメトリクス

A Survey of Explainable AI in Deep Visual Modeling: Methods and Metrics ( http://arxiv.org/abs/2301.13445v1 )

ライセンス: Link先を確認
Naveed Akhtar(参考訳) 深部視覚モデルは高スループット領域に広く応用されている。 そのため、そのブラックボックスの性質は、現在研究コミュニティに大きな関心を集めている。 我々は、深い視覚モデルを理解するための方法とメトリクスに焦点を当てたExplainable AIの最初の調査を示す。 現状に沿う画期的な貢献をカバーし、既存の手法の分類学的組織を提供するだけでなく、さまざまな評価指標を発掘し、モデル説明の異なる性質の尺度として照合する。 現在のトレンドに関する洞察に富んだ議論とともに、この研究の方向性に対する課題と今後の道筋についても論じる。

Deep visual models have widespread applications in high-stake domains. Hence, their black-box nature is currently attracting a large interest of the research community. We present the first survey in Explainable AI that focuses on the methods and metrics for interpreting deep visual models. Covering the landmark contributions along the state-of-the-art, we not only provide a taxonomic organization of the existing techniques, but also excavate a range of evaluation metrics and collate them as measures of different properties of model explanations. Along the insightful discussion on the current trends, we also discuss the challenges and future avenues for this research direction.
翻訳日:2023-02-01 17:24:59 公開日:2023-01-31
# ラベル分布学習におけるソフトラベルの再考

Rethinking Soft Label in Label Distribution Learning Perspective ( http://arxiv.org/abs/2301.13444v1 )

ライセンス: Link先を確認
Seungbum Hong, Jihun Yoon, Bogyu Park, Min-Kook Choi(参考訳) 初期の畳み込みニューラルネットワーク(cnn)におけるトレーニングの主な目標は、モデルの一般化性能の向上である。 しかし、モデル推論の説明力を定量化する期待校正誤差(ECE)が最近導入され、説明可能なトレーニングモデルの研究が進行中である。 トレーニングと推論における監督基準のギャップが過信を招き,ラベル分布学習(LDL)がCNNトレーニングにおけるモデル校正を促進させると仮定した。 この仮定を検証するために,最近のデータ拡張技術を用いたシンプルなLCL設定を用いた。 一連の実験に基づいて、以下の結果が得られる。 1) 最先端KD法はモデル校正を著しく阻害する。 2)最近のデータ拡張を伴うldlを用いたトレーニングは,モデルキャリブレーションや一般化性能に優れた影響を与える可能性がある。 3) オンラインldlは,特に大規模モデルにおいて,長期トレーニングによるモデルキャリブレーションと精度がさらに向上する。 提案手法を用いて,画像分類データセットCIFAR10,100,STL10,ImageNetに対して,低ECEと高一般化性能を同時に達成した。 我々はいくつかの可視化と分析を行い、LCLを用いたCNNトレーニングでいくつかの興味深い行動を示した。

The primary goal of training in early convolutional neural networks (CNN) is the higher generalization performance of the model. However, as the expected calibration error (ECE), which quantifies the explanatory power of model inference, was recently introduced, research on training models that can be explained is in progress. We hypothesized that a gap in supervision criteria during training and inference leads to overconfidence, and investigated that performing label distribution learning (LDL) would enhance the model calibration in CNN training. To verify this assumption, we used a simple LDL setting with recent data augmentation techniques. Based on a series of experiments, the following results are obtained: 1) State-of-the-art KD methods significantly impede model calibration. 2) Training using LDL with recent data augmentation can have excellent effects on model calibration and even in generalization performance. 3) Online LDL brings additional improvements in model calibration and accuracy with long training, especially in large-size models. Using the proposed approach, we simultaneously achieved a lower ECE and higher generalization performance for the image classification datasets CIFAR10, 100, STL10, and ImageNet. We performed several visualizations and analyses and witnessed several interesting behaviors in CNN training with the LDL.
翻訳日:2023-02-01 17:24:49 公開日:2023-01-31
# Delta$DPの廃止: デモグラフィックパーティのための新しい配布レベルメトリクス

Retiring $\Delta$DP: New Distribution-Level Metrics for Demographic Parity ( http://arxiv.org/abs/2301.13443v1 )

ライセンス: Link先を確認
Xiaotian Han, Zhimeng Jiang, Hongye Jin, Zirui Liu, Na Zou, Qifan Wang, Xia Hu(参考訳) 人口格差は機械学習において最も広く認識されている集団公平度尺度であり、異なる集団の平等な扱いを保証する。 多くの作品は、一般的に使われる計量である$\delta dp$を追求することで、人口格差を達成することを目指している。 残念なことに、この論文では、フェアネス指標である$\Delta DP$は、本質的に以下の欠点があるため、人口統計学的パリティの違反を正確に測定することはできない。 そこで本研究では,2つの新しい公正度尺度を提案する: \textsf{A}rea \textsf{B}etween \textsf{P}robability density function \textsf{C}urves (\textsf{ABPC}) と \textsf{A}rea \textsf{B}etween \textsf{C}umulative density function \textsf{C}urves (\textsf{ABCC})。 新しい公平度指標は、異なる人口統計グループに対する予測確率の分布の差を直接測定する。 したがって、提案した新たな指標は以下の通りである。 ゼロ値 \textsf{ABCC}/\textsf{ABPC} は人口統計学的パリティのゼロ違反を保証し、 \textit{ii} \textsf{ABCC}/\textsf{ABPC} は人口統計学的パリティを保証し、分類しきい値を調整した。 さらに,提案する公平度指標を用いて,既存の公正度モデルを再評価し,新しい測定基準の下で異なる公平度挙動を観察する。

Demographic parity is the most widely recognized measure of group fairness in machine learning, which ensures equal treatment of different demographic groups. Numerous works aim to achieve demographic parity by pursuing the commonly used metric $\Delta DP$. Unfortunately, in this paper, we reveal that the fairness metric $\Delta DP$ can not precisely measure the violation of demographic parity, because it inherently has the following drawbacks: \textit{i)} zero-value $\Delta DP$ does not guarantee zero violation of demographic parity, \textit{ii)} $\Delta DP$ values can vary with different classification thresholds. To this end, we propose two new fairness metrics, \textsf{A}rea \textsf{B}etween \textsf{P}robability density function \textsf{C}urves (\textsf{ABPC}) and \textsf{A}rea \textsf{B}etween \textsf{C}umulative density function \textsf{C}urves (\textsf{ABCC}), to precisely measure the violation of demographic parity in distribution level. The new fairness metrics directly measure the difference between the distributions of the prediction probability for different demographic groups. Thus our proposed new metrics enjoy: \textit{i)} zero-value \textsf{ABCC}/\textsf{ABPC} guarantees zero violation of demographic parity; \textit{ii)} \textsf{ABCC}/\textsf{ABPC} guarantees demographic parity while the classification threshold adjusted. We further re-evaluate the existing fair models with our proposed fairness metrics and observe different fairness behaviors of those models under the new metrics.
翻訳日:2023-02-01 17:24:30 公開日:2023-01-31
# 単エージェント強化学習におけるスケーリング法則

Scaling laws for single-agent reinforcement learning ( http://arxiv.org/abs/2301.13442v1 )

ライセンス: Link先を確認
Jacob Hilton, Jie Tang, John Schulman(参考訳) 最近の研究は、生成的モデリングにおいて、クロスエントロピー損失はモデルのサイズとトレーニング計算によって滑らかに改善し、電力法則と一定のスケーリング法則に従うことを示した。 これらの結果を強化学習に拡張する上での課題のひとつは、関心のある主なパフォーマンス目標である平均エピソードリターンが、スムーズに変化する必要はないことだ。 これを解決するために、異なるサイズのモデルのファミリ間で与えられたリターンを達成するのに必要な最小の計算として定義されるリターンの単調関数 *inrinsic Performance* を導入する。 様々な環境において、本質的なパフォーマンスは、モデルサイズと環境相互作用における強力な法則であることがわかった。 したがって、生成モデルと同様に、最適モデルサイズは、トレーニング計算予算における電力法則としてスケールする。 さらに,この関係が環境やトレーニング環境の他の特性とどのように異なるかを検討した。 特に,おもちゃのmnistに基づく環境を用いて,タスクの「水平長」を変化させることで,この関係の指数ではなく係数が大きく変化することを示す。

Recent work has shown that, in generative modeling, cross-entropy loss improves smoothly with model size and training compute, following a power law plus constant scaling law. One challenge in extending these results to reinforcement learning is that the main performance objective of interest, mean episode return, need not vary smoothly. To overcome this, we introduce *intrinsic performance*, a monotonic function of the return defined as the minimum compute required to achieve the given return across a family of models of different sizes. We find that, across a range of environments, intrinsic performance scales as a power law in model size and environment interactions. Consequently, as in generative modeling, the optimal model size scales as a power law in the training compute budget. Furthermore, we study how this relationship varies with the environment and with other properties of the training setup. In particular, using a toy MNIST-based environment, we show that varying the "horizon length" of the task mostly changes the coefficient but not the exponent of this relationship.
翻訳日:2023-02-01 17:23:55 公開日:2023-01-31
# cmlcompiler: 古典的機械学習のための統一コンパイラ

CMLCompiler: A Unified Compiler for Classical Machine Learning ( http://arxiv.org/abs/2301.13441v1 )

ライセンス: Link先を確認
Xu Wen, Wanling Gao, Anzheng Li, Lei Wang, Zihan Jiang, Zihan Jiang(参考訳) 古典的な機械学習(CML)は、プロダクションアプリケーションにおける機械学習パイプラインの半分近くを占めている。 残念ながら、現状のデバイスを十分に活用できず、性能が良くない。 統合されたフレームワークがなければ、ディープラーニング(DL)とCMLのハイブリッドデプロイメントも、厳しいパフォーマンスとポータビリティの問題に悩まされる。 本稿では,CML推論のためのCMLコンパイラ (CML Compiler) の設計について述べる。 演算子表現と拡張計算グラフの2つの統合抽象化を提案する。 CMLCompilerフレームワークは、2つの統合された抽象化に基づいて変換とグラフの最適化を行い、最適化された計算グラフをDLコンパイラやフレームワークに出力する。 我々はTVMにCMLコンパイラを実装した。 この評価はCMLコンパイラのポータビリティと優れた性能を示している。 CPUでは最大4.38倍のスピードアップ、GPUでは3.31倍のスピードアップ、IoTデバイスでは5.09倍のスピードアップを実現している。 CMLとDL混合パイプラインの性能は、クロスフレームワークの実装と比較して最大3.04倍のスピードアップを実現しています。

Classical machine learning (CML) occupies nearly half of machine learning pipelines in production applications. Unfortunately, it fails to utilize the state-of-the-practice devices fully and performs poorly. Without a unified framework, the hybrid deployments of deep learning (DL) and CML also suffer from severe performance and portability issues. This paper presents the design of a unified compiler, called CMLCompiler, for CML inference. We propose two unified abstractions: operator representations and extended computational graphs. The CMLCompiler framework performs the conversion and graph optimization based on two unified abstractions, then outputs an optimized computational graph to DL compilers or frameworks. We implement CMLCompiler on TVM. The evaluation shows CMLCompiler's portability and superior performance. It achieves up to 4.38x speedup on CPU, 3.31x speedup on GPU, and 5.09x speedup on IoT devices, compared to the state-of-the-art solutions -- scikit-learn, intel sklearn, and hummingbird. Our performance of CML and DL mixed pipelines achieves up to 3.04x speedup compared with cross-framework implementations.
翻訳日:2023-02-01 17:23:37 公開日:2023-01-31
# GeneFace: 汎用的で高忠実なオーディオ駆動型3Dトーキング顔合成

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis ( http://arxiv.org/abs/2301.13430v1 )

ライセンス: Link先を確認
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, JinZheng He, Zhou Zhao(参考訳) 任意の音声によるフォトリアリスティックな映像のポートレートの生成は、映画製作や仮想現実において重要な問題である。 近年,3次元現実性と画像の忠実性を改善するために,この課題における神経放射場の利用について検討している。 しかし,領域外音声に対する従来のnrf方式の一般化は,小規模のトレーニングデータによって制限される。 本研究では,様々なドメイン外オーディオに対応する自然な結果を生成することができる汎用かつ高忠実なNeRFベースの音声合成手法であるGeneFaceを提案する。 具体的には,大口読唇コーパス上で可変運動生成器を学習し,その結果を校正するドメイン適応ポストネットを導入する。 さらに、予測された顔の動きに基づいて、NeRFベースのレンダラーを学習する。 頭部トルソ分離問題を解消するために頭部対応トルソナーフを提案する。 広範な実験により,従来の手法と比較して,より一般化し,高忠実な発話面生成が可能となった。

Generating photo-realistic video portrait with arbitrary speech audio is a crucial problem in film-making and virtual reality. Recently, several works explore the usage of neural radiance field in this task to improve 3D realness and image fidelity. However, the generalizability of previous NeRF-based methods to out-of-domain audio is limited by the small scale of training data. In this work, we propose GeneFace, a generalized and high-fidelity NeRF-based talking face generation method, which can generate natural results corresponding to various out-of-domain audio. Specifically, we learn a variaitional motion generator on a large lip-reading corpus, and introduce a domain adaptative post-net to calibrate the result. Moreover, we learn a NeRF-based renderer conditioned on the predicted facial motion. A head-aware torso-NeRF is proposed to eliminate the head-torso separation problem. Extensive experiments show that our method achieves more generalized and high-fidelity talking face generation compared to previous methods.
翻訳日:2023-02-01 17:23:21 公開日:2023-01-31
# コントラストとクラスタリング:ソースフリードメイン適応のための近隣ペア表現の学習

Contrast and Clustering: Learning Neighborhood Pair Representation for Source-free Domain Adaptation ( http://arxiv.org/abs/2301.13428v1 )

ライセンス: Link先を確認
Yuqi Chen, Xiangbin Zhu and Yonggang Li and Yingjian Li and Yuanwang Wei and Haojie Fang(参考訳) ドメイン適応は機械学習コミュニティで多くの注目を集めていますが、ソースデータへのアクセスが必要です。 そこで我々はこれらの問題に対処し、シンプルで効率的な方法を提案する。 この研究は、教師なしクラスタリング問題としてのドメイン適応を扱い、ソースデータにアクセスせずにターゲットモデルを訓練する。 具体的には、コントラスト・クラスタリング(CaC)と呼ばれる損失関数を提案し、正のペア項は特徴空間内の同じクラスに属する隣人を一緒に引いてクラスタを形成し、負のペア項は異なるクラスのサンプルを分離する。 さらに、拡張された近傍は、メモリバンクの最も近い隣接インデックスに問い合わせて、より価値のある負のペアをマイニングすることで考慮される。 VisDA, Office-Home, Office-31 の3つの一般的なベンチマーク実験により,本手法が最先端性能を実現することを示す。 コードはhttps://github.com/yukilulu/CaC.comで公開される。

Domain adaptation has attracted a great deal of attention in the machine learning community, but it requires access to source data, which often raises concerns about data privacy. We are thus motivated to address these issues and propose a simple yet efficient method. This work treats domain adaptation as an unsupervised clustering problem and trains the target model without access to the source data. Specifically, we propose a loss function called contrast and clustering (CaC), where a positive pair term pulls neighbors belonging to the same class together in the feature space to form clusters, while a negative pair term pushes samples of different classes apart. In addition, extended neighbors are taken into account by querying the nearest neighbor indexes in the memory bank to mine for more valuable negative pairs. Extensive experiments on three common benchmarks, VisDA, Office-Home and Office-31, demonstrate that our method achieves state-of-the-art performance. The code will be made publicly available at https://github.com/yukilulu/CaC.
翻訳日:2023-02-01 17:23:05 公開日:2023-01-31
# 画素ディスクリプタに基づく高解像度リモートセンシング画像の異常分割

Anomaly Segmentation for High-Resolution Remote Sensing Images Based on Pixel Descriptors ( http://arxiv.org/abs/2301.13422v1 )

ライセンス: Link先を確認
Jingtao Li, Xinyu Wang, Hengwei Zhao, Shaoyu Wang, Yanfei Zhong(参考訳) 高空間解像度(HSR)リモートセンシング画像における異常セグメンテーションは、通常のパターンから逸脱する地球の異常パターンのセグメンテーションを目的としており、様々な地球視覚応用において重要な役割を果たしている。 しかし,複雑な分布や物体の不規則な形状,異常な試料の欠如などにより困難な課題となっている。 これらの問題に対処するために,hsr画像における異常セグメント化のために,ピクセルディスクリプタ(asd)に基づく異常セグメンテーションモデルを提案する。 具体的には、特徴空間の異常セグメンテーションに、識別ピクセル記述子を用いた深層一階分類を導入する。 asdモデルは、仮想のab正規サンプルを生成するためのデータ引数を組み込んでおり、ピクセルディスクリプタを通常のデータでコンパクトにすることができ、一方、正のサンプルだけがトレーニングに参加した場合のモデル崩壊問題を回避するために多様である。 さらに、ASDは、低レベルおよびセマンティック情報を学習し、ピクセル記述子を機能豊かにするマルチレベルかつマルチスケールな特徴抽出戦略を導入した。 提案したASDモデルは、4つのHSRデータセットを用いて検証され、最近の最先端モデルと比較された。

Anomaly segmentation in high spatial resolution (HSR) remote sensing imagery is aimed at segmenting anomaly patterns of the earth deviating from normal patterns, which plays an important role in various Earth vision applications. However, it is a challenging task due to the complex distribution and the irregular shapes of objects, and the lack of abnormal samples. To tackle these problems, an anomaly segmentation model based on pixel descriptors (ASD) is proposed for anomaly segmentation in HSR imagery. Specifically, deep one-class classification is introduced for anomaly segmentation in the feature space with discriminative pixel descriptors. The ASD model incorporates the data argument for generating virtual ab-normal samples, which can force the pixel descriptors to be compact for normal data and meanwhile to be diverse to avoid the model collapse problems when only positive samples participated in the training. In addition, the ASD introduced a multi-level and multi-scale feature extraction strategy for learning the low-level and semantic information to make the pixel descriptors feature-rich. The proposed ASD model was validated using four HSR datasets and compared with the recent state-of-the-art models, showing its potential value in Earth vision applications.
翻訳日:2023-02-01 17:22:48 公開日:2023-01-31
# 2体系に対するプレボルン-オッペンハイマーディラック-クーロンブレット計算

Pre-Born-Oppenheimer Dirac-Coulomb-Breit computations for two-body systems ( http://arxiv.org/abs/2301.13477v1 )

ライセンス: Link先を確認
D\'avid Ferenc and Edit M\'atyus(参考訳) bethe-salpeter方程式から導かれる16成分のno-pair dirac--coulomb-breit方程式は、ガウス型基底関数(例えば、ポジトロニウム、ミューオン、水素原子、ミューオン水素)を用いた変分法によって解かれる。 変分エネルギーの$\alpha$ 微構造-定数依存は、$\alpha^n$ と $\alpha^n\text{ln}\alpha$ 項の関数を適合させることにより、(摂動的)非相対論的 qed フレームワークの関連するエネルギー表現と優れた一致を示し、したがって、計算相対論的 qed アプローチの開発のための確かな参照を確立する。

The sixteen-component, no-pair Dirac--Coulomb--Breit equation, derived from the Bethe--Salpeter equation, is solved in a variational procedure using Gaussian-type basis functions for the example of positronium, muonium, hydrogen atom, and muonic hydrogen. The $\alpha$ fine-structure-constant dependence of the variational energies, through fitting a function of $\alpha^n$ and $\alpha^n\text{ln}\alpha$ terms, shows excellent agreement with the relevant energy expressions of the (perturbative) non-relativistic QED framework, and thereby, establishes a solid reference for the development of a computational relativistic QED approach.
翻訳日:2023-02-01 17:17:06 公開日:2023-01-31
# 安全クリティカルMLアプリケーションのためのトレーニングデータと実行時モニタを指定する際の課題の検討

An investigation of challenges encountered when specifying training data and runtime monitors for safety critical ML applications ( http://arxiv.org/abs/2301.13476v1 )

ライセンス: Link先を確認
Hans-Martin Heyn and Eric Knauss and Iswarya Malleswaran and Shruthi Dinakaran(参考訳) コンテキストとモチベーション: 機械学習(ML)モデルを含む重要なソフトウェアの開発と運用には、厳格さと確立されたプロセスが必要である。 特に、MLモデルの開発で使用されるトレーニングデータは、システムの後の振る舞いに大きな影響を与えます。 ランタイムモニタは、その動作の保証を提供するために使用される。 質問 / 問題: 重要なMLモデルのトレーニングデータとランタイム監視の指定方法と、それによってシステムの最終的な機能を指定する方法に大きな不確実性がある。 本研究は,これらの課題に対する基礎的課題について検討する。 主なアイデア/結果:自動車および通信分野で重要な応用のためのmlモデルを開発する実践者10人のインタビューに基づき、トレーニングデータとランタイム監視の課題に関連する6つのチャレンジグループで17の課題を特定した。 コントリビューション: この記事は、MLモデルのトレーニングデータとランタイム監視を指定する際の、実践者が経験する困難に関連する、特定された根本的な課題のリストを提供する。 さらに, 課題間の相互接続が発見され, 課題の根本原因を克服するため, これらの接続を推奨した。

Context and motivation: The development and operation of critical software that contains machine learning (ML) models requires diligence and established processes. Especially the training data used during the development of ML models have major influences on the later behaviour of the system. Runtime monitors are used to provide guarantees for that behaviour. Question / problem: We see major uncertainty in how to specify training data and runtime monitoring for critical ML models and by this specifying the final functionality of the system. In this interview-based study we investigate the underlying challenges for these difficulties. Principal ideas/results: Based on ten interviews with practitioners who develop ML models for critical applications in the automotive and telecommunication sector, we identified 17 underlying challenges in 6 challenge groups that relate to the challenge of specifying training data and runtime monitoring. Contribution: The article provides a list of the identified underlying challenges related to the difficulties practitioners experience when specifying training data and runtime monitoring for ML models. Furthermore, interconnection between the challenges were found and based on these connections recommendation proposed to overcome the root causes for the challenges.
翻訳日:2023-02-01 17:16:48 公開日:2023-01-31
# CRC-RL:教師なし強化学習のための新しい視覚特徴表現アーキテクチャ

CRC-RL: A Novel Visual Feature Representation Architecture for Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2301.13473v1 )

ライセンス: Link先を確認
Darshita Jain, Anima Majumder, Samrat Dutta and Swagat Kumar(参考訳) 本稿では、エンドツーエンド強化学習(RL)モデルの性能向上を目的とした視覚特徴表現学習の課題に対処する。 具体的には,crcロスと呼ばれる不均質な損失関数を用いて,rlのポリシ学習に使用できる視覚機能の改善を学習する,新しいアーキテクチャを提案する。 CRC-loss関数は3つの個別損失関数、すなわちコントラスト、再構成、一貫性損失の組み合わせである。 特徴表現はポリシー学習と並行して学習され、シャム双対エンコーダモデルを通じて重みの更新を共有する。 このエンコーダモデルは、上記の損失成分の計算を容易にするためにデコーダネットワークと特徴投影ネットワークとで拡張される。 潜在的特徴可視化を含む経験的分析を通じて、新しい行動依存的特徴の学習においてこの損失関数が果たす役割と、それらが解決される問題の複雑さとどのように関連しているかを考察する。 提案したアーキテクチャはCRC-RLと呼ばれ、Deep Mind Control Suite環境における既存の最先端の手法をかなりのマージンで上回り、この分野の新しいベンチマークを作成する。

This paper addresses the problem of visual feature representation learning with an aim to improve the performance of end-to-end reinforcement learning (RL) models. Specifically, a novel architecture is proposed that uses a heterogeneous loss function, called CRC loss, to learn improved visual features which can then be used for policy learning in RL. The CRC-loss function is a combination of three individual loss functions, namely, contrastive, reconstruction and consistency loss. The feature representation is learned in parallel to the policy learning while sharing the weight updates through a Siamese Twin encoder model. This encoder model is augmented with a decoder network and a feature projection network to facilitate computation of the above loss components. Through empirical analysis involving latent feature visualization, an attempt is made to provide an insight into the role played by this loss function in learning new action-dependent features and how they are linked to the complexity of the problems being solved. The proposed architecture, called CRC-RL, is shown to outperform the existing state-of-the-art methods on the challenging Deep mind control suite environments by a significant margin thereby creating a new benchmark in this field.
翻訳日:2023-02-01 17:16:30 公開日:2023-01-31
# 量子二乗環を横切る二部交絡対のアハロノフ・カッシャー位相

The Aharonov Casher phase of a bipartite entanglement pair traversing a quantum square ring ( http://arxiv.org/abs/2301.13472v1 )

ライセンス: Link先を確認
Che-Chun Huang, Seng Ghee Tan and Ching-Ray Chang(参考訳) 本稿では, エンタングルメントの助けを借りてアハロノフ・カッシャー相を簡便に生成し, 消滅し, 蒸留する量子正方環を提案する。 非可換位相は、正方形環を横切る一対のスピン絡み合い粒子によって運ばれる。 最大エンタングルメントでは、環から動的位相を排除し、幾何学的位相を離散値で生成する。 対照的に、部分的から非絡み合いにおいて、幾何学的位相と動的位相は、波長とリングサイズのみに依存する離散的または局所的な連続的な値を取る。 非アベリア系における絡み合いは、幾何学的位相の研究にまつわる将来の実験的取り組みを大幅に単純化できることを示した。

We propose in this article a quantum square ring that conveniently generates, annihilates and distills the Aharonov Casher phase with the aid of entanglement. The non-Abelian phase is carried by a pair of spin-entangled particles traversing the square ring. At maximal entanglement, dynamic phases are eliminated from the ring and geometric phases are generated in discrete values. By contrast, at partial to no entanglement, both geometric and dynamic phases take on discrete or locally continuous values depending only on the wavelength and the ring size. We have shown that entanglement in a non-Abelian system could greatly simplify future experimental efforts revolving around the studies of geometric phases.
翻訳日:2023-02-01 17:16:09 公開日:2023-01-31
# GDOD:マルチタスク学習のための直交分解を用いた効果的なグラディエントDescence

GDOD: Effective Gradient Descent using Orthogonal Decomposition for Multi-Task Learning ( http://arxiv.org/abs/2301.13465v1 )

ライセンス: Link先を確認
Xin Dong, Ruize Wu, Chao Xiong, Hai Li, Lei Cheng, Yong He, Shiyou Qian, Jian Cao, Linjian Mo(参考訳) マルチタスク学習(MTL)は、複数のタスクを同時に解決することを目的としており、近年急速に成長している。 しかし、mtlモデルは複数のタスクを同時に学習することで、パフォーマンスの低下と負の転送に苦しむことが多い。 問題の原因は矛盾する勾配にあるとする関連研究もある。 この場合、すべてのタスクに対して有用な勾配更新を慎重に選択する必要がある。 そこで本研究では,全タスク勾配のスパンから分解した直交基底を用いて,各タスクの勾配を演算する,GDODという新しいMTL最適化手法を提案する。 GDODは、グラデーションをタスク共有コンポーネントとタスクコンフリクトコンポーネントに明示的に分解し、すべてのタスクグラデーション間の干渉を避けるための一般的な更新ルールを採用する。 これにより、タスク共有コンポーネントに応じて更新方向を案内できる。 さらに、gdod の収束を理論的に凸と非凸の両方の仮定の下で証明する。 複数のマルチタスクデータセットの実験結果から,既存のMTLモデルに対するGDODの大幅な改善を示すだけでなく,AUCとLoglossの指標を用いて,アルゴリズムが最先端の最適化手法より優れていることを示す。

Multi-task learning (MTL) aims at solving multiple related tasks simultaneously and has experienced rapid growth in recent years. However, MTL models often suffer from performance degeneration with negative transfer due to learning several tasks simultaneously. Some related work attributed the source of the problem is the conflicting gradients. In this case, it is needed to select useful gradient updates for all tasks carefully. To this end, we propose a novel optimization approach for MTL, named GDOD, which manipulates gradients of each task using an orthogonal basis decomposed from the span of all task gradients. GDOD decomposes gradients into task-shared and task-conflict components explicitly and adopts a general update rule for avoiding interference across all task gradients. This allows guiding the update directions depending on the task-shared components. Moreover, we prove the convergence of GDOD theoretically under both convex and non-convex assumptions. Experiment results on several multi-task datasets not only demonstrate the significant improvement of GDOD performed to existing MTL models but also prove that our algorithm outperforms state-of-the-art optimization methods in terms of AUC and Logloss metrics.
翻訳日:2023-02-01 17:15:56 公開日:2023-01-31
# 混合精度浮動小数点アサインメントによる訓練

Training with Mixed-Precision Floating-Point Assignments ( http://arxiv.org/abs/2301.13464v1 )

ライセンス: Link先を確認
Wonyeol Lee, Rahul Sharma, Alex Aiken(参考訳) ディープニューラルネットワークのトレーニングでは、すべてのテンソルを高精度(例えば32ビットまたは16ビットフロート)に保つことはしばしば無駄である。 しかし、全てのテンソルを低い精度(例えば8ビットフロート)に保つと、許容できない精度を失う。 したがって、すべてのテンソル(訓練中)から高精度レベル(高いか低いか)へのマッピングである精度割当を使用することが重要であり、ほとんどのテンソルを低い精度で保持し、十分に正確なモデルをもたらす。 正確な割り当てを発生させることで、このメモリ正確性のトレードオフを探索する技術を提供する。 (i)少ないメモリ使用と (ii)低精度浮動小数点訓練における先行作業が考慮した精度課題と比較して,同時に精度の高いモデルが得られた。 本手法は,トレーニング精度を保ちながら,ベースライン精度よりも2倍のメモリ削減を実現し,精度のトレードオフによるさらなる削減を実現する。 トレーニングの発散の原因となる他のベースラインと比較して,本手法は発散を回避しつつ,類似あるいはより良いメモリ削減を実現する。

When training deep neural networks, keeping all tensors in high precision (e.g., 32-bit or even 16-bit floats) is often wasteful. However, keeping all tensors in low precision (e.g., 8-bit floats) can lead to unacceptable accuracy loss. Hence, it is important to use a precision assignment -- a mapping from all tensors (arising in training) to precision levels (high or low) -- that keeps most of the tensors in low precision and leads to sufficiently accurate models. We provide a technique that explores this memory-accuracy tradeoff by generating precision assignments that (i) use less memory and (ii) lead to more accurate models at the same time, compared to the precision assignments considered by prior work in low-precision floating-point training. Our method typically provides > 2x memory reduction over a baseline precision assignment while preserving training accuracy, and gives further reductions by trading off accuracy. Compared to other baselines which sometimes cause training to diverge, our method provides similar or better memory reduction while avoiding divergence.
翻訳日:2023-02-01 17:15:37 公開日:2023-01-31
# 一般循環モデルにおける年次水アイソトポローグ変動の学習に向けて

Towards Learned Emulation of Interannual Water Isotopologue Variations in General Circulation Models ( http://arxiv.org/abs/2301.13462v1 )

ライセンス: Link先を確認
Jonathan Wider, Jakob Kruse, Nils Weitzel, Janica C. B\"uhler, Ullrich K\"othe and Kira Rehfeld(参考訳) 気候モデルにおける安定な水のイソトポローグの存在量、すなわちその同位体組成の異なる分子のシミュレーションは、プロキシデータとの比較を可能にし、過去の気候に関する仮説を検証し、様々な気候条件下で気候モデルを検証する。 しかし、多くのモデルは水アイソトポローグを明示的にシミュレートすることなく実行される。 本研究では, 降水時の酸素同位体組成の明示的な物理シミュレーションを機械学習手法で置き換える可能性を検討する。 これらの手法は, 表面温度および降水量の各時間ステップにおける同位体組成を推定する。 我々は、unetアーキテクチャの成功に基づいて畳み込みニューラルネットワーク(cnns)を実装し、球状ネットワークアーキテクチャが地球の緯度経度グリッドを平坦な画像として扱うナイーブなアプローチよりも優れているかどうかをテストする。 iHadCM3気候モデルを用いた最終千年紀のケーススタディにより, 同位体組成の時間的変動の約40%は, 年次および月次時間スケールのエミュレーションによって説明され, 空間的に異なるエミュレーション品質を持つことがわかった。 フラット画像のための標準UNetアーキテクチャの修正版では、球面CNNの予測と同等に良い結果が得られる。 実験により,iHadCM3データにおいて,テストした深層学習法が最良の結果をもたらすのに対して,他のモデルで予測した場合のパフォーマンスは低下し,単純なピクセル単位の線形回帰に匹敵することがわかった。 予測変数の長い選択と学習した気候の堅牢性の改善--酸素同位体関係は今後の研究で検討されるべきである。

Simulating abundances of stable water isotopologues, i.e. molecules differing in their isotopic composition, within climate models allows for comparisons with proxy data and, thus, for testing hypotheses about past climate and validating climate models under varying climatic conditions. However, many models are run without explicitly simulating water isotopologues. We investigate the possibility to replace the explicit physics-based simulation of oxygen isotopic composition in precipitation using machine learning methods. These methods estimate isotopic composition at each time step for given fields of surface temperature and precipitation amount. We implement convolutional neural networks (CNNs) based on the successful UNet architecture and test whether a spherical network architecture outperforms the naive approach of treating Earth's latitude-longitude grid as a flat image. Conducting a case study on a last millennium run with the iHadCM3 climate model, we find that roughly 40\% of the temporal variance in the isotopic composition is explained by the emulations on interannual and monthly timescale, with spatially varying emulation quality. A modified version of the standard UNet architecture for flat images yields results that are equally good as the predictions by the spherical CNN. We test generalization to last millennium runs of other climate models and find that while the tested deep learning methods yield the best results on iHadCM3 data, the performance drops when predicting on other models and is comparable to simple pixel-wise linear regression. An extended choice of predictor variables and improving the robustness of learned climate--oxygen isotope relationships should be explored in future work.
翻訳日:2023-02-01 17:15:19 公開日:2023-01-31
# 画像認識のための一般化ハイブリッド表現の学習

Learning Generalized Hybrid Proximity Representation for Image Recognition ( http://arxiv.org/abs/2301.13459v1 )

ライセンス: Link先を確認
Zhiyuan Li, Anca Ralescu(参考訳) 近年,学習距離表現がサンプル間の類似度関係を捉え,教師なし・教師なし学習タスクの性能向上に有用であることから,ディープメトリック学習手法が注目されている。 画像認識のための幾何空間と確率空間の両方で距離メトリクスを学習できる新しい教師付き距離学習法を提案する。 ユークリッド空間における距離指標の学習に重点を置く従来の計量学習法とは対照的に,提案手法はハイブリッド手法でより優れた距離表現を学習することができる。 これを実現するために,画像データから一般ハイブリッド近接特徴を学習するための一般化ハイブリッドメトリック損失(ghm-loss)を提案し,幾何学的近接と確率的近接とのトレードオフを制御した。 提案手法の有効性を評価するため,まず,提案した損失関数の理論的導出と証明を行い,提案手法の利点を他の最先端メトリック学習法と比較して示すために2つの公開データセットに対して広範な実験を行った。

Recently, deep metric learning techniques received attention, as the learned distance representations are useful to capture the similarity relationship among samples and further improve the performance of various of supervised or unsupervised learning tasks. We propose a novel supervised metric learning method that can learn the distance metrics in both geometric and probabilistic space for image recognition. In contrast to the previous metric learning methods which usually focus on learning the distance metrics in Euclidean space, our proposed method is able to learn better distance representation in a hybrid approach. To achieve this, we proposed a Generalized Hybrid Metric Loss (GHM-Loss) to learn the general hybrid proximity features from the image data by controlling the trade-off between geometric proximity and probabilistic proximity. To evaluate the effectiveness of our method, we first provide theoretical derivations and proofs of the proposed loss function, then we perform extensive experiments on two public datasets to show the advantage of our method compared to other state-of-the-art metric learning methods.
翻訳日:2023-02-01 17:14:49 公開日:2023-01-31
# zhichunroad - amazon kdd cup 2022: eコマース製品検索のためのマルチタスク事前トレーニング

ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for E-Commerce Product Search ( http://arxiv.org/abs/2301.13455v1 )

ライセンス: Link先を確認
Xuange Cui, Wei Xiong, Songlin Wang(参考訳) 本稿では,検索結果の品質向上のための頑健な多言語モデルを提案する。 我々のモデルは、処理されたクラスバランスデータセットを利用するだけでなく、より一般的な表現につながるマルチタスク事前トレーニングの恩恵も得る。 事前学習段階では,mlmタスク,分類タスク,コントラスト学習タスクを採用し,高い性能を達成する。 微調整段階において、モデルの一般化とロバスト性を改善するために、自信ある学習、指数的移動平均法(EMA)、敵対的訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。 さらに,マルチグラニュラ意味単位を用いてクエリを発見し,モデルの表現性を高めるためのテキストメタデータを提供する。 このアプローチは3つのタスクでトップ8にランクインした。 この作業に関連するソースコードと事前訓練されたモデルをリリースします。

In this paper, we propose a robust multilingual model to improve the quality of search results. Our model not only leverage the processed class-balanced dataset, but also benefit from multitask pre-training that leads to more general representations. In pre-training stage, we adopt mlm task, classification task and contrastive learning task to achieve considerably performance. In fine-tuning stage, we use confident learning, exponential moving average method (EMA), adversarial training (FGM) and regularized dropout strategy (R-Drop) to improve the model's generalization and robustness. Moreover, we use a multi-granular semantic unit to discover the queries and products textual metadata for enhancing the representation of the model. Our approach obtained competitive results and ranked top-8 in three tasks. We release the source code and pre-trained models associated with this work.
翻訳日:2023-02-01 17:14:19 公開日:2023-01-31
# AI技術商用化のコンプライアンスコスト - 現場展開の視点

Compliance Costs of AI Technology Commercialization: A Field Deployment Perspective ( http://arxiv.org/abs/2301.13454v1 )

ライセンス: Link先を確認
Weiyue Wu and Shaoshan Liu(参考訳) 人工知能(AI)技術は急速に進歩しているが、コンプライアンスコストは、すでに研究開発予算に制約されているAIスタートアップにとって大きな財政負担となっている。 この状況は、多くのAIスタートアップが幅広い規制要件に対処する準備が整っていないため、コンプライアンスの罠を生じさせる。 特に、世界中の複雑で多様な規制プロセスは、リソースに制約されたAIスタートアップよりも、しっかりと確立されたリソースに富んだテクノロジー企業に微妙に利点を与えます[1]。 この傾向の継続は、AIスタートアップの大多数を段階的に排除し、巨大テクノロジー企業のAI技術独占につながる可能性がある。 コンプライアンストラップの現実を実証するために、フィールド配置の観点から、私たちはai商用オペレーションのコンプライアンスコストの詳細を調べます。

While Artificial Intelligence (AI) technologies are progressing fast, compliance costs have become a huge financial burden for AI startups, which are already constrained on research & development budgets. This situation creates a compliance trap, as many AI startups are not financially prepared to cope with a broad spectrum of regulatory requirements. Particularly, the complex and varying regulatory processes across the globe subtly give advantages to well-established and resourceful technology firms over resource-constrained AI startups [1]. The continuation of this trend may phase out the majority of AI startups and lead to giant technology firms' monopolies of AI technologies. To demonstrate the reality of the compliance trap, from a field deployment perspective, we delve into the details of compliance costs of AI commercial operations.
翻訳日:2023-02-01 17:13:56 公開日:2023-01-31
# 3次元SDF変換器を用いた単眼シーン再構成

Monocular Scene Reconstruction with 3D SDF Transformers ( http://arxiv.org/abs/2301.13510v1 )

ライセンス: Link先を確認
Weihao Yuan, Xiaodong Gu, Heng Li, Zilong Dong, Siyu Zhu(参考訳) ポーズ画像からの単眼的シーン再構成は,大規模環境の複雑さから困難である。 近年の体積法はTSDFの体積を直接予測することを学び,この課題において有望な結果を示した。 しかし、ほとんどの方法は2d機能を3d機能ボリュームに抽出・融合する方法にフォーカスしているが、3dボリュームの集約方法を改善するものはない。 本研究では,より優れた3次元特徴集約のための3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。 3次元マルチヘッドアテンションの爆発的計算の複雑さを軽減するために,ローカルウインドウ内の空でないボクセル間でのみ注意が計算される分散ウインドウアテンションモジュールを提案する。 次に,3次元特徴集約のためのトップダウンボトムアップ3Dアテンションネットワークを構築し,ジオメトリーの劣化を防ぐためにダイレートアテンション構造を提案し,グローバルな受容場に合わせるために2つのグローバルモジュールを用いる。 複数のデータセットに対する実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成し、従来の手法よりも大きなマージンで優れていた。 注目すべきは、メッシュの精度が41.8%向上し、ScanNetデータセットでメッシュの完全性が25.3%向上したことだ。 プロジェクトページ: https://weihaosky.github.io/sdfformer。

Monocular scene reconstruction from posed images is challenging due to the complexity of a large environment. Recent volumetric methods learn to directly predict the TSDF volume and have demonstrated promising results in this task. However, most methods focus on how to extract and fuse the 2D features to a 3D feature volume, but none of them improve the way how the 3D volume is aggregated. In this work, we propose an SDF transformer network, which replaces the role of 3D CNN for better 3D feature aggregation. To reduce the explosive computation complexity of the 3D multi-head attention, we propose a sparse window attention module, where the attention is only calculated between the non-empty voxels within a local window. Then a top-down-bottom-up 3D attention network is built for 3D feature aggregation, where a dilate-attention structure is proposed to prevent geometry degeneration, and two global modules are employed to equip with global receptive fields. The experiments on multiple datasets show that this 3D transformer network generates a more accurate and complete reconstruction, which outperforms previous methods by a large margin. Remarkably, the mesh accuracy is improved by 41.8%, and the mesh completeness is improved by 25.3% on the ScanNet dataset. Project page: https://weihaosky.github.io/sdfformer.
翻訳日:2023-02-01 17:07:12 公開日:2023-01-31
# 歌詞・音声特徴を用いたメタデータ特徴量を用いたヒット曲予測のための分類手法の解析

An Analysis of Classification Approaches for Hit Song Prediction using Engineered Metadata Features with Lyrics and Audio Features ( http://arxiv.org/abs/2301.13507v1 )

ライセンス: Link先を確認
Mengyisong Zhao, Morgan Harvey, David Cameron, Frank Hopfgartner and Valerie J. Gillet(参考訳) 音楽情報検索(MIR)における新たな分野の一つであるヒット曲予測は,依然として大きな課題である。 特定の曲がヒットする理由を理解することは、音楽業界全体にとって明らかに有益である。 ヒット曲予測へのこれまでのアプローチは、レコードの音声機能の使用に焦点を当ててきた。 本研究の目的は、Spotifyの楽曲音声機能、歌詞、新しいメタデータベースの機能(タイトルトピック、人気連続性、ジャンルクラス)など、より代替的なメタデータを用いて、Billboard Hot 100の上位10曲の予測結果を改善することである。 k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。 その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成し,他のモデルよりも優れていた。 また, 新たな音楽メタデータ機能の有用性を実証し, モデルの識別性能に大きく寄与した。

Hit song prediction, one of the emerging fields in music information retrieval (MIR), remains a considerable challenge. Being able to understand what makes a given song a hit is clearly beneficial to the whole music industry. Previous approaches to hit song prediction have focused on using audio features of a record. This study aims to improve the prediction result of the top 10 hits among Billboard Hot 100 songs using more alternative metadata, including song audio features provided by Spotify, song lyrics, and novel metadata-based features (title topic, popularity continuity and genre class). Five machine learning approaches are applied, including: k-nearest neighbours, Naive Bayes, Random Forest, Logistic Regression and Multilayer Perceptron. Our results show that Random Forest (RF) and Logistic Regression (LR) with all features (including novel features, song audio features and lyrics features) outperforms other models, achieving 89.1% and 87.2% accuracy, and 0.91 and 0.93 AUC, respectively. Our findings also demonstrate the utility of our novel music metadata features, which contributed most to the models' discriminative performance.
翻訳日:2023-02-01 17:06:50 公開日:2023-01-31
# 安全分析のためのDNN説明-クラスタリングに基づくアプローチの実証評価

DNN Explanation for Safety Analysis: an Empirical Evaluation of Clustering-based Approaches ( http://arxiv.org/abs/2301.13506v1 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore and Lionel Briand(参考訳) 安全クリティカルな文脈におけるディープニューラルネットワーク(dnn)の採用は、その結果を説明する効果的な手段の欠如、特に誤用によってしばしば妨げられる。 先程の研究では,DNN障害を自動的に特徴付けるためのホワイトボックスアプローチ (HUDD) とブラックボックスアプローチ (SAFE) を提案した。 どちらも、DNNの障害につながる可能性のある大きなイメージから、類似したイメージのクラスタを識別する。 しかし、HUDDとSAFEの分析パイプラインは、一般的なプラクティスに従って特定の方法でインスタンス化され、他のパイプラインの分析を将来の作業に延期した。 本稿では,DNN故障の根本原因分析のための99種類のパイプラインの実験的評価について報告する。 それらは転送学習、オートエンコーダ、ニューロンの関連性のヒートマップ、次元削減技術、および異なるクラスタリングアルゴリズムを組み合わせる。 この結果から,最高のパイプラインは転送学習,DBSCAN,UMAPの組み合わせであることが示唆された。 クラスタは、ほぼ同じ障害シナリオの画像のみをキャプチャし、ルート原因分析を容易にする。 さらに、障害の根本原因ごとに異なるクラスタを生成し、エンジニアがすべての安全でないシナリオを検出できるようにする。 興味深いことに、これらの結果は、失敗する画像のごく一部でのみ観察される障害シナリオにも当てはまる。

The adoption of deep neural networks (DNNs) in safety-critical contexts is often prevented by the lack of effective means to explain their results, especially when they are erroneous. In our previous work, we proposed a white-box approach (HUDD) and a black-box approach (SAFE) to automatically characterize DNN failures. They both identify clusters of similar images from a potentially large set of images leading to DNN failures. However, the analysis pipelines for HUDD and SAFE were instantiated in specific ways according to common practices, deferring the analysis of other pipelines to future work. In this paper, we report on an empirical evaluation of 99 different pipelines for root cause analysis of DNN failures. They combine transfer learning, autoencoders, heatmaps of neuron relevance, dimensionality reduction techniques, and different clustering algorithms. Our results show that the best pipeline combines transfer learning, DBSCAN, and UMAP. It leads to clusters almost exclusively capturing images of the same failure scenario, thus facilitating root cause analysis. Further, it generates distinct clusters for each root cause of failure, thus enabling engineers to detect all the unsafe scenarios. Interestingly, these results hold even for failure scenarios that are only observed in a small percentage of the failing images.
翻訳日:2023-02-01 17:06:27 公開日:2023-01-31
# アルツハイマー病の認知機能低下検出のための転帰学習とクラス分解

Transfer Learning and Class Decomposition for Detecting the Cognitive Decline of Alzheimer Disease ( http://arxiv.org/abs/2301.13504v1 )

ライセンス: Link先を確認
Maha M. Alwuthaynani, Zahraa S. Abdallah, Raul Santos-Rodriguez(参考訳) アルツハイマー病(AD)の早期診断は、疾患の進行を防ぐために不可欠である。 そのため,近年,構造磁気共鳴画像(sMRI)などの神経画像データからADを検出することが盛んに研究されている。 深層学習はアルツハイマーの検出において大きな注目を集めている。 しかしながら、畳み込みニューラルネットワークをゼロからトレーニングすることは、より多くの計算時間と大量の注釈付きデータを必要とするため、難しい。 他の画像認識タスクから学んだ知識を医用画像分類に転送することで、伝達学習は有望で効果的なソリューションを提供することができる。 データセットの分布の不規則性もまた困難である。 クラス分解はデータセットのクラス境界の学習を簡単にすることでこの問題に対処できる。 そこで本研究では,SMRI画像からアルツハイマー病を検出するために,クラス分解を用いた転写学習手法を提案する。 我々は、VGG19とResNet50の2つのImageNet学習アーキテクチャとエントロピーに基づく手法を用いて、最も情報に富んだ画像を決定する。 提案モデルは,アルツハイマー病 (AD) と軽度認知障害 (MCI) と認知正常 (CN) の分類課題において,文献で報告された3倍の精度で最先端の成績を達成した。

Early diagnosis of Alzheimer's disease (AD) is essential in preventing the disease's progression. Therefore, detecting AD from neuroimaging data such as structural magnetic resonance imaging (sMRI) has been a topic of intense investigation in recent years. Deep learning has gained considerable attention in Alzheimer's detection. However, training a convolutional neural network from scratch is challenging since it demands more computational time and a significant amount of annotated data. By transferring knowledge learned from other image recognition tasks to medical image classification, transfer learning can provide a promising and effective solution. Irregularities in the dataset distribution present another difficulty. Class decomposition can tackle this issue by simplifying learning a dataset's class boundaries. Motivated by these approaches, this paper proposes a transfer learning method using class decomposition to detect Alzheimer's disease from sMRI images. We use two ImageNet-trained architectures: VGG19 and ResNet50, and an entropy-based technique to determine the most informative images. The proposed model achieved state-of-the-art performance in the Alzheimer's disease (AD) vs mild cognitive impairment (MCI) vs cognitively normal (CN) classification task with a 3\% increase in accuracy from what is reported in the literature.
翻訳日:2023-02-01 17:06:08 公開日:2023-01-31
# 非対称交渉ゲームとしての補助学習

Auxiliary Learning as an Asymmetric Bargaining Game ( http://arxiv.org/abs/2301.13501v1 )

ライセンス: Link先を確認
Aviv Shamsian, Aviv Navon, Neta Glazer, Kenji Kawaguchi, Gal Chechik, Ethan Fetaya(参考訳) 補助学習は、特に小さなデータセットを扱う場合、訓練されたモデルの一般化能力を高める効果的な方法である。 しかし、このアプローチにはいくつかの困難がある。 (i)複数の目的を最適化することがより困難になり、 (II)メインタスクを最大限に支援するために補助タスクのバランスをとる方法は不明である。 本研究では,非対称なタスク交渉力を持つ汎用交渉ゲームとして問題を定式化し,補助学習におけるタスクのバランスをとるための新しいアプローチであるオーキナッシュを提案する。 さらに、主タスクの性能に対する貢献度に基づいてタスクの交渉力を学習するための効率的な手順について述べ、その収束に関する理論的保証を導出する。 最後に、複数のマルチタスクベンチマークで auxinash を評価し、競合するメソッドを一貫して上回っています。

Auxiliary learning is an effective method for enhancing the generalization capabilities of trained models, particularly when dealing with small datasets. However, this approach may present several difficulties: (i) optimizing multiple objectives can be more challenging, and (ii) how to balance the auxiliary tasks to best assist the main task is unclear. In this work, we propose a novel approach, named AuxiNash, for balancing tasks in auxiliary learning by formalizing the problem as generalized bargaining game with asymmetric task bargaining power. Furthermore, we describe an efficient procedure for learning the bargaining power of tasks based on their contribution to the performance of the main task and derive theoretical guarantees for its convergence. Finally, we evaluate AuxiNash on multiple multi-task benchmarks and find that it consistently outperforms competing methods.
翻訳日:2023-02-01 17:05:48 公開日:2023-01-31
# 企業間Tribe:階層型グラフニューラルネットワークを用いたトライブスタイルグラフの企業財務リスク評価

Company-as-Tribe: Company Financial Risk Assessment on Tribe-Style Graph with Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2301.13492v1 )

ライセンス: Link先を確認
Wendong Bi, Bingbing Xu, Xiaoqian Sun, Zidong Wang, Huawei Shen, Xueqi Cheng(参考訳) 企業の金融リスクはユビキタスであり、上場企業の早期のリスク評価は大きな損失を避けることができる。 伝統的な手法は主に企業の財務諸表に焦点を当て、両者の複雑な関係を欠いている。 しかし、財務諸表はしばしば偏りや遅れがあり、正確にかつタイムリーにリスクを特定することは困難である。 課題に対処するために、我々は、各上場企業とその株主を部族として、金融ニュースを利用して部族間接続を構築することにより、問題を \textbf{company financial risk assessment on tribe-style graph} として再定義する。 このような部族的なグラフは、リスクの高い企業と普通の企業を区別するための異なるパターンを示す。 しかし、部族型グラフのほとんどのノードは属性を欠いているため、既存のグラフ学習手法を直接採用することは困難である(グラフニューラルネットワーク(GNN)など)。 本稿では,2つの階層型グラフのための階層型グラフニューラルネットワーク (th-gnn) を提案する。第1レベルは対照学習による部族の構造パターンを符号化し,第2レベルは部族間関係に基づく情報を拡散し,効果的かつ効率的なリスク評価を実現する。 実世界の企業データセットに対する大規模な実験により,従来の競合手法に比べて,金融リスク評価の大幅な改善が達成された。 また,本手法の有効性を包括的に示すため,広範なアブレーション研究と可視化を行った。

Company financial risk is ubiquitous and early risk assessment for listed companies can avoid considerable losses. Traditional methods mainly focus on the financial statements of companies and lack the complex relationships among them. However, the financial statements are often biased and lagged, making it difficult to identify risks accurately and timely. To address the challenges, we redefine the problem as \textbf{company financial risk assessment on tribe-style graph} by taking each listed company and its shareholders as a tribe and leveraging financial news to build inter-tribe connections. Such tribe-style graphs present different patterns to distinguish risky companies from normal ones. However, most nodes in the tribe-style graph lack attributes, making it difficult to directly adopt existing graph learning methods (e.g., Graph Neural Networks(GNNs)). In this paper, we propose a novel Hierarchical Graph Neural Network (TH-GNN) for Tribe-style graphs via two levels, with the first level to encode the structure pattern of the tribes with contrastive learning, and the second level to diffuse information based on the inter-tribe relations, achieving effective and efficient risk assessment. Extensive experiments on the real-world company dataset show that our method achieves significant improvements on financial risk assessment over previous competing methods. Also, the extensive ablation studies and visualization comprehensively show the effectiveness of our method.
翻訳日:2023-02-01 17:05:35 公開日:2023-01-31
# 物理世界攻撃に対する自己監督型単眼深度推定の逆トレーニング

Adversarial Training of Self-supervised Monocular Depth Estimation against Physical-World Attacks ( http://arxiv.org/abs/2301.13487v1 )

ライセンス: Link先を確認
Zhiyuan Cheng, James Liang, Guanhong Tao, Dongfang Liu, Xiangyu Zhang(参考訳) 単眼深度推定(MDE)は自律運転などのアプリケーションにおいて重要な要素である。 MDEネットワークに対する様々な攻撃がある。 これらの攻撃、特に物理的攻撃は、そのようなシステムのセキュリティに大きな脅威となる。 従来の逆行訓練法では, 地中深度を持たない自監督型MDEには直接適用できないため, 地中深度ラベルが必要である。 いくつかの自己教師型モデル硬化技術(例えば、対照的な学習)は、MDEのドメイン知識を無視し、最適性能を達成できない。 本研究では,地中深度を使わずに,ビュー合成に基づく自己教師型MDEモデルの新たな逆トレーニング手法を提案する。 トレーニングにおけるL0ノルム束縛摂動を用いた物理世界攻撃に対する対角的堅牢性を向上させる。 本手法をmdeに適した教師付き学習法と対比学習法を比較した。 2つの代表的MDEネットワークの結果から,良質な性能劣化を伴わない種々の敵攻撃に対して,より堅牢性が得られることが示された。

Monocular Depth Estimation (MDE) is a critical component in applications such as autonomous driving. There are various attacks against MDE networks. These attacks, especially the physical ones, pose a great threat to the security of such systems. Traditional adversarial training method requires ground-truth labels hence cannot be directly applied to self-supervised MDE that does not have ground-truth depth. Some self-supervised model hardening techniques (e.g., contrastive learning) ignore the domain knowledge of MDE and can hardly achieve optimal performance. In this work, we propose a novel adversarial training method for self-supervised MDE models based on view synthesis without using ground-truth depth. We improve adversarial robustness against physical-world attacks using L0-norm-bounded perturbation in training. We compare our method with supervised learning based and contrastive learning based methods that are tailored for MDE. Results on two representative MDE networks show that we achieve better robustness against various adversarial attacks with nearly no benign performance degradation.
翻訳日:2023-02-01 17:05:10 公開日:2023-01-31
# ロバストな線形回帰:傾き、早期停止、そしてその先

Robust Linear Regression: Gradient-descent, Early-stopping, and Beyond ( http://arxiv.org/abs/2301.13486v1 )

ライセンス: Link先を確認
Meyer Scetbon and Elvis Dohmatob(参考訳) 本研究では, 線形回帰に対するGD法において, 敵攻撃に対するロバスト性, 早期停止戦略について検討する。 より正確には、早期停止型GDはユークリッド-ノルム対立攻撃に対して最適に(絶対定数まで)堅牢であることを示す。 しかし,一般的なマハラノビス攻撃の場合,この戦略は任意に最適であることを示す。 この観察は、gd が非ロバストモデルに確実に収束することを示す分類~\cite{vardi2022gradientmp} の場合の最近の発見と一致する。 この問題を軽減するために,攻撃に適応したデータの変換にgdスキームを適用することを提案する。 このデータ変換は機能依存学習率を適用し、修正されたGDがマハラノビス攻撃だけでなく、いくつかの条件下でのより一般的な攻撃も処理可能であることを示す。 残念ながら、このような適応型変換を選択することは一般的な攻撃には難しい。 本研究は, 人口動態の乗算定数1.1124の範囲内において, 対向リスクが最適である簡易かつトラクタブルな推定器を設計し, 任意の基準で機能する。

In this work we study the robustness to adversarial attacks, of early-stopping strategies on gradient-descent (GD) methods for linear regression. More precisely, we show that early-stopped GD is optimally robust (up to an absolute constant) against Euclidean-norm adversarial attacks. However, we show that this strategy can be arbitrarily sub-optimal in the case of general Mahalanobis attacks. This observation is compatible with recent findings in the case of classification~\cite{Vardi2022GradientMP} that show that GD provably converges to non-robust models. To alleviate this issue, we propose to apply instead a GD scheme on a transformation of the data adapted to the attack. This data transformation amounts to apply feature-depending learning rates and we show that this modified GD is able to handle any Mahalanobis attack, as well as more general attacks under some conditions. Unfortunately, choosing such adapted transformations can be hard for general attacks. To the rescue, we design a simple and tractable estimator whose adversarial risk is optimal up to within a multiplicative constant of 1.1124 in the population regime, and works for any norm.
翻訳日:2023-02-01 17:04:56 公開日:2023-01-31
# 例外点に対する熱帯幾何学的アプローチ

A Tropical Geometric Approach To Exceptional Points ( http://arxiv.org/abs/2301.13485v1 )

ライセンス: Link先を確認
Ayan Banerjee, Rimika Jaiswal, Madhusudan Manjunath, Awadhesh Narayan(参考訳) 非エルミート系はフォトニクスから電気回路まで幅広く研究されている。 非エルミート系の決定的な特徴は例外点(EP)であり、固有値と固有ベクトルの両方が結合する。 トロピカル幾何学(英: tropical geometry)は、代数幾何学と多面幾何学の間の界面における数学の新しい分野であり、科学への多様な応用である。 本稿では,非エルミート系の異なる面を特徴付ける統一的熱帯幾何学的枠組みを紹介,開発する。 提案手法は,いくつかの例を用いて汎用性を示し,利得・損失モデルにおける高次epのスペクトルから選択し,非エルミートsu-シュリーファー・ヘーガーモデルにおける皮膚効果を予測し,ハザーノ・ネルソンモデルにおける障害の存在下での普遍的特性を抽出するために有効であることを示す。 我々の研究は、非エルミート物理学を研究するための新しい枠組みを定め、この分野への熱帯幾何学の新しい接続を明らかにした。

Non-Hermitian systems have been widely explored in platforms ranging from photonics to electric circuits. A defining feature of non-Hermitian systems is exceptional points (EPs), where both eigenvalues and eigenvectors coalesce. Tropical geometry is an emerging field of mathematics at the interface between algebraic geometry and polyhedral geometry, with diverse applications to science. Here, we introduce and develop a unified tropical geometric framework to characterize different facets of non-Hermitian systems. We illustrate the versatility of our approach using several examples, and demonstrate that it can be used to select from a spectrum of higher-order EPs in gain and loss models, predict the skin effect in the non-Hermitian Su-Schrieffer-Heeger model, and extract universal properties in the presence of disorder in the Hatano-Nelson model. Our work puts forth a new framework for studying non-Hermitian physics and unveils a novel connection of tropical geometry to this field.
翻訳日:2023-02-01 17:04:35 公開日:2023-01-31
# アーカイブTimeLine Summarization (ATLS): 歴史的文書コレクション上のタイムライン生成のための概念的フレームワーク

Archive TimeLine Summarization (ATLS): Conceptual Framework for Timeline Generation over Historical Document Collections ( http://arxiv.org/abs/2301.13479v1 )

ライセンス: Link先を確認
Nicolas Gutehrl\'e (CRIT), Antoine Doucet (L3I), Adam Jatowt(参考訳) アーカイブコレクションは、主に検索エンジンインターフェースを通じて利用可能であり、ユーザーはクエリを発行することで文書を検索できる。 しかし、これらのコレクションの研究は、返されたドキュメントの圧倒的数や文脈知識の欠如など、検索エンジンのいくつかの側面によって損なわれる可能性がある。 独立して、あるいは検索エンジンと組み合わせて動作する新しいメソッドは、これらのコレクションにアクセスするために必要となる。 本稿では,その研究を支援するため,アーカイブコレクションにTimeLine Summarization(TLS)メソッドを拡張することを提案する。 本稿では,既存のTLS手法の概要と,情報,可読性,解釈可能なタイムラインを生成することを目的とした,アーカイブタイムライン要約(ATLS)システムの概念的フレームワークについて述べる。

Archive collections are nowadays mostly available through search engines interfaces, which allow a user to retrieve documents by issuing queries. The study of these collections may be, however, impaired by some aspects of search engines, such as the overwhelming number of documents returned or the lack of contextual knowledge provided. New methods that could work independently or in combination with search engines are then required to access these collections. In this position paper, we propose to extend TimeLine Summarization (TLS) methods on archive collections to assist in their studies. We provide an overview of existing TLS methods and we describe a conceptual framework for an Archive TimeLine Summarization (ATLS) system, which aims to generate informative, readable and interpretable timelines.
翻訳日:2023-02-01 17:04:17 公開日:2023-01-31
# AMD:Adaptive Masked Distillation for Object

AMD: Adaptive Masked Distillation for Object ( http://arxiv.org/abs/2301.13538v1 )

ライセンス: Link先を確認
Guang Yang and Yin Tang and Jun Li and Jianhua Xu and Xili Wan(参考訳) 一般的なモデル圧縮パラダイムとして、機能に基づく知識蒸留により、生徒は教師から表現的な特徴を学ぶことができる。 本稿では,有効な機能蒸留フレームワークの設計に主眼を置き,物体検出のための空間チャネル適応マスク蒸留(amd)ネットワークを提案する。 より具体的には、重要特徴領域を正確に再構築するために、まず、学生ネットワークの特徴マップ上で注意誘導特徴マスキングを行い、従来の手法ではランダムマスキングではなく、空間適応特徴マスキングを用いて重要特徴を識別する。 さらに,学生のネットワークチャネルを適応させるためのシンプルで効率的なモジュールを用いて,物体認識・検出におけるモデル能力を向上させる。 従来の手法とは対照的に、より重要なオブジェクト認識機能を再構成し、提案したネットワークから学習することで、正確なオブジェクト検出が可能となる。 提案した蒸留法を用いて, RetinaNet, Cascade Mask-RCNN, RepPointsがそれぞれ対象検出の教師フレームワークとして用いられ, FGD, MGDなどの従来の最先端蒸留法よりも優れていた場合, 学生ネットワークは41.3\%, 42.4\%, 42.7\% mAPスコアを報告した。

As a general model compression paradigm, feature-based knowledge distillation allows the student model to learn expressive features from the teacher counterpart. In this paper, we mainly focus on designing an effective feature-distillation framework and propose a spatial-channel adaptive masked distillation (AMD) network for object detection. More specifically, in order to accurately reconstruct important feature regions, we first perform attention-guided feature masking on the feature map of the student network, such that we can identify the important features via spatially adaptive feature masking instead of random masking in the previous methods. In addition, we employ a simple and efficient module to allow the student network channel to be adaptive, improving its model capability in object perception and detection. In contrast to the previous methods, more crucial object-aware features can be reconstructed and learned from the proposed network, which is conducive to accurate object detection. The empirical experiments demonstrate the superiority of our method: with the help of our proposed distillation method, the student networks report 41.3\%, 42.4\%, and 42.7\% mAP scores when RetinaNet, Cascade Mask-RCNN and RepPoints are respectively used as the teacher framework for object detection, which outperforms the previous state-of-the-art distillation methods including FGD and MGD.
翻訳日:2023-02-01 16:58:18 公開日:2023-01-31
# 低複雑性適応機械学習によるエンドツーエンドレイテンシ予測

Low Complexity Adaptive Machine Learning Approaches for End-to-End Latency Prediction ( http://arxiv.org/abs/2301.13536v1 )

ライセンス: Link先を確認
Pierre Larrenie (LIGM), Jean-Fran\c{c}ois Bercher (LIGM), Olivier Venard (ESYCOM), Iyad Lahsen-Cherif (INPT)(参考訳) Software Defined Networksは、ネットワークの効率を改善するための統計的およびAIベースの技術への扉を開いた。 特に、ネットワークの効率的なリソース利用に必要なパケット(VoIP、ビデオ、ファイルなど)と、そのニーズ(レイテンシ、帯域幅など)を意識してルーティングすることで、特定のアプリケーションに対する特定のQuality of Service(QoS)を確保する。 あらゆるレベルでキーパフォーマンス指標(KPI)のモニタリングと予測は、ネットワーク帯域幅を保ちながらそのような問題に対処することができる。 本研究の課題は、kpi推定、監視、予測のための効率的で低コストな適応アルゴリズムの設計である。 我々は,GNN[12]における近年の国際的課題の後に提供されたパブリックジェネレータから得られるデータに対して,我々のアプローチと結果を説明する。 本稿では,適応次元を付加して提案した低コスト推定器 [6] を改良し, 各種ネットワークを追従しながら, 性能が最小限に変化していることを示す。

Software Defined Networks have opened the door to statistical and AI-based techniques to improve efficiency of networking. Especially to ensure a certain Quality of Service (QoS) for specific applications by routing packets with awareness on content nature (VoIP, video, files, etc.) and its needs (latency, bandwidth, etc.) to use efficiently resources of a network. Monitoring and predicting various Key Performance Indicators (KPIs) at any level may handle such problems while preserving network bandwidth. The question addressed in this work is the design of efficient, low-cost adaptive algorithms for KPI estimation, monitoring and prediction. We focus on end-to-end latency prediction, for which we illustrate our approaches and results on data obtained from a public generator provided after the recent international challenge on GNN [12]. In this paper, we improve our previously proposed low-cost estimators [6] by adding the adaptive dimension, and show that the performances are minimally modified while gaining the ability to track varying networks.
翻訳日:2023-02-01 16:57:51 公開日:2023-01-31
# マルチグラフマッチングによるSulcal Graphsの集団的ラベリング

Population-wise Labeling of Sulcal Graphs using Multi-graph Matching ( http://arxiv.org/abs/2301.13532v1 )

ライセンス: Link先を確認
Rohit Yadav (AMU, INT, LIS), Fran\c{c}ois-Xavier Dup\'e (LIS, QARMA), S. Takerkart (INT), Guillaume Auzias (INT)(参考訳) 神経疾患や精神疾患のバイオマーカーを特定するには、皮質の折りたたみの集団的マッチングが必要である。 難易度は、折りたたみの形状と空間構造における大きな個体間変化から生じる。 この課題は方法論レベルと概念レベルの両方において困難である。 広く使われている登録に基づく手法では、これらのバリエーションはノイズと見なされ、折りたたみのマッチングは暗黙的である。 別のアプローチは、皮質の折りたたみの抽出と明示的な識別に基づいている。 特に、sulcal basins-termed sulcal graphs-enables のグラフとして皮質の折り畳みパターンを表現し、そのタスクをグラフマッチング問題として形式化する。 本稿では,マルチグラフマッチング手法を用いて,人口レベルで直接一致するサルカルグラフの問題に対処することを提案する。 まず,この文脈におけるマルチグラフマッチングフレームワークの関連性について考察する。 次に,人工糖グラフの集団を生成する手法を導入し,人工糖グラフマッチング手法のいくつかの状態をベンチマークする。 人工的, 実データともに, 多グラフマッチング手法の有効性を実証し, sulcal basinsレベルでの皮質折り畳みの集団的一貫したラベル付けについて検討した。

Population-wise matching of the cortical fold is necessary to identify biomarkers of neurological or psychiatric disorders. The difficulty comes from the massive interindividual variations in the morphology and spatial organization of the folds. This task is challenging at both methodological and conceptual levels. In the widely used registration-based techniques, these variations are considered as noise and the matching of folds is only implicit. Alternative approaches are based on the extraction and explicit identification of the cortical folds. In particular, representing cortical folding patterns as graphs of sulcal basins-termed sulcal graphs-enables to formalize the task as a graph-matching problem. In this paper, we propose to address the problem of sulcal graph matching directly at the population level using multi-graph matching techniques. First, we motivate the relevance of multi-graph matching framework in this context. We then introduce a procedure to generate populations of artificial sulcal graphs, which allows us benchmarking several state of the art multi-graph matching methods. Our results on both artificial and real data demonstrate the effectiveness of multi-graph matching techniques to obtain a population-wise consistent labeling of cortical folds at the sulcal basins level.
翻訳日:2023-02-01 16:57:35 公開日:2023-01-31
# ドメイン一般化可能な多重ドメインクラスタリング

Domain-Generalizable Multiple-Domain Clustering ( http://arxiv.org/abs/2301.13530v1 )

ライセンス: Link先を確認
Amit Rozner, Barak Battash, Lior Wolf, Ofir Lindenbaum(参考訳) 科学的データを適切に分析するには,高精度な高次元計測のクラスタリングが不可欠である。 近年、深層学習機械は意味のある表現を抽出する能力により、クラスタリング能力を大幅に改善している。 この研究では、複数のソースドメインからラベルなしのサンプルが与えられ、サンプルをさまざまなクラスタに割り当てる共有分類器を学ぼうとしています。 評価は、以前に見つからなかったドメインのクラスタ割り当てを予測するために分類器を使用して行われる。 この設定は、教師なしドメイン一般化の問題を教師なし学習サンプルが与えられない場合(完全に教師なし)に一般化する。 この目的に向けて、エンド・ツー・エンドのモデルを提示し、複数のマルチドメインイメージデータセットでその能力を評価する。 具体的には、対象領域のサンプルやある程度の監督レベルを用いて微調整を必要とするスキームよりも精度が高いことを示す。

Accurately clustering high-dimensional measurements is vital for adequately analyzing scientific data. Deep learning machinery has remarkably improved clustering capabilities in recent years due to its ability to extract meaningful representations. In this work, we are given unlabeled samples from multiple source domains, and we aim to learn a shared classifier that assigns the examples to various clusters. Evaluation is done by using the classifier for predicting cluster assignments in a previously unseen domain. This setting generalizes the problem of unsupervised domain generalization to the case in which no supervised learning samples are given (completely unsupervised). Towards this goal, we present an end-to-end model and evaluate its capabilities on several multi-domain image datasets. Specifically, we demonstrate that our model is more accurate than schemes that require fine-tuning using samples from the target domain or some level of supervision.
翻訳日:2023-02-01 16:57:17 公開日:2023-01-31
# 線形応答を超える量子コヒーレンスの非平衡熱力学

Nonequilibrium thermodynamics of quantum coherence beyond linear response ( http://arxiv.org/abs/2301.13529v1 )

ライセンス: Link先を確認
Franklin L. S. Rodrigues, Eric Lutz(参考訳) 量子熱力学は、量子コヒーレンスと力学的仕事の相互変換を可能にする。 したがって、量子コヒーレンスは量子マシンの潜在的な物理資源である。 しかし、量子コヒーレンスの一般的な非平衡熱力学の定式化は困難であることが判明した。 特に、システムから仕事を引き出す際に、コヒーレンスが有益である、あるいはその逆の正確な条件は、いまだに解明されていない。 本稿では,コヒーレンスの平衡熱力学へのジェネリック動的ベイズネットワークアプローチを考案する。 一般化されたゆらぎ関係と、閉力学と開力学の両方に対して、常に量子コヒーレンスを完全に考慮した最大仕事定理を具体的に導出する。 我々は,コヒーレンスからワークへの変換に成功するための基準を求め,線形応答を超えた高速プロセスのための量子コヒーレンスによって最大ワーク抽出が増加する非平衡レジームを同定する。

Quantum thermodynamics allows for the interconversion of quantum coherence and mechanical work. Quantum coherence is thus a potential physical resource for quantum machines. However, formulating a general nonequilibrium thermodynamics of quantum coherence has turned out to be challenging. In particular, precise conditions under which coherence is beneficial to or, on the contrary, detrimental for work extraction from a system have remained elusive. We here develop a generic dynamic-Bayesian-network approach to the far-from-equilibrium thermodynamics of coherence. We concretely derive generalized fluctuation relations and a maximum-work theorem that fully account for quantum coherence at all times, for both closed and open dynamics. We obtain criteria for successful coherence-to-work conversion, and identify a nonequilibrium regime where maximum work extraction is increased by quantum coherence for fast processes beyond linear response.
翻訳日:2023-02-01 16:57:03 公開日:2023-01-31
# kernel stein discrepancy thinning:病理学の理論的展望と正規化による実際的修正

Kernel Stein Discrepancy thinning: a theoretical perspective of pathologies and a practical fix with regularization ( http://arxiv.org/abs/2301.13528v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard, Brian Staber, S\'ebastien Da Veiga (CREST)(参考訳) Stein Thinning は (Riabiz et al., 2022) がマルコフ連鎖モンテカルロ (MCMC) のポストプロセッシング出力に対して提案した有望なアルゴリズムである。 主な原理は、ログターゲット分布の勾配だけを必要とする核化されたスタイン差分(KSD)を強引に最小化することであり、したがってベイズ推定に適している。 スタイン薄型化の主な利点は、バーンイン期間の自動除去、最近のMCMCアルゴリズムによるバイアスの補正、および目標分布に対する収束の漸近特性である。 それでも、スタインの薄型化はいくつかの経験的病理に悩まされ、文献で見られるように、近似が貧弱になる可能性がある。 本稿では,これらの病理を理論的に解析し,関連するメカニズムを明確に同定し,改善戦略を提案する。 次に, 同定された病理を緩和する正則化スタインシンキングアルゴリズムを導入する。 最後に、理論的な保証と広範な実験により、提案アルゴリズムの高効率性を示す。

Stein thinning is a promising algorithm proposed by (Riabiz et al., 2022) for post-processing outputs of Markov chain Monte Carlo (MCMC). The main principle is to greedily minimize the kernelized Stein discrepancy (KSD), which only requires the gradient of the log-target distribution, and is thus well-suited for Bayesian inference. The main advantages of Stein thinning are the automatic remove of the burn-in period, the correction of the bias introduced by recent MCMC algorithms, and the asymptotic properties of convergence towards the target distribution. Nevertheless, Stein thinning suffers from several empirical pathologies, which may result in poor approximations, as observed in the literature. In this article, we conduct a theoretical analysis of these pathologies, to clearly identify the mechanisms at stake, and suggest improved strategies. Then, we introduce the regularized Stein thinning algorithm to alleviate the identified pathologies. Finally, theoretical guarantees and extensive experiments show the high efficiency of the proposed algorithm.
翻訳日:2023-02-01 16:56:47 公開日:2023-01-31
# 動的プロセス限界を用いた実時間外乱検出

Real-Time Outlier Detection with Dynamic Process Limits ( http://arxiv.org/abs/2301.13527v1 )

ライセンス: Link先を確認
Marek Wadinger and Michal Kvasnica(参考訳) 異常検出手法は、稀な事象が事業の利益性、安全性、環境面を危険にさらす可能性のあるシステムの一部である。 多くの最先端の異常検出手法が開発されてきたが、その展開はモデルの訓練中に存在する運用条件に限定されている。 オンライン異常検出は、モデル開発中に表現されないデータドリフトや変更ポイントに適応する能力をもたらし、サービス寿命が長くなる。 本稿では,低遅延検出が必要な既存リアルタイムインフラストラクチャに対するオンライン異常検出アルゴリズムを提案し,新しいデータパターンが予測不能に発生することを示す。 オンライン逆累積分布に基づく手法は、オフライン異常検出器の一般的な問題を排除し、通常の動作に動的なプロセス制限を与える。 提案手法の利点は,実マイクログリッド演算データの2例に示すように,使いやすさ,高速計算,デプロイ性である。

Anomaly detection methods are part of the systems where rare events may endanger an operation's profitability, safety, and environmental aspects. Although many state-of-the-art anomaly detection methods were developed to date, their deployment is limited to the operation conditions present during the model training. Online anomaly detection brings the capability to adapt to data drifts and change points that may not be represented during model development resulting in prolonged service life. This paper proposes an online anomaly detection algorithm for existing real-time infrastructures where low-latency detection is required and novel patterns in data occur unpredictably. The online inverse cumulative distribution-based approach is introduced to eliminate common problems of offline anomaly detectors, meanwhile providing dynamic process limits to normal operation. The benefit of the proposed method is the ease of use, fast computation, and deployability as shown in two case studies of real microgrid operation data.
翻訳日:2023-02-01 16:56:31 公開日:2023-01-31
# 量子データのための量子文脈帯域と推薦システム

Quantum contextual bandits and recommender systems for quantum data ( http://arxiv.org/abs/2301.13524v1 )

ライセンス: Link先を確認
Shrigyan Brahmachari, Josep Lumbreras, Marco Tomamichel(参考訳) 本稿では,線形文脈バンディットフレームワークを用いた量子データの推薦システムについて検討する。 各ラウンドにおいて、学習者は観測可能な(文脈)を受け取り、測定すべき未知の量子状態(アクション)の有限集合から推奨しなければならない。 学習者は各ラウンドにおける報酬を最大化することが目標であり、これは未知の状態の測定結果である。 このモデルを用いて、コンテキストがハミルトニアンである低エネルギー量子状態レコメンデーション問題を定式化し、その目標は、最低エネルギーの状態をレコメンデーションすることである。 このタスクでは、イジングモデルと一般化クラスタモデルという2種類のコンテキストについて検討する。 モデルの異なる位相としてアクションを解釈すると、推奨は与えられたハミルトニアンの正しい位相を分類することで行われ、その戦略はオンライン量子位相分類器として解釈できる。

We study a recommender system for quantum data using the linear contextual bandit framework. In each round, a learner receives an observable (the context) and has to recommend from a finite set of unknown quantum states (the actions) which one to measure. The learner has the goal of maximizing the reward in each round, that is the outcome of the measurement on the unknown state. Using this model we formulate the low energy quantum state recommendation problem where the context is a Hamiltonian and the goal is to recommend the state with the lowest energy. For this task, we study two families of contexts: the Ising model and a generalized cluster model. We observe that if we interpret the actions as different phases of the models then the recommendation is done by classifying the correct phase of the given Hamiltonian and the strategy can be interpreted as an online quantum phase classifier.
翻訳日:2023-02-01 16:56:15 公開日:2023-01-31
# 複雑時系列における因果関係の共有化

Recurrences reveal shared causal drivers of complex time series ( http://arxiv.org/abs/2301.13516v1 )

ライセンス: Link先を確認
William Gilpin(参考訳) 多くの実験時系列測定は観測されていない因果ドライバを共有している。 例えば、転写因子を標的とする遺伝子、大規模な大気電流に影響された海洋の流れ、下降するニューロンが支配する運動回路などがある。 多様な生物学的・工学的なシステムにおけるトップダウン制御スキームの断続的な性質を理解するためには、この未知の駆動力を確実に推論する必要がある。 そこで本研究では,時系列測定の繰り返しを利用して,観測されていない運転信号を徐々に再構成する,教師なし学習アルゴリズムを提案する。 スクリュー生成力学系の数学的理論に基づいて,反応時間列間で共有される再発事象を同定し,ガラスのような構造を持つ再発グラフを暗黙的に定義する。 観測されたデータの量や品質が向上するにつれて、この再帰グラフは、誘導されたランドスケープ上のランダムウォークの弱いエルゴード性破壊として現れるパーコレーション遷移を実行します。 数千のランダムな力学系において、カオスドライバから応答系への情報伝達速度に対する再構成精度の依存性を実証的に定量化し、運転者の支配的不安定周期軌道の漸進的近似によって効果的な再構成が進行することを示す。 古典的およびニューラルネットワークに基づく信号処理技術に対する広範なベンチマークを通じて,神経科学,ゲノム学,流体力学,生理学にまたがる多種多様な実世界データセットから因果的駆動信号を抽出する手法の強みを実証する。

Many experimental time series measurements share an unobserved causal driver. Examples include genes targeted by transcription factors, ocean flows influenced by large-scale atmospheric currents, and motor circuits steered by descending neurons. Reliably inferring this unseen driving force is necessary to understand the intermittent nature of top-down control schemes in diverse biological and engineered systems. Here, we introduce a new unsupervised learning algorithm that uses recurrences in time series measurements to gradually reconstruct an unobserved driving signal. Drawing on the mathematical theory of skew-product dynamical systems, we identify recurrence events shared across response time series, which implicitly define a recurrence graph with glass-like structure. As the amount or quality of observed data improves, this recurrence graph undergoes a percolation transition manifesting as weak ergodicity breaking for random walks on the induced landscape -- revealing the shared driver's dynamics, even in the presence of strongly corrupted or noisy measurements. Across several thousand random dynamical systems, we empirically quantify the dependence of reconstruction accuracy on the rate of information transfer from a chaotic driver to the response systems, and we find that effective reconstruction proceeds through gradual approximation of the driver's dominant unstable periodic orbits. Through extensive benchmarks against classical and neural-network-based signal processing techniques, we demonstrate our method's strong ability to extract causal driving signals from diverse real-world datasets spanning neuroscience, genomics, fluid dynamics, and physiology.
翻訳日:2023-02-01 16:56:01 公開日:2023-01-31
# コンピュータビジョンモデルのフーリエ感度と正規化

Fourier Sensitivity and Regularization of Computer Vision Models ( http://arxiv.org/abs/2301.13514v1 )

ライセンス: Link先を確認
Kiran Krishnamachari, See-Kiong Ng, Chuan-Sheng Foo(参考訳) 近年の研究では、深層ニューラルネットワークがトレーニングデータのフーリエ統計にラッチし、入力のフーリエベイシス方向に対する感度が増大していることが実証されている。 コンピュータビジョンモデルのフーリエ感受性の理解と修正は、その堅牢性を改善するのに役立つかもしれない。 そこで本研究では,ニューラルネットワークの周波数感度特性を原理的手法を用いて検討する。 まず、関数の入力階調のユニタリ変換が変換によって引き起こされる基底の勾配を計算するのに有効であることを示す基礎的トリックを提案する。 この結果を用いて、入力勾配のユニタリフーリエ変換を用いた任意の微分可能なモデルのフーリエ感度の一般測度を提案する。 ディープニューラルネットワークに適用すると、コンピュータビジョンモデルはデータセット、トレーニング方法、アーキテクチャに依存する特定の周波数に一貫して敏感であることが分かる。 この尺度に基づき,モデルのフーリエ感性および周波数バイアスを修正するためのフーリエ正規化フレームワークも提案する。 提案する正規化器ファミリを用いて,ニューラルネットワークのロバスト性評価における分類精度の向上を実証する。

Recent work has empirically shown that deep neural networks latch on to the Fourier statistics of training data and show increased sensitivity to Fourier-basis directions in the input. Understanding and modifying this Fourier-sensitivity of computer vision models may help improve their robustness. Hence, in this paper we study the frequency sensitivity characteristics of deep neural networks using a principled approach. We first propose a basis trick, proving that unitary transformations of the input-gradient of a function can be used to compute its gradient in the basis induced by the transformation. Using this result, we propose a general measure of any differentiable model's Fourier-sensitivity using the unitary Fourier-transform of its input-gradient. When applied to deep neural networks, we find that computer vision models are consistently sensitive to particular frequencies dependent on the dataset, training method and architecture. Based on this measure, we further propose a Fourier-regularization framework to modify the Fourier-sensitivities and frequency bias of models. Using our proposed regularizer-family, we demonstrate that deep neural networks obtain improved classification accuracy on robustness evaluations.
翻訳日:2023-02-01 16:55:32 公開日:2023-01-31
# 超伝導共振器3連系における例外点支援絡み、スクイーズ、リセット

Exceptional-point-assisted entanglement, squeezing, and reset in a chain of three superconducting resonators ( http://arxiv.org/abs/2301.13571v1 )

ライセンス: Link先を確認
Wallace S. Teixeira, Vasilii Vadimov, Timm M\"orstedt, Suman Kundu, Mikko M\"ott\"onen(参考訳) 量子技術の様々な制御プロトコルで必要とされるコヒーレントと散逸ダイナミクスの相互作用は、例外点(EPs)と呼ばれる開系退化の研究を動機付けている。 本稿では、3つの超伝導共振器の損失連鎖における例外点工学を用いた高速量子状態合成法を提案する。 理論的には、EPのリッチ物理は、高速で準安定なスキーズと絡み合いの移動、あるいはシステムの高速なリセットを好むパラメータ空間内の領域を特定するのに利用できる。 結合強度$g$の弱い相互作用共振器の場合、得られた準安定化時間スケールは1/(2\sqrt{2}g)$と同定され、弱い圧縮共振器の場合、約6/g$の待ち時間で10^{-5}$未満のリセット不整合が得られる。 その結果,マルチモードガウスシステムにおけるEPの役割に光を当て,消散を資源としたフォトニックネットワークの異なるノード間におけるスキューズと絡み合いの最適分布の道を開くことができた。

The interplay between coherent and dissipative dynamics required in various control protocols of quantum technology has motivated studies of open-system degeneracies, referred to as exceptional points (EPs). Here, we introduce a scheme for fast quantum-state synthesis using exceptional-point engineering in a lossy chain of three superconducting resonators. We theoretically find that the rich physics of EPs can be used to identify regions in the parameter space that favor a fast and quasi-stable transfer of squeezing and entanglement, or a fast reset of the system. For weakly interacting resonators with the coupling strength $g$, the obtained quasi-stabilization time scales are identified as $1/(2\sqrt{2}g)$, and reset infidelities below $10^{-5}$ are obtained with a waiting time of roughly $6/g$ in the case of weakly squeezed resonators. Our results shed light on the role of EPs in multimode Gaussian systems and pave the way for optimized distribution of squeezing and entanglement between different nodes of a photonic network using dissipation as a resource.
翻訳日:2023-02-01 16:48:25 公開日:2023-01-31
# NP-Match:半教師付き学習のための新しい確率モデルを目指して

NP-Match: Towards a New Probabilistic Model for Semi-Supervised Learning ( http://arxiv.org/abs/2301.13569v1 )

ライセンス: Link先を確認
Jianfeng Wang, Xiaolin Hu and Thomas Lukasiewicz(参考訳) 半教師付き学習(SSL)は近年広く研究されており、ラベル付きデータへの依存を減らすためにラベル付きデータを活用する効果的な方法である。 本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。 NP-Matchは2つの理由でこのタスクに適している。 まず、NP-Matchは、予測を行う際のデータポイントを暗黙的に比較し、その結果、ラベルのない各データポイントの予測は、類似したラベル付きデータポイントに影響され、擬似ラベルの品質が向上する。 第二に、NP-Matchは、信頼できる擬似ラベルを持つ未ラベルのサンプルを選択するツールとして使用できる不確実性を推定することができる。 モンテカルロ(MC)のドロップアウトで実装された不確実性ベースのSSL手法と比較して、NP-Matchは計算オーバーヘッドがはるかに少ない不確実性を推定する。 3つの半教師付き画像分類設定、すなわち標準半教師付き画像分類、不均衡半教師付き画像分類、多ラベル半教師付き画像分類、npマッチングが最先端画像分類(sota)アプローチに匹敵する5つの公開データセットについて広範な実験を行った。 コードはhttps://github.com/Jianf-Wang/NP-Matchにある。

Semi-supervised learning (SSL) has been widely explored in recent years, and it is an effective way of leveraging unlabeled data to reduce the reliance on labeled data. In this work, we adjust neural processes (NPs) to the semi-supervised image classification task, resulting in a new method named NP-Match. NP-Match is suited to this task for two reasons. Firstly, NP-Match implicitly compares data points when making predictions, and as a result, the prediction of each unlabeled data point is affected by the labeled data points that are similar to it, which improves the quality of pseudo-labels. Secondly, NP-Match is able to estimate uncertainty that can be used as a tool for selecting unlabeled samples with reliable pseudo-labels. Compared with uncertainty-based SSL methods implemented with Monte-Carlo (MC) dropout, NP-Match estimates uncertainty with much less computational overhead, which can save time at both the training and the testing phases. We conducted extensive experiments on five public datasets under three semi-supervised image classification settings, namely, the standard semi-supervised image classification, the imbalanced semi-supervised image classification, and the multi-label semi-supervised image classification, and NP-Match outperforms state-of-the-art (SOTA) approaches or achieves competitive results on them, which shows the effectiveness of NP-Match and its potential for SSL. The codes are at https://github.com/Jianf-Wang/NP-Match
翻訳日:2023-02-01 16:48:03 公開日:2023-01-31
# 分布不確実性に対する学習--ロバスト性と特異性とのトレードオフについて

Learning Against Distributional Uncertainty: On the Trade-off Between Robustness and Specificity ( http://arxiv.org/abs/2301.13565v1 )

ライセンス: Link先を確認
Shixiong Wang, Haowei Wang, Jean Honorio(参考訳) 信頼できる機械学習は、人口分布と比較して、トレーニングデータ分布の不確実性に対処することを目的としている。 典型的な治療フレームワークにはベイズ的アプローチ、(min-max)分散ロバスト最適化(DRO)、正規化がある。 しかし、2つの問題が提起される。 1) これらの方法はすべて,真の最適コストの偏見付き推定器である。 2) ベイズ法における先行分布, DRO法における分布球半径, 正規化法における正規化器の特定は困難である。 本稿では,3つのアプローチを統一し,上記の2つの課題に対処する新たな枠組みについて検討する。 非漸近性(例えば、一貫性と漸近正規性)、非漸近性(例えば、不偏性および一般化誤差境界)、および提案モデルのモンテカルロ法に基づく解法について検討した。 新しいモデルは、見えないデータに対する堅牢性と、トレーニングデータに対する特異性とのトレードオフを明らかにする。

Trustworthy machine learning aims at combating distributional uncertainties in training data distributions compared to population distributions. Typical treatment frameworks include the Bayesian approach, (min-max) distributionally robust optimization (DRO), and regularization. However, two issues have to be raised: 1) All these methods are biased estimators of the true optimal cost; 2) the prior distribution in the Bayesian method, the radius of the distributional ball in the DRO method, and the regularizer in the regularization method are difficult to specify. This paper studies a new framework that unifies the three approaches and that addresses the two challenges mentioned above. The asymptotic properties (e.g., consistency and asymptotic normalities), non-asymptotic properties (e.g., unbiasedness and generalization error bound), and a Monte--Carlo-based solution method of the proposed model are studied. The new model reveals the trade-off between the robustness to the unseen data and the specificity to the training data.
翻訳日:2023-02-01 16:47:36 公開日:2023-01-31
# カルノー量子情報エンジンの最大電力効率

Efficiency at maximum power of a Carnot quantum information engine ( http://arxiv.org/abs/2301.13560v1 )

ライセンス: Link先を確認
Paul Fadler, Alexander Friedenberger, Eric Lutz(参考訳) 熱機械の性能の最適化は熱力学の重要な課題である。 ここでは、システムの状態に関する情報を動作に変換する情報エンジンの最適化を検討する。 具体的には,量子情報エンジンのための一般化有限時間カルノーサイクルを導入し,低散逸状態における出力を最適化する。 任意の作業媒体に有効な最大出力での効率の一般的な式を導出する。 弱いエネルギー測定を受ける量子ビット情報エンジンの最適性能についてさらに検討する。

Optimizing the performance of thermal machines is an essential task of thermodynamics. We here consider the optimization of information engines that convert information about the state of a system into work. We concretely introduce a generalized finite-time Carnot cycle for a quantum information engine and optimize its power output in the regime of low dissipation. We derive a general formula for its efficiency at maximum power valid for arbitrary working media. We further investigate the optimal performance of a qubit information engine subjected to weak energy measurements.
翻訳日:2023-02-01 16:47:19 公開日:2023-01-31
# スライスワッサースタイン距離を用いたライダーアップサンプリング

Lidar Upsampling with Sliced Wasserstein Distance ( http://arxiv.org/abs/2301.13558v1 )

ライセンス: Link先を確認
Artem Savkin, and Yida Wang, Sebastian Wirkert, and Nassir Navab, and Federico Tombar(参考訳) lidarは自動運転における知覚システムの重要な要素となった。 しかし、データ取得とアノテーションのトレーニングの課題は、センサードメイン適応におけるセンサーの役割を強調した。 本稿では,lidarアップサンプリングの問題点について述べる。 lidar point cloudでの学習は、不規則でスパースな構造のため、かなり難しい作業である。 本稿では,細粒度lidarスキャンパターンを再現可能なlidar点雲アップサンプリング手法を提案する。 重要なアイデアは、エッジアウェアの高密度畳み込みを特徴抽出と機能拡張の両方に利用することである。 さらに、より正確なスライスされたワッサースタイン距離を適用することで、微細なライダースイープ構造の学習が容易になる。 これにより,粗さや微細な再構築を必要とせず,一段階のアップサンプリングパラダイムを適用できる。 提案手法を評価するための実験を複数実施し,その改善効果を実証した。

Lidar became an important component of the perception systems in autonomous driving. But challenges of training data acquisition and annotation made emphasized the role of the sensor to sensor domain adaptation. In this work, we address the problem of lidar upsampling. Learning on lidar point clouds is rather a challenging task due to their irregular and sparse structure. Here we propose a method for lidar point cloud upsampling which can reconstruct fine-grained lidar scan patterns. The key idea is to utilize edge-aware dense convolutions for both feature extraction and feature expansion. Additionally applying a more accurate Sliced Wasserstein Distance facilitates learning of the fine lidar sweep structures. This in turn enables our method to employ a one-stage upsampling paradigm without the need for coarse and fine reconstruction. We conduct several experiments to evaluate our method and demonstrate that it provides better upsampling.
翻訳日:2023-02-01 16:47:13 公開日:2023-01-31
# AGIのための目的・運用型認知システム

Purposeful and Operation-based Cognitive System for AGI ( http://arxiv.org/abs/2301.13556v1 )

ライセンス: Link先を確認
Shimon Komarovsky(参考訳) 本稿では,AGIエージェントの主成分として機能する新しい認知モデルを提案する。 モデルは成熟した状態で導入され、以前のモデル、特にAKREMの拡張として、運用モデル(フレーム/クラス)と意志を含む。 さらに、トップダウンとボトムアップの両方のモデル学習、一般化の詩の特殊化など、既知の知的側面における双対原理を基本としている。 さらに, 制約や効率性の下でのAGI設計と認知を, 再利用性とシンプルさの形で行うための総合的アプローチを提案する。 最後に、この成熟状態に達するには、統合原理を利用して、幼児から成人への認知的進化を通して記述する。 この認知モデルの最終的な製品は、モデルとインスタンスの動的操作メモリである。

This paper proposes a new cognitive model, acting as the main component of an AGI agent. The model is introduced in its mature state, and as an extension of previous models, DENN, and especially AKREM, by including operational models (frames/classes) and will. In addition, it is mainly based on the duality principle in every known intelligent aspect, such as exhibiting both top-down and bottom-up model learning, generalization verse specialization, and more. Furthermore, a holistic approach is advocated for AGI designing and cognition under constraints or efficiency is proposed, in the form of reusability and simplicity. Finally, reaching this mature state is described via a cognitive evolution from infancy to adulthood, utilizing a consolidation principle. The final product of this cognitive model is a dynamic operational memory of models and instances.
翻訳日:2023-02-01 16:47:00 公開日:2023-01-31
# ノイズ伝達:コントラスト埋め込みによる画像ノイズ生成

NoiseTransfer: Image Noise Generation with Contrastive Embeddings ( http://arxiv.org/abs/2301.13554v1 )

ライセンス: Link先を確認
Seunghwan Lee and Tae Hyun Kim(参考訳) 深層画像デノージングネットワークは、膨大な数の合成列車データセットの助けを借りて、素晴らしい成功を収めている。 しかし,実世界のデノイジングは,実データと合成雑音データとの分布が異なっており,まだ困難な問題である。 実世界の騒がしいデータセットがいくつか提示されているが、列車のデータセット(すなわち、クリーンな画像と実際のノイズ画像のペア)の数は限られており、より実際のノイズデータセットを取得するのは手間と費用がかかる。 この問題を軽減するために,生成モデルを用いた実雑音モデルをシミュレートする試みが数多く研究されている。 それにもかかわらず、以前の作業では複数の異なるノイズ分布を扱うために複数のネットワークを訓練する必要があった。 対照的に,複数のノイズ分布を持つノイズ画像の合成が可能な新しい生成モデルを提案する。 具体的には,最近のコントラスト学習を用いて,ノイズの識別可能な潜在的特徴を学習する。 また,単一の参照雑音画像のみからノイズ特性を伝達することにより,新たなノイズ画像を生成することができる。 未知のノイズ除去と未知のノイズ除去の両方に対するノイズモデルの精度と有効性を示す。

Deep image denoising networks have achieved impressive success with the help of a considerably large number of synthetic train datasets. However, real-world denoising is a still challenging problem due to the dissimilarity between distributions of real and synthetic noisy datasets. Although several real-world noisy datasets have been presented, the number of train datasets (i.e., pairs of clean and real noisy images) is limited, and acquiring more real noise datasets is laborious and expensive. To mitigate this problem, numerous attempts to simulate real noise models using generative models have been studied. Nevertheless, previous works had to train multiple networks to handle multiple different noise distributions. By contrast, we propose a new generative model that can synthesize noisy images with multiple different noise distributions. Specifically, we adopt recent contrastive learning to learn distinguishable latent features of the noise. Moreover, our model can generate new noisy images by transferring the noise characteristics solely from a single reference noisy image. We demonstrate the accuracy and the effectiveness of our noise model for both known and unknown noise removal.
翻訳日:2023-02-01 16:46:47 公開日:2023-01-31
# 脳微小出血自動検出法の検討

Review of methods for automatic cerebral microbleeds detection ( http://arxiv.org/abs/2301.13549v1 )

ライセンス: Link先を確認
Maria Ferlin and Zuzanna Klawikowska and Micha{\l} Grochowski and Ma{\l}gorzata Grzywi\'nska and Edyta Szurowska(参考訳) 脳微小出血検出は重要かつ困難な課題である。 MRIの人気が高まり、脳の微小出血を検出する能力も高まる。 残念なことに、放射線学者にとってそれは時間と労力を要する手続きである。 このため、このプロセスを自動化するための様々な解決策が数年前から提案されているが、現在では医療分野では使われていない。 この文脈において、既存の知識とベストプラクティスを体系化する必要性は、医学に実際に応用できる真のCMB検出システムの即時合成を促進する要因として認識されている。 そこで本研究では,脳内微小出血の自動検出に関する文献を収集,記載,評価し,現在の研究状況を識別し,今後の研究の出発点となるものについて検討した。

Cerebral microbleeds detection is an important and challenging task. With the gaining popularity of the MRI, the ability to detect cerebral microbleeds also raises. Unfortunately, for radiologists, it is a time-consuming and laborious procedure. For this reason, various solutions to automate this process have been proposed for several years, but none of them is currently used in medical practice. In this context, the need to systematize the existing knowledge and best practices has been recognized as a factor facilitating the imminent synthesis of a real CMBs detection system practically applicable in medicine. To the best of our knowledge, all available publications regarding automatic cerebral microbleeds detection have been gathered, described, and assessed in this paper in order to distinguish the current research state and provide a starting point for future studies.
翻訳日:2023-02-01 16:46:32 公開日:2023-01-31
# 全体グラフに基づく動き予測

Holistic Graph-based Motion Prediction ( http://arxiv.org/abs/2301.13545v1 )

ライセンス: Link先を確認
Daniel Grimm, Philip Sch\"orner, Moritz Dre{\ss}ler, J.-Marius Z\"ollner(参考訳) 複雑な環境での自動運転車の動作予測は、任意の状況で自動走行車を使用する場合のマスタリングが難しい作業である。 多くの要因は、交通規則から始まる交通参加者の将来の動きや、人間ドライバーの個人的な習慣との相互作用に影響を及ぼす。 そこで本研究では,トラヒック参加者間の時間的情報,特性,関係,および道路網などの静的要素との関係を結合した不均質な全体的グラフ表現に基づくグラフに基づく予測手法を提案する。 情報は異なるタイプのノードとエッジを通じてエンコードされ、どちらも任意の機能で濃縮される。 本研究は,インタラクションとargoverseデータセットに対するアプローチを評価し,様々な種類の情報による運動予測品質の利点を示すための情報的アブレーション実験を行った。

Motion prediction for automated vehicles in complex environments is a difficult task that is to be mastered when automated vehicles are to be used in arbitrary situations. Many factors influence the future motion of traffic participants starting with traffic rules and reaching from the interaction between each other to personal habits of human drivers. Therefore we present a novel approach for a graph-based prediction based on a heterogeneous holistic graph representation that combines temporal information, properties and relations between traffic participants as well as relations with static elements like the road network. The information are encoded through different types of nodes and edges that both are enriched with arbitrary features. We evaluated the approach on the INTERACTION and the Argoverse dataset and conducted an informative ablation study to demonstrate the benefit of different types of information for the motion prediction quality.
翻訳日:2023-02-01 16:46:22 公開日:2023-01-31
# 量子ビット系における熱電流

Heat currents in qubit systems ( http://arxiv.org/abs/2301.13544v1 )

ライセンス: Link先を確認
Hans C. Fogedby(参考訳) 現在、オープン量子系の文脈における量子熱力学への関心がある。 重要な問題は、量子熱力学の一貫性、特に熱力学の第二法則、すなわち温水貯水池から冷水貯水池への熱の流れである。 近年,複合システムに注目が集まっている。 ここでは, 一つの量子ビットの例と, 異なる温度で2つの熱貯留層によって駆動される2つの結合量子ビットの単純な合成系について述べる。 熱力学の第2法則に従って, 熱電流に対する明示的な表現を示す。 解析はボルン・マルコフ近似によって行われる。

There is a current interest in quantum thermodynamics in the context of open quantum systems. An important issue is the consistency of quantum thermodynamics, in particular the second law of thermodynamics, i.e., the flow of heat from a hot reservoir to a cold reservoir. Recent emphasis has been on composite system. Here we discuss two cases, namely as an example a single qubit and as a simple composite system two coupled qubits driven by two heat reservoirs at different temperatures, respectively. We present explicit expressions for the heat currents in agreement with the second law of thermodynamics. The analysis is carried out in the Born-Markov approximation.
翻訳日:2023-02-01 16:46:11 公開日:2023-01-31
# ランダムネットワーク蒸留による爆発防止

Anti-Exploration by Random Network Distillation ( http://arxiv.org/abs/2301.13616v1 )

ライセンス: Link先を確認
Alexander Nikulin, Vladislav Kurenkov, Denis Tarasov, Sergey Kolesnikov(参考訳) 様々な分野におけるランダムネットワーク蒸留(rnd)の成功にもかかわらず、オフライン強化学習における分散動作をペナルティ化するための不確実性評価として使用するには十分な識別性は認められなかった。 本稿では,これらの結果を再検討し,rndプリエント条件付けのナイーブな選択により,爆発防止ボーナスを効果的に最小化することは不可能であり,識別性は問題ではないことを示す。 その結果, ソフトアクタ-クリティックに基づく簡易で効率的なアンサンブルフリーアルゴリズムを実現することができた。 d4rlベンチマークで評価し、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルフリーのアプローチを高いマージンで上回ることができることを示した。

Despite the success of Random Network Distillation (RND) in various domains, it was shown as not discriminative enough to be used as an uncertainty estimator for penalizing out-of-distribution actions in offline reinforcement learning. In this paper, we revisit these results and show that, with a naive choice of conditioning for the RND prior, it becomes infeasible for the actor to effectively minimize the anti-exploration bonus and discriminativity is not an issue. We show that this limitation can be avoided with conditioning based on Feature-wise Linear Modulation (FiLM), resulting in a simple and efficient ensemble-free algorithm based on Soft Actor-Critic. We evaluate it on the D4RL benchmark, showing that it is capable of achieving performance comparable to ensemble-based methods and outperforming ensemble-free approaches by a wide margin.
翻訳日:2023-02-01 16:40:18 公開日:2023-01-31
# プリエントは強力:2dプリエントによるマルチカメラ3d検出用トランスフォーマーの改良

Priors are Powerful: Improving a Transformer for Multi-camera 3D Detection with 2D Priors ( http://arxiv.org/abs/2301.13592v1 )

ライセンス: Link先を確認
Di Feng, Francesco Ferroni(参考訳) トランスフォマーに基づくアプローチは、近年の学界と産業の両方におけるマルチカメラ3d検出の発展を前進させる。 バニラトランスアーキテクチャでは、クエリはランダムに初期化され、入力フレーム間の差異を考慮せずにデータセット全体に最適化される。 本研究では,3次元検出ネットワークのトランスフォーマー部に先立って,2次元タスクに高最適化される画像バックボーンからの予測を活用することを提案する。 その方法は (1) で動く. 2次元プリエントによる画像特徴マップの拡張 (2) 2dボックスセンタロイドに沿ったレイキャストによるクエリ位置のサンプリング(3)。 オブジェクトレベルのイメージ機能によるクエリ機能の初期化。 実験の結果、2dプリエントはモデルがより速く収束するのに役立つだけでなく、ベースラインアプローチを平均精度で最大12%改善できることがわかった。

Transfomer-based approaches advance the recent development of multi-camera 3D detection both in academia and industry. In a vanilla transformer architecture, queries are randomly initialised and optimised for the whole dataset, without considering the differences among input frames. In this work, we propose to leverage the predictions from an image backbone, which is often highly optimised for 2D tasks, as priors to the transformer part of a 3D detection network. The method works by (1). augmenting image feature maps with 2D priors, (2). sampling query locations via ray-casting along 2D box centroids, as well as (3). initialising query features with object-level image features. Experimental results shows that 2D priors not only help the model converge faster, but also largely improve the baseline approach by up to 12% in terms of average precision.
翻訳日:2023-02-01 16:39:16 公開日:2023-01-31
# Zero3D:Semantic-Driven Multi-Category 3D Shape Generation

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation ( http://arxiv.org/abs/2301.13591v1 )

ライセンス: Link先を確認
Bo Han, Yitong Liu, Yixuan Shen(参考訳) 意味駆動型3d形状生成は、テキストに基づく3dオブジェクトの生成を目的としている。 以前の作業では、単一カテゴリの生成、低周波の3D詳細、トレーニングのために多数のペアデータセットを必要とする問題に直面していた。 これらの課題に取り組むために,多カテゴリー条件拡散モデルを提案する。 具体的には 1) 大規模ペアデータ不足の問題を緩和するために, 事前学習したCLIPモデルに基づいてテキスト, 2次元画像, 3次元形状をブリッジし, 2) マルチカテゴリの3次元形状特徴を得るため,CLIP埋め込みに条件付き3次元形状ベクトルを生成する条件フローモデルを適用した。 3) マルチカテゴリ3次元形状を生成するために, 多カテゴリ形状ベクトルに条件付き隠れ層拡散モデルを用い, トレーニング時間とメモリ消費を大幅に削減する。

Semantic-driven 3D shape generation aims to generate 3D objects conditioned on text. Previous works face problems with single-category generation, low-frequency 3D details, and requiring a large number of paired datasets for training. To tackle these challenges, we propose a multi-category conditional diffusion model. Specifically, 1) to alleviate the problem of lack of large-scale paired data, we bridge the text, 2D image and 3D shape based on the pre-trained CLIP model, and 2) to obtain the multi-category 3D shape feature, we apply the conditional flow model to generate 3D shape vector conditioned on CLIP embedding. 3) to generate multi-category 3D shape, we employ the hidden-layer diffusion model conditioned on the multi-category shape vector, which greatly reduces the training time and memory consumption.
翻訳日:2023-02-01 16:39:03 公開日:2023-01-31
# s-矩形ロバストマルコフ決定過程の政策勾配

Policy Gradient for s-Rectangular Robust Markov Decision Processes ( http://arxiv.org/abs/2301.13589v1 )

ライセンス: Link先を確認
Navdeep Kumar, Esther Derman, Matthieu Geist, Kfir Levy, Shie Mannor(参考訳) 本稿では,s-rectangular robust markov decision process (mdps) のための新しいロバストポリシー勾配法(rpg)を提案する。 我々は、敵の核を閉じた形で導出し、それが名目カーネルの1ランク摂動であることを示す最初の例である。 これにより、堅牢なQ値関数と追加の補正項を除いて、非ロバストなMDPで使用されるRPGを導出することができる。 頑健なQ値と補正項はともに効率よく計算可能であり,既存のブラックボックス法に比べてはるかに高速な非破壊型MDPと一致する。

We present a novel robust policy gradient method (RPG) for s-rectangular robust Markov Decision Processes (MDPs). We are the first to derive the adversarial kernel in a closed form and demonstrate that it is a one-rank perturbation of the nominal kernel. This allows us to derive an RPG that is similar to the one used in non-robust MDPs, except with a robust Q-value function and an additional correction term. Both robust Q-values and correction terms are efficiently computable, thus the time complexity of our method matches that of non-robust MDPs, which is significantly faster compared to existing black box methods.
翻訳日:2023-02-01 16:38:49 公開日:2023-01-31
# スパース支持回復のための支援探索アルゴリズム

Support Exploration Algorithm for Sparse Support Recovery ( http://arxiv.org/abs/2301.13584v1 )

ライセンス: Link先を確認
Mimoun Mohamed (LIS, I2M), Fran\c{c}ois Malgouyres (IMT), Valentin Emiya (QARMA), Caroline Chaux (IPAL)(参考訳) このアルゴリズムは, スパース線形逆問題の解法に適用した「ste」("it straight-through estimator")の例として解釈できる。 SEAはスパース探索ベクトルを使用し、スパースサポートを選択するために入力空間内で進化させる。 私たちはexploratory vectorのoracle updateルールを証明し、ste updateを検討します。 理論解析は、支持回復の一般的な十分な条件を確立する。 一般的な条件は、線形測定を行う行列$A$が {\displaystyle {\it Restricted Isometry Property (RIP)} を満たす場合に特化される。 実験により、seaは任意のアルゴリズムの結果を効率的に改善できることが示されている。 探索的な性質のため、SEA は$A$ の列が強いコヒーレントであるときにも非常によく機能する。

We introduce a new algorithm promoting sparsity called {\it Support Exploration Algorithm (SEA)} and analyze it in the context of support recovery/model selection problems.The algorithm can be interpreted as an instance of the {\it straight-through estimator (STE)} applied to the resolution of a sparse linear inverse problem. SEA uses a non-sparse exploratory vector and makes it evolve in the input space to select the sparse support. We put to evidence an oracle update rule for the exploratory vector and consider the STE update. The theoretical analysis establishes general sufficient conditions of support recovery. The general conditions are specialized to the case where the matrix $A$ performing the linear measurements satisfies the {\it Restricted Isometry Property (RIP)}.Experiments show that SEA can efficiently improve the results of any algorithm. Because of its exploratory nature, SEA also performs remarkably well when the columns of $A$ are strongly coherent.
翻訳日:2023-02-01 16:38:37 公開日:2023-01-31
# スポーツタスク:メディアEval 2022のビデオからのテーブルテニスストロークの微粒化検出と分類

Sport Task: Fine Grained Action Detection and Classification of Table Tennis Strokes from Videos for MediaEval 2022 ( http://arxiv.org/abs/2301.13576v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin (MPI-EVA), Jordan Calandre (MIA), Boris Mansencal (LaBRI), Jenny Benois-Pineau (LaBRI), Renaud P\'eteri (MIA), Laurent Mascarilla (MIA), Julien Morlier(参考訳) スポーツビデオ分析は広く研究されている。 その応用は非常に多種多様で、試合中のイベントの検出、ビデオ要約、スポーツ選手の詳細な運動分析などである。 MediaEval 2022ベンチマークイニシアチブの一環として、スポーツビデオからの微妙な動きを検出し分類することを目的としている。 私たちは卓球の試合の記録に集中する。 2019年から実施されているこのタスクは、各ストロークの時間境界が知られている自然条件下で録画された未トリミングビデオの分類課題を提供する。 2021年以降、このタスクは無注の未編集ビデオからのストローク検出チャレンジも提供する。 今年はトレーニング、検証、テストセットが強化され、各データセットにすべてのストロークが表現されることが保証される。 データセットは[1, 2]で使用されるものに似ている。 この研究は、スポーツパフォーマンスをさらに評価したいコーチやアスリートのためのツールを構築することを目的としている。

Sports video analysis is a widespread research topic. Its applications are very diverse, like events detection during a match, video summary, or fine-grained movement analysis of athletes. As part of the MediaEval 2022 benchmarking initiative, this task aims at detecting and classifying subtle movements from sport videos. We focus on recordings of table tennis matches. Conducted since 2019, this task provides a classification challenge from untrimmed videos recorded under natural conditions with known temporal boundaries for each stroke. Since 2021, the task also provides a stroke detection challenge from unannotated, untrimmed videos. This year, the training, validation, and test sets are enhanced to ensure that all strokes are represented in each dataset. The dataset is now similar to the one used in [1, 2]. This research is intended to build tools for coaches and athletes who want to further evaluate their sport performances.
翻訳日:2023-02-01 16:38:21 公開日:2023-01-31
# スキル決定変換器

Skill Decision Transformer ( http://arxiv.org/abs/2301.13573v1 )

ライセンス: Link先を確認
Shyam Sudhakaran and Sebastian Risi(参考訳) 近年の研究では、従来のRL問題をシーケンスモデリング問題(Chen et al., 2021; Janner et al., 2021)として表現することで、LLM(Large Language Models)がオフライン強化学習(RL)に極めて効果的であることが示されている。 しかし、これらの手法の多くは高リターンのみを最適化し、多種多様なデータ集合から多くの情報を抽出することはできない。 一般化決定変換器(GDT) (Furuta et al., 2021) は、情報統計の形で将来の軌跡情報を活用することにより、オフライン軌跡データからより多くの情報を抽出できることを示した。 そこで我々は,Skill Decision Transformer (Skill DT)を提案する。 Skill DTは、さまざまなプリミティブな振る舞いやスキルを見つけるための、後から見直す(Andrychowicz et al., 2017)スキル発見手法からインスピレーションを得ている。 Skill DTはオフライン状態マージマッチング(SMM)だけでなく、簡単にサンプル化できる記述的動作の発見も可能であることを示す。 さらに、純粋に報酬のない最適化によって、D4RLベンチマークにおける教師付きオフラインRLアプローチとSkill DTがいまだに競合していることを示す。 コードとビデオは、プロジェクトのページにある。 https://github.com/shyamsn97/skill-dt

Recent work has shown that Large Language Models (LLMs) can be incredibly effective for offline reinforcement learning (RL) by representing the traditional RL problem as a sequence modelling problem (Chen et al., 2021; Janner et al., 2021). However many of these methods only optimize for high returns, and may not extract much information from a diverse dataset of trajectories. Generalized Decision Transformers (GDTs) (Furuta et al., 2021) have shown that utilizing future trajectory information, in the form of information statistics, can help extract more information from offline trajectory data. Building upon this, we propose Skill Decision Transformer (Skill DT). Skill DT draws inspiration from hindsight relabelling (Andrychowicz et al., 2017) and skill discovery methods to discover a diverse set of primitive behaviors, or skills. We show that Skill DT can not only perform offline state-marginal matching (SMM), but can discovery descriptive behaviors that can be easily sampled. Furthermore, we show that through purely reward-free optimization, Skill DT is still competitive with supervised offline RL approaches on the D4RL benchmark. The code and videos can be found on our project page: https://github.com/shyamsn97/skill-dt
翻訳日:2023-02-01 16:38:07 公開日:2023-01-31
# BALANCE: 根の局所化に対するベイジアン線形属性

BALANCE: Bayesian Linear Attribution for Root Cause Localization ( http://arxiv.org/abs/2301.13572v1 )

ライセンス: Link先を確認
Chaoyu Chen, Hang Yu, Zhichao Lei, Jianguo Li, Shaokang Ren, Tingkai Zhang, Silin Hu, Jianchao Wang, Wenhui Shi(参考訳) ルート原因解析(RCA)は、障害検出とシステム回復のギャップを埋めるため、分散データシステムの保守と運用において必須の役割を果たす。 既存の研究は主に多次元的局在化やグラフに基づく根源的局在化の研究である。 本稿では、最近開発された説明可能なAI(XAI)フレームワークをRCAのために活用する可能性を明らかにする。 特にBALANCE(Bayesian Linear AttributioN for root CausE Localization)を提案する。これは、XAIにおける帰属レンズを通してRCAの問題を定式化し、対象KPIの異常を候補根原因の挙動によって説明しようとするものである。 BALANCEは3つの革新的なコンポーネントで構成されている。 まず,候補とするKPIを前方に予測するベイズ的マルチコリニア特徴選択(BMFS)モデルを提案する。 第2に,各候補に対する帰属スコアを後向きに計算するために帰属分析を導入する。 第三に、複数のKPIが存在する場合、各KPIに関連する推定根本原因をマージする。 提案手法を1つの合成データセットと3つの実世界のrcaタスク、すなわち、悪いsqlローカライズ、コンテナ障害のローカライズ、exathlonのフォールトタイプ診断において広範囲に評価した。 その結果、BALANCEは、最小ランニング時間での精度で最先端(SOTA)メソッドよりも優れており、実際のタスクにおけるSOTAメソッドよりも少なくとも6\%$高い精度で達成されている。 BALANCEは実世界のRCA問題に対処するために本番環境にデプロイされており、オンラインの結果はさらに、分散データシステムにおけるリアルタイム診断への利用を提唱している。

Root Cause Analysis (RCA) plays an indispensable role in distributed data system maintenance and operations, as it bridges the gap between fault detection and system recovery. Existing works mainly study multidimensional localization or graph-based root cause localization. This paper opens up the possibilities of exploiting the recently developed framework of explainable AI (XAI) for the purpose of RCA. In particular, we propose BALANCE (BAyesian Linear AttributioN for root CausE localization), which formulates the problem of RCA through the lens of attribution in XAI and seeks to explain the anomalies in the target KPIs by the behavior of the candidate root causes. BALANCE consists of three innovative components. First, we propose a Bayesian multicollinear feature selection (BMFS) model to predict the target KPIs given the candidate root causes in a forward manner while promoting sparsity and concurrently paying attention to the correlation between the candidate root causes. Second, we introduce attribution analysis to compute the attribution score for each candidate in a backward manner. Third, we merge the estimated root causes related to each KPI if there are multiple KPIs. We extensively evaluate the proposed BALANCE method on one synthesis dataset as well as three real-world RCA tasks, that is, bad SQL localization, container fault localization, and fault type diagnosis for Exathlon. Results show that BALANCE outperforms the state-of-the-art (SOTA) methods in terms of accuracy with the least amount of running time, and achieves at least $6\%$ notably higher accuracy than SOTA methods for real tasks. BALANCE has been deployed to production to tackle real-world RCA problems, and the online results further advocate its usage for real-time diagnosis in distributed data systems.
翻訳日:2023-02-01 16:37:43 公開日:2023-01-31
# アクティブ・クリフ予測のためのQSARモデルの検討

Exploring QSAR Models for Activity-Cliff Prediction ( http://arxiv.org/abs/2301.13644v1 )

ライセンス: Link先を確認
Markus Dablander, Thierry Hanser, Renaud Lambiotte, Garrett M. Morris(参考訳) 類似した化合物のペアは、小さな構造的修飾によってのみ異なるが、特定の標的に対する結合親和性に大きな差を示すが、アクティビティ・クリフ(acs)として知られている。 定量的構造活性相関モデル(QSAR)がACの予測に苦慮し、ACが予測誤差の主要な原因となると推測されている。 しかし, 現代のQSAR手法の交流予測能力と一般QSAR予測性能との関係について検討する研究は乏しい。 We systematically construct nine distinct QSAR models by combining three molecular representation methods (extended-connectivity fingerprints, physicochemical-descriptor vectors and graph isomorphism networks) with three regression techniques (random forests, k-nearest neighbours and multilayer perceptrons); we then use each resulting model to classify pairs of similar compounds as ACs or non-ACs and to predict the activities of individual molecules in three case studies: dopamine receptor D2, factor Xa, and SARS-CoV-2 main protease. 両化合物の活性が不明な場合, 試験モデル間での交流感度は低いが, それぞれの化合物の活性が実際に与えられると, かなりの交流感度が増大する。 グラフアイソモーフィズムの特徴は、AC分類のための古典的な分子表現と競合するか、優れていることが分かっており、したがってベースラインのAC予測モデルや単純な化合物最適化ツールとして利用することができる。 しかし、一般的なQSAR予測では、拡張接続性指紋は、常に最高のパフォーマンスを提供する。 以上の結果から,QSAR法はACの予測に失敗することが多いという仮説を強く支持する。 本稿では,交流感度の向上とQSAR全体の性能向上を目的とした,深層学習モデルのためのツインネットワークトレーニングを提案する。

Pairs of similar compounds that only differ by a small structural modification but exhibit a large difference in their binding affinity for a given target are known as activity cliffs (ACs). It has been hypothesised that quantitative structure-activity relationship (QSAR) models struggle to predict ACs and that ACs thus form a major source of prediction error. However, a study to explore the AC-prediction power of modern QSAR methods and its relationship to general QSAR-prediction performance is lacking. We systematically construct nine distinct QSAR models by combining three molecular representation methods (extended-connectivity fingerprints, physicochemical-descriptor vectors and graph isomorphism networks) with three regression techniques (random forests, k-nearest neighbours and multilayer perceptrons); we then use each resulting model to classify pairs of similar compounds as ACs or non-ACs and to predict the activities of individual molecules in three case studies: dopamine receptor D2, factor Xa, and SARS-CoV-2 main protease. We observe low AC-sensitivity amongst the tested models when the activities of both compounds are unknown, but a substantial increase in AC-sensitivity when the actual activity of one of the compounds is given. Graph isomorphism features are found to be competitive with or superior to classical molecular representations for AC-classification and can thus be employed as baseline AC-prediction models or simple compound-optimisation tools. For general QSAR-prediction, however, extended-connectivity fingerprints still consistently deliver the best performance. Our results provide strong support for the hypothesis that indeed QSAR methods frequently fail to predict ACs. We propose twin-network training for deep learning models as a potential future pathway to increase AC-sensitivity and thus overall QSAR performance.
翻訳日:2023-02-01 16:31:19 公開日:2023-01-31
# s-矩形ロバストマルコフ決定過程の効率的な解法

An Efficient Solution to s-Rectangular Robust Markov Decision Processes ( http://arxiv.org/abs/2301.13642v1 )

ライセンス: Link先を確認
Navdeep Kumar, Kfir Levy, Kaixin Wang, Shie Mannor(参考訳) 我々は,従来の手法よりもはるかに高速な標準(非ロバスト)のMDPに匹敵する時間複雑性を持つ,正方形ロバストなマルコフ決定過程(MDP)に対して,効率的なロバストな値反復を提案する。 我々は,L_p$の水充填補題を用いて,ベルマン作用素を具体的形式で導出した。 我々は最適な政策の正確な形を明らかにし、これはその利点に比例する行動を起こす確率で新しいしきい値政策であることが判明した。

We present an efficient robust value iteration for \texttt{s}-rectangular robust Markov Decision Processes (MDPs) with a time complexity comparable to standard (non-robust) MDPs which is significantly faster than any existing method. We do so by deriving the optimal robust Bellman operator in concrete forms using our $L_p$ water filling lemma. We unveil the exact form of the optimal policies, which turn out to be novel threshold policies with the probability of playing an action proportional to its advantage.
翻訳日:2023-02-01 16:30:52 公開日:2023-01-31
# 量子電池の真空強化充電

Vacuum enhanced charging of a quantum battery ( http://arxiv.org/abs/2301.13640v1 )

ライセンス: Link先を確認
Tiago F. F. Santos, Yohan Vianna de Almeida, and Marcelo F. Santos(参考訳) 量子バッテリ(quantum battery)は、エネルギーを蓄え、量子タスクに使用できる量子システムである。 そのようなシステムに関する関連する問題の1つは、エネルギー伝達効率、入力電力、総貯蔵エネルギー、その他の関連する物理的量において、古典的なシステムに対する違いと最終的な優位性に関するものである。 ここでは、電磁場の真空に関連する純粋量子効果が、量子電池の充電をいかに促進するかを示す。 特に,反jaynes cummings相互作用をオフ共振ラマン配置による相互作用を用いて,従来の駆動型原子と比較して有効2レベル原子の蓄積エネルギーを増加させ,最終的にエントロピーコストをゼロにできることを示す。

Quantum batteries are quantum systems that store energy which can then be used for quantum tasks. One relevant question about such systems concerns the differences and eventual advantages over their classical counterparts, whether in the efficiency of the energy transference, input power, total stored energy or other relevant physical quantities. Here, we show how a purely quantum effect related to the vacuum of the electromagnetic field can enhance the charging of a quantum battery. In particular, we demonstrate how an anti-Jaynes Cummings interaction derived from an off-resonant Raman configuration can be used to increase the stored energy of an effective two-level atom when compared to its classically driven counterpart, eventually achieving full charging of the battery with zero entropic cost.
翻訳日:2023-02-01 16:30:42 公開日:2023-01-31
# AIチップを人間の脳をシミュレートする:詳細なパフォーマンス分析

Tricking AI chips into Simulating the Human Brain: A Detailed Performance Analysis ( http://arxiv.org/abs/2301.13637v1 )

ライセンス: Link先を確認
Lennart P. L. Landsmeer, Max C. W. Engelen, Rene Miedema and Christos Strydis(参考訳) Nvidiaの独占に則って、AIアクセラレータ専用チップは、推論、特に現代のディープニューラルネットワーク(DNN)のトレーニングが現代のコンピュータにもたらす計算課題に対処するために登場し始めている。 この分野では、様々なDNNモデルタイプでこれらの競技者のパフォーマンスを評価する研究が進められている。 しかし、AI専門家は現在のDNNの限界を認識しており、スパイクニューラルネットワーク(SNN)を中心に、より生物学的にインスパイアされたモデルに依存する第4のAI波に向けて取り組んできた。 同時に、GPUは計算神経科学の分野でそのようなモデルをシミュレーションするのに多用されているが、AIチップはそのようなワークロードでテストされていない。 この重要なギャップを埋めることを目的として,複数の最先端AIチップ(Graphcore IPU,GroqChip,Tensor CoresによるNvidia GPU,Google TPU)を評価し,脳領域の生物学的に詳細なモデルである下オリーブ(IO)をシミュレートした。 このIOアプリケーションは、計算密度、メモリ要件、浮動小数点数値の精度を変化させることで、アーキテクチャ上のトレードオフを強調するために、さまざまなAIプラットフォームをストレステストする。 性能解析の結果、シミュレーション問題はGPUとTPUアーキテクチャに極めてよく対応しており、125,000セルのネットワークでは、それぞれ1,208倍の高速化を実現していることがわかった。 この速度で、tpuは最大のリアルタイムioシミュレーションの新しい記録を設定する。 GroqChipは、小さなネットワークにおいて両方のプラットフォームより優れているが、精度の低い浮動小数点演算を実装しているため、脳シミュレーションではまだ利用できない。

Challenging the Nvidia monopoly, dedicated AI-accelerator chips have begun emerging for tackling the computational challenge that the inference and, especially, the training of modern deep neural networks (DNNs) poses to modern computers. The field has been ridden with studies assessing the performance of these contestants across various DNN model types. However, AI-experts are aware of the limitations of current DNNs and have been working towards the fourth AI wave which will, arguably, rely on more biologically inspired models, predominantly on spiking neural networks (SNNs). At the same time, GPUs have been heavily used for simulating such models in the field of computational neuroscience, yet AI-chips have not been tested on such workloads. The current paper aims at filling this important gap by evaluating multiple, cutting-edge AI-chips (Graphcore IPU, GroqChip, Nvidia GPU with Tensor Cores and Google TPU) on simulating a highly biologically detailed model of a brain region, the inferior olive (IO). This IO application stress-tests the different AI-platforms for highlighting architectural tradeoffs by varying its compute density, memory requirements and floating-point numerical accuracy. Our performance analysis reveals that the simulation problem maps extremely well onto the GPU and TPU architectures, which for networks of 125,000 cells leads to a 28x respectively 1,208x speedup over CPU runtimes. At this speed, the TPU sets a new record for largest real-time IO simulation. The GroqChip outperforms both platforms for small networks but, due to implementing some floating-point operations at reduced accuracy, is found not yet usable for brain simulation.
翻訳日:2023-02-01 16:30:27 公開日:2023-01-31
# 支援による輸送:データ-導電性拡散橋

Transport with Support: Data-Conditional Diffusion Bridges ( http://arxiv.org/abs/2301.13636v1 )

ライセンス: Link先を確認
Ella Tamir, Martin Trapp, Arno Solin(参考訳) 動的シュリンガーブリッジ問題は、効率的な反復解法を用いて非線形拡散過程を学習することで最適な輸送問題を解くための魅力的な設定を提供する。 最近の研究は、最先端の結果(例えば、単細胞胚RNA配列のモデル化や複雑な後部からのサンプリング)を実証しているが、初期および終末の制約しか持たない学習ブリッジに限られている。 我々の研究はこのパラダイムを拡張し、反復スムージングブリッジ(isb)を提案している。 ベイズフィルタと最適制御を拡散過程の学習に統合し、中間段階のスパース観測と終端制約による制約付き確率過程を可能にする。 我々は,本手法が合成および実世界のデータに与える影響を評価し,ISBが高次元データによく一般化し,計算効率が良く,中間時間と終時間における限界値の正確な推定値を提供することを示す。

The dynamic Schr\"odinger bridge problem provides an appealing setting for solving optimal transport problems by learning non-linear diffusion processes using efficient iterative solvers. Recent works have demonstrated state-of-the-art results (eg. in modelling single-cell embryo RNA sequences or sampling from complex posteriors) but are limited to learning bridges with only initial and terminal constraints. Our work extends this paradigm by proposing the Iterative Smoothing Bridge (ISB). We integrate Bayesian filtering and optimal control into learning the diffusion process, enabling constrained stochastic processes governed by sparse observations at intermediate stages and terminal constraints. We assess the effectiveness of our method on synthetic and real-world data and show that the ISB generalises well to high-dimensional data, is computationally efficient, and provides accurate estimates of the marginals at intermediate and terminal times.
翻訳日:2023-02-01 16:29:57 公開日:2023-01-31
# アクティブラーニングに基づくドメイン適応型局所化多言語カオス拡張

Active Learning-based Domain Adaptive Localized Polynomial Chaos Expansion ( http://arxiv.org/abs/2301.13635v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Nov\'ak, Michael D. Shields, V\'aclav Sad\'ilek, Miroslav Vo\v{r}echovsk\'y(参考訳) 本稿では,入力確率空間の能動学習に基づく逐次分解と局所化多項式カオス展開(domain adaptive localized polynomial chaos expansion,dal-pce)の構成により,複雑な関数のサロゲートモデルを構築するための新しい手法を提案する。 このアプローチは、入力ランダム空間を低次多項式展開によって近似されたより小さなサブドメインに逐次分解する。 これにより、強い非線形性、不連続性、および/または特異性を持つ関数の近似が可能になる。 入力ランダム空間の分解と局所近似は、この種の問題に対してギブス現象を緩和し、誤差を非線形に近い非常に小さな近傍に閉じ込める。 したがって、サーロゲートモデルの大域的挙動は、数値例で示すように、既存の方法よりもかなり優れている。 プロセス全体は、最近提案された$\theta$の基準を使ってローカルな分散貢献を評価するアクティブな学習ルーチンによって駆動される。 提案手法は、サロゲートモデルの \emph{exploitation} と入力ランダム空間の \emph{exploration} のバランスをとり、したがって元の数学的モデルの効率的かつ正確な近似をもたらす。 その結果, DAL-PCE は DAL-PCE よりも優れていた。 (i)単一大域多項式カオス展開と (ii)最近提案された確率的スペクトル埋め込み(sse)法は,類似した領域分解過程に基づく精度の高いサロゲートモデルとして開発された。 この手法は、さらなる拡張や改良を基礎とする一般的な枠組みを表し、非インタラクティブ多項式カオス展開構築のための任意の技法と組み合わせることができる。

The paper presents a novel methodology to build surrogate models of complicated functions by an active learning-based sequential decomposition of the input random space and construction of localized polynomial chaos expansions, referred to as domain adaptive localized polynomial chaos expansion (DAL-PCE). The approach utilizes sequential decomposition of the input random space into smaller sub-domains approximated by low-order polynomial expansions. This allows approximation of functions with strong nonlinearties, discontinuities, and/or singularities. Decomposition of the input random space and local approximations alleviates the Gibbs phenomenon for these types of problems and confines error to a very small vicinity near the non-linearity. The global behavior of the surrogate model is therefore significantly better than existing methods as shown in numerical examples. The whole process is driven by an active learning routine that uses the recently proposed $\Theta$ criterion to assess local variance contributions. The proposed approach balances both \emph{exploitation} of the surrogate model and \emph{exploration} of the input random space and thus leads to efficient and accurate approximation of the original mathematical model. The numerical results show the superiority of the DAL-PCE in comparison to (i) a single global polynomial chaos expansion and (ii) the recently proposed stochastic spectral embedding (SSE) method developed as an accurate surrogate model and which is based on a similar domain decomposition process. This method represents general framework upon which further extensions and refinements can be based, and which can be combined with any technique for non-intrusive polynomial chaos expansion construction.
翻訳日:2023-02-01 16:29:41 公開日:2023-01-31
# TopoBERT:微調整したBERTを併用した匿名認識モジュール

TopoBERT: Plug and Play Toponym Recognition Module Harnessing Fine-tuned BERT ( http://arxiv.org/abs/2301.13631v1 )

ライセンス: Link先を確認
Bing Zhou, Lei Zou, Yingjie Hu, Yi Qiang(参考訳) テキストコンテンツから正確な地理情報を抽出することは、多くのアプリケーションにおいて重要である。 例えば、危険な出来事の間、堅牢で偏見のないトポニム抽出フレームワークは、ニュース投稿や人道支援の要請やソーシャルメディアからの被害報告などによって議論されるトピックに関連する場所を結びつけるための手段を提供することができる。 初期の研究はルールベース、ガゼッタベース、ディープラーニング、ハイブリッドアプローチを活用してこの問題に対処してきた。 しかし、既存のツールのパフォーマンスは、きめ細かな正確な地理的情報に依存する緊急救助のような作業を支援するには不十分である。 先進的な事前訓練された言語モデルは、地名を含むテキスト情報の基本的特徴をよりよく捉え、実用的な応用を支えるために、匿名認識を最適化する有望な経路を提供する。 本稿では,一次元畳み込みニューラルネットワーク(cnn1d)とトランスフォーマ(bert)からの双方向エンコーダ表現に基づく頭文字認識モジュールtopobertを提案し,微調整を行った。 3つのデータセット(CoNLL2003-Train、Wikipedia3000、WNUT2017)を利用してハイパーパラメータをチューニングし、最高のトレーニング戦略を発見し、モデルをトレーニングする。 その他2つのデータセット(conll2003-testとharvey2017)がパフォーマンス評価に使用されている。 最適モデルアーキテクチャを決定するために,線形,多層パーセプトロン,CNN1Dの3つの区別された分類器をベンチマークする。 TopoBERTは、他の5つのベースラインモデルと比較して最先端のパフォーマンス(f1-score=0.865)を達成し、追加のトレーニングなしで様々なトポニム認識タスクに適用できる。

Extracting precise geographical information from textual contents is crucial in a plethora of applications. For example, during hazardous events, a robust and unbiased toponym extraction framework can provide an avenue to tie the location concerned to the topic discussed by news media posts and pinpoint humanitarian help requests or damage reports from social media. Early studies have leveraged rule-based, gazetteer-based, deep learning, and hybrid approaches to address this problem. However, the performance of existing tools is deficient in supporting operations like emergency rescue, which relies on fine-grained, accurate geographic information. The emerging pretrained language models can better capture the underlying characteristics of text information, including place names, offering a promising pathway to optimize toponym recognition to underpin practical applications. In this paper, TopoBERT, a toponym recognition module based on a one dimensional Convolutional Neural Network (CNN1D) and Bidirectional Encoder Representation from Transformers (BERT), is proposed and fine-tuned. Three datasets (CoNLL2003-Train, Wikipedia3000, WNUT2017) are leveraged to tune the hyperparameters, discover the best training strategy, and train the model. Another two datasets (CoNLL2003-Test and Harvey2017) are used to evaluate the performance. Three distinguished classifiers, linear, multi-layer perceptron, and CNN1D, are benchmarked to determine the optimal model architecture. TopoBERT achieves state-of-the-art performance (f1-score=0.865) compared to the other five baseline models and can be applied to diverse toponym recognition tasks without additional training.
翻訳日:2023-02-01 16:29:15 公開日:2023-01-31
# DiffSTG:拡散モデルを用いた確率的時空間グラフ予測

DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising Diffusion Models ( http://arxiv.org/abs/2301.13629v1 )

ライセンス: Link先を確認
Haomin Wen, Youfang Lin, Yutong Xia, Huaiyu Wan, Roger Zimmermann, Yuxuan Liang(参考訳) 時空間グラフニューラルネットワーク(STGNN)が時空間グラフ(STG)予測の主流モデルとなっている。 成功にもかかわらず、STGデータ内の本質的な不確実性のモデル化には失敗し、意思決定の下流タスクにおける実用性を損なう。 本稿では,不確実性や複雑なST依存のモデル化が困難であることから,確率的STG予測に焦点をあてる。 本研究では,STGの拡散確率モデルを一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰的フレームワークと,STGのためのネットワークUGnetを提案する。 提案手法は,STGNNの時空間学習能力と拡散モデルの不確実性測定を組み合わせたものである。 広範な実験により、diffstgは連続ランク付き確率スコア(crps)を4%-14%削減し、ルート平均二乗誤差(rmse)を3つの実世界のデータセット上の既存の方法よりも2%-7%削減できることが確認された。

Spatio-temporal graph neural networks (STGNN) have emerged as the dominant model for spatio-temporal graph (STG) forecasting. Despite their success, they fail to model intrinsic uncertainties within STG data, which cripples their practicality in downstream tasks for decision-making. To this end, this paper focuses on probabilistic STG forecasting, which is challenging due to the difficulty in modeling uncertainties and complex ST dependencies. In this study, we present the first attempt to generalize the popular denoising diffusion probabilistic models to STGs, leading to a novel non-autoregressive framework called DiffSTG, along with the first denoising network UGnet for STG in the framework. Our approach combines the spatio-temporal learning capabilities of STGNNs with the uncertainty measurements of diffusion models. Extensive experiments validate that DiffSTG reduces the Continuous Ranked Probability Score (CRPS) by 4%-14%, and Root Mean Squared Error (RMSE) by 2%-7% over existing methods on three real-world datasets.
翻訳日:2023-02-01 16:28:45 公開日:2023-01-31
# 合同拡散モデルを用いた学習データ表現

Learning Data Representations with Joint Diffusion Models ( http://arxiv.org/abs/2301.13622v1 )

ライセンス: Link先を確認
Kamil Deja, Tomasz Trzcinski, Jakub M. Tomczak(参考訳) 生成タスクと予測タスクの両方に適合する有意義な内部表現を同時に学習する共同拡散モデルを提案する。 データの合成と分類を可能にする統合機械学習モデルは、多くの場合、それらのタスク間の不均一なパフォーマンスを提供する。 本研究は,現代深層拡散型生成モデルが生成と予測の両方において構築した内部表現の有用性を示す一連の経験的観察から脱却する。 次に,分類器を用いたバニラ拡散モデルの拡張を行い,それらの目的間の共有パラメトリゼーションによる安定な関節トレーニングを実現する。 結果として得られるジョイント拡散モデルは、生成モデリング、半教師付き分類、ドメイン適応など、様々なタスクにまたがる優れた性能を提供する。

We introduce a joint diffusion model that simultaneously learns meaningful internal representations fit for both generative and predictive tasks. Joint machine learning models that allow synthesizing and classifying data often offer uneven performance between those tasks or are unstable to train. In this work, we depart from a set of empirical observations that indicate the usefulness of internal representations built by contemporary deep diffusion-based generative models in both generative and predictive settings. We then introduce an extension of the vanilla diffusion model with a classifier that allows for stable joint training with shared parametrization between those objectives. The resulting joint diffusion model offers superior performance across various tasks, including generative modeling, semi-supervised classification, and domain adaptation.
翻訳日:2023-02-01 16:28:27 公開日:2023-01-31
# 強化学習による分散エッジクラスタ上でのスケジューリング推論ワークロード

Scheduling Inference Workloads on Distributed Edge Clusters with Reinforcement Learning ( http://arxiv.org/abs/2301.13618v1 )

ライセンス: Link先を確認
Gabriele Castellano, Juan-Jos\'e Nieto, Jordi Luque, Ferr\'an Diego, Carlos Segura, Diego Perino, Flavio Esposito, Fulvio Risso, Aravindh Raman(参考訳) 多くのリアルタイムアプリケーション(例えばAugmented/Virtual Reality、認知支援)は、推論タスクを処理するためにディープニューラルネットワーク(DNN)に依存している。 エッジコンピューティングは、データソースに近い計算を移動することで、厳密なレイテンシとスループット要件を満たすことができるため、このようなアプリケーションをデプロイするための重要なインフラストラクチャと考えられている。 エッジクラスタは、DNNモデルに無制限の処理能力を提供しておらず、ネットワークと処理時間のトレードオフは、エンドツーエンドの遅延要件に関して考慮すべきである。 本稿では,短時間(数ミリ秒)のエッジネットワークにおけるDNNモデル上での推論クエリのスケジューリング問題に焦点をあてる。 シミュレーションにより,大規模ISPの現実的なネットワーク設定やワークロードにおけるいくつかのポリシを分析し,ネットワーク条件やワークロードに適応可能な動的スケジューリングポリシの必要性を強調した。 そこで我々は,システム条件に応じて適応可能な強化学習型スケジューリングアルゴリズム aset を設計した。 以上の結果から,ASETはエッジリソースの分散プール上でのスケジューリングにおいて,静的ポリシーよりも効果的なパフォーマンスを提供することがわかった。

Many real-time applications (e.g., Augmented/Virtual Reality, cognitive assistance) rely on Deep Neural Networks (DNNs) to process inference tasks. Edge computing is considered a key infrastructure to deploy such applications, as moving computation close to the data sources enables us to meet stringent latency and throughput requirements. However, the constrained nature of edge networks poses several additional challenges to the management of inference workloads: edge clusters can not provide unlimited processing power to DNN models, and often a trade-off between network and processing time should be considered when it comes to end-to-end delay requirements. In this paper, we focus on the problem of scheduling inference queries on DNN models in edge networks at short timescales (i.e., few milliseconds). By means of simulations, we analyze several policies in the realistic network settings and workloads of a large ISP, highlighting the need for a dynamic scheduling policy that can adapt to network conditions and workloads. We therefore design ASET, a Reinforcement Learning based scheduling algorithm able to adapt its decisions according to the system conditions. Our results show that ASET effectively provides the best performance compared to static policies when scheduling over a distributed pool of edge resources.
翻訳日:2023-02-01 16:28:16 公開日:2023-01-31
# ユークリッドノルムメタヒューリスティック最適化による超現実空間投影の促進

Enhancing Hyper-To-Real Space Projections Through Euclidean Norm Meta-Heuristic Optimization ( http://arxiv.org/abs/2301.13671v1 )

ライセンス: Link先を確認
Luiz C. F. Ribeiro, Mateus Roder, Gustavo H. de Rosa, Leandro A. Passos, Jo\~ao P. Papa(参考訳) 過去数十年間、連続的な計算能力の増大により、人間にとって重要な最適化問題のいくつかが解決されてきたが、そのいくつかは高度なアルゴリズムを用いても、評価すべき候補解が圧倒的に多いため、依然として課題である。 このような文脈において、メタヒューリスティック最適化(meta-heuristic optimization)と呼ばれる自然に着想を得た一連の確率的手法は、微分自由実関数最適化のような少ない計算負荷で、様々な種類の問題に対する堅牢な近似解を提供することができる。 それでもこれらの手法は、函数のランドスケープが厳しすぎる場合、例えば局所最適化が多すぎるような不適切な解に収束する可能性がある。 これまでの作業では、四元数のような検索空間の超複素表現を用いることでこの問題に対処していた。 このアプローチでは、メタヒューリスティックな計算は超複素空間で起こるが、変数は関数評価の前に実領域にマッピングされる。 後者の演算はユークリッドノルムによって行われるが、最適化手続きが完了した後、minkowski $p$-norm を代わりに使用し、追加コストを無視し、ハイパーパラメータを使わずに補助サブプロブレムを通じて$p$を微調整することで、より優れた解を得ることができる。 このような振舞いは8つのよく確立されたベンチマーク関数で観測されたため、超複素メタヒューリスティック最適化のための新しい研究の方向性が育まれた。

The continuous computational power growth in the last decades has made solving several optimization problems significant to humankind a tractable task; however, tackling some of them remains a challenge due to the overwhelming amount of candidate solutions to be evaluated, even by using sophisticated algorithms. In such a context, a set of nature-inspired stochastic methods, called meta-heuristic optimization, can provide robust approximate solutions to different kinds of problems with a small computational burden, such as derivative-free real function optimization. Nevertheless, these methods may converge to inadequate solutions if the function landscape is too harsh, e.g., enclosing too many local optima. Previous works addressed this issue by employing a hypercomplex representation of the search space, like quaternions, where the landscape becomes smoother and supposedly easier to optimize. Under this approach, meta-heuristic computations happen in the hypercomplex space, whereas variables are mapped back to the real domain before function evaluation. Despite this latter operation being performed by the Euclidean norm, we have found that after the optimization procedure has finished, it is usually possible to obtain even better solutions by employing the Minkowski $p$-norm instead and fine-tuning $p$ through an auxiliary sub-problem with neglecting additional cost and no hyperparameters. Such behavior was observed in eight well-established benchmarking functions, thus fostering a new research direction for hypercomplex meta-heuristic optimization.
翻訳日:2023-02-01 16:22:56 公開日:2023-01-31
# ビジュアルインテクスト学習のよい例は何か?

What Makes Good Examples for Visual In-Context Learning? ( http://arxiv.org/abs/2301.13670v1 )

ライセンス: Link先を確認
Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu(参考訳) 広範データでトレーニングされた大規模モデルは最近、その強力な一般化性能のため、コンピュータビジョンにおける主流アーキテクチャとなっている。 本稿では,大規模ビジョンモデルにおける創発的能力に着目し,モデルパラメータを更新することなく,コンテキスト内例(a.k.a.~prompt)を条件に,未知タスクの推論を可能にする。 この概念は自然言語処理でよく知られているが、近年では大きな視覚モデルに対してのみ研究されている。 我々は初めて、コンピュータビジョンにおける文脈内例の影響に関する包括的な調査を行い、その性能が文脈内例の選択に非常に敏感であることを見出した。 そこで本研究では,テキスト内サンプルの選択を自動化するための検索フレームワークを提案する。 具体的には,(1)オフザシェルフモデルを用いた最寄りサンプル探索に基づく教師なしプロンプト検索手法,(2)ニューラルネットワークをトレーニングして,文脈内学習性能を直接最大化する事例を選択する教師なしプロンプト検索手法を提案する。 その結果,本手法は,一般のランダム選択と比較して,視覚的な文脈学習に非自明な改善をもたらすことが判明した。

Large-scale models trained on broad data have recently become the mainstream architecture in computer vision due to their strong generalization performance. In this paper, the main focus is on an emergent ability in large vision models, known as in-context learning, which allows inference on unseen tasks by conditioning on in-context examples (a.k.a.~prompt) without updating the model parameters. This concept has been well-known in natural language processing but has only been studied very recently for large vision models. We for the first time provide a comprehensive investigation on the impact of in-context examples in computer vision, and find that the performance is highly sensitive to the choice of in-context examples. To overcome the problem, we propose a prompt retrieval framework to automate the selection of in-context examples. Specifically, we present (1) an unsupervised prompt retrieval method based on nearest example search using an off-the-shelf model, and (2) a supervised prompt retrieval method, which trains a neural network to choose examples that directly maximize in-context learning performance. The results demonstrate that our methods can bring non-trivial improvements to visual in-context learning in comparison to the commonly-used random selection.
翻訳日:2023-02-01 16:22:25 公開日:2023-01-31
# 単一光子量子ウォークによる強化学習と意思決定

Reinforcement learning and decision making via single-photon quantum walks ( http://arxiv.org/abs/2301.13669v1 )

ライセンス: Link先を確認
Fulvio Flamini, Marius Krumm, Lukas J. Fiderer, Thomas M\"uller, and Hans J. Briegel(参考訳) 変分量子アルゴリズムは、古典的ニューラルネットワークをパラメトリズド量子回路に置き換える量子機械学習における有望なアプローチである。 本稿では,人工知能の解釈を目的とした強化学習モデルである射影シミュレーション(PS)の定量化のための変分的アプローチを提案する。 PSにおける決定は、エージェントのメモリを記述するグラフ上のランダムウォークとしてモデル化される。 量子化モデルを実装するために、可変マッハ・ツェンダー干渉計の格子における単一光子の量子ウォークを考える。 我々は,強化学習タスクに適した変分アルゴリズムを提案し,転送学習の例を用いて,量子PS学習モデルが従来の学習モデルより優れていることを示す。 最後に, 学習と意思決定における量子干渉の役割について論じ, 解釈可能な量子学習エージェントの実現への道を開く。

Variational quantum algorithms represent a promising approach to quantum machine learning where classical neural networks are replaced by parametrized quantum circuits. Here, we present a variational approach to quantize projective simulation (PS), a reinforcement learning model aimed at interpretable artificial intelligence. Decision making in PS is modeled as a random walk on a graph describing the agent's memory. To implement the quantized model, we consider quantum walks of single photons in a lattice of tunable Mach-Zehnder interferometers. We propose variational algorithms tailored to reinforcement learning tasks, and we show, using an example from transfer learning, that the quantized PS learning model can outperform its classical counterpart. Finally, we discuss the role of quantum interference for training and decision making, paving the way for realizations of interpretable quantum learning agents.
翻訳日:2023-02-01 16:22:04 公開日:2023-01-31
# 多言語トランスフォーマーモデルを用いたfacebookデータの感情自動分析とヘイトスピーチ分析

Automated Sentiment and Hate Speech Analysis of Facebook Data by Employing Multilingual Transformer Models ( http://arxiv.org/abs/2301.13668v1 )

ライセンス: Link先を確認
Ritumbra Manuvie and Saikat Chatterjee(参考訳) 近年、アカデミアや、ソーシャルメディアプラットフォーム(smp)が憎悪やネガティブな感情コンテンツの拡散を増幅する、という世論の中で、コンセンサスが高まっている。 研究者たちは、ヘイトフルコンテンツ、政治的プロパガンダ、ターゲットメッセージングが、民主的に選出された政府に対する暴動、ジェノサイド、世界の一部のコミュニティに対する否定的な言動の高まりによる社会的結束の崩壊など、現実世界の害にどのように貢献するかを特定した。 これらの問題に対処するため、SMPは有害な音声を識別する半自動システムを開発した。 本稿では,facebookの代表的なデータセット (n=604,703) におけるヘイトフルとネガティブの感情コンテンツの統計分布を分析し,自己を極右ヒンドゥーヴァのアクタの支持者(およびフォロワー)と同定する648のfacebookページから抽出した。 これらのページは、FacebookとCrowdTangleandでキーワード検索を使用して手動で識別され、ページ名、ページ記述、これらのページで共有された談話に基づいて極右ヒンドゥートヴァページに分類された。 我々は,現在最先端のオープンソースXLM-T多言語トランスフォーマーベース言語モデルを用いて,これらのページ上で5.5年間に共有されているテキストコンテンツの感情分析とヘイトスピーチ分析を行う。 その結果、予測された感情とヘイトスピーチラベル、トップアクター、トップページカテゴリの統計分布が明らかになった。 さらに、これらの事前学習言語モデルのベンチマーク性能と制限について論じる。

In recent years, there has been a heightened consensus within academia and in the public discourse that Social Media Platforms (SMPs), amplify the spread of hateful and negative sentiment content. Researchers have identified how hateful content, political propaganda, and targeted messaging contributed to real-world harms including insurrections against democratically elected governments, genocide, and breakdown of social cohesion due to heightened negative discourse towards certain communities in parts of the world. To counter these issues, SMPs have created semi-automated systems that can help identify toxic speech. In this paper we analyse the statistical distribution of hateful and negative sentiment contents within a representative Facebook dataset (n= 604,703) scrapped through 648 public Facebook pages which identify themselves as proponents (and followers) of far-right Hindutva actors. These pages were identified manually using keyword searches on Facebook and on CrowdTangleand classified as far-right Hindutva pages based on page names, page descriptions, and discourses shared on these pages. We employ state-of-the-art, open-source XLM-T multilingual transformer-based language models to perform sentiment and hate speech analysis of the textual contents shared on these pages over a period of 5.5 years. The result shows the statistical distributions of the predicted sentiment and the hate speech labels; top actors, and top page categories. We further discuss the benchmark performances and limitations of these pre-trained language models.
翻訳日:2023-02-01 16:21:50 公開日:2023-01-31
# マルチビジョン型触覚センサを用いた手動6次元物体位置推定

Collision-aware In-hand 6D Object Pose Estimation using Multiple Vision-based Tactile Sensors ( http://arxiv.org/abs/2301.13667v1 )

ライセンス: Link先を確認
Gabriele M. Caddeo, Nicola A. Piga, Fabrizio Bottarel and Lorenzo Natale(参考訳) 本稿では,複数の視覚に基づく触覚センサに接触した物体の6Dポーズを推定する問題に対処する。 物体表面に沿ったセンサの空間的配置が考えられる理由を考察する。 具体的には、幾何学的推論と畳み込みニューラルネットワーク(cnn)を用いて接触仮説をフィルタリングし、物体非依存のシミュレーション画像で学習し、センサからの実際の触覚画像に合致する者を促進させる。 選択したセンサ構成を使用して,勾配勾配に基づくアプローチで6dポーズの空間を最適化する。 最終的に得られたポーズは、センサーと衝突しているポーズを罰することでランク付けする。 我々は、標準的なYCBモデルセットから、複数のオブジェクトを持つDIGIT視覚センサを用いてシミュレーション実験を行う。 その結果,提案手法は,平均位置誤差を2cmの順に到達しながら,実際の物体センサ接触と適合する物体を87.5〜%のケースで推定する。 また,実DIGITセンサを用いた実験の質的結果も分析した。

In this paper, we address the problem of estimating the in-hand 6D pose of an object in contact with multiple vision-based tactile sensors. We reason on the possible spatial configurations of the sensors along the object surface. Specifically, we filter contact hypotheses using geometric reasoning and a Convolutional Neural Network (CNN), trained on simulated object-agnostic images, to promote those that better comply with the actual tactile images from the sensors. We use the selected sensors configurations to optimize over the space of 6D poses using a Gradient Descent-based approach. We finally rank the obtained poses by penalizing those that are in collision with the sensors. We carry out experiments in simulation using the DIGIT vision-based sensor with several objects, from the standard YCB model set. The results demonstrate that our approach estimates object poses that are compatible with actual object-sensor contacts in $87.5\%$ of cases while reaching an average positional error in the order of $2$ centimeters. Our analysis also includes qualitative results of experiments with a real DIGIT sensor.
翻訳日:2023-02-01 16:21:15 公開日:2023-01-31
# 縮退光パラメトリック発振器ネットワークにおけるコヒーレントクラスター状態生成

Coherent-cluster-state generation in networks of degenerate optical parametric oscillators ( http://arxiv.org/abs/2301.13666v1 )

ライセンス: Link先を確認
Zheng-Yang Zhou, Clemens Gneiting, J.Q. You, and Franco Nori(参考訳) クラスター状態は万能な量子資源であり、測定ベースの量子コンピューティングに不可欠な構成要素である。 したがって、特定のシステムでクラスター状態を生成する可能性は、これらのシステムが量子技術や量子情報処理にどの程度活用できるかを示す指標となる。 本稿では、この解析をコヒーレントイジングマシン(CIM)とも呼ばれる縮退型光パラメトリック発振器(DOPO)のネットワークに適用する。 cimは、非常に柔軟な結合機能によって区別され、例えば、大きなスピン系をエミュレートするためにそれらを使用することができる。 CIMは一般にコヒーレントな状態(およびその重畳)で作用するため、コヒーレントな状態、すなわちコヒーレントな状態の重畳によって形成されるクラスター状態を考えることは自然である。 このようなコヒーレントなクラスター状態は、ビームスプリッターと古典的なポンプの助けを借りて、理想的な条件下でdopoネットワークで生成することができる。 その後の数値解析は、現実的な条件下でのコヒーレントクラスタ状態の生成に対する最小要件を提供する。 さらに,非平衡ポンプがコヒーレントクラスター状態の生成をいかに改善できるかを考察する。 クラスタ状態生成の質を評価するために、モジュール変数を用いて生成した状態を有効スピン空間にマッピングし、スピンベースのクラスタ状態に適した絡み合い基準を適用する。

Cluster states are versatile quantum resources and an essential building block for measurement-based quantum computing. The possibility to generate cluster states in specific systems may thus serve as an indicator if and to what extent these systems can be harnessed for quantum technologies and quantum information processing in particular. Here, we apply this analysis to networks of degenerate optical parametric oscillators (DOPOs), also called coherent Ising machines (CIMs). CIMs are distinguished by their highly flexible coupling capabilities, which makes it possible to use them, e.g., to emulate large spin systems. As CIMs typically operate with coherent states (and superpositions thereof), it is natural to consider cluster states formed by superpositions of coherent states, i.e., coherent cluster states. As we show, such coherent cluster states can, under ideal conditions, be generated in DOPO networks with the help of beam splitters and classical pumps. Our subsequent numerical analysis provides the minimum requirements for the generation of coherent cluster states under realistic conditions. Moreover, we discuss how nonequilibrium pumps can improve the generation of coherent cluster states. In order to assess the quality of the cluster state generation, we map the generated states to an effective spin space using modular variables, which allows us to apply entanglement criteria tailored for spin-based cluster states.
翻訳日:2023-02-01 16:20:56 公開日:2023-01-31
# 変分振幅増幅によるqubo問題の解法

Variational Amplitude Amplification for Solving QUBO Problems ( http://arxiv.org/abs/2301.13665v1 )

ライセンス: Link先を確認
Daniel Koch, Massimiliano Cutugno, Saahil Patel, Laura Wessing, Paul M. Alsing(参考訳) 組合せ最適化問題の解法として,量子コンピューティングのゲートベースモデルにおける振幅増幅法について検討する。 本研究は主にqubo(quadratic unconstrained binary optimization)問題に焦点をあてる。 具体的には、QUBOを‘コストオラクル’演算としてエンコードする回路設計を、標準Grover拡散演算子$U_{\textrm{C}}$と組み合わせると、最適および近似最適解に対応する状態の測定確率が高くなることを示す。 これらの確率を達成するためには、単一のスカラーパラメータ $p_{\textrm{s}}$ が必要である。

We investigate the use of amplitude amplification on the gate-based model of quantum computing as a means for solving combinatorial optimization problems. This study focuses primarily on QUBO (quadratic unconstrained binary optimization) problems, which are well-suited for qubit superposition states. Specifically, we demonstrate circuit designs which encode QUBOs as `cost oracle' operations $U_{\textrm{C}}$, which when combined with the standard Grover diffusion operator $U_{\textrm{s}}$ lead to high probabilities of measurement for states corresponding to the optimal and near optimal solutions. In order to achieve these probabilities, a single scalar parameter $p_{\textrm{s}}$ is required, which we show can be found through a variational quantum-classical hybrid approach.
翻訳日:2023-02-01 16:20:33 公開日:2023-01-31
# spyker: ディープニューラルネットワークをスパイする高性能ライブラリ

Spyker: High-performance Library for Spiking Deep Neural Networks ( http://arxiv.org/abs/2301.13659v1 )

ライセンス: Link先を確認
Shahriar Rezghi Shirsavar, Mohammad-Reza A. Dehaqani(参考訳) スパイキングニューラルネットワーク(SNN)は、その有望な能力のために最近明かされた。 SNNは、以前の世代のニューラルネットワークよりも高い生物学的確率で脳をシミュレートする。 サンプルの少ない学習と消費電力の削減が,これらのネットワークの重要な特徴のひとつだ。 しかし、シミュレーションツールの遅さと提案したネットワーク構造の非現実性により、SNNの理論的優位性は実際には見られていない。 本研究では,c++/cudaを用いたspykerという高性能ライブラリをスクラッチから実装した。 大規模ネットワークのシミュレーションにおけるライブラリの実用性を証明するために,Spykerを用いた学習ルール(スパイクタイミング依存の塑性と強化学習)を用いて,複数のSNNを実装した。 我々の知る限り、モジュール構造を用いて大規模スパイクニューラルネットワークを高速にシミュレートするツールは開発されていない。 さらに、Spykerから抽出された代表刺激と記録された電気生理学的データとの比較を行い、脳機能の基盤となる神経機構を記述する上でのSNNの適用性を示す。 本ライブラリの目的は,SNNを用いた脳計算の真の可能性を明らかにすることにある。

Spiking neural networks (SNNs) have been recently brought to light due to their promising capabilities. SNNs simulate the brain with higher biological plausibility compared to previous generations of neural networks. Learning with fewer samples and consuming less power are among the key features of these networks. However, the theoretical advantages of SNNs have not been seen in practice due to the slowness of simulation tools and the impracticality of the proposed network structures. In this work, we implement a high-performance library named Spyker using C++/CUDA from scratch that outperforms its predecessor. Several SNNs are implemented in this work with different learning rules (spike-timing-dependent plasticity and reinforcement learning) using Spyker that achieve significantly better runtimes, to prove the practicality of the library in the simulation of large-scale networks. To our knowledge, no such tools have been developed to simulate large-scale spiking neural networks with high performance using a modular structure. Furthermore, a comparison of the represented stimuli extracted from Spyker to recorded electrophysiology data is performed to demonstrate the applicability of SNNs in describing the underlying neural mechanisms of the brain functions. The aim of this library is to take a significant step toward uncovering the true potential of the brain computations using SNNs.
翻訳日:2023-02-01 16:20:19 公開日:2023-01-31
# 点雲からの自動表面再構成に関する調査とベンチマーク

A Survey and Benchmark of Automatic Surface Reconstruction from Point Clouds ( http://arxiv.org/abs/2301.13656v1 )

ライセンス: Link先を確認
Raphael Sulzer, Loic Landrieu, Renaud Marlet, Bruno Vallet(参考訳) 我々は,点雲の表面再構成の問題に対処する,従来型および新しい学習ベースアルゴリズムを調査し,ベンチマークする。 ノイズ、異常値、非一様サンプリング、データ欠落などにより、実世界の取得に適用する場合、ポイントクラウドからの表面復元は特に困難である。 伝統的に、入力点や出力面の異なる手作りの先行が提案されており、この問題をより引きやすくしている。 しかし、異なる取得欠陥に対する事前調整のためのハイパーパラメータチューニングは面倒な作業である。 この目的のために,最近,深層学習コミュニティが表面再構成問題に対処している。 従来のアプローチとは対照的に、深部表面再構成法は、点雲とそれに対応する真の曲面のトレーニングセットから直接事前を学習することができる。 本研究では,手作りと学習の優先度の違いが,入力の欠陥に対するロバスト性や,幾何学的・トポロジカル的に正確な再構成を実現する能力に与える影響について詳細に述べる。 本ベンチマークでは,従来型および学習型手法の再構成を同一の理由で評価する。 学習に基づく手法は,未認識の形状カテゴリに一般化できるが,そのトレーニングとテストセットは,同じ点クラウド特性を共有する必要がある。 また、ベンチマークで競合するコードとデータを提供し、学習ベースの表面再構成 https://github.com/raphaelsulzer/dsr-benchmark の開発をさらに促進します。

We survey and benchmark traditional and novel learning-based algorithms that address the problem of surface reconstruction from point clouds. Surface reconstruction from point clouds is particularly challenging when applied to real-world acquisitions, due to noise, outliers, non-uniform sampling and missing data. Traditionally, different handcrafted priors of the input points or the output surface have been proposed to make the problem more tractable. However, hyperparameter tuning for adjusting priors to different acquisition defects can be a tedious task. To this end, the deep learning community has recently addressed the surface reconstruction problem. In contrast to traditional approaches, deep surface reconstruction methods can learn priors directly from a training set of point clouds and corresponding true surfaces. In our survey, we detail how different handcrafted and learned priors affect the robustness of methods to defect-laden input and their capability to generate geometric and topologically accurate reconstructions. In our benchmark, we evaluate the reconstructions of several traditional and learning-based methods on the same grounds. We show that learning-based methods can generalize to unseen shape categories, but their training and test sets must share the same point cloud characteristics. We also provide the code and data to compete in our benchmark and to further stimulate the development of learning-based surface reconstruction https://github.com/raphaelsulzer/dsr-benchmark.
翻訳日:2023-02-01 16:19:57 公開日:2023-01-31
# 巧妙な設計と予期しない障害:量子ボルツマンマシンの実装に関する洞察

Clever Design, Unexpected Obstacles: Insights on Implementing a Quantum Boltzmann Machine ( http://arxiv.org/abs/2301.13705v1 )

ライセンス: Link先を確認
Felix Paul, Michael Falkenthal, Sebastian Feld(参考訳) 我々は、パウリ分解量子ハミルトニアンの基底状態を近似するために制限ボルツマンマシンのゲートベースの量子バージョンを実装した。 実装と評価の間、さまざまな予期せぬトピックに気付きました。 アルゴリズム自体の構造による制限から始まり、効率的な実装に必要な機能を(まだ)サポートしていない特定の量子ソフトウェア開発キットによって引き起こされる制約に続きます。 本稿では,これらの知見を体系的に要約し,類似した量子アルゴリズムの実装との関連性に応じて分類する。 また,現在のNISQデバイス上で実装を実行する可能性についても論じる。

We have implemented a gated-based quantum version of a restricted Boltzmann machine for approximating the ground state of a Pauli-decomposed qubit Hamiltonian. During the implementation and evaluation, we have noticed a variety of unexpected topics. It starts from limitations due to the structure of the algorithm itself and continues with constraints induced by specific quantum software development kits, which did not (yet) support necessary features for an efficient implementation. In this paper we systematically summarize our findings and categorize them according to their relevance for the implementation of similar quantum algorithms. We also discuss the feasibility of executing such implementations on current NISQ devices.
翻訳日:2023-02-01 16:12:36 公開日:2023-01-31
# 深層学習の個別レジームにおけるSGDノイズの影響の判別

Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning ( http://arxiv.org/abs/2301.13703v1 )

ライセンス: Link先を確認
Antonio Sclocchi, Mario Geiger, Matthieu Wyart(参考訳) 確率勾配降下(SGD)のノイズがディープニューラルネットワークの一般化にいつ影響するかを理解することは、ネットワークが異なる訓練体制で動作可能であるという事実によって、依然として難しい。 ここでは、このノイズの規模が、トレーニングセットの規模$P$と初期化の規模$\alpha$によってパフォーマンスにどのように影響するかを検討する。 勾配降下の場合、$\alpha$ はネットワークが 'lazy' (\alpha\gg 1$) であるか、代わりに機能 (\alpha\ll 1$) を学ぶかを制御するキーパラメータである。 MNIST 画像と CIFAR10 画像の分類は以下のとおりである。 (i)$(\alpha,T)$平面における性能の位相図を得る。 sgdノイズはトレーニング環境によって有害あるいは有用であることが示された。 さらに、$t$または$\alpha$を下げることで、ネットは遅延レジームから逃れることができるが、これらの変更はパフォーマンスに逆の効果をもたらす可能性がある。 (ii)最も重要なことは、鍵となる力学量(トレーニング中の重みの合計変動を含む)が動力法則としてt$とp$の両方に依存しており、sgdのノイズが性能に影響を与える特性温度であるt_c$がp$であるということである。 これらの結果から,SGDノイズは訓練の後半に発生し,全てのデータが装着される停止過程に影響を与えることが示唆された。 我々は、SGDノイズのため、ネットはより強力な「信号」、すなわちより大きな情報重みをデータに適合させ、より長いトレーニング時間をもたらす必要があると主張している。 同じ効果は、より大きなトレーニングセット$P$で起こります。 我々は、信号と雑音を正確に測定できるパーセプトロンモデルにおいて、この見解を確認する。 興味深いことに、sgdの効果を特徴づける指数は、決定境界付近のデータの密度に依存する。

Understanding when the noise in stochastic gradient descent (SGD) affects generalization of deep neural networks remains a challenge, complicated by the fact that networks can operate in distinct training regimes. Here we study how the magnitude of this noise $T$ affects performance as the size of the training set $P$ and the scale of initialization $\alpha$ are varied. For gradient descent, $\alpha$ is a key parameter that controls if the network is `lazy' ($\alpha\gg 1$) or instead learns features ($\alpha\ll 1$). For classification of MNIST and CIFAR10 images, our central results are: (i) obtaining phase diagrams for performance in the $(\alpha,T)$ plane. They show that SGD noise can be detrimental or instead useful depending on the training regime. Moreover, although increasing $T$ or decreasing $\alpha$ both allow the net to escape the lazy regime, these changes can have opposite effects on performance. (ii) Most importantly, we find that key dynamical quantities (including the total variations of weights during training) depend on both $T$ and $P$ as power laws, and the characteristic temperature $T_c$, where the noise of SGD starts affecting performance, is a power law of $P$. These observations indicate that a key effect of SGD noise occurs late in training, by affecting the stopping process whereby all data are fitted. We argue that due to SGD noise, nets must develop a stronger `signal', i.e. larger informative weights, to fit the data, leading to a longer training time. The same effect occurs at larger training set $P$. We confirm this view in the perceptron model, where signal and noise can be precisely measured. Interestingly, exponents characterizing the effect of SGD depend on the density of data near the decision boundary, as we explain.
翻訳日:2023-02-01 16:12:27 公開日:2023-01-31
# グラフニューラルネットワークの防御は堅牢か?

Are Defenses for Graph Neural Networks Robust? ( http://arxiv.org/abs/2301.13694v1 )

ライセンス: Link先を確認
Felix Mujkanovic, Simon Geisler, Stephan G\"unnemann, Aleksandar Bojchevski(参考訳) 本論文は,グラフニューラルネットワーク(GNN)の効果的な敵防衛設計に多大な進展があったことを示唆している。 しかし、標準の方法論には深刻な欠陥があり、事実上すべての防御は非適応攻撃に対して評価され、過度に楽観的な堅牢性推定に繋がる。 我々は、戦略のスペクトル全体、すなわちグラフ、アーキテクチャ、トレーニングを改善することを目的とした、最も人気のある7つの防御の徹底的な堅牢性分析を行う。 殆どの防御は、防御されていないベースラインと比べて、限界的な改善はない。 我々は、カスタムアダプティブアタックをゴールドスタンダードとして使用することを提唱し、そのようなアタックをうまく設計して学んだ教訓を概説する。 さらに、多種多様な摂動グラフのコレクションは、モデルの堅牢性について一目でわかる(ブラックボックス)単体テストを形成します。

A cursory reading of the literature suggests that we have made a lot of progress in designing effective adversarial defenses for Graph Neural Networks (GNNs). Yet, the standard methodology has a serious flaw - virtually all of the defenses are evaluated against non-adaptive attacks leading to overly optimistic robustness estimates. We perform a thorough robustness analysis of 7 of the most popular defenses spanning the entire spectrum of strategies, i.e., aimed at improving the graph, the architecture, or the training. The results are sobering - most defenses show no or only marginal improvement compared to an undefended baseline. We advocate using custom adaptive attacks as a gold standard and we outline the lessons we learned from successfully designing such attacks. Moreover, our diverse collection of perturbed graphs forms a (black-box) unit test offering a first glance at a model's robustness.
翻訳日:2023-02-01 16:11:53 公開日:2023-01-31
# 大域的アトラススライディングウィンドウを用いた半非対称畳み込み構造による時系列予測

Time Series Forecasting via Semi-Asymmetric Convolutional Architecture with Global Atrous Sliding Window ( http://arxiv.org/abs/2301.13691v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 本稿では,時系列予測の問題に対処するために提案手法を提案する。 いくつかの厳密に設計されたモデルは優れた予測性能を達成するが、より有用な情報を抽出し、正確な予測を行う方法はまだ未解決の課題である。 現代のモデルのほとんどは短い範囲の情報のみに焦点を当てており、長期的な情報特性を捉えなければならない時系列予測のような問題では致命的である。 その結果、本研究の主な関心事は、時系列に含まれる地域情報とグローバル情報の関係をさらに掘り下げ、より正確な予測を行うことである。 本稿では,その目的を十分に実現するために,性能上の優位性を実証した3つの主要な貢献を行う。 まず、元の時系列を差分列に変換し、提案モデルへの入力として機能する。 第2に、ファジィ時系列の概念を参考に、時間内の時間的データと関連するグローバル情報を関連付け、中央双方向のアトラスアルゴリズムを用いて、その基礎となる特徴を捉えることにより、キャプチャーデータの妥当性と整合性を確保する。 第3に、半非対称畳み込みと呼ばれる広く使用される非対称畳み込みのバリエーションは、垂直方向および水平方向の畳み込み範囲の調整可能な、隣接する要素と対応する大域的特徴との関係をより柔軟に抽出するために考案される。 本稿では,競合する現代モデルと比較して,ほとんどの時系列データセットに対して最先端のモデルを実現する。

The proposed method in this paper is designed to address the problem of time series forecasting. Although some exquisitely designed models achieve excellent prediction performances, how to extract more useful information and make accurate predictions is still an open issue. Most of modern models only focus on a short range of information, which are fatal for problems such as time series forecasting which needs to capture long-term information characteristics. As a result, the main concern of this work is to further mine relationship between local and global information contained in time series to produce more precise predictions. In this paper, to satisfactorily realize the purpose, we make three main contributions that are experimentally verified to have performance advantages. Firstly, original time series is transformed into difference sequence which serves as input to the proposed model. And secondly, we introduce the global atrous sliding window into the forecasting model which references the concept of fuzzy time series to associate relevant global information with temporal data within a time period and utilizes central-bidirectional atrous algorithm to capture underlying-related features to ensure validity and consistency of captured data. Thirdly, a variation of widely-used asymmetric convolution which is called semi-asymmetric convolution is devised to more flexibly extract relationships in adjacent elements and corresponding associated global features with adjustable ranges of convolution on vertical and horizontal directions. The proposed model in this paper achieves state-of-the-art on most of time series datasets provided compared with competitive modern models.
翻訳日:2023-02-01 16:11:37 公開日:2023-01-31
# Flanコレクション:効果的なインストラクションチューニングのためのデータと方法の設計

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning ( http://arxiv.org/abs/2301.13688v1 )

ライセンス: Link先を確認
Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts(参考訳) 公開利用可能な命令チューニング手法の設計決定について検討し,flan 2022 (chung et al., 2022) の開発を分解した。 タスクとメソッドのFlanコレクションに関する綿密なアブレーション研究を通じて、Flan-T5が事前作業よりも3-17%以上向上する設計決定の効果を、評価設定で区別する。 タスクバランスとエンリッチメントのテクニックは見過ごされが、効果的なチューニングチューニングには重要であり、特に、混合プロンプト設定(ゼロショット、少数ショット、チェーンオブ思想)によるトレーニングでは、すべての設定において、より強い(2%以上)パフォーマンスが得られることが分かっています。 さらなる実験では、Flan-T5は単一下流タスクにおいてT5よりも高速に収束するために微調整を少なくし、新しいタスクのより計算効率の良い開始チェックポイントとして命令調整されたモデルを動機付けている。 最後に、命令チューニングの研究を加速するために、Flan 2022のデータセット、テンプレート、メソッドのコレクションをhttps://github.com/google-research/FLAN/tree/main/flan/v2で公開しています。

We study the design decisions of publicly available instruction tuning methods, and break down the development of Flan 2022 (Chung et al., 2022). Through careful ablation studies on the Flan Collection of tasks and methods, we tease apart the effect of design decisions which enable Flan-T5 to outperform prior work by 3-17%+ across evaluation settings. We find task balancing and enrichment techniques are overlooked but critical to effective instruction tuning, and in particular, training with mixed prompt settings (zero-shot, few-shot, and chain-of-thought) actually yields stronger (2%+) performance in all settings. In further experiments, we show Flan-T5 requires less finetuning to converge higher and faster than T5 on single downstream tasks, motivating instruction-tuned models as more computationally-efficient starting checkpoints for new tasks. Finally, to accelerate research on instruction tuning, we make the Flan 2022 collection of datasets, templates, and methods publicly available at https://github.com/google-research/FLAN/tree/main/flan/v2.
翻訳日:2023-02-01 16:11:11 公開日:2023-01-31
# クロスオーバーを用いた進化的多目的最適化における指数速度向上の保証

A Proof that Using Crossover Can Guarantee Exponential Speed-Ups in Evolutionary Multi-Objective Optimisation ( http://arxiv.org/abs/2301.13687v1 )

ライセンス: Link先を確認
Duc-Cuong Dang and Andre Opris and Bahare Salehi and Dirk Sudholt(参考訳) 進化的アルゴリズムは、多目的最適化(パレート最適化とも呼ばれる)のための一般的なアルゴリズムである。 その人気にもかかわらず、多目的進化最適化(EMO)の理論基盤は、まだ初期段階にある。 クロスオーバー演算子の利点のような基本的な質問は、まだ完全には理解されていない。 本稿では,よく知られたEMOアルゴリズムGSEMOとNSGA-IIの理論解析を行い,クロスオーバーの利点を示す。 クロスオーバーを用いたこれらのEMOアルゴリズムが期待多項式時間でパレート集合を探索する問題のクラスを提案する。 対照的に、クロスオーバーのない他の多くのEMOアルゴリズムは、1つのパレート最適点を見つけるのに指数時間を必要とする。 これは、広く使われているNSGA-IIアルゴリズムのクロスオーバーによる指数的な性能ギャップの最初の例である。

Evolutionary algorithms are popular algorithms for multiobjective optimisation (also called Pareto optimisation) as they use a population to store trade-offs between different objectives. Despite their popularity, the theoretical foundation of multiobjective evolutionary optimisation (EMO) is still in its early development. Fundamental questions such as the benefits of the crossover operator are still not fully understood. We provide a theoretical analysis of well-known EMO algorithms GSEMO and NSGA-II to showcase the possible advantages of crossover. We propose a class of problems on which these EMO algorithms using crossover find the Pareto set in expected polynomial time. In sharp contrast, they and many other EMO algorithms without crossover require exponential time to even find a single Pareto-optimal point. This is the first example of an exponential performance gap through the use of crossover for the widely used NSGA-II algorithm.
翻訳日:2023-02-01 16:10:45 公開日:2023-01-31
# フレンドトレーニング:異なるが関連するタスクのモデルから学ぶ

Friend-training: Learning from Models of Different but Related Tasks ( http://arxiv.org/abs/2301.13683v1 )

ライセンス: Link先を確認
Mian Zhang, Lifeng Jin, Linfeng Song, Haitao Mi, Xiabing Zhou and Dong Yu(参考訳) 標準的な自己学習、コトレーニング、トリトレーニングなどの現在の自己学習方法は、入力機能、モデルアーキテクチャ、トレーニングプロセスの違いを利用して、単一のタスクでモデルパフォーマンスを改善することに集中することが多い。 しかし、自然言語処理における多くのタスクは言語に関して異なるが関連する側面を持ち、1つのタスクのために訓練されたモデルは、他の関連するタスクのための優れた教師になり得る。 そこで本研究では,異なるタスクを訓練したモデルが反復学習や擬似ラベル,再トレーニングプロセスに使用されるクロスタスクの自己学習フレームワークであるfriend-trainingを提案する。 対話理解タスクである対話的セマンティクスロールラベリングと対話リライトの2つを用いて,友人訓練フレームワークで訓練されたモデルが,強力なベースラインと比較して最高のパフォーマンスを達成することを示す。

Current self-training methods such as standard self-training, co-training, tri-training, and others often focus on improving model performance on a single task, utilizing differences in input features, model architectures, and training processes. However, many tasks in natural language processing are about different but related aspects of language, and models trained for one task can be great teachers for other related tasks. In this work, we propose friend-training, a cross-task self-training framework, where models trained to do different tasks are used in an iterative training, pseudo-labeling, and retraining process to help each other for better selection of pseudo-labels. With two dialogue understanding tasks, conversational semantic role labeling and dialogue rewriting, chosen for a case study, we show that the models trained with the friend-training framework achieve the best performance compared to strong baselines.
翻訳日:2023-02-01 16:10:31 公開日:2023-01-31
# 信頼できない検出器による絡み合いの観察

Entanglement witnessing with untrusted detectors ( http://arxiv.org/abs/2301.13680v1 )

ライセンス: Link先を確認
Giuseppe Viola, Nikolai Miklin, Mariami Gachechiladze, Marcin Paw{\l}owski(参考訳) 欠陥のある潜在的に悪意のある検出器の存在下での絡み合い検出の問題を考える。 この問題に対する一般的なアプローチは、測定された絡み合った状態の非局所性を特定するためにベルテストを実行することである。 しかし、このアプローチには2つの重大な欠点がある: クリティカルで、しばしば高い、検出効率、より低い耐雑音性である。 本稿では,本問題に対する代替手法を提案する。これは検出の抜け穴に耐性があり,絡み目の標準的なツールに基づいている。 本稿では,2つの主要な損失検出手法,すなわち廃棄・譲渡戦略について考察する。 2ビットベル状態の例を用いて,ベル試験法と比較して臨界検出効率を著しく低減できることを示す。

We consider the problem of entanglement detection in the presence of faulty, potentially malicious detectors. A common - and, as of yet, the only - approach to this problem is to perform a Bell test in order to identify nonlocality of the measured entangled state. However, there are two significant drawbacks in this approach: the requirement to exceed a critical, and often high, detection efficiency, and much lower noise tolerance. In this paper, we propose an alternative approach to this problem, which is resilient to the detection loophole and is based on the standard tool of entanglement witness. We discuss how the two main techniques to detection losses, namely the discard and assignment strategies, apply to entanglement witnessing. We demonstrate using the example of a two-qubit Bell state that the critical detection efficiency can be significantly reduced compared to the Bell test approach.
翻訳日:2023-02-01 16:10:14 公開日:2023-01-31
# マルチレゾリューションネットワークによる上半身ctの骨分割の改善

Improved distinct bone segmentation in upper-body CT through multi-resolution networks ( http://arxiv.org/abs/2301.13674v1 )

ライセンス: Link先を確認
Eva Schnider, Julia Wolleb, Antal Huck, Mireille Toranelli, Georg Rauter, Magdalena M\"uller-Gerbl, Philippe C. Cattin(参考訳) 目的:CTスキャンによる骨分割の自動化は,計画やナビゲーションのワークフローに広く利用されている。 u-netの変種は教師付きセマンティクスセグメンテーションの優れた結果をもたらすことが知られている。 しかし,上半身CTと異なる骨分割を行うには,大視野の視野と3D構造を計算的に分類する必要がある。 これにより、高解像度入力を使用する場合の空間的コンテキストの欠如による詳細や局所的誤差の少ない低解像度結果が得られる。 方法:様々な解像度で動作する複数の3d u-netを結合したエンドツーエンドの訓練可能なセグメンテーションネットワークを用いてこの問題を解決する。 提案手法は,HookNetとMRNを拡張し,より低解像度で空間情報をキャプチャし,より小さな高解像度入力で動作するターゲットネットワークに符号化情報をスキップする。 提案アーキテクチャを単一解像度ネットワークに対して評価し,情報結合とコンテキストネットワーク数に関するアブレーション研究を行った。 結果: 提案するベストネットワークは, 125個の分節骨クラスで0.86の中央値dscを達成し, 異所の類似骨間の混乱を軽減した。 これらの結果は,以前公表した3次元U-Netベースラインの結果と,他のグループによって報告された識別骨分割結果よりも優れていた。 結論: マルチレゾリューション3d u-netsは, 入力画素の立方体成長を回避しつつ, 3次元の計算容量を急速に上回る中間計算を回避しつつ, 上部ctスキャンから骨の分節化の現在の欠点に対処する。 これにより,上半身CTと骨分割の精度と効率が向上する。

Purpose: Automated distinct bone segmentation from CT scans is widely used in planning and navigation workflows. U-Net variants are known to provide excellent results in supervised semantic segmentation. However, in distinct bone segmentation from upper body CTs a large field of view and a computationally taxing 3D architecture are required. This leads to low-resolution results lacking detail or localisation errors due to missing spatial context when using high-resolution inputs. Methods: We propose to solve this problem by using end-to-end trainable segmentation networks that combine several 3D U-Nets working at different resolutions. Our approach, which extends and generalizes HookNet and MRN, captures spatial information at a lower resolution and skips the encoded information to the target network, which operates on smaller high-resolution inputs. We evaluated our proposed architecture against single resolution networks and performed an ablation study on information concatenation and the number of context networks. Results: Our proposed best network achieves a median DSC of 0.86 taken over all 125 segmented bone classes and reduces the confusion among similar-looking bones in different locations. These results outperform our previously published 3D U-Net baseline results on the task and distinct-bone segmentation results reported by other groups. Conclusion: The presented multi-resolution 3D U-Nets address current shortcomings in bone segmentation from upper-body CT scans by allowing for capturing a larger field of view while avoiding the cubic growth of the input pixels and intermediate computations that quickly outgrow the computational capacities in 3D. The approach thus improves the accuracy and efficiency of distinct bone segmentation from upper-body CT.
翻訳日:2023-02-01 16:10:03 公開日:2023-01-31
# Kappa vacua:熱場二重状態の一般化

Kappa vacua: A generalization of the thermofield double state ( http://arxiv.org/abs/2301.13672v1 )

ライセンス: Link先を確認
Arash Azizi(参考訳) 右と左のリンドラー Wedges の反対の符号ノルム Rindler モードの組み合わせによって発見された $\kappa$-mode について詳しく説明する。 特に、Minkowski-Rindler vacua関係と同様の$\kappa$-vacuaの関係を考慮し、熱場二重状態が一般化された非熱場二重状態にどのように拡張できるかを示す。 一般的な$\kappa \neq1$ 真空は、ミンコフスキー真空の有名な例とは対照的に、特定のリンドラーウェッジに還元するともはや熱的ではない。

We elaborate more on $\kappa$-mode, a mode that was found by a combination of the opposite sign norm Rindler modes in the right and left Rindler wedges. Especially, we show how the thermofield double state can be extended to a generalized non-thermofield double state by considering a relation between $\kappa$-vacua, similar to the Minkowski-Rindler vacua relation. A general $\kappa \neq1$ vacuum, in contrast to the well-known case of the Minkowski vacuum, is no longer thermal when reduced to a specific Rindler wedge.
翻訳日:2023-02-01 16:09:34 公開日:2023-01-31
# 合成時系列データ生成のためのベイズ生成逆数ネットワーク(GAN)と複合下水道流予測への応用

A Bayesian Generative Adversarial Network (GAN) to Generate Synthetic Time-Series Data, Application in Combined Sewer Flow Prediction ( http://arxiv.org/abs/2301.13733v1 )

ライセンス: Link先を確認
Amin E. Bakhshipour, Alireza Koochali, Ulrich Dittmer, Ali Haghighi, Sheraz Ahmad, Andreas Dengel(参考訳) スマートな水道インフラの運用と管理を改善するための機械学習とデータ分析技術の様々なブレークスルーにもかかわらず、いくつかの重要な制限は、この進歩を妨げる。 これらの欠点の中で、データプライバシやデータ収集の高コストによる無償データの欠如、利用可能なデータに十分な稀なイベントや極端なイベントが存在しないことが重要な役割を担っている。 ここでは、GAN(Generative Adversarial Networks)がこれらの課題を克服するのに役立つ。 機械学習において、生成モデルは、データ分散を学習して人工データを生成する方法のクラスである。 本研究では,限定された時系列データのバランスをとるために合成時系列を生成するganモデルを開発し,下水道流量予測のためのデータ駆動モデルの精度を向上させる。 私たちはドイツの小さな町の下水道システムをテストケースとして検討した。 データ駆動モデル開発には,ストレージタンクへの降水と流入が使用される。 本研究の目的は,降水データを用いた流れを予測し,モデル性能における合成データを用いたデータ拡張の影響を検討することである。 その結果, GANは実データ分布から合成時系列を生成することができ, より正確なピークフロー予測に役立てることができることがわかった。 しかし、データ拡張のないモデルは、乾燥した天気予報に役立つ。 したがって、両モデルの利点を組み合わせるためにアンサンブルモデルを提案する。

Despite various breakthroughs in machine learning and data analysis techniques for improving smart operation and management of urban water infrastructures, some key limitations obstruct this progress. Among these shortcomings, the absence of freely available data due to data privacy or high costs of data gathering and the nonexistence of adequate rare or extreme events in the available data plays a crucial role. Here, Generative Adversarial Networks (GANs) can help overcome these challenges. In machine learning, generative models are a class of methods capable of learning data distribution to generate artificial data. In this study, we developed a GAN model to generate synthetic time series to balance our limited recorded time series data and improve the accuracy of a data-driven model for combined sewer flow prediction. We considered the sewer system of a small town in Germany as the test case. Precipitation and inflow to the storage tanks are used for the Data-Driven model development. The aim is to predict the flow using precipitation data and examine the impact of data augmentation using synthetic data in model performance. Results show that GAN can successfully generate synthetic time series from real data distribution, which helps more accurate peak flow prediction. However, the model without data augmentation works better for dry weather prediction. Therefore, an ensemble model is suggested to combine the advantages of both models.
翻訳日:2023-02-01 16:03:40 公開日:2023-01-31
# 低次元埋め込みにおける局所密度の保存

Preserving local densities in low-dimensional embeddings ( http://arxiv.org/abs/2301.13732v1 )

ライセンス: Link先を確認
Jonas Fischer, Rebekka Burkholz, Jilles Vreeken(参考訳) 低次元埋め込みと可視化は、高次元データの分析に欠かせないツールである。 tSNEやUMAPのような最先端の手法は、高次元データに隠された局所構造を明らかにするのに優れており、生物学の標準的な分析パイプラインに日常的に適用されている。 しかし,これらの手法は密度の相対的差(図1)のような局所的な性質を再構築することができないこと,また,サンプルサイズの違いによる計算的アーティファクトからクラスタサイズに明らかな差が生じること(図2)を示した。 この問題を理論的に解析し、局所密度をほぼ保存するdtSNEを提案する。 5つの最先端手法と比較した総合ベンチマークと実世界データに関する広範な研究において、dtsneは同様のグローバル再構築を提供するが、局所距離と相対密度をより正確に表現できることを示した。

Low-dimensional embeddings and visualizations are an indispensable tool for analysis of high-dimensional data. State-of-the-art methods, such as tSNE and UMAP, excel in unveiling local structures hidden in high-dimensional data and are therefore routinely applied in standard analysis pipelines in biology. We show, however, that these methods fail to reconstruct local properties, such as relative differences in densities (Fig. 1) and that apparent differences in cluster size can arise from computational artifact caused by differing sample sizes (Fig. 2). Providing a theoretical analysis of this issue, we then suggest dtSNE, which approximately conserves local densities. In an extensive study on synthetic benchmark and real world data comparing against five state-of-the-art methods, we empirically show that dtSNE provides similar global reconstruction, but yields much more accurate depictions of local distances and relative densities.
翻訳日:2023-02-01 16:03:21 公開日:2023-01-31
# 近位分解器を用いた収束プラグアンドプレイのための緩和された近位勾配降下アルゴリズム

A relaxed proximal gradient descent algorithm for convergent plug-and-play with proximal denoiser ( http://arxiv.org/abs/2301.13731v1 )

ライセンス: Link先を確認
Samuel Hurault, Antonin Chambolle, Arthur Leclaire and Nicolas Papadakis(参考訳) 本稿では,新しいコンバーゼント・プラグ・アンド・プレイ(PnP)アルゴリズムを提案する。 PnP法は、データ忠実度項と正規化項の和の最小化として定式化された画像逆問題を解決するための効率的な反復アルゴリズムである。 PnP法は、PGD(Pximal Gradient Descent)のような近位アルゴリズムで事前訓練されたデノイザを接続することで正規化を行う。 PnPスキームの収束を保証するため、多くの研究がディープデノイザーの特定のパラメトリゼーションを研究する。 しかし、既存の結果は、デノイザー上の検証不可能な仮説または最適下仮説、あるいは逆問題のパラメータに制限条件を仮定する必要がある。 これらの制限は、使用中の近位アルゴリズムによるものであることを察知し、凸関数と弱凸関数の和を最小化するためのpgdアルゴリズムの緩和版について検討する。 PnP-$\alpha$PGDアルゴリズムは、緩和された近位分解器を接続すると、より広範囲の正規化パラメータに収束し、より正確な画像復元を可能にする。

This paper presents a new convergent Plug-and-Play (PnP) algorithm. PnP methods are efficient iterative algorithms for solving image inverse problems formulated as the minimization of the sum of a data-fidelity term and a regularization term. PnP methods perform regularization by plugging a pre-trained denoiser in a proximal algorithm, such as Proximal Gradient Descent (PGD). To ensure convergence of PnP schemes, many works study specific parametrizations of deep denoisers. However, existing results require either unverifiable or suboptimal hypotheses on the denoiser, or assume restrictive conditions on the parameters of the inverse problem. Observing that these limitations can be due to the proximal algorithm in use, we study a relaxed version of the PGD algorithm for minimizing the sum of a convex function and a weakly convex one. When plugged with a relaxed proximal denoiser, we show that the proposed PnP-$\alpha$PGD algorithm converges for a wider range of regularization parameters, thus allowing more accurate image restoration.
翻訳日:2023-02-01 16:03:04 公開日:2023-01-31
# 乱流の時空間潜在表現のための畳み込みオートエンコーダ

Convolutional autoencoder for the spatiotemporal latent representation of turbulence ( http://arxiv.org/abs/2301.13728v1 )

ライセンス: Link先を確認
Nguyen Anh Khoa Doan, Alberto Racca, Luca Magri(参考訳) 乱流はカオス力学と高次元状態空間によって特徴づけられ、この現象は予測が難しい。 しかし、乱流はしばしば渦や大規模モードのようなコヒーレントな時空間構造によって特徴づけられ、乱流の潜在的な記述を得るのに役立つ。 しかしながら、現在のアプローチは、フロー構造が関連づけられた等曲面を定義する量に何らかのしきい値を用いる必要性や、適切な直交分解に基づくものなど、伝統的なモーダルフロー分解アプローチの線形性によって制限されることが多い。 この問題は極端な現象を示す流れの中で悪化し、乱流状態の急激な変化は稀である。 本論文の目的は,過激な現象を示す乱流の効率的かつ高精度な低次潜在表現を得ることである。 具体的には, 3次元マルチスケール畳み込みオートエンコーダ(cae)を用いて, 潜在表現を得る。 これを三次元乱流に適用する。 マルチスケールCAEは効率が良く、データを圧縮するための適切な直交分解よりも10%以下の自由度が必要であり、極端な事象に関連する流れ状態を正確に再構築できることを示す。 提案するディープラーニングアーキテクチャは、データからの乱流の非線形減次モデリングの機会を開く。

Turbulence is characterised by chaotic dynamics and a high-dimensional state space, which make the phenomenon challenging to predict. However, turbulent flows are often characterised by coherent spatiotemporal structures, such as vortices or large-scale modes, which can help obtain a latent description of turbulent flows. However, current approaches are often limited by either the need to use some form of thresholding on quantities defining the isosurfaces to which the flow structures are associated or the linearity of traditional modal flow decomposition approaches, such as those based on proper orthogonal decomposition. This problem is exacerbated in flows that exhibit extreme events, which are rare and sudden changes in a turbulent state. The goal of this paper is to obtain an efficient and accurate reduced-order latent representation of a turbulent flow that exhibits extreme events. Specifically, we employ a three-dimensional multiscale convolutional autoencoder (CAE) to obtain such latent representation. We apply it to a three-dimensional turbulent flow. We show that the Multiscale CAE is efficient, requiring less than 10% degrees of freedom than proper orthogonal decomposition for compressing the data and is able to accurately reconstruct flow states related to extreme events. The proposed deep learning architecture opens opportunities for nonlinear reduced-order modeling of turbulent flows from data.
翻訳日:2023-02-01 16:02:45 公開日:2023-01-31
# 機械学習の受動的対称性

The passive symmetries of machine learning ( http://arxiv.org/abs/2301.13724v1 )

ライセンス: Link先を確認
Soledad Villar (JHU), David W. Hogg (NYU, MPIA, Flatiron), Weichi Yao (NYU), George A. Kevrekidis (JHU, LANL), Bernhard Sch\"olkopf (MPI-IS)(参考訳) 任意のデータ表現は任意の調査員の選択を伴う。 これらの選択はデータ生成過程の外部にあるため、それぞれの選択は1つの可能な表現を別の表現に取る変換の群に対応する正確な対称性をもたらす。 これらはパッシブ対称性であり、座標自由度、ゲージ対称性、単位共分散を含み、これらは全て物理学において重要な結果をもたらした。 私たちのゴールは、機械学習における受動的対称性の意味を理解することです: どの受動的対称性が役割を果たすか(例えば、グラフニューラルネットワークにおける置換対称性)? 機械学習の実践でやるべきことは何か? 我々は、パッシブ対称性を群同値として実装できる条件を確かめる。 また,因果モデリングとの関連についても議論し,学習問題の目的がサンプルから一般化することである場合には,受動的対称性の実装が特に有用であると主張する。 この論文は純粋に概念的だが、20世紀前半の現代物理学における遷移を機械学習が支援する上で、大きな影響を与える可能性があると考えている。

Any representation of data involves arbitrary investigator choices. Because those choices are external to the data-generating process, each choice leads to an exact symmetry, corresponding to the group of transformations that takes one possible representation to another. These are the passive symmetries; they include coordinate freedom, gauge symmetry and units covariance, all of which have led to important results in physics. Our goal is to understand the implications of passive symmetries for machine learning: Which passive symmetries play a role (e.g., permutation symmetry in graph neural networks)? What are dos and don'ts in machine learning practice? We assay conditions under which passive symmetries can be implemented as group equivariances. We also discuss links to causal modeling, and argue that the implementation of passive symmetries is particularly valuable when the goal of the learning problem is to generalize out of sample. While this paper is purely conceptual, we believe that it can have a significant impact on helping machine learning make the transition that took place for modern physics in the first half of the Twentieth century.
翻訳日:2023-02-01 16:02:25 公開日:2023-01-31
# DisDiff:拡散確率モデルの教師なし解離

DisDiff: Unsupervised Disentanglement of Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.13721v1 )

ライセンス: Link先を確認
Tao Yang, Yuwang Wang, Yan Lv, Nanning Zh(参考訳) 本稿では,これらの因子の観測と条件生成プロセスのモデル化の背景となる要因を理解することを目的として,DPMの顕著なモデリング能力を活用するために,拡散確率モデル(DPM)の非絡み合いという新たな課題を提案する。 この課題に対処するために、DisDiffという教師なしのアプローチをさらに考案する。 拡散確率モデルの枠組みにおいて, 初めて絡み合った表現学習を実現する。 事前訓練されたDPMが与えられたとき、DisDiffは画像データの背後にある固有の因子を自動的に発見し、各因子の表現に基づいてDPMの勾配場を下位段階の場に分解する。 本稿では,ディディフのためのディスタングルロス(Disentangling Loss for DisDiff)を提案する。 合成および実世界のデータセットに関する広範な実験は、DisDiffの有効性を示している。

In this paper, targeting to understand the underlying explainable factors behind observations and modeling the conditional generation process on these factors, we propose a new task, disentanglement of diffusion probabilistic models (DPMs), to take advantage of the remarkable modeling ability of DPMs. To tackle this task, we further devise an unsupervised approach named DisDiff. For the first time, we achieve disentangled representation learning in the framework of diffusion probabilistic models. Given a pre-trained DPM, DisDiff can automatically discover the inherent factors behind the image data and disentangle the gradient fields of DPM into sub-gradient fields, each conditioned on the representation of each discovered factor. We propose a novel Disentangling Loss for DisDiff to facilitate the disentanglement of the representation and sub-gradients. The extensive experiments on synthetic and real-world datasets demonstrate the effectiveness of DisDiff.
翻訳日:2023-02-01 16:02:09 公開日:2023-01-31
# 言語類似度を用いたゼロショット言語間伝達言語選択

Zero-shot cross-lingual transfer language selection using linguistic similarity ( http://arxiv.org/abs/2301.13720v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui(参考訳) 本研究では,異なる自然言語処理タスク,特に感情分析,エンティティ認識と依存性解析のための言語選択について検討する。 最適な移動言語を選択するために,言語間の距離を計測し,直観に頼るのではなく,この情報に基づく移動言語を選択するために,異なる言語類似度指標を用いることを提案する。 提案するタスクの言語的類似性は言語間伝達性能と相関することを示す。 また、英語の代わりに移動語として最適な言語を選択することに統計的に有意な違いがあることも示している。 これにより、データ不足の言語アプリケーションのパフォーマンスを改善するために、高リソース言語からの知識をより活用するために使用できる、より適切な転送言語を選択することができます。 研究のために、私たちは3つの言語ファミリーから8つの異なる言語からのデータセットを使用しました。

We study the selection of transfer languages for different Natural Language Processing tasks, specifically sentiment analysis, named entity recognition and dependency parsing. In order to select an optimal transfer language, we propose to utilize different linguistic similarity metrics to measure the distance between languages and make the choice of transfer language based on this information instead of relying on intuition. We demonstrate that linguistic similarity correlates with cross-lingual transfer performance for all of the proposed tasks. We also show that there is a statistically significant difference in choosing the optimal language as the transfer source instead of English. This allows us to select a more suitable transfer language which can be used to better leverage knowledge from high-resource languages in order to improve the performance of language applications lacking data. For the study, we used datasets from eight different languages from three language families.
翻訳日:2023-02-01 16:01:53 公開日:2023-01-31
# 電磁力学のための物理拘束型3次元畳み込みニューラルネットワーク

Physics-constrained 3D Convolutional Neural Networks for Electrodynamics ( http://arxiv.org/abs/2301.13715v1 )

ライセンス: Link先を確認
Alexander Scheinker and Reeju Pokharel(参考訳) 強相対論的荷電粒子ビームの電磁場に対するマクスウェル方程式を解くための物理拘束型ニューラルネットワーク(PCNN)を提案する。 時間変化電流と電荷密度J(r,t)とp(r,t)をベクトルおよびスカラーポテンシャルA(r,t)とV(r,t)にマッピングする3次元畳み込みPCNNを作成し、そこからマクスウェルの方程式に従って電磁場を生成する: B=curl(A), E=-div(V)-dA/dt。 我々のPCNNは div(B)=0 などの厳しい制約を満たす。 ソフト制約は、a と v をロレンツゲージを満たす方向に押し上げる。

We present a physics-constrained neural network (PCNN) approach to solving Maxwell's equations for the electromagnetic fields of intense relativistic charged particle beams. We create a 3D convolutional PCNN to map time-varying current and charge densities J(r,t) and p(r,t) to vector and scalar potentials A(r,t) and V(r,t) from which we generate electromagnetic fields according to Maxwell's equations: B=curl(A), E=-div(V)-dA/dt. Our PCNNs satisfy hard constraints, such as div(B)=0, by construction. Soft constraints push A and V towards satisfying the Lorenz gauge.
翻訳日:2023-02-01 16:01:40 公開日:2023-01-31
# ボトルネックを診断した再帰的ニューラルネットワーク(Non-)の構成性

Recursive Neural Networks with Bottlenecks Diagnose (Non-)Compositionality ( http://arxiv.org/abs/2301.13714v1 )

ライセンス: Link先を確認
Verna Dankers, Ivan Titov(参考訳) NLPにおける最近の研究は、人工言語を一般化するモデルの(非)可能性に焦点を当てている。 しかし、自然言語タスクを考える場合、関連するデータは厳密にも局所的にも構成的でもない。 データの構成性の定量化は難しい課題であり、主に短い発話のために研究されている。 ノード間の情報の転送を制限するボトルネックを持つ再帰的ニューラルモデル(Tree-LSTM)を使用する。 モデルにおけるデータの表現とボトルネックの有無を比較することで、構成性メトリクスを生成することができる。 本手法は合成データを用いた算術式の評価と自然言語データを用いた感情分類に適用する。 ボトルネックによる圧縮が非構成例に不均等に影響を与え、次いでボトルネック構成性指標(BCM)を用いて非構成サンプルと組成を区別し、データセット上で構成性ランキングを得ることを示した。

A recent line of work in NLP focuses on the (dis)ability of models to generalise compositionally for artificial languages. However, when considering natural language tasks, the data involved is not strictly, or locally, compositional. Quantifying the compositionality of data is a challenging task, which has been investigated primarily for short utterances. We use recursive neural models (Tree-LSTMs) with bottlenecks that limit the transfer of information between nodes. We illustrate that comparing data's representations in models with and without the bottleneck can be used to produce a compositionality metric. The procedure is applied to the evaluation of arithmetic expressions using synthetic data, and sentiment classification using natural language data. We demonstrate that compression through a bottleneck impacts non-compositional examples disproportionately and then use the bottleneck compositionality metric (BCM) to distinguish compositional from non-compositional samples, yielding a compositionality ranking over a dataset.
翻訳日:2023-02-01 16:01:24 公開日:2023-01-31
# 広い低ランクフィードフォワードニューラルネットワークの初期化について

On the Initialisation of Wide Low-Rank Feedforward Neural Networks ( http://arxiv.org/abs/2301.13710v1 )

ライセンス: Link先を確認
Thiziri Nait Saada, Jared Tanner(参考訳) ランダム初期化低ランクフィードフォワードネットワークのエッジ・オブ・カオスダイナミクスを解析した。 最適重みとバイアス分散の公式は、フルランク設定からローランク設定に拡張され、乗法スケーリングから従うことが示される。 入力出力ヤコビアンの分散である原理2次効果が導出され、ランクと幅比が減少するにつれて増加することが示される。 これらの結果から,学習可能なパラメータの数を減らしたフィードフォワードネットワークを,同じ環境次元でランダムに初期化する方法が示され,ネットワークの計算コストとメモリ制約の低減が可能となった。

The edge-of-chaos dynamics of wide randomly initialized low-rank feedforward networks are analyzed. Formulae for the optimal weight and bias variances are extended from the full-rank to low-rank setting and are shown to follow from multiplicative scaling. The principle second order effect, the variance of the input-output Jacobian, is derived and shown to increase as the rank to width ratio decreases. These results inform practitioners how to randomly initialize feedforward networks with a reduced number of learnable parameters while in the same ambient dimension, allowing reductions in the computational cost and memory constraints of the associated network.
翻訳日:2023-02-01 16:00:59 公開日:2023-01-31
# デュアルバリューネットワークによる再合成計画

Retrosynthetic Planning with Dual Value Networks ( http://arxiv.org/abs/2301.13755v1 )

ライセンス: Link先を確認
Guoqing Liu, Di Xue, Shufang Xie, Yingce Xia, Austin Tripp, Krzysztof Maziarz, Marwin Segler, Tao Qin, Zongzhang Zhang, Tie-Yan Liu(参考訳) 市販の開始物質から標的分子を合成する経路を見つけることを目的とした再合成は、薬物発見と材料設計において重要な課題である。 近年,MLに基づく単段階反応予測器と多段階計画器の組み合わせにより,有望な結果が得られた。 しかしながら、シングルステップ予測器は、完全なルートを考慮せずに、主にオフラインでトレーニングされ、シングルステップ精度を最適化する。 そこで我々は,木形MDPを用いて一段精度を維持しながら完全な経路を最適化することにより,強化学習(RL)を利用して一段予測器を改善する。 望ましいルートは合成可能かつ低コストでなければならない。 本研究では、2つの価値ネットワークがそれぞれ分子の合成可能性とコストを予測するオンライン学習アルゴリズムであるPlanning with Dual Value Networks (PDVN)を提案する。 単段精度を維持するため,単段予測器のための2分岐ネットワーク構造を設計する。 広く使われているUSPTOデータセットでは、PDVNアルゴリズムは既存のマルチステッププランナの検索成功率を改善する(Retro*では85.79%から98.95%に増加し、RetroGraphでは99.47%の分子を解きながらモデルの呼び出し回数を半分に減らす)。 さらに、PDVNは短い合成経路(例えばRetro*では平均経路長が5.76から4.83、RetroGraphでは5.63から4.78に減少する)を見つける。

Retrosynthesis, which aims to find a route to synthesize a target molecule from commercially available starting materials, is a critical task in drug discovery and materials design. Recently, the combination of ML-based single-step reaction predictors with multi-step planners has led to promising results. However, the single-step predictors are mostly trained offline to optimize the single-step accuracy, without considering complete routes. Here, we leverage reinforcement learning (RL) to improve the single-step predictor, by using a tree-shaped MDP to optimize complete routes while retaining single-step accuracy. Desirable routes should be both synthesizable and of low cost. We propose an online training algorithm, called Planning with Dual Value Networks (PDVN), in which two value networks predict the synthesizability and cost of molecules, respectively. To maintain the single-step accuracy, we design a two-branch network structure for the single-step predictor. On the widely-used USPTO dataset, our PDVN algorithm improves the search success rate of existing multi-step planners (e.g., increasing the success rate from 85.79% to 98.95% for Retro*, and reducing the number of model calls by half while solving 99.47% molecules for RetroGraph). Furthermore, PDVN finds shorter synthesis routes (e.g., reducing the average route length from 5.76 to 4.83 for Retro*, and from 5.63 to 4.78 for RetroGraph).
翻訳日:2023-02-01 15:54:06 公開日:2023-01-31
# ニューラルテキスト生成のための模倣損失を伴う動的スケジュールサンプリング

Dynamic Scheduled Sampling with Imitation Loss for Neural Text Generation ( http://arxiv.org/abs/2301.13753v1 )

ライセンス: Link先を確認
Xiang Lin, Prathyusha Jwalapuram and Shafiq Joty(参考訳) 最先端のニューラルテキスト生成モデルは、通常、前のターゲットトークンに条件付けられた接地トラスシーケンスにおける各トークンの可能性を最大にするために訓練される。 しかし、推論の間、モデルはそれ自体が生成したトークンに条件付けされた予測を行う必要がある。 この列車試験の相違は露光バイアスと呼ばれる。 スケジュールサンプリング(scheduled sampling)は、トレーニング中にモデルを徐々に自身の予測に公開し、バイアスを軽減するカリキュラム学習戦略である。 提案手法の大部分は,トレーニング手順に基づいたスケジューラの設計である。 そこで本研究では,教師が強制するデコーダの挙動と区別できないデコーダの挙動を具体化する模倣損失を導入することで,カリキュラム学習を向上しつつ,トレーニング時間精度のみに基づいてスケジュールを維持できる模倣損失を用いた動的スケジュールサンプリング(dysi)を導入する。 DySIは最小限のチューニングでトレーニング設定に普遍的に適用できる。 広範な実験と分析により、dysiは標準機械翻訳ベンチマークで注目すべき改善を達成しただけでなく、他のテキスト生成モデルのロバスト性も大幅に向上した。

State-of-the-art neural text generation models are typically trained to maximize the likelihood of each token in the ground-truth sequence conditioned on the previous target tokens. However, during inference, the model needs to make a prediction conditioned on the tokens generated by itself. This train-test discrepancy is referred to as exposure bias. Scheduled sampling is a curriculum learning strategy that gradually exposes the model to its own predictions during training to mitigate this bias. Most of the proposed approaches design a scheduler based on training steps, which generally requires careful tuning depending on the training setup. In this work, we introduce Dynamic Scheduled Sampling with Imitation Loss (DySI), which maintains the schedule based solely on the training time accuracy, while enhancing the curriculum learning by introducing an imitation loss, which attempts to make the behavior of the decoder indistinguishable from the behavior of a teacher-forced decoder. DySI is universally applicable across training setups with minimal tuning. Extensive experiments and analysis show that DySI not only achieves notable improvements on standard machine translation benchmarks, but also significantly improves the robustness of other text generation models.
翻訳日:2023-02-01 15:53:40 公開日:2023-01-31
# 高校における量子力学 : 波動粒子双対性に関するオンライン研究室

Quantum mechanics at high school: an online laboratory on wave-particle duality ( http://arxiv.org/abs/2301.13752v1 )

ライセンス: Link先を確認
Matteo Tuveri, Daniela Fadda, Carlo Maria Carbonaro(参考訳) 量子力学の研究への関心は常に社会や学校で高まっている。 特に後者の場合、研究者は量子物理学の知識の社会的ニーズを満たすための適切な行動を実行することになる。 高校生(17~19歳)を対象に,波動粒子双対性に関するオンライン実験を行った。 この活動は2021年12月から2022年5月までカリャリ大学の物理学部で行われており、サルデーニャの異なる高校の100人以上の生徒が関与している。 我々は,その活動の設計と実施した実験について述べる。 満足度アンケートに関する質的な結果を示し,議論する。 動機づけに関する簡単な議論が行われます。

The interest in studying quantum mechanics is always increasing in our society and schools. Especially in the latter case, this leads researchers to implement suitable actions to meet social needs of knowledge of quantum physics. We present an online laboratory on wave-particle duality for high school students (17-19 years old). The activity has been carried out in the period December 2021 - May 2022 at the Physics Department of the University of Cagliari and more than 100 students from different high schools in Sardinia have been involved. We will show the design of the activity and the experiments performed. We will show and discuss qualitatively results about a satisfaction questionnaire. A brief discussion about motivational issues will be done.
翻訳日:2023-02-01 15:53:18 公開日:2023-01-31
# 対数ユークリッド幾何学における多値共分散推定

Multi-fidelity covariance estimation in the log-Euclidean geometry ( http://arxiv.org/abs/2301.13749v1 )

ライセンス: Link先を確認
Aimee Maurais and Terrence Alsup and Benjamin Peherstorfer and Youssef Marzouk(参考訳) 対称正定値多様体の対数ユークリッド幾何学を利用する共分散行列の多値推定器を導入する。 estimatorは、以前のアプローチとは対照的に、異なるフィダリティと分散低減のためのコストの異なるデータソースの階層からサンプルを融合する。 新しい推定器は,シミュレーションやデータ収集が高価であるアプリケーションでは共分散推定が可能であり,その目的のために,固定予算を与えられた推定器の平均二乗誤差を最小限に抑える最適なサンプル割り当て方式を開発する。 保証された定性は、メトリック学習、データ同化、その他の下流タスクに不可欠である。 物理アプリケーション(熱伝導, 流体力学)のデータによるアプローチの評価は, ベンチマークと比較すると, 1桁以上の精度の計量学習と高速化を示す。

We introduce a multi-fidelity estimator of covariance matrices that employs the log-Euclidean geometry of the symmetric positive-definite manifold. The estimator fuses samples from a hierarchy of data sources of differing fidelities and costs for variance reduction while guaranteeing definiteness, in contrast with previous approaches. The new estimator makes covariance estimation tractable in applications where simulation or data collection is expensive; to that end, we develop an optimal sample allocation scheme that minimizes the mean-squared error of the estimator given a fixed budget. Guaranteed definiteness is crucial to metric learning, data assimilation, and other downstream tasks. Evaluations of our approach using data from physical applications (heat conduction, fluid dynamics) demonstrate more accurate metric learning and speedups of more than one order of magnitude compared to benchmarks.
翻訳日:2023-02-01 15:53:08 公開日:2023-01-31
# archetypal analysis++: 初期化戦略再考

Archetypal Analysis++: Rethinking the Initialization Strategy ( http://arxiv.org/abs/2301.13748v1 )

ライセンス: Link先を確認
Sebastian Mair and Jens Sj\"olund(参考訳) アーチティパル解析は凸性制約を持つ行列分解法である。 局所的な最小化のため、良い初期化が不可欠である。 頻繁に使われる初期化法は、最適でないスタートポイントを生じるか、あるいはローカルなミニマで立ち往生する傾向がある。 本稿では,目標に対する影響に基づいてポイントを逐次的にサンプリングする,確率的初期化戦略であるarchetypal analysis++ (aa++)を提案する。 実際、$k$-means++はすでに提案された初期化メソッドを近似している。 さらに,AA++に$k$-means++の効率的なモンテカルロ近似を適用することを提案する。 サイズや寸法の異なる13の現実世界データセットを広範囲に評価し,2つの前処理戦略を考察した結果,aa++は,最も頻繁に使用されるベースラインを含む,ほぼ一貫してベースラインを上回ることがわかった。

Archetypal analysis is a matrix factorization method with convexity constraints. Due to local minima, a good initialization is essential. Frequently used initialization methods yield either sub-optimal starting points or are prone to get stuck in poor local minima. In this paper, we propose archetypal analysis++ (AA++), a probabilistic initialization strategy for archetypal analysis that sequentially samples points based on their influence on the objective, similar to $k$-means++. In fact, we argue that $k$-means++ already approximates the proposed initialization method. Furthermore, we suggest to adapt an efficient Monte Carlo approximation of $k$-means++ to AA++. In an extensive empirical evaluation of 13 real-world data sets of varying sizes and dimensionalities and considering two pre-processing strategies, we show that AA++ almost consistently outperforms all baselines, including the most frequently used ones.
翻訳日:2023-02-01 15:52:56 公開日:2023-01-31
# 確率拡散誘導相互情報によるゼロショット学習クロスプラットフォームデータ変換

Zero-shot-Learning Cross-Modality Data Translation Through Mutual Information Guided Stochastic Diffusion ( http://arxiv.org/abs/2301.13743v1 )

ライセンス: Link先を確認
Zihao Wang, Yingyu Yang, Maxime Sermesant, Herv\'e Delingette, Ona Wu(参考訳) クロスモダリティデータ変換は、画像コンピューティングに大きな関心を集めている。 深層生成モデル (\textit{e.g.}, GANs) はこれらの問題に対処する際の性能改善を示す。 それでも、画像翻訳の根本的な課題として、ゼロショット学習における忠実度を伴うクロスモーダルデータ翻訳の問題は未解決のままである。 本稿では,MIDiffusion(Multual Information Guided Diffusion cross-modality data translation Model)と呼ばれる,教師なしゼロショット学習手法を提案する。 MIDiffusionはスコアマッチングに基づく生成モデルを利用して、対象領域における事前知識を学習する。 我々は,反復的デノイジンサンプリングを条件付けるための局所的半層(lmi$)を提案する。 LMI$は、拡散誘導のための統計領域における同一のモダリティ特徴をキャプチャするので、ソースドメインが変更されたとき、ソースドメインとターゲットドメインの直接マッピングに依存しないため、リトレーニングは不要である。 この利点は、適切な量のソースドメインデータセットが常に教師付きトレーニングに利用できるとは限らないため、実際にクロスモダリティデータ変換手法を適用する上で非常に重要である。 我々は,midiffusionの高度な性能を,敵意に基づく他のスコアマッチングモデルを含む有意な生成モデルと比較し,実証的に示した。

Cross-modality data translation has attracted great interest in image computing. Deep generative models (\textit{e.g.}, GANs) show performance improvement in tackling those problems. Nevertheless, as a fundamental challenge in image translation, the problem of Zero-shot-Learning Cross-Modality Data Translation with fidelity remains unanswered. This paper proposes a new unsupervised zero-shot-learning method named Mutual Information guided Diffusion cross-modality data translation Model (MIDiffusion), which learns to translate the unseen source data to the target domain. The MIDiffusion leverages a score-matching-based generative model, which learns the prior knowledge in the target domain. We propose a differentiable local-wise-MI-Layer ($LMI$) for conditioning the iterative denoising sampling. The $LMI$ captures the identical cross-modality features in the statistical domain for the diffusion guidance; thus, our method does not require retraining when the source domain is changed, as it does not rely on any direct mapping between the source and target domains. This advantage is critical for applying cross-modality data translation methods in practice, as a reasonable amount of source domain dataset is not always available for supervised training. We empirically show the advanced performance of MIDiffusion in comparison with an influential group of generative models, including adversarial-based and other score-matching-based models.
翻訳日:2023-02-01 15:52:40 公開日:2023-01-31
# upop:視覚言語トランスフォーマー圧縮のための統一的でプログレッシブなプルーニング

UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers ( http://arxiv.org/abs/2301.13741v1 )

ライセンス: Link先を確認
Dachuan Shi, Chaofan Tao, Ying Jin, Zhendong Yang, Chun Yuan, Jiaqi Wang(参考訳) 現実世界のデータには膨大なマルチモーダル情報が含まれており、視覚と言語は2つの代表的なモダリティである。 さらに、より重いモデル、例えばトランスフォーマーは、圧縮をモデル化する研究者の注目を集めている。 しかし、マルチモーダルモデル、特にバイソン言語変換器の圧縮方法はまだ未定である。 本稿では、ユニバーサルビソン言語トランスフォーマー圧縮フレームワークとして、 \textbf{U}nified および \textbf{P}r\textbf{o}gressive \textbf{P}runing (UPop) を提案する。 1) 圧縮可能なモダリティ及び構造間のプルーニング比の自動割り当てを可能にする原モデルから連続最適化空間内のマルチモーダルサブネットを統一的に探索すること。 2) より高い圧縮率を達成するために探索と再訓練の間の収束を維持するサブネットの段階的な探索と再訓練。 Visual Reasoning, Image Caption, Visual Question Answer, Image-Text Retrieval, Text- Image Retrieval, Image Classificationなど、複数の生成的および識別的視覚言語タスクの実験は、提案したUPopフレームワークの有効性と汎用性を示している。

Real-world data contains a vast amount of multimodal information, among which vision and language are the two most representative modalities. Moreover, increasingly heavier models, e.g., Transformers, have attracted the attention of researchers to model compression. However, how to compress multimodal models, especially vison-language Transformers, is still under-explored. This paper proposes the \textbf{U}nified and \textbf{P}r\textbf{o}gressive \textbf{P}runing (UPop) as a universal vison-language Transformer compression framework, which incorporates 1) unifiedly searching multimodal subnets in a continuous optimization space from the original model, which enables automatic assignment of pruning ratios among compressible modalities and structures; 2) progressively searching and retraining the subnet, which maintains convergence between the search and retrain to attain higher compression ratios. Experiments on multiple generative and discriminative vision-language tasks, including Visual Reasoning, Image Caption, Visual Question Answer, Image-Text Retrieval, Text-Image Retrieval, and Image Classification, demonstrate the effectiveness and versatility of the proposed UPop framework.
翻訳日:2023-02-01 15:52:20 公開日:2023-01-31
# ユニバーサルコンストラクションとしてのCSSコード手術

CSS code surgery as a universal construction ( http://arxiv.org/abs/2301.13738v1 )

ライセンス: Link先を確認
Alexander Cowtan and Simon Burton(参考訳) チェーンコンプレックス間のマップを用いて,calderbank-shor-steane (css) コード間のコードマップを定義し,チェーンコンプレックスのカテゴリにおける特定のコリミットを用いたコード操作を記述する。 手術の動作を記述するだけでなく、新しいコードの一般的なレシピも提供する。 アプリケーションとして、任意のcssコード間で共有された$\overline{x}$ または $\overline{z}$演算子を使って `merge' と `split' をフォールトトレラントな方法で記述する。 このようなLDPC符号の合併と分割は、LDPC自体のコードを生成することを証明している。

We define code maps between Calderbank-Shor-Steane (CSS) codes using maps between chain complexes, and describe code surgery between such codes using a specific colimit in the category of chain complexes. As well as describing a surgery operation, this gives a general recipe for new codes. As an application we describe how to `merge' and `split' along a shared $\overline{X}$ or $\overline{Z}$ operator between arbitrary CSS codes in a fault-tolerant manner, so long as the participating qubits satisfy a technical condition related to gauge fixing. We prove that such merges and splits on LDPC codes yield codes which are themselves LDPC.
翻訳日:2023-02-01 15:51:57 公開日:2023-01-31
# 確率流の自己持続速度マッチング

Self-Consistent Velocity Matching of Probability Flows ( http://arxiv.org/abs/2301.13737v1 )

ライセンス: Link先を確認
Lingxiao Li, Samuel Hurault, Justin Solomon(参考訳) 本稿では,時間依存型フォッカー・プランク方程式やワッサーシュタイン勾配流を含む多種多様な質量保存偏微分方程式(PDE)を解くための離散化フリースケーラブルフレームワークを提案する。 主な観察は、pde溶液の時変速度場は自己整合でなければならず、同じ速度場を特徴とする流れを含む固定点方程式を満たす必要があることである。 時間依存ニューラルネットワークとしてフローをパラメータ化することにより、自己整合速度マッチングと呼ばれるエンドツーエンドの反復最適化フレームワークを提案し、このクラスのPDEを解決する。 従来の手法と比較して,本手法は時間的・空間的な離散化に悩まされず,多種多様なPDEをカバーし,高次元までスケールする。 実験により,より制約のあるPDEのファミリーを解くために設計された最近の大規模JKO法と比較して,解析解を精度良く回収し,訓練時間の少ない高次元で同等あるいは優れた性能を実現する。

We present a discretization-free scalable framework for solving a large class of mass-conserving partial differential equations (PDEs), including the time-dependent Fokker-Planck equation and the Wasserstein gradient flow. The main observation is that the time-varying velocity field of the PDE solution needs to be self-consistent: it must satisfy a fixed-point equation involving the flow characterized by the same velocity field. By parameterizing the flow as a time-dependent neural network, we propose an end-to-end iterative optimization framework called self-consistent velocity matching to solve this class of PDEs. Compared to existing approaches, our method does not suffer from temporal or spatial discretization, covers a wide range of PDEs, and scales to high dimensions. Experimentally, our method recovers analytical solutions accurately when they are available and achieves comparable or better performance in high dimensions with less training time compared to recent large-scale JKO-based methods that are designed for solving a more restrictive family of PDEs.
翻訳日:2023-02-01 15:51:42 公開日:2023-01-31
# オフラインデータによるモンテカルロ評価の改善

Improving Monte Carlo Evaluation with Offline Data ( http://arxiv.org/abs/2301.13734v1 )

ライセンス: Link先を確認
Shuze Liu, Shangtong Zhang(参考訳) モンテカルロ法(MC法、Monte Carlo method)は、政策の性能を推定する最も広く用いられる方法である。 興味のあるポリシーが与えられると、mcメソッドは、このポリシーを繰り返し実行してサンプルを収集し、結果の平均を取ることで、見積もりを与える。 この過程で収集されたサンプルはオンラインサンプルと呼ばれる。 正確な推定を得るために、MCメソッドは大量のオンラインサンプルを消費する。 オンラインサンプルが高価である場合、例えばオンラインレコメンデーションや在庫管理などでは、オンラインサンプルの数を減らすとともに、同じ推定精度を達成したい。 この目的のために、我々は行動ポリシーと呼ばれる異なるポリシーを実行することによって、関心のあるポリシーを評価するオフ・ポリシーmc手法を用いる。 我々は、オフポリチックMC推定器の分散が通常のMC推定器よりも確実に小さいように調整された行動ポリシーを設計する。 重要なのは、このカスタマイズされた行動ポリシーは、既存のオフラインデータから効率的に学習できることだ。 これはオンラインのサンプルよりずっと安価だ。 ばらつきが小さくなると、通常のMC法と比較して、政策の評価にオンラインサンプルが少なくなる。 さらに、我々の政界外のMC推定器は常に偏りがない。

Monte Carlo (MC) methods are the most widely used methods to estimate the performance of a policy. Given an interested policy, MC methods give estimates by repeatedly running this policy to collect samples and taking the average of the outcomes. Samples collected during this process are called online samples. To get an accurate estimate, MC methods consume massive online samples. When online samples are expensive, e.g., online recommendations and inventory management, we want to reduce the number of online samples while achieving the same estimate accuracy. To this end, we use off-policy MC methods that evaluate the interested policy by running a different policy called behavior policy. We design a tailored behavior policy such that the variance of the off-policy MC estimator is provably smaller than the ordinary MC estimator. Importantly, this tailored behavior policy can be efficiently learned from existing offline data, i,e., previously logged data, which are much cheaper than online samples. With reduced variance, our off-policy MC method requires fewer online samples to evaluate the performance of a policy compared with the ordinary MC method. Moreover, our off-policy MC estimator is always unbiased.
翻訳日:2023-02-01 15:51:25 公開日:2023-01-31
# Bandit~Feedbackを用いた多周期マルチクラスパッケージ問題に対する改良アルゴリズム

Improved Algorithms for Multi-period Multi-class Packing Problems with~Bandit~Feedback ( http://arxiv.org/abs/2301.13791v1 )

ライセンス: Link先を確認
Wonyoung Kim, Garud Iyengar, Assaf Zeevi(参考訳) 我々は, 消費の合計ベクトルが与えられた予算ベクトル以下であり, 総値が可能な限り大きいようなアイテムをパックすることを目的として, 線形文脈的マルチ周期パッキング問題 (lmmp) を考える。 本稿では,各アクションに関連付けられた報酬と消費ベクトルがコンテキストのクラス依存線形関数であるような設定を考察し,意思決定者は帯域フィードバックを受け取る。 LMMPには、特殊なケースとして、knapsackとオンライン収益管理を備えた線形コンテキストバンドレットが含まれている。 我々は,より高速な収束速度を保証し,その結果,そのような問題に対する後悔の少ない新しいより効率的な推定器を確立する。 推定パラメータの閉形式関数であるバンドポリシーを提案する。 文脈が非退化の場合、提案されたポリシーの後悔は、少なくとも予算が$\sqrt{T}$として増加するとき、文脈次元、クラス数、および時間地平線~$T$のサブ線形である。 また、Agrawal & Devanur (2016) で提起されたオープンな問題を解決し、結果をマルチクラス設定に拡張する。 数値実験により,我々の方針の性能が文献の他のベンチマークよりも優れていることが明らかとなった。

We consider the linear contextual multi-class multi-period packing problem~(LMMP) where the goal is to pack items such that the total vector of consumption is below a given budget vector and the total value is as large as possible. We consider the setting where the reward and the consumption vector associated with each action is a class-dependent linear function of the context, and the decision-maker receives bandit feedback. LMMP includes linear contextual bandits with knapsacks and online revenue management as special cases. We establish a new more efficient estimator which guarantees a faster convergence rate, and consequently, a lower regret in such problems. We propose a bandit policy that is a closed-form function of said estimated parameters. When the contexts are non-degenerate, the regret of the proposed policy is sublinear in the context dimension, the number of classes, and the time horizon~$T$ when the budget grows at least as $\sqrt{T}$. We also resolve an open problem posed in Agrawal & Devanur (2016), and extend the result to a multi-class setting. Our numerical experiments clearly demonstrate that the performance of our policy is superior to other benchmarks in the literature.
翻訳日:2023-02-01 15:45:15 公開日:2023-01-31
# 小児結核の胸部x線画像における深層学習に基づく肺分画と自動局所テンプレート

Deep learning-based lung segmentation and automatic regional template in chest X-ray images for pediatric tuberculosis ( http://arxiv.org/abs/2301.13786v1 )

ライセンス: Link先を確認
Daniel Capell\'an-Mart\'in, Juan J. G\'omez-Valverde, Ramon Sanchez-Jacob, David Bermejo-Pel\'aez, Lara Garc\'ia-Delgado, Elisa L\'opez-Varela, Maria J. Ledesma-Carbayo(参考訳) 結核(TB)はいまだに死因であり、世界の子供の健康にとって重大な脅威であると考えられている。 TB感染症も病気も抗生物質で治療できる。 しかし、tbで死んだ子供のほとんどは診断や治療を受けていない。 臨床では、経験豊富な医師が胸部X線検査(CXR)によりTBを評価する。 小児CXRは、成人CXRと比較して、小児のTB診断を困難にしている。 人工知能が支援するコンピュータ支援診断システムは、経験豊富な放射線科医のtbリーディングに匹敵する性能を示しており、大量tbスクリーニングを緩和し、臨床負担を軽減することができる。 提案するテンプレートに従えば,小児のcxr画像から肺・縦隔領域を自動的に局所化し抽出することを目的とした,多視点の深層学習型ソリューションを提案する。 実験の結果, 正確な領域抽出が示されており, TB検出の有無と重症度評価のさらなる解析に利用できる。 コードはhttps://github.com/dani-capellan/pTB_LungRegionExtractor.comで公開されている。

Tuberculosis (TB) is still considered a leading cause of death and a substantial threat to global child health. Both TB infection and disease are curable using antibiotics. However, most children who die of TB are never diagnosed or treated. In clinical practice, experienced physicians assess TB by examining chest X-rays (CXR). Pediatric CXR has specific challenges compared to adult CXR, which makes TB diagnosis in children more difficult. Computer-aided diagnosis systems supported by Artificial Intelligence have shown performance comparable to experienced radiologist TB readings, which could ease mass TB screening and reduce clinical burden. We propose a multi-view deep learning-based solution which, by following a proposed template, aims to automatically regionalize and extract lung and mediastinal regions of interest from pediatric CXR images where key TB findings may be present. Experimental results have shown accurate region extraction, which can be used for further analysis to confirm TB finding presence and severity assessment. Code publicly available at https://github.com/dani-capellan/pTB_LungRegionExtractor.
翻訳日:2023-02-01 15:44:54 公開日:2023-01-31
# FLAME:スプレッドシート式のための小さな言語モデル

FLAME: A small language model for spreadsheet formulas ( http://arxiv.org/abs/2301.13779v1 )

ライセンス: Link先を確認
Harshit Joshi, Abishai Ebenezer, Jos\'e Cambronero, Sumit Gulwani, Aditya Kanade, Vu Le, Ivan Radi\v{c}ek, Gust Verbruggen(参考訳) 数十億のユーザによるスプレッドシート環境の普及は、公式オーサリング支援のユニークな機会である。 Codexのような大きな言語モデルは汎用言語を補助できるが、トレーニングは高価であり、モデルのサイズが大きいため(数十億のパラメータまで)デプロイが困難である。 さらに、数百ギガバイトのトレーニングデータが必要です。 これはexcelの公式に基づいてトレーニングされたt5ベースのモデルで、ドメインインサイトを利用して、かなり小さいモデル(60mのパラメータ)と2桁のトレーニングデータで競争力の高いパフォーマンスを実現します。 スケッチの重複を利用したトレーニングデータセットをキュレートし、モデルにexcel特有の公式トークンを導入し、マスクスパン予測のドメイン固有バージョンと事前学習目標としてノイズの多い自動エンコーディングを使用します。 書式修復, 書式自動補完, 構文再構成という新しい課題についてFLAMEを評価した。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、はるかに大きなモデルよりも10セット中6セットで性能が優れている。

The widespread use of spreadsheet environments by billions of users presents a unique opportunity for formula-authoring assistance. Although large language models, such as Codex, can assist in general-purpose languages, they are expensive to train and challenging to deploy due to their large model sizes (up to billions of parameters). Moreover, they require hundreds of gigabytes of training data. We present FLAME, a T5-based model trained on Excel formulas that leverages domain insights to achieve competitive performance with a substantially smaller model (60M parameters) and two orders of magnitude less training data. We curate a training dataset using sketch deduplication, introduce an Excel-specific formula tokenizer for our model, and use domain-specific versions of masked span prediction and noisy auto-encoding as pretraining objectives. We evaluate FLAME on formula repair, formula auto-completion, and a novel task called syntax reconstruction. FLAME (60M) can outperform much larger models, such as Codex-Davinci (175B), Codex-Cushman (12B), and CodeT5 (220M), in 6 out of 10 settings.
翻訳日:2023-02-01 15:44:36 公開日:2023-01-31
# MCMCを用いた分別分布ベイズ線形回帰

Differentially Private Distributed Bayesian Linear Regression with MCMC ( http://arxiv.org/abs/2301.13778v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} Alparslan, Sinan Y{\i}ld{\i}r{\i}m, \c{S}. \.Ilker Birbil(参考訳) 本稿では,分散プライベート線形回帰のための新しいベイズ推論フレームワークを提案する。 我々は、複数のパーティがデータの一部を保持し、プライバシ保護ノイズにおけるその部分の要約統計を共有する分散環境を考える。 線形回帰統計学の要約統計学における有用な分布関係を生かした,個人共用統計学の新しい生成統計モデルを開発した。 回帰係数のベイズ推定は主にマルコフ連鎖モンテカルロアルゴリズムを用いて行うが,1回の反復でベイズ推定を行うための高速版も提供する。 提案手法は, 競争相手よりも計算上有利である。 本手法は実データとシミュレーションデータの両方に数値計算結果を提供し,提案手法が十分な推定と予測をもたらすことを示す。

We propose a novel Bayesian inference framework for distributed differentially private linear regression. We consider a distributed setting where multiple parties hold parts of the data and share certain summary statistics of their portions in privacy-preserving noise. We develop a novel generative statistical model for privately shared statistics, which exploits a useful distributional relation between the summary statistics of linear regression. Bayesian estimation of the regression coefficients is conducted mainly using Markov chain Monte Carlo algorithms, while we also provide a fast version to perform Bayesian estimation in one iteration. The proposed methods have computational advantages over their competitors. We provide numerical results on both real and simulated data, which demonstrate that the proposed algorithms provide well-rounded estimation and prediction.
翻訳日:2023-02-01 15:44:13 公開日:2023-01-31
# touch\'e23-valueevalデータセットによる引数の背後にある値の識別

The Touch\'e23-ValueEval Dataset for Identifying Human Values behind Arguments ( http://arxiv.org/abs/2301.13771v1 )

ライセンス: Link先を確認
Nailia Mirzakhmedova, Johannes Kiesel, Milad Alshomary, Maximilian Heinrich, Nicolas Handke, Xiaoni Cai, Barriere Valentin, Doratossadat Dastgheib, Omid Ghahroodi, Mohammad Ali Sadraei, Ehsaneddin Asgari, Lea Kawaletz, Henning Wachsmuth, Benno Stein(参考訳) 本稿では,Arguments の背後にある人的価値を識別するための Touch\'e23-ValueEval データセットを提案する。 議論の背後にある人的価値の自動検出手法を検討するため,宗教文献,政治議論,フリーテキスト議論,新聞編集,オンライン民主主義プラットフォームなど,6つの資料から9324の議論を収集した。 各引数は54の値で3人のクラウドワーカーによって注釈付けされた。 Touch\'e23-ValueEvalデータセットは、Webis-ArgValues-22を拡張する。 以前のデータセットと比較して、1-Baselineの有効性は低下するが、アウトオブボックスBERTモデルの有効性は増大する。 したがって、ラベル分布に従って分類が困難になるが、より大きなデータセットはより良いモデルのトレーニングを可能にする。

We present the Touch\'e23-ValueEval Dataset for Identifying Human Values behind Arguments. To investigate approaches for the automated detection of human values behind arguments, we collected 9324 arguments from 6 diverse sources, covering religious texts, political discussions, free-text arguments, newspaper editorials, and online democracy platforms. Each argument was annotated by 3 crowdworkers for 54 values. The Touch\'e23-ValueEval dataset extends the Webis-ArgValues-22. In comparison to the previous dataset, the effectiveness of a 1-Baseline decreases, but that of an out-of-the-box BERT model increases. Therefore, though the classification difficulty increased as per the label distribution, the larger dataset allows for training better models.
翻訳日:2023-02-01 15:44:01 公開日:2023-01-31
# 回帰の促進としてのマルチキャリブレーション

Multicalibration as Boosting for Regression ( http://arxiv.org/abs/2301.13767v1 )

ライセンス: Link先を確認
Ira Globus-Harris and Declan Harrison and Michael Kearns and Aaron Roth and Jessica Sorrell(参考訳) 本研究では,2乗誤差回帰の多重化とブースティングの関係について検討する。 まず、二乗誤差における ``swap regret'' のような条件で多重校正の有用な特徴を証明した。 この特徴量を用いて、回帰のためのブースティングアルゴリズムと、h の標準二乗誤差回帰のみを使用するクラス h のマルチキャリブレーションアルゴリズムの両方として解析できる非常に単純なアルゴリズムを与える。 次に、H に対する弱い学習仮定は、ベイズ最適性を示すために H に対する多重校正に必要かつ十分であることを示す。 また,H が他のクラス C と比較して弱い学習条件を満たすならば,H に対する多重校正は C に対する多重校正を意味することを示す。 私たちのコードリポジトリはhttps://github.com/Declancharrison/Level-Set-Boosting.orgにある。

We study the connection between multicalibration and boosting for squared error regression. First we prove a useful characterization of multicalibration in terms of a ``swap regret'' like condition on squared error. Using this characterization, we give an exceedingly simple algorithm that can be analyzed both as a boosting algorithm for regression and as a multicalibration algorithm for a class H that makes use only of a standard squared error regression oracle for H. We give a weak learning assumption on H that ensures convergence to Bayes optimality without the need to make any realizability assumptions -- giving us an agnostic boosting algorithm for regression. We then show that our weak learning assumption on H is both necessary and sufficient for multicalibration with respect to H to imply Bayes optimality. We also show that if H satisfies our weak learning condition relative to another class C then multicalibration with respect to H implies multicalibration with respect to C. Finally we investigate the empirical performance of our algorithm experimentally using an open source implementation that we make available. Our code repository can be found at https://github.com/Declancharrison/Level-Set-Boosting.
翻訳日:2023-02-01 15:43:47 公開日:2023-01-31
# グラフ畳み込み型カーネルマシンによる半教師あり分類

Semi-Supervised Classification with Graph Convolutional Kernel Machines ( http://arxiv.org/abs/2301.13764v1 )

ライセンス: Link先を確認
Sonny Achten, Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) グラフにおける半教師付きノード分類のためのディープグラフ畳み込みカーネルマシン(GCKM)を提案する。 まず、1ホップ近傍のノード特徴を伝播する教師なしカーネルマシンを導入する。 次に、フェンチェル・ヨンの不等式をレンズを通して半教師付き分類カーネルマシンを指定する。 複数の浅いカーネルマシンを積み重ねることで、ディープグラフ畳み込みカーネルマシンを得る。 教師なし層と半教師付き層がそれぞれ集約ノード特徴上の固有値問題と線形系に対応していることを示すと、2変数間の効率的なエンドツーエンドトレーニングアルゴリズムを導出する。 数値実験により、同好的で異好的なベンチマークデータセットのための最先端グラフニューラルネットワークと競合することを示す。 特に、GCKMはラベルがほとんどない場合に優れたパフォーマンスを達成する。

We present a deep Graph Convolutional Kernel Machine (GCKM) for semi-supervised node classification in graphs. First, we introduce an unsupervised kernel machine propagating the node features in a one-hop neighbourhood. Then, we specify a semi-supervised classification kernel machine through the lens of the Fenchel-Young inequality. The deep graph convolutional kernel machine is obtained by stacking multiple shallow kernel machines. After showing that unsupervised and semi-supervised layer corresponds to an eigenvalue problem and a linear system on the aggregated node features, respectively, we derive an efficient end-to-end training algorithm in the dual variables. Numerical experiments demonstrate that our approach is competitive with state-of-the-art graph neural networks for homophilious and heterophilious benchmark datasets. Notably, GCKM achieves superior performance when very few labels are available.
翻訳日:2023-02-01 15:43:30 公開日:2023-01-31
# 学習、高速、遅い:動的環境のための目標指向メモリベースアプローチ

Learning, Fast and Slow: A Goal-Directed Memory-Based Approach for Dynamic Environments ( http://arxiv.org/abs/2301.13758v1 )

ライセンス: Link先を確認
Tan Chong Min John, Mehul Motani(参考訳) モデルベースの次の状態予測と状態値予測は収束が遅い。 これらの課題に対処するために、私たちは以下のことをします。 一 ニューラルネットワークの代わりに、並列メモリ検索システム(スロー機構と呼ぶ。)を用いて、モデルベースの計画を行う。 二 状態値の学習に代えて、ニューラルネットワークを用いて現在の状態及び目標状態(高速機構という。)に基づいて次の動作を選択することにより、目標指向探索を用いてエージェントの動作を誘導する。 目標指向の探索は、訪問状態と将来の想像状態の海馬リプレイを使用してオンラインでトレーニングされ、迅速かつ効率的なトレーニングに繋がる。 実験により,提案手法は動的に変化するグリッド世界において,100エピソードにわたる92%の解答率を示し,PPO (54%), TRPO (50%), A2C (24%) などの最先端のアクター批判機構を著しく上回った。 アブレーションの研究は両方のメカニズムが重要であることを示している。 強化学習(RL)の未来は、様々なタスクの目標とサブゴールをモデル化し、目標指向のメモリベースのアプローチで計画することだと仮定する。

Model-based next state prediction and state value prediction are slow to converge. To address these challenges, we do the following: i) Instead of a neural network, we do model-based planning using a parallel memory retrieval system (which we term the slow mechanism); ii) Instead of learning state values, we guide the agent's actions using goal-directed exploration, by using a neural network to choose the next action given the current state and the goal state (which we term the fast mechanism). The goal-directed exploration is trained online using hippocampal replay of visited states and future imagined states every single time step, leading to fast and efficient training. Empirical studies show that our proposed method has a 92% solve rate across 100 episodes in a dynamically changing grid world, significantly outperforming state-of-the-art actor critic mechanisms such as PPO (54%), TRPO (50%) and A2C (24%). Ablation studies demonstrate that both mechanisms are crucial. We posit that the future of Reinforcement Learning (RL) will be to model goals and sub-goals for various tasks, and plan it out in a goal-directed memory-based approach.
翻訳日:2023-02-01 15:43:19 公開日:2023-01-31
# 効率の良い勾配値推定に向けて

Toward Efficient Gradient-Based Value Estimation ( http://arxiv.org/abs/2301.13757v1 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Richard Sutton(参考訳) 強化学習における値推定法は安定性がよいが,時間差(TD)学習法よりもかなり遅いのが一般的である。 この遅さの根本原因を考察し,平均正方形ベルマン誤差 (msbe) が条件数が大きいという意味では不条件損失関数であることを示した。 グラデーションベース法におけるmsbeの低条件化の悪影響を解決するため,ガウス・ニュートン方向にほぼ従い,パラメータ化に漸近的にロバストな低複雑性バッチフリー近位法を提案する。 RANSと呼ばれる本アルゴリズムは, 計算複雑性がほぼ同じでありながら, 残留勾配法よりもかなり高速であるという意味で効率的であり, テストした古典的問題に対してTDと競合する。

Gradient-based methods for value estimation in reinforcement learning have favorable stability properties, but they are typically much slower than Temporal Difference (TD) learning methods. We study the root causes of this slowness and show that Mean Square Bellman Error (MSBE) is an ill-conditioned loss function in the sense that its Hessian has large condition-number. To resolve the adverse effect of poor conditioning of MSBE on gradient based methods, we propose a low complexity batch-free proximal method that approximately follows the Gauss-Newton direction and is asymptotically robust to parameterization. Our main algorithm, called RANS, is efficient in the sense that it is significantly faster than the residual gradient methods while having almost the same computational complexity, and is competitive with TD on the classic problems that we tested.
翻訳日:2023-02-01 15:42:58 公開日:2023-01-31
# pac学習と安定的ヘドニックゲーム--統一的アプローチに向けて

PAC learning and stabilizing Hedonic Games: towards a unifying approach ( http://arxiv.org/abs/2301.13756v1 )

ライセンス: Link先を確認
Simone Fioravanti, Michele Flammini, Bojana Kodric and Giovanna Varricchio(参考訳) 本研究では,Hedonic Games (HGs) のPAC学習性およびPAC安定化性について検討した。 我々はまず、最も著名なHGsクラスの学習可能性/安定化の展望を拡張し、Friends and Enemies Games, Bottom Responsive, Anonymous HGsの結果を提供する。 そして、より広い視点を念頭に置いて、特定のHGsクラスに対する学習可能性/安定化性、あるいはその欠如につながる構造的特性について光を当てようと試みる。 この経路に沿って、HGの完全表現型Hedonic Coalition Nets表現に焦点を当てる。 我々は、効率的な学習可能性につながる2つの条件を特定し、既知のポジティブな学習可能性の結果をすべて包含する。 安定性の面では、アドホック対向分布の選択の自由がPAC安定性を達成するための最も明白なハードルであることは明らかであるが、それだけではない。 まず,PAC安定化のための分散独立条件を示す。 次に、プレイヤーが他のプレイヤーよりも個別に好みを持つ$\W$-gamesに焦点を合わせ、最も好まれないメンバーに基づいて連立を評価する。 これらのゲームは、すべての連立に正の確率質量を割り当てる有界分布のクラスの下で、PAC安定化可能であることを証明している。 最後に、このような結果が、この有望なシナリオであっても、他のHGクラスに容易に拡張できない理由について議論する。 すなわち、PAC安定性を達成するのに必要な純粋に計算的性質を確立する。

We study PAC learnability and PAC stabilizability of Hedonic Games (HGs), i.e., efficiently inferring preferences or core-stable partitions from samples. We first expand the known learnability/stabilizability landscape for some of the most prominent HGs classes, providing results for Friends and Enemies Games, Bottom Responsive, and Anonymous HGs. Then, having a broader view in mind, we attempt to shed light on the structural properties leading to learnability/stabilizability, or lack thereof, for specific HGs classes. Along this path, we focus on the fully expressive Hedonic Coalition Nets representation of HGs. We identify two sets of conditions that lead to efficient learnability, and which encompass all of the known positive learnability results. On the side of stability, we reveal that, while the freedom of choosing an ad hoc adversarial distribution is the most obvious hurdle to achieving PAC stability, it is not the only one. First, we show a distribution independent necessary condition for PAC stability. Then, we focus on $\W$-games, where players have individual preferences over other players and evaluate coalitions based on the least preferred member. We prove that these games are PAC stabilizable under the class of bounded distributions, which assign positive probability mass to all coalitions. Finally, we discuss why such a result is not easily extendable to other HGs classes even in this promising scenario. Namely, we establish a purely computational property necessary for achieving PAC stability.
翻訳日:2023-02-01 15:42:44 公開日:2023-01-31
# ユークリッドグラフのための完全ニューラルネットワーク

Complete Neural Networks for Euclidean Graphs ( http://arxiv.org/abs/2301.13821v1 )

ライセンス: Link先を確認
Snir Hordan, Tal Amir, Steven J. Gortler, Nadav Dym(参考訳) 2-wl-様幾何グラフ同型検定を提案し,$\mathbb{r}^3$ のユークリッドグラフに適用すると完備であることが証明する。 次に,マルチセット埋め込みに関する最近の結果を用いて,等価分離パワーを持つ効率的な幾何gnnモデルを考案する。 我々は,GNNモデルが特に難解な合成例を分離できることを実証的に検証し,化学特性予測問題に対するその有用性を示す。

We propose a 2-WL-like geometric graph isomorphism test and prove it is complete when applied to Euclidean Graphs in $\mathbb{R}^3$. We then use recent results on multiset embeddings to devise an efficient geometric GNN model with equivalent separation power. We verify empirically that our GNN model is able to separate particularly challenging synthetic examples, and demonstrate its usefulness for a chemical property prediction problem.
翻訳日:2023-02-01 15:36:32 公開日:2023-01-31
# Patch Gradient Descent:超大型画像によるニューラルネットワークのトレーニング

Patch Gradient Descent: Training Neural Networks on Very Large Images ( http://arxiv.org/abs/2301.13817v1 )

ライセンス: Link先を確認
Deepak K. Gupta, Gowreesh Mago, Arnav Chavan, Dilip K. Prasad(参考訳) 従来のCNNモデルは比較的低解像度の画像(300px)で訓練・テストされており、計算やメモリの制約により大規模画像では直接操作できない。 Patch Gradient Descent (PatchGD) は,既存のCNNアーキテクチャを大規模画像上でエンドツーエンドに学習できる効果的な学習戦略である。 PatchGDは、画像全体の勾配ベースの更新を一度に実行する代わりに、画像の小さな部分のみのモデル更新を一度に実行し、その大部分がイテレーション中にカバーされることを保証することによって、優れたソリューションを達成することができる、という仮説に基づいている。 したがって、PatchGDは大規模な画像のモデルをトレーニングする際に、メモリと計算効率が良くなる。 PatchGDは、異なるメモリ制約下でResNet50とMobileNetV2モデルを使用したPANDAとUltraMNISTの2つのデータセットで徹底的に評価されている。 評価の結果,PatchGDは大規模画像の処理において,特に計算メモリが制限された場合において,標準勾配差法よりも安定かつ効率的であることがわかった。

Traditional CNN models are trained and tested on relatively low resolution images (<300 px), and cannot be directly operated on large-scale images due to compute and memory constraints. We propose Patch Gradient Descent (PatchGD), an effective learning strategy that allows to train the existing CNN architectures on large-scale images in an end-to-end manner. PatchGD is based on the hypothesis that instead of performing gradient-based updates on an entire image at once, it should be possible to achieve a good solution by performing model updates on only small parts of the image at a time, ensuring that the majority of it is covered over the course of iterations. PatchGD thus extensively enjoys better memory and compute efficiency when training models on large scale images. PatchGD is thoroughly evaluated on two datasets - PANDA and UltraMNIST with ResNet50 and MobileNetV2 models under different memory constraints. Our evaluation clearly shows that PatchGD is much more stable and efficient than the standard gradient-descent method in handling large images, and especially when the compute memory is limited.
翻訳日:2023-02-01 15:36:21 公開日:2023-01-31
# 深層強化学習を用いた実行ベースコード生成

Execution-based Code Generation using Deep Reinforcement Learning ( http://arxiv.org/abs/2301.13816v1 )

ライセンス: Link先を確認
Parshin Shojaee, Aneesh Jain, Sindhu Tipirneni and Chandan K. Reddy(参考訳) ソフトウェア工学プロセスを自動化する手段として、大規模コードコーパスで事前訓練されたプログラミング言語(PL)モデルの利用は、コード補完、コード翻訳、プログラム合成など、様々なコード生成タスクの合理化において大きな可能性を証明している。 しかし、現在のアプローチは、主にテキスト生成から借用した教師付き微調整目標に依存しており、コードの特定のシーケンスレベルの特徴を無視している。 この制限に対処するために,事前学習されたPLモデルとPPO(Proximal Policy Optimization)の深層強化学習を組み合わせたコード生成のための新しいフレームワークであるPPOCoderを提案する。 PPOCoderは異なるコード生成タスクとPL間で転送可能である。 3つのコード生成タスクに関する大規模な実験は、SOTA法と比較して提案手法の有効性を示し、異なるPLに対するコンパイルの成功率と機能的正しさを改善した。 私たちのコードはhttps://github.com/reddy-lab-code-research/PPOCoderで参照できます。

The utilization of programming language (PL) models, pretrained on large-scale code corpora, as a means of automating software engineering processes has demonstrated considerable potential in streamlining various code generation tasks such as code completion, code translation, and program synthesis. However, current approaches mainly rely on supervised fine-tuning objectives borrowed from text generation, neglecting specific sequence-level features of code, including but not limited to compilability as well as syntactic and functional correctness. To address this limitation, we propose PPOCoder, a new framework for code generation that combines pretrained PL models with Proximal Policy Optimization (PPO) deep reinforcement learning and employs execution feedback as the external source of knowledge into the model optimization. PPOCoder is transferable across different code generation tasks and PLs. Extensive experiments on three code generation tasks demonstrate the effectiveness of our proposed approach compared to SOTA methods, improving the success rate of compilation and functional correctness over different PLs. Our code can be found at https://github.com/reddy-lab-code-research/PPOCoder .
翻訳日:2023-02-01 15:36:03 公開日:2023-01-31
# 創発的社会価値志向による役割学習

Learning Roles with Emergent Social Value Orientations ( http://arxiv.org/abs/2301.13812v1 )

ライセンス: Link先を確認
Wenhao Li, Xiangfeng Wang, Bo Jin, Jingyi Lu and Hongyuan Zha(参考訳) 社会的ジレンマは、個人の合理性が集団的不合理性をもたらす状況と見なすことができる。 マルチエージェント強化学習コミュニティは、複雑な協調作業における社会的ジレンマを解決するために、社会価値指向(SVO)のような社会科学のアイデアを活用している。 本稿では,まず,人間社会に典型的な「労働・役割の分割」機構を導入することで,svosを用いた時空間的社会ジレンマ(isd)に対する有望な解決法を提案する。 resvo(learning role with emergent svos)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現へと変換し、他のエージェントと報酬を共有するために利他性を持つエージェントによって対称的に解決される。 SVOベースのロール埋め込み空間は、新規なランク正規化器と相互情報最大化器を備えたロールに対する個別条件付けポリシーによって構成される。 実験により、RESVOは、複雑さの異なるISDにおける労働と協力の安定した分割を実現することが示された。

Social dilemmas can be considered situations where individual rationality leads to collective irrationality. The multi-agent reinforcement learning community has leveraged ideas from social science, such as social value orientations (SVO), to solve social dilemmas in complex cooperative tasks. In this paper, by first introducing the typical "division of labor or roles" mechanism in human society, we provide a promising solution for intertemporal social dilemmas (ISD) with SVOs. A novel learning framework, called Learning Roles with Emergent SVOs (RESVO), is proposed to transform the learning of roles into the social value orientation emergence, which is symmetrically solved by endowing agents with altruism to share rewards with other agents. An SVO-based role embedding space is then constructed by individual conditioning policies on roles with a novel rank regularizer and mutual information maximizer. Experiments show that RESVO achieves a stable division of labor and cooperation in ISDs with different complexity.
翻訳日:2023-02-01 15:35:45 公開日:2023-01-31
# 超音波による義肢制御

Ultrasound Based Prosthetic Arm Control ( http://arxiv.org/abs/2301.13809v1 )

ライセンス: Link先を確認
Ayush Singh, Harikrishnan Pisharody Gopalkrishnan, Mahesh Raveendranatha Panicker(参考訳) 上肢の喪失は、個人が独立して働き、交流し、日々の職務を遂行する能力を制限するため、人の生活の質に重大な影響を与える可能性がある。 人工手足は、義肢を失った人の機能や生活の質を高めるために、義肢に使用される。 人工装具技術の著しいブレークスルーにもかかわらず、複雑な人工装具の拒絶率は[1]-[5]のままである。 上肢のアンプの4分の1から3は、テクノロジーの理解不足のために義肢を放棄している。 最も広く用いられている筋肉活動のモニタリング法は、表面筋電図(SEMG)であり、低信号対雑音比や振幅分解能の低い[6]-[8]などの大きな欠点がある。 筋電気制御システムとは異なり,超音波を用いて機械的筋変形を直接監視し,抽出した信号を用いてエンドエフェクタの位置を比例的に制御する。 この調査では、身体的健康な3人のボランティアが行った4つの手の動きを利用した。 ROSを用いた仮想ロボットハンドシミュレーションが開発された。 トレーニングの少ない手の動作に匹敵するパフォーマンスを目撃した後、我々は制御方法が信頼性と自然なものであると結論づけた。

The loss of an upper limb can have a substantial impact on a person's quality of life since it limits a person's ability to work, interact, and perform daily duties independently. Artificial limbs are used in prosthetics to help people who have lost limbs enhance their function and quality of life. Despite significant breakthroughs in prosthetic technology, rejection rates for complex prosthetic devices remain high[1]-[5]. A quarter to a third of upper-limb amputees abandon their prosthetics due to a lack of comprehension of the technology. The most extensively used method for monitoring muscle activity and regulating the prosthetic arm, surface electromyography (sEMG), has significant drawbacks, including a low signal-to-noise ratio and poor amplitude resolution[6]-[8].Unlike myoelectric control systems, which use electrical muscle activation to calculate end-effector velocity, our strategy employs ultrasound to directly monitor mechanical muscle deformation and then uses the extracted signals to proportionally control end-effector location. This investigation made use of four separate hand motions performed by three physically healthy volunteers. A virtual robotic hand simulation was created using ROS. After witnessing performance comparable to that of a hand with very less training, we concluded that our control method is reliable and natural.
翻訳日:2023-02-01 15:35:29 公開日:2023-01-31
# 大規模言語モデルは、テーブルベースの推論のためのエビデンスと質問を分解する

Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning ( http://arxiv.org/abs/2301.13808v1 )

ライセンス: Link先を確認
Yunhu Ye, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li(参考訳) 表に基づく推論は、深層モデルと離散的推論の組み合わせにおいて顕著な進歩を示しており、自由形式自然言語(NL)問題と構造化表データの両方を推論する必要がある。 しかしながら、従来のテーブルベースの推論ソリューションは通常、巨大なエビデンス(テーブル)の大幅な性能劣化に悩まされる。 さらに、既存のほとんどの手法は、必要な情報が様々な場所に散らばっているため、複雑な問題に対する推論に苦慮している。 上記の課題を緩和するため、我々はテーブルベースの効果的な推論のための分解器として大規模言語モデル(LLM)を利用する。 一 巨大な証拠(巨大な表)を小表(小表)に分解して、無用な情報によるテーブル推論の干渉を緩和すること。 (ii)複雑な質問をテキスト推論のより単純なサブ質問に分解する。 具体的には、まずLLMを使用して、現在の質問に関わる証拠(表)を分解し、関連する証拠を保持し、巨大なテーブルから残りの無関係な証拠を除外します。 さらに,各ステップで論理と数値計算を分離することにより,思考の連鎖の幻覚的ジレンマを軽減する「パーシング・エグゼクティオン・フィリング」戦略を提案する。 本手法は,TabFact,WikiTableQuestion,FetaQAデータセットにおいて,分解されたエビデンスや疑問を効果的に活用し,強力なベースラインを達成できることを示す。 特に、我々のモデルは、TabFactデータセットで人のパフォーマンスを初めて上回ります。

Table-based reasoning has shown remarkable progress in combining deep models with discrete reasoning, which requires reasoning over both free-form natural language (NL) questions and structured tabular data. However, previous table-based reasoning solutions usually suffer from significant performance degradation on huge evidence (tables). In addition, most existing methods struggle to reason over complex questions since the required information is scattered in different places. To alleviate the above challenges, we exploit large language models (LLMs) as decomposers for effective table-based reasoning, which (i) decompose huge evidence (a huge table) into sub-evidence (a small table) to mitigate the interference of useless information for table reasoning; and (ii) decompose complex questions into simpler sub-questions for text reasoning. Specifically, we first use the LLMs to break down the evidence (tables) involved in the current question, retaining the relevant evidence and excluding the remaining irrelevant evidence from the huge table. In addition, we propose a "parsing-execution-filling" strategy to alleviate the hallucination dilemma of the chain of thought by decoupling logic and numerical computation in each step. Extensive experiments show that our method can effectively leverage decomposed evidence and questions and outperforms the strong baselines on TabFact, WikiTableQuestion, and FetaQA datasets. Notably, our model outperforms human performance for the first time on the TabFact dataset.
翻訳日:2023-02-01 15:35:09 公開日:2023-01-31
# 協調進化探索によるML対応自律システムの危険性境界の同定

Identifying the Hazard Boundary of ML-enabled Autonomous Systems Using Cooperative Co-Evolutionary Search ( http://arxiv.org/abs/2301.13807v1 )

ライセンス: Link先を確認
Sepehr Sharifi, Donghwan Shin, Lionel C. Briand and Nathan Aschbacher(参考訳) 機械学習(ML)対応自律システム(MLAS)では,MLコンポーネント(MLC)の危険境界を解析で識別することが不可欠である。 このようなバウンダリがLCCの振る舞いやハザードに繋がるシステムコンテキストという観点で条件を捉えていることを考慮すれば、例えばハザード境界に到達する際に、事前に定義されたフォールバック機構を実行時に取得できる安全モニターを構築することができる。 しかし、このようなMLコンポーネントのハザード境界を決定することは困難である。 これは、システムコンテキスト(例:シナリオ)とLCCの振る舞い(例:入力と出力)を組み合わせた空間が、徹底的な探索には大きすぎることや、遺伝的アルゴリズムのような従来のメタヒューリスティック(メタヒューリスティック)を扱うことに起因している。 さらに、MLASの安全性違反を判定するために必要なシミュレーションの計算コストが高いため、この問題はさらに難しくなる。 さらに、シミュレーションにおける制御不能なパラメータとMLASにおけるMLモデル(例えばディープニューラルネットワーク)の非線形な振る舞いのために、問題空間内の領域が決定論的に安全または安全でないと考えることは非現実的である。 この課題に対処するために,協調進化アルゴリズム(CCEA)に基づく新しい手法であるMLCSHE(ML Component Safety Hazard Envelope)を提案する。 さらに,安全で安全でない領域を確率論的に捉え,確率的ハザード境界からの距離を測定する新しい適合関数を定義し,探索を効果的に推進する。 複雑な自律走行車(AV)におけるMLCSHEの有効性と効率について検討した。 評価の結果,MLCSHEは標準的な遺伝的アルゴリズムやランダム検索よりも効率的かつ効率的であることが示唆された。

In Machine Learning (ML)-enabled autonomous systems (MLASs), it is essential to identify the hazard boundary of ML Components (MLCs) in the MLAS under analysis. Given that such boundary captures the conditions in terms of MLC behavior and system context that can lead to hazards, it can then be used to, for example, build a safety monitor that can take any predefined fallback mechanisms at runtime when reaching the hazard boundary. However, determining such hazard boundary for an ML component is challenging. This is due to the space combining system contexts (i.e., scenarios) and MLC behaviors (i.e., inputs and outputs) being far too large for exhaustive exploration and even to handle using conventional metaheuristics, such as genetic algorithms. Additionally, the high computational cost of simulations required to determine any MLAS safety violations makes the problem even more challenging. Furthermore, it is unrealistic to consider a region in the problem space deterministically safe or unsafe due to the uncontrollable parameters in simulations and the non-linear behaviors of ML models (e.g., deep neural networks) in the MLAS under analysis. To address the challenges, we propose MLCSHE (ML Component Safety Hazard Envelope), a novel method based on a Cooperative Co-Evolutionary Algorithm (CCEA), which aims to tackle a high-dimensional problem by decomposing it into two lower-dimensional search subproblems. Moreover, we take a probabilistic view of safe and unsafe regions and define a novel fitness function to measure the distance from the probabilistic hazard boundary and thus drive the search effectively. We evaluate the effectiveness and efficiency of MLCSHE on a complex Autonomous Vehicle (AV) case study. Our evaluation results show that MLCSHE is significantly more effective and efficient compared to a standard genetic algorithm and random search.
翻訳日:2023-02-01 15:34:44 公開日:2023-01-31
# ピコ秒状態における量子ドットのキャビティ強化励起

Cavity-enhanced excitation of a quantum dot in the picosecond regime ( http://arxiv.org/abs/2301.13806v1 )

ライセンス: Link先を確認
Alisa Javadi, Natasha Tomm, Nadia O. Antoniadis, Alistair J. Brash, R\"udiger Schott, Sascha R. Valentin, Andreas D. Wieck, Arne Ludwig, Richard J. Warburton(参考訳) 単一エミッタによる単一光子生成における大きな課題は、集光路へのレーザー漏れを回避しつつエミッタを励起することである。 理想的には、この漏れを抑制する計画は、単一光子源の効率を損なうものではない。 本稿では,単一エミッタ,半導体量子ドットをマイクロキャビティ内に埋め込む方式について検討する。 この方式ではキャビティモードを2つの直交分極モードに分割し、1つのモードを励起に、もう1つのモードを収集に利用する。 実験と理論を結びつけることで,量子エミッタから変調されたレーザーパルスによって最良集団反転が達成されることを示す。 ラビ振動はパルスパワーに異常な依存がある。 我々の理論では、絶対光子生成確率を定量的に定義している。 最適なレーザーデチューニングでは、個体数は98\%である。 ラビ振動はレーザーパルスデチューニングの兆候に依存する。 この現象はフォノンのエキシトンダイナミクスに対する非自明な影響から生じる。 エクシトン-フォノン相互作用は理論に含まれ、すべての実験結果と良好な一致を与える。

A major challenge in generating single photons with a single emitter is to excite the emitter while avoiding laser leakage into the collection path. Ideally, any scheme to suppress this leakage should not result in a loss in efficiency of the single-photon source. Here, we investigate a scheme in which a single emitter, a semiconductor quantum dot, is embedded in a microcavity. The scheme exploits the splitting of the cavity mode into two orthogonally-polarised modes: one mode is used for excitation, the other for collection. By linking experiment to theory, we show that the best population inversion is achieved with a laser pulse detuned from the quantum emitter. The Rabi oscillations have an unusual dependence on pulse power. Our theory describes them quantitatively allowing us to determine the absolute photon creation probability. For the optimal laser detuning, the population innversion is 98\%. The Rabi oscillations depend on the sign of the laser-pulse detuning. We show that this arises from the non-trivial effect of phonons on the exciton dynamics. The exciton-phonon interaction is included in the theory and gives excellent agreement with all the experimental results.
翻訳日:2023-02-01 15:34:12 公開日:2023-01-31
# debiased self-attentionによるフェアネス認識視覚トランスフォーマ

Fairness-aware Vision Transformer via Debiased Self-Attention ( http://arxiv.org/abs/2301.13803v1 )

ライセンス: Link先を確認
Yao Qiang, Chengyin Li, Prashant Khanduri, and Dongxiao Zhu(参考訳) 視覚変換器(ViT)は,情報的特徴を抽出し,自己認識機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな関心を寄せている。 実世界の応用におけるViTの利点をフルに実現するために、最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性について検討している。 しかし、別のデシダータは、文学ではまだフェアネスが適切に扱われていない。 既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。 これは、debiased self-attention (dsa) による新しいフレームワークの開発を必要とする。 DSAは、バイアス軽減のための感度特性と相関する刺激的な特徴を排除するためにViTを強制するフェアネススルー・ブラインドネスアプローチである。 特に、逆例を利用して、入力画像パッチ内のスプリアス特徴を特定し、隠蔽する。 さらに、DSAはトレーニング目的の注意重み付け調整器を利用して、目標予測のための学習情報特徴を促進する。 重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。

Vision Transformer (ViT) has recently gained significant interest in solving computer vision (CV) problems due to its capability of extracting informative features and modeling long-range dependencies through the self-attention mechanism. To fully realize the advantages of ViT in real-world applications, recent works have explored the trustworthiness of ViT, including its robustness and explainability. However, another desiderata, fairness has not yet been adequately addressed in the literature. We establish that the existing fairness-aware algorithms (primarily designed for CNNs) do not perform well on ViT. This necessitates the need for developing our novel framework via Debiased Self-Attention (DSA). DSA is a fairness-through-blindness approach that enforces ViT to eliminate spurious features correlated with the sensitive attributes for bias mitigation. Notably, adversarial examples are leveraged to locate and mask the spurious features in the input image patches. In addition, DSA utilizes an attention weights alignment regularizer in the training objective to encourage learning informative features for target prediction. Importantly, our DSA framework leads to improved fairness guarantees over prior works on multiple prediction tasks without compromising target prediction performance
翻訳日:2023-02-01 15:33:56 公開日:2023-01-31
# 強化学習とグラフニューラルネットワークによる分散計算ジョブの分割

Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks ( http://arxiv.org/abs/2301.13799v1 )

ライセンス: Link先を確認
Christopher W. F. Parsonson, Zacharaya Shabka, Alessandro Ottino, and Georgios Zervas(参考訳) 自然言語処理からゲノムシークエンシングに至るまで、大規模な機械学習モデルは幅広い分野に進歩をもたらしている。 これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。 これは、そのようなタスクを処理できる新しい計算システムとネットワークシステムの研究を動機付けている。 特に最近の研究は、ジョブ完了時間(jct)の最小化など、いくつかの全体的な目的が最適化されるような分散リソースの割り当て方法を決定するマネジメントスキームの開発に重点を置いている。 しかしながら、そのような研究は、通常、最大分布が望ましいと仮定して、どれだけのジョブを配布すべきかを明確に考慮する。 本研究では,スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。 そこで我々はpac-ml (partitioning for asynchronous computing with machine learning)を提案する。 PAC-MLはグラフニューラルネットワークと強化学習を利用して、任意のユーザ定義のJCT要件を満たすジョブの数を最大化するような計算グラフを分割する方法を学ぶ。 ユーザが定義した4つのJCT要求分布にまたがる最近提案された光学アーキテクチャ上で、5つの実ディープラーニング計算グラフを用いた実験において、PAC-MLは、ほとんどの先行研究で使われる標準の最大並列化戦略よりも、動的ジョブ到着設定において最大56.2%のブロッキングレートを達成することを示した。

From natural language processing to genome sequencing, large-scale machine learning models are bringing advances to a broad range of fields. Many of these models are too large to be trained on a single machine, and instead must be distributed across multiple devices. This has motivated the research of new compute and network systems capable of handling such tasks. In particular, recent work has focused on developing management schemes which decide how to allocate distributed resources such that some overall objective, such as minimising the job completion time (JCT), is optimised. However, such studies omit explicit consideration of how much a job should be distributed, usually assuming that maximum distribution is desirable. In this work, we show that maximum parallelisation is sub-optimal in relation to user-critical metrics such as throughput and blocking rate. To address this, we propose PAC-ML (partitioning for asynchronous computing with machine learning). PAC-ML leverages a graph neural network and reinforcement learning to learn how much to partition computation graphs such that the number of jobs which meet arbitrary user-defined JCT requirements is maximised. In experiments with five real deep learning computation graphs on a recently proposed optical architecture across four user-defined JCT requirement distributions, we demonstrate PAC-ML achieving up to 56.2% lower blocking rates in dynamic job arrival settings than the canonical maximum parallelisation strategy used by most prior works.
翻訳日:2023-02-01 15:33:35 公開日:2023-01-31
# ニュース要約のための大規模言語モデルのベンチマーク

Benchmarking Large Language Models for News Summarization ( http://arxiv.org/abs/2301.13848v1 )

ライセンス: Link先を確認
Tianyi Zhang, Faisal Ladhak, Esin Durmus, Percy Liang, Kathleen McKeown, Tatsunori B. Hashimoto(参考訳) 大規模言語モデル(LLM)は自動要約を約束しているが、成功の背景にある理由はよく分かっていない。 異なる事前学習方法,プロンプト,モデルスケールで10個のLLMに対して人間による評価を行うことで,2つの重要な観察を行った。 まず、LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニングである。 第二に、既存の研究は低品質の参照によって制限されており、人間のパフォーマンスと少ないショットと微調整のパフォーマンスの過小評価につながっている。 LLMを評価するために,フリーライターから収集した高品質な要約に対して人間による評価を行う。 パラフレーズの量などの文体的な違いは大きいが,LMM要約は人文要約と同等であると判断されている。

Large language models (LLMs) have shown promise for automatic summarization but the reasons behind their successes are poorly understood. By conducting a human evaluation on ten LLMs across different pretraining methods, prompts, and model scales, we make two important observations. First, we find instruction tuning, and not model size, is the key to the LLM's zero-shot summarization capability. Second, existing studies have been limited by low-quality references, leading to underestimates of human performance and lower few-shot and finetuning performance. To better evaluate LLMs, we perform human evaluation over high-quality summaries we collect from freelance writers. Despite major stylistic differences such as the amount of paraphrasing, we find that LMM summaries are judged to be on par with human written summaries.
翻訳日:2023-02-01 15:26:57 公開日:2023-01-31
# 深部ニューラルネットワークのロバスト性証明の解釈

Interpreting Robustness Proofs of Deep Neural Networks ( http://arxiv.org/abs/2301.13845v1 )

ライセンス: Link先を確認
Debangshu Banerjee, Avaljot Singh, Gagandeep Singh(参考訳) 近年,ディープニューラルネットワーク(DNN)の堅牢性を正式に検証する手法が数多く開発されている。 提案手法は, DNNの挙動に関する数学的保証を提供するのに有効であるが, これらの手法によって生成された証明が人間の解釈可能かどうかは不明である。 本稿では,このギャップを新しい概念,アルゴリズム,表現によって埋めて,人間の理解可能な証明解釈を生成する。 提案手法を応用して,標準的なDNNの頑健性証明は素早い入力機能に依存し,DNNの証明は意味論的に意味のある特徴でさえも確実に頑健であることを示す。 敵意と証明可能なロバストなトレーニングを組み合わせたdnnの証明は、スプリアスな特徴を選択的に排除し、人間の理解可能な入力機能に依存するのに最も効果的である。

In recent years numerous methods have been developed to formally verify the robustness of deep neural networks (DNNs). Though the proposed techniques are effective in providing mathematical guarantees about the DNNs behavior, it is not clear whether the proofs generated by these methods are human-interpretable. In this paper, we bridge this gap by developing new concepts, algorithms, and representations to generate human understandable interpretations of the proofs. Leveraging the proposed method, we show that the robustness proofs of standard DNNs rely on spurious input features, while the proofs of DNNs trained to be provably robust filter out even the semantically meaningful features. The proofs for the DNNs combining adversarial and provably robust training are the most effective at selectively filtering out spurious features as well as relying on human-understandable input features.
翻訳日:2023-02-01 15:26:42 公開日:2023-01-31
# 多文書要約モデルは合成されるか?

Do Multi-Document Summarization Models Synthesize? ( http://arxiv.org/abs/2301.13844v1 )

ライセンス: Link先を確認
Jay DeYoung, Stephanie C. Martinez, Iain J. Marshall, Byron C. Wallace(参考訳) 多文書要約では、入力の集合の簡潔なシナプスを生成する。 いくつかのアプリケーションでは、シンプシスはキープロパティやアスペクトに関して正確に \emph{synthesize} 入力を持つべきである。 例えば、特定の映画について書かれた映画レビューの要約は、平均的な批評家のコンセンサスを反映しなければならない。 より簡潔な例として、臨床試験の結果に付随する生体医学的システム的レビューを伴う物語要約を考える。 これらの物語は、個々の試行による潜在的に矛盾する結果をかなり要約するべきである。 本稿では,現代多文書要約モデルがこのタイプの合成をどの程度暗黙的に行うのかを問う。 これを評価するために、標準手法を用いて要約のために訓練された条件付き生成モデルが入力を適切に合成する出力を生成する程度を調べる一連の実験を行う。 既存のモデルは部分的に合成を行うが、不完全である。 特に、入力順序の変化に過敏であり、入力組成の変化に過敏である(例えば、肯定的な映画レビューと否定的な映画レビューの比率)。 そこで本論文では,入力に対して期待される集計値に最も適した文字列,あるいはモデルがよい候補を生成できない場合の 'emph{abstaining} を選択することで,モデル合成機能を改善するための簡易で汎用的な手法を提案する。 このアプローチはモデル合成性能を向上させる。 我々は、(いくつかの要約設定において)合成の必要性を強調し、合成の必要性を明確に説明する多文書要約手法と学習目的に関するさらなる研究を動機付けたい。

Multi-document summarization entails producing concise synopses of collections of inputs. For some applications, the synopsis should accurately \emph{synthesize} inputs with respect to a key property or aspect. For example, a synopsis of film reviews all written about a particular movie should reflect the average critic consensus. As a more consequential example, consider narrative summaries that accompany biomedical \emph{systematic reviews} of clinical trial results. These narratives should fairly summarize the potentially conflicting results from individual trials. In this paper we ask: To what extent do modern multi-document summarization models implicitly perform this type of synthesis? To assess this we perform a suite of experiments that probe the degree to which conditional generation models trained for summarization using standard methods yield outputs that appropriately synthesize inputs. We find that existing models do partially perform synthesis, but do so imperfectly. In particular, they are over-sensitive to changes in input ordering and under-sensitive to changes in input compositions (e.g., the ratio of positive to negative movie reviews). We propose a simple, general method for improving model synthesis capabilities by generating an explicitly diverse set of candidate outputs, and then selecting from these the string best aligned with the expected aggregate measure for the inputs, or \emph{abstaining} when the model produces no good candidate. This approach improves model synthesis performance. We hope highlighting the need for synthesis (in some summarization settings), motivates further research into multi-document summarization methods and learning objectives that explicitly account for the need to synthesize.
翻訳日:2023-02-01 15:26:26 公開日:2023-01-31
# 量子ウォーク分布によるネットワークトポロジの同定

Identifying network topologies via quantum walk distributions ( http://arxiv.org/abs/2301.13842v1 )

ライセンス: Link先を確認
Claudia Benedetti, and Ilaria Gianani(参考訳) ネットワークの制御とキャラクタリゼーションは多くの量子技術の開発における最重要ステップである。 中程度のネットワークであっても、ネットワークトポロジを定義する結合を探すために非常に広いパラメータ空間を探索する。 本稿では,ネットワーク上の連続時間量子ウォークの進化から得られた確率分布から,ネットワークのトポロジを取得するための遺伝的アルゴリズムについて検討する。 その結果,ノイズが存在する場合でも,必要な情報を効率的に検索できることがわかった。

Control and characterization of networks is a paramount step for the development of many quantum technologies. Even for moderate-sized networks, this amounts to explore an extremely vast parameters space in search for the couplings defining the network topology. Here we explore the use of a genetic algorithm to retrieve the topology of a network from the measured probability distribution obtained from the evolution of a continuous-time quantum walk on the network. Our result shows that the algorithm is capable of efficiently retrieving the required information even in the presence of noise.
翻訳日:2023-02-01 15:26:02 公開日:2023-01-31
# Image Shortcut Squeezing: 圧縮による摂動性アベイラビリティーの対策

Image Shortcut Squeezing: Countering Perturbative Availability Poisons with Compression ( http://arxiv.org/abs/2301.13838v1 )

ライセンス: Link先を確認
Zhuoran Liu, Zhengyu Zhao, Martha Larson(参考訳) 摂動性アベイラビリティ中毒(PAP)は、モデルトレーニングでの使用を防ぐために、画像に小さな変更を加える。 現在の研究は、このような毒に対する実用的で効果的なアプローチは存在しないという信念を取り入れている。 本稿では,この信念を捨てる時が来たと論じる。 簡単な圧縮に基づく画像ショートカットスキーズ(ISS)に対して,12の最先端PAP手法が脆弱であることを示す広範な実験を行った。 例えば、ISS は CIFAR-10 モデルの精度を 811.73 %$ に復元し、以前の最良の前処理ベースの対策を 37.97 %$ で上回った。 ISSは(わずかに)敵の訓練より優れており、摂動規範の見当たらない一般化性が高く、効率も高い。 本研究により, pap摂動の特性は, 毒物生成に用いられるサロゲートモデルの種類に依存し, 特定のiss圧縮が特定のタイプのpap摂動に最適な性能をもたらす理由を明らかにした。 我々はさらに、より強く適応的な中毒をテストし、それがissに対する理想的な防御であることを示す。 総じて,アベイラビリティ毒の発生過程における分析の有意義性を確保するために,様々な(単純な)対策を検討することが重要であることを示した。

Perturbative availability poisoning (PAP) adds small changes to images to prevent their use for model training. Current research adopts the belief that practical and effective approaches to countering such poisons do not exist. In this paper, we argue that it is time to abandon this belief. We present extensive experiments showing that 12 state-of-the-art PAP methods are vulnerable to Image Shortcut Squeezing (ISS), which is based on simple compression. For example, on average, ISS restores the CIFAR-10 model accuracy to $81.73\%$, surpassing the previous best preprocessing-based countermeasures by $37.97\%$ absolute. ISS also (slightly) outperforms adversarial training and has higher generalizability to unseen perturbation norms and also higher efficiency. Our investigation reveals that the property of PAP perturbations depends on the type of surrogate model used for poison generation, and it explains why a specific ISS compression yields the best performance for a specific type of PAP perturbation. We further test stronger, adaptive poisoning, and show it falls short of being an ideal defense against ISS. Overall, our results demonstrate the importance of considering various (simple) countermeasures to ensure the meaningfulness of analysis carried out during the development of availability poisons.
翻訳日:2023-02-01 15:25:54 公開日:2023-01-31
# 多次元量子フーリエ変換

Multidimensional Quantum Fourier Transformation ( http://arxiv.org/abs/2301.13835v1 )

ライセンス: Link先を確認
Philipp Pfeffer(参考訳) 量子フーリエ変換(quantum fourier transformation, qft)は、量子コンピュータ上のアルゴリズムの有名なサブルーチンである。 本研究では, 既知のQFT回路を用いて多次元QFTの効率的な回路を導出する。 アルゴリズムの複雑さは$\mathcal{O}( \log^2(M)/d )$ で、$M=(2^n)^d$ 要素 $(n \in \mathbb{N})$ は$d$次元に沿って等分される。 応用の関連性について論じる。 現在のハードウェアの例は、IBM量子コンピュータを備えた6量子ビットの2D-QFTで描かれている。

The Quantum Fourier Transformation (QFT) is a well-known subroutine for algorithms on qubit-based universal quantum computers. In this work, the known QFT circuit is used to derive an efficient circuit for the multidimensional QFT. The complexity of the algorithm is $\mathcal{O}( \log^2(M)/d )$ for an array with $M=(2^n)^d$ elements $(n \in \mathbb{N})$ equally separated along $d$ dimensions. Relevant properties for application are discussed. An example on current hardware is depicted by a 6 qubit 2D-QFT with an IBM quantum computer.
翻訳日:2023-02-01 15:25:29 公開日:2023-01-31
# カリキュラム学習のための数学モデル

A Mathematical Model for Curriculum Learning ( http://arxiv.org/abs/2301.13833v1 )

ライセンス: Link先を確認
Elisabetta Cornacchia and Elchanan Mossel(参考訳) カリキュラム学習(cl) - 有意義な順序で生成、提示されるサンプルを使用したトレーニング - が10年ほど前にマシンラーニングのコンテキストに導入された。 CLは経験的に広く使われ、分析されてきたが、その利点に対する数学的正当性はほとんどない。 本稿では,確率勾配勾配(SGD)により学習されたニューラルネットワークを用いて,二進弦のdビット上のkパリティのクラスを学習するためのCLモデルを提案する。 2つ以上の製品分布を含む訓練例の賢明な選択は、一様分布下での学習と比較して、このクラスの関数を学習する際の計算コストを大幅に削減できることを示す。 我々は分析を支援するために実験を行う。 さらに、他の種類の関数、すなわち'Hamming Mixs'に対して、有界な製品分布を含むCL戦略は有益ではなく、無有界な多くのカリキュラムステップを持つCLがこのクラスを効率的に学習できると推測する。

Curriculum learning (CL) - training using samples that are generated and presented in a meaningful order - was introduced in the machine learning context around a decade ago. While CL has been extensively used and analysed empirically, there has been very little mathematical justification for its advantages. We introduce a CL model for learning the class of k-parities on d bits of a binary string with a neural network trained by stochastic gradient descent (SGD). We show that a wise choice of training examples, involving two or more product distributions, allows to reduce significantly the computational cost of learning this class of functions, compared to learning under the uniform distribution. We conduct experiments to support our analysis. Furthermore, we show that for another class of functions - namely the `Hamming mixtures' - CL strategies involving a bounded number of product distributions are not beneficial, while we conjecture that CL with unbounded many curriculum steps can learn this class efficiently.
翻訳日:2023-02-01 15:25:19 公開日:2023-01-31
# Attend-and-Excite:テキスト・画像拡散モデルにおける注意に基づく意味指導

Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2301.13826v1 )

ライセンス: Link先を確認
Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, Daniel Cohen-Or(参考訳) 最近のテキストから画像への生成モデルは、ターゲットのテキストプロンプトによって誘導される多様で創造的な画像を生成する非並列的な能力を示している。 革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。 本研究では,公開可能な安定拡散モデルを分析し,モデルが入力プロンプトから1つ以上の被験者を生成できないような破滅的無視の存在を評価する。 さらに、いくつかのケースでは、モデルが属性(例えば色)を対応する主題に正しく結合できないことも分かりました。 これらの障害を緩和するために,我々は,生成画像の忠実性を改善するために,生成過程に短時間で介入することを目的とした生成意味看護(gsn)の概念を導入する。 gsnの注意に基づく定式化(convention-and-excite)を用いることで、テキストプロンプト内のすべての主題トークンに対応するクロスアテンションユニットを洗練し、そのアクティベーションを強化し、モデルにテキストプロンプトで記述されたすべての主題を生成するように促す。 我々のアプローチを代替アプローチと比較し、様々なテキストプロンプトを通して、望ましい概念をより忠実に伝えることを実証する。

Recent text-to-image generative models have demonstrated an unparalleled ability to generate diverse and creative imagery guided by a target text prompt. While revolutionary, current state-of-the-art diffusion models may still fail in generating images that fully convey the semantics in the given text prompt. We analyze the publicly available Stable Diffusion model and assess the existence of catastrophic neglect, where the model fails to generate one or more of the subjects from the input prompt. Moreover, we find that in some cases the model also fails to correctly bind attributes (e.g., colors) to their corresponding subjects. To help mitigate these failure cases, we introduce the concept of Generative Semantic Nursing (GSN), where we seek to intervene in the generative process on the fly during inference time to improve the faithfulness of the generated images. Using an attention-based formulation of GSN, dubbed Attend-and-Excite, we guide the model to refine the cross-attention units to attend to all subject tokens in the text prompt and strengthen - or excite - their activations, encouraging the model to generate all subjects described in the text prompt. We compare our approach to alternative approaches and demonstrate that it conveys the desired concepts more faithfully across a range of text prompts.
翻訳日:2023-02-01 15:25:05 公開日:2023-01-31
# 窒素表面終端による浅ダイヤモンド原子欠陥の量子特性の増強

Enhanced quantum properties of shallow diamond atomic defects through nitrogen surface termination ( http://arxiv.org/abs/2301.13824v1 )

ライセンス: Link先を確認
R. Malkinson, M. K. Kuntumalla, A. Hoffman and N. Bar-Gill(参考訳) ダイヤモンドの窒素空隙(nv)中心は近年、様々な形態の量子センサーとして登場している。 ほとんどのアプリケーションは浅いNVの恩恵を受け、高い感度と解像度を実現している。 しかし、表面付近のnvs (<$ 20 nm の深さ) は、追加のノイズにより安定性とコヒーレンス特性が低下する。 非損傷条件下での窒素プラズマによる新しい表面改質技術を示し,NV光安定性と量子コヒーレンスを著しく向上させた。

Nitrogen vacancy (NV) centers in diamond have emerged in recent years as leading quantum sensors in various modalities. Most applications benefit from shallow NVs, enabling higher sensitivity and resolution. However, near surface NVs ($<$ 20 nm depth) suffer from reduced stability and coherence properties due to additional noise. We demonstrate a novel surface termination technique based on nitrogen plasma under non-damaging conditions, achieving significant improvement in NV optical stability and quantum coherence.
翻訳日:2023-02-01 15:24:40 公開日:2023-01-31
# マルチモーダル生成のための画像への接地言語モデル

Grounding Language Models to Images for Multimodal Generation ( http://arxiv.org/abs/2301.13823v1 )

ライセンス: Link先を確認
Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried(参考訳) 本稿では,事前学習されたテキストのみの言語モデルを視覚ドメインに接地し,任意にインターリーブされた画像・テキストデータを生成する効率的な手法を提案する。 本手法は,インコンテキスト学習やフリーフォームテキスト生成など,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。 我々は、言語モデルを凍結させ、相互モダリティ相互作用を可能にするために、入出力線形層を微調整する。 これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。 本研究では,コンテキスト画像検索やマルチモーダル対話などの接地タスクにおいて,強いゼロショット性能を実現し,魅力的な対話能力を示す。 当社のアプローチは市販の言語モデルと連携し,事前学習した言語モデルを視覚的に基盤とした環境で活用するための,効果的で汎用的なソリューションへの道を開く。

We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process and generate arbitrarily interleaved image-and-text data. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.
翻訳日:2023-02-01 15:24:32 公開日:2023-01-31
# 反対例からの指紋を用いたリバースエンジニアリング逆行攻撃

Reverse engineering adversarial attacks with fingerprints from adversarial examples ( http://arxiv.org/abs/2301.13869v1 )

ライセンス: Link先を確認
David Aaron Nicholson (1), Vincent Emanuele (1) ((1) Embedded Intelligence)(参考訳) 強い研究努力にもかかわらず、ディープニューラルネットワークは敵の例に弱いままである。 逆例は典型的には、良性入力に追加される摂動を最適化する攻撃アルゴリズムによって生成される。 多くのアルゴリズムが開発されている。 もし敵の例から攻撃アルゴリズムをリバースエンジニアリングできるなら、帰属の可能性から悪役を抑えることができる。 ここでは,アルゴリズムやパラメータを表すクラスに逆例を割り当てることを目的として,教師付き学習問題としてリバースエンジニアリングを定式化する。 我々の知る限り、これが可能かどうかは以前にも示されていない。 まず,無防備な単一ラベル画像分類モデルに対する攻撃により,画像に付加される摂動を分類できるかどうかを検証する。 のアプローチをとることで、深層ニューラルネットワークの感度を敵の例に利用し、これらの摂動を分類するように訓練します。 17クラスのデータセット(それぞれ4つのepsilon値で区切られた5つの攻撃)では、摂動でトレーニングされたresnet50モデルで99.4\%の精度を達成している。 次に、このタスクを摂動にアクセスせずに実行可能かどうかを問うとともに、信号処理アルゴリズムを用いてそれらの推定値を得る。 JPEGアルゴリズムは単純だが効果的な指紋認証(85.05\%の精度)として機能し、将来の作業に強力なベースラインを提供する。 我々は,無知で学習可能な指紋や,未知の攻撃を伴うオープンワールドシナリオに対して,我々のアプローチがどのように拡張されるかについて議論する。

In spite of intense research efforts, deep neural networks remain vulnerable to adversarial examples: an input that forces the network to confidently produce incorrect outputs. Adversarial examples are typically generated by an attack algorithm that optimizes a perturbation added to a benign input. Many such algorithms have been developed. If it were possible to reverse engineer attack algorithms from adversarial examples, this could deter bad actors because of the possibility of attribution. Here we formulate reverse engineering as a supervised learning problem where the goal is to assign an adversarial example to a class that represents the algorithm and parameters used. To our knowledge it has not been previously shown whether this is even possible. We first test whether we can classify the perturbations added to images by attacks on undefended single-label image classification models. Taking a ``fight fire with fire'' approach, we leverage the sensitivity of deep neural networks to adversarial examples, training them to classify these perturbations. On a 17-class dataset (5 attacks, 4 bounded with 4 epsilon values each), we achieve an accuracy of 99.4\% with a ResNet50 model trained on the perturbations. We then ask whether we can perform this task without access to the perturbations, obtaining an estimate of them with signal processing algorithms, an approach we call ``fingerprinting''. We find the JPEG algorithm serves as a simple yet effective fingerprinter (85.05\% accuracy), providing a strong baseline for future work. We discuss how our approach can be extended to attack agnostic, learnable fingerprints, and to open-world scenarios with unknown attacks.
翻訳日:2023-02-01 15:18:22 公開日:2023-01-31
# PADL:言語指向物理に基づく文字制御

PADL: Language-Directed Physics-Based Character Control ( http://arxiv.org/abs/2301.13868v1 )

ライセンス: Link先を確認
Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng(参考訳) 自然と生命のような動きをシミュレートしたキャラクターのために合成できるシステムの開発は、長い間コンピュータアニメーションに焦点を合わせてきた。 しかし、これらのシステムが下流アプリケーションに役立てるためには、高品質なモーションを生成するだけでなく、ユーザーが文字の振舞いを指示できるアクセス可能で汎用的なインターフェースを提供する必要がある。 自然言語は、ユーザの意図を特定するためのシンプルで表現力のある媒体を提供する。 自然言語処理(NLP)の最近の進歩は、画像生成やプログラム合成といった用途に言語ベースのインタフェースを効果的に活用することを示してきた。 本研究では,NLPにおける最近のイノベーションを活用し,物理に基づくキャラクターアニメーションのための言語指向コントローラの開発に向け,PADLを提案する。 padlを使えば、文字が実行するべきハイレベルなタスクと低レベルのスキルの両方を指定するための自然言語コマンドを発行できる。 本稿では,高レベル言語コマンドを低レベル制御にマッピングする訓練方針を,文字が所望のタスクやユーザのコマンドで指定したスキルを実行可能にするための,敵対的模倣学習手法を提案する。 さらに,言語コマンドから高レベルタスクの目的を決定するために,言語に基づく複数選択質問応答アプローチを利用するマルチタスク集約手法を提案する。 我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑なモータースキルを発揮できることを示す。

Developing systems that can synthesize natural and life-like motions for simulated characters has long been a focus for computer animation. But in order for these systems to be useful for downstream applications, they need not only produce high-quality motions, but must also provide an accessible and versatile interface through which users can direct a character's behaviors. Natural language provides a simple-to-use and expressive medium for specifying a user's intent. Recent breakthroughs in natural language processing (NLP) have demonstrated effective use of language-based interfaces for applications such as image generation and program synthesis. In this work, we present PADL, which leverages recent innovations in NLP in order to take steps towards developing language-directed controllers for physics-based character animation. PADL allows users to issue natural language commands for specifying both high-level tasks and low-level skills that a character should perform. We present an adversarial imitation learning approach for training policies to map high-level language commands to low-level controls that enable a character to perform the desired task and skill specified by a user's commands. Furthermore, we propose a multi-task aggregation method that leverages a language-based multiple-choice question-answering approach to determine high-level task objectives from language commands. We show that our framework can be applied to effectively direct a simulated humanoid character to perform a diverse array of complex motor skills.
翻訳日:2023-02-01 15:17:56 公開日:2023-01-31
# ChatGPTの数学的機能

Mathematical Capabilities of ChatGPT ( http://arxiv.org/abs/2301.13867v1 )

ライセンス: Link先を確認
Simon Frieder, Luca Pinchetti, Ryan-Rhys Griffiths, Tommaso Salvatori, Thomas Lukasiewicz, Philipp Christian Petersen, Alexis Chevalier, Julius Berner(参考訳) 我々は、ChatGPTの数学的能力について、公開データセットと手作りデータセットで検証し、その性能をMinervaのような数学的コーパスで訓練された他のモデルと比較して測定する。 また,ChatGPTが数学者の日常的な職業活動に現れる様々なユースケース(質問応答,定理探索)をエミュレートすることにより,プロの数学者にとって有用なアシスタントになるかどうかを検証した。 形式数学とは対照的に、公式証明の大規模なデータベース(例えば、Lean Mathematical Library)は、自然言語数学の現在のデータセットであり、言語モデルのベンチマークに使われる。 我々は新しいデータセット、GHOSTSを導入することでこの問題に対処する。 このデータセットは,(1)大学院レベルの数学を対象とし,(2)言語モデルの数学的能力に関する総合的な概要を提供する数学研究者による最初の自然言語データセットである。 GHOSTSでChatGPTをベンチマークし、粒度の細かい基準に対して性能を評価する。 より高度な数学的理解の観点から,ChatGPTと(将来の)大規模言語モデルの比較を支援するために,この新しいデータセットを一般公開する。 メディアにおける多くの肯定的な報告(選択バイアスの可能性)とは対照的に、ChatGPTの数学的能力は平均的な数学の大学院生のそれよりもかなり低い。 以上の結果から,ChatGPTは解答に失敗することが多い。 ですから,大学試験に合格するためにそれを使うという目標ならば,平均的な仲間からコピーした方がよいでしょう!

We investigate the mathematical capabilities of ChatGPT by testing it on publicly available datasets, as well as hand-crafted ones, and measuring its performance against other models trained on a mathematical corpus, such as Minerva. We also test whether ChatGPT can be a useful assistant to professional mathematicians by emulating various use cases that come up in the daily professional activities of mathematicians (question answering, theorem searching). In contrast to formal mathematics, where large databases of formal proofs are available (e.g., the Lean Mathematical Library), current datasets of natural-language mathematics, used to benchmark language models, only cover elementary mathematics. We address this issue by introducing a new dataset: GHOSTS. It is the first natural-language dataset made and curated by working researchers in mathematics that (1) aims to cover graduate-level mathematics and (2) provides a holistic overview of the mathematical capabilities of language models. We benchmark ChatGPT on GHOSTS and evaluate performance against fine-grained criteria. We make this new dataset publicly available to assist a community-driven comparison of ChatGPT with (future) large language models in terms of advanced mathematical comprehension. We conclude that contrary to many positive reports in the media (a potential case of selection bias), ChatGPT's mathematical abilities are significantly below those of an average mathematics graduate student. Our results show that ChatGPT often understands the question but fails to provide correct solutions. Hence, if your goal is to use it to pass a university exam, you would be better off copying from your average peer!
翻訳日:2023-02-01 15:17:33 公開日:2023-01-31
# 点雲を用いた半監督からオムニ監督室レイアウト推定へ

From Semi-supervised to Omni-supervised Room Layout Estimation Using Point Clouds ( http://arxiv.org/abs/2301.13865v1 )

ライセンス: Link先を確認
Huan-ang Gao, Beiwen Tian, Pengfei Li, Xiaoxue Chen, Hao Zhao, Guyue Zhou, Yurong Chen and Hongbin Zha(参考訳) ルームレイアウト推定は、環境センシングとモーションプランニングの両方のメリットを享受する、ロボットビジョンタスクである。 しかし、ポイントクラウド(pcs)を用いたレイアウト推定は、アノテーションの難しさにより、データ不足に苦しんでいる。 そこで我々は,モデル指数移動平均化の概念に基づいて,このタスクの半教師付き設定に対処する。 しかし、pcベースのレイアウト推定の最先端(sota)ソリューションにこのスキームを適用するのは簡単ではない。 この目的のために、レイアウトクワッドに適したメトリクスに基づいて、クワッドセットマッチング戦略といくつかの一貫性損失を定義する。 さらに,クワッドとpc間のハイブリッド距離尺度の分布を2成分に分解するオンライン擬似ラベル収穫アルゴリズムを提案する。 このテクニックは手作業によるしきい値選択を必要とせず、直感的にクワッドを信頼できるレイアウトポイントに合わせるように促す。 驚くべきことに、このフレームワークは、完全に教師された設定でも機能し、ScanNetベンチマークで新しいSOTAを達成する。 最後に、我々はセミ教師付きセッティングをリアルなオムニ教師付きセッティングに推し進め、新たに注釈付けされたARKitScenesテストセットでの大幅なパフォーマンス向上を示す。 私たちのコード、データ、モデルは、このリポジトリでリリースされます。

Room layout estimation is a long-existing robotic vision task that benefits both environment sensing and motion planning. However, layout estimation using point clouds (PCs) still suffers from data scarcity due to annotation difficulty. As such, we address the semi-supervised setting of this task based upon the idea of model exponential moving averaging. But adapting this scheme to the state-of-the-art (SOTA) solution for PC-based layout estimation is not straightforward. To this end, we define a quad set matching strategy and several consistency losses based upon metrics tailored for layout quads. Besides, we propose a new online pseudo-label harvesting algorithm that decomposes the distribution of a hybrid distance measure between quads and PC into two components. This technique does not need manual threshold selection and intuitively encourages quads to align with reliable layout points. Surprisingly, this framework also works for the fully-supervised setting, achieving a new SOTA on the ScanNet benchmark. Last but not least, we also push the semi-supervised setting to the realistic omni-supervised setting, demonstrating significantly promoted performance on a newly annotated ARKitScenes testing set. Our codes, data and models are released in this repository.
翻訳日:2023-02-01 15:17:07 公開日:2023-01-31
# バックドア攻撃に対する防御のためのサルエント条件拡散

Salient Conditional Diffusion for Defending Against Backdoor Attacks ( http://arxiv.org/abs/2301.13862v1 )

ライセンス: Link先を確認
Brandon B. May, N. Joseph Tatro, Piyush Kumar, Nathan Shnidman(参考訳) 本研究では,バックドア攻撃に対する最先端の防御手法であるSalient Conditional Diffusion (Sancdifi)を提案する。 Sancdifi は denoising diffusion probabilistic model (DDPM) を用いて、ノイズのある画像を分解し、学習した逆拡散を用いてその画像を復元する。 重要な点として,我々は高感度マップベースのマスクを計算して拡散を条件付け,DDPMによる最も高精細なピクセルへの拡散を強くする。 その結果、Sancdifiはバックドア攻撃によるデータのトリガーを拡散させるのに非常に効果的である。 同時に、クリーンなデータに適用した際の健全な特徴を確実に回復する。 この性能は、トロイの木馬ネットワークのモデルパラメータにアクセスする必要がなく、つまり、サンディフィはブラックボックスディフェンスとして動作する。

We propose a novel algorithm, Salient Conditional Diffusion (Sancdifi), a state-of-the-art defense against backdoor attacks. Sancdifi uses a denoising diffusion probabilistic model (DDPM) to degrade an image with noise and then recover said image using the learned reverse diffusion. Critically, we compute saliency map-based masks to condition our diffusion, allowing for stronger diffusion on the most salient pixels by the DDPM. As a result, Sancdifi is highly effective at diffusing out triggers in data poisoned by backdoor attacks. At the same time, it reliably recovers salient features when applied to clean data. This performance is achieved without requiring access to the model parameters of the Trojan network, meaning Sancdifi operates as a black-box defense.
翻訳日:2023-02-01 15:16:50 公開日:2023-01-31
# 断熱量子コンピューティングにおける一階量子相転移のバウンディング

Bounding first-order quantum phase transitions in adiabatic quantum computing ( http://arxiv.org/abs/2301.13861v1 )

ライセンス: Link先を確認
Matthias Werner, Artur Garc\'ia-S\'aez, Marta P. Estarellas(参考訳) 断熱量子計算(AQC)の文脈では、局所化現象による一階量子相転移(QPT)により、AQCはアニーリング経路に沿ってハミルトニアンの最小スペクトルギャップを指数関数的に減少させることで失敗すると主張している。 スペクトルギャップの消失は、しばしば局所的な最小値における基底状態の局所化と関連付けられ、アニーリングの後半段階において、システムがグローバル最小値にトンネルすることを要求される。 この現象を避けるために、ハミルトン派を慎重に設計する最近の手法が提案されている。 しかし、qptがaqcアルゴリズムを失敗させる様々なパラメータと条件の効果に関する包括的理論を定式化することは依然として課題である。 グラフ理論の概念を組み込んだ本研究では、アニール経路に沿ったハミルトニアンのグラフ量とqptの発生をリンクする。 これらのリンクにより、アニールパスに沿った最小のスペクトルギャップの位置の境界を導出することができ、aqcアルゴリズムの実行時間を改善するための戦略を設計するためのツールボックスが強化される。

In the context of adiabatic quantum computation (AQC), it has been argued that first-order quantum phase transitions (QPTs) due to localisation phenomena cause AQC to fail by exponentially decreasing the minimal spectral gap of the Hamiltonian along the annealing path. The vanishing of the spectral gap is often linked to the localisation of the ground state in a local minimum, requiring the system to tunnel into the global minimum at a later stage of the annealing. Recent methods have been proposed to avoid this phenomena by carefully designing the involved Hamiltonians. However, it remains a challenge to formulate a comprehensive theory on the effect of the various parameters and the conditions under which QPTs make the AQC algorithm fail. Equipped with concepts from graph theory, in this work we link graph quantities associated to the Hamiltonians along the anneal path with the occurrence of QPTs. These links allow us to derive bounds on the location of the minimal spectral gap along the anneal path, augmenting the toolbox for the design of strategies to improve the runtime of AQC algorithms.
翻訳日:2023-02-01 15:16:36 公開日:2023-01-31
# POMDPsでの学習は、近視可観測性に有効である

Learning in POMDPs is Sample-Efficient with Hindsight Observability ( http://arxiv.org/abs/2301.13857v1 )

ライセンス: Link先を確認
Jonathan N. Lee, Alekh Agarwal, Christoph Dann, Tong Zhang(参考訳) POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難解であることを示している。 しかし、多くの現実的な問題では、学習過程のどこかの時点でより多くの情報が明らかにされるか、計算できる。 ロボット工学からデータセンタースケジューリングまで多種多様な応用を動機として,潜伏状態が学習者に対して後向きかつ訓練中にのみ明らかとなるPOMDPとして「設定」(\setshort)を定式化する。 統計的に難易度の高いPOMDPであっても,後方観測性のあるサンプル効率の高い表型および関数近似設定のための新しいアルゴリズムを導入する。 表計算アルゴリズムが潜時状態と観測基準に依存する場合に最適であることを示す下界を与える。

POMDPs capture a broad class of decision making problems, but hardness results suggest that learning is intractable even in simple settings due to the inherent partial observability. However, in many realistic problems, more information is either revealed or can be computed during some point of the learning process. Motivated by diverse applications ranging from robotics to data center scheduling, we formulate a \setting (\setshort) as a POMDP where the latent states are revealed to the learner in hindsight and only during training. We introduce new algorithms for the tabular and function approximation settings that are provably sample-efficient with hindsight observability, even in POMDPs that would otherwise be statistically intractable. We give a lower bound showing that the tabular algorithm is optimal in its dependence on latent state and observation cardinalities.
翻訳日:2023-02-01 15:16:15 公開日:2023-01-31
# Simplexランダム機能

Simplex Random Features ( http://arxiv.org/abs/2301.13856v1 )

ライセンス: Link先を確認
Isaac Reid, Krzysztof Choromanski, Valerii Likhosherstov, Adrian Weller(参考訳) ランダム投影ベクトルの幾何学的相関によるソフトマックスとガウス核の非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。 我々は、SimRFが、これらのカーネルの非偏り推定値に最小の平均二乗誤差(MSE)を、重量非依存の幾何結合正の正のランダム特徴(PRF)機構のクラスで提供し、これまでで最も正確な直交ランダム特徴を観測可能な余分なコストで大幅に上回っていることを証明した。 我々はより計算コストのかかるSimRFs+変種を提示するが、これはより広範な重量依存幾何学的結合スキーム(ランダムベクトル方向とノルムの相関を許容する)の族において漸近的に最適である。 広範にわたる実証研究において,SimRFsは,ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において一貫した利得を示す。

We present Simplex Random Features (SimRFs), a new random feature (RF) mechanism for unbiased approximation of the softmax and Gaussian kernels by geometrical correlation of random projection vectors. We prove that SimRFs provide the smallest possible mean square error (MSE) on unbiased estimates of these kernels among the class of weight-independent geometrically-coupled positive random feature (PRF) mechanisms, substantially outperforming the previously most accurate Orthogonal Random Features at no observable extra cost. We present a more computationally expensive SimRFs+ variant, which we prove is asymptotically optimal in the broader family of weight-dependent geometrical coupling schemes (which permit correlations between random vector directions and norms). In extensive empirical studies, we show consistent gains provided by SimRFs in settings including pointwise kernel estimation, nonparametric classification and scalable Transformers.
翻訳日:2023-02-01 15:15:58 公開日:2023-01-31
# ガウス雑音は非バイアス平均推定にほぼ最適である

Gaussian Noise is Nearly Instance Optimal for Private Unbiased Mean Estimation ( http://arxiv.org/abs/2301.13850v1 )

ライセンス: Link先を確認
Aleksandar Nikolov and Haohua Tang(参考訳) 偏りのない高次元平均推定器を微分プライバシーで検討する。 固定凸領域$K$ in $\mathbb{R}^d$ から引き出されたすべてのデータセットに対して、期待出力が入力データセットの平均値に等しい差分プライベート機構を考える。 偏微分プライバシーの設定において、そのような偏りのない平均推定器は、慎重に選択された共分散を伴うガウス雑音を付加するメカニズムと同じくらいの誤差をもたらすことを示す。 これは、任意の$p \ge 2$に対して$\ell_p$エラーに対して誤差が測定されるときである。 この結果をローカルな差分プライバシーに拡張し、差分プライバシを近似するが、後者の場合、エラーの下位境界はデータセットまたは近隣のデータセットに保持される。 我々はまた、その結果を$K$以上の分布から i.d.~samples を取り出す機構にまで拡張し、分布の平均に関して偏りがない。

We investigate unbiased high-dimensional mean estimators in differential privacy. We consider differentially private mechanisms whose expected output equals the mean of the input dataset, for every dataset drawn from a fixed convex domain $K$ in $\mathbb{R}^d$. In the setting of concentrated differential privacy, we show that, for every input such an unbiased mean estimator introduces approximately at least as much error as a mechanism that adds Gaussian noise with a carefully chosen covariance. This is true when the error is measured with respect to $\ell_p$ error for any $p \ge 2$. We extend this result to local differential privacy, and to approximate differential privacy, but for the latter the error lower bound holds either for a dataset or for a neighboring dataset. We also extend our results to mechanisms that take i.i.d.~samples from a distribution over $K$ and are unbiased with respect to the mean of the distribution.
翻訳日:2023-02-01 15:15:14 公開日:2023-01-31
# 触覚に基づく物体挿入ポリシーのゼロショット転送

Zero-Shot Transfer of Haptics-Based Object Insertion Policies ( http://arxiv.org/abs/2301.12587v2 )

ライセンス: Link先を確認
Samarth Brahmbhatt, Ankur Deka, Andrew Spielberg, Matthias M\"uller(参考訳) 人間は自然に、食器洗い機を積んだり、本棚を積んだりといった、接触の多いタスク中に触覚フィードバックを利用する。 現在のロボットシステムは予期せぬ接触を避けることに注力しており、しばしば戦略的に配置された環境センサーに依存している。 近年,実際のロボット上での接触探索操作ポリシの訓練が進められている。 しかし、シム・トゥ・リアルギャップを橋渡しするには何らかの実世界適応が必要であり、全てのシナリオで実現不可能である。 本稿では,プレートをスロット式ホルダに積載するコンタクトリッチホームタスクのシミュレーションにおいて,実際のロボットに微調整を行なわずに伝達する接触探索操作ポリシーを訓練する。 我々は、時間遅延モデリング、メモリ表現、ドメインのランダム化など、このゼロショット転送に必要な様々な要因について検討する。 我々の方針は、最小限のsim-to-realギャップで伝達し、ヒューリスティックかつ学習ベースラインを著しく上回る。 大きさや重量の異なるプレートにも一般化される。 デモビデオとコードはhttps://sites.google.com/view/compliant-object-insertionで入手できる。

Humans naturally exploit haptic feedback during contact-rich tasks like loading a dishwasher or stocking a bookshelf. Current robotic systems focus on avoiding unexpected contact, often relying on strategically placed environment sensors. Recently, contact-exploiting manipulation policies have been trained in simulation and deployed on real robots. However, they require some form of real-world adaptation to bridge the sim-to-real gap, which might not be feasible in all scenarios. In this paper we train a contact-exploiting manipulation policy in simulation for the contact-rich household task of loading plates into a slotted holder, which transfers without any fine-tuning to the real robot. We investigate various factors necessary for this zero-shot transfer, like time delay modeling, memory representation, and domain randomization. Our policy transfers with minimal sim-to-real gap and significantly outperforms heuristic and learnt baselines. It also generalizes to plates of different sizes and weights. Demonstration videos and code are available at https://sites.google.com/view/compliant-object-insertion.
翻訳日:2023-02-01 12:49:27 公開日:2023-01-31
# 拒否する学習はOOD検出に一致する: すべての棄権は平等か?

Learning to reject meets OOD detection: Are all abstentions created equal? ( http://arxiv.org/abs/2301.12386v2 )

ライセンス: Link先を確認
Harikrishna Narasimhan, Aditya Krishna Menon, Wittawat Jitkrittum, Sanjiv Kumar(参考訳) L2Rでは、停止すべき"ハード"サンプルを検出し、OOD検出では、トレーニング分布から引き出されていない"アウトリー"サンプルを検出することが目標である。 興味深いことに、並列文献で開発されたにもかかわらず、どちらの問題も単純なベースラインを共有している: 最大ソフトマックス確率(MSP)スコア。 しかし、これらの問題がどのように関連しているかの理解は限られている。 本稿では,これらの問題を形式的に関連付け,その解決方法を示す。 MSPは理論的にL2Rに最適であるが,OOD検出には理論的に準最適であることを示す。 次に、L2RとOODの両方を一般化する統一定式化のためのベイズ最適分類器を特徴付ける。 そこで我々は,インリアとOODの両方のサンプルを吸収するプラグインアプローチを設計し,総吸収予算を制約する。 OODデータセットのベンチマーク実験により,本手法は両文献のベースラインと比較して,競合分類とOOD検出性能が向上することを示した。

Learning to reject (L2R) and out-of-distribution (OOD) detection are two classical problems, each of which involve detecting certain abnormal samples: in L2R, the goal is to detect "hard" samples on which to abstain, while in OOD detection, the goal is to detect "outlier" samples not drawn from the training distribution. Intriguingly, despite being developed in parallel literatures, both problems share a simple baseline: the maximum softmax probability (MSP) score. However, there is limited understanding of precisely how these problems relate. In this paper, we formally relate these problems, and show how they may be jointly solved. We first show that while MSP is theoretically optimal for L2R, it can be theoretically sub-optimal for OOD detection in some important practical settings. We then characterize the Bayes-optimal classifier for a unified formulation that generalizes both L2R and OOD detection. Based on this, we design a plug-in approach for learning to abstain on both inlier and OOD samples, while constraining the total abstention budget. Experiments on benchmark OOD datasets demonstrate that our approach yields competitive classification and OOD detection performance compared to baselines from both literatures.
翻訳日:2023-02-01 12:49:11 公開日:2023-01-31
# time out of mind: 感情と話者を条件とした音声生成率

Time out of Mind: Generating Rate of Speech conditioned on emotion and speaker ( http://arxiv.org/abs/2301.12331v2 )

ライセンス: Link先を確認
Navjot Kaur, Paige Tuttosi(参考訳) 音声合成は、過去10年間に大幅に改善され、非常に知的な声になった。 さらなる調査により、条件付き感情表現を含む可変発話を生成できるモデルが得られた。 しかし問題は、フレーズレベルの修正と韻律的な発声機能に焦点を当てることにある。 CREMA-Dデータセットを使用して、感情を条件としたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。 これらの単語長は中性音声に対して相対的であり、音声合成マークアップ言語(SSML)とテキスト音声合成システム(TTS)を通して、より表現力のある音声を生成することができる。 さらに、生成モデルを暗黙的な最大推定(IMLE)を用いて訓練し、GANとの比較分析を含む。 中性音声に対する客観的尺度の性能向上と,アウト・オブ・ボックスモデルと比較して幸福音声の時間アライメントの改善が達成できた。 しかし, 主観評価のさらなる検討が必要である。

Voice synthesis has seen significant improvements in the past decade resulting in highly intelligible voices. Further investigations have resulted in models that can produce variable speech, including conditional emotional expression. The problem lies, however, in a focus on phrase-level modifications and prosodic vocal features. Using the CREMA-D dataset we have trained a GAN conditioned on emotion to generate worth lengths for a given input text. These word lengths are relative to neutral speech and can be provided, through speech synthesis markup language (SSML) to a text-to-speech (TTS) system to generate more expressive speech. Additionally, a generative model is also trained using implicit maximum likelihood estimation (IMLE) and a comparative analysis with GANs is included. We were able to achieve better performances on objective measures for neutral speech, and better time alignment for happy speech when compared to an out-of-box model. However, further investigation of subjective evaluation is required.
翻訳日:2023-02-01 12:48:52 公開日:2023-01-31
# 多項ロジットモデルにおける最適アソートメントの推理

Inference on the Optimal Assortment in the Multinomial Logit Model ( http://arxiv.org/abs/2301.12254v2 )

ライセンス: Link先を確認
Shuting Shen, Xi Chen, Ethan X. Fang, Junwei Lu(参考訳) 過去数十年間、アソシエーションの最適化は実践的な重要性から活発な探索を受けてきた。 最適化アルゴリズムと潜在スコア推定を扱う広範な文献があるにもかかわらず、最適な分類のための不確実性定量化は依然として検討され、非常に実用的な意味を持つ。 完全な最適提案セットを推定し、回復する代わりに、意思決定者は、最適集合にいくつかの興味のある製品を含めるべきかどうか、最適集合が含めるべき製品のカテゴリ数など、与えられた性質が最適集合に対して真であるかどうかをテストすることに関心がある。 本稿では,そのような特性をテストするための新しい推論フレームワークを提案する。 我々は、広く採用されている多項ロジット(mnl)モデルを検討し、各顧客が製品に関連付けられた嗜好スコアに比例する確率で提供された製品の中でアイテムを購入すると仮定する。 我々は、限界収益ギャップの符号変化点検出に伴う不確実性を定量化するために、一般的な最適収差特性を推定する。 限界収益ギャップ推定器の漸近正規度を示し、ギャップ推定器を介して最大統計値を構築し、符号変化点を検出する。 最大統計量の分布をマルチプライアブートストラップ法で近似することにより,有効なテスト手順を提案する。 また,本手法の性能評価のための数値実験を行った。

Assortment optimization has received active explorations in the past few decades due to its practical importance. Despite the extensive literature dealing with optimization algorithms and latent score estimation, uncertainty quantification for the optimal assortment still needs to be explored and is of great practical significance. Instead of estimating and recovering the complete optimal offer set, decision-makers may only be interested in testing whether a given property holds true for the optimal assortment, such as whether they should include several products of interest in the optimal set, or how many categories of products the optimal set should include. This paper proposes a novel inferential framework for testing such properties. We consider the widely adopted multinomial logit (MNL) model, where we assume that each customer will purchase an item within the offered products with a probability proportional to the underlying preference score associated with the product. We reduce inferring a general optimal assortment property to quantifying the uncertainty associated with the sign change point detection of the marginal revenue gaps. We show the asymptotic normality of the marginal revenue gap estimator, and construct a maximum statistic via the gap estimators to detect the sign change point. By approximating the distribution of the maximum statistic with multiplier bootstrap techniques, we propose a valid testing procedure. We also conduct numerical experiments to assess the performance of our method.
翻訳日:2023-02-01 12:48:35 公開日:2023-01-31
# レートレスオートエンコーダコード:デコード遅延と信頼性のトレードオフ

Rateless Autoencoder Codes: Trading off Decoding Delay and Reliability ( http://arxiv.org/abs/2301.12231v2 )

ライセンス: Link先を確認
Vukan Ninkovic, Dejan Vukobratovic, Christian H\"ager, Henk Wymeersch, Alexandre Graell i Amat(参考訳) 今日の通信システムの多くは、符号化されたメッセージ全体(コードワード)を受信した後、信頼できるメッセージリカバリをターゲットに設計されている。 しかし、多くの現実的なシナリオでは、完全なコードワードを受け取る前に送信プロセスが中断されることがある。 本稿では、ノイズの多いコードワードが完全に受信される前に、送信メッセージの復号に適した、新しいレートレスオートエンコーダ(AE)ベースのコード設計を提案する。 訓練中に適用される特定のドロップアウト戦略を用いることで、レートレスae符号は復号遅延と信頼性のトレードオフを可能にし、さらに受信されたコードワード記号で後者を優雅に改善する。 提案するレートレスaeは,より低い復号遅延で信頼性をトレードオフすることが望ましいシナリオにおいて,従来のae設計を大きく上回っている。

Most of today's communication systems are designed to target reliable message recovery after receiving the entire encoded message (codeword). However, in many practical scenarios, the transmission process may be interrupted before receiving the complete codeword. This paper proposes a novel rateless autoencoder (AE)-based code design suitable for decoding the transmitted message before the noisy codeword is fully received. Using particular dropout strategies applied during the training process, rateless AE codes allow to trade off between decoding delay and reliability, providing a graceful improvement of the latter with each additionally received codeword symbol. The proposed rateless AEs significantly outperform the conventional AE designs for scenarios where it is desirable to trade off reliability for lower decoding delay.
翻訳日:2023-02-01 12:48:12 公開日:2023-01-31
# 局所コントラストとグローバルコンテクスト情報が赤外線を再び小さくする

Local Contrast and Global Contextual Information Make Infrared Small Object Salient Again ( http://arxiv.org/abs/2301.12093v2 )

ライセンス: Link先を確認
Chenyi Wang, Huan Wang, Peiwen Pan(参考訳) 赤外線小物体検出(英語: infrared small object detection、isos)は、赤外線画像の背景から複数の画素だけで覆われた小物体を分割することを目的としている。 それは、大きな挑戦です。 1) 小物には,十分な強度,形状及びテクスチャ情報がないこと。 2) 検出モデル,例えばディープニューラルネットワーク,高レベルのセマンティック特徴と画像レベルの受容場を連続的なダウンサンプリングによって取得するプロセスにおいて,小さなオブジェクトは容易に失われる。 本稿では,この2つの問題をうまく処理できるUCFNetと呼ばれるISOSの信頼性検出モデルを提案する。 中心差分畳み込み(CDC)と高速フーリエ畳み込み(FFC)を基盤としている。 一方、CDCは、ISOSタスクを扱う人間の視覚システムにおいて、コントラスト情報が非常に重要であるため、小さなオブジェクトと背景の間のコントラスト情報を学習するためにネットワークを効果的にガイドすることができる。 一方、ffcは画像レベルの受容野を得て、小さなオブジェクトが圧倒されるのを防ぎながら、グローバル情報を抽出することができる。いくつかの公開データセットにおける実験では、この手法が最先端のisosモデルを大幅に上回っており、より優れたisos深層モデルを設計するための有用なガイドラインを提供することができる。 コードはもうすぐ入手できる。

Infrared small object detection (ISOS) aims to segment small objects only covered with several pixels from clutter background in infrared images. It's of great challenge due to: 1) small objects lack of sufficient intensity, shape and texture information; 2) small objects are easily lost in the process where detection models, say deep neural networks, obtain high-level semantic features and image-level receptive fields through successive downsampling. This paper proposes a reliable detection model for ISOS, dubbed UCFNet, which can handle well the two issues. It builds upon central difference convolution (CDC) and fast Fourier convolution (FFC). On one hand, CDC can effectively guide the network to learn the contrast information between small objects and the background, as the contrast information is very essential in human visual system dealing with the ISOS task. On the other hand, FFC can gain image-level receptive fields and extract global information while preventing small objects from being overwhelmed.Experiments on several public datasets demonstrate that our method significantly outperforms the state-of-the-art ISOS models, and can provide useful guidelines for designing better ISOS deep models. Codes will be available soon.
翻訳日:2023-02-01 12:47:58 公開日:2023-01-31
# オフポリティ評価のための変分枝モデル

Variational Latent Branching Model for Off-Policy Evaluation ( http://arxiv.org/abs/2301.12056v2 )

ライセンス: Link先を確認
Qitong Gao, Ge Gao, Min Chi, Miroslav Pajic(参考訳) モデルに基づく手法は、最近、オフ政治評価(OPE)に大きな可能性を示しており、行動政策によって誘導されるオフライン軌道は、シミュレーションされた軌道のロールアウトとポリシーの性能評価に使用されるマルコフ決定過程(MDP)の遷移に適合している。 モデルベースのOPE手法には2つの課題がある。 まず、オフライントラジェクタは通常固定されるため、状態とアクションスペースが制限される傾向がある。 第二に、モデルに基づく手法の性能はパラメータの初期化に敏感である。 本研究では, 環境力学をコンパクトな潜在空間として定式化し, 次の状態と報酬をサンプリングすることにより, MDPの遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。 具体的には、VLBMの変分(符号化)部と生成(復号)部の間の情報の流れを円滑にすることで、限られたトレーニングデータの基礎となる情報を取り出すために設計された、リカレント状態アライメント(RSA)を用いて、変分推論フレームワークを活用して拡張する。 さらに,ランダムに初期化されたモデル重みに対するモデルのロバスト性を改善するために,分岐アーキテクチャを導入する。 VLBMの有効性は、Dep OPE(DOPE)ベンチマークで評価され、トレーニング軌道は状態-作用空間の様々なカバレッジをもたらすように設計されている。 VLBM は既存の OPE 手法よりも高い性能を示す。

Model-based methods have recently shown great potential for off-policy evaluation (OPE); offline trajectories induced by behavioral policies are fitted to transitions of Markov decision processes (MDPs), which are used to rollout simulated trajectories and estimate the performance of policies. Model-based OPE methods face two key challenges. First, as offline trajectories are usually fixed, they tend to cover limited state and action space. Second, the performance of model-based methods can be sensitive to the initialization of their parameters. In this work, we propose the variational latent branching model (VLBM) to learn the transition function of MDPs by formulating the environmental dynamics as a compact latent space, from which the next states and rewards are then sampled. Specifically, VLBM leverages and extends the variational inference framework with the recurrent state alignment (RSA), which is designed to capture as much information underlying the limited training data, by smoothing out the information flow between the variational (encoding) and generative (decoding) part of VLBM. Moreover, we also introduce the branching architecture to improve the model's robustness against randomly initialized model weights. The effectiveness of the VLBM is evaluated on the deep OPE (DOPE) benchmark, from which the training trajectories are designed to result in varied coverage of the state-action space. We show that the VLBM outperforms existing state-of-the-art OPE methods in general.
翻訳日:2023-02-01 12:47:35 公開日:2023-01-31
# 文書要約に知識を組み込む: GPT-2における事前修正の適用

Incorporating Knowledge into Document Summarization: an Application of Prefix-Tuning on GPT-2 ( http://arxiv.org/abs/2301.11719v2 )

ライセンス: Link先を確認
Chen Chen, Wei Emma Zhang, Alireza Seyed Shakeri(参考訳) 近年の文書要約技術の発展にもかかわらず、生成した要約と原文との事実的不一致は時折起こり続けている。 本稿では,学習可能な連続プレフィックスプロンプトと離散的なプロンプトを併用してモデル生成を支援するプレフィックスチューニング手法を提案する。 生成した要約における事実保存の改善は、知識強化文書要約にこのプレフィックスチューニングに基づく手法を適用する効果を示し、他の自然言語処理タスクにも大きな可能性を示す。

Despite the great development of document summarization techniques nowadays, factual inconsistencies between the generated summaries and the original text still occur from time to time. This paper proposes a prefix-tuning-based approach that uses a set of trainable continuous prefix prompt together with discrete prompts to aid model generation, which makes a significant impact on both CNN/Daily Mail and XSum summaries generated using GPT-2. The improvements on fact preservation in the generated summaries indicates the effectiveness of adopting this prefix-tuning-based method in knowledge-enhanced document summarization, and also shows a great potential on other natural language processing tasks.
翻訳日:2023-02-01 12:47:09 公開日:2023-01-31
# 低線量CTモデルにおける拡散デノジング

Diffusion Denoising for Low-Dose-CT Model ( http://arxiv.org/abs/2301.11482v2 )

ライセンス: Link先を確認
Runyi Li(参考訳) 低線量CT(LDCT)再建は画像解析において重要な課題である。 近年,深層学習に基づく手法が数多く登場し,その効果が証明されている。 しかし、これらの手法は主に、フル線量と4分の1線量のCT画像を必要とする教師付きアーキテクチャに従っており、解は特定の測定に大きく依存している。 本研究では, DDLMと呼ばれるDNOising Diffusion LDCTモデルを導入し, 条件付きサンプリングによる無ノイズCT画像を生成する。 DDLMは事前訓練モデルを用いており、トレーニングやチューニングは必要としないため、提案手法は教師なしである。 LDCT画像を用いた実験では、DDLMの予測時間が少なく、他の最先端の手法を上回り、正確かつ効率的であることが示されている。 実装コードはまもなく公開されます。

Low-dose Computed Tomography (LDCT) reconstruction is an important task in medical image analysis. Recent years have seen many deep learning based methods, proved to be effective in this area. However, these methods mostly follow a supervised architecture, which needs paired CT image of full dose and quarter dose, and the solution is highly dependent on specific measurements. In this work, we introduce Denoising Diffusion LDCT Model, dubbed as DDLM, generating noise-free CT image using conditioned sampling. DDLM uses pretrained model, and need no training nor tuning process, thus our proposal is in unsupervised manner. Experiments on LDCT images have shown comparable performance of DDLM using less inference time, surpassing other state-of-the-art methods, proving both accurate and efficient. Implementation code will be set to public soon.
翻訳日:2023-02-01 12:46:58 公開日:2023-01-31
# STEEL:特異性を考慮した強化学習

STEEL: Singularity-aware Reinforcement Learning ( http://arxiv.org/abs/2301.13152v2 )

ライセンス: Link先を確認
Xiaohong Chen, Zhengling Qi, Runzhe Wan(参考訳) バッチ強化学習 (RL) は, 予測総報酬を最大化するために, 事前収集データを活用することにより, 動的環境における最適政策の探索を目的とする。 このタスクの根本的な課題は、バッチデータ生成プロセスとターゲットポリシーによって誘導される分散との間の分散ミスマッチである。 既存のアルゴリズムのほとんどすべてが、データ分散に関してターゲットポリシーによって引き起こされる分布の絶対的な連続的な仮定に依存しているため、バッチデータは測定値の変更を通じてターゲットポリシーの校正に使用できる。 しかし、絶対連続性仮定は、特に状態-作用空間が大きければ、実際に違反する可能性がある。 本稿では,連続状態と動作を伴う無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。 我々はアルゴリズムをSTEEL: SingulariTy-awarE rEinforcement Learningと呼んでいる。 このアルゴリズムは,最大平均不一致と分布的ロバストな最適化を併用し,特異性に起因するオフポリス評価の誤りを特徴付け,モデルの補間を可能にするオフポリス評価の新しい誤り解析によって動機づけられている。 悲観主義の考え方を利用して、いくつかの穏やかな条件下では、絶対連続性を課さずに提案したアルゴリズムに対する有限サンプル後悔保証を導出する。 既存のアルゴリズムと比較して、STEELは最小限のデータカバレッジ仮定しか必要とせず、バッチRLの適用性と堅牢性を大幅に向上させる。 シミュレーション実験とパーソナライズ価格の実際の実験により,バッチrlにおける特異性に直面する場合,提案手法の優れた性能を示す。

Batch reinforcement learning (RL) aims at finding an optimal policy in a dynamic environment in order to maximize the expected total rewards by leveraging pre-collected data. A fundamental challenge behind this task is the distributional mismatch between the batch data generating process and the distribution induced by target policies. Nearly all existing algorithms rely on the absolutely continuous assumption on the distribution induced by target policies with respect to the data distribution so that the batch data can be used to calibrate target policies via the change of measure. However, the absolute continuity assumption could be violated in practice, especially when the state-action space is large or continuous. In this paper, we propose a new batch RL algorithm without requiring absolute continuity in the setting of an infinite-horizon Markov decision process with continuous states and actions. We call our algorithm STEEL: SingulariTy-awarE rEinforcement Learning. Our algorithm is motivated by a new error analysis on off-policy evaluation, where we use maximum mean discrepancy, together with distributionally robust optimization, to characterize the error of off-policy evaluation caused by the possible singularity and to enable the power of model extrapolation. By leveraging the idea of pessimism and under some mild conditions, we derive a finite-sample regret guarantee for our proposed algorithm without imposing absolute continuity. Compared with existing algorithms, STEEL only requires some minimal data-coverage assumption and thus greatly enhances the applicability and robustness of batch RL. Extensive simulation studies and one real experiment on personalized pricing demonstrate the superior performance of our method when facing possible singularity in batch RL.
翻訳日:2023-02-01 12:40:46 公開日:2023-01-31
# 自己圧縮ニューラルネットワーク

Self-Compressing Neural Networks ( http://arxiv.org/abs/2301.13142v2 )

ライセンス: Link先を確認
Szabolcs Cs\'efalvay, James Imber(参考訳) この研究は、ニューラルネットワークの実行時間、消費電力、帯域幅、メモリフットプリントの主要な要因である、ニューラルネットワークのサイズ削減に焦点を当てている。 重要な課題は、特別なハードウェアを必要とせずに、効率的なトレーニングと推論のために簡単に活用できる方法でサイズを減らすことである。 本稿では,(1)余剰重みの除去,(2)余剰重みの表現に必要なビット数の削減という2つの目標を同時に達成する,単純で汎用的な方法を提案する。 これはネットワークサイズを最小化するために一般化された損失関数を用いて達成される。 実験では、ネットワークに残るビットの3%、重みの18%しか残っていない浮動小数点精度を示す。

This work focuses on reducing neural network size, which is a major driver of neural network execution time, power consumption, bandwidth, and memory footprint. A key challenge is to reduce size in a manner that can be exploited readily for efficient training and inference without the need for specialized hardware. We propose Self-Compression: a simple, general method that simultaneously achieves two goals: (1) removing redundant weights, and (2) reducing the number of bits required to represent the remaining weights. This is achieved using a generalized loss function to minimize overall network size. In our experiments we demonstrate floating point accuracy with as few as 3% of the bits and 18% of the weights remaining in the network.
翻訳日:2023-02-01 12:40:17 公開日:2023-01-31
# PaCaNet:中国絵画・書画の多様化のための移行学習によるCycleGANの研究

PaCaNet: A Study on CycleGAN with Transfer Learning for Diversifying Fused Chinese Painting and Calligraphy ( http://arxiv.org/abs/2301.13082v2 )

ライセンス: Link先を確認
Zuhao Yang, Huajun Bai, Zhang Luo, Yang Xu, Wei Pang, Yue Wang, Yisheng Yuan, Yingfang Yuan(参考訳) AI-Generated Content(AIGC)は、その高効率性と本番環境での一貫性、カスタマイズと多様化の能力によって、最近人気が高まっている。 ほとんどのAIGC技術における表現学習メカニズムのクロスモダリティの性質は、過去には不可能だった新しいタイプのアートを探索する際の、より自由で柔軟性をもたらす。 漢字のピクトグラムのサブセットに触発されて、私たちは、伝統的な中国絵画と書道という2つの異なる芸術タイプを融合させる、新しい芸術作品を制作するためのサイクガンベースのパイプラインであるpacanetを提案しました。 安定的で多様化したアウトプットを生み出すために、私たちは3つの主要な技術革新を採用しました。 1 ワンショット学習を用いて、事前学習したモデルの創造性を高め、融合画像の内容の多様化を図る。 2. 事前学習モデルにおけるランダムサンプリングパラメータの凍結による中国語書道に対する嗜好の制御 3.中国絵画に類似した画像の制作を奨励するために正規化法を用いる。 さらに,中国絵画と書道の多様化にともなうPaCaNetの性能について,系統的研究を行い,満足な結果を得た。 結論として,絵画の視覚情報と中国書道の脳卒中の特徴を融合させることにより,芸術を創造する新たな方向性を提案する。 われわれのアプローチは、中国語のヒエログリフ文字の起源に根ざした独特の美的体験を生み出す。 また、伝統的な美術品を深く掘り下げて、伝統的遺産の保存と再生に有意義な影響を及ぼす特別な機会でもある。

AI-Generated Content (AIGC) has recently gained a surge in popularity, powered by its high efficiency and consistency in production, and its capability of being customized and diversified. The cross-modality nature of the representation learning mechanism in most AIGC technology allows for more freedom and flexibility in exploring new types of art that would be impossible in the past. Inspired by the pictogram subset of Chinese characters, we proposed PaCaNet, a CycleGAN-based pipeline for producing novel artworks that fuse two different art types, traditional Chinese painting and calligraphy. In an effort to produce stable and diversified output, we adopted three main technical innovations: 1. Using one-shot learning to increase the creativity of pre-trained models and diversify the content of the fused images. 2. Controlling the preference over generated Chinese calligraphy by freezing randomly sampled parameters in pre-trained models. 3. Using a regularization method to encourage the models to produce images similar to Chinese paintings. Furthermore, we conducted a systematic study to explore the performance of PaCaNet in diversifying fused Chinese painting and calligraphy, which showed satisfying results. In conclusion, we provide a new direction of creating arts by fusing the visual information in paintings and the stroke features in Chinese calligraphy. Our approach creates a unique aesthetic experience rooted in the origination of Chinese hieroglyph characters. It is also a unique opportunity to delve deeper into traditional artwork and, in doing so, to create a meaningful impact on preserving and revitalizing traditional heritage.
翻訳日:2023-02-01 12:40:05 公開日:2023-01-31
# era-solver:拡散確率モデルの高速サンプリングのためのエラーロバストアダムス解法

ERA-Solver: Error-Robust Adams Solver for Fast Sampling of Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.12935v2 )

ライセンス: Link先を確認
Shengmeng Li, Luping Liu, Zenghao Chai, Runnan Li, Xu Tan(参考訳) DDPM(denoising diffusion probabilistic model)は優れた生成結果を得たが、DDPMのサンプリング効率の低さは依然としてさらなる応用を制限している。 DDPMは拡散常微分方程式(ODE)として定式化できるため、様々な高速サンプリング法は拡散方程式の解法から導出される。 しかし, 事前学習した拡散モデルから推定した雑音の誤差に対して, 固定解析形式による従来のサンプリング手法は頑健ではないことがわかった。 本研究では,予測器と補正器からなる暗黙のアダムス数値解法を用いて,エラーロバスト・アダムス解法(era-solver)を構築した。 明示的なアダムス法に基づく従来の予測器とは異なり、予測器としてラグランジュ補間関数を活用し、推定ノイズの誤差が低いラグランジュ基底を適応的に選択するエラーロバスト戦略をさらに強化する。 Cifar10, LSUN-Church, LSUN-Bedroomのデータセットを用いた実験により, 提案したERA-Solverは画像生成のための5.14, 9.42, 9.69 Fenchel Inception Distance(FID)を達成でき, ネットワーク評価は10に過ぎなかった。

Though denoising diffusion probabilistic models (DDPMs) have achieved remarkable generation results, the low sampling efficiency of DDPMs still limits further applications. Since DDPMs can be formulated as diffusion ordinary differential equations (ODEs), various fast sampling methods can be derived from solving diffusion ODEs. However, we notice that previous sampling methods with fixed analytical form are not robust with the error in the noise estimated from pretrained diffusion models. In this work, we construct an error-robust Adams solver (ERA-Solver), which utilizes the implicit Adams numerical method that consists of a predictor and a corrector. Different from the traditional predictor based on explicit Adams methods, we leverage a Lagrange interpolation function as the predictor, which is further enhanced with an error-robust strategy to adaptively select the Lagrange bases with lower error in the estimated noise. Experiments on Cifar10, LSUN-Church, and LSUN-Bedroom datasets demonstrate that our proposed ERA-Solver achieves 5.14, 9.42, and 9.69 Fenchel Inception Distance (FID) for image generation, with only 10 network evaluations.
翻訳日:2023-02-01 12:39:37 公開日:2023-01-31
# 永続ホモロジーは知識グラフ補完手法の評価に有効な代替手段となるか?

Can Persistent Homology provide an efficient alternative for Evaluation of Knowledge Graph Completion Methods? ( http://arxiv.org/abs/2301.12929v2 )

ライセンス: Link先を確認
Anson Bastos, Kuldeep Singh, Abhishek Nadgeri, Johannes Hoffart, Toyotaro Suzumura, Manish Singh(参考訳) 本稿では,知識グラフ(kg)補完手法の高速評価のために,新しい手法である$\textit{knowledge persistence}$ (\mathcal{kp}$)を提案する。 現在のランキングに基づく評価はkgの大きさで2倍であり、長い評価時間と高い炭素フットプリントをもたらす。 $\mathcal{KP}$は、KG完備化法の位相をトポロジデータ解析のレンズで表現し、具体的には永続ホモロジーを用いてこの問題に対処する。 永続ホモロジーの特徴により、$\mathcal{kp}$ はデータのほんの一部だけを見て kg 完成の品質を評価することができる。 標準データセットを用いた実験結果から,提案指標はランキング指標(Hits@N, MR, MRR)と高い相関性を示した。 性能評価は、$\mathcal{KP}$が計算的に効率的であることを示している: 場合によっては、KG完了法の評価時間(validation+test)が18時間( Hits@10)から27秒($\mathcal{KP}$)に短縮され、平均(across method & data)では、評価時間(validation+test)が$\approx$$\textbf{99.96}\%$に削減された。

In this paper we present a novel method, $\textit{Knowledge Persistence}$ ($\mathcal{KP}$), for faster evaluation of Knowledge Graph (KG) completion approaches. Current ranking-based evaluation is quadratic in the size of the KG, leading to long evaluation times and consequently a high carbon footprint. $\mathcal{KP}$ addresses this by representing the topology of the KG completion methods through the lens of topological data analysis, concretely using persistent homology. The characteristics of persistent homology allow $\mathcal{KP}$ to evaluate the quality of the KG completion looking only at a fraction of the data. Experimental results on standard datasets show that the proposed metric is highly correlated with ranking metrics (Hits@N, MR, MRR). Performance evaluation shows that $\mathcal{KP}$ is computationally efficient: In some cases, the evaluation time (validation+test) of a KG completion method has been reduced from 18 hours (using Hits@10) to 27 seconds (using $\mathcal{KP}$), and on average (across methods & data) reduces the evaluation time (validation+test) by $\approx$ $\textbf{99.96}\%$.
翻訳日:2023-02-01 12:39:12 公開日:2023-01-31
# PromptMix: テキスト・画像拡散モデルによる軽量ネットワークの性能向上

PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks ( http://arxiv.org/abs/2301.12914v2 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang, and Alexandros Iosifidis(参考訳) 多くのディープラーニングタスクは、人間の演算子に時間がかかりすぎるアノテーションを必要とし、結果としてデータセットのサイズが小さくなる。 これは特に、画像中のすべての人物の位置をアノテートする必要がある群衆カウントのような密度の低い回帰問題に当てはまる。 シミュレーションに基づくデータ拡張や合成データ生成といったテクニックは、そのような場合に役立つ。 本稿では,軽量ネットワークの性能向上に有効な,既存のデータセットのサイズを人工的に向上する手法であるPromptMixを紹介する。 まず、画像キャプション深層ネットワークを介して既存のデータセットからテキストプロンプトを抽出し、その後、テキスト間拡散モデルに導入するエンドツーエンドのデータ駆動方式で合成画像を生成する。 生成された画像は、1つ以上のハイパフォーマンスなディープネットワークを使用して注釈付けされ、軽量ネットワークをトレーニングするための実際のデータセットと混在する。 5つのデータセットと2つのタスクに関する広範な実験により、PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示した。

Many deep learning tasks require annotations that are too time consuming for human operators, resulting in small dataset sizes. This is especially true for dense regression problems such as crowd counting which requires the location of every person in the image to be annotated. Techniques such as data augmentation and synthetic data generation based on simulations can help in such cases. In this paper, we introduce PromptMix, a method for artificially boosting the size of existing datasets, that can be used to improve the performance of lightweight networks. First, synthetic images are generated in an end-to-end data-driven manner, where text prompts are extracted from existing datasets via an image captioning deep network, and subsequently introduced to text-to-image diffusion models. The generated images are then annotated using one or more high-performing deep networks, and mixed with the real dataset for training the lightweight network. By extensive experiments on five datasets and two tasks, we show that PromptMix can significantly increase the performance of lightweight networks by up to 26%.
翻訳日:2023-02-01 12:38:37 公開日:2023-01-31
# チャネル依存型人口移動 : 複雑反応経路解析のためのフレームワーク

Channel-Dependent Population Transfer: A Framework for Analyzing Complex Reaction Pathways ( http://arxiv.org/abs/2301.12712v2 )

ライセンス: Link先を確認
Amartya Bose, Peter L. Walters(参考訳) 本稿では, 散逸媒質と相互作用する非自明に連結された拡張系における量子粒子の輸送解析手法を提案する。 輸送プロセスによって取られる経路に影響を与える問題には、広く2つの異なる側面がある。 まず、それぞれのサイト間の結合が、チャネルの固有の"強度"に変換されるのが明らかです。 サイト間カップリングは別として、サイトのエネルギーに影響を与える溶媒とその相対結合強度と時間スケールが第2因子となる。 このような散逸性媒体の影響は解析がかなり困難である。 チャネル依存人口移動法 (cdpt) では, 交通量の解析により, 両効果を厳密に説明できる。 比較的単純なシステムであっても、輸送の裏側に隠された豊かさを実証する。局所散逸媒体の効果は極めて非自明であり、サイト間カップリングの相対的な大きさの影響の単純さを隠蔽することができる。 これにより、力学の性質、特に量子制御に目を向けた新しいシステムを設計する可能性に対する因子の影響に関する詳細な研究の機会が開かれる。

We present an approach of analyzing the transport of a quantum particle in a non-trivially connected extended system interacting with a dissipative medium. There are broadly two different aspects of the problem that affect the route taken by the transport process. First is obviously the couplings between the various sites, which translates into the intrinsic "strength" of a channel. Apart from the inter-site couplings, the solvents affecting the energies of the sites, and their relative coupling strengths and time-scales form the second factor. This impact of the such dissipative media is significantly more difficult to analyze. The Channel-Dependent Population Transfer (CDPT) method of analyzing the transport allows us to account for both the effects in a rigorous manner. We demonstrate the richness hidden behind the transport even for relatively simple systems -- the effect of the local dissipative media is highly non-trivial and can mask the simplicity of the effect of the relative magnitude of the inter-site couplings. This opens up possibilities in terms of detailed study of the impact of factors on the nature of dynamics, especially possibilities of design of novel systems with an eye towards quantum control.
翻訳日:2023-02-01 12:38:19 公開日:2023-01-31
# ビデオ制作のためのエンジンベース仮想環境における動的ストーリーボード生成

Dynamic Storyboard Generation in an Engine-based Virtual Environment for Video Production ( http://arxiv.org/abs/2301.12688v2 )

ライセンス: Link先を確認
Anyi Rao, Xuekun Jiang, Yuwei Guo, Linning Xu, Lei Yang, Libiao Jin, Dahua Lin, Bo Dai(参考訳) ミニフィルムやショートフォームビデオに取り組んでいるアマチュアは通常、シーン、プロット、カメラの設定と調整の複雑なプロセスに多くの時間と労力を費やし、満足のいくビデオショットを提供する。 撮影スタッフが実際の撮影前に簡単に撮影設定をテストできる仮想環境でのストーリーボード撮影を可能にするために,仮想動的ストーリーボード(vds)を提案する。 フォーマットされたストーリースクリプトとカメラスクリプトが入力として与えられると、事前に定義されたストーリーとシネマティックルールに従って複数のキャラクターアニメーションとカメラムーブメントの提案を生成し、オフザシェルフシミュレーションエンジンでビデオをレンダリングする。 候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。 vdsは広範囲な実験とユーザー研究を通じて包括的に検証され、その効率性、有効性、アマチュアビデオ制作を支援する大きな可能性を示す。

Amateurs working on mini-films and short-form videos usually spend lots of time and effort on the multi-round complicated process of setting and adjusting scenes, plots, and cameras to deliver satisfying video shots. We present Virtual Dynamic Storyboard (VDS) to allow users storyboarding shots in virtual environments, where the filming staff can easily test the settings of shots before the actual filming. VDS runs on a "propose-simulate-discriminate" mode: Given a formatted story script and a camera script as input, it generates several character animation and camera movement proposals following predefined story and cinematic rules to allow an off-the-shelf simulation engine to render videos. To pick up the top-quality dynamic storyboard from the candidates, we equip it with a shot ranking discriminator based on shot quality criteria learned from professional manual-created data. VDS is comprehensively validated via extensive experiments and user studies, demonstrating its efficiency, effectiveness, and great potential in assisting amateur video production.
翻訳日:2023-02-01 12:38:01 公開日:2023-01-31
# FedPass: 適応的難読化によるプライバシー保護の垂直的深層学習

FedPass: Privacy-Preserving Vertical Federated Deep Learning with Adaptive Obfuscation ( http://arxiv.org/abs/2301.12623v2 )

ライセンス: Link先を確認
Hanlin Gu, Jiahuan Luo, Yan Kang, Lixin Fan and Qiang Yang(参考訳) 垂直連合学習(VFL)では、ラベル付き機能を持つアクティブパーティが受動的パーティの補助的機能を活用してモデル性能を向上させることができる。 VFLのトレーニングフェーズと推論フェーズにおけるプライベート機能とラベルリークに関する懸念は、広く研究されている。 本稿では,適応的難読化を利用して特徴とラベルを同時に保護する,一般のプライバシ保存型垂直フェデレーション型ディープラーニングフレームワークfeedpassを提案する。 プライベート機能やラベルに関する強力なプライバシー保護機能が理論的に証明されている(Theorems 1 と 2)。 データセットやネットワークアーキテクチャが異なる広範な実験結果sは、プライバシとモデルパフォーマンスのほぼ最適のトレードオフに照らして、既存の方法に対するfeedpassの優位性を正当化する。

Vertical federated learning (VFL) allows an active party with labeled feature to leverage auxiliary features from the passive parties to improve model performance. Concerns about the private feature and label leakage in both the training and inference phases of VFL have drawn wide research attention. In this paper, we propose a general privacy-preserving vertical federated deep learning framework called FedPass, which leverages adaptive obfuscation to protect the feature and label simultaneously. Strong privacy-preserving capabilities about private features and labels are theoretically proved (in Theorems 1 and 2). Extensive experimental result s with different datasets and network architectures also justify the superiority of FedPass against existing methods in light of its near-optimal trade-off between privacy and model performance.
翻訳日:2023-02-01 12:37:43 公開日:2023-01-31
# アクティブシーケンシャル2サンプルテスト

Active Sequential Two-Sample Testing ( http://arxiv.org/abs/2301.12616v2 )

ライセンス: Link先を確認
Weizhi Li, Karthikeyan Natesan Ramamurthy, Prad Kadambi, Pouria Saidi, Gautam Dasarathy, Visar Berisha(参考訳) 2つのサンプルを生成する分布が同一かどうかを2サンプルでテストした。 サンプル測定(またはサンプル特徴)が安価にアクセスできるが、グループメンバーシップ(またはラベル)が高価である新しいシナリオにおいて、2サンプルテストの問題を提起する。 この問題に対処するために,最初の \emph{active sequential two-sample testing framework} を逐次的だけでなく, \emph{actively query} サンプルラベルも考案した。 我々のテスト統計は、全てのクラス前の最大化によって1つの確率が見つかる確率比であり、もう1つは分類モデルによって与えられる。 分類モデルは適応的に更新され、次にbimodal queryと呼ばれるアクティブなクエリスキームを導いて、特徴変数とラベル変数の間に高い依存性を持つ領域のサンプルフィーチャをラベル付けする。 本論文の理論的貢献は,我々のフレームワークが<emph{anytime-valid} $p$-value</e>を生成すること,そして,到達可能な条件と軽微な仮定の下で,このフレームワークは,特徴変数とラベル変数が最も依存度が高い場合にのみ,受動的クエリスキームが達成できる最小正規化対数比統計を漸近的に生成する。 最後に、受動的クエリからアクティブクエリにいつ切り替えるかを判断し、バイモーダルクエリを適用してテストの試験能力を高めるために、 \emph{query-switching (QS)アルゴリズムを提供する。 広範な実験は、理論的な貢献とqsの有効性を正当化する。

Two-sample testing tests whether the distributions generating two samples are identical. We pose the two-sample testing problem in a new scenario where the sample measurements (or sample features) are inexpensive to access, but their group memberships (or labels) are costly. We devise the first \emph{active sequential two-sample testing framework} that not only sequentially but also \emph{actively queries} sample labels to address the problem. Our test statistic is a likelihood ratio where one likelihood is found by maximization over all class priors, and the other is given by a classification model. The classification model is adaptively updated and then used to guide an active query scheme called bimodal query to label sample features in the regions with high dependency between the feature variables and the label variables. The theoretical contributions in the paper include proof that our framework produces an \emph{anytime-valid} $p$-value; and, under reachable conditions and a mild assumption, the framework asymptotically generates a minimum normalized log-likelihood ratio statistic that a passive query scheme can only achieve when the feature variable and the label variable have the highest dependence. Lastly, we provide a \emph{query-switching (QS)} algorithm to decide when to switch from passive query to active query and adapt bimodal query to increase the testing power of our test. Extensive experiments justify our theoretical contributions and the effectiveness of QS.
翻訳日:2023-02-01 12:37:29 公開日:2023-01-31