このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220908となっている論文です。

PDF登録状況(公開日: 20220908)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子力学写像のマルコビアン性の証明としての可逆性

Invertibility as a witness of Markovianity of the quantum dynamical maps ( http://arxiv.org/abs/2012.08360v8 )

ライセンス: Link先を確認
Jasmina Jekni\'c-Dugi\'c, Momir Arsenijevi\'c, Miroljub Dugi\'c(参考訳) 量子開系プロセスのマルコビアン性は、現在のかなりの関心事のトピックである。 一般に、可逆性は開量子系力学写像のマルコフ性にとって必要でないと仮定される。 しかしながら、本論文では、可逆性がマルコビアン性に必要な条件である物理的に重要な動的写像(プロセス)のクラスを区別する。 すべての量子状態トモグラフィーは、マップの可逆性に関する情報を直接提供するので、動的過程のクラスと見なされる非マルコフ性を決定するための最適化手順は不要である。 この観点から、系統的な洞察を与え、量子マルコビアン性に対する様々なアプローチの相互関係を区別することができる。 特に、考慮された動的写像のクラス以外のプロセスに対しては、動的写像の可除性、可逆性、マルコビアン性の間の様々な関係が認められている。

Markovianity of the quantum open system processes is a topic of the considerable current interest. Typically, invertibility is assumed to be non-essential for Markovianity of the open-quantum-system dynamical maps. Nevertheless, in this paper we distinguish a class of physically important dynamical maps (processes) for which invertibility is a necessary condition for Markovianity. Since every quantum-state tomography directly provides information on invertibility of the map, no optimization procedure is necessary for determining non-Markovianity regarding the considered class of dynamical processes. On this basis we are able to provide a systematic insight and to distinguish mutual relations of the various approaches to quantum Markovianity. Notably, for the processes out of the considered class of dynamical maps, various relations are allowed between divisibility, invertibility and Markovianity of the dynamical maps.
翻訳日:2023-04-20 23:24:46 公開日:2022-09-08
# ディープニューラルネットワークを用いた後処理段階における量子誤差低減

Quantum error reduction with deep neural network applied at the post-processing stage ( http://arxiv.org/abs/2105.07793v4 )

ライセンス: Link先を確認
A. A. Zhukov, W. V. Pogosov(参考訳) 雑音中規模量子(nisq)プロセッサ上での量子計算結果の改善のために、ディープニューラルネットワーク(dnn)を後処理段階に適用することができる。 本稿では,このアイデアに基づいて,トロッターステップからなる量子回路の周期構造を特徴とするディジタル量子シミュレーションに最も適した手法を提案する。 我々のアプローチの重要な要素は、トレーニング段階では古典的なシミュレーターのデータを必要としないことである。 ネットワークは、トロッターステップ数(ノイズレベル)を人工的に増加させた量子ハードウェアから得られたデータを、そのような増加のないデータに変換するように訓練される。 追加のトロッターステップは架空のものであり、すなわち、それらは無視できるほど小さな回転を含み、ハードウェアの不完全性がなければ、本質的にアイデンティティゲートに還元される。 これにより、トレーニング段階で関連する量子回路の特徴に関する情報が保存される。 2つの特別な例は、トランスバースフィールドイジングチェーンとxyスピンチェーンのダイナミクスであり、2つの実際の5量子ビットibm qプロセッサに実装された。 トロッターステップの観点から量子回路の深さを効果的に増やすことができるdnnアプリケーションの結果、重大な誤差低減が実証されている。

Deep neural networks (DNN) can be applied at the post-processing stage for the improvement of the results of quantum computations on noisy intermediate-scale quantum (NISQ) processors. Here, we propose a method based on this idea, which is most suitable for digital quantum simulation characterized by the periodic structure of quantum circuits consisting of Trotter steps. A key ingredient of our approach is that it does not require any data from a classical simulator at the training stage. The network is trained to transform data obtained from quantum hardware with artificially increased Trotter steps number (noise level) towards the data obtained without such an increase. The additional Trotter steps are fictitious, i.e., they contain negligibly small rotations and, in the absence of hardware imperfections, reduce essentially to the identity gates. This preserves, at the training stage, information about relevant quantum circuit features. Two particular examples are considered that are the dynamics of the transverse-field Ising chain and XY spin chain, which were implemented on two real five-qubit IBM Q processors. A significant error reduction is demonstrated as a result of the DNN application that allows us to effectively increase quantum circuit depth in terms of Trotter steps.
翻訳日:2023-03-30 22:22:53 公開日:2022-09-08
# グラフ状態と主未成年者の多様性

Graph States and the Variety of Principal Minors ( http://arxiv.org/abs/2107.02479v2 )

ライセンス: Link先を確認
Vincenzo Galgano, Fr\'ed\'eric Holweck(参考訳) 量子情報理論では、グラフ状態はグラフによって定義される量子状態である。 この研究では、グラフ状態と二項対称主小数点の多様性、特にそれらの対応する軌道は、$sl(2,\mathbb f_2)^{\times n}\rtimes \mathfrak s_n$である。 We start by approaching the topic more widely, that is by studying the orbits of maximal abelian subgroups of the $n$-fold Pauli group under the action of $\mathcal C_n^{\text{loc}}\rtimes \mathfrak S_n$, where $\mathcal C_n^{\text{loc}}$ is the $n$-fold local Clifford group: we show that this action corresponds to the natural action of $SL(2,\mathbb F_2)^{\times n}\rtimes \mathfrak S_n$ on the variety $\mathcal Z_n\subset \mathbb P(\mathbb F_2^{2^n})$ of principal minors of binary symmetric $n\times n$ matrices. この対応における重要なステップは、局所シンプレクティック群 $sp_{2n}^{\text{loc}}(\mathbb f_2)$ のラグランジュグラスマン群 $lg_{\mathbb f_2}(n,2n)$ に対する作用に$sl(2,\mathbb f_2)^{\times n}$ の作用を変換することである。 我々は、前者の作用が安定化群や安定化状態にどのように制限するか、そして最後にグラフ状態の場合どうなるかを研究することで結論付ける。

In Quantum Information theory, graph states are quantum states defined by graphs. In this work we exhibit a correspondence between graph states and the variety of binary symmetric principal minors, in particular their corresponding orbits under the action of $SL(2,\mathbb F_2)^{\times n}\rtimes \mathfrak S_n$. We start by approaching the topic more widely, that is by studying the orbits of maximal abelian subgroups of the $n$-fold Pauli group under the action of $\mathcal C_n^{\text{loc}}\rtimes \mathfrak S_n$, where $\mathcal C_n^{\text{loc}}$ is the $n$-fold local Clifford group: we show that this action corresponds to the natural action of $SL(2,\mathbb F_2)^{\times n}\rtimes \mathfrak S_n$ on the variety $\mathcal Z_n\subset \mathbb P(\mathbb F_2^{2^n})$ of principal minors of binary symmetric $n\times n$ matrices. The crucial step in this correspondence is in translating the action of $SL(2,\mathbb F_2)^{\times n}$ into an action of the local symplectic group $Sp_{2n}^{\text{loc}}(\mathbb F_2)$ on the Lagrangian Grassmannian $LG_{\mathbb F_2}(n,2n)$. We conclude by studying how the former action restricts onto stabilizer groups and stabilizer states, and finally what happens in the case of graph states.
翻訳日:2023-03-23 06:57:34 公開日:2022-09-08
# 光子と2レベルエミッタの動的結合による制御相ゲート

Controlled-Phase Gate by Dynamic Coupling of Photons to a Two-Level Emitter ( http://arxiv.org/abs/2110.02960v2 )

ライセンス: Link先を確認
Stefan Krastanov, Kurt Jacobs, Gerald Gilbert, Dirk R. Englund, Mikkel Heuck(参考訳) 光共振器内の2レベルエミッタ(TLE)と光子を相互作用させることにより、デュアルレール符号化光量子ビット上で高忠実性決定論的量子論理ゲートを実現するアーキテクチャを提案する。 クビットを定義する光子波パケットは、光子をキャビティから積極的にロード・アンロードし、TLEへの効果的な結合を動的に変更する量子制御プロセスにより、相互作用後に保存される。 この制御は、強い外部変調電磁場によって強化されたキャビティモード間の非線形波混合や、TLE遷移エネルギーの交流スタークシフトに依存する。 本稿では,TLEの損失とデフォーカス,および制御フィールドの誤校正における不完全性の影響を数値的に検討する。 この結果から、GaAs膜中のIII-V量子ドットはフォトニック量子情報処理において有望なプラットフォームであることが示唆された。

We propose an architecture for achieving high-fidelity deterministic quantum logic gates on dual-rail encoded photonic qubits by letting photons interact with a two-level emitter (TLE) inside an optical cavity. The photon wave packets that define the qubit are preserved after the interaction due to a quantum control process that actively loads and unloads the photons from the cavity and dynamically alters their effective coupling to the TLE. The controls rely on nonlinear wave mixing between cavity modes enhanced by strong externally modulated electromagnetic fields or on AC Stark shifts of the TLE transition energy. We numerically investigate the effect of imperfections in terms of loss and dephasing of the TLE as well as control field miscalibration. Our results suggest that III-V quantum dots in GaAs membranes is a promising platform for photonic quantum information processing.
翻訳日:2023-03-12 08:00:06 公開日:2022-09-08
# 回路量子力学における高速量子ビット読み出しのための断熱のショートカット

Shortcuts to Adiabaticity for Fast Qubit Readout in Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2201.06007v2 )

ライセンス: Link先を確認
F. A. C\'ardenas-L\'opez, Xi Chen(参考訳) そこで本研究では, キャビティに縦結合したキュービットの測定を加速するために, 縦結合を工学的に設計する方法を提案する。 異なる変調は、ナノ秒スケールで信号-雑音比(SNR)のより大きな値を達成するために、逆工学と反断熱駆動の2つの方法から逆向きに設計される。 比較して,本プロトコルはポインタ状態分離とSNRの通常の周期変調よりも優れていることを示す。 最後に,最先端回路の量子電磁力学構造を考慮した実装の可能性を示し,測定プロセスに許容される最小時間の推定を行う。

We propose how to engineer the longitudinal coupling to accelerate the measurement of a qubit longitudinally coupled to a cavity, motivated by the concept of shortcuts to adiabaticity. Different modulations are inversely designed from two methods of inverse engineering and counter-diabatic driving, for achieving larger values of the signal-to-noise ratio (SNR) at nanosecond scale. By comparison, we demonstrate that our protocols outperform the usual periodic modulations on the pointer state separation and SNR. Finally, we show a possible implementation considering state-of-the-art circuit quantum electrodynamics architecture, estimating the minimal time allowed for the measurement process.
翻訳日:2023-03-01 00:43:51 公開日:2022-09-08
# オプトエレクトロメカニクスシステムを用いた高周波光子と光子の非相互変換

Nonreciprocal conversion between radio-frequency and optical photons with an optoelectromechanical system ( http://arxiv.org/abs/2202.13231v3 )

ライセンス: Link先を確認
Najmeh Eshaqi-Sani, Stefano Zippilli, David Vitali(参考訳) 時間反転対称性を破る非相互系は、検出ポートを通過する不要な反射信号や外部ノイズの抑制を可能にする現代の量子技術において必須のツールである。 本稿では,光周波数と高周波(rf)光子の非相互変換を,光力学的および電気機械的相互作用のみを用いて実現する手法を提案する。 非相互伝送は、2つの異なる中間機械モードによって確立された2つの電磁モード間の2つの伝達経路の干渉によって得られる。 本プロトコルでは、共振器の共振器モードに二色駆動と単音駆動を適用し、駆動音間の相対位相を用いて非整合性を得る。 完全非相反変換は、光からrfまで、あるいはその逆の両方向における大きな協力率の限界において得られる。 また、トランスデューサノイズについて検討し、メカニカルサーマルノイズが常に孤立ポートに反射されていることを示す。 特に、光対rf変換の場合、出力rfポートには真空ノイズしか持たない。

Nonreciprocal systems breaking time-reversal symmetry are essential tools in modern quantum technologies enabling the suppression of unwanted reflected signals or extraneous noise entering through detection ports. Here we propose a scheme enabling nonreciprocal conversion between optical and radio-frequency (rf) photons using exclusively optomechanical and electromechanical interactions. The nonreciprocal transmission is obtained by interference of two dissipative pathways of transmission between the two electromagnetic modes established through two distinct intermediate mechanical modes. In our protocol, we apply a bichromatic drive to the cavity mode and a single-tone drive to the rf resonator, and use the relative phase between the drive tones to obtain nonreciprocity. We show that perfect nonreciprocal transduction can be obtained in the limit of large cooperativity in both directions, from optical to rf and vice versa. We also study the transducer noise and show that mechanical thermal noise is always reflected back onto the isolated port. In the limit of large cooperativity, the input noise is instead transmitted in an unaltered way in the allowed direction; in particular one has only vacuum noise in the output rf port in the case of optical-to-rf conversion.
翻訳日:2023-02-23 21:32:35 公開日:2022-09-08
# 部分絡み合い状態からの絡み合い交換における予測可能性と絡み合いの関係

Operational connection between predictability and entanglement in entanglement swapping from partially entangled pure states ( http://arxiv.org/abs/2203.01281v2 )

ライセンス: Link先を確認
Marcos L. W. Basso and Jonas Maziero(参考訳) 相補性と絡み合いは量子力学の基本的な特徴であり、量子コヒーレンス、量子ビットの波面、量子予測可能性と量子絡み合い、量子ビットの粒子面を含む試行性等式に最近関係した。 本稿では,初期から絡み合い状態からの絡み合い交換における再現性と絡み合いの関係について述べる。 本研究では, 前測度1量子密度行列の予測可能性について, 後測度状態の一部の絡み合った成分の確率と直接関係していることを示す。 さらに, 補間関係を考慮した部分絡み合い状態の絡み合いスワップ解析を行い, ベル基底測定後に絡み合いが増大する場合には, 初期生成状態と比較して予測可能性が低下することを示した。

Complementarity and entanglement are fundamental features of Quantum Mechanics that were recently related in triality equalities that involve quantum coherence, the wave aspect of a qubit, and quantum predictability and quantum entanglement, the particle aspect of a qubit. In this article, we give an operational connection between redictability and entanglement in entanglement swapping from initially partially entangled states. For this, we show that the predictability of the pre-measurement one-qubit density matrix is directly related to the probability of the partially entangled component of the post-measurement state. Going even further, we analyze the entanglement swapping for partially entangled states in the light of complementarity relations and show that, in the cases where the entanglement increases after a Bell-basis measurement, the predictability is consumed when compared to the initially prepared state.
翻訳日:2023-02-23 07:51:20 公開日:2022-09-08
# 量子力学は厳密には立証できない

Quantum dynamics is not strictly bidivisible ( http://arxiv.org/abs/2203.13451v2 )

ライセンス: Link先を確認
David Davalos, Mario Ziman(参考訳) 2つの量子チャネルで割り切れるが3つではなく、より一般的には$n$で割り切れるが$n+1$では割り切れない量子チャネルが存在するという問題に対処する。 量子ビットではこれらのチャネルは存在せず、一般の有限次元量子チャネルでは少なくとも完全なクラウスランクチャネルに対して同じことが示される。 これらの結果を証明するために、境界とマルコフ部分でそれらを分離する量子チャネルの新たな分解を導入し、任意の有限次元に対して成り立つ。 さらに、導入された分解は、拡張性クラスと量子力学マップの実装タイプの間のよく知られた接続に相当し、より小さな量子レジスタを使って量子チャネルを実装するのに使うことができる。

We address the question of the existence of quantum channels that are divisible in two quantum channels but not in three, or more generally channels divisible in $n$ but not in $n+1$ parts. We show that for the qubit, those channels \textit{do not} exist, whereas for general finite-dimensional quantum channels the same holds at least for full Kraus rank channels. To prove these results we introduce a novel decomposition of quantum channels which separates them in a boundary and Markovian part, and it holds for any finite dimension. Additionally, the introduced decomposition amounts to the well known connection between divisibility classes and implementation types of quantum dynamical maps, and can be used to implement quantum channels using smaller quantum registers.
翻訳日:2023-02-20 21:02:30 公開日:2022-09-08
# 発振器の有限エネルギー格子状態に対する散逸量子系の指数収束

Exponential convergence of a dissipative quantum system towards finite-energy grid states of an oscillator ( http://arxiv.org/abs/2203.16836v2 )

ライセンス: Link先を確認
Lev-Arcady Sellem, Philippe Campagne-Ibarcq, Mazyar Mirrahimi, Alain Sarlette, Pierre Rouchon(参考訳) 量子誤差補正(qec)に基づく安定化形式に基づき、量子調和振動子の密度作用素に対するオリジナルのリンドブラッドマスター方程式の設計を提案する。 このリンドブラッド力学は、2001年にゴッテマン、キタエフ、プレスキルによって量子計算のために導入された有限エネルギーグリッド状態を正確に安定化する。 安定化は指数関数 lyapunov 関数の収束率の明示的な下限による結果である。 数値シミュレーションは、非無視光子損失の存在下での自律的なQECの可能性を示している。

Based on the stabilizer formalism underlying Quantum Error Correction (QEC), the design of an original Lindblad master equation for the density operator of a quantum harmonic oscillator is proposed. This Lindblad dynamics stabilizes exactly the finite-energy grid states introduced in 2001 by Gottesman, Kitaev and Preskill for quantum computation. Stabilization results from an exponential Lyapunov function with an explicit lower-bound on the convergence rate. Numerical simulations indicate the potential interest of such autonomous QEC in presence of non-negligible photon-losses.
翻訳日:2023-02-20 05:10:05 公開日:2022-09-08
# 人為的知的モラルの文脈化--トップダウン、ボトムアップ、ハイブリッドモデルによる人工知能における理論および応用倫理のメタエスノグラフィー

Contextualizing Artificially Intelligent Morality: A Meta-Ethnography of Top-Down, Bottom-Up, and Hybrid Models for Theoretical and Applied Ethics in Artificial Intelligence ( http://arxiv.org/abs/2204.07612v2 )

ライセンス: Link先を確認
Jennafer S. Roberts and Laura N. Montoya(参考訳) このメタエスノグラフィーでは、哲学的倫理的視点、技術的視点、政治的レンズによるフレーミングを含む、倫理的人工知能(AI)設計の3つの異なる角度を探索する。 我々の質的研究は、コントラストのあるトップダウン、ボトムアップ、ハイブリッドアプローチの価値と欠点を議論することで、これらの角度の相互参照を強調する文献レビューを含む。 この枠組みへの新たな貢献は、企業や政府によって決定され、政策や法(トップから来る)を通じて課されるaiの倫理を構成する政治的角度、あるいは人々によって要求される倫理(下から来る)、そして、aiが道徳的構成の中でどのように開発され、その利用者に配慮したトップダウン、ボトムアップ、ハイブリッド技術である。 ボトムアップの応用技術アプローチとAI倫理原則を実践的なトップダウンアプローチとする例として、強化学習に重点を置いている。 この調査には、世界的視点を与える実世界のケーススタディや、aiの倫理に関する哲学的議論、歴史的事実、現在の状況、そしてその後の現実に基づく理論的な未来の思考実験が含まれる。

In this meta-ethnography, we explore three different angles of ethical artificial intelligence (AI) design implementation including the philosophical ethical viewpoint, the technical perspective, and framing through a political lens. Our qualitative research includes a literature review that highlights the cross-referencing of these angles by discussing the value and drawbacks of contrastive top-down, bottom-up, and hybrid approaches previously published. The novel contribution to this framework is the political angle, which constitutes ethics in AI either being determined by corporations and governments and imposed through policies or law (coming from the top), or ethics being called for by the people (coming from the bottom), as well as top-down, bottom-up, and hybrid technicalities of how AI is developed within a moral construct and in consideration of its users, with expected and unexpected consequences and long-term impact in the world. There is a focus on reinforcement learning as an example of a bottom-up applied technical approach and AI ethics principles as a practical top-down approach. This investigation includes real-world case studies to impart a global perspective, as well as philosophical debate on the ethics of AI and theoretical future thought experimentation based on historical facts, current world circumstances, and possible ensuing realities.
翻訳日:2023-02-19 16:18:11 公開日:2022-09-08
# 音楽レコメンダシステムの公正性に関するステークホルダー中心視点

A Stakeholder-Centered View on Fairness in Music Recommender Systems ( http://arxiv.org/abs/2209.06126v1 )

ライセンス: Link先を確認
Karlijn Dinnissen and Christine Bauer(参考訳) 概してレコメンデーターシステムフェアネスへの関心が高まっているが,この点については音楽分野にはあまり注目されていない。 しかし,音楽レコメンデータシステム(MRS)の公平性への対処は,音楽ストリーミングプラットフォームのユーザと,それらのプラットフォームに音楽を提供するアーティストの両方に大きな影響を与えるため,非常に重要である。 これらのステークホルダーグループが持つ異なるニーズと、それゆえ考慮すべき公平さの異なる側面は、改善のための十分な機会を持つ困難な研究分野となる。 レビューはまず、各利害関係者と利害関係者の視点からフェアネス夫人に関する現在の文献を概説し、今後の研究に有望な方向性を明らかにする。 レビューから生じた2つの疑問は以下のとおりである。 (i)mrsフィールドでは、フェアネス調査を行うには限られたデータのみを公に利用できるが、ほとんどのデータセットは同じソースに由来するか、プロプライエタリである(したがって、広くアクセスできない)。 この制限されたデータの可用性にどのように対処すればよいのか? (ii)総じて、多くの作品がフェアネス夫人の現在の状況を分析しているのに対し、それを改善するためのアプローチを提案する作品はほとんどない。 これらのレコメンダシステムにおける公平性の改善にどのように注力すればよいのか? FAccTRec '22において,音楽領域におけるRSフェアネスの具体性を強調した。

Our narrative literature review acknowledges that, although there is an increasing interest in recommender system fairness in general, the music domain has received relatively little attention in this regard. However, addressing fairness of music recommender systems (MRSs) is highly important because the performance of these systems considerably impacts both the users of music streaming platforms and the artists providing music to those platforms. The distinct needs that these stakeholder groups may have, and the different aspects of fairness that therefore should be considered, make for a challenging research field with ample opportunities for improvement. The review first outlines current literature on MRS fairness from the perspective of each stakeholder and the stakeholders combined, and then identifies promising directions for future research. The two open questions arising from the review are as follows: (i) In the MRS field, only limited data is publicly available to conduct fairness research; most datasets either originate from the same source or are proprietary (and, thus, not widely accessible). How can we address this limited data availability? (ii) Overall, the review shows that the large majority of works analyze the current situation of MRS fairness, whereas only few works propose approaches to improve it. How can we move forward to a focus on improving fairness aspects in these recommender systems? At FAccTRec '22, we emphasize the specifics of addressing RS fairness in the music domain.
翻訳日:2023-02-19 11:09:10 公開日:2022-09-08
# dirichlet-tree モデルを用いた即時選挙の投票集計

Ballot-Polling Audits of Instant-Runoff Voting Elections with a Dirichlet-Tree Model ( http://arxiv.org/abs/2209.03881v1 )

ライセンス: Link先を確認
Floyd Everest, Michelle Blom, Philip B. Stark, Peter J. Stuckey, Vanessa Teague, Damjan Vukcevic(参考訳) 即時投票(Instant-runoff voting、IRV)は、世界中のいくつかの国で使用されている。 投票者は選好順に候補者をランク付けすることが必要であり、最初のペーストポストやスコアリングルールのようなシステムよりも複雑なカウントアルゴリズムを使用する。 さらに複雑なシステムであるSTV(Single Transferable vote)は、複数の候補者を選出する必要があるときに使用される。 これらのシステムの複雑さは選挙結果の監査を困難にしている。 現在、STVのリスク制限監査(RLA)法は、完全な手動による投票数以外には知られていない。 これらのシステムを監査するための新しいアプローチがdirichlet-treeモデルに基づいて提案されている。 IRV選挙におけるベイズ監査に対するこの手法の詳細な分析を行った。 我々は,ベイジアンブートストラップ(前者は不適切な)を用いたいくつかのアプローチを含む,事前分布の選択について比較した。 以上の結果から,ブートストラップをベースとしたアプローチは,ベイズモデルと同様の動作が可能であり,過剰な情報的先行が直感に反する結果をもたらすことが示唆された。 慎重に選択された例によって、このモデルでRLAを作成するのがなぜ難しいのかが示されています。 ベイジアン IRV 監査の実践的で計算可能な実装を提供するとともに、我々は、STV 選挙のための RLA の基盤を構築する上で重要である。

Instant-runoff voting (IRV) is used in several countries around the world. It requires voters to rank candidates in order of preference, and uses a counting algorithm that is more complex than systems such as first-past-the-post or scoring rules. An even more complex system, the single transferable vote (STV), is used when multiple candidates need to be elected. The complexity of these systems has made it difficult to audit the election outcomes. There is currently no known risk-limiting audit (RLA) method for STV, other than a full manual count of the ballots. A new approach to auditing these systems was recently proposed, based on a Dirichlet-tree model. We present a detailed analysis of this approach for ballot-polling Bayesian audits of IRV elections. We compared several choices for the prior distribution, including some approaches using a Bayesian bootstrap (equivalent to an improper prior). Our findings include that the bootstrap-based approaches can be adapted to perform similarly to a full Bayesian model in practice, and that an overly informative prior can give counter-intuitive results. Via carefully chosen examples, we show why creating an RLA with this model is challenging, but we also suggest ways to overcome this. As well as providing a practical and computationally feasible implementation of a Bayesian IRV audit, our work is important in laying the foundation for an RLA for STV elections.
翻訳日:2023-02-19 11:02:51 公開日:2022-09-08
# Dis-Similar Machinesからのアドバイス:マシンアシスト意思決定における人間と機械の類似性の影響

Taking Advice from (Dis)Similar Machines: The Impact of Human-Machine Similarity on Machine-Assisted Decision-Making ( http://arxiv.org/abs/2209.03821v1 )

ライセンス: Link先を確認
Nina Grgi\'c-Hla\v{c}a, Claude Castelluccia, Krishna P. Gummadi(参考訳) 機械学習アルゴリズムは、人間の意思決定を支援するためにますます使われている。 マシンアシストの目標は、人間の意思決定の正確性を改善することにあるが、人間の知識を補完するMLアルゴリズムの設計は魅力的であるように思える。 アルゴリズムも人間も完全に正確ではないが、補完的な専門知識がより良い結果をもたらすと期待できる。 本研究では,人間に類似した誤りを生じさせるような意思決定支援が,自己の利益をもたらす可能性があることを実証する。 実験では,人間と機械のミスの類似性が,人間の認識やアルゴリズム的意思決定支援システムとの相互作用に与える影響について検討した。 私たちはそれを見つけ 一 より有用な、正確かつ予測可能な、より類似した意思決定支援を知覚する者 (ii)より類似した意思決定支援から反対のアドバイスを受ける傾向が強い一方 (iii)人間とあまり似ていない意思決定補助は、反対のアドバイスを提供する機会が増え、その結果、全体の人々の決定に影響を及ぼす。

Machine learning algorithms are increasingly used to assist human decision-making. When the goal of machine assistance is to improve the accuracy of human decisions, it might seem appealing to design ML algorithms that complement human knowledge. While neither the algorithm nor the human are perfectly accurate, one could expect that their complementary expertise might lead to improved outcomes. In this study, we demonstrate that in practice decision aids that are not complementary, but make errors similar to human ones may have their own benefits. In a series of human-subject experiments with a total of 901 participants, we study how the similarity of human and machine errors influences human perceptions of and interactions with algorithmic decision aids. We find that (i) people perceive more similar decision aids as more useful, accurate, and predictable, and that (ii) people are more likely to take opposing advice from more similar decision aids, while (iii) decision aids that are less similar to humans have more opportunities to provide opposing advice, resulting in a higher influence on people's decisions overall.
翻訳日:2023-02-19 11:02:28 公開日:2022-09-08
# レスポンシブル医療診断勧告システムに向けて

Towards Responsible Medical Diagnostics Recommendation Systems ( http://arxiv.org/abs/2209.03760v1 )

ライセンス: Link先を確認
Daniel Schl\"or, Andreas Hotho(参考訳) 病院や医療情報システムの早期開発と展開により、病院におけるプロセスのデジタル化が進められている。 これらのプロセスの多くは、以前は書類や電話の手配が必要だったが、現在はITソリューションに統合されており、医師や医療スタッフが適切なインターフェースやツールと対話する必要がある。 このデジタルデータ管理とプロセスサポートへのシフトは多くの点で患者ケアの恩恵を受けているが、実際の患者ケア作業から多くの時間を要する請求や文書作成のために、医師は関連情報をデジタル的に正確に取得する必要がある。 しかし、長期にわたる医療データの体系的な収集は、このプロセスを改善し、推奨システムを導入することで医療スタッフを支援する機会を提供する。 本稿では,実際の作業例に基づいて,医療現場における責任あるレコメンダシステムの設計を,技術的,アプリケーション駆動的な視点から概説し,説明責任,安全性,公平性に焦点をあてた設計選択と基準について論じる。

The early development and deployment of hospital and healthcare information systems have encouraged the ongoing digitization of processes in hospitals. Many of these processes, which previously required paperwork and telephone arrangements, are now integrated into IT solutions and require physicians and medical staff to interact with appropriate interfaces and tools. Although this shift to digital data management and process support has benefited patient care in many ways, it requires physicians to accurately capture all relevant information digitally for billing and documentation purposes, which takes a lot of time away from actual patient care work. However, systematic collection of healthcare data over a long period of time offers opportunities to improve this process and support medical staff by introducing recommender systems. Based on a practical working example, in this position paper, we will outline the design of a responsible recommender system in the medical context from a technical, application driven perspective and discuss potential design choices and criteria with a specific focus on accountability, safety, and fairness.
翻訳日:2023-02-19 11:02:10 公開日:2022-09-08
# 共通法則のためのアルゴリズム学習基盤

Algorithmic Learning Foundations for Common Law ( http://arxiv.org/abs/2209.02866v2 )

ライセンス: Link先を確認
Jason D. Hartline, Daniel W. Linna Jr., Liren Shan, Alex Tang(参考訳) 本稿では,法律手続きの具体的特徴をモデル化する学習アルゴリズムとして一般的な法体系を考察し,このシステムが効率的に学習するかどうかを問う。 我々のモデルの特徴は、裁判所手続の様々な側面を学習アルゴリズムとして明確に見ることである。 この視点は直接的に、裁判所への出廷の費用が裁判所への出廷の利益に合致しない場合、学習の失敗と不正確な結果が落ち着く場合に続くことを指摘する。 特に、ケースは不十分な速度で法廷に持ち込まれる。 一方、個人を強制的に、あるいはインセンティブを与えて裁判に持ち込むことができれば、システムは学習し、不正確さは時間の経過とともに消える。

This paper looks at a common law legal system as a learning algorithm, models specific features of legal proceedings, and asks whether this system learns efficiently. A particular feature of our model is explicitly viewing various aspects of court proceedings as learning algorithms. This viewpoint enables directly pointing out that when the costs of going to court are not commensurate with the benefits of going to court, there is a failure of learning and inaccurate outcomes will persist in cases that settle. Specifically, cases are brought to court at an insufficient rate. On the other hand, when individuals can be compelled or incentivized to bring their cases to court, the system can learn and inaccuracy vanishes over time.
翻訳日:2023-02-19 11:00:26 公開日:2022-09-08
# ソフトウェア開発者による設計にプライバシを組み込む - 課題と解決策

Embedding Privacy Into Design Through Software Developers: Challenges & Solutions ( http://arxiv.org/abs/2208.11898v2 )

ライセンス: Link先を確認
Mohammad Tahaei, Kami Vaniea, Awais Rashid(参考訳) ソフトウェアにおけるプライバシを第一級の市民にするために、私たちは、開発者が利用可能なツールを利用できるようにし、組織、教育者、規制当局からのサポートを提供することを主張します。 我々は,プライバシ機能の統合が成功した際の課題を議論し,開発者がプライバシ関連のタスクを行うのを支援するソリューションを提案する。

To make privacy a first-class citizen in software, we argue for equipping developers with usable tools, as well as providing support from organizations, educators, and regulators. We discuss the challenges with the successful integration of privacy features and propose solutions for stakeholders to help developers perform privacy-related tasks.
翻訳日:2023-02-19 10:42:28 公開日:2022-09-08
# 呼吸器疾患の患者別モデリング・シミュレーション・リアルタイム処理

Patient-specific modelling, simulation and real-time processing for respiratory diseases ( http://arxiv.org/abs/2207.01082v5 )

ライセンス: Link先を確認
Stavros Nousias(参考訳) 喘息は呼吸系の一般的な慢性疾患であり、大きな障害と社会的負担を引き起こす。 世界の人口は3億人を超え、2025年までには1億人以上が喘息を患うだろう。 喘息の価格は国によって大きく異なる。 年間平均コストはヨーロッパでは1900 eur、米国では3100 ユーロと見積もることができる。 喘息の管理には、症状のコントロール、悪化の防止、肺機能の維持が含まれる。 喘息管理の改善は、増悪や肺機能障害のリスクを軽減するとともに、喘息ケアの直接コストと生産性の低下に伴う間接コストを低減させる。 気管支喘息治療の進展には, 肺系の複雑な動態と疾患に対する肺の反応の理解が不可欠である。 呼吸系の計算モデルは、構造と機能の間の相互作用を理解するための理論的枠組みを提供する。 彼らの応用は、患者固有のアプローチで、パーソナライズされた幾何学的およびパーソナライズされた換気パターンから、デリバリーを最適化する。 この論文では3倍の目的が扱われる。 第1部は、肺の病態の理解と喘息のメカニズム、およびそれに続く収縮性肺疾患全般を指す。 第2部では、デリバリーと効率を改善するためにパーソナライズされた医療を促進するツールの設計と実装について述べる。 最後に、第3部は、状態の自己管理のことであり、医療従事者や患者は、第1部が状態の経過を容易に追跡できるツールや方法、第2部、すなわち、患者が健康システムから重大な負担を軽減して、状態の自己管理を容易に行えるようにする。

Asthma is a common chronic disease of the respiratory system causing significant disability and societal burden. It affects more than 300 million people worldwide, while more than 100 million people will likely have asthma by 2025. The price of asthma varies greatly from nation to nation. Mean yearly cost can be estimated to 1900 EUR in Europe and $3100 in the United States. Managing asthma involves controlling symptoms, preventing exacerbations, and maintaining lung function. Improved asthma control is reduces the risk of exacerbations and lung function impairment while reducing the direct costs of asthma care and indirect costs associated with reduced productivity. Understanding the complex dynamics of the pulmonary system and the lung's response to disease is fundamental to the advancement of Asthma treatment. Computational models of the respiratory system seek to provide a theoretical framework to understand the interaction between structure and function. Their application can improve pulmonary medicine by a patient-specific approach to medicinal methodologies optimizing the delivery given the personalized geometry and personalized ventilation patterns. A three-fold objective is addressed within this dissertation. The first part refers to the comprehension of pulmonary pathophysiology and the mechanics of Asthma and subsequently of constrictive pulmonary conditions in general. The second part refers to the design and implementation of tools that facilitate personalized medicine to improve delivery and effectiveness. Finally, the third part refers to the self-management of the condition, meaning that medical personnel and patients have access to tools and methods that allow the first party to easily track the course of the condition and the second party, i.e. the patient to easily self-manage it alleviating the significant burden from the health system.
翻訳日:2023-02-19 09:36:25 公開日:2022-09-08
# ディリクレ・ツリー・モデルによる選挙のランク付け:第1段階

Auditing Ranked Voting Elections with Dirichlet-Tree Models: First Steps ( http://arxiv.org/abs/2206.14605v2 )

ライセンス: Link先を確認
Floyd Everest, Michelle Blom, Philip B. Stark, Peter J. Stuckey, Vanessa Teague, Damjan Vukcevic(参考訳) 即時投票(IRV)や単一投票(STV)のようなランク付けされた投票システムは世界中の多くの場所で使用されている。 それらは複数のルールよりも複雑で、その結果を監査するための課題を提示している: 全ハンドカウント以外のstvには既知のリスク制限監査(rla)メソッドはない。 本稿では,統計モデルであるdirichlet-treeを用いた,計算効率の良い方法で高次元パラメータに対応可能なランキングシステムの監査手法を提案する。 IRV選挙に対するベイズ監査による投票によるアプローチを実証する。 この手法がリスク制限であることは知られていないが、リスクを抑えるために調整できるいくつかの戦略を提案する。

Ranked voting systems, such as instant-runoff voting (IRV) and single transferable vote (STV), are used in many places around the world. They are more complex than plurality and scoring rules, presenting a challenge for auditing their outcomes: there is no known risk-limiting audit (RLA) method for STV other than a full hand count. We present a new approach to auditing ranked systems that uses a statistical model, a Dirichlet-tree, that can cope with high-dimensional parameters in a computationally efficient manner. We demonstrate this approach with a ballot-polling Bayesian audit for IRV elections. Although the technique is not known to be risk-limiting, we suggest some strategies that might allow it to be calibrated to limit risk.
翻訳日:2023-02-19 09:32:00 公開日:2022-09-08
# 行列積作用素代数 ii: 1次元混合状態に対する物質の位相

Matrix Product Operator Algebras II: Phases of Matter for 1D Mixed States ( http://arxiv.org/abs/2204.06295v2 )

ライセンス: Link先を確認
Alberto Ruiz-de-Alarc\'on, Jos\'e Garre-Rubio, Andr\'as Moln\'ar and David P\'erez-Garc\'ia(参考訳) 物質のトポロジカル位相の分類は、量子材料の性質を理解し、特徴づけるのに基本的である。 本稿では,一次元開量子系における物質相の研究を行う。 2つの混合状態が同じ位相であると定義し、両方の状態が局所量子チャネルの浅い回路によって他方に変換できる。 我々は、再正規化固定点である行列積密度作用素の位相図を理解することを目的とする。 これらの状態は、例えば、2次元位相的に順序付けられた状態の境界として生じる。 まず、そのような状態の族をc*-弱ホップ代数(表現が融合圏を形成する代数)に基づいて構成する。 より具体的には、これらの状態の再正規化手順に対して、明示的な局所微粒化および局所粗粒化量子チャネルを提供する。 最後に、C*-ホップ代数から生じるものは自明な位相にあることを証明する。

The classification of topological phases of matter is fundamental to understand and characterize the properties of quantum materials. In this paper we study phases of matter in one-dimensional open quantum systems. We define two mixed states to be in the same phase if both states can be transformed into the other by a shallow circuit of local quantum channels. We aim to understand the phase diagram of matrix product density operators that are renormalization fixed points. These states arise, for example, as boundaries of two-dimensional topologically ordered states. We first construct families of such states based on C*-weak Hopf algebras, the algebras whose representations form a fusion category. More concretely, we provide explicit local fine-graining and local coarse-graining quantum channels for the renormalization procedure of these states. Finally, we prove that those arising from C*-Hopf algebras are in the trivial phase.
翻訳日:2023-02-17 02:53:21 公開日:2022-09-08
# セクタリー制約の存在下での因果構造と量子スイッチへの応用

Causal structure in the presence of sectorial constraints, with application to the quantum switch ( http://arxiv.org/abs/2204.10273v2 )

ライセンス: Link先を確認
Nick Ormrod, Augustin Vanrietvelde, Jonathan Barrett(参考訳) 既存の量子因果構造の研究は、興味のあるシステム上で任意の操作を実行できると仮定している。 しかし、この条件はしばしば満たされない。 ここでは、量子因果モデリングの枠組みを、システムが互いに写像されるヒルベルト空間の直交部分空間の制限として、セクタリー制約に苦しむことができる状況にまで拡張する。 当社の枠組み (a)因果関係に関する多くの異なる直観が等価であることが証明される。 (b) セクター制約の存在下での量子因果構造が有向グラフで表現できることを示す。 c) システムの個々のセクタが因果関係を持つ因果構造の細粒度を定義する。 例えば、この枠組みを量子スイッチのフォトニック実装に応用し、粗粒の因果構造は循環的であるが、細粒の因果構造は非循環的であることを示す。 したがって、これらの実験は弱い意味でのみ不確定因果順序を実現する。 特に、これは因果相対論が時空に局所化されなければならないという仮定に基づかない、この効果に対する最初の議論である。

Existing work on quantum causal structure assumes that one can perform arbitrary operations on the systems of interest. But this condition is often not met. Here, we extend the framework for quantum causal modelling to situations where a system can suffer sectorial constraints, that is, restrictions on the orthogonal subspaces of its Hilbert space that may be mapped to one another. Our framework (a) proves that a number of different intuitions about causal relations turn out to be equivalent; (b) shows that quantum causal structures in the presence of sectorial constraints can be represented with a directed graph; and (c) defines a fine-graining of the causal structure in which the individual sectors of a system bear causal relations. As an example, we apply our framework to purported photonic implementations of the quantum switch to show that while their coarse-grained causal structure is cyclic, their fine-grained causal structure is acyclic. We therefore conclude that these experiments realize indefinite causal order only in a weak sense. Notably, this is the first argument to this effect that is not rooted in the assumption that the causal relata must be localized in spacetime.
翻訳日:2023-02-16 03:35:54 公開日:2022-09-08
# 選択スキームを特徴付けるための一連の診断指標

A suite of diagnostic metrics for characterizing selection schemes ( http://arxiv.org/abs/2204.13839v2 )

ライセンス: Link先を確認
Jose Guadalupe Hernandez, Alexander Lalejini, Charles Ofria(参考訳) ベンチマークスイートは、進化的アルゴリズムの問題解決能力の有用な測定を提供するが、構成的問題はアルゴリズムの強みと弱みをきれいに識別するには複雑すぎることが多い。 ここでは,評価と探索の重要な側面について,選択スキームを実証的に分析するためのベンチマークスイートDOSSIER(<``Diagnostic Overview of Selection Schemes in Evolutionary Runs''')を紹介する。 エクスプロイションは基本的にはヒルクライミングであるが、私たちは2つのシナリオを考察する: 表現の各位置を独立して最適化できる純粋なエクスプロイションと、位置間の相互作用によってより上向きの進捗が制限されたエクスプロイションである。 最適化経路が明確でない場合には探索が必要であり、複数の独立した登山経路に従う能力と、フィットネスバレーを横断する能力を考える。 これらのシナリオのそれぞれの組み合わせは、特定の選択スキームに関連する進化力学を特徴づけるのに役立つ、異なるフィットネスランドスケープを生成する。 我々は6つの人気のある選択方法を分析する。 コースの選択とトラルニケーションの選択は、どちらもエクスプロイトの指標に優れていたが、探索が必要になった際には不十分であった。 フィットネスの共有は、偽装を克服するときにうまくいったが、他のすべての診断では不十分だった。 非支配的な選別は、複数のオプティマに住む個人からなる多様な集団を維持するのに最適であったが、効果的な勾配の活用に苦慮した。 レキシケースの選択は、悪用を犠牲にすることなく、検索空間の探索とバランスをとり、一般に診断でうまく機能する。 本研究は,選択スキーム特性の直感的理解を迅速に構築し,新たな選択方法の改善や開発に使用できる診断の価値を実証する。

Benchmark suites provide useful measurements of an evolutionary algorithm's problem-solving capacity, but the constituent problems are often too complex to cleanly identify an algorithm's strengths and weaknesses. Here, we introduce the benchmark suite DOSSIER (``Diagnostic Overview of Selection Schemes In Evolutionary Runs'') for empirically analyzing selection schemes on important aspects of exploitation and exploration. Exploitation is fundamentally hill climbing, but we consider two scenarios: pure exploitation where each position in the representation can be optimized independently, and constrained exploitation where upward progress is more limited due to interactions between positions. Exploration is necessary when the optimization path is less clear; we consider the ability to follow multiple independent hill climbing pathways and the ability to cross fitness valleys. Each combination of these scenarios produces distinct fitness landscapes that help characterize the evolutionary dynamics associated with a given selection scheme. We analyze six popular selection schemes. Tournament selection and truncation selection both excelled at with exploitation metrics, but performed poorly when exploration was required; conversely, novelty search excelled at exploration but failed to exploit gradients. Fitness sharing performed well when overcoming deception, but poorly across all other diagnostics. Nondominated sorting was best for maintaining diverse populations comprised of individuals inhabiting multiple optima, but struggled to effectively exploit gradients. Lexicase selection balanced search space exploration without sacrificing exploitation, generally performing well across diagnostics. Our work demonstrates the value of diagnostics for quickly building an intuitive understanding of selection scheme characteristics, which can then be used to improve or develop new selection methods.
翻訳日:2023-02-15 04:07:15 公開日:2022-09-08
# 量子ネットワークのためのフィールド展開可能な量子メモリ

Field-deployable Quantum Memory for Quantum Networking ( http://arxiv.org/abs/2205.13091v2 )

ライセンス: Link先を確認
Yang Wang, Alexander N. Craddock, Rourke Sekelsky, Mael Flament, Mehdi Namazi(参考訳) 高性能量子メモリは、量子ネットワークにおける時間的事象を制御するための重要なコンポーネントである。 量子リピータの構成要素として、繊維損失の物理的制限を超えた絡み合いの分布を支持する可能性がある。 これにより、量子鍵分布、ネットワーク強化量子センシング、分散量子コンピューティングといった重要な応用が可能になる。 ここでは,実世界の展開とスケーリングの課題を満たすように設計された量子メモリを提案する。 メモリ技術は、温かいルビジウム蒸気を記憶媒体として利用し、真空および/または低温の支持を必要としない室温で動作する。 単一光子レベルの量子メモリ演算に対して,高忠実度検索(95\%)と低演算誤差((10^{-2})$の記憶時間160$\mu s$の性能仕様を実証する。 さらに,原子拡散を抑制することにより,最大1ミリ秒の保存時間(古典レベル光)を大幅に改善した。 標準の2Uラックマウントフォームファクターを備えた囲いに収容され、ノイズの多い環境で日々のスケールで堅牢に操作することができる。 この結果は、この分野で量子ネットワークを実装するための重要なステップとなる。

High-performance quantum memories are an essential component for regulating temporal events in quantum networks. As a component in quantum-repeaters, they have the potential to support the distribution of entanglement beyond the physical limitations of fiber loss. This will enable key applications such as quantum key distribution, network-enhanced quantum sensing, and distributed quantum computing. Here, we present a quantum memory engineered to meet real-world deployment and scaling challenges. The memory technology utilizes a warm rubidium vapor as the storage medium, and operates at room temperature, without the need for vacuum- and/or cryogenic- support. We demonstrate performance specifications of high-fidelity retrieval (95\%) and low operation error $(10^{-2})$ at a storage time of 160 $\mu s$ for single-photon level quantum memory operations. We further show a substantially improved storage time (with classical-level light) of up to 1 ms by suppressing atomic diffusions. The device is housed in an enclosure with a standard 2U rackmount form factor, and can robustly operate on a day scale in a noisy environment. This result marks an important step toward implementing quantum networks in the field.
翻訳日:2023-02-11 16:52:11 公開日:2022-09-08
# 非エルミート系の感度

Sensitivity of non-Hermitian systems ( http://arxiv.org/abs/2206.08976v2 )

ライセンス: Link先を確認
Elisabet Edvardsson, Eddy Ardonne(参考訳) 非エルミート・ハミルトニアンの境界条件に対する固有値の極端な感度を理解することは、非エルミート系の解析において非常に重要である。 ここでは,任意の境界条件を持つ一次元一バンドモデルの固有値を求める手法について述べる。 本手法は, 固有値の解析式を求めるシステムにおいて, スペクトルが境界条件の変化に敏感であることを期待できる場合に, パラメータ値の条件を与える。 1次元鎖を積み重ねることで、周期的境界条件を1方向に有するいくつかの2次元系の感度に対する対応する条件を求める。 これは、ブロッホ・ハミルトニアン(bloch hamiltonian)の行列式を巻くなど、皮膚効果を検出する他の方法を用いることで難しい。 最後に,これらの結果を用いて,両方向の開境界条件を有する純粋2次元システムにおける皮膚効果(dis)の出現を予測した。

Understanding the extreme sensitivity of the eigenvalues of non-Hermitian Hamiltonians to the boundary conditions is of great importance when analyzing non-Hermitian systems, as it appears generically and is intimately connected to the skin effect and the breakdown of the conventional bulk boundary correspondence. Here we describe a method to find the eigenvalues of one-dimensional one-band models with arbitrary boundary conditions. We use this method on several systems to find analytical expressions for the eigenvalues, which give us conditions on the parameter values in the system for when we can expect the spectrum to be insensitive to a change in boundary conditions. By stacking one-dimensional chains, we use the derived results to find corresponding conditions for insensitivity for some two-dimensional systems with periodic boundary conditions in one direction. This would be hard by using other methods to detect skin effect, such as the winding of the determinant of the Bloch Hamiltonian. Finally, we use these results to make predictions about the (dis)appearance of the skin effect in purely two-dimensional systems with open boundary conditions in both directions.
翻訳日:2023-02-09 01:50:30 公開日:2022-09-08
# 局所構造を用いた複数QPUの量子回路最適化

Quantum circuit optimization for multiple QPUs using local structure ( http://arxiv.org/abs/2206.09938v2 )

ライセンス: Link先を確認
Edwin Tham, Ilia Khait, Aharon Brodutch(参考訳) 量子ビットのクラスタを相互接続することは、将来の量子コンピュータをスケールアップするための重要な要素となる。 量子処理ユニット(qpu)間の動作は通常、単一のqpuよりもかなり遅くコストがかかるため、インターコネクトの使用は慎重に管理する必要がある。 これは、従来のマルチcpuマシンで共有キャッシュやメモリを管理する必要性に似ている。 しかし、古典的クラスタとは異なり、量子データはキャッシュコヒーレンシー戦略の再考を必要とする非閉鎖定理の対象となっている。 本稿では,eprを介するリモートゲートと,クラスタ間でキュービットをテレポーティングする簡単な方法を検討する。 重要なことは、実行時にクラスタ間操作を最小限に抑えるために、量子回路の局所構造を利用するコンパイル時に最適化を開発することである。 我々は、既存の量子コンパイルと最適化ルーチンに対するアプローチをベンチマークし、回路深度と相互接続利用の大幅な改善を見出した。

Interconnecting clusters of qubits will be an essential element of scaling up future quantum computers. Operations between quantum processing units (QPUs) are usually significantly slower and costlier than those within a single QPU, so usage of the interconnect must be carefully managed. This is loosely analogous to the need to manage shared caches or memory in classical multi-CPU machines. Unlike classical clusters, however, quantum data is subject to the no-cloning theorem, which necessitates a rethinking of cache coherency strategies. Here, we consider a simple strategy of using EPR-mediated remote gates and teleporting qubits between clusters as necessary. Crucially, we develop optimizations at compile-time that leverage local structure in a quantum circuit, so as to minimize inter-cluster operations at runtime. We benchmark our approach against existing quantum compilation and optimization routines, and find significant improvements in circuit depth and interconnect usage.
翻訳日:2023-02-08 18:39:24 公開日:2022-09-08
# 普遍的クラスタ状態を持たないマルチエージェントブラインド量子計算

Multi-agent blind quantum computation without universal cluster state ( http://arxiv.org/abs/2206.13330v2 )

ライセンス: Link先を確認
Shuxiang Cao(参考訳) Blind Quant Computing (BQC)プロトコルは、データとアルゴリズムを秘密にしながら、サードパーティの量子エージェント上で量子アルゴリズムの実行を可能にする。 従来の測定ベースのBQCの提案では、非常に絡み合ったクラスタ状態を用意する必要がある。 本稿では,そのような要件は不要であることを示す。 我々のプロトコルでは、デリゲートされた量子エージェント間の事前共有ベルペアしか必要とせず、実行中にエージェント間の古典的または量子的な情報交換が不要である。 我々の提案は、普遍的なクラスタ状態を取り除くことで、以前の提案よりも少ない量子リソースを必要とする。

Blind quantum computation (BQC) protocols enable quantum algorithms to be executed on third-party quantum agents while keeping the data and algorithm confidential. The previous proposals for measurement-based BQC require preparing a highly entangled cluster state. In this paper, we show that such a requirement is not necessary. Our protocol only requires pre-shared bell pairs between delegated quantum agents, and there is no requirement of any classical or quantum information exchange between agents during the execution. Our proposal requires fewer quantum resources than previous proposals by removing the universal cluster state.
翻訳日:2023-02-07 21:28:59 公開日:2022-09-08
# ガイド付き局所ハミルトン問題に対する硬度改善効果

Improved Hardness Results for the Guided Local Hamiltonian Problem ( http://arxiv.org/abs/2207.10250v2 )

ライセンス: Link先を確認
Sevag Gharibian, Ryu Hayakawa, Fran\c{c}ois Le Gall, Tomoyuki Morimae(参考訳) 局所ハミルトニアンの基底状態エネルギーの推定は、量子化学において中心的な問題である。 量子化学における量子アルゴリズムの複雑さとポテンシャルをさらに研究するために、Gharibian and Le Gall (STOC 2022)は、最近、基底状態の近似が追加入力として与えられる局所ハミルトン問題(GLH)の変種であるガイド付き局所ハミルトン問題(英語版)を導入した。 Gharibian と Le Gall は、誘導ベクトルが基底状態の 1/\sqrt{2}$ に近い重複(逆多項式)を持つ場合、GLH の量子的優位性(より正確には BQP-完全性)を示した。 本稿では,この量子的優位性 (BQP完全性) が2つの局所ハミルトニアンであっても持続し, 誘導状態が1と基底状態に近い(逆多項式的に)重複している場合でも, 局所性と重なりパラメータの両方を最適に改善する。 さらに, bqp完全性は2次元正方格子あるいは2次元三角格子上の2局所物理的動機付けハミルトニアンに対しても成立することを示した。 これは量子化学において実用的な量子優位性を確立するためのさらなる一歩となる。

Estimating the ground state energy of a local Hamiltonian is a central problem in quantum chemistry. In order to further investigate its complexity and the potential of quantum algorithms for quantum chemistry, Gharibian and Le Gall (STOC 2022) recently introduced the guided local Hamiltonian problem (GLH), which is a variant of the local Hamiltonian problem where an approximation of a ground state is given as an additional input. Gharibian and Le Gall showed quantum advantage (more precisely, BQP-completeness) for GLH with $6$-local Hamiltonians when the guiding vector has overlap (inverse-polynomially) close to $1/\sqrt{2}$ with a ground state. In this paper, we optimally improve both the locality and the overlap parameters: we show that this quantum advantage (BQP-completeness) persists even with 2-local Hamiltonians, and even when the guiding state has overlap (inverse-polynomially) close to 1 with a ground state. Moreover, we show that the BQP-completeness also holds for 2-local physically motivated Hamiltonians on a 2D square lattice or a 2D triangular lattice. This makes a further step towards establishing practical quantum advantage in quantum chemistry.
翻訳日:2023-02-04 05:31:44 公開日:2022-09-08
# 量子HPC加速器のQPUシステム共設計

QPU-System Co-Design for Quantum HPC Accelerators ( http://arxiv.org/abs/2208.11449v4 )

ライセンス: Link先を確認
Karen Wintersperger, Hila Safi and Wolfgang Mauerer(参考訳) 量子処理ユニット(qpus)の使用は計算問題を解決するためにスピードアップを約束するが、現在利用可能な量子デバイスは限られた数の量子ビットしか持たず、かなりの不完全さに苦しんでいる。 実用性に向けて前進する可能性の1つは、問題定式化とアルゴリズムの共設計アプローチを使用することであるが、物理QPU特性は特定のアプリケーションに合わせて調整されている。 QPUは古典的コンピュータのアクセラレータとして使われる可能性が高いため、既存のアーキテクチャへのシステム統合の詳細は、QPUの実用性に影響を及ぼし改善するためのレバーである。 本研究では,異なるパラメータが量子プログラムの実行時間に与える影響について検討する。 本稿では、CPUとQPU間の通信時間の影響、QPU設計の適応が量子および全体実行性能に与える影響、およびこれらの要因の相互作用について検討する。 与えられたタスクに対してどの設計選択を最適化すべきかを推定するシンプルなモデルを用いて,共同設計アプローチの可能性と限界について,hpcコミュニティに直観する。 また、実際の量子ハードウェアデバイス上での提案する変更を実装する際の物理的制約についても論じる。

The use of quantum processing units (QPUs) promises speed-ups for solving computational problems, but the quantum devices currently available possess only a very limited number of qubits and suffer from considerable imperfections. One possibility to progress towards practical utility is to use a co-design approach: Problem formulation and algorithm, but also the physical QPU properties are tailored to the specific application. Since QPUs will likely be used as accelerators for classical computers, details of systemic integration into existing architectures are another lever to influence and improve the practical utility of QPUs. In this work, we investigate the influence of different parameters on the runtime of quantum programs on tailored hybrid CPU-QPU-systems. We study the influence of communication times between CPU and QPU, how adapting QPU designs influences quantum and overall execution performance, and how these factors interact. Using a simple model that allows for estimating which design choices should be subjected to optimisation for a given task, we provide an intuition to the HPC community on potentials and limitations of co-design approaches. We also discuss physical limitations for implementing the proposed changes on real quantum hardware devices.
翻訳日:2023-01-30 00:06:48 公開日:2022-09-08
# 離散時間におけるユニタリ格子ゲージ理論の一粒子枠組み

A single-particle framework for unitary lattice gauge theory in discrete time ( http://arxiv.org/abs/2208.14997v4 )

ライセンス: Link先を確認
Pablo Arnault and Christopher Cedzich(参考訳) 1+1)次元時空格子上の単一粒子のスピン1/2物質場に対する実時間格子ゲージ理論型作用を構成する。 このフレームワークは離散時間量子ウォークに基づいているため、本質的に一元的で厳密に局所的な、すなわち格子上の光円錐の外側の遷移振幅は正確に消滅する。 次に、この作用の内部対称性に対する格子ネーターの定理を提供する。 さらに、この作用を格子上の最小置換によって電磁場に結合する。 最後に,任意の時空次元における電磁場に対する実時間格子ゲージ理論型作用を提案し,マクスウェル方程式の格子型である古典的運動方程式を導出する。

We construct a real-time lattice-gauge-theory-type action for a spin-1/2 matter field of a single particle on a (1+1)-dimensional spacetime lattice. The framework is based on a discrete-time quantum walk, and is hence inherently unitary and strictly local, i.e., transition amplitudes exactly vanish outside of a lightcone on the lattice. We then provide a lattice Noether's theorem for internal symmetries of this action. We further couple this action to an electromagnetic field by a minimal substitution on the lattice. Finally, we suggest a real-time lattice-gauge-theory-type action for the electromagnetic field in arbitrary spacetime dimensions, and derive its classical equations of motion, which are lattice versions of Maxwell's equations.
翻訳日:2023-01-28 09:09:02 公開日:2022-09-08
# 単一トラップイオンにおける非エルミチアン皮膚効果

Non-Hermitian skin effect in a single trapped ion ( http://arxiv.org/abs/2209.03691v1 )

ライセンス: Link先を確認
Ziguang Lin, Yiheng Lin and Wei Yi(参考訳) 非エルミート皮膚効果(NHSE)は、非エルミート系におけるすべての固有状態が境界に向かって指数関数的な局在化を記述し、最近になって強い研究関心を集めている。 ここでは、nhseが複雑なスピン運動ダイナミクスを介して1つの閉じ込められたイオンの外部運動に著しく影響するスキームを理論的に提案する。 一方、NHSEとコヒーレントブロッホ力学の競合を示す。 一方,nhseは占有フォノンモードにおける非逆流として表されるため,このようなダイナミクスが冷却やセンシングに応用できる可能性が示唆されている。 提案手法は既存の実験手法を用いて容易に実装可能であり,非エルミート物理学における拡張性(利用可能なイオンおよびフォノンモード)シミュレーションプラットフォームを提供する。

Non-Hermitian skin effect (NHSE) describes the exponential localization of all eigenstates toward boundaries in non-Hermitian systems, and has attracted intense research interest of late. Here we theoretically propose a scheme in which the NHSE significantly impacts the external motion of a single trapped ion through complex spin-motion dynamics. On the one hand, we show the competition between the NHSE and the coherent Bloch dynamics. On the other hand, since the NHSE manifests as a non-reciprocal flow in occupied phonon modes, we demonstrate that such dynamics can have potential applications in cooling and sensing. Our proposal can be readily implemented using existing experimental techniques, and offers a scalable (in terms of the available ions and phonon modes) simulation platform for relevant non-Hermitian physics.
翻訳日:2023-01-27 08:11:53 公開日:2022-09-08
# 非古典光駆動の量子冷凍機

Quantum refrigerator driven by nonclassical light ( http://arxiv.org/abs/2209.03674v1 )

ライセンス: Link先を確認
Hui-Jing Cao, Fu Li, Sheng-Wen Li(参考訳) 汎用的な光状態によって駆動される3レベル量子冷凍機について研究する。 駆動光のP関数展開の助けを借りて、異なる種類の光状態によって生じる熱電流を得る。 その結果、全ての異なる入力光状態は、この冷凍機に同じ性能の係数を与えるが、冷却電力は光強度だけでなく、駆動光の特定の光子統計にも依存することがわかった。 同じ強度のコヒーレント光と比べ、スーパー(sub)-ポアソニアン光子統計による駆動光はより小さい(より強い)冷却力をもたらす可能性がある。 これは、結束した光子がまず系を励起し、次に刺激された放出を順次誘導し、冷却プロセスの開始状態まで冷蔵庫を引き戻して冷却電流の発生を減少させるためである。 この機構は、入力光の高次コヒーレンスを介してより繊細な制御方法を提供する。

We study a three-level quantum refrigerator which is driven by a generic light state, even a nonclassical one. With the help of P function expansion of the driving light, we obtain the heat current generated by different types of light states. It turns out all different input light states give the same coefficient of performance for this refrigerator, while the cooling power depend not only on the light intensity but also the specific photon statistics of the driving light. Comparing with the coherent light with the same intensity, the driving light with super(sub)-Poissonian photon statistics could raise a smaller (stronger) cooling power. We find that this is because the bunching photons would first excite the system but then successively induce the stimulated emission, which draws the refrigerator back to the starting state of the cooling process and thus decreases the cooling current generation. This mechanism provides a more delicate control method via the high order coherence of the input light.
翻訳日:2023-01-27 08:11:37 公開日:2022-09-08
# 非可逆力学における一方向情報フローと正の可除性は量子マルコビアン性の不等価概念である

Unidirectional information flow and positive divisibility are nonequivalent notions of quantum Markovianity for noninvertible dynamics ( http://arxiv.org/abs/2209.03584v1 )

ライセンス: Link先を確認
\'Angel Rivas(参考訳) 我々は、正の割り切れがなく、情報逆フロー(トレースノルム量化器によって測定される)も示さない動的写像を構築する。 これは、非可逆力学のクエット系に対して定式化される。 これは、情報バックフローの欠如と正の可除性に基づく2つの量子マルコフ性の定義が一般の非可逆力学写像に対して非同値であることを証明している。

We construct a dynamical map which is not positive divisible and does not present information backflow either (as measured by trace norm quantifiers). It is formulated for a qutrit system undergoing noninvertible dynamics. This provides an evidence that the two definitions of quantum Markovianity based on absence of information backflow and positive divisibility are nonequivalent for general noninvertible dynamical maps
翻訳日:2023-01-27 08:11:20 公開日:2022-09-08
# bqa:ヒューリスティック探索に基づく高性能量子回路スケジューリング戦略

BQA: A High-performance Quantum Circuits Scheduling Strategy Based on Heuristic Search ( http://arxiv.org/abs/2209.03542v1 )

ライセンス: Link先を確認
Xin-miao Chen and Shi Wang and Yong-jin Ye and Bo Jiang and Yong-zheng Wu(参考訳) 現在、量子コンピューティングはその高い並列性と高い計算能力が多くの分野に新しいソリューションをもたらすため、高速で開発されている。 しかし、チッププロセス技術により、量子チップ上の全ての量子ビットの完全な結合を実現することは困難であり、量子回路を物理チップにコンパイルする場合、スワップゲートを挿入することで2量子ビットゲートが一対の結合量子ビットに作用することを保証する必要がある。 多数のスワップゲートが挿入されると大きなコストがかかるため、量子回路の実行時間が長くなる。 本稿では,スワップゲートをBQA(Busy Qubits Avoid)に挿入する方法を設計した。 我々は、qubits上のゲート数の不均衡を利用して、スワップゲートのオーバーヘッドを隠そうとしている。 同時に、スワップゲートがその後の2ビットゲートに極力悪影響を及ぼすことも期待している。 これらの点を考慮に入れたヒューリスティックな関数を設計しました。 qiskitと比較して,提案手法で最適化した回路の実行時間は,qiskitコンパイル回路の0.5倍に過ぎなかった。 そして、2量子ビットゲートの数が大きくなると、一般的な条件よりも高いレベルに達する。 これは高い実行効率と低いデコヒーレンスエラー率を意味する。

Currently, quantum computing is developing at a high speed because its high parallelism and high computing power bring new solutions to many fields. However, due to chip process technology, it is difficult to achieve full coupling of all qubits on a quantum chip, so when compiling a quantum circuit onto a physical chip, it is necessary to ensure that the two-qubit gate acts on a pair of coupled qubits by inserting swap gates. It will cause great additional cost when a large number of swap gates are inserted, leading to the execution time of quantum circuits longer. In this paper, we designed a way based on the business to insert swap gates BQA(Busy Qubits Avoid). We exploit the imbalance of the number of gates on qubits, trying to hide the overhead of swap gates. At the same time, we also expect swap gates to make as little negative impact on subsequent two-qubit gates as possible. We have designed a heuristic function that can take into account both of these points. Compared with qiskit, the execution time of the circuit optimized by our proposed method is only 0.5 times that of the qiskit compiled circuit. And when the number of two-qubit gates is large, it will achieve higher level than general conditions. This implies higher execution efficiency and lower decoherence error rate.
翻訳日:2023-01-27 08:10:52 公開日:2022-09-08
# 重ね合わせ対策の構築方法

Methods of constructing superposition measures ( http://arxiv.org/abs/2209.03532v1 )

ライセンス: Link先を確認
Jialin Teng, Fengli Yan, Ting Gao(参考訳) 量子重ね合わせの資源理論は、線形独立性が直交性の要件を緩和する量子コヒーレント理論の拡張である。 有限個の光コヒーレント状態の重ね合わせにおいて非古典的を定量化することができる。 コンベックス屋根の拡張, 状態変換, および重み付けに基づいて, それぞれ量子状態の重畳測度を構築する3つの方法を提案する。 また、2つの観点から重ね合わせ資源理論を一般化する。

The resource theory of quantum superposition is an extension of the quantum coherent theory, in which linear independence relaxes the requirement of orthogonality. It can be used to quantify the nonclassical in superposition of finite number of optical coherent states. Based on convex roof extended, state transformation and weight, we give three methods of constructing superposition measures of quantum states, respectively. We also generalize the superposition resource theory from two perspectives.
翻訳日:2023-01-27 08:10:20 公開日:2022-09-08
# 超対称スピン鎖のトポロジカル量子計算

Topological Quantum Computation on Supersymmetric Spin Chains ( http://arxiv.org/abs/2209.03822v1 )

ライセンス: Link先を確認
Indrajit Jana, Filippo Montorsi, Pramod Padmanabhan and Diego Trancanelli(参考訳) ブレイド群要素で構築された量子ゲートは、トポロジカル量子計算の構成要素を形成する。 それらは、Ising(k=2$)、Fibonacci(k=3$)、Jones-Kauffman(k=4$)といった非アベリア素数の豊富な源泉であるSU(2)_k$量子群理論で広く研究されている。 これらのアノニカル系の融合空間は、あるニコライ様超対称スピン鎖の積状態ゼロモードに正確にマッピングできることを示した。 その結果、これらの超対称系の積状態ゼロモード上のブレイド群を実現することができる。 これらの演算子はヒルベルト空間の他の状態をすべて排除し、情報処理中にエラーが発生するのを防ぎ、量子コンピューティングに適している。

Quantum gates built out of braid group elements form the building blocks of topological quantum computation. They have been extensively studied in $SU(2)_k$ quantum group theories, a rich source of examples of non-Abelian anyons such as the Ising ($k=2$), Fibonacci ($k=3$) and Jones-Kauffman ($k=4$) anyons. We show that the fusion spaces of these anyonic systems can be precisely mapped to the product state zero modes of certain Nicolai-like supersymmetric spin chains. As a result, we can realize the braid group on the product state zero modes of these supersymmetric systems. These operators kill all the other states in the Hilbert space, thus preventing the occurrence of errors while processing information, making them suitable for quantum computing.
翻訳日:2023-01-27 08:04:32 公開日:2022-09-08
# 観測エントロピー、粗量子状態、ペッツ回復:情報理論的性質と境界

Observational entropy, coarse quantum states, and Petz recovery: information-theoretic properties and bounds ( http://arxiv.org/abs/2209.03803v1 )

ライセンス: Link先を確認
Francesco Buscemi, Joseph Schindler, and Dominik \v{S}afr\'anek(参考訳) 観測エントロピーはボルツマンのエントロピーとギブスのエントロピーを適切に補間する量子粗粒エントロピーの一般的な概念を提供しており、最近は平衡外熱力学的エントロピーの有用な指標として議論されている。 本稿では,最近強化された相対エントロピー単調性,近似回復,petzの転置写像を用いて,情報理論的な観点から観察エントロピーの数学的性質を考察する。 一般に観測エントロピーに適用する新しい境界と,シーケンシャルおよびファインマー/コアサー測定に関連する境界を示す。 一般境界は、回復した ``coarse'' 状態 $\rho_{\mathrm{rec}}$ と関連しており、これは近似的回復と、粗粒度の知識のみを与えられたベイズ状態の逆数から生じる。 次に、この$\rho_{\mathrm{rec}}$と真の$\rho$の間の距離で実装可能な上限について、状態識別への応用について論じる。 分析の副産物として、情報理論的な観点からも、観測エントロピー理論の主な結果を再検討する。

Observational entropy provides a general notion of quantum coarse-grained entropy that appropriately interpolates between Boltzmann's and Gibbs' entropies, and has recently been argued to provide a useful measure of out-of-equilibrium thermodynamic entropy. Here we study the mathematical properties of observational entropy from an information-theoretic viewpoint, especially making use of recently strengthened forms of relative entropy monotonicity, approximate recovery, and Petz's transpose map. We present new bounds on observational entropy applying in general, as well as bounds related to sequential and finer/coarser measurements. The general bounds are related to a recovered ``coarse'' state $\rho_{\mathrm{rec}}$, which we show arises both from approximate recovery and from Bayesian state retrodiction given only coarse-grained knowledge. We then discuss an implementable upper bound on distance between this $\rho_{\mathrm{rec}}$ and the true $\rho$, with applications to state identification. As a by-product of the analysis we also rederive from an information-theoretic perspective some main results of observational entropy theory.
翻訳日:2023-01-27 08:04:16 公開日:2022-09-08
# 並列性を用いた変分量子固有ソルバの高速化

Accelerating the variational quantum eigensolver using parallelism ( http://arxiv.org/abs/2209.03796v1 )

ライセンス: Link先を確認
Lana Mineh, Ashley Montanaro(参考訳) 量子コンピュータはますます大きくなっているが、デバイスへの忠実さは量子ビット数の増加に追いついていないかもしれない。 ゲート深さが制限された大きなデバイスを使う一つの方法は、多数の小さな回路を同時に実行することである。 本稿では,Rigetti Aspen-M-1デバイス上での動作回路の並列化について述べる。 2量子ビットの回路を並列に実行し、変分量子固有解法を用いてハバードモデルの単純な例を解く。 我々は、最大33個の回路を並列(66量子ビット)で動作させる結果を示し、誤差緩和技術を用いることで、現在の量子ハードウェア上でリアルタイムの高速化を実現することができることを示した。 我々は、VQEエネルギーランドスケープを探索するために18\times$のスピードアップと、VQE最適化を実行するために8\times$以上のスピードアップを得る。

Quantum computers are getting larger and larger, but device fidelities may not be able to keep up with the increase in qubit numbers. One way to make use of a large device that has a limited gate depth is to run many small circuits simultaneously. In this paper we detail our investigations into running circuits in parallel on the Rigetti Aspen-M-1 device. We run two-qubit circuits in parallel to solve a simple instance of the Hubbard model using the variational quantum eigensolver. We present results for running up to 33 circuits in parallel (66 qubits), showing that with the use of error mitigation techniques it is possible to make use of, and gain a real-time speedup from, parallelisation on current quantum hardware. We obtain a speedup by $18\times$ for exploring the VQE energy landscape, and by more than $8\times$ for running VQE optimisation.
翻訳日:2023-01-27 08:03:53 公開日:2022-09-08
# 散逸SU($N$) Fermi-HubbardモデルにおけるLiouvillianギャップとダイナミクスの厳密な解析

Exact analysis of the Liouvillian gap and dynamics in the dissipative SU($N$) Fermi-Hubbard model ( http://arxiv.org/abs/2209.03743v1 )

ライセンス: Link先を確認
Hironobu Yoshida and Hosho Katsura(参考訳) 低温原子実験の最近の進展に動機づけられ, 2体損失を持つ2次元超立方格子上のsu($n$) fermi-hubbardモデルを解析した。 強磁性定常状態に近い状態に焦点を合わせることで、任意の$d$と$N$に対して閉形式のリウビリアンギャップを得る。 また,単一スピンフリップを持つ強弱相互作用および散逸限界における強磁性初期状態のダイナミクスを数値解析し,パラメータの様々な値に対して数値解析する。 そして, 相互作用と損失の強度を低下させることで, パワーロー崩壊から指数崩壊へのクロスオーバーが発生することを示す。 光学格子中の超低温アルカリ原子を用いて実験を行うことが期待できる。

Motivated by recent progress in cold-atom experiments, we analyze the SU($N$) Fermi-Hubbard model on a $d$-dimensional hypercubic lattice with two-body loss. By focusing on states near the ferromagnetic steady states, we obtain the Liouvillian gap in closed form for any $d$ and $N$. We also investigate the dynamics of a ferromagnetic initial state with a single spin flip analytically in strongly- and weakly-interacting and dissipative limits and numerically for various values of the parameters. Then we show that, by decreasing the strength of the interaction and loss, a crossover from the power-law decay to the exponential decay occurs. We expect that our findings can be tested experimentally with ultracold alkaline-earth-like atoms in an optical lattice.
翻訳日:2023-01-27 08:02:42 公開日:2022-09-08
# 励起状態探索のための量子アニールによる最短ベクトル問題の解析

Analysis of the shortest vector problems with the quantum annealing to search the excited states ( http://arxiv.org/abs/2209.03721v1 )

ライセンス: Link先を確認
Katsuki Ura, Takashi Imoto, Tetsuro Nikuni, Shiro Kawabata, and Yuichiro Matsuzaki(参考訳) 最短ベクトル問題(SVP)は格子問題の1つであり、量子後暗号として期待される格子ベースの暗号の数学的基礎である。 SVP はイジング問題に写像することができ、原理的には量子アニール (QA) によって解ける。 しかし、QAを用いてSVPを解く際の一つの問題は、SVPの解がハミルトニアン問題の第一励起状態に対応することである。 したがって、基底状態を探すqaは、高い確率で解を提供することができない。 本稿では,最短ベクトル問題を解くために,QAの励起状態探索を採用することを提案する。 我々は,励起状態探索が基底状態探索よりも高い確率で解を提供することを示す。

The shortest vector problem (SVP) is one of the lattice problems and is mathematical basis for the lattice-based cryptography, which is expected to be post-quantum cryptography. The SVP can be mapped onto the Ising problem, which in principle can be solved by quantum annealing (QA). However, one issue in solving the SVP using QA is that the solution of the SVP corresponds to the first excited state of the problem Hamiltonian. Therefore, QA, which searches for ground states, cannot provide a solution with high probability. In this paper, we propose to adopt an excited-state search of the QA to solve the shortest vector problem. We numerically show that the excited-state search provides a solution with a higher probability than the ground-state search.
翻訳日:2023-01-27 08:02:28 公開日:2022-09-08
# 局所コンパクト群上の共変正作用素値測度によって生成される量子チャネルについて

On quantum channels generated by covariant positive operator-valued measures on a locally compact group ( http://arxiv.org/abs/2209.03703v1 )

ライセンス: Link先を確認
Grigori Amosov(参考訳) 局所コンパクトなアーベル群の直積の射影ユニタリ表現によって生成される正の作用素値測度(POVM)を双対の$\hat G$で導入する。 この手法はポントリャーギン双対性に基づいて、ヒルベルト=シュミット作用素の空間の$L^2(G)$とヒルベルト空間$L^2(\hat G\times G)$の間の等方的同型を確立する。 そのような測度は、測定チャネルと、グループ上の量子状態のアンサンブルに初期量子状態を送信するチャネルからなる、一対のハイブリッド(古典的および量子的部分を含む)量子チャネルを決定する。 また,第2のチャネルを測定チャネルの補完チャネルと呼ぶことができることを示した。

We introduce positive operator-valued measure (POVM) generated by the projective unitary representation of a direct product of locally compact Abelian group $G$ with its dual $\hat G$. The method is based upon the Pontryagin duality allowing to establish an isometrical isomorphism between the space of Hilbert-Schmidt operators in $L^2(G)$ and the Hilbert space $L^2(\hat G\times G)$. Any such a measure determines a pair of hybrid (containing classical and quantum parts) quantum channels consisting of the measurement channel and the channel transmitting an initial quantum state to the ensemble of quantum states on the group. It is shown that the second channel can be called a complementary channel to the measurement channel.
翻訳日:2023-01-27 08:02:15 公開日:2022-09-08
# オープン量子システムとしてのDQC1

DQC1 as an Open Quantum System ( http://arxiv.org/abs/2209.03947v1 )

ライセンス: Link先を確認
Jake Xuereb, Steve Campbell, John Goold, Andr\'e Xuereb(参考訳) dqc1複雑性クラス、すなわち1量子ビットモデルのパワーは、オープン量子システムとして検討される。 dqc1アルゴリズムを実行する量子ビットのレジスタのダイナミクスを研究し、複雑性クラス内の任意のアルゴリズムに対して、論理量子ビットの進化は、ユニタリなダイナミクスを持つオープン量子システムとして記述できることを示した。 ユニタリ量子チャネルはタサキ-クルックスゆらぎの定理を尊重し、論理量子ビットの熱力学によってどのように捉えるかを示す。 応用として, DQC1トレース推定アルゴリズムの平衡と非平衡熱力学について検討する。 異なる計算入力、すなわち、推定されるトレースは、量子ビットのレジスタ全体にわたって異なるエネルギー交換を生じさせ、論理量子ビットの温度が経験した変動の大きさとアルゴリズムの品質に影響することを示す。

The DQC1 complexity class, or power of one qubit model, is examined as an open quantum system. We study the dynamics of a register of qubits carrying out a DQC1 algorithm and show that, for any algorithm in the complexity class, the evolution of the logical qubit can be described as an open quantum system undergoing a dynamics which is unital. Unital quantum channels respect the Tasaki-Crooks fluctuation theorem and we demonstrate how this is captured by the thermodynamics of the logical qubit. As an application, we investigate the equilibrium and non-equilibrium thermodynamics of the DQC1 trace estimation algorithm. We show that different computational inputs, i.e. different traces being estimated, lead to different energetic exchanges across the register of qubits and that the temperature of the logical qubit impacts the magnitude of fluctuations experienced and quality of the algorithm.
翻訳日:2023-01-27 07:55:42 公開日:2022-09-08
# 不等式やモーダル論理を持たない絶対観測事象のノーゴー定理

A no-go theorem for absolute observed events without inequalities or modal logic ( http://arxiv.org/abs/2209.03940v1 )

ライセンス: Link先を確認
Nick Ormrod, Jonathan Barrett(参考訳) この論文は、量子論が絶対的な観測と矛盾する効果、すなわち一意的かつ非相対的な結果に基づくノーゴー定理に基づく。 既存のno-go結果とは異なり、ここで導入されたものは理論に依存しない絶対性仮定に基づいており、標準確率論やモーダル論理の妥当性を仮定する必要はない。 この矛盾は、量子理論が任意の慣性参照フレームに適用されると仮定し、その結果は特殊相対性理論と絶対性理論の間の緊張を照らす。

This paper builds on no-go theorems to the effect that quantum theory is inconsistent with observations being absolute; that is, unique and non-relative. Unlike the existing no-go results, the one introduced here is based on a theory-independent absoluteness assumption, and there is no need to assume the validity of standard probability theory or of modal logic. The contradiction is derived by assuming that quantum theory applies in any inertial reference frame; accordingly, the result also illuminates a tension between special relativity and absoluteness.
翻訳日:2023-01-27 07:55:27 公開日:2022-09-08
# スクイーズドカー発振器:スペクトルキスと位相変動のロバスト性

The squeezed Kerr oscillator: spectral kissing and phase-flip robustness ( http://arxiv.org/abs/2209.03934v1 )

ライセンス: Link先を確認
Nicholas E. Frattini, Rodrigo G. Corti\~nas, Jayameenakshi Venkatraman, Xu Xiao, Qile Su, Chan U Lei, Benjamin J. Chapman, Vidul R. Joshi, S. M. Girvin, Robert J. Schoelkopf, Shruti Puri, and Michel H. Devoret(参考訳) 特別に設計されたジョセフソン回路にマイクロ波駆動を適用することで、初等量子光学モデルであるスクイーズドカー発振器を実現する。 このモデルは、スクイーズ振幅が増加するにつれて、単一基底状態レジームから二重縮退基底状態レジームへのクロスオーバーを表示する。 後者の場合、基底状態多様体はSchr\"odinger-cat状態、すなわち反対の位相を持つコヒーレント状態の量子重ね合わせによって分割される。 はじめて、分光実験で10番目の励起状態に到達し、提案された創発的静的ハミルトニアンが、その駆動特性にもかかわらずシステムを正しく記述していることを確認した。 また, 猫状態のコヒーレント状態成分の寿命は, スクイーズ振幅の関数として段階的に増加することがわかった。 我々は階段のパターンを励起状態スペクトルにおけるペアレベルのキスの結果であると解釈する。 この基底状態多様体に符号化されたKerr-cat量子ビットを考えると、初めて99%以上の量子非退化可読性を実現し、普遍的な量子制御を維持しながら2桁以上の位相フリップ寿命を向上する。 本実験は、ハードウェア効率の量子計算におけるパラメトリック駆動ハミルトニアン工学の重要な役割を示す。

By applying a microwave drive to a specially designed Josephson circuit, we have realized an elementary quantum optics model, the squeezed Kerr oscillator. This model displays, as the squeezing amplitude is increased, a cross-over from a single ground state regime to a doubly-degenerate ground state regime. In the latter case, the ground state manifold is spanned by Schr\"odinger-cat states, i.e. quantum superpositions of coherent states with opposite phases. For the first time, having resolved up to the tenth excited state in a spectroscopic experiment, we confirm that the proposed emergent static effective Hamiltonian correctly describes the system, despite its driven character. We also find that the lifetime of the coherent state components of the cat states increases in steps as a function of the squeezing amplitude. We interpret the staircase pattern as resulting from pairwise level kissing in the excited state spectrum. Considering the Kerr-cat qubit encoded in this ground state manifold, we achieve for the first time quantum nondemolition readout fidelities greater than 99%, and enhancement of the phase-flip lifetime by more than two orders of magnitude, while retaining universal quantum control. Our experiment illustrates the crucial role of parametric drive Hamiltonian engineering for hardware-efficient quantum computation.
翻訳日:2023-01-27 07:55:17 公開日:2022-09-08
# プレコンディション基底における量子古典的リウヴィル形式と位相空間表面ホッピングとの接続

A Quantum-Classical Liouville Formalism in a Preconditioned Basis and Its Connection with Phase-Space Surface Hopping ( http://arxiv.org/abs/2209.03912v1 )

ライセンス: Link先を確認
Yanze Wu and Joseph Subotnik(参考訳) 我々は,相空間表面ホッピング(PSSH)アルゴリズムを用いて,複素数値ハミルトニアンを用いた非断熱問題をモデル化する最近の提案を再考する。 ここでは, 擬似ダイバティックPSSH (PD-PSSH) アンサッツが, プリコンディショニングプロセスの後に導出できる量子古典リウヴィル方程式 (QCLE) と整合性を示すとともに, 適切なPD-PSSHアルゴリズムが幾何的磁気効果(標準FSSHアプローチではできない)を捉えることができることを示す。 また、プレコンディショニングされたQCLEは、特定のケースにおいて標準QCLEよりも優れており、ユニークなQCLEがないという事実を強調している。 最後に,PSSHの処理に類似した位相空間表現を用いて平均場Ehrenfestアルゴリズムを構築することができることを指摘した。 これらの発見は、複雑な値のハミルトニアンおよび/またはスピン縮退による非断熱力学の理解とシミュレーションにおいて非常に有用である。

We revisit a recent proposal to model nonadiabatic problems with a complex-valued Hamiltonian through a phase-space surface hopping (PSSH) algorithm employing a pseudo-diabatic basis. Here, we show that such a pseudo-diabatic PSSH (PD-PSSH) ansatz is consistent with a quantum-classical Liouville equation (QCLE) that can be derived following a preconditioning process, and we demonstrate that a proper PD-PSSH algorithm is able to capture some geometric magnetic effects (whereas the standard FSSH approach cannot). We also find that a preconditioned QCLE can outperform the standard QCLE in certain cases, highlighting the fact that there is no unique QCLE. Lastly, we also point out that one can construct a mean-field Ehrenfest algorithm using a phase-space representation similar to what is done for PSSH. These findings would appear extremely helpful as far understanding and simulating nonadiabatic dynamics with complex-valued Hamiltonians and/or spin degeneracy.
翻訳日:2023-01-27 07:54:54 公開日:2022-09-08
# 構造的負性性:構造的物理近似に基づく絡み合いの物理的実現可能な尺度

Structured Negativity: A physically realizable measure of entanglement based on structural physical approximation ( http://arxiv.org/abs/2209.03909v1 )

ライセンス: Link先を確認
Anu Kumari, Satyabrata Adhikari(参考訳) 絡み合いの定量化は、量子情報理論において最も重要な問題の1つである。 本研究では,任意の次元二成分系に対して物理的に実現可能な絡み合い測度である$(n_s(\rho))$ を定義することにより,この問題を研究する。 導入された測度は、有効な絡み合いモノトーンの性質を満たすことが示されている。 我々はまた、負性度と構造された負性度を関連付ける不等式を確立した。 d\otimes d$ dimensional 状態の場合、この研究で得られた結果から、部分的に変換された行列の負の固有値の数が $\frac{d(d-1)}{2}$ に等しいとき、負性は構造的負性に一致すると推測する。 さらに, 構造的負性度は実験室で実現可能であるだけでなく, 負性度に比べ, 絡み合いの指標として優れていることを示した。 少数のケースでは、構造の負性性はアルベリオ [Phys] によって得られる収束の下位境界よりも良い結果をもたらす。 Rev. Lett. \textbf{95}, 040504 (2005)]。

Quantification of entanglement is one of the most important problem in quantum information theory. In this work, we will study this problem by defining a physically realizable measure of entanglement for any arbitrary dimensional bipartite system $\rho$, which we named as structured negativity $(N_S(\rho))$. We have shown that the introduced measure satisfies the properties of a valid entanglement monotone. We also have established an inequality that relate negativity and the structured negativity. For $d\otimes d$ dimensional state, we conjecture from the result obtained in this work that negativity coincide with the structured negativity when the number of negative eigenvalues of the partially transposed matrix is equal to $\frac{d(d-1)}{2}$. Moreover, we proved that the structured negativity not only implementable in the laboratory but also a better measure of entanglement in comparison to negativity. In few cases, we obtain that structure negativity gives better result than the lower bound of the concurrence obtained by Albeverio [Phys. Rev. Lett. \textbf{95}, 040504 (2005)].
翻訳日:2023-01-27 07:54:31 公開日:2022-09-08
# 多モード非線形空洞による光子輸送:理論と応用

Few-photon transport via a multimode nonlinear cavity: theory and applications ( http://arxiv.org/abs/2209.03877v1 )

ライセンス: Link先を確認
Yunkai Wang and Kejie Fang(参考訳) 導波管と結合した局所量子系を経由する光子輸送は、理論と実験的に広く研究されている。 研究の大部分は、量子応用に有用な強い光・物質相互作用のため、原子や原子のような局所量子システムに焦点を当てている。 本稿では導波路結合型多モード光共振器による光子輸送について検討する。 ファインマン図法を開発し、1光と2光の輸送の散乱行列を計算する。 計算された散乱行列に基づき、量子干渉および線形応答工学により導波路結合多モード光空洞系において、光子遮断や$\pi-$conditional phase shiftを含む非常に非古典的なフォトニック効果が達成可能であることを示した。 この結果は、全光量子情報処理および量子ネットワークプロトコルにおける量子フォトニック回路の重要な応用に繋がるかもしれない。

Few-photon transport via waveguide-coupled local quantum systems has attracted extensive theoretical and experimental studies. Most of the study has focused on atomic or atomic-like local quantum systems due to their strong light-matter interaction useful for quantum applications. Here, we study few-photon transport via a waveguide-coupled multimode optical cavity with second-order bulk nonlinearity. We develop a Feynman diagram approach and compute the scattering matrix of the one- and two-photon transport. Based on the calculated scattering matrix, we show highly nonclassical photonic effects, including photon blockade and $\pi-$conditional phase shift, are achievable in the waveguide-coupled multimode optical cavity system via quantum interference and linear response engineering. Our results might lead to significant applications of quantum photonic circuits in all-optical quantum information processing and quantum network protocols.
翻訳日:2023-01-27 07:54:08 公開日:2022-09-08
# 非エルミートスペクトル流とベリー・シェンモノポール

Non-Hermitian spectral flows and Berry-Chern monopoles ( http://arxiv.org/abs/2209.03876v1 )

ライセンス: Link先を確認
Lucien Jezequel, Pierre Delplace(参考訳) 本稿では,帯域交差点のスペクトル流と位相電荷の対応性に関する非エルミート的一般化を提案する。 複素数値スペクトルフローを示す非エルミートハミルトニアン類は、解析指標を保ちながらエルミート模型を変形することによって構築される。 これらのスペクトルフローを一般化されたチャーン数に関連付け、ラインギャップが存在するならば、エルミートの場合と等しいことを示す。 線間隙がない場合、システムは創発的な擬エルミート対称性を利用してトポロジーをキャプチャできるスペクトルフローを表示する。

We propose a non-Hermitian generalization of the correspondence between the spectral flow and the topological charges of band crossing points (Berry-Chern monopoles). A class of non-Hermitian Hamiltonians that display a complex-valued spectral flow is built by deforming an Hermitian model while preserving its analytical index. We relate those spectral flows to a generalized Chern number that we show to be equal to that of the Hermitian case, provided a line gap exists. In the absence of a line gap, the system still displays a spectral flow whose topology can be captured by exploiting an emergent pseudo-Hermitian symmetry.
翻訳日:2023-01-27 07:53:54 公開日:2022-09-08
# 身体支援光間相互作用の形状最適化

Shape optimizations for body-assisted light-matter interactions ( http://arxiv.org/abs/2209.03873v1 )

ライセンス: Link先を確認
Jonas Matuszak, Stefan Yoshi Buhmann and Robert Bennett(参考訳) マクロ量子電磁力学の形式化によって記述される物体支援光マッター相互作用の形状最適化アルゴリズムを実装した。 このアプローチはレベルセット法を使って誘電体環境を表現し、段階的に発展させる。 有限差分時間領域技術を用いて、2次元の共鳴エネルギー移動率を最適化することによりアルゴリズムの能力を実証する。 得られたジオメトリーは、数桁の転送速度を増大させる。

We implement a shape optimization algorithm for body-assisted light-matter interactions described by the formalism of macroscopic quantum electrodynamics. The approach uses the level-set method to represent and incrementally evolve dielectric environments. Utilizing finite-difference time-domain techniques we demonstrate the ability of the algorithm by optimizing the rate of resonance energy transfer in two dimensions. The resulting geometries enhance the transfer rate by several orders of magnitude.
翻訳日:2023-01-27 07:53:42 公開日:2022-09-08
# 極低温原子の熱ガスからの二量体結合におけるコヒーレント振動の観測

Observation of coherent oscillations in association of dimers from a thermal gas of ultracold atoms ( http://arxiv.org/abs/2209.03872v1 )

ライセンス: Link先を確認
Roy Elbaz, Yaakov Yudkin, P. Giannakeas, Jan-Michael Rost, Chris H. Greene, and Lev Khaykovich(参考訳) 超低温原子の熱気体から形成される分子の変換効率におけるコヒーレント振動の観測を報告する。 ガスの有限熱エネルギーは、広い連続体が離散的な境界状態に共鳴的に結合されたときにコヒーレンスを失う。 コヒーレンスの回復は、高速エンベロープダイナミクスを持つ強い変調パルスによって引き起こされる服を着た分子エネルギー準位の非断熱遷移によって達成される。 コヒーレント振動の観測条件が検証され,その特性の制御が実証された。 主な実験結果は理論モデリングと数値計算によって裏付けられている。

We report the observation of coherent oscillations in conversion efficiency of molecules formed from a thermal gas of ultracold atoms. Finite thermal energy of the gas causes loss of coherence when a broad continuum is resonantly coupled to a discrete bound state. Restoration of the coherence can be achieved through non-adiabatic transitions of the dressed molecular energy level that are induced by a strong modulation pulse with fast envelope dynamics. Conditions to observe coherent oscillations are verified, and control of their properties is demonstrated. The main experimental findings are supported by theoretical modeling and numerical calculations.
翻訳日:2023-01-27 07:53:36 公開日:2022-09-08
# 散逸フィルタリングによる光子-フォノン相関の観測

Observation of photon-phonon correlations via dissipative filtering ( http://arxiv.org/abs/2209.03869v1 )

ライセンス: Link先を確認
Mengdi Zhao and Kejie Fang(参考訳) キャビティ-オプトメカニクスは放射圧力を利用して光子-フォノン相互作用と相関を可能にする。 ここでは,リソグラフィーで定義した超薄膜の運動を光学的キャビティで検出する ‘cavity-in-a-membrane’ という光学的構造を実現する。 消散フィルター法を用いて、プローブ光をその場で除去し、低周波膜メカニカルモードに関連する光子-フォノン相関を観測することができる。 従来の周波数選択フィルタが実現不可能である低周波光散乱過程の研究に広く応用できる。

Cavity-optomechanics enables photon-phonon interaction and correlations by harnessing the radiation-pressure force. Here, we realize a ``cavity-in-a-membrane'' optomechanical architecture which allows detection of the motion of lithographically-defined, ultrathin membranes via an integrated optical cavity. Using a dissipative filtering method, we are able to eliminate the probe light in situ and observe photon-phonon correlations associated with the low-frequency membrane mechanical mode. The developed method is generally applicable for study of low-frequency light scattering processes where conventional frequency-selective filtering is unfeasible.
翻訳日:2023-01-27 07:53:27 公開日:2022-09-08
# トランザクションからの重力:最近の発展を振り返る

Gravity from Transactions: A Review of Recent Developments ( http://arxiv.org/abs/2209.04025v1 )

ライセンス: Link先を確認
A. Schlatter and R. E. Kastner(参考訳) 本稿では,相対論的トランザクション解釈(RTI)の観点から,エントロピー重力の新展開を概観する。 時空事象に対するトランザクショナルなアプローチは、エントロピック重力(もともとエリック・ヴェルリンデが提唱した方法で)に対する自然な方法を生み出し、その研究プログラムに対する既存の反対を克服する。 この理論は自然に宇宙定数と修正ニュートン力学(MOND)を生じさせ、歴史的に「暗黒エネルギー」と「暗黒物質」に由来する現象の物理的説明を与える。

This is a review of new developments in entropic gravity in light of the Relativistic Transactional Interpretation (RTI). A transactional approach to spacetime events can give rise in a natural way to entropic gravity (in the way originally proposed by Eric Verlinde) while also overcoming extant objections to that research program. The theory also naturally gives rise to a Cosmological Constant and to Modified Newtonian Dynamics (MOND) and thus provides a physical explanation for the phenomena historically attributed to "dark energy" and "dark matter".
翻訳日:2023-01-27 07:46:37 公開日:2022-09-08
# 量子エンタングルメントからの創発的古典ゲージ対称性

Emergent classical gauge symmetry from quantum entanglement ( http://arxiv.org/abs/2209.03979v1 )

ライセンス: Link先を確認
Josh Kirklin(参考訳) 量子力学的サブシステム間の絡み合いが、古典的極限における創発的ゲージ対称性をいかに引き起こすかを明確に記述する。 まず, 量子サブシステムに対して, 古典極限における定値古典状態に対応する任意の量子状態において, サブシステムの還元密度行列は射影作用素にほぼ比例しなければならず, 異なる古典サブシステムの射影演算子は近似相互直交条件に従わなければならない。 これらは古典状態の絡み合い構造に対する強い制約である。 これらは基本的に非局所的な古典的自由度を生じさせるが、それでも完全に局所的なキネマティックな記述を使うことは、正しい方法でこの記述をゲージする場合に説明できる。 この機構は非常に一般的なものであるが、具体的には3つの絡み合ったスピンを高い角運動量で含むおもちゃの例を示し、またこの玩具の顕著なグループ理論の一般化についても述べる。 最後に、この現象が重力におけるバルク微分同相不変性の出現に寄与していることを示す。

We describe explicitly how entanglement between quantum mechanical subsystems can lead to emergent gauge symmetry in a classical limit. We first provide a precise characterisation of when it is consistent to treat a quantum subsystem classically in such a limit, namely: in any quantum state corresponding to a definite classical state in the classical limit, the reduced density matrix of the subsystem must be approximately proportional to a projection operator, and the projection operators for different classical subsystem states must obey an approximate mutual orthogonality condition. These are strong constraints on the entanglement structure of classical states. They generically give rise to fundamentally non-local classical degrees of freedom, which may nevertheless be accounted for using a completely local kinematical description, if one gauges this description in the right way. The mechanism we describe is very general, but for concreteness we exhibit a toy example involving three entangled spins at high angular momentum, and we also describe a significant group-theoretic generalisation of this toy example. Finally, we give evidence that this phenomenon plays a role in the emergence of bulk diffeomorphism invariance in gravity.
翻訳日:2023-01-27 07:45:50 公開日:2022-09-08
# 相互作用開始時の絡み合いの負性移動

The Transfer of Entanglement Negativity at the Onset of Interactions ( http://arxiv.org/abs/2209.03976v1 )

ライセンス: Link先を確認
Robin Yunfei Wen, Achim Kempf(参考訳) 量子情報は、アンシラとの絡み合いの形で、相互作用を通じて第3のシステムに伝達される。 本稿では,この絡み合い伝達過程を時間的に検討する。 エンタングルメントモノトン負性率を用いて、相互作用の確率が、ハミルトンおよび初期状態の選択に依存するか、移動するか、あるいは失うかを決定する。 これら3つの傾向は、それぞれネガティビティ感受性、ネガティリティ透過性、ネガティビティ脆弱性(negativity vulnerability)と呼ばれるハミルトン量と状態依存量によって捉えられる。 これらの概念は、例えば、機械学習量子誤り訂正のような量子技術におけるコスト関数として役立つ。

Quantum information, in the form of entanglement with an ancilla, can be transmitted to a third system through interaction. Here, we investigate this process of entanglement transmission perturbatively in time. Using the entanglement monotone negativity, we determine how the proclivity of an interaction to either generate, transfer or lose entanglement depends on the choice of Hamiltonians and initial states. These three proclivities are captured by Hamiltonian- and state-dependent quantities that we call negativity susceptibility, negativity transmissibility and negativity vulnerability respectively. These notions could serve, for example, as cost functions in quantum technologies such as machine-learned quantum error correction.
翻訳日:2023-01-27 07:45:09 公開日:2022-09-08
# LHCにおけるトップクォークの量子不協和と操舵

Quantum discord and steering in top quarks at the LHC ( http://arxiv.org/abs/2209.03969v1 )

ライセンス: Link先を確認
Yoav Afik and Juan Ram\'on Mu\~noz de Nova(参考訳) 最近、トップクォークは高エネルギースケールで量子情報問題を研究するための有望なシステムであることが示されている。 現在の研究では、主に絡み合い、ベル非局所性、量子トモグラフィなどの話題について議論している。 ここでは、量子ディスコードやステアリングの研究によって、トップクォークと量子相関の全体像を提供する。 両方の現象がlhcに存在することが判明した。 特に、分離可能な量子状態における量子不一致は、高い統計的重要性で検出される。 興味深いことに、測定プロセスの特異性により、量子ディスコルドは元の定義に従って測定することができ、ステアリング楕円体は実験的に再構築できる。 絡み合いとは対照的に、量子ディスコードとステアリングの非対称性は、標準模型を超えた新しい物理学の証人を与えることができる。

Top quarks have been recently shown to be a promising system to study quantum information problems at the highest-energy scale available. The current lines of research mostly discuss topics such as entanglement, Bell nonlocality or quantum tomography. Here, we provide the full picture of quantum correlations with top quarks by studying also quantum discord and steering. We find that both phenomena are present at the LHC. In particular, quantum discord in a separable quantum state is expected to be detected with high-statistical significance. Interestingly, due to the singular nature of the measurement process, quantum discord can be measured following its original definition, and the steering ellipsoid can be experimentally reconstructed, both highly-demanding measurements in conventional setups. In contrast to entanglement, the asymmetric nature of quantum discord and steering can provide witnesses of new physics beyond the Standard Model.
翻訳日:2023-01-27 07:44:44 公開日:2022-09-08
# rydberg原子アレイを用いた任意接続による量子最適化

Quantum optimization with arbitrary connectivity using Rydberg atom arrays ( http://arxiv.org/abs/2209.03965v1 )

ライセンス: Link先を確認
Minh-Thi Nguyen, Jin-Guo Liu, Jonathan Wurtz, Mikhail D. Lukin, Sheng-Tao Wang, Hannes Pichler(参考訳) Rydberg 原子配列に基づくプログラム可能な量子システムは、最近数百の量子ビットを持つ量子最適化アルゴリズム(Ebadi et al., Science, 376, 1209 (2022))のハードウェア効率試験に使用されている。 特に、いわゆる単位ディスクグラフ上の最大独立集合問題は、そのような量子系において効率的にエンコード可能であることを示した。 ここでは、元の計算問題から単位-ディスクグラフ上の最大重み付き独立集合問題への明示的なマッピングを構築して、rydberg配列で効率的に符号化できる問題のクラスを拡張し、少なくとも量子ビット数の2次オーバーヘッドを持つ。 例えば、任意の接続を持つグラフ上の最大重み付き独立集合、任意の接続または制限された接続を持つ2次非制約バイナリ最適化問題、整数分解などである。 小さなシステムサイズに関する数値シミュレーションは、マッピングされた問題を解くための断熱時間スケールが、元の問題のそれと強く相関していることを示している。 我々の研究は、ハードウェア幾何による制約を超えて、任意の接続で幅広い組合せ最適化問題を解決するために、rydberg atom配列を使用するための青写真を提供します。

Programmable quantum systems based on Rydberg atom arrays have recently been used for hardware-efficient tests of quantum optimization algorithms [Ebadi et al., Science, 376, 1209 (2022)] with hundreds of qubits. In particular, the maximum independent set problem on the so-called unit-disk graphs, was shown to be efficiently encodable in such a quantum system. Here, we extend the classes of problems that can be efficiently encoded in Rydberg arrays by constructing explicit mappings from the original computation problems to maximum weighted independent set problems on unit-disk graphs, with at most a quadratic overhead in the number of qubits. We analyze several examples, including: maximum weighted independent set on graphs with arbitrary connectivity, quadratic unconstrained binary optimization problems with arbitrary or restricted connectivity, and integer factorization. Numerical simulations on small system sizes indicate that the adiabatic time scale for solving the mapped problems is strongly correlated with that of the original problems. Our work provides a blueprint for using Rydberg atom arrays to solve a wide range of combinatorial optimization problems with arbitrary connectivity, beyond the restrictions imposed by the hardware geometry.
翻訳日:2023-01-27 07:44:09 公開日:2022-09-08
# 量子プロセッサ上の非アベリア位相秩序への最短経路

The Shortest Route to Non-Abelian Topological Order on a Quantum Processor ( http://arxiv.org/abs/2209.03964v1 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Ruben Verresen, Ashvin Vishwanath(参考訳) 高度に議論された目標は、非アベリアゲージ理論とその非コヒーレンスな量子情報をエンコードする正準励起を実現することである。 量子デバイスにおける測定は、このような長距離の絡み合った状態を作るための新たな希望を与える一方で、有限深度回路と1ラウンドの計測で実験的に確立された成分を用いる既存のプロトコルは、アベリア状態のみを生成する。 驚くべきことに、非アベリア国家(すなわちラグランジュのサブグループを持つもの)の幅広いファミリーが存在しており、フィードフォワードのような新しいリソースの必要性を回避して、これらの最小限の材料を使って作成することができる。 これは現実的なプロトコルを提供することを示すために、例えば、深度11回路と単一の測定層を使ってgoogleの量子プロセッサ上で、$d_4$非アーベル位相秩序がいかに実現されるかを示す。 我々の研究は非可換位相的順序の実現と操作への道を開き、非可換位相の複雑さの直観的特徴を強調する。

A highly coveted goal is to realize emergent non-Abelian gauge theories and their anyonic excitations, which encode decoherence-free quantum information. While measurements in quantum devices provide new hope for scalably preparing such long-range entangled states, existing protocols using the experimentally established ingredients of a finite-depth circuit and a single round of measurement produce only Abelian states. Surprisingly, we show there exists a broad family of non-Abelian states -- namely those with a Lagrangian subgroup -- which can be created using these same minimal ingredients, bypassing the need for new resources such as feed-forward. To illustrate that this provides realistic protocols, we show how $D_4$ non-Abelian topological order can be realized, e.g., on Google's quantum processors using a depth-11 circuit and a single layer of measurements. Our work opens the way towards the realization and manipulation of non-Abelian topological orders, and highlights counter-intuitive features of the complexity of non-Abelian phases.
翻訳日:2023-01-27 07:43:45 公開日:2022-09-08
# 有限和最小化のための確率フランクウルフ

Stochastic Frank-Wolfe for Constrained Finite-Sum Minimization ( http://arxiv.org/abs/2002.11860v6 )

ライセンス: Link先を確認
Geoffrey N\'egiar, Gideon Dresdner, Alicia Tsai, Laurent El Ghaoui, Francesco Locatello, Robert M. Freund, Fabian Pedregosa(参考訳) 線形予測・構造を一般化した制約付き滑らかな有限サム最小化のための新しい確率的フランク・ウルフアルゴリズムを提案する。 この種の問題には、スパース、ローランク、その他の構造的制約を伴う経験的リスク最小化が含まれる。 提案手法は実装が簡単であり,ステップサイズのチューニングを必要としない。 さらに, 本手法の副産物として, 停止基準として使用できるフランク=ウルフギャップの確率的推定値を求める。 設定に応じて、提案手法は確率的フランク・ウルフアルゴリズムの最良の計算保証に適合するか改善する。 いくつかのデータセットのベンチマークは、提案手法が関連する手法よりも高速に経験的収束を示す異なるレジームを強調する。 最後に、オープンソースパッケージで検討されたすべてのメソッドの実装を提供する。

We propose a novel Stochastic Frank-Wolfe (a.k.a. conditional gradient) algorithm for constrained smooth finite-sum minimization with a generalized linear prediction/structure. This class of problems includes empirical risk minimization with sparse, low-rank, or other structured constraints. The proposed method is simple to implement, does not require step-size tuning, and has a constant per-iteration cost that is independent of the dataset size. Furthermore, as a byproduct of the method we obtain a stochastic estimator of the Frank-Wolfe gap that can be used as a stopping criterion. Depending on the setting, the proposed method matches or improves on the best computational guarantees for Stochastic Frank-Wolfe algorithms. Benchmarks on several datasets highlight different regimes in which the proposed method exhibits a faster empirical convergence than related methods. Finally, we provide an implementation of all considered methods in an open-source package.
翻訳日:2022-12-28 09:25:51 公開日:2022-09-08
# 自動舗装距離検出のための反復最適化パッチラベル推論ネットワーク

An Iteratively Optimized Patch Label Inference Network for Automatic Pavement Distress Detection ( http://arxiv.org/abs/2005.13298v3 )

ライセンス: Link先を確認
Wenhao Tang and Sheng Huang and Qiming Zhao and Ren Li and Luwen Huangfu(参考訳) 本稿では, クラックやポットホールなど, 特定のものに限らず, 様々な舗装障害を自動的に検出する, IOPLIN (Iteratively Optimized Patch Label Inference Network) という新しいディープラーニングフレームワークを提案する。 IOPLINは、期待最大化インスパイアされたパッチラベル蒸留(EMIPLD)戦略を介してイメージラベルのみを用いて反復的にトレーニングすることができ、舗装画像からパッチのラベルを推測することで、このタスクをうまく達成することができる。 IOPLINは、GoogLeNetやEfficientNetのような最先端の単一ブランチCNNモデルよりも多くの望ましい特性を享受している。 IOPLINは画像全体ではなく、修正されていない画像パッチから視覚的特徴を抽出するため、解像度の異なる画像を扱うことができ、特に高解像度画像に対して十分な画像情報を利用することができる。 また、トレーニング段階で事前の局在情報を用いることなく、舗装難易度を概ね局所化することができる。 本手法の有効性をよりよく評価するために,異なる領域から異なる時間に取得した60,059枚の高分解能舗装画像からなる,cqu-bpddと呼ばれる大容量の帯状舗装疾患検出データセットを構築した。 このデータセットの広範囲な結果は、自動舗装災害検出における最先端画像分類手法よりもIOPLINの方が優れていることを示している。 IOPLINのソースコードは \url{https://github.com/DearCaat/ioplin} でリリースされ、CQU-BPDDデータセットは \url{https://dearcaat.github.io/CQU-BPDD/} でアクセスできる。

We present a novel deep learning framework named the Iteratively Optimized Patch Label Inference Network (IOPLIN) for automatically detecting various pavement distresses that are not solely limited to specific ones, such as cracks and potholes. IOPLIN can be iteratively trained with only the image label via the Expectation-Maximization Inspired Patch Label Distillation (EMIPLD) strategy, and accomplish this task well by inferring the labels of patches from the pavement images. IOPLIN enjoys many desirable properties over the state-of-the-art single branch CNN models such as GoogLeNet and EfficientNet. It is able to handle images in different resolutions, and sufficiently utilize image information particularly for the high-resolution ones, since IOPLIN extracts the visual features from unrevised image patches instead of the resized entire image. Moreover, it can roughly localize the pavement distress without using any prior localization information in the training phase. In order to better evaluate the effectiveness of our method in practice, we construct a large-scale Bituminous Pavement Disease Detection dataset named CQU-BPDD consisting of 60,059 high-resolution pavement images, which are acquired from different areas at different times. Extensive results on this dataset demonstrate the superiority of IOPLIN over the state-of-the-art image classification approaches in automatic pavement distress detection. The source codes of IOPLIN are released on \url{https://github.com/DearCaat/ioplin}, and the CQU-BPDD dataset is able to be accessed on \url{https://dearcaat.github.io/CQU-BPDD/}.
翻訳日:2022-11-28 09:15:03 公開日:2022-09-08
# 命題モデルカウントのための学習分岐ヒューリスティックス

Learning Branching Heuristics for Propositional Model Counting ( http://arxiv.org/abs/2007.03204v2 )

ライセンス: Link先を確認
Pashootan Vaezipoor, Gil Lederman, Yuhuai Wu, Chris J. Maddison, Roger Grosse, Sanjit A. Seshia, Fahiem Bacchus(参考訳) 命題モデルカウント(英: Propositional model counting, #SAT)は、ブール公式の充足数を計算する問題である。 多くの離散確率的推論問題を含む、異なるアプリケーション領域からの多くの問題は#satソルバによって解決されるモデルカウント問題に変換できる。 しかし、排他的な#SATソルバは工業規模のインスタンスには拡張性がないことが多い。 本稿では,特定の問題群からインスタンス上での#satソルバの正確な性能を改善するために,分岐ヒューリスティックスを学ぶためのアプローチであるneuro#を提案する。 本手法は,同様の分散ホールドアウトインスタンスのステップカウントを低減し,同じ問題ファミリーからさらに大きなインスタンスに一般化できることを実験的に示す。 異なる構造を持つ多くの異なる問題ファミリーでこれらの結果を達成することができる。 ステップ数の改善に加えて、neuro#では、モデルクエリのランタイムオーバヘッドにもかかわらず、問題ファミリー内の大きなインスタンスで、バニラソルバに対して1桁のウォールクロックスピードアップを実現することもできる。

Propositional model counting, or #SAT, is the problem of computing the number of satisfying assignments of a Boolean formula. Many problems from different application areas, including many discrete probabilistic inference problems, can be translated into model counting problems to be solved by #SAT solvers. Exact #SAT solvers, however, are often not scalable to industrial size instances. In this paper, we present Neuro#, an approach for learning branching heuristics to improve the performance of exact #SAT solvers on instances from a given family of problems. We experimentally show that our method reduces the step count on similarly distributed held-out instances and generalizes to much larger instances from the same problem family. It is able to achieve these results on a number of different problem families having very different structures. In addition to step count improvements, Neuro# can also achieve orders of magnitude wall-clock speedups over the vanilla solver on larger instances in some problem families, despite the runtime overhead of querying the model.
翻訳日:2022-11-12 18:22:24 公開日:2022-09-08
# FORLORN: RANパラメータ最適化のためのオフライン手法と強化学習の比較フレームワーク

FORLORN: A Framework for Comparing Offline Methods and Reinforcement Learning for Optimization of RAN Parameters ( http://arxiv.org/abs/2209.13540v1 )

ライセンス: Link先を確認
Vegard Edvardsen, Gard Spreemann, Jeriek Van den Abeele(参考訳) モバイルネットワークの複雑さとキャパシティの増大は、リソース使用量の最適化に革新的な技術を必要としている。 一方、近年のブレークスルーは、Reinforcement Learning (RL) を現実世界のシステムの継続的な制御領域に導入した。 本稿では,ネットワーク制御の段階として,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。 このフレームワークでは、ドメイン固有の知識を持たないrlエージェントが、静的シナリオにおけるオフライン最適化にマッチする無線アクセスネットワーク(ran)パラメータを効率的に調整する方法を学習できると同時に、全体的なユーザエクスペリエンスを改善するために、動的シナリオにも適応できることを実証する。 提案するフレームワークは、RLベースのRAN制御アルゴリズムを設計するためのワークフローの開発において、さらなる取り組みの基盤となる可能性がある。

The growing complexity and capacity demands for mobile networks necessitate innovative techniques for optimizing resource usage. Meanwhile, recent breakthroughs have brought Reinforcement Learning (RL) into the domain of continuous control of real-world systems. As a step towards RL-based network control, this paper introduces a new framework for benchmarking the performance of an RL agent in network environments simulated with ns-3. Within this framework, we demonstrate that an RL agent without domain-specific knowledge can learn how to efficiently adjust Radio Access Network (RAN) parameters to match offline optimization in static scenarios, while also adapting on the fly in dynamic scenarios, in order to improve the overall user experience. Our proposed framework may serve as a foundation for further work in developing workflows for designing RL-based RAN control algorithms.
翻訳日:2022-10-02 23:58:57 公開日:2022-09-08
# 多変量線形回帰を用いた廃水中の生化学的酸素需要予測

Using Multivariate Linear Regression for Biochemical Oxygen Demand Prediction in Waste Water ( http://arxiv.org/abs/2209.14297v1 )

ライセンス: Link先を確認
Isaiah K. Mutai, Kristof Van Laerhoven, Nancy W. Karuri, Robert K. Tewo(参考訳) 多変量線形回帰(MLR)は, 各種水質パラメータを入力変数として, 廃水中の生化学的酸素負荷(BOD)の予測に有効である。 本研究の目的は, 溶存酸素(do), 窒素, 糞便, 総大腸菌の4つの入力変数を通して, 廃水中のbodの予測におけるmlrの能力を検討することである。 4つの入力変数は, 相関の強度について検討した7つのパラメータのうち, BODに対する相関強度が高い。 機械学習(ML)は、トレーニングセットとして80%と90%のデータ、それぞれテストセットとして20%と10%で実施された。 相関係数 (r), Root Mean Square Error (RMSE) とBOD予測におけるパーセンテージ精度を用いてMLR性能を評価した。 BOD予測における溶存酸素、窒素、Fecal ColiformおよびTotal Coliformの入力変数のパフォーマンス指標は、RMSE=6.77mg/L、r=0.60、精度70.3%、RMSE=6.74mg/L、r=0.60、精度87.5%である。 その結果、データセットの80%を超えるトレーニングセットの割合を増やすことで、モデルの精度が向上するだけでなく、モデルの予測能力に大きな影響を与えないことが判明した。 その結果, 適切に選択された入力パラメータを用いて, 廃水中のBOD推定にMLRモデルを適用できることが示唆された。

There exist opportunities for Multivariate Linear Regression (MLR) in the prediction of Biochemical Oxygen Demand (BOD) in waste water, using the diverse water quality parameters as the input variables. The goal of this work is to examine the capability of MLR in prediction of BOD in waste water through four input variables: Dissolved Oxygen (DO), Nitrogen, Fecal Coliform and Total Coliform. The four input variables have higher correlation strength to BOD out of the seven parameters examined for the strength of correlation. Machine Learning (ML) was done with both 80% and 90% of the data as the training set and 20% and 10% as the test set respectively. MLR performance was evaluated through the coefficient of correlation (r), Root Mean Square Error (RMSE) and the percentage accuracy in prediction of BOD. The performance indices for the input variables of Dissolved Oxygen, Nitrogen, Fecal Coliform and Total Coliform in prediction of BOD are: RMSE=6.77mg/L, r=0.60 and accuracy 70.3% for training dataset of 80% and RMSE=6.74mg/L, r=0.60 and accuracy of 87.5% for training set of 90% of the dataset. It was found that increasing the percentage of the training set above 80% of the dataset improved the accuracy of the model only but did not have a significant impact on the prediction capacity of the model. The results showed that MLR model could be successfully employed in the estimation of BOD in waste water using appropriately selected input parameters.
翻訳日:2022-10-02 23:58:42 公開日:2022-09-08
# ニューロシンボリック人工知能の応用に関する調査研究

Survey on Applications of Neurosymbolic Artificial Intelligence ( http://arxiv.org/abs/2209.12618v1 )

ライセンス: Link先を確認
Djallel Bouneffouf, Charu C. Aggarwal(参考訳) 近年、ニューロシンボリックフレームワークは、レコメンデーションシステムや情報検索から医療や金融に至るまで、様々なアプリケーションで多くの注目を集めている。 この成功は、その恒星的なパフォーマンスと、学習や推論といった魅力的な特性が組み合わさったためである。 新しいニューロシンボリック分野は、様々な実践的応用に動機づけられた新しいフレームワークとアルゴリズムが導入され、古典的なニューラルと推論の問題設定の上に構築されている。 本稿では,ニューロシンボリック人工知能の現実的応用における最近の重要な展開を概観する。 具体的には,共通神経シンボリック応用の分類法を紹介し,それらの領域の最先端を概説する。 さらに,現在,重要なトレンドを特定し,この急成長する分野の将来に関する新たな展望を提供する。

In recent years, the Neurosymbolic framework has attracted a lot of attention in various applications, from recommender systems and information retrieval to healthcare and finance. This success is due to its stellar performance combined with attractive properties, such as learning and reasoning. The new emerging Neurosymbolic field is currently experiencing a renaissance, as novel frameworks and algorithms motivated by various practical applications are being introduced, building on top of the classical neural and reasoning problem setting. This article aims to provide a comprehensive review of significant recent developments in real-world applications of Neurosymbolic Artificial Intelligence. Specifically, we introduce a taxonomy of common Neurosymbolic applications and summarize the state-of-the-art for each of those domains. Furthermore, we identify important current trends and provide new perspectives pertaining to the future of this burgeoning field.
翻訳日:2022-10-02 23:47:59 公開日:2022-09-08
# 深層強化学習を用いたブレード通路の最適メッシュ生成

Optimal mesh generation for a blade passage using deep reinforcement learning ( http://arxiv.org/abs/2209.05280v1 )

ライセンス: Link先を確認
Innyoung Kim, Sejin Kim, and Donghyun You(参考訳) 深部強化学習(DRL)を用いて1回の試行でブレード通路の最適メッシュを生成するメッシュ生成法を開発した。 メッシュパラメータをユーザによって指定したり,新たに与えられた幾何学をスクラッチから反復的に最適化する従来の手法とは異なり,本手法では,様々なジオメトリのメッシュパラメータを最適に定義するために,drl型マルチコンディション(mc)最適化を採用している。 本手法は,(1)ブレードパスの構造的メッシュ生成のための基本アルゴリズムの開発,(2)基本アルゴリズムの開発中に導入されたメッシュパラメータを最適化するMC最適化問題の定式化,(3)DRLを用いたMC最適化問題の解法によるDRLに基づくメッシュ生成アルゴリズムの開発を含む。 その結果, 様々なブレードに対して, 最適メッシュを単一試行で生成することが可能となった。

A mesh generation method that can generate an optimal mesh for a blade passage at a single attempt is developed using deep reinforcement learning (DRL). Unlike the conventional methods, where meshing parameters must be specified by the user or iteratively optimized from scratch for a newly given geometry, the developed method employs DRL-based multi-condition (MC) optimization to define meshing parameters for various geometries optimally. The method involves the following steps: (1) development of a base algorithm for structured mesh generation of a blade passage; (2) formulation of an MC optimization problem to optimize meshing parameters introduced while developing the base algorithm; and (3) development of a DRL-based mesh generation algorithm by solving the MC optimization problem using DRL. As a result, the developed algorithm is able to successfully generate optimal meshes at a single trial for various blades.
翻訳日:2022-09-13 14:13:05 公開日:2022-09-08
# ナノフォトニック構造の設計と最適化のためのハイブリッド教師付き・強化学習

Hybrid Supervised and Reinforcement Learning for the Design and Optimization of Nanophotonic Structures ( http://arxiv.org/abs/2209.04447v1 )

ライセンス: Link先を確認
Christopher Yeung, Benjamin Pham, Zihan Zhang, Katherine T. Fountaine, and Aaswath P. Raman(参考訳) 計算効率の向上から、新しく複雑な構造の発見まで、ディープラーニングはナノフォトニクス回路とコンポーネントの設計と最適化のための強力なフレームワークとして登場してきた。 しかし、データ駆動型と探索型の両方の機械学習戦略は、ナノフォトニクス逆設計の有効性に限界がある。 教師あり機械学習アプローチでは、ハイパフォーマンスモデルを生成するために大量のトレーニングデータが必要であり、設計スペースの複雑さを考えると、トレーニングデータを超えた一般化が困難である。 一方、教師なしおよび強化学習に基づくアプローチは、非常に長いトレーニングや最適化時間を持つことができる。 本稿では,ナノフォトニック構造の逆設計に対する教師あり学習と強化学習のハイブリッドアプローチを示し,トレーニングデータ依存性の低減,モデル予測の一般化可能性の向上,探索的トレーニング時間を桁違いに短縮する手法を示す。 提案した戦略は、多くの現代のディープラーニングベースの課題に対処し、フォトニックデザインのためのより効果的で実用的なソリューションを生み出すために、機械学習アルゴリズムの複数のクラスを活用する新しい設計手法の扉を開く。

From higher computational efficiency to enabling the discovery of novel and complex structures, deep learning has emerged as a powerful framework for the design and optimization of nanophotonic circuits and components. However, both data-driven and exploration-based machine learning strategies have limitations in their effectiveness for nanophotonic inverse design. Supervised machine learning approaches require large quantities of training data to produce high-performance models and have difficulty generalizing beyond training data given the complexity of the design space. Unsupervised and reinforcement learning-based approaches on the other hand can have very lengthy training or optimization times associated with them. Here we demonstrate a hybrid supervised learning and reinforcement learning approach to the inverse design of nanophotonic structures and show this approach can reduce training data dependence, improve the generalizability of model predictions, and shorten exploratory training times by orders of magnitude. The presented strategy thus addresses a number of contemporary deep learning-based challenges, while opening the door for new design methodologies that leverage multiple classes of machine learning algorithms to produce more effective and practical solutions for photonic design.
翻訳日:2022-09-13 14:01:52 公開日:2022-09-08
# 顧客サービスルーティングのためのアームレベル適性制御を用いた非パラメトリックコンテキストバンディット

A Nonparametric Contextual Bandit with Arm-level Eligibility Control for Customer Service Routing ( http://arxiv.org/abs/2209.05278v1 )

ライセンス: Link先を確認
Ruofeng Wen, Wenjun Zeng, Yi Liu(参考訳) Amazon Customer Serviceは、毎年数百万の顧客連絡先をリアルタイムにサポートする。 ボット・リゾルバは一部のトラフィックを自動化するのに役立ちますが、それでも人間のエージェントには高い需要があります。 顧客は、異なるドメイン(ポリシー、デバイストラブルシューティングなど)の質問に圧倒される。 訓練によっては、すべての中小企業がすべての連絡先を処理できるわけではない。 適格な中小企業へのコンタクトのルーティングは、SMEのドメインの適格性はトレーニング品質の対象であり、時間とともに変化する可能性があるため、非自明な問題であることが判明した。 そこで本研究では,smesを最適に推奨するために,非パラメトリックコンテクストバンディットアルゴリズム (k-boot) とeligibility control (ec) アルゴリズムを用いてルーティング問題を定式化する手法を提案する。 k-bootモデルは、$k$-nnとbootstrap thompson samplingによって選択された同様の過去のサンプルでカーネルスムースに報いる。 ECは、初期システム定義の適性によってアーム(SME)をフィルタリングし、この情報の信頼性を動的に検証する。 提案したK-Bootは一般的なバンディットアルゴリズムであり、ECは他のバンディットに適用できる。 シミュレーションにより,K-Bootは最先端のBanditモデルと同等に動作し,ECは確率的可視信号が存在する場合,K-Bootの性能を向上させることが示された。

Amazon Customer Service provides real-time support for millions of customer contacts every year. While bot-resolver helps automate some traffic, we still see high demand for human agents, also called subject matter experts (SMEs). Customers outreach with questions in different domains (return policy, device troubleshooting, etc.). Depending on their training, not all SMEs are eligible to handle all contacts. Routing contacts to eligible SMEs turns out to be a non-trivial problem because SMEs' domain eligibility is subject to training quality and can change over time. To optimally recommend SMEs while simultaneously learning the true eligibility status, we propose to formulate the routing problem with a nonparametric contextual bandit algorithm (K-Boot) plus an eligibility control (EC) algorithm. K-Boot models reward with a kernel smoother on similar past samples selected by $k$-NN, and Bootstrap Thompson Sampling for exploration. EC filters arms (SMEs) by the initially system-claimed eligibility and dynamically validates the reliability of this information. The proposed K-Boot is a general bandit algorithm, and EC is applicable to other bandits. Our simulation studies show that K-Boot performs on par with state-of-the-art Bandit models, and EC boosts K-Boot performance when stochastic eligibility signal exists.
翻訳日:2022-09-13 13:36:51 公開日:2022-09-08
# スイッチング回路の全ての診断を計算するための量子アルゴリズム

A Quantum Algorithm for Computing All Diagnoses of a Switching Circuit ( http://arxiv.org/abs/2209.05470v1 )

ライセンス: Link先を確認
Alexander Feldman, Johan de Kleer, Ion Matei(参考訳) 断層は本質的に確率的であるが、ほとんどの人造システム、特にコンピュータは決定論的に機能する。 これは確率論と数学的論理、オートマタ、スイッチング回路理論とを結びつける必要がある。 本稿では、量子物理学が確率法則に従うため直感的なアプローチである量子情報理論による接続を提供する。 本稿では,ゲート型量子コンピュータを用いたスイッチング回路の診断手法を提案する。 このアプローチは、重畳中の欠陥を表す量子ビットを計算し、同時に指数的に多くの診断を行うという考え方に基づいている。 診断のための量子アルゴリズムをsatとモデルカウントに基づくアプローチと比較した。 組合せ回路のベンチマークでは、故障の真確率を推定する際に1%未満の誤差を確立する。

Faults are stochastic by nature while most man-made systems, and especially computers, work deterministically. This necessitates the linking of probability theory with mathematical logics, automata, and switching circuit theory. This paper provides such a connecting via quantum information theory which is an intuitive approach as quantum physics obeys probability laws. In this paper we provide a novel approach for computing diagnosis of switching circuits with gate-based quantum computers. The approach is based on the idea of putting the qubits representing faults in superposition and compute all, often exponentially many, diagnoses simultaneously. We empirically compare the quantum algorithm for diagnostics to an approach based on SAT and model-counting. For a benchmark of combinational circuits we establish an error of less than one percent in estimating the true probability of faults.
翻訳日:2022-09-13 13:08:11 公開日:2022-09-08
# PDEモデリングのためのClifford Neural Layers

Clifford Neural Layers for PDE Modeling ( http://arxiv.org/abs/2209.04934v1 )

ライセンス: Link先を確認
Johannes Brandstetter, Rianne van den Berg, Max Welling, Jayesh K. Gupta(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、物理過程のシミュレーションを時間とともに相互作用し、共進化するスカラー場やベクトル場として記述するために、科学や工学で広く用いられる。 標準的な解法では計算コストがかかるため、ニューラルPDEサロゲートはこれらのシミュレーションを加速するための活発な研究トピックとなっている。 しかし、現在の方法は、しばしば関連付けられる異なるフィールドとその内部コンポーネントの関係を明示的に考慮していない。 このような相関フィールドの時間発展をマルチベクトルフィールドのレンズを通して見ることで、これらの制限を克服することができる。 マルチベクター場はスカラー、ベクトル、およびビベクターやトライベクターのような高次成分から構成される。 乗法、加法、その他の算術演算などの代数的性質はクリフォード代数によって記述できる。 そこで本研究では, Clifford convolutions や Clifford Fourier transforms とともに, 深層学習におけるマルチベクトル表現の活用について述べる。 その結果得られるクリフォード神経層は普遍的に適用でき、流体力学、気象予報、物理系のモデリングといった分野において直接使用される。 本研究では,2次元navier-stokesおよび気象モデルタスクと3次元maxwell方程式のclifford法を用いて,共用神経pdeサロゲートの畳み込みとフーリエ演算を置き換えることで,クリフォード神経層の有用性を実証的に評価した。 クリフォード神経層は、試験されたニューラルPDEサロゲートの一般化能力を一貫して改善する。

Partial differential equations (PDEs) see widespread use in sciences and engineering to describe simulation of physical processes as scalar and vector fields interacting and coevolving over time. Due to the computationally expensive nature of their standard solution methods, neural PDE surrogates have become an active research topic to accelerate these simulations. However, current methods do not explicitly take into account the relationship between different fields and their internal components, which are often correlated. Viewing the time evolution of such correlated fields through the lens of multivector fields allows us to overcome these limitations. Multivector fields consist of scalar, vector, as well as higher-order components, such as bivectors and trivectors. Their algebraic properties, such as multiplication, addition and other arithmetic operations can be described by Clifford algebras. To our knowledge, this paper presents the first usage of such multivector representations together with Clifford convolutions and Clifford Fourier transforms in the context of deep learning. The resulting Clifford neural layers are universally applicable and will find direct use in the areas of fluid dynamics, weather forecasting, and the modeling of physical systems in general. We empirically evaluate the benefit of Clifford neural layers by replacing convolution and Fourier operations in common neural PDE surrogates by their Clifford counterparts on two-dimensional Navier-Stokes and weather modeling tasks, as well as three-dimensional Maxwell equations. Clifford neural layers consistently improve generalization capabilities of the tested neural PDE surrogates.
翻訳日:2022-09-13 12:51:44 公開日:2022-09-08
# より粒度の異なるプライバシー保証を持つアルゴリズム

Algorithms with More Granular Differential Privacy Guarantees ( http://arxiv.org/abs/2209.04053v1 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi, Thomas Steinke(参考訳) 差分プライバシーはしばしば、理論が示唆するよりも大きいプライバシーパラメータで適用され、大きなプライバシーパラメータを許容するための様々な非公式な正当化が提案されている。 本研究では,パーシャルディファレンシャルプライバシ(DP)について考察し,属性ごとのプライバシ保証を定量化する。 本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが,個人のレコード全体(すなわちすべての属性)のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。

Differential privacy is often applied with a privacy parameter that is larger than the theory suggests is ideal; various informal justifications for tolerating large privacy parameters have been proposed. In this work, we consider partial differential privacy (DP), which allows quantifying the privacy guarantee on a per-attribute basis. In this framework, we study several basic data analysis and learning tasks, and design algorithms whose per-attribute privacy parameter is smaller that the best possible privacy parameter for the entire record of a person (i.e., all the attributes).
翻訳日:2022-09-12 13:14:16 公開日:2022-09-08
# 条件付き変分オートエンコーダを用いた文脈負荷プロファイルの生成

Generating Contextual Load Profiles Using a Conditional Variational Autoencoder ( http://arxiv.org/abs/2209.04056v1 )

ライセンス: Link先を確認
Chenguang Wang, Simon H. Tindemans, Peter Palensky(参考訳) システム計画やセキュリティアセスメントのタスク,特に履歴データが不十分な場合には,従来のシステムに類似した分散と依存性を持つ電力系統の生成が不可欠である。 本稿では,条件付き変動オートエンコーダ(CVAE)ニューラルネットワークアーキテクチャに基づく,産業顧客および商業顧客における負荷プロファイルの生成モデルについて述べる。 発生したコンテキスト負荷プロファイルは、その年の月に条件付けられ、グリッドとの典型的な電力交換が行われた。 さらに、世代ごとの質を視覚的にも統計的にも評価した。 実験により,提案したCVAEモデルは,履歴的負荷プロファイルの時間的特徴を捉え,一変量分布と多変量依存性を満たす「現実的」データを生成することができることを示した。

Generating power system states that have similar distribution and dependency to the historical ones is essential for the tasks of system planning and security assessment, especially when the historical data is insufficient. In this paper, we described a generative model for load profiles of industrial and commercial customers, based on the conditional variational autoencoder (CVAE) neural network architecture, which is challenging due to the highly variable nature of such profiles. Generated contextual load profiles were conditioned on the month of the year and typical power exchange with the grid. Moreover, the quality of generations was both visually and statistically evaluated. The experimental results demonstrate our proposed CVAE model can capture temporal features of historical load profiles and generate `realistic' data with satisfying univariate distributions and multivariate dependencies.
翻訳日:2022-09-12 13:14:04 公開日:2022-09-08
# フィードフォワードReLUニューラルネットワークの機能次元

Functional dimension of feedforward ReLU neural networks ( http://arxiv.org/abs/2209.04036v1 )

ライセンス: Link先を確認
J. Elisenda Grigsby, Kathryn Lindsey, Robert Meyerhoff, Chenxi Wu(参考訳) ReLUアクティベーション関数を持つ完全連結フィードフォワードニューラルネットワークで表現できる関数のパラメータ化された族は、正確には有限個の断片を持つ断片線型関数のクラスである。 ReLUニューラルネットワークの任意の固定構造に対して、パラメータ空間は対称性の正次元空間を許容するので、任意のパラメータの近傍の局所関数次元はパラメトリック次元よりも低い。 本研究では、関数次元の概念を慎重に定義し、reluニューラルネットワーク関数のパラメータ空間をまたいで不均一であることを示し、[14]および[5]で開始された調査を、関数次元がその理論的最大値に達したときまで継続する。 また、パラメータ空間から関数空間への実現写像の商空間とファイバーを研究し、切断されたファイバーの例、関数次元が定数でないファイバー、対称性群が非推移的に作用するファイバーを提供する。

It is well-known that the parameterized family of functions representable by fully-connected feedforward neural networks with ReLU activation function is precisely the class of piecewise linear functions with finitely many pieces. It is less well-known that for every fixed architecture of ReLU neural network, the parameter space admits positive-dimensional spaces of symmetries, and hence the local functional dimension near any given parameter is lower than the parametric dimension. In this work we carefully define the notion of functional dimension, show that it is inhomogeneous across the parameter space of ReLU neural network functions, and continue an investigation - initiated in [14] and [5] - into when the functional dimension achieves its theoretical maximum. We also study the quotient space and fibers of the realization map from parameter space to function space, supplying examples of fibers that are disconnected, fibers upon which functional dimension is non-constant, and fibers upon which the symmetry group acts non-transitively.
翻訳日:2022-09-12 13:11:23 公開日:2022-09-08
# Google GPU Tensorflow CoLabにおけるInternet-of-Things Enabled Chairと時系列データの処理による下肢強度の評価

Assessing Lower Limb Strength using Internet-of-Things Enabled Chair and Processing of Time-Series Data in Google GPU Tensorflow CoLab ( http://arxiv.org/abs/2209.04042v1 )

ライセンス: Link先を確認
Hudson Kaleb Dy, Chelsea Yeh(参考訳) 本研究は、リハビリテーションやセラピーを行う個人の下肢強度を評価するために、機械学習とInternet-of-Thingsの技術の適用について述べる。 具体的には、椅子に取り付けられたセンサーで個人の進捗を測定して評価し、Google GPU Tensorflow CoLabを通じてデータを処理する。 圧力センサーは椅子の様々な場所に取り付けられ、座席面積、背もたれ、手のひも、脚に限らない。 立ち上がり遷移と立ち寄り遷移の両方を行う個人からのセンサデータは、椅子の圧力分布と振動運動に関する時系列データセットを提供する。 データセットとタイミング情報は機械学習モデルに入力され、移動のさまざまなフェーズにおける相対的な強さと弱さを推定できる。

This project describes the application of the technologies of Machine Learning and Internet-of-Things to assess the lower limb strength of individuals undergoing rehabilitation or therapy. Specifically, it seeks to measure and assess the progress of individuals by sensors attached to chairs and processing the data through Google GPU Tensorflow CoLab. Pressure sensors are attached to various locations on a chair, including but not limited to the seating area, backrest, hand rests, and legs. Sensor data from the individual performing both sit-to-stand transition and stand-to-sit transition provides a time series dataset regarding the pressure distribution and vibratory motion on the chair. The dataset and timing information can then be fed into a machine learning model to estimate the relative strength and weakness during various phases of the movement.
翻訳日:2022-09-12 13:11:06 公開日:2022-09-08
# 脳電図を用いたスケーラブルな機械学習モデルによる眠気検出性能の検討

Studying Drowsiness Detection Performance while Driving through Scalable Machine Learning Models using Electroencephalography ( http://arxiv.org/abs/2209.04048v1 )

ライセンス: Link先を確認
Jos\'e Manuel Hidalgo Rogel, Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Sergio L\'opez Bernal, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 眠気はドライバーにとって大きな関心事であり、交通事故の主な原因の1つである。 認知神経科学とコンピュータサイエンスの進歩により、BCI(Brain-Computer Interfaces)とML(Machine Learning)を使用してドライバーの眠気の検出が可能になった。 それでも、いくつかの課題は未解決のままであり、直面するべきである。 まず,不均一なMLアルゴリズムを用いた快適度検出性能の包括的評価が文献に欠落している。 最後に,対象者のグループに適したスケーラブルMLモデルの検出性能について検討し,文献で提案した個別モデルと比較することが必要である。 これらの制限を改善するため、この研究はBCIを用いたインテリジェントな枠組みを示し、脳波(EEG)に基づいて運転シナリオの眠気を検出する。 SEED-VIGデータセットは、異なるML回帰器と3クラスの分類器を供給し、個別の被験者やグループの最高のパフォーマンスモデルを評価し、分析し、比較するために使用される。 より詳しくは、個々のモデルに関して、Random Forest (RF)は78%のf1スコアを取得し、Support Vector Machine (SVM)のような文献で使われているモデルによって得られた58%を改善した。 スケーラブルモデルに関して、RFは79%のf1スコアに達し、これらのアプローチの有効性を実証した。 学んだ教訓は次のように要約できる。 i)SVMだけでなく、文献で十分に調査されていない他のモデルも、眠気検出に関係しており、 二 モデル訓練に含まれない新規被験者が評価された場合でも、被験者のグループに適したスケーラブルなアプローチは、眠気の検出に有効である。

Drowsiness is a major concern for drivers and one of the leading causes of traffic accidents. Advances in Cognitive Neuroscience and Computer Science have enabled the detection of drivers' drowsiness by using Brain-Computer Interfaces (BCIs) and Machine Learning (ML). Nevertheless, several challenges remain open and should be faced. First, a comprehensive enough evaluation of drowsiness detection performance using a heterogeneous set of ML algorithms is missing in the literature. Last, it is needed to study the detection performance of scalable ML models suitable for groups of subjects and compare it with the individual models proposed in the literature. To improve these limitations, this work presents an intelligent framework that employs BCIs and features based on electroencephalography (EEG) for detecting drowsiness in driving scenarios. The SEED-VIG dataset is used to feed different ML regressors and three-class classifiers and then evaluate, analyze, and compare the best-performing models for individual subjects and groups of them. More in detail, regarding individual models, Random Forest (RF) obtained a 78% f1-score, improving the 58% obtained by models used in the literature such as Support Vector Machine (SVM). Concerning scalable models, RF reached a 79% f1-score, demonstrating the effectiveness of these approaches. The lessons learned can be summarized as follows: i) not only SVM but also other models not sufficiently explored in the literature are relevant for drowsiness detection, and ii) scalable approaches suitable for groups of subjects are effective to detect drowsiness, even when new subjects that are not included in the models training are evaluated.
翻訳日:2022-09-12 13:10:49 公開日:2022-09-08
# CTC-based ASR における非自己回帰誤差補正

Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM ( http://arxiv.org/abs/2209.04062v1 )

ライセンス: Link先を確認
Hayato Futami, Hirofumi Inaguma, Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara(参考訳) コネクショニスト時間分類(ctc)に基づくモデルは、自動音声認識(asr)において非自己回帰性のため魅力的である。 テキストのみのデータを活用するために、言語モデル (LM) の統合アプローチとして、リスコリングや浅い融合が広く使われている。 しかし、ビーム探索が必要なため、CTCの非自己回帰性は失われ、推論速度が低下する。 本研究では,電話コンディショニングマスクlm(pc-mlm)を用いた誤り訂正手法を提案する。 提案手法では,CTCから出力されるグリーディ復号された単語トークンをマスクする。 PC-MLMは、CTCから補足的に予測された不一致の単語と電話に与えられるこれらのマスク付きワードトークンを予測する。 さらに、挿入エラーに対処するため、Deletable PC-MLMに拡張する。 CTCとPC-MLMはどちらも非自己回帰モデルであるため、高速なLM統合を可能にする。 ドメイン適応設定における自発日本語コーパス(CSJ)とTED-Lium2(TED-Lium2)の実験的評価は,提案手法が推論速度およびCSJの認識精度において,再現性および浅部融合性に優れていたことを示している。

Connectionist temporal classification (CTC) -based models are attractive in automatic speech recognition (ASR) because of their non-autoregressive nature. To take advantage of text-only data, language model (LM) integration approaches such as rescoring and shallow fusion have been widely used for CTC. However, they lose CTC's non-autoregressive nature because of the need for beam search, which slows down the inference speed. In this study, we propose an error correction method with phone-conditioned masked LM (PC-MLM). In the proposed method, less confident word tokens in a greedy decoded output from CTC are masked. PC-MLM then predicts these masked word tokens given unmasked words and phones supplementally predicted from CTC. We further extend it to Deletable PC-MLM in order to address insertion errors. Since both CTC and PC-MLM are non-autoregressive models, the method enables fast LM integration. Experimental evaluations on the Corpus of Spontaneous Japanese (CSJ) and TED-LIUM2 in domain adaptation setting shows that our proposed method outperformed rescoring and shallow fusion in terms of inference speed, and also in terms of recognition accuracy on CSJ.
翻訳日:2022-09-12 13:06:01 公開日:2022-09-08
# 支払いは? 個性化、ボス性、公平さのコスト

Who Pays? Personalization, Bossiness and the Cost of Fairness ( http://arxiv.org/abs/2209.04043v1 )

ライセンス: Link先を確認
Paresha Farastu, Nicholas Mattei and Robin Burke(参考訳) 提供者側の公正を懸念する公正を意識したレコメンデータシステムは、保護された提供者のグループに商品や製品を宣伝する公正な機会があることを確実にする。 このようなソリューションが実装されたときに、消費者側のインタラクションが担う‘‘公正のコスト’’がある。 この消費者側コストは、特に公平性制約の影響を制御するためにパーソナライズを利用する場合、公正性に関する独自の疑問を提起する。 公正を目標とするパーソナライズされたアプローチを採用することで、研究者はシステムをユーザーの戦略的行動に開放する可能性がある。 この種のインセンティブは、『ボッシー』という用語の下で計算社会選択文学で研究されてきた。 心配なのは、ボッシーなユーザーは公平さのコストを他人にシフトさせ、自分たちの成果を改善し、他人に悪影響を及ぼすかもしれないということです。 本稿では,bossnessの概念を紹介し,フェアネス・アウェア・レコメンデーション(fairness-aware recommendation)の適用例を示し,この戦略的インセンティブを削減するための戦略について論じる。

Fairness-aware recommender systems that have a provider-side fairness concern seek to ensure that protected group(s) of providers have a fair opportunity to promote their items or products. There is a ``cost of fairness'' borne by the consumer side of the interaction when such a solution is implemented. This consumer-side cost raises its own questions of fairness, particularly when personalization is used to control the impact of the fairness constraint. In adopting a personalized approach to the fairness objective, researchers may be opening their systems up to strategic behavior on the part of users. This type of incentive has been studied in the computational social choice literature under the terminology of ``bossiness''. The concern is that a bossy user may be able to shift the cost of fairness to others, improving their own outcomes and worsening those for others. This position paper introduces the concept of bossiness, shows its application in fairness-aware recommendation and discusses strategies for reducing this strategic incentive.
翻訳日:2022-09-12 13:04:04 公開日:2022-09-08
# 共有価値から一般化付加モデルへ

From Shapley Values to Generalized Additive Models and back ( http://arxiv.org/abs/2209.04012v1 )

ライセンス: Link先を確認
Sebastian Bordt, Ulrike von Luxburg(参考訳) 説明可能な機械学習では、局所的なポストホックな説明アルゴリズムと本質的に解釈可能なモデルはしばしば競合するアプローチと見なされる。 本研究では,シャプリー・バリュース(Shapley Values)というポストホックな説明技法の新たな視点を提供し,一般的な解釈可能なモデルであるGlassbox-GAMsと強く結びついていることを示す。 我々は$n$-Shapley Valuesを紹介します。これはShapley Valuesの自然な拡張で、$n$までの相互作用項による個々の予測を説明します。 n$が増加するにつれて、$n$-Shapley値は、元の関数のユニークな分解であるShapley-GAMに収束する。 Shapley-GAMから任意の順序でShapley Valuesを計算し、これらの説明の限界について正確な洞察を与える。 すると、Shapley Values が次数$n$の一般化加法モデルを復元し、説明において$n$までの相互作用項を許容することを仮定する。 これは、オリジナルのShapley ValuesがGlassbox-GAMを復元したことを意味する。 技術的な最後には、値関数を選択する異なる方法と元の関数の異なる機能分解の間に1対1の対応があることを示す。 これは値関数をどのように選択するかという問題に対する新しい視点を提供する。 また,様々な標準分類器に存在する変数相互作用の度合いを実証的に分析し,アルゴリズムによる説明に対する結果の影響について考察する。 n$-shapley値を計算し、結果を再現するpythonパッケージは、 \url{https://github.com/tml-tuebingen/nshap}で入手できる。

In explainable machine learning, local post-hoc explanation algorithms and inherently interpretable models are often seen as competing approaches. In this work, offer a novel perspective on Shapley Values, a prominent post-hoc explanation technique, and show that it is strongly connected with Glassbox-GAMs, a popular class of interpretable models. We introduce $n$-Shapley Values, a natural extension of Shapley Values that explain individual predictions with interaction terms up to order $n$. As $n$ increases, the $n$-Shapley Values converge towards the Shapley-GAM, a uniquely determined decomposition of the original function. From the Shapley-GAM, we can compute Shapley Values of arbitrary order, which gives precise insights into the limitations of these explanations. We then show that Shapley Values recover generalized additive models of order $n$, assuming that we allow for interaction terms up to order $n$ in the explanations. This implies that the original Shapley Values recover Glassbox-GAMs. At the technical end, we show that there is a one-to-one correspondence between different ways to choose the value function and different functional decompositions of the original function. This provides a novel perspective on the question of how to choose the value function. We also present an empirical analysis of the degree of variable interaction that is present in various standard classifiers, and discuss the implications of our results for algorithmic explanations. A python package to compute $n$-Shapley Values and replicate the results in this paper is available at \url{https://github.com/tml-tuebingen/nshap}.
翻訳日:2022-09-12 13:01:48 公開日:2022-09-08
# 中毒攻撃に対するフェデレーション学習における差分プライバシと認定ロバスト性の関係を明らかにする

Uncovering the Connection Between Differential Privacy and Certified Robustness of Federated Learning against Poisoning Attacks ( http://arxiv.org/abs/2209.04030v1 )

ライセンス: Link先を確認
Chulin Xie, Yunhui Long, Pin-Yu Chen, Bo Li(参考訳) フェデレートラーニング(FL)は、分散ユーザのデータを活用するグローバルモデルを共同でトレーニングするための効率的なパラダイムを提供する。 地元のトレーニングデータは信頼性の低い異なるユーザーから来ているため、いくつかの研究でflは中毒攻撃に弱いことが示されている。 一方、ローカルユーザーのプライバシーを保護するため、FLは常に差分プライベート(DPFL)で訓練されている。 そこで,本論文では,DPFLの本質的なプライバシー特性を利用して,毒殺攻撃に対する信頼性の高いロバスト性を提供できるか? このような認証を改善するために、FLのプライバシーをさらに改善できるだろうか? まず、FLのユーザレベルとインスタンスレベルの両方のプライバシを調査し、インスタンスレベルのプライバシを改善するための新しいメカニズムを提案する。 次に,2つのロバスト性認定基準を提示する。両レベルにおけるdpflの認証予測と認証攻撃コストである。 理論的には, DPFLの証明された堅牢性を, ユーザ数やインスタンス数で証明する。 実験的な実験により、さまざまなデータセットに対する攻撃範囲で理論を検証する。 より厳密なプライバシー保証を持つdpflは、常に認証された攻撃コストの観点から強固な堅牢性認定を提供するが、最適な認証予測は、プライバシー保護とユーティリティ損失の適切なバランスの下で達成される。

Federated learning (FL) provides an efficient paradigm to jointly train a global model leveraging data from distributed users. As the local training data come from different users who may not be trustworthy, several studies have shown that FL is vulnerable to poisoning attacks. Meanwhile, to protect the privacy of local users, FL is always trained in a differentially private way (DPFL). Thus, in this paper, we ask: Can we leverage the innate privacy property of DPFL to provide certified robustness against poisoning attacks? Can we further improve the privacy of FL to improve such certification? We first investigate both user-level and instance-level privacy of FL and propose novel mechanisms to achieve improved instance-level privacy. We then provide two robustness certification criteria: certified prediction and certified attack cost for DPFL on both levels. Theoretically, we prove the certified robustness of DPFL under a bounded number of adversarial users or instances. Empirically, we conduct extensive experiments to verify our theories under a range of attacks on different datasets. We show that DPFL with a tighter privacy guarantee always provides stronger robustness certification in terms of certified attack cost, but the optimal certified prediction is achieved under a proper balance between privacy protection and utility loss.
翻訳日:2022-09-12 12:57:59 公開日:2022-09-08
# $\Delta$-PINNs:複雑なジオメトリ上の物理インフォームドニューラルネットワーク

$\Delta$-PINNs: physics-informed neural networks on complex geometries ( http://arxiv.org/abs/2209.03984v1 )

ライセンス: Link先を確認
Francisco Sahli Costabal, Simone Pezzuto, Paris Perdikaris(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式を含む前方および逆問題の解法を実証している。 PINNによって対処できる問題のクラスを拡大する最近の進歩にもかかわらず、既存のユースケースの多くは単純な幾何学的ドメインを含んでいる。 現在までに、問題が解決されている領域のトポロジについて、PINNに知らせる明確な方法はない。 本研究では,Laplace-Beltrami演算子の固有関数に基づくPINNの新たな位置符号化機構を提案する。 このテクニックは、与えられたオブジェクトの幾何学を表すニューラルネットワークの入力空間を作成することができる。 有限要素を持つ偏微分方程式の作用素と同様に固有関数を近似する。 提案手法をコイル,ヒートシンク,バニーなどの複雑な形状のピンに対して,固有方程式や熱伝達などの物理法則を用いて広範囲に検証し,比較した。 また,本手法の固有関数数に対する感度,および固有関数および基本演算子に対する離散化について検討した。 この結果から,従来のPINNが意味ある解を導出できない場合において,基礎的真理データと良好な一致を示した。 この新しい技術は、pinnの有効性をより現実的なアプリケーションにも拡張することを期待している。

Physics-informed neural networks (PINNs) have demonstrated promise in solving forward and inverse problems involving partial differential equations. Despite recent progress on expanding the class of problems that can be tackled by PINNs, most of existing use-cases involve simple geometric domains. To date, there is no clear way to inform PINNs about the topology of the domain where the problem is being solved. In this work, we propose a novel positional encoding mechanism for PINNs based on the eigenfunctions of the Laplace-Beltrami operator. This technique allows to create an input space for the neural network that represents the geometry of a given object. We approximate the eigenfunctions as well as the operators involved in the partial differential equations with finite elements. We extensively test and compare the proposed methodology against traditional PINNs in complex shapes, such as a coil, a heat sink and a bunny, with different physics, such as the Eikonal equation and heat transfer. We also study the sensitivity of our method to the number of eigenfunctions used, as well as the discretization used for the eigenfunctions and the underlying operators. Our results show excellent agreement with the ground truth data in cases where traditional PINNs fail to produce a meaningful solution. We envision this new technique will expand the effectiveness of PINNs to more realistic applications.
翻訳日:2022-09-12 12:52:33 公開日:2022-09-08
# Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用

Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL ( http://arxiv.org/abs/2209.03993v1 )

ライセンス: Link先を確認
Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent System Laboratory, University of Bristol)(参考訳) 近年の研究では,RLタスクを教師付き学習タスクに変換することで,オフライン強化学習(RL)に条件付きポリシを組み込むことで,有望な結果が得られることが示されている。 Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。 しかしdtは縫い付け能力に欠けており、サブ最適軌道から最適なポリシーを学ぶオフラインrlの重要な能力の1つである。 オフラインデータセットが最適下行のみを含む場合、この問題は重要になる。 一方、動的プログラミングに基づく従来のrlアプローチ(q-learningなど)は、同じ問題に苦しめていないが、特にオフポリシー学習環境で関数近似を用いる場合、不安定な学習行動に苦しむ。 本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。 qdtは、動的プログラミング(q-learning)の結果を利用して、トレーニングデータ内の復帰をリラベルする。 次に、遅延データでDTをトレーニングします。 我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。 簡単な環境で、DTの問題とQDTの利点を実証する。 また,より複雑なD4RLベンチマークでQDTを評価し,良好な性能向上を示した。

Recent works have shown that tackling offline reinforcement learning (RL) with a conditional policy produces promising results by converting the RL task to a supervised learning task. Decision Transformer (DT) combines the conditional policy approach and Transformer architecture to show competitive performance against several benchmarks. However, DT lacks stitching ability -- one of the critical abilities for offline RL that learns the optimal policy from sub-optimal trajectories. The issue becomes significant when the offline dataset only contains sub-optimal trajectories. On the other hand, the conventional RL approaches based on Dynamic Programming (such as Q-learning) do not suffer the same issue; however, they suffer from unstable learning behaviours, especially when it employs function approximation in an off-policy learning setting. In this paper, we propose Q-learning Decision Transformer (QDT) that addresses the shortcomings of DT by leveraging the benefit of Dynamic Programming (Q-learning). QDT utilises the Dynamic Programming (Q-learning) results to relabel the return-to-go in the training data. We then train the DT with the relabelled data. Our approach efficiently exploits the benefits of these two approaches and compensates for each other's shortcomings to achieve better performance. We demonstrate the issue of DT and the advantage of QDT in a simple environment. We also evaluate QDT in the more complex D4RL benchmark showing good performance gains.
翻訳日:2022-09-12 12:52:14 公開日:2022-09-08
# ラベル・シード問合せを用いた分類器のアクティブ学習

Active Learning of Classifiers with Label and Seed Queries ( http://arxiv.org/abs/2209.03996v1 )

ライセンス: Link先を確認
Marco Bressan, Nicol\`o Cesa-Bianchi, Silvio Lattanzi, Andrea Paudice, Maximilian Thiessen(参考訳) 本稿では,二項分類と多項分類の正解学習について検討する。 n$-点集合 $X \subset \mathbb{R}^m$ が与えられたとき、SVMマージンを拡張する新しい概念である、クラスが有限な凸殻マージンを持つ$X$上の未知の分類子を学習したい。 ラベルクエリのみを許可する標準的なアクティブラーニング設定では、強い凸包マージンを持つ分類器を学習する$\gamma$ は、最悪の場合$\omega\big(1+\frac{1}{\gamma}\big)^{(m-1)/2}$クエリを必要とする。 一方、より強力なシードクエリ(同値クエリの変種)を使用することで、LittlestoneのHalvingアルゴリズムを通じて、ターゲット分類器を$O(m \log n)$クエリで学習することができるが、Halvingは計算的に非効率である。 この研究では、2つのタイプのクエリを慎重に組み合わせることで、$o(m^2 \log n)$のラベルクエリと$o\big(m \log \frac{m}{\gamma}\big)$のシードクエリのみを使用して、$\operatorname{poly}(n+m)$を時間的に学習できることを示します。 k^2$乗算オーバーヘッド。 同様の結果は、入力点が有界なビット複雑性を持つ場合や、他のクラスに対して強い凸包マージンを持つ場合にも成り立つ。 最悪の場合、任意のアルゴリズムが$\Omega\big(k m \log \frac{1}{\gamma}\big)$のシードとラベルクエリを必要とし、強い凸包幅を持つ$k$クラス分類器を学習する。

We study exact active learning of binary and multiclass classifiers with margin. Given an $n$-point set $X \subset \mathbb{R}^m$, we want to learn any unknown classifier on $X$ whose classes have finite strong convex hull margin, a new notion extending the SVM margin. In the standard active learning setting, where only label queries are allowed, learning a classifier with strong convex hull margin $\gamma$ requires in the worst case $\Omega\big(1+\frac{1}{\gamma}\big)^{(m-1)/2}$ queries. On the other hand, using the more powerful seed queries (a variant of equivalence queries), the target classifier could be learned in $O(m \log n)$ queries via Littlestone's Halving algorithm; however, Halving is computationally inefficient. In this work we show that, by carefully combining the two types of queries, a binary classifier can be learned in time $\operatorname{poly}(n+m)$ using only $O(m^2 \log n)$ label queries and $O\big(m \log \frac{m}{\gamma}\big)$ seed queries; the result extends to $k$-class classifiers at the price of a $k!k^2$ multiplicative overhead. Similar results hold when the input points have bounded bit complexity, or when only one class has strong convex hull margin against the rest. We complement the upper bounds by showing that in the worst case any algorithm needs $\Omega\big(k m \log \frac{1}{\gamma}\big)$ seed and label queries to learn a $k$-class classifier with strong convex hull margin $\gamma$.
翻訳日:2022-09-12 12:51:50 公開日:2022-09-08
# feddar: フェデレーションされたドメイン認識表現学習

FedDAR: Federated Domain-Aware Representation Learning ( http://arxiv.org/abs/2209.04007v1 )

ライセンス: Link先を確認
Aoxiao Zhong, Hao He, Zhaolin Ren, Na Li, Quanzheng Li(参考訳) cross-silo federated learning(fl)は、医療のための機械学習アプリケーションにおいて有望なツールとなっている。 病院や施設は、データがプライベートに保たれている間に十分なデータでモデルを訓練できる。 flモデルがflクライアント間の異種データに対して堅牢であることを確認するため、ほとんどの取り組みはクライアントのモデルをパーソナライズすることに焦点を当てている。 しかし、クライアントのデータ間の潜伏関係は無視される。 本研究では、各クライアントのデータ分散を複数の事前定義されたドメインの混合とみなす、Domain-mixed FLと呼ばれる特殊な非IDFL問題に焦点を当てる。 ドメインの多様性とドメイン内の類似性を認識し,ドメインの共有表現とドメインのパーソナライズされた予測ヘッドを疎結合で学習する新しい手法であるFedDARを提案する。 線形回帰設定を単純化するために、FedDARが線形収束速度を享受できることを理論的に証明した。 一般的な設定では,従来のFL法よりも優れていることを示す人工的および実世界の医療データセットについて,集中的な実験を行った。

Cross-silo Federated learning (FL) has become a promising tool in machine learning applications for healthcare. It allows hospitals/institutions to train models with sufficient data while the data is kept private. To make sure the FL model is robust when facing heterogeneous data among FL clients, most efforts focus on personalizing models for clients. However, the latent relationships between clients' data are ignored. In this work, we focus on a special non-iid FL problem, called Domain-mixed FL, where each client's data distribution is assumed to be a mixture of several predefined domains. Recognizing the diversity of domains and the similarity within domains, we propose a novel method, FedDAR, which learns a domain shared representation and domain-wise personalized prediction heads in a decoupled manner. For simplified linear regression settings, we have theoretically proved that FedDAR enjoys a linear convergence rate. For general settings, we have performed intensive empirical studies on both synthetic and real-world medical datasets which demonstrate its superiority over prior FL methods.
翻訳日:2022-09-12 12:51:16 公開日:2022-09-08
# タスク関連ソースデータのないクロスモーダルな知識伝達

Cross-Modal Knowledge Transfer Without Task-Relevant Source Data ( http://arxiv.org/abs/2209.04027v1 )

ライセンス: Link先を確認
Sk Miraj Ahmed, Suhas Lohit, Kuan-Chuan Peng, Michael J. Jones and Amit K. Roy-Chowdhury(参考訳) 通常のRGBセンサーに代わるコスト効率の高い深度センサーと赤外線センサーは現実のものとなり、自律ナビゲーションやリモートセンシングといった領域ではRGBよりもいくつかの利点がある。 そのため、深度と赤外線データのためのコンピュータビジョンとディープラーニングシステムの構築が重要である。 しかし、これらのモダリティに対する大きなラベル付きデータセットはまだ不足している。 そのような場合、ソースモダリティ(rgb)のよくラベルされた大規模データセットでトレーニングされたニューラルネットワークから、ターゲットモダリティ(深さ、赤外線など)で動作するニューラルネットワークへの知識の転送は、非常に有用である。 メモリやプライバシといった理由から、ソースデータへのアクセスは不可能であり、知識転送はソースモデルのみで動作する必要がある。 タスク関連ソースデータにアクセスすることなく、あるソースのモダリティから異なるターゲットのモダリティへ知識を転送する、この難しいタスクについて、SOCKET: SOurce-free Cross-modal KnowledgE Transferについて説明する。 このフレームワークは、ペア化されたタスク関連データを用いてモダリティギャップを減らし、ターゲット特徴の平均と分散と、ソースモデルに存在するバッチノルム統計とをマッチングする。 提案手法は,モーダリティのギャップを考慮せずに,既存の分類タスクのソースフリー手法を著しく上回っていることを示す。

Cost-effective depth and infrared sensors as alternatives to usual RGB sensors are now a reality, and have some advantages over RGB in domains like autonomous navigation and remote sensing. As such, building computer vision and deep learning systems for depth and infrared data are crucial. However, large labeled datasets for these modalities are still lacking. In such cases, transferring knowledge from a neural network trained on a well-labeled large dataset in the source modality (RGB) to a neural network that works on a target modality (depth, infrared, etc.) is of great value. For reasons like memory and privacy, it may not be possible to access the source data, and knowledge transfer needs to work with only the source models. We describe an effective solution, SOCKET: SOurce-free Cross-modal KnowledgE Transfer for this challenging task of transferring knowledge from one source modality to a different target modality without access to task-relevant source data. The framework reduces the modality gap using paired task-irrelevant data, as well as by matching the mean and variance of the target features with the batch-norm statistics that are present in the source models. We show through extensive experiments that our method significantly outperforms existing source-free methods for classification tasks which do not account for the modality gap.
翻訳日:2022-09-12 12:47:33 公開日:2022-09-08
# im2nerf: 野生の神経放射場へのイメージ

im2nerf: Image to Neural Radiance Field in the Wild ( http://arxiv.org/abs/2209.04061v1 )

ライセンス: Link先を確認
Lu Mi, Abhijit Kundu, David Ross, Frank Dellaert, Noah Snavely, Alireza Fathi(参考訳) そこで本研究では,単一の入力画像から連続的なニューラルネットワーク表現を予測する学習フレームワークim2nerfを提案する。 ニューラルラディアンスフィールドを構築するための標準的なアプローチは、マルチビューの一貫性を生かし、シーンの多くのキャリブレーションされたビューを必要とする。 入力画像をオブジェクト形状の符号、オブジェクト外観の符号、およびオブジェクト画像がキャプチャされる推定カメラポーズを含む異角形オブジェクト表現にエンコードするモデルを導入することで、この欠点に対処するための一歩を踏み出す。 提案モデルでは,予測対象表現上のNeRFを条件とし,ボリュームレンダリングを用いて新しいビューから画像を生成する。 モデルのエンドツーエンドを大量の入力イメージでトレーニングします。 モデルはシングルビューの画像しか提供されないため、問題は過小評価されている。 したがって、合成された入力ビューに対する再構成損失に加えて、新規な描画ビューに対する補助的対角損失を用いる。 さらに、オブジェクト対称性とサイクルカメラのポーズ一貫性を活用する。 我々は,シェープネットデータセットの量的,質的実験と,オープンイメージデータセットの質的実験を行う。 いずれの場合も、in2nerfは、野生の単視点未表示画像から新しいビュー合成を行うための最先端のパフォーマンスを実現する。

We propose im2nerf, a learning framework that predicts a continuous neural object representation given a single input image in the wild, supervised by only segmentation output from off-the-shelf recognition methods. The standard approach to constructing neural radiance fields takes advantage of multi-view consistency and requires many calibrated views of a scene, a requirement that cannot be satisfied when learning on large-scale image data in the wild. We take a step towards addressing this shortcoming by introducing a model that encodes the input image into a disentangled object representation that contains a code for object shape, a code for object appearance, and an estimated camera pose from which the object image is captured. Our model conditions a NeRF on the predicted object representation and uses volume rendering to generate images from novel views. We train the model end-to-end on a large collection of input images. As the model is only provided with single-view images, the problem is highly under-constrained. Therefore, in addition to using a reconstruction loss on the synthesized input view, we use an auxiliary adversarial loss on the novel rendered views. Furthermore, we leverage object symmetry and cycle camera pose consistency. We conduct extensive quantitative and qualitative experiments on the ShapeNet dataset as well as qualitative experiments on Open Images dataset. We show that in all cases, im2nerf achieves the state-of-the-art performance for novel view synthesis from a single-view unposed image in the wild.
翻訳日:2022-09-12 12:47:11 公開日:2022-09-08
# 人工知能時代のボスニア・ヘルツェゴビナのビジョン:グローバルトレンド、潜在的機会、選択されたユースケース、リアル目標

Vision for Bosnia and Herzegovina in Artificial Intelligence Age: Global Trends, Potential Opportunities, Selected Use-cases and Realistic Goals ( http://arxiv.org/abs/2209.03990v1 )

ライセンス: Link先を確認
Zlatan Ajanovi\'c, Emina Ali\v{c}kovi\'c, Aida Brankovi\'c, Sead Delali\'c, Eldar Kurti\'c, Salem Maliki\'c, Adnan Mehoni\'c, Hamza Merzi\'c, Kenan \v{S}ehi\'c, Bahrudin Trbali\'c(参考訳) 人工知能(AI)は21世紀で最も有望な技術の一つである。 世紀は社会と経済に すでに顕著な影響を与えています 本研究により,産業におけるグローバルトレンドと応用,および産学界における国際経験と業務から選択したユースケースの概要を述べる。 目標は、グローバルなおよび地域的なポジティブなプラクティスを示し、グローバルなAIシーンでB&Hを位置づけるための現実的な目標と機会について、情報的な意見を提供することである。

Artificial Intelligence (AI) is one of the most promising technologies of the 21. century, with an already noticeable impact on society and the economy. With this work, we provide a short overview of global trends, applications in industry and selected use-cases from our international experience and work in industry and academia. The goal is to present global and regional positive practices and provide an informed opinion on the realistic goals and opportunities for positioning B&H on the global AI scene.
翻訳日:2022-09-12 12:40:24 公開日:2022-09-08
# 自動運転車のプライバシー:リスク、保護方法、今後の方向性

Privacy of Autonomous Vehicles: Risks, Protection Methods, and Future Directions ( http://arxiv.org/abs/2209.04022v1 )

ライセンス: Link先を確認
Chulin Xie, Zhong Cao, Yunhui Long, Diange Yang, Ding Zhao, Bo Li(参考訳) 機械学習の最近の進歩により、さまざまな分野への幅広い応用が可能となり、最もエキサイティングな応用の1つは自動運転車(AV)であり、多くのMLアルゴリズムの開発を知覚から予測、計画まで促進してきた。 しかし、トレーニングAVは、通常、異なる運転環境(例えば都市)と異なる種類の個人情報(例えば労働時間やルート)から収集された大量のトレーニングデータを必要とする。 こうした収集された大規模なデータは、データ中心のAI時代にMLの新しいオイルとして扱われ、通常、削除や監査が難しい大量のプライバシーに敏感な情報を含んでいる。 既存のプライバシー保護アプローチは、ある理論的および実証的な成功を達成しているが、自動運転車のような現実のアプリケーションに適用する際はまだギャップがある。 例えば、AVを訓練する際、個別に識別できる情報は、プライバシーに敏感な情報だけでなく、都市内の道路建設やAVのプロプライエタリレベルの商業秘密といった人口レベルの情報も明らかにする。 したがって、このギャップを埋めるために、プライバシーリスクとそれに対応するAVの保護アプローチのフロンティアを再考することが重要である。 この目標に従って、我々は、AVにおけるプライバシーリスクと保護方法の新しい分類法を提供し、AVにおけるプライバシーを、個人、人口、プロプライエタリの3つのレベルに分類する。 我々は、これらのレベルのプライバシーを保護する最近の課題を明示的にリストアップし、これらの課題に対する既存のソリューションを要約し、教訓と結論について議論し、研究者と実践者の両方に将来の方向性と機会を提供する。 この取り組みは、AVにおけるプライバシー研究を形作り、プライバシ保護技術設計の指針になると考えています。

Recent advances in machine learning have enabled its wide application in different domains, and one of the most exciting applications is autonomous vehicles (AVs), which have encouraged the development of a number of ML algorithms from perception to prediction to planning. However, training AVs usually requires a large amount of training data collected from different driving environments (e.g., cities) as well as different types of personal information (e.g., working hours and routes). Such collected large data, treated as the new oil for ML in the data-centric AI era, usually contains a large amount of privacy-sensitive information which is hard to remove or even audit. Although existing privacy protection approaches have achieved certain theoretical and empirical success, there is still a gap when applying them to real-world applications such as autonomous vehicles. For instance, when training AVs, not only can individually identifiable information reveal privacy-sensitive information, but also population-level information such as road construction within a city, and proprietary-level commercial secrets of AVs. Thus, it is critical to revisit the frontier of privacy risks and corresponding protection approaches in AVs to bridge this gap. Following this goal, in this work, we provide a new taxonomy for privacy risks and protection methods in AVs, and we categorize privacy in AVs into three levels: individual, population, and proprietary. We explicitly list out recent challenges to protect each of these levels of privacy, summarize existing solutions to these challenges, discuss the lessons and conclusions, and provide potential future directions and opportunities for both researchers and practitioners. We believe this work will help to shape the privacy research in AV and guide the privacy protection technology design.
翻訳日:2022-09-12 12:40:16 公開日:2022-09-08
# 分散差分符号選択のための多数投票

Majority Vote for Distributed Differentially Private Sign Selection ( http://arxiv.org/abs/2209.04419v1 )

ライセンス: Link先を確認
Weidong Liu, Jiyuan Tu, Xiaojun Mao, Xi Chen(参考訳) 近年,プライバシー保護データ分析が普及している。 本稿では,分散構成における符号選択問題に対して,分散グループによる多数決機構を提案する。 これを実現するために,安定度関数に反復剥離を適用し,指数的機構を用いて標識を復元する。 分散システムにおける平均推定と線形回帰問題に対するプライベートサインの選択について検討する。 提案手法は,従来のプライベート変数選択よりも優れた非プライベートシナリオのように,最適な信号対雑音比を持つサポートとサインを復元する。 さらに、符号選択一貫性は理論的な保証で正当化される。 提案手法の有効性を示すためにシミュレーション研究を行った。

Privacy-preserving data analysis has become prevailing in recent years. In this paper, we propose a distributed group differentially private majority vote mechanism for the sign selection problem in a distributed setup. To achieve this, we apply the iterative peeling to the stability function and use the exponential mechanism to recover the signs. As applications, we study the private sign selection for mean estimation and linear regression problems in distributed systems. Our method recovers the support and signs with the optimal signal-to-noise ratio as in the non-private scenario, which is better than contemporary works of private variable selections. Moreover, the sign selection consistency is justified with theoretical guarantees. Simulation studies are conducted to demonstrate the effectiveness of our proposed method.
翻訳日:2022-09-12 12:35:38 公開日:2022-09-08
# 低リソース言語における音声認識のための多言語トランスフォーマー言語モデル

Multilingual Transformer Language Model for Speech Recognition in Low-resource Languages ( http://arxiv.org/abs/2209.04041v1 )

ライセンス: Link先を確認
Li Miao, Jian Wu, Piyush Behre, Shuangyu Chang, Sarangarajan Parthasarathy(参考訳) ハイブリッド音声認識のためのトランスフォーマーLMのトレーニングと展開は,(1)低リソース言語におけるデータ不足,(2)100以上のモノリンガルモデルのトレーニングとリフレッシュのための高価な計算コスト,(3)スパーストラフィックを考慮した非効率ホスティングにより,低リソース言語における第2パスの再評価が困難である。 本研究では,複数の低資源領域をグループ化し,asrにおける多言語トランスフォーマ lms の性能を最適化する新しい手法を提案する。 ローカルグループ多言語トランスフォーマーLMは,メンテナンスコストや運用コストの削減とともに,従来の多言語LMよりも優れています。 さらに,単一言語モデルの展開が実現可能な低リソースかつ高トラフィックなロケールに対して,局所的多言語lmsの微調整がベースライン単言語lmsよりも優れた単言語lm候補を生成することを示す。

It is challenging to train and deploy Transformer LMs for hybrid speech recognition 2nd pass re-ranking in low-resource languages due to (1) data scarcity in low-resource languages, (2) expensive computing costs for training and refreshing 100+ monolingual models, and (3) hosting inefficiency considering sparse traffic. In this study, we present a new way to group multiple low-resource locales together and optimize the performance of Multilingual Transformer LMs in ASR. Our Locale-group Multilingual Transformer LMs outperform traditional multilingual LMs along with reducing maintenance costs and operating expenses. Further, for low-resource but high-traffic locales where deploying monolingual models is feasible, we show that fine-tuning our locale-group multilingual LMs produces better monolingual LM candidates than baseline monolingual LMs.
翻訳日:2022-09-12 12:34:18 公開日:2022-09-08
# オンライン低ランク行列補完

Online Low Rank Matrix Completion ( http://arxiv.org/abs/2209.03997v1 )

ライセンス: Link先を確認
Prateek Jain and Soumyabrata Pal(参考訳) 我々は,$\mathsf{m}$ ユーザ,$\mathsf{n}$ アイテム,$\mathsf{t}$ ラウンドを用いて,_textit{online} の低ランク行列完全性の問題を研究する。 各ラウンドでは、ユーザ毎に1つのアイテムを推奨します。 各レコメンデーションに対して、低ランクのユーザテーマ報酬マトリックスからサンプリングされた(迷惑な)報酬を得る。 目標は、($\mathsf{T}$で)サブ線形後悔を伴うオンラインメソッドを設計することである。 問題は、各アイテムが \textit{independent} armである標準的なマルチアームのバンディット問題にマッピングできるが、腕とユーザーの相関が悪用されないため、残念なことになってしまう。 対照的に、報酬行列の低階構造を利用するのは、低階多様体の非凸性のため困難である。 我々は、この挑戦を、$O(\mathsf{polylog} (\mathsf{M}+\mathsf{N}) \mathsf{T}^{2/3})$を後悔することを保証する探索-then-commit (ETC) アプローチで克服する。 つまり、おおよそ$\mathsf{polylog} (\mathsf{m}+\mathsf{n})$ itemレコメンデーションは、非自明なソリューションを得るためにユーザーごとに必要である。 私たちはさらに1ドルのランク設定で結果を改善します。 ここでは、O(\mathsf{polylog} (\mathsf{M}+\mathsf{N}) \mathsf{T}^{1/2})$をほぼ最適に再現できる新しいアルゴリズムOCTAL (Online Collaborative filTering using iterAtive user cLustering)を提案する。 提案アルゴリズムは,ユーザをクラスタリングし,アイテムを協調的かつ反復的に除去する新しい手法を用いて,$\mathsf{T}$で最小に近い最適なレートを得ることができる。

We study the problem of \textit{online} low-rank matrix completion with $\mathsf{M}$ users, $\mathsf{N}$ items and $\mathsf{T}$ rounds. In each round, we recommend one item per user. For each recommendation, we obtain a (noisy) reward sampled from a low-rank user-item reward matrix. The goal is to design an online method with sub-linear regret (in $\mathsf{T}$). While the problem can be mapped to the standard multi-armed bandit problem where each item is an \textit{independent} arm, it leads to poor regret as the correlation between arms and users is not exploited. In contrast, exploiting the low-rank structure of reward matrix is challenging due to non-convexity of low-rank manifold. We overcome this challenge using an explore-then-commit (ETC) approach that ensures a regret of $O(\mathsf{polylog} (\mathsf{M}+\mathsf{N}) \mathsf{T}^{2/3})$. That is, roughly only $\mathsf{polylog} (\mathsf{M}+\mathsf{N})$ item recommendations are required per user to get non-trivial solution. We further improve our result for the rank-$1$ setting. Here, we propose a novel algorithm OCTAL (Online Collaborative filTering using iterAtive user cLustering) that ensures nearly optimal regret bound of $O(\mathsf{polylog} (\mathsf{M}+\mathsf{N}) \mathsf{T}^{1/2})$. Our algorithm uses a novel technique of clustering users and eliminating items jointly and iteratively, which allows us to obtain nearly minimax optimal rate in $\mathsf{T}$.
翻訳日:2022-09-12 12:24:03 公開日:2022-09-08
# 神経シンボリック博士:心配をやめて統計を受け入れる方法を学びました

Dr. Neurosymbolic, or: How I Learned to Stop Worrying and Accept Statistics ( http://arxiv.org/abs/2209.04049v1 )

ライセンス: Link先を確認
Masataro Asai(参考訳) 象徴的なAIコミュニティは、ニューロシンボリックアーキテクチャーに機械学習を取り入れようとしているが、文化的な障壁のために依然として苦戦している。 障壁を破るために、この個人的なメモは、統計、機械学習、ディープラーニングの慣例を外部の視点から説明し、修正しようとするものである。 それは、象徴的なAIコミュニティによって真剣に受け止められるために必要な最小の理論的保証を満たす機械学習システムを設計するためのステップバイステップのプロトコルを提供する。 ほとんどの教科書は、stat/ml/dlを専門とする人のために書かれており、jargonsを受け入れている。 このメモは、多くの噂を聞いたがまだ不確実で懐疑的だった経験豊富なシンボリック研究者のためのものだ。 Stat/ML/DLに関する情報は、現在、散らばりすぎているか、ノイズが多すぎる。 このメモはコンパクトさを優先し、象徴的なパラダイムとよく調和する概念に特に注意を払う。 このメモが時間を節約してくれることを願っています。 一般的な数学的モデリングを優先し、ニューラルネットワーク(NN)、SVM、決定木など、特定の関数近似器を議論しない。 それは修正の余地がある。 このメモを、arxivに関する論文の形をしたブログ記事に似ていると考えてみよう。

The symbolic AI community is increasingly trying to embrace machine learning in neuro-symbolic architectures, yet is still struggling due to cultural barriers. To break the barrier, this rather opinionated personal memo attempts to explain and rectify the conventions in Statistics, Machine Learning, and Deep Learning from the viewpoint of outsiders. It provides a step-by-step protocol for designing a machine learning system that satisfies a minimum theoretical guarantee necessary for being taken seriously by the symbolic AI community, i.e., it discusses "in what condition we can stop worrying and accept statistical machine learning." Some highlights: Most textbooks are written for those who plan to specialize in Stat/ML/DL and are supposed to accept jargons. This memo is for experienced symbolic researchers that hear a lot of buzz but are still uncertain and skeptical. Information on Stat/ML/DL is currently too scattered or too noisy to invest in. This memo prioritizes compactness and pays special attention to concepts that resonate well with symbolic paradigms. I hope this memo offers time savings. It prioritizes general mathematical modeling and does not discuss any specific function approximator, such as neural networks (NNs), SVMs, decision trees, etc. It is open to corrections. Consider this memo as something similar to a blog post taking the form of a paper on Arxiv.
翻訳日:2022-09-12 12:15:49 公開日:2022-09-08
# IMAP:個々のhuMAnモビリティパターン可視化プラットフォーム

IMAP: Individual huMAn mobility Patterns visualizing platform ( http://arxiv.org/abs/2209.03615v1 )

ライセンス: Link先を確認
Yisheng Alison Zheng, Amani Abusafia, Abdallah Lakhdari, Shing Tai Tony Lui, Athman Bouguettaya(参考訳) 人間のモビリティを理解することは、スマートシティや社会行動研究の発展に不可欠である。 人間のモビリティモデルは、パンデミックコントロール、都市計画、交通管理など、多くの用途で利用することができる。 既存のモデルによるユーザのモビリティパターンの予測精度は25%未満である。 低い精度は人間の動きの柔軟な性質によって正当化される。 実際、人間は日々の動きに厳格ではない。 さらに、剛性モビリティモデルは、ユーザのレコードに隠された規則性を欠く可能性がある。 そこで我々は,人間の移動パターンを研究・分析し,その柔軟性を捉える新しい視点を提案する。 通常、モビリティパターンは一連の場所によって表現される。 我々はこれらの場所を一組の場所に抽象化することで移動パターンを定義することを提案する。 これらの位置をラベル付けすることで、身近なパターンを検出できます。 IMAPは、個人用huMAnモビリティパターン可視化プラットフォームである。 我々のプラットフォームは、ユーザーが訪れた場所の履歴に基づいてグラフを視覚化することを可能にする。 さらに,修正プレフィックススパンアプローチを用いて計算したモビリティパターンを最も頻繁に表示する。

Understanding human mobility is essential for the development of smart cities and social behavior research. Human mobility models may be used in numerous applications, including pandemic control, urban planning, and traffic management. The existing models' accuracy in predicting users' mobility patterns is less than 25%. The low accuracy may be justified by the flexible nature of the human movement. Indeed, humans are not rigid in their daily movement. In addition, the rigid mobility models may result in missing the hidden regularities in users' records. Thus, we propose a novel perspective to study and analyze human mobility patterns and capture their flexibility. Typically, the mobility patterns are represented by a sequence of locations. We propose to define the mobility patterns by abstracting these locations into a set of places. Labeling these locations will allow us to detect close-to-reality hidden patterns. We present IMAP, an Individual huMAn mobility Patterns visualizing platform. Our platform enables users to visualize a graph of the places they visited based on their history records. In addition, our platform displays the most frequent mobility patterns computed using a modified PrefixSpan approach.
翻訳日:2022-09-09 13:43:21 公開日:2022-09-08
# グループ分散シフトのためのブラックボックス監査

Black-Box Audits for Group Distribution Shifts ( http://arxiv.org/abs/2209.03620v1 )

ライセンス: Link先を確認
Marc Juarez, Samuel Yeom, Matt Fredrikson(参考訳) モデルが人について決定を下すと、分散シフトは不適切な格差を生み出す。 しかしながら、モデルとそのトレーニングセットがプロプライエタリであることが多いため、外部エンティティが分散シフトをチェックすることは困難である。 本稿では,分布変化の事例を検知するブラックボックス監査手法を提案し,その効果について検討する。 学習モデルからプライベート情報を公開するために設計された,メンバシップとプロパティ推論攻撃で使用されるテクニックを拡張することで,モデルに問い合わせることのみで,これらの分散シフトを特定するために必要な情報を外部監査者が取得できることを実証する。 実世界のデータセットを用いた実験の結果,このアプローチが有効であることを示し,トレーニングセットにおける集団の過小表現を伴うシフトの検出において,80~100% auc-roc を実現する。 研究者や調査ジャーナリストは、当社のツールを使用して、プロプライエタリなモデルの非協力的な監査を行い、トレーニングデータセットに過小表現のケースを公開することができる。

When a model informs decisions about people, distribution shifts can create undue disparities. However, it is hard for external entities to check for distribution shift, as the model and its training set are often proprietary. In this paper, we introduce and study a black-box auditing method to detect cases of distribution shift that lead to a performance disparity of the model across demographic groups. By extending techniques used in membership and property inference attacks -- which are designed to expose private information from learned models -- we demonstrate that an external auditor can gain the information needed to identify these distribution shifts solely by querying the model. Our experimental results on real-world datasets show that this approach is effective, achieving 80--100% AUC-ROC in detecting shifts involving the underrepresentation of a demographic group in the training set. Researchers and investigative journalists can use our tools to perform non-collaborative audits of proprietary models and expose cases of underrepresentation in the training datasets.
翻訳日:2022-09-09 13:43:10 公開日:2022-09-08
# 都市全体の交通条件予測モデルとしての階層グラフポーリング

Hierarchical Graph Pooling is an Effective Citywide Traffic Condition Prediction Model ( http://arxiv.org/abs/2209.03629v1 )

ライセンス: Link先を確認
Shilin Pu, Liang Chu, Zhuoran Hou, Jincheng Hu, Yanjun Huang, Yuanjian Zhang(参考訳) 正確な交通条件予測は、車両環境調整および交通制御タスクの確かな基盤を提供する。 空間分布における道路ネットワークデータの複雑さと深層学習法の多様性から,交通データを効果的に定義し,複雑な空間的非線形特徴を適切に捉えることは困難である。 本稿では,2つの階層的グラフプーリング手法をトラヒック予測タスクに適用し,グラフ情報の冗長性を低減する。 まず,トラヒック予測タスクにおける階層型グラフプーリング手法の有効性を検証する。 階層グラフプーリング法は、予測性能の他のベースラインと対比される。 第2に、ノードクラスタリングとノードドロッププールという2つの主要な階層グラフプーリング手法を適用し、トラフィック予測の利点と弱点を分析する。 最後に,上記のグラフニューラルネットワークについて,異なるグラフネットワーク入力の予測効果とトラヒック予測精度を比較した。 グラフネットワークを定義する効率的な方法を分析し、要約する。

Accurate traffic conditions prediction provides a solid foundation for vehicle-environment coordination and traffic control tasks. Because of the complexity of road network data in spatial distribution and the diversity of deep learning methods, it becomes challenging to effectively define traffic data and adequately capture the complex spatial nonlinear features in the data. This paper applies two hierarchical graph pooling approaches to the traffic prediction task to reduce graph information redundancy. First, this paper verifies the effectiveness of hierarchical graph pooling methods in traffic prediction tasks. The hierarchical graph pooling methods are contrasted with the other baselines on predictive performance. Second, two mainstream hierarchical graph pooling methods, node clustering pooling and node drop pooling, are applied to analyze advantages and weaknesses in traffic prediction. Finally, for the mentioned graph neural networks, this paper compares the predictive effects of different graph network inputs on traffic prediction accuracy. The efficient ways of defining graph networks are analyzed and summarized.
翻訳日:2022-09-09 13:42:53 公開日:2022-09-08
# 制約満足度のためのニューラルネットワークを用いた動的システムのインクリメンタル補正

Incremental Correction in Dynamic Systems Modelled with Neural Networks for Constraint Satisfaction ( http://arxiv.org/abs/2209.03698v1 )

ライセンス: Link先を確認
Namhoon Cho, Hyo-Sang Shin, Antonios Tsourdos, Davide Amato(参考訳) 本研究では,連続時間力学系に入力されるニューラルネットワークパラメータや制御関数をインクリメンタルに補正し,性能出力変数の中間点制約を満たす解の精度を向上させる手法を提案する。 提案したアプローチは、その引数の基底値のまわりのダイナミクスを線形化し、摂動軌跡を特定の時点、すなわち中間点において正確に既知の所望の所望の値に転送するために必要な補正入力を解くことである。 調整する決定変数の種類によってパラメータ補正と制御関数補正法が開発される。 これらの漸進補正方法は、所定の時点における力学系の予測精度が高いリアルタイムアプリケーションにおいて、事前訓練されたニューラルネットワークの予測誤差を補償する手段として利用することができる。 この点において、オンライン更新アプローチは、神経ポリシーを用いて点制約を受ける有限ホライゾン制御の全体的なターゲティング精度を向上させるのに有用である。 数値例は、火星の動力降下問題への応用における提案手法の有効性を示す。

This study presents incremental correction methods for refining neural network parameters or control functions entering into a continuous-time dynamic system to achieve improved solution accuracy in satisfying the interim point constraints placed on the performance output variables. The proposed approach is to linearise the dynamics around the baseline values of its arguments, and then to solve for the corrective input required to transfer the perturbed trajectory to precisely known or desired values at specific time points, i.e., the interim points. Depending on the type of decision variables to adjust, parameter correction and control function correction methods are developed. These incremental correction methods can be utilised as a means to compensate for the prediction errors of pre-trained neural networks in real-time applications where high accuracy of the prediction of dynamical systems at prescribed time points is imperative. In this regard, the online update approach can be useful for enhancing overall targeting accuracy of finite-horizon control subject to point constraints using a neural policy. Numerical example demonstrates the effectiveness of the proposed approach in an application to a powered descent problem at Mars.
翻訳日:2022-09-09 13:42:29 公開日:2022-09-08
# 連続時間確率最適化における損失運動量

Losing momentum in continuous-time stochastic optimisation ( http://arxiv.org/abs/2209.03705v1 )

ライセンス: Link先を確認
Kexin Jin, Jonas Latz, Chenguang Liu, Alessandro Scagliotti(参考訳) ディープニューラルネットワークやその他の現代の機械学習モデルのトレーニングは通常、高次元で大規模データの対象となる非凸最適化問題を解くことで構成される。 近年,運動量に基づく確率的最適化アルゴリズムが特に普及している。 確率性は計算コストを削減するデータサブサンプリングから生じる。 さらに、運動量と確率性は、アルゴリズムが局所的なミニミザを克服し、願わくばグローバルに収束するのに役立つはずである。 理論的には、この確率性と運動量の組み合わせはひどく理解されている。 本研究では,運動量を伴う確率勾配降下に対する連続時間モデルの提案と解析を行う。 このモデルは、過大な力学系による粒子の運動と、力学系の確率的切替によるデータサブサンプリングを表す、断片的決定論的マルコフ過程である。 本分析では, 長期限界, サブサンプリング・ノーサンプリング限界, モーメント・ノーモーメント限界について検討した。 直感的には、モーメントはアルゴリズムの初期段階で局所的なミニミザーを克服するのに役立つが、後にグローバルなミニミザーへの高速収束を禁止している。 凸性仮定の下では、時間とともに運動量を減らすとき、我々の力学系を大域最小化器に収束させ、サブサンプリングレートを無限大にする。 次に,連続時間力学系からアルゴリズムを構築するための安定なシンプレクティック離散化スキームを提案する。 数値実験において,凸および非凸試験問題における離散化方式について検討した。 さらに、CIFAR-10画像分類問題を解くために畳み込みニューラルネットワークを訓練する。 ここで,本アルゴリズムは運動量による確率勾配勾配よりも競合的な結果が得られる。

The training of deep neural networks and other modern machine learning models usually consists in solving non-convex optimisation problems that are high-dimensional and subject to large-scale data. Here, momentum-based stochastic optimisation algorithms have become especially popular in recent years. The stochasticity arises from data subsampling which reduces computational cost. Moreover, both, momentum and stochasticity are supposed to help the algorithm to overcome local minimisers and, hopefully, converge globally. Theoretically, this combination of stochasticity and momentum is badly understood. In this work, we propose and analyse a continuous-time model for stochastic gradient descent with momentum. This model is a piecewise-deterministic Markov process that represents the particle movement by an underdamped dynamical system and the data subsampling through a stochastic switching of the dynamical system. In our analysis, we investigate longtime limits, the subsampling-to-no-subsampling limit, and the momentum-to-no-momentum limit. We are particularly interested in the case of reducing the momentum over time: intuitively, the momentum helps to overcome local minimisers in the initial phase of the algorithm, but prohibits fast convergence to a global minimiser later. Under convexity assumptions, we show convergence of our dynamical system to the global minimiser when reducing momentum over time and let the subsampling rate go to infinity. We then propose a stable, symplectic discretisation scheme to construct an algorithm from our continuous-time dynamical system. In numerical experiments, we study our discretisation scheme in convex and non-convex test problems. Additionally, we train a convolutional neural network to solve the CIFAR-10 image classification problem. Here, our algorithm reaches competitive results compared to stochastic gradient descent with momentum.
翻訳日:2022-09-09 13:41:59 公開日:2022-09-08
# クラウドソースによる呼吸音声データからのCOVID-19検出のための多変量予測モデルの開発

Developing a multi-variate prediction model for the detection of COVID-19 from Crowd-sourced Respiratory Voice Data ( http://arxiv.org/abs/2209.03727v1 )

ライセンス: Link先を確認
Wafaa Aljbawi, Sami O. Simmons, and Visara Urovi(参考訳) 新型コロナウイルスは世界中で223カ国以上に影響している。 特にPCR検査が普及していない低リソースの国では、非侵襲的で低コストで高度にスケーラブルなソリューションの必要性が高まっている。 本研究の目的は, 一般市民の音声データ記録(音声記録, 短いアンケート)を用いて, 個人デバイスによる深層学習モデルを構築することである。 この研究の目新しさは、音声録音から新型コロナウイルス患者を識別するためのディープラーニングモデルの開発にある。 方法: COVID-19 Soundsアプリを使用した4352人の参加者からクラウドソースされた853のオーディオサンプルからなるケンブリッジ大学のデータセットを使用しました。 メルスペクトログラム分析を用いて音声特徴抽出を行った。 音声データに基づいて,陽性症例を検出する深層学習分類モデルを開発した。 これらのモデルにはLong-Short Term Memory (LSTM)とConvolutional Neural Network (CNN)が含まれる。 その予測能力とベースライン分類モデル(ロジスティック回帰とサポートベクターマシン)を比較した。 結果:メル周波数ケプストラム係数(mfcc)の特徴に基づくlstmは,感度89%,特異性89%,特異性89%の最高精度(89%)を達成した。 結論:ディープラーニングは、有望な結果をもたらす新型コロナウイルス患者の声の微妙な変化を検出することができる。 このモデルは、現在の検査技術に加えて、簡単な音声分析による新型コロナウイルスの迅速診断と追跡に役立つかもしれない。

COVID-19 has affected more than 223 countries worldwide. There is a pressing need for non invasive, low costs and highly scalable solutions to detect COVID-19, especially in low-resource countries where PCR testing is not ubiquitously available. Our aim is to develop a deep learning model identifying COVID-19 using voice data recordings spontaneously provided by the general population (voice recordings and a short questionnaire) via their personal devices. The novelty of this work is in the development of a deep learning model for the identification of COVID-19 patients from voice recordings. Methods: We used the Cambridge University dataset consisting of 893 audio samples, crowd-sourced from 4352 participants that used a COVID-19 Sounds app. Voice features were extracted using a Mel-spectrogram analysis. Based on the voice data, we developed deep learning classification models to detect positive COVID-19 cases. These models included Long-Short Term Memory (LSTM) and Convolutional Neural Network (CNN). We compared their predictive power to baseline classification models, namely Logistic Regression and Support Vector Machine. Results: LSTM based on a Mel-frequency cepstral coefficients (MFCC) features achieved the highest accuracy (89%,) with a sensitivity and specificity of respectively 89% and 89%, The results achieved with the proposed model suggest a significant improvement in the prediction accuracy of COVID-19 diagnosis compared to the results obtained in the state of the art. Conclusion: Deep learning can detect subtle changes in the voice of COVID-19 patients with promising results. As an addition to the current testing techniques this model may aid health professionals in fast diagnosis and tracing of COVID-19 cases using simple voice analysis
翻訳日:2022-09-09 13:41:35 公開日:2022-09-08
# データセットサイズと長期ECoGベースのBCI利用がディープラーニングデコーダの性能に及ぼす影響

Impact of dataset size and long-term ECoG-based BCI usage on deep learning decoders performance ( http://arxiv.org/abs/2209.03789v1 )

ライセンス: Link先を確認
Maciej \'Sliwowski, Matthieu Martin, Antoine Souloumiac, Pierre Blanchart, Tetiana Aksenova(参考訳) 脳-コンピュータインターフェース(BCI)の研究では、記録データには時間と費用がかかり、大きなデータセットへのアクセスが制限される。 これは機械学習手法がトレーニングデータセットのサイズに強く依存するため、BCIシステムのパフォーマンスに影響を与える可能性がある。 ニューロンの信号特性(例えば、非定常性)を考慮して、デコーダを訓練するためにより多くのデータで高いデコード性能を達成できるか? 長期bci研究における時間的改善の展望 本研究では,長期記録が運動画像復号化に与える影響を,データセットサイズに関するモデル要件と患者適応の可能性の2点から検討した。 長期bciおよびtetraplegia nct02550522臨床試験データセットにおいて,4麻痺患者で実施したecog記録43セッションを含むマルチリニアモデルと2つの深層学習モデルについて検討した。 実験では,運動画像パターンを用いた3次元仮想手話翻訳を行った。 モデルの性能と記録に影響する要因の関係を調べるため,トレーニングデータセットを増加あるいは変換した複数の計算実験を考案した。 分析の結果、トレーニングデータセットにデータを追加しても、信号の40分を含むデータセットのパフォーマンスはすぐには向上しないことが分かった。 dlデコーダは、マルチリニアモデルと比較してデータセットサイズに関する同様の要求を示し、高いデコーダ性能を示した。 さらに, 実験後, 比較的小さなデータセットを用いて高い復号性能が得られ, 運動像パターンの改善と患者適応が示唆された。 最後に,データ可視化とデータ品質評価のための方法として,umap埋め込みと局所内在次元を提案する。

In brain-computer interfaces (BCI) research, recording data is time-consuming and expensive, which limits access to big datasets. This may influence the BCI system performance as machine learning methods depend strongly on the training dataset size. Important questions arise: taking into account neuronal signal characteristics (e.g., non-stationarity), can we achieve higher decoding performance with more data to train decoders? What is the perspective for further improvement with time in the case of long-term BCI studies? In this study, we investigated the impact of long-term recordings on motor imagery decoding from two main perspectives: model requirements regarding dataset size and potential for patient adaptation. We evaluated the multilinear model and two deep learning (DL) models on a long-term BCI and Tetraplegia NCT02550522 clinical trial dataset containing 43 sessions of ECoG recordings performed with a tetraplegic patient. In the experiment, a participant executed 3D virtual hand translation using motor imagery patterns. We designed multiple computational experiments in which training datasets were increased or translated to investigate the relationship between models' performance and different factors influencing recordings. Our analysis showed that adding more data to the training dataset may not instantly increase performance for datasets already containing 40 minutes of the signal. DL decoders showed similar requirements regarding the dataset size compared to the multilinear model while demonstrating higher decoding performance. Moreover, high decoding performance was obtained with relatively small datasets recorded later in the experiment, suggesting motor imagery patterns improvement and patient adaptation. Finally, we proposed UMAP embeddings and local intrinsic dimensionality as a way to visualize the data and potentially evaluate data quality.
翻訳日:2022-09-09 13:41:11 公開日:2022-09-08
# 垂直フェデレーション学習におけるプライバシ利用トレードオフ評価の枠組み

A Framework for Evaluating Privacy-Utility Trade-off in Vertical Federated Learning ( http://arxiv.org/abs/2209.03885v1 )

ライセンス: Link先を確認
Yan Kang, Jiahuan Luo, Yuanqin He, Xiaojin Zhang, Lixin Fan, Qiang Yang(参考訳) フェデレーション学習(fl)は、ユーザのプライバシを損なうことなくデータサイロ問題に取り組むための実用的なソリューションとして登場した。 その変種の一つである垂直フェデレーション学習(vertical federated learning, vfl)が最近注目を集めている。vflは、ユーザのプライバシを維持しながら、より価値の高い機械学習モデルを構築するという、企業の要求に合致するものだ。 現在、vflは特定のvflアルゴリズムの特定の保護または攻撃機構の開発に集中している。 本稿では,プライバシ利用性評価問題を定式化する評価フレームワークを提案する。 次に、このフレームワークをガイドとして、3つの広くデプロイされたvflアルゴリズムの最先端プライバシ攻撃に対する幅広い保護メカニズムを包括的に評価する。 これらの評価は、特定の要求に応じて適切な保護機構を選択するのに役立つ。 モデルインバージョンとラベル推論攻撃の大部分は,既存の保護機構によって妨害される可能性がある。モデル補完攻撃(mc)は防止が困難であり,より高度なmc標的保護機構が要求される。 評価結果に基づき,vflシステムのプライバシ保護能力の向上に関する具体的なアドバイスを行う。

Federated learning (FL) has emerged as a practical solution to tackle data silo issues without compromising user privacy. One of its variants, vertical federated learning (VFL), has recently gained increasing attention as the VFL matches the enterprises' demands of leveraging more valuable features to build better machine learning models while preserving user privacy. Current works in VFL concentrate on developing a specific protection or attack mechanism for a particular VFL algorithm. In this work, we propose an evaluation framework that formulates the privacy-utility evaluation problem. We then use this framework as a guide to comprehensively evaluate a broad range of protection mechanisms against most of the state-of-the-art privacy attacks for three widely-deployed VFL algorithms. These evaluations may help FL practitioners select appropriate protection mechanisms given specific requirements. Our evaluation results demonstrate that: the model inversion and most of the label inference attacks can be thwarted by existing protection mechanisms; the model completion (MC) attack is difficult to be prevented, which calls for more advanced MC-targeted protection mechanisms. Based on our evaluation results, we offer concrete advice on improving the privacy-preserving capability of VFL systems.
翻訳日:2022-09-09 13:40:44 公開日:2022-09-08
# DIY-IPS:市販の正確な室内位置決めシステムを目指して

DIY-IPS: Towards an Off-the-Shelf Accurate Indoor Positioning System ( http://arxiv.org/abs/2209.03613v1 )

ライセンス: Link先を確認
Riccardo Menon, Abdallah Lakhdari, Amani Abusafia, Qijun He, Athman Bouguettaya(参考訳) DIY-IPS - Do It Yourself - Indoor Positioning Systemは、オープンソースのリアルタイム屋内位置決めモバイルアプリケーションである。 DIY-IPSは、利用可能なWiFiアクセスポイントの二重バンドRSSIフィンガープリントを用いて、ユーザの屋内位置を検出する。 アプリは、追加のインフラコストなしで、ユーザーの屋内位置をリアルタイムで検出するために使用できる。 私たちはこのアプリをオープンソースとして公開し、他の研究者がそれを再現する時間を節約しました。 本アプリは,(1)屋内位置決めデータセットを地中真理ラベルで収集し,(2)高い精度や他の研究目的のためにアプリをカスタマイズし,(3)地中真理でライブテストして修正方法の精度をテストする。 アプリの有効性を実証するために予備実験を行った。

We present DIY-IPS - Do It Yourself - Indoor Positioning System, an open-source real-time indoor positioning mobile application. DIY-IPS detects users' indoor position by employing dual-band RSSI fingerprinting of available WiFi access points. The app can be used, without additional infrastructural costs, to detect users' indoor positions in real time. We published our app as an open source to save other researchers time recreating it. The app enables researchers/users to (1) collect indoor positioning datasets with a ground truth label, (2) customize the app for higher accuracy or other research purposes (3) test the accuracy of modified methods by live testing with ground truth. We ran preliminary experiments to demonstrate the effectiveness of the app.
翻訳日:2022-09-09 13:37:46 公開日:2022-09-08
# 論文レコメンデーションのためのタグ対応文書表現

Tag-Aware Document Representation for Research Paper Recommendation ( http://arxiv.org/abs/2209.03660v1 )

ライセンス: Link先を確認
Hebatallah A. Mohamed, Giuseppe Sansonetti, Alessandro Micarelli(参考訳) 関心事に関するオンライン研究論文の発見は、出版物の増加により非常に困難である。 したがって、パーソナライズされた研究論文推薦は、重要かつタイムリーな研究テーマとなっている。 コラボレーティブフィルタリング(collaborative filtering)は、正確なレコメンデーションを行うための学習のための情報源として、ユーザがアイテムに与えた評価を活用する、レコメンデーションアプローチである。 しかし、毎年大量の出版物が増えているため、研究論文の分野のように評価は非常に低いことが多い。 そのため,評価とコンテンツ情報の両方を考慮したハイブリッド手法が注目されている。 それにもかかわらず、テキスト埋め込みに基づくハイブリッドレコメンデーションアプローチのほとんどが、単語の順序や意味を無視するbag-of-words技術を利用している。 本稿では,ユーザによって割り当てられたソーシャルタグに基づく研究論文の深い意味表現を利用するハイブリッド手法を提案する。 実験的な評価は、実際の公開データセットであるciteulike上で行われる。 その結果,評価データが極めて少ない場合でも,研究論文の推薦に有効なモデルであることが示唆された。

Finding online research papers relevant to one's interests is very challenging due to the increasing number of publications. Therefore, personalized research paper recommendation has become a significant and timely research topic. Collaborative filtering is a successful recommendation approach, which exploits the ratings given to items by users as a source of information for learning to make accurate recommendations. However, the ratings are often very sparse as in the research paper domain, due to the huge number of publications growing every year. Therefore, more attention has been drawn to hybrid methods that consider both ratings and content information. Nevertheless, most of the hybrid recommendation approaches that are based on text embedding have utilized bag-of-words techniques, which ignore word order and semantic meaning. In this paper, we propose a hybrid approach that leverages deep semantic representation of research papers based on social tags assigned by users. The experimental evaluation is performed on CiteULike, a real and publicly available dataset. The obtained findings show that the proposed model is effective in recommending research papers even when the rating data is very sparse.
翻訳日:2022-09-09 13:37:30 公開日:2022-09-08
# SE(3)-DiffusionFields: 拡散による関節握りと運動最適化のための学習コスト関数

SE(3)-DiffusionFields: Learning cost functions for joint grasp and motion optimization through diffusion ( http://arxiv.org/abs/2209.03855v1 )

ライセンス: Link先を確認
Julen Urain and Niklas Funk and Georgia Chalvatzaki and Jan Peters(参考訳) 多目的高次元運動最適化問題は、ロボット工学においてユビキタスであり、情報勾配の恩恵が大きい。 この目的のために、全てのコスト関数を微分可能とする。 拡散モデルとして,学習タスク空間,データ駆動コスト関数を提案する。 拡散モデルは表現的マルチモーダル分布を表し、空間全体に適切な勾配を示す。 これらの特性を,学習コスト関数と1つの目的関数に潜在的に学習あるいは手作業のコストを統合することで,運動最適化に活用する。 複雑な把握と運動計画問題の集合における共同最適化の利点を示し、動作最適化からグリップ選択を分離する階層的アプローチと比較する。

Multi-objective high-dimensional motion optimization problems are ubiquitous in robotics and highly benefit from informative gradients. To this end, we require all cost functions to be differentiable. We propose learning task-space, data-driven cost functions as diffusion models. Diffusion models represent expressive multimodal distributions and exhibit proper gradients over the entire space. We exploit these properties for motion optimization by integrating the learned cost functions with other potentially learned or hand-tuned costs in a single objective function and optimize all of them jointly by gradient descent. We showcase the benefits of joint optimization in a set of complex grasp and motion planning problems and compare against hierarchical approaches that decouple grasp selection from motion optimization.
翻訳日:2022-09-09 13:37:12 公開日:2022-09-08
# モノのインターネット利用のための血液値を用いた新型コロナウイルスの診断のための機械学習センサ

Machine Learning Sensors for Diagnosis of COVID-19 Disease Using Routine Blood Values for Internet of Things Application ( http://arxiv.org/abs/2209.03522v1 )

ライセンス: Link先を確認
Andrei Velichko, Mehmet Tahir Huyut, Maksim Belyaev, Yuriy Izotov and Dmitry Korzun(参考訳) 医療のデジタル化は、人間の身体の様々なパラメータが日々の生活の中で即時に監視され、モノのインターネット(IoT)に繋がるときに、人間の感覚学の効果的な方法が必要である。 特に、新型コロナウイルスの迅速な診断のための機械学習(ML)センサーは、医療とAAL(Ambient Assistance Living)におけるIoTアプリケーションにとって重要なケースである。 さまざまな診断検査や画像診断で感染状況を決定するには、費用と時間を要する。 本研究の目的は、入院時に測定したルーチン値(rbv)に基づいて、covid-19診断のための迅速で信頼性の高い経済的な代替ツールを提供することである。 この研究のデータセットは、陰性と陽性の検査結果が同じ数で5296人、定期的な血液値51人で構成されている。 本研究では,13種類の分類器機械学習モデルとlognnetニューラルネットワークモデルについて検討した。 病気の検出における時間と正確性の観点から最も成功した分類器モデルは、ヒストグラムに基づく勾配ブースティング (hgb) である。 HGB分類器は11つの重要な特徴(LDL, Cholesterol, HDL-C, MCHC, Triglyceride, Amylase, UA, LDH, CK-MB, ALP, MCH)を特定した。 さらに,本疾患の診断における特徴の1,2,3つの組み合わせの重要性について考察した。 我々は、これらの11の特徴とその組み合わせを、病気の診断においてMLセンサーの重要なバイオマーカーとして使用し、ArduinoおよびクラウドIoTサービス上でエッジコンピューティングをサポートすることを提案する。

Healthcare digitalization needs effective methods of human sensorics, when various parameters of the human body are instantly monitored in everyday life and connected to the Internet of Things (IoT). In particular, Machine Learning (ML) sensors for the prompt diagnosis of COVID-19 is an important case for IoT application in healthcare and Ambient Assistance Living (AAL). Determining the infected status of COVID-19 with various diagnostic tests and imaging results is costly and time-consuming. The aim of this study is to provide a fast, reliable and economical alternative tool for the diagnosis of COVID-19 based on the Routine Blood Values (RBV) values measured at admission. The dataset of the study consists of a total of 5296 patients with the same number of negative and positive COVID-19 test results and 51 routine blood values. In this study, 13 popular classifier machine learning models and LogNNet neural network model were exanimated. The most successful classifier model in terms of time and accuracy in the detection of the disease was the Histogram-based Gradient Boosting (HGB). The HGB classifier identified the 11 most important features (LDL, Cholesterol, HDL-C, MCHC, Triglyceride, Amylase, UA, LDH, CK-MB, ALP and MCH) to detect the disease with 100% accuracy, learning time 6.39 sec. In addition, the importance of single, double and triple combinations of these features in the diagnosis of the disease was discussed. We propose to use these 11 traits and their combinations as important biomarkers for ML sensors in diagnosis of the disease, supporting edge computing on Arduino and cloud IoT service.
翻訳日:2022-09-09 13:35:47 公開日:2022-09-08
# 深部ニューラル表現を用いた入射完全波形インバージョン

Implicit Full Waveform Inversion with Deep Neural Representation ( http://arxiv.org/abs/2209.03525v1 )

ライセンス: Link先を確認
Jian Sun and Kristopher Innanen(参考訳) フル波形インバージョン(fwi)は、一般に地下構造や物理パラメータをイメージングする最先端のアプローチを指すが、その実装は通常、局所的なミニマから逃れるために良い初期モデルを構築し、反転結果の不確実性を評価するなど、大きな課題に直面している。 本稿では,連続的かつ暗黙的に定義されたディープニューラル表現を用いたIFWIアルゴリズムを提案する。 初期モデルに敏感なfwiと比較して、ifwiは、ディープラーニング最適化による自由度の向上から、ランダムな初期化から始めることができるため、非自然性のリスクを大幅に低減し、局所的なミニマ(英語版)に閉じ込められる。 理論的および実験的解析は、ランダムな初期モデルが与えられた場合、IFWIは世界最小に収束し、微細な構造を持つ地下の高解像度画像を生成することができることを示している。 さらに,様々な深層学習手法を用いてベイズ推定を近似することにより,IFWIの不確実性解析を容易に行うことができる。 さらにIFWIは、様々な2次元地質モデルの実験で実証される、ある程度の堅牢性と強い一般化能力を持っている。 IFWIは適切な設定で、多スケールの共同物理インバージョンにも適している。

Full waveform inversion (FWI) commonly stands for the state-of-the-art approach for imaging subsurface structures and physical parameters, however, its implementation usually faces great challenges, such as building a good initial model to escape from local minima, and evaluating the uncertainty of inversion results. In this paper, we propose the implicit full waveform inversion (IFWI) algorithm using continuously and implicitly defined deep neural representations. Compared to FWI, which is sensitive to the initial model, IFWI benefits from the increased degrees of freedom with deep learning optimization, thus allowing to start from a random initialization, which greatly reduces the risk of non-uniqueness and being trapped in local minima. Both theoretical and experimental analyses indicates that, given a random initial model, IFWI is able to converge to the global minimum and produce a high-resolution image of subsurface with fine structures. In addition, uncertainty analysis of IFWI can be easily performed by approximating Bayesian inference with various deep learning approaches, which is analyzed in this paper by adding dropout neurons. Furthermore, IFWI has a certain degree of robustness and strong generalization ability that are exemplified in the experiments of various 2D geological models. With proper setup, IFWI can also be well suited for multi-scale joint geophysical inversion.
翻訳日:2022-09-09 13:35:19 公開日:2022-09-08
# 単一の360{\deg}画像からの塩分に基づく複数利子検出領域

Saliency-based Multiple Region of Interest Detection from a Single 360{\deg} image ( http://arxiv.org/abs/2209.03656v1 )

ライセンス: Link先を確認
Yuuki Sawabe, Satoshi Ikehata, Kiyoharu Aizawa(参考訳) 360{\deg}画像は、カメラ周辺の全方向の視覚情報を含んでいる。 しかし、360{\deg}画像をカバーする領域は人間の視野よりもはるかに大きいため、異なる視点における重要な情報は容易に見落としてしまう。 この問題に対処するために,視覚的サリエンシを手がかりとして,単一の360{\deg}画像から関心領域(RoI)の最適セットを予測する手法を提案する。 また,既存のsingle 360{\deg}画像サリエンシー予測データセットの希少で偏りの強いトレーニングデータに対処するために,球面ランダムデータ回転に基づくデータ拡張法を提案する。 予測された塩分濃度マップと冗長な候補領域から,地域内の塩分濃度と地域間の相互作用-Over-Union(IoU)を考慮したRoIsの最適セットを得る。 提案手法は,入力した360{\deg}画像を適切に要約する領域を選択できることを示すために主観評価を行う。

360{\deg} images are informative -- it contains omnidirectional visual information around the camera. However, the areas that cover a 360{\deg} image is much larger than the human's field of view, therefore important information in different view directions is easily overlooked. To tackle this issue, we propose a method for predicting the optimal set of Region of Interest (RoI) from a single 360{\deg} image using the visual saliency as a clue. To deal with the scarce, strongly biased training data of existing single 360{\deg} image saliency prediction dataset, we also propose a data augmentation method based on the spherical random data rotation. From the predicted saliency map and redundant candidate regions, we obtain the optimal set of RoIs considering both the saliency within a region and the Interaction-Over-Union (IoU) between regions. We conduct the subjective evaluation to show that the proposed method can select regions that properly summarize the input 360{\deg} image.
翻訳日:2022-09-09 13:32:39 公開日:2022-09-08
# R$3$LIVE++: 密結合したLiDAR-Inertial-Visual State Estimatorを備えたロバストでリアルタイムな放射率再構成パッケージ

R$^3$LIVE++: A Robust, Real-time, Radiance reconstruction package with a tightly-coupled LiDAR-Inertial-Visual state Estimator ( http://arxiv.org/abs/2209.03666v1 )

ライセンス: Link先を確認
Jiarong Lin and Fu Zhang(参考訳) 同時ローカライゼーションとマッピング(SLAM)は、自律ロボット(例えば、自動運転車、無人ドローン)、3Dマッピングシステム、AR/VRアプリケーションに不可欠である。 この研究は、r$^3$live++と呼ばれる新しいlidar-inertial-visual fusionフレームワークを提案し、ラミアンスマップをオンザフライで再構築しながら、ロバストで正確な状態推定を可能にした。 R$3$LIVE++はLIO(LiDAR-inertial odometry)とVIO(visual-inertial odometry)で構成される。 LIOサブシステムは、LiDARからの計測を利用して幾何学構造(すなわち3Dポイントの位置)を再構成し、VIOサブシステムは入力画像から幾何学構造の放射情報を同時に復元する。 r$^3$live++ は r$^3$live に基づいて開発され、カメラの測光キャリブレーション(非線形応答関数やレンズの移動など)とオンラインのカメラ露光時間の推定を考慮し、ローカライゼーションとマッピングの精度をさらに向上させる。 提案するシステムを他の最先端slamシステムと比較するために、パブリックデータセットとプライベートデータセットの両方でより広範な実験を行います。 定量的・定性的な結果から,本システムは他のシステムに比べて精度と頑健性の両方において有意な改善が得られた。 さらに,本研究の拡張性を示すために,高ダイナミックレンジ(HDR)イメージング,仮想環境探索,3Dビデオゲームなど,再構成された放射率マップに基づくいくつかのアプリケーションを開発した。 最後に、私たちの調査結果を共有し、コミュニティに貢献するために、コード、ハードウェア設計、データセットをgithub.com/hku-mars/r3live.comで公開しています。

Simultaneous localization and mapping (SLAM) are crucial for autonomous robots (e.g., self-driving cars, autonomous drones), 3D mapping systems, and AR/VR applications. This work proposed a novel LiDAR-inertial-visual fusion framework termed R$^3$LIVE++ to achieve robust and accurate state estimation while simultaneously reconstructing the radiance map on the fly. R$^3$LIVE++ consists of a LiDAR-inertial odometry (LIO) and a visual-inertial odometry (VIO), both running in real-time. The LIO subsystem utilizes the measurements from a LiDAR for reconstructing the geometric structure (i.e., the positions of 3D points), while the VIO subsystem simultaneously recovers the radiance information of the geometric structure from the input images. R$^3$LIVE++ is developed based on R$^3$LIVE and further improves the accuracy in localization and mapping by accounting for the camera photometric calibration (e.g., non-linear response function and lens vignetting) and the online estimation of camera exposure time. We conduct more extensive experiments on both public and our private datasets to compare our proposed system against other state-of-the-art SLAM systems. Quantitative and qualitative results show that our proposed system has significant improvements over others in both accuracy and robustness. In addition, to demonstrate the extendability of our work, {we developed several applications based on our reconstructed radiance maps, such as high dynamic range (HDR) imaging, virtual environment exploration, and 3D video gaming.} Lastly, to share our findings and make contributions to the community, we make our codes, hardware design, and dataset publicly available on our Github: github.com/hku-mars/r3live
翻訳日:2022-09-09 13:32:21 公開日:2022-09-08
# 何を聞いたんだ? ニューラルネットワークを用いた成人ビデオのポルノ音検出

What Did I Just Hear? Detecting Pornographic Sounds in Adult Videos Using Neural Networks ( http://arxiv.org/abs/2209.03711v1 )

ライセンス: Link先を確認
Holy Lovenia, Dessi Puji Lestari, Rita Frieske(参考訳) オーディオベースのポルノ検出は、異なるスペクトル特性を生かしてパフォーマンスを犠牲にすることなく、効率的な成人コンテンツフィルタリングを可能にする。 そこで我々は,異なるニューラルアーキテクチャと音響特性に基づくポルノサウンドモデリングについて検討する。 ログメルスペクトログラムで訓練されたcnnは、ポルノグラフィ800データセットで最高のパフォーマンスを達成している。 実験の結果,log mel spectrogram により,モデルがポルノ音を認識できるようにした。 最後に、セグメントではなく全音声波形を分類するために、最適な音声レベルの検出結果を得る投票セグメント・トゥ・オーディオ方式を用いる。

Audio-based pornographic detection enables efficient adult content filtering without sacrificing performance by exploiting distinct spectral characteristics. To improve it, we explore pornographic sound modeling based on different neural architectures and acoustic features. We find that CNN trained on log mel spectrogram achieves the best performance on Pornography-800 dataset. Our experiment results also show that log mel spectrogram allows better representations for the models to recognize pornographic sounds. Finally, to classify whole audio waveforms rather than segments, we employ voting segment-to-audio technique that yields the best audio-level detection results.
翻訳日:2022-09-09 13:31:21 公開日:2022-09-08
# 組織知識管理システムにおける専門家の自動特定と人材推薦の倫理的・社会的考察

Ethical and Social Considerations in Automatic Expert Identification and People Recommendation in Organizational Knowledge Management Systems ( http://arxiv.org/abs/2209.03819v1 )

ライセンス: Link先を確認
Ida Larsen-Ledet, Bhaskar Mitra and Si\^an Lindley(参考訳) 組織の知識基盤は、パッシブアーカイブから、人々の仕事の流れの中でアクティブなエンティティへと移行しています。 機械学習は、人々が働いているときに情報を収集し、表面表示するシステムを可能にするために使われており、特定のトピックについて専門家を自動的に識別し、ハイライトするために、これまで目立たなかった人とコンテンツの間につながりをもたらすことができる。 こうした知識基盤が人々や彼らが取り組んでいるコンテンツに積極的に注意を向け始めたとき、特にその作業が進行中であるため、私たちは仕事と社会の交点において重要な課題に遭遇します。 そのようなシステムは、人々の仕事の特定の部分がより生産的あるいは楽しめる可能性があるが、例えば、他の人が手を差し伸べる専門家の役割として、新たなワークロードを導入することもできる。 そして、これらの知識基盤は、仕事のどの部分が見えるかを変え、それ故に認識することで、大きな社会的影響をもたらす可能性がある。 業界や学界に注目とエンゲージメントを保証してくれるオープンな質問がいくつもあります。 これらの疑問に取り組むことは、仕事の未来が仕事を行う人々にとって良い未来になるための重要なステップです。 本稿では,社会価値を尊重するレコメンデーションシステムを開発するという課題に取り組むためには,学際横断的な議論が必要であると考えている。

Organizational knowledge bases are moving from passive archives to active entities in the flow of people's work. We are seeing machine learning used to enable systems that both collect and surface information as people are working, making it possible to bring out connections between people and content that were previously much less visible in order to automatically identify and highlight experts on a given topic. When these knowledge bases begin to actively bring attention to people and the content they work on, especially as that work is still ongoing, we run into important challenges at the intersection of work and the social. While such systems have the potential to make certain parts of people's work more productive or enjoyable, they may also introduce new workloads, for instance by putting people in the role of experts for others to reach out to. And these knowledge bases can also have profound social consequences by changing what parts of work are visible and, therefore, acknowledged. We pose a number of open questions that warrant attention and engagement across industry and academia. Addressing these questions is an essential step in ensuring that the future of work becomes a good future for those doing the work. With this position paper, we wish to enter into the cross-disciplinary discussion we believe is required to tackle the challenge of developing recommender systems that respect social values.
翻訳日:2022-09-09 13:31:12 公開日:2022-09-08
# 自由生活音声によるうつ病重症度評価のためのdyadic interaction assessment

Dyadic Interaction Assessment from Free-living Audio for Depression Severity Assessment ( http://arxiv.org/abs/2209.03901v1 )

ライセンス: Link先を確認
Bishal Lamichhane, Nidal Moukaddam, Ankit B. Patel, Ashutosh Sabharwal(参考訳) 抑うつ症における精神運動遅滞は、dyadic clinical interviewsの発話タイミング変化と関連している。 本研究では,自由生活型ディヤド相互作用を用いた発話タイミングの特徴について検討する。 臨床訪問を補完する継続的モニタリングの可能性とは別に、自由生活状態の研究によって、うつ病に関係したdyadic相互作用頻度のようなソシビリティの特徴を推測することも可能である。 話者数推定器を89.5%の特異度と86.1%の感度でダイアディック相互作用検出器として適用した。 この検出器を用いて,健常者13名,抑うつ者11名,精神障害者8名からなる複数日間の音声録音において,検出されたダイアド相互作用から発話タイミングの特徴を抽出した。 うつ病の発症頻度はうつ病重症度とともに上昇し,うつ病発症の診断マーカーとなる可能性が示唆された。 しかし,中等度または重度うつ病患者ではうつ病重症度の増加とともにdyadic相互作用頻度は低下した。 発声タイミングの特徴としては, 応答時間はうつ病重症度と有意な正の相関を示した。 本研究は,自由生活の音声記録からdyadicインタラクション分析の可能性を示し,うつ病の指標を得る。

Psychomotor retardation in depression has been associated with speech timing changes from dyadic clinical interviews. In this work, we investigate speech timing features from free-living dyadic interactions. Apart from the possibility of continuous monitoring to complement clinical visits, a study in free-living conditions would also allow inferring sociability features such as dyadic interaction frequency implicated in depression. We adapted a speaker count estimator as a dyadic interaction detector with a specificity of 89.5% and a sensitivity of 86.1% in the DIHARD dataset. Using the detector, we obtained speech timing features from the detected dyadic interactions in multi-day audio recordings of 32 participants comprised of 13 healthy individuals, 11 individuals with depression, and 8 individuals with psychotic disorders. The dyadic interaction frequency increased with depression severity in participants with no or mild depression, indicating a potential diagnostic marker of depression onset. However, the dyadic interaction frequency decreased with increasing depression severity for participants with moderate or severe depression. In terms of speech timing features, the response time had a significant positive correlation with depression severity. Our work shows the potential of dyadic interaction analysis from audio recordings of free-living to obtain markers of depression severity.
翻訳日:2022-09-09 13:30:50 公開日:2022-09-08
# 私たちが保持している会社で知られている:社会関係における互換性の代理人としての「トリアド・インフルエンス」

Known by the company we keep: `Triadic influence' as a proxy for compatibility in social relationships ( http://arxiv.org/abs/2209.03683v1 )

ライセンス: Link先を確認
Miguel Ru\'iz-Garc\'ia, Juan Ozaita, Mar\'ia Pereda, Antonio Alfonso, Pablo Bra\~nas-Garza. Jose A. Cuesta and \'Angel S\'anchez(参考訳) 社会的相互作用のネットワークは文明が構築される基盤である。 多くの場合、私たちは、第三者の介入によって関係が損なわれていると感じている人々と新しい債券を作ります。 その重要性と、これらのプロセスが私たちの生活に与えた大きな影響にもかかわらず、その定量的科学的理解は、主に個々の属性を含むソーシャルネットワークの大規模なデータセットの収集が困難であるため、まだ初期段階にある。 本研究は,13校の実際の社会ネットワークを徹底的に調査し,学生3,000名以上の学生と6万人が肯定的かつ否定的な関係を宣言し,学生全員の個人的特性の検証を行った。 我々は,接点関係における最寄りの接点の影響を測定する尺度である「トリアード・インフルエンス」を導入する。 ニューラルネットワークを用いて関係を予測し、2人の学生が友人あるいは敵である確率を個人的属性や三角的影響に応じて抽出する。 代わりに、ネットワーク構造の高次元埋め込みを用いて関係を予測します。 驚くべきことに、三進的影響(単純な1次元の計量)は、2人の学生間の関係を予測する上で最も高い精度を達成する。 我々は、ニューラルネットワークから抽出された確率(三進的影響の機能と学生の個性)が、実際のソーシャルネットワークの進化を制御し、これらのシステムの定量的研究のための新たな道を開くことを仮定する。

Networks of social interactions are the substrate upon which civilizations are built. Often, we create new bonds with people that we like or feel that our relationships are damaged through the intervention of third parties. Despite their importance and the huge impact that these processes have in our lives, quantitative scientific understanding of them is still in its infancy, mainly due to the difficulty of collecting large datasets of social networks including individual attributes. In this work, we present a thorough study of real social networks of 13 schools, with more than 3,000 students and 60,000 declared positive and negative relations, including tests for personal traits of all the students. We introduce a metric -- the `triadic influence' -- that measures the influence of nearest-neighbors in the relationships of their contacts. We use neural networks to predict the relationships and to extract the probability that two students are friends or enemies depending on their personal attributes or the triadic influence. We alternatively use a high-dimensional embedding of the network structure to also predict the relationships. Remarkably, the triadic influence (a simple one-dimensional metric) achieves the highest accuracy at predicting the relationship between two students. We postulate that the probabilities extracted from the neural networks -- functions of the triadic influence and the personalities of the students -- control the evolution of real social networks, opening a new avenue for the quantitative study of these systems.
翻訳日:2022-09-09 13:30:28 公開日:2022-09-08
# 二重Q-Learningによる自然災害時の市民移住

Double Q-Learning for Citizen Relocation During Natural Hazards ( http://arxiv.org/abs/2209.03800v1 )

ライセンス: Link先を確認
Alysson Ribeiro da Silva(参考訳) 自然災害は、死亡率、転職率、復興の決定により、世界中の社会経済に重大な悪影響を及ぼす可能性がある。 ロボット工学は自然災害発生時の被害者の特定と救助に成功している。 しかし、自律ロボットは、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるようなソリューションを展開するための努力はほとんど行われていない。 強化学習アプローチはそのようなソリューションのデプロイに使用することができるが、そのデプロイで最も有名なアルゴリズムのひとつであるQラーニングは、学習ルーチンの実行時に発生するバイアスのある結果に悩まされている。 本研究は, 自然災害時の住民移動における二重Q-ラーニングの能力を, グリッド世界に基づくリスクシミュレーションエンジンにより評価する, 部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用するものである。 結果から,簡単なシナリオでは100%以上,ハードシナリオでは50%近い性能を示すことがわかった。

Natural disasters can cause substantial negative socio-economic impacts around the world, due to mortality, relocation, rates, and reconstruction decisions. Robotics has been successfully applied to identify and rescue victims during the occurrence of a natural hazard. However, little effort has been taken to deploy solutions where an autonomous robot can save the life of a citizen by itself relocating it, without the need to wait for a rescue team composed of humans. Reinforcement learning approaches can be used to deploy such a solution, however, one of the most famous algorithms to deploy it, the Q-learning, suffers from biased results generated when performing its learning routines. In this research a solution for citizen relocation based on Partially Observable Markov Decision Processes is adopted, where the capability of the Double Q-learning in relocating citizens during a natural hazard is evaluated under a proposed hazard simulation engine based on a grid world. The performance of the solution was measured as a success rate of a citizen relocation procedure, where the results show that the technique portrays a performance above 100% for easy scenarios and near 50% for hard ones.
翻訳日:2022-09-09 13:26:38 公開日:2022-09-08
# 翻訳の損失:教育における機械学習のライフサイクルを再考する

Lost in Translation: Reimagining the Machine Learning Life Cycle in Education ( http://arxiv.org/abs/2209.03929v1 )

ライセンス: Link先を確認
Lydia T. Liu, Serena Wang, Tolani Britton, Rediet Abebe(参考訳) 機械学習(ml)技術は、学生の退学予測への利用から大学入学の補助、moocの台頭の促進に至るまで、教育においてますます普及している。 これらの新規利用の急速な成長を考えると、ML技術が長年の教育原則や目標をどのように支えているかを調べる必要がある。 本研究では,教育専門家へのインタビューから得られた質的な洞察をもとに,この複雑な景観を考察した。 これらのインタビューは、過去10年間に行われたML for Education(ML4Ed)の論文の詳細な評価で構成されている。 我々の中心的な研究目標は、これらの論文の述べられた教育や社会的目的が、彼らが取り組んだML問題とどのように一致しているかを批判的に検証することである。 すなわち、技術的課題の定式化、目的、アプローチ、そして結果の解釈が、目の前の教育問題とどの程度一致しているかである。 学際的なギャップが存在し、特にMLライフサイクルの2つの部分には、教育目標からのML問題の定式化と介入への予測の翻訳がある。 これらの知見を用いて拡張MLライフサイクルを提案し、他のドメインでのMLの使用にも適用できるかもしれない。 我々の研究は、教育やML研究におけるメタ分析研究の増加と、MLの社会的影響の批判的分析に結びついている。 具体的には、機械学習の一般的な技術的理解と、学生や政策に携わる教育研究者の視点とのギャップを埋める。

Machine learning (ML) techniques are increasingly prevalent in education, from their use in predicting student dropout, to assisting in university admissions, and facilitating the rise of MOOCs. Given the rapid growth of these novel uses, there is a pressing need to investigate how ML techniques support long-standing education principles and goals. In this work, we shed light on this complex landscape drawing on qualitative insights from interviews with education experts. These interviews comprise in-depth evaluations of ML for education (ML4Ed) papers published in preeminent applied ML conferences over the past decade. Our central research goal is to critically examine how the stated or implied education and societal objectives of these papers are aligned with the ML problems they tackle. That is, to what extent does the technical problem formulation, objectives, approach, and interpretation of results align with the education problem at hand. We find that a cross-disciplinary gap exists and is particularly salient in two parts of the ML life cycle: the formulation of an ML problem from education goals and the translation of predictions to interventions. We use these insights to propose an extended ML life cycle, which may also apply to the use of ML in other domains. Our work joins a growing number of meta-analytical studies across education and ML research, as well as critical analyses of the societal impact of ML. Specifically, it fills a gap between the prevailing technical understanding of machine learning and the perspective of education researchers working with students and in policy.
翻訳日:2022-09-09 13:26:18 公開日:2022-09-08
# アドホックな人間-機械チームにおける説明可能なAIの有用性

The Utility of Explainable AI in Ad Hoc Human-Machine Teaming ( http://arxiv.org/abs/2209.03943v1 )

ライセンス: Link先を確認
Rohan Paleja, Muyleng Ghuy, Nadun Ranawaka Arachchige, Reed Jensen, and Matthew Gombolay(参考訳) 機械学習の最近の進歩は、人間が機械学習モデルの意思決定に関する洞察を得ることを可能にするために、説明可能なAI(xAI)への関心が高まっている。 この最近の関心にもかかわらず、xAI技術の有用性は人間と機械のチームではまだ特徴付けられていない。 重要なことは、xAIはチーム状況認識(SA)を強化し、効果的なヒューマンマシンチームの重要な特徴である共有メンタルモデル開発を提供する。 このような精神モデルの開発は、エージェントが他人の意思決定戦略の事前知識を持たないアドホックな人間-機械チームにおいて特に重要である。 本稿では, xAI 技術を人間と機械の組立シナリオに展開することの利点を定量化する新しい2つの実験について述べる。 まず、xAI技術がSA(p<0.05)$をサポートできることを示します。 第2に,協調型aiポリシ抽象化によって誘導されるsaレベルの違いが,アドホックなヒューマンマシンチームのパフォーマンスにどのように影響するかを検討する。 重要なことに、xAIの利点は、人間-機械チームの構成に強く依存しているため、普遍的ではない。 初心者は、SA(p<0.05$)の増加による恩恵を受けるが、認知的オーバーヘッド(p<0.05$)の影響を受けやすい。 一方、エキスパートパフォーマンスは、xAIベースのサポートを追加することで劣化し(p<0.05$)、xAIに注意を払うコストは、SAを強化するための追加情報を提供することで得られる利益よりも高いことを示している。 この結果から,人間と機械のチーム構成を慎重に検討し,適切なシナリオで適切なxAI手法を意図的に設計し,展開する必要があることが示唆された。

Recent advances in machine learning have led to growing interest in Explainable AI (xAI) to enable humans to gain insight into the decision-making of machine learning models. Despite this recent interest, the utility of xAI techniques has not yet been characterized in human-machine teaming. Importantly, xAI offers the promise of enhancing team situational awareness (SA) and shared mental model development, which are the key characteristics of effective human-machine teams. Rapidly developing such mental models is especially critical in ad hoc human-machine teaming, where agents do not have a priori knowledge of others' decision-making strategies. In this paper, we present two novel human-subject experiments quantifying the benefits of deploying xAI techniques within a human-machine teaming scenario. First, we show that xAI techniques can support SA ($p<0.05)$. Second, we examine how different SA levels induced via a collaborative AI policy abstraction affect ad hoc human-machine teaming performance. Importantly, we find that the benefits of xAI are not universal, as there is a strong dependence on the composition of the human-machine team. Novices benefit from xAI providing increased SA ($p<0.05$) but are susceptible to cognitive overhead ($p<0.05$). On the other hand, expert performance degrades with the addition of xAI-based support ($p<0.05$), indicating that the cost of paying attention to the xAI outweighs the benefits obtained from being provided additional information to enhance SA. Our results demonstrate that researchers must deliberately design and deploy the right xAI techniques in the right scenario by carefully considering human-machine team composition and how the xAI method augments SA.
翻訳日:2022-09-09 13:25:53 公開日:2022-09-08
# 一様設計に基づくモデルフリーサブサンプリング法

Model-free Subsampling Method Based on Uniform Designs ( http://arxiv.org/abs/2209.03617v1 )

ライセンス: Link先を確認
Mei Zhang, Yongdao Zhou, Zheng Zhou, Aijun Zhang(参考訳) サブサンプリングまたはサブデータ選択は、大規模統計学習において有用なアプローチである。 既存の研究の多くは、モデルの仮定に大きく依存するモデルベースのサブサンプリング手法に焦点を当てている。 本稿では,元のフルデータからサブデータを生成するためのモデルフリーのサブサンプリング戦略について検討する。 原データに対するサブデータの表現の良し悪しを計測するために、基準、一般化された経験的f-離散性(gefd)を提案し、その理論的性質を一様設計の理論における古典的な一般化されたl2-離散性と関連づけて研究する。 これらの特性により,既存の一様設計に基づく低GEFDデータ駆動サブサンプリング手法の開発が可能となる。 シミュレーション例と実ケーススタディにより,提案手法がランダムサンプリング法よりも優れていることを示す。 さらに,本手法は様々なモデル仕様の下で頑健であり,他の一般的なサブサンプリング手法では性能が低い。 実際、このようなモデルフリーな特性はモデルベースのサブサンプリング法よりも魅力的であり、シミュレーション研究で示されているように、モデルが不特定の場合に性能が低下する可能性がある。

Subsampling or subdata selection is a useful approach in large-scale statistical learning. Most existing studies focus on model-based subsampling methods which significantly depend on the model assumption. In this paper, we consider the model-free subsampling strategy for generating subdata from the original full data. In order to measure the goodness of representation of a subdata with respect to the original data, we propose a criterion, generalized empirical F-discrepancy (GEFD), and study its theoretical properties in connection with the classical generalized L2-discrepancy in the theory of uniform designs. These properties allow us to develop a kind of low-GEFD data-driven subsampling method based on the existing uniform designs. By simulation examples and a real case study, we show that the proposed subsampling method is superior to the random sampling method. Moreover, our method keeps robust under diverse model specifications while other popular subsampling methods are under-performing. In practice, such a model-free property is more appealing than the model-based subsampling methods, where the latter may have poor performance when the model is misspecified, as demonstrated in our simulation studies.
翻訳日:2022-09-09 13:25:23 公開日:2022-09-08
# 量子スパース符号化

Quantum Sparse Coding ( http://arxiv.org/abs/2209.03788v1 )

ライセンス: Link先を確認
Yaniv Romano, Harel Primack, Talya Vaknin, Idan Meirzada, Ilan Karpas, Dov Furman, Chene Tradonsky, Ruti Ben Shlomi(参考訳) スパース符号法の最終目標は、未知のスパースベクトルである数個の雑音線形測定から正確に回復することである。 残念なことに、この推定問題は一般にNPハードであるため、ラッソや直交マッチング探索のような近似法で常にアプローチされ、計算複雑性の低減のために精度のトレードオフが行われる。 本稿では,量子コンピュータとIsingマシンの出現が,従来の近似法よりも正確な推定に繋がる可能性を前提として,スパース符号化のための量子インスピレーション付きアルゴリズムを開発する。 この目的のために、最も一般的なスパース符号化問題を量子技術を用いて効率的に最小化できる二次二分最適化(qubo)タスクとして定式化する。 スピンの数(空間複雑性)の観点からも効率的であるQUBOモデルを導出するために、我々は分析を3つの異なるシナリオに分けた。 これらは、下層のスパースベクトルを表すのに必要なビット数(バイナリ、2ビット、一般的な固定点表現)で定義される。 我々は、LightSolverの量子インスパイアされたデジタルプラットフォーム上のシミュレーションデータを用いて数値実験を行い、QUBO定式化の正しさを検証し、ベースライン法よりも有利であることを示す。

The ultimate goal of any sparse coding method is to accurately recover from a few noisy linear measurements, an unknown sparse vector. Unfortunately, this estimation problem is NP-hard in general, and it is therefore always approached with an approximation method, such as lasso or orthogonal matching pursuit, thus trading off accuracy for less computational complexity. In this paper, we develop a quantum-inspired algorithm for sparse coding, with the premise that the emergence of quantum computers and Ising machines can potentially lead to more accurate estimations compared to classical approximation methods. To this end, we formulate the most general sparse coding problem as a quadratic unconstrained binary optimization (QUBO) task, which can be efficiently minimized using quantum technology. To derive at a QUBO model that is also efficient in terms of the number of spins (space complexity), we separate our analysis into three different scenarios. These are defined by the number of bits required to express the underlying sparse vector: binary, 2-bit, and a general fixed-point representation. We conduct numerical experiments with simulated data on LightSolver's quantum-inspired digital platform to verify the correctness of our QUBO formulation and to demonstrate its advantage over baseline methods.
翻訳日:2022-09-09 13:25:07 公開日:2022-09-08
# インド文脈におけるアクセント付き音声認識

Accented Speech Recognition under the Indian context ( http://arxiv.org/abs/2209.03787v1 )

ライセンス: Link先を確認
Ankit Grover(参考訳) アクセントは文化、感情、行動などを特定する上で不可欠な部分を形成する。 人々はしばしば、アクセントによって異なる方法でお互いを知覚する。 アクセントそのものは、ステータス、プライド、その他の感情情報のコンベヤーであり、スピーチ自体を通じて捉えることができる。 アクセントそのものは、「特定の地域、国、社会集団の人々が単語を発音する方法」あるいは「音節、文中の単語、音符の集合における音節に特別に強調される方法」と定義できる。 アクセント付き音声認識は音声認識の分野で最も重要な問題の一つである。 音声認識はコンピュータ科学と言語学の研究の学際的なサブフィールドであり、主な目的は音声をテキストに変換する技術を開発することである。 音声は、読み上げ音声や自発音声、会話音声などのあらゆる形態でもよい。 テキストとは異なり、スピーチは多種多様である。 この多様性は、環境条件、話者から話者への変動、チャネルノイズ、障害による音声生成の違い、不均一性などに起因する。 したがって、スピーチは実際に悪用されるのを待っている豊富な情報ソースである。

Accent forms an integral part of identifying cultures, emotions,behavior's, etc. People often perceive each other in a different manner due to their accent. The accent itself can be a conveyor of status, pride, and other emotional information which can be captured through Speech itself. Accent itself can be defined as: "the way in which people in a particular area, country, or social group pronounce words" or "a special emphasis given to a syllable in a word, word in a sentence, or note in a set of musical notes". Accented Speech Recognition is one the most important problems in the domain of Speech Recognition. Speech recognition is an interdisciplinary sub-field of Computer Science and Linguistics research where the main aim is to develop technologies which enable conversion of speech into text. The speech can be of any form such as read speech or spontaneous speech, conversational speech. Speech unlike text has lot of diversity. This diversity stems from the environmental conditions, variabilities from speaker to speaker, channel noise, differences in Speech production due to disabilities, presence of disfluencies. Speech therefore is indeed a rich source of information waiting to be exploited.
翻訳日:2022-09-09 13:24:43 公開日:2022-09-08
# 電子部品のRGB-X分類

RGB-X Classification for Electronics Sorting ( http://arxiv.org/abs/2209.03509v1 )

ライセンス: Link先を確認
FNU Abhimanyu, Tejas Zodage, Umesh Thillaivasan, Xinyue Lai, Rahul Chakwate, Javier Santillan, Emma Oti, Ming Zhao, Ralph Boirum, Howie Choset, Matthew Travers(参考訳) 廃棄物の電気・電子機器(WEEE)から物質を効果的に分解・回収することは, 炭素集約・採掘物質から再生・再生物質へグローバルサプライチェーンを移動させる重要なステップである。 従来のリサイクルプロセスは, 廃棄物の細断処理や分別処理に頼っているが, 多数の異種材料からなるWEEEでは, 材料回収の改善を目的とした多数の対象物の解体を検討中である。 多くのweeeオブジェクトは、多くの重要な特徴を共有しており、非常によく似ているように見えるが、材料構成や内部コンポーネントのレイアウトは異なるため、正確な材料分離とリカバリのために、後の分解ステップの正確な分類器を持つことが重要である。 マルチモーダル画像分類手法であるRGB-Xを導入し、X線画像から生成された画像と外部RGB画像からの重要な特徴を利用して電子オブジェクトを正確に分類する。 より具体的には、Iterative Class Activation Mapping (iCAM) は、電子オブジェクトの正確な分類に必要なマルチモーダル特徴写像の細部を明示的に重視する、新しいネットワークアーキテクチャである。 分類器を訓練するために、電子オブジェクトは費用と専門家の指導を必要とするため、大きくて注釈の付いたX線データセットを欠いている。 本稿では,x線領域に適用される領域ランダム化を用いた合成データセットの作成法を提案する。 組み合わせたRGB-Xアプローチでは、10世代のスマートフォンで98.6%の精度が得られ、これは個々のアキュラシーの89.1%(RGB)と97.9%(X線)より大きい。 実験結果3は結果の相関を示す。

Effectively disassembling and recovering materials from waste electrical and electronic equipment (WEEE) is a critical step in moving global supply chains from carbon-intensive, mined materials to recycled and renewable ones. Conventional recycling processes rely on shredding and sorting waste streams, but for WEEE, which is comprised of numerous dissimilar materials, we explore targeted disassembly of numerous objects for improved material recovery. Many WEEE objects share many key features and therefore can look quite similar, but their material composition and internal component layout can vary, and thus it is critical to have an accurate classifier for subsequent disassembly steps for accurate material separation and recovery. This work introduces RGB-X, a multi-modal image classification approach, that utilizes key features from external RGB images with those generated from X-ray images to accurately classify electronic objects. More specifically, this work develops Iterative Class Activation Mapping (iCAM), a novel network architecture that explicitly focuses on the finer-details in the multi-modal feature maps that are needed for accurate electronic object classification. In order to train a classifier, electronic objects lack large and well annotated X-ray datasets due to expense and need of expert guidance. To overcome this issue, we present a novel way of creating a synthetic dataset using domain randomization applied to the X-ray domain. The combined RGB-X approach gives us an accuracy of 98.6% on 10 generations of modern smartphones, which is greater than their individual accuracies of 89.1% (RGB) and 97.9% (X-ray) independently. We provide experimental results3 to corroborate our results.
翻訳日:2022-09-09 13:23:53 公開日:2022-09-08
# マルチモーダルビデオ質問応答のためのフレームサブタイトルセルフスーパービジョン

Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering ( http://arxiv.org/abs/2209.03609v1 )

ライセンス: Link先を確認
Jiong Wang, Zhou Zhao, Weike Jin(参考訳) マルチモーダルビデオ質問応答は、正しい回答を予測し、質問に関連する時間的境界を局所化することを目的としている。 質問の時間的アノテーションは、最近の作品のQAパフォーマンスと解釈可能性を改善するが、通常は経験的かつコストがかかる。 時間的アノテーションを避けるため、時間的注意スコアに応じてQAアノテーションのみを使用し、関連する時間的境界を生成する、弱教師付き質問基礎設定(WSQG)を考案する。 時間的アノテーションの代替として、フレームと字幕の対応をフレーム字幕(FS)に変換し、時間的注意スコアを最適化し、ビデオQAモデルにおけるビデオ言語理解を改善する。 TVQAとTVQA+データセットに関する広範な実験は、提案されたWSQG戦略が質問ベースで同等のパフォーマンスを得ることを示した。

Multi-modal video question answering aims to predict correct answer and localize the temporal boundary relevant to the question. The temporal annotations of questions improve QA performance and interpretability of recent works, but they are usually empirical and costly. To avoid the temporal annotations, we devise a weakly supervised question grounding (WSQG) setting, where only QA annotations are used and the relevant temporal boundaries are generated according to the temporal attention scores. To substitute the temporal annotations, we transform the correspondence between frames and subtitles to Frame-Subtitle (FS) self-supervision, which helps to optimize the temporal attention scores and hence improve the video-language understanding in VideoQA model. The extensive experiments on TVQA and TVQA+ datasets demonstrate that the proposed WSQG strategy gets comparable performance on question grounding, and the FS self-supervision helps improve the question answering and grounding performance on both QA-supervision only and full-supervision settings.
翻訳日:2022-09-09 13:23:24 公開日:2022-09-08
# 拘束強化学習における後方サンプリングの実証評価

An Empirical Evaluation of Posterior Sampling for Constrained Reinforcement Learning ( http://arxiv.org/abs/2209.03596v1 )

ライセンス: Link先を確認
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, Maurits Kaptein(参考訳) 制約付き強化学習における効率的な探索のための後方サンプリング手法について検討する。 既存のアルゴリズムに代えて,より効率的で,実装が簡単で,計算コストが安価である2つの単純なアルゴリズムを提案する。 第1のアルゴリズムはcmdpの線形定式化に基づいており,第2のアルゴリズムはcmdpの鞍点定式化を利用する。 実験の結果,後方サンプリングは単純ではあるが最先端の性能を達成し,場合によっては楽観的アルゴリズムを著しく上回っていることがわかった。

We study a posterior sampling approach to efficient exploration in constrained reinforcement learning. Alternatively to existing algorithms, we propose two simple algorithms that are more efficient statistically, simpler to implement and computationally cheaper. The first algorithm is based on a linear formulation of CMDP, and the second algorithm leverages the saddle-point formulation of CMDP. Our empirical results demonstrate that, despite its simplicity, posterior sampling achieves state-of-the-art performance and, in some cases, significantly outperforms optimistic algorithms.
翻訳日:2022-09-09 13:20:36 公開日:2022-09-08
# カテゴリー的特徴に対する勾配推定器を用いた確率勾配降下

Stochastic gradient descent with gradient estimator for categorical features ( http://arxiv.org/abs/2209.03771v1 )

ライセンス: Link先を確認
Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet(参考訳) カテゴリーデータは健康やサプライチェーンといった重要な領域に存在し、このデータは特定の治療を必要とする。 このようなデータに最近の機械学習モデルを適用するには、エンコーディングが必要である。 解釈可能なモデルを構築するために、ワンホットエンコーディングは依然として非常に良いソリューションであるが、そのようなエンコーディングはスパースデータを生成する。 グラディエント推定器はスパースデータには適さないが、グラディエント推定器は主にゼロと見なされるが、必ずしも存在しないため、新しい勾配推定器が導入された。 この推定器は理論上何が最小かを示し、複数のモデルアーキテクチャを持つ異なるデータセット上でその効率を示す。 この新しい推定器は、同様の設定で一般的な推定器よりも優れている。 現実世界のリテールデータセットも匿名化後にリリースされる。 本論文の目的は、分類データを徹底的に検討し、これらの重要な特徴にモデルとオプティマイザを適用することである。

Categorical data are present in key areas such as health or supply chain, and this data require specific treatment. In order to apply recent machine learning models on such data, encoding is needed. In order to build interpretable models, one-hot encoding is still a very good solution, but such encoding creates sparse data. Gradient estimators are not suited for sparse data: the gradient is mainly considered as zero while it simply does not always exists, thus a novel gradient estimator is introduced. We show what this estimator minimizes in theory and show its efficiency on different datasets with multiple model architectures. This new estimator performs better than common estimators under similar settings. A real world retail dataset is also released after anonymization. Overall, the aim of this paper is to thoroughly consider categorical data and adapt models and optimizers to these key features.
翻訳日:2022-09-09 13:20:26 公開日:2022-09-08
# ReX: リカレントニューラルネットワークへのローカル説明を生成するフレームワーク

ReX: A Framework for Generating Local Explanations to Recurrent Neural Networks ( http://arxiv.org/abs/2209.03798v1 )

ライセンス: Link先を確認
Junhao Liu, Xin Zhang(参考訳) 本稿では,様々な局所的説明手法をリカレントニューラルネットワークに適用するための一般的な枠組みを提案する。 特に,既存の手法から生成された説明を拡張して,元の入力データポイントと異なる長さのデータポイントをカバーし,時間的情報を追加する。 我々のアプローチは、コアアルゴリズムに触れることなく既存の手法の摂動モデルと特徴表現だけを変更するため、一般的なものである。 我々はLIMEとAnchorsのアプローチをインスタンス化した。 本研究では,感情分析ネットワークと異常検出ネットワークにおいて,これらの2つの手法による説明の有効性を効果的に向上することを示す。

We propose a general framework to adapt various local explanation techniques to recurrent neural networks. In particular, our explanations add temporal information, which expand explanations generated from existing techniques to cover data points that have different lengths compared to the original input data point. Our approach is general as it only modifies the perturbation model and feature representation of existing techniques without touching their core algorithms. We have instantiated our approach on LIME and Anchors. Our empirical evaluation shows that it effectively improves the usefulness of explanations generated by these two techniques on a sentiment analysis network and an anomaly detection network.
翻訳日:2022-09-09 13:20:12 公開日:2022-09-08
# FADE: リソース制約エッジデバイスによる大規模フェデレーション・アドバイザリトレーニングの実現

FADE: Enabling Large-Scale Federated Adversarial Training on Resource-Constrained Edge Devices ( http://arxiv.org/abs/2209.03839v1 )

ライセンス: Link先を確認
Minxue Tang, Jianyi Zhang, Mingyuan Ma, Louis DiValentin, Aolin Ding, Amin Hassanzadeh, Hai Li, Yiran Chen(参考訳) 敵対的トレーニング(AT)は、ディープニューラルネットワークに強力な敵対的堅牢性を導入する効果的な方法であることが証明されている。 しかし、atの計算コストが高いため、フェデレーション学習(fl)アプリケーションでは、計算能力とメモリフットプリントの制限など、リソース制約のあるエッジデバイスへの大規模atのデプロイが禁止される。 FLにおけるこれらの制約に対処しようとする以前の研究はほとんどなかった。 本稿では,FADE(Federated Adversarial Decoupled Learning)と呼ばれる新しいフレームワークを提案する。 fadeは、分離された欲望学習(dgl)を、各クライアントが通信ラウンド毎にモデル全体の小さなモジュールで実行すればよいように、連合した敵訓練に適用することで、計算とメモリ使用量を削減する。 また,バニラDGLの改善には,目標不整合を緩和し,優れた性能を実現するために補助重量減衰を加える。 FADEは敵の堅牢性と収束性に関する理論的保証を提供する。 実験の結果,完全関節トレーニングとほぼ同等の精度と堅牢性を保ちながら,ATが消費する計算資源を大幅に削減できることがわかった。

Adversarial Training (AT) has been proven to be an effective method of introducing strong adversarial robustness into deep neural networks. However, the high computational cost of AT prohibits the deployment of large-scale AT on resource-constrained edge devices, e.g., with limited computing power and small memory footprint, in Federated Learning (FL) applications. Very few previous studies have tried to tackle these constraints in FL at the same time. In this paper, we propose a new framework named Federated Adversarial Decoupled Learning (FADE) to enable AT on resource-constrained edge devices in FL. FADE reduces the computation and memory usage by applying Decoupled Greedy Learning (DGL) to federated adversarial training such that each client only needs to perform AT on a small module of the entire model in each communication round. In addition, we improve vanilla DGL by adding an auxiliary weight decay to alleviate objective inconsistency and achieve better performance. FADE offers a theoretical guarantee for the adversarial robustness and convergence. The experimental results also show that FADE can significantly reduce the computing resources consumed by AT while maintaining almost the same accuracy and robustness as fully joint training.
翻訳日:2022-09-09 13:20:02 公開日:2022-09-08
# 時間とともにプレイヤーを評価する

Valuing Players Over Time ( http://arxiv.org/abs/2209.03882v1 )

ライセンス: Link先を確認
Tiago Mendes-Neves, Lu\'is Meireles, Jo\~ao Mendes-Moreira(参考訳) サッカー(またはアソシエーションフットボール)では、プレイヤーはすぐにヒーローからゼロ、あるいは逆転する。 パフォーマンスは静的な尺度ではなく、幾分不安定な尺度です。 パフォーマンスを時系列ではなく静止点として分析することが、よりよい意思決定に不可欠である。 本稿では,I-VAEPモデルとO-VAEPモデルを紹介し,プレイヤーの意図と実行を評価する。 次に,これらの評価を時間とともに分析し,プレーヤ評価を連続的な問題として扱うための選択肢を提案する。 その結果,優れた選手であり,そのパフォーマンスがどのように進化したかを示し,選手の一貫性を測定するためにボラティリティ指標を定義し,意思決定を支援するためにプレーヤ開発曲線を構築した。

In soccer (or association football), players quickly go from heroes to zeroes, or vice-versa. Performance is not a static measure but a somewhat volatile one. Analyzing performance as a time series rather than a stationary point in time is crucial to making better decisions. This paper introduces and explores I-VAEP and O-VAEP models to evaluate actions and rate players' intention and execution. Then, we analyze these ratings over time and propose use cases to fundament our option of treating player ratings as a continuous problem. As a result, we present who were the best players and how their performance evolved, define volatility metrics to measure a player's consistency, and build a player development curve to assist decision-making.
翻訳日:2022-09-09 13:19:37 公開日:2022-09-08
# NeuralFMU: ハイブリッドなNeuralODEを現実世界のアプリケーションに統合するためのワークフロー

NeuralFMU: Presenting a workflow for integrating hybrid NeuralODEs into real world applications ( http://arxiv.org/abs/2209.03933v1 )

ライセンス: Link先を確認
Tobias Thummerer, Johannes Stoljar and Lars Mikelsons(参考訳) NeuralODE」という用語は、Artifical Neural Network (ANN) と正規微分方程式 (ODE) の数値解法(英語版)(英語版)(英語版)の構造の組み合わせを記述している。 この概念は、関数モックアップユニット(FMU)という形でブラックボックスモデルによってさらに拡張され、NeuralFMUと呼ばれるNeuralODEのサブクラスを得た。 その結果得られた構造は、1つのシミュレーションモデルにおける第一原理およびデータ駆動モデリングアプローチの利点を特徴とし、従来の第一原理モデル(fpms)よりも高い予測精度を持つと同時に、純粋なデータ駆動モデルよりも低いトレーニング労力を特徴としている。 本稿では,一般的なモデリングツールから抽出された既存のモデルのカプセル化と再利用を可能にする,NeuralFMUのセットアップと使用のための直感的なワークフローを提案する。 さらに、自動車業界における典型的なユースケースであるVLDMに基づく消費シミュレーションのためのNeuralFMUをデプロイすることで、この概念を実証する。 実測値(ノイズなど)や未知のシステム状態、頻繁な不連続など、科学的なユースケースでしばしば無視される課題は、この貢献で扱われる。 従来のfpmよりも高い予測品質のハイブリッドモデルの構築を目的として,fmusをjuliaプログラミング環境に統合するためのfmi.jlと,fmusをニューラルネットワークトポロジに統合して最終的にneuralfmuを得るためのfmiflux.jlというライブラリの拡張という,2つのオープンソースライブラリを簡潔に紹介する。

The term NeuralODE describes the structural combination of an Artifical Neural Network (ANN) and a numerical solver for Ordinary Differential Equations (ODEs), the former acts as the right-hand side of the ODE to be solved. This concept was further extended by a black-box model in the form of a Functional Mock-up Unit (FMU) to obtain a subclass of NeuralODEs, named NeuralFMUs. The resulting structure features the advantages of first-principle and data-driven modeling approaches in one single simulation model: A higher prediction accuracy compared to conventional First Principle Models (FPMs), while also a lower training effort compared to purely data-driven models. We present an intuitive workflow to setup and use NeuralFMUs, enabling the encapsulation and reuse of existing conventional models exported from common modeling tools. Moreover, we exemplify this concept by deploying a NeuralFMU for a consumption simulation based on a Vehicle Longitudinal Dynamics Model (VLDM), which is a typical use case in automotive industry. Related challenges that are often neglected in scientific use cases, like real measurements (e.g. noise), an unknown system state or high-frequent discontinuities, are handled in this contribution. For the aim to build a hybrid model with a higher prediction quality than the original FPM, we briefly highlight two open-source libraries: FMI.jl for integrating FMUs into the Julia programming environment, as well as an extension to this library called FMIFlux.jl, that allows for the integration of FMUs into a neural network topology to finally obtain a NeuralFMU.
翻訳日:2022-09-09 13:19:24 公開日:2022-09-08
# ロボットアームの安全かつ効率的なマルチオブジェクト把持検出手法

A Secure and Efficient Multi-Object Grasping Detection Approach for Robotic Arms ( http://arxiv.org/abs/2209.03511v1 )

ライセンス: Link先を確認
Hui Wang, Jieren Cheng, Yichen Xu, Sirui Ni, Zaijia Yang and Jiangpeng Li(参考訳) ロボットアームは自動産業で広く使われている。 しかし、ロボットアームにおけるディープラーニングの幅広い応用により、コンピューティングパワーの把握の割り当てやセキュリティに対する需要の増加など、新たな課題が存在する。 本研究では,ディープラーニングとエッジクラウドの協調に基づくロボットアームの把握手法を提案する。 本手法は,ロボットアームの任意の把握計画を実現し,把握効率と情報セキュリティを考慮した。 さらに、GANによって訓練されたエンコーダとデコーダにより、圧縮中に画像が暗号化され、プライバシーのセキュリティが保証される。 このモデルは、OCIDデータセット上で92%の精度を実現し、画像圧縮比が0.03%に達し、構造差値が0.91以上である。

Robotic arms are widely used in automatic industries. However, with wide applications of deep learning in robotic arms, there are new challenges such as the allocation of grasping computing power and the growing demand for security. In this work, we propose a robotic arm grasping approach based on deep learning and edge-cloud collaboration. This approach realizes the arbitrary grasp planning of the robot arm and considers the grasp efficiency and information security. In addition, the encoder and decoder trained by GAN enable the images to be encrypted while compressing, which ensures the security of privacy. The model achieves 92% accuracy on the OCID dataset, the image compression ratio reaches 0.03%, and the structural difference value is higher than 0.91.
翻訳日:2022-09-09 13:18:31 公開日:2022-09-08
# SSL-WM:自己教師型学習によるエンコーダのブラックボックス透かし手法

SSL-WM: A Black-Box Watermarking Approach for Encoders Pre-trained by Self-supervised Learning ( http://arxiv.org/abs/2209.03563v1 )

ライセンス: Link先を確認
Peizhuo Lv, Pan Li, Shenchen Zhu, Shengzhi Zhang, Kai Chen, Ruigang Liang, Chang Yue, Fan Xiang, Yuling Cai, Hualong Ma, Yingjun Zhang, Guozhu Meng(参考訳) 近年では、さまざまなダウンストリームタスクを促進する自己監視学習(SSL)で大きな成功を収めている。 しかし、攻撃者はそのようなSSLモデルを盗み、利益のために商業化する可能性があるため、知的財産(IP)を保護することが不可欠である。 既存のIP保護ソリューションの多くは教師付き学習モデル用に設計されており、モデルダウンストリームタスクとターゲットラベルを、SSLのドメインでは必ずしも不可能なウォーターマーク埋め込み時に知って、利用できるようにする必要があるため、直接は使用できない。 特に、ウォーターマーク埋め込み中に下流タスクが多様で未知な場合に、SSL-WMと呼ばれる新しいブラックボックス透かしソリューションを提案し、SSLモデルのオーナシップを保護する。 SSL-WMは、透かしエンコーダによる透かし入力を不変表現空間にマッピングし、任意の下流分類器が期待する振る舞いを生じさせ、埋め込み透かしの検出を可能にする。 我々は,コンピュータビジョン(CV)や自然言語処理(NLP)などのタスクにおいて,コントラストベースや生成ベースを含む異なるSSLモデルを用いてSSL-WMを評価する。 実験の結果、SSL-WMは、さまざまな下流タスクにおいて、盗まれたSSLモデルのオーナシップを効果的に検証できることが示された。 さらに、SSL-WMはモデル微調整およびプルーニング攻撃に対して堅牢である。 最後に、SSL-WMは評価された透かし検出アプローチからの検出を回避し、SSLモデルのIPを保護するための有望な応用を実証する。

Recent years have witnessed significant success in Self-Supervised Learning (SSL), which facilitates various downstream tasks. However, attackers may steal such SSL models and commercialize them for profit, making it crucial to protect their Intellectual Property (IP). Most existing IP protection solutions are designed for supervised learning models and cannot be used directly since they require that the models' downstream tasks and target labels be known and available during watermark embedding, which is not always possible in the domain of SSL. To address such a problem especially when downstream tasks are diverse and unknown during watermark embedding, we propose a novel black-box watermarking solution, named SSL-WM, for protecting the ownership of SSL models. SSL-WM maps watermarked inputs by the watermarked encoders into an invariant representation space, which causes any downstream classifiers to produce expected behavior, thus allowing the detection of embedded watermarks. We evaluate SSL-WM on numerous tasks, such as Computer Vision (CV) and Natural Language Processing (NLP), using different SSL models, including contrastive-based and generative-based. Experimental results demonstrate that SSL-WM can effectively verify the ownership of stolen SSL models in various downstream tasks. Furthermore, SSL-WM is robust against model fine-tuning and pruning attacks. Lastly, SSL-WM can also evade detection from evaluated watermark detection approaches, demonstrating its promising application in protecting the IP of SSL models.
翻訳日:2022-09-09 13:18:11 公開日:2022-09-08
# マスクオートエンコーダのターゲット表現探索

Exploring Target Representations for Masked Autoencoders ( http://arxiv.org/abs/2209.03917v1 )

ライセンス: Link先を確認
Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji(参考訳) マスク付きオートエンコーダは、自己教師型視覚表現学習のトレーニングパラダイムとして人気を博している。 これらのモデルは入力の一部をランダムにマスクし、対象の表現に従ってマスクされた部分を再構築する。 本稿では,対象表現の注意深い選択がよい表現を学習する上で不要であることを示し,異なる対象が同様に振る舞うモデルを導出する傾向にあることを示す。 本研究は,マルチステージマスク蒸留パイプラインを提案し,教師としてランダムに初期化モデルを用いて,ターゲット表現を慎重に設計することなく,高容量モデルを効果的に学習することを可能にする。 興味深いことに,より大容量の教員を活用し,顕著な転校能力を持つ蒸留留学生を得る方法が検討されている。 分類,伝達学習,オブジェクト検出,セマンティックセグメンテーションの異なるタスクにおいて,自己指導型教師(dBOT)によるマスク付き知識蒸留を行う手法は,非自覚的マージンによる従来の自己指導方法よりも優れていた。 提案手法と同様に,提案手法は,事前学習したマスク付きオートエンコーダにおける対象表現の役割を再考する動機となることを期待する。

Masked autoencoders have become popular training paradigms for self-supervised visual representation learning. These models randomly mask a portion of the input and reconstruct the masked portion according to the target representations. In this paper, we first show that a careful choice of the target representation is unnecessary for learning good representations, since different targets tend to derive similarly behaved models. Driven by this observation, we propose a multi-stage masked distillation pipeline and use a randomly initialized model as the teacher, enabling us to effectively train high-capacity models without any efforts to carefully design target representations. Interestingly, we further explore using teachers of larger capacity, obtaining distilled students with remarkable transferring ability. On different tasks of classification, transfer learning, object detection, and semantic segmentation, the proposed method to perform masked knowledge distillation with bootstrapped teachers (dBOT) outperforms previous self-supervised methods by nontrivial margins. We hope our findings, as well as the proposed method, could motivate people to rethink the roles of target representations in pre-training masked autoencoders.
翻訳日:2022-09-09 13:14:52 公開日:2022-09-08
# リアルなLiDARポイントクラウドを生成するための学習

Learning to Generate Realistic LiDAR Point Clouds ( http://arxiv.org/abs/2209.03954v1 )

ライセンス: Link先を確認
Vlas Zyrianov, Xiyue Zhu, Shenlong Wang(参考訳) 我々は,現実的なLiDARポイントクラウドセンサの読み取りを生成する,新しい,効果的かつ制御可能な生成モデルLiDARGenを提案する。 本手法は, 強力なスコアマッチングエネルギーベースモデルを用いて, 点雲生成過程を等角視の確率的変分過程として定式化する。 このモデルにより、多様で高品質なポイントクラウドサンプルを、物理的実現性と制御性を保証できる。 KITTI-360およびNuScenesデータセットに対する本手法の有効性を検証する。 定量的および定性的な結果は,本手法が他の生成モデルよりも現実的なサンプルを生成することを示している。 さらに、LiDARGenは、再トレーニングせずに入力に条件付けられた点雲をサンプリングすることができる。 提案する生成モデルがlidar点雲の密度化に直接利用できることを実証した。 私たちのコードは以下の通りです。

We present LiDARGen, a novel, effective, and controllable generative model that produces realistic LiDAR point cloud sensory readings. Our method leverages the powerful score-matching energy-based model and formulates the point cloud generation process as a stochastic denoising process in the equirectangular view. This model allows us to sample diverse and high-quality point cloud samples with guaranteed physical feasibility and controllability. We validate the effectiveness of our method on the challenging KITTI-360 and NuScenes datasets. The quantitative and qualitative results show that our approach produces more realistic samples than other generative models. Furthermore, LiDARGen can sample point clouds conditioned on inputs without retraining. We demonstrate that our proposed generative model could be directly used to densify LiDAR point clouds. Our code is available at: https://www.zyrianov.org/lidargen/
翻訳日:2022-09-09 13:14:28 公開日:2022-09-08
# 注意メカニズムは人間の読書の特徴を持っているか? 感性分類タスクの展望

Does Attention Mechanism Possess the Feature of Human Reading? A Perspective of Sentiment Classification Task ( http://arxiv.org/abs/2209.03557v1 )

ライセンス: Link先を確認
Lei Zhao, Yingyi Zhang, Chengzhi Zhang(参考訳) [目的]文の意味を理解するために、人間は文の中の重要な単語に集中することができる。 このように、深層学習モデルの注意機構を最適化するために、視線追跡値を利用する研究もある。 しかしこれらの研究は、このアプローチの合理性を説明できない。 注意メカニズムが人間の読みのこの特徴を持っているかどうかを検討する必要がある。 [設計・方法論・アプローチ]感情分類タスクの実験を行った。 まず,2つのオープンソースアイトラッキングコーパスから視線追跡値を取得し,人間の読書の特徴を記述した。 次に、感情分類モデルから各文の機械的注意値を学習した。 最後に、機械の注意値と視線追跡値を分析するために比較を行った。 [フィンディング] 実験により, 感情分類課題における文の感情を判断するのに有用な形容詞, 副詞, 感情語などの重要な単語に注目する機構が得られた。 人間の読書の特徴を持ち、読むときの重要な単語に焦点をあてる。 注意機構の学習不足のため、一部の単語は誤って焦点を合わせている。 視線追跡値は注意機構がこの誤りを修正し、モデル性能を改善するのに役立つ。 本研究は,視線追跡値を用いた注意機構の最適化だけでなく,注意機構の解釈可能性に新たなインスピレーションを与えるための合理的な説明を提供する。

[Purpose] To understand the meaning of a sentence, humans can focus on important words in the sentence, which reflects our eyes staying on each word in different gaze time or times. Thus, some studies utilize eye-tracking values to optimize the attention mechanism in deep learning models. But these studies lack to explain the rationality of this approach. Whether the attention mechanism possesses this feature of human reading needs to be explored. [Design/methodology/approach] We conducted experiments on a sentiment classification task. Firstly, we obtained eye-tracking values from two open-source eye-tracking corpora to describe the feature of human reading. Then, the machine attention values of each sentence were learned from a sentiment classification model. Finally, a comparison was conducted to analyze machine attention values and eye-tracking values. [Findings] Through experiments, we found the attention mechanism can focus on important words, such as adjectives, adverbs, and sentiment words, which are valuable for judging the sentiment of sentences on the sentiment classification task. It possesses the feature of human reading, focusing on important words in sentences when reading. Due to the insufficient learning of the attention mechanism, some words are wrongly focused. The eye-tracking values can help the attention mechanism correct this error and improve the model performance. [Originality/value] Our research not only provides a reasonable explanation for the study of using eye-tracking values to optimize the attention mechanism, but also provides new inspiration for the interpretability of attention mechanism.
翻訳日:2022-09-09 13:14:17 公開日:2022-09-08
# 学術文献における方法論の実体 : 抽出・評価・応用

A Review on Method Entities in the Academic Literature: Extraction, Evaluation, and Application ( http://arxiv.org/abs/2209.03687v1 )

ライセンス: Link先を確認
Yuzhuo Wang, Chengzhi Zhang, Kai Li(参考訳) 科学的研究において、この方法は科学的問題の解決に不可欠であり、重要な研究対象である。 科学の発展に伴い、多くの科学的手法が提案され、修正され、学術文献に使われている。 筆者らは,その方法の詳細を要約文および本文で記述し,その方法の名前を反映した学術文献における重要な実体を方法実体と呼ぶ。 多くの学術文献で多様な方法の実体を探求することは、研究者が既存の方法を理解し、研究課題に適した方法を選択し、新しい方法を提案するのに役立つ。 さらに、メソッドエンティティの進化は、分野の発展を明らかにし、知識発見を促進する。 そこで本論文では,本論文からメソッドエンティティを抽出することに焦点を当てた方法論的・実証的な研究の体系的レビューと,抽出したメソッドエンティティを用いた知識サービス構築の試みについて述べる。 このレビューにかかわる重要な概念の定義が最初に提案された。 これらの定義に基づき、各アプローチの長所と短所に重点を置いて、メソッドエンティティを抽出・評価するためのアプローチと指標を体系的にレビューした。 また、抽出されたメソッドエンティティを使って新しいアプリケーションを構築する方法について調査した。 最後に、既存の作品の限界と潜在的な次のステップについて論じた。

In scientific research, the method is an indispensable means to solve scientific problems and a critical research object. With the advancement of sciences, many scientific methods are being proposed, modified, and used in academic literature. The authors describe details of the method in the abstract and body text, and key entities in academic literature reflecting names of the method are called method entities. Exploring diverse method entities in a tremendous amount of academic literature helps scholars understand existing methods, select the appropriate method for research tasks, and propose new methods. Furthermore, the evolution of method entities can reveal the development of a discipline and facilitate knowledge discovery. Therefore, this article offers a systematic review of methodological and empirical works focusing on extracting method entities from full-text academic literature and efforts to build knowledge services using these extracted method entities. Definitions of key concepts involved in this review were first proposed. Based on these definitions, we systematically reviewed the approaches and indicators to extract and evaluate method entities, with a strong focus on the pros and cons of each approach. We also surveyed how extracted method entities are used to build new applications. Finally, limitations in existing works as well as potential next steps were discussed.
翻訳日:2022-09-09 13:13:53 公開日:2022-09-08
# オンラインレビューにおけるユーザ意識の分布規則と製品側面への感性を探る

Exploring the Distribution Regularities of User Attention and Sentiment toward Product Aspects in Online Reviews ( http://arxiv.org/abs/2209.03690v1 )

ライセンス: Link先を確認
Chenglei Qin, Chengzhi Zhang, Yi Bu(参考訳) 目的]オンラインレビューをより深く理解し,潜在的な消費者,ビジネスマン,製品メーカが製品面におけるユーザの評価を効果的に得るために,オンラインレビューの時間的視点から,ユーザの注目度と製品面に対する感情の分布の規則性について検討する。 [デザイン・方法論・適用]オンラインレビューの時間的特性(購入時間・レビュー時間・期間)、類似属性クラスタリング、属性レベルの感情コンピューティング技術は、jd.com(中国の有名なオンラインショッピングプラットフォーム)の3つの製品の340万以上のスマートフォンレビューに基づいて採用され、製品の側面に対するユーザーの注意と感情の分布の規則性を調査します。 [検索] 実験結果から,パワーロー分布は製品面にユーザの注意を向けることができ,短い期間に投稿されたレビューにはより多くの製品面が含まれることがわかった。 また,製品側面のユーザ感情の値は,製品の長所や短所の判断に寄与する短時間で有意に高く,低い値を示す。 研究の限界] ショッピングプラットフォームによるレビューのクロールが制限されているため,時間的特性を有する製品について,オンラインレビューを取得することはできない。 【オリジナリティ/価値】本研究は,意思決定支援,レビュープレゼンテーションの最適化,ショッピング体験の向上に極めて重要である,製品面に対するユーザの注意と感情の分布規則を明らかにする。

[Purpose] To better understand the online reviews and help potential consumers, businessmen, and product manufacturers effectively obtain users' evaluation on product aspects, this paper explores the distribution regularities of user attention and sentiment toward product aspects from the temporal perspective of online reviews. [Design/methodology/approach] Temporal characteristics of online reviews (purchase time, review time, and time intervals between purchase time and review time), similar attributes clustering, and attribute-level sentiment computing technologies are employed based on more than 340k smartphone reviews of three products from JD.COM (a famous online shopping platform in China) to explore the distribution regularities of user attention and sentiment toward product aspects in this article. [Findings] The empirical results show that a power-law distribution can fit user attention to product aspects, and the reviews posted in short time intervals contain more product aspects. Besides, the results show that the values of user sentiment of product aspects are significantly higher/lower in short time intervals which contribute to judging the advantages and weaknesses of a product. [Research limitations] The paper can't acquire online reviews for more products with temporal characteristics to verify the findings because of the restriction on reviews crawling by the shopping platforms. [Originality/value] This work reveals the distribution regularities of user attention and sentiment toward product aspects, which is of great significance in assisting decision-making, optimizing review presentation, and improving the shopping experience.
翻訳日:2022-09-09 13:13:35 公開日:2022-09-08
# CAP:インスタンスの複雑性を意識したネットワークプルーニング

CAP: instance complexity-aware network pruning ( http://arxiv.org/abs/2209.03534v1 )

ライセンス: Link先を確認
Jiapeng Wang, Ming Ma and Zhenhua Yu(参考訳) 既存の異なるチャネルプルーニング法は、重要度が低いプルーヌフィルタにスケーリング係数やマスクを付加し、入力サンプルの均一な寄与を重要度に仮定する。 具体的には、インスタンスの複雑さがpruningパフォーマンスに与える影響はまだ完全には調査されていない。 本稿では,インスタンスの複雑性を認識できるフィルタ重要度スコアに基づいて,簡易かつ効果的なネットワークプルーニング手法capを提案する。 本研究は, 試料の重み付けにより各試料のインスタンスの複雑性関連重量を定義し, 試料固有の軟質マスクの重み付け和を測定し, 異なる入力の非一様寄与をモデル化し, 硬質試料がプルーニング過程とモデル性能を支配下に置くことを奨励する。 また, マスクの偏光を促進するための新しい正則化器を導入し, スイーツスポットを見つけやすくし, 刈り取るべきフィルタを同定する。 様々なネットワークアーキテクチャとデータセットのパフォーマンス評価は、CAPが大規模ネットワークを刈り取る際の最先端技術よりも優れていることを示している。 例えば、cifar-10データセットにおけるresnet56の精度は65.64%のフロップを取り除いた後に0.33%向上し、imagenetデータセット上のresnet50の87.75%フラップは0.89%のtop-1精度損失しか得られない。

Existing differentiable channel pruning methods often attach scaling factors or masks behind channels to prune filters with less importance, and assume uniform contribution of input samples to filter importance. Specifically, the effects of instance complexity on pruning performance are not yet fully investigated. In this paper, we propose a simple yet effective differentiable network pruning method CAP based on instance complexity-aware filter importance scores. We define instance complexity related weight for each sample by giving higher weights to hard samples, and measure the weighted sum of sample-specific soft masks to model non-uniform contribution of different inputs, which encourages hard samples to dominate the pruning process and the model performance to be well preserved. In addition, we introduce a new regularizer to encourage polarization of the masks, such that a sweet spot can be easily found to identify the filters to be pruned. Performance evaluations on various network architectures and datasets demonstrate CAP has advantages over the state-of-the-arts in pruning large networks. For instance, CAP improves the accuracy of ResNet56 on CIFAR-10 dataset by 0.33% aftering removing 65.64% FLOPs, and prunes 87.75% FLOPs of ResNet50 on ImageNet dataset with only 0.89% Top-1 accuracy loss.
翻訳日:2022-09-09 13:11:48 公開日:2022-09-08
# レベンシュテインOCR

Levenshtein OCR ( http://arxiv.org/abs/2209.03594v1 )

ライセンス: Link先を確認
Cheng Da, Peng Wang, Cong Yao(参考訳) VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。 NLP領域のLevenshtein Transformerにインスパイアされた提案手法(略してLevenshtein OCR、略してLevOCR)は、収穫した自然画像からテキストコンテンツを自動で書き起こす方法を模索している。 具体的には,シーンテキスト認識の問題を反復的シーケンス改善プロセスとして論じる。 純粋視覚モデルによって生成された初期予測シーケンスを符号化し、クロスモーダルトランスフォーマーに供給し、視覚特徴と相互作用し融合し、基底真理を漸進的に近似する。 改良プロセスは、模倣学習で学習し、並列復号化、動的長さ変化、良好な解釈性を実現する2つの基本的な文字レベルの操作によって達成される。 定量的実験により,LevOCRは標準ベンチマークの最先端性能を実現し,定性解析により提案アルゴリズムの有効性と有効性を検証した。 コードはまもなくリリースされる。

A novel scene text recognizer based on Vision-Language Transformer (VLT) is presented. Inspired by Levenshtein Transformer in the area of NLP, the proposed method (named Levenshtein OCR, and LevOCR for short) explores an alternative way for automatically transcribing textual content from cropped natural images. Specifically, we cast the problem of scene text recognition as an iterative sequence refinement process. The initial prediction sequence produced by a pure vision model is encoded and fed into a cross-modal transformer to interact and fuse with the visual features, to progressively approximate the ground truth. The refinement process is accomplished via two basic character-level operations: deletion and insertion, which are learned with imitation learning and allow for parallel decoding, dynamic length change and good interpretability. The quantitative experiments clearly demonstrate that LevOCR achieves state-of-the-art performances on standard benchmarks and the qualitative analyses verify the effectiveness and advantage of the proposed LevOCR algorithm. Code will be released soon.
翻訳日:2022-09-09 13:08:51 公開日:2022-09-08
# nVFNet-RDC:連続物体検出のための再生・非局所蒸留協調

nVFNet-RDC: Replay and Non-Local Distillation Collaboration for Continual Object Detection ( http://arxiv.org/abs/2209.03603v1 )

ライセンス: Link先を確認
Jinxiang Lai, Wenlong Liu, Jun Liu(参考訳) 継続的学習(CL)は、新しい環境に適応し、新しいスキルを学ぶ能力を持つアルゴリズムの開発に焦点を当てている。 この非常に困難なタスクは近年、新しいソリューションが急速に登場し、多くの関心を集めています。 本稿では,連続物体検出のためのnVFNet-RDC手法を提案する。 我々のnVFNet-RDCは教師学生モデルで構成されており、リプレイと特徴蒸留戦略を採用している。 第1位のソリューションとして、第3のCLVision Challenge Track 2 と Track 3 でそれぞれ 55.94% と 54.65% の平均 mAP を達成した。

Continual Learning (CL) focuses on developing algorithms with the ability to adapt to new environments and learn new skills. This very challenging task has generated a lot of interest in recent years, with new solutions appearing rapidly. In this paper, we propose a nVFNet-RDC approach for continual object detection. Our nVFNet-RDC consists of teacher-student models, and adopts replay and feature distillation strategies. As the 1st place solutions, we achieve 55.94% and 54.65% average mAP on the 3rd CLVision Challenge Track 2 and Track 3, respectively.
翻訳日:2022-09-09 13:08:33 公開日:2022-09-08
# 単一潜在変数と完全連結ニューラルネットワークによるカメラ応答関数の表現

Representing Camera Response Function by a Single Latent Variable and Fully Connected Neural Network ( http://arxiv.org/abs/2209.03624v1 )

ライセンス: Link先を確認
Yunfeng Zhao, Stuart Ferguson, Huiyu Zhou and Karen Rafferty(参考訳) シーンの照度から画像強度へのマッピングのモデル化は、多くのコンピュータビジョンタスクに不可欠です。 このようなマッピングはカメラ応答として知られている。 ほとんどのデジタルカメラは、画像を記録するのに使用される画像強度にセンサーによって測定されるように、非線形機能を使用して照度をマッピングする。 非線形キャリブレーションには応答のモデル化が必要である。 本稿では,1つの潜伏変数と完全連結ニューラルネットワークを用いた新しい高性能カメラ応答モデルを提案する。 このモデルは、実世界(例)カメラ応答のオートエンコーダによる教師なし学習を用いて作成される。 ニューラルネットワーク探索は、最適なニューラルネットワークアーキテクチャを見つけるために使用される。 潜在分布を制約する潜在分布学習手法が導入された。 提案モデルは多くのベンチマークテストで最先端のcrf表現精度を実現したが、簡易かつ効率的なモデル表現のためにカメラ応答キャリブレーション時の最大精度推定を行う場合、最良モデルのほぼ2倍高速である。

Modelling the mapping from scene irradiance to image intensity is essential for many computer vision tasks. Such mapping is known as the camera response. Most digital cameras use a nonlinear function to map irradiance, as measured by the sensor to an image intensity used to record the photograph. Modelling of the response is necessary for the nonlinear calibration. In this paper, a new high-performance camera response model that uses a single latent variable and fully connected neural network is proposed. The model is produced using unsupervised learning with an autoencoder on real-world (example) camera responses. Neural architecture searching is then used to find the optimal neural network architecture. A latent distribution learning approach was introduced to constrain the latent distribution. The proposed model achieved state-of-the-art CRF representation accuracy in a number of benchmark tests, but is almost twice as fast as the best current models when performing the maximum likelihood estimation during camera response calibration due to the simple yet efficient model representation.
翻訳日:2022-09-09 13:08:24 公開日:2022-09-08
# FETA: エキスパート・タスク・アプリケーションのための基礎モデル

FETA: Towards Specializing Foundation Models for Expert Task Applications ( http://arxiv.org/abs/2209.03648v1 )

ライセンス: Link先を確認
Amit Alfassy, Assaf Arbelle, Oshri Halimi, Sivan Harary, Roei Herzig, Eli Schwartz, Rameswar Panda, Michele Dolfi, Christoph Auer, Kate Saenko, PeterW. J. Staar, Rogerio Feris, Leonid Karlinsky(参考訳) ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。 しかし、本稿で示すように、fmプリトレーニングに使用される巨大なデータセットのデータ分散の、未認識またはロングテール部分に属する、専門家のタスク(例えば、自動車マニュアルの言語クエリからのテクニカルイラストの検索)において、fmsは依然として不十分な性能を保っている。 このことは、このような専門家のタスクに対して、FMを明示的に評価し、微調整する必要性を浮き彫りにしている。 本稿では,FMに技術資料の理解を指導する上で,その図形図形と対応する言語記述とを一致させる学習を通じて,その第1のFETAベンチマークを提案する。 fetaベンチマークでは,公共自動車マニュアルや販売カタログ用パンフレットのテキスト対画像検索と画像対テキスト検索に焦点を当てた。 FETAは、完全に自動的なアノテーション抽出(コードが受け入れられるとコードがリリースされる)の手順を備えており、将来FETAのドキュメントタイプやアプリケーションドメインへの拡張が容易になる。 私たちの自動アノテーションは、人為的なアノテーション(リリース)で計算されたメトリクスと一致していることを示す自動パフォーマンスメトリクスにつながります。 我々は、FMコミュニティにとって非常に価値があると信じているいくつかの興味深い発見を導き、一般的なオブジェクトに焦点を当てた標準ベンチマークによって現在見過ごされている実用的な専門家タスクにFMの現実的な応用に向けた道を開いた。

Foundation Models (FMs) have demonstrated unprecedented capabilities including zero-shot learning, high fidelity data synthesis, and out of domain generalization. However, as we show in this paper, FMs still have poor out-of-the-box performance on expert tasks (e.g. retrieval of car manuals technical illustrations from language queries), data for which is either unseen or belonging to a long-tail part of the data distribution of the huge datasets used for FM pre-training. This underlines the necessity to explicitly evaluate and finetune FMs on such expert tasks, arguably ones that appear the most in practical real-world applications. In this paper, we propose a first of its kind FETA benchmark built around the task of teaching FMs to understand technical documentation, via learning to match their graphical illustrations to corresponding language descriptions. Our FETA benchmark focuses on text-to-image and image-to-text retrieval in public car manuals and sales catalogue brochures. FETA is equipped with a procedure for completely automatic annotation extraction (code would be released upon acceptance), allowing easy extension of FETA to more documentation types and application domains in the future. Our automatic annotation leads to an automated performance metric shown to be consistent with metrics computed on human-curated annotations (also released). We provide multiple baselines and analysis of popular FMs on FETA leading to several interesting findings that we believe would be very valuable to the FM community, paving the way towards real-world application of FMs for practical expert tasks currently 'overlooked' by standard benchmarks focusing on common objects.
翻訳日:2022-09-09 13:08:07 公開日:2022-09-08
# プロトタイプメモリネットワークによる教師なしビデオオブジェクトセグメンテーション

Unsupervised Video Object Segmentation via Prototype Memory Network ( http://arxiv.org/abs/2209.03712v1 )

ライセンス: Link先を確認
Minhyeok Lee, Suhwan Cho, Seunghoon Lee, Chaewon Park, Sangyoun Lee(参考訳) 教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。 この挑戦的なタスクは、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出する必要がある。 この難易度は、光フローなどの動作情報を使用することで解決できるが、隣接するフレーム間の情報のみを使用することで、遠隔フレーム間の接続性が悪く、性能が劣る。 そこで本研究では,新しいプロトタイプメモリネットワークアーキテクチャを提案する。 提案モデルは、入力されたRGB画像と光フローマップからスーパーピクセルベースのコンポーネントプロトタイプを抽出することにより、RGBとモーション情報を効果的に抽出する。 さらに、自己学習アルゴリズムに基づいて各フレームにおけるコンポーネントプロトタイプの有用性を評価し、最も有用なプロトタイプをメモリに適応的に格納し、古いプロトタイプを捨てる。 メモリバンクのプロトタイプを用いて次のクエリフレームマスクを予測することで,遠隔フレーム間の関連性を向上し,マスクの正確な予測を支援する。 提案手法は3つのデータセットで評価し,最先端の性能を実現する。 様々なアブレーション研究により,提案モデルの有効性を検証した。

Unsupervised video object segmentation aims to segment a target object in the video without a ground truth mask in the initial frame. This challenging task requires extracting features for the most salient common objects within a video sequence. This difficulty can be solved by using motion information such as optical flow, but using only the information between adjacent frames results in poor connectivity between distant frames and poor performance. To solve this problem, we propose a novel prototype memory network architecture. The proposed model effectively extracts the RGB and motion information by extracting superpixel-based component prototypes from the input RGB images and optical flow maps. In addition, the model scores the usefulness of the component prototypes in each frame based on a self-learning algorithm and adaptively stores the most useful prototypes in memory and discards obsolete prototypes. We use the prototypes in the memory bank to predict the next query frames mask, which enhances the association between distant frames to help with accurate mask prediction. Our method is evaluated on three datasets, achieving state-of-the-art performance. We prove the effectiveness of the proposed model with various ablation studies.
翻訳日:2022-09-09 13:07:38 公開日:2022-09-08
# 画像の局所性を考慮した移動可能逆例生成

Incorporating Locality of Images to Generate Targeted Transferable Adversarial Examples ( http://arxiv.org/abs/2209.03716v1 )

ライセンス: Link先を確認
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 敵の例の転送可能性を活用することで、標的でない攻撃に対してかなり高い攻撃成功率が得られるにもかかわらず、ソースイメージからターゲットクラスへの勾配方向が通常異なるdnnで異なるため、標的攻撃ではうまく機能しない。 標的攻撃の伝達性を高めるため,近年の研究では,生成した攻撃例の特徴と,補助ネットワークや生成的攻撃ネットワークから学習された攻撃対象クラスの特徴分布との整合に尽力している。 しかし、これらの研究はトレーニングデータセットが利用可能であり、ネットワークのトレーニングに多くの時間を要すると仮定しており、現実のシナリオに適用するのは困難である。 本稿では, 普遍性の観点から, 対象移動可能性のある逆例を再検討し, 高度に普遍的な逆摂動がより移動可能であることを見いだす。 そこで本研究では,画像の局所性(Locality of Images, LI)攻撃による移動性向上を提案する。 特に、分類損失のみを使用する代わりに、liは、逆摂動原画像からの中間的特徴とランダムに切り抜かれた画像との間の特徴的類似性損失を導入することにより、逆摂動の特徴が良性画像のそれよりも支配的になり、目的の転送性が向上する。 画像の局所性を最適な摂動に組み込むことで、LI攻撃は標的摂動が局所的なイメージパッチのような多様な入力パターンに普遍的であるべきであることを強調している。 広範な実験により、liはトランスファーベースの標的攻撃で高い成功率を達成できることが示されている。 imagenet互換のデータセットを攻撃すると、liは既存のstate-of-the-artメソッドと比較して12\%改善する。

Despite that leveraging the transferability of adversarial examples can attain a fairly high attack success rate for non-targeted attacks, it does not work well in targeted attacks since the gradient directions from a source image to a targeted class are usually different in different DNNs. To increase the transferability of target attacks, recent studies make efforts in aligning the feature of the generated adversarial example with the feature distributions of the targeted class learned from an auxiliary network or a generative adversarial network. However, these works assume that the training dataset is available and require a lot of time to train networks, which makes it hard to apply to real-world scenarios. In this paper, we revisit adversarial examples with targeted transferability from the perspective of universality and find that highly universal adversarial perturbations tend to be more transferable. Based on this observation, we propose the Locality of Images (LI) attack to improve targeted transferability. Specifically, instead of using the classification loss only, LI introduces a feature similarity loss between intermediate features from adversarial perturbed original images and randomly cropped images, which makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. Through incorporating locality of images into optimizing perturbations, the LI attack emphasizes that targeted perturbations should be universal to diverse input patterns, even local image patches. Extensive experiments demonstrate that LI can achieve high success rates for transfer-based targeted attacks. On attacking the ImageNet-compatible dataset, LI yields an improvement of 12\% compared with existing state-of-the-art methods.
翻訳日:2022-09-09 13:07:20 公開日:2022-09-08
# 注釈付き太陽電池アレイと設置メタデータを用いた航空画像のクラウドソースデータセット

A crowdsourced dataset of aerial images with annotated solar photovoltaic arrays and installation metadata ( http://arxiv.org/abs/2209.03726v1 )

ライセンス: Link先を確認
Gabriel Kasmi, Yves-Marie Saint-Drenan, David Trebosc, Rapha\"el Jolivet, Jonathan Leloux, Babacar Sarr, Laurent Dubus(参考訳) 太陽光発電(PV)はエネルギー遷移において重要な役割を果たす。 小規模のPVの設置は前例のないペースで実施されており、公共機関が品質データを欠いているため、グリッドへの統合は困難である。 オーバーヘッドイメージは、これらのインストールを自動的にマッピングできる機械学習モデルによって、住宅用pvインストールの知識を改善するためにますます使われています。 しかし、これらのモデルは画像取得の相違により、ある領域やデータソースから別の領域へ容易に転送できない。 ドメインシフトと呼ばれるこの問題に対処し、PVアレイマッピングパイプラインの開発を促進するために、航空画像、アノテーション、セグメンテーションマスクを含むデータセットを提案する。 28,000以上のインストールに対して、インストールメタデータを提供します。 我々は,2つの異なる画像プロバイダのアノテーションを含む13,000のインストールに対して,地上の真実セグメンテーションマスクを提供する。 最後に、8,000以上のインストレーションのアノテーションにマッチするインストレーションメタデータを提供します。 データセットアプリケーションには、エンドツーエンドのPVレジストリの構築、堅牢なPVインストールマッピング、クラウドソースされたデータセットの分析が含まれる。

Photovoltaic (PV) energy generation plays a crucial role in the energy transition. Small-scale PV installations are deployed at an unprecedented pace, and their integration into the grid can be challenging since public authorities often lack quality data about them. Overhead imagery is increasingly used to improve the knowledge of residential PV installations with machine learning models capable of automatically mapping these installations. However, these models cannot be easily transferred from one region or data source to another due to differences in image acquisition. To address this issue known as domain shift and foster the development of PV array mapping pipelines, we propose a dataset containing aerial images, annotations, and segmentation masks. We provide installation metadata for more than 28,000 installations. We provide ground truth segmentation masks for 13,000 installations, including 7,000 with annotations for two different image providers. Finally, we provide installation metadata that matches the annotation for more than 8,000 installations. Dataset applications include end-to-end PV registry construction, robust PV installations mapping, and analysis of crowdsourced datasets.
翻訳日:2022-09-09 13:06:50 公開日:2022-09-08
# MRIによる胎児脂肪の自動定量

Automatic fetal fat quantification from MRI ( http://arxiv.org/abs/2209.03748v1 )

ライセンス: Link先を確認
Netanell Avisdris, Aviad Rabinowich, Daniel Fridkin, Ayala Zilberman, Sapir Lazar, Jacky Herzlich, Zeev Hananis, Daphna Link-Sourani, Liat Ben-Sira, Liran Hiersch, Dafna Ben Bashat, and Leo Joskowicz(参考訳) 正常胎児脂肪組織(AT)の発達は周産期健康に不可欠である。 AT(または単に脂肪)は、脂質の形でエネルギーを貯蔵する。 栄養失調は過度または減弱した好ましさをもたらすことがある。 これまでの研究では,ATの量と周産期成績との間に相関が認められたが,定量的手法の欠如により出生前評価が制限された。 磁気共鳴画像(MRI)を用いて,2点のディクソン画像から胎児全体の3D脂肪と水のみの画像を得ることができ,AT脂質の定量化が可能である。 本稿では,Dixon MRIに基づく胎児脂肪分画の深層学習手法を初めて提案する。 放射線技師の手動胎児脂肪脱線時間を最適化し、注釈付きトレーニングデータセットを生成する。 2つのステップからなる。 1) モデルに基づく半自動胎児脂肪分画, 放射線技師によるレビュー, 修正 2) 得られたアノテートデータセットで学習したdlネットワークを用いた胎児自動脂肪分画法。 3つのDLネットワークが訓練された。 セグメンテーション時間(3:38~1時間)と観察者変動(0.738~0.906)は,手動セグメンテーションと比較して有意に改善した。 3D Residual U-Net, nn-UNet, SWIN-UNetR を用いたテストケース24件の自動セグメンテーションにより, Dice の平均スコアは 0.863, 0.787, 0.856 となる。 これらの結果は手作業による観察値よりも優れており、成人および小児の脂肪分画に匹敵する。 放射線科医は、ベストパフォーマンスネットワークを使用してセグメンテーションされた6つの新しい独立した症例をレビューし、修正し、その結果、サイススコア0.961となり、修正時間は15:20分に大幅に短縮された。 これらの新しいセグメンテーション法と短いMRI取得時間を用いて、臨床および大規模コホート研究において、個々の胎児に対して全身皮下脂質を定量化することができる。

Normal fetal adipose tissue (AT) development is essential for perinatal well-being. AT, or simply fat, stores energy in the form of lipids. Malnourishment may result in excessive or depleted adiposity. Although previous studies showed a correlation between the amount of AT and perinatal outcome, prenatal assessment of AT is limited by lacking quantitative methods. Using magnetic resonance imaging (MRI), 3D fat- and water-only images of the entire fetus can be obtained from two point Dixon images to enable AT lipid quantification. This paper is the first to present a methodology for developing a deep learning based method for fetal fat segmentation based on Dixon MRI. It optimizes radiologists' manual fetal fat delineation time to produce annotated training dataset. It consists of two steps: 1) model-based semi-automatic fetal fat segmentations, reviewed and corrected by a radiologist; 2) automatic fetal fat segmentation using DL networks trained on the resulting annotated dataset. Three DL networks were trained. We show a significant improvement in segmentation times (3:38 hours to < 1 hour) and observer variability (Dice of 0.738 to 0.906) compared to manual segmentation. Automatic segmentation of 24 test cases with the 3D Residual U-Net, nn-UNet and SWIN-UNetR transformer networks yields a mean Dice score of 0.863, 0.787 and 0.856, respectively. These results are better than the manual observer variability, and comparable to automatic adult and pediatric fat segmentation. A radiologist reviewed and corrected six new independent cases segmented using the best performing network, resulting in a Dice score of 0.961 and a significantly reduced correction time of 15:20 minutes. Using these novel segmentation methods and short MRI acquisition time, whole body subcutaneous lipids can be quantified for individual fetuses in the clinic and large-cohort research.
翻訳日:2022-09-09 13:06:16 公開日:2022-09-08
# トランスを用いた指紋特徴抽出

Transformer based Fingerprint Feature Extraction ( http://arxiv.org/abs/2209.03846v1 )

ライセンス: Link先を確認
Saraansh Tandon, Anoop Namboodiri(参考訳) 指紋特徴抽出は、グローバルまたはローカル表現を使用して解決されるタスクである。 最先端のグローバルアプローチでは、大量のディープラーニングモデルを使用して、全指紋画像を一度に処理する。 一方,局所的なアプローチでは,minutiaeベースのパッチ抽出,複数の特徴抽出ステップ,高価なマッチングステージが関与し,対応するアプローチ時間が集中的になる。 しかし、どちらのアプローチも、問題解決に有用で時には排他的な洞察を提供する。 両手法を併用して指紋表現を抽出することは意味的に有用であるが、非常に非効率である。 in- built minutiae 抽出器を用いた畳み込み変圧器によるアプローチは,グローバルかつ局所的な指紋表現を抽出できる時間とメモリの効率的なソリューションを提供する。 これらの表現とスマートマッチングプロセスを使用することで、複数のデータベースで最先端のパフォーマンスを実現できます。 プロジェクトのページはhttps://saraansh1999.github.io/global-plus-local-fp-transformerにある。

Fingerprint feature extraction is a task that is solved using either a global or a local representation. State-of-the-art global approaches use heavy deep learning models to process the full fingerprint image at once, which makes the corresponding approach memory intensive. On the other hand, local approaches involve minutiae based patch extraction, multiple feature extraction steps and an expensive matching stage, which make the corresponding approach time intensive. However, both these approaches provide useful and sometimes exclusive insights for solving the problem. Using both approaches together for extracting fingerprint representations is semantically useful but quite inefficient. Our convolutional transformer based approach with an in-built minutiae extractor provides a time and memory efficient solution to extract a global as well as a local representation of the fingerprint. The use of these representations along with a smart matching process gives us state-of-the-art performance across multiple databases. The project page can be found at https://saraansh1999.github.io/global-plus-local-fp-transformer.
翻訳日:2022-09-09 13:05:44 公開日:2022-09-08
# 遺伝的アルゴリズムの適応的組み合わせと深部神経進化の新規探索

Adaptive Combination of a Genetic Algorithm and Novelty Search for Deep Neuroevolution ( http://arxiv.org/abs/2209.03618v1 )

ライセンス: Link先を確認
Eyal Segal and Moshe Sipper(参考訳) 進化的計算(EC)は、強化学習(RL)問題を解決するために、ディープニューラルネットワーク(DNN)を迅速に訓練できることが示されている。 遺伝的アルゴリズム(GA)は、詐欺的でもスパースでもない報酬関数を利用するのに適しているが、報酬関数がいずれかの場合に苦労する。 その目的のために、ノベルティサーチ(NS)は勾配追従オプティマイザよりも優れ、他の場合には性能が低くなることが示されている。 新たなアルゴリズムを提案する: Explore-Exploit $\gamma$-Adaptive Learner (E^2\gamma AL$, EyAL)。 このアルゴリズムは、動的に大きさのニッチなノベルティ検索エージェントを保存することによって、個体数の多様性を維持し、可能な限り報酬信号を利用して探索する。 このアルゴリズムは、GAの活用力とNSの探索力の両方を、単純さと優雅さを維持しながら組み合わせている。 私たちの実験によると、EyALはほとんどのシナリオでNSより優れていますが、GAと同等であり、いくつかのシナリオでは両方より優れています。 EyALはまた、エクスプロイトコンポーネント(GA)と探索コンポーネント(NS)を他のアルゴリズム、例えば進化戦略やサプライズ探索に置き換えることを可能にし、将来の研究の扉を開く。

Evolutionary Computation (EC) has been shown to be able to quickly train Deep Artificial Neural Networks (DNNs) to solve Reinforcement Learning (RL) problems. While a Genetic Algorithm (GA) is well-suited for exploiting reward functions that are neither deceptive nor sparse, it struggles when the reward function is either of those. To that end, Novelty Search (NS) has been shown to be able to outperform gradient-following optimizers in some cases, while under-performing in others. We propose a new algorithm: Explore-Exploit $\gamma$-Adaptive Learner ($E^2\gamma AL$, or EyAL). By preserving a dynamically-sized niche of novelty-seeking agents, the algorithm manages to maintain population diversity, exploiting the reward signal when possible and exploring otherwise. The algorithm combines both the exploitation power of a GA and the exploration power of NS, while maintaining their simplicity and elegance. Our experiments show that EyAL outperforms NS in most scenarios, while being on par with a GA -- and in some scenarios it can outperform both. EyAL also allows the substitution of the exploiting component (GA) and the exploring component (NS) with other algorithms, e.g., Evolution Strategy and Surprise Search, thus opening the door for future research.
翻訳日:2022-09-09 13:02:12 公開日:2022-09-08
# 時空間データにおける不確かさの定量化のための共形法:調査

Conformal Methods for Quantifying Uncertainty in Spatiotemporal Data: A Survey ( http://arxiv.org/abs/2209.03580v1 )

ライセンス: Link先を確認
Sophia Sun(参考訳) 機械学習の手法は、医療、交通、金融といったリスクの高い環境で広く使われている。 これらの設定では、モデルが自身の信頼を反映し、失敗を避けるために校正の不確実性を生み出すことが重要です。 本稿では,深層学習のための不確実性定量化(uq)に関する最近の研究,特にその数学的性質と幅広い適用性に対する分布自由共形予測法について検討する。 提案手法の理論的保証を網羅し、時空間データの文脈におけるUQの校正と効率を改善する手法を導入し、安全な意思決定の文脈におけるUQの役割について議論する。

Machine learning methods are increasingly widely used in high-risk settings such as healthcare, transportation, and finance. In these settings, it is important that a model produces calibrated uncertainty to reflect its own confidence and avoid failures. In this paper we survey recent works on uncertainty quantification (UQ) for deep learning, in particular distribution-free Conformal Prediction method for its mathematical properties and wide applicability. We will cover the theoretical guarantees of conformal methods, introduce techniques that improve calibration and efficiency for UQ in the context of spatiotemporal data, and discuss the role of UQ in the context of safe decision making.
翻訳日:2022-09-09 13:01:34 公開日:2022-09-08
# 超低消費電力オーディオデバイスのためのハードウェアアクセラレータとニューラルネットワークの共最適化

Hardware Accelerator and Neural Network Co-Optimization for Ultra-Low-Power Audio Processing Devices ( http://arxiv.org/abs/2209.03807v1 )

ライセンス: Link先を確認
Christoph Gerum, Adrian Frischknecht, Tobias Hald, Paul Palomero Bernardo, Konstantin L\"ubeck, Olver Bringmann(参考訳) 人工ニューラルネットワークの普及は、超低消費電力エッジデバイスでは止まらない。 しかしながら、これらは高い計算要求を持ち、設計が電力と性能の制約を満たすように特別なハードウェアアクセラレータを必要とすることが多い。 ニューラルネットワークとそれに対応するハードウェアアクセラレータを手動で最適化することは、非常に難しい。 本稿では,資源・電力制約エッジデバイスのための深層ニューラルネットワークとハードウェアアクセラレータのハードウェア/ソフトウェア共同設計を自動化するフレームワークであるHANNAH(Hardware Accelerator and Neural Network seArcH)を提案する。 最適化アプローチでは、進化に基づく探索アルゴリズム、ニューラルネットワークテンプレート技術、および構成可能なUltraTrailハードウェアアクセラレーションテンプレートのための分析的KPIモデルを使用して、最適化されたニューラルネットワークとアクセラレーション構成を見つける。 提案手法では,単クラスウェイクワード検出,複数クラスキーワード検出,音声アクティビティ検出などの音声分類タスクにおいて,電力消費量を最小化し,高精度なニューラルネットワークを探索できることを実証する。

The increasing spread of artificial neural networks does not stop at ultralow-power edge devices. However, these very often have high computational demand and require specialized hardware accelerators to ensure the design meets power and performance constraints. The manual optimization of neural networks along with the corresponding hardware accelerators can be very challenging. This paper presents HANNAH (Hardware Accelerator and Neural Network seArcH), a framework for automated and combined hardware/software co-design of deep neural networks and hardware accelerators for resource and power-constrained edge devices. The optimization approach uses an evolution-based search algorithm, a neural network template technique, and analytical KPI models for the configurable UltraTrail hardware accelerator template to find an optimized neural network and accelerator configuration. We demonstrate that HANNAH can find suitable neural networks with minimized power consumption and high accuracy for different audio classification tasks such as single-class wake word detection, multi-class keyword detection, and voice activity detection, which are superior to the related work.
翻訳日:2022-09-09 13:01:22 公開日:2022-09-08
# オープンセット認識を改善するための人間の知覚の測定

Measuring Human Perception to Improve Open Set Recognition ( http://arxiv.org/abs/2209.03519v1 )

ライセンス: Link先を確認
Jin Huang, Student Member, Derek Prijatelj, Justin Dulay and Walter Scheirer(参考訳) オブジェクトが知られているか、新しいかを認識する人間の能力は、現在、すべてのオープンセット認識アルゴリズムを上回っている。 心理学からの視覚心理物理学の手法と手順によって測定される人間の知覚は、コンピュータビジョンにおける視覚認識タスクの新規性を管理する追加のデータストリームを提供することができる。 例えば、ヒトの被験者から測定された反応時間は、既知のクラスサンプルが新しいサンプルと混同されるかどうかについての洞察を与えることができる。 本研究では,物体認識に関連する20万以上の反応時間測定を収集した大規模行動実験を考案し,実施した。 抽出された反応時間は、サンプルレベルでの物体間で有意義に変化する。 そこで我々は,異なる画像に対して異なる反応時間を示す深層ネットワークにおいて,人間の行動と整合性を示す新しい精神物理学的損失関数を設計した。 バイオビジョンと同様に、このアプローチはラベル付きトレーニングデータに制限のあるレジームにおいて、優れたオープンセット認識性能を達成することができる。 ImageNetのデータを用いた実験により、この新定式化によるマルチスケールDenseNetsのトレーニングにおいて、損失関数でトレーニングされたモデルでは、既知のサンプルにおけるトップ1テスト精度が7%向上し、未知サンプルにおけるトップ1テスト精度が33%向上した。 提案手法を文献から10個のオープンセット認識手法と比較し,複数の指標で比較した。

The human ability to recognize when an object is known or novel currently outperforms all open set recognition algorithms. Human perception as measured by the methods and procedures of visual psychophysics from psychology can provide an additional data stream for managing novelty in visual recognition tasks in computer vision. For instance, measured reaction time from human subjects can offer insight as to whether a known class sample may be confused with a novel one. In this work, we designed and performed a large-scale behavioral experiment that collected over 200,000 human reaction time measurements associated with object recognition. The data collected indicated reaction time varies meaningfully across objects at the sample level. We therefore designed a new psychophysical loss function that enforces consistency with human behavior in deep networks which exhibit variable reaction time for different images. As in biological vision, this approach allows us to achieve good open set recognition performance in regimes with limited labeled training data. Through experiments using data from ImageNet, significant improvement is observed when training Multi-Scale DenseNets with this new formulation: models trained with our loss function significantly improved top-1 validation accuracy by 7%, top-1 test accuracy on known samples by 18%, and top-1 test accuracy on unknown samples by 33%. We compared our method to 10 open set recognition methods from the literature, which were all outperformed on multiple metrics.
翻訳日:2022-09-09 13:00:43 公開日:2022-09-08
# SANIP:視覚障害者のためのショッピングアシスタントとナビゲーション

SANIP: Shopping Assistant and Navigation for the visually impaired ( http://arxiv.org/abs/2209.03570v1 )

ライセンス: Link先を確認
Shubham Deshmukh, Favin Fernandes, Amey Chavan, Monali Ahire, Devashri Borse, Jyoti Madake(参考訳) 提案したショッピングアシスタントモデルSANIPは、視覚障害者が手持ちの物体を検知するのを助けるとともに、検出および認識された物体から取得した情報の映像フィードバックを得る。 提案モデルは3つのピソンモデル、すなわちカスタムオブジェクト検出、テキスト検出、バーコード検出から構成される。 手持ちオブジェクトのオブジェクト検出のために、私たちはparle-g、tide、laysといった日用品を含む独自のデータセットを作成しました。 それ以外は、カートの使用が不可欠であり、緊急時には出口標識に気付くため、CartとExitのサインの画像も収集しました。 他の2つのモデルでは、検索されたテキストとバーコード情報がテキストから音声に変換され、盲人に中継される。 このモデルは、訓練されたオブジェクトを検出し、適切な精度と精度で望ましいアウトプットの検出と認識に成功するために使用された。

The proposed shopping assistant model SANIP is going to help blind persons to detect hand held objects and also to get a video feedback of the information retrieved from the detected and recognized objects. The proposed model consists of three python models i.e. Custom Object Detection, Text Detection and Barcode detection. For object detection of the hand held object, we have created our own custom dataset that comprises daily goods such as Parle-G, Tide, and Lays. Other than that we have also collected images of Cart and Exit signs as it is essential for any person to use a cart and also notice the exit sign in case of emergency. For the other 2 models proposed the text and barcode information retrieved is converted from text to speech and relayed to the Blind person. The model was used to detect objects that were trained on and was successful in detecting and recognizing the desired output with a good accuracy and precision.
翻訳日:2022-09-09 13:00:18 公開日:2022-09-08
# 不審で異常な検出

Suspicious and Anomaly Detection ( http://arxiv.org/abs/2209.03576v1 )

ライセンス: Link先を確認
Shubham Deshmukh, Favin Fernandes, Monali Ahire, Devarshi Borse, Amey Chavan(参考訳) 本研究は, 公共の場でのランニング, ジャンプ, 蹴り, 銃, バット, ナイフを公共の場所で運ぶ, 異常, 不審な活動を検出するCNNアーキテクチャを提案する。 トレーニングされたモデルと、yolo、vgg16、vgg19のような既存のモデルと比較します。 トレーニングされたモデルがリアルタイム検出のために実装され、それも使用される。 訓練された.tfliteフォーマット。 h5モデルでアンドロイドの分類を作ります

In this project we propose a CNN architecture to detect anomaly and suspicious activities; the activities chosen for the project are running, jumping and kicking in public places and carrying gun, bat and knife in public places. With the trained model we compare it with the pre-existing models like Yolo, vgg16, vgg19. The trained Model is then implemented for real time detection and also used the. tflite format of the trained .h5 model to build an android classification.
翻訳日:2022-09-09 13:00:03 公開日:2022-09-08
# 手話検出

Sign Language Detection ( http://arxiv.org/abs/2209.03578v1 )

ライセンス: Link先を確認
Shubham Deshmukh, Favin Fernandes, Amey Chavan(参考訳) コンピュータビジョン技術の進歩により、その特徴に基づく画像の分類の必要性は大きな課題と必要性となっている。 本プロジェクトでは,ORBとSVMを用いた特徴抽出と分類と,CNNアーキテクチャを用いた2つのモデルを提案する。 プロジェクトの最終的な結果は、特徴抽出と画像分類の背後にある概念を理解することである。 トレーニングされたCNNモデルは、Android開発用のtfliteフォーマットに変換するためにも使用される。

With the advancements in Computer vision techniques the need to classify images based on its features have become a huge task and necessity. In this project we proposed 2 models i.e. feature extraction and classification using ORB and SVM and the second is using CNN architecture. The end result of the project is to understand the concept behind feature extraction and image classification. The trained CNN model will also be used to convert it to tflite format for Android Development.
翻訳日:2022-09-09 12:59:55 公開日:2022-09-08
# シーンテキスト認識のための多粒度予測

Multi-Granularity Prediction for Scene Text Recognition ( http://arxiv.org/abs/2209.03592v1 )

ライセンス: Link先を確認
Peng Wang, Cheng Da, Cong Yao(参考訳) Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。 この課題に対処するために,言語知識をSTRモデルに組み込んだ多くの革新的な手法が提案されてきた。 本研究では、視覚変換器(ViT)の最近の進歩からインスピレーションを得て、ViT上に構築された概念的にシンプルで強力な視覚STRモデルを構築する。 さらに、言語知識を統合するために、従来の文字レベル表現に加えて、nlpで広く使われているサブワード表現(bpeおよびwordpiece)を出力空間に導入し、独立言語モデル(lm)は採用しないという暗黙的な方法で、言語モダリティから情報をモデルに注入する多粒度予測戦略を提案する。 結果のアルゴリズム(MGP-STRと呼ばれる)はSTRの性能をさらに高いレベルに押し上げることができる。 具体的には、標準ベンチマークで平均認識精度93.35%を達成する。 コードはまもなくリリースされる。

Scene text recognition (STR) has been an active research topic in computer vision for years. To tackle this challenging problem, numerous innovative methods have been successively proposed and incorporating linguistic knowledge into STR models has recently become a prominent trend. In this work, we first draw inspiration from the recent progress in Vision Transformer (ViT) to construct a conceptually simple yet powerful vision STR model, which is built upon ViT and outperforms previous state-of-the-art models for scene text recognition, including both pure vision models and language-augmented methods. To integrate linguistic knowledge, we further propose a Multi-Granularity Prediction strategy to inject information from the language modality into the model in an implicit way, i.e. , subword representations (BPE and WordPiece) widely-used in NLP are introduced into the output space, in addition to the conventional character level representation, while no independent language model (LM) is adopted. The resultant algorithm (termed MGP-STR) is able to push the performance envelop of STR to an even higher level. Specifically, it achieves an average recognition accuracy of 93.35% on standard benchmarks. Code will be released soon.
翻訳日:2022-09-09 12:59:48 公開日:2022-09-08
# 心MR-CINE画像の学習による運動補償再建

Learning-based and unrolled motion-compensated reconstruction for cardiac MR CINE imaging ( http://arxiv.org/abs/2209.03671v1 )

ライセンス: Link先を確認
Jiazhen Pan and Daniel Rueckert and Thomas K\"ustner and Kerstin Hammernik(参考訳) 運動補償MR再構成(MCMR)は2つのサブプロブレム(運動推定、既知の画像の仮定、画像再構成、既知の動きの仮定)から構成される強力な概念である。 本研究では,心臓mri画像における非剛性運動腐敗を効率的に処理するための学習型自己監視フレームワークを提案する。 再現前の動作を推定し,反復的最適化プロセス中に変化しない従来のMCMR法とは対照的に,動的動作推定プロセスを導入し,アンロール最適化に組み込む。 本研究は, 集団登録アプローチによる時間情報を活用した心臓運動推定ネットワークを構築し, 運動推定と再構成の協調最適化を行う。 40個の2次元心臓mr cineデータセットを用いた実験により, 提案手法は高画質mr像を高加速速度で再構成できることを示した。 また,MR画像が高度にアンサンプされている場合,動作推定と画像再構成の両方に共同最適化機構が有用であることを示す。

Motion-compensated MR reconstruction (MCMR) is a powerful concept with considerable potential, consisting of two coupled sub-problems: Motion estimation, assuming a known image, and image reconstruction, assuming known motion. In this work, we propose a learning-based self-supervised framework for MCMR, to efficiently deal with non-rigid motion corruption in cardiac MR imaging. Contrary to conventional MCMR methods in which the motion is estimated prior to reconstruction and remains unchanged during the iterative optimization process, we introduce a dynamic motion estimation process and embed it into the unrolled optimization. We establish a cardiac motion estimation network that leverages temporal information via a group-wise registration approach, and carry out a joint optimization between the motion estimation and reconstruction. Experiments on 40 acquired 2D cardiac MR CINE datasets demonstrate that the proposed unrolled MCMR framework can reconstruct high quality MR images at high acceleration rates where other state-of-the-art methods fail. We also show that the joint optimization mechanism is mutually beneficial for both sub-tasks, i.e., motion estimation and image reconstruction, especially when the MR image is highly undersampled.
翻訳日:2022-09-09 12:57:00 公開日:2022-09-08
# t$^2$lr-net : 動的mr画像に先立って変換されたテンソル低ランクの学習

T$^2$LR-Net: An Unrolling Reconstruction Network Learning Transformed Tensor Low-Rank prior for Dynamic MR Imaging ( http://arxiv.org/abs/2209.03832v1 )

ライセンス: Link先を確認
Yinghao Zhang, Yue Hu(参考訳) 高次元データ処理において, テンソル低ランク前処理法がブームとなり, 性能が向上する一方, 動的磁気共鳴(MR)画像再構成への応用は限られている。 本稿では、高速フーリエ変換(FFT)に基づくテンソル特異値分解(t-SVD)に集中し、データとFFT領域の密接な一致度に大きく依存して、FFT領域に先行する定格かつ限定的なテンソルローランクのみを提供する。 By generalizing the FFT into an arbitrary unitary transformation of the transformed t-SVD and proposing the transformed tensor nuclear norm (TTNN), we introduce a flexible model based on TTNN with the ability to exploit the tensor low-rank prior of a transformed domain in a larger transformation space and elaborately design an iterative optimization algorithm based on the alternating direction method of multipliers (ADMM), which is further unrolled into a model-based deep unrolling reconstruction network to learn the transformed tensor low-rank prior (T$^2$LR-Net). 畳み込みニューラルネットワーク(CNN)はT$^2$LR-Netに組み込まれ,動的MR画像データセットから最適な整合変換を学習する。 アンローリング再構成ネットワークは、CNN抽出特徴領域における低ランク事前利用の新たな視点を提供する。 2つの心血管MRデータセットによる実験結果から,提案フレームワークは,最新の最適化手法とネットワークベースのアンローリング手法と比較して,回復率を向上できることが示された。

While the methods exploiting the tensor low-rank prior are booming in high-dimensional data processing and have obtained satisfying performance, their applications in dynamic magnetic resonance (MR) image reconstruction are limited. In this paper, we concentrate on the tensor singular value decomposition (t-SVD), which is based on the Fast Fourier Transform (FFT) and only provides the definite and limited tensor low-rank prior in the FFT domain, heavily reliant upon how closely the data and the FFT domain match up. By generalizing the FFT into an arbitrary unitary transformation of the transformed t-SVD and proposing the transformed tensor nuclear norm (TTNN), we introduce a flexible model based on TTNN with the ability to exploit the tensor low-rank prior of a transformed domain in a larger transformation space and elaborately design an iterative optimization algorithm based on the alternating direction method of multipliers (ADMM), which is further unrolled into a model-based deep unrolling reconstruction network to learn the transformed tensor low-rank prior (T$^2$LR-Net). The convolutional neural network (CNN) is incorporated within the T$^2$LR-Net to learn the best-matched transform from the dynamic MR image dataset. The unrolling reconstruction network also provides a new perspective on the low-rank prior utilization by exploiting the low-rank prior in the CNN-extracted feature domain. Experimental results on two cardiac cine MR datasets demonstrate that the proposed framework can provide improved recovery results compared with the state-of-the-art optimization-based and unrolling network-based methods.
翻訳日:2022-09-09 12:56:41 公開日:2022-09-08
# 線によるチューニングアレイ:量子ドット電荷状態の物理インフォームドチューニング

Tuning arrays with rays: Physics-informed tuning of quantum dot charge states ( http://arxiv.org/abs/2209.03837v1 )

ライセンス: Link先を確認
Joshua Ziegler and Florian Luthi and Mick Ramsey and Felix Borjans and Guoji Zheng and Justyna P. Zwolak(参考訳) ゲート定義量子ドット(QD)に基づく量子コンピュータはスケールすることが期待される。 しかし、キュービット数が増えるにつれて、手動でシステムを調整するという負担は不合理になり、自律的なチューニングが必要とされる。 近年、粗いゲート範囲、大域的状態位相(例えば、単一QD、二重QD)、電荷、様々な手法によるトンネル結合など、様々なQDパラメータの自動チューニングのデモが行われている。 ここでは,物理インフォームドチューニング(PIT)とみなすフレームワークにおいて,グローバル状態の自動化と電荷チューニングのための直感的で信頼性が高く,データ効率のよいツールセットを示す。 PITの最初のモジュールは、機械学習(ML)分類器と物理知識を組み合わせたアクションベースのアルゴリズムで、ターゲットのグローバルステートにナビゲートする。 第2のモジュールは、まず電荷のqdsを空にして、次に容量結合を校正し、ターゲット電荷状態にナビゲートすることで、ターゲット電荷状態に合わせて一連の1次元の計測を行う。 アクションベースのチューニングの成功率は、オフラインテストに適したシミュレーションデータと実験データの両方において、一貫して955〜\%を超える。 チャージ設定の成功率は、シミュレーションデータでテストした場合と同等であり、95.5(5.4)~\%$であり、オフラインの実験ではわずかに悪いが、平均で89.7(17.4)〜\%$(中間値97.5〜$$$)である。 注目に値するのは、学術用クリーンルームで製造されたサンプルのデータと工業用300mmプロセスラインの両方で高いパフォーマンスが実証されていることです。 これらの実験を組み合わせることで、pitの有効性とロバスト性が実証される。

Quantum computers based on gate-defined quantum dots (QDs) are expected to scale. However, as the number of qubits increases, the burden of manually calibrating these systems becomes unreasonable and autonomous tuning must be used. There have been a range of recent demonstrations of automated tuning of various QD parameters such as coarse gate ranges, global state topology (e.g. single QD, double QD), charge, and tunnel coupling with a variety of methods. Here, we demonstrate an intuitive, reliable, and data-efficient set of tools for automated global state and charge tuning in a framework deemed physics-informed tuning (PIT). The first module of PIT is an action-based algorithm that combines a machine learning (ML) classifier with physics knowledge to navigate to a target global state. The second module uses a series of one-dimensional measurements to tune to a target charge state by first emptying the QDs of charge, followed by calibrating capacitive couplings, and navigating to the target charge state. The success rate for the action-based tuning consistently surpasses $95~\%$ on both simulated and experimental data suitable for off-line testing. The success rate for charge setting is comparable when testing with simulated data, at $95.5(5.4)~\%$, and only slightly worse for off-line experimental tests, with an average of $89.7(17.4)~\%$ (median $97.5~\%$). It's noteworthy that the high performance is demonstrated both on data from samples fabricated in an academic cleanroom as well as on an industrial 300 mm process line, further underlining the device-agnosticity of PIT. Together, these tests on a range of simulated and experimental devices demonstrate the effectiveness and robustness of PIT.
翻訳日:2022-09-09 12:56:11 公開日:2022-09-08
# CTスキャンによる肺動脈セグメンテーションのためのマルチビュー多段階およびマルチウィンドウフレームワーク

A multi view multi stage and multi window framework for pulmonary artery segmentation from CT scans ( http://arxiv.org/abs/2209.03918v1 )

ライセンス: Link先を確認
ZeYu Liu, Yi Wang, Yong Zhang, Hao Yin, Chao Guo, Zhongyu Wang(参考訳) これはPARSE2022 Challengeの最終結果の第9位の技術的報告である。 3d cnnネットワークを用いた2段階法を用いて肺動脈の分画問題を解決する。 粗いモデルはROIを見つけるために使われ、細かいモデルはセグメンテーション結果を洗練するために使用される。 また, セグメンテーション性能を向上させるため, マルチビュー・マルチウィンドウレベル手法を採用すると同時に, 不整合ラベリングの影響を軽減するため, 微調整戦略を採用する。

This is the technical report of the 9th place in the final result of PARSE2022 Challenge. We solve the segmentation problem of the pulmonary artery by using a two-stage method based on a 3D CNN network. The coarse model is used to locate the ROI, and the fine model is used to refine the segmentation result. In addition, in order to improve the segmentation performance, we adopt multi-view and multi-window level method, at the same time we employ a fine-tune strategy to mitigate the impact of inconsistent labeling.
翻訳日:2022-09-09 12:55:39 公開日:2022-09-08
# AARGH! タスク指向ダイアログのエンドツーエンド検索生成

AARGH! End-to-end Retrieval-Generation for Task-Oriented Dialog ( http://arxiv.org/abs/2209.03632v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Nekvinda, Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,単一モデルにおける検索と生成のアプローチを組み合わせたタスク指向対話システムであるAARGHについて紹介する。 本モデルでは,行動認識学習目標に基づく新たな応答選択手法と,検索と生成がパラメータの大部分を共有できるエンドツーエンド検索拡張生成モデルを構築するための簡易な単一エンコーダ検索アーキテクチャを備える。 また,MultiWOZデータセットでは,現状のベースラインと比較して,状態追跡と文脈応答生成性能を維持・改善しながら,より多様な出力を生成する。

We introduce AARGH, an end-to-end task-oriented dialog system combining retrieval and generative approaches in a single model, aiming at improving dialog management and lexical diversity of outputs. The model features a new response selection method based on an action-aware training objective and a simplified single-encoder retrieval architecture which allow us to build an end-to-end retrieval-enhanced generation model where retrieval and generation share most of the parameters. On the MultiWOZ dataset, we show that our approach produces more diverse outputs while maintaining or improving state tracking and context-to-response generation performance, compared to state-of-the-art baselines.
翻訳日:2022-09-09 12:55:06 公開日:2022-09-08
# 事前学習したインデックス言語モデルの効率的ジェンダーデバイアス

Efficient Gender Debiasing of Pre-trained Indic Language Models ( http://arxiv.org/abs/2209.03661v1 )

ライセンス: Link先を確認
Neeraja Kirtane, V Manushree, Aditya Kane(参考訳) 言語モデルが事前訓練されたデータに存在する性別バイアスは、これらのモデルを使用するシステムに反映される。 モデル固有の性バイアスは、我々の文化における女性の時代遅れで不平等な見方を示し、差別を促進する。 したがって、より公平なシステムを確立し公平性を高めるためには、これらのモデルに存在するバイアスを特定し緩和することが不可欠である。 英語ではこの分野にはかなりの量の研究があるが、他のジェンダーや低資源の言語、特にインド諸言語で研究が行われている。 英語は性のない名詞を持つ非性言語である。 英語におけるバイアス検出の方法論は、構文や意味が変化する他のジェンダー言語では直接デプロイできない。 本稿では,ヒンズー語モデルにおける職業に関連するジェンダーバイアスを測定する。 本稿では,ヒンディー語の職業性バイアスを評価するための新しいコーパスの構築と,これらのシステムにおける既存のバイアスをよく定義されたメトリックを用いて定量化し,モデルを効率的に微調整することにより緩和する。 提案手法の適応後, バイアスが低減されることが示唆された。 私たちのコードベースは公開されています。

The gender bias present in the data on which language models are pre-trained gets reflected in the systems that use these models. The model's intrinsic gender bias shows an outdated and unequal view of women in our culture and encourages discrimination. Therefore, in order to establish more equitable systems and increase fairness, it is crucial to identify and mitigate the bias existing in these models. While there is a significant amount of work in this area in English, there is a dearth of research being done in other gendered and low resources languages, particularly the Indian languages. English is a non-gendered language, where it has genderless nouns. The methodologies for bias detection in English cannot be directly deployed in other gendered languages, where the syntax and semantics vary. In our paper, we measure gender bias associated with occupations in Hindi language models. Our major contributions in this paper are the construction of a novel corpus to evaluate occupational gender bias in Hindi, quantify this existing bias in these systems using a well-defined metric, and mitigate it by efficiently fine-tuning our model. Our results reflect that the bias is reduced post-introduction of our proposed mitigation techniques. Our codebase is available publicly.
翻訳日:2022-09-09 12:54:53 公開日:2022-09-08
# 言語間単語埋め込みの視覚的接地

Visual Grounding of Inter-lingual Word-Embeddings ( http://arxiv.org/abs/2209.03714v1 )

ライセンス: Link先を確認
Wafaa Mohammed, Hassan Shahmohammadi, Hendrik P. A. Lensch, R. Harald Baayen(参考訳) 言語の視覚的な基礎化は、画像やビデオなどの視覚知識の複数のソースによる言語のテキスト表現の強化を目標としている。 視覚的接地は激しい研究の領域であるが、視覚的接地における言語的側面はあまり注目されていない。 本研究では,単語埋め込みの言語間視覚接地について検討する。 そこで本研究では,言語間情報が相互に相互作用する2つの視覚空間と言語間の暗黙的アライメント手法を提案する。 実験では英語、アラビア語、ドイツ語の3つの言語に注目した。 これらの言語の視覚的接地ベクトル表現を取得し,単語の類似度と分類ベンチマークによる埋め込み性能の向上について検討した。 本研究は,言語間知識がドイツ語や英語などの類似言語における接地埋め込みの性能を向上させることを示唆する。 しかし、ドイツ語または英語のアラビア語による言語間接地は、単語類似度ベンチマークのパフォーマンスをわずかに低下させた。 一方,アラビア語が英語に対して最も改善したカテゴリー化ベンチマークでは,逆の傾向がみられた。 議論の節では、これらの発見のいくつかの理由が述べられている。 我々の実験が言語間視覚接地に関するさらなる研究のベースラインになることを願っている。

Visual grounding of Language aims at enriching textual representations of language with multiple sources of visual knowledge such as images and videos. Although visual grounding is an area of intense research, inter-lingual aspects of visual grounding have not received much attention. The present study investigates the inter-lingual visual grounding of word embeddings. We propose an implicit alignment technique between the two spaces of vision and language in which inter-lingual textual information interacts in order to enrich pre-trained textual word embeddings. We focus on three languages in our experiments, namely, English, Arabic, and German. We obtained visually grounded vector representations for these languages and studied whether visual grounding on one or multiple languages improved the performance of embeddings on word similarity and categorization benchmarks. Our experiments suggest that inter-lingual knowledge improves the performance of grounded embeddings in similar languages such as German and English. However, inter-lingual grounding of German or English with Arabic led to a slight degradation in performance on word similarity benchmarks. On the other hand, we observed an opposite trend on categorization benchmarks where Arabic had the most improvement on English. In the discussion section, several reasons for those findings are laid out. We hope that our experiments provide a baseline for further research on inter-lingual visual grounding.
翻訳日:2022-09-09 12:54:36 公開日:2022-09-08
# 言語表現のためのグラフリカレントネットワークの事前学習

Pre-Training a Graph Recurrent Network for Language Representation ( http://arxiv.org/abs/2209.03834v1 )

ライセンス: Link先を確認
Yile Wang, Linyi Yang, Zhiyang Teng, Ming Zhou, Yue Zhang(参考訳) トランスフォーマーベースの事前学習モデルは近年大きく進歩し、自然言語処理において最も重要なバックボーンの1つとなった。 近年の研究では、Transformer内部の注意機構は必要ではなく、畳み込みニューラルネットワークと多層パーセプトロンモデルの両方がTransformer代替品として研究されている。 本稿では,言語モデル事前学習のためのグラフリカレントネットワークについて考察し,他のトークンから切り離された文レベルの表現とともに,局所的なトークンレベルの通信で各シーケンスのグラフ構造を構築する。 元々のモデルは教師付き学習の下でドメイン固有のテキスト分類においてよく機能するが、自己教師付き学習による伝達知識の潜在性は十分に活用されていない。 このギャップを、アーキテクチャを最適化し、より一般的な言語理解タスクにおいて、英語と中国語の両方でその効果を検証することで埋める。 モデル効率については, 変圧器モデルにおける二次複雑度の代わりに, 線形複雑度を持ち, 推論時により効率的に動作する。 さらに,本モデルでは,既存の注目モデルよりも文脈的特徴冗長性が少なく,より多様な出力を生成できることがわかった。

Transformer-based pre-trained models have gained much advance in recent years, becoming one of the most important backbones in natural language processing. Recent work shows that the attention mechanism inside Transformer may not be necessary, both convolutional neural networks and multi-layer perceptron based models have also been investigated as Transformer alternatives. In this paper, we consider a graph recurrent network for language model pre-training, which builds a graph structure for each sequence with local token-level communications, together with a sentence-level representation decoupled from other tokens. The original model performs well in domain-specific text classification under supervised training, however, its potential in learning transfer knowledge by self-supervised way has not been fully exploited. We fill this gap by optimizing the architecture and verifying its effectiveness in more general language understanding tasks, for both English and Chinese languages. As for model efficiency, instead of the quadratic complexity in Transformer-based models, our model has linear complexity and performs more efficiently during inference. Moreover, we find that our model can generate more diverse outputs with less contextualized feature redundancy than existing attention-based models.
翻訳日:2022-09-09 12:54:18 公開日:2022-09-08
# 深層強化学習における報酬遅延攻撃

Reward Delay Attacks on Deep Reinforcement Learning ( http://arxiv.org/abs/2209.03540v1 )

ライセンス: Link先を確認
Anindya Sarkar, Jiarui Feng, Yevgeniy Vorobeychik, Christopher Gill, and Ning Zhang(参考訳) ほとんどの強化学習アルゴリズムは暗黙的に強い同期を仮定する。 本稿では,この仮定による脆弱性を利用したQ-ラーニングを対象とする新たな攻撃手法を提案する。 我々は,標的政策の学習を目的とした標的攻撃と,報酬の低い政策の誘導を目的とした未目標攻撃の2つのタイプの攻撃目標を検討する。 提案した攻撃の有効性を一連の実験により評価した。 最初の観察では、報酬の遅延攻撃は、報酬を最小化することが目的である場合に非常に効果的である。 実際、単純なベースラインの報酬削減攻撃でさえ、報酬の最小化に成功しています。 一方,攻撃対象の攻撃はより困難であるが,提案手法が攻撃対象の達成に有効であることは証明されている。 さらに,第2の脅威モデルを導入することで,報酬がシーケンス外から使用できないことを保証する,最小の緩和策が実現される。 この緩和策は、報酬の遅れだが秩序を保つ攻撃に対して堅牢性を確保するには不十分である。

Most reinforcement learning algorithms implicitly assume strong synchrony. We present novel attacks targeting Q-learning that exploit a vulnerability entailed by this assumption by delaying the reward signal for a limited time period. We consider two types of attack goals: targeted attacks, which aim to cause a target policy to be learned, and untargeted attacks, which simply aim to induce a policy with a low reward. We evaluate the efficacy of the proposed attacks through a series of experiments. Our first observation is that reward-delay attacks are extremely effective when the goal is simply to minimize reward. Indeed, we find that even naive baseline reward-delay attacks are also highly successful in minimizing the reward. Targeted attacks, on the other hand, are more challenging, although we nevertheless demonstrate that the proposed approaches remain highly effective at achieving the attacker's targets. In addition, we introduce a second threat model that captures a minimal mitigation that ensures that rewards cannot be used out of sequence. We find that this mitigation remains insufficient to ensure robustness to attacks that delay, but preserve the order, of rewards.
翻訳日:2022-09-09 12:51:31 公開日:2022-09-08
# 制約パラメータ未知のLPのパッケージングとカバーの予測+最適化

Predict+Optimize for Packing and Covering LPs with Unknown Parameters in Constraints ( http://arxiv.org/abs/2209.03668v1 )

ライセンス: Link先を確認
Xinyi Hu, Jasper C.H. Lee, Jimmy H.M. Lee(参考訳) Predict+Optimizeは、機械学習と制約付き最適化を組み合わせて、問題解決時に未知のパラメータを含む最適化問題に取り組む、最近提案されたフレームワークである。 目的は未知のパラメータを予測し、最適化問題の最適解を推定するために推定値を使用することである。 しかしながら、全ての先行研究は、制約が正確には分かっていない場合、推定された最適解が真のパラメーターの下では実現できないという単純な理由から、未知のパラメータが制約ではなく最適化目的にのみ現れる場合に焦点を当ててきた。 この論文の貢献は2つある。 まず、目的と制約の両方に未知のパラメータを持つ予測+最適化設定のための、新しく、実際に関連するフレームワークを提案する。 補正関数の概念と損失関数における追加のペナルティ項を導入し、真のパラメータが明らかになってから最適な解を実行可能な解に修正できるが、追加コストで修正できる実用的なシナリオをモデル化する。 第2に,線形プログラムを網羅し,網羅するフレームワークについて,対応するアルゴリズムアプローチを提案する。 私たちのアプローチは、以前のmandiとgunsの作業から着想を得ています。 実験は古典的アプローチよりも優れた経験的性能を示す。

Predict+Optimize is a recently proposed framework which combines machine learning and constrained optimization, tackling optimization problems that contain parameters that are unknown at solving time. The goal is to predict the unknown parameters and use the estimates to solve for an estimated optimal solution to the optimization problem. However, all prior works have focused on the case where unknown parameters appear only in the optimization objective and not the constraints, for the simple reason that if the constraints were not known exactly, the estimated optimal solution might not even be feasible under the true parameters. The contributions of this paper are two-fold. First, we propose a novel and practically relevant framework for the Predict+Optimize setting, but with unknown parameters in both the objective and the constraints. We introduce the notion of a correction function, and an additional penalty term in the loss function, modelling practical scenarios where an estimated optimal solution can be modified into a feasible solution after the true parameters are revealed, but at an additional cost. Second, we propose a corresponding algorithmic approach for our framework, which handles all packing and covering linear programs. Our approach is inspired by the prior work of Mandi and Guns, though with crucial modifications and re-derivations for our very different setting. Experimentation demonstrates the superior empirical performance of our method over classical approaches.
翻訳日:2022-09-09 12:51:14 公開日:2022-09-08
# FAT Forensics:予測システムにおける公正性、アカウンタビリティ、透明性アルゴリズムの実装とデプロイのためのPythonツールボックス

FAT Forensics: A Python Toolbox for Implementing and Deploying Fairness, Accountability and Transparency Algorithms in Predictive Systems ( http://arxiv.org/abs/2209.03805v1 )

ライセンス: Link先を確認
Kacper Sokol and Alexander Hepburn and Rafael Poyiadzi and Matthew Clifford and Raul Santos-Rodriguez and Peter Flach(参考訳) 予測システム、特に機械学習アルゴリズムは、日々の生活に関する決定を重要かつ法的に拘束することができる。 しかし、ほとんどの場合、これらのシステムと決定は規制も認定もされない。 これらのアルゴリズムが引き起こす潜在的な害を考えると、公平性、説明責任、透明性(FAT)などの品質が最重要である。 高品質で公平で透明で信頼性の高い予測システムを実現するため、FAT Forensicsと呼ばれるオープンソースのPythonパッケージを開発しました。 予測アルゴリズムの重要な公平性、説明責任、透明性の側面を検査することで、そのようなシステムのエンジニアやユーザに自動的かつ客観的に報告することができる。 私たちのツールボックスは、データ(とその機能)、モデル、予測といった予測パイプラインのすべての要素を評価することができます。 BSD 3-Clauseオープンソースライセンスで公開されているFAT Forensicsは、個人用および商用用として公開されている。

Predictive systems, in particular machine learning algorithms, can take important, and sometimes legally binding, decisions about our everyday life. In most cases, however, these systems and decisions are neither regulated nor certified. Given the potential harm that these algorithms can cause, their qualities such as fairness, accountability and transparency (FAT) are of paramount importance. To ensure high-quality, fair, transparent and reliable predictive systems, we developed an open source Python package called FAT Forensics. It can inspect important fairness, accountability and transparency aspects of predictive algorithms to automatically and objectively report them back to engineers and users of such systems. Our toolbox can evaluate all elements of a predictive pipeline: data (and their features), models and predictions. Published under the BSD 3-Clause open source licence, FAT Forensics is opened up for personal and commercial usage.
翻訳日:2022-09-09 12:50:33 公開日:2022-09-08
# 大規模人口システムとスケーラブル・マルチエージェント強化学習に関する研究

A Survey on Large-Population Systems and Scalable Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.03859v1 )

ライセンス: Link先を確認
Kai Cui, Anam Tahir, Gizem Ekinci, Ahmed Elshamanhory, Yannick Eich, Mengguang Li, Heinz Koeppl(参考訳) 大規模人口システムの分析と制御は、疫学からロボット群、経済学、金融まで、様々な分野の研究や工学に非常に興味を寄せている。 多エージェントシステムにおけるシーケンシャルな意思決定を実現するための、ますます人気が高く効果的なアプローチは、高度に複雑なシステムの自動かつモデルフリーな分析を可能にするマルチエージェント強化学習である。 しかし、スケーラビリティの重要な問題は、特にエージェントが多数いるシステムにおいて、制御と強化学習アルゴリズムの設計を複雑にしている。 強化学習は、エージェント数が少ない多くのシナリオで経験的成功を再現するが、多くのエージェントの問題はすぐに難解になり、特別な考慮が必要となる。 本調査では,多エージェント強化学習と,平均場ゲーム,集団知性,複雑なネットワーク理論などの周辺研究の両分野を通じて,大規模人口システムを理解し,分析するための現在のアプローチに光を当てる。 これらの古典的に独立した主題領域は、大規模人口システムを理解したりモデル化したりするための様々なアプローチを提供しており、将来はトラクタブルなMARLアルゴリズムの定式化に大いに役立つかもしれない。 最後に,大規模制御への応用の可能性を調査し,実運用システムにおける学習アルゴリズムの有益な将来的応用を明らかにする。 われわれの調査は、理論や応用科学についても、中高生の研究者に洞察と今後の方向性を提供することを期待している。

The analysis and control of large-population systems is of great interest to diverse areas of research and engineering, ranging from epidemiology over robotic swarms to economics and finance. An increasingly popular and effective approach to realizing sequential decision-making in multi-agent systems is through multi-agent reinforcement learning, as it allows for an automatic and model-free analysis of highly complex systems. However, the key issue of scalability complicates the design of control and reinforcement learning algorithms particularly in systems with large populations of agents. While reinforcement learning has found resounding empirical success in many scenarios with few agents, problems with many agents quickly become intractable and necessitate special consideration. In this survey, we will shed light on current approaches to tractably understanding and analyzing large-population systems, both through multi-agent reinforcement learning and through adjacent areas of research such as mean-field games, collective intelligence, or complex network theory. These classically independent subject areas offer a variety of approaches to understanding or modeling large-population systems, which may be of great use for the formulation of tractable MARL algorithms in the future. Finally, we survey potential areas of application for large-scale control and identify fruitful future applications of learning algorithms in practical systems. We hope that our survey could provide insight and future directions to junior and senior researchers in theoretical and applied sciences alike.
翻訳日:2022-09-09 12:50:19 公開日:2022-09-08
# スパースグラフオン平均フィールドゲームを学ぶ

Learning Sparse Graphon Mean Field Games ( http://arxiv.org/abs/2209.03880v1 )

ライセンス: Link先を確認
Christian Fabian, Kai Cui, Heinz Koeppl(参考訳) マルチエージェント強化学習(MARL)の分野はここ数年でかなりの進歩を遂げてきたが、多数のエージェントによる問題解決は依然として難しい課題である。 graphon mean field games (gmfgs) はmarl問題のスケーラブルな解析を可能にする。 グラフェンの数学的構造により、このアプローチは、パワーローグラフのような多くの実世界のネットワークを記述するのに不十分な密度グラフに限定される。 本稿では,グラフ理論的概念である$L^p$グラフを用いたGMFGの新たな定式化について紹介し,スパースネットワーク問題に対する解を効率よく,正確に近似する機械学習ツールを提供する。 これは、様々な応用領域で実証的に観測され、標準のグラモンでは捉えられないパワーローネットワークを含む。 我々は理論的存在と収束の保証を導き、多数のエージェントを持つシステムに対する学習アプローチの正確性を示す実証例を与える。 さらに、オンラインミラー降下(omd)学習アルゴリズムをセットアップに厳格に拡張し、学習速度を高速化し、移行カーネルの平均フィールドを通してエージェントとのインタラクションを可能にし、その能力実証を行う。 一般に、私たちはスケーラブルで数学的によく基礎づけられた機械学習アプローチを、多くの研究分野において大きな関連性を持つ難解な問題の大きなクラスに提供します。

Although the field of multi-agent reinforcement learning (MARL) has made considerable progress in the last years, solving systems with a large number of agents remains a hard challenge. Graphon mean field games (GMFGs) enable the scalable analysis of MARL problems that are otherwise intractable. By the mathematical structure of graphons, this approach is limited to dense graphs which are insufficient to describe many real-world networks such as power law graphs. Our paper introduces a novel formulation of GMFGs, called LPGMFGs, which leverages the graph theoretical concept of $L^p$ graphons and provides a machine learning tool to efficiently and accurately approximate solutions for sparse network problems. This especially includes power law networks which are empirically observed in various application areas and cannot be captured by standard graphons. We derive theoretical existence and convergence guarantees and give empirical examples that demonstrate the accuracy of our learning approach for systems with many agents. Furthermore, we rigorously extend the Online Mirror Descent (OMD) learning algorithm to our setup to accelerate learning speed, allow for agent interaction through the mean field in the transition kernel, and empirically show its capabilities. In general, we provide a scalable, mathematically well-founded machine learning approach to a large class of otherwise intractable problems of great relevance in numerous research fields.
翻訳日:2022-09-09 12:49:57 公開日:2022-09-08
# 色付きダイグラフによる重み付きグラフの平均フィールドゲーム

Mean Field Games on Weighted and Directed Graphs via Colored Digraphons ( http://arxiv.org/abs/2209.03887v1 )

ライセンス: Link先を確認
Christian Fabian, Kai Cui, Heinz Koeppl(参考訳) マルチエージェント強化学習(MARL)の分野は、様々な学習手法を用いて、挑戦的なマルチエージェントシステムの制御に大きく進歩している。 これらのアプローチの多くは、marl問題の経験的およびアルゴリズム的側面に焦点を当てており、厳密な理論的基礎を欠いている。 一方、グラフィオン平均フィールドゲーム(GMFG)は、多数の連結エージェントを含む学習問題に対するスケーラブルで数学的に確立されたアプローチを提供する。 標準的なGMFGでは、エージェント間の接続は時間とともに無方向、無重み付き、不変である。 本稿では,時間とともに適応するエージェント間の重み付けおよび指向性リンクを可能にするカラーディグラフ平均フィールドゲーム(CDMFG)を提案する。 したがって、CDMFGは標準的なGMFGよりも複雑な接続をモデル化することができる。 本研究は,生存保証と収束保証の両方を含む厳密な理論解析の他,金融市場におけるシステムリスクのモデルと流行モデルを用いて,学習手法を提示する。

The field of multi-agent reinforcement learning (MARL) has made considerable progress towards controlling challenging multi-agent systems by employing various learning methods. Numerous of these approaches focus on empirical and algorithmic aspects of the MARL problems and lack a rigorous theoretical foundation. Graphon mean field games (GMFGs) on the other hand provide a scalable and mathematically well-founded approach to learning problems that involve a large number of connected agents. In standard GMFGs, the connections between agents are undirected, unweighted and invariant over time. Our paper introduces colored digraphon mean field games (CDMFGs) which allow for weighted and directed links between agents that are also adaptive over time. Thus, CDMFGs are able to model more complex connections than standard GMFGs. Besides a rigorous theoretical analysis including both existence and convergence guarantees, we provide a learning scheme and illustrate our findings with an epidemics model and a model of the systemic risk in financial markets.
翻訳日:2022-09-09 12:49:37 公開日:2022-09-08
# GNNにおけるサンプリングが個人の公正性に及ぼす影響の分析

Analyzing the Effect of Sampling in GNNs on Individual Fairness ( http://arxiv.org/abs/2209.03904v1 )

ライセンス: Link先を確認
Rebecca Salganik, Fernando Diaz, Golnoosh Farnadi(参考訳) グラフニューラルネットワーク(GNN)ベースの手法はレコメンダシステムの分野を飽和させた。 これらのシステムの利点は重要であり、ネットワーク構造を通してデータを解釈する利点を示している。 しかしながら、レコメンデーションタスクでグラフ構造を用いることの顕著な利点にもかかわらず、この表現形式はアルゴリズムバイアスを緩和する複雑さを悪化させる新しい課題も生み出している。 GNNがリコメンデーションなどの下流タスクに統合されると、バイアス軽減はさらに難しくなります。 さらに、既存の公正化促進手法を大規模で実世界のデータセットに適用することの難しさは、緩和の試みにさらに深刻な制約を課す。 このギャップを埋めるために,グラフ上で個別の公平性を推進し,それをミニバッチ(サブサンプルベース)でGNNのトレーニングをサポートするように拡張することで,下流レコメンデーションタスクにこの手法を適用するための土台を構築した。 グラフ全体をトレーニングするグラフ畳み込みネットワーク(GCN)と、確率的ランダムウォークを用いてミニバッチトレーニング用のサブグラフを作成し、サブサンプリングが個々のフェアネスに与える影響を評価するグラフSAGEという2つの一般的なGNN手法を評価した。 dongらによって提案された \textit{redress} と呼ばれる個々のフェアネス概念を実装し、ランク最適化を用いて個々のフェアノードやアイテムの埋め込みを学習する。 我々は2つの実世界のデータセットについて、graphsageが同等の正確性だけでなく、gcnモデルと比較して公正性も向上できることを実証的に示した。 これらの発見は、個別のフェアネス促進、GNN、下流形態のレコメンデーションシステムに対して、局所的なニュアンスが表現学習におけるフェアネス促進のプロセスを導くことによって、個別のフェアネス促進を促進することを示す。

Graph neural network (GNN) based methods have saturated the field of recommender systems. The gains of these systems have been significant, showing the advantages of interpreting data through a network structure. However, despite the noticeable benefits of using graph structures in recommendation tasks, this representational form has also bred new challenges which exacerbate the complexity of mitigating algorithmic bias. When GNNs are integrated into downstream tasks, such as recommendation, bias mitigation can become even more difficult. Furthermore, the intractability of applying existing methods of fairness promotion to large, real world datasets places even more serious constraints on mitigation attempts. Our work sets out to fill in this gap by taking an existing method for promoting individual fairness on graphs and extending it to support mini-batch, or sub-sample based, training of a GNN, thus laying the groundwork for applying this method to a downstream recommendation task. We evaluate two popular GNN methods: Graph Convolutional Network (GCN), which trains on the entire graph, and GraphSAGE, which uses probabilistic random walks to create subgraphs for mini-batch training, and assess the effects of sub-sampling on individual fairness. We implement an individual fairness notion called \textit{REDRESS}, proposed by Dong et al., which uses rank optimization to learn individual fair node, or item, embeddings. We empirically show on two real world datasets that GraphSAGE is able to achieve, not just, comparable accuracy, but also, improved fairness as compared with the GCN model. These finding have consequential ramifications to individual fairness promotion, GNNs, and in downstream form, recommender systems, showing that mini-batch training facilitate individual fairness promotion by allowing for local nuance to guide the process of fairness promotion in representation learning.
翻訳日:2022-09-09 12:49:22 公開日:2022-09-08
# 逐次的情報設計: 暗闇の中で説得する学習

Sequential Information Design: Learning to Persuade in the Dark ( http://arxiv.org/abs/2209.03927v1 )

ライセンス: Link先を確認
Martino Bernasconi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, Francesco Trovo(参考訳) 自己関心のある受信者の行動に影響を与えようとするインフォームド送信者が直面する情報設計問題の繰り返しについて検討する。 我々は,受信者が逐次意思決定(sdm)問題に直面するような設定を検討する。 各ラウンドにおいて、送信者はsdm問題におけるランダムなイベントの実現を観察する。 これは、そのような情報をレシーバーに段階的に開示して、(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。 送信者がランダムな事象の確率を知らない場合について検討し、受信機を説得しながら徐々に学習する必要がある。 まず、送信者の説得的情報構造を非自明なポリトープ近似で近似することから始める。 これは効率的な学習アルゴリズムの設計に不可欠である。 次に、我々は否定的な結果を証明する: 学習アルゴリズムは説得できない。 そこで,提案手法は,レシーバーのリコメンデーションに対する後悔が次々に増加することを保証するアルゴリズムに着目し,説得性の要求を緩和する。 送信側がすべてのランダムなイベントを観測するフルフィードバック設定 -- では、送信側と受信側の両方に対して $\tilde{O}(\sqrt{T})$ regret のアルゴリズムを提供する。 その代わりに、送信側がSDM問題で実際に発生したランダム事象の実効化のみを観測するBandit-feedback設定 -- において、入力として$\alpha \in [1/2, 1]$を与えられるアルゴリズムを設計し、送信側と受信側それぞれに対して$\tilde{O}({T^\alpha})$および$\tilde{O}(T^{\max \{ \alpha, 1-\frac {\alpha}{2} \} })$ regretsを保証します。 この結果は、このような後悔のトレードオフが本質的にタイトであることを示す下界によって補完される。

We study a repeated information design problem faced by an informed sender who tries to influence the behavior of a self-interested receiver. We consider settings where the receiver faces a sequential decision making (SDM) problem. At each round, the sender observes the realizations of random events in the SDM problem. This begets the challenge of how to incrementally disclose such information to the receiver to persuade them to follow (desirable) action recommendations. We study the case in which the sender does not know random events probabilities, and, thus, they have to gradually learn them while persuading the receiver. We start by providing a non-trivial polytopal approximation of the set of sender's persuasive information structures. This is crucial to design efficient learning algorithms. Next, we prove a negative result: no learning algorithm can be persuasive. Thus, we relax persuasiveness requirements by focusing on algorithms that guarantee that the receiver's regret in following recommendations grows sub-linearly. In the full-feedback setting -- where the sender observes all random events realizations -- , we provide an algorithm with $\tilde{O}(\sqrt{T})$ regret for both the sender and the receiver. Instead, in the bandit-feedback setting -- where the sender only observes the realizations of random events actually occurring in the SDM problem -- , we design an algorithm that, given an $\alpha \in [1/2, 1]$ as input, ensures $\tilde{O}({T^\alpha})$ and $\tilde{O}( T^{\max \{ \alpha, 1-\frac{\alpha}{2} \} })$ regrets, for the sender and the receiver respectively. This result is complemented by a lower bound showing that such a regrets trade-off is essentially tight.
翻訳日:2022-09-09 12:48:48 公開日:2022-09-08
# w-transformers : 不定時系列予測のためのウェーブレットベースのトランスフォーマフレームワーク

W-Transformers : A Wavelet-based Transformer Framework for Univariate Time Series Forecasting ( http://arxiv.org/abs/2209.03945v1 )

ライセンス: Link先を確認
Lena Sasal, Tanujit Chakraborty, Abdenour Hadid(参考訳) 近年,自然言語処理,コンピュータビジョン,異常検出,レコメンデーションシステムなど,多くの重要な分野において,トランスフォーマーを利用したディープラーニングが成功を収めている。 変圧器のいくつかの利点のうち、時系列予測には長距離の時間依存性と相互作用を捉える能力が望ましいため、様々な時系列アプリケーションでその進歩をもたらす。 本稿では,非定常時系列に対する変圧器モデルを構築する。 問題は難しいが、極めて重要である。 本稿ではウェーブレットベースのトランスフォーマーエンコーダアーキテクチャに基づく一変量時系列表現学習のための新しいフレームワークについて述べる。 提案するW-Transformerは,時系列データに最大重なり合う離散ウェーブレット変換(MODWT)を用い,分解データセット上に局所変換器を構築し,時系列における非定常性および長距離非線形依存性を鮮明に捉える。 様々な領域から公開されているベンチマーク時系列データセットと様々な特性を用いてフレームワークの評価を行い、数百のトレーニングサンプルからなるデータセットであっても、短期および長期予測のベースライン予測よりも平均的にはるかに優れた性能を示すことを示した。

Deep learning utilizing transformers has recently achieved a lot of success in many vital areas such as natural language processing, computer vision, anomaly detection, and recommendation systems, among many others. Among several merits of transformers, the ability to capture long-range temporal dependencies and interactions is desirable for time series forecasting, leading to its progress in various time series applications. In this paper, we build a transformer model for non-stationary time series. The problem is challenging yet crucially important. We present a novel framework for univariate time series representation learning based on the wavelet-based transformer encoder architecture and call it W-Transformer. The proposed W-Transformers utilize a maximal overlap discrete wavelet transformation (MODWT) to the time series data and build local transformers on the decomposed datasets to vividly capture the nonstationarity and long-range nonlinear dependencies in the time series. Evaluating our framework on several publicly available benchmark time series datasets from various domains and with diverse characteristics, we demonstrate that it performs, on average, significantly better than the baseline forecasters for short-term and long-term forecasting, even for datasets that consist of only a few hundred training samples.
翻訳日:2022-09-09 12:48:08 公開日:2022-09-08
# 球面上のスケール不変ニューラルネットワークの学習は3つのレジームで起こりうる

Training Scale-Invariant Neural Networks on the Sphere Can Happen in Three Regimes ( http://arxiv.org/abs/2209.03695v1 )

ライセンス: Link先を確認
Maxim Kodryan, Ekaterina Lobacheva, Maksim Nakhodnov, Dmitry Vetrov(参考訳) バッチ正規化のようなディープラーニング正規化技法の基本的な特性は、プレ正規化パラメータを不変にすることである。 このようなパラメータの本質的な領域は単位球であり、従ってそれらの勾配最適化のダイナミクスは、以前に研究された様々な有効学習率 (ELR) で球面最適化によって表現することができる。 本研究では,固定型elrを用いて,球面上で直接学習するスケール不変ニューラルネットワークの特性について検討する。 本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。 本研究では,おもちゃの例を理論的に検証し,実スケール不変深層学習モデルの徹底的な実験的検討を行った。 各レジームは独自の特徴を持ち、本質的損失景観の特定の特性を反映している。 最後に, 従来の正規化ネットワークのトレーニングにおいて, 発見されたレジームがどのように反映され, より優れた最適化を実現するためにどのように活用できるかを示す。

A fundamental property of deep learning normalization techniques, such as batch normalization, is making the pre-normalization parameters scale invariant. The intrinsic domain of such parameters is the unit sphere, and therefore their gradient optimization dynamics can be represented via spherical optimization with varying effective learning rate (ELR), which was studied previously. In this work, we investigate the properties of training scale-invariant neural networks directly on the sphere using a fixed ELR. We discover three regimes of such training depending on the ELR value: convergence, chaotic equilibrium, and divergence. We study these regimes in detail both on a theoretical examination of a toy example and on a thorough empirical analysis of real scale-invariant deep learning models. Each regime has unique features and reflects specific properties of the intrinsic loss landscape, some of which have strong parallels with previous research on both regular and scale-invariant neural networks training. Finally, we demonstrate how the discovered regimes are reflected in conventional training of normalized networks and how they can be leveraged to achieve better optima.
翻訳日:2022-09-09 12:45:29 公開日:2022-09-08
# 識別的特徴フィードバックを用いた学習のためのロバストアルゴリズムの改良

Improved Robust Algorithms for Learning with Discriminative Feature Feedback ( http://arxiv.org/abs/2209.03753v1 )

ライセンス: Link先を確認
Sivan Sabato(参考訳) 差別的特徴フィードバック(distriminative Feature Feedback)は、Dastupta et al. (2018)によって提案された、人間の教師によって提供される特徴説明に基づく対話型学習のためのプロトコルである。 これらの特徴は、おそらく類似したインスタンスのペアのラベルを区別する。 この研究は、このモデルにおける学習が、標準ラベルに基づく対話型学習モデルにおける学習よりも統計的、計算的優位性を持つことを示した。 本研究では,識別的特徴フィードバックモデルに対して,従来の頑健なアルゴリズムよりもはるかに低い誤り境界を持つ,新しい頑健な対話型学習アルゴリズムを提案する。 逆向きの設定では、プロトコル例外の数を二次から線型への依存性を減少させる。 さらに,より限定的なモデルに対するアルゴリズムを提供し,例外が多い大規模モデルに対して,さらに小さな誤り点を求める。 確率的な設定では、多項式のサンプル複雑性を伴う例外率に収束する最初のアルゴリズムを提供する。 確率的設定のアルゴリズムと解析には,特徴的影響と呼ばれる,より広い適用可能性を持つ新しい構成が含まれている。

Discriminative Feature Feedback is a setting proposed by Dastupta et al. (2018), which provides a protocol for interactive learning based on feature explanations that are provided by a human teacher. The features distinguish between the labels of pairs of possibly similar instances. That work has shown that learning in this model can have considerable statistical and computational advantages over learning in standard label-based interactive learning models. In this work, we provide new robust interactive learning algorithms for the Discriminative Feature Feedback model, with mistake bounds that are significantly lower than those of previous robust algorithms for this setting. In the adversarial setting, we reduce the dependence on the number of protocol exceptions from quadratic to linear. In addition, we provide an algorithm for a slightly more restricted model, which obtains an even smaller mistake bound for large models with many exceptions. In the stochastic setting, we provide the first algorithm that converges to the exception rate with a polynomial sample complexity. Our algorithm and analysis for the stochastic setting involve a new construction that we call Feature Influence, which may be of wider applicability.
翻訳日:2022-09-09 12:45:09 公開日:2022-09-08
# 強化学習による空中視野目標定位

Aerial View Goal Localization with Reinforcement Learning ( http://arxiv.org/abs/2209.03694v1 )

ライセンス: Link先を確認
Aleksis Pirinen, Anton Samuelsson, John Backsund, Kalle {\AA}str\"om(参考訳) 無人航空機(uavs)やその他のリモートセンシングデバイス(衛星など)の量と可用性が高まり、最近、航空映像データに対するコンピュータビジョンの手法が大幅に増加した。 そのような技術の応用の一つはサー(search-and-rescue, サー)であり、例えば自然災害後など、行方不明の1人または複数の人をローカライズし支援することである。 多くの場合、荒い場所が知られ、UAVを展開して、与えられた限られた地域を探索し、行方不明者の正確な位置を特定できる。 時間とバッテリーの制約のため、ローカライゼーションを可能な限り効率的に行うことが重要である。 本研究では,実際のuavへのアクセスを必要とせず,sarライクな設定をエミュレートする枠組みにおいて,air aerial view goal localizationタスクとして抽象化することにより,この問題にアプローチする。 この枠組みでは、エージェントは空中画像(探索領域のプロキシ)上で動作し、視覚的な手がかりで記述された目標のローカライズを任務とする。 実際のUAVの状況をさらに模倣するためには、エージェントは低解像度でも検索エリア全体を観察することができず、目標に向かって航行する際には、部分的な視線に基づいてのみ操作する必要がある。 この課題に対処するために,探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルであるAiRLocを提案する。 AiRLocはヒューリスティック検索法や学習可能な代替手法よりも優れていた。 また、概念実証実験を行い、学習可能な手法が人間を平均的に上回ることを示す。 コードは公開されている。 https://github.com/aleksispi/airloc。

With an increased amount and availability of unmanned aerial vehicles (UAVs) and other remote sensing devices (e.g. satellites), we have recently seen a vast increase in computer vision methods for aerial view data. One application of such technologies is within search-and-rescue (SAR), where the task is to localize and assist one or several people who are missing, for example after a natural disaster. In many cases the rough location may be known and a UAV can be deployed to explore a given, confined area to precisely localize the missing people. Due to time and battery constraints it is often critical that localization is performed as efficiently as possible. In this work, we approach this type of problem by abstracting it as an aerial view goal localization task in a framework that emulates a SAR-like setup without requiring access to actual UAVs. In this framework, an agent operates on top of an aerial image (proxy for a search area) and is tasked with localizing a goal that is described in terms of visual cues. To further mimic the situation on an actual UAV, the agent is not able to observe the search area in its entirety, not even at low resolution, and thus it has to operate solely based on partial glimpses when navigating towards the goal. To tackle this task, we propose AiRLoc, a reinforcement learning (RL)-based model that decouples exploration (searching for distant goals) and exploitation (localizing nearby goals). Extensive evaluations show that AiRLoc outperforms heuristic search methods as well as alternative learnable approaches. We also conduct a proof-of-concept study which indicates that the learnable methods outperform humans on average. Code has been made publicly available: https://github.com/aleksispi/airloc.
翻訳日:2022-09-09 12:44:30 公開日:2022-09-08
# 軽量ロングランジ生成対向ネットワーク

Lightweight Long-Range Generative Adversarial Networks ( http://arxiv.org/abs/2209.03793v1 )

ライセンス: Link先を確認
Bowen Li, Thomas Lukasiewicz(参考訳) 本稿では,画像生成プロセスの長距離依存性を効果的に捉え,よりシンプルなアーキテクチャで高品質な結果を生成する,新しい軽量生成逆ネットワークを提案する。 これを実現するために,まず,ネットワークが集束したサンプリング画素数を動的に調整し,サンプリング位置を増加させる長距離モジュールを導入する。 これにより、畳み込み演算子の固定幾何構造の制限を破り、空間的およびチャネル的に長い範囲の依存関係を捉えることができる。 また、提案された長距離モジュールはピクセル間の負の関係を強調することができ、トレーニングを安定化するための正規化として機能する。 さらに、画像生成プロセスにメタデータを導入し、目標画像に関する基本的な情報を提供し、トレーニングプロセスの安定化と高速化を可能にする新しい生成戦略を提案する。 提案する長距離モジュールは,少数のパラメータしか導入せず,既存モデルに容易に挿入して長距離依存性をキャプチャする。 広範な実験により,この手法の軽量アーキテクチャによる競合性能を実証した。

In this paper, we introduce novel lightweight generative adversarial networks, which can effectively capture long-range dependencies in the image generation process, and produce high-quality results with a much simpler architecture. To achieve this, we first introduce a long-range module, allowing the network to dynamically adjust the number of focused sampling pixels and to also augment sampling locations. Thus, it can break the limitation of the fixed geometric structure of the convolution operator, and capture long-range dependencies in both spatial and channel-wise directions. Also, the proposed long-range module can highlight negative relations between pixels, working as a regularization to stabilize training. Furthermore, we propose a new generation strategy through which we introduce metadata into the image generation process to provide basic information about target images, which can stabilize and speed up the training process. Our novel long-range module only introduces few additional parameters and is easily inserted into existing models to capture long-range dependencies. Extensive experiments demonstrate the competitive performance of our method with a lightweight architecture.
翻訳日:2022-09-09 12:44:00 公開日:2022-09-08
# トラフィック予測のためのグラフ畳み込みリカレントニューラルネットワークセルを用いたマルチレベル抽象化

Simpler is better: Multilevel Abstraction with Graph Convolutional Recurrent Neural Network Cells for Traffic Prediction ( http://arxiv.org/abs/2209.03858v1 )

ライセンス: Link先を確認
Naghmeh Shafiee Roudbari, Zachary Patterson, Ursula Eicker, Charalambos Poullis(参考訳) 近年、グラフニューラルネットワーク(GNN)とリカレントニューラルネットワーク(RNN)の変種を組み合わせることで、時空間予測タスクにおける最先端のパフォーマンスが向上している。 これは特に交通予測において、GNNモデルは道路網のグラフ構造を用いてリンクとノード間の空間的相関を考慮している。 最近のソリューションは、複雑なグラフ操作に基づくか、事前に定義されたグラフを避けるかのいずれかである。 本稿では,GNN-RNNセルとスパースアーキテクチャを用いて,複数の抽象化レベルの時空間相関を抽出し,より複雑な設計に比べてトレーニング時間を短縮する。 同一の入力シーケンスを複数のエンコーダでエンコードし、エンコーダ層が漸進的に増加することにより、ネットワークはマルチレベル抽象化を通じて一般的な詳細情報を学習することができる。 さらに,カナダ・モントリオールの街路レベルのトラフィックデータのベンチマークデータセットを提案する。 高速道路とは異なり、都市道路のセグメントは周期的であり、複雑な空間依存によって特徴づけられる。 METR-LAベンチマークハイウェイとMSLTDストリートレベルセグメントデータセットによる実験結果から,本モデルでは,ベースライン手法と比較して1時間予測で7%以上性能が向上し,計算資源の要求を他の競合手法に比べて半分以上削減した。

In recent years, graph neural networks (GNNs) combined with variants of recurrent neural networks (RNNs) have reached state-of-the-art performance in spatiotemporal forecasting tasks. This is particularly the case for traffic forecasting, where GNN models use the graph structure of road networks to account for spatial correlation between links and nodes. Recent solutions are either based on complex graph operations or avoiding predefined graphs. This paper proposes a new sequence-to-sequence architecture to extract the spatiotemporal correlation at multiple levels of abstraction using GNN-RNN cells with sparse architecture to decrease training time compared to more complex designs. Encoding the same input sequence through multiple encoders, with an incremental increase in encoder layers, enables the network to learn general and detailed information through multilevel abstraction. We further present a new benchmark dataset of street-level segment traffic data from Montreal, Canada. Unlike highways, urban road segments are cyclic and characterized by complicated spatial dependencies. Experimental results on the METR-LA benchmark highway and our MSLTD street-level segment datasets demonstrate that our model improves performance by more than 7% for one-hour prediction compared to the baseline methods while reducing computing resource requirements by more than half compared to other competing methods.
翻訳日:2022-09-09 12:43:44 公開日:2022-09-08
# 予習顔生成のための自然言語インタフェースのテキストフリー学習

Text-Free Learning of a Natural Language Interface for Pretrained Face Generators ( http://arxiv.org/abs/2209.03953v1 )

ライセンス: Link先を確認
Xiaodan Du, Raymond A. Yeh, Nicholas Kolkin, Eli Shechtman, Greg Shakhnarovich(参考訳) 我々は,テキスト誘導型人顔合成に事前学習されたGANを適応させる自然言語インタフェースであるFast text2StyleGANを提案する。 Contrastive Language-Image Pre-training (CLIP)の最近の進歩を活用して、トレーニング中にテキストデータを必要としない。 Fast text2StyleGANは条件付き変分オートエンコーダ(CVAE)として定式化され、テスト時に生成された画像に余分な制御と多様性を提供する。 私たちのモデルは、新しいテキストプロンプトに遭遇するとき、ganやクリップの再トレーニングや微調整を必要としません。 以前の作業とは対照的に、テスト時の最適化には依存せず、以前の作業よりも桁違いに高速にメソッドを実行します。 実験的に、FFHQデータセット上で、我々の手法は、以前の作業と比べて様々なレベルの詳細を持つ自然言語記述から、より高速で正確な画像を生成する。

We propose Fast text2StyleGAN, a natural language interface that adapts pre-trained GANs for text-guided human face synthesis. Leveraging the recent advances in Contrastive Language-Image Pre-training (CLIP), no text data is required during training. Fast text2StyleGAN is formulated as a conditional variational autoencoder (CVAE) that provides extra control and diversity to the generated images at test time. Our model does not require re-training or fine-tuning of the GANs or CLIP when encountering new text prompts. In contrast to prior work, we do not rely on optimization at test time, making our method orders of magnitude faster than prior work. Empirically, on FFHQ dataset, our method offers faster and more accurate generation of images from natural language descriptions with varying levels of detail compared to prior work.
翻訳日:2022-09-09 12:43:22 公開日:2022-09-08
# 多視点知識グラフ埋め込みを用いた文化遺産のジオロケーション

Geolocation of Cultural Heritage using Multi-View Knowledge Graph Embedding ( http://arxiv.org/abs/2209.03638v1 )

ライセンス: Link先を確認
Hebatallah A. Mohamed, Sebastiano Vascon, Feliks Hibraj, Stuart James, Diego Pilutti, Alessio Del Bue, and Marcello Pelillo(参考訳) 知識グラフ(KG)は、データを構造化する信頼性の高い方法であることが証明されている。 文化遺産に関する豊富な文脈情報を提供することができる。 しかし、文化遺産のKGは完成には程遠い。 地理的な位置、特に彫刻や絵画のような移動体や屋内の実体などの重要な特徴を欠いていることが多い。 本稿では,まず,様々なデータソースから有形文化遺産に関する知識と,それらの連結されたマルチホップ知識を現地化kgに取り込み,その知識を取り込む枠組みを提案する。 次に,その地理的および知識的関連性に基づいて,与えられた文化遺産間の相対的距離を推定する多視点学習モデルを提案する。

Knowledge Graphs (KGs) have proven to be a reliable way of structuring data. They can provide a rich source of contextual information about cultural heritage collections. However, cultural heritage KGs are far from being complete. They are often missing important attributes such as geographical location, especially for sculptures and mobile or indoor entities such as paintings. In this paper, we first present a framework for ingesting knowledge about tangible cultural heritage entities from various data sources and their connected multi-hop knowledge into a geolocalized KG. Secondly, we propose a multi-view learning model for estimating the relative distance between a given pair of cultural heritage entities, based on the geographical as well as the knowledge connections of the entities.
翻訳日:2022-09-09 12:43:07 公開日:2022-09-08
# 低リソース設定における知識ベーステンプレート機械翻訳

Knowledge Based Template Machine Translation In Low-Resource Setting ( http://arxiv.org/abs/2209.03554v1 )

ライセンス: Link先を確認
Zilu Tang, Derry Wijaya(参考訳) ニューラルネットワーク翻訳(NMT)システムへのタグ付けの導入は、名前付きエンティティ(NE)のような稀な単語の翻訳を支援する上で有望な結果を示している。 しかし、低リソース環境でのNEの翻訳は依然として課題である。 本研究では,異なる資源条件下での並列コーパスにおける知識グラフ(KG)からのタグとNEハイパーネムの使用効果を検討する。 タッグ・アンド・コピー機構(ソース文中のnesをタグ付けしてターゲット文にコピーする)は、高リソース設定でのみ翻訳を改善する。 コピーの導入はまた、異なる音声(POS)の翻訳における分極効果をもたらす。 興味深いことに、ハイパーニムのコピー精度はエンティティのコピー精度よりも一貫して高い。 希少なエンティティのブートストラップにおける"ハード"コピーとhypernymの利用を避ける方法として,"ソフト"タグ機構を導入し,高リソースと低リソース設定で一貫した改善が得られた。

Incorporating tagging into neural machine translation (NMT) systems has shown promising results in helping translate rare words such as named entities (NE). However, translating NE in low-resource setting remains a challenge. In this work, we investigate the effect of using tags and NE hypernyms from knowledge graphs (KGs) in parallel corpus in different levels of resource conditions. We find the tag-and-copy mechanism (tag the NEs in the source sentence and copy them to the target sentence) improves translation in high-resource settings only. Introducing copying also results in polarizing effects in translating different parts-of-speech (POS). Interestingly, we find that copy accuracy for hypernyms is consistently higher than that of entities. As a way of avoiding "hard" copying and utilizing hypernym in bootstrapping rare entities, we introduced a "soft" tagging mechanism and found consistent improvement in high and low-resource settings.
翻訳日:2022-09-09 12:38:17 公開日:2022-09-08
# カーネル分離トランスポージ畳み込み動作

Kernel-Segregated Transpose Convolution Operation ( http://arxiv.org/abs/2209.03704v1 )

ライセンス: Link先を確認
Vijay Srinivas Tida, Sai Venkatesh Chilukoti, Xiali Hei, Sonya Hsu(参考訳) 変換畳み込みは多くのディープラーニングアプリケーションで顕著である。 しかし,各列と列の各要素にゼロを加算することにより特徴写像のサイズが大きくなるため,変換畳み込み層は計算集約的である。 したがって、拡張された入力特徴マップ上の畳み込み操作は、ハードウェアリソースの活用を損なう。 不要な乗算演算の主な理由は、入力特徴マップにおける予め定義された位置における零点である。 これらの問題を解決するために,効果的な畳み込み実装のためのアルゴリズムレベルの最適化手法を提案する。 カーネルアクティベーションに基づいて、元のカーネルを4つのサブカーネルに分離する。 このスキームはメモリ要求と不要な乗算を減らすことができる。 提案手法はtitan x gpu (intel dual core cpu) とkaggle webサイトのフラワーデータセットを用いた3.09 (3.02) \times$高速計算である。 さらに,提案手法はハードウェアを必要とせずに既存デバイスに一般化することができる。 1つの転置畳み込み層を含む簡易深層学習モデルを用いて最適化手法の評価を行った。 MNISTデータセットとIntel Dual-core CPUを使用した2.2 \times$のトレーニングを従来の実装よりも高速化した。

Transpose convolution has shown prominence in many deep learning applications. However, transpose convolution layers are computationally intensive due to the increased feature map size due to adding zeros after each element in each row and column. Thus, convolution operation on the expanded input feature map leads to poor utilization of hardware resources. The main reason for unnecessary multiplication operations is zeros at predefined positions in the input feature map. We propose an algorithmic-level optimization technique for the effective transpose convolution implementation to solve these problems. Based on kernel activations, we segregated the original kernel into four sub-kernels. This scheme could reduce memory requirements and unnecessary multiplications. Our proposed method was $3.09 (3.02) \times$ faster computation using the Titan X GPU (Intel Dual Core CPU) with a flower dataset from the Kaggle website. Furthermore, the proposed optimization method can be generalized to existing devices without additional hardware requirements. A simple deep learning model containing one transpose convolution layer was used to evaluate the optimization method. It showed $2.2 \times$ faster training using the MNIST dataset with an Intel Dual-core CPU than the conventional implementation.
翻訳日:2022-09-09 12:36:59 公開日:2022-09-08
# 機械学習の透明性とは何か - 相互運用可能なアルゴリズムコンポーネントによる説明可能性ツールの構築

What and How of Machine Learning Transparency: Building Bespoke Explainability Tools with Interoperable Algorithmic Components ( http://arxiv.org/abs/2209.03813v1 )

ライセンス: Link先を確認
Kacper Sokol and Alexander Hepburn and Raul Santos-Rodriguez and Peter Flach(参考訳) 人工知能と機械学習アルゴリズムに基づくデータ駆動予測モデルの説明可能性技術により、そのようなシステムの動作をよりよく理解し、それらを説明できる。 新しい透明性アプローチがブレークネックスピードで開発され、これらのブラックボックスの内部を覗き込み、彼らの決定を解釈することができます。 これらのテクニックの多くはモノリシックなツールとして導入され、カスタマイズ性に制限のあるワンサイズとエンドツーエンドのアルゴリズムの印象を与える。 しかしながら、そのようなアプローチは、しばしば意味のある説明を生み出すために、問題に手動でチューニングする必要がある複数の交換可能な加群から成り立っている。 本稿では,表データ用モジュール式サロゲート説明器の構築と評価プロセスを通じて指導を行う,ハンズオン学習教材(スライド,ビデオ録画,jupyterノートブック)のコレクションを紹介する。 これらのリソースは、解釈可能な表現合成、データサンプリング、説明生成の3つのコアビルディングブロックをカバーする。

Explainability techniques for data-driven predictive models based on artificial intelligence and machine learning algorithms allow us to better understand the operation of such systems and help to hold them accountable. New transparency approaches are developed at breakneck speed, enabling us to peek inside these black boxes and interpret their decisions. Many of these techniques are introduced as monolithic tools, giving the impression of one-size-fits-all and end-to-end algorithms with limited customisability. Nevertheless, such approaches are often composed of multiple interchangeable modules that need to be tuned to the problem at hand to produce meaningful explanations. This paper introduces a collection of hands-on training materials -- slides, video recordings and Jupyter Notebooks -- that provide guidance through the process of building and evaluating bespoke modular surrogate explainers for tabular data. These resources cover the three core building blocks of this technique: interpretable representation composition, data sampling and explanation generation.
翻訳日:2022-09-09 12:36:45 公開日:2022-09-08
# 合成開口ソナー画像のためのヒストグラム層

Histogram Layers for Synthetic Aperture Sonar Imagery ( http://arxiv.org/abs/2209.03878v1 )

ライセンス: Link先を確認
Joshua Peeples, Alina Zare, Jeffrey Dale, James Keller(参考訳) 合成開口ソナー(sas)画像はターゲット認識や環境セグメンテーションなど,いくつかの応用において重要である。 深層学習モデルは、SAS分析において大きな成功を収めてきたが、これらの手法によって抽出された特徴は、特定のテクスチャ情報を取得するには適していないかもしれない。 そこで本研究では,SAS画像へのヒストグラム層の適用について述べる。 ディープラーニングモデルにヒストグラム層を追加することで、合成データセットと実世界のデータセットの統計テクスチャ情報を組み込むことにより、パフォーマンスが向上した。

Synthetic aperture sonar (SAS) imagery is crucial for several applications, including target recognition and environmental segmentation. Deep learning models have led to much success in SAS analysis; however, the features extracted by these approaches may not be suitable for capturing certain textural information. To address this problem, we present a novel application of histogram layers on SAS imagery. The addition of histogram layer(s) within the deep learning models improved performance by incorporating statistical texture information on both synthetic and real-world datasets.
翻訳日:2022-09-09 12:32:55 公開日:2022-09-08
# PixTrack: NeRFテンプレートと特徴量アライメントによる6DoFオブジェクトの精密追跡

PixTrack: Precise 6DoF Object Pose Tracking using NeRF Templates and Feature-metric Alignment ( http://arxiv.org/abs/2209.03910v1 )

ライセンス: Link先を確認
Prajwal Chidananda, Saurabh Nair, Douglas Lee, Adrian Kaehler(参考訳) 本稿では、新しいビュー合成と深い特徴量アライメントを用いた視覚に基づくオブジェクトポーズ追跡フレームワークPixTrackを提案する。 提案手法は,RGB画像中のオブジェクトをデータアノテーションや軌道平滑化を必要とせず,高精度で頑健でジッタフリーな6DoFで推定できることを示す。 また,提案手法は計算効率が良く,マルチオブジェクト追跡の容易化やCPUマルチプロセッシングの利用が可能である。

We present PixTrack, a vision based object pose tracking framework using novel view synthesis and deep feature-metric alignment. Our evaluations demonstrate that our method produces highly accurate, robust, and jitter-free 6DoF pose estimates of objects in RGB images without the need of any data annotation or trajectory smoothing. Our method is also computationally efficient making it easy to have multi-object tracking with no alteration to our method and just using CPU multiprocessing.
翻訳日:2022-09-09 12:32:46 公開日:2022-09-08
# 適応置換変異と自動構築サブプログラムアーカイブによる知識駆動型プログラム合成

Knowledge-Driven Program Synthesis via Adaptive Replacement Mutation and Auto-constructed Subprogram Archives ( http://arxiv.org/abs/2209.03736v1 )

ライセンス: Link先を確認
Yifan He, Claus Aranha, Tetsuya Sakurai(参考訳) 本稿では,プログラム合成課題の変種として知識駆動型プログラム合成(KDPS)を導入する。 KDPSでは、エージェントは以前の問題からの知識を使用して、後の問題を解決する。 我々は,サブプログラムを知識として扱うKDPS問題を解決するために,PushGPに基づく新しい手法を提案する。 提案手法は,Even Partitioning (EP) 法によって解決された問題の解からサブプログラムを抽出し,Adaptive Replacement Mutation (ARM) を用いた今後のプログラミング課題を解決する。 我々はPushGP+EP+ARMと呼ぶ。 PushGP+EP+ARMでは、知識抽出と利用プロセスに人的努力は必要ない。 提案手法をpushgpと比較し,人間が手動で抽出したサブプログラムを用いた方法を提案する。 PushGP+EP+ARMは、PushGPよりも列車エラー、成功数、高速収束を実現しています。 さらに,6つのプログラム合成問題を連続的に解く場合,PushGP+EP+ARMの優位性を示す。

We introduce Knowledge-Driven Program Synthesis (KDPS) as a variant of the program synthesis task that requires the agent to solve a sequence of program synthesis problems. In KDPS, the agent should use knowledge from the earlier problems to solve the later ones. We propose a novel method based on PushGP to solve the KDPS problem, which takes subprograms as knowledge. The proposed method extracts subprograms from the solution of previously solved problems by the Even Partitioning (EP) method and uses these subprograms to solve the upcoming programming task using Adaptive Replacement Mutation (ARM). We call this method PushGP+EP+ARM. With PushGP+EP+ARM, no human effort is required in the knowledge extraction and utilization processes. We compare the proposed method with PushGP, as well as a method using subprograms manually extracted by a human. Our PushGP+EP+ARM achieves better train error, success count, and faster convergence than PushGP. Additionally, we demonstrate the superiority of PushGP+EP+ARM when consecutively solving a sequence of six program synthesis problems.
翻訳日:2022-09-09 12:32:38 公開日:2022-09-08
# 抽出は忠実ではない:抽出要約における幅広い不誠実性問題の検討

Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization ( http://arxiv.org/abs/2209.03549v1 )

ライセンス: Link先を確認
Shiyue Zhang, David Wan, Mohit Bansal(参考訳) 不誠実な要約の問題は抽象的な要約の文脈で広く議論されてきた。 抽出的要約は抽象的要約の一般的な不利な問題よりも少ないが、抽出的要約は忠実であることを意味するのだろうか? 答えはノーであることが判明した。 本研究では,不正確なコリファレンス,不完全コリファレンス,不正確な談話,不完全な談話,不完全な談話,その他の誤解を招く情報を含む,抽出要約に現れる5種類の広範な不満足な問題(補足を含む,補足しないものを含む)の類型を定義する。 15種類の抽出システムによって生成された1500の英語サマリーのうち、これらの問題を人間にラベル付けするよう求めた。 要約の33%は、少なくとも5つの問題のうちの1つを持っている。 これらの問題を自動的に検出するため、5つの既存忠実度評価指標が人間の判断とあまり相関しないことがわかった。 そこで本研究では,不誠実な抽出サマリーを検出するための新しい指標ExtEvalを提案する。 我々の研究が、抽出的な要約における不誠実な問題に対する認識を高め、これらの問題を評価し解決する将来の作業を支援することを願っている。 私たちのデータとコードはhttps://github.com/zhangshiyue/extractive_is_not_faithfulで公開されている。

The problems of unfaithful summaries have been widely discussed under the context of abstractive summarization. Though extractive summarization is less prone to the common unfaithfulness issues of abstractive summaries, does that mean extractive is equal to faithful? Turns out that the answer is no. In this work, we define a typology with five types of broad unfaithfulness problems (including and beyond not-entailment) that can appear in extractive summaries, including incorrect coreference, incomplete coreference, incorrect discourse, incomplete discourse, as well as other misleading information. We ask humans to label these problems out of 1500 English summaries produced by 15 diverse extractive systems. We find that 33% of the summaries have at least one of the five issues. To automatically detect these problems, we find that 5 existing faithfulness evaluation metrics for summarization have poor correlations with human judgment. To remedy this, we propose a new metric, ExtEval, that is designed for detecting unfaithful extractive summaries and is shown to have the best performance. We hope our work can increase the awareness of unfaithfulness problems in extractive summarization and help future work to evaluate and resolve these issues. Our data and code are publicly available at https://github.com/ZhangShiyue/extractive_is_not_faithful
翻訳日:2022-09-09 12:32:06 公開日:2022-09-08
# 視覚概念の意味的類似性に関する言語モデルの説明可能な評価に向けて

Towards explainable evaluation of language models on the semantic similarity of visual concepts ( http://arxiv.org/abs/2209.03723v1 )

ライセンス: Link先を確認
Maria Lymperaiou, George Manoliadis, Orfeas Menis Mastromichalakis, Edmund G. Dervakos and Giorgos Stamou(参考訳) トランスフォーマーモデルの出現のような最近のNLP研究のブレークスルーは、いくつかのタスクにおいて大きな進歩をもたらした。 しかし、評価戦略の堅牢性と説明可能性の問題を研究する研究はほとんどない。 本研究では,視覚語彙の意味的類似性に着目し,ハイパフォーマンスな事前学習言語モデルの振る舞いを検討する。 まず、検索したインスタンスの概念的品質を理解するために必要な、説明可能な評価指標の必要性に対処する。 提案するメトリクスは,地域およびグローバルレベルで貴重な洞察を提供し,広く使用されているアプローチの不安定性を示す。 第二に、サルエントなクエリセマンティクスに対する敵対的介入は、不透明なメトリクスの脆弱性を露呈し、学習した言語表現のパターンを強調する。

Recent breakthroughs in NLP research, such as the advent of Transformer models have indisputably contributed to major advancements in several tasks. However, few works research robustness and explainability issues of their evaluation strategies. In this work, we examine the behavior of high-performing pre-trained language models, focusing on the task of semantic similarity for visual vocabularies. First, we address the need for explainable evaluation metrics, necessary for understanding the conceptual quality of retrieved instances. Our proposed metrics provide valuable insights in local and global level, showcasing the inabilities of widely used approaches. Secondly, adversarial interventions on salient query semantics expose vulnerabilities of opaque metrics and highlight patterns in learned linguistic representations.
翻訳日:2022-09-09 12:31:44 公開日:2022-09-08
# idiapers @ causal news corpus 2022: pre-trained autoregressive language modelによる因果効果信号三重項の抽出

IDIAPers @ Causal News Corpus 2022: Extracting Cause-Effect-Signal Triplets via Pre-trained Autoregressive Language Model ( http://arxiv.org/abs/2209.03891v1 )

ライセンス: Link先を確認
Martin Fajcik, Muskaan Singh, Juan Zuluaga-Gomez, Esa\'u Villatoro-Tello, Sergio Burdisso, Petr Motlicek, Pavel Smrz(参考訳) 本稿では,CASE-2022, Event Causality Identification with Casual News CorpusにおけるSubtask 2に対するタスクの共有について述べる。 この課題は、ニュースメディアから文中のすべての因果効果信号スパンを自動的に検出することに焦点を当てた。 事前学習された自己回帰言語モデルであるt5を用いて文中の因果効果信号スパンを検出する。 我々は、常に予測された次の三重項の予測を条件に、すべての因果効果信号スパン三重項を反復的に識別する。 三重項自体を予測するために、原因$\rightarrow$effect$\rightarrow$signalのような異なる因果関係を考える。 各トリプレット成分は、文、現在のトリプレットの前部、および以前に予測されたトリプレットに基づいて、言語モデルを介して生成される。 非常に小さな160サンプルのデータセットをトレーニングしたにもかかわらず、我々のアプローチは競争性能を達成し、競争では2位となった。 さらに、$\rightarrow$ effect または effect$\rightarrow$ cause order のいずれかを仮定すると、同様の結果が得られることを示す。 私たちのコードとモデル予測はオンラインでリリースされます。

In this paper, we describe our shared task submissions for Subtask 2 in CASE-2022, Event Causality Identification with Casual News Corpus. The challenge focused on the automatic detection of all cause-effect-signal spans present in the sentence from news-media. We detect cause-effect-signal spans in a sentence using T5 -- a pre-trained autoregressive language model. We iteratively identify all cause-effect-signal span triplets, always conditioning the prediction of the next triplet on the previously predicted ones. To predict the triplet itself, we consider different causal relationships such as cause$\rightarrow$effect$\rightarrow$signal. Each triplet component is generated via a language model conditioned on the sentence, the previous parts of the current triplet, and previously predicted triplets. Despite training on an extremely small dataset of 160 samples, our approach achieved competitive performance, being placed second in the competition. Furthermore, we show that assuming either cause$\rightarrow$effect or effect$\rightarrow$cause order achieves similar results. Our code and model predictions will be released online.
翻訳日:2022-09-09 12:31:33 公開日:2022-09-08
# 暴力検知用ビデオビジョントランスフォーマー

Video Vision Transformers for Violence Detection ( http://arxiv.org/abs/2209.03561v1 )

ライセンス: Link先を確認
Sanskar Singh, Shivaibhav Dewangan, Ghanta Sai Krishna, Vandit Tyagi, Sainath Reddy(参考訳) 法執行機関と市の安全は、監視システムの暴力的な事件を検出することで著しく影響を受ける。 現代の(スマートな)カメラは広く利用可能で手頃な価格だが、ほとんどのケースではこのような技術的解決策は不適当である。 さらに、CCTV記録の人的監視は、しばしば遅れた反応を示し、人や財産に対する災害の潜在的な原因となる。 このように、迅速な行動に対する暴力の自動検出は非常に重要である。 提案手法では,対戦や敵の動き,暴力的な出来事をビデオシーケンスで正確に識別できる,新しいエンドツーエンドのディープラーニングベースビデオビジョントランスフォーマー(ViViT)を用いている。 本研究では,より小さなトレーニングデータセット上で視覚トランスフォーマーを訓練しながら,より弱い誘導バイアスの欠点を克服するためのデータ拡張戦略を提案する。 評価結果はその後、地元の関係者に送信され、キャプチャされたビデオを分析することができる。 state-of-theart (sota) のアプローチと比較して,提案手法は,いくつかの難解なベンチマークデータセットで好成績を得た。

Law enforcement and city safety are significantly impacted by detecting violent incidents in surveillance systems. Although modern (smart) cameras are widely available and affordable, such technological solutions are impotent in most instances. Furthermore, personnel monitoring CCTV recordings frequently show a belated reaction, resulting in the potential cause of catastrophe to people and property. Thus automated detection of violence for swift actions is very crucial. The proposed solution uses a novel end-to-end deep learning-based video vision transformer (ViViT) that can proficiently discern fights, hostile movements, and violent events in video sequences. The study presents utilizing a data augmentation strategy to overcome the downside of weaker inductive biasness while training vision transformers on a smaller training datasets. The evaluated results can be subsequently sent to local concerned authority, and the captured video can be analyzed. In comparison to state-of-theart (SOTA) approaches the proposed method achieved auspicious performance on some of the challenging benchmark datasets.
翻訳日:2022-09-09 12:30:54 公開日:2022-09-08
# 汎用ワンショット領域適応による生成逆数ネットワーク

Generalized One-shot Domain Adaption of Generative Adversarial Networks ( http://arxiv.org/abs/2209.03665v1 )

ライセンス: Link先を確認
Zicheng Zhang, Yinglu Liu, Congying Han, Tiande Guo, Ting Yao, Tao Mei(参考訳) GAN(Generative Adversarial Network)の適応は、事前訓練されたGANを、限られたトレーニングデータを持つ特定のドメインに転送することを目的としている。 本稿では,従来より難易度が高く,先行研究ではめったに行われないワンショット事例に着目した。 我々は、ソースドメインからターゲットドメインへの適応を、テクスチャや色といったグローバルなスタイルの移行と、ソースドメインに属さない新しいエンティティの出現の2つの部分に分離できると考えている。 従来はスタイル転送に主眼を置いていたが, 参照画像とバイナリエンティティマスクが提供されるスタイル転送とエンティティ転送の両方に対して, textit{ Generalized One-shot-GAN-Adaption} タスクに対処する, 新規で簡潔なフレームワークを提案する。 我々の中核的な目的は、参照と合成の内部分布のギャップをワッサーシュタイン距離によって制限することである。 これを実現するために、はじめは、模範的なスタイルを大まかに得るためにスタイル固定を用い、元のジェネレータに補助ネットワークを導入してエンティティとスタイル転送をアンタングルする。 さらに, クロスドメイン対応を実現するために, 適応型発生器の滑らかさを制約する変分ラプラシアン正則化を提案する。 定量的および定性的な実験は,様々なシナリオにおいて本手法の有効性を示す。

The adaption of Generative Adversarial Network (GAN) aims to transfer a pre-trained GAN to a given domain with limited training data. In this paper, we focus on the one-shot case, which is more challenging and rarely explored in previous works. We consider that the adaptation from source domain to target domain can be decoupled into two parts: the transfer of global style like texture and color, and the emergence of new entities that do not belong to the source domain. While previous works mainly focus on the style transfer, we propose a novel and concise framework\footnote{\url{https://github.com/thevoidname/Generalized-One-shot-GAN-Adaption}} to address the \textit{generalized one-shot adaption} task for both style and entity transfer, in which a reference image and its binary entity mask are provided. Our core objective is to constrain the gap between the internal distributions of the reference and syntheses by sliced Wasserstein distance. To better achieve it, style fixation is used at first to roughly obtain the exemplary style, and an auxiliary network is introduced to the original generator to disentangle entity and style transfer. Besides, to realize cross-domain correspondence, we propose the variational Laplacian regularization to constrain the smoothness of the adapted generator. Both quantitative and qualitative experiments demonstrate the effectiveness of our method in various scenarios.
翻訳日:2022-09-09 12:30:36 公開日:2022-09-08
# データフィードバックループ:データセットバイアスのモデル駆動型増幅

Data Feedback Loops: Model-driven Amplification of Dataset Biases ( http://arxiv.org/abs/2209.03942v1 )

ライセンス: Link先を確認
Rohan Taori and Tatsunori B. Hashimoto(参考訳) インターネットから取り除かれたデータセットは、大規模な機械学習の成功に不可欠である。 しかし、モデル出力が人間のアノテーションを監督の源として置き換えるようになると、この成功は将来のインターネット由来のデータセットの有用性を潜在的に危険にさらすことになる。 本研究では,まず,あるモデルとのインタラクションを履歴として記録し,将来トレーニングデータとしてスクラップ化するシステムについて述べる。 次に,テスト時バイアス統計(モデル予測のジェンダーバイアスなど)の変更を追跡することで,時間とともにその安定性を分析する。 バイアス増幅の程度は、モデルの出力がトレーニング分布からサンプルのように振る舞うか、すなわち一貫したキャリブレーションとして特徴付け、定義する行動と密接に関連していることがわかった。 画像分類、視覚ロールラベル、言語生成の3つの条件付き予測シナリオにおける実験は、サンプリングのような振る舞いを示すモデルはより校正され、したがってより安定していることを示している。 この知見に基づき,不安定なフィードバックシステムの校正と安定化を支援する介入を提案する。 コードはhttps://github.com/rtaori/data_feedbackで入手できる。

Datasets scraped from the internet have been critical to the successes of large-scale machine learning. Yet, this very success puts the utility of future internet-derived datasets at potential risk, as model outputs begin to replace human annotations as a source of supervision. In this work, we first formalize a system where interactions with one model are recorded as history and scraped as training data in the future. We then analyze its stability over time by tracking changes to a test-time bias statistic (e.g. gender bias of model predictions). We find that the degree of bias amplification is closely linked to whether the model's outputs behave like samples from the training distribution, a behavior which we characterize and define as consistent calibration. Experiments in three conditional prediction scenarios - image classification, visual role-labeling, and language generation - demonstrate that models that exhibit a sampling-like behavior are more calibrated and thus more stable. Based on this insight, we propose an intervention to help calibrate and stabilize unstable feedback systems. Code is available at https://github.com/rtaori/data_feedback.
翻訳日:2022-09-09 12:27:24 公開日:2022-09-08
# CLaCLab at SocialDisNER: 医療用ガゼッタを用いたスペインのつぶやきにおける病名認識

CLaCLab at SocialDisNER: Using Medical Gazetteers for Named-Entity Recognition of Disease Mentions in Spanish Tweets ( http://arxiv.org/abs/2209.03528v1 )

ライセンス: Link先を確認
Harsh Verma, Parsa Bagherzadeh, Sabine Bergler(参考訳) 本稿では,SMM4H 2022タスク10のCLaC申請について要約する。 各トークンを分類する前に,多言語roberta large,umls gazetteer,distemist gazetteerなどの特徴を用いて,各トークンをトランスフォーマエンコーダで符号化する。 f1のスコアは0.869で、競争平均0.675、標準偏差0.245、中央値0.761である。

This paper summarizes the CLaC submission for SMM4H 2022 Task 10 which concerns the recognition of diseases mentioned in Spanish tweets. Before classifying each token, we encode each token with a transformer encoder using features from Multilingual RoBERTa Large, UMLS gazetteer, and DISTEMIST gazetteer, among others. We obtain a strict F1 score of 0.869, with competition mean of 0.675, standard deviation of 0.245, and median of 0.761.
翻訳日:2022-09-09 12:26:18 公開日:2022-09-08
# Transformer-based Text Summarization を用いたキーワード生成

Applying Transformer-based Text Summarization for Keyphrase Generation ( http://arxiv.org/abs/2209.03791v1 )

ライセンス: Link先を確認
Anna Glazkova and Dmitry Morozov(参考訳) キーフレーズは学術文書の検索と体系化に不可欠である。 キーフレーズ抽出のほとんどの方法は、テキスト中の最も重要な単語の抽出を目的としている。 しかし実際には、キーフレーズのリストには、明示的にテキストに現れない単語が含まれていることが多い。 この場合、キーフレーズのリストはソーステキストの抽象的な要約を表している。 本稿では,キーフレーズ抽出のための4つのベンチマークデータセットを用いた,テキスト要約のための一般的なトランスフォーマティブモデルについて実験を行う。 キーフレーズ抽出のための非教師なし法と教師なし法の比較を行った。 評価の結果,全一致F1スコアとBERTSスコアでキーフレーズを生成するのに,要約モデルは極めて有効であることがわかった。 しかし、彼らは著者のキーフレーズリストに欠けている単語を多数生成しており、ROUGE-1の点で要約モデルは有効ではない。 また,ターゲットキーフレーズを連結する順序付け戦略についても検討した。 その結果,戦略の選択はキーフレーズ生成の性能に影響することがわかった。

Keyphrases are crucial for searching and systematizing scholarly documents. Most current methods for keyphrase extraction are aimed at the extraction of the most significant words in the text. But in practice, the list of keyphrases often includes words that do not appear in the text explicitly. In this case, the list of keyphrases represents an abstractive summary of the source text. In this paper, we experiment with popular transformer-based models for abstractive text summarization using four benchmark datasets for keyphrase extraction. We compare the results obtained with the results of common unsupervised and supervised methods for keyphrase extraction. Our evaluation shows that summarization models are quite effective in generating keyphrases in the terms of the full-match F1-score and BERTScore. However, they produce a lot of words that are absent in the author's list of keyphrases, which makes summarization models ineffective in terms of ROUGE-1. We also investigate several ordering strategies to concatenate target keyphrases. The results showed that the choice of strategy affects the performance of keyphrase generation.
翻訳日:2022-09-09 12:26:05 公開日:2022-09-08
# トランスフォーマーによるCOVID-19関連ツイートの前提の分類

Transformer-based classification of premise in tweets related to COVID-19 ( http://arxiv.org/abs/2209.03851v1 )

ライセンス: Link先を確認
Vadim Porvatov, Natalia Semenova(参考訳) ソーシャルネットワークのデータアセスメントの自動化は、自然言語処理の古典的な課題の1つだ。 新型コロナウイルス(covid-19)のパンデミックの間、公衆メッセージからの人々の態度のマイニングは、健康秩序に対する態度を理解する上で重要になっている。 本稿では,twitterテキストにおける前提の存在を分類するために,トランスフォーマーアーキテクチャに基づく予測モデルを提案する。 この研究は2022年のSMM4H(Social Media Mining for Health)ワークショップで完了した。 ツイートのセマンティクスを効率的にキャプチャするパイプラインを構築するために,現代的なトランスフォーマティブベースの分類器を検討した。 Twitterデータセットを用いた実験の結果,RoBERTaは前提予測タスクの場合,他のトランスフォーマーモデルよりも優れていることがわかった。 このモデルはROC AUC値0.807とF1スコア0.7648の競争性能を達成した。

Automation of social network data assessment is one of the classic challenges of natural language processing. During the COVID-19 pandemic, mining people's stances from public messages have become crucial regarding understanding attitudes towards health orders. In this paper, the authors propose the predictive model based on transformer architecture to classify the presence of premise in Twitter texts. This work is completed as part of the Social Media Mining for Health (SMM4H) Workshop 2022. We explored modern transformer-based classifiers in order to construct the pipeline efficiently capturing tweets semantics. Our experiments on a Twitter dataset showed that RoBERTa is superior to the other transformer models in the case of the premise prediction task. The model achieved competitive performance with respect to ROC AUC value 0.807, and 0.7648 for the F1 score.
翻訳日:2022-09-09 12:25:51 公開日:2022-09-08
# IDIAPers @ Causal News Corpus 2022: Prompt-based Few-shot Approachによる効果的な因果関係同定

IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation Identification Through a Prompt-based Few-shot Approach ( http://arxiv.org/abs/2209.03895v1 )

ライセンス: Link先を確認
Sergio Burdisso, Juan Zuluaga-Gomez, Esau Villatoro-Tello, Martin Fajcik, Muskaan Singh, Pavel Smrz, Petr Motlicek(参考訳) 本稿では,CASE-2022のサブタスク1,Event Causality Identification with Casual News Corpusへの参加について述べる。 我々は,少数のアノテートされた例(例えば,数ショット構成)で,微調整言語モデル(lms)のための単純かつ補完的な手法を駆使して,因果関係識別(cri)タスクに対処する。 我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う、微調整LMのプロンプトベースの予測手法に従う。 このアプローチにより、MLM問題に対してネイティブに事前訓練されたLMは、CRI固有のプロンプトに対するテキスト応答を直接生成できる。 本手法の性能をデータセット全体で訓練されたアンサンブル手法と比較する。 最高のパフォーマンスは、クラス毎256インスタンス、データセット全体のごく一部でしかトレーニングされず、第2のベスト精度(0.82)、第3のベスト精度(0.82)、F1スコア(0.85)を勝者チーム(0.86)に非常に近い精度で取得できたことです。

In this paper, we describe our participation in the subtask 1 of CASE-2022, Event Causality Identification with Casual News Corpus. We address the Causal Relation Identification (CRI) task by exploiting a set of simple yet complementary techniques for fine-tuning language models (LMs) on a small number of annotated examples (i.e., a few-shot configuration). We follow a prompt-based prediction approach for fine-tuning LMs in which the CRI task is treated as a masked language modeling problem (MLM). This approach allows LMs natively pre-trained on MLM problems to directly generate textual responses to CRI-specific prompts. We compare the performance of this method against ensemble techniques trained on the entire dataset. Our best-performing submission was trained only with 256 instances per class, a small portion of the entire dataset, and yet was able to obtain the second-best precision (0.82), third-best accuracy (0.82), and an F1-score (0.85) very close to what was reported by the winner team (0.86).
翻訳日:2022-09-09 12:25:39 公開日:2022-09-08
# 画像から画像への変換の歩行者検出改善への応用

Application of image-to-image translation in improving pedestrian detection ( http://arxiv.org/abs/2209.03625v1 )

ライセンス: Link先を確認
Devarsh Patel, Sarthak Patel, Megh Patel(参考訳) 効果的な目標領域の欠如は、歩行者認識やイメージ・ツー・イメージ翻訳など、低強度光でいくつかの視覚機能を実行するのを困難にしている。 このような状況下では、赤外線と可視画像の併用による高品質な情報の蓄積により、低照度でも歩行者を検出することができる。 本研究では、LLVIPデータセットにPix2pixGANやYOLOv7のような高度なディープラーニングモデルを使用し、低照度ビジョンのための可視赤外画像ペアを含む。 このデータセットには33672の画像が含まれており、ほとんどの画像は暗い場所で撮影され、時間と場所と密に同期している。

The lack of effective target regions makes it difficult to perform several visual functions in low intensity light, including pedestrian recognition, and image-to-image translation. In this situation, with the accumulation of high-quality information by the combined use of infrared and visible images it is possible to detect pedestrians even in low light. In this study we are going to use advanced deep learning models like pix2pixGAN and YOLOv7 on LLVIP dataset, containing visible-infrared image pairs for low light vision. This dataset contains 33672 images and most of the images were captured in dark scenes, tightly synchronized with time and location.
翻訳日:2022-09-09 12:24:41 公開日:2022-09-08
# 機械学習に関する調査

A Survey of Machine Unlearning ( http://arxiv.org/abs/2209.02299v3 )

ライセンス: Link先を確認
Thanh Tam Nguyen, Thanh Trung Huynh, Phi Le Nguyen, Alan Wee-Chung Liew, Hongzhi Yin, and Quoc Viet Hung Nguyen(参考訳) コンピュータシステムは何十年にもわたって大量の個人データを保持している。 一方、そのようなデータ豊富さは人工知能(AI)、特に機械学習(ML)モデルのブレークスルーを可能にする。 一方で、ユーザーのプライバシーを脅かし、人間とaiの間の信頼を弱める可能性がある。 最近の規制では、ユーザに関する個人情報は一般にコンピュータシステムから、特に要求に応じてMLモデルから削除することが要求されている(例えば「忘れられる権利」)。 バックエンドデータベースからデータを削除するのは簡単だが、mlモデルが古いデータを“記憶する”場合が多いため、aiコンテキストでは不十分である。 既存の敵攻撃は、訓練されたモデルから個人メンバーシップやトレーニングデータの属性を学習できることを証明した。 この現象は、機械学習モデルに特定のデータについて忘れさせる新しいパラダイム、すなわち機械学習の学習を要求する。 機械学習に関する最近の研究は、共通のフレームワークやリソースが不足しているため、この問題を完全に解決できなかった。 本稿では,その定義,シナリオ,機構,応用において,機械学習を徹底的に検討することを目的とする。 具体的には、最先端の研究のカテゴリのコレクションとして、機械学習とその様々な定式化、設計要件、削除要求、アルゴリズム、およびさまざまなmlアプリケーションでの使用を求める人々に幅広い参照を提供したいと考えています。 さらに、このパラダイムの重要な発見とトレンドを概説するとともに、機械学習の応用をまだ見ていないが、それでも大きなメリットがある新しい研究領域を強調したいと思います。 この調査は、ML研究者だけでなく、プライバシー技術の革新を目指す人たちにも貴重な参考になることを期待しています。 私たちのリソースはhttps://github.com/tamlhp/awesome-machine-unlearningにあります。

Computer systems hold a large amount of personal data over decades. On the one hand, such data abundance allows breakthroughs in artificial intelligence (AI), especially machine learning (ML) models. On the other hand, it can threaten the privacy of users and weaken the trust between humans and AI. Recent regulations require that private information about a user can be removed from computer systems in general and from ML models in particular upon request (e.g. the "right to be forgotten"). While removing data from back-end databases should be straightforward, it is not sufficient in the AI context as ML models often "remember" the old data. Existing adversarial attacks proved that we can learn private membership or attributes of the training data from the trained models. This phenomenon calls for a new paradigm, namely machine unlearning, to make ML models forget about particular data. It turns out that recent works on machine unlearning have not been able to solve the problem completely due to the lack of common frameworks and resources. In this survey paper, we seek to provide a thorough investigation of machine unlearning in its definitions, scenarios, mechanisms, and applications. Specifically, as a categorical collection of state-of-the-art research, we hope to provide a broad reference for those seeking a primer on machine unlearning and its various formulations, design requirements, removal requests, algorithms, and uses in a variety of ML applications. Furthermore, we hope to outline key findings and trends in the paradigm as well as highlight new areas of research that have yet to see the application of machine unlearning, but could nonetheless benefit immensely. We hope this survey provides a valuable reference for ML researchers as well as those seeking to innovate privacy technologies. Our resources are at https://github.com/tamlhp/awesome-machine-unlearning.
翻訳日:2022-09-09 10:47:01 公開日:2022-09-08
# ソーシャルメディアテキストをモデルとした抑うつ症状 : アクティブラーニングアプローチ

Depression Symptoms Modelling from Social Media Text: An Active Learning Approach ( http://arxiv.org/abs/2209.02765v2 )

ライセンス: Link先を確認
Nawshad Farruque, Randy Goebel, Sudhakar Sivapalan, Osmar Zaiane(参考訳) ソーシャルメディア言語に基づく臨床うつ病モデリングの基本的な構成要素はうつ病症状検出(DSD)である。 残念ながら、自己開示されたうつ病集団のサンプルから臨床所見とうつ病症状の分布の両方を反映したDSDデータセットは存在しない。 本研究では,初期教師付き学習モデルを用いたアクティブラーニング(AL)フレームワークについて述べる。 1)臨床医の注釈付きdsdデータセット上でさらに微調整された,最先端の大規模メンタルヘルスフォーラムテキスト事前学習言語モデル 2) DSDのゼロショット学習モデルを用いて, うつ症状関連サンプルを分離し, 自己計算型抑うつツイートリポジトリ(DTR)から抽出した。 我々の臨床注記データセットはその種類の中で最も大きい。 さらに、DTRは、Twitterからのユーザーレベルのうつ病検出のための最大のベンチマークデータセットを含む、2つのデータセットから、自己開示されたうつ病ユーザーのつぶやきのサンプルから生成される。 これはまた、自己開示されたtwitterユーザーのツイートのうつ症状の分布を維持するのに役立つ。 その後、抽出したデータを用いて初期DSDモデルを反復的に再訓練する。 本稿では,alプロセスにおける停止条件と限界について考察し,alプロセス全体において重要な役割を果たす基礎構造について詳述する。 我々は,その種類の中で最大である最終データセットを作成できることを示す。 さらに、DSDとDPD(Depression Post Detection)モデルをトレーニングすることで、初期バージョンよりも大幅に精度が向上する。

A fundamental component of user-level social media language based clinical depression modelling is depression symptoms detection (DSD). Unfortunately, there does not exist any DSD dataset that reflects both the clinical insights and the distribution of depression symptoms from the samples of self-disclosed depressed population. In our work, we describe an Active Learning (AL) framework which uses an initial supervised learning model that leverages 1) a state-of-the-art large mental health forum text pre-trained language model further fine-tuned on a clinician annotated DSD dataset, 2) a Zero-Shot learning model for DSD, and couples them together to harvest depression symptoms related samples from our large self-curated Depression Tweets Repository (DTR). Our clinician annotated dataset is the largest of its kind. Furthermore, DTR is created from the samples of tweets in self-disclosed depressed users Twitter timeline from two datasets, including one of the largest benchmark datasets for user-level depression detection from Twitter. This further helps preserve the depression symptoms distribution of self-disclosed Twitter users tweets. Subsequently, we iteratively retrain our initial DSD model with the harvested data. We discuss the stopping criteria and limitations of this AL process, and elaborate the underlying constructs which play a vital role in the overall AL process. We show that we can produce a final dataset which is the largest of its kind. Furthermore, a DSD and a Depression Post Detection (DPD) model trained on it achieves significantly better accuracy than their initial version.
翻訳日:2022-09-09 09:15:37 公開日:2022-09-08
# ベイズ逆問題に対する半教師付き可逆DeepONets

Semi-supervised Invertible DeepONets for Bayesian Inverse Problems ( http://arxiv.org/abs/2209.02772v2 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Paris Perdikaris, Phaedon-Stelios Koutsourelakis(参考訳) Deep Operator Networks (DeepONets)は、学習演算子、すなわち無限次元関数空間間の写像によってパラメトリックPDEを解決する強力なデータ駆動ツールを提供する。 本研究では,高次元ベイズ逆問題の文脈において,物理に変形したdeeponetsを用いる。 従来の解法戦略は、パラメトリック微分の計算だけでなく、巨大な、しばしば実現不可能な多くの前方モデル解を必要とする。 効率的な解を実現するために、パラメトリック入力と分岐ネット出力の間の可逆かつ微分可能な写像を出力する実NVPアーキテクチャを用いてDeepONetsを拡張する。 これにより、観測数や観測ノイズの大きさに関係なく容易に適応できる全後方の正確な近似を構築することができる。 結果として、追加のフォワードソリューションは不要であり、またコストのかかるサンプリング手順も不要である。 本研究では, 反導出, 反応拡散, ダーシーフロー方程式に基づく逆問題の文脈において, 提案手法の有効性と精度を示す。

Deep Operator Networks (DeepONets) offer a powerful, data-driven tool for solving parametric PDEs by learning operators, i.e. maps between infinite-dimensional function spaces. In this work, we employ physics-informed DeepONets in the context of high-dimensional, Bayesian inverse problems. Traditional solution strategies necessitate an enormous, and frequently infeasible, number of forward model solves, as well as the computation of parametric derivatives. In order to enable efficient solutions, we extend DeepONets by employing a realNVP architecture which yields an invertible and differentiable map between the parametric input and the branch net output. This allows us to construct accurate approximations of the full posterior which can be readily adapted irrespective of the number of observations and the magnitude of the observation noise. As a result, no additional forward solves are required, nor is there any need for costly sampling procedures. We demonstrate the efficacy and accuracy of the proposed methodology in the context of inverse problems based on a anti-derivative, a reaction-diffusion and a Darcy-flow equation.
翻訳日:2022-09-09 09:15:15 公開日:2022-09-08
# AI Illustrator: Promptベースのクロスモーダルジェネレーションによる生記述を画像に変換する

AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation ( http://arxiv.org/abs/2209.03160v2 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Bei Liu, Jianlong Fu, Jiaying Liu(参考訳) AIイラストレーターは、書籍の視覚的に魅力的なイメージを自動的に設計し、豊かな思考や感情を引き起こすことを目的としている。 この目的を達成するために,複雑な意味論を持つ生記述を意味的に対応する画像に変換するフレームワークを提案する。 主な課題は、生の記述の意味論の複雑さであり、視覚化が難しい(例えば「グロオミー」や「アシアン」など)。 通常、そのような記述を扱う既存のメソッドには課題が生じる。 この問題に対処するため、我々はCLIPとStyleGANを含む2つの強力な事前学習モデルを活用するために、Promptベースのクロスモーダル生成フレームワーク(PCM-Frame)を提案する。 本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,画像埋め込みを入力とし,セマンティック一貫性の喪失によってトレーニングするStyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。 リアルなイメージとイラストデザインのギャップを埋めるため、視覚効果を改善するためのフレームワークでは、ポストプロセッシングとしてスタイライゼーションモデルも採用しています。 本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。 さらに、200の生の記述からなるベンチマークを構築しました。 複雑なテキストの競合手法よりも優れていることを示すために,ユーザ調査を実施している。 コードはhttps://github.com/researchmm/ai_illustratorでリリースします。

AI illustrator aims to automatically design visually appealing images for books to provoke rich thoughts and emotions. To achieve this goal, we propose a framework for translating raw descriptions with complex semantics into semantically corresponding images. The main challenge lies in the complexity of the semantics of raw descriptions, which may be hard to be visualized (e.g., "gloomy" or "Asian"). It usually poses challenges for existing methods to handle such descriptions. To address this issue, we propose a Prompt-based Cross-Modal Generation Framework (PCM-Frame) to leverage two powerful pre-trained models, including CLIP and StyleGAN. Our framework consists of two components: a projection module from Text Embeddings to Image Embeddings based on prompts, and an adapted image generation module built on StyleGAN which takes Image Embeddings as inputs and is trained by combined semantic consistency losses. To bridge the gap between realistic images and illustration designs, we further adopt a stylization model as post-processing in our framework for better visual effects. Benefiting from the pre-trained models, our method can handle complex descriptions and does not require external paired data for training. Furthermore, we have built a benchmark that consists of 200 raw descriptions. We conduct a user study to demonstrate our superiority over the competing methods with complicated texts. We release our code at https://github.com/researchmm/AI_Illustrator.
翻訳日:2022-09-09 09:14:57 公開日:2022-09-08
# 映像スナップショット圧縮イメージングのための時空間変圧器

Spatial-Temporal Transformer for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2209.01578v2 )

ライセンス: Link先を確認
Lishun Wang, Miao Cao, Yong Zhong and Xin Yuan(参考訳) ビデオスナップショット圧縮画像(SCI)は、複数の連続したビデオフレームを1つの計測でキャプチャする。 基本原理は、異なるマスクを通して高速フレームを変調することであり、これらの変調フレームは、低速2dセンサ(ダビング光エンコーダ)でキャプチャされた単一の測定値に要約され、必要に応じて所望の高速フレーム(ダビングソフトウェアデコーダ)を再構築するためにアルゴリズムが使用される。 本稿では,映像sciにおける再構成アルゴリズム,すなわち圧縮計測から一連の映像フレームを復元する手法について検討する。 具体的には,空間領域と時間領域の相関を利用した時空間変圧器(stformer)を提案する。 stformerネットワークはトークン生成ブロックとビデオ再構成ブロックで構成され、これら2つのブロックは一連のstformerブロックで接続される。 各STFormerブロックは、空間的自己注意枝と時間的自己注意枝とからなり、これら2つの枝の出力は融合ネットワークによって統合される。 シミュレーションデータと実データの両方に関する広範な結果は、stformerの最先端のパフォーマンスを示している。 コードとモデルはhttps://github.com/ucaswangls/STFormer.gitで公開されている。

Video snapshot compressive imaging (SCI) captures multiple sequential video frames by a single measurement using the idea of computational imaging. The underlying principle is to modulate high-speed frames through different masks and these modulated frames are summed to a single measurement captured by a low-speed 2D sensor (dubbed optical encoder); following this, algorithms are employed to reconstruct the desired high-speed frames (dubbed software decoder) if needed. In this paper, we consider the reconstruction algorithm in video SCI, i.e., recovering a series of video frames from a compressed measurement. Specifically, we propose a Spatial-Temporal transFormer (STFormer) to exploit the correlation in both spatial and temporal domains. STFormer network is composed of a token generation block, a video reconstruction block, and these two blocks are connected by a series of STFormer blocks. Each STFormer block consists of a spatial self-attention branch, a temporal self-attention branch and the outputs of these two branches are integrated by a fusion network. Extensive results on both simulated and real data demonstrate the state-of-the-art performance of STFormer. The code and models are publicly available at https://github.com/ucaswangls/STFormer.git
翻訳日:2022-09-09 09:14:32 公開日:2022-09-08