このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230221となっている論文です。

PDF登録状況(公開日: 20230221)

TitleAuthorsAbstract論文公表日・翻訳日
# オンライン公共広場の操作に関する脆弱性

Vulnerabilities of the Online Public Square to Manipulation ( http://arxiv.org/abs/1907.06130v3 )

ライセンス: Link先を確認
Bao Tran Truong, Xiaodan Lou, Alessandro Flammini, Filippo Menczer(参考訳) 現代の公共広場であるソーシャルメディアは、操作に弱い。 不正なアカウントを人間に偽装させることで、悪意のあるアクターはターゲットコミュニティ内の偽情報を増幅することができる。 このような活動の結果は、オンラインコミュニティに影響を及ぼすような実験によって引き起こされる倫理的課題から評価することは困難である。 ここでは,経験的ネットワークにおける情報拡散をシミュレートするソーシャルメディアモデルを用いて,コンテンツ品質に対する敵意操作の影響を定量化する。 情報負荷や注意力の制限,影響力の存在などソーシャルメディアの特徴が,オンラインコミュニティの脆弱性を悪化させることがわかった。 コミュニティに潜入することは悪者にとって最も有害な戦術であり、低品質のコンテンツがバイラルに広まる可能性が高い。 この害は、低品質のコンテンツでネットワークを浸水させることによってさらに複雑になるが、影響力のある個人や脆弱な個人が標的になると軽減される。 これらの洞察は、プラットフォームがソーシャルメディアユーザーによる操作のレジリエンスを高めるために使えることを示唆している。

Social media, the modern public square, is vulnerable to manipulation. By controlling inauthentic accounts impersonating humans, malicious actors can amplify disinformation within target communities. The consequences of such operations are difficult to evaluate due to the ethical challenges posed by experiments that would influence online communities. Here we use a social media model that simulates information diffusion in an empirical network to quantify the impacts of adversarial manipulation tactics on the quality of content. We find that social media features such as high information load, limited attention, and the presence of influentials exacerbate the vulnerabilities of online communities. Infiltrating a community is the most harmful tactic that bad actors can exploit and the most likely to make low-quality content go viral. The harm is further compounded by inauthentic agents flooding the network with engaging low-quality content, but is mitigated when influential or vulnerable individuals are targeted. These insights suggest countermeasures that platforms could employ to increase the resilience of social media users to manipulation.
翻訳日:2023-03-25 04:21:57 公開日:2023-02-21
# 古典符号の重み分布を用いた消去誤差による量子距離論の記述

Describing quantum metrology with erasure errors using weight distributions of classical codes ( http://arxiv.org/abs/2007.02859v3 )

ライセンス: Link先を確認
Yingkai Ouyang and Narayanan Rengaswamy(参考訳) 量子センサーは量子技術の顕著なユースケースとして期待されているが、実際にはノイズが性能を低下させる。 例えば、量子センサーは消去エラーに悩まされることがある。 ここでは、古典的な$[n,k,d]$二進ブロック符号の最小距離$d \geq t+1$に対応する構造を持つ量子プローブ状態について検討する。 量子プローブ状態の少なくとも$t$ qubitsが消去された後、これらのプローブ状態が古典場の未知の大きさを推定できるという究極の精度の限界を得る。 量子フィッシャー情報は、対応する2^t$短縮符号の重み分布のばらつきに比例することを示した。 固定符号の短縮符号が$d \geq t+1$で非自明な重み分布を持つ場合、この符号と長さが増加する繰り返し符号を連結したプローブ状態は、漸近的に最適なフィールドセンシングを可能にし、最大$t$消去エラーを受動的に許容する。

Quantum sensors are expected to be a prominent use-case of quantum technologies, but in practice, noise easily degrades their performance. Quantum sensors can for instance be afflicted with erasure errors. Here, we consider using quantum probe states with a structure that corresponds to classical $[n,k,d]$ binary block codes of minimum distance $d \geq t+1$. We obtain bounds on the ultimate precision that these probe states can give for estimating the unknown magnitude of a classical field after at most $t$ qubits of the quantum probe state are erased. We show that the quantum Fisher information is proportional to the variances of the weight distributions of the corresponding $2^t$ shortened codes. If the shortened codes of a fixed code with $d \geq t+1$ have a non-trivial weight distribution, then the probe states obtained by concatenating this code with repetition codes of increasing length enable asymptotically optimal field-sensing that passively tolerates up to $t$ erasure errors.
翻訳日:2023-03-25 04:03:57 公開日:2023-02-21
# 量子状態移動のためのUSC状態における電荷量子ビット

Charge qubits in the USC regime for quantum state transfer ( http://arxiv.org/abs/2105.06851v2 )

ライセンス: Link先を確認
F. A. C\'ardenas-L\'opez, J. Yu, C. K. Andersen, E. Solano, and A. Parra-Rodriguez(参考訳) 我々は,超強結合(USC)と深部強結合(DSC)の相互作用,特に共振条件において,超伝導電荷量子ビット(Cooper-Pair box,CPB)が実現可能であることを検討した。 チャージキュービットを高インピーダンスLC回路で絞ることで、標準上界$|g|\leq \sqrt{\omega_q\omega_r}/2$を超えるUSCとDSCのレギュレーションを極大に到達できることを数値的に示す。 そこで本研究では,一対のトランモン量子ビット間の量子状態伝達プロトコルを触媒するメディエータデバイスとして,LC-オシレータに超強結合された2つのCPBからなるハイブリッドシステムを提案する。 我々は、QSTプロトコルが、調停者がUSC体制で運営する際の効率を最大化し、高度に整合的で制御可能な調停者に依存した提案と同等の回数を示すことを示した。 この研究は、量子ラビモデル以外の光-物質相互作用を極端な結合強度で研究するための扉を開き、量子計算と量子情報処理における応用のための新しいビルディングブロックを提供する。

We study the feasibility of reaching the ultrastrong (USC) and deep-strong coupling (DSC) regimes of light-matter interaction, in particular at resonance condition, with a superconducting charge qubit, also known as Cooper-Pair box (CPB). We numerically show that by shunting the charge qubit with a high-impedance LC-circuit, one can maximally reach both USC and DSC regimes exceeding the classical upper bound $|g|\leq \sqrt{\omega_q\omega_r}/2$ between two harmonic systems with frequencies $\omega_q$ and $\omega_r$. As an application, we propose a hybrid system consisting of two CPBs ultrastrongly coupled to an LC-oscillator as a mediator device that catalyzes a quantum state transfer protocol between a pair of transmon qubits, with all the parties subjected to local thermal noise. We demonstrate that the QST protocol maximizes its efficiency when the mediator operates in the USC regime, exhibiting comparable times with proposals relying on highly coherent and controllable mediators requiring state-preparation or post-selection. This work opens the door for studying light-matter interactions beyond the quantum Rabi model at extreme coupling strengths, providing a new building block for applications within quantum computation and quantum information processing.
翻訳日:2023-03-25 03:56:52 公開日:2023-02-21
# フロッケ量子ビットのエンジニアリング、制御、および縦読み出し

Engineering, control and longitudinal readout of Floquet qubits ( http://arxiv.org/abs/2108.11260v2 )

ライセンス: Link先を確認
Anthony Gandon, Camille Le Calonnec, Ross Shillito, Alexandru Petrescu, Alexandre Blais(参考訳) 時間周期ハミルトニアンの特性は、キュービットの強調時間を増やし、保護された1つと2つのキュービットゲートを設計するために利用することができる。 最近、huangら。 [図15,034065 (2021)] は、時間依存のフロッケ状態が、通常の静的なスイーツスポットよりも大きな動的保護を持つワーキングポイントの多様体を提供することを示した。 ここでは多モードフロッケ理論の枠組みを用いて,複数の駆動音の存在下でフロッケ量子ビットをロバストに制御する手法を記述する。 同じアプローチで、フロッケ状態から静的なクビット状態への第1のアダイアバティカルマッピングを必要とせず、フロッケ量子ビットを計測するための縦方向読み取りプロトコルを導入し、フロッケ量子ビットの測定時間を大幅に高速化する。 ここで開発された解析的アプローチは、少数の異なる駆動音(典型的には回転波近似の外の量子ビットの標準パラメトリックゲートの研究)を含むハミルトニアンに適用することができる。

Properties of time-periodic Hamiltonians can be exploited to increase the dephasing time of qubits and to design protected one and two-qubit gates. Recently, Huang et al. [Phys. Rev. Applied 15, 034065 (2021)] have shown that time-dependent Floquet states offer a manifold of working points with dynamical protection larger than the few usual static sweet spots. Here, we use the framework of many-mode Floquet theory to describe approaches to robustly control Floquet qubits in the presence of multiple drive tones. Following the same approach, we introduce a longitudinal readout protocol to measure the Floquet qubit without the need of first adiabatically mapping back the Floquet states to the static qubit states, which results in a significant speedup in the measurement time of the Floquet qubit. The analytical approach developed here can be applied to any Hamiltonian involving a small number of distinct drive tones, typically the study of standard parametric gates for qubits outside of the rotating-wave approximation.
翻訳日:2023-03-17 05:22:22 公開日:2023-02-21
# マトリックス超収縮性, ストリーミングアルゴリズム, LDC--大文字の場合

Matrix hypercontractivity, streaming algorithms and LDCs: the large alphabet case ( http://arxiv.org/abs/2109.02600v2 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Jo\~ao F. Doriguello(参考訳) 我々は,大文字上で定義される行列値関数に対して,Ban-Aroya, Regev, de Wolf (FOCS'08) の結果を一般化し,超収縮的不等式を証明した。 そのため、ball, carlen, lieb (inventiones mathematicae'94) の2ドルの一様凸不等式を一般化することを証明する。 我々の不等式を用いて、大きなアルファベット上で定義された隠れたハイパーマッチングの通信複雑性の上限と下限を示し、有名なブール隠れマッチング問題を一般化する。 エッジカウント引数は$O(\log{n})$ spaceで$r$-approximationを与える。 一方、通信下界を介して、逆数モデルにおける全てのストリーミングアルゴリズムが$(r-\varepsilon)$-approximationを達成するには、$\Omega(n^{1-2/t})$量子空間が必要であることを示す。 これはカプラロフ、ハンナ、スーダン(SODA'15)の専門的な研究を一般化し、カプラロフ、クラチュン(STOC'19)、チョーら(STOC'22)の量子的設定結果にまで拡張する。 次に、大きなアルファベットに対して局所デオード可能な符号(\mathsf{LDC}$)の低い境界を示す。 $\mathsf{LDC}$$C:\mathbb{Z}_r^n\to \mathbb{Z}_r^N$は、任意の$x_i$(少なくとも1/r+\varepsilon$の確率で)をコードワードに変換するために$x$のエンコードである。 ここでの最大の疑問は、n$とn$の間のトレードオフである。 ハイパーコントラクティビティを通じて、指数下限の$n=2^{\omega(\varepsilon^4 n/r^4)}$を$$$-query(おそらく非線形)$\mathsf{ldc}$s over $\mathbb{z}_r$とし、非可換なkhintchine不等式を用いて、$n=2^{\omega(\varepsilon^2 n/r^2)}$にする。 以前は指数関数的な下界は$r=2$ (Kerenidis, de Wolf (JCSS'04)) と線形符号 (Dvir, Shpilka (SICOMP'07)) で知られていた。

We prove a hypercontractive inequality for matrix-valued functions defined over large alphabets, generalizing the result of Ben-Aroya, Regev, de Wolf (FOCS'08) for the Boolean alphabet. For such we prove a generalization of the $2$-uniform convexity inequality of Ball, Carlen, Lieb (Inventiones Mathematicae'94). Using our inequality, we present upper and lower bounds for the communication complexity of Hidden Hypermatching when defined over large alphabets, which generalizes the well-known Boolean Hidden Matching problem. We then consider streaming algorithms for approximating the value of Unique Games on a $t$-hyperedge hypergraph: an edge-counting argument gives an $r$-approximation with $O(\log{n})$ space. On the other hand, via our communication lower bound we show that every streaming algorithm in the adversarial model achieving a $(r-\varepsilon)$-approximation requires $\Omega(n^{1-2/t})$ quantum space. This generalizes the seminal work of Kapralov, Khanna, Sudan (SODA'15), and expand to the quantum setting results from Kapralov, Krachun (STOC'19) and Chou et al. (STOC'22). We next present a lower bound for locally decodable codes ($\mathsf{LDC}$) over large alphabets. An $\mathsf{LDC}$ $C:\mathbb{Z}_r^n\to \mathbb{Z}_r^N$ is an encoding of $x$ into a codeword in such a way that one can recover an arbitrary $x_i$ (with probability at least $1/r+\varepsilon$) by making a few queries to a corrupted codeword. The main question here is the trade-off between $N$ and $n$. Via hypercontractivity, we give an exponential lower bound $N= 2^{\Omega(\varepsilon^4 n/r^4)}$ for $2$-query (possibly non-linear) $\mathsf{LDC}$s over $\mathbb{Z}_r$ and using the non-commutative Khintchine inequality we improved our bound to $N= 2^{\Omega(\varepsilon^2 n/r^2)}$. Previously exponential lower bounds were known for $r=2$ (Kerenidis, de Wolf (JCSS'04)) and linear codes (Dvir, Shpilka (SICOMP'07)).
翻訳日:2023-03-16 00:50:40 公開日:2023-02-21
# 量子情報幾何学とその古典的側面

Quantum Information Geometry and its classical aspect ( http://arxiv.org/abs/2302.12652v1 )

ライセンス: Link先を確認
Sergio B. Ju\'arez(参考訳) この論文は量子情報幾何学の領域における重要な概念とその関係を探求する。 量子力学の基礎から生じるこれらの概念の独特な特徴を強調し、古典的概念との違いを強調した。 しかし、ガウス状態の場合、古典的アナログを使って同じ数学的結果を得ることができ、計算を単純化する価値のあるツールとなることも示している。 今後の解析の基礎を確立すべく,量子場理論から基本的な考え方を紹介する。 次に、量子計量テンソルとベリー曲率からなる量子幾何学テンソル(QGT)を用いてパラメータ空間の構造を探索する。 また、量子共分散行列(QCM)を導入し、QGTとの関係を示す。 本稿では、QCMを用いて、純度、線形エントロピー、フォン・ノイマンエントロピーを得る量子系間の絡み合いを研究する方法について述べる。 これらの概念を説明するために、Stern-Gerlach、2つの量子ビット系、2つの対称結合調和振動子、N結合調和振動子を含むいくつかの系のこれらの量を計算する。 この論文の最終節では、前述の量子概念が古典的な意味でどのように応用できるかをハンナイのベリー位相によるアプローチに従って検討する。 我々はQGTとQCMの古典的アナログを調べ、ガウス状態の場合、純度、線形エントロピー、フォン・ノイマンエントロピーを計算するために必要な情報はすべてQCMに含まれるので、それらの古典的アナログも生成する。 これらの結果は古典システムに対する分離性の尺度を導出するのに使うことができる。

This thesis explores important concepts in the area of quantum information geometry and their relationships. We highlight the unique characteristics of these concepts that arise from their quantum mechanical foundations and emphasize the differences from their classical counterparts. However, we also demonstrate that for Gaussian states, classical analogs can be used to obtain the same mathematical results, providing a valuable tool for simplifying calculations. To establish the groundwork for the subsequent analysis, we introduce some fundamental ideas from quantum field theory. We then explore the structure of parameter space using the fidelity and the Quantum Geometric Tensor (QGT), which is composed of the Quantum Metric Tensor and the Berry curvature. We also introduce the Quantum Covariance Matrix (QCM) and show its relationship to the QGT. We present how the QCM can be used to study entanglement between quantum systems by obtaining the purity, linear entropy, and von Neumann entropy. To illustrate these concepts, we calculate all these quantities for several systems, including the Stern-Gerlach, a two qubits system, two symmetrically coupled harmonic oscillators, and N coupled harmonic oscillators. In the final section of this thesis, we examine how the aforementioned quantum concepts can be applied in a classical sense, following the approach taken by Hannay with the Berry phase. We examine classical analogs of the QGT and QCM and since for Gaussian states, all the necessary information to calculate purity, linear entropy, and von Neumann entropy is contained within the QCM, we also generate classical analogs for them. These results in turn can be used to derive measures of separability for classical systems.
翻訳日:2023-03-05 05:48:03 公開日:2023-02-21
# 評価は評価に当てはまりますか。 分類器の評価に対する第一原理的アプローチ

Does the evaluation stand up to evaluation? A first-principle approach to the evaluation of classifiers ( http://arxiv.org/abs/2302.12006v1 )

ライセンス: Link先を確認
K. Dyrland, A. S. Lundervold, P.G.L. Porta Mana(参考訳) メーターが標準に適合せず、測定値に応じてスケールが拡大または縮小した場合、どうやって有意義に測定を行うことができるのか? 本研究では、機械学習分類器に対する現在の評価手法は、この種の問題に影響を受けており、分類器を実際に使用した場合に負の結果をもたらすと論じている。 決定理論に基づく評価が提案され,その意義が検討されている。 主な結果は、全ての評価計量が、特定の分類問題に依存する係数である「効用」を持つ混乱行列要素の線形結合でなければならないことである。 バイナリ分類の場合、そのようなメトリクスの空間は事実上2次元である。 その結果, 精度, 平衡精度, マシューズ相関係数, fowlkes-mallows index, f1-measure, および曲線下領域といった一般的な指標は必ずしも最適ではないことがわかった。 この分数は、適度に間違った係数を持つ決定理論計量の使用によって引き起こされるものよりもさらに大きい。

How can one meaningfully make a measurement, if the meter does not conform to any standard and its scale expands or shrinks depending on what is measured? In the present work it is argued that current evaluation practices for machine-learning classifiers are affected by this kind of problem, leading to negative consequences when classifiers are put to real use; consequences that could have been avoided. It is proposed that evaluation be grounded on Decision Theory, and the implications of such foundation are explored. The main result is that every evaluation metric must be a linear combination of confusion-matrix elements, with coefficients - "utilities" - that depend on the specific classification problem. For binary classification, the space of such possible metrics is effectively two-dimensional. It is shown that popular metrics such as precision, balanced accuracy, Matthews Correlation Coefficient, Fowlkes-Mallows index, F1-measure, and Area Under the Curve are never optimal: they always give rise to an in-principle avoidable fraction of incorrect evaluations. This fraction is even larger than would be caused by the use of a decision-theoretic metric with moderately wrong coefficients.
翻訳日:2023-02-24 15:06:29 公開日:2023-02-21
# 一般化テンソルとトレース

Generalised tensors and traces ( http://arxiv.org/abs/2202.11340v2 )

ライセンス: Link先を確認
Pablo Arrighi, Am\'elia Durbec and Matt Wilson(参考訳) テンソルとトレースアウトは一般化され、システムはほぼ任意の論理述語に従って分割することができる。 量子論において標準的なユニタリ性、完全肯定性、トレース保存、非シグナリング因果性、局所性、ローカライズビリティという概念の間の親しみやすい相互関係が、系の分割が論理的かつ動的になるにつれて危険に晒されることを恐れていたかもしれない。 このような相互関係は、新しい概念である一貫性が必須となるものの、実際には持続する。

Tensors and traceouts are generalised, so that systems can be partitioned according to almost arbitrary logical predicates. One might have feared that the familiar interrelations between the notions of unitarity, complete positivity, trace-preservation, non-signalling causality, locality and localizability that are standard in quantum theory be jeopardized as the partitioning of systems becomes both logical and dynamical. Such interrelations in fact carry through, although a new notion, consistency, becomes instrumental.
翻訳日:2023-02-24 03:51:37 公開日:2023-02-21
# PointFISH --RNAローカライゼーションパターンのための学習ポイントクラウド表現

PointFISH -- learning point cloud representations for RNA localization patterns ( http://arxiv.org/abs/2302.10923v1 )

ライセンス: Link先を確認
Arthur Imbert, Florian Mueller, Thomas Walter(参考訳) 細胞内RNAの局在は遺伝子発現の空間制御の重要なメカニズムである。 その機構と正確な機能的役割はまだよく分かっていない。 Situ Hybridization (smFISH) 画像中の単分子蛍光は、細胞内の精度で個々のRNA分子を検出できる。 その代わり、smFISHはRNA空間分布を定量化し分類する堅牢な方法を必要とする。 本稿では、RNAローカライゼーションパターンの認識のための新しい計算手法であるPointFISHを提案する。 PointFISHは、RNA点雲の連続ベクトル表現を計算するための注意ベースのネットワークである。 シミュレーションのみに基づいて、実験的なsmFISH画像から抽出した座標を直接処理することができる。 この埋め込みにより、スケーラブルでフレキシブルな空間転写解析が可能となり、手作りパイプラインの性能にマッチする。

Subcellular RNA localization is a critical mechanism for the spatial control of gene expression. Its mechanism and precise functional role is not yet very well understood. Single Molecule Fluorescence in Situ Hybridization (smFISH) images allow for the detection of individual RNA molecules with subcellular accuracy. In return, smFISH requires robust methods to quantify and classify RNA spatial distribution. Here, we present PointFISH, a novel computational approach for the recognition of RNA localization patterns. PointFISH is an attention-based network for computing continuous vector representations of RNA point clouds. Trained on simulations only, it can directly process extracted coordinates from experimental smFISH images. The resulting embedding allows scalable and flexible spatial transcriptomics analysis and matches performance of hand-crafted pipelines.
翻訳日:2023-02-23 17:31:13 公開日:2023-02-21
# 「タウルス」:機械学習を用いた牛の繁殖・病原体識別モバイルアプリケーション

'The Taurus': Cattle Breeds & Diseases Identification Mobile Application using Machine Learning ( http://arxiv.org/abs/2302.10920v1 )

ライセンス: Link先を確認
R. M. D. S. M. Chandrarathna (1), T. W. M. S. A. Weerasinghe (1), N. S. Madhuranga (1), T. M. L. S. Thennakoon (1), Anjalie Gamage (1), Erandika Lakmali (2) ((1) Faculty of Computing, Sri Lanka Institute of Information Technology, Malabe, Sri Lanka, (2) University of Kelaniya, Dalugama, Kelaniya, Sri Lanka)(参考訳) 農業は数千年にわたってスリランカだけでなく、多くの国でも重要な役割を担っている。 家畜の牧畜に関して言えば、必須の動物である。 文献調査によると、牛と子牛の死亡数は1年で約390万人にのぼる。 病気の原因は主に細菌、寄生虫、菌類、化学物質などである。 伝染病は家畜の健康にとって最大の脅威となる。 牛の死亡率は、社会的、経済的、環境的な被害に大きな影響を及ぼす。 この負の影響を減らし、牛が苦しむ病気を簡易に分析・同定し、解決策を与え、また牛の品種を特定するためのクロスプラットフォームモバイルアプリケーションを構築する。 このモバイルアプリケーションは、牛の画像を解析し、感染した地域のビデオや画像を分析した後、病気を識別することによって、品種を識別するように設計されている。 次に、特定の牛の体重と年齢を識別するモデルを作成し、特定された病気に薬の最良の投与を推奨する。 これは農家や乳製品産業にとって大きな利点となるだろう。 提案するモバイルアプリケーションの名前は「the taurus」であり、選択された機械学習および画像処理モデルと、特定された疾患に対する疾患の同定、育種、予防方法と薬剤の提案のためのアプローチについて述べる。

Dairy farming plays an important role in agriculture for thousands of years not only in Sri Lanka but also in so many other countries. When it comes to dairy farming cattle is an indispensable animal. According to the literature surveys almost 3.9 million cattle and calves die in a year due to different types of diseases. The causes of diseases are mainly bacteria, parasites, fungi, chemical poisons and etc. Infectious diseases can be a greatest threat to livestock health. The mortality rate of cattle causes a huge impact on social, economic and environmental damage. In order to decrease this negative impact, the proposal implements a cross-platform mobile application to easily analyze and identify the diseases which cattle suffer from and give them a solution and also to identify the cattle breeds. The mobile application is designed to identify the breeds by analyzing the images of the cattle and identify diseases after analyzing the videos and the images of affected areas. Then make a model to identify the weight and the age of a particular cow and suggest the best dose of the medicine to the identified disease. This will be a huge advantage to farmers as well as to dairy industry. The name of the proposed mobile application is 'The Taurus' and this paper address the selected machine learning and image processing models and the approaches taken to identify the diseases, breeds and suggest the prevention methods and medicine to the identified disease.
翻訳日:2023-02-23 17:31:05 公開日:2023-02-21
# ディラックブラケットと時間依存制約

Dirac bracket and time dependent constraints ( http://arxiv.org/abs/2302.10966v1 )

ライセンス: Link先を確認
Nuno Barros e S\'a(参考訳) ディラック括弧のコンパクトな導出と、制約が時間に依存する場合の第二級制約付き系の運動方程式を提供する。 ゲージ固定後のパラメータ化力学と一般相対性理論の例を示し、これらの例における時間依存ゲージ固定条件の使用の必要性を幾何学的に説明する。

We provide a compact derivation of the Dirac bracket and of the equations of motion for second class constrained systems when the constraints are time dependent. The examples of Parameterized Mechanics and of General Relativity after gauge fixing are given, and the need for the use of time dependent gauge fixing conditions in these examples is illustrated geometrically.
翻訳日:2023-02-23 17:22:53 公開日:2023-02-21
# セジションハンター:2021年の米国議会議事堂攻撃に関するクラウドソーシング調査の定量的研究

Sedition Hunters: A Quantitative Study of the Crowdsourced Investigation into the 2021 U.S. Capitol Attack ( http://arxiv.org/abs/2302.10964v1 )

ライセンス: Link先を確認
Tianjiao Yu, Sukrit Venkatagiri, Ismini Lourentzou, Kurt Luther(参考訳) ソーシャルメディアプラットフォームは、2021年のアメリカ合衆国議会議事堂攻撃のような暴力的な出来事を組織化することができる。 同時に、これらのプラットフォームにより、プロの研究者やアマチュアのスルースが、彼らの行動に責任を負うことを目標として、容疑者の画像を共同で収集し、特定することができる。 2021年の米国議会議事堂攻撃に参加した個人を特定することを目的としたtwitterコミュニティであるsedition huntersのケーススタディを通じて、コミュニティの主要なトピックやターゲット、コミュニティへの参加者、そしてその方法について調査する。 トピックモデリングを用いることで、情報共有がコミュニティの主な焦点であることが分かる。 また、プライバシーの懸念に対する意識も高まっている。 さらに,ソーシャル・ネットワーク・アナリティクスを用いて,参加者がコミュニティにおいてどのように重要な役割を担ったかを示す。 最後に,オンラインクラウドソーシング調査の内容と構造について考察する。

Social media platforms have enabled extremists to organize violent events, such as the 2021 U.S. Capitol Attack. Simultaneously, these platforms enable professional investigators and amateur sleuths to collaboratively collect and identify imagery of suspects with the goal of holding them accountable for their actions. Through a case study of Sedition Hunters, a Twitter community whose goal is to identify individuals who participated in the 2021 U.S. Capitol Attack, we explore what are the main topics or targets of the community, who participates in the community, and how. Using topic modeling, we find that information sharing is the main focus of the community. We also note an increase in awareness of privacy concerns. Furthermore, using social network analysis, we show how some participants played important roles in the community. Finally, we discuss implications for the content and structure of online crowdsourced investigations.
翻訳日:2023-02-23 17:22:47 公開日:2023-02-21
# burer-monteiro因子分解の最適化の展望について--グローバルソリューションはいつ基底的真理に対応するのか?

On the Optimization Landscape of Burer-Monteiro Factorization: When do Global Solutions Correspond to Ground Truth? ( http://arxiv.org/abs/2302.10963v1 )

ライセンス: Link先を確認
Jianhao Ma, Salar Fattahi(参考訳) 低ランクマトリックスのリカバリでは、リニアでうるさい測定値が限られているため、低ランクマトリックスのリカバリが目標である。 低ランク行列回復は通常、Burer-Monteiro factorization (BM)と呼ばれる非凸法によって解決される。 基底真理の階数が知られているならば、bm は準最適局所解を含まず、その真の解は大域的解(すなわち真の解は識別可能である)と一致する。 地上の真実のランクが不明な場合、過度に推定され、過度にパラメータ化されたBMが発生する。 無雑音環境において、最近、ランクの過大評価は、真の解の識別可能性を維持しつつ、漸進的に最適でない局所解を減少させることが示された。 本研究では, 過度パラメータ化BMの大域的解法は, 雑音測定によりもはや真の解と一致せず, 本質的には過度パラメータ化を祝福から呪いへと変化させることを示す。 特に,低位行列回復の2つのクラス,すなわち行列完成と行列センシングについて検討した。 行列の完備化について、ランクがわずかに過大評価され、ノイズに非常に穏やかな仮定があるとしても、真の解は局所解でも大域解でもないことを示す。 行列センシングでは,大域的解と真の解との対応を保証するためには,過大評価された階数と線形にスケールするサンプルの数が必要であり,真の階数にしか対応しない最適な試料複雑性よりも大幅に大きいことを示す。

In low-rank matrix recovery, the goal is to recover a low-rank matrix, given a limited number of linear and possibly noisy measurements. Low-rank matrix recovery is typically solved via a nonconvex method called Burer-Monteiro factorization (BM). If the rank of the ground truth is known, BM is free of sub-optimal local solutions, and its true solutions coincide with the global solutions -- that is, the true solutions are identifiable. When the rank of the ground truth is unknown, it must be over-estimated, giving rise to an over-parameterized BM. In the noiseless regime, it is recently shown that over-estimation of the rank leads to progressively fewer sub-optimal local solutions while preserving the identifiability of the true solutions. In this work, we show that with noisy measurements, the global solutions of the over-parameterized BM no longer correspond to the true solutions, essentially transmuting over-parameterization from blessing to curse. In particular, we study two classes of low-rank matrix recovery, namely matrix completion and matrix sensing. For matrix completion, we show that even if the rank is only slightly over-estimated and with very mild assumptions on the noise, none of the true solutions are local or global solutions. For matrix sensing, we show that to guarantee the correspondence between global and true solutions, it is necessary and sufficient for the number of samples to scale linearly with the over-estimated rank, which can be drastically larger than its optimal sample complexity that only scales with the true rank.
翻訳日:2023-02-23 17:22:32 公開日:2023-02-21
# ガウス回帰を用いた大規模線形システム同定におけるコリナリティの対応

Dealing with Collinearity in Large-Scale Linear System Identification Using Gaussian Regression ( http://arxiv.org/abs/2302.10959v1 )

ライセンス: Link先を確認
Wenqi Cao, Gianluigi Pillonetto(参考訳) 制御とサイバネティックスに生じる多くの問題は、アプリケーションの数学的モデルを決定する必要がある。 これはしばしば入力出力データから始められ、工学文献におけるシステム識別と呼ばれるタスクに繋がる。 この分野における新しいトピックは、複数の相互接続された動的システムからなるネットワークの推定である。 システム出力が多くの相関入力の結果であると仮定した線形設定を考えると,システム同定は極めて不条件となる。 これは、フィードバックと代数ループを持つ多くのサブユニットからなる複雑なサイバーネティックスシステムをモデル化するときにしばしば発生するシナリオである。 我々は,任意のインパルス応答をゼロ平均ガウス過程の実現と見なすベイズ正規化フレームワークにキャストされた戦略を開発した。 任意の共分散は、滑らかな指数減衰に関する情報を含むいわゆる安定スプライン核によって定義される。 我々はマルコフ連鎖モンテカルロスキームを設計し、コリナリティを効率的に扱うことでインパルス応答を後方に再構築する。 パラメータ空間の分割を形成するブロックを考えるだけでなく、システム入力のコリニアリティのレベルに基づいて、他の(重複した)ブロックも更新する。 アルゴリズムの理論的性質を解析し,収束率を求める。 数百のインパルス応答と高い相関入力を含むシステムを用いた数値実験を含む。

Many problems arising in control and cybernetics require the determination of a mathematical model of the application. This has often to be performed starting from input-output data, leading to a task known as system identification in the engineering literature. One emerging topic in this field is estimation of networks consisting of several interconnected dynamic systems. We consider the linear setting assuming that system outputs are the result of many correlated inputs, hence making system identification severely ill-conditioned. This is a scenario often encountered when modeling complex cybernetics systems composed by many sub-units with feedback and algebraic loops. We develop a strategy cast in a Bayesian regularization framework where any impulse response is seen as realization of a zero-mean Gaussian process. Any covariance is defined by the so called stable spline kernel which includes information on smooth exponential decay. We design a novel Markov chain Monte Carlo scheme able to reconstruct the impulse responses posterior by efficiently dealing with collinearity. Our scheme relies on a variation of the Gibbs sampling technique: beyond considering blocks forming a partition of the parameter space, some other (overlapping) blocks are also updated on the basis of the level of collinearity of the system inputs. Theoretical properties of the algorithm are studied obtaining its convergence rate. Numerical experiments are included using systems containing hundreds of impulse responses and highly correlated inputs.
翻訳日:2023-02-23 17:22:05 公開日:2023-02-21
# 安全かつ生物活性な有機リン分子の予測のための機械学習

Machine learning for the prediction of safe and biologically active organophosphorus molecules ( http://arxiv.org/abs/2302.10952v1 )

ライセンス: Link先を確認
Hang Hu, Hsu Kiang Ooi, Mohammad Sajjad Ghaemi, Anguang Hu(参考訳) 薬物発見は、考慮すべき大きな分子空間を持つ複雑なプロセスである。 探索空間を制約することにより、フラグメントベースのドラッグデザインは、化学領域の興味を効果的にサンプリングできるアプローチである。 本稿では, フラグメントベースアプローチを用いて有機リン分子の化学空間をサンプリングするために, 注意モデルを用いたリカレントニューラルネットワーク(RNN)のフレームワークを提案する。 フレームワークはZINCデータセットでトレーニングされ、高い薬物類似度スコアをスクリーニングする。 目的は、有機リン性殺虫剤や化学兵器のような生物作用様式の分子を予測することであり、人間には毒性が低い。 生成した分子はpo2fの開始断片を含むが、標的タンパク質との結合効果を制限するバルク性の炭化水素側鎖を有する。

Drug discovery is a complex process with a large molecular space to be considered. By constraining the search space, the fragment-based drug design is an approach that can effectively sample the chemical space of interest. Here we propose a framework of Recurrent Neural Networks (RNN) with an attention model to sample the chemical space of organophosphorus molecules using the fragment-based approach. The framework is trained with a ZINC dataset that is screened for high druglikeness scores. The goal is to predict molecules with similar biological action modes as organophosphorus pesticides or chemical warfare agents yet less toxic to humans. The generated molecules contain a starting fragment of PO2F but have a bulky hydrocarbon side chain limiting its binding effectiveness to the targeted protein.
翻訳日:2023-02-23 17:21:43 公開日:2023-02-21
# 量子コンピューティングにおけるデータ入力のためのブロック符号化構造行列

Block-encoding structured matrices for data input in quantum computing ( http://arxiv.org/abs/2302.10949v1 )

ライセンス: Link先を確認
Christoph S\"underhauf, Earl Campbell, Joan Camps(参考訳) データ入力のコストは、量子アルゴリズムの実行時間を支配します。 本稿では,ブロック符号化回路,量子特異値変換の入力モデル,関連するアルゴリズムを用いて,算術的構成行列のデータ入力を考える。 本稿では,行列の繰り返し値のスパーシティとパターンの算術的記述に基づいてブロック符号化回路を構築する方法を示す。 我々はブロック符号化の異なる部分正規化を与えるスキームを提示する; 比較により、最良の選択は特定の行列に依存する。 得られた回路は、間隔に応じてフラグキュービット数を削減し、繰り返し値に応じてデータ読み込みコストを削減し、特定の行列に対して指数関数的に改善する。 我々は、toeplitz や tridiagonal matrices を含むいくつかの行列にブロック符号化スキームを適用する例を示す。

The cost of data input can dominate the run-time of quantum algorithms. Here, we consider data input of arithmetically structured matrices via block encoding circuits, the input model for the quantum singular value transform and related algorithms. We demonstrate how to construct block encoding circuits based on an arithmetic description of the sparsity and pattern of repeated values of a matrix. We present schemes yielding different subnormalisations of the block encoding; a comparison shows that the best choice depends on the specific matrix. The resulting circuits reduce flag qubit number according to sparsity, and data loading cost according to repeated values, leading to an exponential improvement for certain matrices. We give examples of applying our block encoding schemes to a few families of matrices, including Toeplitz and tridiagonal matrices.
翻訳日:2023-02-23 17:21:32 公開日:2023-02-21
# R\'{e}nyi 絡み合いエントロピーの力学平均場理論とハバードモデルにおける相互情報

Dynamical mean-field theory for R\'{e}nyi entanglement entropy and mutual Information in Hubbard Model ( http://arxiv.org/abs/2302.10940v1 )

ライセンス: Link先を確認
Surajit Bera, Arijit Haldar and Sumilan Banerjee(参考訳) 量子絡み合いは古典的なものを欠いているが、多体状態の量子の性質を特徴づける基本的な新しい経路を提供する。 本研究では,1次元と2次元の動的平均場理論(DMFT)において,ハバードモデルにおける拡張サブシステムのエンタングルメントを計算するための新しい経路積分法(Phys. Rev. Res. 2, 033505 (2020))の実装について議論する。 新しい経路積分定式化は、下層の相互作用するフェルミオンに ``kick' を適用することで絡み合いを測定する。 また,r\'{e}nyiエンタングルメントエントロピーは,キック項の強度を積分することにより,dmftフレームワーク内で効率的に抽出できることを示した。 この方法を用いて,ハバードモデルの金属およびモット絶縁相のサブシステムサイズ関数として,第2のR\'{e}nyiエントロピーを計算する。 相関金属相におけるサブシステムR\'{e}nyiエントロピーにおける熱エントロピーから絡み合うクロスオーバーへの熱エントロピーを探索する。 第二のR\'{e}nyiエントロピーのサブシステムスケールは、共形場理論によって予測されるように、体積法則熱R\'{e}nyiエントロピーと普遍境界法則R\'{e}nyiエントロピーの対数的違反を補間するクロスオーバー公式によってよく説明されることを示す。 また,モット金属絶縁体遷移の相互情報についても検討した。

Quantum entanglement, lacking any classical counterpart, provides a fundamental new route to characterize the quantum nature of many-body states. In this work, we discuss an implementation of a new path integral method [Phys. Rev. Res. 2, 033505 (2020)] for fermions to compute entanglement for extended subsystems in the Hubbard model within dynamical mean field theory (DMFT) in one and two dimensions. The new path integral formulation measures entanglement by applying a ``kick" to the underlying interacting fermions. We show that the R\'{e}nyi entanglement entropy can be extracted efficiently within the DMFT framework by integrating over the strength of the kick term. Using this method, we compute the second R\'{e}nyi entropy as a function of subsystem size for metallic and Mott insulating phases of the Hubbard model. We explore the thermal entropy to entanglement crossover in the subsystem R\'{e}nyi entropy in the correlated metallic phase. We show that the subsystem-size scaling of second R\'{e}nyi entropy is well described by the crossover formula which interpolates between the volume-law thermal R\'{e}nyi entropy and the universal boundary-law R\'{e}nyi entanglement entropy with logarithmic violation, as predicted by conformal field theory. We also study the mutual information across the Mott metal-insulator transition.
翻訳日:2023-02-23 17:21:20 公開日:2023-02-21
# 変分量子アルゴリズムによるシュウィンガーモデルのクエンチダイナミクス

Quench dynamics of the Schwinger model via variational quantum algorithms ( http://arxiv.org/abs/2302.10933v1 )

ライセンス: Link先を確認
Lento Nagano, Aniruddha Bapat, Christian W. Bauer(参考訳) 変動量子アルゴリズムによるシュウィンガーモデルとして知られる1+1$次元U(1)ゲージ理論のリアルタイムダイナミクスについて検討する。 具体的には,外部電界の存在下でのクエンチダイナミクスをシミュレートする。 まず,変分量子固有解法を用いて,外部場がない場合の系の基底状態を求める。 これを初期状態として、パラメータをmclachlanの変分原理を用いて更新する固定深さのパラメータ化回路を用いて、外部フィールド下でリアルタイム進化を行う。 我々は、初期状態の準備と時間進化に同じAnsatzを使用し、それによって全体の回路深さを削減できる。 本手法を古典的シミュレータを用いてテストし,結果が正確な対角化とよく一致することを確認した。

We investigate the real-time dynamics of the $(1+1)$-dimensional U(1) gauge theory known as the Schwinger model via variational quantum algorithms. Specifically, we simulate quench dynamics in the presence of an external electric field. First, we use a variational quantum eigensolver to obtain the ground state of the system in the absence of an external field. With this as the initial state, we perform real-time evolution under an external field via a fixed-depth, parameterized circuit whose parameters are updated using McLachlan's variational principle. We use the same Ansatz for initial state preparation and time evolution, by which we are able to reduce the overall circuit depth. We test our method with a classical simulator and confirm that the results agree well with exact diagonalization.
翻訳日:2023-02-23 17:20:45 公開日:2023-02-21
# ハイパースペクトルデサイクリングの教師なし学習における空間勾配の整合性:手術画像への応用

Spatial gradient consistency for unsupervised learning of hyperspectral demosaicking: Application to surgical imaging ( http://arxiv.org/abs/2302.10927v1 )

ライセンス: Link先を確認
Peichao Li, Muhammad Asad, Conor Horgan, Oscar MacCormac, Jonathan Shapey, Tom Vercauteren(参考訳) 高スペクトルイメージングは、組織の特徴化がリアルタイムかつ高分解能で行われる場合、術中意思決定を改善する可能性がある。 ハイパースペクトルスナップショットモザイクセンサは、高速な取得速度とコンパクトなサイズのために、有望なアプローチを提供する。 しかし,スナップショット画像の空間・スペクトル情報の完全復元には,復号化アルゴリズムが必要である。 ほとんどの最先端のデモサックアルゴリズムは、スナップショットと高解像度のハイパースペクトル画像を組み合わせた地上訓練データを必要とするが、同じシーンと全く同じ画像のペアは、術中設定で取得することは物理的に不可能である。 そこで本研究では,トレーニング目的のスナップショット画像のみを必要とする,教師なしハイパースペクトル画像復号アルゴリズムを提案する。 我々は、高スペクトル復号化を、深層ニューラルネットワークを用いて解決する不測の線形逆問題とみなす。 自然シーンで発生するスペクトル相関を利用して,空間的勾配整合性に基づく新しいスペクトル間帯域正規化項を設計する。 提案手法と標準正規化手法を併用し、標準データ忠実性項を活用することにより、ディープニューラルネットワークを訓練するための教師なし損失関数を得ることにより、リアルタイムのハイパースペクトル画像デモサイックを実現する。 超繰り返し画像データセットの定量的な結果は、教師なしデモサイクリングアプローチが教師なしのカウンターパートと同等の性能を達成し、リニアデモサイクリングを著しく上回っていることを示している。 実スナップショットハイパースペクトル画像の質的研究により, 定量的解析の結果を確認した。 提案アルゴリズムは,術中使用におけるモダリティの適合性を向上させるために,リアルタイムに有望なハイパースペクトル分解を実現することができることを示唆する。

Hyperspectral imaging has the potential to improve intraoperative decision making if tissue characterisation is performed in real-time and with high-resolution. Hyperspectral snapshot mosaic sensors offer a promising approach due to their fast acquisition speed and compact size. However, a demosaicking algorithm is required to fully recover the spatial and spectral information of the snapshot images. Most state-of-the-art demosaicking algorithms require ground-truth training data with paired snapshot and high-resolution hyperspectral images, but such imagery pairs with the exact same scene are physically impossible to acquire in intraoperative settings. In this work, we present a fully unsupervised hyperspectral image demosaicking algorithm which only requires exemplar snapshot images for training purposes. We regard hyperspectral demosaicking as an ill-posed linear inverse problem which we solve using a deep neural network. We take advantage of the spectral correlation occurring in natural scenes to design a novel inter spectral band regularisation term based on spatial gradient consistency. By combining our proposed term with standard regularisation techniques and exploiting a standard data fidelity term, we obtain an unsupervised loss function for training deep neural networks, which allows us to achieve real-time hyperspectral image demosaicking. Quantitative results on hyperspetral image datasets show that our unsupervised demosaicking approach can achieve similar performance to its supervised counter-part, and significantly outperform linear demosaicking. A qualitative user study on real snapshot hyperspectral surgical images confirms the results from the quantitative analysis. Our results suggest that the proposed unsupervised algorithm can achieve promising hyperspectral demosaicking in real-time thus advancing the suitability of the modality for intraoperative use.
翻訳日:2023-02-23 17:20:34 公開日:2023-02-21
# オンライン話者ダイアリゼーションのための強化学習フレームワーク

A Reinforcement Learning Framework for Online Speaker Diarization ( http://arxiv.org/abs/2302.10924v1 )

ライセンス: Link先を確認
Baihan Lin, Xinxin Zhang(参考訳) 話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。 本研究では,事前登録や事前学習をすることなく,完全オンライン・強化学習環境でリアルタイムマルチ話者ダイアリゼーションと認識を行うための新しい機械学習フレームワークを提案する。 提案手法は,オンライン意思決定問題と同じ問題に対して,抽出,クラスタリング,再分類を組み合わせる。 本稿では,オフライン強化学習,セミスーパービジョン,ドメイン適応といった実践的考察と高度化手法について検討し,限られたトレーニングデータと分散環境の課題に対処する。 提案手法では,話者ダイアリゼーションを話者認識タスクの完全なオンライン学習問題として捉え,エージェントは展開前のトレーニングセットから事前トレーニングを受けず,報酬フィードバックを通じて話者のアイデンティティをオンザフライで検出することを学ぶ。 話者ダイアリゼーションに対する強化学習アプローチのパラダイムは、適応的で軽量で一般化可能なシステムを提供しており、マルチユーザテレ会議に有用である。 最後に,提案手法を概念実証として用いたデスクトップアプリケーションを提案する。 我々の知る限りでは、これは話者ダイアリゼーションタスクに強化学習アプローチを適用するための最初のアプローチである。

Speaker diarization is a task to label an audio or video recording with the identity of the speaker at each given time stamp. In this work, we propose a novel machine learning framework to conduct real-time multi-speaker diarization and recognition without prior registration and pretraining in a fully online and reinforcement learning setting. Our framework combines embedding extraction, clustering, and resegmentation into the same problem as an online decision-making problem. We discuss practical considerations and advanced techniques such as the offline reinforcement learning, semi-supervision, and domain adaptation to address the challenges of limited training data and out-of-distribution environments. Our approach considers speaker diarization as a fully online learning problem of the speaker recognition task, where the agent receives no pretraining from any training set before deployment, and learns to detect speaker identity on the fly through reward feedbacks. The paradigm of the reinforcement learning approach to speaker diarization presents an adaptive, lightweight, and generalizable system that is useful for multi-user teleconferences, where many people might come and go without extensive pre-registration ahead of time. Lastly, we provide a desktop application that uses our proposed approach as a proof of concept. To the best of our knowledge, this is the first approach to apply a reinforcement learning approach to the speaker diarization task.
翻訳日:2023-02-23 17:20:06 公開日:2023-02-21
# 幾何変形スナップショットを用いた血流シミュレーションのためのデータ駆動低次モデル

Data-driven reduced-order modelling for blood flow simulations with geometry-informed snapshots ( http://arxiv.org/abs/2302.11006v1 )

ライセンス: Link先を確認
Dongwei Ye, Valeria Krzhizhanovskaya, Alfons G. Hoekstra(参考訳) 計算流体力学は、動脈内の血行動態をシミュレートし、予測し、研究する、心臓血管科学と工学において一般的なツールである。 しかし,特に不確実性定量化や設計最適化など,多数の評価が必要な場合において,心血管フロー問題の複雑さとスケールのため,モデルの評価は計算コストがかかる可能性がある。 このようなシナリオでは、モデルはシミュレーション領域の変更や区別のために繰り返し評価されなければならない。 本研究では,類似する異なる領域における血流シミュレーションの効率的な予測のために,データ駆動サーロゲートモデルを提案する。 提案するサロゲートモデルでは, 類似する形状をパラメータ化し, 対応する血行力学情報を, 参照領域と対象領域の間で構築された微分同相写像によって幾何に変形したスナップショットに定式化する。 その後、適切な直交分解を用いて幾何学的パラメータの非侵入的還元次数モデルを構築し、形状の幾何学的パラメータの縮小係数に基づいて還元次モデルの還元係数を予測するための放射状基底関数補間器を訓練する。 狭窄と分岐を流れる血液の2つの例を提示し、分析する。 提案するサーロゲートモデルは,血行動態予測の精度と効率を示し,複雑な患者特有のシナリオに対するリアルタイムシミュレーションや不確実性定量化への可能性を示す。

Computational fluid dynamics is a common tool in cardiovascular science and engineering to simulate, predict and study hemodynamics in arteries. However, owing to the complexity and scale of cardiovascular flow problems, the evaluation of the model could be computationally expensive, especially in those cases where a large number of evaluations are required, such as uncertainty quantification and design optimisation. In such scenarios, the model may have to be repeatedly evaluated due to the changes or distinctions of simulation domains. In this work, a data-driven surrogate model is proposed for the efficient prediction of blood flow simulations on similar but distinct domains. The proposed surrogate model leverages surface registration to parameterise those similar but distinct shapes and formulate corresponding hemodynamics information into geometry-informed snapshots by the diffeomorphism constructed between the reference domain and target domain. A non-intrusive reduced-order model for geometrical parameters is subsequently constructed using proper orthogonal decomposition, and a radial basis function interpolator is trained for predicting the reduced coefficients of the reduced-order model based on reduced coefficients of geometrical parameters of the shape. Two examples of blood flowing through a stenosis and a bifurcation are presented and analysed. The proposed surrogate model demonstrates its accuracy and efficiency in hemodynamics prediction and shows its potential application toward real-time simulation or uncertainty quantification for complex patient-specific scenarios.
翻訳日:2023-02-23 17:13:49 公開日:2023-02-21
# 保存法を尊重する物理モデルを学ぶ

Learning Physical Models that Can Respect Conservation Laws ( http://arxiv.org/abs/2302.11002v1 )

ライセンス: Link先を確認
Derek Hansen, Danielle C. Maddix, Shima Alizadeh, Gaurav Gupta, Michael W. Mahoney(参考訳) 科学機械学習(SciML)における最近の研究は、偏微分方程式(PDE)情報を学習プロセスに組み込むことに重点を置いている。 この研究の多くは、比較的 `easy' の PDE 作用素 (楕円型や放物型など) に焦点を当てており、比較的 ``hard'' の PDE 作用素 (例えば、双曲型) に重点を置いていない。 数値PDEでは、後者の問題クラスはボリューム要素のタイプや保存制約の制御を必要とするが、これは困難であることが知られている。 SciMLの約束を果たすには、両方のタイプの問題を学習プロセスにシームレスに組み込む必要がある。 そこで本稿では,保存制約を汎用的なscimlアーキテクチャに組み込むためのフレームワークprobconservを提案する。 そのためにProbConservは、保存法とベイズ更新の一体的な形式を組み合わせる。 本稿では,広く適用可能なPDEのパラメータ化ファミリであるGPME(Generalized Porous Medium Equation)を用いたProbConserv on Learningの詳細な解析を行い,PDEの質的特性について述べる。 ProbConservは、手軽なGPME変種に対して有効であり、最先端の競合とよく機能し、より難しいGPME変種に対しては、容積保存を保証しない他のアプローチよりも優れている。 probconservは、物理的保存の制約をシームレスに強制し、確率的不確実性定量化(uq)を維持し、衝撃や異論をうまく扱う。 いずれの場合も、下流タスクにおいて優れた予測性能を達成する。

Recent work in scientific machine learning (SciML) has focused on incorporating partial differential equation (PDE) information into the learning process. Much of this work has focused on relatively ``easy'' PDE operators (e.g., elliptic and parabolic), with less emphasis on relatively ``hard'' PDE operators (e.g., hyperbolic). Within numerical PDEs, the latter problem class requires control of a type of volume element or conservation constraint, which is known to be challenging. Delivering on the promise of SciML requires seamlessly incorporating both types of problems into the learning process. To address this issue, we propose ProbConserv, a framework for incorporating conservation constraints into a generic SciML architecture. To do so, ProbConserv combines the integral form of a conservation law with a Bayesian update. We provide a detailed analysis of ProbConserv on learning with the Generalized Porous Medium Equation (GPME), a widely-applicable parameterized family of PDEs that illustrates the qualitative properties of both easier and harder PDEs. ProbConserv is effective for easy GPME variants, performing well with state-of-the-art competitors; and for harder GPME variants it outperforms other approaches that do not guarantee volume conservation. ProbConserv seamlessly enforces physical conservation constraints, maintains probabilistic uncertainty quantification (UQ), and deals well with shocks and heteroscedasticities. In each case, it achieves superior predictive performance on downstream tasks.
翻訳日:2023-02-23 17:13:26 公開日:2023-02-21
# CHA2: 逆分子設計に向けた凸型オートエンコーダ

CHA2: CHemistry Aware Convex Hull Autoencoder Towards Inverse Molecular Design ( http://arxiv.org/abs/2302.11000v1 )

ライセンス: Link先を確認
Mohammad Sajjad Ghaemi, Hang Hu, Anguang Hu, Hsu Kiang Ooi(参考訳) 分子設計を最適化し、薬物類似度スコア(QED)の定量的推定などの目的を満たす新しい化学構造を発見することは、離散分子構造の膨大な組み合わせ設計空間のためNPハードであり、興味のある性質を持つデノボ構造を総合的に探索することがほぼ不可能である。 この課題に対処するために、難解な探索空間を低次元の潜在体積に減らし、逆設計により分子候補をより容易に検証する。 オートエンコーダは、離散的な分子構造を潜伏空間に還元するエンコーダと、探索空間を分子設計に反転させるデコーダを備えた、適切なディープラーニング技術である。 離散的な化学構造を特徴づける潜在空間の連続性は、新しい分子を発見するために逆設計の柔軟な表現を提供する。 しかし、この潜伏空間を探索するには、新しい構造を生成するための特定の洞察が必要である。 そこで我々は,高いQEDを持つ新規分子を明らかにする効率的な方法として,高いQEDでトップ分子を取り囲む凸ホールを用いて,潜在表現におけるタイトな部分空間を抽出することを提案する。 提案手法の有効性を, 自己参照組込み文字列(SELFIES)表現とともにトレーニングデータセットとしてQM9を用いて自動エンコーダを校正し, 新規な化学構造を展開させる逆分子設計を行う。

Optimizing molecular design and discovering novel chemical structures to meet certain objectives, such as quantitative estimates of the drug-likeness score (QEDs), is NP-hard due to the vast combinatorial design space of discrete molecular structures, which makes it near impossible to explore the entire search space comprehensively to exploit de novo structures with properties of interest. To address this challenge, reducing the intractable search space into a lower-dimensional latent volume helps examine molecular candidates more feasibly via inverse design. Autoencoders are suitable deep learning techniques, equipped with an encoder that reduces the discrete molecular structure into a latent space and a decoder that inverts the search space back to the molecular design. The continuous property of the latent space, which characterizes the discrete chemical structures, provides a flexible representation for inverse design in order to discover novel molecules. However, exploring this latent space requires certain insights to generate new structures. We propose using a convex hall surrounding the top molecules in terms of high QEDs to ensnare a tight subspace in the latent representation as an efficient way to reveal novel molecules with high QEDs. We demonstrate the effectiveness of our suggested method by using the QM9 as a training dataset along with the Self- Referencing Embedded Strings (SELFIES) representation to calibrate the autoencoder in order to carry out the Inverse molecular design that leads to unfold novel chemical structure.
翻訳日:2023-02-23 17:12:54 公開日:2023-02-21
# 機械可読性情報を用いた汎用プライバシーインタフェースの実現

Enabling Versatile Privacy Interfaces Using Machine-Readable Transparency Information ( http://arxiv.org/abs/2302.10991v1 )

ライセンス: Link先を確認
Elias Gr\"unewald, Johannes M. Halkenh\"au{\ss}er, Nicola Leschke, Johanna Washington, Cristina Paupini, Frank Pallas(参考訳) オンラインサービスにおける個人データの処理に関する透明性は、個人データを共有すべきか否かの判断に必要条件である。 本稿では,プライバシインタフェースは,ユニバーサルデザインの原則と使用可能なプライバシに則って,表示のコンテキスト,個人の嗜好,個人的データ主体のコンピテンスを取り入れるべきである,と論じる。 そのためには、透明性情報の供給を究極のプレゼンテーションから意識的に分離する必要がある。 この目的のために,データコントローラからデータオブジェクトへの透過性情報の提供方法に関する一般的なモデルを提供し,機械可読性情報を有効に活用し,多用途なプレゼンテーションインタフェースを容易化する。 このモデルの実際の実装は2つあります。 1)GDPR対応のプライバシーダッシュボード 2)会話型AIによって実現されたチャットボットと仮想音声アシスタント。 モデルと実装をユーザ調査で評価し、これらのアプローチが効果的で時間効率の良い透明性をもたらすことを見出します。 その結果、機械可読透明性情報を用いて透明性を向上し、データコントローラがそれぞれの規制義務を満たす方法を説明する。

Transparency regarding the processing of personal data in online services is a necessary precondition for informed decisions on whether or not to share personal data. In this paper, we argue that privacy interfaces shall incorporate the context of display, personal preferences, and individual competences of data subjects following the principles of universal design and usable privacy. Doing so requires -- among others -- to consciously decouple the provision of transparency information from their ultimate presentation. To this end, we provide a general model of how transparency information can be provided from a data controller to data subjects, effectively leveraging machine-readable transparency information and facilitating versatile presentation interfaces. We contribute two actual implementations of said model: 1) a GDPR-aligned privacy dashboard and 2) a chatbot and virtual voice assistant enabled by conversational AI. We evaluate our model and implementations with a user study and find that these approaches provide effective and time-efficient transparency. Consequently, we illustrate how transparency can be enhanced using machine-readable transparency information and how data controllers can meet respective regulatory obligations.
翻訳日:2023-02-23 17:12:27 公開日:2023-02-21
# MultiRobustBench: 複数の攻撃に対するロバスト性のベンチマーク

MultiRobustBench: Benchmarking Robustness Against Multiple Attacks ( http://arxiv.org/abs/2302.10980v1 )

ライセンス: Link先を確認
Sihui Dai, Saeed Mahloujifar, Chong Xiang, Vikash Sehwag, Pin-Yu Chen, Prateek Mittal(参考訳) 敵の例に対する防御に関する既存の研究の多くは、単一の(通常は境界付けられたLp-ノルム)攻撃に対する防御に焦点を当てているが、実際は機械学習(ML)モデルは様々な攻撃に対して堅牢であるべきである。 本稿では,MLモデルに対する多重攻撃を考慮した最初の統一フレームワークを提案する。 我々のフレームワークは、テスト時の敵に対する学習者の知識の異なるレベルをモデル化することができ、予期せぬ攻撃に対する頑健さと攻撃の結合に対する堅牢さをモデル化することができる。 このフレームワークを用いて,攻撃型と攻撃強度をまたいだ性能を捉えるマルチアタック評価のベンチマークを行うための,最初のリーダボードであるmultirobustbenchを提案する。 我々は,lpベースの脅威モデル,空間的変換,色変化を含む9種類の攻撃タイプに対するロバスト性に対する16種類の防御モデルの性能を20種類の攻撃強度(合計180攻撃)で評価した。 さらに、複数の攻撃に対する現在の防御状況を分析する。 我々の分析によると、既存の防御は、使用される攻撃セット全体の平均ロバストネスを進歩させたが、最悪の攻撃に対するロバストネスは依然として大きなオープンな問題であり、既存のすべてのモデルがランダムな推測よりも悪化している。

The bulk of existing research in defending against adversarial examples focuses on defending against a single (typically bounded Lp-norm) attack, but for a practical setting, machine learning (ML) models should be robust to a wide variety of attacks. In this paper, we present the first unified framework for considering multiple attacks against ML models. Our framework is able to model different levels of learner's knowledge about the test-time adversary, allowing us to model robustness against unforeseen attacks and robustness against unions of attacks. Using our framework, we present the first leaderboard, MultiRobustBench, for benchmarking multiattack evaluation which captures performance across attack types and attack strengths. We evaluate the performance of 16 defended models for robustness against a set of 9 different attack types, including Lp-based threat models, spatial transformations, and color changes, at 20 different attack strengths (180 attacks total). Additionally, we analyze the state of current defenses against multiple attacks. Our analysis shows that while existing defenses have made progress in terms of average robustness across the set of attacks used, robustness against the worst-case attack is still a big open problem as all existing models perform worse than random guessing.
翻訳日:2023-02-23 17:12:08 公開日:2023-02-21
# フォローアップクエリを検索する学習

Learning to Retrieve Engaging Follow-Up Queries ( http://arxiv.org/abs/2302.10978v1 )

ライセンス: Link先を確認
Christopher Richardson, Sudipta Kar, Anjishnu Kumar, Anand Ramachandran, Omar Zia Khan, Zeynab Raeesy, Abhinav Sethy(参考訳) オープンドメインの会話エージェントは、幅広いターゲットクエリに答えることができる。 しかし,これらのシステムとの相互作用の逐次的性質は,知識探索を長大な課題とし,質問の連鎖をユーザが負担する。 本稿では,ユーザが持つであろう次の質問を予測するために,検索ベースシステムと関連するデータセットを提案する。 このようなシステムは,ユーザの知識探索を積極的に支援することで,より活発な対話を実現する。 検索システムは、有効なフォローアップ質問と無効候補のセットを含む、約14Kのマルチターン情報検索会話を含むデータセットに基づいて訓練される。 無効候補は、パラフレーズ、部分的なエンティティマッチ、無関係なエンティティ、ASRエラーなど、さまざまな構文的および意味的な共同創設者をシミュレートするために生成される。 共同設立者の特定の手法を用いて、OR-QuACデータセット上のこれらのネガティブな例をシミュレートし、フォローアップクエリバンク(FQ-Bank)と呼ばれるデータセットを開発する。 そして,fq-bankのランキングモデルをトレーニングし,教師なしと教師なしのアプローチを比較した。 その結果,共同設立者よりも上位にランク付けすることで,有効なフォローアップを回収できることが示唆された。

Open domain conversational agents can answer a broad range of targeted queries. However, the sequential nature of interaction with these systems makes knowledge exploration a lengthy task which burdens the user with asking a chain of well phrased questions. In this paper, we present a retrieval based system and associated dataset for predicting the next questions that the user might have. Such a system can proactively assist users in knowledge exploration leading to a more engaging dialog. The retrieval system is trained on a dataset which contains ~14K multi-turn information-seeking conversations with a valid follow-up question and a set of invalid candidates. The invalid candidates are generated to simulate various syntactic and semantic confounders such as paraphrases, partial entity match, irrelevant entity, and ASR errors. We use confounder specific techniques to simulate these negative examples on the OR-QuAC dataset and develop a dataset called the Follow-up Query Bank (FQ-Bank). Then, we train ranking models on FQ-Bank and present results comparing supervised and unsupervised approaches. The results suggest that we can retrieve the valid follow-ups by ranking them in higher positions compared to confounders, but further knowledge grounding can improve ranking performance.
翻訳日:2023-02-23 17:11:44 公開日:2023-02-21
# ベイズラスト層を用いたニューラルネットワークの不確実性定量化

Improved uncertainty quantification for neural networks with Bayesian last layer ( http://arxiv.org/abs/2302.10975v1 )

ライセンス: Link先を確認
Felix Fiedler and Sergio Lucia(参考訳) 不確かさの定量化は機械学習において必須のタスクであり、ニューラルネットワーク(NN)が伝統的に優れていないタスクである。 パラメータと予測が確率分布であるベイズニューラルネットワーク(BNN)は、一部のアプリケーションでは有効であるが、トレーニングと推論のために高価なサンプリングを必要とすることが多い。 ベイズ最後の層(BLL)を持つNNは単純化されたBNNであり、最後の層における重みと予測は正規分布に従う。 概念的にはベイズ線形回帰(BLR)と関係があり、近年不確実性の下での学習ベースコントロールで人気を博している。 どちらも出力に線形にマッピングされた非線形特徴空間を考えると、例えばノイズ分散のようなハイパーパラメータは、bll を持つ nns に対して、これらのハイパーパラメータは、特徴空間と予測性能に影響を及ぼすため、他の全ての層の決定論的重みを含むべきである。 残念なことに、この設定で評価する余地は高く、バックプロパゲーションによる直接訓練を禁止している。 本稿では,従来の重みをハイパーパラメータとして考慮し,バックプロパゲーションによる効率的なトレーニングを可能にするBLL対数可能性の再構成を提案する。 さらに,BLLを用いたNNの補間不確実性を簡易に改善する手法を提案する。 多変量玩具の例では、動的システム識別タスクの場合、提案アルゴリズムで訓練されたBLL付きNNが、NN機能付き標準BLRより優れていることを示す。

Uncertainty quantification is an essential task in machine learning - a task in which neural networks (NNs) have traditionally not excelled. Bayesian neural networks (BNNs), in which parameters and predictions are probability distributions, can be a remedy for some applications, but often require expensive sampling for training and inference. NNs with Bayesian last layer (BLL) are simplified BNNs where only the weights in the last layer and the predictions follow a normal distribution. They are conceptually related to Bayesian linear regression (BLR) which has recently gained popularity in learning based-control under uncertainty. Both consider a non-linear feature space which is linearly mapped to the output, and hyperparameters, for example the noise variance, For NNs with BLL, these hyperparameters should include the deterministic weights of all other layers, as these impact the feature space and thus the predictive performance. Unfortunately, the marginal likelihood is expensive to evaluate in this setting and prohibits direct training through back-propagation. In this work, we present a reformulation of the BLL log-marginal likelihood, which considers weights in previous layers as hyperparameters and allows for efficient training through back-propagation. Furthermore, we derive a simple method to improve the extrapolation uncertainty of NNs with BLL. In a multivariate toy example and in the case of a dynamic system identification task, we show that NNs with BLL, trained with our proposed algorithm, outperform standard BLR with NN features.
翻訳日:2023-02-23 17:11:03 公開日:2023-02-21
# 超強結合超伝導量子回路における仮想フォトンの検出

Detecting virtual phothons in ultrastrongly coupled superconducting quantum circuits ( http://arxiv.org/abs/2302.10973v1 )

ライセンス: Link先を確認
L. Giannelli, E. Paladino, M. Grajcar, G. S. Paraoanu, and G. Falci(参考訳) 光物質相互作用と基礎物理学の理解は、新興量子技術にとって不可欠である。 固体デバイスは結合強度が「超強」、すなわちサブシステムのエネルギーに匹敵する新しい体制を探求することができる。 新しいエキゾチックな現象は、その多くの共通根は、絡み合った真空が仮想光子を含むという事実である。 それらは、u(1)対称性を破る超強結合の証人である励起数の保存の欠如を象徴している。 10年以上の研究にもかかわらず、地上状態の仮想光子の検出はまだ実証を待っている。 本稿では、この長年の問題に対する解決策を提供する。 主な実験的障害に直面すると、スーパーインダクタによって実装された従来の「軽いフラクトロニウム」のような超伝導量子回路と、高効率で忠実で選択的な仮想光子を現実のものに変換するコヒーレント増幅プロトコルの設計が見つかる。 これにより、現在の量子技術で利用可能なリソースによる検出が可能になる。

Light-matter interaction, and understanding the fundamental physics behind, is essential for emerging quantum technologies. Solid-state devices may explore new regimes where coupling strengths are "ultrastrong", i.e. comparable to the energies of the subsystems. New exotic phenomena occur the common root of many of them being the fact that the entangled vacuum contains virtual photons. They herald the lack of conservation of the number of excitations which is the witness of ultrastrong coupling breaking the U(1) symmetry. Despite more than a decade of research, the detection of ground-state virtual photons still awaits demonstration. In this work, we provide a solution for this long-standing problem. Facing the main experimental obstacles, we find a design of an unconventional "light fluxonium"-like superconducting quantum circuit implemented by superinductors and a protocol of coherent amplification which yields a highly efficient, faithful and selective conversion of virtual photons into real ones. This enables their detection with resources available to present-day quantum technologies.
翻訳日:2023-02-23 17:10:37 公開日:2023-02-21
# 再パラメータ化ボリュームサンプリングによる微分レンダリング

Differentiable Rendering with Reparameterized Volume Sampling ( http://arxiv.org/abs/2302.10970v1 )

ライセンス: Link先を確認
Nikita Morozov, Denis Rakitin, Oleg Desheulin, Dmitry Vetrov, Kirill Struminsky(参考訳) ビュー合成において、ニューラルネットワークは、シーン画像のスパースセットに基づいて、基礎となる密度と放射場を近似する。 新規なビューの画素を生成するには、画素を通して光線を移動させ、高濃度の光点から放射される放射率の重み付け和を計算する。 このレンダリングアルゴリズムは完全に微分可能で、勾配に基づくフィールドの最適化が容易である。 しかし、実際には、光線の小さな不透明な部分だけが、光度の大部分を合計に寄与している。 逆変換サンプリングに基づくエンドツーエンドの微分可能サンプリングアルゴリズムを提案する。 密度場によって引き起こされる確率分布に従ってサンプルを生成し、光線上の非透過点を選択する。 我々はこのアルゴリズムを2つの方法で活用する。 まず,モンテカルロ推定に基づく新しいレンダリング手法を提案する。 このようなレンダリングアルゴリズムは、光線当たり数回の放射場評価で、ニューラルネットワークの放射場を最適化することができる。 第二に, サンプリングアルゴリズムを用いて, ニューラル・ラミアンス・フィールドの原著における階層的スキームの修正を行った。 このセットアップでは,提案ネットワークのエンドツーエンドを補助的損失を伴わずにトレーニングでき,ベースラインのパフォーマンスが向上した。

In view synthesis, a neural radiance field approximates underlying density and radiance fields based on a sparse set of scene pictures. To generate a pixel of a novel view, it marches a ray through the pixel and computes a weighted sum of radiance emitted from a dense set of ray points. This rendering algorithm is fully differentiable and facilitates gradient-based optimization of the fields. However, in practice, only a tiny opaque portion of the ray contributes most of the radiance to the sum. We propose an end-to-end differentiable sampling algorithm based on inverse transform sampling. It generates samples according to the probability distribution induced by the density field and picks non-transparent points on the ray. We utilize the algorithm in two ways. First, we propose a novel rendering approach based on Monte Carlo estimates. Such a rendering algorithm allows for optimizing a neural radiance field with just a few radiance field evaluations per ray. Second, we use the sampling algorithm to modify the hierarchical scheme used in the original work on neural radiance fields. In this setup, we were able to train the proposal network end-to-end without any auxiliary losses and improved the baseline performance.
翻訳日:2023-02-23 17:10:22 公開日:2023-02-21
# boosting Nystr\"{o}m method

Boosting Nystr\"{o}m Method ( http://arxiv.org/abs/2302.11032v1 )

ライセンス: Link先を確認
Keaton Hamm, Zhaoying Lu, Wenbo Ouyang, Hao Helen Zhang(参考訳) nystr\"{o}m法は、大きな行列の低ランク近似を生成する効果的なツールであり、カーネルベースの学習に特に有用である。 標準的な Nystr\"{o}m 近似を改善するために、エンサンブル Nystr\"{o}m アルゴリズムはカラム再サンプリングに基づいて独立に生成される Nystr\"{o}m 近似の混合を計算する。 そこで我々は,逐次的に複数の ``weak'' nystr\"{o}m 近似(それぞれ,少数の列を用いて)を順応的に生成する nystr\"{o}m という新しいアルゴリズムを提案する。 我々は、nystr\"{o}mアルゴリズムが、カーネル行列に対するより効率的で正確な低ランク近似をもたらすことを実証する。 標準的なNystr\"{o}m法の改良はシミュレーション研究と実世界のデータ解析によって説明される。

The Nystr\"{o}m method is an effective tool to generate low-rank approximations of large matrices, and it is particularly useful for kernel-based learning. To improve the standard Nystr\"{o}m approximation, ensemble Nystr\"{o}m algorithms compute a mixture of Nystr\"{o}m approximations which are generated independently based on column resampling. We propose a new family of algorithms, boosting Nystr\"{o}m, which iteratively generate multiple ``weak'' Nystr\"{o}m approximations (each using a small number of columns) in a sequence adaptively - each approximation aims to compensate for the weaknesses of its predecessor - and then combine them to form one strong approximation. We demonstrate that our boosting Nystr\"{o}m algorithms can yield more efficient and accurate low-rank approximations to kernel matrices. Improvements over the standard and ensemble Nystr\"{o}m methods are illustrated by simulation studies and real-world data analysis.
翻訳日:2023-02-23 17:04:43 公開日:2023-02-21
# 時間分散深部CNN, RNNおよび注意機構を用いた時空間特徴からのリアルタイム宿主活動検出の解析

Analysis of Real-Time Hostile Activitiy Detection from Spatiotemporal Features Using Time Distributed Deep CNNs, RNNs and Attention-Based Mechanisms ( http://arxiv.org/abs/2302.11027v1 )

ライセンス: Link先を確認
Labib Ahmed Siddique, Rabita Junhai, Tanzim Reza, Salman Sayeed Khan, and Tanvir Rahman(参考訳) CCTVカメラシステムによるリアルタイムビデオ監視は、今日の優先事項である公共の安全を確保するために欠かせないものとなっている。 cctvカメラはセキュリティの強化に大いに役立つが、これらのシステムは人間のインタラクションと監視を常に必要としている。 この問題を根絶するために、インテリジェントな監視システムは、ディープラーニングのビデオ分類技術を使って構築することができる。 本研究では,暴力の発生を検知する深層学習ビデオ分類手法について検討する。 従来の画像分類技術では、各フレームを別々に分類しようとすると、ビデオの分類が短くなり、予測がフリックし始める。 そのため,多くの研究者が,時空間的特徴を考慮した映像分類手法を考案している。 しかし,これらの深層学習モデルを,ポーズ推定や奥行きセンサによる光学的流れによって得られる骨格点などの方法で展開することは,IoT環境では必ずしも現実的ではない。 これらの手法は高い精度を保証するが、計算的に重くなっている。 これらの制約を念頭に置いて, ConvLSTM, LRCN (カスタムCNN層と機能抽出器としてVGG-16) CNNTransformer, C3D など,様々なビデオ分類および行動認識技術の実験を行った。 CNN-BiLSTMは83.33%,VGG16-BiLstmは70%,CNN-Transformerは76.76%,C3Dは80%であった。

Real-time video surveillance, through CCTV camera systems has become essential for ensuring public safety which is a priority today. Although CCTV cameras help a lot in increasing security, these systems require constant human interaction and monitoring. To eradicate this issue, intelligent surveillance systems can be built using deep learning video classification techniques that can help us automate surveillance systems to detect violence as it happens. In this research, we explore deep learning video classification techniques to detect violence as they are happening. Traditional image classification techniques fall short when it comes to classifying videos as they attempt to classify each frame separately for which the predictions start to flicker. Therefore, many researchers are coming up with video classification techniques that consider spatiotemporal features while classifying. However, deploying these deep learning models with methods such as skeleton points obtained through pose estimation and optical flow obtained through depth sensors, are not always practical in an IoT environment. Although these techniques ensure a higher accuracy score, they are computationally heavier. Keeping these constraints in mind, we experimented with various video classification and action recognition techniques such as ConvLSTM, LRCN (with both custom CNN layers and VGG-16 as feature extractor) CNNTransformer and C3D. We achieved a test accuracy of 80% on ConvLSTM, 83.33% on CNN-BiLSTM, 70% on VGG16-BiLstm ,76.76% on CNN-Transformer and 80% on C3D.
翻訳日:2023-02-23 17:04:23 公開日:2023-02-21
# サンプリングのための勾配流:平均場モデル、ガウス近似およびアフィン不変性

Gradient Flows for Sampling: Mean-Field Models, Gaussian Approximations and Affine Invariance ( http://arxiv.org/abs/2302.11024v1 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart(参考訳) 未知の正規化定数で確率分布をサンプリングすることは、計算科学と工学の基本的な問題である。 このタスクは全ての確率測度に対する最適化問題とみなすことができ、初期分布は勾配流を介して動的に所望の最小値へと発展させることができる。 平均場モデルは、確率測度の空間における勾配流によって法則が支配されるが、これらの平均場モデルの粒子近似はアルゴリズムの基盤を形成する。 勾配流のアプローチは変分推論のアルゴリズムの基礎にもなり、ガウスのような確率分布のパラメータ化された族上で最適化が行われ、基礎となる勾配流はパラメータ化された族に制限される。 勾配流の異なるエネルギー汎関数とメトリクスを選択することで、異なる収束特性を持つ異なるアルゴリズムが生じる。 本稿では,このエネルギー選択から生じる勾配流が正規化定数に依存しないという特異な性質を持つことを示した上で,Kulback-Leiblerの発散に着目する。 この指標について,fisher-rao,wasserstein,steinメトリクスの変種に注目し,勾配流と対応する平均場モデルに対するアフィン不変性を導入し,与えられた計量がアフィン不変性をもたらすかどうかを判定し,そうでない場合はアフィン不変量にするように修正する。 確率密度空間とガウス空間の両方における勾配流の研究を行った。 ガウス空間内の流れは、流れのガウス近似として理解することができる。 計量とモーメント閉包に基づくガウス近似が一致することを示し、それら間の接続を確立し、アフィン不変性の利点を示す長期収束特性について検討する。

Sampling a probability distribution with an unknown normalization constant is a fundamental problem in computational science and engineering. This task may be cast as an optimization problem over all probability measures, and an initial distribution can be evolved to the desired minimizer dynamically via gradient flows. Mean-field models, whose law is governed by the gradient flow in the space of probability measures, may also be identified; particle approximations of these mean-field models form the basis of algorithms. The gradient flow approach is also the basis of algorithms for variational inference, in which the optimization is performed over a parameterized family of probability distributions such as Gaussians, and the underlying gradient flow is restricted to the parameterized family. By choosing different energy functionals and metrics for the gradient flow, different algorithms with different convergence properties arise. In this paper, we concentrate on the Kullback-Leibler divergence after showing that, up to scaling, it has the unique property that the gradient flows resulting from this choice of energy do not depend on the normalization constant. For the metrics, we focus on variants of the Fisher-Rao, Wasserstein, and Stein metrics; we introduce the affine invariance property for gradient flows, and their corresponding mean-field models, determine whether a given metric leads to affine invariance, and modify it to make it affine invariant if it does not. We study the resulting gradient flows in both probability density space and Gaussian space. The flow in the Gaussian space may be understood as a Gaussian approximation of the flow. We demonstrate that the Gaussian approximation based on the metric and through moment closure coincide, establish connections between them, and study their long-time convergence properties showing the advantages of affine invariance.
翻訳日:2023-02-23 17:03:54 公開日:2023-02-21
# 同じゲームをプレイする多くの個人から意思決定のサインを学ぶ

Learning signatures of decision making from many individuals playing the same game ( http://arxiv.org/abs/2302.11023v1 )

ライセンス: Link先を確認
Michael J Mendelson, Mehdi Azabou, Suma Jacob, Nicola Grissom, David Darrow, Becket Ebitz, Alexander Herman, Eva L. Dyer(参考訳) 人間の行動は信じられないほど複雑で、本能から戦略、個人間の偏見に至るまで、意思決定を導く要因は、しばしば複数の時間尺度によって異なります。 本稿では,個人の「行動スタイル」、すなわち長期的行動傾向を符号化する表現を学習し,同時に将来の行動や選択を予測するための予測フレームワークを設計する。 このモデルは、表現を3つの潜在空間(最近の過去空間、短期空間、そして個人差を捉えたい長期空間)に明示的に分離する。 複雑な人間の行動からグローバル変数とローカル変数の両方を同時に抽出するために,本手法では,複数スケールの時間的畳み込みネットワークと潜時予測タスクを組み合わせる。 我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットを開発し,その結果の埋め込みが人間の意思決定プロセスにどのような影響を及ぼすかを分析する。 今後の選択の予測に加えて、複数の時間スケールで人間の行動の豊かな表現を学習し、個人差のサインを提供することを示す。

Human behavior is incredibly complex and the factors that drive decision making--from instinct, to strategy, to biases between individuals--often vary over multiple timescales. In this paper, we design a predictive framework that learns representations to encode an individual's 'behavioral style', i.e. long-term behavioral trends, while simultaneously predicting future actions and choices. The model explicitly separates representations into three latent spaces: the recent past space, the short-term space, and the long-term space where we hope to capture individual differences. To simultaneously extract both global and local variables from complex human behavior, our method combines a multi-scale temporal convolutional network with latent prediction tasks, where we encourage embeddings across the entire sequence, as well as subsets of the sequence, to be mapped to similar points in the latent space. We develop and apply our method to a large-scale behavioral dataset from 1,000 humans playing a 3-armed bandit task, and analyze what our model's resulting embeddings reveal about the human decision making process. In addition to predicting future choices, we show that our model can learn rich representations of human behavior over multiple timescales and provide signatures of differences in individuals.
翻訳日:2023-02-23 17:03:24 公開日:2023-02-21
# 心電図波形と臨床ノートを用いたマルチクラス心不整脈分類のための多変量マルチモーダルトランスフォーマーmvmtnet

MVMTnet: A Multi-variate Multi-modal Transformer for Multi-class Classification of Cardiac Irregularities Using ECG Waveforms and Clinical Notes ( http://arxiv.org/abs/2302.11021v1 )

ライセンス: Link先を確認
Ankur Samanta, Mark Karlov, Meghna Ravikumar, Christian McIntosh Clarke, Jayakumar Rajadas, Kaveh Hassani(参考訳) ディープラーニングは、臨床ベースのアプリケーションのために診断と患者のモニタリングを最適化するための優れた手段を提供する。 心臓血管疾患では、世界中の様々な地域で医療資源が利用可能になる傾向がますます高まっているが、その中核となる課題は、心臓の様々な異常を自動分類することである。 既存のディープラーニングアプローチは、CNNやRNN/LSTMといったネットワークを用いて達成されたバイナリ分類のように、不規則性の存在を検出することに限定されている。 次のステップは,(1)より強力なシーケンシャルネットワーク,(2)ヒト医師の有意義な意味的・臨床的文脈を提供する臨床ノートの統合から恩恵を受けることができる,本質的にノイズの多い多変量波形から,マルチクラス分類を正確に行い,特定の条件を決定することである。 近年、時系列データを用いた予測と予測のための最先端のアーキテクチャとしてトランスフォーマーが登場し、マルチヘッドアテンション機構とシーケンス全体を処理し、長距離と短距離の両方の依存関係を学ぶことができる。 提案するマルチモーダルトランスフォーマーアーキテクチャは,トランスフォーマのクロスドメイン効果を実証し,分類タスクにトランスフォーマ内の複数のデータモダリティを組み込む方法を確立し,臨床およびer環境でのリアルタイム患者状態監視を自動化する基礎作業を行うとともに,このタスクを高精度に実行することができる。

Deep learning provides an excellent avenue for optimizing diagnosis and patient monitoring for clinical-based applications, which can critically enhance the response time to the onset of various conditions. For cardiovascular disease, one such condition where the rising number of patients increasingly outweighs the availability of medical resources in different parts of the world, a core challenge is the automated classification of various cardiac abnormalities. Existing deep learning approaches have largely been limited to detecting the existence of an irregularity, as in binary classification, which has been achieved using networks such as CNNs and RNN/LSTMs. The next step is to accurately perform multi-class classification and determine the specific condition(s) from the inherently noisy multi-variate waveform, which is a difficult task that could benefit from (1) a more powerful sequential network, and (2) the integration of clinical notes, which provide valuable semantic and clinical context from human doctors. Recently, Transformers have emerged as the state-of-the-art architecture for forecasting and prediction using time-series data, with their multi-headed attention mechanism, and ability to process whole sequences and learn both long and short-range dependencies. The proposed novel multi-modal Transformer architecture would be able to accurately perform this task while demonstrating the cross-domain effectiveness of Transformers, establishing a method for incorporating multiple data modalities within a Transformer for classification tasks, and laying the groundwork for automating real-time patient condition monitoring in clinical and ER settings.
翻訳日:2023-02-23 17:03:03 公開日:2023-02-21
# 意味情報を用いたOOD入力の定義と検出

Using Semantic Information for Defining and Detecting OOD Inputs ( http://arxiv.org/abs/2302.11019v1 )

ライセンス: Link先を確認
Ramneet Kaur, Xiayan Ji, Souradeep Dutta, Michele Caprio, Yahan Yang, Elena Bernardis, Oleg Sokolsky, Insup Lee(参考訳) 機械学習モデルがさまざまなタスクで印象的なパフォーマンスを達成し続けるにつれ、そのようなモデルの効果的な異常検出の重要性も高まっている。 十分に訓練されたモデルでさえ、配布外入力で効果的に機能する能力を失うことは一般的な知識である。 したがって、最近OOD(out-of-distribution)検出が注目されている。 ほとんどの場合、OOD検出のためのトレーニングデータセットによって推定される分布を使用する。 残念ながら、現在の検出器はトレーニングデータセットのバイアスを継承している。 これは深刻な障害であり、トレーニングされたモデルの実用性を制限する可能性がある。 これにより、現在のOOD検出器はトレーニング分布の外にある入力に不透過であり、同じ意味情報(トレーニングクラスラベルなど)を持つことができる。 この状況を改善するために、入力を意味情報の内容と結びつけて、理想的にOODとして扱われるべきものを定義することから始める。 我々は,MNIST と COCO データセットのトレーニングデータから抽出した意味情報に対して OOD 検出を行い,誤報を低減させるだけでなく,トレーニングデータから素早い特徴を持つ OOD 入力の検出を大幅に改善することを示す。

As machine learning models continue to achieve impressive performance across different tasks, the importance of effective anomaly detection for such models has increased as well. It is common knowledge that even well-trained models lose their ability to function effectively on out-of-distribution inputs. Thus, out-of-distribution (OOD) detection has received some attention recently. In the vast majority of cases, it uses the distribution estimated by the training dataset for OOD detection. We demonstrate that the current detectors inherit the biases in the training dataset, unfortunately. This is a serious impediment, and can potentially restrict the utility of the trained model. This can render the current OOD detectors impermeable to inputs lying outside the training distribution but with the same semantic information (e.g. training class labels). To remedy this situation, we begin by defining what should ideally be treated as an OOD, by connecting inputs with their semantic information content. We perform OOD detection on semantic information extracted from the training data of MNIST and COCO datasets and show that it not only reduces false alarms but also significantly improves the detection of OOD inputs with spurious features from the training data.
翻訳日:2023-02-23 17:02:35 公開日:2023-02-21
# マクロ配置のための強化学習の評価

Assessment of Reinforcement Learning for Macro Placement ( http://arxiv.org/abs/2302.11014v1 )

ライセンス: Link先を確認
Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang(参考訳) 我々は、マクロ配置に対するGoogle Brainの深層強化学習アプローチと、GitHubにおけるサーキットトレーニング(CT)実装のオープンで透明な実装と評価を提供する。 我々は,CTのオープンソースキー"ブラックボックス"要素を実装し,CTとNature論文の相違を明らかにする。 オープンイネーブルに関する新しいテストケースが開発され、リリースされます。 我々はCTを複数の代替マクロプレースラと共に評価し、すべての評価フローと関連するスクリプトをGitHubで公開しています。 また, 実験は, アブレーションと安定性の研究と同様に, 学術的混合サイズの配置ベンチマークを包含する。 我々は自然とCTの影響と今後の研究の方向性についてコメントする。

We provide open, transparent implementation and assessment of Google Brain's deep reinforcement learning approach to macro placement and its Circuit Training (CT) implementation in GitHub. We implement in open source key "blackbox" elements of CT, and clarify discrepancies between CT and Nature paper. New testcases on open enablements are developed and released. We assess CT alongside multiple alternative macro placers, with all evaluation flows and related scripts public in GitHub. Our experiments also encompass academic mixed-size placement benchmarks, as well as ablation and stability studies. We comment on the impact of Nature and CT, as well as directions for future research.
翻訳日:2023-02-23 17:02:17 公開日:2023-02-21
# ブラックホールやその他のカオス系の学習の複雑さ(pseudo)ランダムダイナミクス

The Complexity of Learning (Pseudo)random Dynamics of Black Holes and Other Chaotic Systems ( http://arxiv.org/abs/2302.11013v1 )

ライセンス: Link先を確認
Lisa Yang and Netta Engelhardt(参考訳) 近年,非単位ブラックホール蒸発の半古典的予測は,高複雑さ情報の無知の結果として,ブラックホールの基本的記述として理解できることが提案されている。 この予想の妥当性は、計算複雑性において多項式的に有界なアルゴリズムは、ブラックホールのダイナミクスを正確に再構築できないことを意味する。 このような有界量子アルゴリズムは、この時間進化の下で多項式的に複素観測可能な任意の集合へのアクセスが与えられたとしても、正確に(擬)ランダムなユニタリ力学を予測できないことを証明し、これは「学習」a(擬)ランダムなユニタリは計算的に困難であることを示す。 我々は、ブラックホールやより一般的なカオス系を(pseudo)ランダムダイナミクスでモデリングする共通の単純化を用いる。 私たちが考える量子アルゴリズムは完全に一般的であり、ブラックホールの時間進化に対する彼らの試みは同様に非制約であり、線形作用素である必要はなく、任意の(例えばデコヒーリングのような)量子チャネルである。

It has been recently proposed that the naive semiclassical prediction of non-unitary black hole evaporation can be understood in the fundamental description of the black hole as a consequence of ignorance of high-complexity information. Validity of this conjecture implies that any algorithm which is polynomially bounded in computational complexity cannot accurately reconstruct the black hole dynamics. In this work, we prove that such bounded quantum algorithms cannot accurately predict (pseudo)random unitary dynamics, even if they are given access to an arbitrary set of polynomially complex observables under this time evolution; this shows that "learning" a (pseudo)random unitary is computationally hard. We use the common simplification of modeling black holes and more generally chaotic systems via (pseudo)random dynamics. The quantum algorithms that we consider are completely general, and their attempted guess for the time evolution of black holes is likewise unconstrained: it need not be a linear operator, and may be as general as an arbitrary (e.g. decohering) quantum channel.
翻訳日:2023-02-23 17:02:07 公開日:2023-02-21
# Posterior Annealing: 回帰に対する高速校正不確かさ

Posterior Annealing: Fast Calibrated Uncertainty for Regression ( http://arxiv.org/abs/2302.11012v1 )

ライセンス: Link先を確認
Uddeshya Upadhyay, Jae Myung Kim, Cordelia Schmidt, Bernhard Sch\"olkopf, Zeynep Akata(参考訳) 回帰問題に対する不確実性推定を可能にするベイズ深層学習のアプローチは、しばしばゆっくりと収束し、定量化に効果的に利用できない不確実性推定が不十分である。 最近提案されたポストホック校正技術は回帰問題にはほとんど適用されず、しばしば既に遅いモデルトレーニングフェーズにオーバーヘッドを加える。 本研究は, 深い回帰モデルの収束を一貫して改善し, ポストホックキャリブレーションフェーズを必要とせずにキャリブレーションの不確実性を与える, 回帰課題に対する高速キャリブレーション不確実性推定法を提案する。 低次元回帰問題のみに焦点を当てた回帰の不確かさを校正する従来の手法とは異なり、本手法は幅広い回帰問題に適用できる。 実験により,3次元原子構造表現を用いた分子の物理的特性予測,自然画像の超解像,MRI画像を用いた医用画像変換など,多層パーセプトロン,1D/2D畳み込みネットワーク,グラフニューラルネットワークの5つのタスクにおいて,我々のアプローチが一般化可能であることが示された。

Bayesian deep learning approaches that allow uncertainty estimation for regression problems often converge slowly and yield poorly calibrated uncertainty estimates that can not be effectively used for quantification. Recently proposed post hoc calibration techniques are seldom applicable to regression problems and often add overhead to an already slow model training phase. This work presents a fast calibrated uncertainty estimation method for regression tasks, called posterior annealing, that consistently improves the convergence of deep regression models and yields calibrated uncertainty without any post hoc calibration phase. Unlike previous methods for calibrated uncertainty in regression that focus only on low-dimensional regression problems, our method works well on a wide spectrum of regression problems. Our empirical analysis shows that our approach is generalizable to various network architectures including, multilayer perceptrons, 1D/2D convolutional networks, and graph neural networks, on five vastly diverse tasks, i.e., chaotic particle trajectory denoising, physical property prediction of molecules using 3D atomistic representation, natural image super-resolution, and medical image translation using MRI images.
翻訳日:2023-02-23 17:01:51 公開日:2023-02-21
# 一般的なニューラルネットワークアクティベーション機能の統一化

Unification of popular artificial neural network activation functions ( http://arxiv.org/abs/2302.11007v1 )

ライセンス: Link先を確認
Mohammad Mostafanejad(参考訳) 本稿では,最もポピュラーなニューラルネットワークアクティベーション関数の統一表現を提案する。 分数計算のmittag-leffler関数を採用することで,様々なアクティベーション関数間の補間や,勾配の消失や爆発といったニューラルネットワークのトレーニングにおける一般的な問題を軽減できる,柔軟でコンパクトな関数形式を提案する。 提示されたゲート表現は、トレーニングデータから形状を学習可能な適応型に固定形活性化関数の範囲を広げる。 提案された関数形式の導関数は、勾配に基づくバックプロパゲーションアルゴリズムの候補として適切なmittag-leffler関数を用いて表現することもできる。 MNISTとCIFAR-10データセット上でLeNet-5ニューラルネットワークをトレーニングすることにより、活性化関数の統一ゲート表現を採用することで、従来の機械学習フレームワークにおけるアクティベーション関数の個別実装に対する、有望で安価な代替手段が提供されることを示す。

We present a unified representation of the most popular neural network activation functions. Adopting Mittag-Leffler functions of fractional calculus, we propose a flexible and compact functional form that is able to interpolate between various activation functions and mitigate common problems in training neural networks such as vanishing and exploding gradients. The presented gated representation extends the scope of fixed-shape activation functions to their adaptive counterparts whose shape can be learnt from the training data. The derivatives of the proposed functional form can also be expressed in terms of Mittag-Leffler functions making it a suitable candidate for gradient-based backpropagation algorithms. By training LeNet-5 neural network on MNIST and CIFAR-10 datasets, we demonstrate that adopting a unified gated representation of activation functions offers a promising and affordable alternative to individual built-in implementations of activation functions in conventional machine learning frameworks.
翻訳日:2023-02-23 17:01:27 公開日:2023-02-21
# 物理に変形したスペクトル学習:離散ヘルムホルツ-ホッジ分解

Physics-informed Spectral Learning: the Discrete Helmholtz--Hodge Decomposition ( http://arxiv.org/abs/2302.11061v1 )

ライセンス: Link先を確認
Luis Espath, Pouria Behnoudfar, and Raul Tempone(参考訳) 本研究では,Espathらによる物理インフォームドスペクトル学習(PiSL)をさらに発展させる。 スパースデータからの離散ホッジ・ヘルムホルツ分解を解くために、離散的な$l^2$プロジェクションに基づく \cite{esp21} 。 この物理インフォームド統計学習フレームワークでは,各最適化問題に対して基底関数の集合を優雅に拡張する最小化問題の列を解くことにより,対応する係数を持つフーリエ基底関数のスパース集合を適応的に構築する。 さらに、我々のPiSL計算フレームワークはスペクトル収束(指数収束)を楽しむ。 我々は、チコノフ方式で分数的ソボレフ空間の半ノルムで最小化問題を正規化する。 フーリエ設定では、発散自由制約とカール自由制約は線型代数方程式の有限集合となる。 提案手法は教師付き学習技術と教師なし学習技術を組み合わせて,分散空間やカールフリー空間への投影とデータを併用する。 1993年の衛星データを用いて,「世紀の嵐」を含む様々な数値例において,本手法の能力を評価する。

In this work, we further develop the Physics-informed Spectral Learning (PiSL) by Espath et al. \cite{Esp21} based on a discrete $L^2$ projection to solve the discrete Hodge--Helmholtz decomposition from sparse data. Within this physics-informed statistical learning framework, we adaptively build a sparse set of Fourier basis functions with corresponding coefficients by solving a sequence of minimization problems where the set of basis functions is augmented greedily at each optimization problem. Moreover, our PiSL computational framework enjoys spectral (exponential) convergence. We regularize the minimization problems with the seminorm of the fractional Sobolev space in a Tikhonov fashion. In the Fourier setting, the divergence- and curl-free constraints become a finite set of linear algebraic equations. The proposed computational framework combines supervised and unsupervised learning techniques in that we use data concomitantly with the projection onto divergence- and curl-free spaces. We assess the capabilities of our method in various numerical examples including the `Storm of the Century' with satellite data from 1993.
翻訳日:2023-02-23 16:55:16 公開日:2023-02-21
# ニューラルネットワークにおけるsgd学習--跳躍複雑性とサドル・トゥ・サドルダイナミクス

SGD learning on neural networks: leap complexity and saddle-to-saddle dynamics ( http://arxiv.org/abs/2302.11055v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Enric Boix-Adsera, Theodor Misiakiewicz(参考訳) 等方性データを用いた完全連結ニューラルネットワークにおけるSGD学習の時間的複雑さについて検討する。 目標関数がいかに"階層的"であるかを測定する、複雑性尺度 -- the leap -- を提案しました。 d$-dimensional uniform boolean あるいは isotropic gaussian data に対し、我々の主予想では、低次元サポートを持つ関数を学習する時間複雑性は $\tilde\theta (d^{\max(\mathrm{leap}(f),2)} である。 ガウス等方性データと2層ニューラルネットワーク上の関数のクラスに対するこの予想を、SGDの動作に関する追加の技術的仮定の下で証明する。 トレーニングでは,サドル・トゥ・サドル・ダイナミックで関数サポートを逐次学習する。 以上の結果から,[Abbe et al. 2022] は跳躍 1 (メルジ階段関数) を超越し,また,ここで得られる複雑性の完全な制御を禁止した平均場および勾配流近似を超越した。 最後に、これは相関統計クエリ(CSQ)の下位バウンドと一致する完全なトレーニングトラジェクトリに対して、SGDの複雑さをもたらすことに留意する。

We investigate the time complexity of SGD learning on fully-connected neural networks with isotropic data. We put forward a complexity measure -- the leap -- which measures how "hierarchical" target functions are. For $d$-dimensional uniform Boolean or isotropic Gaussian data, our main conjecture states that the time complexity to learn a function $f$ with low-dimensional support is $\tilde\Theta (d^{\max(\mathrm{Leap}(f),2)})$. We prove a version of this conjecture for a class of functions on Gaussian isotropic data and 2-layer neural networks, under additional technical assumptions on how SGD is run. We show that the training sequentially learns the function support with a saddle-to-saddle dynamic. Our result departs from [Abbe et al. 2022] by going beyond leap 1 (merged-staircase functions), and by going beyond the mean-field and gradient flow approximations that prohibit the full complexity control obtained here. Finally, we note that this gives an SGD complexity for the full training trajectory that matches that of Correlational Statistical Query (CSQ) lower-bounds.
翻訳日:2023-02-23 16:54:59 公開日:2023-02-21
# Conversational Text-to-SQL:現状と課題へのオデュッセイ

Conversational Text-to-SQL: An Odyssey into State-of-the-Art and Challenges Ahead ( http://arxiv.org/abs/2302.11054v1 )

ライセンス: Link先を確認
Sree Hari Krishnan Parthasarathi, Lu Zeng, Dilek Hakkani-Tur(参考訳) Conversational, multi-turn, text-to-SQL (CoSQL)タスクは、自然言語の発話をSQLクエリにマッピングする。 State-of-the-art (SOTA) システムは、制約付きデコードとともに、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。 トレーニング中に個別のプロンプトを持つコヒーレントタスクに対するマルチタスク(MT)により、特殊テキストからSQL T5ファミリーモデルよりも改善する。 n-best仮説に関するOracleの分析に基づいて、クエリプランモデルとスキーマリンクアルゴリズムを再ランカとして適用する。 MTと再評価を組み合わせた結果,T5-3Bは精度が1.0%,CoSQLのSOTAベースラインで3.4%向上した。 これらの利得はターンレベルで一貫して現れるが、コンテキスト依存のターンは非常に難しい。 ドメインとコンポジションの一般化に起因したエラーを分離する研究を行い、後者はマルチターン会話、特に見当たらないパースツリーによるsql生成に挑戦している。

Conversational, multi-turn, text-to-SQL (CoSQL) tasks map natural language utterances in a dialogue to SQL queries. State-of-the-art (SOTA) systems use large, pre-trained and finetuned language models, such as the T5-family, in conjunction with constrained decoding. With multi-tasking (MT) over coherent tasks with discrete prompts during training, we improve over specialized text-to-SQL T5-family models. Based on Oracle analyses over n-best hypotheses, we apply a query plan model and a schema linking algorithm as rerankers. Combining MT and reranking, our results using T5-3B show absolute accuracy improvements of 1.0% in exact match and 3.4% in execution match over a SOTA baseline on CoSQL. While these gains consistently manifest at turn level, context dependent turns are considerably harder. We conduct studies to tease apart errors attributable to domain and compositional generalization, with the latter remaining a challenge for multi-turn conversations, especially in generating SQL with unseen parse trees.
翻訳日:2023-02-23 16:54:36 公開日:2023-02-21
# que2engage: facebook marketplaceにおける関連商品および関連商品の埋め込み検索

Que2Engage: Embedding-based Retrieval for Relevant and Engaging Products at Facebook Marketplace ( http://arxiv.org/abs/2302.11052v1 )

ライセンス: Link先を確認
Yunzhong He, Yuxin Tian, Mengjiao Wang, Feier Chen, Licheng Yu, Maolong Tang, Congcong Chen, Ning Zhang, Bin Kuang, Arul Prakash(参考訳) eコマース検索における埋め込み型検索(EBR)は,検索クエリと製品間のセマンティックマッチに対処する強力な検索手法である。 しかし、facebook marketplace searchのような商用検索エンジンは、複数のビジネス目的に最適化された複雑な多段階システムである。 Facebook Marketplaceでは、検索検索は検索クエリと関連する製品とのマッチングに重点を置いている。 その結果、エンド・ツー・エンドの検索体験は、関連性とエンゲージメントの両方の機能であり、システムの異なる段階間の相互作用である。 これにより、より優れたサーチエクスペリエンスを実現するために、EBRシステムに課題が提示される。 本稿では、エンドツーエンド最適化のための検索とランキングのギャップを埋めるために構築された検索EBRシステムであるQue2Engageを提案する。 que2engageはマルチモーダルとマルチタスクのアプローチを採用し、コンテキスト情報を検索ステージに注入し、異なるビジネス目標のバランスをとる。 提案手法の有効性を,マルチタスク評価フレームワークと徹底的なベースライン比較およびアブレーション研究を通じて示す。 que2engageはfacebook marketplace searchにデプロイされ、2週間のa/bテストで検索者のエンゲージメントが大幅に向上している。

Embedding-based Retrieval (EBR) in e-commerce search is a powerful search retrieval technique to address semantic matches between search queries and products. However, commercial search engines like Facebook Marketplace Search are complex multi-stage systems optimized for multiple business objectives. At Facebook Marketplace, search retrieval focuses on matching search queries with relevant products, while search ranking puts more emphasis on contextual signals to up-rank the more engaging products. As a result, the end-to-end searcher experience is a function of both relevance and engagement, and the interaction between different stages of the system. This presents challenges to EBR systems in order to optimize for better searcher experiences. In this paper we presents Que2Engage, a search EBR system built towards bridging the gap between retrieval and ranking for end-to-end optimizations. Que2Engage takes a multimodal & multitask approach to infuse contextual information into the retrieval stage and to balance different business objectives. We show the effectiveness of our approach via a multitask evaluation framework and thorough baseline comparisons and ablation studies. Que2Engage is deployed on Facebook Marketplace Search and shows significant improvements in searcher engagement in two weeks of A/B testing.
翻訳日:2023-02-23 16:54:16 公開日:2023-02-21
# 個人化フェデレーション学習のためのグローバル・ローカル知識の融合

Fusion of Global and Local Knowledge for Personalized Federated Learning ( http://arxiv.org/abs/2302.11051v1 )

ライセンス: Link先を確認
Tiansheng Huang, Li Shen, Yan Sun, Weiwei Lin, Dacheng Tao(参考訳) パーソナライズされたフェデレーション学習は、フェデレーション学習の変種として、異種分散データを使用してクライアント向けにカスタマイズされたモデルをトレーニングする。 しかし、共有されたグローバル知識とパーソナライズされたパターンをよりよく表現したパーソナライズされたモデルを設計する方法についてはまだ決定的ではない。 このギャップを埋めるため,本稿では,低ランクかつスパースな分解を伴うパーソナライズモデルについて検討する。 具体的には、適切な正規化を用いて、グローバル知識をコンパクトな表現に変換するために、低ランクなグローバル知識表現(GKR)を抽出する。 次に、得られたgkrよりもスパース成分を用いてパーソナライズされたパターンをグローバル知識に融合する。 そこで本研究では,混合モデルの探索を効率的に行うために,2段階の近位アルゴリズムである‘textbf{Fed}erated learning with mixed \textbf{S}parse and \textbf{L}ow-\textbf{R}ank representation (FedSLR)を提案する。 理論的には、適切な仮定の下では、FedSLRによって訓練されたGKRは、少なくとも正規化問題の定常点にサブ線形に収束し、融合しているスパース成分は適切な設定の下でその定常点に収束できることを示す。 大規模な実験は、FedSLRの優れた経験的性能を示す。 さらに、FedSLRはパラメータ数を削減し、すべてフェデレーション学習アルゴリズムに望ましいダウンリンク通信の複雑さを低減します。 ソースコードは \url{https://github.com/huangtiansheng/fedslr} で入手できる。

Personalized federated learning, as a variant of federated learning, trains customized models for clients using their heterogeneously distributed data. However, it is still inconclusive about how to design personalized models with better representation of shared global knowledge and personalized pattern. To bridge the gap, we in this paper explore personalized models with low-rank and sparse decomposition. Specifically, we employ proper regularization to extract a low-rank global knowledge representation (GKR), so as to distill global knowledge into a compact representation. Subsequently, we employ a sparse component over the obtained GKR to fuse the personalized pattern into the global knowledge. As a solution, we propose a two-stage proximal-based algorithm named \textbf{Fed}erated learning with mixed \textbf{S}parse and \textbf{L}ow-\textbf{R}ank representation (FedSLR) to efficiently search for the mixed models. Theoretically, under proper assumptions, we show that the GKR trained by FedSLR can at least sub-linearly converge to a stationary point of the regularized problem, and that the sparse component being fused can converge to its stationary point under proper settings. Extensive experiments also demonstrate the superior empirical performance of FedSLR. Moreover, FedSLR reduces the number of parameters, and lowers the down-link communication complexity, which are all desirable for federated learning algorithms. Source code is available in \url{https://github.com/huangtiansheng/fedslr}.
翻訳日:2023-02-23 16:53:57 公開日:2023-02-21
# Edgeformers: テキストエッジネットワーク上での表現学習のためのグラフ駆動トランスフォーマー

Edgeformers: Graph-Empowered Transformers for Representation Learning on Textual-Edge Networks ( http://arxiv.org/abs/2302.11050v1 )

ライセンス: Link先を確認
Bowen Jin, Yu Zhang, Yu Meng, Jiawei Han(参考訳) 多くの現実世界のソーシャル/情報ネットワークのエッジはリッチテキスト情報(例えば、ユーザー-ユーザコミュニケーションやユーザー-製品レビュー)と関連付けられている。 しかし、主流のネットワーク表現学習モデルはノード属性の伝播と集約に焦点を当てており、エッジ上でテキストセマンティクスを利用するための特定の設計が欠けている。 エッジ対応グラフニューラルネットワークは存在するが、エッジ属性を機能ベクトルとして直接初期化し、エッジのコンテキスト化されたテキストセマンティクスを完全に捉えることはできない。 本稿では,エッジ上のテキストを文脈的にモデル化してエッジとノードの表現学習を行うための,グラフ強化トランスフォーマーに基づくフレームワークであるEdgeformersを提案する。 具体的には、エッジ表現学習において、エッジテキストを符号化する際、各トランスフォーマー層にネットワーク情報を注入し、ノード表現学習では、各ノードのエゴグラフ内の注意機構を介してエッジ表現を集約する。 3つの異なるドメインからの5つの公開データセットにおいて、Edgeformerは、エッジ分類とリンク予測における最先端のベースラインを一貫して上回り、それぞれが学習エッジとノード表現の有効性を示す。

Edges in many real-world social/information networks are associated with rich text information (e.g., user-user communications or user-product reviews). However, mainstream network representation learning models focus on propagating and aggregating node attributes, lacking specific designs to utilize text semantics on edges. While there exist edge-aware graph neural networks, they directly initialize edge attributes as a feature vector, which cannot fully capture the contextualized text semantics of edges. In this paper, we propose Edgeformers, a framework built upon graph-enhanced Transformers, to perform edge and node representation learning by modeling texts on edges in a contextualized way. Specifically, in edge representation learning, we inject network information into each Transformer layer when encoding edge texts; in node representation learning, we aggregate edge representations through an attention mechanism within each node's ego-graph. On five public datasets from three different domains, Edgeformers consistently outperform state-of-the-art baselines in edge classification and link prediction, demonstrating the efficacy in learning edge and node representations, respectively.
翻訳日:2023-02-23 16:53:24 公開日:2023-02-21
# AIに基づくシステムの認証のためのフレームワーク

Framework for Certification of AI-Based Systems ( http://arxiv.org/abs/2302.11049v1 )

ライセンス: Link先を確認
Maxime Gariel, Brian Shimanuki, Rob Timpe, Evan Wilson(参考訳) 航空宇宙ソフトウェアの現在の認定プロセスは、ディープニューラルネットワークのようなAIベースのアルゴリズムに適応していない。 従来の航空宇宙ソフトウェアとは異なり、ニューラルネットワークトレーニング中に最適化された正確なパラメータは、ネットワークを処理するコードと同じくらい(あるいはそれ以上)重要であり、直接数学的に理解できない。 説明可能性の欠如にもかかわらず、これらのアルゴリズムは、いくつかのアプリケーションでは、従来の明示的なラインバイラインのソフトウェアメソッドでは実現不可能な高性能を示すことができるため、魅力的である。 本稿では、DO-178のような現在の認証プロセスを適用することができないニューラルネットワークモデルの認証方法を確立するために使用できるフレームワークと原則を提案する。 これは魔法のレシピではないが、要件、データ、ソフトウェア、トレーニングプロセス、テスト結果などを組み合わせて追跡し、追跡する能力を示すことによって、申請者と規制当局が開発ソフトウェアに対する信頼を高めるための、一連の常識的なステップである。

The current certification process for aerospace software is not adapted to "AI-based" algorithms such as deep neural networks. Unlike traditional aerospace software, the precise parameters optimized during neural network training are as important as (or more than) the code processing the network and they are not directly mathematically understandable. Despite their lack of explainability such algorithms are appealing because for some applications they can exhibit high performance unattainable with any traditional explicit line-by-line software methods. This paper proposes a framework and principles that could be used to establish certification methods for neural network models for which the current certification processes such as DO-178 cannot be applied. While it is not a magic recipe, it is a set of common sense steps that will allow the applicant and the regulator increase their confidence in the developed software, by demonstrating the capabilities to bring together, trace, and track the requirements, data, software, training process, and test results.
翻訳日:2023-02-23 16:53:04 公開日:2023-02-21
# オフライン強化学習のためのadversarial model

Adversarial Model for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.11048v1 )

ライセンス: Link先を確認
Mohak Bhardwaj, Tengyang Xie, Byron Boots, Nan Jiang, Ching-An Cheng(参考訳) データカバレッジに関係なく、任意の参照ポリシーを改善するために、ポリシーをしっかりと学習できる新しいモデルベースのオフライン強化学習(RL)フレームワーク、Adversarial Model for Offline Reinforcement Learning(ARMOR)を提案する。 ARMORは、マルコフ決定プロセスモデルに対して逆向きにトレーニングすることで、参照ポリシーに対する最悪のパフォーマンスのポリシーを最適化するように設計されている。 理論的には、ARMORは、十分に調整されたハイパーパラメータを持ち、参照ポリシーがデータによってサポートされている場合、データカバレッジ内で最高のポリシーと競合できることを示す。 ARMORが学んだポリシーは、"どんな"許容可能なハイパーパラメータでも、たとえ参照ポリシーがデータセットにカバーされていない場合でも、参照ポリシーのパフォーマンスを低下させることはない。 これらの特性を実際に検証するために,従来のモデルベース手法と対照的にモデルアンサンブルを使わずにポリシーを最適化できるARMORのスケーラブルな実装を設計する。 ARMORは、最先端のオフラインモデルフリーとモデルベースRLアルゴリズムの両方で有能な性能を実現し、様々なハイパーパラメータ選択に対する参照ポリシーを堅牢に改善できることを示す。

We propose a novel model-based offline Reinforcement Learning (RL) framework, called Adversarial Model for Offline Reinforcement Learning (ARMOR), which can robustly learn policies to improve upon an arbitrary reference policy regardless of data coverage. ARMOR is designed to optimize policies for the worst-case performance relative to the reference policy through adversarially training a Markov decision process model. In theory, we prove that ARMOR, with a well-tuned hyperparameter, can compete with the best policy within data coverage when the reference policy is supported by the data. At the same time, ARMOR is robust to hyperparameter choices: the policy learned by ARMOR, with "any" admissible hyperparameter, would never degrade the performance of the reference policy, even when the reference policy is not covered by the dataset. To validate these properties in practice, we design a scalable implementation of ARMOR, which by adversarial training, can optimize policies without using model ensembles in contrast to typical model-based methods. We show that ARMOR achieves competent performance with both state-of-the-art offline model-free and model-based RL algorithms and can robustly improve the reference policy over various hyperparameter choices.
翻訳日:2023-02-23 16:52:50 公開日:2023-02-21
# teachable reality: 対話型機械教示の活用による現実的拡張現実のプロトタイピング

Teachable Reality: Prototyping Tangible Augmented Reality with Everyday Objects by Leveraging Interactive Machine Teaching ( http://arxiv.org/abs/2302.11046v1 )

ライセンス: Link先を確認
Kyzyl Monteiro, Ritik Vatsal, Neil Chulpongsatorn, Aman Parnami, Ryo Suzuki(参考訳) 本稿では,任意の日常オブジェクトを用いたインタラクティブな有形arアプリケーションを作成するための拡張現実(ar)プロトタイピングツールであるteachable realityについて紹介する。 Teachable Realityは、ARプロトタイピングのための現実世界のインタラクションをキャプチャする視覚ベースの対話型機械学習(Teachable Machineなど)を活用する。 オンデマンドコンピュータビジョンモデルを用いて、ユーザ定義の有形および外見的相互作用を識別する。 これに基づいてユーザは,トリガアクションオーサリングインターフェースによって実現された,関数型ARプロトタイプを簡単に作成することができる。 そこで本手法は,現在のマーカーベースアプローチの限界に対処できる有形ARアプリケーションの柔軟性,カスタマイズ性,一般化性を実現する。 デザイン空間を探索し、具体的で変形可能なインターフェース、コンテキスト認識アシスタント、ボディ駆動型ARアプリケーションなど、さまざまなARプロトタイプを実演する。 ユーザ調査とエキスパートインタビューの結果から,我々のアプローチは,柔軟性と汎用的なプロトタイピング体験を可能にすると同時に,機能的なarプロトタイプ作成の障壁を低くすることができることがわかった。

This paper introduces Teachable Reality, an augmented reality (AR) prototyping tool for creating interactive tangible AR applications with arbitrary everyday objects. Teachable Reality leverages vision-based interactive machine teaching (e.g., Teachable Machine), which captures real-world interactions for AR prototyping. It identifies the user-defined tangible and gestural interactions using an on-demand computer vision model. Based on this, the user can easily create functional AR prototypes without programming, enabled by a trigger-action authoring interface. Therefore, our approach allows the flexibility, customizability, and generalizability of tangible AR applications that can address the limitation of current marker-based approaches. We explore the design space and demonstrate various AR prototypes, which include tangible and deformable interfaces, context-aware assistants, and body-driven AR applications. The results of our user study and expert interviews confirm that our approach can lower the barrier to creating functional AR prototypes while also allowing flexible and general-purpose prototyping experiences.
翻訳日:2023-02-23 16:52:30 公開日:2023-02-21
# 影響のある文脈内サンプル選択

In-context Example Selection with Influences ( http://arxiv.org/abs/2302.11042v1 )

ライセンス: Link先を確認
Tai Nguyen and Eric Wong(参考訳) In-context Learning(ICL)は、大規模言語モデル(LLM)から生まれた強力なパラダイムである。 その約束にもかかわらず、iclのパフォーマンスは入力例に非常に敏感であることが知られている。 本研究では,in-contextインフルエンサーを用いて,in-contextサンプルから直接,少数のiclパフォーマンスを分析する。 提案手法は,10のSuperGlueタスクで評価し,kショットの増加とともに安定的にスケールする。 分析の結果、最も肯定的な例と否定的な影響のある例の22.2%のパフォーマンス差が判明した。 ケーススタディでは,数発のiclの注文などにおいて,直交バイアスの現象を定量化するために,影響に基づく枠組みを適用した。

In-context learning (ICL) is a powerful paradigm emerged from large language models (LLMs). Despite its promises, ICL performance is known to be highly sensitive to input examples. In this work, we use in-context influences to analyze few-shot ICL performance directly from the in-context examples. Our proposed influence-based example selection method outperforms most baselines when evaluated on 10 SuperGlue tasks and stably scales with increasing k-shot. The analysis finds up to a 22.2% performance gap between the most positively and negatively influential examples. In a case study, we apply our influence-based framework to quantify the phenomena of recency bias in example ordering for few-shot ICL.
翻訳日:2023-02-23 16:52:10 公開日:2023-02-21
# ほぼ線形時間におけるロバスト交代最小化による低ランク行列補完

Low Rank Matrix Completion via Robust Alternating Minimization in Nearly Linear Time ( http://arxiv.org/abs/2302.11068v1 )

ライセンス: Link先を確認
Yuzhou Gu, Zhao Song, Junze Yin, Lichen Zhang(参考訳) 行列 $m\in \mathbb{r}^{m\times n}$ が与えられると、低ランク行列補完問題(low rank matrix completion problem)は、二進行列 $p_{\omega}\in \{0, 1 \}^{m\times n}$ によってマスクされた数個のエントリを観察することによって、$m$ as $uv^\top$ for $u\in \mathbb{r}^{m\times k}$ と $v\in \mathbb{r}^{n\times k}$ を求める。 重み付き低階近似問題の特定の例として、低階行列の完備化を解くことは、近似解(RSW16)を見つけることさえも、計算的に困難であることが知られている。 しかし、実際的な重要性から、この問題に対する多くのヒューリスティックが提案されている。 Jain, Netrapalli, Sanghavi [JNS13] のセミナルな論文では、交代最小化フレームワークが低階行列完備化問題の証明可能な保証を提供することを示した。 残念なことに、彼らのアルゴリズムは反復ごとに2つの正確な多重応答回帰を解く必要があり、その解析は正確な解の構造を利用するため、損なわれない。 本稿では,低ランク行列補完のためのより効率的でロバストな交互最小化フレームワークに向けて,大きな一歩を踏み出す。 我々の主な結果はロバストな交互最小化アルゴリズムであり、回帰がほぼ解かれていても適度な誤りを許容できる。 その結果、[jns13]の走行時間は、問題サイズでほぼ線形な$\widetilde{o}(mnk^2 )$から$\widetilde{o}(mnk )$に大幅に改善され、低ランク近似の検証には$o(mnk)$がかかる。 我々のアルゴリズム構築ブロックは精度の高い回帰解法であり、1イテレーションあたりのほぼ線形時間で回帰を解く。

Given a matrix $M\in \mathbb{R}^{m\times n}$, the low rank matrix completion problem asks us to find a rank-$k$ approximation of $M$ as $UV^\top$ for $U\in \mathbb{R}^{m\times k}$ and $V\in \mathbb{R}^{n\times k}$ by only observing a few entries masked by a binary matrix $P_{\Omega}\in \{0, 1 \}^{m\times n}$. As a particular instance of the weighted low rank approximation problem, solving low rank matrix completion is known to be computationally hard even to find an approximate solution [RSW16]. However, due to its practical importance, many heuristics have been proposed for this problem. In the seminal work of Jain, Netrapalli, and Sanghavi [JNS13], they show that the alternating minimization framework provides provable guarantees for low rank matrix completion problem whenever $M$ admits an incoherent low rank factorization. Unfortunately, their algorithm requires solving two exact multiple response regressions per iteration and their analysis is non-robust as they exploit the structure of the exact solution. In this paper, we take a major step towards a more efficient and robust alternating minimization framework for low rank matrix completion. Our main result is a robust alternating minimization algorithm that can tolerate moderate errors even though the regressions are solved approximately. Consequently, we also significantly improve the running time of [JNS13] from $\widetilde{O}(mnk^2 )$ to $\widetilde{O}(mnk )$ which is nearly linear in the problem size, as verifying the low rank approximation takes $O(mnk)$ time. Our core algorithmic building block is a high accuracy regression solver that solves the regression in nearly linear time per iteration.
翻訳日:2023-02-23 16:45:13 公開日:2023-02-21
# CADモデルのブロック分解のための強化学習

Reinforcement Learning for Block Decomposition of CAD Models ( http://arxiv.org/abs/2302.11066v1 )

ライセンス: Link先を確認
Benjamin C. DiPrete, Rao V. Garimella, Cristina Garcia Cardona, Navamita Ray(参考訳) 本稿では,複雑な2次元および3次元cadモデルに適用可能な一般分解法の原理として,平面cadモデルを長方形ブロックに分解する(コンピュータ支援設計)ai支援手法を提案する。 分解されたブロックは、保存法によって支配される物理系の数値シミュレーションに適した高品質なメッシュ(四角形または六面体)を生成するために必要である。 一般的なcadモデルのヘキサヘドラルメッシュ生成の問題は、研究者を30年以上悩ませており、アナリストはしばしば、複雑なモデルを既存の技術でメッシュ化可能な単純な部品に分解する設計分析サイクル時間の50%以上を費やしている。 提案手法は強化学習を用いてエージェントを訓練し,CADモデル上で最適なカットを行い,良質なブロック分解を実現する。 エージェントは、ランダムなカットを行うのではなく、カットの位置と方向を選択し、報酬を最大化する効果的な戦略を迅速に学習する。 本論文は,このブロック分解タスクを自律的に実行する方法を学習するエージェントが,この課題を自動化するための実行可能なメソッドの約束を効果的に保持する,最初の成功例である。

We present a novel AI-assisted method for decomposing (segmenting) planar CAD (computer-aided design) models into well shaped rectangular blocks as a proof-of-principle of a general decomposition method applicable to complex 2D and 3D CAD models. The decomposed blocks are required for generating good quality meshes (tilings of quadrilaterals or hexahedra) suitable for numerical simulations of physical systems governed by conservation laws. The problem of hexahedral mesh generation of general CAD models has vexed researchers for over 3 decades and analysts often spend more than 50% of the design-analysis cycle time decomposing complex models into simpler parts meshable by existing techniques. Our method uses reinforcement learning to train an agent to perform a series of optimal cuts on the CAD model that result in a good quality block decomposition. We show that the agent quickly learns an effective strategy for picking the location and direction of the cuts and maximizing its rewards as opposed to making random cuts. This paper is the first successful demonstration of an agent autonomously learning how to perform this block decomposition task effectively thereby holding the promise of a viable method to automate this challenging process.
翻訳日:2023-02-23 16:44:24 公開日:2023-02-21
# 触覚コミュニケーションのためのタスク指向予測とコミュニケーション協調設計

Task-Oriented Prediction and Communication Co-Design for Haptic Communications ( http://arxiv.org/abs/2302.11064v1 )

ライセンス: Link先を確認
Burak Kizilkaya, Changyang She, Guodong Zhao, Muhammad Ali Imran(参考訳) 近年の予測は、長距離触覚通信における低遅延・高信頼性要求を満たすための有望なアプローチと見なされている。 しかし,既存の手法の多くは,タスクの特徴や,予測とコミュニケーションの関係を考慮に入れていない。 本稿では,システムの信頼性が通信における予測誤差とパケット損失に依存するタスク指向予測・通信共設計フレームワークを提案する。 目的は、様々なタスクの低遅延で信頼性の高い要件を満たす、必要な無線資源を最小化することである。 具体的には,触覚通信システムの性能指標として,注意すべき相違点(JND)を考える。 実世界の遠隔操作テストベッドから実験データを収集し,時系列生成敵ネットワーク(TimeGAN)を用いて大量の合成データを生成する。 これにより、JND閾値、予測水平線、および通信信頼性と予測信頼性を含む全体的な信頼性の関係を得ることができる。 5g new radioを例に挙げて,提案手法を実証し,帯域割り当てとデバイスのデータレートを最適化する。 提案手法は,タスク非依存のベンチマークと比較して,無線リソース消費を最大77.80%削減できることを示す。

Prediction has recently been considered as a promising approach to meet low-latency and high-reliability requirements in long-distance haptic communications. However, most of the existing methods did not take features of tasks and the relationship between prediction and communication into account. In this paper, we propose a task-oriented prediction and communication co-design framework, where the reliability of the system depends on prediction errors and packet losses in communications. The goal is to minimize the required radio resources subject to the low-latency and high-reliability requirements of various tasks. Specifically, we consider the just noticeable difference (JND) as a performance metric for the haptic communication system. We collect experiment data from a real-world teleoperation testbed and use time-series generative adversarial networks (TimeGAN) to generate a large amount of synthetic data. This allows us to obtain the relationship between the JND threshold, prediction horizon, and the overall reliability including communication reliability and prediction reliability. We take 5G New Radio as an example to demonstrate the proposed framework and optimize bandwidth allocation and data rates of devices. Our numerical and experimental results show that the proposed framework can reduce wireless resource consumption up to 77.80% compared with a task-agnostic benchmark.
翻訳日:2023-02-23 16:44:08 公開日:2023-02-21
# 球面上の量子タルボット効果について

About the quantum Talbot effect on the sphere ( http://arxiv.org/abs/2302.11063v1 )

ライセンス: Link先を確認
Fernando Chamizo and Osvaldo Santillan(参考訳) 波動関数の最初の局所化されたプロファイルを持つ円上のシュル=オディンガー方程式は、粒子の確率密度が有理時間に部分的に再現されるような再生や複製を引き起こすことが知られている。 一般解の畳み込み形式の結果、分数的に定数な初期波動関数が有理時間においても分数的に定数であることが推定される。 球面の代わりに、この分割的な復活は必ずしも起こらないことが知られており、確かに波動関数は有理時間である特定の場所で特異となる。 同じ問題を研究するのが望ましいかもしれないが、初期条件が分割定数関数の代わりに局所化されたディラックデルタであるため、これは現在の研究の目的である。 ガウス和の性質とともにルジャンドル多項式に対するある種の和公式を用いることで、球面上のリバイバルは特定の場所の有理時間に起こり、結果として得られる波動関数の特異点の構造は詳細に特徴づけられることが分かる。 また、円の文脈における影の谷の前に名づけられた密度が消滅する領域の部分的研究をここで開始する。 円の場合とは異なり、これらの領域は直線ではなく、球面に沿った特定の点の集合であることが示唆される。 この集合の正確な形式に関する予想が述べられ、その背景にある直観が明確になる。

The Schr\"odinger equation on a circle with an initially localized profile of the wave function is known to give rise to revivals or replications, where the probability density of the particle is partially reproduced at rational times. As a consequence of the convolutional form of the general solution it is deduced that a piecewise constant initial wave function remains piecewise constant at rational times as well. For a sphere instead, it is known that this piecewise revival does not necessarily occur, indeed the wave function becomes singular at some specific locations at rational times. It may be desirable to study the same problem, but with an initial condition being a localized Dirac delta instead of a piecewise constant function, and this is the purpose of the present work. By use of certain summation formulas for the Legendre polynomials together with properties of Gaussian sums, it is found that revivals on the sphere occur at rational times for some specific locations, and the structure of singularities of the resulting wave function is characterized in detail. In addition, a partial study of the regions where the density vanishes, named before valley of shadows in the context of the circle, is initiated here. It is suggested that, differently from the circle case, these regions are not lines but instead some specific set of points along the sphere. A conjecture about the precise form of this set is stated and the intuition behind it is clarified.
翻訳日:2023-02-23 16:43:49 公開日:2023-02-21
# 全対二乗ヒンジ損失を用いた非平衡二分分類のための対線形勾配降下アルゴリズム

A Log-linear Gradient Descent Algorithm for Unbalanced Binary Classification using the All Pairs Squared Hinge Loss ( http://arxiv.org/abs/2302.11062v1 )

ライセンス: Link先を確認
Kyle R. Rust and Toby D. Hocking(参考訳) 受信者動作特性(roc)曲線は、バイナリ分類アルゴリズムの評価に用いられる真正率と偽正率のプロットである。 曲線(auc)の下の領域は予測値の定数関数であるため、学習アルゴリズムは代わりにラベル付き正および負の例のすべての対の和を含む凸緩和を最適化する。 ネイブラーニングアルゴリズムは2次時間で勾配を計算するが、これは大きなバッチサイズで学習するには遅すぎる。 本稿では,2乗損失と2乗損失の関数表現を新たに提案し,線形あるいは対数直線時間で勾配を計算し,大きなバッチサイズで勾配降下学習を行うアルゴリズムを提案する。 教師付きバイナリ分類問題に関する実証研究において,本アルゴリズムは従来のアルゴリズムよりも不均衡データセットで高いテスト auc 値を達成し,従来よりも大きなバッチサイズを活用できることを示した。

Receiver Operating Characteristic (ROC) curves are plots of true positive rate versus false positive rate which are used to evaluate binary classification algorithms. Because the Area Under the Curve (AUC) is a constant function of the predicted values, learning algorithms instead optimize convex relaxations which involve a sum over all pairs of labeled positive and negative examples. Naive learning algorithms compute the gradient in quadratic time, which is too slow for learning using large batch sizes. We propose a new functional representation of the square loss and squared hinge loss, which results in algorithms that compute the gradient in either linear or log-linear time, and makes it possible to use gradient descent learning with large batch sizes. In our empirical study of supervised binary classification problems, we show that our new algorithm can achieve higher test AUC values on imbalanced data sets than previous algorithms, and make use of larger batch sizes than were previously feasible.
翻訳日:2023-02-23 16:43:27 公開日:2023-02-21
# データ拡張、クラスバランス損失、多言語深層学習によるストラテリング検出の進歩

Advancing Stuttering Detection via Data Augmentation, Class-Balanced Loss and Multi-Contextual Deep Learning ( http://arxiv.org/abs/2302.11343v1 )

ライセンス: Link先を確認
Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni(参考訳) 発声は、制御されていない発話(対話)と核となる行動(ブロック、反復、伸長)によって特徴づけられ、言語感覚士の失敗によって引き起こされる神経発達性の言語障害である。 複雑な性質のため、stuttering detection (sd) は難しい課題である。 早期に検出された場合、音声療法士は発声者(pws)の発話パターンを観察し、修正することができる。 PWSの散らばった音声は通常、限られた量で利用でき、非常に不均衡である。 この目的のために、マルチブランチ(MB)スキームを用いてSD領域のクラス不均衡問題に対処し、全体の損失関数におけるクラスの寄与を重み付けすることで、ベースライン上のSEP-28kデータセット上のスタブリングクラスを大幅に改善する(StutterNet)。 データ不足に対処するため,マルチブランチ学習方式上でのデータ拡張の有効性を検討する。 強化トレーニングはMB StutterNet(クリーン)を4.18%のマクロF1スコア(F1)で上回る。 さらに, マルチコンテキスト(MC) StutterNetを提案する。これは, 発声の異なる文脈を利用して, 単一のコンテキストベースMB StutterNetに対してF1の4.48%の改善を実現する。 最後に、クロスコーパスシナリオにデータ拡張を適用することで、クリーントレーニングよりもF1の13.23%の差で全体的なSD性能が向上することを示した。

Stuttering is a neuro-developmental speech impairment characterized by uncontrolled utterances (interjections) and core behaviors (blocks, repetitions, and prolongations), and is caused by the failure of speech sensorimotors. Due to its complex nature, stuttering detection (SD) is a difficult task. If detected at an early stage, it could facilitate speech therapists to observe and rectify the speech patterns of persons who stutter (PWS). The stuttered speech of PWS is usually available in limited amounts and is highly imbalanced. To this end, we address the class imbalance problem in the SD domain via a multibranching (MB) scheme and by weighting the contribution of classes in the overall loss function, resulting in a huge improvement in stuttering classes on the SEP-28k dataset over the baseline (StutterNet). To tackle data scarcity, we investigate the effectiveness of data augmentation on top of a multi-branched training scheme. The augmented training outperforms the MB StutterNet (clean) by a relative margin of 4.18% in macro F1-score (F1). In addition, we propose a multi-contextual (MC) StutterNet, which exploits different contexts of the stuttered speech, resulting in an overall improvement of 4.48% in F 1 over the single context based MB StutterNet. Finally, we have shown that applying data augmentation in the cross-corpora scenario can improve the overall SD performance by a relative margin of 13.23% in F1 over the clean training.
翻訳日:2023-02-23 15:13:09 公開日:2023-02-21
# chatgptを用いたプロンプトエンジニアリングを強化するプロンプトパターンカタログ

A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT ( http://arxiv.org/abs/2302.11382v1 )

ライセンス: Link先を確認
Jules White, Quchen Fu, Sam Hays, Michael Sandborn, Carlos Olea, Henry Gilbert, Ashraf Elnashar, Jesse Spencer-Smith, Douglas C. Schmidt(参考訳) Prompt Engineeringは、ChatGPTのような大きな言語モデル(LLM)と効果的に会話するために必要な、ますます重要なスキルセットである。 プロンプトはルールを強制し、プロセスを自動化し、生成された出力の特定の品質(と量)を保証するためにllmに与えられる命令である。 プロンプト(Prompt)は、LLMとの出力とインタラクションをカスタマイズできるプログラミングの一種である。 本稿では,LLMと会話する際の共通問題を解くために,パターン形式で提示されたプロンプトエンジニアリング手法のカタログについて述べる。 プロンプトパターンはソフトウェアパターンに類似した知識伝達手法であり、特定の状況で直面する一般的な問題、すなわち、llmを扱う際のアウトプット生成とインタラクションに対する再利用可能なソリューションを提供する。 本稿では,LLMをソフトウェア開発タスクの自動化に適用するインシデントエンジニアリングの研究に次のような貢献をする。 まず、さまざまなドメインに適応できるように、プロンプトを構造化するためのパターンを文書化するためのフレームワークを提供する。 第2に、LLM会話の出力を改善するためにうまく適用されたパターンのカタログを示す。 第3に、複数のパターンからプロンプトを構築する方法を説明し、他のプロンプトパターンと組み合わせることで恩恵を受けるプロンプトパターンを説明する。

Prompt engineering is an increasingly important skill set needed to converse effectively with large language models (LLMs), such as ChatGPT. Prompts are instructions given to an LLM to enforce rules, automate processes, and ensure specific qualities (and quantities) of generated output. Prompts are also a form of programming that can customize the outputs and interactions with an LLM. This paper describes a catalog of prompt engineering techniques presented in pattern form that have been applied to solve common problems when conversing with LLMs. Prompt patterns are a knowledge transfer method analogous to software patterns since they provide reusable solutions to common problems faced in a particular context, i.e., output generation and interaction when working with LLMs. This paper provides the following contributions to research on prompt engineering that apply LLMs to automate software development tasks. First, it provides a framework for documenting patterns for structuring prompts to solve a range of problems so that they can be adapted to different domains. Second, it presents a catalog of patterns that have been applied successfully to improve the outputs of LLM conversations. Third, it explains how prompts can be built from multiple patterns and illustrates prompt patterns that benefit from combination with other prompt patterns.
翻訳日:2023-02-23 15:04:36 公開日:2023-02-21
# 前後に何が起こるか:イベントコリファレンス解決におけるマルチイベントコモンセンス

What happens before and after: Multi-Event Commonsense in Event Coreference Resolution ( http://arxiv.org/abs/2302.09715v2 )

ライセンス: Link先を確認
Sahithya Ravi, Chris Tanner, Raymond Ng, Vered Shwartz(参考訳) イベントコリファレンスモデル クラスタイベントは、同じ現実世界のイベントに関連するものだ。 最近のモデルは、語彙的または文脈的に類似した言及間の相互参照を認識するために文脈化された表現に依存している。 しかし、モデルは通常コモンセンス推論の活用に失敗し、特に語彙分割の言及の解決に制限される。 本稿では,イベント参照を時間的コモンセンス推論で拡張するモデルを提案する。 例えば、「男は妻を殺し、逮捕された」といった複雑な刑期が与えられ、ターゲットイベントは「逮捕」され、我々のモデルは「警察が到着した」など、対象イベントの前に起こり、その後に「判決」が下された。 このような推論を既存のイベントコリファレンスモデルに組み込むことで、そのパフォーマンスが向上することを示すとともに、時間的知識が必要なコリファレンスの分析を行う。

Event coreference models cluster event mentions pertaining to the same real-world event. Recent models rely on contextualized representations to recognize coreference among lexically or contextually similar mentions. However, models typically fail to leverage commonsense inferences, which is particularly limiting for resolving lexically-divergent mentions. We propose a model that extends event mentions with temporal commonsense inferences. Given a complex sentence with multiple events, e.g., "The man killed his wife and got arrested", with the target event "arrested", our model generates plausible events that happen before the target event - such as "the police arrived", and after it, such as "he was sentenced". We show that incorporating such inferences into an existing event coreference model improves its performance, and we analyze the coreferences in which such temporal knowledge is required.
翻訳日:2023-02-23 12:06:51 公開日:2023-02-21
# 線形帯域と強化学習のための変数依存回帰境界:適応性と計算効率

Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement Learning: Adaptivity and Computational Efficiency ( http://arxiv.org/abs/2302.10371v1 )

ライセンス: Link先を確認
Heyang Zhao and Jiafan He and Dongruo Zhou and Tong Zhang and Quanquan Gu(参考訳) 近年、いくつかの研究 (Zhou et al., 2021a; Zhang et al., 2021b; Kim et al., 2021; Zhou and Gu, 2022) が、線形文脈的包帯に対する変分依存的後悔境界を提供しており、最悪のケース体制と決定論的報酬体制の後悔を補間している。 しかし、これらのアルゴリズムは計算が難しいか、ノイズの未知のばらつきを処理できないかのどちらかである。 本稿では,ヘテロシドスティックノイズを持つ線形バンディットに対して,最初の計算効率の高いアルゴリズムを提案することにより,この問題に対する新しい解法を提案する。 このアルゴリズムは未知のノイズ分散に適応し、$\tilde{o}(d \sqrt{\sum_{k = 1}^k \sigma_k^2} + d)$ regret(ここで$\sigma_k^2$はラウンド$k$のノイズ分散、$d$はコンテキストの次元、$k$はラウンドの総数)を達成する。 本研究は, 自己正規化マルチンゲールに対する新しいフリードマン型濃度不等式と, 不確実性上界が異なる異なる層にコンテキストベクトルを階層化するための多層構造によって実現される適応分散認識信頼セットに基づいている。 さらに,本手法は強化学習において線形混合マルコフ決定過程(MDP)に拡張することができる。 本稿では,線形混合型MDPに対する分散適応アルゴリズムを提案する。 線形混合 MDP に対する既存の極小近似アルゴリズムとは異なり、我々のアルゴリズムは過渡確率の明示的な分散推定や高次モーメント推定器を用いることで、地平線無しの後悔を実現する。 本論文で開発された手法は,一般的なオンライン意思決定問題に対して独立した価値を持つことができると考えている。

Recently, several studies (Zhou et al., 2021a; Zhang et al., 2021b; Kim et al., 2021; Zhou and Gu, 2022) have provided variance-dependent regret bounds for linear contextual bandits, which interpolates the regret for the worst-case regime and the deterministic reward regime. However, these algorithms are either computationally intractable or unable to handle unknown variance of the noise. In this paper, we present a novel solution to this open problem by proposing the first computationally efficient algorithm for linear bandits with heteroscedastic noise. Our algorithm is adaptive to the unknown variance of noise and achieves an $\tilde{O}(d \sqrt{\sum_{k = 1}^K \sigma_k^2} + d)$ regret, where $\sigma_k^2$ is the variance of the noise at the round $k$, $d$ is the dimension of the contexts and $K$ is the total number of rounds. Our results are based on an adaptive variance-aware confidence set enabled by a new Freedman-type concentration inequality for self-normalized martingales and a multi-layer structure to stratify the context vectors into different layers with different uniform upper bounds on the uncertainty. Furthermore, our approach can be extended to linear mixture Markov decision processes (MDPs) in reinforcement learning. We propose a variance-adaptive algorithm for linear mixture MDPs, which achieves a problem-dependent horizon-free regret bound that can gracefully reduce to a nearly constant regret for deterministic MDPs. Unlike existing nearly minimax optimal algorithms for linear mixture MDPs, our algorithm does not require explicit variance estimation of the transitional probabilities or the use of high-order moment estimators to attain horizon-free regret. We believe the techniques developed in this paper can have independent value for general online decision making problems.
翻訳日:2023-02-22 16:54:15 公開日:2023-02-21
# RKHSにおける平均パリティフェア回帰

Mean Parity Fair Regression in RKHS ( http://arxiv.org/abs/2302.10409v1 )

ライセンス: Link先を確認
Shaokui Wei, Jiayin Liu, Bing Li, Hongyuan Zha(参考訳) 平均パリティ (MP) の公平性の概念の下で, 学習関数出力の条件平均が, 感度特性に対して一定であることを必要とするフェアレグレッション問題について検討する。 本稿では、再生カーネルヒルベルト空間(RKHS)を利用して、メンバーがフェアネス制約を満たすことを保証された関数空間を構築する。 提案した関数空間は、複数の感度属性に自然に適合する公正回帰問題に対する閉形式解を示唆する。 さらに, フェアネス精度トレードオフを緩和されたフェアレグレッション問題として定式化することにより, 効率よく実装でき, 解釈可能なトレードオフを提供する対応する回帰関数を導出する。 より重要なことに、いくつかの穏やかな仮定の下で、提案手法は共分散に基づくフェアネスの概念を持つ回帰問題に適用することができる。 ベンチマークによる実験結果から,提案手法はいくつかの最先端手法と比較して,競争力や性能に優れていた。

We study the fair regression problem under the notion of Mean Parity (MP) fairness, which requires the conditional mean of the learned function output to be constant with respect to the sensitive attributes. We address this problem by leveraging reproducing kernel Hilbert space (RKHS) to construct the functional space whose members are guaranteed to satisfy the fairness constraints. The proposed functional space suggests a closed-form solution for the fair regression problem that is naturally compatible with multiple sensitive attributes. Furthermore, by formulating the fairness-accuracy tradeoff as a relaxed fair regression problem, we derive a corresponding regression function that can be implemented efficiently and provides interpretable tradeoffs. More importantly, under some mild assumptions, the proposed method can be applied to regression problems with a covariance-based notion of fairness. Experimental results on benchmark datasets show the proposed methods achieve competitive and even superior performance compared with several state-of-the-art methods.
翻訳日:2023-02-22 16:44:29 公開日:2023-02-21
# ラベル情報によるグラフの低ホモフィリーに対する不正検出

Label Information Enhanced Fraud Detection against Low Homophily in Graphs ( http://arxiv.org/abs/2302.10407v1 )

ライセンス: Link先を確認
Yuchen Wang, Jinghui Zhang, Zhengjie Huang, Weibin Li, Shikun Feng, Ziheng Ma, Yu Sun, Dianhai Yu, Fang Dong, Jiahui Jin, Beilun Wang and Junzhou Luo(参考訳) ノード分類はグラフベースの不正検出において大きな問題である。 既存の多くの研究は、不正検出を強化するためにグラフニューラルネットワーク(GNN)を採用している。 有望ではあるが、現在ほとんどのGNNベースの不正検知器は、低いホモフィリー設定に一般化できない。 また,ラベル利用がノード分類問題の重要な要因であることが証明されている。 しかし、グラフのホモフィリが低いため、不正検出タスクでは効果が低いことがわかりました。 本稿では,この課題に対処するために,グループ集約強化TrAnsformerのGAGAを提案する。 具体的には、群アグリゲーションは低いホモフィイ問題に対処するためのポータブルな方法を提供する。 このような集約はラベル情報を明示的に統合して識別可能な近傍情報を生成する。 グループアグリゲーションとともに、クラスラベルで元の特徴空間を拡大するエンドツーエンドのトレーニング可能なグループエンコーディングの試みが提案されている。 一方、構造的および関係的コンテキストを認識するために、2つの学習可能なエンコーディングを考案する。 次に,グループアグリゲーションと学習可能なエンコーディングを変換器エンコーダに組み合わせ,意味情報をキャプチャする。 実験の結果、GAGAはAnonymousの2つのトレンドの公開データセットと実世界の産業データセットで、他のグラフベースの不正検知器よりも最大24.39%優れていた。 さらに、グループアグリゲーションは、低ホモフィリー環境で他のラベル利用方法(例えば、C&S、BoT/UniMP)より優れていることが示される。

Node classification is a substantial problem in graph-based fraud detection. Many existing works adopt Graph Neural Networks (GNNs) to enhance fraud detectors. While promising, currently most GNN-based fraud detectors fail to generalize to the low homophily setting. Besides, label utilization has been proved to be significant factor for node classification problem. But we find they are less effective in fraud detection tasks due to the low homophily in graphs. In this work, we propose GAGA, a novel Group AGgregation enhanced TrAnsformer, to tackle the above challenges. Specifically, the group aggregation provides a portable method to cope with the low homophily issue. Such an aggregation explicitly integrates the label information to generate distinguishable neighborhood information. Along with group aggregation, an attempt towards end-to-end trainable group encoding is proposed which augments the original feature space with the class labels. Meanwhile, we devise two additional learnable encodings to recognize the structural and relational context. Then, we combine the group aggregation and the learnable encodings into a Transformer encoder to capture the semantic information. Experimental results clearly show that GAGA outperforms other competitive graph-based fraud detectors by up to 24.39% on two trending public datasets and a real-world industrial dataset from Anonymous. Even more, the group aggregation is demonstrated to outperform other label utilization methods (e.g., C&S, BoT/UniMP) in the low homophily setting.
翻訳日:2023-02-22 16:44:15 公開日:2023-02-21
# 自然言語処理(NLP)に基づくデジタル病理:NLPと畳み込みニューラルネットワークに基づくディープラーニングパイプラインのベンチマーク

Time to Embrace Natural Language Processing (NLP)-based Digital Pathology: Benchmarking NLP- and Convolutional Neural Network-based Deep Learning Pipelines ( http://arxiv.org/abs/2302.10406v1 )

ライセンス: Link先を確認
Min Cen, Xingyu Li, Bangwei Guo, Jitendra Jonnagaddala, Hong Zhang, Xu Steven Xu(参考訳) NLPベースのコンピュータビジョンモデル、特に視覚変換器は、多くの画像処理タスクにおいてCNNモデルより優れていることが示されている。 しかし、ほとんどのデジタル病理学人工知能モデルは、おそらく病理画像のNLPモデルに関するデータが不足しているため、CNNアーキテクチャに基づいている。 本研究では,最近提案された5つのNLPモデル(ビジョントランスフォーマー(ViT),Swin Transformer,MobileViT,CMT,Sequencer2D)と4つのCNNモデル(ResNet18,ResNet50,MobileNetV2,EfficientNet)を比較し,大腸癌のバイオマーカー(マイクロサテライト不安定性,CpG島メチル化剤表現型,BRAF変異)の予測を行った。 ヘマトキシリンと細胞性腫瘍学のエオシン含有全スライディング画像とThe Cancer Genome Atlasを,それぞれトレーニングおよび外的検証データセットとして使用した。 クロススタディな外部検証により、nlpベースのモデルはバイオマーカー予測タスクにおいてcnnベースのモデルを大きく上回り、全体の予測と精度を10%と26%に向上させた。 特に,大規模なトレーニングデータセットを用いた既存の文献と比較して,我々のNLPモデルは比較的小さなトレーニングデータセットを用いて,3つのバイオマーカーすべてに対して最先端の予測を達成し,大規模なトレーニングデータセットがNLPモデルやトランスフォーマーの必須条件ではないことを示唆している。 Sequencer2Dの優れた性能は、トランスフォーマーと双方向の長期記憶アーキテクチャに関するさらなる研究と革新がデジタル病理学の分野で保証されていることを示唆している。 NLPモデルは従来のCNNアーキテクチャを置き換えることができ、デジタル病理学の分野における新しいワークホースバックボーンとなる。

NLP-based computer vision models, particularly vision transformers, have been shown to outperform CNN models in many imaging tasks. However, most digital pathology artificial-intelligence models are based on CNN architectures, probably owing to a lack of data regarding NLP models for pathology images. In this study, we developed digital pathology pipelines to benchmark the five most recently proposed NLP models (vision transformer (ViT), Swin Transformer, MobileViT, CMT, and Sequencer2D) and four popular CNN models (ResNet18, ResNet50, MobileNetV2, and EfficientNet) to predict biomarkers in colorectal cancer (microsatellite instability, CpG island methylator phenotype, and BRAF mutation). Hematoxylin and eosin-stained whole-slide images from Molecular and Cellular Oncology and The Cancer Genome Atlas were used as training and external validation datasets, respectively. Cross-study external validations revealed that the NLP-based models significantly outperformed the CNN-based models in biomarker prediction tasks, improving the overall prediction and precision up to approximately 10% and 26%, respectively. Notably, compared with existing models in the current literature using large training datasets, our NLP models achieved state-of-the-art predictions for all three biomarkers using a relatively small training dataset, suggesting that large training datasets are not a prerequisite for NLP models or transformers, and NLP may be more suitable for clinical studies in which small training datasets are commonly collected. The superior performance of Sequencer2D suggests that further research and innovation on both transformer and bidirectional long short-term memory architectures are warranted in the field of digital pathology. NLP models can replace classic CNN architectures and become the new workhorse backbone in the field of digital pathology.
翻訳日:2023-02-22 16:43:54 公開日:2023-02-21
# 短期交通状態推定のための高効率2段勾配昇降フレームワーク

An Efficient Two-stage Gradient Boosting Framework for Short-term Traffic State Estimation ( http://arxiv.org/abs/2302.10400v1 )

ライセンス: Link先を確認
Yichao Lu(参考訳) インテリジェント交通システムにはリアルタイム交通状態推定が不可欠である。 NeurIPS 2022 Traffic4castチャレンジは、短期的なトラフィック状態推定アプローチをベンチマークするための優れたテストベッドを提供する。 この技術的レポートは、この課題に対する我々の解決策を説明している。 特に,短期交通状態推定のための効率的な2段階勾配向上フレームワークを提案する。 第1ステージは、スパースループカウンタデータに基づく月、日、タイムスロットインデックスを導出し、第2ステージは、スパースループカウンタデータと派生した月、日、およびタイムスロットインデックスに基づいて、将来のトラフィック状態を予測する。 実験の結果,2段階勾配ブースティングフレームワークは強力な経験的性能を達成し,高い効率を維持しながら,コアと拡張課題の両方において3位となった。 このテクニカルレポートのソースコードは \url{https://github.com/yichaolu/traffic4cast2022} で入手できる。

Real-time traffic state estimation is essential for intelligent transportation systems. The NeurIPS 2022 Traffic4cast challenge provides an excellent testbed for benchmarking short-term traffic state estimation approaches. This technical report describes our solution to this challenge. In particular, we present an efficient two-stage gradient boosting framework for short-term traffic state estimation. The first stage derives the month, day of the week, and time slot index based on the sparse loop counter data, and the second stage predicts the future traffic states based on the sparse loop counter data and the derived month, day of the week, and time slot index. Experimental results demonstrate that our two-stage gradient boosting framework achieves strong empirical performance, achieving third place in both the core and the extended challenges while remaining highly efficient. The source code for this technical report is available at \url{https://github.com/YichaoLu/Traffic4cast2022}.
翻訳日:2023-02-22 16:43:15 公開日:2023-02-21
# 物体検出における連続的領域適応のための領域ギャップの評価

Assessing Domain Gap for Continual Domain Adaptation in Object Detection ( http://arxiv.org/abs/2302.10396v1 )

ライセンス: Link先を確認
Anh-Dzung Doan and Bach Long Nguyen and Surabhi Gupta and Ian Reid and Markus Wagner and Tat-Jun Chin(参考訳) 自律システムにおける信頼できる物体検出を確保するために、検出器は、日時、天候、季節などの環境要因による外観の変化に対応できなければならない。 これらの変更を継続的に取り入れることは有望な解決策であるが、計算コストはかかる。 提案手法は,現在のトレーニングデータと同じ分布を持たない新しいデータを用いて,必要なときにのみ検出器を選択的に適応させることである。 この目的のために、ドメインギャップ評価のための3つの一般的なメトリクスを調査し、ドメインギャップと検出精度との間に相関があることを見出した。 そこで, 領域ギャップを基準として, 検出器の適応時期を決定する。 提案手法は, 環境条件が周期的に変化する現実のシナリオにおいて, 検出器全体の性能を犠牲にすることなく, 検出器の動作効率を向上させる可能性を秘めている。 私たちのコードはhttps://github.com/dadung/DGE-CDA.comで公開されています。

To ensure reliable object detection in autonomous systems, the detector must be able to adapt to changes in appearance caused by environmental factors such as time of day, weather, and seasons. Continually adapting the detector to incorporate these changes is a promising solution, but it can be computationally costly. Our proposed approach is to selectively adapt the detector only when necessary, using new data that does not have the same distribution as the current training data. To this end, we investigate three popular metrics for domain gap evaluation and find that there is a correlation between the domain gap and detection accuracy. Therefore, we apply the domain gap as a criterion to decide when to adapt the detector. Our experiments show that our approach has the potential to improve the efficiency of the detector's operation in real-world scenarios, where environmental conditions change in a cyclical manner, without sacrificing the overall performance of the detector. Our code is publicly available at https://github.com/dadung/DGE-CDA.
翻訳日:2023-02-22 16:42:59 公開日:2023-02-21
# AIによるユーザエクスペリエンスのための設計思想を支援するためのモデル透明性に必要な情報

Designerly Understanding: Information Needs for Model Transparency to Support Design Ideation for AI-Powered User Experience ( http://arxiv.org/abs/2302.10395v1 )

ライセンス: Link先を確認
Q. Vera Liao, Hariharan Subramonyam, Jennifer Wang, Jennifer Wortman Vaughan(参考訳) 人工知能(AI)の普及にもかかわらず、AI駆動システムのユーザエクスペリエンス(UX)を設計することは依然として難しい。 UXデザイナは、事前訓練された言語モデルなどのAI技術を設計材料として理解するハードルに直面します。 これにより、AIの使用方法、場所、使用方法について、アイデアと意思決定の能力が制限される。 この問題に対処するために、AI設計とAI透過性に関する文献を橋渡しして、透明性のあるモデルレポートのためのフレームワークが、事前訓練されたモデルによる設計思想をサポートするかどうかを探求する。 23人のUX実践者へのインタビューから、実践者はトレーニング済みのモデルで作業することが多いが、UX主導の考え方をサポートしていないことが分かる。 シナリオベースの設計タスクを通じて、設計者がモデル理解を求める共通の目標を特定し、モデル透過性情報のニーズを特定する。 我々の研究は、UXデザイナがResponsible AIで果たせる重要な役割を強調し、モデルの透明性と尋問を通じてAIの限界を理解することを支援することを求めている。

Despite the widespread use of artificial intelligence (AI), designing user experiences (UX) for AI-powered systems remains challenging. UX designers face hurdles understanding AI technologies, such as pre-trained language models, as design materials. This limits their ability to ideate and make decisions about whether, where, and how to use AI. To address this problem, we bridge the literature on AI design and AI transparency to explore whether and how frameworks for transparent model reporting can support design ideation with pre-trained models. By interviewing 23 UX practitioners, we find that practitioners frequently work with pre-trained models, but lack support for UX-led ideation. Through a scenario-based design task, we identify common goals that designers seek model understanding for and pinpoint their model transparency information needs. Our study highlights the pivotal role that UX designers can play in Responsible AI and calls for supporting their understanding of AI limitations through model transparency and interrogation.
翻訳日:2023-02-22 16:42:43 公開日:2023-02-21
# コミュニケーション制限環境における多人数ロボットチームにおける不必要調整による疫学予測と計画

Epistemic Prediction and Planning with Implicit Coordination for Multi-Robot Teams in Communication Restricted Environments ( http://arxiv.org/abs/2302.10393v1 )

ライセンス: Link先を確認
Lauren Bramblett, Shijie Gao, and Nicola Bezzo(参考訳) 通信制限環境では、マルチロボットシステムのいずれかをデプロイできる。 一 一定の通信を維持しつつ、近接制約による運転効率を損なうこと。 二 断線により、環境被覆効率の向上、再接続の方法、時期、場所の課題(連関問題)が図られること。 本研究では, ロボットが所定の計画を実行可能であると仮定する現状の手法がほとんどである。しかし, システム障害や環境条件の変化により, ロボットは, マルチロボットシステム全体のカスケード効果により, 計画から逸脱してしまう可能性がある。 本稿では,探索とカバレッジ,タスクの発見と完了,ランデブーのアプリケーションに関するコミュニケーションを伴わず,コンセンサスを実現するための協調型疫学予測・計画フレームワークを提案する。 動的認識論理(dynamic epistemic logic)は、ロボットが信念状態の伝達と他のエージェントとの共感を可能にするために実装された主成分である。 信念状態の伝播とその後の環境のカバレッジは、人工物理学に基づくフレームワーク内のフロンティアベースの手法によって達成される。 提案手法は, さまざまな環境における無人地上車両のシミュレーションと実験により検証した。

In communication restricted environments, a multi-robot system can be deployed to either: i) maintain constant communication but potentially sacrifice operational efficiency due to proximity constraints or ii) allow disconnections to increase environmental coverage efficiency, challenges on how, when, and where to reconnect (rendezvous problem). In this work we tackle the latter problem and notice that most state-of-the-art methods assume that robots will be able to execute a predetermined plan; however system failures and changes in environmental conditions can cause the robots to deviate from the plan with cascading effects across the multi-robot system. This paper proposes a coordinated epistemic prediction and planning framework to achieve consensus without communicating for exploration and coverage, task discovery and completion, and rendezvous applications. Dynamic epistemic logic is the principal component implemented to allow robots to propagate belief states and empathize with other agents. Propagation of belief states and subsequent coverage of the environment is achieved via a frontier-based method within an artificial physics-based framework. The proposed framework is validated with both simulations and experiments with unmanned ground vehicles in various cluttered environments.
翻訳日:2023-02-22 16:42:23 公開日:2023-02-21
# 記憶から記憶へ:再構成が難しい画像は記憶の痕跡を強く残す

From seeing to remembering: Images with harder-to-reconstruct representations leave stronger memory traces ( http://arxiv.org/abs/2302.10392v1 )

ライセンス: Link先を確認
Qi Lin, Zifan Li, John Lafferty, Ilker Yildirim(参考訳) 私たちが覚えていることの多くは、意図的な選択ではなく、単に知覚の副産物です。 これは心のアーキテクチャに関する基礎的な疑問を提起する: 知覚は記憶とどのように相互作用し影響するか? 本稿では,メモリ耐久性に対する知覚処理に関する古典的な提案であるレベル・オブ・プロセッシング理論に触発されて,画像の特徴埋め込みを圧縮するためのスパース符号化モデルを提案し,このモデルからの復元残差がメモリにどのようにエンコードされるかを予測することを示す。 シーン画像のオープン記憶可能性データセットでは、復元誤差が記憶の正確性だけでなく、検索中の応答遅延も説明し、後者の場合、強力な視覚のみのモデルによって説明される全ての分散を推定する。 また,「モデル駆動精神物理学」による予測も確認した。 この研究は、おそらく知覚処理の適応的変調によって、新しい信号の対面認識と記憶として再構成誤差を確立する。

Much of what we remember is not due to intentional selection, but simply a by-product of perceiving. This raises a foundational question about the architecture of the mind: How does perception interface with and influence memory? Here, inspired by a classic proposal relating perceptual processing to memory durability, the level-of-processing theory, we present a sparse coding model for compressing feature embeddings of images, and show that the reconstruction residuals from this model predict how well images are encoded into memory. In an open memorability dataset of scene images, we show that reconstruction error not only explains memory accuracy but also response latencies during retrieval, subsuming, in the latter case, all of the variance explained by powerful vision-only models. We also confirm a prediction of this account with 'model-driven psychophysics'. This work establishes reconstruction error as a novel signal interfacing perception and memory, possibly through adaptive modulation of perceptual processing.
翻訳日:2023-02-22 16:42:04 公開日:2023-02-21
# DrasCLR:3次元医用画像における疾患関連および解剖特化表現の自己教師型フレームワーク

DrasCLR: A Self-supervised Framework of Learning Disease-related and Anatomy-specific Representation for 3D Medical Images ( http://arxiv.org/abs/2302.10390v1 )

ライセンス: Link先を確認
Ke Yu, Li Sun, Junxiang Chen, Max Reynolds, Tigmanshu Chaudhary, Kayhan Batmanghelich(参考訳) 注釈付き大規模医用画像は稀で、費用がかかり、取得が禁止される。 自己教師付き学習(SSL)は、ラベルなしデータのみを使用するため、多くの下流タスクに対して、有望な事前トレーニングと機能抽出ソリューションを提供する。 近年,症例識別に基づくSSL手法が医用画像領域で普及している。 しかし、SSLで事前訓練されたエンコーダは、画像の多くの手がかりを使用して、必ずしも疾患に関係のないインスタンスを識別する。 さらに、病理パターンはしばしば微妙で不均一であり、異なる身体部位の異常な変化に敏感な解剖学的特徴を表現するために望ましい方法の能力を必要とする。 本稿では,これらの課題を克服するための3次元医用イメージングのための新しいSSLフレームワークDrasCLRを提案する。 そこで本研究では,局所解剖学領域内の微妙な疾患パターンを捉えることと,より広い領域にまたがる重篤な疾患パターンを表現することを目的とした,ドメイン固有のコントラスト学習戦略を提案する。 パラメータが解剖学的位置に依存する条件付きハイパーパラメータネットワークを用いてエンコーダを定式化し,解剖学的に敏感な特徴を抽出する。 肺画像の大規模コンピュータ断層撮影(CT)データセットの大規模な実験により,下流の予測やセグメンテーションタスクの性能が向上することが示された。 患者レベルの表現は、患者生存予測タスクの性能を向上させる。 本手法は密集予測により気腫の亜型を検出する方法を示す。 トレーニング済みモデルの微調整により,気腫検出精度を犠牲にすることなく,アノテーションの労力を大幅に削減できることを示す。 我々のアブレーション研究は、sslフレームワークに解剖学的コンテキストを組み込むことの重要性を強調している。

Large-scale volumetric medical images with annotation are rare, costly, and time prohibitive to acquire. Self-supervised learning (SSL) offers a promising pre-training and feature extraction solution for many downstream tasks, as it only uses unlabeled data. Recently, SSL methods based on instance discrimination have gained popularity in the medical imaging domain. However, SSL pre-trained encoders may use many clues in the image to discriminate an instance that are not necessarily disease-related. Moreover, pathological patterns are often subtle and heterogeneous, requiring the ability of the desired method to represent anatomy-specific features that are sensitive to abnormal changes in different body parts. In this work, we present a novel SSL framework, named DrasCLR, for 3D medical imaging to overcome these challenges. We propose two domain-specific contrastive learning strategies: one aims to capture subtle disease patterns inside a local anatomical region, and the other aims to represent severe disease patterns that span larger regions. We formulate the encoder using conditional hyper-parameterized network, in which the parameters are dependant on the anatomical location, to extract anatomically sensitive features. Extensive experiments on large-scale computer tomography (CT) datasets of lung images show that our method improves the performance of many downstream prediction and segmentation tasks. The patient-level representation improves the performance of the patient survival prediction task. We show how our method can detect emphysema subtypes via dense prediction. We demonstrate that fine-tuning the pre-trained model can significantly reduce annotation efforts without sacrificing emphysema detection accuracy. Our ablation study highlights the importance of incorporating anatomical context into the SSL framework.
翻訳日:2023-02-22 16:41:46 公開日:2023-02-21
# レートゆらぎ理論に基づく最小損失符号化長によるマルチサブスペースデータのクラスタ化,分類,表現への解釈可能なアプローチについて

On Interpretable Approaches to Cluster, Classify and Represent Multi-Subspace Data via Minimum Lossy Coding Length based on Rate-Distortion Theory ( http://arxiv.org/abs/2302.10383v1 )

ライセンス: Link先を確認
Kai-Liang Lu, Avraham Chapman(参考訳) クラスタ化、分類、表現は、内在構造を持つ高次元データから学ぶ3つの基本的な目的である。 そこで本研究では,最小ロッシー符号長基準によるセグメンテーション(クラスタリング),最小インクリメンタル符号化長基準による分類,最大符号化レート削減基準による表現の3つの解釈可能なアプローチを提案する。 これらは、情報理論におけるレート歪みの原理から、損失のあるデータ符号化と圧縮の枠組みに基づいて導出される。 これらのアルゴリズムは、混合ガウス分布や部分空間の有限サンプルデータ(スパースあるいはほぼ退化)を扱うのに特に適している。 これらの方法の理論的価値と魅力的な特徴は、他の学習方法や評価基準との比較によって要約される。 この要約は,「ホワイトボックス」マシン(深層)学習方法を理解することに関心のある研究者(エンジニアも含む)に理論的ガイドを提供することを目的としている。

To cluster, classify and represent are three fundamental objectives of learning from high-dimensional data with intrinsic structure. To this end, this paper introduces three interpretable approaches, i.e., segmentation (clustering) via the Minimum Lossy Coding Length criterion, classification via the Minimum Incremental Coding Length criterion and representation via the Maximal Coding Rate Reduction criterion. These are derived based on the lossy data coding and compression framework from the principle of rate distortion in information theory. These algorithms are particularly suitable for dealing with finite-sample data (allowed to be sparse or almost degenerate) of mixed Gaussian distributions or subspaces. The theoretical value and attractive features of these methods are summarized by comparison with other learning methods or evaluation criteria. This summary note aims to provide a theoretical guide to researchers (also engineers) interested in understanding 'white-box' machine (deep) learning methods.
翻訳日:2023-02-22 16:41:22 公開日:2023-02-21
# AttentionMixer: プロセス監視のための正確で解釈可能なフレームワーク

AttentionMixer: An Accurate and Interpretable Framework for Process Monitoring ( http://arxiv.org/abs/2302.10426v1 )

ライセンス: Link先を確認
Hao Wang, Zhiyu Wang, Yunlong Niu, Zhaoran Liu, Haozhe Li, Yilin Liao, Yuxin Huang, Xinggao Liu(参考訳) 極端作業条件下で稼働する高効率エネルギー変換プラントの安全性には,正確かつ説明可能な自動監視システムが重要である。 それでも、現在利用可能なデータ駆動監視システムは、高い正確性または解釈可能性の要件を満たすために不足することが多い。 この制限を克服するために、エネルギー変換プラントのための正確で解釈可能な放射線モニタリングフレームワークを確立することを目的として、一般的なメッセージパッシングフレームワークの下でデータ駆動アプローチである attentionmixer が提案されている。 モデル精度を向上させるために、第1の技術的貢献は、空間的および時間的適応的なメッセージパッシングブロックの開発であり、それぞれが空間的および時間的相関を捕捉し、2つのブロックは混合演算子を介してカスケードされる。 モデル解釈性を高めるために、第2の技術的貢献はスパースメッセージパッシング正規化器の実装である。 AttentionMixerアプローチの有効性は、原子力発電所の国家放射線監視ネットワークから収集したモニタリングベンチマークで広範囲に評価することで検証され、その結果、監視精度と解釈可能性が向上した。

An accurate and explainable automatic monitoring system is critical for the safety of high efficiency energy conversion plants that operate under extreme working condition. Nonetheless, currently available data-driven monitoring systems often fall short in meeting the requirements for either high-accuracy or interpretability, which hinders their application in practice. To overcome this limitation, a data-driven approach, AttentionMixer, is proposed under a generalized message passing framework, with the goal of establishing an accurate and interpretable radiation monitoring framework for energy conversion plants. To improve the model accuracy, the first technical contribution involves the development of spatial and temporal adaptive message passing blocks, which enable the capture of spatial and temporal correlations, respectively; the two blocks are cascaded through a mixing operator. To enhance the model interpretability, the second technical contribution involves the implementation of a sparse message passing regularizer, which eliminates spurious and noisy message passing routes. The effectiveness of the AttentionMixer approach is validated through extensive evaluations on a monitoring benchmark collected from the national radiation monitoring network for nuclear power plants, resulting in enhanced monitoring accuracy and interpretability in practice.
翻訳日:2023-02-22 16:35:19 公開日:2023-02-21
# 正規化フローによる実世界点雲からのインスタンスインクリメンタルシーングラフ生成

Instance-incremental Scene Graph Generation from Real-world Point Clouds via Normalizing Flows ( http://arxiv.org/abs/2302.10425v1 )

ライセンス: Link先を確認
Chao Qi, Jianqin Yin, Jinghang Xu, and Pengxiang Ding(参考訳) ポイントクラウドの空の部屋が与えられ、それをグラフとして表現し、新しいインスタンスを自動的に増加させます。 シーンのオブジェクトレイアウトを示すグラフが最終的に生成される。 拡張現実のような視覚ベースのアプリケーションにおいて、新しい3Dオブジェクトを現実世界のシーンに挿入する際のガイドとなるため、これは重要なタスクである。 実世界のポイントクラウドの複雑さは、観測データ(ラベル付きセマンティクスを持つ空でない部屋)からオブジェクトレイアウト体験を学ぶのに困難をもたらす。 我々は,このタスクを条件付き生成問題としてモデル化し,フローの正規化(3d-anf)に基づく3次元自己回帰フレームワークを提案する。 まず、ラベルのセマンティクスとコンテキスト関係を抽出し、ポイントクラウドをグラフとして表現する。 次に、正規化フローに基づくモデルを導入し、図形要素の条件付き生成をガウス過程にマッピングする。 写像は可逆である。 これにより、観測データに表される実世界体験をトレーニングフェーズでモデル化することができ、テストフェーズにおいてガウス過程に基づいて新たなインスタンスを順次生成することができる。 本研究では,3次元ポイントベースシーンのデータセット(3DSSG,3RScan)に新たなタスクを実装し,提案手法の性能評価を行った。 実験により,本手法は実世界のポイントクラウドから信頼性の高い新しいグラフを生成し,ベンチマークデータセットの最先端性能を実現する。

This work introduces a new task of instance-incremental scene graph generation: Given an empty room of the point cloud, representing it as a graph and automatically increasing novel instances. A graph denoting the object layout of the scene is finally generated. It is an important task since it helps to guide the insertion of novel 3D objects into a real-world scene in vision-based applications like augmented reality. It is also challenging because the complexity of the real-world point cloud brings difficulties in learning object layout experiences from the observation data (non-empty rooms with labeled semantics). We model this task as a conditional generation problem and propose a 3D autoregressive framework based on normalizing flows (3D-ANF) to address it. We first represent the point cloud as a graph by extracting the containing label semantics and contextual relationships. Next, a model based on normalizing flows is introduced to map the conditional generation of graphic elements into the Gaussian process. The mapping is invertible. Thus, the real-world experiences represented in the observation data can be modeled in the training phase, and novel instances can be sequentially generated based on the Gaussian process in the testing phase. We implement this new task on the dataset of 3D point-based scenes (3DSSG and 3RScan) and evaluate the performance of our method. Experiments show that our method generates reliable novel graphs from the real-world point cloud and achieves state-of-the-art performance on the benchmark dataset.
翻訳日:2023-02-22 16:34:57 公開日:2023-02-21
# 機械学習を用いた被疑者予測付き刑事捜査追跡装置

Criminal Investigation Tracker with Suspect Prediction using Machine Learning ( http://arxiv.org/abs/2302.10423v1 )

ライセンス: Link先を確認
S. J. Dilmini (1), R. A. T. M. Rajapaksha (1), Erandika Lakmali (2), S. P. S. Mandula (1), D. D. G. Delgasdeniya (1), Pradeepa Bandara (1) ((1) Faculty of Computing, Sri Lanka Institute of Information Technology, Malabe, Sri Lanka, (2) University of Kelaniya, Dalugama, Kelaniya, Sri Lanka)(参考訳) スリランカの犯罪者を識別する自動化アプローチは、現在のシステムよりも優れている。 目撃者から情報を得ることは、現在使われている信頼性の低いアプローチと手順の1つである。 自動犯罪識別は、スリランカ文化がこの問題に対する認識を欠いているにもかかわらず、命を救える能力を持っている。 このタスクを完了させるためにバイオメトリックスのような最先端技術を使用するのは、最も正確な戦略だ。 最も顕著な結果は、生体認証技術として指紋と顔認識を適用することで得られる。 主な責任は画像の最適化と犯罪である。 CCTVの映像は、人の指紋を特定し、人の顔を特定し、武器を含む犯罪を特定するために用いられる。 さらに,我々は,通報システムを公開し,警察の報告を付加し,警察官が犯罪の本質を理解するのを容易にするために,通報システムを開発し,警察の報告を強制する。 また、武器を含む事件が検出された場合、関連するすべての事実の犯罪の自動通知が最寄りの警察署に送られる。 警察報告書の要約が、これが最も独創的な理由である。 全体の画像の有効性を向上させるために、システムは、犯罪現場の全貌を迅速かつ正確に識別し、顔と指紋を使って容疑者を特定し認識し、銃器を検出する。 本研究は,実世界データに基づく犯罪予測と犯罪法人化の新たなアプローチを提供する。 犯罪や発生を適切な機関に報告し、提案するWebアプリケーションをさらに改善して、通信の有効なチャネルを提供する必要がある。

An automated approach to identifying offenders in Sri Lanka would be better than the current system. Obtaining information from eyewitnesses is one of the less reliable approaches and procedures still in use today. Automated criminal identification has the ability to save lives, notwithstanding Sri Lankan culture's lack of awareness of the issue. Using cutting-edge technology like biometrics to finish this task would be the most accurate strategy. The most notable outcomes will be obtained by applying fingerprint and face recognition as biometric techniques. The main responsibilities will be image optimization and criminality. CCTV footage may be used to identify a person's fingerprint, identify a person's face, and identify crimes involving weapons. Additionally, we unveil a notification system and condense the police report to Additionally, to make it simpler for police officers to understand the essential points of the crime, we develop a notification system and condense the police report. Additionally, if an incident involving a weapon is detected, an automated notice of the crime with all the relevant facts is sent to the closest police station. The summarization of the police report is what makes this the most original. In order to improve the efficacy of the overall image, the system will quickly and precisely identify the full crime scene, identify, and recognize the suspects using their faces and fingerprints, and detect firearms. This study provides a novel approach for crime prediction based on real-world data, and criminality incorporation. A crime or occurrence should be reported to the appropriate agencies, and the suggested web application should be improved further to offer a workable channel of communication.
翻訳日:2023-02-22 16:34:35 公開日:2023-02-21
# HCGMNET: 変更検出のための階層的な変更ガイドマップネットワーク

HCGMNET: A Hierarchical Change Guiding Map Network For Change Detection ( http://arxiv.org/abs/2302.10420v1 )

ライセンス: Link先を確認
Chengxi Han, Chen Wu, Bo Du(参考訳) 超高分解能(VHR)リモートセンシング(RS)画像変化検出(CD)は、非常に豊富な空間情報とサンプルの不均衡問題において難しい課題である。 本稿では,変化検出のための階層的変化ガイドマップネットワーク(HCGMNet)を提案する。 このモデルでは階層的畳み込み操作を用いてマルチスケールの特徴を抽出し,多層的特徴層を連続的にマージしてグローバルおよびローカル情報の表現を改善するとともに,ガイドマップの変更を伴う自己注意型変更ガイドモジュール(CGM)により,エッジ特徴と包括的性能を徐々に洗練させる。 2つのCDデータセットに対する大規模な実験により、提案したHCGMNetアーキテクチャは既存のSOTA(State-of-the-art)CD手法よりも優れたCD性能を実現することが示された。

Very-high-resolution (VHR) remote sensing (RS) image change detection (CD) has been a challenging task for its very rich spatial information and sample imbalance problem. In this paper, we have proposed a hierarchical change guiding map network (HCGMNet) for change detection. The model uses hierarchical convolution operations to extract multiscale features, continuously merges multi-scale features layer by layer to improve the expression of global and local information, and guides the model to gradually refine edge features and comprehensive performance by a change guide module (CGM), which is a self-attention with changing guide map. Extensive experiments on two CD datasets show that the proposed HCGMNet architecture achieves better CD performance than existing state-of-the-art (SOTA) CD methods.
翻訳日:2023-02-22 16:34:13 公開日:2023-02-21
# mac-po:集団優先最適化によるマルチエージェント体験リプレイ

MAC-PO: Multi-Agent Experience Replay via Collective Priority Optimization ( http://arxiv.org/abs/2302.10418v1 )

ライセンス: Link先を確認
Yongsheng Mei, Hanhan Zhou, Tian Lan, Guru Venkataramani, Peng Wei(参考訳) 経験的リプレイは、非政治強化学習(RL)手法に不可欠である。 過去の異なるポリシーの経験を記憶し再利用することによって、経験の再生はRLアルゴリズムのトレーニング効率と安定性を大幅に改善する。 多くの意思決定問題は自然に複数のエージェントを伴い、集中的な訓練分散実行パラダイムの下でマルチエージェント強化学習(MARL)を必要とする。 それにもかかわらず、既存のmarlアルゴリズムは、その重要性に関係なく遷移を均一にサンプリングする標準的な経験リプレイを採用することが多い。 MARL体験再生に最適化された優先サンプリング重量の発見はまだ検討されていない。 そこで本稿では,遷移のサンプリング重みに対する後悔の最小化として,複数エージェント問題に対する最適優先体験再生を定式化する。 このような最適化はラグランジュ乗算法を用いて緩和・解き、近接形式の最適サンプリング重みを得る。 結果として得られた政策の後悔を最小限に抑えることで、現在の政策と明確な最適政策のギャップを狭め、マルチエージェントタスクの優先順位付けを改善できる。 プレデター・プレイおよびスタークラフト・マルチエージェント・チャレンジ環境における実験結果は,本手法の有効性を示し,重要なトランジションを再生し,他の最先端ベースラインを上回った。

Experience replay is crucial for off-policy reinforcement learning (RL) methods. By remembering and reusing the experiences from past different policies, experience replay significantly improves the training efficiency and stability of RL algorithms. Many decision-making problems in practice naturally involve multiple agents and require multi-agent reinforcement learning (MARL) under centralized training decentralized execution paradigm. Nevertheless, existing MARL algorithms often adopt standard experience replay where the transitions are uniformly sampled regardless of their importance. Finding prioritized sampling weights that are optimized for MARL experience replay has yet to be explored. To this end, we propose \name, which formulates optimal prioritized experience replay for multi-agent problems as a regret minimization over the sampling weights of transitions. Such optimization is relaxed and solved using the Lagrangian multiplier approach to obtain the close-form optimal sampling weights. By minimizing the resulting policy regret, we can narrow the gap between the current policy and a nominal optimal policy, thus acquiring an improved prioritization scheme for multi-agent tasks. Our experimental results on Predator-Prey and StarCraft Multi-Agent Challenge environments demonstrate the effectiveness of our method, having a better ability to replay important transitions and outperforming other state-of-the-art baselines.
翻訳日:2023-02-22 16:33:59 公開日:2023-02-21
# FedSDG-FS:垂直的フェデレーション学習のための効率的かつセキュアな特徴選択

FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated Learning ( http://arxiv.org/abs/2302.10417v1 )

ライセンス: Link先を確認
Anran Li, Hongyi Peng, Lan Zhang, Jiahui Huang, Qing Guo, Han Yu, Yang Liu(参考訳) 垂直フェデレーション学習(vertical federated learning, vfl)は,複数のデータオーナが,重複するデータサンプルセットに関するさまざまな機能のサブセットを保持して,有用なグローバルモデルを共同でトレーニング可能にする。 特徴選択(FS)はVFLにとって重要である。 VFL用に設計された既存のFSは、ノイズの多い特徴の数に関する事前知識や、選択すべき有用な特徴の訓練後のしきい値に関する事前知識を前提としており、実用的な用途には適さない。 このギャップを埋めるために,FedSDG-FS (Federated Stochastic Dual-Gate based Feature Selection) アプローチを提案する。 ガウスの確率的双対ゲートからなり、信頼できる第三者がいない部分的準同型暗号によるプライバシー保護により、選択される特徴の確率を効率的に近似する。 オーバヘッドを低減するため,サーバとクライアント間の2つのパラメータ送信のみでゴールを達成できる,Gini不純物に基づく特徴重要初期化手法を提案する。 合成と実世界の両方のデータセットに対する大規模な実験により、FedSDG-FSは、高品質な特徴の正確な選択を達成するだけでなく、パフォーマンスを改善したグローバルモデルを構築するという点で、既存のアプローチよりも大幅に優れていた。

Vertical Federated Learning (VFL) enables multiple data owners, each holding a different subset of features about largely overlapping sets of data sample(s), to jointly train a useful global model. Feature selection (FS) is important to VFL. It is still an open research problem as existing FS works designed for VFL either assumes prior knowledge on the number of noisy features or prior knowledge on the post-training threshold of useful features to be selected, making them unsuitable for practical applications. To bridge this gap, we propose the Federated Stochastic Dual-Gate based Feature Selection (FedSDG-FS) approach. It consists of a Gaussian stochastic dual-gate to efficiently approximate the probability of a feature being selected, with privacy protection through Partially Homomorphic Encryption without a trusted third-party. To reduce overhead, we propose a feature importance initialization method based on Gini impurity, which can accomplish its goals with only two parameter transmissions between the server and the clients. Extensive experiments on both synthetic and real-world datasets show that FedSDG-FS significantly outperforms existing approaches in terms of achieving accurate selection of high-quality features as well as building global models with improved performance.
翻訳日:2023-02-22 16:33:37 公開日:2023-02-21
# Dual Prior Modulation Networkによるシーンテキストの超解像化

Improving Scene Text Image Super-Resolution via Dual Prior Modulation Network ( http://arxiv.org/abs/2302.10414v1 )

ライセンス: Link先を確認
Shipeng Zhu, Zuoyan Zhao, Pengfei Fang, Hui Xue(参考訳) Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としており、結果として得られる画像は下流タスクのパフォーマンスに大きな影響を与える。 多くの進展があったが、既存のアプローチでは、(1)シーンテキストの意味的決定性の境界であるテキストのグローバルな構造を無視している。 2)事前学習されたテキスト認識者から、既存の作品で使用されるテキスト先行やストローク先行などの先行語を抽出する。 とはいえ、このような優先順位は解像度の低さや撮像条件の悪さによるぼやけなど、ドメインのギャップに苦しむため、誤ったガイダンスにつながる。 本稿では,これらのギャップに対処し,dual prior modulation network (dpmn) と呼ばれるプラグイン・アンド・プレイモジュールを提案する。 具体的には,前層からの低画質sr画像のテキストマスクや図形認識結果を用いて,テキストの構造的明快さと意味的正確さを向上させるための2種類の事前調整モジュールを設計した。 したがって、以下の注意機構は、2つの品質向上した画像を変調し、優れたSR結果を得る。 広範な実験により,提案手法が画質を向上し,ベンチマークの典型的な5つのアプローチでダウンストリームタスクのパフォーマンスを向上できることが確認された。 実体的可視化とアブレーション研究は提案されたDPMNの利点を示している。 コードはhttps://github.com/jdfxzzy/dpmn。

Scene text image super-resolution (STISR) aims to simultaneously increase the resolution and legibility of the text images, and the resulting images will significantly affect the performance of downstream tasks. Although numerous progress has been made, existing approaches raise two crucial issues: (1) They neglect the global structure of the text, which bounds the semantic determinism of the scene text. (2) The priors, e.g., text prior or stroke prior, employed in existing works, are extracted from pre-trained text recognizers. That said, such priors suffer from the domain gap including low resolution and blurriness caused by poor imaging conditions, leading to incorrect guidance. Our work addresses these gaps and proposes a plug-and-play module dubbed Dual Prior Modulation Network (DPMN), which leverages dual image-level priors to bring performance gain over existing approaches. Specifically, two types of prior-guided refinement modules, each using the text mask or graphic recognition result of the low-quality SR image from the preceding layer, are designed to improve the structural clarity and semantic accuracy of the text, respectively. The following attention mechanism hence modulates two quality-enhanced images to attain a superior SR result. Extensive experiments validate that our method improves the image quality and boosts the performance of downstream tasks over five typical approaches on the benchmark. Substantial visualizations and ablation studies demonstrate the advantages of the proposed DPMN. Code is available at: https://github.com/jdfxzzy/DPMN.
翻訳日:2023-02-22 16:33:11 公開日:2023-02-21
# CADIS:クラスタ化集約と知識分散正規化によるフェデレーション学習におけるクラスタスキュー非IIDデータの扱い

CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with Clustered Aggregation and Knowledge DIStilled Regularization ( http://arxiv.org/abs/2302.10413v1 )

ライセンス: Link先を確認
Nang Hung Nguyen, Duc Long Nguyen, Trong Bang Nguyen, Thanh-Hung Nguyen, Huy Hieu Pham, Truong Thao Nguyen, Phi Le Nguyen(参考訳) フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。 コンピューティング効率とプライバシ保護において卓越した優位性を実現したにもかかわらず、フェデレーション学習は、非iidデータ、すなわち、通常独立で分散していないクライアントによって生成されるデータを扱う場合、大きな課題に直面している。 本稿では,クラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに対処する。 クラスタスキュード非IIDは、クライアントが同様のデータ分散を持つクラスタにグループ化できる現象である。 分類モデルのペナルティファイト層の挙動を詳細に分析することにより、プライバシに違反することなく、2つのクライアントのデータ分散間の類似性を定量化するメトリクスを導入する。 次に,クラスタ間の平等性を保証する集約スキームを提案する。 さらに,クライアントの過度な適合問題を減らし,トレーニングスキームの性能を劇的に向上させる知識蒸留技術に基づく,新たなローカルトレーニングレギュラー化を提供する。 ベンチマークfedavgよりも,提案手法が優れていることを理論的に証明する。 標準パブリックデータセットと実世界データセットの両方の広範な実験結果から,fedavgアルゴリズムと比較して,提案手法が精度を最大16%向上することが示された。

Federated learning enables edge devices to train a global model collaboratively without exposing their data. Despite achieving outstanding advantages in computing efficiency and privacy protection, federated learning faces a significant challenge when dealing with non-IID data, i.e., data generated by clients that are typically not independent and identically distributed. In this paper, we tackle a new type of Non-IID data, called cluster-skewed non-IID, discovered in actual data sets. The cluster-skewed non-IID is a phenomenon in which clients can be grouped into clusters with similar data distributions. By performing an in-depth analysis of the behavior of a classification model's penultimate layer, we introduce a metric that quantifies the similarity between two clients' data distributions without violating their privacy. We then propose an aggregation scheme that guarantees equality between clusters. In addition, we offer a novel local training regularization based on the knowledge-distillation technique that reduces the overfitting problem at clients and dramatically boosts the training scheme's performance. We theoretically prove the superiority of the proposed aggregation over the benchmark FedAvg. Extensive experimental results on both standard public datasets and our in-house real-world dataset demonstrate that the proposed approach improves accuracy by up to 16% compared to the FedAvg algorithm.
翻訳日:2023-02-22 16:32:46 公開日:2023-02-21
# 医用画像分割のための非プールネットワーク

Non-pooling Network for medical image segmentation ( http://arxiv.org/abs/2302.10412v1 )

ライセンス: Link先を確認
Weihu Song, Heng Yu(参考訳) 既存の研究では、オンモデル修正と高い精度の統合に注目する傾向があり、パフォーマンスは向上するが、膨大な計算コストがかかるため、検出時間が長くなる。 医用画像では、時間の使用は極めて敏感である。 現在、ほとんどのセマンティックセグメンテーションモデルはエンコーダ・デコーダ構造または二重分岐構造を持っている。 高レベルのセマンティック情報抽出操作によるプール使用の何回かは、プール操作の情報損失を回復するために、リバースプールやその他の類似した動作を交互に行うが、情報損失を引き起こす。 さらに,視覚的注意機構は,様々なタスクにおいて優れた性能を示す。 そこで本稿では,非プーリングネットワーク(NPNet)を提案する。非プーリングは情報損失を低減し,アテンション強化 m o d u l e ( A M ) は有用な情報の重みを効果的に増大させる。 この手法は、浅層ニューラルネットワーク構造によるパラメータ数と計算コストを大幅に削減する。 NPNetのセマンティックセマンティックセマンティックセグメンテーションモデルを,w i t h の複数の現状状態(SOTA)モデルと比較したベンチマークデータセットで評価し,その実装結果から精度と速度のバランスが良好であることを示す。

Existing studies tend tofocus onmodel modifications and integration with higher accuracy, which improve performance but also carry huge computational costs, resulting in longer detection times. Inmedical imaging, the use of time is extremely sensitive. And at present most of the semantic segmentation models have encoder-decoder structure or double branch structure. Their several times of the pooling use with high-level semantic information extraction operation cause information loss although there si a reverse pooling or other similar action to restore information loss of pooling operation. In addition, we notice that visual attention mechanism has superior performance on a variety of tasks. Given this, this paper proposes non-pooling network(NPNet), non-pooling commendably reduces the loss of information and attention enhancement m o d u l e ( A M ) effectively increases the weight of useful information. The method greatly reduces the number of parametersand computation costs by the shallow neural network structure. We evaluate the semantic segmentation model of our NPNet on three benchmark datasets comparing w i t h multiple current state-of-the-art(SOTA) models, and the implementation results show thatour NPNetachieves SOTA performance, with an excellent balance between accuracyand speed.
翻訳日:2023-02-22 16:32:23 公開日:2023-02-21
# 軌道予測と追跡によるオンラインlqr制御の後悔分析:拡張版

Regret Analysis of Online LQR Control via Trajectory Prediction and Tracking: Extended Version ( http://arxiv.org/abs/2302.10411v1 )

ライセンス: Link先を確認
Yitian Chen, Timothy L. Molloy, Tyler Summers, Iman Shames(参考訳) 本稿では,事前未知の時間変動コスト行列を用いたオンライン線形二次レギュレータ(lqr)制御手法を提案し,解析する。 コスト行列は、将来の値が短いウィンドウでプレビューされる可能性と共に順次明らかにされる。 提案手法では,利用可能なコスト行列を用いて最適軌道を予測し,トラッキングコントローラを用いてその方向を追従する。 提案するオンラインlqr制御手法の性能を測定するために動的後悔(dynamic regret)の概念を採用した。 さらに、後悔の上界はプレビューウィンドウの長さで指数関数的に崩壊し、外乱のあるシステムに拡張可能である。 提案手法は従来のオンラインLQR法と比較して性能が向上していることを示す。

In this paper, we propose and analyze a new method for online linear quadratic regulator (LQR) control with a priori unknown time-varying cost matrices. The cost matrices are revealed sequentially with the potential for future values to be previewed over a short window. Our novel method involves using the available cost matrices to predict the optimal trajectory, and a tracking controller to drive the system towards it. We adopted the notion of dynamic regret to measure the performance of this proposed online LQR control method, with our main result being that the (dynamic) regret of our method is upper bounded by a constant. Moreover, the regret upper bound decays exponentially with the preview window length, and is extendable to systems with disturbances. We show in simulations that our proposed method offers improved performance compared to other previously proposed online LQR methods.
翻訳日:2023-02-22 16:31:59 公開日:2023-02-21
# 連続pomdpに対するボロノイ木を用いた適応的離散化

Adaptive Discretization using Voronoi Trees for Continuous POMDPs ( http://arxiv.org/abs/2302.10439v1 )

ライセンス: Link先を確認
Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye(参考訳) 連続的部分可観測マルコフ決定過程(pomdps)の解決は、特に高次元連続作用空間において困難である。 この問題を緩和するために,Voronoi Trees (ADVT) を用いた適応離散化法 (Adaptive Discretization) と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。 モンテカルロ木探索と適応的離散化を併用し、楽観的な最適化を行い、高次元連続的な作用空間を効率的にサンプリングし、最適な作用を計算する。 具体的には,セルからサンプリングされた2点のボロノイ図としてセルの分割を暗黙的に維持する二元空間分割であるボロノイ木(voronoi tree)と呼ばれる階層的分割を用いて,各サンプル信念に対するアクション空間を適応的に判別する。 ADVTは、推定されたセルの直径を用いて、セル内の作用値関数に束縛された上部信頼を形成し、モンテカルロ木探索を誘導し、さらに作用空間の離散化を行う。 これにより、ADVTはアクション値関数に関するローカル情報をよりうまく活用することができ、既存の解法と比較してアクション空間で最も有望な領域を素早く識別することができる。 ボロノイの木は、空間をよく覆うために多くのサンプル点が必要となる高次元空間においても、各セルの直径を分割して見積もるコストを保っている。 ADVTは、観察の進行的拡大戦略と、信念の重み付けされた粒子表現を採用することで、連続的な観測空間も扱う。 実験結果から,ADVTは最先端の手法に比べて高次元連続的な動作空間よりも大幅にスケールすることがわかった。

Solving continuous Partially Observable Markov Decision Processes (POMDPs) is challenging, particularly for high-dimensional continuous action spaces. To alleviate this difficulty, we propose a new sampling-based online POMDP solver, called Adaptive Discretization using Voronoi Trees (ADVT). It uses Monte Carlo Tree Search in combination with an adaptive discretization of the action space as well as optimistic optimization to efficiently sample high-dimensional continuous action spaces and compute the best action to perform. Specifically, we adaptively discretize the action space for each sampled belief using a hierarchical partition called Voronoi tree, which is a Binary Space Partitioning that implicitly maintains the partition of a cell as the Voronoi diagram of two points sampled from the cell. ADVT uses the estimated diameters of the cells to form an upper-confidence bound on the action value function within the cell, guiding the Monte Carlo Tree Search expansion and further discretization of the action space. This enables ADVT to better exploit local information with respect to the action value function, allowing faster identification of the most promising regions in the action space, compared to existing solvers. Voronoi trees keep the cost of partitioning and estimating the diameter of each cell low, even in high-dimensional spaces where many sampled points are required to cover the space well. ADVT additionally handles continuous observation spaces, by adopting an observation progressive widening strategy, along with a weighted particle representation of beliefs. Experimental results indicate that ADVT scales substantially better to high-dimensional continuous action spaces, compared to state-of-the-art methods.
翻訳日:2023-02-22 16:26:14 公開日:2023-02-21
# 顔偽造検出のための2-in-one知識蒸留法

Two-in-one Knowledge Distillation for Efficient Facial Forgery Detection ( http://arxiv.org/abs/2302.10437v1 )

ライセンス: Link先を確認
Chuyang Zhou, Jiajun Huang, Daochang Liu, Chengbin Du, Siqi Ma, Surya Nepal, Chang Xu(参考訳) 顔の偽造検出は重要だが極めて困難な話題であり、偽造技術の急速な発展により人工工芸品の識別が困難になっている。 先行研究は,空間情報と周波数情報の両方をマイニングすることにより,深層学習モデルの偽検出性能を大幅に向上できることを示した。 しかし、複数のタイプの情報を活用するには、通常、ニューラルネットワークの複数のブランチが必要になるため、モデルは重く扱いにくい。 効率的なモデリングのための重要な技術として、知識蒸留が考えられる。 既存の知識蒸留法では,二重分岐モデルから単分岐モデルへの蒸留が困難であることがわかった。 具体的には、空間枝と周波数枝の知識蒸留は、空間枝のみの蒸留よりも性能が低下した。 そこで,本研究では,異なる特徴プロジェクタと勾配均質化技術を用いて,大規模デュアルブランチネットワークからの情報を小さなシングルブランチネットワークに円滑に統合できる,新たな2対1の知識蒸留フレームワークを提案する。 FaceForensics++とCeleb-DFの2つのデータセットを実験的に分析した結果,提案手法は顔の偽造検出に優れ,パラメータがはるかに少ない。

Facial forgery detection is a crucial but extremely challenging topic, with the fast development of forgery techniques making the synthetic artefact highly indistinguishable. Prior works show that by mining both spatial and frequency information the forgery detection performance of deep learning models can be vastly improved. However, leveraging multiple types of information usually requires more than one branch in the neural network, which makes the model heavy and cumbersome. Knowledge distillation, as an important technique for efficient modelling, could be a possible remedy. We find that existing knowledge distillation methods have difficulties distilling a dual-branch model into a single-branch model. More specifically, knowledge distillation on both the spatial and frequency branches has degraded performance than distillation only on the spatial branch. To handle such problem, we propose a novel two-in-one knowledge distillation framework which can smoothly merge the information from a large dual-branch network into a small single-branch network, with the help of different dedicated feature projectors and the gradient homogenization technique. Experimental analysis on two datasets, FaceForensics++ and Celeb-DF, shows that our proposed framework achieves superior performance for facial forgery detection with much fewer parameters.
翻訳日:2023-02-22 16:25:44 公開日:2023-02-21
# トラップイオンによる干渉フェルミオンの誤り緩和量子シミュレーション

Error-Mitigated Quantum Simulation of Interacting Fermions with Trapped Ions ( http://arxiv.org/abs/2302.10436v1 )

ライセンス: Link先を確認
Wentao Chen, Shuaining Zhang, Jialiang Zhang, Xiaolu Su, Yao Lu, Kuan Zhang, Mu Qiao, Ying Li, Jing-Ning Zhang, and Kihwan Kim(参考訳) 量子誤差の軽減は、ノイズ-中間スケール-量子(nisq)計算における量子回路の精度を向上させるために広く研究されてきた。 様々なエラー軽減スキームの中で、確率的エラーキャンセル(PEC)は、多数のハードウェアプラットフォームや量子アルゴリズムに適用可能な汎用的で体系的なプロトコルとして提案されている。 しかし、pecはスパース誤差モデルを学習して、2量子系と超伝導マルチ量子系でしかテストされていない。 ここでは,最大4個のイオン量子ビットを用いてPECをベンチマークする。 ベンチマークでは、複数のトロッターステップを適用することで、スピンの有無に関わらず相互作用するフェルミオンのダイナミクスをシミュレートする。 誤差モデルをトモグラフィ的に再構成し、正の確率や対称性の制約といった他の緩和法を取り入れることで、シミュレーションの忠実性を高め、電荷とフェルミオンのスピンの異なる挙動を含むフェルミ・ハバードモデルのダイナミクスを忠実に観察することができる。 本実験は,系統的誤り緩和スキームを実用的量子効果へと拡張する上で不可欠なステップである。

Quantum error mitigation has been extensively explored to increase the accuracy of the quantum circuits in noisy-intermediate-scale-quantum (NISQ) computation, where quantum error correction requiring additional quantum resources is not adopted. Among various error-mitigation schemes, probabilistic error cancellation (PEC) has been proposed as a general and systematic protocol that can be applied to numerous hardware platforms and quantum algorithms. However, PEC has only been tested in two-qubit systems and a superconducting multi-qubit system by learning a sparse error model. Here, we benchmark PEC using up to four trapped-ion qubits. For the benchmark, we simulate the dynamics of interacting fermions with or without spins by applying multiple Trotter steps. By tomographically reconstructing the error model and incorporating other mitigation methods such as positive probability and symmetry constraints, we are able to increase the fidelity of simulation and faithfully observe the dynamics of the Fermi-Hubbard model, including the different behavior of charge and spin of fermions. Our demonstrations can be an essential step for further extending systematic error-mitigation schemes toward practical quantum advantages.
翻訳日:2023-02-22 16:25:25 公開日:2023-02-21
# カーネルベース分散q-learning:動的治療体制のためのスケーラブル強化学習手法

Kernel-Based Distributed Q-Learning: A Scalable Reinforcement Learning Approach for Dynamic Treatment Regimes ( http://arxiv.org/abs/2302.10434v1 )

ライセンス: Link先を確認
Di Wang, Yao Wang, Shaojie Tang, Shao-Bo Lin(参考訳) 近年, がん, 糖尿病, 精神疾患などの慢性疾患に関する電子的健康記録が大量に収集され, 診断が容易になっている。 慢性疾患に関連するERHの動的特性のモデリングは、逐次決定規則のセットである動的治療規則(DTR)を用いて効率的に行うことができる。 強化学習(Reinforcement Learning, RL)はDTRの作成に広く用いられている手法であるが, 大量のデータを効果的に扱えるRLアルゴリズムの開発が進行中である。 本稿では,DTRを生成するための分散Q-ラーニングアルゴリズムを提案する。 我々の研究の新規性は以下の通りである。 1) 方法論的観点から,分散学習とQ-ラーニングを組み合わせることで,DTRを生成する新しい,スケーラブルなアプローチを提案する。 提案手法は、大量のデータを処理し、効果的にDTRを生成するように設計されている。 2)理論的な観点から,統計的学習理論の枠組みの中で導出される分散Q-ラーニングアルゴリズムに対して,一般化誤差境界を提供する。 これらの境界はサンプルサイズ、予測精度、計算負荷の関係を定量化し、アルゴリズムの性能に関する洞察を与える。 3) 本研究は, DTRに対する分散Q-ラーニングアルゴリズムの有効性を臨床的癌治療に適用することにより実証する。 その結果,本アルゴリズムは従来の線形q-learningと,予測精度と計算コストの両面で深層q-learningの両方に勝ることがわかった。

In recent years, large amounts of electronic health records (EHRs) concerning chronic diseases, such as cancer, diabetes, and mental disease, have been collected to facilitate medical diagnosis. Modeling the dynamic properties of EHRs related to chronic diseases can be efficiently done using dynamic treatment regimes (DTRs), which are a set of sequential decision rules. While Reinforcement learning (RL) is a widely used method for creating DTRs, there is ongoing research in developing RL algorithms that can effectively handle large amounts of data. In this paper, we present a novel approach, a distributed Q-learning algorithm, for generating DTRs. The novelties of our research are as follows: 1) From a methodological perspective, we present a novel and scalable approach for generating DTRs by combining distributed learning with Q-learning. The proposed approach is specifically designed to handle large amounts of data and effectively generate DTRs. 2) From a theoretical standpoint, we provide generalization error bounds for the proposed distributed Q-learning algorithm, which are derived within the framework of statistical learning theory. These bounds quantify the relationships between sample size, prediction accuracy, and computational burden, providing insights into the performance of the algorithm. 3) From an applied perspective, we demonstrate the effectiveness of our proposed distributed Q-learning algorithm for DTRs by applying it to clinical cancer treatments. The results show that our algorithm outperforms both traditional linear Q-learning and commonly used deep Q-learning in terms of both prediction accuracy and computation cost.
翻訳日:2023-02-22 16:25:07 公開日:2023-02-21
# ロボットシステムの離散対称性について:群理論とデータ駆動解析

On discrete symmetries of robotics systems: A group-theoretic and data-driven analysis ( http://arxiv.org/abs/2302.10433v1 )

ライセンス: Link先を確認
Daniel Ordonez-Apraez, Mario Martin, Antonio Agudo and Francesc Moreno-Noguer(参考訳) 本研究では,動物生物学やロボットシステムにおいて重要な特徴である力学系の離散的形態学対称性について検討し,身体の重複とバランスの取れた分布を記述する対称性の平面が1つ以上の場合について述べる。 これらの形態的対称性は、系の力学が対称(あるいは概対称)であることを示唆し、最適制御ポリシーや系の力学の進化に関連するすべての受容的・外受容的測定に対称性を印字する。 データ駆動手法では、対称性はデータの強化と対称関数近似の構成を正当化する帰納的バイアスを表す。 To this end, we use group theory to present a theoretical and practical framework allowing for (1) the identification of the system's morphological symmetry group $\G$, (2) data-augmentation of proprioceptive and exteroceptive measurements, and (3) the exploitation of data symmetries through the use of $\G$-equivariant/invariant neural networks, for which we present experimental results on synthetic and real-world applications, demonstrating how symmetry constraints lead to better sample efficiency and generalization while reducing the number of trainable parameters.

In this work, we study discrete morphological symmetries of dynamical systems, a predominant feature in animal biology and robotic systems, expressed when the system's morphology has one or more planes of symmetry describing the duplication and balanced distribution of body parts. These morphological symmetries imply that the system's dynamics are symmetric (or approximately symmetric), which in turn imprints symmetries in optimal control policies and in all proprioceptive and exteroceptive measurements related to the evolution of the system's dynamics. For data-driven methods, symmetry represents an inductive bias that justifies data augmentation and the construction of symmetric function approximators. To this end, we use group theory to present a theoretical and practical framework allowing for (1) the identification of the system's morphological symmetry group $\G$, (2) data-augmentation of proprioceptive and exteroceptive measurements, and (3) the exploitation of data symmetries through the use of $\G$-equivariant/invariant neural networks, for which we present experimental results on synthetic and real-world applications, demonstrating how symmetry constraints lead to better sample efficiency and generalization while reducing the number of trainable parameters.
翻訳日:2023-02-22 16:24:42 公開日:2023-02-21
# 潜在不均質グラフ上のリンク予測

Link Prediction on Latent Heterogeneous Graphs ( http://arxiv.org/abs/2302.10432v1 )

ライセンス: Link先を確認
Trung-Kien Nguyen, Zemin Liu, Yuan Fang(参考訳) グラフデータでは、複数のノードまたはエッジタイプが異種情報ネットワーク(hins)を生み出している。 HIN上の異種意味を保存するために、リッチノード/エッジ型はHIN表現学習の基盤となる。 しかし、現実のシナリオでは、型情報はしばしばノイズ、欠落、アクセス不能である。 型情報は与えられていないと仮定すると、ノード/エッジ型が観察できないため、潜在異種セマンティクスを運ぶいわゆる潜在異種グラフ(lhg)を定義する。 本稿では,LHG上でのリンク予測の課題と未探索の問題について検討する。 既存のアプローチは型ベースの情報に大きく依存しているため、LHGに最適化されるか、適用できない。 タイプ情報の欠如に対処するため,ノードとパスレベルにおけるセマンティック埋め込みという新しいアイデアに基づいてLHGNNというモデルを提案し,ノード間の潜在セマンティックスをキャプチャする。 さらに,対象ノードの潜在意味性w.r.tに基づく不均質な文脈を変調し,粒度の細かい集約を可能にするパーソナライズ機能の設計を行った。 最後に、4つのベンチマークデータセットについて広範な実験を行い、LHGNNの優れた性能を示す。

On graph data, the multitude of node or edge types gives rise to heterogeneous information networks (HINs). To preserve the heterogeneous semantics on HINs, the rich node/edge types become a cornerstone of HIN representation learning. However, in real-world scenarios, type information is often noisy, missing or inaccessible. Assuming no type information is given, we define a so-called latent heterogeneous graph (LHG), which carries latent heterogeneous semantics as the node/edge types cannot be observed. In this paper, we study the challenging and unexplored problem of link prediction on an LHG. As existing approaches depend heavily on type-based information, they are suboptimal or even inapplicable on LHGs. To address the absence of type information, we propose a model named LHGNN, based on the novel idea of semantic embedding at node and path levels, to capture latent semantics on and between nodes. We further design a personalization function to modulate the heterogeneous contexts conditioned on their latent semantics w.r.t. the target node, to enable finer-grained aggregation. Finally, we conduct extensive experiments on four benchmark datasets, and demonstrate the superior performance of LHGNN.
翻訳日:2023-02-22 16:24:25 公開日:2023-02-21
# インターバル型2ファジィニューラルネットワークによるマルチラベル分類

Interval Type-2 Fuzzy Neural Networks for Multi-Label Classification ( http://arxiv.org/abs/2302.10430v1 )

ライセンス: Link先を確認
Dayong Tian and Feifei Li and Yiwen Wei(参考訳) 多次元ラベルの予測は機械学習問題において重要な役割を果たす。 古典的なバイナリラベルは、インスタンス内のコンテンツとその関係を反映できないことが分かりました。 そこで本研究では,間隔型2ファジィ論理に基づくマルチラベル分類モデルを提案する。 提案モデルでは,ディープニューラルネットワークを用いてインスタンスのタイプ1ファジィメンバシップを予測し,また,そのメンバシップのファジィメンバシップを予測し,インターバルタイプ2ファジィメンバシップを生成する。 また,データセット内のバイナリラベルと,モデルが生成する間隔2型ファジィメンバシップの類似度を測定するための損失関数を提案する。 実験により,本手法がマルチラベル分類ベンチマークのベースラインより優れていることを確認した。

Prediction of multi-dimensional labels plays an important role in machine learning problems. We found that the classical binary labels could not reflect the contents and their relationships in an instance. Hence, we propose a multi-label classification model based on interval type-2 fuzzy logic. In the proposed model, we use a deep neural network to predict the type-1 fuzzy membership of an instance and another one to predict the fuzzifiers of the membership to generate interval type-2 fuzzy memberships. We also propose a loss function to measure the similarities between binary labels in datasets and interval type-2 fuzzy memberships generated by our model. The experiments validate that our approach outperforms baselines on multi-label classification benchmarks.
翻訳日:2023-02-22 16:24:03 公開日:2023-02-21
# FedSpeed: ローカルインターバルの拡大、コミュニケーションラウンドの削減、一般化の精度向上

FedSpeed: Larger Local Interval, Less Communication Round, and Higher Generalization Accuracy ( http://arxiv.org/abs/2302.10429v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Tiansheng Huang, Liang Ding, Dacheng Tao(参考訳) Federated Learningは、データプライバシ保護を備えた多数のローカルデバイスを通じて、グローバルモデルを共同でトレーニングする、新興の分散機械学習フレームワークである。 その性能は、局所的不整合最適と局所的過度適合による頑丈なクライアントドリフトによってもたらされる非消滅バイアスに悩まされる。 本稿では,これらの問題によって生じる負の影響を緩和する,新しい実用的な手法であるフェデスピードを提案する。 具体的には、FedSpeedが現在のローカルアップデートにprox-correction項を適用して、prox-termによって導入されたバイアスを効率的に削減する。 さらに、フェデスピードは、近傍の余分な勾配上昇ステップから計算された摂動とバニラ確率勾配とを融合し、局所的な過剰フィッティングの問題を軽減する。 我々の理論的解析は、収束速度が通信ラウンド$T$と局所区間$K$の双方に関係していることを示し、適切な局所区間を設定する場合、上限$\small \mathcal{O}(1/T)$である。 さらに,本提案手法の有効性を実証するために,実世界のデータセットを広範囲に実験し,fedavg,feedprox,feedcm,feedadam,s bed,feeddyn,feedadmmなどのベースラインと比較して,一般的なfl実験環境での最先端(sota)性能を実現する。

Federated learning is an emerging distributed machine learning framework which jointly trains a global model via a large number of local devices with data privacy protections. Its performance suffers from the non-vanishing biases introduced by the local inconsistent optimal and the rugged client-drifts by the local over-fitting. In this paper, we propose a novel and practical method, FedSpeed, to alleviate the negative impacts posed by these problems. Concretely, FedSpeed applies the prox-correction term on the current local updates to efficiently reduce the biases introduced by the prox-term, a necessary regularizer to maintain the strong local consistency. Furthermore, FedSpeed merges the vanilla stochastic gradient with a perturbation computed from an extra gradient ascent step in the neighborhood, thereby alleviating the issue of local over-fitting. Our theoretical analysis indicates that the convergence rate is related to both the communication rounds $T$ and local intervals $K$ with a upper bound $\small \mathcal{O}(1/T)$ if setting a proper local interval. Moreover, we conduct extensive experiments on the real-world dataset to demonstrate the efficiency of our proposed FedSpeed, which performs significantly faster and achieves the state-of-the-art (SOTA) performance on the general FL experimental settings than several baselines including FedAvg, FedProx, FedCM, FedAdam, SCAFFOLD, FedDyn, FedADMM, etc.
翻訳日:2023-02-22 16:23:52 公開日:2023-02-21
# 交通予測のための動的時間自己注意グラフ畳み込みネットワーク

A Dynamic Temporal Self-attention Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2302.10428v1 )

ライセンス: Link先を確認
Ruiyuan Jiang, Shangbo Wang, Yuli Zhang(参考訳) 知的交通システム(ITS)や旅行案内において,リアルタイムの正確な交通予測が重要な役割を担っている。 時間グラフ畳み込みネットワーク(T-GCN)モデルや畳み込み長短期記憶(Conv-LSTM)モデルなど,交通情報の空間的および時間的依存性を考慮した短期的交通状況の予測の試みが数多く行われている。 しかし、既存のほとんどの手法では、0と1からなる単純な隣接行列を用いて、都市道路網のトポロジ構造や時間変化の法則を正確に記述できない空間依存を捉えている。 本稿では,隣接行列を学習可能な注意スコア行列として考慮し,ネットワークパラメータを異なる入力に適応させる,動的時間的自己アテンショングラフ畳み込みネットワーク(dt-sgn)モデルを提案する。 特に、空間依存を捉えるために自己注意グラフ畳み込みネットワーク(SGN)を選択し、動的ゲート再帰ユニット(Dynamic-GRU)を選択して時間依存を捉え、入力データの動的変化を学習する。 実世界のトラヒックデータセットにおける最先端モデル駆動モデルおよびデータ駆動モデルよりも優れていることを示す実験を行った。

Accurate traffic prediction in real time plays an important role in Intelligent Transportation System (ITS) and travel navigation guidance. There have been many attempts to predict short-term traffic status which consider the spatial and temporal dependencies of traffic information such as temporal graph convolutional network (T-GCN) model and convolutional long short-term memory (Conv-LSTM) model. However, most existing methods use simple adjacent matrix consisting of 0 and 1 to capture the spatial dependence which can not meticulously describe the urban road network topological structure and the law of dynamic change with time. In order to tackle the problem, this paper proposes a dynamic temporal self-attention graph convolutional network (DT-SGN) model which considers the adjacent matrix as a trainable attention score matrix and adapts network parameters to different inputs. Specially, self-attention graph convolutional network (SGN) is chosen to capture the spatial dependence and the dynamic gated recurrent unit (Dynamic-GRU) is chosen to capture temporal dependence and learn dynamic changes of input data. Experiments demonstrate the superiority of our method over state-of-art model-driven model and data-driven models on real-world traffic datasets.
翻訳日:2023-02-22 16:23:22 公開日:2023-02-21
# 量子コヒーレント冷却による局所最小化

Escaping Local Minima with Quantum Coherent Cooling ( http://arxiv.org/abs/2302.10427v1 )

ライセンス: Link先を確認
Jia-Jin Feng, Biao Wu(参考訳) コスト関数のグローバル最小値を求める際に,古典的アルゴリズムの限界を克服する手法を提案する。 これらのアルゴリズムは、しばしば局所的なミニマに閉じ込められる。 提案手法は量子コヒーレント冷却を利用して,コスト関数を表す符号化ハミルトン系におけるエネルギー障壁を通したコーディネートトンネルを容易にする。 これは、基底状態の量子コヒーレント浴をヒートシンクとしてシステムからエネルギーを吸収することで達成される。 提案手法は量子空洞を用いた回路量子電磁力学 (cqed) システムで実装可能である。 我々はスピングラス問題の解法において量子優位を示す数値的証拠を提供する。

We propose a scheme to overcome the limitations of classical algorithms in finding global minima of cost functions. These algorithms are often trapped in local minima. Our approach utilizes quantum coherent cooling to facilitate coordinative tunneling through energy barriers in the encoded Hamiltonian system that represents the cost function. This is achieved by using a quantum coherent bath in the ground state as a heat sink to absorb energy from the system. Our proposed scheme can be implemented in the circuit quantum electrodynamics (cQED) system using a quantum cavity. We provide numerical evidence demonstrating quantum advantage in solving spin glass problems.
翻訳日:2023-02-22 16:22:59 公開日:2023-02-21
# パルス量子ビットの挙動とフォワードネットワークへの応用について

On the Behaviour of Pulsed Qubits and their Application to Feed Forward Networks ( http://arxiv.org/abs/2302.10467v1 )

ライセンス: Link先を確認
Matheus Moraes Hammes and Antonio Robles-Kelly(参考訳) 過去20年間、機械学習と量子コンピューティングの組み合わせはますます関心を集めてきたが、今日まで量子コンピューティングハードウェアの限界は、機械学習のための複雑なマルチ量子ビット操作の使用をやや制限してきた。 本稿では,パルス量子ビット上で観測される量子状態確率の周期的性質を活かし,古典的パラメータを古典的ニューラルネットワークと同様の方法で使用可能にする単一量子ビットフィードフォワードブロックを提案する。 これを実現するために、パルス励起量子ビットを変調し、ブロッホ球まわりの重ね合わせ回転を誘導する。 ここで提示されるアプローチは、1ブロックあたり1キュービットの利点がある。 したがって、ブロックの数に関して線形であり、他の方法の大多数とは対照的に、ニューロンの数に関する多項式ではない。 さらに、古典的パラメータを用いるため、コヒーレンス時間に費やすことなく、多数のイテレーションやトレーニング時の更新を行うことができ、必要に応じて勾配を再利用、保存することができる。 また,sine-squaredアクティベーション関数を用いてニューラルネットワークにアナロジーを描画する方法を示し,ここで提示したフィードフォワードブロックがパルス量子コンピュータ上でどのように使われ,実装されるかを示す。

In the last two decades, the combination of machine learning and quantum computing has been an ever-growing topic of interest but, to this date, the limitations of quantum computing hardware have somewhat restricted the use of complex multi-qubit operations for machine learning. In this paper, we capitalize on the cyclical nature of quantum state probabilities observed on pulsed qubits to propose a single-qubit feed forward block whose architecture allows for classical parameters to be used in a way similar to classical neural networks. To do this, we modulate the pulses exciting qubits to induce superimposed rotations around the Bloch Sphere. The approach presented here has the advantage of employing a single qubit per block. Thus, it is linear with respect to the number of blocks, not polynomial with respect to the number of neurons as opposed to the majority of methods elsewhere. Further, since it employs classical parameters, a large number of iterations and updates at training can be effected without dwelling on coherence times and the gradients can be reused and stored if necessary. We also show how an analogy can be drawn to neural networks using sine-squared activation functions and illustrate how the feed-forward block presented here may be used and implemented on pulse-enabled quantum computers.
翻訳日:2023-02-22 16:16:21 公開日:2023-02-21
# 屋外シーンのためのフレキシブルマルチビューマルチモーダルイメージングシステム

A Flexible Multi-view Multi-modal Imaging System for Outdoor Scenes ( http://arxiv.org/abs/2302.10465v1 )

ライセンス: Link先を確認
Meng Zhang, Wenxuan Guo, Bohao Fan, Yifan Chen, Jianjiang Feng and Jie Zhou(参考訳) マルチビューイメージングシステムは3次元空間の均一なカバレッジを可能にし、咬合の影響を低減し、3次元物体検出と追跡精度に有用である。 しかし、マルチビューカメラや奥行きセンサーを備えた既存の撮像システムは、小さなシーンと複雑な構成によって制限されている。 本稿では,マスタノードと複数のスレーブノードからなる大規模屋外シーンに適用可能な無線マルチビューマルチモーダル3Dイメージングシステムを提案する。 カメラとLiDARを備えた複数の空間分散スレーブノードを接続して無線センサネットワークを形成する。 柔軟性とスケーラビリティを提供しながら、正確な3次元マルチビューマルチモーダルデータを得るために、自動時空間キャリブレーション技術を適用している。 このシステムは、既存の3Dイメージングシステムのうち、大きな屋外シーンでミュートリビューRGBカメラとLiDARを統合する最初の撮像システムである。 本システムで収集した3次元画像データセットを用いて,ポイントクラウドに基づく3次元物体検出と長期追跡を行う。 実験の結果,多視点雲は複雑な屋外環境や様々な屋外環境に関わらず,3次元物体検出と追跡精度を大幅に向上することがわかった。

Multi-view imaging systems enable uniform coverage of 3D space and reduce the impact of occlusion, which is beneficial for 3D object detection and tracking accuracy. However, existing imaging systems built with multi-view cameras or depth sensors are limited by the small applicable scene and complicated composition. In this paper, we propose a wireless multi-view multi-modal 3D imaging system generally applicable to large outdoor scenes, which consists of a master node and several slave nodes. Multiple spatially distributed slave nodes equipped with cameras and LiDARs are connected to form a wireless sensor network. While providing flexibility and scalability, the system applies automatic spatio-temporal calibration techniques to obtain accurate 3D multi-view multi-modal data. This system is the first imaging system that integrates mutli-view RGB cameras and LiDARs in large outdoor scenes among existing 3D imaging systems. We perform point clouds based 3D object detection and long-term tracking using the 3D imaging dataset collected by this system. The experimental results show that multi-view point clouds greatly improve 3D object detection and tracking accuracy regardless of complex and various outdoor environments.
翻訳日:2023-02-22 16:15:59 公開日:2023-02-21
# マルチモーダル軌道予測:調査

Multimodal Trajectory Prediction: A Survey ( http://arxiv.org/abs/2302.10463v1 )

ライセンス: Link先を確認
Renhao Huang, Hao Xue, Maurice Pagnucco, Flora Salim, Yang Song(参考訳) 軌道予測は自律システムにおける安全かつインテリジェントな行動を支援する重要なタスクである。 空間的および時間的特徴抽出を改善した先進的なアプローチが長年にわたって提案されてきた。 しかし、人間の行動は自然に多様で不確実であり、過去の軌跡や周囲の環境情報を考えると、エージェントは将来複数のもっともらしい軌跡を持つことができる。 この問題に対処するため,MTP (Multimodal trajectory Prediction) と呼ばれる重要なタスクが最近研究され,各エージェントに対する将来予測の多様かつ許容可能かつ説明可能な分布を生成することを目的としている。 本稿では,独自の分類法とフレームワーク,データセット,評価指標を包括的に分析したmtpに関する最初の調査を行う。 さらに、研究者が新しい多モード軌道予測システムを開発するのに役立つ複数の将来方向について論じる。

Trajectory prediction is an important task to support safe and intelligent behaviours in autonomous systems. Many advanced approaches have been proposed over the years with improved spatial and temporal feature extraction. However, human behaviour is naturally multimodal and uncertain: given the past trajectory and surrounding environment information, an agent can have multiple plausible trajectories in the future. To tackle this problem, an essential task named multimodal trajectory prediction (MTP) has recently been studied, which aims to generate a diverse, acceptable and explainable distribution of future predictions for each agent. In this paper, we present the first survey for MTP with our unique taxonomies and comprehensive analysis of frameworks, datasets and evaluation metrics. In addition, we discuss multiple future directions that can help researchers develop novel multimodal trajectory prediction systems.
翻訳日:2023-02-22 16:15:43 公開日:2023-02-21
# KG-ECO: クエリ書き換えのための知識グラフ強化エンティティ補正

KG-ECO: Knowledge Graph Enhanced Entity Correction for Query Rewriting ( http://arxiv.org/abs/2302.10454v1 )

ライセンス: Link先を確認
Jinglun Cai, Mingda Li, Ziyan Jiang, Eunah Cho, Zheng Chen, Yang Liu, Xing Fan, Chenlei Guo(参考訳) クエリ書き換え(QR)は、摩擦を減らすために大規模な対話システムにおいて重要な役割を果たす。 エンティティエラーが発生した場合、対話システムが満足のいく応答を生成するために追加の課題を課す。 本稿では,KG-ECOを提案する。クエリ書き換えのための知識グラフ強化エンティティコレクション,エンティティスパン検出とエンティティ検索/リグレード機能を備えたエンティティ補正システム。モデル性能を向上させるために,知識グラフ(KG)を組み込んで,エンティティ構造情報(グラフニューラルネットワークで符号化されたエンティティ隣りのエンティティ)とテキスト情報(RoBERTaで符号化されたエンティティ記述)を提供する。 実験の結果, kg情報を用いずに発話レベルqrとエンティティ補正の2つの基準に対して, 性能向上効果が得られた。 提案システムは,学習においてターゲットエンティティがほとんど見られない場合や,クエリ内のターゲットエンティティと他のコンテキストエンティティとの間にKG関係が存在する場合において,特に有効である。

Query Rewriting (QR) plays a critical role in large-scale dialogue systems for reducing frictions. When there is an entity error, it imposes extra challenges for a dialogue system to produce satisfactory responses. In this work, we propose KG-ECO: Knowledge Graph enhanced Entity COrrection for query rewriting, an entity correction system with corrupt entity span detection and entity retrieval/re-ranking functionalities.To boost the model performance, we incorporate Knowledge Graph (KG) to provide entity structural information (neighboring entities encoded by graph neural networks) and textual information (KG entity descriptions encoded by RoBERTa). Experimental results show that our approach yields a clear performance gain over two baselines: utterance level QR and entity correction without utilizing KG information. The proposed system is particularly effective for few-shot learning cases where target entities are rarely seen in training or there is a KG relation between the target entity and other contextual entities in the query.
翻訳日:2023-02-22 16:15:27 公開日:2023-02-21
# 非線形ファイバsagnacループを用いた時間多重縮退光パラメトリック発振器パルスの2相状態の観察

Observation of binary phase states of time-multiplexed degenerate optical parametric oscillator pulses generated using a nonlinear fiber Sagnac loop ( http://arxiv.org/abs/2302.10452v1 )

ライセンス: Link先を確認
Hsin-Pin Lo, Takahiro Inagaki, Toshimori Honjo, and Hiroki Takesue(参考訳) 我々は,非線形ファイバーsagnacループを位相感応増幅器(psa)として用いた時間多重縮退光パラメトリック発振器(dopo)パルスを生成し,ポンプ信号-アイドラー縮退4波混合のポンプと増幅光を空間分離する。 ファイバキャビティにPSAを配置することにより,5,000以上の時間多重DOPOパルスを発生させることに成功した。 我々はパルス位相の分岐をポンプ位相に対して0または$\pi$と確認し、コヒーレント光発振器ネットワークに基づくイジングモデル解法におけるイジングスピンの表現に有用であることを示した。 また,NISTランダムナンバーテストを用いてDOPO位相の固有ランダム性を確認した。

We generated time-multiplexed degenerate optical parametric oscillator (DOPO) pulses using a nonlinear fiber Sagnac loop as a phase-sensitive amplifier (PSA) where the pump and amplified light in pump-signal-idler degenerate four-wave mixing can be spatially separated. By placing the PSA in a fiber cavity, we successfully generated more than 5,000 time-multiplexed DOPO pulses. We confirmed the bifurcation of pulse phases to 0 or $\pi$ relative to the pump phase, which makes them useful for representing Ising spins in an Ising model solver based on coherent optical oscillator networks. We also confirmed inherent randomness of the DOPO phases using the NIST random number test.
翻訳日:2023-02-22 16:15:08 公開日:2023-02-21
# 物体検出ネットワークによる自動車RADARサブサンプリング:事前信号情報を活用する

Automotive RADAR sub-sampling via object detection networks: Leveraging prior signal information ( http://arxiv.org/abs/2302.10450v1 )

ライセンス: Link先を確認
Madhumitha Sakthi, Ahmed Tewfik, Marius Arvinte, Haris Vikalo(参考訳) 自動運転技術への関心が高まり、自動車レーダーが注目を集めている。 カメラ、LiDAR、レーダーを含む様々なセンシングデバイスによって高サンプリングレートで収集されたマルチモーダルデータを用いて状況認識を取得するには、エッジデバイスでしばしば制限されるかなりの電力、メモリ、計算資源が必要である。 本稿では,事前の環境条件の知識に基づいて,より詳細かつ正確な復元を必要とする領域を同定し,比較的低いサンプリング率でほぼ最適に近い性能を実現するように設計された適応レーダサブサンプリングアルゴリズムを提案する。 アルゴリズムは可変気象条件下でロバストに動作するように設計され、オックスフォード生レーダーとラジエートデータセットに表示され、元のサンプルの10%のみを良天候で利用し、20%を極端(雪、霧、霧)の気象条件で正確に再構成した。 アルゴリズムのさらなる修正は、重要な領域の確実な識別を可能にするためにオブジェクトの動きを含む。 これには、現在のフレームで検出されたオブジェクトによって引き起こされる将来の閉塞の監視が含まれる。 最後に、RADIATEデータセット上でYOLOネットワークをトレーニングし、RADARデータ上で直接オブジェクト検出を行い、ベースラインであるFaster R-CNNネットワークに対して6.6%のAP50改善が得られる。

Automotive radar has increasingly attracted attention due to growing interest in autonomous driving technologies. Acquiring situational awareness using multimodal data collected at high sampling rates by various sensing devices including cameras, LiDAR, and radar requires considerable power, memory and compute resources which are often limited at an edge device. In this paper, we present a novel adaptive radar sub-sampling algorithm designed to identify regions that require more detailed/accurate reconstruction based on prior environmental conditions' knowledge, enabling near-optimal performance at considerably lower effective sampling rates. Designed to robustly perform under variable weather conditions, the algorithm was shown on the Oxford raw radar and RADIATE dataset to achieve accurate reconstruction utilizing only 10% of the original samples in good weather and 20% in extreme (snow, fog) weather conditions. A further modification of the algorithm incorporates object motion to enable reliable identification of important regions. This includes monitoring possible future occlusions caused by objects detected in the present frame. Finally, we train a YOLO network on the RADIATE dataset to perform object detection directly on RADAR data and obtain a 6.6% AP50 improvement over the baseline Faster R-CNN network.
翻訳日:2023-02-22 16:14:50 公開日:2023-02-21
# 少数のショットテキスト分類のためのマスク誘導BERT

Mask-guided BERT for Few Shot Text Classification ( http://arxiv.org/abs/2302.10447v1 )

ライセンス: Link先を確認
Wenxiong Liao, Zhengliang Liu, Haixing Dai, Zihao Wu, Yiyang Zhang, Xiaoke Huang, Yuzhong Chen, Xi Jiang, Dajiang Zhu, Tianming Liu, Sheng Li, Xiang Li, Hongmin Cai(参考訳) トランスフォーマーベースの言語モデルは様々な領域で大きな成功を収めている。 しかし、トランスフォーマーアーキテクチャのデータ集約性はラベル付きデータを必要とするため、低リソースのシナリオ(FSL)では困難である。 FSLの主な課題は、少量のサンプルで堅牢なモデルをトレーニングすることの難しさである。 ここでは、BERTベースのアーキテクチャがFSLに取り組むのを支援する、シンプルでモジュール化されたフレームワークであるMask-BERTを紹介する。 提案手法は,プロンプトチューニングやメタラーニングといった既存のFSL戦略と根本的に異なる。 中心となる考え方は、テキスト入力にマスクを選択的に適用し、無関係な情報をフィルタリングすることであり、予測結果に影響を与える差別的トークンに焦点を当てるようモデルに誘導する。 さらに,異なるカテゴリのテキスト表現をより分離し,同じカテゴリのテキスト表現をよりコンパクトにするために,対照的な学習損失関数を導入する。 パブリックドメインベンチマークデータセットの実験結果は、Mask-BERTの有効性を示す。

Transformer-based language models have achieved significant success in various domains. However, the data-intensive nature of the transformer architecture requires much labeled data, which is challenging in low-resource scenarios (i.e., few-shot learning (FSL)). The main challenge of FSL is the difficulty of training robust models on small amounts of samples, which frequently leads to overfitting. Here we present Mask-BERT, a simple and modular framework to help BERT-based architectures tackle FSL. The proposed approach fundamentally differs from existing FSL strategies such as prompt tuning and meta-learning. The core idea is to selectively apply masks on text inputs and filter out irrelevant information, which guides the model to focus on discriminative tokens that influence prediction results. In addition, to make the text representations from different categories more separable and the text representations from the same category more compact, we introduce a contrastive learning loss function. Experimental results on public-domain benchmark datasets demonstrate the effectiveness of Mask-BERT.
翻訳日:2023-02-22 16:14:26 公開日:2023-02-21
# 目標条件付き変形性物体再構成のための局所GNNに基づく深部強化学習

Deep Reinforcement Learning Based on Local GNN for Goal-conditioned Deformable Object Rearranging ( http://arxiv.org/abs/2302.10446v1 )

ライセンス: Link先を確認
Yuhong Deng, Chongkun Xia, Xueqian Wang and Lipeng Chen(参考訳) オブジェクトの再配置は、ロボットが変形可能なオブジェクトを目標設定に再構成する必要がある最も一般的な変形可能な操作タスクの1つである。 これまでの研究は、モデルベースまたはデータ駆動アプローチによる各タスクのエキスパートシステムの設計に重点を置いてきた。 いくつかの研究は、変形可能な再配置タスクのためのより高度な操作能力を得るための一般的なフレームワークを設計しようとしており、シミュレーションで多くの進歩が達成されている。 しかし、エンドツーエンドCNNアーキテクチャの制限のため、シミュレーションから現実への転送は困難である。 これらの課題に対処するために、画像から検出されたキーポイントを2つの表現グラフを用いて符号化するローカルGNN(Graph Neural Network)ベースの学習手法を設計する。 自己アテンションはグラフ更新に適用され、クロスアテンションは操作アクションの生成に適用される。 複数の1次元(ロープ、ロープリング)と2次元(クロス)のタスクをシミュレーションで再構成し、キーポイント検出器を微調整することで実際のロボットに容易に転送できることを示すために、広範な実験が行われてきた。

Object rearranging is one of the most common deformable manipulation tasks, where the robot needs to rearrange a deformable object into a goal configuration. Previous studies focus on designing an expert system for each specific task by model-based or data-driven approaches and the application scenarios are therefore limited. Some research has been attempting to design a general framework to obtain more advanced manipulation capabilities for deformable rearranging tasks, with lots of progress achieved in simulation. However, transferring from simulation to reality is difficult due to the limitation of the end-to-end CNN architecture. To address these challenges, we design a local GNN (Graph Neural Network) based learning method, which utilizes two representation graphs to encode keypoints detected from images. Self-attention is applied for graph updating and cross-attention is applied for generating manipulation actions. Extensive experiments have been conducted to demonstrate that our framework is effective in multiple 1-D (rope, rope ring) and 2-D (cloth) rearranging tasks in simulation and can be easily transferred to a real robot by fine-tuning a keypoint detector.
翻訳日:2023-02-22 16:14:09 公開日:2023-02-21
# graph-transporter:ゴール条件付き変形可能なオブジェクト再構成タスクのためのグラフベース学習手法

Graph-Transporter: A Graph-based Learning Method for Goal-Conditioned Deformable Object Rearranging Task ( http://arxiv.org/abs/2302.10445v1 )

ライセンス: Link先を確認
Yuhong Deng, Chongkun Xia, Xueqian Wang and Lipeng Chen(参考訳) 変形可能な物体の再配置は、構成空間の高次元と変形可能な物体の複雑なダイナミクスに対するロボット操作における長年の課題である。 目標条件付き変形可能なオブジェクト再構成タスクのための新しいフレームワークであるGraph-Transporterを提案する。 複雑な構成空間とダイナミクスの課題に対処するため、グラフ構造を持つ変形可能なオブジェクトの構成空間を表現し、グラフ特徴をグラフ畳み込みネットワークで符号化する。 本フレームワークは,完全畳み込みネットワーク(fcn)に基づくアーキテクチャを採用し,視覚入力のみから画素単位のピック・アンド・プレース動作を出力する。 変形可能なオブジェクト構成のグラフ表現の有効性を検証するために、大規模な実験が行われた。 また,本フレームワークは,目標条件付き変形可能なオブジェクト再構成タスクの処理において有効かつ汎用的であることを示す。

Rearranging deformable objects is a long-standing challenge in robotic manipulation for the high dimensionality of configuration space and the complex dynamics of deformable objects. We present a novel framework, Graph-Transporter, for goal-conditioned deformable object rearranging tasks. To tackle the challenge of complex configuration space and dynamics, we represent the configuration space of a deformable object with a graph structure and the graph features are encoded by a graph convolution network. Our framework adopts an architecture based on Fully Convolutional Network (FCN) to output pixel-wise pick-and-place actions from only visual input. Extensive experiments have been conducted to validate the effectiveness of the graph representation of deformable object configuration. The experimental results also demonstrate that our framework is effective and general in handling goal-conditioned deformable object rearranging tasks.
翻訳日:2023-02-22 16:13:48 公開日:2023-02-21
# 分散学習における共有勾配からの音声プライバシー漏洩

Speech Privacy Leakage from Shared Gradients in Distributed Learning ( http://arxiv.org/abs/2302.10441v1 )

ライセンス: Link先を確認
Zhuohang Li, Jiaxin Zhang, Jian Liu(参考訳) フェデレーション学習のような分散機械学習パラダイムは、近年、音声分析にプライバシクリティカルな多くのアプリケーションで採用されている。 しかし、そのようなフレームワークは共有勾配からのプライバシー漏洩攻撃に弱い。 画像領域における広範な取り組みにもかかわらず、勾配からの音声プライバシー漏洩の探索は非常に限られている。 本稿では,分散学習環境における共有勾配から個人音声/話者情報を復元する方法を検討する。 2種類の異なる音声特徴を持つキーワードスポッティングモデルで実験を行い、元の音声信号と復元された音声信号の類似度を測定して漏洩情報の量を測定する。 さらに,ユーザデータにアクセスせずに,分散学習フレームワーク下で,音声コンテンツや話者識別など,サイドチャネル情報のさまざまなレベルを推測できることを実証する。

Distributed machine learning paradigms, such as federated learning, have been recently adopted in many privacy-critical applications for speech analysis. However, such frameworks are vulnerable to privacy leakage attacks from shared gradients. Despite extensive efforts in the image domain, the exploration of speech privacy leakage from gradients is quite limited. In this paper, we explore methods for recovering private speech/speaker information from the shared gradients in distributed learning settings. We conduct experiments on a keyword spotting model with two different types of speech features to quantify the amount of leaked information by measuring the similarity between the original and recovered speech signals. We further demonstrate the feasibility of inferring various levels of side-channel information, including speech content and speaker identity, under the distributed learning framework without accessing the user's data.
翻訳日:2023-02-22 16:13:32 公開日:2023-02-21
# 災害発生:gan合成時系列データを用いた不況予測

Creating Disasters: Recession Forecasting with GAN-Generated Synthetic Time Series Data ( http://arxiv.org/abs/2302.10490v1 )

ライセンス: Link先を確認
Sam Dannels(参考訳) 不況などのまれな事象を予測する場合の一般的な問題は、データ可用性の制限である。 近年のディープラーニングとGAN(Generative Adversarial Network)の進歩により,高忠実な合成データを大量に生成することが可能になった。 本論文は,合成時系列データを生成するためのganであるdoppelgangerと呼ばれるモデルを用いて,合成国債利回り時系列および関連する不況指標を生成する。 そして, 実データのみを用いて訓練したモデルに対して, 合成データに基づいて訓練したモデルに対して, 財務収率の短期予測性能が向上することを示した。 最後に、合成不況条件が生成され、将来の不況の確率を予測するために分類モデルを訓練するために使用される。 合成不況のトレーニングモデルは、実際のデータのみに基づいてトレーニングされたモデルよりも将来の不況を予測するモデルの能力を向上させることができる。

A common problem when forecasting rare events, such as recessions, is limited data availability. Recent advancements in deep learning and generative adversarial networks (GANs) make it possible to produce high-fidelity synthetic data in large quantities. This paper uses a model called DoppelGANger, a GAN tailored to producing synthetic time series data, to generate synthetic Treasury yield time series and associated recession indicators. It is then shown that short-range forecasting performance for Treasury yields is improved for models trained on synthetic data relative to models trained only on real data. Finally, synthetic recession conditions are produced and used to train classification models to predict the probability of a future recession. It is shown that training models on synthetic recessions can improve a model's ability to predict future recessions over a model trained only on real data.
翻訳日:2023-02-22 16:07:59 公開日:2023-02-21
# 信頼による分類:逐次楕円分割に基づく教師付きアプローチ

Classification with Trust: A Supervised Approach based on Sequential Ellipsoidal Partitioning ( http://arxiv.org/abs/2302.10487v1 )

ライセンス: Link先を確認
Ranjani Niranjan and Sachit Rao(参考訳) 精度や感度などの分類器の性能の標準指標は、予測されたデータラベルの信頼性や信頼性を明らかにしない。 ラベルの計算された確率や超平面からの符号付き距離といった他の指標は信頼度として機能するが、これらはヒューリスティックしきい値となる。 本稿では,複数の楕円体にデータセットを逐次分割する凸最適化に基づく教師付き分類器を提案する。 この分割に基づく分類規則を述べることにより、ベイズの公式を適用し、これらの規則から決定されるテストデータポイントに割り当てられたラベルに信頼スコアを計算する。 提案したSequential Ellipsoidal Partitioning Classifier (SEP-C)は、別の探索データ解析を必要とせず、重複度などのデータセットの不規則を露呈する。 ハイパーパラメータを含まない分類規則は、クラス不均衡、基礎となるデータ分布、特徴数の影響を受けない。 SEP-Cは、データセットが線形分離可能でない場合、非線形カーネルの使用を必要としない。 SEP-Cの性能および他の方法との比較は、XOR-problem、サークルデータセット、その他のオープンソースデータセット上で実証される。

Standard metrics of performance of classifiers, such as accuracy and sensitivity, do not reveal the trust or confidence in the predicted labels of data. While other metrics such as the computed probability of a label or the signed distance from a hyperplane can act as a trust measure, these are subjected to heuristic thresholds. This paper presents a convex optimization-based supervised classifier that sequentially partitions a dataset into several ellipsoids, where each ellipsoid contains nearly all points of the same label. By stating classification rules based on this partitioning, Bayes' formula is then applied to calculate a trust score to a label assigned to a test datapoint determined from these rules. The proposed Sequential Ellipsoidal Partitioning Classifier (SEP-C) exposes dataset irregularities, such as degree of overlap, without requiring a separate exploratory data analysis. The rules of classification, which are free of hyperparameters, are also not affected by class-imbalance, the underlying data distribution, or number of features. SEP-C does not require the use of non-linear kernels when the dataset is not linearly separable. The performance, and comparison with other methods, of SEP-C is demonstrated on the XOR-problem, circle dataset, and other open-source datasets.
翻訳日:2023-02-22 16:07:46 公開日:2023-02-21
# d-waveマシンを用いた量子アニールにおける量子状態のエネルギー緩和時間の測定

Measurement of the energy relaxation time of quantum states in quantum annealing with a D-Wave machine ( http://arxiv.org/abs/2302.10486v1 )

ライセンス: Link先を確認
Takashi Imoto, Yuki Susa, Tadashi Kadowaki, Ryoji Miyazaki, Yuichiro Matsuzaki(参考訳) 量子アニールは超伝導量子ビットで実証されている。 このような量子アニーラは組合せ最適化問題を解くために使われており、量子多体系の性質を調べるための量子シミュレータとしても有用である。 しかし、D-Wave Quantum Inc.が提供する実際の装置のコヒーレンス特性は十分に調査されていない。 本稿では,d-waveデバイスを用いた量子アニールにおける励起状態のコヒーレンス時間を測定する手法を提案する。 具体的には, 横断場を有する完全連結Isingモデルの第一励起状態のエネルギー緩和時間について検討する。 モデルの励起状態のエネルギー緩和時間は、単一の量子ビットの励起状態のエネルギー緩和時間よりも桁違いに長いことが分かり、理論モデルを用いて定性的にこの現象を説明する。 報告された技術は、量子多体系のデコヒーレンス特性をD-Waveマシンで探索する新たな可能性を提供する。

Quantum annealing has been demonstrated with superconducting qubits. Such a quantum annealer has been used to solve combinational optimization problems and is also useful as a quantum simulator to investigate the properties of the quantum many-body systems. However, the coherence properties of actual devices provided by D-Wave Quantum Inc. are not sufficiently explored. Here, we propose and demonstrate a method to measure the coherence time of the excited state in quantum annealing with the D-Wave device. More specifically, we investigate the energy relaxation time of the first excited states of a fully connected Ising model with a transverse field. We find that the energy relaxation time of the excited states of the model is orders of magnitude longer than that of the excited state of a single qubit, and we qualitatively explain this phenomenon by using a theoretical model. The reported technique provides new possibilities to explore the decoherence properties of quantum many-body systems with the D-Wave machine.
翻訳日:2023-02-22 16:07:27 公開日:2023-02-21
# 効率的なトランスフォーマーとcnnを用いた軽量リアルタイム意味セグメンテーションネットワーク

Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN ( http://arxiv.org/abs/2302.10484v1 )

ライセンス: Link先を確認
Guoan Xu, Juncheng Li, Guangwei Gao, Huimin Lu, Jian Yang, and Dong Yue(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)はセマンティックセグメンテーションの優位性を示している。 CNNモデルは非常に優れた性能を持つが、グローバル表現をキャプチャする能力は依然として不十分であり、結果として準最適結果が得られる。 最近、TransformerはNLPタスクで大きな成功をおさめ、長距離依存性のモデリングの利点を示している。 近年、Transformerは画像処理タスクをシーケンス・ツー・シーケンスの予測として再構成するコンピュータビジョン研究者からも大きな注目を集めている。 本稿では,letnet と呼ばれる軽量なリアルタイムセマンティクスセグメンテーションネットワークを提案する。 LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。 一方、精巧に設計された軽量Dilated Bottleneck(LDB)モジュールとFeature Enhancement(FE)モジュールは、同時にスクラッチからトレーニングに肯定的な影響を与える。 挑戦的なデータセットで行った広範囲な実験は、letnetが精度と効率のバランスにおいて優れたパフォーマンスを達成していることを示している。 具体的には、0.95Mパラメータと13.6G FLOPのみを含むが、Cityscapesテストセットで120 FPSで72.8\% mIoU、CamVidテストデータセットで1つのRTX 3090 GPUを使用して250 FPSで70.5\% mIoUが得られる。 ソースコードはhttps://github.com/IVIPLab/LETNetで入手できる。

In the past decade, convolutional neural networks (CNNs) have shown prominence for semantic segmentation. Although CNN models have very impressive performance, the ability to capture global representation is still insufficient, which results in suboptimal results. Recently, Transformer achieved huge success in NLP tasks, demonstrating its advantages in modeling long-range dependency. Recently, Transformer has also attracted tremendous attention from computer vision researchers who reformulate the image processing tasks as a sequence-to-sequence prediction but resulted in deteriorating local feature details. In this work, we propose a lightweight real-time semantic segmentation network called LETNet. LETNet combines a U-shaped CNN with Transformer effectively in a capsule embedding style to compensate for respective deficiencies. Meanwhile, the elaborately designed Lightweight Dilated Bottleneck (LDB) module and Feature Enhancement (FE) module cultivate a positive impact on training from scratch simultaneously. Extensive experiments performed on challenging datasets demonstrate that LETNet achieves superior performances in accuracy and efficiency balance. Specifically, It only contains 0.95M parameters and 13.6G FLOPs but yields 72.8\% mIoU at 120 FPS on the Cityscapes test set and 70.5\% mIoU at 250 FPS on the CamVid test dataset using a single RTX 3090 GPU. The source code will be available at https://github.com/IVIPLab/LETNet.
翻訳日:2023-02-22 16:07:10 公開日:2023-02-21
# turbo-vbiアプローチに基づくディープニューラルネットワークの構造化ベイズ圧縮

Structured Bayesian Compression for Deep Neural Networks Based on The Turbo-VBI Approach ( http://arxiv.org/abs/2302.10483v1 )

ライセンス: Link先を確認
Chengyu Xia, Danny H.K. Tsang, Vincent K.N. Lau(参考訳) ニューラルネットワークのサイズが大きくなるにつれて、モデル圧縮は最近の研究で関心を集めている。 最も一般的な技法の1つとして、プルーニングは長い間研究されてきた。 ニューラルネットワークの構造的間隔を活用することで、既存の方法は個々の重みの代わりにニューロンをプーンすることができる。 しかし、既存のプルーニング法では、生き残ったニューロンは構造のないニューラルネットワークでランダムに接続され、各ニューロン内のゼロでない重みもランダムに分散される。 このような不規則なスパース構造は、ハードウェアに対する非常に高い制御オーバーヘッドと不規則なメモリアクセスを引き起こし、さらにニューラルネットワークの計算複雑性を増大させる。 本稿では, 刈り込み時のより規則的なスパース構造を促進するために, 3層階層構造を提案する。 提案する3層階層前駆体は、神経単位の重みレベル構造化スパーシティとニューロンレベルの構造化スパーシティを実現することができる。 提案したモデル圧縮問題を解決するために,効率的なターボ変量ベイズ推論(Turbo-VBI)アルゴリズムを導出する。 提案したTurbo-VBIアルゴリズムは複雑性が低く,既存のモデル圧縮アルゴリズムよりも一般的な事前処理をサポートすることができる。 シミュレーションの結果,提案アルゴリズムは,ベースラインと比較して圧縮速度と参照精度の面でさらに優れた性能を実現しつつ,プルーニングニューラルネットワークにおいてより規則的な構造を促進できることがわかった。

With the growth of neural network size, model compression has attracted increasing interest in recent research. As one of the most common techniques, pruning has been studied for a long time. By exploiting the structured sparsity of the neural network, existing methods can prune neurons instead of individual weights. However, in most existing pruning methods, surviving neurons are randomly connected in the neural network without any structure, and the non-zero weights within each neuron are also randomly distributed. Such irregular sparse structure can cause very high control overhead and irregular memory access for the hardware and even increase the neural network computational complexity. In this paper, we propose a three-layer hierarchical prior to promote a more regular sparse structure during pruning. The proposed three-layer hierarchical prior can achieve per-neuron weight-level structured sparsity and neuron-level structured sparsity. We derive an efficient Turbo-variational Bayesian inferencing (Turbo-VBI) algorithm to solve the resulting model compression problem with the proposed prior. The proposed Turbo-VBI algorithm has low complexity and can support more general priors than existing model compression algorithms. Simulation results show that our proposed algorithm can promote a more regular structure in the pruned neural networks while achieving even better performance in terms of compression rate and inferencing accuracy compared with the baselines.
翻訳日:2023-02-22 16:06:43 公開日:2023-02-21
# LMPDNet:モデルベースディープラーニングを用いたTOF-PETリストモード画像再構成

LMPDNet: TOF-PET list-mode image reconstruction using model-based deep learning method ( http://arxiv.org/abs/2302.10481v1 )

ライセンス: Link先を確認
Chenxu Li, Rui Hu, Jianan Cui, Huafeng Liu(参考訳) ポジトロン・エミッション・トモグラフィ(PET)の再構成過程における光時間(TOF)情報の統合は、画像特性の向上をもたらす。 しかし,TOF-PET再構成のための最先端モデルに基づくディープラーニング手法の実装は,メモリ要求が大きいため困難である。 本研究では,TOF-PET再構成のための新しいモデルベース深層学習手法LMPDNetを提案する。 本稿では、リストモードデータに対するプロジェクション行列のリアルタイム並列計算の問題に対処し、リストモードデータに専用ネットワークモデルを利用する反復モデルベースモジュールを提案する。 実験の結果,提案するLMPDNetは従来の反復型TOF-PETリストモード再構成アルゴリズムよりも優れていた。 さらに,モデルベース深層学習法におけるリストモードデータとシングラムデータの空間的・時間的消費を比較し,モデルベースTOF-PET再構成におけるリストモードデータの優位性を示す。

The integration of Time-of-Flight (TOF) information in the reconstruction process of Positron Emission Tomography (PET) yields improved image properties. However, implementing the cutting-edge model-based deep learning methods for TOF-PET reconstruction is challenging due to the substantial memory requirements. In this study, we present a novel model-based deep learning approach, LMPDNet, for TOF-PET reconstruction from list-mode data. We address the issue of real-time parallel computation of the projection matrix for list-mode data, and propose an iterative model-based module that utilizes a dedicated network model for list-mode data. Our experimental results indicate that the proposed LMPDNet outperforms traditional iteration-based TOF-PET list-mode reconstruction algorithms. Additionally, we compare the spatial and temporal consumption of list-mode data and sinogram data in model-based deep learning methods, demonstrating the superiority of list-mode data in model-based TOF-PET reconstruction.
翻訳日:2023-02-22 16:06:23 公開日:2023-02-21
# ディープラーニングを用いた気候モデル駆動季節予測手法

Climate Model Driven Seasonal Forecasting Approach with Deep Learning ( http://arxiv.org/abs/2302.10480v1 )

ライセンス: Link先を確認
Alper Unal, Busra Asan, Ismail Sezen, Bugra Yesilkaynak, Yusuf Aydin, Mehmet Ilicak, Gozde Unal(参考訳) 季節的な気候条件を理解することは、水、エネルギー、農業などの資源のより良い管理に不可欠である。 近年,気候研究における人工知能手法の活用に大きな関心が寄せられている。 本稿では、最先端のディープラーニングモデル(UNet++)を最先端のグローバルCMIP6モデルで訓練し、ERA5再解析データセットを用いて1ヶ月前に世界温度を予測する。 ERA5データセットは、検証データセットのパフォーマンス解析だけでなく、微調整にも使用された。 3つの異なるセットアップ(CMIP6, CMIP6 + height, CMIP6 + elevation + ERA5 finetuning)がUNetとUNet++のアルゴリズムで使われ、6つの異なるモデルが作られた。 各モデル14では、シーケンシャルおよび非シーケンシャルな時間設定が使用された。 平均絶対誤差 (MAE) 解析の結果, CMIP6のUNet++と"Year 3 Month 2"の時間ケースを用いたERA5ファインタニングモデルがMAE0.7で最高の結果となった。 ERA5データ値と対応するAIモデル予測の間の検証データセットの回帰分析により、非常によい一致を示す1に近い勾配と$R^2$値が明らかになった。 AIモデルは、2016年から2021年の平均CMIP6アンサンブルよりもはるかに優れている。 どちらのモデルも冬季よりも夏期を正確に予測している。

Understanding seasonal climatic conditions is critical for better management of resources such as water, energy and agriculture. Recently, there has been a great interest in utilizing the power of artificial intelligence methods in climate studies. This paper presents a cutting-edge deep learning model (UNet++) trained by state-of-the-art global CMIP6 models to forecast global temperatures a month ahead using the ERA5 reanalysis dataset. ERA5 dataset was also used for finetuning as well performance analysis in the validation dataset. Three different setups (CMIP6; CMIP6 + elevation; CMIP6 + elevation + ERA5 finetuning) were used with both UNet and UNet++ algorithms resulting in six different models. For each model 14 different sequential and non-sequential temporal settings were used. The Mean Absolute Error (MAE) analysis revealed that UNet++ with CMIP6 with elevation and ERA5 finetuning model with "Year 3 Month 2" temporal case provided the best outcome with an MAE of 0.7. Regression analysis over the validation dataset between the ERA5 data values and the corresponding AI model predictions revealed slope and $R^2$ values close to 1 suggesting a very good agreement. The AI model predicts significantly better than the mean CMIP6 ensemble between 2016 and 2021. Both models predict the summer months more accurately than the winter months.
翻訳日:2023-02-22 16:06:05 公開日:2023-02-21
# 注意すべき場所:小説明アノテーションによるアスペクトベース感性分類の解釈可能性の向上

Tell Model Where to Attend: Improving Interpretability of Aspect-Based Sentiment Classification via Small Explanation Annotations ( http://arxiv.org/abs/2302.10479v1 )

ライセンス: Link先を確認
Zhenxiao Cheng, Jie Zhou, Wen Wu, Qin Chen, Liang He(参考訳) 勾配に基づく説明法は、NLPモデルに対する複雑なディープニューラルネットワークの解釈において重要な役割を果たす。 しかし、既存の研究では、モデルの勾配が不安定で容易に操作可能であることが示されており、モデルの信頼性に大きな影響を与えている。 予備分析の結果,アスペクトベース感情分類(ABSC)のような複雑なタスクでは,勾配に基づく手法の解釈可能性に制限があることがわかった。 本稿では,少数の説明アノテーション,すなわち \texttt{{IEGA}} を通じて, \textbf{I}nterpretation-\textbf{E}nhanced \textbf{G}radient-based framework for \textbf{A}BSCを提案する。 特に,文中の単語の重要度を与えられたアスペクトに対して測定するために,勾配に基づく単語レベルのサリエンシマップをまず計算する。 そして,モデルが正しい部分(意見語など)に注意を向けるように,勾配補正モジュールを設計する。 我々のモデルは、既存のABSCメソッドや他のタスクに統合できるように、モデル非依存およびタスク非依存である。 4つのベンチマークデータセットの包括的な実験結果から、我々の \texttt{iega} はモデルの解釈性だけでなく、パフォーマンスとロバスト性も改善できることがわかった。

Gradient-based explanation methods play an important role in the field of interpreting complex deep neural networks for NLP models. However, the existing work has shown that the gradients of a model are unstable and easily manipulable, which impacts the model's reliability largely. According to our preliminary analyses, we also find the interpretability of gradient-based methods is limited for complex tasks, such as aspect-based sentiment classification (ABSC). In this paper, we propose an \textbf{I}nterpretation-\textbf{E}nhanced \textbf{G}radient-based framework for \textbf{A}BSC via a small number of explanation annotations, namely \texttt{{IEGA}}. Particularly, we first calculate the word-level saliency map based on gradients to measure the importance of the words in the sentence towards the given aspect. Then, we design a gradient correction module to enhance the model's attention on the correct parts (e.g., opinion words). Our model is model agnostic and task agnostic so that it can be integrated into the existing ABSC methods or other tasks. Comprehensive experimental results on four benchmark datasets show that our \texttt{IEGA} can improve not only the interpretability of the model but also the performance and robustness.
翻訳日:2023-02-22 16:05:40 公開日:2023-02-21
# TMoE-P:多変量ソフトセンサのパレート最適化に向けて

TMoE-P: Towards the Pareto Optimum for Multivariate Soft Sensors ( http://arxiv.org/abs/2302.10477v1 )

ライセンス: Link先を確認
Licheng Pan, Hao Wang, Zhichao Chen, Yuxing Huang, Xinggao Liu(参考訳) 多変量ソフトセンサは, 製造品質向上の鍵となる, 測定可能なプロセス変数を用いて, 複数の品質変数を正確に推定する。 現在の状況はマルチタスクネットワークアーキテクチャの直接的な応用に留まっているが, 負の移動, 異なる目的の識別表現の違いに拘わらず表現の共有が性能を低下させる, 2) セソー現象, 最適化者が他を犠牲にして支配的かつ単純な目的に焦点をあてる,という2つの根本的な問題はまだ研究されていない。 本研究では,多変量ソフトセンサを多目的問題に再構成し,課題と最先端性能の両立を図る。 まず,目的と目的の区別を保ちつつパラメータ共有のために,目的に特有かつ客観的に共有された専門家を活用し,目的に配慮した混合・オブ・エキスパート(omoe)モジュールを提案する。 次に, シーソー現象に対処するために, 学習対象の重みを動的に調整し, 理論的支援を具体化するpareto objective routing (por)モジュールを提案する。 さらに,重畳されたOMoEモジュールとPORモジュールからなる多変量ソフトセンサのParetoOptimum(TMoE-P)を実現するためのタスク対応Mixture-of-Expertsフレームワークを提案する。 そこでは,TMoE-Pが負の伝達やシーソー問題を効果的に軽減し,ベースラインモデルより優れていることを示す。

Multi-variate soft sensor seeks accurate estimation of multiple quality variables using measurable process variables, which have emerged as a key factor in improving the quality of industrial manufacturing. The current progress stays in some direct applications of multitask network architectures; however, there are two fundamental issues remain yet to be investigated with these approaches: (1) negative transfer, where sharing representations despite the difference of discriminate representations for different objectives degrades performance; (2) seesaw phenomenon, where the optimizer focuses on one dominant yet simple objective at the expense of others. In this study, we reformulate the multi-variate soft sensor to a multi-objective problem, to address both issues and advance state-of-the-art performance. To handle the negative transfer issue, we first propose an Objective-aware Mixture-of-Experts (OMoE) module, utilizing objective-specific and objective-shared experts for parameter sharing while maintaining the distinction between objectives. To address the seesaw phenomenon, we then propose a Pareto Objective Routing (POR) module, adjusting the weights of learning objectives dynamically to achieve the Pareto optimum, with solid theoretical supports. We further present a Task-aware Mixture-of-Experts framework for achieving the Pareto optimum (TMoE-P) in multi-variate soft sensor, which consists of a stacked OMoE module and a POR module. We illustrate the efficacy of TMoE-P with an open soft sensor benchmark, where TMoE-P effectively alleviates the negative transfer and seesaw issues and outperforms the baseline models.
翻訳日:2023-02-22 16:05:13 公開日:2023-02-21
# 光リモートセンシング画像における指向性物体検出:調査

Oriented Object Detection in Optical Remote Sensing Images: A Survey ( http://arxiv.org/abs/2302.10473v1 )

ライセンス: Link先を確認
Kun Wang, Zhang Li, Ang Su, Zi Wang(参考訳) 指向オブジェクト検出は、リモートセンシングにおける最も基本的かつ挑戦的なタスクの1つであり、多数の事前定義されたオブジェクトカテゴリの指向オブジェクトを見つけることを目的としている。 近年, リモートセンシング画像における指向性物体の検出において, 深層学習に基づく手法が有意な性能を発揮している。 しかし,リモートセンシングにおける文献の徹底的なレビューは行われていない。 そこで我々は,近年の進歩を包括的に調査し,問題定義,一般的なデータセット,評価プロトコル,検出フレームワーク,オブジェクト指向オブジェクト表現,特徴表現など,オブジェクト指向オブジェクト検出の多くの側面をカバーする。 また,最先端手法の解析と議論を行う。 最後に,今後の研究の方向性を議論し,有用な研究指導を行う。 この調査は、学術と産業の研究者にとって価値があると信じている。

Oriented object detection is one of the most fundamental and challenging tasks in remote sensing, aiming at locating the oriented objects of numerous predefined object categories. Recently, deep learning based methods have achieved remarkable performance in detecting oriented objects in remote sensing imagery. However, a thorough review of the literature in remote sensing has not yet emerged. Therefore, we give a comprehensive survey of recent advances and cover many aspects of oriented object detection, including problem definition, commonly used datasets, evaluation protocols, detection frameworks, oriented object representations, and feature representations. Besides, we analyze and discuss state-of-the-art methods. We finally discuss future research directions to put forward some useful research guidance. We believe that this survey shall be valuable to researchers across academia and industry.
翻訳日:2023-02-22 16:04:39 公開日:2023-02-21
# USR: 幾何学とセマンティック一貫性による非教師付き3次元衣服と人間の再構築

USR: Unsupervised Separated 3D Garment and Human Reconstruction via Geometry and Semantic Consistency ( http://arxiv.org/abs/2302.10518v1 )

ライセンス: Link先を確認
Yue Shi, Yuxuan Xiong, Bingbing Ni, Wenjun Zhang(参考訳) 画像から着飾った人々の復元は、クリエイティブメディアやゲーム業界で有望な応用が盛んに行われている。 しかし、既存の手法のほとんどは3dモデルの監督の下で人体と衣服全体を再構築し、下流の相互作用タスクを阻害し、観察しにくいデータを必要とする。 そこで本研究では,3dモデルを用いずに人体を再構築する非教師付き分離型3d衣服およびヒト再構成モデル(usr)を提案する。 より具体的には,多視点画像のスパースと服装者のジオメトリのマッピングを学ぶために,汎用的な表面認識ニューラルラミアンスフィールドを提案する。 本研究は, セマンティック・信頼誘導分離戦略(SCGS)を導入し, 2次元意味論と3次元幾何学の整合性を活用し, 衣服層の検出, セグメント化, 再構築を行う。 また,スムーズなエッジに対するGeometry Fine-Tune Moduleを提案する。 データセット上での広範囲な実験により,最先端手法との比較により,usrの形状と外観の再現性が向上し,リアルタイムに認識できない人に一般化できることを示した。 また,smpl-dモデルを導入し,衣服と人体の分離モデリングの利点を示し,衣服の交換や仮想試着を可能にした。

Dressed people reconstruction from images is a popular task with promising applications in the creative media and game industry. However, most existing methods reconstruct the human body and garments as a whole with the supervision of 3D models, which hinders the downstream interaction tasks and requires hard-to-obtain data. To address these issues, we propose an unsupervised separated 3D garments and human reconstruction model (USR), which reconstructs the human body and authentic textured clothes in layers without 3D models. More specifically, our method proposes a generalized surface-aware neural radiance field to learn the mapping between sparse multi-view images and geometries of the dressed people. Based on the full geometry, we introduce a Semantic and Confidence Guided Separation strategy (SCGS) to detect, segment, and reconstruct the clothes layer, leveraging the consistency between 2D semantic and 3D geometry. Moreover, we propose a Geometry Fine-tune Module to smooth edges. Extensive experiments on our dataset show that comparing with state-of-the-art methods, USR achieves improvements on both geometry and appearance reconstruction while supporting generalizing to unseen people in real time. Besides, we also introduce SMPL-D model to show the benefit of the separated modeling of clothes and the human body that allows swapping clothes and virtual try-on.
翻訳日:2023-02-22 15:59:11 公開日:2023-02-21
# mvfusion:セマンティックアライメントレーダとカメラ融合を用いたマルチビュー3dオブジェクト検出

MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion ( http://arxiv.org/abs/2302.10511v1 )

ライセンス: Link先を確認
Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu(参考訳) マルチビューレーダカメラが融合した3dオブジェクト検出は、特に悪天候下での自動運転のより遠い検出範囲とより有用な機能を提供する。 現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータと融合させる種類の設計を提供する。 しかし、これらの融合アプローチは通常、レーダー特徴とのセマンティックアライメントやモーダル間の十分な相関を無視したマルチモーダル特徴間の直接的な結合操作を採用する。 本稿では,セマンティクスアライメントレーダ機能を実現し,クロスモーダル情報インタラクションを強化するための,新しいマルチビューレーダ・カメラ融合手法mvfusionを提案する。 そこで我々は,semantic-aligned radar encoder (sare) を用いてレーダ機能に意味的アライメントを注入し,画像誘導レーダ機能を生成する。 そこで我々は,レーダ誘導型核融合変換器(RGFT)を提案し,レーダと画像の特徴を融合させ,クロスアテンション機構を介して2つのモードの相関関係を強化する。 大規模な実験により、MVFusionはnuScenesデータセット上で最先端のパフォーマンス(51.7% NDSと45.3% mAP)を達成することが示された。 公開時には、コードとトレーニングされたネットワークをリリースします。

Multi-view radar-camera fused 3D object detection provides a farther detection range and more helpful features for autonomous driving, especially under adverse weather. The current radar-camera fusion methods deliver kinds of designs to fuse radar information with camera data. However, these fusion approaches usually adopt the straightforward concatenation operation between multi-modal features, which ignores the semantic alignment with radar features and sufficient correlations across modals. In this paper, we present MVFusion, a novel Multi-View radar-camera Fusion method to achieve semantic-aligned radar features and enhance the cross-modal information interaction. To achieve so, we inject the semantic alignment into the radar features via the semantic-aligned radar encoder (SARE) to produce image-guided radar features. Then, we propose the radar-guided fusion transformer (RGFT) to fuse our radar and image features to strengthen the two modals' correlation from the global scope via the cross-attention mechanism. Extensive experiments show that MVFusion achieves state-of-the-art performance (51.7% NDS and 45.3% mAP) on the nuScenes dataset. We shall release our code and trained networks upon publication.
翻訳日:2023-02-22 15:58:48 公開日:2023-02-21
# 持続可能なオンデマンドライドプールの価格設定とマッチング

Future Aware Pricing and Matching for Sustainable On-demand Ride Pooling ( http://arxiv.org/abs/2302.10510v1 )

ライセンス: Link先を確認
Xianjie Zhang and Pradeep Varakantham and Hao Jiang(参考訳) オンデマンドのライドプーリングの人気は、顧客(低価格)、タクシードライバー(高い収入)、環境(少ない車両によるカーボンフットプリント)、そしてuberのような集約企業(高い収入)に提供される利点がある。 これらの利点を達成するには、2つの重要な相互リンク課題を効果的に解決する必要がある。 (a)価格 --タクシーの顧客要求に価格を設定すること (b)マッチング -- タクシー・車への顧客(価格を受け入れた)の割り当て。 伝統的に、これら2つの課題は、将来の要求に対する現在のマッチングの影響を考慮せずに、個別に研究され、(現在の要求のみを考慮して)妙明なアプローチを用いている。 本稿では,価格とマッチングの問題を取り扱うとともに,価格とマッチング決定の今後の影響も考慮しながら,新たな枠組みを提案する。 実世界のタクシーデータセットにおける実験結果では、固定収入の取得に必要な車両数(平均14.6.%、平均10.6.%)と、車両の走行距離(最大11.1.%、平均3.7.%)を削減し、持続可能な方法で収益(平均6.4.%、平均17.4.%)を大幅に改善できることを示した。 つまり、顧客、ドライバー、アグリゲータ(ライドプール会社)に対して高い収益を得ると同時に、環境(道路上の車両の数が少なく、燃料消費も少ないため)に適している、すべての利害関係者(顧客、ドライバー、アグリゲータ、環境)に理想的なウィンウィンシナリオを提供することができるのです。

The popularity of on-demand ride pooling is owing to the benefits offered to customers (lower prices), taxi drivers (higher revenue), environment (lower carbon footprint due to fewer vehicles) and aggregation companies like Uber (higher revenue). To achieve these benefits, two key interlinked challenges have to be solved effectively: (a) pricing -- setting prices to customer requests for taxis; and (b) matching -- assignment of customers (that accepted the prices) to taxis/cars. Traditionally, both these challenges have been studied individually and using myopic approaches (considering only current requests), without considering the impact of current matching on addressing future requests. In this paper, we develop a novel framework that handles the pricing and matching problems together, while also considering the future impact of the pricing and matching decisions. In our experimental results on a real-world taxi dataset, we demonstrate that our framework can significantly improve revenue (up to 17\% and on average 6.4\%) in a sustainable manner by reducing the number of vehicles (up to 14\% and on average 10.6\%) required to obtain a given fixed revenue and the overall distance travelled by vehicles (up to 11.1\% and on average 3.7\%). That is to say, we are able to provide an ideal win-win scenario for all stakeholders (customers, drivers, aggregator, environment) involved by obtaining higher revenue for customers, drivers, aggregator (ride pooling company) while being good for the environment (due to fewer number of vehicles on the road and lesser fuel consumed).
翻訳日:2023-02-22 15:58:25 公開日:2023-02-21
# 拡散確率モデルによるグラフ構造予測

Diffusion Probabilistic Models for Graph-Structured Prediction ( http://arxiv.org/abs/2302.10506v1 )

ライセンス: Link先を確認
Hyosoon Jang, Sangwoo Mo, Sungsoo Ahn(参考訳) 本稿では,ノードワイドあるいはエッジワイドな対象グラフを用いた教師あり学習のためのグラフ構造化予測について検討する。 この問題を解決するために、近年の研究では、グラフニューラルネットワーク(GNN)と条件付きランダムフィールドのような従来の構造化予測アルゴリズムを組み合わせた研究が行われている。 しかし,本研究では,拡散確率モデル(DPM)の最近の成功に基づいて,新たな方向を追求する。 すなわち、DPMを用いてグラフ構造予測を行う新しいフレームワークを提案する。 完全に教師された設定では、我々のDPMは、近くのターゲットの推定値に基づいて、各ターゲット推定を反復的に更新することで、対象の依存関係をキャプチャする。 また、半教師付き環境でDPMをトレーニングするための変動予測最大化アルゴリズムを提案する。 大規模な実験により、我々のフレームワークはインダクティブノードとトランスダクティブノードの分類において、既存のニューラル構造化予測モデルより一貫して優れていることが検証された。 また,アルゴリズム推論タスクのためのフレームワークの競合性能を示す。

This paper studies graph-structured prediction for supervised learning on graphs with node-wise or edge-wise target dependencies. To solve this problem, recent works investigated combining graph neural networks (GNNs) with conventional structured prediction algorithms like conditional random fields. However, in this work, we pursue an alternative direction building on the recent successes of diffusion probabilistic models (DPMs). That is, we propose a new framework using DPMs to make graph-structured predictions. In the fully supervised setting, our DPM captures the target dependencies by iteratively updating each target estimate based on the estimates of nearby targets. We also propose a variational expectation maximization algorithm to train our DPM in the semi-supervised setting. Extensive experiments verify that our framework consistently outperforms existing neural structured prediction models on inductive and transductive node classification. We also demonstrate the competitive performance of our framework for algorithmic reasoning tasks.
翻訳日:2023-02-22 15:57:38 公開日:2023-02-21
# グラフニューラルネットワークにおける高次スパース畳み込み

Higher-order Sparse Convolutions in Graph Neural Networks ( http://arxiv.org/abs/2302.10505v1 )

ライセンス: Link先を確認
Jhony H. Giraldo, Sajid Javed, Arif Mahmood, Fragkiskos D. Malliaros, Thierry Bouwmans(参考訳) グラフニューラルネットワーク(GNN)はコンピュータ科学における多くの問題に適用されている。 GNNの表現力を高めるためには,ノード間の高次関係の獲得が不可欠である。 しかし、これらの関係を捉える既存の方法は、大規模グラフでは実現不可能である。 本研究では,グラフ信号のソボレフノルムに基づく新しい高次スパース畳み込みを導入する。 我々の疎 sobolev gnn (s-sobgnn) は、より多様な関数の集合を得るためにアダマールパワーを増大させる各層上のフィルターのカスケードを計算し、さらに線形結合層は各フィルタの埋め込みを重み付けする。 セミ教師あり学習におけるS-SobGNNの評価を行った。 S-SobGNNは、いくつかの最先端手法と比較して、全てのアプリケーションで競合性能を示す。

Graph Neural Networks (GNNs) have been applied to many problems in computer sciences. Capturing higher-order relationships between nodes is crucial to increase the expressive power of GNNs. However, existing methods to capture these relationships could be infeasible for large-scale graphs. In this work, we introduce a new higher-order sparse convolution based on the Sobolev norm of graph signals. Our Sparse Sobolev GNN (S-SobGNN) computes a cascade of filters on each layer with increasing Hadamard powers to get a more diverse set of functions, and then a linear combination layer weights the embeddings of each filter. We evaluate S-SobGNN in several applications of semi-supervised learning. S-SobGNN shows competitive performance in all applications as compared to several state-of-the-art methods.
翻訳日:2023-02-22 15:57:14 公開日:2023-02-21
# 再利用可能なスロットワイズ機構

Reusable Slotwise Mechanisms ( http://arxiv.org/abs/2302.10503v1 )

ライセンス: Link先を確認
Trang Nguyen, Amin Mansouri, Kanika Madan, Khuong Nguyen, Kartik Ahuja, Dianbo Liu, and Yoshua Bengio(参考訳) オブジェクトのダイナミクスを理解し、推論できるエージェントは、堅牢に行動し、新しいシナリオに一般化するより良い能力を持つことができる。 しかし、このような能力はシーンの適切な表現と、オブジェクトの異なるサブセットの相互作用を管理するメカニズムの理解を必要とする。 この問題を解決するために、シーンのスロットワイズ表現を共同で学習するRSM(Reusable Slotwise Mechanisms)と、各スロットの次の状態を予測するための再利用可能なメカニズムのセットのうち1つのメカニズムを動的に選択するモジュールアーキテクチャを提案する。 rsmは、各選択された再利用可能なメカニズムがボトルネックを通じて残りのスロットにアクセスすることを可能にする \textit{central context information (cci) の利点を最大限生かしている。 グリッド環境からatari 2600ゲームまで,さまざまな次世代予測タスクにおいて,このモデルが最先端の手法に勝ることを示す。 特に、スロットワイズ表現の上にグラフニューラルネットワーク(GNN)を置き、相互作用をペアワイズに限定するモジュラーアーキテクチャで動的にモデル化する手法に挑戦する。 最後に, RSMは, 物体の数や形状の異なるシーンに一般化できることを示し, 分布外一般化機能を強調した。 実装はhttps://github.com/trangnnp/rsm}{github.com/trangnnp/rsm}}。

Agents that can understand and reason over the dynamics of objects can have a better capability to act robustly and generalize to novel scenarios. Such an ability, however, requires a suitable representation of the scene as well as an understanding of the mechanisms that govern the interactions of different subsets of objects. To address this problem, we propose RSM, or Reusable Slotwise Mechanisms, that jointly learns a slotwise representation of the scene and a modular architecture that dynamically chooses one mechanism among a set of reusable mechanisms to predict the next state of each slot. RSM crucially takes advantage of a \textit{Central Contextual Information (CCI)}, which lets each selected reusable mechanism access the rest of the slots through a bottleneck, effectively allowing for modeling higher order and complex interactions that might require a sparse subset of objects. We show how this model outperforms state-of-the-art methods in a variety of next-step prediction tasks ranging from grid-world environments to Atari 2600 games. Particularly, we challenge methods that model the dynamics with Graph Neural Networks (GNNs) on top of slotwise representations, and modular architectures that restrict the interactions to be only pairwise. Finally, we show that RSM is able to generalize to scenes with objects varying in number and shape, highlighting its out-of-distribution generalization capabilities. Our implementation is available online\footnote{\hyperlink{https://github.com/trangnnp/RSM}{github.com/trangnnp/RSM}}.
翻訳日:2023-02-22 15:56:57 公開日:2023-02-21
# スコアマッチングを用いた漸次非凸画像先行学習

Learning Gradually Non-convex Image Priors Using Score Matching ( http://arxiv.org/abs/2302.10502v1 )

ライセンス: Link先を確認
Erich Kobler and Thomas Pock(参考訳) 本稿では,高次非凸エネルギー最小化の文脈におけるスコアベースモデルの一元化フレームワークを提案する。 十分な大きなノイズ分散に対して、関連する負のログ密度(エネルギー)が凸となることを示す。 結果として、スコアベースモデルは基本的に、卒業する非凸性ヒューリスティックに従うことになる。 この枠組みを,雑音画像の結合密度とそれに伴うばらつきを近似する,エキスパート画像先行の一般化フィールドの学習に適用する。 これらの事前処理は、逆問題を解く既存の最適化アルゴリズムに容易に組み入れることができ、高速で堅牢な非凸性機構を自然に実装できる。

In this paper, we propose a unified framework of denoising score-based models in the context of graduated non-convex energy minimization. We show that for sufficiently large noise variance, the associated negative log density -- the energy -- becomes convex. Consequently, denoising score-based models essentially follow a graduated non-convexity heuristic. We apply this framework to learning generalized Fields of Experts image priors that approximate the joint density of noisy images and their associated variances. These priors can be easily incorporated into existing optimization algorithms for solving inverse problems and naturally implement a fast and robust graduated non-convexity mechanism.
翻訳日:2023-02-22 15:56:33 公開日:2023-02-21
# 対比自己スーパービジョンとマルチリゾリューションアテンションによるFew-Shot Point Cloud Semantic Segmentation

Few-Shot Point Cloud Semantic Segmentation via Contrastive Self-Supervision and Multi-Resolution Attention ( http://arxiv.org/abs/2302.10501v1 )

ライセンス: Link先を確認
Jiahui Wang, Haiyue Zhu, Haoren Guo, Abdullah Al Mamun, Cheng Xiang and Tong Heng Lee(参考訳) 本稿では,実世界のアプリケーションに対して有効なクラウドセマンティクスセグメンテーション手法を提案する。 ポイントクラウド上の既存の少数ショットセグメンテーションメソッドは、大規模な注釈付きデータセットによる完全な教師付き事前トレーニングに大きく依存している。 しかし,数発学習の目的は未知/未知のクラスを扱うため,事前学習におけるクラス固有の特徴抽出は,数発学習のために新しいクラスに一般化することが理想的ではない。 さらに、アノテーションの難しさのため、ポイントクラウドデータセットには多数のクラスがほとんどありません。 これらの課題に対処するために,クラス非依存のコントラスト監視による特徴抽出バイアスを解消することを目的とした,数発の学習事前訓練のためのコントラッシブ・セルフスーパービジョン・フレームワークを提案する。 具体的には,3dポイントクラウドのための学習可能な拡張子を用いた,新しいコントラスト学習手法を実装し,自己スーパービジョンによる管理オーバーフィットによる事前トレーニングを強化する。 さらに,最も近い点と最も遠い点の両方を用いて,より効果的に局所的および大域的な点情報を抽出するマルチレゾリューションアテンションモジュールを開発し,センタ集中型マルチプロトタイプを用いてクラス内スパーシティを緩和する。 提案手法を総合的に評価し,本手法が最先端の性能を実現することを示す。 さらに,本手法の有効性を示すために,実用的なcam/cadセグメンテーションに関する事例研究を行った。

This paper presents an effective few-shot point cloud semantic segmentation approach for real-world applications. Existing few-shot segmentation methods on point cloud heavily rely on the fully-supervised pretrain with large annotated datasets, which causes the learned feature extraction bias to those pretrained classes. However, as the purpose of few-shot learning is to handle unknown/unseen classes, such class-specific feature extraction in pretrain is not ideal to generalize into new classes for few-shot learning. Moreover, point cloud datasets hardly have a large number of classes due to the annotation difficulty. To address these issues, we propose a contrastive self-supervision framework for few-shot learning pretrain, which aims to eliminate the feature extraction bias through class-agnostic contrastive supervision. Specifically, we implement a novel contrastive learning approach with a learnable augmentor for a 3D point cloud to achieve point-wise differentiation, so that to enhance the pretrain with managed overfitting through the self-supervision. Furthermore, we develop a multi-resolution attention module using both the nearest and farthest points to extract the local and global point information more effectively, and a center-concentrated multi-prototype is adopted to mitigate the intra-class sparsity. Comprehensive experiments are conducted to evaluate the proposed approach, which shows our approach achieves state-of-the-art performance. Moreover, a case study on practical CAM/CAD segmentation is presented to demonstrate the effectiveness of our approach for real-world applications.
翻訳日:2023-02-22 15:56:23 公開日:2023-02-21
# maskedkd: マスク画像を用いた視覚トランスフォーマーの効率的な蒸留

MaskedKD: Efficient Distillation of Vision Transformers with Masked Images ( http://arxiv.org/abs/2302.10494v1 )

ライセンス: Link先を確認
Seungwoo Son and Namhoon Lee and Jaeho Lee(参考訳) 知識蒸留は軽量モデルのトレーニングに人気があり効果的な正規化技術であるが、トレーニングコストにかなりのオーバーヘッドを与える。 視覚変換器(ViT)などの大規模モデルを教師として使用する場合,その欠点が最も顕著である。 本稿では,ViT蒸留のトレーニングコストを削減するための簡易かつ効果的な方法であるMaskedKDを提案する。 maskedkdは教師に送られた画像パッチトークンの一部をマスクし、教師の推論コストを節約する。 マスキングのトークンは、学生モデルの最後の層注目スコアに基づいて決定され、フルイメージが提供されます。 教師のアーキテクチャの変更を必要とせず、学生のパフォーマンスを犠牲にすることなく、MaskedKDはViTの蒸留に必要な計算と時間を劇的に削減する。 我々は,MaskedKDが教師モデル上での推論の実行コストの最大50\%を,生徒のパフォーマンス低下を伴わずに削減できることを示し,教師と生徒の計算の合計で約28\%のコストを削減できることを示した。

Knowledge distillation is a popular and effective regularization technique for training lightweight models, but it also adds significant overhead to the training cost. The drawback is most pronounced when we use large-scale models as our teachers, such as vision transformers (ViTs). We present MaskedKD, a simple yet effective method for reducing the training cost of ViT distillation. MaskedKD masks a fraction of image patch tokens fed to the teacher to save the teacher inference cost. The tokens to mask are determined based on the last layer attention score of the student model, to which we provide the full image. Without requiring any architectural change of the teacher or making sacrifices in the student performance, MaskedKD dramatically reduces the computations and time required for distilling ViTs. We demonstrate that MaskedKD can save up to $50\%$ of the cost of running inference on the teacher model without any performance drop on the student, leading to approximately $28\%$ drop in the teacher and student compute combined.
翻訳日:2023-02-22 15:55:55 公開日:2023-02-21
# Weather2K:地上気象観測データに基づく気象予報のための多変量時差ベンチマークデータセット

Weather2K: A Multivariate Spatio-Temporal Benchmark Dataset for Meteorological Forecasting Based on Real-Time Observation Data from Ground Weather Stations ( http://arxiv.org/abs/2302.10493v1 )

ライセンス: Link先を確認
Xun Zhu and Yutong Xiong and Ming Wu and Gaozhen Nie and Bin Zhang and Ziheng Yang(参考訳) 気象予報は気象研究の基盤の一つである。 本稿では,データ品質の重要なボトルネックであるリアルタイム,信頼性,多様性の観点から,既存の気象予報データセットの欠陥を補うことを目的とした,weather2kという新しいベンチマークデータセットを提案する。 具体的に言うと、Weather2Kは以下の点から特徴付けられる。 1)信頼性とリアルタイム性。 データは、600万平方キロメートルの面積をカバーする2,130の地上気象観測所から収集される。 2)多変量気象変数。 20の気象因子と3つの位置情報定数が40,896の時間ステップで提供される。 3)多様なタスクに適用可能。 時系列予測と時空間予測に関する一連のベースラインテストを実施した。 我々の知る限りでは、我々のWeather2Kは、地上の気象観測所からの観測データの強度をフル活用して天気予報タスクに取り組む最初の試みである。 weather2kに基づき,気象要因に基づく地理的位置間の固有相関を効果的に構築できるマルチグラフ畳み込みネットワーク(mfmgcn)を提案する。 MFMGCNは予測性能と時間的堅牢性の両方を改善した。 われわれのWeather2Kは、研究者が天気予報のタスクを進めるための効率的で正確なアルゴリズムを開発するための大きな動機になることを期待している。 データセットはhttps://github.com/bycnfz/weather2k/で入手できる。

Weather forecasting is one of the cornerstones of meteorological work. In this paper, we present a new benchmark dataset named Weather2K, which aims to make up for the deficiencies of existing weather forecasting datasets in terms of real-time, reliability, and diversity, as well as the key bottleneck of data quality. To be specific, our Weather2K is featured from the following aspects: 1) Reliable and real-time data. The data is hourly collected from 2,130 ground weather stations covering an area of 6 million square kilometers. 2) Multivariate meteorological variables. 20 meteorological factors and 3 constants for position information are provided with a length of 40,896 time steps. 3) Applicable to diverse tasks. We conduct a set of baseline tests on time series forecasting and spatio-temporal forecasting. To the best of our knowledge, our Weather2K is the first attempt to tackle weather forecasting task by taking full advantage of the strengths of observation data from ground weather stations. Based on Weather2K, we further propose Meteorological Factors based Multi-Graph Convolution Network (MFMGCN), which can effectively construct the intrinsic correlation among geographic locations based on meteorological factors. Sufficient experiments show that MFMGCN improves both the forecasting performance and temporal robustness. We hope our Weather2K can significantly motivate researchers to develop efficient and accurate algorithms to advance the task of weather forecasting. The dataset can be available at https://github.com/bycnfz/weather2k/.
翻訳日:2023-02-22 15:55:36 公開日:2023-02-21
# MonoPGC:Pixel Geometry Contextsを用いた単眼3Dオブジェクト検出

MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts ( http://arxiv.org/abs/2302.10549v1 )

ライセンス: Link先を確認
Zizhang Wu, Yuanzhu Gan, Lei Wang, Guilian Chen, Jian Pu(参考訳) モノキュラーな3dオブジェクト検出は、自動運転における経済的だが挑戦的なタスクである。 近年,センターベース単眼法が急速に発展し,速度と精度のトレードオフが大きくなり,通常は2次元特徴による物体中心の深さ推定に依存するようになった。 しかし、十分な画素幾何情報を持たない視覚意味特徴は、空間的3次元検出タスクの手がかりの性能に影響を与える可能性がある。 これを軽減するために、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのMonocular 3Dオブジェクト検出フレームワークであるMonoPGCを提案する。 視覚特徴に局所的および大域的深度幾何知識を注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(dcpm)を提案する。 さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。 さらに,新しいDGPE(Deep-gradient positional encoding)を設計し,より鮮明な画素形状のコンテキストを変換器に導入し,オブジェクト検出を改良する。 大規模な実験により,KITTIデータセットの最先端性能が得られた。

Monocular 3D object detection reveals an economical but challenging task in autonomous driving. Recently center-based monocular methods have developed rapidly with a great trade-off between speed and accuracy, where they usually depend on the object center's depth estimation via 2D features. However, the visual semantic features without sufficient pixel geometry information, may affect the performance of clues for spatial 3D detection tasks. To alleviate this, we propose MonoPGC, a novel end-to-end Monocular 3D object detection framework with rich Pixel Geometry Contexts. We introduce the pixel depth estimation as our auxiliary task and design depth cross-attention pyramid module (DCPM) to inject local and global depth geometry knowledge into visual features. In addition, we present the depth-space-aware transformer (DSAT) to integrate 3D space position and depth-aware features efficiently. Besides, we design a novel depth-gradient positional encoding (DGPE) to bring more distinct pixel geometry contexts into the transformer for better object detection. Extensive experiments demonstrate that our method achieves the state-of-the-art performance on the KITTI dataset.
翻訳日:2023-02-22 15:50:01 公開日:2023-02-21
# 広視野ダイヤモンド顕微鏡によるバーコードナノワイヤの磁気特性の探索

Exploring the magnetic properties of individual barcode nanowires using wide-field diamond microscopy ( http://arxiv.org/abs/2302.10547v1 )

ライセンス: Link先を確認
Jungbae Yoon, Jun Hwan Moon, Jugyeong Jeong, Yu Jin Kim, Kihwan Kim, Hee Seong Kang, Yoo Sang Jeon, Eunsoo Oh, Sun Hwa Lee, Kihoon Han, Dongmin Lee, Chul-Ho Lee, Young Keun Kim, and Donghun Lee(参考訳) バーコード磁性ナノワイヤは通常、複数のセグメントタイプを持つ単体の多層磁性構造からなる。 興味深いことに、層間の選択的機能化と新しい相互作用により、バーコード磁性ナノワイヤは特にバイオエンジニアリングの分野で大きな注目を集めている。 しかし、個々のナノワイヤレベルでの磁気特性の分析は依然として困難である。 この背景から,ダイヤモンド中の窒素空孔中心を持つ広視野量子顕微鏡を用いて得られた磁気画像に基づいて,室温における磁性ナノワイヤの特性を環境条件下で解析した。 その結果, 単一ナノワイヤの飽和磁化や保磁力などの臨界磁気特性を, マイクロ磁気シミュレーションと実験結果を比較して抽出することができた。 本研究は、個々の磁性ナノワイヤに適した多彩なキャラクタリゼーション法の可能性を開く。

Barcode magnetic nanowires typically comprise a multilayer magnetic structure in a single body with more than one segment type. Interestingly, owing to selective functionalization and novel interactions between the layers, barcode magnetic nanowires have attracted significant attention, particularly in the field of bioengineering. However, an analysis of their magnetic properties at the individual nanowire level remains challenging. With this background, herein, we investigated the characterization of magnetic nanowires at room temperature under ambient conditions based on magnetic images obtained via wide-field quantum microscopy with nitrogen-vacancy centers in diamond. Consequently, we could extract critical magnetic properties, such as the saturation magnetization and coercivity, of single nanowires by comparing the experimental results with those of micromagnetic simulations. This study opens up the possibility for a versatile characterization method suited to individual magnetic nanowires.
翻訳日:2023-02-22 15:49:39 公開日:2023-02-21
# EC-SfM:逐次画像と非順序画像の両方の効率的なコビジュアビリティに基づく構造制御

EC-SfM: Efficient Covisibility-based Structure-from-Motion for Both Sequential and Unordered Images ( http://arxiv.org/abs/2302.10544v1 )

ライセンス: Link先を確認
Zhichao Ye, Chong Bao, Xin Zhou, Haomin Liu, Hujun Bao, Guofeng Zhang(参考訳) Structure-from-Motionは画像収集によってシーン構造を得る技術であり、コンピュータビジョンの根本的な問題である。 順序のないインターネット画像の場合、SfMは画像の重複に関する事前知識がないため、非常に遅い。 シーケンシャルな画像の場合、隣接するフレーム間の大きな重複を知って、SfMはシーケンシャルなデータにのみ適用可能な様々な加速度戦略を採用することができる。 本稿では, この2種類のデータ間の戦略ギャップを解消し, 再構築効率をさらに向上するために, 効率的な可視性に基づく漸進SfMを提案する。 従来の手法と異なり,任意の種類のデータに適した画像接続を記述するために,可視性と登録依存性を利用する。 この一般的な画像接続に基づいて,シーケンシャル画像,無順序画像,これら2つの混合画像を効率的に再構成するための統一フレームワークを提案する。 非順序画像と混合データを用いた実験により,提案手法の有効性が検証された。これは特徴マッチングの手法の3倍の精度で,精度を犠牲にすることなく再現の精度が大幅に向上する。 ソースコードはhttps://github.com/openxrlab/xrsfmで公開されている。

Structure-from-Motion is a technology used to obtain scene structure through image collection, which is a fundamental problem in computer vision. For unordered Internet images, SfM is very slow due to the lack of prior knowledge about image overlap. For sequential images, knowing the large overlap between adjacent frames, SfM can adopt a variety of acceleration strategies, which are only applicable to sequential data. To further improve the reconstruction efficiency and break the gap of strategies between these two kinds of data, this paper presents an efficient covisibility-based incremental SfM. Different from previous methods, we exploit covisibility and registration dependency to describe the image connection which is suitable to any kind of data. Based on this general image connection, we propose a unified framework to efficiently reconstruct sequential images, unordered images, and the mixture of these two. Experiments on the unordered images and mixed data verify the effectiveness of the proposed method, which is three times faster than the state of the art on feature matching, and an order of magnitude faster on reconstruction without sacrificing the accuracy. The source code is publicly available at https://github.com/openxrlab/xrsfm
翻訳日:2023-02-22 15:49:27 公開日:2023-02-21
# Informative Query を用いたオンラインシンボリック回帰

Online Symbolic Regression with Informative Query ( http://arxiv.org/abs/2302.10539v1 )

ライセンス: Link先を確認
Pengwei Jin, Di Huang, Rui Zhang, Xing Hu, Ziyuan Nan, Zidong Du, Qi Guo, Yunji Chen(参考訳) 記号回帰は、観測データ $\{ \vx_i, y_i \}$ から数式を抽出するタスクであり、科学的発見において重要な役割を果たす。 既存のメソッドの有望な性能にもかかわらず、その多くは \textit{offline} 設定でシンボル回帰を行う。 すなわち、観測されたデータポイントを、データの表現力を探ることなく、一様分布から単純にサンプリングされるものとして扱う。 しかし、現実の科学的な問題では、記号回帰に使用されるデータは、通常、実験によって積極的に得られる。 このように、シンボリック回帰プロセスを促進する情報的データを得る方法は、依然として困難な問題である。 本稿では,反復的に情報を自動取得可能な, \textbf{o}nline \textbf{s}ymbolic \textbf{r}egression のための \textbf{qu}ery ベースのフレームワーク quosr を提案する。 具体的には、各ステップにおいて、QUOSRは履歴データポイントを受け取り、新しい$\vx$を生成し、シンボル式をクエリして対応する$y$を取得し、$(\vx, y)$が新しいデータポイントとして機能する。 このプロセスは、クエリステップの最大数に到達するまで繰り返す。 生成したデータポイントを情報化するために、ニューラルネットワークを用いてフレームワークを実装し、生成したデータポイントと対象表現との相互情報を最大化して学習する。 包括的実験により,情報化データを生成することにより,QUOSRは近代的な記号回帰手法を促進することができることを示す。

Symbolic regression, the task of extracting mathematical expressions from the observed data $\{ \vx_i, y_i \}$, plays a crucial role in scientific discovery. Despite the promising performance of existing methods, most of them conduct symbolic regression in an \textit{offline} setting. That is, they treat the observed data points as given ones that are simply sampled from uniform distributions without exploring the expressive potential of data. However, for real-world scientific problems, the data used for symbolic regression are usually actively obtained by doing experiments, which is an \textit{online} setting. Thus, how to obtain informative data that can facilitate the symbolic regression process is an important problem that remains challenging. In this paper, we propose QUOSR, a \textbf{qu}ery-based framework for \textbf{o}nline \textbf{s}ymbolic \textbf{r}egression that can automatically obtain informative data in an iterative manner. Specifically, at each step, QUOSR receives historical data points, generates new $\vx$, and then queries the symbolic expression to get the corresponding $y$, where the $(\vx, y)$ serves as new data points. This process repeats until the maximum number of query steps is reached. To make the generated data points informative, we implement the framework with a neural network and train it by maximizing the mutual information between generated data points and the target expression. Through comprehensive experiments, we show that QUOSR can facilitate modern symbolic regression methods by generating informative data.
翻訳日:2023-02-22 15:49:05 公開日:2023-02-21
# dual domain adversarial network と virtual domain pairing を用いた非知覚話者-感情ペアの非並列感情音声変換

Nonparallel Emotional Voice Conversion For Unseen Speaker-Emotion Pairs Using Dual Domain Adversarial Network & Virtual Domain Pairing ( http://arxiv.org/abs/2302.10536v1 )

ライセンス: Link先を確認
Nirmesh Shah, Mayank Kumar Singh, Naoya Takahashi, Naoyuki Onoe(参考訳) 感情音声変換システム(EVC)の第一の目的は、与えられた音声信号の感情を、その信号の言語内容を変更することなく、あるスタイルから別のスタイルに変換することである。 最先端のアプローチのほとんどは、見ている話者と感情の組み合わせに対する感情を変換する。 本稿では、トレーニングとテスト中に中性データのみが存在する話者の感情を変換する問題に対処する(即ち、未知の話者と感情の組み合わせ)。 そこで我々は最近提案したStartGANv2-VCアーキテクチャを拡張し、話者と感情スタイルの埋め込みと2つのドメインソース分類器を別々に学習する。 実データに存在しない話者と感情の組み合わせを仮想ドメインペアリング(VDP)学習戦略として,識別器とジェネレータのMin-maxゲームに妥協することなく,仮想ドメインペアリング(VDP)学習戦略を提案する。 提案手法はヒンディー語感情データベースを用いて評価する。

Primary goal of an emotional voice conversion (EVC) system is to convert the emotion of a given speech signal from one style to another style without modifying the linguistic content of the signal. Most of the state-of-the-art approaches convert emotions for seen speaker-emotion combinations only. In this paper, we tackle the problem of converting the emotion of speakers whose only neutral data are present during the time of training and testing (i.e., unseen speaker-emotion combinations). To this end, we extend a recently proposed StartGANv2-VC architecture by utilizing dual encoders for learning the speaker and emotion style embeddings separately along with dual domain source classifiers. For achieving the conversion to unseen speaker-emotion combinations, we propose a Virtual Domain Pairing (VDP) training strategy, which virtually incorporates the speaker-emotion pairs that are not present in the real data without compromising the min-max game of a discriminator and generator in adversarial training. We evaluate the proposed method using a Hindi emotional database.
翻訳日:2023-02-22 15:48:34 公開日:2023-02-21
# 機械学習に基づく宇宙船デブリの再突入リスクと安全性評価

Reentry Risk and Safety Assessment of Spacecraft Debris Based on Machine Learning ( http://arxiv.org/abs/2302.10530v1 )

ライセンス: Link先を確認
Hu Gao and Zhihui Li and Depeng Dang and Jingfan Yang and Ning Wang(参考訳) 無制御の宇宙船は再突入の過程で大量のデブリを分解し生成し、アブレイティブデブリは地上の生命と財産の安全性に潜在的なリスクを引き起こす可能性がある。 したがって、宇宙船の残骸の着陸地点を予測し、人命と財産に対する破片の危険度を予測することが非常に重要である。 再突入過程と再突入点を事前に予測することは困難であり、再突入崩壊によって発生する破片は、無制御の宇宙船の運用終了時に地上の損傷を引き起こす可能性がある。 本稿では, 宇宙船とその分解した部品を単純な幾何学的モデルから構成するオブジェクト指向手法を採用し, 支持ベクトル回帰(SVR), 決定木回帰(DTR), 多層パーセプトロン(MLP)の3つの機械学習モデルを導入し, 宇宙船デブリ着陸地点の速度, 経度, 緯度を初めて予測した。 次に,3つのモデルの予測精度を比較した。 さらに、再突入リスクと危険度を定義し、各宇宙船の残骸の危険度を算出し、それに応じて警告を行う。 実験の結果,提案手法は,少なくとも15秒で高精度な予測結果を得ることができ,安全性レベル警告をよりリアルタイムに行えることがわかった。

Uncontrolled spacecraft will disintegrate and generate a large amount of debris in the reentry process, and ablative debris may cause potential risks to the safety of human life and property on the ground. Therefore, predicting the landing points of spacecraft debris and forecasting the degree of risk of debris to human life and property is very important. In view that it is difficult to predict the process of reentry process and the reentry point in advance, and the debris generated from reentry disintegration may cause ground damage for the uncontrolled space vehicle on expiration of service. In this paper, we adopt the object-oriented approach to consider the spacecraft and its disintegrated components as consisting of simple basic geometric models, and introduce three machine learning models: the support vector regression (SVR), decision tree regression (DTR) and multilayer perceptron (MLP) to predict the velocity, longitude and latitude of spacecraft debris landing points for the first time. Then, we compare the prediction accuracy of the three models. Furthermore, we define the reentry risk and the degree of danger, and we calculate the risk level for each spacecraft debris and make warnings accordingly. The experimental results show that the proposed method can obtain high accuracy prediction results in at least 15 seconds and make safety level warning more real-time.
翻訳日:2023-02-22 15:48:17 公開日:2023-02-21
# HierCat: Facebook Marketplaceの弱監視データから階層的なクエリカテゴリ化

HierCat: Hierarchical Query Categorization from Weakly Supervised Data at Facebook Marketplace ( http://arxiv.org/abs/2302.10527v1 )

ライセンス: Link先を確認
Yunzhong He, Cong Zhang, Ruoyan Kong, Chaitanya Kulkarni, Qing Liu, Ashish Gandhe, Amit Nithianandan, Arul Prakash(参考訳) Facebook Marketplaceのようなカスタマツーカスタマeコマースのプラモデルでのクエリ分類は、検索意図の曖昧さ、現実世界のデータにおけるノイズ、言語間の不均衡なトレーニングデータのために難しい。 そのデプロイメントは、モデリングの進歩をより良い検索結果の関連性に変換するために、スケーラビリティと下流の統合において、共役的な課題も必要です。 本稿では,Facebook Marketplaceのクエリ分類システムであるHierCatを紹介する。 hiercatは、デュアルエンコーダアーキテクチャのマルチタスク事前トレーニングと階層的推論ステップを活用することで、これらの課題に対処する。 hiercatはオフライン実験で一般的な手法を上回るだけでなく、ndcgでは1.4%、facebook marketplace searchでは4.3%、オンラインa/bテストでは4.3%も改善している。

Query categorization at customer-to-customer e-commerce plat- forms like Facebook Marketplace is challenging due to the vague- ness of search intent, noise in real-world data, and imbalanced training data across languages. Its deployment also needs to con- sider challenges in scalability and downstream integration in order to translate modeling advances into better search result relevance. In this paper we present HierCat, the query categorization system at Facebook Marketplace. HierCat addresses these challenges by leveraging multi-task pre-training of dual-encoder architectures with a hierarchical inference step to effectively learn from weakly supervised training data mined from searcher engagement. We show that HierCat not only outperforms popular methods in offline experiments, but also leads to 1.4% improvement in NDCG and 4.3% increase in searcher engagement at Facebook Marketplace Search in online A/B testing.
翻訳日:2023-02-22 15:47:53 公開日:2023-02-21
# LU-Net:行列分解に基づく可逆ニューラルネットワーク

LU-Net: Invertible Neural Networks Based on Matrix Factorization ( http://arxiv.org/abs/2302.10524v1 )

ライセンス: Link先を確認
Robin Chan, Sarina Penquitt, Hanno Gottschalk(参考訳) lu-net は可逆ニューラルネットワーク (inn) のための単純かつ高速なアーキテクチャであり、二次重み行列の因子分解である $\mathsf{a=lu}$ に基づいており、ここで $\mathsf{l}$ は対角線上の行列と$\mathsf{u}$ 上三角行列を持つ下三角行列である。 完全に占有された行列 $\mathsf{A}$ を学ぶ代わりに、$\mathsf{L}$ と $\mathsf{U}$ を別々に学ぶ。 可逆活性化関数と組み合わせると、$\mathsf{u}$ の対角成分が 0 と異なるとき、そのような層は容易に反転することができる。 また、そのような層のヤコビ行列の行列式の計算は安価である。 これにより、LUアーキテクチャは変数公式の変更による可能性の安価な計算を可能にし、最大公理に従って訓練することができる。 数値実験では,複数の学術データセット上でLU-netアーキテクチャを生成モデルとして検証した。 また、従来の非可逆ニューラルネットワークと比較して、パフォーマンス、トレーニング、実行時間の観点から詳細に比較する。

LU-Net is a simple and fast architecture for invertible neural networks (INN) that is based on the factorization of quadratic weight matrices $\mathsf{A=LU}$, where $\mathsf{L}$ is a lower triangular matrix with ones on the diagonal and $\mathsf{U}$ an upper triangular matrix. Instead of learning a fully occupied matrix $\mathsf{A}$, we learn $\mathsf{L}$ and $\mathsf{U}$ separately. If combined with an invertible activation function, such layers can easily be inverted whenever the diagonal entries of $\mathsf{U}$ are different from zero. Also, the computation of the determinant of the Jacobian matrix of such layers is cheap. Consequently, the LU architecture allows for cheap computation of the likelihood via the change of variables formula and can be trained according to the maximum likelihood principle. In our numerical experiments, we test the LU-net architecture as generative model on several academic datasets. We also provide a detailed comparison with conventional invertible neural networks in terms of performance, training as well as run time.
翻訳日:2023-02-22 15:47:36 公開日:2023-02-21
# I2V: 実世界の画像に対する自己学習を用いたテクスチャ認識型自己監視ブラインドデノイングを目指して

I2V: Towards Texture-Aware Self-Supervised Blind Denoising using Self-Residual Learning for Real-World Images ( http://arxiv.org/abs/2302.10523v1 )

ライセンス: Link先を確認
Kanggeun Lee, Kyungryun Lee, and Won-Ki Jeong(参考訳) 自己監督型ブラインドデノイングの進歩は, 合成ノイズシナリオにおいてクリーンな監視を行わない従来の手法よりも著しく優れているが, 空間的に相関したノイズ劣化により, 現実画像の画質が低下している。 近年,ノイズの空間相関を解消するために,ピクセルシャッフルダウンサンプリング(pd)が提案されている。 ブラインドスポットネットワーク(BSN)と非対称PD(AP)を組み合わせることで,実世界のノイズ画像に適用できることを示した。 しかし、PDベースの推論は、ダウンサンプル画像で高周波の詳細(エッジなど)が破壊されるため、テスト段階でテクスチャの詳細を劣化させる可能性がある。 このような問題を避けるため, PD処理を使わずに自己学習を行い, テクスチャ情報を維持する。 また,オーダ変動PD制約,ノイズ先行損失,および性能向上のための効率的な推論スキーム(プログレッシブランダムリプレース改良(\text{PR}^3$))を提案する。 提案手法は,PSNR, SSIM, LPIPS, DISTSなどの教師あり学習手法を含む,最先端の自己監督型視覚失調法よりも実世界のsRGB画像の方が優れていることを示す。

Although the advances of self-supervised blind denoising are significantly superior to conventional approaches without clean supervision in synthetic noise scenarios, it shows poor quality in real-world images due to spatially correlated noise corruption. Recently, pixel-shuffle downsampling (PD) has been proposed to eliminate the spatial correlation of noise. A study combining a blind spot network (BSN) and asymmetric PD (AP) successfully demonstrated that self-supervised blind denoising is applicable to real-world noisy images. However, PD-based inference may degrade texture details in the testing phase because high-frequency details (e.g., edges) are destroyed in the downsampled images. To avoid such an issue, we propose self-residual learning without the PD process to maintain texture information. We also propose an order-variant PD constraint, noise prior loss, and an efficient inference scheme (progressive random-replacing refinement ($\text{PR}^3$)) to boost overall performance. The results of extensive experiments show that the proposed method outperforms state-of-the-art self-supervised blind denoising approaches, including several supervised learning methods, in terms of PSNR, SSIM, LPIPS, and DISTS in real-world sRGB images.
翻訳日:2023-02-22 15:47:16 公開日:2023-02-21
# 漸進的相互情報とゴキブリ群最適化に基づく特徴選択アルゴリズム

Feature selection algorithm based on incremental mutual information and cockroach swarm optimization ( http://arxiv.org/abs/2302.10522v1 )

ライセンス: Link先を確認
Zhao and Chen(参考訳) 特徴選択はデータ次元を減らす効果的な前処理技術である。 特徴選択のために、ラフ集合論は、相互情報が最も重要な属性測度の1つである多くの測度を提供する。 しかし、相互情報に基づく重要度尺度は計算コストが高く、特にハイパーサンプルの場合不正確であり、高次元超高次元データセットにおけるNPハード問題であることは確かである。 多くの代表的なグループ知的アルゴリズム特徴選択戦略が提案されているが、高次元の大規模データセットを処理するためにこれらの特徴選択アルゴリズムを使用する場合、依然としてボトルネックがあり、多くの性能を消費し、弱い相関と冗長な特徴の選択が容易である。 本研究では、粗設定理論を用いて、相互情報に基づく特徴選択の重要性を計算し、インクリメンタルな相互情報に基づく改良された群知能最適化法(IMIICSO)を提案する。 本手法は,グループアルゴリズムのグローバル検索のための決定表削減知識を抽出する。 スーパーサンプルの相互情報の計算を探索することにより、内部および外部の計算を高速化するために無駄な特徴を捨てるだけでなく、IMIICSO法を用いて最適な特徴部分集合の濃度を効果的に低減し、比較によって濃度を最小化する。 改良されたcockroach swarmアルゴリズムによって選択された機能サブセットの精度は、インクリメンタルな相互情報に基づいて、元のswarmintelligent optimizationアルゴリズムよりも、あるいはほぼ同じである。 大規模および高次元データセットを含むuci由来の10個のデータセットを用いた実験により,提案アルゴリズムの有効性と有効性を確認した。

Feature selection is an effective preprocessing technique to reduce data dimension. For feature selection, rough set theory provides many measures, among which mutual information is one of the most important attribute measures. However, mutual information based importance measures are computationally expensive and inaccurate, especially in hypersample instances, and it is undoubtedly a NP-hard problem in high-dimensional hyperhigh-dimensional data sets. Although many representative group intelligent algorithm feature selection strategies have been proposed so far to improve the accuracy, there is still a bottleneck when using these feature selection algorithms to process high-dimensional large-scale data sets, which consumes a lot of performance and is easy to select weakly correlated and redundant features. In this study, we propose an incremental mutual information based improved swarm intelligent optimization method (IMIICSO), which uses rough set theory to calculate the importance of feature selection based on mutual information. This method extracts decision table reduction knowledge to guide group algorithm global search. By exploring the computation of mutual information of supersamples, we can not only discard the useless features to speed up the internal and external computation, but also effectively reduce the cardinality of the optimal feature subset by using IMIICSO method, so that the cardinality is minimized by comparison. The accuracy of feature subsets selected by the improved cockroach swarm algorithm based on incremental mutual information is better or almost the same as that of the original swarm intelligent optimization algorithm. Experiments using 10 datasets derived from UCI, including large scale and high dimensional datasets, confirmed the efficiency and effectiveness of the proposed algorithm.
翻訳日:2023-02-22 15:46:51 公開日:2023-02-21
# 人文科学と社会科学をつなぐ:オンラインパネル調査への言語と音声技術の適用

Connecting Humanities and Social Sciences: Applying Language and Speech Technology to Online Panel Surveys ( http://arxiv.org/abs/2302.10593v1 )

ライセンス: Link先を確認
Henk van den Heuvel, Martijn Bentum, Simone Wills, Judith C. Koops(参考訳) 本稿では,オランダのパネル調査において,オープンエンド質問に対する言語と音声技術の応用について検討する。 実験的なウェーブでは、回答者は音声やキーボードで質問に答えることができた。 音声応答処理には自動音声認識(asr)を用いた。 我々は、これらの入力モードからの回答を評価し、音声とタイプされた回答の違いを調査し、ASRシステムが生成した誤りを報告し、これらの誤りが下流分析に与える影響について調査した。 オープンエンドの質問は、回答者に回答する自由を与えるが、分析するためには自明な作業が伴う。 オープンな質問の回答に感情分析とトピックモデリングを適用するためにトランスフォーマーベースモデル(例えばBERT)の有効性を評価した。 トランスフォーマーベースのモデルの大きな利点は、大量の言語材料でトレーニングされ、必ずしも対象材料でのトレーニングを必要としないことである。 これは、多くのテキスト資料を含まない調査データにとって特に有利である。 3人のラベリングと自動ラベリングを比較して自動感情分析の質を検証し、自動および手書き音声による回答に基づいて生成されたモデルを比較してトピックモデリングの頑健さを検証した。

In this paper, we explore the application of language and speech technology to open-ended questions in a Dutch panel survey. In an experimental wave respondents could choose to answer open questions via speech or keyboard. Automatic speech recognition (ASR) was used to process spoken responses. We evaluated answers from these input modalities to investigate differences between spoken and typed answers.We report the errors the ASR system produces and investigate the impact of these errors on downstream analyses. Open-ended questions give more freedom to answer for respondents, but entail a non-trivial amount of work to analyse. We evaluated the feasibility of using transformer-based models (e.g. BERT) to apply sentiment analysis and topic modelling on the answers of open questions. A big advantage of transformer-based models is that they are trained on a large amount of language materials and do not necessarily need training on the target materials. This is especially advantageous for survey data, which does not contain a lot of text materials. We tested the quality of automatic sentiment analysis by comparing automatic labeling with three human raters and tested the robustness of topic modelling by comparing the generated models based on automatic and manually transcribed spoken answers.
翻訳日:2023-02-22 15:40:38 公開日:2023-02-21
# 拡散モデルと半監督学習者の相互適合性

Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels ( http://arxiv.org/abs/2302.10586v1 )

ライセンス: Link先を確認
Zebin You, Yong Zhong, Fan Bao, Jiacheng Sun, Chongxuan Li, Jun Zhu(参考訳) 半教師付き学習における条件付き画像生成と分類のためのdpt(dual pseudo training)と呼ばれる3段階学習戦略を提案する。 まず、分類器は部分的にラベル付けされたデータに基づいて訓練され、すべてのデータに対する擬似ラベルを予測する。 第二に、条件付き生成モデルは擬似ラベルで全てのデータに基づいて訓練され、与えられた擬似画像を生成する。 最後に、ラベル付き擬似画像によって強調された実データに基づいて分類器を訓練する。 大規模拡散モデルと半教師付き学習者は、DPTを介していくつかのラベルと相互に利益を示す。 特に、ImageNet 256x256生成ベンチマークでは、DPTは非常に少ないラベルで現実的で多様性があり、セマンティックに正しい画像を生成することができる。 クラスごとに2つの(すなわち < 0.2%)と5つの(すなわち < 0.4%)ラベルを持つDPTは、それぞれ3.44と3.37のFIDを達成し、IDDPM、CDM、ADM、LDMといったフルラベルの強い拡散モデルよりも優れている。 さらに、DPTは、ImageNet分類ベンチマークにおいて、1クラスあたり1、2、5ラベルで、59.0 (+2.8), 69.5 (+3.0), 73.6 (+1.2)の最先端トップ1アキュラシーをそれぞれ達成し、競合する半教師付きベースラインをほぼ上回っている。

We propose a three-stage training strategy called dual pseudo training (DPT) for conditional image generation and classification in semi-supervised learning. First, a classifier is trained on partially labeled data and predicts pseudo labels for all data. Second, a conditional generative model is trained on all data with pseudo labels and generates pseudo images given labels. Finally, the classifier is trained on real data augmented by pseudo images with labels. We demonstrate large-scale diffusion models and semi-supervised learners benefit mutually with a few labels via DPT. In particular, on the ImageNet 256x256 generation benchmark, DPT can generate realistic, diverse, and semantically correct images with very few labels. With two (i.e., < 0.2%) and five (i.e., < 0.4%) labels per class, DPT achieves an FID of 3.44 and 3.37 respectively, outperforming strong diffusion models with full labels, such as IDDPM, CDM, ADM, and LDM. Besides, DPT outperforms competitive semi-supervised baselines substantially on ImageNet classification benchmarks with one, two, and five labels per class, achieving state-of-the-art top-1 accuracies of 59.0 (+2.8), 69.5 (+3.0), and 73.6 (+1.2) respectively.
翻訳日:2023-02-22 15:40:18 公開日:2023-02-21
# Classy Ensemble: 分類のための新しいEnsembleアルゴリズム

Classy Ensemble: A Novel Ensemble Algorithm for Classification ( http://arxiv.org/abs/2302.10580v1 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 本稿では,クラス毎の精度の重み付けによってモデルを集約する,分類タスクのための新しいアンサンブル生成アルゴリズムであるClassy Ensembleを提案する。 153以上の機械学習データセットをテストすると、Classy Ensembleは、注文ベースのプルーニングとクラスタリングベースのプルーニングという、他のよく知られたアグリゲーションアルゴリズムと、最近導入されたレキシガーデンアンサンブルジェネレータよりも優れています。 また,ディープネットワークの予備結果を示す。

We present Classy Ensemble, a novel ensemble-generation algorithm for classification tasks, which aggregates models through a weighted combination of per-class accuracy. Tested over 153 machine learning datasets we demonstrate that Classy Ensemble outperforms two other well-known aggregation algorithms -- order-based pruning and clustering-based pruning -- as well as the recently introduced lexigarden ensemble generator. We also show preliminary results for deep networks.
翻訳日:2023-02-22 15:39:55 公開日:2023-02-21
# 真実を推測するな 最適なものを選ぶんだ 機械学習分類器の確率変換器

Don't guess what's true: choose what's optimal. A probability transducer for machine-learning classifiers ( http://arxiv.org/abs/2302.10578v1 )

ライセンス: Link先を確認
K. Dyrland, A. S. Lundervold, P.G.L. Porta Mana(参考訳) 医学や創薬などの分野において、分類の究極の目標は、クラスを推測することではなく、クラスの集合と1対1の対応ではなく、可能なものの集合の中で最適な行動経路を選択することである。 この決定論的問題は、クラスの賢明な確率を必要とする。 特徴に条件づけられた確率は、多くの重要なケースでほとんど計算不可能である。 本研究の主な考え方は,特徴量ではなく,訓練された分類器の出力に基づいて確率を計算することである。 この計算は安価で、一度だけ行う必要があり、分類器の全ての将来の出力に適用できる出力から確率までの「変換器」を提供する。 問題依存ユーティリティと連携して、トランスデューサの確率は、期待利用の最大化によって、クラスまたはより一般的な決定のセットの中で最適な選択を見つけることができる。 このアイデアは、高度に不均衡なデータセットを持つ簡易な薬物発見問題で実証される。 トランスデューサとユーティリティの最大化は、常に、問題依存ユーティリティのすべての集合に対して、理論上の最大値に近い結果をもたらす。 トランスデューサのワンタイムオンリーな計算も自動的に提供します。 (i) トランスデューサ自体に関する不確かさの定量化 二 アルゴリズム選択に使用できる拡張アルゴリズム(不確実性を含む。)の期待される実用性 (iii) 学習データセットが偏りがある場合に役立つ「生成モード」におけるアルゴリズムの使用の可能性。

In fields such as medicine and drug discovery, the ultimate goal of a classification is not to guess a class, but to choose the optimal course of action among a set of possible ones, usually not in one-one correspondence with the set of classes. This decision-theoretic problem requires sensible probabilities for the classes. Probabilities conditional on the features are computationally almost impossible to find in many important cases. The main idea of the present work is to calculate probabilities conditional not on the features, but on the trained classifier's output. This calculation is cheap, needs to be made only once, and provides an output-to-probability "transducer" that can be applied to all future outputs of the classifier. In conjunction with problem-dependent utilities, the probabilities of the transducer allow us to find the optimal choice among the classes or among a set of more general decisions, by means of expected-utility maximization. This idea is demonstrated in a simplified drug-discovery problem with a highly imbalanced dataset. The transducer and utility maximization together always lead to improved results, sometimes close to theoretical maximum, for all sets of problem-dependent utilities. The one-time-only calculation of the transducer also provides, automatically: (i) a quantification of the uncertainty about the transducer itself; (ii) the expected utility of the augmented algorithm (including its uncertainty), which can be used for algorithm selection; (iii) the possibility of using the algorithm in a "generative mode", useful if the training dataset is biased.
翻訳日:2023-02-22 15:39:44 公開日:2023-02-21
# 協調フィルタリング推薦システムにおける多面バイアス管理

Managing multi-facet bias in collaborative filtering recommender systems ( http://arxiv.org/abs/2302.10575v1 )

ライセンス: Link先を確認
Samira Vaez Barenji, Saeed Farzi(参考訳) オンラインで利用可能な情報の増加により、リコメンダシステムは人々の利益に貢献する上でより重要な役割を果たす。 従来のレコメンデーションシステムは、主に精度を重視したアプローチでレコメンデーションを生成する。 今日の研究では、このシングルディメンションアプローチによって、システムは特定の属性を持つ一連のアイテムに対してバイアスを負うことができることを示唆している。 アイテムグループ間のバイアスドレコメンデーションは、システムに対するユーザの不満を引き起こすとともに、アイテムプロバイダの利益を脅かす可能性がある。 本研究の目的は,最先端の協調フィルタリング推薦アルゴリズムの出力における地理的起源と人気に関する新たなタイプの交叉バイアスを管理することである。 我々は,これらのバイアスを緩和するマルチフェース後バイアス緩和アルゴリズムであるmfairを提案する。 2つの実世界の映画と書籍のデータセットに関する大規模な実験は、アイテムの生産大陸に富んだものであり、提案アルゴリズムが精度と上記のバイアスの両タイプの間に合理的なバランスをとることを示している。 その結果,提案手法は,効率をわずかに損なうことなく,よく知られた競合よりも優れていた。

Due to the extensive growth of information available online, recommender systems play a more significant role in serving people's interests. Traditional recommender systems mostly use an accuracy-focused approach to produce recommendations. Today's research suggests that this single-dimension approach can lead the system to be biased against a series of items with certain attributes. Biased recommendations across groups of items can endanger the interests of item providers along with causing user dissatisfaction with the system. This study aims to manage a new type of intersectional bias regarding the geographical origin and popularity of items in the output of state-of-the-art collaborative filtering recommender algorithms. We introduce an algorithm called MFAIR, a multi-facet post-processing bias mitigation algorithm to alleviate these biases. Extensive experiments on two real-world datasets of movies and books, enriched with the items' continents of production, show that the proposed algorithm strikes a reasonable balance between accuracy and both types of the mentioned biases. According to the results, our proposed approach outperforms a well-known competitor with no or only a slight loss of efficiency.
翻訳日:2023-02-22 15:39:22 公開日:2023-02-21
# mulgt: タスク対応のナレッジインジェクションとドメイン知識駆動プールを備えたマルチタスクグラフ変換器

MulGT: Multi-task Graph-Transformer with Task-aware Knowledge Injection and Domain Knowledge-driven Pooling for Whole Slide Image Analysis ( http://arxiv.org/abs/2302.10574v1 )

ライセンス: Link先を確認
Weiqin Zhao, Shujun Wang, Maximus Yeung, Tianye Niu, Lequan Yu(参考訳) 深層学習領域における自動診断を支援するためにWSI(Whole Slide Image)が広く用いられている。 しかし、これまでのほとんどの研究は、実際の臨床環境と一致しないSINGLEタスク設定についてのみ論じており、病理学者は複数の診断タスクを同時に行うことが多い。 また、マルチタスク学習パラダイムは、複数のタスク間の共通点や相違点を活用することにより、学習効率を向上させることが一般的である。 この目的のために,タスク認識型知識注入とドメイン知識駆動型グラフポーリングモジュールを備えたグラフ変換器により,WSI解析のための新しいマルチタスクフレームワーク(MulGT)を提案する。 基本的に、Graph Neural NetworkとTransformerをビルディングコモンズとして、我々のフレームワークはタスクに依存しない低レベルローカル情報とタスク固有の高レベルグローバル表現を学習することができる。 WSI分析の異なるタスクが異なる機能や性質に依存していることを考慮し、タスク共有グラフをタスク固有の特徴空間に埋め込む新しいタスク対応知識注入モジュールを設計し、異なるタスクのより正確な表現を学ぶ。 さらに,各タスクに対する新たなドメイン知識駆動グラフプーリングモジュールの設計を行い,複数のタスクの異なる診断パターンを活用して,タスクの正確性と堅牢性を向上させる。 TCGAプロジェクトの2つの公開WSIデータセット,すなわち食道癌と腎癌について検討した。 実験の結果, 腫瘍のタイピングとステージングの両方において, シングルタスクと最先端メソッドに勝ることがわかった。

Whole slide image (WSI) has been widely used to assist automated diagnosis under the deep learning fields. However, most previous works only discuss the SINGLE task setting which is not aligned with real clinical setting, where pathologists often conduct multiple diagnosis tasks simultaneously. Also, it is commonly recognized that the multi-task learning paradigm can improve learning efficiency by exploiting commonalities and differences across multiple tasks. To this end, we present a novel multi-task framework (i.e., MulGT) for WSI analysis by the specially designed Graph-Transformer equipped with Task-aware Knowledge Injection and Domain Knowledge-driven Graph Pooling modules. Basically, with the Graph Neural Network and Transformer as the building commons, our framework is able to learn task-agnostic low-level local information as well as task-specific high-level global representation. Considering that different tasks in WSI analysis depend on different features and properties, we also design a novel Task-aware Knowledge Injection module to transfer the task-shared graph embedding into task-specific feature spaces to learn more accurate representation for different tasks. Further, we elaborately design a novel Domain Knowledge-driven Graph Pooling module for each task to improve both the accuracy and robustness of different tasks by leveraging different diagnosis patterns of multiple tasks. We evaluated our method on two public WSI datasets from TCGA projects, i.e., esophageal carcinoma and kidney carcinoma. Experimental results show that our method outperforms single-task counterparts and the state-of-theart methods on both tumor typing and staging tasks.
翻訳日:2023-02-22 15:39:07 公開日:2023-02-21
# SurvLIMEpy: SurvLIMEを実装するPythonパッケージ

SurvLIMEpy: A Python package implementing SurvLIME ( http://arxiv.org/abs/2302.10571v1 )

ライセンス: Link先を確認
Cristian Pach\'on-Garc\'ia, Carlos Hern\'andez-P\'erez, Pedro Delicado, Ver\'onica Vilaplana(参考訳) 本稿では,SurvLIMEアルゴリズムを実装したオープンソースPythonパッケージSurvLIMEpyを提案する。 この方法では、生存分析データをモデル化するために設計された機械学習アルゴリズムの局所的特徴量を計算することができる。 我々の実装は並列化のパラダイムを生かし、全ての計算を行列的に実行し、実行時間を高速化する。 さらに、SurvLIMEpyは、ユーザーがアルゴリズムの結果をよりよく理解するための視覚化ツールを提供する。 このパッケージは、Cox Proportional Hazards ModelからDeepHitやDeepSurvといったディープラーニングモデルまで、さまざまなサバイバルモデルをサポートしている。 本稿では2種類の実験について述べる。 まず,シミュレーションデータを用いて,特徴の重要性を捉えるアルゴリズムの能力について検討する。 次に、3つのオープンソースサバイバルデータセットと一連のサバイバルアルゴリズムを用いて、異なるモデルに適用した場合のSurvLIMEpyの挙動を実証する。

In this paper we present SurvLIMEpy, an open-source Python package that implements the SurvLIME algorithm. This method allows to compute local feature importance for machine learning algorithms designed for modelling Survival Analysis data. Our implementation takes advantage of the parallelisation paradigm as all computations are performed in a matrix-wise fashion which speeds up execution time. Additionally, SurvLIMEpy assists the user with visualization tools to better understand the result of the algorithm. The package supports a wide variety of survival models, from the Cox Proportional Hazards Model to deep learning models such as DeepHit or DeepSurv. Two types of experiments are presented in this paper. First, by means of simulated data, we study the ability of the algorithm to capture the importance of the features. Second, we use three open source survival datasets together with a set of survival algorithms in order to demonstrate how SurvLIMEpy behaves when applied to different models.
翻訳日:2023-02-22 15:38:38 公開日:2023-02-21
# トランスフォーマーとhownet sememes知識の融合による意味的一貫性の共駆動認識

Co-Driven Recognition of Semantic Consistency via the Fusion of Transformer and HowNet Sememes Knowledge ( http://arxiv.org/abs/2302.10570v1 )

ライセンス: Link先を確認
Fan Chen, Yan Huang, Xinfang Zhang, Kang Luo, Jinxuan Zhu, Ruixian He(参考訳) 意味的一貫性認識は、2つの文の意味が互いに一致しているかどうかを検知し、判断することを目的としている。 しかし、既存の手法は通常、同義語、多義語、長文理解の難しさといった課題に直面する。 そこで本稿では,Transformer と HowNet のセマンティック知識の融合に基づく,協調型セマンティック一貫性認識手法を提案する。 文ペア間の意味的知識関係をモデル化するために, セメム知識ベースであるハウネットを導入し, 内部文構造をデータ駆動でマルチレベル符号化する。 そして、ソフトアテンションを利用して対話的注意計算を行い、知識をセムマトリクスと融合させる。 最後に、双方向長期記憶ネットワーク(BiLSTM)を用いて、概念意味情報をエンコードし、意味的一貫性を推測する。 2つのファイナンシャルテキストマッチングデータセット(BQ, AFQMC)とパラフレーズ識別のための言語間敵対データセット(PAWSX)で実験を行った。 DSSM、MwAN、DRCNなどの軽量モデルやERNIEなどの事前学習モデルと比較して、提案モデルは意味整合性認識の精度を効果的に向上するだけでなく(BQデータセット上のDSSM、MWAN、DRCNモデルと比較して2.19%、5.57%、6.51%)、モデルのパラメータ(約16M)を減らすことができる。 さらに、hownet sememesの知識によって、提案手法は長いテキストのシナリオに適応することを約束している。

Semantic consistency recognition aims to detect and judge whether the semantics of two text sentences are consistent with each other. However, the existing methods usually encounter the challenges of synonyms, polysemy and difficulty to understand long text. To solve the above problems, this paper proposes a co-driven semantic consistency recognition method based on the fusion of Transformer and HowNet sememes knowledge. Multi-level encoding of internal sentence structures via data-driven is carried out firstly by Transformer, sememes knowledge base HowNet is introduced for knowledge-driven to model the semantic knowledge association among sentence pairs. Then, interactive attention calculation is carried out utilizing soft-attention and fusion the knowledge with sememes matrix. Finally, bidirectional long short-term memory network (BiLSTM) is exploited to encode the conceptual semantic information and infer the semantic consistency. Experiments are conducted on two financial text matching datasets (BQ, AFQMC) and a cross-lingual adversarial dataset (PAWSX) for paraphrase identification. Compared with lightweight models including DSSM, MwAN, DRCN, and pre-training models such as ERNIE etc., the proposed model can not only improve the accuracy of semantic consistency recognition effectively (by 2.19%, 5.57% and 6.51% compared with the DSSM, MWAN and DRCN models on the BQ dataset), but also reduce the number of model parameters (to about 16M). In addition, driven by the HowNet sememes knowledge, the proposed method is promising to adapt to scenarios with long text.
翻訳日:2023-02-22 15:38:25 公開日:2023-02-21
# グラフニューラルネットワークに基づくレコメンダシステムにおけるアグリゲーション最適化のためのデュアルポリシー学習

Dual Policy Learning for Aggregation Optimization in Graph Neural Network-based Recommender Systems ( http://arxiv.org/abs/2302.10567v1 )

ライセンス: Link先を確認
Heesoo Jung, Sangpil Kim, Hogun Park(参考訳) グラフニューラルネットワーク(GNN)は、リコメンデーションタスクのための強力な表現を提供する。 GNNベースのレコメンデーションシステムは、遠隔地からの情報を集約することで、ユーザとアイテム間の複雑な高次接続を捉え、レコメンデーションシステムの性能を向上させることができる。 近年,知識グラフ (KGs) もユーザと対話グラフに組み込まれ,より豊富なコンテキスト情報を提供し,コールドスタート問題に対処し,GNNベースのレコメンデータシステム (GNN-Rs) においてより説明可能なアグリゲーションを可能にする。 しかし,ユーザとアイテムの異質な性質から,lightgcnやkgatといった複数のgnn-rsにまたがる効果的なアグリゲーション戦略の開発が課題となっている。 本稿では,DPAO(Dual Policy framework for Aggregation Optimization)と呼ぶ,レコメンダシステムのための新しい強化学習ベースのメッセージパッシングフレームワークを提案する。 このフレームワークは2つのポリシー学習を用いてユーザやアイテムを集約する高次接続を適応的に決定する。 デュアルポリシー学習は、2つのDeep-Q-Networkモデルを利用して、GNN-Rからのユーザとアイテムのフィードバックを活用し、ターゲットのGNN-Rの性能を高める。 提案フレームワークは,6つの実世界のデータセット上で,非KGベースとKGベース両方のGNN-Rモデルを用いて評価し,提案フレームワークは最近のベースモデルを大幅に改善し,nDCGとリコールを最大63.7%,42.9%向上させた。 私たちの実装コードはhttps://github.com/steve30572/DPAO/で利用可能です。

Graph Neural Networks (GNNs) provide powerful representations for recommendation tasks. GNN-based recommendation systems capture the complex high-order connectivity between users and items by aggregating information from distant neighbors and can improve the performance of recommender systems. Recently, Knowledge Graphs (KGs) have also been incorporated into the user-item interaction graph to provide more abundant contextual information; they are exploited to address cold-start problems and enable more explainable aggregation in GNN-based recommender systems (GNN-Rs). However, due to the heterogeneous nature of users and items, developing an effective aggregation strategy that works across multiple GNN-Rs, such as LightGCN and KGAT, remains a challenge. In this paper, we propose a novel reinforcement learning-based message passing framework for recommender systems, which we call DPAO (Dual Policy framework for Aggregation Optimization). This framework adaptively determines high-order connectivity to aggregate users and items using dual policy learning. Dual policy learning leverages two Deep-Q-Network models to exploit the user- and item-aware feedback from a GNN-R and boost the performance of the target GNN-R. Our proposed framework was evaluated with both non-KG-based and KG-based GNN-R models on six real-world datasets, and their results show that our proposed framework significantly enhances the recent base model, improving nDCG and Recall by up to 63.7% and 42.9%, respectively. Our implementation code is available at https://github.com/steve30572/DPAO/.
翻訳日:2023-02-22 15:37:50 公開日:2023-02-21
# 多体非マルコフ力学のダイアグラム法:記憶効果と絡み合い遷移

Diagrammatic method for many-body non-Markovian dynamics: memory effects and entanglement transitions ( http://arxiv.org/abs/2302.10563v1 )

ライセンス: Link先を確認
Giuliano Chiriac\`o and Mikheil Tsitsishvili and Dario Poletti and Rosario Fazio and Marcello Dalmonte(参考訳) 我々は,多体系のコヒーレント進化と非マルコフ浴との結合の量子力学について検討した。 本稿では,量子ジャンプの観点から非マルコフ力学を解き明かす手法を提案する。 量子軌道の確率を体系的に計算し,それを図式構造で定式化する手法を開発した。 非マルコフ性は量子軌道を実現する確率を再正規化し、記憶効果はマルコフ力学の上の摂動として解釈できる。 図形構造はダイソン方程式と類似しており、軌道の確率は解析的に計算可能であることを示す。 次に、ランダムなユニタリ回路における測定誘起絡み合い遷移について検討する。 非マルコビアン性は遷移を著しくシフトさせるのではなく、過渡的な強い散逸から守ることで絡み合いの体積法相を安定化させる。

We study the quantum dynamics of a many-body system subject to coherent evolution and coupled to a non-Markovian bath. We propose a technique to unravel the non-Markovian dynamics in terms of quantum jumps, a connection that was so far only understood for single-body systems. We develop a systematic method to calculate the probability of a quantum trajectory, and formulate it in a diagrammatic structure. We find that non-Markovianity renormalizes the probability of realizing a quantum trajectory, and that memory effects can be interpreted as a perturbation on top of the Markovian dynamics. We show that the diagrammatic structure is akin to that of a Dyson equation, and that the probability of the trajectories can be calculated analytically. We then apply our results to study the measurement-induced entanglement transition in random unitary circuits. We find that non-Markovianity does not significantly shift the transition, but stabilizes the volume law phase of the entanglement by shielding it from transient strong dissipation.
翻訳日:2023-02-22 15:37:18 公開日:2023-02-21
# 短期実験による長期因果効果の推定と観測不能な観測データ

Estimating long-term causal effects from short-term experiments and long-term observational data with unobserved confounding ( http://arxiv.org/abs/2302.10625v1 )

ライセンス: Link先を確認
Graham Van Goffrier, Lucas Maystre, Ciar\'an Gilligan-Lee(参考訳) 原因と効果の理解と定量化は、多くの領域において重要な問題である。 この問題の一般的な解決法はランダムに制御された試行を実行することである。 しかし、ランダムに制御された試験が実施できる場合でも、コストの考慮により、比較的短い期間がかかるのが普通である。 これにより、長期的因果効果の学習は、長い遅れの後のみ観察されるため、実際には非常に困難な作業となる。 本稿では,実験データと観察データの両方が利用可能である場合の長期治療効果の同定と推定について検討する。 過去の研究は、こうしたデータ体制から長期的な因果効果を推定する戦略を提供した。 しかし、この戦略は観測データに観測されていない共同設立者がいないと仮定した場合のみ機能する。 本稿では,観測データに未測定の共同創設者が存在する場合の問題点を具体的に解決する。 本研究の長期因果効果推定器は、回帰残差と短期実験結果とを具体的手法で組み合わせて計器変数を作成し、計器変数回帰によって長期因果効果を定量化する。 この推定器が偏りがないことを証明し、その分散を解析的に研究する。 フロントドア因果構造では、これは独立した関心を持つ可能性のある新しい因果推定器を提供する。 最後に、我々は、国際脳卒中裁判の実際のデータと同様に、合成データに対する我々のアプローチを実証的にテストします。

Understanding and quantifying cause and effect is an important problem in many domains. The generally-agreed solution to this problem is to perform a randomised controlled trial. However, even when randomised controlled trials can be performed, they usually have relatively short duration's due to cost considerations. This makes learning long-term causal effects a very challenging task in practice, since the long-term outcome is only observed after a long delay. In this paper, we study the identification and estimation of long-term treatment effects when both experimental and observational data are available. Previous work provided an estimation strategy to determine long-term causal effects from such data regimes. However, this strategy only works if one assumes there are no unobserved confounders in the observational data. In this paper, we specifically address the challenging case where unmeasured confounders are present in the observational data. Our long-term causal effect estimator is obtained by combining regression residuals with short-term experimental outcomes in a specific manner to create an instrumental variable, which is then used to quantify the long-term causal effect through instrumental variable regression. We prove this estimator is unbiased, and analytically study its variance. In the context of the front-door causal structure, this provides a new causal estimator, which may be of independent interest. Finally, we empirically test our approach on synthetic-data, as well as real-data from the International Stroke Trial.
翻訳日:2023-02-22 15:30:53 公開日:2023-02-21
# 不一致解消による自己改善物体検出

Self-improving object detection via disagreement reconciliation ( http://arxiv.org/abs/2302.10624v1 )

ライセンス: Link先を確認
Gianluca Scarpellini, Stefano Rosa, Pietro Morerio, Lorenzo Natale, Alessio Del Bue(参考訳) 対象検出器は、トレーニングデータに新しい環境条件が不十分に表現されている場合、しばしば性能低下を経験する。 本稿では,人間の介入に頼らずに,新しい環境で画像を探索し,取得しながら,既存の物体検出器を自動的に微調整する方法について検討する。 我々の設定では、エージェントが事前に訓練されたオフ・ザ・シェルフ検出器を用いて環境を探索し、オブジェクトを検出し、擬似ラベルを関連付ける。 同一対象に対する擬似ラベルは、異なる視点で一致しなければならないと仮定することにより、観察間のコンセンサスから洗練された予測を生成する新しいメカニズムを考案する。 提案手法では, 既製の物体検出装置をmAPで2.66%改善し, 地平線アノテーションに頼らずに, 現状を上回っている。

Object detectors often experience a drop in performance when new environmental conditions are insufficiently represented in the training data. This paper studies how to automatically fine-tune a pre-existing object detector while exploring and acquiring images in a new environment without relying on human intervention, i.e., in a self-supervised fashion. In our setting, an agent initially explores the environment using a pre-trained off-the-shelf detector to locate objects and associate pseudo-labels. By assuming that pseudo-labels for the same object must be consistent across different views, we devise a novel mechanism for producing refined predictions from the consensus among observations. Our approach improves the off-the-shelf object detector by 2.66% in terms of mAP and outperforms the current state of the art without relying on ground-truth annotations.
翻訳日:2023-02-22 15:30:32 公開日:2023-02-21
# 円周上のガウス核と円の等距離埋め込みを許容する空間

The Gaussian kernel on the circle and spaces that admit isometric embeddings of the circle ( http://arxiv.org/abs/2302.10623v1 )

ライセンス: Link先を確認
Natha\"el Da Costa, Cyrus Mostajeran, Juan-Pablo Ortega(参考訳) ユークリッド空間において、ガウス核はアプリケーションにおいて最も広く用いられるカーネルの1つである。 これは非ユークリッド空間でも使われており、正の定値でないスケールパラメータが存在する(そしてしばしば存在する)ことが知られている。 希望は、このカーネルがパラメータの多くの選択に対して正定値であることである。 しかし、ガウス核が任意のパラメータの選択に対して円上で正定値でないことを示す。 これは、球面、射影空間、グラスマン空間のような円が等尺的に埋め込まれる距離空間において、ガウス核は任意のパラメータに対して正定値でないことを意味する。

On Euclidean spaces, the Gaussian kernel is one of the most widely used kernels in applications. It has also been used on non-Euclidean spaces, where it is known that there may be (and often are) scale parameters for which it is not positive definite. Hope remains that this kernel is positive definite for many choices of parameter. However, we show that the Gaussian kernel is not positive definite on the circle for any choice of parameter. This implies that on metric spaces in which the circle can be isometrically embedded, such as spheres, projective spaces and Grassmannians, the Gaussian kernel is not positive definite for any parameter.
翻訳日:2023-02-22 15:30:19 公開日:2023-02-21
# 自動車保険請求サイズ予測のための木ベース機械学習手法

Tree-Based Machine Learning Methods For Vehicle Insurance Claims Size Prediction ( http://arxiv.org/abs/2302.10612v1 )

ライセンス: Link先を確認
Edossa Merga Terefe(参考訳) 自動車保険の請求額予測には、これらの請求を効率的に扱う方法が必要である。 機械学習(ML)はこの問題を解決する方法の1つである。 木に基づくアンサンブル学習アルゴリズムは、非常に効果的で広く使われているML手法である。 本研究は、自動車保険業者が自社にml手法を組み込む方法を検討し、そのモデルを保険ビッグデータに適用する方法について検討するものである。 本研究では,バッジ,ランダム林,勾配増進などの木に基づくML手法を用いて,クレームサイズ予測における予測器の相対的重要性を推定し,クレームサイズと予測器の関係について検討する。 さらに,これらのモデルの性能を評価し,比較する。 その結果,木に基づくアンサンブル法は従来の最小二乗法よりも優れていることがわかった。 キーワード:クレームサイズ予測、機械学習、ツリーベースのアンサンブルメソッド、自動車保険。

Vehicle insurance claims size prediction needs methods to efficiently handle these claims. Machine learning (ML) is one of the methods that solve this problem. Tree-based ensemble learning algorithms are highly effective and widely used ML methods. This study considers how vehicle insurance providers incorporate ML methods in their companies and explores how the models can be applied to insurance big data. We utilize various tree-based ML methods, such as bagging, random forest, and gradient boosting, to determine the relative importance of predictors in predicting claims size and to explore the relationships between claims size and predictors. Furthermore, we evaluate and compare these models' performances. The results show that tree-based ensemble methods are better than the classical least square method. Keywords: claims size prediction; machine learning; tree-based ensemble methods; vehicle insurance.
翻訳日:2023-02-22 15:30:07 公開日:2023-02-21
# 正確に可解な複素pt対称性ポテンシャル$a[\mathrm{sech}({\lambda}x) + i\tanh({\lambda}x)]$

Exactly solvable complex PT symmetry potential $A[\mathrm{sech}({\lambda}x) + i\tanh({\lambda}x)]$ ( http://arxiv.org/abs/2302.10609v1 )

ライセンス: Link先を確認
Wei Yang(参考訳) pt対称ポテンシャル $v (x) = a[\mathrm{sech}({\lambda}x) + i\tanh({\lambda}x)]$ のバウンドおよび散乱解を得たが、そのバウンド状態エネルギースペクトルは複素共役対にはならず、すなわち、pt対称性の自発的崩壊は起こらない。 その結果,反射係数は利き手効果を示すことがわかった。 漸近的に非有界な虚ポテンシャル成分として、伝達係数は入射波の方向が逆転するときに複素位相係数を増加させる。

We obtained the bound and scattering solutions of the PT symmetric potential $V (x) = A[\mathrm{sech}({\lambda}x) + i\tanh({\lambda}x)]$, and its bound-state energy spectrum does not turn into complex conjugate pairs, i.e. the spontaneous breakdown of PT symmetry does not occur. We found that the reflection coefficients exhibit a handedness effect. As the asymptotically non-vanishing imaginary potential component, that the transmission coefficient increases a complex phase factor when the direction of the incoming wave is reversed.
翻訳日:2023-02-22 15:29:54 公開日:2023-02-21
# 微分可能な多目的因果ベイズ実験設計

Differentiable Multi-Target Causal Bayesian Experimental Design ( http://arxiv.org/abs/2302.10607v1 )

ライセンス: Link先を確認
Yashas Annadani, Panagiotis Tigas, Desi R. Ivanova, Andrew Jesson, Yarin Gal, Adam Foster, Stefan Bauer(参考訳) 本稿では,ベイズ最適実験設計問題に対するグラデーションに基づくアプローチを導入し,バッチ環境で因果モデルを学習する。 既存の手法は、ブラックボックス法を用いて1対の目標状態ペアを最適化して介入しながら、一連の実験を構築するための欲求的な近似に依存している。 本研究では,ブラックボックス最適化手法とグリーディ・ヒューリスティックスを完全に廃止し,その代わりに概念的に単純なエンドツーエンドの勾配に基づく最適化手法を提案する。 このような手順により、設計空間のパラメータ化は、その複雑さのために探索されていない一連のマルチターゲット状態介入を効率的に最適化することができる。 提案手法は,複数の合成データセットにまたがる単一ターゲットおよび複数ターゲット設定において,ベースラインと既存の獲得戦略より優れていることを示す。

We introduce a gradient-based approach for the problem of Bayesian optimal experimental design to learn causal models in a batch setting -- a critical component for causal discovery from finite data where interventions can be costly or risky. Existing methods rely on greedy approximations to construct a batch of experiments while using black-box methods to optimize over a single target-state pair to intervene with. In this work, we completely dispose of the black-box optimization techniques and greedy heuristics and instead propose a conceptually simple end-to-end gradient-based optimization procedure to acquire a set of optimal intervention target-state pairs. Such a procedure enables parameterization of the design space to efficiently optimize over a batch of multi-target-state interventions, a setting which has hitherto not been explored due to its complexity. We demonstrate that our proposed method outperforms baselines and existing acquisition strategies in both single-target and multi-target settings across a number of synthetic datasets.
翻訳日:2023-02-22 15:29:38 公開日:2023-02-21
# SU-Net:非協調宇宙船の軌道上での姿勢推定ネットワーク

SU-Net: Pose estimation network for non-cooperative spacecraft on-orbit ( http://arxiv.org/abs/2302.10602v1 )

ライセンス: Link先を確認
Hu Gao and Zhihui Li and Depeng Dang and Ning Wang and Jingfan Yang(参考訳) 宇宙船のポーズ推定は、ランデブーやドッキング、残骸の除去、軌道上のメンテナンスなど、多くの軌道上の宇宙ミッションにおいて重要な役割を果たす。 現在、宇宙画像には様々な照明条件、高コントラスト、低解像度が含まれており、宇宙物体のポーズ推定は地球上の物体よりも難しい。 本稿では,衛星軌道上でのレーダ画像の特徴を解析し,Dense Residual U-shaped Network (DR-U-Net) と呼ばれる新しいディープラーニングニューラルネットワーク構造を提案する。 さらに, DR-U-Netに基づく新しいニューラルネットワーク,すなわち, 宇宙機U字型ネットワーク(SU-Net)を導入し, 非協調宇宙船のエンドツーエンドのポーズ推定を実現する。 具体的には、SU-Netはまず非協力宇宙船のイメージを前処理し、次に転送学習を事前訓練に使用した。 その後、レーダー画像のぼかしと宇宙船の輪郭認識能力の低さを解消するために、バックボーンネットワークU-Netに残差接続と密結合を加え、DR-U-Netと名付けた。 このようにして、モデルの特徴損失と複雑さを低減し、トレーニング中のディープニューラルネットワークの劣化を回避することができる。 最後に、非協調的な宇宙船の軌道上でのポーズ推定にフィードフォワードニューラルネットワークの層を用いる。 実験により,提案手法は手作りのオブジェクト特有の特徴に頼らず,頑健なロバスト性を持ち,計算精度は最先端のポーズ推定法より優れていることが示された。 絶対誤差は 0.1557 から 0.4491 であり、平均誤差は 0.302 であり、標準偏差は 0.065 である。

Spacecraft pose estimation plays a vital role in many on-orbit space missions, such as rendezvous and docking, debris removal, and on-orbit maintenance. At present, space images contain widely varying lighting conditions, high contrast and low resolution, pose estimation of space objects is more challenging than that of objects on earth. In this paper, we analyzing the radar image characteristics of spacecraft on-orbit, then propose a new deep learning neural Network structure named Dense Residual U-shaped Network (DR-U-Net) to extract image features. We further introduce a novel neural network based on DR-U-Net, namely Spacecraft U-shaped Network (SU-Net) to achieve end-to-end pose estimation for non-cooperative spacecraft. Specifically, the SU-Net first preprocess the image of non-cooperative spacecraft, then transfer learning was used for pre-training. Subsequently, in order to solve the problem of radar image blur and low ability of spacecraft contour recognition, we add residual connection and dense connection to the backbone network U-Net, and we named it DR-U-Net. In this way, the feature loss and the complexity of the model is reduced, and the degradation of deep neural network during training is avoided. Finally, a layer of feedforward neural network is used for pose estimation of non-cooperative spacecraft on-orbit. Experiments prove that the proposed method does not rely on the hand-made object specific features, and the model has robust robustness, and the calculation accuracy outperforms the state-of-the-art pose estimation methods. The absolute error is 0.1557 to 0.4491 , the mean error is about 0.302 , and the standard deviation is about 0.065 .
翻訳日:2023-02-22 15:29:22 公開日:2023-02-21
# プロトタイプネットワークとコントラスト学習による産業用サイバー物理システムの異常検出

Few-shot Detection of Anomalies in Industrial Cyber-Physical System via Prototypical Network and Contrastive Learning ( http://arxiv.org/abs/2302.10601v1 )

ライセンス: Link先を確認
Haili Sun, Yan Huang, Lansheng Han, Chunjie Zhou(参考訳) 産業4.0の急速な発展は、ネットワーク攻撃による産業用サイバー物理システム(CPS)の範囲と破壊性を増幅した。 異常検出技術は、これらの攻撃を特定し、産業用CPSの正常な動作を保証するために用いられる。 しかしながら、ラベル付きのサンプルが少ないシナリオに対処することは依然として難しい問題である。 本稿では,産業用cpsからラベル付きデータに制限のある異常を識別するための,プロトタイプネットワークとコントラスト学習に基づく数発異常検出モデル(fsl-pn)を提案する。 具体的には,特徴抽出器の訓練過程を支援するコントラスト損失を設計し,より細かな特徴を学習し,識別性能を向上させる。 その後,分類中に過剰に適合する問題に取り組むため,一般化能力を高めるために,特定の正規化器を用いたロバストなコスト関数を構築する。 その結果、FSL-PNモデルはF1スコアを大幅に改善し、異常信号を特定して産業用CPSの安全性を保証するための偽アラームレート(FAR)を低減することができることがわかった。

The rapid development of Industry 4.0 has amplified the scope and destructiveness of industrial Cyber-Physical System (CPS) by network attacks. Anomaly detection techniques are employed to identify these attacks and guarantee the normal operation of industrial CPS. However, it is still a challenging problem to cope with scenarios with few labeled samples. In this paper, we propose a few-shot anomaly detection model (FSL-PN) based on prototypical network and contrastive learning for identifying anomalies with limited labeled data from industrial CPS. Specifically, we design a contrastive loss to assist the training process of the feature extractor and learn more fine-grained features to improve the discriminative performance. Subsequently, to tackle the overfitting issue during classifying, we construct a robust cost function with a specific regularizer to enhance the generalization capability. Experimental results based on two public imbalanced datasets with few-shot settings show that the FSL-PN model can significantly improve F1 score and reduce false alarm rate (FAR) for identifying anomalous signals to guarantee the security of industrial CPS.
翻訳日:2023-02-22 15:28:51 公開日:2023-02-21
# 単一画像を用いたGANのテクスチャ化

Texturize a GAN Using a Single Image ( http://arxiv.org/abs/2302.10600v1 )

ライセンス: Link先を確認
Pengda Xiang, Sitao Xiang, Yajie Zhao(参考訳) ある画像のテクスチャにマッチする画像を生成することができる、深い生成モデルをカスタマイズできるだろうか? 教会のイメージを見ると、その教会に似たような写真が撮れるかどうか疑問に思うかもしれません。 本稿では,GANを1つの参照画像に適応させる手法を提案し,その画像に類似したテクスチャを持つ画像を生成する。 具体的には,事前学習したGANモデルの重みを,利用者が提示した参照画像でガイドする。 画像上のテクスチャにマッチするモデル出力を促進するために,パッチ識別器の逆方向損失を用いるとともに,ラプラシアの逆方向損失を用いて多様性とリアリズムを保証し,この2つの損失の矛盾を緩和する。 実験の結果,提案手法は,GANの出力を画像のテクスチャと一致させるとともに,多様性とリアリズムを維持することができることがわかった。

Can we customize a deep generative model which can generate images that can match the texture of some given image? When you see an image of a church, you may wonder if you can get similar pictures for that church. Here we present a method, for adapting GANs with one reference image, and then we can generate images that have similar textures to the given image. Specifically, we modify the weights of the pre-trained GAN model, guided by the reference image given by the user. We use a patch discriminator adversarial loss to encourage the output of the model to match the texture on the given image, also we use a laplacian adversarial loss to ensure diversity and realism, and alleviate the contradiction between the two losses. Experiments show that the proposed method can make the outputs of GANs match the texture of the given image as well as keep diversity and realism.
翻訳日:2023-02-22 15:28:31 公開日:2023-02-21
# ボヘミアンはあらゆる目的のためにロヴェリア人になれるか?

Can a Bohmian be a Rovellian for all practical purposes? ( http://arxiv.org/abs/2302.10597v1 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) 本稿の目的は、リレーショナル量子力学(RQM)における望ましい基礎問題について議論することである。 この問題は量子力学の中心であり、RQMの数学的フォーマリズムは、一貫性に関する最近の批判に無害であることを示す。 さらに、RQMにおけるインタラクションの概念を分析し、ボヘミア力学と比較したRQMのFAPP(For All Practical Purposes)読影を提供する。

The aim of this article is to discuss the preferred basis problem in relational quantum mechanics (RQM). The issue is at the heart of quantum mechanics and we first show that the mathematical formalism of RQM is immune to recent critics concerning consistency. Moreover, we also analyse the notion of interaction in RQM and provide a For All Practical Purposes (FAPP) reading of RQM comparing it with Bohmian mechanics.
翻訳日:2023-02-22 15:28:16 公開日:2023-02-21
# brackishmot:brackishのマルチオブジェクト追跡データセット

BrackishMOT: The Brackish Multi-Object Tracking Dataset ( http://arxiv.org/abs/2302.10645v1 )

ライセンス: Link先を確認
Malte Pedersen, Daniel Lehotsk\'y, Ivan Nikolov, and Thomas B. Moeslund(参考訳) 濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 そこで本研究では,小型魚の学校追跡に着目したBrackishMOTデータセットを提案する。 BrackishMOTは、野生で捕獲された98の配列からなる。 新たなデータセットに加えて,最先端トラッカーのトレーニングによるベースライン結果も提示する。 さらに,データセットを拡張するために合成シーケンスを作成するフレームワークを提案する。 この枠組みはアニメーション魚モデルと現実的な水中環境で構成されている。 学習中の合成データを含む効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータの組み合わせが追跡性能を向上させることを示す。 コードとデータへのリンクはhttps://www.vap.aau.dk/brackishmotにある。

There exist no publicly available annotated underwater multi-object tracking (MOT) datasets captured in turbid environments. To remedy this we propose the BrackishMOT dataset with focus on tracking schools of small fish, which is a notoriously difficult MOT task. BrackishMOT consists of 98 sequences captured in the wild. Alongside the novel dataset, we present baseline results by training a state-of-the-art tracker. Additionally, we propose a framework for creating synthetic sequences in order to expand the dataset. The framework consists of animated fish models and realistic underwater environments. We analyse the effects of including synthetic data during training and show that a combination of real and synthetic underwater training data can enhance tracking performance. Links to code and data can be found at https://www.vap.aau.dk/brackishmot
翻訳日:2023-02-22 15:22:18 公開日:2023-02-21
# A3S:シーンテキストスポッティングのための意味表現の逆学習

A3S: Adversarial learning of semantic representations for Scene-Text Spotting ( http://arxiv.org/abs/2302.10641v1 )

ライセンス: Link先を確認
Masato Fujitake(参考訳) シーンテキストスポッティング(Scene-text spotting)は、自然のシーン画像上のテキスト領域を予測し、そのテキスト文字を同時に認識するタスクである。 近年は広く応用されているため注目されている。 既存の研究は主にテキスト認識ではなく、テキスト領域検出の改善に重点を置いている。 これにより、検出精度が向上する一方、エンドツーエンド精度が不十分となる。 自然風景画像中のテキストは、ランダムな文字列ではなく、意味のある文字列である単語である傾向がある。 そこで本研究では,シーンテキストスポッティング(A3S)における意味表現の逆学習を提案し,テキスト認識を含むエンドツーエンドの精度を向上させる。 a3sは、既存の視覚特徴に基づいてテキスト認識を行う代わりに、検出されたテキスト領域における意味的特徴を同時に予測する。 公開データセットを用いた実験の結果,提案手法は他の手法よりも精度が高いことがわかった。

Scene-text spotting is a task that predicts a text area on natural scene images and recognizes its text characters simultaneously. It has attracted much attention in recent years due to its wide applications. Existing research has mainly focused on improving text region detection, not text recognition. Thus, while detection accuracy is improved, the end-to-end accuracy is insufficient. Texts in natural scene images tend to not be a random string of characters but a meaningful string of characters, a word. Therefore, we propose adversarial learning of semantic representations for scene text spotting (A3S) to improve end-to-end accuracy, including text recognition. A3S simultaneously predicts semantic features in the detected text area instead of only performing text recognition based on existing visual features. Experimental results on publicly available datasets show that the proposed method achieves better accuracy than other methods.
翻訳日:2023-02-22 15:22:07 公開日:2023-02-21
# フレキシブル制約によるコンディショニング階層強化学習

Conditioning Hierarchical Reinforcement Learning on Flexible Constraints ( http://arxiv.org/abs/2302.10639v1 )

ライセンス: Link先を確認
Yuxiao Lu, Pradeep Varakantham and Arunesh Sinha(参考訳) 目標指向強化学習(rl)設定の安全性は通常、軌道上の制約を通じて処理され、主に短地平線タスクにおいて優れたパフォーマンスを示している(ゴールは遠くない)。 本稿では,(1)スリッパや安全でない場所(階段など)を避けて充電ドックに移動するのに十分な充電を保ちながら,住宅内の異なる領域をきれいにしなくてはならないロボット,(2)道順に充電場所を最適化する必要のある遠方の目的地に到達しなければならない自律型電気自動車,複雑な安全制約の存在など,時間的に拡張された意思決定問題を解決することに関心を寄せる。 我々の重要な貢献は、(安全)制約付き強化学習による制約付き計画(CoP-RL)メカニズムで、(コスト制約を満たすことなく、与えられたスタートから遠方の目標状態までの経路を最大化する)高レベルの制約付き計画エージェントと低レベルの目標条件付きRLエージェント(コストと報酬値を推定して近くの状態間を移動させる)を組み合わせる。 CoP-RLの大きな利点は、コスト価値の分布(例えば、リスク条件値、CVaR、および期待値)の制約を処理できることである。 我々は、制約付き階層型RLにおける最良のアプローチを先導するアプローチの有効性を実証するために、様々な種類の安全制約を用いた広範な実験を行う。

Safety in goal directed Reinforcement Learning (RL) settings has typically been handled through constraints over trajectories and have demonstrated good performance in primarily short horizon tasks (goal is not too far away). In this paper, we are specifically interested in the problem of solving temporally extended decision making problems such as (1) robots that have to clean different areas in a house while avoiding slippery and unsafe areas (e.g., stairs) and retaining enough charge to move to a charging dock; (2) autonomous electric vehicles that have to reach a far away destination while having to optimize charging locations along the way; in the presence of complex safety constraints. Our key contribution is a (safety) Constrained Planning with Reinforcement Learning (CoP-RL) mechanism that combines a high-level constrained planning agent (which computes a reward maximizing path from a given start to a far away goal state while satisfying cost constraints) with a low-level goal conditioned RL agent (which estimates cost and reward values to move between nearby states). A major advantage of CoP-RL is that it can handle constraints on the cost value distribution (e.g., on Conditional Value at Risk, CVaR, and also on expected value). We perform extensive experiments with different types of safety constraints to demonstrate the utility of our approach over leading best approaches in constrained and hierarchical RL.
翻訳日:2023-02-22 15:21:51 公開日:2023-02-21
# セキュリティ,ロバスト性,プライバシを視点とした信頼できるフェデレーション学習に関する調査

A Survey of Trustworthy Federated Learning with Perspectives on Security, Robustness, and Privacy ( http://arxiv.org/abs/2302.10637v1 )

ライセンス: Link先を確認
Yifei Zhang, Dun Zeng, Jinglong Luo, Zenglin Xu, Irwin King(参考訳) 信頼できる人工知能(AI)技術は、日常生活に革命をもたらし、人間の社会に大きな利益をもたらした。 さまざまなai技術の中で、フェデレーション学習(federated learning, fl)は、金融におけるリスク評価システムから、生命科学における薬物発見のような最先端技術まで、さまざまな現実のシナリオに対する有望なソリューションである。 しかし、データの分離とプライバシーに関する課題は、FLシステムの信頼性を脅かす。 データプライバシに対する敵意攻撃、学習アルゴリズムの安定性、システムの機密性は、連合学習における分散トレーニングの文脈において特に関係している。 したがって、セキュリティ、堅牢性、プライバシに重点を置いて、信頼できる方法でflを開発することが不可欠である。 本稿では,信頼性の高いFLシステムを開発するための包括的なロードマップを提案し,セキュリティ,堅牢性,プライバシの3つの重要な側面から既存の取り組みを要約する。 私たちは、データ処理、モデルトレーニング、デプロイメントなど、さまざまな開発段階にわたる信頼できる連合学習に脆弱性をもたらす脅威を概説します。 本稿では,最も適切な防衛手法の選択を導くために,TFL(Trustworthy FL)の各側面を実現するための具体的な技術的解決策について議論する。 われわれのアプローチは、TFLを法的な視点から論じるか、高レベルの非技術的な視点でFLを提示する以前の研究とは異なる。

Trustworthy artificial intelligence (AI) technology has revolutionized daily life and greatly benefited human society. Among various AI technologies, Federated Learning (FL) stands out as a promising solution for diverse real-world scenarios, ranging from risk evaluation systems in finance to cutting-edge technologies like drug discovery in life sciences. However, challenges around data isolation and privacy threaten the trustworthiness of FL systems. Adversarial attacks against data privacy, learning algorithm stability, and system confidentiality are particularly concerning in the context of distributed training in federated learning. Therefore, it is crucial to develop FL in a trustworthy manner, with a focus on security, robustness, and privacy. In this survey, we propose a comprehensive roadmap for developing trustworthy FL systems and summarize existing efforts from three key aspects: security, robustness, and privacy. We outline the threats that pose vulnerabilities to trustworthy federated learning across different stages of development, including data processing, model training, and deployment. To guide the selection of the most appropriate defense methods, we discuss specific technical solutions for realizing each aspect of Trustworthy FL (TFL). Our approach differs from previous work that primarily discusses TFL from a legal perspective or presents FL from a high-level, non-technical viewpoint.
翻訳日:2023-02-22 15:21:24 公開日:2023-02-21
# $\omega$pap空間:高階、再帰的確率的、微分可能プログラムに関する推論

$\omega$PAP Spaces: Reasoning Denotationally About Higher-Order, Recursive Probabilistic and Differentiable Programs ( http://arxiv.org/abs/2302.10636v1 )

ライセンス: Link先を確認
Mathieu Huot, Alexander K. Lew, Vikash K. Mansinghka, Sam Staton(参考訳) 我々は、表現的微分可能かつ確率的プログラミング言語を推論するために、$\omega$pap空間のカテゴリという新しい設定を導入する。 我々の意味論は、一般的な再帰、高次関数、不連続プリミティブ、離散的および連続的なサンプリングなど、最も実用的な確率的および微分可能なプログラムに意味を割り当てるのに十分である。 しかし、重要なことは、多くの病理的記述を排除し、決定論的微分可能プログラムと確率的プログラムの両方に関する新しい結果を確立するのに十分である。 決定論的設定では、自動微分に対する非常に一般的な正当性定理と勾配降下におけるその使用を証明する。 確率的設定では,確率的プログラムのトレース密度関数のほぼすべての可微分性と,モンテカルロ推定における密度計算のための便利なベース測度の存在を定式化する。 いくつかのケースでは、これらの結果は以前には知られていたが、操作上の風味を持つ詳細な証明を必要とした。

We introduce a new setting, the category of $\omega$PAP spaces, for reasoning denotationally about expressive differentiable and probabilistic programming languages. Our semantics is general enough to assign meanings to most practical probabilistic and differentiable programs, including those that use general recursion, higher-order functions, discontinuous primitives, and both discrete and continuous sampling. But crucially, it is also specific enough to exclude many pathological denotations, enabling us to establish new results about both deterministic differentiable programs and probabilistic programs. In the deterministic setting, we prove very general correctness theorems for automatic differentiation and its use within gradient descent. In the probabilistic setting, we establish the almost-everywhere differentiability of probabilistic programs' trace density functions, and the existence of convenient base measures for density computation in Monte Carlo inference. In some cases these results were previously known, but required detailed proofs with an operational flavor; by contrast, all our proofs work directly with programs' denotations.
翻訳日:2023-02-22 15:21:01 公開日:2023-02-21
# ポイントサンプリングによる都市テクスチャメッシュのセマンティックセグメンテーション

Semantic Segmentation of Urban Textured Meshes Through Point Sampling ( http://arxiv.org/abs/2302.10635v1 )

ライセンス: Link先を確認
Gr\'egoire Grzeczkowicz (1 and 2), Bruno Vallet (1) ((1) LASTIG, Univ Gustave Eiffel, IGN, ENSG, (2) Direction G\'en\'erale de l'Armement)(参考訳) テクスチャメッシュは、実際のシーンの3D幾何学とラジオメトリーを組み合わせた、ますます一般的な表現になりつつある。 しかし,都市メッシュのセマンティクスセグメンテーションアルゴリズムはほとんど研究されておらず,すべての放射能情報を活用していない。 この問題に対処するために、我々は、テクスチャメッシュからポイントクラウドをサンプリングし、このクラウド上でポイントクラウド意味セマンティクスセグメンテーションアルゴリズムを使用し、最終的に得られたセマンティクスを使用して最初のメッシュをセグメンテーションする手法を採用する。 本稿では,サンプリング法,抽出された雲の密度,選択された特徴(色,正常,標高),および各訓練期間に使用される点数など,異なるパラメータの影響について検討する。 その結果,総和データセットの最先端を上回り,oaでは約4ポイント,miouでは18ポイントを得た。

Textured meshes are becoming an increasingly popular representation combining the 3D geometry and radiometry of real scenes. However, semantic segmentation algorithms for urban mesh have been little investigated and do not exploit all radiometric information. To address this problem, we adopt an approach consisting in sampling a point cloud from the textured mesh, then using a point cloud semantic segmentation algorithm on this cloud, and finally using the obtained semantic to segment the initial mesh. In this paper, we study the influence of different parameters such as the sampling method, the density of the extracted cloud, the features selected (color, normal, elevation) as well as the number of points used at each training period. Our result outperforms the state-of-the-art on the SUM dataset, earning about 4 points in OA and 18 points in mIoU.
翻訳日:2023-02-22 15:20:41 公開日:2023-02-21
# 3次元心エコー法による人工僧帽弁解剖解析のためのディープラーニングと完全自動パイプライン

A Deep Learning-Based and Fully Automated Pipeline for Regurgitant Mitral Valve Anatomy Analysis from 3D Echocardiography ( http://arxiv.org/abs/2302.10634v1 )

ライセンス: Link先を確認
Riccardo Munaf\`o, Simone Saitta, Giacomo Ingallina, Paolo Denti, Francesco Maisano, Eustachio Agricola, Alberto Redaelli, Emiliano Votta(参考訳) 3D経食道心エコー法(3DTEE)は僧帽弁閉鎖不全症(MR)の診断に有用である。 3dteeは僧帽弁(mv)の高品質な3d画像を提供し、正確なセグメンテーションと弁解剖の測定を可能にする。 しかし、手動のTEEセグメンテーションは時間を要するため、操作中の変動が生じやすいため、測定の信頼性に影響を及ぼす。 そこで我々は,3次元畳み込みニューラルネットワーク(CNN)を用いた完全自動パイプラインを開発し,MVサブ構造(アニュラス,前葉,後葉)を分割し,MV解剖の定量化を行った。 マルチデコーダ残差u-netアーキテクチャに基づく3d cnnを100個の3dtee画像と対応するセグメンテーションからなるデータセット上でトレーニングおよびテストした。 パイプライン内では、カスタムアルゴリズムがcnnベースのセグメンテーションを洗練し、解剖学的ランドマークと特徴を定量化するmvモデルを抽出する。 提案手法の精度は,地上真実セグメンテーションに対するdiceスコアと平均表面距離(msd)を用いて評価し,抽出した解剖学的パラメータを半自動商用ソフトウェアtomtecイメージアリーナと比較した。 訓練した3d cnnは,前葉と後葉を併用することにより,平均0.79,msd 0.47mmのdiceスコアを得た。 提案したCNNアーキテクチャはMVサブ構造セグメンテーションにおいてベースライン残留U-Netアーキテクチャよりも優れ、予測アンラスセグメンテーションの改良によりMSDは8.36%向上した。 環状線とリーフレット線測定はそれぞれ7.94mmと3.67mm以下で,tomtec像で得られた3d画像と比較した。 提案されたパイプラインは商用ソフトウェアよりも高速で、モデリング時間は12.54秒、量子化時間は54.42秒であった。

3D transesophageal echocardiography (3DTEE), is the recommended method for diagnosing mitral regurgitation (MR). 3DTEE provides a high-quality 3D image of the mitral valve (MV), allowing for precise segmentation and measurement of the regurgitant valve anatomy. However, manual TEE segmentations are time-consuming and prone to intra-operator variability, affecting the reliability of the measurements. To address this, we developed a fully automated pipeline using a 3D convolutional neural network (CNN) to segment MV substructures (annulus, anterior leaflet, and posterior leaflet) and quantify MV anatomy. The 3D CNN, based on a multi-decoder residual U-Net architecture, was trained and tested on a dataset comprising 100 3DTEE images with corresponding segmentations. Within the pipeline, a custom algorithm refines the CNN-based segmentations and extracts MV models, from which anatomical landmarks and features are quantified. The accuracy of the proposed method was assessed using Dice score and mean surface distance (MSD) against ground truth segmentations, and the extracted anatomical parameters were compared against a semiautomated commercial software TomTec Image Arena. The trained 3D CNN achieved an average Dice score of 0.79 and MSD of 0.47 mm for the combined segmentation of the annulus, anterior and posterior leaflet. The proposed CNN architecture outperformed a baseline residual U-Net architecture in MV substructure segmentation, and the refinement of the predicted annulus segmentation improved MSD by 8.36%. The annular and leaflet linear measurements differed by less than 7.94 mm and 3.67 mm, respectively, compared to the 3D measurements obtained with TomTec Image Arena. The proposed pipeline was faster than the commercial software, with a modeling time of 12.54 s and a quantification time of 54.42 s.
翻訳日:2023-02-22 15:20:24 公開日:2023-02-21
# 逆コントラスト学習のための一般化境界

Generalization Bounds for Adversarial Contrastive Learning ( http://arxiv.org/abs/2302.10633v1 )

ライセンス: Link先を確認
Xin Zou, Weiwei Liu(参考訳) ディープネットワークは敵の攻撃に対して脆弱であることがよく知られており、敵の訓練はロバストなモデルを訓練する最も一般的な方法の1つである。 ラベルのないデータを活用するために、近年の研究では、コントラスト学習(adversarial contrastive learning; acl)に敵意トレーニングを適用し、有望なパフォーマンスを得る。 しかし、ACLの理論はよく理解されていない。 このギャップを埋めるために、我々はRadecherの複雑さを活用してACLの一般化性能を分析し、特に$$\ell_p$(p \ge 1$)以下の線形モデルと多層ニューラルネットワークに焦点を当てる。 本理論は, 下流タスクの対向リスクの平均値は, 上流タスクの対向的無監督リスクによって上限付けられることを示す。 実験結果は我々の理論を検証する。

Deep networks are well-known to be fragile to adversarial attacks, and adversarial training is one of the most popular methods used to train a robust model. To take advantage of unlabeled data, recent works have applied adversarial training to contrastive learning (Adversarial Contrastive Learning; ACL for short) and obtain promising robust performance. However, the theory of ACL is not well understood. To fill this gap, we leverage the Rademacher complexity to analyze the generalization performance of ACL, with a particular focus on linear models and multi-layer neural networks under $\ell_p$ attack ($p \ge 1$). Our theory shows that the average adversarial risk of the downstream tasks can be upper bounded by the adversarial unsupervised risk of the upstream task. The experimental results validate our theory.
翻訳日:2023-02-22 15:19:49 公開日:2023-02-21
# FedST: 解釈可能な時系列分類のためのフェデレーションシェイプレット変換

FedST: Federated Shapelet Transformation for Interpretable Time Series Classification ( http://arxiv.org/abs/2302.10631v1 )

ライセンス: Link先を確認
Zhiyu Liang, Hongzhi Wang(参考訳) 本稿では,プライバシ保存型フェデレーション学習(FL)シナリオにおける外部データを利用した,高精度かつ解釈可能な時系列分類(TSC)モデルの開発方法について検討する。 私たちの知る限りでは、私たちはこの本質的なトピックについて最初に研究しました。 この目標を達成するためには、データマイニング、機械学習、セキュリティなど、複数の分野からのテクニックをシームレスに統合する必要があります。 本稿では,この問題を定式化し,FL設定下での解釈可能性制約を特定する。 本稿では,集中型シナリオのための既存のTSCソリューションを体系的に検討し,シェープレット変換法に基づく新しいFL対応TSCフレームワークであるFedSTを提案する。 我々はフェデレートされたシェープレット探索ステップをFedSTのカーネルとして認識する。 したがって、我々はFedSTカーネルの基本プロトコルであるFedSS-Bを設計し、安全で正確であることを証明した。 さらに,基本プロトコルの効率ボトルネックを特定し,高速化のためのfl設定に適した最適化を提案する。 理論解析の結果,提案手法は安全かつ効率的であることが判明した。 我々は,合成データと実世界データの両方を用いて広範な実験を行う。 実験の結果,提案手法はTSC精度で有効であり,提案手法は3桁の高速化を実現することができることがわかった。

This paper studies how to develop accurate and interpretable time series classification (TSC) models with the help of external data in a privacy-preserving federated learning (FL) scenario. To the best of our knowledge, we are the first to study on this essential topic. Achieving this goal requires us to seamlessly integrate the techniques from multiple fields including Data Mining, Machine Learning, and Security. In this paper, we formulate the problem and identify the interpretability constraints under the FL setting. We systematically investigate existing TSC solutions for the centralized scenario and propose FedST, a novel FL-enabled TSC framework based on a shapelet transformation method. We recognize the federated shapelet search step as the kernel of FedST. Thus, we design FedSS-B, a basic protocol for the FedST kernel that we prove to be secure and accurate. Further, we identify the efficiency bottlenecks of the basic protocol and propose optimizations tailored for the FL setting for acceleration. Our theoretical analysis shows that the proposed optimizations are secure and more efficient. We conduct extensive experiments using both synthetic and real-world datasets. Empirical results show that our FedST solution is effective in terms of TSC accuracy, and the proposed optimizations can achieve three orders of magnitude of speedup.
翻訳日:2023-02-22 15:19:34 公開日:2023-02-21
# lit-former:ct画像のデノイジングとデブラリングのための面内トランスフォーマーと面内トランスフォーマーのリンク

LIT-Former: Linking In-plane and Through-plane Transformers for Simultaneous CT Image Denoising and Deblurring ( http://arxiv.org/abs/2302.10630v1 )

ライセンス: Link先を確認
Zhihao Chen, Chuang Niu, Ge Wang, Hongming Shan(参考訳) 本稿では3次元低線量CT像について検討する。 この文脈で様々な深層学習法が開発されたが、通常は低線量化と超分解能のデブロアリングによりデノナイジングを行う。 これまでは, 頭蓋内デノイジングと面内デブラリングを同時に行う作業はほとんど行われておらず, 臨床ct画像の改善に重要である。 このタスクでは、エンドツーエンドの3Dネットワークを直接トレーニングする簡単な方法がある。 しかし、多くのトレーニングデータと高価な計算コストを必要とする。 本稿では、平面内および平面内サブタスクを3次元CT画像に効率的に相乗し、畳み込みと変圧器の両ネットワークの利点を享受するLIT-Formerと呼ばれる、平面内および面内および面内変換器を同時に接続することを提案する。 lit-formerには、効率的なマルチヘッドセルフアテンションモジュール(emsm)と効率的な畳み込みフィードフォワードネットワーク(ecfn)という2つの新しい設計がある。 まず、eMSMは平面内2次元自己アテンションと平面内1次元自己アテンションを統合し、トランスフォーマーネットワークのコアユニットである3次元自己アテンションのグローバルな相互作用を効率的に捉える。 第二に、eCFNは2D畳み込みと1D畳み込みを統合し、同じ方法で3D畳み込みの局所情報を抽出する。 その結果、LIT-Formerはこれらの2つのサブタスクを相乗化し、計算複雑性を3Dと比較して著しく低減し、迅速な収束を可能にする。 シミュレーションおよび臨床データセットの大規模な実験結果は、最先端モデルよりも優れた性能を示す。

This paper studies 3D low-dose computed tomography (CT) imaging. Although various deep learning methods were developed in this context, typically they perform denoising due to low-dose and deblurring for super-resolution separately. Up to date, little work was done for simultaneous in-plane denoising and through-plane deblurring, which is important to improve clinical CT images. For this task, a straightforward method is to directly train an end-to-end 3D network. However, it demands much more training data and expensive computational costs. Here, we propose to link in-plane and through-plane transformers for simultaneous in-plane denoising and through-plane deblurring, termed as LIT-Former, which can efficiently synergize in-plane and through-plane sub-tasks for 3D CT imaging and enjoy the advantages of both convolution and transformer networks. LIT-Former has two novel designs: efficient multi-head self-attention modules (eMSM) and efficient convolutional feed-forward networks (eCFN). First, eMSM integrates in-plane 2D self-attention and through-plane 1D self-attention to efficiently capture global interactions of 3D self-attention, the core unit of transformer networks. Second, eCFN integrates 2D convolution and 1D convolution to extract local information of 3D convolution in the same fashion. As a result, the proposed LIT-Former synergizes these two sub-tasks, significantly reducing the computational complexity as compared to 3D counterparts and enabling rapid convergence. Extensive experimental results on simulated and clinical datasets demonstrate superior performance over state-of-the-art models.
翻訳日:2023-02-22 15:19:17 公開日:2023-02-21
# 出生・死亡過程における強化学習:国家空間への依存を破る

Reinforcement Learning in a Birth and Death Process: Breaking the Dependence on the State Space ( http://arxiv.org/abs/2302.10667v1 )

ライセンス: Link先を確認
Jonatha Anselmi (POLARIS, LIG), Bruno Gaujal (POLARIS, LIG), Louis-S\'ebastien Rebuffi (POLARIS, LIG, UGA)(参考訳) 本稿では、出生・死亡構造を持つMDPにおける、未報告の強化学習の後悔を再考する。 具体的には,過度なジョブを伴う制御キューについて検討し,エネルギー消費とユーザ知覚性能のトレードオフを最適化することを目的としている。 この設定の中で MDP の \emph{diameter} $D$ は $\Omega(S^S)$ であり、$S$ は状態の数である。 したがって、T$(\sqrt{DSAT})$$S$状態のMDPと$A$動作の既存の下限と上限は、強化学習が非効率であることを示唆している。 しかし,本研究の主な結果では,mdpの構造を利用して,古典的学習アルゴリズム「sc ucrl2}」のわずかに曲がりくねったバージョンに対する後悔が,実のところ$\tilde{\mathcal{o}}(\sqrt{e_2at})$で上限されていることを示す。 重要なのは、$E_2$は$S$とは独立にバウンドされる。 したがって、我々の境界は漸近的に状態の数と直径に独立である。 この結果は、学習アルゴリズムによるMDPの状態への訪問回数を慎重に研究することに基づいており、これは非常に一様ではない。

In this paper, we revisit the regret of undiscounted reinforcement learning in MDPs with a birth and death structure. Specifically, we consider a controlled queue with impatient jobs and the main objective is to optimize a trade-off between energy consumption and user-perceived performance. Within this setting, the \emph{diameter} $D$ of the MDP is $\Omega(S^S)$, where $S$ is the number of states. Therefore, the existing lower and upper bounds on the regret at time$T$, of order $O(\sqrt{DSAT})$ for MDPs with $S$ states and $A$ actions, may suggest that reinforcement learning is inefficient here. In our main result however, we exploit the structure of our MDPs to show that the regret of a slightly-tweaked version of the classical learning algorithm {\sc Ucrl2} is in fact upper bounded by $\tilde{\mathcal{O}}(\sqrt{E_2AT})$ where $E_2$ is related to the weighted second moment of the stationary measure of a reference policy. Importantly, $E_2$ is bounded independently of $S$. Thus, our bound is asymptotically independent of the number of states and of the diameter. This result is based on a careful study of the number of visits performed by the learning algorithm to the states of the MDP, which is highly non-uniform.
翻訳日:2023-02-22 15:12:47 公開日:2023-02-21
# RealFusion: 360{\deg} 単一画像からの任意のオブジェクトの再構成

RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image ( http://arxiv.org/abs/2302.10663v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi, Christian Rupprecht, Iro Laina, Andrea Vedaldi(参考訳) 一つの画像から物体の完全な360{\deg}写真モデルを再構築する問題を考える。 画像にニューラルラディアンス場を合わせることで実現しますが、この問題は深刻な問題であると考えています。 そこで我々は、拡散に基づく自己条件付き画像生成装置を設計し、オブジェクトの‘dream up’を推奨するプロンプトを設計する。 ドリームフィールドとドリームフュージョンに触発されたアプローチを用いて、与えられた入力ビュー、条件付きプリミティブ、および他の正規化子を最終的な一貫した再構築で融合する。 対象物の単眼的3次元再構成法と比較し, ベンチマーク画像における最先端の再構成結果を示す。 定性的には,入力ビューの忠実な一致と,画像に見えない物体の側面を含め,その外観と3d形状の明らかな外挿を提供する。

We consider the problem of reconstructing a full 360{\deg} photographic model of an object from a single image of it. We do so by fitting a neural radiance field to the image, but find this problem to be severely ill-posed. We thus take an off-the-self conditional image generator based on diffusion and engineer a prompt that encourages it to ``dream up'' novel views of the object. Using an approach inspired by DreamFields and DreamFusion, we fuse the given input view, the conditional prior, and other regularizers in a final, consistent reconstruction. We demonstrate state-of-the-art reconstruction results on benchmark images when compared to prior methods for monocular 3D reconstruction of objects. Qualitatively, our reconstructions provide a faithful match of the input view and a plausible extrapolation of its appearance and 3D shape, including to the side of the object not visible in the image.
翻訳日:2023-02-22 15:12:18 公開日:2023-02-21
# 子宮頸癌放射線治療における臨床上許容される臓器の分節化

Clinically Acceptable Segmentation of Organs at Risk in Cervical Cancer Radiation Treatment from Clinically Available Annotations ( http://arxiv.org/abs/2302.10661v1 )

ライセンス: Link先を確認
Monika Grewal and Dustin van Weersel and Henrike Westerveld and Peter A. N. Bosman and Tanja Alderliesten(参考訳) ディープラーニングモデルは、大きなデータセット(ラベル付きまたはラベルなし)でのトレーニングの恩恵を受ける。 そこで本研究では, 子宮頸癌放射線治療における臓器自動分節化(oars)について, データ不均一性, ラベルノイズ, 注釈の欠如を含むctスキャンデータから深層学習モデルを学ぶためのアプローチを提案する。 データの非均一性とラベルノイズを最小限に抑えるために,データの自動クリーニングに単純なヒューリスティックスを用いる。 さらに,教師に指導された設定,アノテーションインプテーション,不確実性誘導訓練を活用し,アノテーションの欠如を学習する半教師学習手法を開発した。 実験の結果,データにアノテーションが欠けているにも関わらず,大規模なデータセットからアプローチで学習すると,テスト性能が大幅に向上することがわかった。 さらに,本モデルにより予測されたセグメンテーションマスクから発生する輪郭は,手動で生成した輪郭と同等に臨床的に許容されることがわかった。

Deep learning models benefit from training with a large dataset (labeled or unlabeled). Following this motivation, we present an approach to learn a deep learning model for the automatic segmentation of Organs at Risk (OARs) in cervical cancer radiation treatment from a large clinically available dataset of Computed Tomography (CT) scans containing data inhomogeneity, label noise, and missing annotations. We employ simple heuristics for automatic data cleaning to minimize data inhomogeneity and label noise. Further, we develop a semi-supervised learning approach utilizing a teacher-student setup, annotation imputation, and uncertainty-guided training to learn in presence of missing annotations. Our experimental results show that learning from a large dataset with our approach yields a significant improvement in the test performance despite missing annotations in the data. Further, the contours generated from the segmentation masks predicted by our model are found to be equally clinically acceptable as manually generated contours.
翻訳日:2023-02-22 15:12:01 公開日:2023-02-21
# コンパクト有効バス生成:解釈可能な回路設計からの洞察

Compact Effective Basis Generation: Insights from Interpretable Circuit Design ( http://arxiv.org/abs/2302.10660v1 )

ライセンス: Link先を確認
Jakob S. Kottmann, Francesco Scala(参考訳) 量子コンピュータ上でのフェルミオン基底状態の効率的な作成法は需要が高く、過去数年間で変分から分別まで様々な技術が開発された。 多数の方法があるにもかかわらず、どの方法がどのシステムでうまく機能するかはまだ明らかではない。 そこで本研究では,解釈可能な回路設計と分割・解法を組み合わせることで,解析可能な性能を実現する方法を示す。 提案手法は,実効ベースのサイズや関連する回路の個々の量子資源において,他の分割・対数法よりも優れていることを示す。

Efficient ways to prepare Fermionic ground states on quantum computers are in high demand and different techniques ranging from variational to divide-and-conquer were developed over the last years. Despite having a vast set of methods it is still not clear which method performs well for which system. In this work, we combine interpretable circuit designs with a divide-and-conquer approach and show how this leads to explainable performance. We demonstrate that the developed methodology outperforms other divide-and-conquer methods in terms of size of the effective basis as well as individual quantum resources for the involved circuits.
翻訳日:2023-02-22 15:11:45 公開日:2023-02-21
# CHSHシナリオにおける量子集合の極端点:予想解析解

Extremal points of the quantum set in the CHSH scenario: conjectured analytical solution ( http://arxiv.org/abs/2302.10658v1 )

ライセンス: Link先を確認
Antoni Mikos-Nuszkiewicz and J\k{e}drzej Kaniewski(参考訳) 量子力学は、暗号、計算、メトロロジーといったいくつかの分野で大きな利点を約束するため、現代の情報処理の多くの側面に革命をもたらす可能性がある。 例えば量子暗号は、デバイスに依存しないプロトコル、すなわち、より少ない仮定でセキュリティを証明できるプロトコルを実装することができる。 これらのプロトコルは非局所的な統計を生成するデバイスの使用に依存しており、理想的にはこれらの統計は確率空間の量子集合の極端点に対応する。 しかし、CHSHシナリオ(最も単純な非自明なベルシナリオ)でさえ、極端量子点の完全な理解は得られない。 実際、そのような点の分析的な族はわずかに2つしかない。 我々の最初の貢献は、解析的量子極値点の2つの新しい族をベル汎関数の2つの新しい族に解を提供することによって導入することである。 第2部では、CHSHシナリオにおける過渡性の分析基準の開発に重点を置いている。 有名なTsirelson--Landau--Masanes の基準は、一様辺縁を持つ点にのみ適用されるが、石坂左利の一連の研究で一般化が提案されている。 これらの条件をスタンドアロンの予想と組み合わせて、技術的な詳細を探求し、適合性について議論する。 得られた理解に基づいて、エレガントな数学的形式と直感的な物理的解釈を備えた新しい条件セットを提案する。 最後に、両条件セットが量子極端点の新しい族に対して正しい予測を与えることを検証する。

Quantum mechanics may revolutionise many aspects of modern information processing as it promises significant advantages in several fields such as cryptography, computing and metrology. Quantum cryptography for instance allows us to implement protocols which are device-independent, i.e.~they can be proven security under fewer assumptions. These protocols rely on using devices producing non-local statistics and ideally these statistics would correspond to extremal points of the quantum set in the probability space. However, even in the CHSH scenario (the simplest non-trivial Bell scenario) we do not have a full understanding of the extremal quantum points. In fact, there are only a couple of analytic families of such points. Our first contribution is to introduce two new families of analytical quantum extremal points by providing solutions to two new families of Bell functionals. In the second part we focus on developing an analytical criteria for extremality in the CHSH scenario. A well-known Tsirelson--Landau--Masanes criterion only applies to points with uniform marginals, but a generalisation has been suggested in a sequence of works by Satoshi Ishizaka. We combine these conditions into a standalone conjecture, explore their technical details and discuss their suitability. Based on the understanding acquired, we propose a new set of conditions with an elegant mathematical form and an intuitive physical interpretation. Finally, we verify that both sets of conditions give correct predictions on the new families of quantum extremal points.
翻訳日:2023-02-22 15:11:36 公開日:2023-02-21
# 欠損データを用いた密度比推定とナイマンピアソン分類

Density Ratio Estimation and Neyman Pearson Classification with Missing Data ( http://arxiv.org/abs/2302.10655v1 )

ライセンス: Link先を確認
Josh Givens, Song Liu, Henry W J Reeve(参考訳) 密度比推定(DRE)は多くの下流アプリケーションで重要な機械学習手法である。 ランダムデータ(MNAR)を欠いたDREの課題について考察する。 本稿では,標準DRE手法を用いることで,一般的なDRE手法であるKLIEPの適応であるM-KLIEP(M-KLIEP)が整合性を回復することを示す。 さらに,M-KLIEPに対する有限サンプル推定誤差境界を提供し,サンプルサイズと最悪ケースの欠落について,最小限の最適性を示す。 次に、このMNAR設定に、DRE、Neyman-Pearson(NP)分類の重要な下流応用を適用する。 我々の手順はタイプiのエラーを制御し、高い確率で高出力を達成する。 最後に,合成データと実世界データの両方に有望な経験的性能を示す。

Density Ratio Estimation (DRE) is an important machine learning technique with many downstream applications. We consider the challenge of DRE with missing not at random (MNAR) data. In this setting, we show that using standard DRE methods leads to biased results while our proposal (M-KLIEP), an adaptation of the popular DRE procedure KLIEP, restores consistency. Moreover, we provide finite sample estimation error bounds for M-KLIEP, which demonstrate minimax optimality with respect to both sample size and worst-case missingness. We then adapt an important downstream application of DRE, Neyman-Pearson (NP) classification, to this MNAR setting. Our procedure both controls Type I error and achieves high power, with high probability. Finally, we demonstrate promising empirical performance both synthetic data and real-world data with simulated missingness.
翻訳日:2023-02-22 15:11:12 公開日:2023-02-21
# 狭帯域双対ビームからの隠蔽光子間のHong-Ou-Mandel干渉の展開

Unfolding the Hong-Ou-Mandel interference between heralded photons from narrowband twin beams ( http://arxiv.org/abs/2302.10652v1 )

ライセンス: Link先を確認
K. Laiho, T. Dirmeier, G. Shafiee, Ch. Marquardt(参考訳) ホン・オ・マンデル干渉(HOM)は最も興味深い量子光学現象の1つであり、量子光学通信および計算タスクの実行に不可欠である。 近年、パラメトリックダウンコンバージョン (PDC) プロセスに依存しているような双対ビームエミッターは、単一の光子の信頼できる源となっている。 しかし、ポンプのパワーが十分に高い場合、PDC(しばしばシグナルとアイドラーと呼ばれる)を介して生成されるペアは、調査された量子的特徴を歪ませる多光子寄与を含んでいる。 ここでは、2つの独立な狭帯域pdc源からのヘラルド状態間のhom干渉の時間的特性を導出する。 PDC多光子含有量とは別に、不平衡ビームスプリッタ比と光損失の影響も考慮に入れた。 我々は,通信波長範囲のシミュレーションを行い,PDCプロセスパラメータの最適選択を見つけるための有用なツールを提供する。 本研究は,狭帯域PDC光源の特性を考察し,量子光学応用を駆動する際に有用であることを示す。

The Hong-Ou-Mandel (HOM) interference is one of the most intriguing quantum optical phenomena and crucial in performing quantum optical communication and computation tasks. Lately, twin beam emitters such as those relying on the process of parametric down-conversion (PDC) have become confident sources of heralded single photons. However, if the pump power is high enough, the pairs produced via PDC -- often called signal and idler -- incorporate multiphoton contributions that usually distort the investigated quantum features. Here, we derive the temporal characteristics of the HOM interference between heralded states from two independent narrowband PDC sources. Apart from the PDC multiphoton content, our treatment also takes into account effects arriving from an unbalanced beam splitter ratio and optical losses. We perform a simulation in the telecommunication wavelength range and provide a useful tool for finding the optimal choice for PDC process parameters. Our results offer insight in the properties of narrowband PDC sources and turn useful when driving quantum optical applications with them.
翻訳日:2023-02-22 15:10:57 公開日:2023-02-21
# スマートデバイスにおけるプライバシ優先の予測

Predicting Privacy Preferences for Smart Devices as Norms ( http://arxiv.org/abs/2302.10650v1 )

ライセンス: Link先を確認
Marc Serramia, William Seymour, Natalia Criado, Michael Luck(参考訳) スマートスピーカーのようなスマートデバイスはユビキタスになりつつあり、ユーザーは好みに応じてこれらのデバイスが動作することを期待している。 特に、これらのデバイスは個人データを収集して管理するので、ユーザーはプライバシーの優先事項に従うことを期待する。 しかし、これらの選好を収集する現在のアプローチは、ユーザに直接質問することであり、それは通常、本当の選好を捉えない自動応答をトリガーする。 本稿では,ユーザの嗜好を規範として予測するための協調フィルタリング手法を提案する。 これらの選好予測は容易に採用できるし、ユーザー自身の選好を決定するのに役立つ。 スマートアシスタントユーザーのプライバシー設定のデータセットを使用して、予測の正確性をテストする。

Smart devices, such as smart speakers, are becoming ubiquitous, and users expect these devices to act in accordance with their preferences. In particular, since these devices gather and manage personal data, users expect them to adhere to their privacy preferences. However, the current approach of gathering these preferences consists in asking the users directly, which usually triggers automatic responses failing to capture their true preferences. In response, in this paper we present a collaborative filtering approach to predict user preferences as norms. These preference predictions can be readily adopted or can serve to assist users in determining their own preferences. Using a dataset of privacy preferences of smart assistant users, we test the accuracy of our predictions.
翻訳日:2023-02-22 15:10:42 公開日:2023-02-21
# 水質データ補完のためのマルチターゲットトビットモデル

Multi-Target Tobit Models for Completing Water Quality Data ( http://arxiv.org/abs/2302.10648v1 )

ライセンス: Link先を確認
Yuya Takada and Tsuyoshi Kato(参考訳) 水中の微生物の挙動をモニタリングすることは、水上病原体からの公衆衛生リスクを管理するために重要であるが、水中の微生物生物の濃度を定量化することは依然として困難である。 定量値に基づく統計的解析を可能にするためには,非検出計測の真の値を高精度に推定する必要がある。 トビットモデルは、検閲されたデータを解析するためのよく知られた線形回帰モデルである。 tobitモデルの欠点のひとつは、ターゲット変数のみが検閲可能であることだ。 本研究では,複数のターゲット変数を導入して複数の検閲された変数を同時に扱うために,従来のTobitモデルの拡張である \emph{multi-target Tobit model を考案した。 新しいモデルに適合させるために、精巧な理論に基づく数値安定最適化アルゴリズムを開発した。 複数の実世界の水質データセットを用いて実施した実験は、複数のカラムを一緒に見積もることで、それらを別々に見積もる上で大きなアドバンテージが得られた。

Monitoring microbiological behaviors in water is crucial to manage public health risk from waterborne pathogens, although quantifying the concentrations of microbiological organisms in water is still challenging because concentrations of many pathogens in water samples may often be below the quantification limit, producing censoring data. To enable statistical analysis based on quantitative values, the true values of non-detected measurements are required to be estimated with high precision. Tobit model is a well-known linear regression model for analyzing censored data. One drawback of the Tobit model is that only the target variable is allowed to be censored. In this study, we devised a novel extension of the classical Tobit model, called the \emph{multi-target Tobit model}, to handle multiple censored variables simultaneously by introducing multiple target variables. For fitting the new model, a numerical stable optimization algorithm was developed based on elaborate theories. Experiments conducted using several real-world water quality datasets provided an evidence that estimating multiple columns jointly gains a great advantage over estimating them separately.
翻訳日:2023-02-22 15:10:32 公開日:2023-02-21
# 言語理解のための人工知能を用いたWerewolfゲーム

Playing the Werewolf game with artificial intelligence for language understanding ( http://arxiv.org/abs/2302.10646v1 )

ライセンス: Link先を確認
Hisaichi Shibata, Soichiro Miki, Yuta Nakamura(参考訳) ウェアウルフゲーム(Werewolf game)は、プレイヤーが生き残るために他人を騙そうとする、自由な自然言語通信に基づく社会的推論ゲームである。 このゲームの重要な特徴は、会話の大部分は偽情報であり、そのような状況における人工知能(AI)の行動は広く研究されていないことである。 本研究の目的は、自然言語会話を通じてWerewolfをプレイできるAIエージェントを開発することである。 まず15人のプレイヤーからゲームログを収集した。 次に,トランスフォーマーをベースとした事前学習型言語モデルを微調整し,ゲームの任意のフェーズでゲームに勝つ確率を予測し,次のアクションの候補を与える値ネットワークを構築する。 そこで我々は,人間と対話し,その確率に基づいて最適な投票対象を選択するAIエージェントを開発した。 最後に,人間プレイヤーと実際にゲームをプレイさせることで,エージェントのパフォーマンスを評価した。 私たちは、私たちのAIエージェントであるDeep Wolfが、村人や裏切り者の平均的な人間プレイヤーと同じくらいの競争力でWerewolfをプレイできることを発見しました。 これらの結果は、現在の言語モデルは、他人が言っていることを疑ったり、嘘を言ったり、会話の嘘を検知する能力を持っていることを示唆している。

The Werewolf game is a social deduction game based on free natural language communication, in which players try to deceive others in order to survive. An important feature of this game is that a large portion of the conversations are false information, and the behavior of artificial intelligence (AI) in such a situation has not been widely investigated. The purpose of this study is to develop an AI agent that can play Werewolf through natural language conversations. First, we collected game logs from 15 human players. Next, we fine-tuned a Transformer-based pretrained language model to construct a value network that can predict a posterior probability of winning a game at any given phase of the game and given a candidate for the next action. We then developed an AI agent that can interact with humans and choose the best voting target on the basis of its probability from the value network. Lastly, we evaluated the performance of the agent by having it actually play the game with human players. We found that our AI agent, Deep Wolf, could play Werewolf as competitively as average human players in a villager or a betrayer role, whereas Deep Wolf was inferior to human players in a werewolf or a seer role. These results suggest that current language models have the capability to suspect what others are saying, tell a lie, or detect lies in conversations.
翻訳日:2023-02-22 15:10:12 公開日:2023-02-21
# オフセットスパイクの校正によるANNとSNNのギャップの埋め合わせ

Bridging the Gap between ANNs and SNNs by Calibrating Offset Spikes ( http://arxiv.org/abs/2302.10685v1 )

ライセンス: Link先を確認
Zecheng Hao, Jianhao Ding, Tong Bu, Tiejun Huang, Zhaofei Yu(参考訳) スパイキングニューラルネットワーク(SNN)は低消費電力と時間情報処理の特徴的な特徴から注目されている。 ANN-SNN変換は、SNNに適用するための最も一般的な訓練方法であり、変換されたSNNが大規模データセット上でANNに匹敵するパフォーマンスを達成することを確実にする。 しかし、性能は低い時間ステップで著しく低下し、神経形チップへのSNNの実践的応用を阻害する。 本稿では、異なる変換誤差を評価してこれらの誤差を排除する代わりに、オフセットスパイクを定義し、実際のsn射撃率と所望のsn射撃率のずれの程度を測定する。 オフセットスパイクの詳細な解析を行い、1つの追加(または1つ以下)スパイクの発射が変換エラーの主な原因であることに注意する。 そこで本研究では,初期膜電位のシフトに基づく最適化戦略を提案し,スパイクのキャリブレーションのための最適シフト距離を理論的に証明する。 さらに,本手法には,変換誤差の低減を可能にするユニークな反復特性があることにも留意する。 実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセット上での最先端性能を実現する。 例えば、6つのタイムステップを使用すると、ImageNetでトップ1の精度67.12%に達する。 我々の知る限り、ANN-SNN変換は、複雑なデータセット上で高い精度と超低レイテンシを同時に達成できることを示すのはこれが初めてである。 コードはhttps://github.com/hzc1208/ann2snn_cosで入手できる。

Spiking Neural Networks (SNNs) have attracted great attention due to their distinctive characteristics of low power consumption and temporal information processing. ANN-SNN conversion, as the most commonly used training method for applying SNNs, can ensure that converted SNNs achieve comparable performance to ANNs on large-scale datasets. However, the performance degrades severely under low quantities of time-steps, which hampers the practical applications of SNNs to neuromorphic chips. In this paper, instead of evaluating different conversion errors and then eliminating these errors, we define an offset spike to measure the degree of deviation between actual and desired SNN firing rates. We perform a detailed analysis of offset spike and note that the firing of one additional (or one less) spike is the main cause of conversion errors. Based on this, we propose an optimization strategy based on shifting the initial membrane potential and we theoretically prove the corresponding optimal shifting distance for calibrating the spike. In addition, we also note that our method has a unique iterative property that enables further reduction of conversion errors. The experimental results show that our proposed method achieves state-of-the-art performance on CIFAR-10, CIFAR-100, and ImageNet datasets. For example, we reach a top-1 accuracy of 67.12% on ImageNet when using 6 time-steps. To the best of our knowledge, this is the first time an ANN-SNN conversion has been shown to simultaneously achieve high accuracy and ultralow latency on complex datasets. Code is available at https://github.com/hzc1208/ANN2SNN_COS.
翻訳日:2023-02-22 15:03:54 公開日:2023-02-21
# FrankenSplit: 低変量ボトルネック注入によるサリエンシ誘導ニューラル特徴圧縮

FrankenSplit: Saliency Guided Neural Feature Compression with Shallow Variational Bottleneck Injection ( http://arxiv.org/abs/2302.10681v1 )

ライセンス: Link先を確認
Alireza Furutanpey, Philipp Raith, Schahram Dustdar(参考訳) 軽量ニューラルネットワークは予測強度の高速推論を交換する。 逆に、大きな深層ニューラルネットワークは予測誤差が低いが、長大な推論時間とリソース制約のあるデバイスでの高エネルギー消費がある。 このトレードオフは、レイテンシに敏感でパフォーマンスクリティカルなアプリケーションには受け入れられない。 サーバに推論タスクをオフロードするのは、限られた帯域幅と競合する高次元データによるネットワークの混雑が避けられないため不満足である。 本研究は,モバイルエッジコンピューティングにおける高性能推論の必要性に,既存の手法が適切に対処できない理由を示す。 そこで本研究では,機械間通信における帯域幅の削減と,リソース意識型圧縮モデルの汎用設計ヒューリスティックを導入することにより,現在の制約を克服する方法を示す。 エッジデバイスとサーバ間の非対称なリソース分布を有する環境において,提案手法を幅広いベースラインに対して広範囲に評価した。 エッジ指向の軽量エンコーダにもかかわらず,本手法は圧縮率を大幅に向上させる。

Lightweight neural networks exchange fast inference for predictive strength. Conversely, large deep neural networks have low prediction error but incur prolonged inference times and high energy consumption on resource-constrained devices. This trade-off is unacceptable for latency-sensitive and performance-critical applications. Offloading inference tasks to a server is unsatisfactory due to the inevitable network congestion by high-dimensional data competing for limited bandwidth and leaving valuable client-side resources idle. This work demonstrates why existing methods cannot adequately address the need for high-performance inference in mobile edge computing. Then, we show how to overcome current limitations by introducing a novel training method to reduce bandwidth consumption in Machine-to-Machine communication and a generalizable design heuristic for resource-conscious compression models. We extensively evaluate our proposed method against a wide range of baselines for latency and compressive strength in an environment with asymmetric resource distribution between edge devices and servers. Despite our edge-oriented lightweight encoder, our method achieves considerably better compression rates.
翻訳日:2023-02-22 15:03:28 公開日:2023-02-21
# 多人数会話のための汎用依存モデリング

Generic Dependency Modeling for Multi-Party Conversation ( http://arxiv.org/abs/2302.10680v1 )

ライセンス: Link先を確認
Weizhou Shen, Xiaojun Quan, Ke Yang(参考訳) 多人数会話における発話間の依存関係をモデル化するために,発話の係り受け解析結果に基づく単純で汎用的なフレームワークを提案する。 特に,相対依存エンコーディング(rede)という形式で依存関係をエンコードする手法を提案し,自己着脱の計算を修正してトランスフォーマタにその実装方法を説明する。 4つのマルチパーティ会話ベンチマークの実験結果は、このフレームワークがトランスフォーマーベースの2つの言語モデルの一般的なパフォーマンスを向上させ、最先端のメソッドと比較して同等あるいはそれ以上のパフォーマンスをもたらすことを示している。 コードはhttps://github.com/shenwzh3/redeで入手できる。

To model the dependencies between utterances in multi-party conversations, we propose a simple and generic framework based on the dependency parsing results of utterances. Particularly, we present an approach to encoding the dependencies in the form of relative dependency encoding (ReDE) and illustrate how to implement it in Transformers by modifying the computation of self-attention. Experimental results on four multi-party conversation benchmarks show that this framework successfully boosts the general performance of two Transformer-based language models and leads to comparable or even superior performance compared to the state-of-the-art methods. The codes are available at https://github.com/shenwzh3/ReDE.
翻訳日:2023-02-22 15:03:10 公開日:2023-02-21
# セマンティック・キッティデータセットの蒸留におけるデータ拡張とBALDヒューリスティックスの影響評価

Evaluating the effect of data augmentation and BALD heuristics on distillation of Semantic-KITTI dataset ( http://arxiv.org/abs/2302.10679v1 )

ライセンス: Link先を確認
Anh Duong, Alexandre Almin, L\'eo Lemari\'e, B Ravi Kiran(参考訳) アクティブラーニング(AL)は、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。 本研究では,データセット蒸留やコア部分集合選択(完全データセットとほぼ同等の性能を持つ部分集合)のタスクに適用するベイズアクティブラーニング手法を評価する。 また,ベイズアルベースのデータセット蒸留におけるデータ拡張(da)の適用効果についても検討した。 これらの実験はSemantic-KITTIの全データセットで実施する。 同じデータセットの1/4にのみ、既存の作業を通じて研究を拡張します。 DAとBALDの添加はラベル付け効率に悪影響を与えるため、データセットを蒸留する能力は低下する。 機能的alフレームワークの設計における重要な課題を実証し,実世界のアクティブラーニングにおける課題をレビューした。

Active Learning (AL) has remained relatively unexplored for LiDAR perception tasks in autonomous driving datasets. In this study we evaluate Bayesian active learning methods applied to the task of dataset distillation or core subset selection (subset with near equivalent performance as full dataset). We also study the effect of application of data augmentation (DA) within Bayesian AL based dataset distillation. We perform these experiments on the full Semantic-KITTI dataset. We extend our study over our existing work only on 1/4th of the same dataset. Addition of DA and BALD have a negative impact over the labeling efficiency and thus the capacity to distill datasets. We demonstrate key issues in designing a functional AL framework and finally conclude with a review of challenges in real world active learning.
翻訳日:2023-02-22 15:02:58 公開日:2023-02-21
# 野生におけるユーザ対応 WLAN 送信電力制御

User-aware WLAN Transmit Power Control in the Wild ( http://arxiv.org/abs/2302.10676v1 )

ライセンス: Link先を確認
Jonatan Krolikowski, Zied Ben Houidi, Dario Rossi(参考訳) 無線地域ネットワーク(WLAN)では、アクセスポイント(AP)が電力を伝達する (i) ユーザに対して信号品質を受け取り、それによってユーザのスループットが向上する。 (ii)ユーザアソシエーションによりapsをまたいでロードする (iii)APカバレッジ範囲は、ネットワーク内での干渉である。 数十年にわたる学術研究にもかかわらず、送信電力レベルは、実際には、均一なカバレッジ目標を満たすために静的に割り当てられている。 しかし、各ネットワークは、空間におけるユーザーのユニークな分布を持ち、ユーザの存在確率に適合する電力制御、例えば、ユーザの密度が最も低い干渉確率の高い領域を配置することを求める。 論文ではよいが、このシンプルなアイデアを実際に導入するには、いくつかの課題が伴う。 本稿では,これらの課題に最初に対処し,何千人もの日常ユーザに対して,ユーザ対応の送電制御システムのメリットを実運用ネットワークで評価する。 その過程で,過去のieee 802.11kデータからユーザの存在密度を推定する新たなアプローチと,信号強度測定の欠如を誘発する新たな機械学習アプローチを提案する。 総合的な実験キャンペーンの結果は、最先端のソリューションと比較して、中央値信号強度を15dBm増加させながら、同時に空調干渉を減少させることができる。 これは、端末の協調性の欠如によりアップリンク信号が5dbm減少するコストが安価である。

In Wireless Local Area Networks (WLANs), Access point (AP) transmit power influences (i) received signal quality for users and thus user throughput, (ii) user association and thus load across APs and (iii) AP coverage ranges and thus interference in the network. Despite decades of academic research, transmit power levels are still, in practice, statically assigned to satisfy uniform coverage objectives. Yet each network comes with its unique distribution of users in space, calling for a power control that adapts to users' probabilities of presence, for example, placing the areas with higher interference probabilities where user density is the lowest. Although nice on paper, putting this simple idea in practice comes with a number of challenges, with gains that are difficult to estimate, if any at all. This paper is the first to address these challenges and evaluate in a production network serving thousands of daily users the benefits of a user-aware transmit power control system. Along the way, we contribute a novel approach to reason about user densities of presence from historical IEEE 802.11k data, as well as a new machine learning approach to impute missing signal-strength measurements. Results of a thorough experimental campaign show feasibility and quantify the gains: compared to state-of-the-art solutions, the new system can increase the median signal strength by 15dBm, while decreasing airtime interference at the same time. This comes at an affordable cost of a 5dBm decrease in uplink signal due to lack of terminal cooperation.
翻訳日:2023-02-22 15:02:48 公開日:2023-02-21
# 離散連続領域における宣言的確率論理プログラミング

Declarative Probabilistic Logic Programming in Discrete-Continuous Domains ( http://arxiv.org/abs/2302.10674v1 )

ライセンス: Link先を確認
Pedro Zuidberg Dos Martires, Luc De Raedt, Angelika Kimmig(参考訳) 過去30年にわたり、論理プログラミングのパラダイムは、確率的モデリング、推論、学習をサポートするよう、うまく拡張されてきた。 確率論理プログラミング(PLP)とそのプログラミング言語のパラダイムは、その成功の大部分を宣言的意味論、いわゆる分散意味論に負っている。 しかし、分布意味論は離散確率変数のみに限定される。 PLPは、ハイブリッドをサポートする様々な方法で拡張されているが、それでも、分散意味論とモデリング言語を一般化するだけでなく、知識コンパイルに基づく標準推論アルゴリズムであるハイブリッドPLPの宣言的意味論は欠落している。 我々は,ハイブリッド分散セマンティクスと,ハイブリッドplp言語 dc-problog とその推論エンジン infinitesimal algebraic likelihood weighting (ialw) を併用した。 これらは、元々の分散セマンティクス、ProbLogのような標準PLP言語、特に知識コンパイルに基づくLPPの標準推論エンジンを含んでいる。 そこで我々は, PLPの最先端を, セマンティクス, 言語, 推論の3つの面で, ハイブリッドPLPに一般化する。 さらに、IALWは知識コンパイルに基づくハイブリッド確率型プログラミングのための最初の推論アルゴリズムである。

Over the past three decades, the logic programming paradigm has been successfully expanded to support probabilistic modeling, inference and learning. The resulting paradigm of probabilistic logic programming (PLP) and its programming languages owes much of its success to a declarative semantics, the so-called distribution semantics. However, the distribution semantics is limited to discrete random variables only. While PLP has been extended in various ways for supporting hybrid, that is, mixed discrete and continuous random variables, we are still lacking a declarative semantics for hybrid PLP that not only generalizes the distribution semantics and the modeling language but also the standard inference algorithm that is based on knowledge compilation. We contribute the hybrid distribution semantics together with the hybrid PLP language DC-ProbLog and its inference engine infinitesimal algebraic likelihood weighting (IALW). These have the original distribution semantics, standard PLP languages such as ProbLog, and standard inference engines for PLP based on knowledge compilation as special cases. Thus, we generalize the state-of-the-art of PLP towards hybrid PLP in three different aspects: semantics, language and inference. Furthermore, IALW is the first inference algorithm for hybrid probabilistic programming based on knowledge compilation.
翻訳日:2023-02-22 15:02:26 公開日:2023-02-21
# てんかん発作検出モデル検証のためのデータ操作における方法選択の重要性

Importance of methodological choices in data manipulation for validating epileptic seizure detection models ( http://arxiv.org/abs/2302.10672v1 )

ライセンス: Link先を確認
Una Pale, Tomas Teijeiro, David Atienza(参考訳) てんかん(てんかん、英: Epilepsy)は、慢性神経疾患であり、ヒトのかなりの部分に影響し、患者の日常生活に深刻なリスクを負う。 機械学習とiotの進歩にもかかわらず、外来環境での継続的な監視と検出のための小さな非目立たないウェアラブルデバイスはまだ入手できない。 その理由の一部は、高度に不均衡なデータ、多様性、非常に主題特異的な署名を含むてんかん自体の複雑さである。 しかし、別の問題は、研究における方法論的アプローチの不均一性であり、進行が遅く、結果の比較が困難で再現性が低い。 そこで本論文では,てんかん検出システムの訓練および評価を行う際に必要となる幅広い方法論的判断について述べる。 我々は,一般的なアンサンブル・ランダムフォレストモデルと一般公開されたchb-mitデータベースを用いて,個々の選択の影響を特徴付ける。

Epilepsy is a chronic neurological disorder that affects a significant portion of the human population and imposes serious risks in the daily life of patients. Despite advances in machine learning and IoT, small, nonstigmatizing wearable devices for continuous monitoring and detection in outpatient environments are not yet available. Part of the reason is the complexity of epilepsy itself, including highly imbalanced data, multimodal nature, and very subject-specific signatures. However, another problem is the heterogeneity of methodological approaches in research, leading to slower progress, difficulty comparing results, and low reproducibility. Therefore, this article identifies a wide range of methodological decisions that must be made and reported when training and evaluating the performance of epilepsy detection systems. We characterize the influence of individual choices using a typical ensemble random-forest model and the publicly available CHB-MIT database, providing a broader picture of each decision and giving good-practice recommendations, based on our experience, where possible.
翻訳日:2023-02-22 15:02:05 公開日:2023-02-21
# 糖尿病発症リスクモニタリングのための指示的説明--調査支援のための指示的データ中心的説明と組み合わせの導入

Directive Explanations for Monitoring the Risk of Diabetes Onset: Introducing Directive Data-Centric Explanations and Combinations to Support What-If Explorations ( http://arxiv.org/abs/2302.10671v1 )

ライセンス: Link先を確認
Aditya Bhattacharya, Jeroen Ooge, Gregor Stiglic, Katrien Verbert(参考訳) 説明可能な人工知能は、医療における機械学習(ML)ベースの意思決定システムでますます使われている。 しかし、医療専門家を患者ケアに導くための様々な説明方法の有用性を比較する研究はほとんどない。 さらに、これらの手法が、技術的ML知識を必要とすることが多いため、医療専門家にとってどれほど有用で、理解可能で、行動可能で、信頼できるかは不明です。 本稿では,糖尿病発症リスクを予測し,その予測をデータ中心,特徴重要,例に基づく説明で説明する。 糖尿病発症のリスクをモニタリングし,リスクを最小限に抑えるための対策を推奨するために,看護師や医師などの医療専門家を支援するインタラクティブダッシュボードを設計した。 11名の医療専門家による質的研究と,45名の医療専門家と51名の糖尿病患者を対象に,理解性,有用性,行動性,信頼度の観点から異なる説明方法を比較検討した。 結果から, 参加者は, 地域的な説明を他の方法よりも概観的に提供するデータ中心の説明の表現を好んだ。 そこで本研究では,医療専門家が患者の健康記録から実効性のある洞察を得るのを助けるために,視覚的な指示データ中心の説明方法の重要性を強調する。 さらに,我々は,様々な説明方法の視覚的表現を医療専門家向けに調整するための設計上の意味を共有している。

Explainable artificial intelligence is increasingly used in machine learning (ML) based decision-making systems in healthcare. However, little research has compared the utility of different explanation methods in guiding healthcare experts for patient care. Moreover, it is unclear how useful, understandable, actionable and trustworthy these methods are for healthcare experts, as they often require technical ML knowledge. This paper presents an explanation dashboard that predicts the risk of diabetes onset and explains those predictions with data-centric, feature-importance, and example-based explanations. We designed an interactive dashboard to assist healthcare experts, such as nurses and physicians, in monitoring the risk of diabetes onset and recommending measures to minimize risk. We conducted a qualitative study with 11 healthcare experts and a mixed-methods study with 45 healthcare experts and 51 diabetic patients to compare the different explanation methods in our dashboard in terms of understandability, usefulness, actionability, and trust. Results indicate that our participants preferred our representation of data-centric explanations that provide local explanations with a global overview over other methods. Therefore, this paper highlights the importance of visually directive data-centric explanation method for assisting healthcare experts to gain actionable insights from patient health records. Furthermore, we share our design implications for tailoring the visual representation of different explanation methods for healthcare experts.
翻訳日:2023-02-22 15:01:47 公開日:2023-02-21
# MPCを活用したUAV経路計画-捜索救助任務のための強化学習法

UAV Path Planning Employing MPC- Reinforcement Learning Method for search and rescue mission ( http://arxiv.org/abs/2302.10669v1 )

ライセンス: Link先を確認
Mahya Ramezani, Hamed Habibi, Jose luis Sanchez Lopez, Holger Voos(参考訳) 本稿では,Long-Short-Term Memory (LSTM) ネットワークをDeep Deterministic Policy Gradientアルゴリズムに統合したモデル予測制御(MPC)を設計することにより,複雑で不確実な環境における無人航空路計画の課題に取り組む。 提案手法では,LSTM-MPCはDDPGネットワーク内の決定論的ポリシとして動作し,予測プールを利用して将来の状態と動作を記憶し,堅牢性と効率を向上させる。 また、予測プールを用いることで、批評家ネットワークの初期化が可能となり、従来の強化学習や深層強化学習に比べて収束速度と失敗率が改善される。 提案手法の有効性を数値シミュレーションにより評価した。

In this paper, we tackle the problem of Unmanned Aerial (UA V) path planning in complex and uncertain environments by designing a Model Predictive Control (MPC), based on a Long-Short-Term Memory (LSTM) network integrated into the Deep Deterministic Policy Gradient algorithm. In the proposed solution, LSTM-MPC operates as a deterministic policy within the DDPG network, and it leverages a predicting pool to store predicted future states and actions for improved robustness and efficiency. The use of the predicting pool also enables the initialization of the critic network, leading to improved convergence speed and reduced failure rate compared to traditional reinforcement learning and deep reinforcement learning methods. The effectiveness of the proposed solution is evaluated by numerical simulations.
翻訳日:2023-02-22 15:01:23 公開日:2023-02-21
# pc^2$:単像3次元再構成のための投影条件点雲拡散

$PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D Reconstruction ( http://arxiv.org/abs/2302.10668v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi, Christian Rupprecht, Andrea Vedaldi(参考訳) 単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。 本稿では,条件付き除音拡散過程を通じてスパース点雲を生成する,単一画像3次元再構成法を提案する。 本手法では,単一のrgb画像をカメラのポーズとともに入力し,その位置を3次元ガウス分布からランダムにサンプリングした一連の3d点を物体の形に徐々に発音する。 提案手法の鍵となるのは,プロジェクション条件付けと呼ばれる幾何学的に一貫性のある条件付けプロセスである。拡散過程の各ステップにおいて,所定のカメラポーズから局所像特徴を部分復調点クラウドに投影する。 このプロジェクション・コンディショニングにより,入力画像とよく一致した高分解能スパース・ジオメトリを生成できるとともに,形状再構成後の点色予測にも利用できる。 さらに,拡散過程の確率的性質から,本手法は単一入力画像と整合した複数の異なる形状を自然に生成することができる。 先行研究とは対照的に,本手法は合成ベンチマークでうまく機能するだけでなく,複雑な実世界のデータに対して大きな質的改善を与える。

Reconstructing the 3D shape of an object from a single RGB image is a long-standing and highly challenging problem in computer vision. In this paper, we propose a novel method for single-image 3D reconstruction which generates a sparse point cloud via a conditional denoising diffusion process. Our method takes as input a single RGB image along with its camera pose and gradually denoises a set of 3D points, whose positions are initially sampled randomly from a three-dimensional Gaussian distribution, into the shape of an object. The key to our method is a geometrically-consistent conditioning process which we call projection conditioning: at each step in the diffusion process, we project local image features onto the partially-denoised point cloud from the given camera pose. This projection conditioning process enables us to generate high-resolution sparse geometries that are well-aligned with the input image, and can additionally be used to predict point colors after shape reconstruction. Moreover, due to the probabilistic nature of the diffusion process, our method is naturally capable of generating multiple different shapes consistent with a single input image. In contrast to prior work, our approach not only performs well on synthetic benchmarks, but also gives large qualitative improvements on complex real-world data.
翻訳日:2023-02-22 15:01:08 公開日:2023-02-21
# 実世界低リソースシナリオのための並列文レベルの説明生成

Parallel Sentence-Level Explanation Generation for Real-World Low-Resource Scenarios ( http://arxiv.org/abs/2302.10707v1 )

ライセンス: Link先を確認
Yan Liu, Xiaokang Chen, Qi Dai(参考訳) モデル予測の背後にある理論的根拠を明らかにするために、多くの著作が様々な形式の説明を提供している。 近年,可読性をさらに高めるため,文レベルの説明文の生成が進みつつある。 しかし、現在、文レベルの説明を追求する作業は注釈付きトレーニングデータに大きく依存しており、解釈可能性の開発はほんの数タスクに限られている。 私たちが知る限り、この問題を弱い教師付き学習から教師なし学習までスムーズに探求するのは、この論文が初めてです。 さらに,自己回帰的な文レベルの説明生成のレイテンシも高く,予測後の非同期解釈可能性も高まる。 そこで本研究では,並列説明生成と同時予測を容易にする非回帰解釈モデルを提案する。 自然言語推論タスクと配偶者予測タスクに関する広範な実験を通じて、ユーザは、注釈付きトレーニングデータのみを使用して、並列説明生成で比較パフォーマンスの10~15〜15\times$高速で分類器を訓練できることが分かりました。

In order to reveal the rationale behind model predictions, many works have exploited providing explanations in various forms. Recently, to further guarantee readability, more and more works turn to generate sentence-level human language explanations. However, current works pursuing sentence-level explanations rely heavily on annotated training data, which limits the development of interpretability to only a few tasks. As far as we know, this paper is the first to explore this problem smoothly from weak-supervised learning to unsupervised learning. Besides, we also notice the high latency of autoregressive sentence-level explanation generation, which leads to asynchronous interpretability after prediction. Therefore, we propose a non-autoregressive interpretable model to facilitate parallel explanation generation and simultaneous prediction. Through extensive experiments on Natural Language Inference task and Spouse Prediction task, we find that users are able to train classifiers with comparable performance $10-15\times$ faster with parallel explanation generation using only a few or no annotated training data.
翻訳日:2023-02-22 14:55:20 公開日:2023-02-21
# 変分隆起軟木

Variational Boosted Soft Trees ( http://arxiv.org/abs/2302.10706v1 )

ライセンス: Link先を確認
Tristan Cinquin, Tammo Rukat, Philipp Schmidt, Martin Wistuba and Artur Bekasov(参考訳) 決定木に基づくグラディエントブースティングマシン(GBM)は、表データによる回帰と分類タスクにおける最先端の結果を一貫して示し、しばしばディープニューラルネットワークを上回っている。 しかし、これらのモデルは十分に調整された予測の不確実性を提供していないため、リスクの高いアプリケーションでの意思決定への使用が妨げられる。 ベイジアン処理は予測の不確実性校正を改善することが知られているが、以前提案されていたベイジアン gbm 法は計算コストが高いか粗い近似に依存する。 変分推論はベイズニューラルネットワークの実装によく用いられるが、弱い学習者として使われる決定木は微分不可能であるため、gbmsに適用するのは困難である。 本稿では,Irsoyらによって導入された標準決定木と完全に異なる代替手段であるソフト決定木を用いた変分推論を用いたベイズGBMの実装を提案する。 実験により,変動性ソフトツリーと変動性ソフトgbmは,良好な予測性能を維持しつつ,有用な不確実性推定を提供することが示された。 提案モデルでは,7/10の表型回帰データセットにおけるベイズ型gbmと比較して高いテスト可能性を示し,5/10のデータセットにおける分散外検出を改善した。

Gradient boosting machines (GBMs) based on decision trees consistently demonstrate state-of-the-art results on regression and classification tasks with tabular data, often outperforming deep neural networks. However, these models do not provide well-calibrated predictive uncertainties, which prevents their use for decision making in high-risk applications. The Bayesian treatment is known to improve predictive uncertainty calibration, but previously proposed Bayesian GBM methods are either computationally expensive, or resort to crude approximations. Variational inference is often used to implement Bayesian neural networks, but is difficult to apply to GBMs, because the decision trees used as weak learners are non-differentiable. In this paper, we propose to implement Bayesian GBMs using variational inference with soft decision trees, a fully differentiable alternative to standard decision trees introduced by Irsoy et al. Our experiments demonstrate that variational soft trees and variational soft GBMs provide useful uncertainty estimates, while retaining good predictive performance. The proposed models show higher test likelihoods when compared to the state-of-the-art Bayesian GBMs in 7/10 tabular regression datasets and improved out-of-distribution detection in 5/10 datasets.
翻訳日:2023-02-22 14:55:02 公開日:2023-02-21
# 回路QED量子プロセッサにおけるコプラナー導波路共振器の周波数後トリミング

Post-fabrication frequency trimming of coplanar-waveguide resonators in circuit QED quantum processors ( http://arxiv.org/abs/2302.10705v1 )

ライセンス: Link先を確認
S. Vall\'es-Sanclemente, S. L. M. van der Meer, M. Finkel, N. Muthusubramanian, M. Beekman, H. Ali, J. F. Marques, C. Zachariadis, H. M. Veen, T. Stavenga, N. Haider and L. DiCarlo(参考訳) マイクロ波コプラナー導波路(CPW)共振器の加工後周波数をトリムするために, 接地型エアブリッジアレイを用いた。 この方法は従来のCPWエアブリッジとクロスオーバーの製作工程と互換性があり、100〜\mathrm{MHz}$範囲と10〜\mathrm{MHz}$解像度で設計と製造の不確実性の補償を可能にすることでデバイス収量を増加させる。 回路QEDに2つの応用例を示す。 一つは、周波数分割多重化により異なるトランスモンを読み取ることを意図した共振器間の周波数集束の除去である。 2つめは、読み出しとパーセルフィルタ共振器対の周波数マッチングである。 このマッチングとトランスモン周波数トリミングをレーザーアニールで確実に組み合わせることで、17ビットの量子プロセッサ間で高速かつ高忠実な読み出しを実現する。

We present the use of grounding airbridge arrays to trim the frequency of microwave coplanar-waveguide (CPW) resonators post fabrication. This method is compatible with the fabrication steps of conventional CPW airbridges and crossovers and increases device yield by allowing compensation of design and fabrication uncertainty with $100~\mathrm{MHz}$ range and $10~\mathrm{MHz}$ resolution. We showcase two applications in circuit QED. The first is elimination of frequency crowding between resonators intended to readout different transmons by frequency-division multiplexing. The second is frequency matching of readout and Purcell-filter resonator pairs. Combining this matching with transmon frequency trimming by laser annealing reliably achieves fast and high-fidelity readout across 17-transmon quantum processors.
翻訳日:2023-02-22 14:54:41 公開日:2023-02-21
# スケーラブルな情報学習

Scalable Infomin Learning ( http://arxiv.org/abs/2302.10701v1 )

ライセンス: Link先を確認
Yanzhi Chen, Weihao Sun, Yingzhen Li, Adrian Weller(参考訳) 情報マイニングの課題は、対象と対象との相互情報の最小化により、特定の対象に対して非形式的でありながら、高い実用性で表現を学習することである。 保護属性に対する公正な予測モデルのトレーニングから、非教師なしの表現による学習まで、幅広い応用がある。 近年のインフォミニストラーニングでは、ニューラルネットワークをトレーニングして相互情報やプロキシを推定するなど、敵のトレーニングが主に行われているため、最適化は遅く、困難である。 本稿では,近年のスライシング技術の進歩を踏まえ,相互情報に新たなプロキシメトリクスを用いたインフォミン学習手法を提案する。 さらに、このプロキシメトリックに正確かつ解析的に計算可能な近似を導出することにより、ニューラルネットワークに基づく相互情報推定器を構築する必要がなくなる。 アルゴリズムフェアネス,不整合表現学習,ドメイン適応の実験により,提案手法が時間的制約のある不要な情報を効果的に除去できることが確認された。

The task of infomin learning aims to learn a representation with high utility while being uninformative about a specified target, with the latter achieved by minimising the mutual information between the representation and the target. It has broad applications, ranging from training fair prediction models against protected attributes, to unsupervised learning with disentangled representations. Recent works on infomin learning mainly use adversarial training, which involves training a neural network to estimate mutual information or its proxy and thus is slow and difficult to optimise. Drawing on recent advances in slicing techniques, we propose a new infomin learning approach, which uses a novel proxy metric to mutual information. We further derive an accurate and analytically computable approximation to this proxy metric, thereby removing the need of constructing neural network-based mutual information estimators. Experiments on algorithmic fairness, disentangled representation learning and domain adaptation verify that our method can effectively remove unwanted information with limited time budget.
翻訳日:2023-02-22 14:54:25 公開日:2023-02-21
# ドメイン特化シミュレーションの活用によるセマンティックラベルマップから画像への未ペア翻訳

Unpaired Translation from Semantic Label Maps to Images by Leveraging Domain-Specific Simulations ( http://arxiv.org/abs/2302.10698v1 )

ライセンス: Link先を確認
Lin Zhang, Tiziano Portenier, Orcun Goksel(参考訳) シミュレーションされたラベルマップからのフォトリアリスティック画像生成は、バーチャルリアリティーにおける医療訓練など、いくつかの文脈で必要とされる。 従来のディープラーニング手法では、通常は利用できないセマンティックアノテーションと組み合わせたイメージを必要とする。 そこで本研究では,ラベルマップシミュレーションによるフォトリアリスティック画像生成のためのコントラスト学習フレームワークを提案する。 実画像とラベルマップの潜在的に大きなシーン差のため、既存の未ペア画像翻訳手法は合成画像のシーン修正の成果をもたらす。 本研究では,逆翻訳ネットワークの特徴を利用して一貫性を確保しつつ,コントラスト損失のためのサロゲートターゲットとしてシミュレーション画像を利用する。 本手法は, 腹腔鏡, 超音波, 運転シーンなど, 様々なシナリオやデータセットで示される双方向のラベル画像翻訳を可能にする。 現状の未完成翻訳との比較により,提案手法は現実的かつシーン精度の高い翻訳を生成する。

Photorealistic image generation from simulated label maps are necessitated in several contexts, such as for medical training in virtual reality. With conventional deep learning methods, this task requires images that are paired with semantic annotations, which typically are unavailable. We introduce a contrastive learning framework for generating photorealistic images from simulated label maps, by learning from unpaired sets of both. Due to potentially large scene differences between real images and label maps, existing unpaired image translation methods lead to artifacts of scene modification in synthesized images. We utilize simulated images as surrogate targets for a contrastive loss, while ensuring consistency by utilizing features from a reverse translation network. Our method enables bidirectional label-image translations, which is demonstrated in a variety of scenarios and datasets, including laparoscopy, ultrasound, and driving scenes. By comparing with state-of-the-art unpaired translation methods, our proposed method is shown to generate realistic and scene-accurate translations.
翻訳日:2023-02-22 14:54:07 公開日:2023-02-21
# 大域的親和性を持つ汎用視覚表現案内フレームワークによる弱教師付きサルエント物体検出

A General Visual Representation Guided Framework with Global Affinity for Weakly Supervised Salient Object Detection ( http://arxiv.org/abs/2302.10697v1 )

ライセンス: Link先を確認
Binwei Xu, Haoran Liang, Weihua Gong, Ronghua Liang, Peng Chen(参考訳) 完全教師付きサルエントオブジェクト検出(SOD)法は性能に大きな進歩をもたらしたが、これらのモデルは高価なピクセル単位のラベルに大きく依存している。 近年,ラベル付け負荷と性能のトレードオフを実現するために,スクリブル方式のSOD法が注目されている。 従来のモデルは、小規模のSODトレーニングデータのみに基づいて、SODタスクを直接実装していた。 弱いスクリブルタグとそのような小規模なトレーニングデータによって提供される限られた情報により、画像を理解し、さらに優れたSODタスクを達成することは極めて困難である。 本稿では,スクリブルに基づくSODのための一般的な認知をシミュレートする,汎用的な視覚表現によってガイドされるシンプルで効果的なフレームワークを提案する。 タスク関連エンコーダ、汎用ビジュアルモジュール、情報統合モジュールで構成され、大規模なラベルなしデータセットから学習した一般的なビジュアル表現とタスク関連機能を組み合わせて、画像のコンテキスト接続の理解に基づいてsodタスクを実行する。 一方,本研究では,このモデルが有意な対象のグローバルな構造を知覚するための,新たなグローバルなセマンティック親和性損失を提案する。 5つの公開ベンチマークデータセットによる実験結果から,余分なラベルを導入することなくスクリブルアノテーションのみを利用する手法は,最先端の弱教師付きSOD手法よりも優れ,最先端の完全教師付きモデルに匹敵するか,あるいは優れていることが示された。

Fully supervised salient object detection (SOD) methods have made considerable progress in performance, yet these models rely heavily on expensive pixel-wise labels. Recently, to achieve a trade-off between labeling burden and performance, scribble-based SOD methods have attracted increasing attention. Previous models directly implement the SOD task only based on small-scale SOD training data. Due to the limited information provided by the weakly scribble tags and such small-scale training data, it is extremely difficult for them to understand the image and further achieve a superior SOD task. In this paper, we propose a simple yet effective framework guided by general visual representations that simulate the general cognition of humans for scribble-based SOD. It consists of a task-related encoder, a general visual module, and an information integration module to combine efficiently the general visual representations learned from large-scale unlabeled datasets with task-related features to perform the SOD task based on understanding the contextual connections of images. Meanwhile, we propose a novel global semantic affinity loss to guide the model to perceive the global structure of the salient objects. Experimental results on five public benchmark datasets demonstrate that our method that only utilizes scribble annotations without introducing any extra label outperforms the state-of-the-art weakly supervised SOD methods and is comparable or even superior to the state-of-the-art fully supervised models.
翻訳日:2023-02-22 14:53:50 公開日:2023-02-21
# データ制約設定における機械学習の誘導的バイアスについて

On Inductive Biases for Machine Learning in Data Constrained Settings ( http://arxiv.org/abs/2302.10692v1 )

ライセンス: Link先を確認
Gr\'egoire Mialon(参考訳) 限られたデータによる学習は、機械学習の最大の問題のひとつだ。 この問題に対する現在のアプローチは、関心の小さなデータセットでモデルを微調整する前に、大量のデータから一般的な表現を学ぶことである。 このような手法は、コンピュータビジョンや自然ランゲージ処理といった分野において非常に有効であるが、モデル解釈性やデータ全体の必要性といったディープラーニングの一般的な問題をまだ解決していない。 この論文は、データ制約された設定で表現力のあるモデルを学習する問題に対する別の答えを探求する: ニューラルネットワークを学ぶために、大きなデータセットに頼る代わりに、いくつかのモジュールをデータの構造を反映した既知の関数に置き換える。 多くの場合、これらの関数はカーネルメソッドの豊富な文献から引き出される。 実際、多くのカーネルはデータの基盤構造を反映することができ、学習パラメータをある程度防ぐことができる。 私たちのアプローチは、学習中に探索するモデルの空間を制限する手元にあるデータに対する仮説として定義できる「帰納的バイアス」のフードの下に置かれます。 本稿では、自然言語における文やタンパク質配列、分子などのグラフといったシーケンスの文脈において、このアプローチの有効性を示す。 また、我々の研究と最近のディープラーニングの進歩との関係についても強調する。 さらに,凸機械学習モデルについても検討する。 ここでは、新しいモデルを提案するのではなく、データセット内のサンプルのどの割合で"良い"モデルを学ぶ必要があるのか疑問に思う。 より正確には、安全なサンプルスクリーニングの問題、すなわち、最適なモデルに影響を与えることなく、機械学習モデルに適合する前にデータセットから不正なサンプルを捨てるための簡単なテストを実行することを研究する。 このようなテクニックは、データセットのプルインや、まれなサンプルのマイニングに使用することができる。

Learning with limited data is one of the biggest problems of machine learning. Current approaches to this issue consist in learning general representations from huge amounts of data before fine-tuning the model on a small dataset of interest. While such technique, coined transfer learning, is very effective in domains such as computer vision or natural langage processing, it does not yet solve common problems of deep learning such as model interpretability or the overall need for data. This thesis explores a different answer to the problem of learning expressive models in data constrained settings: instead of relying on big datasets to learn neural networks, we will replace some modules by known functions reflecting the structure of the data. Very often, these functions will be drawn from the rich literature of kernel methods. Indeed, many kernels can reflect the underlying structure of the data, thus sparing learning parameters to some extent. Our approach falls under the hood of "inductive biases", which can be defined as hypothesis on the data at hand restricting the space of models to explore during learning. We demonstrate the effectiveness of this approach in the context of sequences, such as sentences in natural language or protein sequences, and graphs, such as molecules. We also highlight the relationship between our work and recent advances in deep learning. Additionally, we study convex machine learning models. Here, rather than proposing new models, we wonder which proportion of the samples in a dataset is really needed to learn a "good" model. More precisely, we study the problem of safe sample screening, i.e, executing simple tests to discard uninformative samples from a dataset even before fitting a machine learning model, without affecting the optimal model. Such techniques can be used to prune datasets or mine for rare samples.
翻訳日:2023-02-22 14:53:25 公開日:2023-02-21
# 拡散確率モデルの校正について

On Calibrating Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.10688v1 )

ライセンス: Link先を確認
Tianyu Pang, Cheng Lu, Chao Du, Min Lin, Shuicheng Yan, Zhijie Deng(参考訳) 近年,拡散確率モデル (DPM) は様々な生成タスクにおいて有望な結果を得た。 典型的なDPMフレームワークは、データ分散を徐々に拡散するフォワードプロセスと、時間依存のデータスコアからデータ分散を回復するリバースプロセスを含む。 本研究では,データスコアの確率的逆過程がマルティンゲールであり,そこからデータスコアに対する濃度境界と任意の停止定理が導出できることを示す。 そして、任意の事前学習DPMを校正する簡単な方法を見つけ、その結果、スコアマッチング損失を低減し、その結果、モデル確率の低い境界を増大させることができる。 各種モデルパラメトリゼーションの一般的な校正ガイドラインを提供する。 キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。 複数のデータセットで実験を行い、提案を実証的に検証する。 私たちのコードはhttps://github.com/thudzj/Calibrated-DPMsにあります。

Recently, diffusion probabilistic models (DPMs) have achieved promising results in diverse generative tasks. A typical DPM framework includes a forward process that gradually diffuses the data distribution and a reverse process that recovers the data distribution from time-dependent data scores. In this work, we observe that the stochastic reverse process of data scores is a martingale, from which concentration bounds and the optional stopping theorem for data scores can be derived. Then, we discover a simple way for calibrating an arbitrary pretrained DPM, with which the score matching loss can be reduced and the lower bounds of model likelihood can consequently be increased. We provide general calibration guidelines under various model parametrizations. Our calibration method is performed only once and the resulting models can be used repeatedly for sampling. We conduct experiments on multiple datasets to empirically validate our proposal. Our code is at https://github.com/thudzj/Calibrated-DPMs.
翻訳日:2023-02-22 14:52:58 公開日:2023-02-21
# カーネル2サンプルテストのパワー向上

Boosting the Power of Kernel Two-Sample Tests ( http://arxiv.org/abs/2302.10687v1 )

ライセンス: Link先を確認
Anirban Chatterjee, Bhaswar B. Bhattacharya(参考訳) 最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。 本稿では,マルチカーネル上でのmmd推定をマハラノビス距離を用いて組み合わせることで,カーネルテストのパワーを高める手法を提案する。 提案するテスト統計の漸近的ヌル分布を導出し,再帰領域を効率的に計算するために乗算ブートストラップ法を用いる。 結果として得られるテストは普遍的に一貫性があり、カーネル/バンド幅の集合を集約することで得られるため、有限サンプルの幅広い選択肢を検出するのにより強力である。 また,固定および局所連続した選択肢に対するテスト統計の分布も導出する。 特に後者は、提案されたテストが統計的に効率的、すなわち非自明な漸近的(ピットマン)効率であることを示している。 提案手法の有効性を示すために, 合成および実世界の両方のデータセットで大規模な数値実験を行った。 我々の漸近的結果は、複数の確率積分の枠組みを用いてMDD推定の関節分布を導出することに依存しており、これはより広範に有用であり、特に、最近提案されたカーネル集約に基づく適応MDDテストの効率性を理解するのに有用である。

The kernel two-sample test based on the maximum mean discrepancy (MMD) is one of the most popular methods for detecting differences between two distributions over general metric spaces. In this paper we propose a method to boost the power of the kernel test by combining MMD estimates over multiple kernels using their Mahalanobis distance. We derive the asymptotic null distribution of the proposed test statistic and use a multiplier bootstrap approach to efficiently compute the rejection region. The resulting test is universally consistent and, since it is obtained by aggregating over a collection of kernels/bandwidths, is more powerful in detecting a wide range of alternatives in finite samples. We also derive the distribution of the test statistic for both fixed and local contiguous alternatives. The latter, in particular, implies that the proposed test is statistically efficient, that is, it has non-trivial asymptotic (Pitman) efficiency. Extensive numerical experiments are performed on both synthetic and real-world datasets to illustrate the efficacy of the proposed method over single kernel tests. Our asymptotic results rely on deriving the joint distribution of MMD estimates using the framework of multiple stochastic integrals, which is more broadly useful, specifically, in understanding the efficiency properties of recently proposed adaptive MMD tests based on kernel aggregation.
翻訳日:2023-02-22 14:52:44 公開日:2023-02-21
# 話者認識に対する解釈可能なスペクトル変換攻撃

Interpretable Spectrum Transformation Attacks to Speaker Recognition ( http://arxiv.org/abs/2302.10686v1 )

ライセンス: Link先を確認
Jiadi Yao, Hong Luo, and Xiao-Lei Zhang(参考訳) 話者認識に対する敵意攻撃の成功は主にホワイトボックスのシナリオである。 ブラックボックスの被害者モデル、すなわち「textit{transfer-based} black-box attack」に対して、ホワイトボックスのサロゲートモデルを攻撃することによって発生する敵の声を適用する場合、相手の声の転送性は満足できるだけでなく、解釈可能な基礎も欠いている。 これらの問題に対処するため, 修正離散コサイン変換(STA-MDCT)に基づくスペクトル変換攻撃法を提案する。 具体的には、まず入力音声にMDCTを適用する。 そして、攻撃の成功に不可欠な時間周波数領域における敵ノイズの突出領域を捉えるために、異なる周波数帯域のエネルギーをわずかに変更する。 時間領域で音声を操作する既存のアプローチとは異なり、提案フレームワークは時間周波数領域で音声を操作することにより、攻撃の解釈可能性、伝達可能性、非受容性を改善する。 さらに、勾配ベースの攻撃者でも実装できる。 モデルアンサンブルの利点を利用するために,STA-MDCTを単一のホワイトボックスサロゲートモデルで実装するだけでなく,サロゲートモデルのアンサンブルで実装する。 最後に,クラスアクティベーションマップ (CAM) を用いて, 話者認識における伝達に基づく攻撃に対する解釈可能な基盤を提供する。 5名の代表的な攻撃者による広範囲比較の結果, カム可視化により, sta-mdctの有効性が明らかになり, 比較方法の弱点が明らかとなった。

The success of adversarial attacks to speaker recognition is mainly in white-box scenarios. When applying the adversarial voices that are generated by attacking white-box surrogate models to black-box victim models, i.e. \textit{transfer-based} black-box attacks, the transferability of the adversarial voices is not only far from satisfactory, but also lacks interpretable basis. To address these issues, in this paper, we propose a general framework, named spectral transformation attack based on modified discrete cosine transform (STA-MDCT), to improve the transferability of the adversarial voices to a black-box victim model. Specifically, we first apply MDCT to the input voice. Then, we slightly modify the energy of different frequency bands for capturing the salient regions of the adversarial noise in the time-frequency domain that are critical to a successful attack. Unlike existing approaches that operate voices in the time domain, the proposed framework operates voices in the time-frequency domain, which improves the interpretability, transferability, and imperceptibility of the attack. Moreover, it can be implemented with any gradient-based attackers. To utilize the advantage of model ensembling, we not only implement STA-MDCT with a single white-box surrogate model, but also with an ensemble of surrogate models. Finally, we visualize the saliency maps of adversarial voices by the class activation maps (CAM), which offers an interpretable basis to transfer-based attacks in speaker recognition for the first time. Extensive comparison results with five representative attackers show that the CAM visualization clearly explains the effectiveness of STA-MDCT, and the weaknesses of the comparison methods; the proposed method outperforms the comparison methods by a large margin.
翻訳日:2023-02-22 14:52:21 公開日:2023-02-21
# MalProtect:MLベースのマルウェア検出における逆クエリ攻撃に対するステートフル防御

MalProtect: Stateful Defense Against Adversarial Query Attacks in ML-based Malware Detection ( http://arxiv.org/abs/2302.10739v1 )

ライセンス: Link先を確認
Aqib Rashid and Jose Such(参考訳) mlモデルは、逆クエリ攻撃に対して脆弱であることが知られている。 これらの攻撃では、クエリは出力以外にターゲットモデルに関する知識のない特定のクラスに対して反復的に摂動される。 リモートホスト型ML分類モデルとMachine-Learning-as-a-Serviceプラットフォームの普及は、クエリアタックがこれらのシステムのセキュリティに本当の脅威をもたらすことを意味する。 これに対処するため、システムで受信されたクエリのシーケンスを監視し分析することで、クエリアタックの検出と敵の例の発生を防止するために、ステートフルな防御が提案されている。 近年、いくつかの国家防衛が提案されている。 しかし、これらの防御は、他の領域で有効な類似性または分散検出方法のみに依存している。 マルウェア検出領域では、敵の例を生成する方法は本質的に異なるため、そのような検出機構は著しく効果が低い。 そこで本研究では,マルウェア検出領域におけるクエリアタックに対するステートフルな防御であるMalProtectを提案する。 MalProtectはいくつかの脅威指標を使用して攻撃を検出する。 以上の結果から,Android および Windows マルウェアでは,さまざまな攻撃シナリオにおいて,敵クエリ攻撃の回避率を 80 % 削減できることがわかった。 この種の最初の評価では、malprotectは、特に最大の敵の脅威下で、以前の国家的防御よりも優れています。

ML models are known to be vulnerable to adversarial query attacks. In these attacks, queries are iteratively perturbed towards a particular class without any knowledge of the target model besides its output. The prevalence of remotely-hosted ML classification models and Machine-Learning-as-a-Service platforms means that query attacks pose a real threat to the security of these systems. To deal with this, stateful defenses have been proposed to detect query attacks and prevent the generation of adversarial examples by monitoring and analyzing the sequence of queries received by the system. Several stateful defenses have been proposed in recent years. However, these defenses rely solely on similarity or out-of-distribution detection methods that may be effective in other domains. In the malware detection domain, the methods to generate adversarial examples are inherently different, and therefore we find that such detection mechanisms are significantly less effective. Hence, in this paper, we present MalProtect, which is a stateful defense against query attacks in the malware detection domain. MalProtect uses several threat indicators to detect attacks. Our results show that it reduces the evasion rate of adversarial query attacks by 80+\% in Android and Windows malware, across a range of attacker scenarios. In the first evaluation of its kind, we show that MalProtect outperforms prior stateful defenses, especially under the peak adversarial threat.
翻訳日:2023-02-22 14:46:38 公開日:2023-02-21
# 焼成2次元ボース超流動体の量子力学

Quantum kinetics of quenched two-dimensional Bose superfluids ( http://arxiv.org/abs/2302.10737v1 )

ライセンス: Link先を確認
Cl\'ement Duval and Nicolas Cherroret(参考訳) 量子クエンチに続く2次元(2次元)一様ボース超流動の非平衡ダイナミクスを,その短時間(予熱)コヒーレントダイナミクスから長期熱化まで理論的に検討した。 ケルディシュ場の定式化と組み合わせた量子力学記述を用いて、系の低エネルギー音速励起に対する量子力学方程式を導出し、それらの正常な運動量分布と異常な運動量分布の両方を特徴づける。 この定式化を2次元ボース気体の相互作用クエンチに適用し、その量子構造因子とコヒーレンス関数のその後のダイナミクスを実験的に研究した。 以上の結果から, 2次元において, 独立準粒子の項による記述は急速に不正確になり, 非平衡シナリオを扱う場合, 体系的に疑問を呈するべきである。

We study theoretically the non-equilibrium dynamics of a two-dimensional (2D) uniform Bose superfluid following a quantum quench, from its short-time (prethermal) coherent dynamics to its long-time thermalization. Using a quantum hydrodynamic description combined with a Keldysh field formalism, we derive quantum kinetic equations for the low-energy phononic excitations of the system and characterize both their normal and anomalous momentum distributions. We apply this formalism to the interaction quench of a 2D Bose gas and study the ensuing dynamics of its quantum structure factor and coherence function, both recently measured experimentally. Our results indicate that in two dimensions, a description in terms of independent quasi-particles becomes quickly inaccurate and should be systematically questioned when dealing with non-equilibrium scenarios.
翻訳日:2023-02-22 14:46:15 公開日:2023-02-21
# デフォーカス画像からの深層学習による深度推定と画像復元

Depth Estimation and Image Restoration by Deep Learning from Defocused Images ( http://arxiv.org/abs/2302.10730v1 )

ライセンス: Link先を確認
Saqib Nazir, Lorenzo Vaquero, Manuel Mucientes, V\'ictor M. Brea, Daniela Coltuc(参考訳) 単眼深度推定と画像劣化はコンピュータビジョンにおける2つの基本的な課題であり、3Dシーンを理解する上で重要な役割を担っている。 ひとつの画像を頼りにすることで、どれでも達成できるというのは、悪い問題です。 深層畳み込みニューラルネットワーク(dnn)の分野における最近の進歩は、深度推定や画像デブラリングなど、コンピュータビジョンにおける多くのタスクに革命をもたらした。 デフォーカス画像を使用する場合、デフォーカス物理により、オールインフォーカス(Aif)画像の深さ推定と復元が関連する問題となる。 それにもかかわらず、既存のモデルのほとんどはこれらを別々に扱う。 しかし、これらの問題を解決するために、2つのネットワークを連続して結合し、まず深さやデフォーカスマップを推定し、それに基づいて焦点を合わせた画像を再構成する最近のモデルがある。 本稿では,深度推定と画像劣化を並列に解消するDNNを提案する。 我々の2つの頭深度推定デブロワーリングネットワーク(2HDED:NET)は、デフロカス(DFD)ネットワークからの従来の深さを拡張し、デブロワーリングブランチは深度ブランチと同じエンコーダを共有する。 提案手法は,室内と屋外のシーンの2つのベンチマーク(NYU-v2とMake3D)で試験に成功した。 これらのベンチマークにおける2HDED:NETによる大規模な実験は、深度推定と画像劣化のための最先端モデルよりも優れた、あるいは近い性能を示した。

Monocular depth estimation and image deblurring are two fundamental tasks in computer vision, given their crucial role in understanding 3D scenes. Performing any of them by relying on a single image is an ill-posed problem. The recent advances in the field of deep convolutional neural networks (DNNs) have revolutionized many tasks in computer vision, including depth estimation and image deblurring. When it comes to using defocused images, the depth estimation and the recovery of the All-in-Focus (Aif) image become related problems due to defocus physics. In spite of this, most of the existing models treat them separately. There are, however, recent models that solve these problems simultaneously by concatenating two networks in a sequence to first estimate the depth or defocus map and then reconstruct the focused image based on it. We propose a DNN that solves the depth estimation and image deblurring in parallel. Our Two-headed Depth Estimation and Deblurring Network (2HDED:NET) extends a conventional Depth from Defocus (DFD) network with a deblurring branch that shares the same encoder as the depth branch. The proposed method has been successfully tested on two benchmarks, one for indoor and the other for outdoor scenes: NYU-v2 and Make3D. Extensive experiments with 2HDED:NET on these benchmarks have demonstrated superior or close performances to those of the state-of-the-art models for depth estimation and image deblurring.
翻訳日:2023-02-22 14:46:00 公開日:2023-02-21
# exp-concave統計学習における局所ノルムの検討

Exploring Local Norms in Exp-concave Statistical Learning ( http://arxiv.org/abs/2302.10726v1 )

ライセンス: Link先を確認
Nikita Puchkin, Nikita Zhivotovskiy(参考訳) 凸クラスにおける経験的リスク最小化を用いて,exp-concave損失を伴う確率的凸最適化の問題を考える。 いくつかの先行研究で提起された質問に対して、$d$が凸参照集合の次元、$n$がサンプルサイズ、$\delta$が信頼レベルである有界なexp-concave損失の広いクラスに対して、$o(d / n + \log(1 / \delta) /n )$の過剰なリスク境界が有効である。 この結果は損失の勾配と局所ノルムの概念に関する統一幾何学的仮定に基づいている。

We consider the problem of stochastic convex optimization with exp-concave losses using Empirical Risk Minimization in a convex class. Answering a question raised in several prior works, we provide a $O( d / n + \log( 1 / \delta) / n )$ excess risk bound valid for a wide class of bounded exp-concave losses, where $d$ is the dimension of the convex reference set, $n$ is the sample size, and $\delta$ is the confidence level. Our result is based on a unified geometric assumption on the gradient of losses and the notion of local norms.
翻訳日:2023-02-22 14:45:39 公開日:2023-02-21
# ChatGPT:すべての取引のジャック、何のマスターも

ChatGPT: Jack of all trades, master of none ( http://arxiv.org/abs/2302.10724v1 )

ライセンス: Link先を確認
Jan Koco\'n, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szyd{\l}o, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Koco\'n, Bart{\l}omiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Mi{\l}kowski, Marcin Oleksy, Maciej Piasecki, {\L}ukasz Radli\'nski, Konrad Wojtasik, Stanis{\l}aw Wo\'zniak, Przemys{\l}aw Kazienko(参考訳) openaiはチャット生成型事前学習トランスフォーマー(chatgpt)をリリースし、人工知能のヒューマンモデルインタラクションへのアプローチに革命をもたらした。 最初にチャットボットと接触したのは、さまざまな領域で、詳細かつ正確な回答を提供する能力だ。 ChatGPTの評価に関するいくつかの論文があり、その効果をよく知られた自然言語処理(NLP)タスクで検証している。 しかし、既存の研究はほとんど自動化されておらず、非常に限定的な規模でテストされている。 本研究では, 感情分析, 感情認識, 不快感, 姿勢検出, 自然言語推論, 単語認識の曖昧さ, 言語受容性, 質問応答性など, 人間の主観的課題である25の多様解析nlpタスクにおけるchatgptの能力について検討した。 ChatGPTのクエリ処理を自動化し,38k以上の応答を分析した。 この結果とSOTA(State-of-the-Art)を比較したところ、ChatGPTモデルの平均損失はゼロショットおよび少数ショット評価で約25%であった。 その結果、タスク(より低いSOTA性能)が困難であるほど、ChatGPT損失が大きくなることがわかった。 特に感情認識のような現実的なNLP問題を指す。 また,ランダム・コンテクスト・フューショット・パーソナライゼーションにより,選択した主観的タスクに対するChatGPT応答をパーソナライズする機能についても検証した。 さらなる質的分析により、openaiによる人間のトレーナーに課された規則によって、chatgptバイアスが明らかにされた。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性や,そのようなシステムに対する学習・検証手順の確立に寄与するかどうか,基本的な議論の基盤となるものである。

OpenAI has released the Chat Generative Pre-trained Transformer (ChatGPT) and revolutionized the approach in artificial intelligence to human-model interaction. The first contact with the chatbot reveals its ability to provide detailed and precise answers in various areas. There are several publications on ChatGPT evaluation, testing its effectiveness on well-known natural language processing (NLP) tasks. However, the existing studies are mostly non-automated and tested on a very limited scale. In this work, we examined ChatGPT's capabilities on 25 diverse analytical NLP tasks, most of them subjective even to humans, such as sentiment analysis, emotion recognition, offensiveness and stance detection, natural language inference, word sense disambiguation, linguistic acceptability and question answering. We automated ChatGPT's querying process and analyzed more than 38k responses. Our comparison of its results with available State-of-the-Art (SOTA) solutions showed that the average loss in quality of the ChatGPT model was about 25% for zero-shot and few-shot evaluation. We showed that the more difficult the task (lower SOTA performance), the higher the ChatGPT loss. It especially refers to pragmatic NLP problems like emotion recognition. We also tested the ability of personalizing ChatGPT responses for selected subjective tasks via Random Contextual Few-Shot Personalization, and we obtained significantly better user-based predictions. Additional qualitative analysis revealed a ChatGPT bias, most likely due to the rules imposed on human trainers by OpenAI. Our results provide the basis for a fundamental discussion of whether the high quality of recent predictive NLP models can indicate a tool's usefulness to society and how the learning and validation procedures for such systems should be established.
翻訳日:2023-02-22 14:45:23 公開日:2023-02-21
# テストタイムアタッカーを用いた複数クラス分類における最適0-1損失のキャラクタリゼーション

Characterizing the Optimal 0-1 Loss for Multi-class Classification with a Test-time Attacker ( http://arxiv.org/abs/2302.10722v1 )

ライセンス: Link先を確認
Sihui Dai, Wenxin Ding, Arjun Nitin Bhagoji, Daniel Cullina, Ben Y. Zhao, Haitao Zheng, Prateek Mittal(参考訳) 敵の例に頑健な分類器を見つけることは、安全な配置に不可欠である。 与えられたデータ分布に対する脅威モデルの下で最良の分類器のロバスト性を決定し、最先端の訓練手法によって達成された分類器と比較することは重要な診断ツールである。 本稿では,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃者の存在下での損失に対する情報理論的下位境界を求める。 データと逆の制約からコンフリクトハイパーグラフを構成することで生じる、最適な0-1損失を見つけるための一般的なフレームワークを提供する。 さらに,本格的ハイパーグラフ構成よりも最適損失の範囲をより効率的に決定する攻撃者分類ゲームの他の変種も定義する。 本評価は,ベンチマークデータセット上でのマルチクラス設定における分類器の最適ロバスト性に対するギャップの分析を初めて行った結果である。

Finding classifiers robust to adversarial examples is critical for their safe deployment. Determining the robustness of the best possible classifier under a given threat model for a given data distribution and comparing it to that achieved by state-of-the-art training methods is thus an important diagnostic tool. In this paper, we find achievable information-theoretic lower bounds on loss in the presence of a test-time attacker for multi-class classifiers on any discrete dataset. We provide a general framework for finding the optimal 0-1 loss that revolves around the construction of a conflict hypergraph from the data and adversarial constraints. We further define other variants of the attacker-classifier game that determine the range of the optimal loss more efficiently than the full-fledged hypergraph construction. Our evaluation shows, for the first time, an analysis of the gap to optimal robustness for classifiers in the multi-class setting on benchmark datasets.
翻訳日:2023-02-22 14:44:31 公開日:2023-02-21
# テキストベースの冒険ゲームを学ぶための潜在的報酬形成

Potential-based reward shaping for learning to play text-based adventure games ( http://arxiv.org/abs/2302.10720v1 )

ライセンス: Link先を確認
Weichen Li, Rati Devidze, Sophie Fellenz(参考訳) テキストベースのゲームは、言語ベースの強化学習(RL)で人気のあるテストベッドである。 従来の研究では、ディープラーニングは学習エージェントとして一般的に使用される。 q-learningアルゴリズムは、例えばトレーニングにおける不安定性のため、複雑な実世界ドメインに適用するのが困難である。 そこで本稿では,sac(soft-actor-critic)アルゴリズムをテキストベース環境に適用する。 環境からの疎外報酬に対処するため,RLエージェントにより情報的(高密度)報酬信号を提供するために,潜在的報酬形成技術と組み合わせた。 本手法は,難解なテキストベースのゲームに応用する。 SAC法は、トレーニングステップの半数しか持たない多くのゲームにおいて、Q-Learning法よりも高いスコアを達成する。 これはテキストベースのゲームに適していることを示している。 さらに,報酬形成技術は,エージェントが政策をより早く学習し,より高いスコアを得るのに役立つことを示す。 特に,動的学習値関数は,学習者の本来のスパース報酬信号を形成する潜在関数である。

Text-based games are a popular testbed for language-based reinforcement learning (RL). In previous work, deep Q-learning is commonly used as the learning agent. Q-learning algorithms are challenging to apply to complex real-world domains due to, for example, their instability in training. Therefore, in this paper, we adapt the soft-actor-critic (SAC) algorithm to the text-based environment. To deal with sparse extrinsic rewards from the environment, we combine it with a potential-based reward shaping technique to provide more informative (dense) reward signals to the RL agent. We apply our method to play difficult text-based games. The SAC method achieves higher scores than the Q-learning methods on many games with only half the number of training steps. This shows that it is well-suited for text-based games. Moreover, we show that the reward shaping technique helps the agent to learn the policy faster and achieve higher scores. In particular, we consider a dynamically learned value function as a potential function for shaping the learner's original sparse reward signals.
翻訳日:2023-02-22 14:44:10 公開日:2023-02-21
# メモリ拡張オンラインビデオ異常検出

Memory-augmented Online Video Anomaly Detection ( http://arxiv.org/abs/2302.10719v1 )

ライセンス: Link先を確認
Leonardo Rossi, Vittorio Bernuzzi, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati(参考訳) 周囲のシーンを理解する能力は、自律走行車(AV)にとって最重要事項である。 本稿では,AVを取り巻く異常の発生に即時対応し,ダッシュマウントカメラで撮影した映像のみを利用して,リアルタイムに応答時間とオンライン・ファッションを保証できるシステムを提案する。 当社のアーキテクチャはMOVADと呼ばれる2つの主要なモジュールに依存している: オンラインシナリオで動作するように適応されたビデオスウィントランスフォーマーによって実装された、進行中のアクションに関する情報を抽出する短期メモリと、Long-Short Term Memory (LSTM)ネットワークを利用することにより、リモートの過去の情報も考慮する長期メモリモジュール。 本研究では,事故現場のダッシュマウントカメラ映像の難読化である交通異常検出(DoTA)データセットの性能評価を行った。 大規模なアブレーション研究の後、MOVADはAUCの82.11%に達し、現在の最先端の2.81 AUCを上回った。 私たちのコードはhttps://github.com/IMPLabUniPr/movad/tree/icipで利用可能です。

The ability to understand the surrounding scene is of paramount importance for Autonomous Vehicles (AVs). This paper presents a system capable to work in a real time guaranteed response times and online fashion, giving an immediate response to the arise of anomalies surrounding the AV, exploiting only the videos captured by a dash-mounted camera. Our architecture, called MOVAD, relies on two main modules: a short-term memory to extract information related to the ongoing action, implemented by a Video Swin Transformer adapted to work in an online scenario, and a long-term memory module that considers also remote past information thanks to the use of a Long-Short Term Memory (LSTM) network. We evaluated the performance of our method on Detection of Traffic Anomaly (DoTA) dataset, a challenging collection of dash-mounted camera videos of accidents. After an extensive ablation study, MOVAD is able to reach an AUC score of 82.11%, surpassing the current state-of-the-art by +2.81 AUC. Our code will be available on https://github.com/IMPLabUniPr/movad/tree/icip
翻訳日:2023-02-22 14:43:54 公開日:2023-02-21
# 連続的なセマンティックセグメンテーションに及ぼす建築の影響

Effects of Architectures on Continual Semantic Segmentation ( http://arxiv.org/abs/2302.10718v1 )

ライセンス: Link先を確認
Tobias Kalb, Niket Ahuja, Jingxing Zhou, J\"urgen Beyerer(参考訳) 連続セマンティックセグメンテーションの分野での研究は、ニューラルネットワークの破滅的な忘れを克服する新しい学習アルゴリズムを主に研究している。 近年の論文では,ニューラルネットワークアーキテクチャの選択による影響を区別することなく,学習アルゴリズムの改善に重点を置いている。 具体的には,最近提案されたトランスフォーマーやハイブリッドアーキテクチャと比較し,新しい正規化層と異なるデコーダヘッドの選択の影響について検討した。 ResNetのような従来のCNNの可塑性は高いが安定性は低いが、トランスフォーマーアーキテクチャはずっと安定している。 CNNアーキテクチャの帰納バイアスがハイブリッドアーキテクチャのトランスフォーマーと組み合わせられると、可塑性と安定性が向上する。 これらのモデルの安定性は、分布シフトに対して堅牢な一般的な特徴を学ぶ能力によって説明できる。 異なる正規化層を持つ実験は、モデルの適応性と安定性の観点から、連続正規化が最良のトレードオフを達成することを示している。 クラスインクリメンタルな設定では、正規化層の選択は影響をはるかに少なくする。 我々の実験は、アーキテクチャの正しい選択は、微調整を素直に行えば忘れを著しく減らし、現実世界のアプリケーションにとって、アーキテクチャが継続的な学習モデルを設計する上で重要な要素であることを確認することを示唆している。

Research in the field of Continual Semantic Segmentation is mainly investigating novel learning algorithms to overcome catastrophic forgetting of neural networks. Most recent publications have focused on improving learning algorithms without distinguishing effects caused by the choice of neural architecture.Therefore, we study how the choice of neural network architecture affects catastrophic forgetting in class- and domain-incremental semantic segmentation. Specifically, we compare the well-researched CNNs to recently proposed Transformers and Hybrid architectures, as well as the impact of the choice of novel normalization layers and different decoder heads. We find that traditional CNNs like ResNet have high plasticity but low stability, while transformer architectures are much more stable. When the inductive biases of CNN architectures are combined with transformers in hybrid architectures, it leads to higher plasticity and stability. The stability of these models can be explained by their ability to learn general features that are robust against distribution shifts. Experiments with different normalization layers show that Continual Normalization achieves the best trade-off in terms of adaptability and stability of the model. In the class-incremental setting, the choice of the normalization layer has much less impact. Our experiments suggest that the right choice of architecture can significantly reduce forgetting even with naive fine-tuning and confirm that for real-world applications, the architecture is an important factor in designing a continual learning model.
翻訳日:2023-02-22 14:43:33 公開日:2023-02-21
# クラッタ環境におけるロボットのプッシュ・ピッキングのための深部強化学習

Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment ( http://arxiv.org/abs/2302.10717v1 )

ライセンス: Link先を確認
Yuhong Deng, Xiaofeng Guo, Yixuan Wei, Kai Lu, Bin Fang, Di Guo, Huaping Liu and Fuchun Sun(参考訳) そこで本稿では,ロボットによる新しい把持システムを構築し,乱雑な場面で自動的に物体を拾い上げる。 物体を安定的につかむために、吸引カップとグッパーとからなる複合ロボットハンドを設計する。 吸引カップは、まずクラッタから物体を持ち上げるために使用され、それに応じて物体をつかむグリッパーが使用される。 我々は、この割高マップを用いて、吸引カップの画素単位の昇華点候補を提供する。 優れたアベイランスマップを得るには、システムにアクティブな探索機構を導入する。 有効な指標は、現在の空き地図に対する報酬を計算するために設計され、ロボットハンドを誘導して、生成された空き地図が把握に適するまで、環境を積極的に探索するディープQネットワーク(DQN)が使用される。 実験結果から,提案するロボットグルーピングシステムは,散在シーンにおけるロボットグルーピングの成功率を大幅に向上させることができることが示された。

In this paper, a novel robotic grasping system is established to automatically pick up objects in cluttered scenes. A composite robotic hand composed of a suction cup and a gripper is designed for grasping the object stably. The suction cup is used for lifting the object from the clutter first and the gripper for grasping the object accordingly. We utilize the affordance map to provide pixel-wise lifting point candidates for the suction cup. To obtain a good affordance map, the active exploration mechanism is introduced to the system. An effective metric is designed to calculate the reward for the current affordance map, and a deep Q-Network (DQN) is employed to guide the robotic hand to actively explore the environment until the generated affordance map is suitable for grasping. Experimental results have demonstrated that the proposed robotic grasping system is able to greatly increase the success rate of the robotic grasping in cluttered scenes.
翻訳日:2023-02-22 14:43:08 公開日:2023-02-21
# 自己教師付き拡散による3次元映像の学習

Learning 3D Photography Videos via Self-supervised Diffusion on Single Images ( http://arxiv.org/abs/2302.10781v1 )

ライセンス: Link先を確認
Xiaodong Wang, Chenfei Wu, Shengming Yin, Minheng Ni, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Fan Yang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan(参考訳) 3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。 既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画し、最後にその欠落した領域を埋めるために塗装モデルを使用する。 インペインティングモデルは、品質のレンダリングにおいて重要な役割を果たすが、通常はドメイン外データでトレーニングされる。 トレーニングと推論のギャップを低減するため,本モジュールとして自己教師付き拡散モデルを提案する。 1つの入力画像が与えられたとき、マスク付きオクルード画像と接地画像のトレーニングペアをランダムなサイクルレンダリングで自動的に構築する。 構築されたトレーニングサンプルは、データアノテーションを必要とせずに、テストインスタンスと密接に一致します。 マスクされた画像をフル活用するために,UNetに簡単に接続可能なMasked Enhanced Block (MEB) を設計し,セマンティック条件を強化する。 実世界のアニメーションに向けて,入力オブジェクトの空間と時間を拡張する,アウトアニメーションという新しいタスクを提案する。 実データセットに対する大規模な実験により,既存のSOTA法と競合する結果が得られた。

3D photography renders a static image into a video with appealing 3D visual effects. Existing approaches typically first conduct monocular depth estimation, then render the input frame to subsequent frames with various viewpoints, and finally use an inpainting model to fill those missing/occluded regions. The inpainting model plays a crucial role in rendering quality, but it is normally trained on out-of-domain data. To reduce the training and inference gap, we propose a novel self-supervised diffusion model as the inpainting module. Given a single input image, we automatically construct a training pair of the masked occluded image and the ground-truth image with random cycle-rendering. The constructed training samples are closely aligned to the testing instances, without the need of data annotation. To make full use of the masked images, we design a Masked Enhanced Block (MEB), which can be easily plugged into the UNet and enhance the semantic conditions. Towards real-world animation, we present a novel task: out-animation, which extends the space and time of input objects. Extensive experiments on real datasets show that our method achieves competitive results with existing SOTA methods.
翻訳日:2023-02-22 14:37:38 公開日:2023-02-21
# 下肢に対するヒト逆運動学法の比較研究

A comparative study of human inverse kinematics techniques for lower limbs ( http://arxiv.org/abs/2302.10769v1 )

ライセンス: Link先を確認
Zineb Benhmidouch, Saad Moufid, Aissam Ait Omar(参考訳) 逆キネマティクス (Inverse Kinematics, IK) は活発な研究テーマであり、高速で正確な解を提供するために多くの手法が導入された。 しかし、高い計算コストと非現実的位置の生成は、既存のほとんどのik法において弱点となる。 そこで本研究では,ヒトの足に応用された一般的なIK技術の性能を比較検討した。 計算時間の観点から最も効率的な方法を決定し、関節の動作範囲や関節の快適ゾーンを尊重しつつ、現実的な姿勢で所望の位置に到達することを目的とする。

Inverse Kinematics (IK) has been an active research topic and many methods have been introduced to provide a fast and accurate solution. However, high computational cost and the generation of unrealistic positions constitute the weak points in most existing IK methods. In this paper, a comparative study was established to analyze the performance of popular IK techniques applied to the human leg. The objective is to determine the most efficient method in terms of computation time and to reach the desired position with a realistic human posture while respecting the range of motion and joint comfort zones of every joint.
翻訳日:2023-02-22 14:36:32 公開日:2023-02-21
# 光学活性量子欠陥に対するミッドギャップ状態条件

Midgap state requirements for optically active quantum defects ( http://arxiv.org/abs/2302.10767v1 )

ライセンス: Link先を確認
Yihuang Xiong, Milena Mathew, Sin\'ead M. Griffin, Alp Sipahigil, Geoffroy Hautier(参考訳) 光学活性量子欠陥は、量子センシング、計算、通信において重要な役割を果たす。 半導体ホストにおけるこれらの量子欠陥の電子構造と単一粒子エネルギーレベルは、それらの光電子的性質を理解するために用いられる。 初期化と読み出しの中心となる光励起は、占有状態と非占有状態の間の遷移と結びついている。 一般に、バンドギャップ内で、バンドエッジから遠く離れたレベルを導入する量子欠陥のみが、ホストに埋め込まれた孤立原子を模倣する量子技術に興味があると仮定されている。 この観点からは、この共通の仮定と矛盾し、バンドエッジに近いエネルギー準位を持つ光学活性欠陥が同様の特性を示すことができることを示す。 我々は、T中心やSe$\rm _{Si}^+$のようなバンド状のレベル(バウンドエキシトン)への遷移によって励起される量子欠陥を強調する。 また, ダイヤモンド中のシリコン希薄性などの欠陥が, 伝導帯上あるいは価帯下における局部化レベル間の遷移にどのように関与するかを示す。 量子欠陥の電子構造に関する一般的に想定される要件を緩めることは、量子欠陥の設計と発見、特にシリコンのような小さなバンドギャップホストにおいて機会を与える。 本研究は,光発光の運転温度や放射寿命の観点からの課題について論じる。 また、これらの代替的なタイプの欠陥が、理論的発展と根本的な理解の観点から、自身のニーズをどのようにもたらすかを強調します。 この観点は量子欠陥の電子構造要求を明らかにし、特に第一原理計算によって駆動される量子アプリケーションのための新しい色中心の同定と設計を容易にする。

Optically active quantum defects play an important role in quantum sensing, computing, and communication. The electronic structure and the single-particle energy levels of these quantum defects in the semiconducting host have been used to understand their opto-electronic properties. Optical excitations that are central for their initialization and readout are linked to transitions between occupied and unoccupied single-particle states. It is commonly assumed that only quantum defects introducing levels well within the band gap and far from the band edges are of interest for quantum technologies as they mimic an isolated atom embedded in the host. In this perspective, we contradict this common assumption and show that optically active defects with energy levels close to the band edges can display similar properties. We highlight quantum defects that are excited through transitions to or from a band-like level (bound exciton), such as the T center and Se$\rm _{Si}^+$ in silicon. We also present how defects such as the silicon divacancy in diamond can involve transitions between localized levels that are above the conduction band or below the valence band. Loosening the commonly assumed requirement on the electronic structure of quantum defects offers opportunities in quantum defects design and discovery, especially in smaller band gap hosts such as silicon. We discuss the challenges in terms of operating temperature for photoluminescence or radiative lifetime in this regime. We also highlight how these alternative type of defects bring their own needs in terms of theoretical developments and fundamental understanding. This perspective clarifies the electronic structure requirement for quantum defects and will facilitate the identification and design of new color centers for quantum applications especially driven by first principles computations.
翻訳日:2023-02-22 14:36:22 公開日:2023-02-21
# 説明可能なAIと法則の調整:欧州の展望

Aligning Explainable AI and the Law: The European Perspective ( http://arxiv.org/abs/2302.10766v1 )

ライセンス: Link先を確認
Balint Gyevnar and Nick Ferguson(参考訳) 欧州連合(eu)は、aiシステム、特に医療などのリスクの高い安全クリティカルなアプリケーションで使用されるものを規制する人工知能法を提案した。 法律の論文には透明性と説明可能性に関する詳細な要件がある。 説明可能なAI(XAI)の分野は、これらの要求の多くに対処できる技術を提供している。 しかしながら、XAIが提供するソリューションとAI Actの要件との間には、明確な透明性の定義の欠如など、大きな違いがある。 我々は、これらの違いに対処するために、弁護士とXAI研究者の協力が不可欠であると主張している。 共通基盤を確立するため、XAIとその法的関連性の概要と、AI法及び関連する一般データ保護規則(GDPR)の透明性と説明可能性要件の読解について述べる。 次に、違いが問題を引き起こす可能性のある4つの主要なトピックについて論じる。 具体的には、XAIの法的地位、透明性の定義の欠如、適合性評価に関する問題、データセット関連の透明性にXAIを使用する。 明確化が法律とXAIの学際的な研究を促進し、責任あるイノベーションを促進する持続可能な規制の創出を支援することを願っている。

The European Union has proposed the Artificial Intelligence Act intending to regulate AI systems, especially those used in high-risk, safety-critical applications such as healthcare. Among the Act's articles are detailed requirements for transparency and explainability. The field of explainable AI (XAI) offers technologies that could address many of these requirements. However, there are significant differences between the solutions offered by XAI and the requirements of the AI Act, for instance, the lack of an explicit definition of transparency. We argue that collaboration is essential between lawyers and XAI researchers to address these differences. To establish common ground, we give an overview of XAI and its legal relevance followed by a reading of the transparency and explainability requirements of the AI Act and the related General Data Protection Regulation (GDPR). We then discuss four main topics where the differences could induce issues. Specifically, the legal status of XAI, the lack of a definition of transparency, issues around conformity assessments, and the use of XAI for dataset-related transparency. We hope that increased clarity will promote interdisciplinary research between the law and XAI and support the creation of a sustainable regulation that fosters responsible innovation.
翻訳日:2023-02-22 14:35:59 公開日:2023-02-21
# シングルスマートフォンを用いたマーカーレスモーションキャプチャによるジャンプ高さの定量化

Quantifying Jump Height Using Markerless Motion Capture with a Single Smartphone ( http://arxiv.org/abs/2302.10749v1 )

ライセンス: Link先を確認
Timilehin B. Aderinola, Hananeh Younesian, Darragh Whelan, Brian Caulfield, Georgiana Ifrim(参考訳) ゴール: 反動ジャンプ(CMJ)は一般的に下半身の爆発力を測定するために使用される。 本研究では,スマートフォン1台でcmjのジャンプ高さを計測できるマーカレスモーションキャプチャ(mmc)の精度について検討した。 方法: まず、左右のCMJの3つの繰り返しが16人の健康な成人(平均年齢:30.87ドル\pm$7.24年、平均BMI:23.14ドル\pm$2.55ドルkg/m^2$)によって行われ、同時に光学式モーションキャプチャ(OMC)と1台のスマートフォンカメラで撮影された。 次に、MMCはOpenPoseを使ってスマートフォンのビデオで実行された。 そして, 力板とOMCを基礎事実として, ジャンプ高さの定量評価を行った。 結果: mmc は mae を 1.47 cm から 2.82 cm に,icc を 0.84 から 0.99 に設定し,手作業によるセグメンテーションやカメラキャリブレーションは行わない。 結論: スマートフォン1台でマーカーレスモーションキャプチャが実現可能であることが示唆された。 インデックス用語 - 逆移動ジャンプ、マーカーレスモーションキャプチャ、光学モーションキャプチャ、ジャンプ高さ。 インパクト・ステートメント - カメラのキャリブレーションも手動のセグメンテーションも不要な単純な設定で、1台のスマートフォンでマーカーレスモーションキャプチャーを使用して、ジャンプの高さを正確に定量化できる。

Goal: The countermovement jump (CMJ) is commonly used to measure the explosive power of the lower body. This study evaluates how accurately markerless motion capture (MMC) with a single smartphone can measure bilateral and unilateral CMJ jump height. Methods: First, three repetitions each of bilateral and unilateral CMJ were performed by sixteen healthy adults (mean age: 30.87 $\pm$ 7.24 years; mean BMI: 23.14 $\pm$ 2.55 $kg/m^2$) on force plates and simultaneously captured using optical motion capture (OMC) and one smartphone camera. Next, MMC was performed on the smartphone videos using OpenPose. Then, we evaluated MMC in quantifying jump height using the force plate and OMC as ground truths. Results: MMC quantifies jump heights with MAE between 1.47 and 2.82 cm, and ICC between 0.84 and 0.99 without manual segmentation and camera calibration. Conclusions: Our results suggest that using a single smartphone for markerless motion capture is feasible. Index Terms - Countermovement jump, Markerless motion capture, Optical motion capture, Jump height. Impact Statement - Countermovement jump height can be accurately quantified using markerless motion capture with a single smartphone, with a simple setup that requires neither camera calibration nor manual segmentation.
翻訳日:2023-02-22 14:34:53 公開日:2023-02-21
# 共振器Q-ファクタチューニングによるMaser Threshold特性の評価

Maser Threshold Characterization by Resonator Q-Factor Tuning ( http://arxiv.org/abs/2302.10811v1 )

ライセンス: Link先を確認
Christoph W. Zollitsch, Stefan Ruloff, Yan Fett, Haakon T. A. Wiedemann, Rudolf Richter, Jonathan D. Breeze, and Christopher W. M. Kay(参考訳) マイクロ波増幅の概念は1950年代に放射線(メーザー)を励起し、光アナログレーザー(レーザー)が近接して開発された。 レーザーは現在、基礎科学、産業、日常生活で使われているユビキタス技術であるが、マザーの用途は、例えば深宇宙通信や天文学など、高度に専門化されている。 メイザーの優れた低ノイズマイクロ波増幅特性は幅広い用途の魅力的な候補となったが、元のメイザーシステムは低温や高真空環境を必要とした。 このように、ダイヤモンド中のnv$^-$中心を用いた連続波室温メーザーが最近実現され、メーザーはマイクロ波研究開発の興味をそそるプラットフォームとして再活性化された。 この作業に基づいて,nv$^-$ センタを用いたメーザーの動作空間を特徴付けるため,最適化されたセットアップを設計・構築した。 ここでは、マイクロ波共振器の品質係数とスピンレベル反転度という、マイクロ波光子の連続放出のための2つの重要なパラメータの相互作用に焦点を当てる。 我々は,この2つのパラメータの関数としてメーザーの性能を特徴付け,操作のパラメータ空間を同定し,最大連続マイクロ波放射の要件を強調した。

The concepts for microwave amplification by stimulated emission of radiation (maser) closely followed by the optical analogue, the laser, were developed in the 1950s. Whereas the laser is now a ubiquitous technology, used in fundamental science, industry and everyday life, applications for the maser remain highly specialized e.g., for deep-space communication and astronomy. Although the excellent low-noise microwave amplification properties of the maser made it an attractive candidate for a broad range of applications, the original maser systems required cryogenic temperatures and/or high vacuum environments; both are major barriers for widespread applications. Thus, the recent realization of a continuous-wave room-temperature maser, using NV$^-$ centers in diamond, reinvigorated the maser as an intriguing platform for microwave research and development. Building on this work, we designed and constructed an optimized setup in order to characterize the operating space of a maser using NV$^-$ centers. Here we focus on the interplay of two key parameters for continuous emission of microwave photons: the quality factor of the microwave resonator and the degree of spin-level-inversion. We characterized the performance of the maser as a function of these two parameters, identified the parameter space of operation and could, thereby, highlight the requirements for maximal continuous microwave emission.
翻訳日:2023-02-22 14:28:00 公開日:2023-02-21
# 確率列型マルチエージェント意思決定のための因果社会説明法

Causal Social Explanations for Stochastic Sequential Multi-Agent Decision-Making ( http://arxiv.org/abs/2302.10809v1 )

ライセンス: Link先を確認
Balint Gyevnar, Cheng Wang, Christopher G. Lucas, Shay B. Cohen, Stefano V. Albrecht(参考訳) 本稿では,確率的連続マルチエージェント環境におけるエージェント決定のための因果説明を生成する新しいフレームワークを提案する。 説明は、幅広いユーザークエリに答える自然言語会話を通じて行われ、連想的、介入的、または反事実的因果推論を必要とする。 特定の因果グラフを仮定する代わりに、本手法は、意思決定の背後にある健全な原因を特定するために使用される反ファクトの世界をシミュレートする相互作用の生成モデルに依存する。 自律走行のための動作計画手法を実装し,協調インタラクションを伴うシミュレーションシナリオでテストする。 提案手法は,関連する原因を正しく識別し分類し,ユーザのクエリに簡潔な説明を提供する。

We present a novel framework to generate causal explanations for the decisions of agents in stochastic sequential multi-agent environments. Explanations are given via natural language conversations answering a wide range of user queries and requiring associative, interventionist, or counterfactual causal reasoning. Instead of assuming any specific causal graph, our method relies on a generative model of interactions to simulate counterfactual worlds which are used to identify the salient causes behind decisions. We implement our method for motion planning for autonomous driving and test it in simulated scenarios with coupled interactions. Our method correctly identifies and ranks the relevant causes and delivers concise explanations to the users' queries.
翻訳日:2023-02-22 14:27:38 公開日:2023-02-21
# 適応的深さ校正ネットワークに基づくbokehレンダリング

Bokeh Rendering Based on Adaptive Depth Calibration Network ( http://arxiv.org/abs/2302.10808v1 )

ライセンス: Link先を確認
Lu Liu, Lei Zhou, Yuhan Dong(参考訳) ボケレンダリング(英: Bokeh rendering)は、写真において美的な効果を生み出すために使われる、人気があり効果的なテクニックである。 背景をぼかし、被写体を前景で強調するために広く用いられており、映像の主焦点に視聴者の注意を向けている。 従来のデジタル一眼レフカメラ(DSLR)では、この効果は大きな開口レンズを用いて達成される。 これにより、カメラは浅い被写界深度で画像を撮影でき、画像のわずかな領域だけが鋭い焦点で撮影され、残りの部分がぼやけられる。 しかし、携帯電話に埋め込まれたハードウェアは、一般的にDSLRよりもずっと小さく、より限定的である。 そのため、携帯電話は自然に浅い被写界深度の写真を撮影できないため、モバイル写真には大きな制限がある。 本稿では,この課題に対処するために,最新の強力なディープラーニングアーキテクチャである vision transformer を用いたbokeh レンダリング手法を提案する。 本手法は,単眼深度推定における誤差を補償するための信頼度レベルとして機能する適応的深さ校正ネットワークを用いる。 このネットワークは、深度情報と共にレンダリング処理を監督するために使用され、高解像度で高品質なボケ画像を生成することができる。 実験により,提案手法は最先端の手法よりも優れ,LPIPSの約24.7%の改善とPSNRスコアの向上が得られた。

Bokeh rendering is a popular and effective technique used in photography to create an aesthetically pleasing effect. It is widely used to blur the background and highlight the subject in the foreground, thereby drawing the viewer's attention to the main focus of the image. In traditional digital single-lens reflex cameras (DSLRs), this effect is achieved through the use of a large aperture lens. This allows the camera to capture images with shallow depth-of-field, in which only a small area of the image is in sharp focus, while the rest of the image is blurred. However, the hardware embedded in mobile phones is typically much smaller and more limited than that found in DSLRs. Consequently, mobile phones are not able to capture natural shallow depth-of-field photos, which can be a significant limitation for mobile photography. To address this challenge, in this paper, we propose a novel method for bokeh rendering using the Vision Transformer, a recent and powerful deep learning architecture. Our approach employs an adaptive depth calibration network that acts as a confidence level to compensate for errors in monocular depth estimation. This network is used to supervise the rendering process in conjunction with depth information, allowing for the generation of high-quality bokeh images at high resolutions. Our experiments demonstrate that our proposed method outperforms state-of-the-art methods, achieving about 24.7% improvements on LPIPS and obtaining higher PSNR scores.
翻訳日:2023-02-22 14:27:28 公開日:2023-02-21
# Smoothed Adversary に対する繰り返しのバイラテラル貿易

Repeated Bilateral Trade Against a Smoothed Adversary ( http://arxiv.org/abs/2302.10805v1 )

ライセンス: Link先を確認
Nicol\`o Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, Federico Fusco, Stefano Leonardi(参考訳) 我々は、アダプティブ$\sigma$-smooth敵が売り手と買い手のバリュエーションを生成する二国間貿易を繰り返す。 学習者が購入者や販売者に対して同じまたは異なる価格を投稿できる2つのケースにおいて、異なるフィードバックモデルの下で固定価格メカニズムに対する後悔の制度を完全に特徴づける。 まず、$T$ラウンド後のミニマックス後悔は、フルフィードバックシナリオにおいて$\sqrt{T}$であることを示す。 部分的なフィードバックの下では、買い手や売り手に同じ価格を投稿しなければならないアルゴリズムは、最悪の線形後悔に悩まされる。 しかし、学習者が各ラウンドで2つの異なる価格を提示できる場合、ログファクタを無視する$T^{3/4}を後悔するアルゴリズムを設計する。 この速度は驚くべき$t^{3/4}$下限を示して最適であることを証明し、これが論文の主な技術的貢献である。

We study repeated bilateral trade where an adaptive $\sigma$-smooth adversary generates the valuations of sellers and buyers. We provide a complete characterization of the regret regimes for fixed-price mechanisms under different feedback models in the two cases where the learner can post either the same or different prices to buyers and sellers. We begin by showing that the minimax regret after $T$ rounds is of order $\sqrt{T}$ in the full-feedback scenario. Under partial feedback, any algorithm that has to post the same price to buyers and sellers suffers worst-case linear regret. However, when the learner can post two different prices at each round, we design an algorithm enjoying regret of order $T^{3/4}$ ignoring log factors. We prove that this rate is optimal by presenting a surprising $T^{3/4}$ lower bound, which is the main technical contribution of the paper.
翻訳日:2023-02-22 14:27:04 公開日:2023-02-21
# 対数的最悪の場合の後悔を伴う量子強化学習における効果的な探索

Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret ( http://arxiv.org/abs/2302.10796v1 )

ライセンス: Link先を確認
Han Zhong, Jiachen Hu, Yecheng Xue, Tongyang Li, Liwei Wang(参考訳) 量子強化学習(rl)は近年注目を集めているが,その理論的理解は限られている。 特に、探索-探索トレードオフに対処できる証明可能な量子RLアルゴリズムを設計する方法は、いまだ解明されていない。 この目的のために我々は,$s$ 状態,$a$ アクション,horizon $h$ を持つ表型マルコフ決定プロセス (mdps) に対して量子コンピューティングを利用する新しいucrl型アルゴリズムを提案し,$\mathcal{o}(\mathrm{poly}(s, a, h, \log t))$ かつ$\mathcal{o}(\mathrm{poly}(s, a, h, \log t))$ をエピソード数とする。 さらに,この結果は線形関数近似によって量子rlに拡張され,大きな状態空間で問題を扱うことができる。 具体的には、$d$次元線形表現を持つ線形混合MDPに対する値目標回帰(VTR)に基づく量子アルゴリズムを開発し、$\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regretを満足していることを証明する。 我々のアルゴリズムは古典的RLにおけるUCRL/UCRL-VTRアルゴリズムの変種であり、遅延更新機構と量子推定サブルーチンの新たな組み合わせを利用する。 これは古典的RLにおける$\Omega(\sqrt{T})$-regret障壁を破る鍵である。 私たちの知る限りでは、これは証明可能な対数的最悪の後悔で量子rlのオンライン探索を研究する最初の仕事です。

While quantum reinforcement learning (RL) has attracted a surge of attention recently, its theoretical understanding is limited. In particular, it remains elusive how to design provably efficient quantum RL algorithms that can address the exploration-exploitation trade-off. To this end, we propose a novel UCRL-style algorithm that takes advantage of quantum computing for tabular Markov decision processes (MDPs) with $S$ states, $A$ actions, and horizon $H$, and establish an $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ worst-case regret for it, where $T$ is the number of episodes. Furthermore, we extend our results to quantum RL with linear function approximation, which is capable of handling problems with large state spaces. Specifically, we develop a quantum algorithm based on value target regression (VTR) for linear mixture MDPs with $d$-dimensional linear representation and prove that it enjoys $\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regret. Our algorithms are variants of UCRL/UCRL-VTR algorithms in classical RL, which also leverage a novel combination of lazy updating mechanisms and quantum estimation subroutines. This is the key to breaking the $\Omega(\sqrt{T})$-regret barrier in classical RL. To the best of our knowledge, this is the first work studying the online exploration in quantum RL with provable logarithmic worst-case regret.
翻訳日:2023-02-22 14:26:06 公開日:2023-02-21
# 西アフリカにおける理科教育のためのai教育アシスタントkwame for scienceの実世界展開と評価

Real-World Deployment and Evaluation of Kwame for Science, An AI Teaching Assistant for Science Education in West Africa ( http://arxiv.org/abs/2302.10786v1 )

ライセンス: Link先を確認
George Boateng, Samuel John, Samuel Boateng, Philemon Badu, Patrick Agyeman-Budu and Victor Kumbol(参考訳) アフリカは生徒と教師の比率が高く、教育的質問応答のような学習支援のための教師へのアクセスを制限している。 この作業では、コーディング教育のAI教育アシスタントであるKwameを拡張し、科学教育に適応させ、Webアプリとしてデプロイしました。 クウェーム・フォー・サイエンス(Kwame for Science)は、西アフリカ上級中等試験(WASSCE)の総合科学科(Integrated Science subject)に基づく学生からの質問に対する回答として、精巧な知識ソースと関連する過去の国家試験に関する質問からのパスを提供する。 さらに, 学生は過去の全国試験の質問や回答, 年々のフィルタリング, 質問タイプ(目的, 理論, 実践), および, 開発したトピック検出モデルによって自動的に分類されたトピック(平均91%の未加重リコール)を見ることができる。 kwame for scienceを8ヶ月にわたって現実世界に展開し、32カ国(アフリカ15か国)で750人のユーザと15万の質問がありました。 評価の結果、トップ3の正確性は87.2%(n=109問)で、kwame for scienceは表示された3つのうち少なくとも1つの有用な答えを与える確率が高いことが示唆された。 モデルが正しく答えていない理由を分類し、今後の改善に対する洞察を提供した。 我々はまた、他の研究者が同様のツールをデプロイできるように、そのようなツールの開発、デプロイ、人間とコンピュータのインタラクションコンポーネントに課題と教訓を共有します。 Kwame for Scienceは、アフリカ大陸の何百万人もの人々に、スケーラブルで費用対効果が高くて高品質な遠隔教育を届ける可能性を秘めている。

Africa has a high student-to-teacher ratio which limits students' access to teachers for learning support such as educational question answering. In this work, we extended Kwame, our previous AI teaching assistant for coding education, adapted it for science education, and deployed it as a web app. Kwame for Science provides passages from well-curated knowledge sources and related past national exam questions as answers to questions from students based on the Integrated Science subject of the West African Senior Secondary Certificate Examination (WASSCE). Furthermore, students can view past national exam questions along with their answers and filter by year, question type (objectives, theory, and practicals), and topics that were automatically categorized by a topic detection model which we developed (91% unweighted average recall). We deployed Kwame for Science in the real world over 8 months and had 750 users across 32 countries (15 in Africa) and 1.5K questions asked. Our evaluation showed an 87.2% top 3 accuracy (n=109 questions) implying that Kwame for Science has a high chance of giving at least one useful answer among the 3 displayed. We categorized the reasons the model incorrectly answered questions to provide insights for future improvements. We also share challenges and lessons with the development, deployment, and human-computer interaction component of such a tool to enable other researchers to deploy similar tools. With a first-of-its-kind tool within the African context, Kwame for Science has the potential to enable the delivery of scalable, cost-effective, and quality remote education to millions of people across Africa.
翻訳日:2023-02-22 14:24:52 公開日:2023-02-21
# ニューラルネットワーク探索のための汎用変換可能予測器

A General-Purpose Transferable Predictor for Neural Architecture Search ( http://arxiv.org/abs/2302.10835v1 )

ライセンス: Link先を確認
Fred X. Han, Keith G. Mills, Fabian Chudak, Parsa Riahi, Mohammad Salameh, Jialin Zhang, Wei Lu, Shangling Jui, Di Niu(参考訳) ニューラルネットワークのパフォーマンスを理解し、モデル化することは、Neural Architecture Search(NAS)の鍵となる。 性能予測器は低コストのNASで広く使われており、NASベンチマークでは予測真理性能と基底真理性能の相関性が高い。 しかし、既存の予測器は事前定義された検索空間に特有のネットワークエンコーディングに基づいて設計されることが多く、従って他の検索空間や新しいアーキテクチャファミリには一般化できない。 本稿では,任意の候補である畳み込みニューラルネットワーク(CNN)を,プリミティブ演算子からなる計算グラフ(CG)で表現することにより,探索空間をまたぐNASの汎用的ニューラルネットワーク予測器を提案する。 さらに、CGネットワーク表現とコントラシブラーニング(CL)を組み合わせることで、複数のファミリからのラベルなしアーキテクチャの構造情報を活用して、パフォーマンス予測のためのCG埋め込みを訓練するグラフ表現学習手法を提案する。 NAS-Bench-101, 201, 301の実験結果から, 探索空間毎に強い正のスピアマンランク相関係数(SRCC)を達成し, 探索空間にまたがる一般化可能な予測因子であるSynflowやJacovなど, ゼロコストプロキシよりも優れていることを示す。 さらに、進化的ニューラルアーキテクチャ探索アルゴリズムで提案した汎用予測器を使用すると、NAS-Bench-101上で高性能なアーキテクチャを見つけ、ImageNet上で79.2%の精度でMobileNetV3アーキテクチャを見つけることができる。

Understanding and modelling the performance of neural architectures is key to Neural Architecture Search (NAS). Performance predictors have seen widespread use in low-cost NAS and achieve high ranking correlations between predicted and ground truth performance in several NAS benchmarks. However, existing predictors are often designed based on network encodings specific to a predefined search space and are therefore not generalizable to other search spaces or new architecture families. In this paper, we propose a general-purpose neural predictor for NAS that can transfer across search spaces, by representing any given candidate Convolutional Neural Network (CNN) with a Computation Graph (CG) that consists of primitive operators. We further combine our CG network representation with Contrastive Learning (CL) and propose a graph representation learning procedure that leverages the structural information of unlabeled architectures from multiple families to train CG embeddings for our performance predictor. Experimental results on NAS-Bench-101, 201 and 301 demonstrate the efficacy of our scheme as we achieve strong positive Spearman Rank Correlation Coefficient (SRCC) on every search space, outperforming several Zero-Cost Proxies, including Synflow and Jacov, which are also generalizable predictors across search spaces. Moreover, when using our proposed general-purpose predictor in an evolutionary neural architecture search algorithm, we can find high-performance architectures on NAS-Bench-101 and find a MobileNetV3 architecture that attains 79.2% top-1 accuracy on ImageNet.
翻訳日:2023-02-22 14:18:22 公開日:2023-02-21
# 微粒な外科的活動認識のための時間的畳み込みネットワーク

Weakly Supervised Temporal Convolutional Networks for Fine-grained Surgical Activity Recognition ( http://arxiv.org/abs/2302.10834v1 )

ライセンス: Link先を確認
Sanat Ramesh, Diego Dall'Alba, Cristians Gonzalez, Tong Yu, Pietro Mascagni, Didier Mutter, Jacques Marescaux, Paolo Fiorini, and Nicolas Padoy(参考訳) ステップと呼ばれる細かい手術活動の自動認識は、インテリジェントな術中コンピュータ支援にとって困難な作業だが重要な課題である。 現在の視覚に基づく行動認識手法の開発は、大量の手動注釈データに大きく依存している。 このデータは生成が難しく、ドメイン固有の知識を必要とする。 本研究は,より少ないステップアノテートビデオでステップ認識を学ぶための弱い監督として,より粗く,より簡単にアノテートできるアクティビティラベル,すなわちフェーズを使用することを提案する。 弱い監視信号を利用する段階的依存損失を導入する。 次に,ResNet-50のバックボーンを備えた単一段階の時間的畳み込みネットワーク(SS-TCN)を用いて,時間的活動のセグメンテーションと認識を行う。 腹腔鏡下胃バイパス術40例と白内障手術50例を含むCATARACTSを併用した大規模ビデオデータセットにおいて,提案手法の有効性を広く評価し,検討した。

Automatic recognition of fine-grained surgical activities, called steps, is a challenging but crucial task for intelligent intra-operative computer assistance. The development of current vision-based activity recognition methods relies heavily on a high volume of manually annotated data. This data is difficult and time-consuming to generate and requires domain-specific knowledge. In this work, we propose to use coarser and easier-to-annotate activity labels, namely phases, as weak supervision to learn step recognition with fewer step annotated videos. We introduce a step-phase dependency loss to exploit the weak supervision signal. We then employ a Single-Stage Temporal Convolutional Network (SS-TCN) with a ResNet-50 backbone, trained in an end-to-end fashion from weakly annotated videos, for temporal activity segmentation and recognition. We extensively evaluate and show the effectiveness of the proposed method on a large video dataset consisting of 40 laparoscopic gastric bypass procedures and the public benchmark CATARACTS containing 50 cataract surgeries.
翻訳日:2023-02-22 14:17:51 公開日:2023-02-21
# Minimax-Bayes強化学習

Minimax-Bayes Reinforcement Learning ( http://arxiv.org/abs/2302.10831v1 )

ライセンス: Link先を確認
Thomas Kleine Buening, Christos Dimitrakakis, Hannes Eriksson, Divya Grover, Emilio Jorge(参考訳) ベイズ決定理論フレームワークは不確実性の下での意思決定問題に対するエレガントな解決策を提供するが、ある疑問は、どのように事前分布を適切に選択するかである。 ひとつは、最悪のケースを前に採用することだ。 しかし、これは単純な統計的推定問題のようにシーケンシャルな決定において容易に特定できない。 本稿では,様々な強化学習問題に対するミニマックス・ベイズ解を考察し,それに対応する優先順位と方針の性質について考察する。 最悪のケースは設定に依存するが、対応するミニマックスポリシーは以前の標準(すなわち一様)を前提とするものよりも堅牢である。

While the Bayesian decision-theoretic framework offers an elegant solution to the problem of decision making under uncertainty, one question is how to appropriately select the prior distribution. One idea is to employ a worst-case prior. However, this is not as easy to specify in sequential decision making as in simple statistical estimation problems. This paper studies (sometimes approximate) minimax-Bayes solutions for various reinforcement learning problems to gain insights into the properties of the corresponding priors and policies. We find that while the worst-case prior depends on the setting, the corresponding minimax policies are more robust than those that assume a standard (i.e. uniform) prior.
翻訳日:2023-02-22 14:17:33 公開日:2023-02-21
# キャビティ超放射による暗黒状態における多レベル原子のスクイーズ

Squeezing multilevel atoms in dark states via cavity superradiance ( http://arxiv.org/abs/2302.10828v1 )

ライセンス: Link先を確認
Bhuvanesh Sundar, Diego Barberena, Ana Maria Rey, Asier Pineiro Orioli(参考訳) 本稿では,多体キャビティダーク状態の多様体内に,光学キャビティ内の多レベル原子からの光集団放出を用いて,スケーラブルで長寿命の絡み合ったスピン配列状態を作成し,保存する方法について述べる。 このシステムは、超放射能に免疫する暗黒状態のスクイーズを発生させるよう調整できることを示す。 また,超輝度とコヒーレント駆動の組み合わせにより,より汎用的にスクイージングが生成できることを示し,その後,スクイージングを格納可能な暗黒状態へ単一粒子回転により移動させることを示した。 本研究は, アルカリ土様原子を用いた現在の光学キャビティ実験で容易に検証可能であり, 光学遷移におけるメトロロジー上有用な状態の散逸生成と保存の道を開くことができる。

We describe a method to create and store scalable and long-lived entangled spin-squeezed states within a manifold of many-body cavity dark states using collective emission of light from multilevel atoms inside an optical cavity. We show that the system can be tuned to generate squeezing in a dark state where it will be immune to superradiance. We also show more generically that squeezing can be generated using a combination of superradiance and coherent driving in a bright state, and subsequently be transferred via single-particle rotations to a dark state where squeezing can be stored. Our findings, readily testable in current optical cavity experiments with alkaline-earth-like atoms, can open a path for dissipative generation and storage of metrologically useful states in optical transitions.
翻訳日:2023-02-22 14:17:21 公開日:2023-02-21
# AutoML in the Wild: 障害物、回避策、期待

AutoML in The Wild: Obstacles, Workarounds, and Expectations ( http://arxiv.org/abs/2302.10827v1 )

ライセンス: Link先を確認
Yuan Sun, Qiurong Song, Xinning Gui, Fenglong Ma, Ting Wang(参考訳) Automated Machine Learning (AutoML) は、ML技術が一般ユーザでも利用できるようにするためのものだ。 最近の研究は、標準のMLワークフローを通してAutoML機能を強化する上での人間の役割を調査している。 しかし、ユーザーが既存のAutoMLソリューションを、総合的な観点から、複雑な現実世界の設定でどのように採用するかを理解することも重要だ。 このギャップを埋めるために,本研究では,(1)現実の実践においてユーザが直面するAutoMLの限界,(2)ユーザがそのような制限に対処するために採用する戦略,(3)AutoMLの使用にどのような制限と回避が及ぼすかを理解することに焦点を当てた,AutoMLユーザ(N = 19)の半構造化インタビューを行った。 その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。 さらに、AutoMLをケースバイケースで適用する方法についても慎重に判断する。 最後に、将来のAutoMLソリューションを開発するための設計上の意味を導き出す。

Automated machine learning (AutoML) is envisioned to make ML techniques accessible to ordinary users. Recent work has investigated the role of humans in enhancing AutoML functionality throughout a standard ML workflow. However, it is also critical to understand how users adopt existing AutoML solutions in complex, real-world settings from a holistic perspective. To fill this gap, this study conducted semi-structured interviews of AutoML users (N = 19) focusing on understanding (1) the limitations of AutoML encountered by users in their real-world practices, (2) the strategies users adopt to cope with such limitations, and (3) how the limitations and workarounds impact their use of AutoML. Our findings reveal that users actively exercise user agency to overcome three major challenges arising from customizability, transparency, and privacy. Furthermore, users make cautious decisions about whether and how to apply AutoML on a case-by-case basis. Finally, we derive design implications for developing future AutoML solutions.
翻訳日:2023-02-22 14:17:07 公開日:2023-02-21
# 疎逆マルチエージェント強化学習における好奇心駆動探索

Curiosity-driven Exploration in Sparse-reward Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2302.10825v1 )

ライセンス: Link先を確認
Jiong Li, Pratik Gajane(参考訳) 深層強化学習法を適用した場合の報酬の分散はサンプル効率に悪影響を及ぼす。 報酬の幅に対処するための有効な解決策は、報酬関数に本質的な報酬を加えることを提唱する本質的な動機を通じて学習し、エージェントが環境を探索し、サンプル空間を拡張することを奨励することである。 強化学習モデルにおけるデータ効率の向上には本質的動機づけ手法が広く用いられているが、これらはいわゆる分断問題も抱えている。 本稿では,スパース・リワード型マルチエージェント強化学習における固有好奇性モジュールの限界について論じ,固有好奇性モジュールとGo-Exploreフレームワークを組み合わせたI-Go-Exploreという手法を提案する。

Sparsity of rewards while applying a deep reinforcement learning method negatively affects its sample-efficiency. A viable solution to deal with the sparsity of rewards is to learn via intrinsic motivation which advocates for adding an intrinsic reward to the reward function to encourage the agent to explore the environment and expand the sample space. Though intrinsic motivation methods are widely used to improve data-efficient learning in the reinforcement learning model, they also suffer from the so-called detachment problem. In this article, we discuss the limitations of intrinsic curiosity module in sparse-reward multi-agent reinforcement learning and propose a method called I-Go-Explore that combines the intrinsic curiosity module with the Go-Explore framework to alleviate the detachment problem.
翻訳日:2023-02-22 14:16:48 公開日:2023-02-21
# マルチタスク大モデルのためのデバイスチューニング

Device Tuning for Multi-Task Large Model ( http://arxiv.org/abs/2302.10820v1 )

ライセンス: Link先を確認
Penghao Jiang, Xuanchen Hou, Yinsi Zhou(参考訳) 教師なし事前学習アプローチはコンピュータビジョン(CV)や自然言語処理(NLP)など多くの分野で大きな成功を収めている。 しかし、一般的なディープラーニングモデルと比較して、最先端の自己注意モデルを事前学習したり、微調整したりするのは極めて高価である。 さまざまなドメイン、特にマルチタスク学習において、アプリケーションと成功を厳しく制限している。 効率を向上させるため,我々は,クラウドとデバイスにまたがる大規模マルチタスクフレームワークである効率的なマルチタスクモデルのためのデバイスチューニングを提案する。 具体的には、クラウドモデリングとデバイスモデリングの両方の利点を生かしたマルチタスクモデルのデバイスチューニングアーキテクチャを設計し、表現圧縮によるデバイスとクラウド間の通信を低減する。 実験の結果,提案手法の有効性が示された。

Unsupervised pre-training approaches have achieved great success in many fields such as Computer Vision (CV), Natural Language Processing (NLP) and so on. However, compared to typical deep learning models, pre-training or even fine-tuning the state-of-the-art self-attention models is extremely expensive, as they require much more computational and memory resources. It severely limits their applications and success in a variety of domains, especially for multi-task learning. To improve the efficiency, we propose Device Tuning for the efficient multi-task model, which is a massively multitask framework across the cloud and device and is designed to encourage learning of representations that generalize better to many different tasks. Specifically, we design Device Tuning architecture of a multi-task model that benefits both cloud modelling and device modelling, which reduces the communication between device and cloud by representation compression. Experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2023-02-22 14:16:33 公開日:2023-02-21
# 責任を負うAIに必要なエンジニアリング

Tailoring Requirements Engineering for Responsible AI ( http://arxiv.org/abs/2302.10816v1 )

ライセンス: Link先を確認
Walid Maalej, Yen Dieu Pham and Larissa Chazette(参考訳) 要件工学(Requireements Engineering, RE)は、ユーザ、技術、社会的要求の実装とデリバリを識別、分析、保証するための分野である。 最近、医療、自動車、科学分野など、デプロイメント後の人工知能(AI)ソリューションの受け入れに関する問題が報告され、レスポンシブルAIシステムの設計と提供におけるREの重要性を強調している。 本稿では、REを慎重に実施するだけでなく、Responsible AI用に調整するべきだと論じる。 我々は研究と実践に関する課題を概説する。

Requirements Engineering (RE) is the discipline for identifying, analyzing, as well as ensuring the implementation and delivery of user, technical, and societal requirements. Recently reported issues concerning the acceptance of Artificial Intelligence (AI) solutions after deployment, e.g. in the medical, automotive, or scientific domains, stress the importance of RE for designing and delivering Responsible AI systems. In this paper, we argue that RE should not only be carefully conducted but also tailored for Responsible AI. We outline related challenges for research and practice.
翻訳日:2023-02-22 14:16:18 公開日:2023-02-21
# 時間文接地における対象の追跡と注意活動

Tracking Objects and Activities with Attention for Temporal Sentence Grounding ( http://arxiv.org/abs/2302.10813v1 )

ライセンス: Link先を確認
Zeyu Xiong, Daizong Liu, Pan Zhou, Jiahao Zhu(参考訳) 時間文グラウンドティング(TSG)は,従来のTSGフレームワーク下での3D ConvNetや検出ネットワークを用いて,フレームの微妙な差異を捉えたり,コアパーソンやオブジェクトの時空間的挙動をモデル化したりすることで,自然言語クエリとセマンティックに整合した時間セグメントのローカライズを目的としている。 本稿では,よりきめ細かな時空間挙動を学習するための重要な対象や活動を追跡することによって,TSGタスクに対処する新たな視点を提案する。 具体的には, (a) マルチモーダルテンプレートと検索空間を生成するクロスモーダルターゲット生成器, オブジェクトとアクティビティをフィルタリングするオブジェクトとアクティビティ, (b) ターゲットの振る舞いをモデル化するためのマルチモーダルターゲットを追跡し, クエリ関連のセグメントを予測するための時間的文追跡トラッカを含む, 新たな時間的文追跡ネットワーク (tstnet) を提案する。 Charades-STA と TACoS という、挑戦的なベンチマークで大規模な実験と最先端技術との比較を行う。 そして、我々のTSTNetは、かなりリアルタイムな速度で主要なパフォーマンスを達成する。

Temporal sentence grounding (TSG) aims to localize the temporal segment which is semantically aligned with a natural language query in an untrimmed video.Most existing methods extract frame-grained features or object-grained features by 3D ConvNet or detection network under a conventional TSG framework, failing to capture the subtle differences between frames or to model the spatio-temporal behavior of core persons/objects. In this paper, we introduce a new perspective to address the TSG task by tracking pivotal objects and activities to learn more fine-grained spatio-temporal behaviors. Specifically, we propose a novel Temporal Sentence Tracking Network (TSTNet), which contains (A) a Cross-modal Targets Generator to generate multi-modal templates and search space, filtering objects and activities, and (B) a Temporal Sentence Tracker to track multi-modal targets for modeling the targets' behavior and to predict query-related segment. Extensive experiments and comparisons with state-of-the-arts are conducted on challenging benchmarks: Charades-STA and TACoS. And our TSTNet achieves the leading performance with a considerable real-time speed.
翻訳日:2023-02-22 14:16:08 公開日:2023-02-21
# MLベースのプログラム翻訳について:限界と約束

On ML-Based Program Translation: Perils and Promises ( http://arxiv.org/abs/2302.10812v1 )

ライセンス: Link先を確認
Aniketh Malyala and Katelyn Zhou and Baishakhi Ray and Saikat Chakraborty(参考訳) 新しく先進的なプログラミング言語が出現すると、レガシーソフトウェアを新しいプログラミング言語に移行することが不可欠になる。 教師なしの機械学習ベースのプログラム翻訳は、十分なサイズの並列ソースコードコーパスがなくても、そのような移行において不可欠な役割を果たす。 しかし、これらの翻訳者は統計的な性質から完璧とは程遠い。 この研究は、教師なしのプログラム翻訳者とその失敗の理由を調査する。 このような故障を詳細に解析することで、そのような翻訳者が失敗するケースは、いくつかの特定のパターンに従うことが判明した。 この知見により、入力が特定のパターンに従う場合、入力コードを前処理し、出力が特定のパターンに従う場合、出力を後処理するルールベースのプログラム突然変異エンジンを開発する。 プログラムトランスレータと組み合わせることで,プログラムトランスレータのハイブリッド化を実現し,最先端のプログラムトランスレータを大幅に改善できることを示す。 将来的には、事前処理と後処理のステップを使用して、プログラムドメイン知識をMLベースの翻訳パイプラインに組み込むことができるエンドツーエンドのプログラム翻訳ツールを構想する。

With the advent of new and advanced programming languages, it becomes imperative to migrate legacy software to new programming languages. Unsupervised Machine Learning-based Program Translation could play an essential role in such migration, even without a sufficiently sizeable reliable corpus of parallel source code. However, these translators are far from perfect due to their statistical nature. This work investigates unsupervised program translators and where and why they fail. With in-depth error analysis of such failures, we have identified that the cases where such translators fail follow a few particular patterns. With this insight, we develop a rule-based program mutation engine, which pre-processes the input code if the input follows specific patterns and post-process the output if the output follows certain patterns. We show that our code processing tool, in conjunction with the program translator, can form a hybrid program translator and significantly improve the state-of-the-art. In the future, we envision an end-to-end program translation tool where programming domain knowledge can be embedded into an ML-based translation pipeline using pre- and post-processing steps.
翻訳日:2023-02-22 14:15:43 公開日:2023-02-21
# マルチキャリブレーションの統一的展望:多目的学習のための解き放つゲームダイナミクス

A Unifying Perspective on Multi-Calibration: Unleashing Game Dynamics for Multi-Objective Learning ( http://arxiv.org/abs/2302.10863v1 )

ライセンス: Link先を確認
Nika Haghtalab, Michael I. Jordan, and Eric Zhao(参考訳) 多重校正およびモーメント多重校正予測器の設計と解析のための統一フレームワークを提供する。 学習保証が一組の分布と損失関数に対して同時に保持されなければならない「emph{multi-objective learning}」の一般的な設定において、マルチキャリブレーション問題(マルチキャリブレーション学習)を導入することにより、多種多様な学習問題に対する最先端の保証を得る。 既存のマルチキャリブレーション保証に光を当て、分析を大幅に単純化するだけでなく、決定論的モーメントキャリブレーション予測を学習するjung et al. 2021の最先端アルゴリズムと、k$のマルチキャリブド予測を学習するgopalan et al. 2022の最先端アルゴリズムと比較して指数関数的にk$が向上したoracle呼び出し数を1/\epsilon^2$改善した。 マルチキャリブレーションを超えて,これらのゲームダイナミクスを用いて,グループフェアネスとマルチ分散学習の研究における既存および新興の考察に取り組む。

We provide a unifying framework for the design and analysis of multi-calibrated and moment-multi-calibrated predictors. Placing the multi-calibration problem in the general setting of \emph{multi-objective learning} -- where learning guarantees must hold simultaneously over a set of distributions and loss functions -- we exploit connections to game dynamics to obtain state-of-the-art guarantees for a diverse set of multi-calibration learning problems. In addition to shedding light on existing multi-calibration guarantees, and greatly simplifying their analysis, our approach yields a $1/\epsilon^2$ improvement in the number of oracle calls compared to the state-of-the-art algorithm of Jung et al. 2021 for learning deterministic moment-calibrated predictors and an exponential improvement in $k$ compared to the state-of-the-art algorithm of Gopalan et al. 2022 for learning a $k$-class multi-calibrated predictor. Beyond multi-calibration, we use these game dynamics to address existing and emerging considerations in the study of group fairness and multi-distribution learning.
翻訳日:2023-02-22 14:09:44 公開日:2023-02-21
# ノイジー貯留層計算に関する一考察

A Note on Noisy Reservoir Computation ( http://arxiv.org/abs/2302.10862v1 )

ライセンス: Link先を確認
Anthony M. Polloreno and Reuben R. W. Wang and Nikolas A. Tezak(参考訳) 本稿では,Dambre et al Dambre et alによるIPC(Information Processing Capacity)の定義を拡張する。 (Scientific Reports} 2, 514, (2012) は確率的貯水池力学の効果を含む。 我々は、このノイズの存在下でのIPCの劣化を定量化する。

In this note we extend the definition of the Information Processing Capacity (IPC) by Dambre et al Dambre et al.(Scientific Reports} 2, 514, (2012)) to include the effects of stochastic reservoir dynamics. We quantify the degradation of the IPC in the presence of this noise.
翻訳日:2023-02-22 14:09:19 公開日:2023-02-21
# 太陽光発電データインプットのためのデータ拡張付き時空間デノージンググラフオートエンコーダ

Spatio-Temporal Denoising Graph Autoencoders with Data Augmentation for Photovoltaic Timeseries Data Imputation ( http://arxiv.org/abs/2302.10860v1 )

ライセンス: Link先を確認
Yangxin Fan, Xuanji Yu, Raymond Wieser, David Meakin, Avishai Shaton, Jean-Nicolas Jaubert, Robert Flottemesch, Michael Howell, Jennifer Braid, Laura S.Bruckman, Roger French, Yinghui Wu(参考訳) グローバルな太陽光発電(PV)市場とリアルタイムデータロガーの統合により、太陽光発電車両の電力予測と長期信頼性評価のための大規模なPVデータ分析パイプラインが実現された。 それでも、PVデータ解析の性能は、PV時系列データの品質に大きく依存する。 本稿では,PV電力データ不足を補うために,新しい時空間デノインググラフオートエンコーダ(STD-GAE)フレームワークを提案する。 STD-GAEは、時間的相関、空間コヒーレンス、およびドメイン知識からの値依存性を利用して、欠落したデータを復元する。 実験の結果、std-gaeはインプテーションの精度が43.14%向上し、midaやlrtc-tnnのような最先端のデータインプテーション手法と比較しても、欠落率、季節、欠落シナリオに対する感受性が低かった。

The integration of the global Photovoltaic (PV) market with real time data-loggers has enabled large scale PV data analytical pipelines for power forecasting and long-term reliability assessment of PV fleets. Nevertheless, the performance of PV data analysis heavily depends on the quality of PV timeseries data. This paper proposes a novel Spatio-Temporal Denoising Graph Autoencoder (STD-GAE) framework to impute missing PV Power Data. STD-GAE exploits temporal correlation, spatial coherence, and value dependencies from domain knowledge to recover missing data. Experimental results show that STD-GAE can achieve a gain of 43.14% in imputation accuracy and remains less sensitive to missing rate, different seasons, and missing scenarios, compared with state-of-the-art data imputation methods such as MIDA and LRTC-TNN.
翻訳日:2023-02-22 14:09:16 公開日:2023-02-21
# SF2Former:空間・周波数融合変換器を用いた多心MRI画像からの筋萎縮性側索硬化症の同定

SF2Former: Amyotrophic Lateral Sclerosis Identification From Multi-center MRI Data Using Spatial and Frequency Fusion Transformer ( http://arxiv.org/abs/2302.10859v1 )

ライセンス: Link先を確認
Rafsanjany Kushol, Collin C. Luk, Avyarthana Dey, Michael Benatar, Hannah Briemberg, Annie Dionne, Nicolas Dupr\'e, Richard Frayne, Angela Genge, Summer Gibson, Simon J. Graham, Lawrence Korngut, Peter Seres, Robert C. Welsh, Alan Wilman, Lorne Zinman, Sanjay Kalra, Yee-Hong Yang(参考訳) 筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、運動ニューロン変性を伴う複雑な神経変性疾患である。 脳磁気共鳴画像(MRI)は、病気の状態を診断し、モニターする潜在的なバイオマーカーとして確立し始めている。 ディープラーニングはコンピュータビジョンにおける機械学習プログラムの傑出したクラスとなり、多様な医療画像解析タスクの解決に成功している。 しかし, 神経画像学に応用した深層学習法は, 病理学的特徴に相関する構造変化がみられ, 健常者からのALS患者の分類では優れた成績を得られていない。 したがって、深層モデルにおける重要な課題は、限られたトレーニングデータで有用な識別特徴を決定することである。 本研究は,画像特徴の長距離関係を生かして,視覚トランスフォーマーのパワーを利用してals被写体を制御群と区別するsf2formerというフレームワークを提案する。 ネットワークの性能をさらに向上するために、空間領域に変換される前にMRIスキャンが周波数領域でキャプチャされるため、空間領域と周波数領域の情報を組み合わせる。 提案するフレームワークは、転送学習を利用してimagenetで事前訓練された重みを使用する一連のコロナ2dスライスでトレーニングされる。 最後に、最終分類決定を下すために、特定の被験者のコロナスライスに多数決方式が採用された。 提案するアーキテクチャは,カナダalsニューロイメージングコンソーシアム (calsnic) の2つの高度に構成されたマルチセンターデータセットを用いて,マルチモーダルニューロイメージングデータを用いて徹底的に評価されている。 実験の結果,提案手法の分類精度は,一般的な深層学習手法に比べて優れていることが示された。

Amyotrophic Lateral Sclerosis (ALS) is a complex neurodegenerative disorder involving motor neuron degeneration. Significant research has begun to establish brain magnetic resonance imaging (MRI) as a potential biomarker to diagnose and monitor the state of the disease. Deep learning has turned into a prominent class of machine learning programs in computer vision and has been successfully employed to solve diverse medical image analysis tasks. However, deep learning-based methods applied to neuroimaging have not achieved superior performance in ALS patients classification from healthy controls due to having insignificant structural changes correlated with pathological features. Therefore, the critical challenge in deep models is to determine useful discriminative features with limited training data. By exploiting the long-range relationship of image features, this study introduces a framework named SF2Former that leverages vision transformer architecture's power to distinguish the ALS subjects from the control group. To further improve the network's performance, spatial and frequency domain information are combined because MRI scans are captured in the frequency domain before being converted to the spatial domain. The proposed framework is trained with a set of consecutive coronal 2D slices, which uses the pre-trained weights on ImageNet by leveraging transfer learning. Finally, a majority voting scheme has been employed to those coronal slices of a particular subject to produce the final classification decision. Our proposed architecture has been thoroughly assessed with multi-modal neuroimaging data using two well-organized versions of the Canadian ALS Neuroimaging Consortium (CALSNIC) multi-center datasets. The experimental results demonstrate the superiority of our proposed strategy in terms of classification accuracy compared with several popular deep learning-based techniques.
翻訳日:2023-02-22 14:08:57 公開日:2023-02-21
# 光ツイーザアレイの暗黒高負荷化

Dark-state enhanced loading of an optical tweezer array ( http://arxiv.org/abs/2302.10855v1 )

ライセンス: Link先を確認
Adam L. Shaw, Pascal Scholl, Ran Finklestein, Ivaylo S. Madjarov, Brandon Grinkemeyer, and Manuel Endres(参考訳) 光トワイザーに閉じ込められた中性原子や分子は、量子シミュレーション、計算、メトロロジーの一般的な資源となっている。 しかしながら、そのようなアレイの最大達成可能なシステムサイズは、光学的ツイーザへのロードの確率的性質によって制限され、典型的なローディング確率は50%である。 本稿では, リアルタイムフィードバック, 長期間のシェルビング状態, 繰り返し配列再ロードに基づく, 暗黒状態拡張ローディング(DSEL)の種別非依存手法を提案する。 この手法は, 最大負荷確率84.02(4)%, 最大配列サイズ91原子を1次元で達成し, 95tweezer配列の$^{88}$sr原子を用いて実証する。 本プロトコルは,光アシスト衝突の直接制御に基づく負荷増大のための既存方式と相補的かつ相補的であり,原子や分子の配列に対して近接対一充填が可能と予測する。

Neutral atoms and molecules trapped in optical tweezers have become a prevalent resource for quantum simulation, computation, and metrology. However, the maximum achievable system sizes of such arrays are often limited by the stochastic nature of loading into optical tweezers, with a typical loading probability of only 50%. Here we present a species-agnostic method for dark-state enhanced loading (DSEL) based on real-time feedback, long-lived shelving states, and iterated array reloading. We demonstrate this technique with a 95-tweezer array of $^{88}$Sr atoms, achieving a maximum loading probability of 84.02(4)% and a maximum array size of 91 atoms in one dimension. Our protocol is complementary to, and compatible with, existing schemes for enhanced loading based on direct control over light-assisted collisions, and we predict it can enable close-to-unity filling for arrays of atoms or molecules.
翻訳日:2023-02-22 14:08:29 公開日:2023-02-21
# 対話混合管理のためのオフライン強化学習

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management ( http://arxiv.org/abs/2302.10850v1 )

ライセンス: Link先を確認
Dhawal Gupta, Yinlam Chow, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) 強化学習(rl)は、非認知的であり、リッチな会話を行い、ユーザの満足度全体を最大化する対話管理(dm)エージェントを開発することに大きな期待を示している。 近年のRLと言語モデル(LM)の発展にもかかわらず、対話型チャットボットのパワーとしてRLを使用していることは困難である。 この問題は、ほとんどのlmエージェントが単語レベルで応答を生成するため、これらのアルゴリズムに直面する組合せアクションスペースによって悪化する。 我々は対話計画に特化したRLアルゴリズムを開発し、近年のMixture-of-Expert Language Models (MoE-LMs) を利用して、多様な意味を捉え、異なる意図を反映した発話を生成する。 提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。 提案手法をオープンドメイン対話で評価し,生成した発話における意図の多様性と総合的DM性能を示す。

Reinforcement learning (RL) has shown great promise for developing dialogue management (DM) agents that are non-myopic, conduct rich conversations, and maximize overall user satisfaction. Despite recent developments in RL and language models (LMs), using RL to power conversational chatbots remains challenging, in part because RL requires online exploration to learn effectively, whereas collecting novel human-bot interactions can be expensive and unsafe. This issue is exacerbated by the combinatorial action spaces facing these algorithms, as most LM agents generate responses at the word level. We develop a variety of RL algorithms, specialized to dialogue planning, that leverage recent Mixture-of-Expert Language Models (MoE-LMs) -- models that capture diverse semantics, generate utterances reflecting different intents, and are amenable for multi-turn DM. By exploiting MoE-LM structure, our methods significantly reduce the size of the action space and improve the efficacy of RL-based DM. We evaluate our methods in open-domain dialogue to demonstrate their effectiveness w.r.t.\ the diversity of intent in generated utterances and overall DM performance.
翻訳日:2023-02-22 14:08:13 公開日:2023-02-21
# スピングラス地盤状態における深層強化学習ヒューリスティック

Deep reinforced learning heuristic tested on spin-glass ground states: The larger picture ( http://arxiv.org/abs/2302.10848v1 )

ライセンス: Link先を確認
Stefan Boettcher (Emory U)(参考訳) In Changjun Fan et al. [Nature Communications https://doi.org/10.1038/s41467-023-36363-w (2023)],著者らは組合せ最適化ヒューリスティックスを強化するための深い強化学習手法を提案する。 特に、いくつかのスピングラス基底状態問題の結果を示し、非平面ネットワーク上のインスタンスは一般にNPハードであり、シミュレートされたアニーリング(SA)や並列テンパリング(PT)のようなモンテカルロをベースとしたいくつかの手法と比較する。 実際、これらの結果は強化学習がsaまたはptで得られるものよりも結果を改善すること、または少なくとも他の方法と比較して同等の品質の結果が得られる前にヒューリスティックスのランタイムを減少させることを証明している。 提案手法が「先行的」であるとの結論を得るために,(1)市販のGURLOBIソルバがテストベッドとして正確な基底状態のサンプルを収集し,(2)正確な基底状態の特定が困難である大規模事例のサンプルに対して,ヒューリスティックスとヘッド・ツー・ヘッドの比較を行う,という2つの基本戦略を追求した。 ここでは,これらの研究をより広い文脈に配置し,より小さなサンプルでは主張される優越性が最短であり,より大きいサンプルでは真の基底状態の妥当な近似とは無関係であることを示した。 例えば、この方法は、著者が述べたように、剛性指数を$\theta$ in $d>2$で決定する手段としては無関係となり、問題はNPハードであるだけでなく、ここで見られる$\approx 1\%$のそれぞれにおいて、ほぼ等しい基底状態エネルギーと系統誤差の2つの減算を必要とする。 この方法に関するこの大きな写真は、著者らが数十年にわたって使用してきたデータを用いて、スピンガラスのアンサンブルに関する単純な有限サイズの補正研究から生まれた。

In Changjun Fan et al. [Nature Communications https://doi.org/10.1038/s41467-023-36363-w (2023)], the authors present a deep reinforced learning approach to augment combinatorial optimization heuristics. In particular, they present results for several spin glass ground state problems, for which instances on non-planar networks are generally NP-hard, in comparison with several Monte Carlo based methods, such as simulated annealing (SA) or parallel tempering (PT). Indeed, those results demonstrate that the reinforced learning improves the results over those obtained with SA or PT, or at least allows for reduced runtimes for the heuristics before results of comparable quality have been obtained relative to those other methods. To facilitate the conclusion that their method is ''superior'', the authors pursue two basic strategies: (1) A commercial GUROBI solver is called on to procure a sample of exact ground states as a testbed to compare with, and (2) a head-to-head comparison between the heuristics is given for a sample of larger instances where exact ground states are hard to ascertain. Here, we put these studies into a larger context, showing that the claimed superiority is at best marginal for smaller samples and becomes essentially irrelevant with respect to any sensible approximation of true ground states in the larger samples. For example, this method becomes irrelevant as a means to determine stiffness exponents $\theta$ in $d>2$, as mentioned by the authors, where the problem is not only NP-hard but requires the subtraction of two almost equal ground-state energies and systemic errors in each of $\approx 1\%$ found here are unacceptable. This larger picture on the method arises from a straightforward finite-size corrections study over the spin glass ensembles the authors employ, using data that has been available for decades.
翻訳日:2023-02-22 14:07:51 公開日:2023-02-21
# TherapyView: 時間的トピックモデリングとAI生成アートによる治療セッションの可視化

TherapyView: Visualizing Therapy Sessions with Temporal Topic Modeling and AI-Generated Arts ( http://arxiv.org/abs/2302.10845v1 )

ライセンス: Link先を確認
Baihan Lin, Stefan Zecevic, Djallel Bouneffouf, Guillermo Cecchi(参考訳) 本稿では,過去の治療セッションのダイナミックな内容をセラピストが可視化するデモシステムであるHysonViewを紹介し,様々な精神疾患の話題傾向を解析し,深層学習に基づく画像生成エンジンを用いて視覚的要約を提供する。 このシステムは、時間モデルを用いて、ターンレベルの解像度でのトピック類似性の時系列表現と、セッションでカバーされた内容の簡潔な表現を提供するAI生成アートワークを提供し、セラピストが戦略を最適化し、心理療法の効果を高めるための解釈可能な洞察を提供する。 このシステムは、患者の精神状態の深い理解と、より効果的な治療を可能にするAI強化治療ツールの概念の証明を提供する。

We present the TherapyView, a demonstration system to help therapists visualize the dynamic contents of past treatment sessions, enabled by the state-of-the-art neural topic modeling techniques to analyze the topical tendencies of various psychiatric conditions and deep learning-based image generation engine to provide a visual summary. The system incorporates temporal modeling to provide a time-series representation of topic similarities at a turn-level resolution and AI-generated artworks given the dialogue segments to provide a concise representations of the contents covered in the session, offering interpretable insights for therapists to optimize their strategies and enhance the effectiveness of psychotherapy. This system provides a proof of concept of AI-augmented therapy tools with e in-depth understanding of the patient's mental state and enabling more effective treatment.
翻訳日:2023-02-22 14:07:09 公開日:2023-02-21
# 意味のないロバスト平均推定:対称分布の多項式時間における次元非依存誤差

Robust Mean Estimation Without a Mean: Dimension-Independent Error in Polynomial Time for Symmetric Distributions ( http://arxiv.org/abs/2302.10844v1 )

ライセンス: Link先を確認
Gleb Novikov, David Steurer, Stefan Tiegel(参考訳) 本研究では,モーメント境界のない分布の平均/位置パラメータを頑健に推定する問題について検討する。 自然対称性の制約を満たす分布の広いクラスに対して、その位置を誤差の次元依存性因子を伴わずに効率的に推定できるアルゴリズムの列を与える。 具体的には、敵が観測されたサンプルの$\varepsilon$-fractionを任意に破壊できると仮定する。 すべての$k \in \mathbb{N}$に対して、時間とサンプルを使用した推定器を設計する。$\tilde{O}({d^k})$ は、汚職レベルへの誤差の依存が$O(\varepsilon^{1-\frac{1}{2k}})$ の加算因子である。 他の問題パラメータへの依存もほぼ最適である。 本クラスは、任意の対称一次元分布の積と、ガウス分布の広範な一般化である楕円分布を含む。 例えば、製品コーシー分布や多変量$t$-分布などがある。 特に、最初の瞬間でさえ存在しないかもしれない。 この分布のクラスに対する最初の効率的なアルゴリズムを提供する。 従来、分布のモーメントにおける有界性仮定でのみ知られているような結果は、対称性(KSS18, CTBJ22)の欠如で証明不可能であった。 我々が考慮する分布のクラスについて、すべての過去の推定器は指数時間または次元に依存する不正確な誤差を必要とする。 我々のアルゴリズムはフィルタリング技術[dk22]の一般化に基づいている。 この機械とフーバーロスに基づく手法が組み合わさることで,騒音の投影と協調できることを示す。 さらに,第1モーメントのない分布においても,二乗和証明を用いてアルゴリズム的保証を得る方法を示す。 このアプローチは将来の作業で他のアプリケーションを見つける可能性があると考えています。

In this work, we study the problem of robustly estimating the mean/location parameter of distributions without moment bounds. For a large class of distributions satisfying natural symmetry constraints we give a sequence of algorithms that can efficiently estimate its location without incurring dimension-dependent factors in the error. Concretely, suppose an adversary can arbitrarily corrupt an $\varepsilon$-fraction of the observed samples. For every $k \in \mathbb{N}$, we design an estimator using time and samples $\tilde{O}({d^k})$ such that the dependence of the error on the corruption level $\varepsilon$ is an additive factor of $O(\varepsilon^{1-\frac{1}{2k}})$. The dependence on other problem parameters is also nearly optimal. Our class contains products of arbitrary symmetric one-dimensional distributions as well as elliptical distributions, a vast generalization of the Gaussian distribution. Examples include product Cauchy distributions and multi-variate $t$-distributions. In particular, even the first moment might not exist. We provide the first efficient algorithms for this class of distributions. Previously, such results where only known under boundedness assumptions on the moments of the distribution and in particular, are provably impossible in the absence of symmetry [KSS18, CTBJ22]. For the class of distributions we consider, all previous estimators either require exponential time or incur error depending on the dimension. Our algorithms are based on a generalization of the filtering technique [DK22]. We show how this machinery can be combined with Huber-loss-based approach to work with projections of the noise. Moreover, we show how sum-of-squares proofs can be used to obtain algorithmic guarantees even for distributions without first moment. We believe that this approach may find other application in future works.
翻訳日:2023-02-22 14:06:53 公開日:2023-02-21
# 機械学習モデルパラメータの正当な推論

Valid Inference for Machine Learning Model Parameters ( http://arxiv.org/abs/2302.10840v1 )

ライセンス: Link先を確認
Neil Dey, Jonathan P. Williams(参考訳) 機械学習モデルのパラメータは通常、トレーニングデータの集合上の損失関数を最小化することで学習される。 しかし、これはオーバートレーニングのリスクを伴う可能性がある。モデルが適切に一般化するためには、与えられたトレーニングサンプルだけでなく、人口全体のモデルに最適なパラメータを見つけることが非常に重要である。 本稿では,学習データのみを用いて,個体群を知らずに生成できる機械学習モデルの最適パラメータに対する妥当な信頼度セットを構築する。 次に、この信頼度集合の分布を研究することで、パラメータ空間の任意の領域に信頼度の概念を割り当てることができることを示し、この分布をブートストラップ法を用いて近似できることを示す。

The parameters of a machine learning model are typically learned by minimizing a loss function on a set of training data. However, this can come with the risk of overtraining; in order for the model to generalize well, it is of great importance that we are able to find the optimal parameter for the model on the entire population -- not only on the given training sample. In this paper, we construct valid confidence sets for this optimal parameter of a machine learning model, which can be generated using only the training data without any knowledge of the population. We then show that studying the distribution of this confidence set allows us to assign a notion of confidence to arbitrary regions of the parameter space, and we demonstrate that this distribution can be well-approximated using bootstrapping techniques.
翻訳日:2023-02-22 14:06:21 公開日:2023-02-21
# ニューラルネットワーク関数のリプシッツ連続性に関する基礎的側面

Some Fundamental Aspects about Lipschitz Continuity of Neural Network Functions ( http://arxiv.org/abs/2302.10886v1 )

ライセンス: Link先を確認
Grigory Khromov, Sidak Pal Singh(参考訳) リプシッツ連続性(lipschitz continuity)は、ロバスト性、一般化、敵対的脆弱性の中核にある予測モデルの単純かつ重要な機能的性質である。 本研究の目的は,ニューラルネットワークを用いて学習した関数のリプシッツ挙動を徹底的に調査し,特徴付けることである。 近年、境界の大幅な厳密化にもかかわらず、リプシッツ定数の正確な推定は実用的課題であり続け、理論解析も同様に難解なままである。 したがって、我々の視点をシフトさせ、代わりに、最も単純で一般的な上界と下界に依存して、ニューラルネットワーク関数のリプシッツ定数の性質に関する洞察を明らかにする。 ニューラルネットワーク関数のリプシッツ連続性のいくつかの基本的かつ興味深い特徴を明らかにする様々な設定(アーキテクチャ、損失、オプティマイザ、ラベルノイズなど)において経験的調査を行い、特に、テスト損失の典型的な二重降下傾向と密に一致するリプシッツ定数に対する上下両方の境界において顕著な二重降下傾向を同定した。

Lipschitz continuity is a simple yet pivotal functional property of any predictive model that lies at the core of its robustness, generalisation, and adversarial vulnerability. Our aim is to thoroughly investigate and characterise the Lipschitz behaviour of the functions learned via neural networks. Despite the significant tightening of the bounds in the recent years, precisely estimating the Lipschitz constant continues to be a practical challenge and tight theoretical analyses, similarly, remain intractable. Therefore, we shift our perspective and instead attempt to uncover insights about the nature of Lipschitz constant of neural networks functions -- by relying on the simplest and most general upper and lower bounds. We carry out an empirical investigation in a range of different settings (architectures, losses, optimisers, label noise, etc.), which reveals several fundamental and intriguing traits of the Lipschitz continuity of neural networks functions, In particular, we identify a remarkable double descent trend in both upper and lower bounds to the Lipschitz constant which tightly aligns with the typical double descent trend in the test loss.
翻訳日:2023-02-22 14:01:09 公開日:2023-02-21
# ブロックチェーンとバイオメトリックスの組み合わせ:技術的側面と最初の法的分析に関する調査

Combining Blockchain and Biometrics: A Survey on Technical Aspects and a First Legal Analysis ( http://arxiv.org/abs/2302.10883v1 )

ライセンス: Link先を確認
Mahdi Ghafourian, Bilgesu Sumer, Ruben Vera-Rodriguez, Julian Fierrez, Ruben Tolosana, Aythami Moralez, and Els Kindt(参考訳) バイオメトリック認識は,現在のデジタル世界において,識別と検証の方法として欠かせない存在となっている。 この技術の急速な進化は多くのアプリケーションに統合するための強力なインセンティブとなっている。 一方、非常に魅力的な分散型台帳技術であるブロックチェーンは、過去数年間、研究と産業の両方で広く受け入れられており、送金、IoT、ヘルスケア、ロジスティクスなど、今日では多くの異なるアプリケーションにデプロイされている。 最近、研究者たちは、この2つの技術が横断するときに、何の長所と短所、そして何のベストな応用になるのかを推測し始めた。 本稿では,ブロックチェーンとバイオメトリックスの組み合わせに関する技術文献調査を行い,課題と可能性に照らして,この統合に関する最初の法的分析を行う。 この組み合わせはまだ初期段階であり、高度な技術セットで特定のブロックチェーンアプリケーションとソリューションについて議論する文献が増えているが、この論文では、バイオメトリックセクターにおけるブロックチェーンの適用性に関する総合的な理解を示す。 この研究は、ブロックチェーンとバイオメトリックスを組み合わせることが、PKIメカニズム、分散信頼サービス、アイデンティティ管理といったバイオメトリックスの新しい応用に有用であることを示す。 しかし、現在のブロックチェーンネットワークはリアルタイムアプリケーションでは効率的で経済的ではない。 法的観点から見れば、説明責任の割り当ては依然として主要な問題であり、適切なデータ保護影響評価を行うなどの他の困難は残る。 最後に、利益を享受し、組み合わせのリスクを緩和するために、技術的および法的勧告を提供する。

Biometric recognition as a unique, hard-to-forge, and efficient way of identification and verification has become an indispensable part of the current digital world. The fast evolution of this technology has been a strong incentive for integrating it into many applications. Meanwhile, blockchain, the very attractive decentralized ledger technology, has been widely received both by the research and industry in the past years and it is being increasingly deployed nowadays in many different applications, such as money transfer, IoT, healthcare, or logistics. Recently, researchers have started to speculate what would be the pros and cons and what would be the best applications when these two technologies cross paths. This paper provides a survey of technical literature research on the combination of blockchain and biometrics and includes a first legal analysis of this integration to shed light on challenges and potentials. While this combination is still in its infancy and a growing body of literature discusses specific blockchain applications and solutions in an advanced technological set-up, this paper presents a holistic understanding of blockchains applicability in the biometric sector. This study demonstrates that combining blockchain and biometrics would be beneficial for novel applications in biometrics such as the PKI mechanism, distributed trusted service, and identity management. However, blockchain networks at their current stage are not efficient and economical for real-time applications. From a legal point of view, the allocation of accountability remains a main issue, while other difficulties remain, such as conducting a proper Data Protection Impact Assessment. Finally, it supplies technical and legal recommendations to reap the benefits and mitigate the risks of the combination.
翻訳日:2023-02-22 14:00:47 公開日:2023-02-21
# 極性金属中の強誘電率の量子揺らぎ

Quantum fluctuation of ferroelectric order in polar metals ( http://arxiv.org/abs/2302.10882v1 )

ライセンス: Link先を確認
Fangyuan Gu, Jie Wang, Zi-Jian Lang, Wei Ku(参考訳) 10年前の発見以来、「極性金属相」は重要な研究の関心を喚起し、物質を交換可能な電気的分極をさらなる輸送能力で機能させ、次世代の電子機器に大きな可能性を与えている。 極性金属相は、電子構造と原子構造に長距離強誘電体(FE)位を含む珍しい金属相である。 典型的なfe絶縁相と異なり、この相は自発的に反転対称性を破るが、大域分極はしない。 予期せぬことに、feオーダーはキャリアによって劇的に抑制され、中程度から10%のキャリア密度で破壊される。 本稿では,このパズリング現象を説明するために,キャリア誘起量子ゆらぎに基づく一般的なメカニズムを提案する。 基本的に量子力学的効果は、キャリアとその周囲の双極子からなる偏光子準粒子の形成を促進する。 したがって双極子方向の破壊はfe秩序を弱めたり破壊したりする。 我々は, 正確な対角化, 摂動, 量子モンテカルロアプローチを用いた簡単なモデルを用いて, このようなポーラロン形成と関連するFE抑制を実証する。 この量子機構は、多くのファズリング実験結果に対する直感的な図も提供し、量子効果を付加した多機能FE電子デバイスの新しい設計を容易にする。

Since its discovery a decade ago, "polar metallic phase" has ignited significant research interest, as it further functionalizes the switchable electric polarization of materials with additional transport capability, granting them great potential in next-generation electronic devices. The polar metallic phase is an unusual metallic phase of matter containing long-range ferroelectric (FE) order in the electronic and atomic structure. Distinct from the typical FE insulating phase, this phase spontaneously breaks the inversion symmetry but without global polarization. Unexpectedly, the FE order is found to be dramatically suppressed by carriers and destroyed at moderate ~10% carrier density. Here, we propose a general mechanism based on carrier-induced quantum fluctuations to explain this puzzling phenomenon. Basically, the quantum kinetic effect would drive the formation of polaronic quasi-particles made of the carriers and their surrounding dipoles. The disruption in dipolar directions can therefore weaken or even destroy the FE order. We demonstrate such polaron formation and the associated FE suppression via a simple model using exact diagonalization, perturbation, and quantum Monte Carlo approaches. This quantum mechanism also provides an intuitive picture for many puzzling experimental findings, thereby facilitating new designs of multifunctional FE electronic devices augmented with quantum effects.
翻訳日:2023-02-22 14:00:21 公開日:2023-02-21
# 量子ゲートにおける非マルコフオフ共振誤差の特性

Characterizing non-Markovian Off-Resonant Errors in Quantum Gates ( http://arxiv.org/abs/2302.10881v1 )

ライセンス: Link先を確認
Ken Xuan Wei, Emily Pritchett, David M. Zajac, David C. McKay, Seth Merkel(参考訳) 量子ゲートが改善されると、残りのエラーを特徴付けることがますます難しくなる。 ここでは、時間依存フィールドを用いてゲート演算を生成する量子デバイスにおいて自然に発生するコヒーレントな非マルコフ誤差のクラスについて述べる。 マルコビアン性に依存した標準的な量子コンピュータ検証検証(QCVV)技術を用いて,これらの誤りがどのように誤認識されているかを示す。 我々はまず、ACスターク効果によって生成された単純なZゲートの玩具モデルにおいて、共振誤差を実証し、固定周波数トランスモンアーキテクチャによって駆動される全てのゲートにおいて共振誤差がどのように現れるかを示す。 さらに、同じ手法は2レベルシステム(TLS)によるエラーにアクセスでき、意図しない量子ビットではないサブシステムとの一貫性のある非共鳴相互作用の証拠を示す。 これらの結果と固定周波数デバイスにおけるゲートエラーへの影響について検討する一方で、オフ共振励起は周波数選択性を利用するアーキテクチャを制限できる可能性があることに注意する。

As quantum gates improve, it becomes increasingly difficult to characterize the remaining errors. Here we describe a class of coherent non-Markovian errors -- excitations due to an off-resonant drive -- that occur naturally in quantum devices that use time-dependent fields to generate gate operations. We show how these errors are mischaracterized using standard Quantum Computer Verification and Validation (QCVV) techniques that rely on Markovianity and are therefore often overlooked or assumed to be incoherent. We first demonstrate off-resonant errors within a simple toy model of Z-gates created by the AC Stark effect, then show how off-resonant errors manifest in all gates driven on a fixed-frequency transmon architecture, a prominent example being incidental cross-resonance interaction driven during single-qubit gates. Furthermore, the same methodology can access the errors caused by two-level systems (TLS), showing evidence of coherent, off-resonant interactions with subsystems that are not intentional qubits. While we explore these results and their impact on gate error for fixed-frequency devices, we note that off-resonant excitations potentially limit any architectures that use frequency selectivity.
翻訳日:2023-02-22 13:59:59 公開日:2023-02-21
# $k$NN-Adapter: ブラックボックス言語モデルの効率的なドメイン適応

$k$NN-Adapter: Efficient Domain Adaptation for Black-Box Language Models ( http://arxiv.org/abs/2302.10879v1 )

ライセンス: Link先を確認
Yangsibo Huang, Daogao Liu, Zexuan Zhong, Weijia Shi, Yin Tat Lee(参考訳) 新しいドメインで言語モデルを微調整するのは、ドメイン適応の標準的なプラクティスです。 しかし、APIを通してのみアクセス可能なGPT-3のような近代的な大規模言語モデルでは実現不可能であり、モデルの内部パラメータへのアクセスが困難である。 本稿では,これらブラックボックス大規模言語モデル(llm)を新しいドメインに効果的に適用する手法である$k$nn-adapterを提案する。 この$k$nn-adapterは、検索型言語モデルの上に構築され、言語モデルの出力と、対象ドメインデータからなるデータストアからの検索結果との補間を適応的に学習する。 4つの異なるドメインに対する実験により、$k$NN-Adapter はパープレキシティを著しく改善し、特に LLM へのアクセスに制限のある設定でうまく機能することを示した。 さらに、トレーニングデータの量を制限する場合、$k$NN-Adapterは微調整よりも効果的であることを示す。 さらなる研究を促進するデータセットもリリースしています。

Fine-tuning a language model on a new domain is standard practice for domain adaptation. However, it can be infeasible when it comes to modern large-scale language models such as GPT-3, which can only be accessed through APIs, making it difficult to access the internal parameters of the model. In this paper, we propose $k$NN-Adapter, a method to effectively adapt these black-box large language models (LLMs) to a new domain. The $k$NN-Adapter builds on top of the retrieval-augmented language model, and adaptively learns to interpolate the output of the language model with retrieval results from a datastore consisting of the target domain data. Our experiments on four different domains demonstrate that $k$NN-Adapter significantly improves perplexity, and works particularly well in settings with limited access to LLMs. Additionally, we show that $k$NN-Adapter is more effective than fine-tuning when the amount of training data is limited. We also release a dataset to encourage further study.
翻訳日:2023-02-22 13:59:37 公開日:2023-02-21
# リアルタイム車両軌道予測のためのコンテキスト対応時空間VAE

Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction ( http://arxiv.org/abs/2302.10873v1 )

ライセンス: Link先を確認
Pei Xu, Jean-Bernard Hayet and Ioannis Karamouzas(参考訳) 人間の操舵行動のリアルタイムで正確な予測には、インテリジェントな交通システムの開発から、実世界とシミュレーション世界の両方における自律運転システムの導入まで、幅広い応用がある。 本稿では,マルチモーダル車両軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。 ContextVAEは、時間的に変動するオートエンコーダのバックボーンアーキテクチャに基づいており、環境コンテキスト情報と動的エージェントの状態を統一的に記述する2つのアテンション機構を用いて、エンコーディングを観察する。 エージェント状態符号化中の意味マップから抽出した特徴を生かして,現場のエージェントが提示する社会的特徴と物理的環境制約の両方を考慮し,地図に適合した,社会的に認識された軌跡を生成する。 私たちは、nuscenes prediction challenge、lyft level 5 dataset、waymo open motion datasetの広範なテストを行い、このアプローチの有効性と最先端のパフォーマンスを示しています。 すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。

Real-time, accurate prediction of human steering behaviors has wide applications, from developing intelligent traffic systems to deploying autonomous driving systems in both real and simulated worlds. In this paper, we present ContextVAE, a context-aware approach for multi-modal vehicle trajectory prediction. Built upon the backbone architecture of a timewise variational autoencoder, ContextVAE employs a dual attention mechanism for observation encoding that accounts for the environmental context information and the dynamic agents' states in a unified way. By utilizing features extracted from semantic maps during agent state encoding, our approach takes into account both the social features exhibited by agents on the scene and the physical environment constraints to generate map-compliant and socially-aware trajectories. We perform extensive testing on the nuScenes prediction challenge, Lyft Level 5 dataset and Waymo Open Motion Dataset to show the effectiveness of our approach and its state-of-the-art performance. In all tested datasets, ContextVAE models are fast to train and provide high-quality multi-modal predictions in real-time.
翻訳日:2023-02-22 13:59:20 公開日:2023-02-21
# mp-rec:マルチパス推薦を可能にするハードウェアソフトウェア共同設計

MP-Rec: Hardware-Software Co-Design to Enable Multi-Path Recommendation ( http://arxiv.org/abs/2302.10872v1 )

ライセンス: Link先を確認
Samuel Hsia, Udit Gupta, Bilge Acun, Newsha Ardalani, Pan Zhong, Gu-Yeon Wei, David Brooks, Carole-Jean Wu(参考訳) ディープラーニングレコメンデーションシステムは、多様なテールレイテンシーターゲットと入力クエリー負荷の下でパーソナライズされたコンテンツを提供する。 そのため、最先端のレコメンデーションモデルはテラバイト規模の埋め込みテーブルを使用して、大量のコンテンツに対するユーザの好みを学習する。 埋め込みテーブルの固定的な埋め込み表現への依存は、メモリ容量と帯域幅の大幅な要件を課すだけでなく、互換性のあるシステムソリューションの範囲も制限する。 本稿では,組込み表現とハードウェアプラットフォームとの相乗効果がアルゴリズム性能とシステム性能の両方の改善につながることを示すことにより,固定組込み表現の仮定に挑戦する。 様々な組込み表現の特徴に基づいて,メモリと計算要求の増加を犠牲にして,高品質な組込みを実現するハイブリッド組込み表現を提案する。 ハイブリッド表現のシステム性能問題に対処するため,組込み表現と基盤となるハードウェアプラットフォームの不均一性と動的選択を利用した共同設計手法MP-Recを提案する。 実システムハードウェア上では、GPU、TPU、IPUといったカスタムアクセラレータと互換性のある埋め込み表現とのマッチングが16.65倍の性能向上につながることを示す。 さらに、クエリ処理のシナリオでは、MP-Recは、KaggleデータセットとTerabyteデータセット用のCPU-GPUシステムにおいて、それぞれ2.49倍、3.76倍の正確な予測スループットと0.19%、0.22%のモデル品質を達成する。

Deep learning recommendation systems serve personalized content under diverse tail-latency targets and input-query loads. In order to do so, state-of-the-art recommendation models rely on terabyte-scale embedding tables to learn user preferences over large bodies of contents. The reliance on a fixed embedding representation of embedding tables not only imposes significant memory capacity and bandwidth requirements but also limits the scope of compatible system solutions. This paper challenges the assumption of fixed embedding representations by showing how synergies between embedding representations and hardware platforms can lead to improvements in both algorithmic- and system performance. Based on our characterization of various embedding representations, we propose a hybrid embedding representation that achieves higher quality embeddings at the cost of increased memory and compute requirements. To address the system performance challenges of the hybrid representation, we propose MP-Rec -- a co-design technique that exploits heterogeneity and dynamic selection of embedding representations and underlying hardware platforms. On real system hardware, we demonstrate how matching custom accelerators, i.e., GPUs, TPUs, and IPUs, with compatible embedding representations can lead to 16.65x performance speedup. Additionally, in query-serving scenarios, MP-Rec achieves 2.49x and 3.76x higher correct prediction throughput and 0.19% and 0.22% better model quality on a CPU-GPU system for the Kaggle and Terabyte datasets, respectively.
翻訳日:2023-02-22 13:59:02 公開日:2023-02-21
# エンドツーエンド音声翻訳のための粗ラベルによる効率的なCTC正規化

Efficient CTC Regularization via Coarse Labels for End-to-End Speech Translation ( http://arxiv.org/abs/2302.10871v1 )

ライセンス: Link先を確認
Biao Zhang and Barry Haddow and Rico Sennrich(参考訳) エンド・ツー・エンドの音声翻訳では、コーダをコネクショナリスト時間分類(CTC)の目的とすることで、ソースの転写やターゲットの翻訳をラベルとして使用することで、品質指標を大幅に改善することができる。 しかし、CTCは語彙空間に余分な予測層を要求し、非無視のモデルパラメータと計算オーバーヘッドをもたらすが、この層は通常推論には使われない。 本稿では, CTC の正規化のための真の語彙ラベルの必要性を再検討し, CTC ラベル空間を削減し, 品質劣化を伴わない効率の向上を目標とする戦略を検討する。 本稿では,単語ラベルを単純なヒューリスティックなルールでマージするctc (colactc) の粗いラベリングを提案する。 その単純さにもかかわらず、4つのソースと8つのターゲット言語に関する実験では、特にmodのcollactcはラベル空間を256まで積極的に圧縮でき、さらにトレーニング効率(1.18x ~ 1.77x スピードアップ)を向上できるが、ctcベースラインと同等あるいは優れたパフォーマンスを提供する。 また,CoLaCTCは転写やラベリングの翻訳に係わらず,CTC正則化に成功していることを示す。

For end-to-end speech translation, regularizing the encoder with the Connectionist Temporal Classification (CTC) objective using the source transcript or target translation as labels can greatly improve quality metrics. However, CTC demands an extra prediction layer over the vocabulary space, bringing in nonnegligible model parameters and computational overheads, although this layer is typically not used for inference. In this paper, we re-examine the need for genuine vocabulary labels for CTC for regularization and explore strategies to reduce the CTC label space, targeting improved efficiency without quality degradation. We propose coarse labeling for CTC (CoLaCTC), which merges vocabulary labels via simple heuristic rules, such as using truncation, division or modulo (MOD) operations. Despite its simplicity, our experiments on 4 source and 8 target languages show that CoLaCTC with MOD particularly can compress the label space aggressively to 256 and even further, gaining training efficiency (1.18x ~ 1.77x speedup depending on the original vocabulary size) yet still delivering comparable or better performance than the CTC baseline. We also show that CoLaCTC successfully generalizes to CTC regularization regardless of using transcript or translation for labeling.
翻訳日:2023-02-22 13:58:39 公開日:2023-02-21
# 生成モデルに対する著作権保護の証明

Provable Copyright Protection for Generative Models ( http://arxiv.org/abs/2302.10870v1 )

ライセンス: Link先を確認
Nikhil Vyas, Sham Kakade, Boaz Barak(参考訳) 学習条件生成モデルが、トレーニングセットにあった著作権付きデータ$c$と実質的に類似したサンプルを出力する可能性があるという懸念が高まっている。 我々は、$\textit{near access-freeness (NAF)}$の正式な定義を与え、もし$C$がトレーニングセットに含まれているとしても、この定義を満たすモデルが$C$に類似したサンプルを出力する確率の有界性を証明する。 大まかに言えば、生成モデル $p$ が $\textit{$k$-naf}$ であることは、著作権のあるすべてのデータ $c$ に対して、$p$ の出力が $q$ の出力から少なくとも $k$-bit を分岐することであり、$\textit{did は $c$ に全くアクセスしない。 また,元の生成モデル学習アルゴリズムをブラックボックス方式で効率的に修正する生成モデル学習アルゴリズムを与え,保護されたコンテンツをサンプリングする確率に強い境界を持つ生成モデルを出力する。 さらに,言語(トランスフォーマー)と画像(拡散)生成モデルの両方に対して有望な実験を行い,出力品質の低下を最小限に抑えつつ,保護されたコンテンツのサンプリングに対する強い保護を確保した。

There is a growing concern that learned conditional generative models may output samples that are substantially similar to some copyrighted data $C$ that was in their training set. We give a formal definition of $\textit{near access-freeness (NAF)}$ and prove bounds on the probability that a model satisfying this definition outputs a sample similar to $C$, even if $C$ is included in its training set. Roughly speaking, a generative model $p$ is $\textit{$k$-NAF}$ if for every potentially copyrighted data $C$, the output of $p$ diverges by at most $k$-bits from the output of a model $q$ that $\textit{did not access $C$ at all}$. We also give generative model learning algorithms, which efficiently modify the original generative model learning algorithm in a black box manner, that output generative models with strong bounds on the probability of sampling protected content. Furthermore, we provide promising experiments for both language (transformers) and image (diffusion) generative models, showing minimal degradation in output quality while ensuring strong protections against sampling protected content.
翻訳日:2023-02-22 13:58:14 公開日:2023-02-21
# hyena階層:より大きな畳み込み言語モデルに向けて

Hyena Hierarchy: Towards Larger Convolutional Language Models ( http://arxiv.org/abs/2302.10866v1 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher R\'e(参考訳) 近年のディープラーニングの進歩は、大規模に学習する能力のため、大きなトランスフォーマーの使用に大きく依存している。 しかし、トランスのコア構成ブロックであるアテンション演算子はシーケンシャルな長さの二次コストを示し、アクセス可能なコンテキストの量を制限している。 低ランクおよびスパース近似に基づく既存のサブクワッドラティック手法は、トランスフォーマーにマッチする高密度の注意層と組み合わせて、能力のギャップを示す必要がある。 本研究では,暗黙的にパラメトリ化された長大畳み込みとデータ制御型ゲーティングをインターリーブし,注意を喚起するサブクアドラティックなドロップイン方式であるhyenaを提案する。 数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは、注意ベースのモデルにマッチする状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。 我々は,標準データセット (WikiText103 と The Pile) における言語モデリングに基づく高密度アテンションレスアーキテクチャのための新しい最先端アーキテクチャを,シークエンス2Kに必要なトレーニング計算を20%削減してトランスフォーマー品質に到達した。 ハイエナ演算子は、シーケンス長8Kで高度に最適化された注意力と、シーケンス長64Kで100倍高速である。

Recent advances in deep learning have relied heavily on the use of large Transformers due to their ability to learn at scale. However, the core building block of Transformers, the attention operator, exhibits quadratic cost in sequence length, limiting the amount of context accessible. Existing subquadratic methods based on low-rank and sparse approximations need to be combined with dense attention layers to match Transformers, indicating a gap in capability. In this work, we propose Hyena, a subquadratic drop-in replacement for attention constructed by interleaving implicitly parametrized long convolutions and data-controlled gating. In recall and reasoning tasks on sequences of thousands to hundreds of thousands of tokens, Hyena improves accuracy by more than 50 points over operators relying on state-spaces and other implicit and explicit methods, matching attention-based models. We set a new state-of-the-art for dense-attention-free architectures on language modeling in standard datasets (WikiText103 and The Pile), reaching Transformer quality with a 20% reduction in training compute required at sequence length 2K. Hyena operators are twice as fast as highly optimized attention at sequence length 8K, and 100x faster at sequence length 64K.
翻訳日:2023-02-22 13:57:48 公開日:2023-02-21
# 隠れた共同創設者による継続的治療効果の推定

Estimating Treatment Effects in Continuous Time with Hidden Confounders ( http://arxiv.org/abs/2302.09446v2 )

ライセンス: Link先を確認
Defu Cao, James Enouen, Yan Liu(参考訳) 治療効果の推定は因果推論において重要な役割を担い、政策分析や意思決定のような現実世界の多くの応用がある。 それでも、隠れた共同創設者の存在下での縦断的な治療効果の推定は非常に難しい問題である。 近年,隠れた共同設立者の存在を無視して,時間動的観測データから未偏りの ite 推定を得る作業が増えている。 さらに、隠れた共同創設者を扱う既存の作業の多くは、継続的な時間設定には適用できない。 本稿では,隠れた共同創設者の存在下での動的時間設定におけるデコンウンディングに焦点をあてる作業の行を延長する。 神経微分方程式の最近の進歩を利用して,確率制御微分方程式とリプシッツ制約畳み込み演算を用いた潜在因子モデルを構築し,進行中の介入や不規則にサンプリングされた観測に関する情報を連続的に取り入れる。 合成データセットと現実世界データセットの両方の実験では、隠れた共同創設者の存在下で治療効果を推定するための連続時間法が期待されている。

Estimating treatment effects plays a crucial role in causal inference, having many real-world applications like policy analysis and decision making. Nevertheless, estimating treatment effects in the longitudinal setting in the presence of hidden confounders remains an extremely challenging problem. Recently, there is a growing body of work attempting to obtain unbiased ITE estimates from time-dynamic observational data by ignoring the possible existence of hidden confounders. Additionally, many existing works handling hidden confounders are not applicable for continuous-time settings. In this paper, we extend the line of work focusing on deconfounding in the dynamic time setting in the presence of hidden confounders. We leverage recent advancements in neural differential equations to build a latent factor model using a stochastic controlled differential equation and Lipschitz constrained convolutional operation in order to continuously incorporate information about ongoing interventions and irregularly sampled observations. Experiments on both synthetic and real-world datasets highlight the promise of continuous time methods for estimating treatment effects in the presence of hidden confounders.
翻訳日:2023-02-22 11:42:21 公開日:2023-02-21
# シェープリーバンドによる適応型ソーシャルエクササイズにおけるフェアネスの改善

Improving Fairness in Adaptive Social Exergames via Shapley Bandits ( http://arxiv.org/abs/2302.09298v2 )

ライセンス: Link先を確認
Robert C. Gray, Jennifer Villareale, Thomas B. Fox, Diane H. Dallal, Santiago Onta\~n\'on, Danielle Arigo, Shahin Jabbari, Jichen Zhu(参考訳) AIが社会に統合されるにつれて、アルゴリズムの公正性は必須の要件である。 AIがリソースを配布するソーシャルアプリケーションの場合、アルゴリズムはしばしば、特定の結果の最大化を試みながら、ユーザーのサブセットに利益をもたらす決定をしなければならない。 ユーザに対して適切なサービスを提供するようなシステムを設計するにはどうすればよいのか? 本稿では,step heroesと呼ばれるソーシャルエクセルゲームにおいて,ユーザの集団が共通の目標に向かって作業する場合に,この疑問を考察する。 従来の多腕バンディット (mabs) における副作用を同定し, 欲欲バンディット問題を定式化する。 そこで我々は,新たなフェアネス対応マルチアームバンディットであるShapley Banditsを提案する。 グループアウトプットの最大化よりも、プレイヤ全体の参加と介入を増加させるためにシャプリー値を使用するが、これは伝統的にハイパフォーマンスな参加者のみを優先することで達成されている。 本手法をユーザ・スタディ(n=46)を用いて評価した。 以上の結果から,我々のShapley BanditsはGreedy Bandit Problemを効果的に仲介し,参加者間のユーザ維持とモチベーションの向上を実現している。

Algorithmic fairness is an essential requirement as AI becomes integrated in society. In the case of social applications where AI distributes resources, algorithms often must make decisions that will benefit a subset of users, sometimes repeatedly or exclusively, while attempting to maximize specific outcomes. How should we design such systems to serve users more fairly? This paper explores this question in the case where a group of users works toward a shared goal in a social exergame called Step Heroes. We identify adverse outcomes in traditional multi-armed bandits (MABs) and formalize the Greedy Bandit Problem. We then propose a solution based on a new type of fairness-aware multi-armed bandit, Shapley Bandits. It uses the Shapley Value for increasing overall player participation and intervention adherence rather than the maximization of total group output, which is traditionally achieved by favoring only high-performing participants. We evaluate our approach via a user study (n=46). Our results indicate that our Shapley Bandits effectively mediates the Greedy Bandit Problem and achieves better user retention and motivation across the participants.
翻訳日:2023-02-22 11:42:01 公開日:2023-02-21
# 個人再同定システムにおけるデータ拡張のための生成型adversarial networkの検討

A Review on Generative Adversarial Networks for Data Augmentation in Person Re-Identification Systems ( http://arxiv.org/abs/2302.09119v2 )

ライセンス: Link先を確認
Victor Uc-Cetina, Laura Alvarez-Gonzalez, Anabel Martin-Gonzalez(参考訳) 近年,監視ソフトやスマートショップソフトの開発を中心に,自動人物識別システムへの関心が高まっている。 人物の姿勢の変化、異なる照明条件、オクルードされたシナリオ、異なるカメラで得られた画像の質の悪さなどにより、現在未解決の問題となっている。 データセットを減らした機械学習ベースのコンピュータビジョンアプリケーションでは、ニューラルモデルのトレーニングに利用可能な画像やビデオの集合を拡大することで、再識別システムの性能を改善する可能性がある。 現在、データ拡張のための合成情報を生成する最も堅牢な方法の1つは、ビデオ、画像、テキストである。 本稿では,データ拡張による人物再識別モデルの性能向上に最も関連性の高いアプローチを,生成的敵ネットワークを用いて概説する。 データ拡張アプローチでは,スタイル転送,ポーズ転送,ランダム生成という3つのカテゴリに注目した。

Interest in automatic people re-identification systems has significantly grown in recent years, mainly for developing surveillance and smart shops software. Due to the variability in person posture, different lighting conditions, and occluded scenarios, together with the poor quality of the images obtained by different cameras, it is currently an unsolved problem. In machine learning-based computer vision applications with reduced data sets, one possibility to improve the performance of re-identification system is through the augmentation of the set of images or videos available for training the neural models. Currently, one of the most robust ways to generate synthetic information for data augmentation, whether it is video, images or text, are the generative adversarial networks. This article reviews the most relevant recent approaches to improve the performance of person re-identification models through data augmentation, using generative adversarial networks. We focus on three categories of data augmentation approaches: style transfer, pose transfer, and random generation.
翻訳日:2023-02-22 11:41:39 公開日:2023-02-21
# 相互作用するカオス小体量子系における普遍スペクトル相関

Universal spectral correlations in interacting chaotic few-body quantum systems ( http://arxiv.org/abs/2302.08983v2 )

ライセンス: Link先を確認
Felix Fritzsch and Maximilian F. I. Kieler(参考訳) 相互作用量子系におけるランダム行列スペクトル相関の出現は、量子カオスの定義的特徴である。 このような相関関係をカオス的数体および多体系の相互作用におけるスペクトル形状係数の観点から検討し、適切なランダム行列アンサンブルでモデル化し、ヒルベルト空間次元の正確な結果を得る。 非相互作用から強く相互作用するケースへのスペクトル形成因子の遷移は、これらの2つの制限されたケースの単純な組み合わせとして説明できる。 この遷移は単一のスケーリングパラメータによって普遍的に制御される。 さらに,本手法は実際の物理系におけるスペクトル相関を正確に把握し,組み合わせたキックローターについて実証する。

The emergence of random matrix spectral correlations in interacting quantum systems is a defining feature of quantum chaos. We study such correlations in terms of the spectral form factor in interacting chaotic few- and many-body systems, modeled by suitable random-matrix ensembles, and obtain exact results for large Hilbert space dimensions. The transition of the spectral form factor from the non-interacting to the strongly interacting case can be described as a simple combination of these two limiting cases, which we confirm by extensive numerical studies in few-body systems. This transition is universally governed by a single scaling parameter. Moreover, our approach accurately captures spectral correlations in actual physical system, which we demonstrate for coupled kicked rotors.
翻訳日:2023-02-22 11:41:24 公開日:2023-02-21
# iQPP: 画像クエリのパフォーマンス予測のためのベンチマーク

iQPP: A Benchmark for Image Query Performance Prediction ( http://arxiv.org/abs/2302.10126v2 )

ライセンス: Link先を確認
Eduard Poesina, Radu Tudor Ionescu, Josiane Mothe(参考訳) 現在まで、コンテンツベースの画像検索の文脈におけるクエリ性能予測(QPP)は、特にクエリがイメージであるクエリ・バイ・サンプルのシナリオにおいて、ほとんど探索されていないタスクである。 画像検索におけるQPPタスクの探索を促進するため,画像クエリ性能予測のための最初のベンチマーク(iQPP)を提案する。 まず,4つのデータセット(PASCAL VOC 2012 Caltech-101, ROxford5k, RParis6k)のセットを構築し,2つの最先端画像検索モデルを用いて,各クエリの真正度を平均精度または精度として推定する。 次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。 実験の結果、ほとんどの予測子は評価シナリオをまたいで一般化しないことがわかった。 総合実験の結果,iqppは難解なベンチマークであり,今後の研究で取り組むべき重要な研究ギャップを明らかにすることができた。 コードとデータはhttps://github.com/Eduard6421/iQPPでオープンソースとして公開しています。

To date, query performance prediction (QPP) in the context of content-based image retrieval remains a largely unexplored task, especially in the query-by-example scenario, where the query is an image. To boost the exploration of the QPP task in image retrieval, we propose the first benchmark for image query performance prediction (iQPP). First, we establish a set of four data sets (PASCAL VOC 2012, Caltech-101, ROxford5k and RParis6k) and estimate the ground-truth difficulty of each query as the average precision or the precision@k, using two state-of-the-art image retrieval models. Next, we propose and evaluate novel pre-retrieval and post-retrieval query performance predictors, comparing them with existing or adapted (from text to image) predictors. The empirical results show that most predictors do not generalize across evaluation scenarios. Our comprehensive experiments indicate that iQPP is a challenging benchmark, revealing an important research gap that needs to be addressed in future work. We release our code and data as open source at https://github.com/Eduard6421/iQPP, to foster future research.
翻訳日:2023-02-22 11:33:28 公開日:2023-02-21
# ネットワーク支援回帰のコンフォーマル予測

Conformal Prediction for Network-Assisted Regression ( http://arxiv.org/abs/2302.10095v2 )

ライセンス: Link先を確認
Robert Lunde, Elizaveta Levina, Ji Zhu(参考訳) ネットワーク解析における重要な問題は、グラフ埋め込み座標や局所グラフ数のようなネットワーク共変量と、人口統計特性のような従来のノード共変量の両方を用いてノード属性を予測することである。 両種類の共変量を用いた標準回帰法が予測に使用されるが、統計的推論はノーダル要約統計がしばしば複雑な方法に依存するという事実によって複雑である。 本研究では, 共形予測のネットワークアナログが, 幅の広いネットワーク共変量に対して有限標本妥当性を達成できることを示す。 また,漸近条件付き妥当性の形式が実現可能であることを示す。 これらの手法はシミュレーションネットワークと引用ネットワークデータセットの両方で示される。

An important problem in network analysis is predicting a node attribute using both network covariates, such as graph embedding coordinates or local subgraph counts, and conventional node covariates, such as demographic characteristics. While standard regression methods that make use of both types of covariates may be used for prediction, statistical inference is complicated by the fact that the nodal summary statistics are often dependent in complex ways. We show that under a mild joint exchangeability assumption, a network analog of conformal prediction achieves finite sample validity for a wide range of network covariates. We also show that a form of asymptotic conditional validity is achievable. The methods are illustrated on both simulated networks and a citation network dataset.
翻訳日:2023-02-22 11:33:05 公開日:2023-02-21
# 手指バイオメトリックスにおける画像品質評価の高度化

Advanced Image Quality Assessment for Hand- and Fingervein Biometrics ( http://arxiv.org/abs/2302.09973v2 )

ライセンス: Link先を確認
Simon Kirchgasser, Christof Kauba, Georg Wimmer and Andreas Uhl(参考訳) 血管画像のバイオメトリック品質指標として,非参照画像品質測定や深層学習に基づく品質評価手法によく用いられる自然シーン統計法を提案する。 NIQEとBRISQUEは、通常の歪みのある一般的な画像でトレーニングされた場合、血管パターンのサンプルの品質を評価するのにうまく機能しないが、高品質で低品質の血管サンプルデータで訓練された変異は、ほとんどの場合、バイオメトリックな品質推定器から期待通りに振る舞う(特定のデータセットや特徴抽出方法の全体的な傾向から推定される)。 提案する深層学習に基づく品質指標は, 指や手の静脈のパターンによらず, たいていの場合, 正確な品質クラスを空孔パターンサンプルに割り当てることができる。 実験は、合計13個の指と手静脈のデータセットを用いて実施され、3つの異なるテンプレート表現(うち2つは特に血管バイオメトリックス用に設計された)を含んでいる。 提案された(訓練された)品質指標は、いくつかの古典的な品質指標と比較される。

Natural Scene Statistics commonly used in non-reference image quality measures and a deep learning based quality assessment approach are proposed as biometric quality indicators for vasculature images. While NIQE and BRISQUE if trained on common images with usual distortions do not work well for assessing vasculature pattern samples' quality, their variants being trained on high and low quality vasculature sample data behave as expected from a biometric quality estimator in most cases (deviations from the overall trend occur for certain datasets or feature extraction methods). The proposed deep learning based quality metric is capable of assigning the correct quality class to the vaculature pattern samples in most cases, independent of finger or hand vein patterns being assessed. The experiments were conducted on a total of 13 publicly available finger and hand vein datasets and involve three distinct template representations (two of them especially designed for vascular biometrics). The proposed (trained) quality measures are compared to a several classical quality metrics, with their achieved results underlining their promising behaviour.
翻訳日:2023-02-22 11:32:55 公開日:2023-02-21
# マルチモーダル感情認識のためのナレッジアウェアベイズ協調

Knowledge-aware Bayesian Co-attention for Multimodal Emotion Recognition ( http://arxiv.org/abs/2302.09856v2 )

ライセンス: Link先を確認
Zihan Zhao, Yu Wang, Yanfeng Wang(参考訳) マルチモーダル感情認識は、異なるモダリティを融合して人間の感情を予測することを目的とした、挑戦的な研究分野である。 しかし,注意機構に基づく既存のモデルでは,感情的な部分の学習が困難である。 そこで本研究では,事前学習モデルの融合に外部感情に関する知識を組み込むことを提案する。 この知識を効果的に取り入れるために,感情関連知識を用いて事前分布を推定するベイズアテンションモジュール(bam)を用いたコアテンションモデルを強化する。 IEMOCAPデータセットの実験結果から、提案手法は、少なくとも0.7%の未重み付き精度(UA)で、最先端のアプローチより優れていることが示された。

Multimodal emotion recognition is a challenging research area that aims to fuse different modalities to predict human emotion. However, most existing models that are based on attention mechanisms have difficulty in learning emotionally relevant parts on their own. To solve this problem, we propose to incorporate external emotion-related knowledge in the co-attention based fusion of pre-trained models. To effectively incorporate this knowledge, we enhance the co-attention model with a Bayesian attention module (BAM) where a prior distribution is estimated using the emotion-related knowledge. Experimental results on the IEMOCAP dataset show that the proposed approach can outperform several state-of-the-art approaches by at least 0.7% unweighted accuracy (UA).
翻訳日:2023-02-22 11:32:34 公開日:2023-02-21
# 未知語を強調する:エンドツーエンド音声認識のための新しい語彙獲得

Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End Speech Recognition ( http://arxiv.org/abs/2302.09723v2 )

ライセンス: Link先を確認
Leyuan Qu, Cornelius Weber and Stefan Wermter(参考訳) ヒト言語の動的な性質のため、自動音声認識(ASR)システムは新たな語彙を継続的に取得する必要がある。 トレンディングワードや新しい名前を持つエンティティなどのOf-Vocabulary(OOV)ワードは、多数のパラメータを適応するために長いトレーニング時間を必要とする現代のASRシステムに問題を引き起こす。 言語モデル後処理に焦点をあてたこれまでの研究とは違って、より早い処理レベルでこの問題に取り組み、音響モデリングにおけるバイアスを排除し、OOV単語を音響的に認識する。 我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。 具体的には、これまでに訓練された合成音声モデルにおいて、OV単語(文レベル)を含む発話のニューラルネットワークのパラメータのトレーニングや、OOV単語(語レベル)のバックプロパゲーションに使用される勾配の再スケールに使用する分類損失を拡大する。 また, 損失再スケーリングとモデル正規化(L2正則化と弾性重み強化(EWC))の組み合わせについても検討した。 合成音声をEWCで微調整する従来の手法と比較して,提案手法による損失再スケーリング手法は,単語誤り率をわずかに低下させるだけで,リコール率を大幅に向上できることを示した。 さらに、単語レベルの再スケーリングは発話レベルの再スケーリングよりも安定しており、OOVワード認識におけるリコール率と精度が向上する。 さらに,ASRシステムの継続学習を支援するために,損失再スケーリングと重み強化を組み合わせた手法を提案する。

Due to the dynamic nature of human language, automatic speech recognition (ASR) systems need to continuously acquire new vocabulary. Out-Of-Vocabulary (OOV) words, such as trending words and new named entities, pose problems to modern ASR systems that require long training times to adapt their large numbers of parameters. Different from most previous research focusing on language model post-processing, we tackle this problem on an earlier processing level and eliminate the bias in acoustic modeling to recognize OOV words acoustically. We propose to generate OOV words using text-to-speech systems and to rescale losses to encourage neural networks to pay more attention to OOV words. Specifically, we enlarge the classification loss used for training neural networks' parameters of utterances containing OOV words (sentence-level), or rescale the gradient used for back-propagation for OOV words (word-level), when fine-tuning a previously trained model on synthetic audio. To overcome catastrophic forgetting, we also explore the combination of loss rescaling and model regularization, i.e. L2 regularization and elastic weight consolidation (EWC). Compared with previous methods that just fine-tune synthetic audio with EWC, the experimental results on the LibriSpeech benchmark reveal that our proposed loss rescaling approach can achieve significant improvement on the recall rate with only a slight decrease on word error rate. Moreover, word-level rescaling is more stable than utterance-level rescaling and leads to higher recall rates and precision on OOV word recognition. Furthermore, our proposed combined loss rescaling and weight consolidation methods can support continual learning of an ASR system.
翻訳日:2023-02-22 11:32:22 公開日:2023-02-21
# 意味的不確かさ:自然言語生成における不確かさ推定のための言語的不変性

Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation ( http://arxiv.org/abs/2302.09664v2 )

ライセンス: Link先を確認
Lorenz Kuhn, Yarin Gal, Sebastian Farquhar(参考訳) 大規模言語モデルにおける不確実性を測定する手法を提案する。 質問応答のようなタスクでは、基礎モデルの自然言語出力をいつ信頼できるかを知ることが不可欠である。 自然言語における不確実性を測定することは「意味的同値性」によって困難であることが示され、異なる文が同じ意味を持つ可能性がある。これらの課題を克服するためには、共通意味によって生成された言語的不変性を組み込んだ意味的エントロピーを導入する。 本手法は教師なしで,単一のモデルのみを使用し,既製の言語モデルの変更は不要である。 包括的アブレーション研究において,semantic entropyは,質問応答データセットにおけるモデルの精度を,同等のベースラインよりも予測できることを示した。

We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we can trust the natural language outputs of foundation models. We show that measuring uncertainty in natural language is challenging because of "semantic equivalence" -- different sentences can mean the same thing. To overcome these challenges we introduce semantic entropy -- an entropy which incorporates linguistic invariances created by shared meanings. Our method is unsupervised, uses only a single model, and requires no modifications to off-the-shelf language models. In comprehensive ablation studies we show that the semantic entropy is more predictive of model accuracy on question answering data sets than comparable baselines.
翻訳日:2023-02-22 11:31:52 公開日:2023-02-21
# textit{ab initio} 計算によるダイヤモンド中の酸素空孔錯体の研究

Investigation of oxygen-vacancy complexes in diamond by means of \textit{ab initio} calculations ( http://arxiv.org/abs/2302.09593v2 )

ライセンス: Link先を確認
Nima Ghafari Cherati, Gerg\H{o} Thiering, and \'Ad\'am Gali(参考訳) ダイヤモンドの点欠陥は量子ビットとして作用する。 近年、酸素空孔関連欠陥がダイヤモンドのいわゆるST1色中心の起源となり、長寿命の固体量子メモリを実現することが提案されている。 この提案に動機づけられて,第一原理密度汎関数理論計算を用いて,ダイヤモンド中の酸素空孔錯体を体系的に検討した。 酸素空孔欠陥はいずれも中性電荷状態において高いスピン基底状態を有しており,ST1色中心の起源として無視されている。 高スピン準安定酸素空孔複合体を同定し、将来の実験でその磁気光学特性を同定する。

Point defects in diamond may act as quantum bits. Recently, oxygen-vacancy related defects have been proposed to the origin of the so-called ST1 color center in diamond that can realize a long-living solid-state quantum memory. Motivated by this proposal we systematically investigate oxygen-vacancy complexes in diamond by means of first principles density functional theory calculations. We find that all the considered oxygen-vacancy defects have a high-spin ground state in their neutral charge state, which disregards them as an origin for the ST1 color center. We identify a high-spin metastable oxygen-vacancy complex and characterize their magnetooptical properties for identification in future experiments.
翻訳日:2023-02-22 11:31:36 公開日:2023-02-21
# 大規模言語モデルにおける人間の感情知識表現の創出と離散的感情推論支援

Human Emotion Knowledge Representation Emerges in Large Language Model and Supports Discrete Emotion Inference ( http://arxiv.org/abs/2302.09582v2 )

ライセンス: Link先を確認
Ming Li, Yusheng Su, Hsiu-Yuan Huang, Jiali Cheng, Xin Hu, Xinmiao Zhang, Huadong Wang, Yujia Qin, Xiaozhi Wang, Zhiyuan Liu, Dan Zhang(参考訳) 人間がどのように離散的な感情を推測するかは、心理学の分野における基本的な研究課題である。 感情に関する概念知識(感情知識)は感情推論に不可欠であると提案されているが、これまでの証拠はほとんどが間接的で決定的ではない。 大規模言語モデル(llm)が様々な概念知識の効果的な表現を支援することが示されているため、本研究は人間の感情推論のメカニズムを調査するためにllmの人工ニューロンをさらに活用した。 人工ニューロンはプロンプトによって活性化され、LLM(RoBERTa)は27個の離散的な感情を人間の行動と類似した概念構造を示した。 さらに、llmに基づく概念構造は、感情推論のための感情の14の基本的な概念的属性に依存することを示した。 さらに, 属性特異的ニューロンの操作により, 対応するLLMの感情推定性能が低下し, 人体における概念的属性の表現の有効性と性能劣化が相関していることが判明した。 本研究は,大規模言語モデルにおける感情知識表現の出現の直接的証拠を提供し,離散的感情推論に対するカジュアルサポートを提案する。

How humans infer discrete emotions is a fundamental research question in the field of psychology. While conceptual knowledge about emotions (emotion knowledge) has been suggested to be essential for emotion inference, evidence to date is mostly indirect and inconclusive. As the large language models (LLMs) have been shown to support effective representations of various human conceptual knowledge, the present study further employed artificial neurons in LLMs to investigate the mechanism of human emotion inference. With artificial neurons activated by prompts, the LLM (RoBERTa) demonstrated a similar conceptual structure of 27 discrete emotions as that of human behaviors. Furthermore, the LLM-based conceptual structure revealed a human-like reliance on 14 underlying conceptual attributes of emotions for emotion inference. Most importantly, by manipulating attribute-specific neurons, we found that the corresponding LLM's emotion inference performance deteriorated, and the performance deterioration was correlated to the effectiveness of representations of the conceptual attributes on the human side. Our findings provide direct evidence for the emergence of emotion knowledge representation in large language models and suggest its casual support for discrete emotion inference.
翻訳日:2023-02-22 11:31:25 公開日:2023-02-21
# 画像復元のための混合階層ネットワーク

Mixed Hierarchy Network for Image Restoration ( http://arxiv.org/abs/2302.09554v2 )

ライセンス: Link先を確認
Hu Gao and Depeng Dang(参考訳) 画像復元は、デブラリングやデレイニングなど、長期にわたる低レベルの視覚問題である。 画像復元の過程では,空間的詳細や文脈情報だけでなく,システムの複雑さも考慮する必要がある。 画像復元の質を保証できる手法は数多くあるが, 現状技術(SOTA)手法の複雑さも増大している。 この動機付けにより、これらの競合する目標のバランスをとることができる混合階層ネットワークを提案する。 システム複雑性を軽減するためにブロック内の設計を行いながら、劣化した画像からコンテキスト情報と空間詳細を段階的に復元する。 具体的には,まずエンコーダデコーダアーキテクチャを用いて文脈情報を学習し,空間的詳細を保存する高分解能分岐と組み合わせる。 簡易な解析と比較のために、このアーキテクチャのシステムの複雑さを軽減するために、非線形活性化関数を乗法で置き換えたり取り除いたりし、単純なネットワーク構造を使う。 さらに,エンコーダデコーダの中間ブロックに対する空間畳み込みをグローバルな自己注意に置き換える。 その結果、mhnetと呼ばれる密にリンクされた階層アーキテクチャは、画像のデレイニングやデブラリングなど、いくつかの画像復元タスクにおいて強力なパフォーマンス向上をもたらす。

Image restoration is a long-standing low-level vision problem, e.g., deblurring and deraining. In the process of image restoration, it is necessary to consider not only the spatial details and contextual information of restoration to ensure the quality, but also the system complexity. Although many methods have been able to guarantee the quality of image restoration, the system complexity of the state-of-the-art (SOTA) methods is increasing as well. Motivated by this, we present a mixed hierarchy network that can balance these competing goals. Our main proposal is a mixed hierarchy architecture, that progressively recovers contextual information and spatial details from degraded images while we design intra-blocks to reduce system complexity. Specifically, our model first learns the contextual information using encoder-decoder architectures, and then combines them with high-resolution branches that preserve spatial detail. In order to reduce the system complexity of this architecture for convenient analysis and comparison, we replace or remove the nonlinear activation function with multiplication and use a simple network structure. In addition, we replace spatial convolution with global self-attention for the middle block of encoder-decoder. The resulting tightly interlinked hierarchy architecture, named as MHNet, delivers strong performance gains on several image restoration tasks, including image deraining, and deblurring.
翻訳日:2023-02-22 11:31:06 公開日:2023-02-21
# 勾配に基づくWang-Landauアルゴリズム:入力空間上のニューラルネットワークの出力分布の新しいサンプリング器

Gradient-based Wang-Landau Algorithm: A Novel Sampler for Output Distribution of Neural Networks over the Input Space ( http://arxiv.org/abs/2302.09484v2 )

ライセンス: Link先を確認
Weitang Liu, Ying-Wai Li, Yi-Zhuang You, Jingbo Shang(参考訳) 入力空間全体にわたるニューラルネットワーク(NN)の出力分布は、完全な入出力マッピング関係をキャプチャし、より包括的なNN理解への洞察を提供する。 排他的列挙法や従来のモンテカルロ法は、特に高次元入力に対して非現実的なサンプリング時間を示すことができる。 そこで本研究では,GWLを用いた新しいサンプリング手法を提案する。 まず、NNの出力分布と物理系の状態密度(DOS)との接続を描画する。 次に,そのランダムな提案を勾配に基づくモンテカルロ提案に置き換え,dos問題に対する古典的なスプリマーであるwang-landauアルゴリズムを再構成する。 このように、gwlサンプリング器は入力空間の未探索部分集合をより効率的に調査する。 例えば、バイナリ画像分類タスクにおいて、cnnとresnetは、人間の認識不能な画像の大部分を非常にネガティブなロジット値にマッピングした。

The output distribution of a neural network (NN) over the entire input space captures the complete input-output mapping relationship, offering insights toward a more comprehensive NN understanding. Exhaustive enumeration or traditional Monte Carlo methods for the entire input space can exhibit impractical sampling time, especially for high-dimensional inputs. To make such difficult sampling computationally feasible, in this paper, we propose a novel Gradient-based Wang-Landau (GWL) sampler. We first draw the connection between the output distribution of a NN and the density of states (DOS) of a physical system. Then, we renovate the classic sampler for the DOS problem, the Wang-Landau algorithm, by replacing its random proposals with gradient-based Monte Carlo proposals. This way, our GWL sampler investigates the under-explored subsets of the input space much more efficiently. Extensive experiments have verified the accuracy of the output distribution generated by GWL and also showcased several interesting findings - for example, in a binary image classification task, both CNN and ResNet mapped the majority of human unrecognizable images to very negative logit values.
翻訳日:2023-02-22 11:30:45 公開日:2023-02-21