このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220911となっている論文です。

PDF登録状況(公開日: 20220911)

TitleAuthorsAbstract論文公表日・翻訳日
# 光シミュレーションによる多項式非拘束二元最適化

Polynomial unconstrained binary optimisation inspired by optical simulation ( http://arxiv.org/abs/2106.13167v2 )

ライセンス: Link先を確認
Dmitry A. Chermoshentsev, Aleksei O. Malyshev, Mert Esencan, Egor S. Tiunov, Douglas Mendoza, Al\'an Aspuru-Guzik, Aleksey K. Fedorov and Alexander I. Lvovsky(参考訳) 多項式非拘束型バイナリ最適化(pubo)問題を解くために,光コヒーレントイジングマシンにインスパイアされたアルゴリズムを提案する。 提案アルゴリズムをシェリントン・カークパトリックモデルとランダムな3次多項式擬ブール関数を用いて,既存のPUBOアルゴリズムと比較し,その性能を検証した。 また, タンパク質の折り畳みや電子構造計算といった, 既存の量子アニーリング装置では利用できないような, 実際に関連する計算問題の例についても論じる。 タンパク質の折り畳みや量子化学問題へのアルゴリズムの適用は、pubo問題による電子構造問題の近似の欠点を浮き彫りにするものであり、量子アニーラやコヒーレントイジングマシンのような、制約のない二進最適化式の適用性に疑問を投げかけている。

We propose an algorithm inspired by optical coherent Ising machines to solve the problem of polynomial unconstrained binary optimization (PUBO). We benchmark the proposed algorithm against existing PUBO algorithms on the extended Sherrington-Kirkpatrick model and random third-degree polynomial pseudo-Boolean functions, and observe its superior performance. We also address instances of practically relevant computational problems such as protein folding and electronic structure calculations with problem sizes not accessible to existing quantum annealing devices. The application of our algorithm to protein folding and quantum chemistry problems sheds light on the shortcomings of approximating the electronic structure problem by a PUBO problem, which, in turn, puts into question the applicability of the unconstrained binary optimization formulation, such as that of quantum annealers and coherent Ising machines, in this context.
翻訳日:2023-03-25 16:10:49 公開日:2022-09-11
# ギャップパブル境界を超えた位相的不動点モデルに向けて

Towards topological fixed-point models beyond gappable boundaries ( http://arxiv.org/abs/2111.14868v4 )

ライセンス: Link先を確認
Andreas Bauer, Jens Eisert, Carolin Wille(参考訳) テンソルネットワークの言語における離散経路積分として定式化された物質位相の固定点モデルを考える。 このような位相不変性の正確な概念を持つゼロ相関長モデルは、数学のコミュニティではステートサム構成あるいは格子トポロジカル量子場理論として知られている。 固定点モデルの確立されたアンサットは全て、ガッピング境界の存在と可換射影ハミルトニアンを暗示している。 したがって、ギャップ境界や通勤プロジェクターであるハミルトン位相なしで位相位相を捉えることができず、特にカイラル位相は2+1$次元である。 本稿では,上記の制約に影響を受けない,より一般的な固定点 ansatz を提案する。 したがって、我々の形式主義は、キラル相の微視的不動点記述への道を開き、具体的な例につながるいくつかの戦略を示す。 さらに、我々のより一般的なアンサッツは位相的不動点モデルの普遍形式を構成するが、確立されたアンサッチは位相的境界を持つ位相の固定点に対してのみ普遍的である。

We consider fixed-point models for topological phases of matter formulated as discrete path integrals in the language of tensor networks. Such zero-correlation length models with an exact notion of topological invariance are known in the mathematical community as state-sum constructions or lattice topological quantum field theories. All of the established ansatzes for fixed-point models imply the existence of a gapped boundary as well as a commuting-projector Hamiltonian. Thus, they fail to capture topological phases without a gapped boundary or commuting-projector Hamiltonian, most notably chiral topological phases in $2+1$ dimensions. In this work, we present a more general fixed-point ansatz not affected by the aforementioned restrictions. Thus, our formalism opens up a possible way forward towards a microscopic fixed-point description of chiral phases and we present several strategies that may lead to concrete examples. Furthermore, we argue that our more general ansatz constitutes a universal form of topological fixed-point models, whereas established ansatzes are universal only for fixed-points of phases which admit topological boundaries.
翻訳日:2023-03-06 09:13:40 公開日:2022-09-11
# 実用的量子K平均クラスタリング:エネルギーグリッド分類における性能解析と応用

Practical Quantum K-Means Clustering: Performance Analysis and Applications in Energy Grid Classification ( http://arxiv.org/abs/2112.08506v2 )

ライセンス: Link先を確認
Stephen DiAdamo, Corey O'Meara, Giorgio Cortiana, Juan Bernab\'e-Moreno(参考訳) 本研究では,量子コンピュータを用いたエネルギー運用分野の予測保守に応用可能な,教師なしクラスタリングの実用的利用事例について考察する。 量子コンピュータへのクラウドアクセスのみを使用して、非自明な中高次元データセットを含む実用的な応用のために、現在の量子コンピューティングシステムで何ができるかを徹底的に解析する。 まず,スワップテストに基づく2つの測定値を用いて,角度と振幅データ埋め込みを用いた距離推定の精度をベンチマークした。 次に,クラスタ化性能解析のために,クラスタ分散の異なる合成データのセットを生成し,この2つのメトリクスを用いた物理ハードウェア結果と比較する。 この性能分析の結果から、ノイズの多いハードウェアによって発見された落とし穴を避けるために、量子$k$-meansクラスタリングの汎用的で競争的で並列化されたバージョンを提案し、実際のエネルギーグリッドクラスタリングシナリオにアプローチを適用する。 実世界のドイツの電力グリッドデータを用いて、従来のアルゴリズムのラベル付けに関して、新しい手法は標準量子$k$-meansクラスタリングのバランスの取れた精度を67.8 %$に改善することを示した。

In this work, we aim to solve a practical use-case of unsupervised clustering which has applications in predictive maintenance in the energy operations sector using quantum computers. Using only cloud access to quantum computers, we complete a thorough performance analysis of what some current quantum computing systems are capable of for practical applications involving non-trivial mid-to-high dimensional datasets. We first benchmark how well distance estimation can be performed using two different metrics based on the swap-test, using angle and amplitude data embedding. Next, for the clustering performance analysis, we generate sets of synthetic data with varying cluster variance and compare simulation to physical hardware results using the two metrics. From the results of this performance analysis, we propose a general, competitive, and parallelized version of quantum $k$-means clustering to avoid some pitfalls discovered due to noisy hardware and apply the approach to a real energy grid clustering scenario. Using real-world German electricity grid data, we show that the new approach improves the balanced accuracy of the standard quantum $k$-means clustering by $67.8\%$ with respect to the labeling of the classical algorithm.
翻訳日:2023-03-04 11:29:48 公開日:2022-09-11
# 空洞を介する相互作用による結合秩序

Bond order via cavity-mediated interactions ( http://arxiv.org/abs/2201.05466v2 )

ライセンス: Link先を確認
Titas Chanda, Rebecca Kraus, Jakub Zakrzewski, Giovanna Morigi(参考訳) 光格子の最低帯域に密に閉じ込められ、単モードキャビティフィールドに分散結合されたボソンの位相図を数値的に検討した。 ダイナミクスはbose-hubbardモデルの拡張で囲まれている。 ここで、空洞を介する相互作用は、大域範囲の2体ポテンシャル項と、ホッピング振幅が大域観測可能に依存する相関トンネル項によって記述される。 密度行列再正規化群アルゴリズムを用いて1次元の基底状態特性を定式化し,相関トンネル効果に着目した。 後者は結合秩序の開始に責任を持ち、1つの絶縁と2つのギャップレス結合秩序相で表される。 本稿では,相関トンネル係数の異なる相対強度に対応する異なるジオメトリの位相について考察する。 最終的に、大域的な相互作用によって現れるギャップのない結合秩序相における絡み合いエントロピーのスケーリングを解析し、対応する中心電荷を決定する。

We numerically study the phase diagram of bosons tightly trapped in the lowest band of an optical lattice and dispersively coupled to a single-mode cavity field. The dynamics is encompassed by an extended Bose-Hubbard model. Here, the cavity-mediated interactions are described by a two-body potential term with a global range and by a correlated tunneling term where the hopping amplitude depends on a global observable. We determine the ground state properties in one dimension by means of the density matrix renormalization group algorithm, focusing on the effects due to the correlated tunneling. The latter is responsible for the onset of bond orders, manifesting in one insulating and two gapless bond ordered phases. We discuss the resulting phases for different geometries that correspond to different relative strengths of the correlated tunneling coefficient. We finally analyze the scaling of the entanglement entropy in the gapless bond ordered phases that appear entirely due to global interactions and determine the corresponding central charges.
翻訳日:2023-03-01 04:30:38 公開日:2022-09-11
# 熱混合量子状態の純度

Purity of thermal mixed quantum states ( http://arxiv.org/abs/2202.07207v3 )

ライセンス: Link先を確認
Atsushi Iwaki and Chisa Hotta(参考訳) 我々は、量子状態 \textit{a priori} の正確な形を知ることなく、数値実験で計算できる一連の熱平衡状態の純度を評価する公式を開発する。 正典型性は、そのような状態の顕微鏡的な異なる表現が多数存在することを保証し、これを熱混合量子(tmq)状態と呼ぶ。 N_\mathrm{samp}$ 独立純粋状態の混合で TMQ 状態を構築することを仮定する。 各純状態の重みはそのノルムによって与えられ、分配関数はノルムの平均によって与えられる。 混合の効率を測るために,分割関数の正規化変動 (NFPF) と呼ばれる量子統計量を導入する。 より小さなNFPFの場合、TMQ状態は純粋状態の等重混合に近く、より効率が良く、より小さい$N_\mathrm{samp}$を必要とする。 最大のNFPFは純度0と指数的に大きい$N_\mathrm{samp}$でギブス状態で実現され、最小のNFPFは純度1と$N_\mathrm{samp}=1$の熱純量子状態に対して与えられる。 純度は NFPF のみを用いて定式化され、大まかに$N_\mathrm{samp}^{-1}$を与える。 解析結果は,行列生成状態に基づく波動関数に基づく2つのランダムサンプリング法によって数値的に検証された。

We develop a formula to evaluate the purity of a series of thermal equilibrium states that can be calculated in numerical experiments without knowing the exact form of the quantum state \textit{a priori}. Canonical typicality guarantees that there are numerous microscopically different expressions of such states, which we call thermal mixed quantum (TMQ) states. Suppose that we construct a TMQ state by a mixture of $N_\mathrm{samp}$ independent pure states. The weight of each pure state is given by its norm, and the partition function is given by the average of the norms. To qualify how efficiently the mixture is done, we introduce a quantum statistical quantity called "normalized fluctuation of partition function (NFPF)". For smaller NFPF, the TMQ state is closer to the equally weighted mixture of pure states, which means higher efficiency, requiring a smaller $N_\mathrm{samp}$. The largest NFPF is realized in the Gibbs state with purity-0 and exponentially large $N_\mathrm{samp}$, while the smallest NFPF is given for thermal pure quantum state with purity-1 and $N_\mathrm{samp}=1$. The purity is formulated using solely the NFPF and roughly gives $N_\mathrm{samp}^{-1}$. Our analytical results are numerically tested and confirmed by the two random sampling methods built on matrix-product-state-based wave functions.
翻訳日:2023-02-25 18:56:31 公開日:2022-09-11
# ブロックチェーンによるサプライチェーン管理のセキュリティ向上に向けて

Towards Security Enhancement of Blockchain-based Supply Chain Management ( http://arxiv.org/abs/2209.04917v1 )

ライセンス: Link先を確認
Abdul Khalique Shaikh A.K. Al-Alawi, L. R., Al-Busaidi, R., Shaikh(参考訳) 現代のシステムのサイバーセキュリティは、産業と学術の両方の観点から劇的に注目を集めている。 近年、ブロックチェーンベースのシステムの人気は、伝統的に様々な産業セクター、特にサプライチェーン管理において、その合理化の性質から現れてきた。 これはサプライチェーン管理の観点から品質面の重要性を明らかにします。 多くの産業はサプライチェーン管理と物流のための品質システムを持つことの重要性を認識した。 ブロックチェーン技術の出現は、特定のサプライチェーンプロセス上でのビジネスアクティビティの処理と追跡において、いくつかの潜在的なイノベーションを生み出しました。 本稿では、ブロックチェーン、特にサプライチェーン管理プロセス上でのデータの生成、検証、チェックのプロセスを処理するために使用されるスマートコントラクト技術に光を当てる。 次に、サプライチェーンのコンテキストにおけるブロックチェーンサイバーセキュリティの領域に触れます。 ますます、スマートコントラクトがさまざまな場所からのデータ転送を処理するため、セキュリティ保護は、あらゆる攻撃からデータと資産を保護するのに十分な強度を持つべきです。 最後に、ブロックチェーン上のデータに影響を与える主要なセキュリティ攻撃を調査し、解決策を提案する。

The cybersecurity of modern systems has dramatically increased attention from both industrial and academia perspectives. In the recent era, the popularity of the blockchain-based system has traditionally been emergent among various industrials sectors especially in supply chain management due to its streamlined nature. This reveals the importance of the quality aspects from a supply chain management perspective. Many industries realized the importance of having quality systems for supply chain management and logistics. The emergence of blockchain technology has created several potential innovations in handling and tracking business activities over the supply chain processes as specific. This paper shed the light on the blockchain and specifically on a smart contract technology which been used to handle the process of creation, verification and checking data over the supply chain management process. Then, touch upon the area of blockchain cybersecurity in the supply chain context. More and more, since the smart contract handles the transfer of data over different locations, then the security protection should be strong enough to secure the data and the assets from any attacks. Finally, the paper examines the main security attacks that affect the data on the blockchain and propose a solution
翻訳日:2023-02-19 11:05:06 公開日:2022-09-11
# Web 3.0の採用行動:PLS-SEMと知覚分析

Web 3.0 Adoption Behavior: PLS-SEM and Sentiment Analysis ( http://arxiv.org/abs/2209.04900v1 )

ライセンス: Link先を確認
Sheikh M. Hizam, Waqas Ahmed, Habiba Akter, Ilham Sentosa and Mohamad N. Masrek(参考訳) Web 3.0は、分散化、ユーザパーソナライゼーション、プライバシ保護がインターネットの主要な側面となるインターネットの未来と見なされている。 本研究の目的は, 部分最小二乗構造方程式モデリング (PLS-SEM) とTwitter の感情分析に基づくマルチ分析手法により, Web 3.0 の採用行動を明らかにすることである。 eWOM(Electronic Word-of-Mouth)とDD(Digital Dexterity)を中心とした理論フレームワークが、Web 3.0採用の行動意図(INT)に対して仮説化された。 調査データをオンラインアンケートで収集し,pls-semを用いて167の回答を分析した。 一方、Web3の3,989ツイートは、RapidMinerのVADER感情分析ツールによって分析された。 PLS-SEMの結果, DDおよびeWOMは有意な影響を示した。 さらに, PLS-Predict法により, これらの結果が検証された。 感情分析では、Web 3.0のツイートの56%が肯定的であり、7%が否定的な感情を示し、残りは中立であることがわかった。 このような推論は本質的には新規であり、Webインフォマティクスに革新的な追加であり、Web技術統合に対するステークホルダーを支援することができる。

Web 3.0 is considered as future of Internet where decentralization, user personalization and privacy protection would be the main aspects of Internet. Aim of this research work is to elucidate the adoption behavior of Web 3.0through a multi-analytical approach based on Partial Least Squares Structural Equation Modelling (PLS-SEM) and Twitter sentiment analysis. A theoretical framework centered on Performance Expectancy (PE), Electronic Word-of-Mouth (eWOM) and Digital Dexterity (DD), was hypothesized towards Behavioral Intention (INT) of the Web 3.0 adoption. Surveyed data were collected through online questionnaires and 167 responses were analyzed through PLS-SEM. While 3,989 tweets of Web3 were analyzed by VADER sentiment analysis tool in RapidMiner. PLS-SEM results showed that DD and eWOM had significant impact while PE had no effect on INT. Moreover, these results were also validated by PLS-Predict method. While sentiment analysis explored that 56% tweets on Web 3.0 were positive in sense and 7% depicted negative sentiment while remaining were neutral. Such inferences are novel in nature and an innovative addition to web informatics and could support the stakeholders towards web technology integration
翻訳日:2023-02-19 11:04:51 公開日:2022-09-11
# スピン系における臨界量子温度測定とその実現可能性

Critical quantum thermometry and its feasibility in spin systems ( http://arxiv.org/abs/2204.02734v2 )

ライセンス: Link先を確認
Enes Aybar, Artur Niezgoda, Safoura S. Mirkhalaf, Morgan W. Mitchell, Daniel Benedicto Orenes, and Emilia Witkowska(参考訳) 本研究では,量子相転移を示す有限次元強相関系を用いた温度センシングについて検討する。 温度推定における感度を定量化するために量子フィッシャー情報 (QFI) を用いており、この感度を臨界点付近のシステムの臨界指数に結びつけるために有限サイズのスケーリングフレームワークを適用している。 スピン-1ボース・アインシュタイン凝縮系とスピンチェーン・ハイゼンベルク xx模型の2つの実験可能系における臨界点付近のqfiを外部磁場の存在下で数値計算する。 その結果,QFIの有限サイズスケーリング特性が確認できた。 さらに,これら2つのシステムの臨界点において(ほぼ)qfiを飽和させる実験可能な可観測性について考察する。

In this work, we study temperature sensing with finite-sized strongly correlated systems exhibiting quantum phase transitions. We use the quantum Fisher information (QFI) approach to quantify the sensitivity in the temperature estimation, and apply a finite-size scaling framework to link this sensitivity to critical exponents of the system around critical points. We numerically calculate the QFI around the critical points for two experimentally-realizable systems: the spin-1 Bose-Einstein condensate and the spin-chain Heisenberg XX model in the presence of an external magnetic field. Our results confirm finite-size scaling properties of the QFI. Furthermore, we discuss experimentally-accessible observables that (nearly) saturate the QFI at the critical points for these two systems.
翻訳日:2023-02-18 02:51:24 公開日:2022-09-11
# ラムゼースキームを弦理論過程に適用する

Ramsey Scheme Applied to String Theoretical Processes ( http://arxiv.org/abs/2206.06974v2 )

ライセンス: Link先を確認
Salman Sajad Wani, Arshid Shabir, Mir Faizal, Seemin Rubab(参考訳) 本稿では,文字列と背景フィールドの相互作用による物理量の進化を分析する。 このような弦理論過程の特性関数を得る。 これはラムゼースキームを世界表に一般化し、弦理論の過程における量の進化に関する情報を得るのに、二点測定をせずに利用する。 また、特性関数を用いて、そのような量の初期値と最終値の差の平均を求める。 最後に, その特性関数を用いて, 漁獲量の差についてフィッシャー情報を計算する。

In this letter, we analyze the evolution of physical quantities due to the interaction of strings with background fields. We will obtain the characteristic function for such a string theoretical process. This will be done by generalizing the Ramsey scheme to world-sheet, and using it to obtain the information about the evolution of quantity in a string theoretical process, without making two-point measurements. We will also use the characteristic function to obtain the average of the difference between the initial and final values of such a quantity. Finally, using the characteristic function, we calculate fisher information for the difference of such a quantity.
翻訳日:2023-02-15 09:01:54 公開日:2022-09-11
# 確率摂動理論:レプテーション量子モンテカルロの前駆体

Stochastic perturbation theory: a prequel to Reptation Quantum Monte Carlo ( http://arxiv.org/abs/2209.02799v2 )

ライセンス: Link先を確認
Stefano Baroni(参考訳) ラプラス変換と多項式理論に基づいて、レイリー=シュル=オディンガー摂動論に対する異なるアプローチを示し、量子系の非退化基底状態のエネルギーの摂動拡大に対する反復式を与え、これは記号計算に容易に寄与する。 様々な摂動補正の確率的解釈は、レプテーション量子モンテカルロと同値であり、実際には90年代後半にその発展の原動力となった再推定スキームを自然に導く。

I present a different approach to Rayleigh-Schr\"odinger perturbation theory, based on Laplace transforms and polynomial theory, yielding an iterative expression for the perturbative expansion of the energy of the non-degenerate ground state of a quantum system, which easily lends itself to symbolic computation. A stochastic interpretation of the various perturbative corrections naturally leads to a re-summation scheme that is equivalent to Reptation Quantum Monte Carlo and that actually provided the original motivation to its development in the late nineties.
翻訳日:2023-01-27 18:13:01 公開日:2022-09-11
# 位相対象のためのユニバーサル量子電子顕微鏡 -ハードウェア設計と応用の可能性-

A Universal Quantum Electron Microscope for Phase Objects: Hardware Designs and Possible Applications ( http://arxiv.org/abs/2209.04819v1 )

ライセンス: Link先を確認
Hiroshi Okamoto(参考訳) 我々は、試料が位相対象であれば、任意の多画素量子演算を行うことができる量子電子顕微鏡の簡単な設計を示す。 設計は、ビーム感受性試料の量子エンハンス測定を目的としている。 そのような顕微鏡の応用としては、Groverが候補構造から構造を探索することがある。

We present simple designs of a quantum electron microscope that is capable of performing any multi-pixel quantum operations, provided that the specimen is a phase object. The designs are intended for quantum-enhanced measurement of beam-sensitive specimens. A possible application of such a microscope is the Grover search for a structure, out of a set of candidate structures.
翻訳日:2023-01-27 00:43:01 公開日:2022-09-11
# 幾何学的位相とその応用:位相位相、量子ウォークおよび非慣性量子系

Geometric phase and its applications: topological phases, quantum walks and non-inertial quantum systems ( http://arxiv.org/abs/2209.04810v1 )

ライセンス: Link先を確認
Vikash Mittal(参考訳) 幾何学的位相は量子論において基本的な役割を担っており、アハラノフ・ボーム効果、整数および分数量子ホール効果、および位相的絶縁体を含む物質の位相的位相相から数点まで幅広い現象が説明されている。 本論文では,幾何学的位相を理解する上で重要な要素である測地線とヌル位相曲線の新しい視点を提案する。 また,位相相,量子ウォーク,非慣性量子系における幾何位相の応用についても検討した。 与えられた曲面上の任意の2点の間の最短曲線は(最小)測地線である。 それらはまた、系がいかなる幾何学的位相も獲得しない曲線でもある。 同じ文脈で、測地線を一般化して、ヌル位相曲線(null phase curves, npcs)として知られるより大きな曲線のクラスを定義することができる。 我々はBloch球面上の測地学とヌル位相曲線の幾何学的分解を提案し、これは状態空間の幾何学と測地学とNPCの固有対称性の理解を改善するのに不可欠である。 また,外部(ロッキー)環境下での量子ウォークにおける位相位相の持続性についても検討した。 1次元と2次元の量子ウォークにおける位相秩序は、中間損失に対して持続することを示す。 さらに, この幾何学的位相を用いて, 空洞内に配置された円形回転する2層原子が知覚する場相関器の非慣性修飾を検出する。

Geometric phase plays a fundamental role in quantum theory and accounts for wide phenomena ranging from the Aharanov-Bohm effect, the integer and fractional quantum hall effects, and topological phases of matter, including topological insulators, to name a few. In this thesis, we have proposed a fresh perspective of geodesics and null phase curves, which are key ingredients in understanding the geometric phase. We have also looked at a number of applications of geometric phases in topological phases, quantum walks, and non-inertial quantum systems. The shortest curve between any two points on a given surface is a (minimal) geodesic. They are also the curves along which a system does not acquire any geometric phase. In the same context, we can generalize geodesics to define a larger class of curves, known as null phase curves (NPCs), along which also the acquired geometric phase is zero; however, they need not be the shortest curves between the two points. We have proposed a geometrical decomposition of geodesics and null phase curves on the Bloch sphere, which is crucial in improving our understanding of the geometry of the state space and the intrinsic symmetries of geodesics and NPCs. We have also investigated the persistence of topological phases in quantum walks in the presence of an external (lossy) environment. We show that the topological order in one and two-dimensional quantum walks persist against moderate losses. Further, we use the geometric phase to detect the non-inertial modifications to the field correlators perceived by a circularly rotating two-level atom placed inside a cavity.
翻訳日:2023-01-27 00:42:55 公開日:2022-09-11
# 二成分制御単元ゲートのシュミット級の合成と上界

Synthesis and upper bound of Schmidt rank of the bipartite controlled-unitary gates ( http://arxiv.org/abs/2209.04799v1 )

ライセンス: Link先を確認
Gui-Long Jiang, Hai-Rui Wei, Guo-Zhu Song, and Ming Hua(参考訳) 量子回路モデルは、複雑な量子計算を実装するための最も一般的なパラダイムである。 カルタン分解(英語版)に基づいて、2(n-1)$ 一般化制御-$x$ (gcx) ゲート、$y$-および$z$-axesの1量子ビット回転6ドル、$y$-および$z$ 回転-タイプが定義されている$n+5$ は制御ユニタリゲート $\mathcal{u}_{cu(2\otimes n)} をシミュレートするのに十分であることを示した。 単位ゲート $\mathcal{U}_{cd(M\otimes N)}$ のシナリオでは、$M\geq3$ は局所的に $\mathbb{C}^M\otimes \mathbb{C}^N$, $2M(N-1)$ GCX gates and $2M(N-1)+10$ single-partite $y$- および $z$-rotation-types 上の対角ユニタリと同値である。 また、$\mathcal{u}_{cu(2\otimes n)}$および$\mathcal{u}_{cd(m\otimes n)}$を実装するための量子回路を示す。 さらに、$a$制御を持つ$\mathcal{u}_{cu(2\otimes2)}$ がシュミットランク2であり、他の場合では、対象ユニタリの対角化形式は、特定の単純な積ユニタリ作用素のタイプによって拡張することができる。

Quantum circuit model is the most popular paradigm for implementing complex quantum computation. Based on Cartan decomposition, we show that $2(N-1)$ generalized controlled-$X$ (GCX) gates, $6$ single-qubit rotations about the $y$- and $z$-axes, and $N+5$ single-partite $y$- and $z$-rotation-types which are defined in this paper are sufficient to simulate a controlled-unitary gate $\mathcal{U}_{cu(2\otimes N)}$ with $A$ controlling on $\mathbb{C}^2\otimes \mathbb{C}^N$. In the scenario of the unitary gate $\mathcal{U}_{cd(M\otimes N)}$ with $M\geq3$ that is locally equivalent to a diagonal unitary on $\mathbb{C}^M\otimes \mathbb{C}^N$, $2M(N-1)$ GCX gates and $2M(N-1)+10$ single-partite $y$- and $z$-rotation-types are required to simulate it. The quantum circuit for implementing $\mathcal{U}_{cu(2\otimes N)}$ and $\mathcal{U}_{cd(M\otimes N)}$ are presented. Furthermore, we find $\mathcal{U}_{cu(2\otimes2)}$ with $A$ controlling has Schmidt rank two, and in other cases the diagonalized form of the target unitaries can be expanded in terms of specific simple types of product unitary operators.
翻訳日:2023-01-27 00:42:27 公開日:2022-09-11
# 時空多様体の操作的存在

Operational existence of a spacetime manifold ( http://arxiv.org/abs/2209.04783v1 )

ライセンス: Link先を確認
Nikola Paunkovic and Marko Vojinovic(参考訳) 我々は、空間と時間の概念の客観的現実を確立するための運用方法が存在すると論じる。 具体的には、時空多様体の可観測性を確立する信号として、その存在を前提にしないゲダンケン実験のための理論非依存なプロトコルを提案する。 実験信号は時空の次元と位相に関する情報を含み(現在達成可能な精度を持つ)、その基礎となる微分同相対称性を尊重しながら多様体構造を確立する。 我々はまた、時空がより基本的な概念から現れると主張するためには、物理学の仮理論モデルが満たさなければならない時空の出現の概念に関する適切な基準を紹介し、議論する。

We argue that there exists an operational way to establish the objective reality of the notions of space and time. Specifically, we propose a theory-independent protocol for a gedanken-experiment, whose outcome is a signal establishing the observability of the spacetime manifold, without a priori assuming its existence. The experimental signal contains the information about the dimension and the topology of spacetime (with the currently achievable precision), and establishes its manifold structure, while respecting its underlying diffeomorphism symmetry. We also introduce and discuss appropriate criteria for the concept of emergence of spacetime, which a tentative theoretical model of physics must satisfy in order to claim that spacetime does emerge from some more fundamental concepts.
翻訳日:2023-01-27 00:41:44 公開日:2022-09-11
# 三成分系における真の絡み合いについて

On genuine entanglement for tripartite systems ( http://arxiv.org/abs/2209.04768v1 )

ライセンス: Link先を確認
Hui Zhao, Lin Liu, Zhi-Xi Wang, Naihuan Jing, Jing Li(参考訳) 密度行列の部分的転位と相関テンソルのノルムに基づく三成分系における真の絡み合いについて検討した。 まず, 3部量子状態の真の絡み合いを, 密度行列の部分的転位と組み合わせて検出する解析的基準を導出する。 次に、相関テンソルのノルムを用いて三成分量子状態の真の絡み合いを研究し、ある行列を構築して真の絡み合い基準を得る。 詳細な例では、我々の結果は以前の研究よりも真に三部体の絡み合った状態を検出することができる。

We investigate the genuine entanglement in tripartite systems based on partial transposition and the norm of correlation tensors of the density matrices. We first derive an analytical sufficient criterion to detect genuine entanglement of tripartite qubit quantum states combining with the partial transposition of the density matrices. Then we use the norm of correlation tensors to study genuine entanglement for tripartite qudit quantum states and obtain a genuine entanglement criterion by constructing certain matrices. With detailed examples our results are seen to be able to detect more genuine tripartite entangled states than previous studies.
翻訳日:2023-01-27 00:41:33 公開日:2022-09-11
# ヘルプデスク自動リプライの課題分類

Problem Classification for Tailored Helpdesk Auto-Replies ( http://arxiv.org/abs/2211.07603v1 )

ライセンス: Link先を確認
Reece Nicholls, Ryan Fellows, Steve Battle and Hisham Ihshaish(参考訳) ITヘルプデスクは、ユーザクエリに素早く応答するタスクを担います。 ユーザがクエリが重要なことを確信するために、ヘルプデスクは、クエリが受信されログインされたことを確認して、ユーザに自動的に返信する。 この自動返信には、その日の一般的な問題に対処する汎用の 'boiler-plate' テキストと、関連する情報とリンクが含まれる。 ここで検討されたアプローチは、ユーザの問題に対するオートリプライの内容を調整することで、含まれている情報の関連性を高めることである。 問題分類は、ITヘルプデスク電子メールデータの適切なコーパスでニューラルネットワークをトレーニングすることで達成される。 helpdeskエージェントのフォローアップに代わるものではないが、このシステムは実用的なストップギャップを提供する。

IT helpdesks are charged with the task of responding quickly to user queries. To give the user confidence that their query matters, the helpdesk will auto-reply to the user with confirmation that their query has been received and logged. This auto-reply may include generic `boiler-plate' text that addresses common problems of the day, with relevant information and links. The approach explored here is to tailor the content of the auto-reply to the user's problem, so as to increase the relevance of the information included. Problem classification is achieved by training a neural network on a suitable corpus of IT helpdesk email data. While this is no substitute for follow-up by helpdesk agents, the aim is that this system will provide a practical stop-gap.
翻訳日:2023-01-27 00:37:55 公開日:2022-09-11
# 相対量子エントロピーの低減

Reduced relative quantum entropy ( http://arxiv.org/abs/2209.06118v1 )

ライセンス: Link先を確認
Frank Hansen(参考訳) 減少相対量子エントロピーの概念を導入し、それが凸であることを証明する。 この結果は、リーブとセイリンガーの定理の簡単な証明を与えるために使われる。

We introduce the notion of reduced relative quantum entropy and prove that it is convex. This result is then used to give a simplified proof of a theorem of Lieb and Seiringer.
翻訳日:2023-01-27 00:37:42 公開日:2022-09-11
# 量子コンピューティングデバイス上の一般化量子マスター方程式に基づくオープン量子系力学のシミュレーション

Simulation of open quantum system dynamics based on the generalized quantum master equation on quantum computing devices ( http://arxiv.org/abs/2209.04956v1 )

ライセンス: Link先を確認
Yuchen Wang (1), Ellen Mulvihill (2), Zixuan Hu (1), Ningyi Lyu (2), Saurabh Shivpuje (1), Yudan Liu (3), Micheline B. Soley (2 and 4), Eitan Geva (3), Victor S. Batista (2), and Sabre Kais (1) ((1) Purdue University, (2) Yale University, (3) University of Michigan, Ann Arbor, (4) University of Wisconsin-Madison)(参考訳) オープン量子系の力学、すなわち量子バスに結合された量子系の還元力学のシミュレーションは、現代物理学や化学において中心的な概念である量子レート理論、光応答理論、デコヒーレンス科学の基盤となっている。 一般化量子マスター方程式(GQME)は、オープン量子系の力学をシミュレートするための普遍的な枠組みを提供する。 この枠組みを用いることで、バスに結合された系の状態を記述する還元密度行列、すなわちGQMEを、弱い系-バス結合やマルコビティのような制限的な仮定を使わずに、正式に正確な運動方程式を導出することができる。 このGQME内では、システムの密度行列の時間的変化に対する浴槽の影響は、メモリカーネルスーパーオペレーターによって完全に捕捉される。 本研究では,オープン量子系力学をシミュレーションする汎用GQMEベースの量子アルゴリズムを開発した。 メモリカーネルから入力として始まり、システムの非単位時間進化スーパーオペレーターのためのGQMEを解く。 次に、拡張ヒルベルト空間における非単位時間進化スーパー演算子を、量子回路上で実装可能なユニタリ時間進化スーパー演算子に変換するための拡張手法を用いる。 GQMEベースの量子アルゴリズムは、IBM QASM量子シミュレータとIBM量子コンピュータの実装を含むスピンボソンベンチマークモデルで実証される。

The simulation of open quantum system dynamics, namely the reduced dynamics of a quantum system coupled to a quantum bath, is the cornerstone of quantum rate theory, optical response theory and decoherence science, which are central concepts in modern physics and chemistry. The generalized quantum master equation (GQME) formalism provides a universal framework for simulating the dynamics of open quantum systems. Using this framework allows one to derive a formally exact equation of motion, i.e., the GQME, for the reduced density matrix that describes the state of a system coupled to a bath, without employing commonly made restrictive assumptions such as weak system-bath coupling and Markovity. Within this GQME, the effect of the bath on the time evolution of the system's reduced density matrix is fully captured by a memory kernel superoperator. In this work we develop a general-purpose GQME-based quantum algorithm for simulating open quantum system dynamics. Starting out from the memory kernel as the input, we solve the GQME for the system's non-unitary time evolution superoperator. We then use dilation techniques to convert the non-unitary time evolution superoperator into a unitary time evolution superoperator in an extended Hilbert space, which can be implemented on quantum circuits. The GQME-based quantum algorithm is demonstrated with the spin-boson benchmark model, including implementations on the IBM QASM quantum simulator and IBM quantum computers.
翻訳日:2023-01-27 00:37:39 公開日:2022-09-11
# 数値流体力学のための変分量子アルゴリズム

Variational Quantum Algorithms for Computational Fluid Dynamics ( http://arxiv.org/abs/2209.04915v1 )

ライセンス: Link先を確認
Dieter Jaksch, Peyman Givi, Andrew J. Daley, Thomas Rung(参考訳) 量子コンピューティングは、非常に小さなシステムの物理原理を用いて、従来のスーパーコンピュータでは難解な問題を解決できるコンピューティングプラットフォームを開発する。 必要なハードウェアを構築するだけでなく、最も有望なアプリケーション領域を特定し、対応する量子アルゴリズムを開発することにも課題がある。 中間スケールのノイズ量子コンピュータが利用可能になったことで、エアサイエンスを含む様々な分野にまたがる新しいアルゴリズムの開発が加速している。 変動量子アルゴリズムは、比較的ノイズに耐性があり、数百量子ビットしか持たない量子アドバンテージを達成することを目指しているため、特に有望である。 さらに、自然科学や産業全体で生じる幅広い最適化問題にも適用できる。 航空科学コミュニティの可能性を実証するために, 変分量子アルゴリズムが計算流体力学にどのように活用できるかを考察する。 古典的問題がどのように量子アルゴリズムに変換され、その対数スケーリングと問題サイズについて論じる。 明示的な例として、この手法を1つの空間次元のバーガーズ方程式に適用する。 量子ハードウェアが現在検討されているように進歩し、実世界への影響を達成するために、量子アルゴリズムの開発とアプリケーション固有の専門知識を統合することの重要性を強調している。

Quantum computing uses the physical principles of very small systems to develop computing platforms which can solve problems that are intractable on conventional supercomputers. There are challenges not only in building the required hardware, but also in identifying the most promising application areas and developing the corresponding quantum algorithms. The availability of intermediate-scale noisy quantum computers is now propelling the developments of novel algorithms, with applications across a variety of domains, including in aeroscience. Variational quantum algorithms are particularly promising since they are comparatively noise tolerant and aim to achieve a quantum advantage with only a few hundred qubits. Furthermore, they are applicable to a wide range of optimization problems arising throughout the natural sciences and industry. To demonstrate the possibilities for the aeroscience community, we give a perspective on how variational quantum algorithms can be utilized in computational fluid dynamics. We discuss how classical problems are translated into quantum algorithms and their logarithmic scaling with problem size. As an explicit example we apply this method to Burgers' Equation in one spatial dimension. We argue that a quantum advantage over classical computing methods could be achieved by the end of this decade if quantum hardware progresses as currently envisaged and emphasize the importance of joining up development of quantum algorithms with application-specific expertise to achieve real-world impact.
翻訳日:2023-01-27 00:36:17 公開日:2022-09-11
# 分散機械学習のための通信効率のよい量子アルゴリズム

Communication-efficient Quantum Algorithm for Distributed Machine Learning ( http://arxiv.org/abs/2209.04888v1 )

ライセンス: Link先を確認
Hao Tang, Boning Li, Guoqing Wang, Haowei Xu, Changhao Li, Ariel Barr, Paola Cappellaro, Ju Li(参考訳) リモート検出の需要の増加とトレーニングデータの増大は、コミュニケーション制約下での分散機械学習を重要な問題にしている。 この研究は、データセットが2つのパーティに分散するシナリオにおいて、最小二乗フィッティングとソフトマックス回帰という2つの伝統的な機械学習問題に取り組む通信効率のよい量子アルゴリズムを提供する。 我々の量子アルゴリズムは、通信複雑性が$O(\frac{\log_2(N)}{\epsilon})$で、$N$はデータポイントの数、$\epsilon$はパラメータエラーのバウンドである。 同じ出力タスクを達成する古典的アルゴリズムや他の量子アルゴリズムと比較して、我々のアルゴリズムはデータボリュームのスケーリングにおいて通信上の利点を提供する。 このアルゴリズムの構築ブロックである分散内積とハミング距離の量子加速推定は、分散機械学習における様々なタスクにさらに適用でき、通信を加速することができる。

The growing demands of remote detection and increasing amount of training data make distributed machine learning under communication constraints a critical issue. This work provides a communication-efficient quantum algorithm that tackles two traditional machine learning problems, the least-square fitting and softmax regression problem, in the scenario where the data set is distributed across two parties. Our quantum algorithm finds the model parameters with a communication complexity of $O(\frac{\log_2(N)}{\epsilon})$, where $N$ is the number of data points and $\epsilon$ is the bound on parameter errors. Compared to classical algorithms and other quantum algorithms that achieve the same output task, our algorithm provides a communication advantage in the scaling with the data volume. The building block of our algorithm, the quantum-accelerated estimation of distributed inner product and Hamming distance, could be further applied to various tasks in distributed machine learning to accelerate communication.
翻訳日:2023-01-27 00:35:55 公開日:2022-09-11
# 3.3GbpsSPADに基づく量子乱数発生装置

A 3.3 Gbps SPAD-Based Quantum Random Number Generator ( http://arxiv.org/abs/2209.04868v1 )

ライセンス: Link先を確認
Pouyan Keshavarzian, Karthick Ramu, Duy Tang, Carlos Weill, Francesco Gramuglia, Shyue Seng Tan, Michelle Tng, Louis Lim, Elgin Quek, Denis Mandich, Mario Stip\v{c}evi\'c and Edoardo Charbon(参考訳) 量子乱数生成器(Quantum random number generators)は、現代のセキュリティや暗号化システムなど、様々なアプリケーションで使われる新興技術である。 典型的な方法は、ランダムな文字列を生成するために、エントロピーソースと抽出回路またはビット生成回路を併用する。 統合設計では、エントロピー源、回路抽出および後処理に関するモデリングや分析的な記述はほとんどない。 本研究では,まず量子ランダムフリップフロップ(qrff)の理論を議論し,バイアスと相関関係に現れる回路不完全性の役割を明らかにする。 次に,解析モデルをシミュレーションで検証するためにverilog-amsモデルを開発した。 ランダムフリップフロップの有限非対称遷移に固有のエントロピーの劣化を補償する、qrff回路の新たなトランジスタ実装を提案する。 最後に、QRFF回路の2つの独立配列を含む完全系を55nmバイポーラCMOS-DMOS(BCD)技術ノードで製造、試験し、開発モデルに相似するビット生成統計を実証する。 完全なチップは外部LEDで操作すると3.3Gbpsのデータを生成することができるが、個々のQRFFはシャノンエントロピー境界>0.997を維持しながらランダムデータ毎に25Mbpsを生成することができる。 NIST STSは生成されたビット文字列をベンチマークするために使用され、QRFF回路を完全統合QRNGの優れた候補として検証する。

Quantum random number generators are a burgeoning technology used for a variety of applications, including modern security and encryption systems. Typical methods exploit an entropy source combined with an extraction or bit generation circuit in order to produce a random string. In integrated designs there is often little modelling or analytical description of the entropy source, circuit extraction and post-processing provided. In this work, we first discuss theory on the quantum random flip-flop (QRFF), which elucidates the role of circuit imperfections that manifest themselves in bias and correlation. Then, a Verilog-AMS model is developed in order to validate the analytical model in simulation. A novel transistor implementation of the QRFF circuit is presented, which enables compensation of the degradation in entropy inherent to the finite non-symmetric transitions of the random flip-flop. Finally, a full system containing two independent arrays of the QRFF circuit is manufactured and tested in a 55 nm Bipolar-CMOS-DMOS (BCD) technology node, demonstrating bit generation statistics that are commensurate to the developed model. The full chip is able to generate 3.3 Gbps of data when operated with an external LED, whereas an individual QRFF can generate 25 Mbps each of random data while maintaining a Shannon entropy bound > 0.997, which is one of the highest per pixel bit generation rates to date. NIST STS is used to benchmark the generated bit strings, thereby validating the QRFF circuit as an excellent candidate for fully-integrated QRNGs.
翻訳日:2023-01-27 00:35:37 公開日:2022-09-11
# 量子コンピュータを使ってソフトウェアの動的テストのスピードアップ

Using Quantum Computers to Speed Up Dynamic Testing of Software ( http://arxiv.org/abs/2209.04860v1 )

ライセンス: Link先を確認
Andriy Miranskyy(参考訳) テスト中のソフトウェアは、実行中の動的に解析して欠陥を見つけることができる。 しかし、入力パラメータの数と可能な値が増えるにつれて、動的テストのコストが増加する。 本稿では,量子コンピュータ(qcs)が古典的コンピュータ(ccs)のためのプログラムの動的テストの高速化に寄与するかどうかを検討する。 これを実現するために、(1)古典プログラムを量子プログラムに変換する、(2)量子カウントアルゴリズムを用いて$k$で表されるエラーを引き起こす入力数を計算する、(3)グローバーの探索アルゴリズムを用いてこれらの入力の実際の値を取得する、という3つのステップを考案する。 このアプローチは、徹底的で非実施的な動的テスト技術を加速することができる。 ccでは、これらの技術の計算複雑性は$o(n)$であり、ここで$n$はテスト対象のソフトウェアに渡される入力パラメータ値の組み合わせの数を表す。 対照的に、qc では、複雑性は $o(\varepsilon^{-1} \sqrt{n/k})$ であり、ここで $\varepsilon$ は$k$ の相対誤差である。 本稿は、このアプローチの適用方法を説明し、その制限について論じる。 さらに、シミュレータ上で実行されるおもちゃの例と実際のqcを提供する。 本論文は,ccコードの動的テストにおけるqcの利用を探求するための出発点として,学術者や実践者にとって関心を寄せるものである。

Software under test can be analyzed dynamically, while it is being executed, to find defects. However, as the number and possible values of input parameters increase, the cost of dynamic testing rises. This paper examines whether quantum computers (QCs) can help speed up the dynamic testing of programs written for classical computers (CCs). To accomplish this, an approach is devised involving the following three steps: (1) converting a classical program to a quantum program; (2) computing the number of inputs causing errors, denoted by $K$, using a quantum counting algorithm; and (3) obtaining the actual values of these inputs using Grover's search algorithm. This approach can accelerate exhaustive and non-exhaustive dynamic testing techniques. On the CC, the computational complexity of these techniques is $O(N)$, where $N$ represents the count of combinations of input parameter values passed to the software under test. In contrast, on the QC, the complexity is $O(\varepsilon^{-1} \sqrt{N/K})$, where $\varepsilon$ is a relative error of measuring $K$. The paper illustrates how the approach can be applied and discusses its limitations. Moreover, it provides a toy example executed on a simulator and an actual QC. This paper may be of interest to academics and practitioners as the approach presented in the paper may serve as a starting point for exploring the use of QC for dynamic testing of CC code.
翻訳日:2023-01-27 00:35:11 公開日:2022-09-11
# 量子回路アーキテクチャのための光アドレス可能な分子ネットワークの青写真

Blueprint of optically addressable molecular network for quantum circuit architecture ( http://arxiv.org/abs/2209.04835v1 )

ライセンス: Link先を確認
Jiawei Chang, Tianhong Huang, Lin Ma, Taoyu Zou, Wei Wu, and Hai Wang(参考訳) 有機分子は量子計算の理想的な基盤となる。 量子回路を構築するためには、量子ビット(量子ビット)と量子ゲート演算の両方を最適に制御する必要がある。 ここでは,有機ラジカル (qubit) と光誘起三重項 (spin coupler) の交換相互作用を計算し, スピンダイナミクスシミュレーションを現実の量子システム構成で計算する。 計算の結果,三重項の媒介による交換相互作用とラジカルスピンの絡み合いが示唆され,量子計算に分子を用いる大きな可能性が示唆された。 量子回路の実現のために分子ネットワークとプログラム可能な光ナノデバイスに依存した量子プロセッサの青写真である。 この研究は、高温での量子情報処理のための2d分子ネットワークを探索するための新しい方向を開く。

Organic molecules could be ideal platform for quantum computation. To build a quantum circuit, we need to have the optimal control on both the quantum bit (qubit) and the quantum gate operations. Here we compute the exchange interaction between organic radical (qubit) and optically induced triplet (spin coupler), and spin dynamics simulations with a realistic open quantum system setup. Our calculations suggest a much-enhanced exchange interaction and entangled radical spins due to mediating triplet, which implies the great potential of using molecules for quantum computation. Our calculations are also in a good agreement with the previous experimental and simulation works, thus laying a solid foundation for our proposal - a quantum processor blueprint that relies on molecular network and programable optical nano-device for the realisation of quantum circuits. This work will open up a new direction to explore the 2D molecular networks for the quantum information processing at high temperature.
翻訳日:2023-01-27 00:34:43 公開日:2022-09-11
# LIAAD:大規模年齢不変顔認証のための軽量注意角蒸留法

LIAAD: Lightweight Attentive Angular Distillation for Large-scale Age-Invariant Face Recognition ( http://arxiv.org/abs/2004.05085v2 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, Kha Gia Quach, Ngan Le, Tien D. Bui, Khoa Luu(参考訳) ディスタングル表現は、年齢変化型顔認識(aifr)タスクに一般的に採用されている。 しかし,これらの手法は,(1)年齢ラベルによる大規模顔認証(FR)訓練データの要件,(2)高パフォーマンスのための大規模ネットワークアーキテクチャ,(3)信頼性を保証するために標準的な大規模FRデータベースを無視しながら,年齢関係の顔データベース上で実施されることが多いため,いくつかの制限に到達している。 この研究は、これらの制限を克服する大規模軽量AiFRに対する、新しい軽量注意角蒸留(LIAAD)アプローチを示す。 専門知識の異なる教師として2つの高性能重ネットワークが与えられた場合、RIAADは、年齢不変の注意と角度の知識をこれらの教師から効率的に抽出する学習パラダイムを導入し、FR精度が高く、年齢要因に対して堅牢である。 その結果、IAADアプローチは、年齢ラベルのない両方のFRデータセットの利点を生かして、AiFRモデルをトレーニングすることができる。 閉集合問題の精度と圧縮率に着目した従来の蒸留法とは違い, LIAADは大規模顔認証というオープンセットの問題を解決することを目的としている。 LFW, IJB-B, IJB-C Janus, AgeDB, MegaFace-FGNetを100万個の分散器を用いて評価した結果, 軽量構造に対する提案手法の有効性が示された。 また, 今後, 顔の年齢に関するさらなる研究のために, 縦型顔の老化 (logiface) データベース \footnote{this database will be available} も提案する。

Disentangled representations have been commonly adopted to Age-invariant Face Recognition (AiFR) tasks. However, these methods have reached some limitations with (1) the requirement of large-scale face recognition (FR) training data with age labels, which is limited in practice; (2) heavy deep network architectures for high performance; and (3) their evaluations are usually taken place on age-related face databases while neglecting the standard large-scale FR databases to guarantee robustness. This work presents a novel Lightweight Attentive Angular Distillation (LIAAD) approach to Large-scale Lightweight AiFR that overcomes these limitations. Given two high-performance heavy networks as teachers with different specialized knowledge, LIAAD introduces a learning paradigm to efficiently distill the age-invariant attentive and angular knowledge from those teachers to a lightweight student network making it more powerful with higher FR accuracy and robust against age factor. Consequently, LIAAD approach is able to take the advantages of both FR datasets with and without age labels to train an AiFR model. Far apart from prior distillation methods mainly focusing on accuracy and compression ratios in closed-set problems, our LIAAD aims to solve the open-set problem, i.e. large-scale face recognition. Evaluations on LFW, IJB-B and IJB-C Janus, AgeDB and MegaFace-FGNet with one million distractors have demonstrated the efficiency of the proposed approach on light-weight structure. This work also presents a new longitudinal face aging (LogiFace) database \footnote{This database will be made available} for further studies in age-related facial problems in future.
翻訳日:2022-12-15 03:12:48 公開日:2022-09-11
# サドルポイント問題の勾配なし解法

Gradient-Free Methods for Saddle-Point Problem ( http://arxiv.org/abs/2005.05913v4 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Abdurakhmon Sadiev, Alexander Gasnikov(参考訳) 本稿ではガスニコフらのアプローチを一般化する。 2017年、不正確な勾配のないオラクルで凸最適化問題を凸凹点問題に解けるようになった。 提案されたアプローチは,少なくとも既存の最善のアプローチと同じように動作する。 しかし、特別なセットアップ(1ノルムと2ノルムにおけるリプシッツ定数の複素型制約と閉性)に対して、我々のアプローチは要求されるオラクル呼び出しの数(関数計算)の2倍の$を下げる。 本手法は有限差分による勾配の確率近似を用いる。 この場合、関数は最適化セット自身に限らず、特定の近傍で指定されなければならない。 論文の後半では、そのような仮定ができない場合を分析し、この問題を解決する方法の近代化方法に関する一般的なアプローチを提案し、また、いくつかの古典的集合の特定のケースに本手法を適用する。

In the paper, we generalize the approach Gasnikov et. al, 2017, which allows to solve (stochastic) convex optimization problems with an inexact gradient-free oracle, to the convex-concave saddle-point problem. The proposed approach works, at least, like the best existing approaches. But for a special set-up (simplex type constraints and closeness of Lipschitz constants in 1 and 2 norms) our approach reduces $\frac{n}{\log n}$ times the required number of oracle calls (function calculations). Our method uses a stochastic approximation of the gradient via finite differences. In this case, the function must be specified not only on the optimization set itself, but in a certain neighbourhood of it. In the second part of the paper, we analyze the case when such an assumption cannot be made, we propose a general approach on how to modernize the method to solve this problem, and also we apply this approach to particular cases of some classical sets.
翻訳日:2022-12-03 19:53:19 公開日:2022-09-11
# ネットワーク機能学習のためのサンプリング

Sampling for network function learning ( http://arxiv.org/abs/2209.07342v1 )

ライセンス: Link先を確認
Li-Chun Zhang(参考訳) グラフのノードとエッジが1つまたは複数の値に関連付けられた値グラフが与えられると、あるノードに対する任意のネットワーク関数は、そのノードとそのグラフ内の連結ノードによって定義されなければならない。 一般に、グラフ全体やその任意の部分グラフに同じ定義を適用すると、系統的に異なるネットワーク機能が発生する。 本稿では,ネットワーク機能学習におけるグラフサンプリング手法の実現可能性と,サンプルグラフに基づく対応する学習手法について検討する。 これは、エッジが未知である場合や、グラフが完全に処理するには大きすぎる場合(あるいは動的である場合)に有用である。

Given a valued graph, where both the nodes and the edges of the graph are associated with one or several values, any network function for a given node must be defined in terms of that node and its connected nodes in the graph. Generally, applying the same definition to the whole graph or any given subgraph of it would result in systematically different network functions. In this paper we consider the feasibility of graph sampling approach to network function learning, as well as the corresponding learning methods based on the sample graphs. This can be useful either when the edges are unknown to start with or the graph is too large (or dynamic) to be processed entirely.
翻訳日:2022-09-16 13:39:54 公開日:2022-09-11
# Twitter Sentiment Predictionによる科学研究への公衆の反応

Public Reaction to Scientific Research via Twitter Sentiment Prediction ( http://arxiv.org/abs/2209.07333v1 )

ライセンス: Link先を確認
Murtuza Shahzad, Hamed Alhoori(参考訳) ソーシャルメディアユーザーは自分の考え、考え、感情を他のユーザーと共有する。 しかし、オンラインユーザーが新たな研究結果にどう反応するかは明らかではない。 本研究の目的は,Twitter利用者が表現する感情の性質を科学的出版に向けて予測することである。 さらに,このような予測にどのような効果があるのかを考察する。 ソーシャルメディアにおける研究論文の感情の特定は、研究者が研究論文の新たな社会的影響を評価するのに役立つだろう。

Social media users share their ideas, thoughts, and emotions with other users. However, it is not clear how online users would respond to new research outcomes. This study aims to predict the nature of the emotions expressed by Twitter users toward scientific publications. Additionally, we investigate what features of the research articles help in such prediction. Identifying the sentiments of research articles on social media will help scientists gauge a new societal impact of their research articles.
翻訳日:2022-09-16 12:30:17 公開日:2022-09-11
# ベンガル共通音声データセットを用いた音声認識へのwav2vec2の適用

Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset ( http://arxiv.org/abs/2209.06581v1 )

ライセンス: Link先を確認
H.A.Z. Sameen Shahgir, Khondker Salman Sayeed, Tanjeem Azwad Zaman(参考訳) 音声は本質的に連続的であり、個々の単語や音素、その他の単位が明確にセグメント化されていないため、音声認識は数十年にわたって活発な研究課題となっている。 この作業では、Bengaliの音声を認識し、転写するために、wav2vec 2.0を微調整しました。 36919mp3ファイルからなるトレーニングセットで71epochsのトレーニングを行った後,7,747の検証セットで0.3172,wer 0.2524のトレーニング損失を達成した。 5グラムの言語モデルを用いて、レベンシュテイン距離は7,747の試験セットで2.6446であった。 そして、トレーニングセットと検証セットを組み合わせ、シャッフルし、85-15%に分割した。 この組み合わせデータセットでさらに7つのエポックのトレーニングを行い、テストセット上でレベンシュテイン距離を2.60753に改善した。 我々のモデルは、隠れたデータセットで6.234のLevenshtein Distanceを達成し、他の競合する提案よりも1.1049ユニット低いパフォーマンスを示した。

Speech is inherently continuous, where discrete words, phonemes and other units are not clearly segmented, and so speech recognition has been an active research problem for decades. In this work we have fine-tuned wav2vec 2.0 to recognize and transcribe Bengali speech -- training it on the Bengali Common Voice Speech Dataset. After training for 71 epochs, on a training set consisting of 36919 mp3 files, we achieved a training loss of 0.3172 and WER of 0.2524 on a validation set of size 7,747. Using a 5-gram language model, the Levenshtein Distance was 2.6446 on a test set of size 7,747. Then the training set and validation set were combined, shuffled and split into 85-15 ratio. Training for 7 more epochs on this combined dataset yielded an improved Levenshtein Distance of 2.60753 on the test set. Our model was the best performing one, achieving a Levenshtein Distance of 6.234 on a hidden dataset, which was 1.1049 units lower than other competing submissions.
翻訳日:2022-09-15 13:09:10 公開日:2022-09-11
# 企業を産業に割り当てるためのエキスパート知識の爆発:新しい深層学習手法

Exploiting Expert Knowledge for Assigning Firms to Industries: A Novel Deep Learning Method ( http://arxiv.org/abs/2209.05943v1 )

ライセンス: Link先を確認
Xiaohang Zhao, Xiao Fang, Jing He, Lihua Huang(参考訳) 企業を産業分類システム(ICS)に従って産業に割り当てる産業割り当ては、企業による経営や戦略的意思決定から政府機関による経済分析に至るまで、多くの重要なビジネスプラクティスに基礎を置いている。 効果的な産業割当には、定義に基づく知識(各産業の専門的定義)、構造に基づく知識(icで指定された産業間の構造的関係)、割当に基づく知識(すなわち、ドメインの専門家による事前の企業的割当)の3つのタイプの専門的知識が不可欠である。 既存の産業割当手法は、割り当てに基づく知識のみを利用して、未割り当て企業を産業に分類するモデルを学び、定義に基づく構造に基づく知識を見落としている。 さらに、これらの手法は、企業が割り当てられた業界のみを考慮し、割当に基づく知識の時間的特異性、すなわち割当が発生した場合を無視する。 既存の手法の限界に対処するために,産業課題に対する3種類の知識をシームレスに統合するだけでなく,課題に基づく知識の時間的特異性を考慮した新しい深層学習手法を提案する。 提案手法は,動的産業表現と階層配置の2つの革新を特徴とする。 前者は産業を時間固有のベクトルの系列として表現し,提案する時間的・空間的集約機構を通じて3種類の知識を統合する。 後者は、業界と企業の表現をインプットとし、異なる産業に会社を割り当てる確率を計算し、最も高い確率で業界に会社を割り当てる。

Industry assignment, which assigns firms to industries according to a predefined Industry Classification System (ICS), is fundamental to a large number of critical business practices, ranging from operations and strategic decision making by firms to economic analyses by government agencies. Three types of expert knowledge are essential to effective industry assignment: definition-based knowledge (i.e., expert definitions of each industry), structure-based knowledge (i.e., structural relationships among industries as specified in an ICS), and assignment-based knowledge (i.e., prior firm-industry assignments performed by domain experts). Existing industry assignment methods utilize only assignment-based knowledge to learn a model that classifies unassigned firms to industries, and overlook definition-based and structure-based knowledge. Moreover, these methods only consider which industry a firm has been assigned to, but ignore the time-specificity of assignment-based knowledge, i.e., when the assignment occurs. To address the limitations of existing methods, we propose a novel deep learning-based method that not only seamlessly integrates the three types of knowledge for industry assignment but also takes the time-specificity of assignment-based knowledge into account. Methodologically, our method features two innovations: dynamic industry representation and hierarchical assignment. The former represents an industry as a sequence of time-specific vectors by integrating the three types of knowledge through our proposed temporal and spatial aggregation mechanisms. The latter takes industry and firm representations as inputs, computes the probability of assigning a firm to different industries, and assigns the firm to the industry with the highest probability.
翻訳日:2022-09-14 12:23:33 公開日:2022-09-11
# モジュール化と合成による弱畳み込みニューラルネットワークモデル

Patching Weak Convolutional Neural Network Models through Modularization and Composition ( http://arxiv.org/abs/2209.06116v1 )

ライセンス: Link先を確認
Binhang Qi, Hailong Sun, Xiang Gao, Hongyu Zhang(参考訳) 多くのアプリケーションで大きな成功を収めているが、ディープニューラルネットワークは必ずしも堅牢ではない。 例えば、分類タスクのための畳み込みニューロンネットワーク(cnn)モデルは、しばしば特定の種類のオブジェクトの分類において不十分に機能する。 本研究では,CNNモデルの弱い部分を,コストのかかるモデル全体の再トレーニングによって改善するのではなく,パッチを当てることに関心がある。 ソフトウェア工学におけるモジュール化と構成という基本的な概念に触発され、圧縮モジュール化アプローチであるcnnsplitterを提案し、n$-class分類のための強力なcnnモデルをより小さなcnnモジュールに分解する。 各モジュールは、強モデルの畳み込みカーネルの一部を含むサブモデルである。 ターゲットクラス(TC)で不満足に機能する弱いCNNモデルをパッチするために、弱いCNNモデルと強力なCNNモデルから得られる対応するモジュールを合成する。 したがって、弱いCNNモデルのTC認識能力はパッチ適用によって改善される。 さらに、TCと誤分類されたサンプルを非TCと正しく分類できるため、非TCを認識する能力も向上した。 広く使われている3つのデータセットに対する2つの代表的CNNによる実験の結果、TCにおける精度とリコールの平均改善率は12.54%と2.14%である。 さらに、パッチは非TCの精度を1.18%向上させる。 その結果、CNNSplitterはモジュール化と構成により弱いCNNモデルにパッチを当てることができ、ロバストなCNNモデルを開発するための新しいソリューションを提供することが示された。

Despite great success in many applications, deep neural networks are not always robust in practice. For instance, a convolutional neuron network (CNN) model for classification tasks often performs unsatisfactorily in classifying some particular classes of objects. In this work, we are concerned with patching the weak part of a CNN model instead of improving it through the costly retraining of the entire model. Inspired by the fundamental concepts of modularization and composition in software engineering, we propose a compressed modularization approach, CNNSplitter, which decomposes a strong CNN model for $N$-class classification into $N$ smaller CNN modules. Each module is a sub-model containing a part of the convolution kernels of the strong model. To patch a weak CNN model that performs unsatisfactorily on a target class (TC), we compose the weak CNN model with the corresponding module obtained from a strong CNN model. The ability of the weak CNN model to recognize the TC can thus be improved through patching. Moreover, the ability to recognize non-TCs is also improved, as the samples misclassified as TC could be classified as non-TCs correctly. Experimental results with two representative CNNs on three widely-used datasets show that the averaged improvement on the TC in terms of precision and recall are 12.54% and 2.14%, respectively. Moreover, patching improves the accuracy of non-TCs by 1.18%. The results demonstrate that CNNSplitter can patch a weak CNN model through modularization and composition, thus providing a new solution for developing robust CNN models.
翻訳日:2022-09-14 12:22:45 公開日:2022-09-11
# ヒューマンモビリティ予測のための言語基盤モデルの活用

Leveraging Language Foundation Models for Human Mobility Forecasting ( http://arxiv.org/abs/2209.05479v1 )

ライセンス: Link先を確認
Hao Xue, Bhanu Prakash Voutharoj, Flora D. Salim(参考訳) 本稿では,人間の移動予測タスクなどの時間的連続パターンマイニングに言語基盤モデルを活用する新しいパイプラインを提案する。 例えば、poi(place-of-interest)顧客フローを予測するタスクでは、通常、履歴ログから訪問回数を抽出し、訪問者フローを予測する数値データのみを使用する。 本研究では,数値値や文脈意味情報など,あらゆる種類の情報を含む自然言語入力に対して,予測タスクを直接実施する。 数値時間列を文に変換することで、既存の言語モデルを直接適用できるようにする。 我々は,各POIのビジター数を予測するためのAuxMobLCastパイプラインを設計し,補助的なPOIカテゴリ分類タスクとエンコーダ・デコーダアーキテクチャを統合する。 本研究は,AuxMobLCastパイプラインの有効性を実証的に証明し,移動予測タスクにおける逐次パターンの探索を行う。 実世界の3つのデータセットで評価した結果、事前学習された言語基盤モデルもまた、時間的シーケンスを予測する上で優れた性能を示した。 この研究は、視覚的な洞察を与え、人間の移動を予測するための新しい研究の方向性をもたらす可能性がある。

In this paper, we propose a novel pipeline that leverages language foundation models for temporal sequential pattern mining, such as for human mobility forecasting tasks. For example, in the task of predicting Place-of-Interest (POI) customer flows, typically the number of visits is extracted from historical logs, and only the numerical data are used to predict visitor flows. In this research, we perform the forecasting task directly on the natural language input that includes all kinds of information such as numerical values and contextual semantic information. Specific prompts are introduced to transform numerical temporal sequences into sentences so that existing language models can be directly applied. We design an AuxMobLCast pipeline for predicting the number of visitors in each POI, integrating an auxiliary POI category classification task with the encoder-decoder architecture. This research provides empirical evidence of the effectiveness of the proposed AuxMobLCast pipeline to discover sequential patterns in mobility forecasting tasks. The results, evaluated on three real-world datasets, demonstrate that pre-trained language foundation models also have good performance in forecasting temporal sequences. This study could provide visionary insights and lead to new research directions for predicting human mobility.
翻訳日:2022-09-14 12:17:30 公開日:2022-09-11
# 検索空間を特徴付ける特徴の予測性の解析

Analysing the Predictivity of Features to Characterise the Search Space ( http://arxiv.org/abs/2209.06114v1 )

ライセンス: Link先を確認
Rafet Durgut, Mehmet Emin Aydin, Hisham Ihshaish, Abdur Rakib(参考訳) 検索スペースの探索は、何十年にもわたって研究者の興味を惹きつけてきた最も予測できない課題の1つだ。 予測不能を扱う一つの方法は、検索空間を特徴付け、それに応じてアクションを取ることである。 洗練された探索空間は、問題状態が新しい問題状態を生成する演算子の集合にマッピングされるのを助けることができる。 本稿では,ランドスケープ解析に基づく特徴集合を,最も著名な機械学習手法を用いて解析し,最適特徴集合を決定する。 しかし、問題複雑性に対処し、ドメイン間での経験を伝達する共通性を誘導するためには、最も代表的な特徴の選択が不可欠である。 提案手法は,最適な分類を決定するために,特徴集合の予測性を分析する。

Exploring search spaces is one of the most unpredictable challenges that has attracted the interest of researchers for decades. One way to handle unpredictability is to characterise the search spaces and take actions accordingly. A well-characterised search space can assist in mapping the problem states to a set of operators for generating new problem states. In this paper, a landscape analysis-based set of features has been analysed using the most renown machine learning approaches to determine the optimal feature set. However, in order to deal with problem complexity and induce commonality for transferring experience across domains, the selection of the most representative features remains crucial. The proposed approach analyses the predictivity of a set of features in order to determine the best categorization.
翻訳日:2022-09-14 12:06:24 公開日:2022-09-11
# キャリビーティング」:自分のゲームでフォアキャスターに勝つ

"Calibeating": Beating Forecasters at Their Own Game ( http://arxiv.org/abs/2209.04892v1 )

ライセンス: Link先を確認
Dean P. Foster and Sergiu Hart(参考訳) 専門知識を特定するために、予測者はキャリブレーションスコアによってテストされるべきではない。 ブライアスコア(brier score)は、キャリブレーションスコアとリファインメントスコアの合計であり、後者は、同じ予測でビンへのソートがいかに良いかを測定し、したがって「熟練」することを証明する。 このことは、専門知識を失うことなくキャリブレーションを得られるかどうかという問題を引き起こします。 決定論的オンライン手続きによって、あらゆる予測を校正する簡単な方法を提供する。 さらに, キャラブティングは, それ自体をキャラブレーションした確率的手順で行うことができ, 同時に複数のプロシージャをキャラブティングし, 連続的なキャラブレーションを行う決定的プロシージャに拡張できることを示す。

In order to identify expertise, forecasters should not be tested by their calibration score, which can always be made arbitrarily small, but rather by their Brier score. The Brier score is the sum of the calibration score and the refinement score; the latter measures how good the sorting into bins with the same forecast is, and thus attests to "expertise." This raises the question of whether one can gain calibration without losing expertise, which we refer to as "calibeating." We provide an easy way to calibeat any forecast, by a deterministic online procedure. We moreover show that calibeating can be achieved by a stochastic procedure that is itself calibrated, and then extend the results to simultaneously calibeating multiple procedures, and to deterministic procedures that are continuously calibrated.
翻訳日:2022-09-13 14:24:41 公開日:2022-09-11
# 特徴ランダム化による敵対的攻撃伝達性に対する深層学習モデルの構築

Resisting Deep Learning Models Against Adversarial Attack Transferability via Feature Randomization ( http://arxiv.org/abs/2209.04930v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Mohammadreza Mohammadi, Pargol Golmohammadi, Yassine Mekdad, Mauro Conti and Selcuk Uluagac(参考訳) 過去数十年間、人工知能の台頭は、がんの予測や自律的なナビゲーションなど、日々の生活の中で最も困難な問題を解決する能力を与えてきました。 しかし、これらのアプリケーションは敵の攻撃に対して安全でないと信頼性がないかもしれない。 さらに、最近の研究は、いくつかの逆例が異なるモデル間で転送可能であることを示した。 したがって、敵の操作に抵抗する頑健なモデルを通してそのような伝達性を避けることが重要である。 本稿では,テストフェーズにおけるディープラーニングモデルを対象とした8つの敵攻撃に抵抗する特徴ランダム化に基づく手法を提案する。 提案手法は,対象ネットワーク分類器のトレーニング戦略を変更し,ランダム特徴標本を選択することで構成する。 我々は,限定知識と半知識の条件を持つ攻撃者が,最も多い敵攻撃を行うと考えている。 我々は、現実的および合成攻撃を含むよく知られたUNSW-NB15データセットを用いて、我々のアプローチの堅牢性を評価する。 その後、我々の戦略は、特定の敵攻撃に対してネットワークモデルを微調整する最も強力な攻撃など、既存の最先端アプローチよりも優れていることを示す。 最後に,本手法が標的ネットワークを確保でき,敵の攻撃伝達可能性に対して60%以上抵抗できることを示す。

In the past decades, the rise of artificial intelligence has given us the capabilities to solve the most challenging problems in our day-to-day lives, such as cancer prediction and autonomous navigation. However, these applications might not be reliable if not secured against adversarial attacks. In addition, recent works demonstrated that some adversarial examples are transferable across different models. Therefore, it is crucial to avoid such transferability via robust models that resist adversarial manipulations. In this paper, we propose a feature randomization-based approach that resists eight adversarial attacks targeting deep learning models in the testing phase. Our novel approach consists of changing the training strategy in the target network classifier and selecting random feature samples. We consider the attacker with a Limited-Knowledge and Semi-Knowledge conditions to undertake the most prevalent types of adversarial attacks. We evaluate the robustness of our approach using the well-known UNSW-NB15 datasets that include realistic and synthetic attacks. Afterward, we demonstrate that our strategy outperforms the existing state-of-the-art approach, such as the Most Powerful Attack, which consists of fine-tuning the network model against specific adversarial attacks. Finally, our experimental results show that our methodology can secure the target network and resists adversarial attack transferability by over 60%.
翻訳日:2022-09-13 14:24:25 公開日:2022-09-11
# 決定木トラバーサルの再考

Rethink Decision Tree Traversal ( http://arxiv.org/abs/2209.04825v1 )

ライセンス: Link先を確認
Jinxiong Zhang(参考訳) 行列計算の言語における二進決定木(英語版)のトラバーサルの評価方法については、 \cite{lucchese2015quickscorer} における \textit{quickscorer} によって動機づけられる。 我々の主な貢献は、決定木の階層構造を表す新しい行列表現である。 また,厳密な理論的解析に基づく二分決定木トラバースの等価アルゴリズムを提案する。 中心となるアイデアは、入力と終了リーフノードの関係を見つけることである。 ここでは、再帰的なトラバースなしで決定を理解するだけでなく、ツリーベースのメソッドの分割性にも目を向ける。

We will show how to evaluate binary decision tree traversal in the language of matrix computation motivated by \textit{QuickScorer} in \cite{lucchese2015quickscorer}. Our main contribution is a novel matrix representation of the hierarchical structure of the decision tree. And we propose some equivalent algorithms of binary decision tree traversal based on rigorous theoretical analysis. The core idea is to find the relation between the input and exit leaf node. Here we not only understand decisions without the recursive traverse but also dive into the partitioning nature of tree-based methods.
翻訳日:2022-09-13 14:19:06 公開日:2022-09-11
# 微分自由強化学習によるパフォーマンス駆動型コントローラチューニング

Performance-Driven Controller Tuning via Derivative-Free Reinforcement Learning ( http://arxiv.org/abs/2209.04854v1 )

ライセンス: Link先を確認
Yuheng Lei, Jianyu Chen, Shengbo Eben Li, Sifa Zheng(参考訳) 設計したコントローラに適切なパラメータセットを選択することは最終的なパフォーマンスには不可欠であるが、通常は退屈で慎重なチューニングプロセスを必要とする。 しかし、既存の手法では、微分自由度はスケーラビリティの低下や効率の低下に悩まされ、勾配ベースでは微分不可能なコントローラ構造のためにしばしば利用できない。 この問題を解決するために,経験収集中にパラメータ空間の時間的摂動を行い,デリバティブフリーポリシー更新を高度なアクタクリティカルなRLアーキテクチャに統合し,高い汎用性と効率を実現する,新しい微分自由強化学習(RL)フレームワークを用いた制御チューニング問題に取り組む。 この枠組みの有効性を実証するために, 自律運転, pid制御による適応クルーズ制御とmpc制御による軌道追跡の2つの具体例について数値実験を行った。 実験の結果,提案手法は一般的なベースラインを上回っており,コントローラチューニングの強力な可能性を示している。

Choosing an appropriate parameter set for the designed controller is critical for the final performance but usually requires a tedious and careful tuning process, which implies a strong need for automatic tuning methods. However, among existing methods, derivative-free ones suffer from poor scalability or low efficiency, while gradient-based ones are often unavailable due to possibly non-differentiable controller structure. To resolve the issues, we tackle the controller tuning problem using a novel derivative-free reinforcement learning (RL) framework, which performs timestep-wise perturbation in parameter space during experience collection and integrates derivative-free policy updates into the advanced actor-critic RL architecture to achieve high versatility and efficiency. To demonstrate the framework's efficacy, we conduct numerical experiments on two concrete examples from autonomous driving, namely, adaptive cruise control with PID controller and trajectory tracking with MPC controller. Experimental results show that the proposed method outperforms popular baselines and highlight its strong potential for controller tuning.
翻訳日:2022-09-13 14:18:57 公開日:2022-09-11
# 準二次クロネッカー回帰とテンソル分解への応用

Subquadratic Kronecker Regression with Applications to Tensor Decomposition ( http://arxiv.org/abs/2209.04876v1 )

ライセンス: Link先を確認
Matthew Fahrbach, Thomas Fu, Mehrdad Ghadiri(参考訳) クロネッカー回帰 (kronecker regression) は、高度に構造化された最小二乗問題 $\min_{\mathbf{x}} \lvert \mathbf{k}\mathbf{x} - \mathbf{b} \rvert_{2}^2}\, ここで設計行列 $\mathbf{k} = \mathbf{a}^{(1)} \otimes \cdots \otimes \mathbf{a}^{(n)}$ は因子行列のクロネッカー積である。 この回帰問題は、テンソルのタッカー分解を計算するために広く使用される交代最小二乗アルゴリズム(ALS)の各ステップで生じる。 我々は、Kronecker回帰を1+\varepsilon)$-approximationに解くための最初の準四進時間アルゴリズムを、実行時の指数項$O(\varepsilon^{-N})$を避けるために提示する。 スコアサンプリングと反復的手法を併用した手法である。 1ブロックがKronecker積であるブロック設計行列にアプローチを拡張することにより、(1)Kroneckerのリッジ回帰と(2)純粋なKronecker回帰問題ではないALSにおけるTucker分解の係数行列の更新のためのサブクワッドラティック時間アルゴリズムを実現し、Tucker ALSの全ステップの実行時間を改善する。 本研究では,合成データと実世界画像テンソルを用いて,このクロネッカー回帰アルゴリズムの速度と精度を示す。

Kronecker regression is a highly-structured least squares problem $\min_{\mathbf{x}} \lVert \mathbf{K}\mathbf{x} - \mathbf{b} \rVert_{2}^2$, where the design matrix $\mathbf{K} = \mathbf{A}^{(1)} \otimes \cdots \otimes \mathbf{A}^{(N)}$ is a Kronecker product of factor matrices. This regression problem arises in each step of the widely-used alternating least squares (ALS) algorithm for computing the Tucker decomposition of a tensor. We present the first subquadratic-time algorithm for solving Kronecker regression to a $(1+\varepsilon)$-approximation that avoids the exponential term $O(\varepsilon^{-N})$ in the running time. Our techniques combine leverage score sampling and iterative methods. By extending our approach to block-design matrices where one block is a Kronecker product, we also achieve subquadratic-time algorithms for (1) Kronecker ridge regression and (2) updating the factor matrix of a Tucker decomposition in ALS, which is not a pure Kronecker regression problem, thereby improving the running time of all steps of Tucker ALS. We demonstrate the speed and accuracy of this Kronecker regression algorithm on synthetic data and real-world image tensors.
翻訳日:2022-09-13 14:18:37 公開日:2022-09-11
# ウェアラブルのデータセットからADLとフォールを予測:パイロット研究

Analyzing Wearables Dataset to Predict ADLs and Falls: A Pilot Study ( http://arxiv.org/abs/2209.04785v1 )

ライセンス: Link先を確認
Rajbinder Kaur, Rohini Sharma(参考訳) 医療は人間生活の重要な側面である。 医療における技術の利用は、パンデミック後に多様体を増やした。 文学で提案されたモノのインターネットベースのシステムとデバイスは、高齢者、子供、成人が健康問題に直面したり経験したりするのに役立つ。 本稿では,日常生活と転倒の活動を認識できるシステムを評価するために使用できる,ウェアラブルベースデータセット39点について概説する。 5つの機械学習手法、すなわちロジスティック回帰、線形判別分析、k-ネアレスト近傍、決定木、ナイーブベイズを用いたシスフォールデータセットの比較分析をpythonで行った。 データセットは2つの方法で変更され、最初はデータセットに存在するすべての属性が、バイナリ形式でラベル付けされて使用される。 次に、3つのセンサ値に対する3つの軸(x,y,z)の大きさを計算し、ラベル属性の実験に使用する。 実験は1つの被験者、10つの被験者と全ての被験者で行われ、精度、精度、リコールの点で比較される。 本研究から得られた結果は,KNNが他の機械学習手法よりも精度,精度,リコールの点で優れていることを証明している。 また,データのパーソナライズが精度を向上させると結論づけた。

Healthcare is an important aspect of human life. Use of technologies in healthcare has increased manifolds after the pandemic. Internet of Things based systems and devices proposed in literature can help elders, children and adults facing/experiencing health problems. This paper exhaustively reviews thirty-nine wearable based datasets which can be used for evaluating the system to recognize Activities of Daily Living and Falls. A comparative analysis on the SisFall dataset using five machine learning methods i.e., Logistic Regression, Linear Discriminant Analysis, K-Nearest Neighbor, Decision Tree and Naive Bayes is performed in python. The dataset is modified in two ways, in first all the attributes present in dataset are used as it is and labelled in binary form. In second, magnitude of three axes(x,y,z) for three sensors value are computed and then used in experiment with label attribute. The experiments are performed on one subject, ten subjects and all the subjects and compared in terms of accuracy, precision and recall. The results obtained from this study proves that KNN outperforms other machine learning methods in terms of accuracy, precision and recall. It is also concluded that personalization of data improves accuracy.
翻訳日:2022-09-13 14:09:43 公開日:2022-09-11
# ユーザ認証に向けたWAY EEG GALデータセットの特異性と永続性の検討

Examining Uniqueness and Permanence of the WAY EEG GAL dataset toward User Authentication ( http://arxiv.org/abs/2209.04802v1 )

ライセンス: Link先を確認
Aratrika Ray-Dowling(参考訳) 本研究では、WAY EEG GAL公開データセットからの脳波データの識別能力(特異性)を評価し、その永続性だけでなく個人を認証する。 EEGデータに加えて、Lucewらは、EMG(Electromyography)とキネマティクスデータを提供し、エンジニアや研究者がWAY EEG GALを使用してさらなる研究を行う。 しかし,emgおよび運動学データの評価は本研究の範囲外である。 最先端技術の目標は、脳波データを補綴器の制御に利用できるかどうかを判断することである。 一方,本研究では,脳波データを用いて個人の分離性を評価し,ユーザ認証を行う。 特徴重要度アルゴリズムを用いて、各ユーザが他のすべての機能に対して認証する最適な特徴を選択する。 この研究のために実装された認証プラットフォームは、機械学習モデル/分類器に基づいている。 最初の試験として、線形判別分析(LDA)とサポートベクトルマシン(SVM)を用いて2つのパイロット実験を行い、EEGデータセットを複数ラベルすることでモデルの学習動向を観察する。 knnをまずユーザ認証の分類器として利用し,約75%の精度を示した。 その後、線形SVMと非線形SVMの両方の性能を改善して分類を行う。 平均精度85.18%と86.92%はそれぞれ線形SVMと非線形SVMを用いて達成されている。 精度に加えて、f1スコアも計算される。 平均F1スコアは87.51%、88.94%が線形SVMと非線形SVMでそれぞれ達成されている。 総合成績以外にも、線形SVMを用いた95.3%の精度(95.3%のF1スコア)、非線形SVMを用いた97.4%の精度(97.3%のF1スコア)のハイパフォーマンスな個人も観察されている。

This study evaluates the discriminating capacity (uniqueness) of the EEG data from the WAY EEG GAL public dataset to authenticate individuals against one another as well as its permanence. In addition to the EEG data, Luciw et al. provide EMG (Electromyography), and kinematics data for engineers and researchers to utilize WAY EEG GAL for further studies. However, evaluating the EMG and kinematics data is outside the scope of this study. The goal of the state-of-the-art is to determine whether EEG data can be utilized to control prosthetic devices. On the other hand, this study aims to evaluate the separability of individuals through EEG data to perform user authentication. A feature importance algorithm is utilized to select the best features for each user to authenticate them against all others. The authentication platform implemented for this study is based on Machine Learning models/classifiers. As an initial test, two pilot studies are performed using Linear Discriminant Analysis (LDA) and Support Vector Machine (SVM) to observe the learning trends of the models by multi-labeling the EEG dataset. Utilizing kNN first as the classifier for user authentication, accuracy around 75% is observed. Thereafter to improve the performance both linear and non-linear SVMs are used to perform classification. The overall average accuracies of 85.18% and 86.92% are achieved using linear and non-linear SVMs respectively. In addition to accuracy, F1 scores are also calculated. The overall average F1 score of 87.51% and 88.94% are achieved for linear and non-linear SVMs respectively. Beyond the overall performance, high performing individuals with 95.3% accuracy (95.3% F1 score) using linear SVM and 97.4% accuracy (97.3% F1 score) using non-linear SVM are also observed.
翻訳日:2022-09-13 14:09:25 公開日:2022-09-11
# ヒューリスティック・フレームワークと動的データ包絡最適化手法を用いた多くの支店を有する銀行の効率評価:実例

Efficiency Evaluation of Banks with Many Branches using a Heuristic Framework and Dynamic Data Envelopment Optimization Approach: A Real Case Study ( http://arxiv.org/abs/2209.04822v1 )

ライセンス: Link先を確認
Vahid Kayvanfar, Hamed Baziyad, Shaya Sheikh, Frank Werner(参考訳) 組織内の組織やブランチの効率を評価することは、マネージャにとって難しい問題です。 評価基準により、組織は内部ユニットをランク付けし、競合相手の位置を特定し、改善と開発のための戦略を実行することができる。 銀行部門の評価に応用された手法の中で,近年,非パラメトリック手法が研究者の注目を集めている。 最も広く使われている非パラメトリック手法の1つは、有望な結果をもたらすデータ包絡分析(DEA)である。 しかし、静的DEAアプローチはモデル内の時間を考慮していない。 そこで本稿では,3年以上にわたるイランの民間銀行の支店の評価にDDEA(Dynamic DEA)法を用いる。 結果は静的DEAと比較される。 枝をランク付けした後、k-means法でクラスタ化する。 最後に、包括的感度分析アプローチを導入して、マネージャが変数の変更について決定し、ひとつのクラスタからより効率的なクラスタにブランチを移行できるようにする。

Evaluating the efficiency of organizations and branches within an organization is a challenging issue for managers. Evaluation criteria allow organizations to rank their internal units, identify their position concerning their competitors, and implement strategies for improvement and development purposes. Among the methods that have been applied in the evaluation of bank branches, non-parametric methods have captured the attention of researchers in recent years. One of the most widely used non-parametric methods is the data envelopment analysis (DEA) which leads to promising results. However, the static DEA approaches do not consider the time in the model. Therefore, this paper uses a dynamic DEA (DDEA) method to evaluate the branches of a private Iranian bank over three years (2017-2019). The results are then compared with static DEA. After ranking the branches, they are clustered using the K-means method. Finally, a comprehensive sensitivity analysis approach is introduced to help the managers to decide about changing variables to shift a branch from one cluster to a more efficient one.
翻訳日:2022-09-13 14:08:56 公開日:2022-09-11
# オンラインリランキングのための改良アルゴリズム

An Improved Algorithm For Online Reranking ( http://arxiv.org/abs/2209.04870v1 )

ライセンス: Link先を確認
Marcin Bienkowski, Marcin Mucha(参考訳) 我々は、アルゴリズムが規則付き$n$要素のリストを維持するオンライン嗜好集約の基本的なモデルについて研究する。 入力は望ましい集合 $r_1, r_2, \dots, r_t, \dots$ のストリームである。 R_t$を見た後、将来の集合の知識がなければ、アルゴリズムは要素を再ランクし(リストの順序を変更する)、リストフロントの少なくとも1つの要素を見つける必要がある。 発生したコストは、リスト更新コスト(隣接するリスト要素のスワップ数)とアクセスコスト(リスト上の$R_t$の最初の要素の配置)の合計である。 このシナリオは、オンラインショップにおける商品の注文のような、ショップ顧客の選好を集約したアプリケーションで自然に発生する。 この問題の理論的基盤はMin-Sum Set Coverとして知られている。 オンラインアルゴリズムALGの静的最適解(単一最適リスト順序付け)に対する性能を主に研究した以前の研究 (Fotakis et al., ICALP 2020, NIPS 2020) とは異なり、本論文では、ベンチマークが証明可能なより強力な最適動的解 OPT (リスト順序付けも変更できる) である、明らかに難しい変種について検討する。 オンラインショップの観点では、ユーザーベース全体の嗜好が時間とともに進化することを意味している。 我々は、競争比が$O(r^2)$である計算効率の良いランダム化アルゴリズムを構築し、決定論的な$O(r^4)$-競争性アルゴリズムの存在を証明する。 ここで、$r$は集合の最大濃度$R_t$である。 この問題に対する最善のアルゴリズムは$o(r^{3/2} \cdot \sqrt{n})$-競合であり、$\omega(r)$は任意の決定論的オンラインアルゴリズムのパフォーマンスに対する下限である。

We study a fundamental model of online preference aggregation, where an algorithm maintains an ordered list of $n$ elements. An input is a stream of preferred sets $R_1, R_2, \dots, R_t, \dots$. Upon seeing $R_t$ and without knowledge of any future sets, an algorithm has to rerank elements (change the list ordering), so that at least one element of $R_t$ is found near the list front. The incurred cost is a sum of the list update costs (the number of swaps of neighboring list elements) and access costs (position of the first element of $R_t$ on the list). This scenario occurs naturally in applications such as ordering items in an online shop using aggregated preferences of shop customers. The theoretical underpinning of this problem is known as Min-Sum Set Cover. Unlike previous work (Fotakis et al., ICALP 2020, NIPS 2020) that mostly studied the performance of an online algorithm ALG against the static optimal solution (a single optimal list ordering), in this paper, we study an arguably harder variant where the benchmark is the provably stronger optimal dynamic solution OPT (that may also modify the list ordering). In terms of an online shop, this means that the aggregated preferences of its user base evolve with time. We construct a computationally efficient randomized algorithm whose competitive ratio (ALG-to-OPT cost ratio) is $O(r^2)$ and prove the existence of a deterministic $O(r^4)$-competitive algorithm. Here, $r$ is the maximum cardinality of sets $R_t$. This is the first algorithm whose ratio does not depend on $n$: the previously best algorithm for this problem was $O(r^{3/2} \cdot \sqrt{n})$-competitive and $\Omega(r)$ is a lower bound on the performance of any deterministic online algorithm.
翻訳日:2022-09-13 14:08:39 公開日:2022-09-11
# 自己着脱の計算複雑性について

On The Computational Complexity of Self-Attention ( http://arxiv.org/abs/2209.04881v1 )

ライセンス: Link先を確認
Feyza Duman Keles, Pruthuvi Mahesakya Wijewardena, Chinmay Hegde(参考訳) トランスフォーマーアーキテクチャは多くの最先端のアプリケーションで著しく進歩した。 しかし、現代の変圧器は成功にもかかわらず、時間と空間の複雑さが入力の長さの2乗である自己認識機構に依存している。 サブクワッドラティックランニングタイムを実現するための自己注意機構を高速化するいくつかの手法が提案されているが、これらの研究の大部分は厳密なエラー保証を伴わない。 本研究では,複数のシナリオにおいて自己注意の計算複雑性の低い境界を確立する。 我々は、強指数時間仮説 (seth) が偽でない限り、自己着の時間複雑性は入力長において必ずしも二次的であることを証明する。 この議論は、注意の計算がほとんど、そして様々な注意のメカニズムのために行われる場合でも成り立つ。 下限を補うものとして, 多項式次数に指数依存するコストで, 有限テイラー級数を線形時間に使用すれば, ドット生成自己アテンションを近似することが可能であることを示した。

Transformer architectures have led to remarkable progress in many state-of-art applications. However, despite their successes, modern transformers rely on the self-attention mechanism, whose time- and space-complexity is quadratic in the length of the input. Several approaches have been proposed to speed up self-attention mechanisms to achieve sub-quadratic running time; however, the large majority of these works are not accompanied by rigorous error guarantees. In this work, we establish lower bounds on the computational complexity of self-attention in a number of scenarios. We prove that the time complexity of self-attention is necessarily quadratic in the input length, unless the Strong Exponential Time Hypothesis (SETH) is false. This argument holds even if the attention computation is performed only approximately, and for a variety of attention mechanisms. As a complement to our lower bounds, we show that it is indeed possible to approximate dot-product self-attention using finite Taylor series in linear-time, at the cost of having an exponential dependence on the polynomial order.
翻訳日:2022-09-13 14:08:03 公開日:2022-09-11
# 複雑ネットワークを用いたリンク予測のためのグラフ埋め込み手法

A Complex Network based Graph Embedding Method for Link Prediction ( http://arxiv.org/abs/2209.04884v1 )

ライセンス: Link先を確認
Said Kerrache and Hafida Benhidour(参考訳) グラフ埋め込み法は、ノードを低次元ベクトル空間にマッピングすることで有用なグラフ表現を見つけることを目的としている。 これは、リンク予測、グラフ再構成、データの可視化、ノード分類、言語モデリングといった重要な下流アプリケーションに対するタスクである。 近年、グラフ埋め込みの分野は、線形代数的アプローチから、ランダムウォークとディープニューラルネットワークを組み合わせた局所的勾配に基づく最適化手法へと変化し、大きなグラフを埋め込む問題に対処している。 しかし, この最適化ツールの改善にもかかわらず, グラフ埋め込み手法は, 実生活ネットワークの特異性によらず, 汎用的に設計されている。 実際、近年では複雑な実生活ネットワークの理解とモデリングが著しく進歩している。 しかし,得られた結果はグラフ埋め込みアルゴリズムの開発に少なからぬ影響を与えている。 本稿では,近年のネットワーク科学の分野からの価値ある知見を活かしたグラフ埋め込み手法を考案し,この問題を改善することを目的としている。 より正確には、人気相似性とローカルアトラクションパラダイムに基づく新しいグラフ埋め込みアプローチを提案する。 本稿では,多数の実生活ネットワーク上でのリンク予測課題に対する提案手法の性能評価を行う。 実験により,提案手法は最先端のグラフ埋め込みアルゴリズムよりも優れていることを示す。 また,データ不足や埋め込み次元の選択に対するロバスト性も示している。

Graph embedding methods aim at finding useful graph representations by mapping nodes to a low-dimensional vector space. It is a task with important downstream applications, such as link prediction, graph reconstruction, data visualization, node classification, and language modeling. In recent years, the field of graph embedding has witnessed a shift from linear algebraic approaches towards local, gradient-based optimization methods combined with random walks and deep neural networks to tackle the problem of embedding large graphs. However, despite this improvement in the optimization tools, graph embedding methods are still generically designed in a way that is oblivious to the particularities of real-life networks. Indeed, there has been significant progress in understanding and modeling complex real-life networks in recent years. However, the obtained results have had a minor influence on the development of graph embedding algorithms. This paper aims to remedy this by designing a graph embedding method that takes advantage of recent valuable insights from the field of network science. More precisely, we present a novel graph embedding approach based on the popularity-similarity and local attraction paradigms. We evaluate the performance of the proposed approach on the link prediction task on a large number of real-life networks. We show, using extensive experimental analysis, that the proposed method outperforms state-of-the-art graph embedding algorithms. We also demonstrate its robustness to data scarcity and the choice of embedding dimensionality.
翻訳日:2022-09-13 14:07:46 公開日:2022-09-11
# 効率的な近似カーネルに基づくスパイクシーケンス分類

Efficient Approximate Kernel Based Spike Sequence Classification ( http://arxiv.org/abs/2209.04952v1 )

ライセンス: Link先を確認
Sarwan Ali, Bikram Sahoo, Muhammad Asad Khan, Alexander Zelikovsky, Imdad Ullah Khan, Murray Patterson(参考訳) シーケンスの分類やクラスタリングといったタスクのためのSVMのような機械学習(ML)モデルは、シーケンスのペア間の距離/類似性を定義する必要がある。 例えば、$k$-mers(長さ$k$のサブシーケンス)間のマッチング数をカウントする正確なアプローチと、ペアの類似度スコアを推定する近似アプローチである。 厳密な手法はより優れた分類性能をもたらすが、計算コストが高く、少数のシーケンスへの適用性に制限される。 近似アルゴリズムは、よりスケーラブルで、正確な方法と(時には)相性が良いことが証明されている -- 異なる種類のシーケンス(例えば音楽、タンパク質など)を扱う"一般的な"方法で設計されている。 一般適用性はアルゴリズムの望ましい性質であるが、すべてのシナリオにおいてそうではない。 例えば、現在のcovid-19(coonavirus)パンデミックでは、特に新型コロナウイルスに対処できるアプローチが必要である。 そこで本研究では,その予測性能を向上するために,近似カーネルの性能(最小化器と情報ゲインを用いた)を改善するための一連の方法を提案する。 具体的には、ドメイン知識(情報ゲインを用いた計算)と効率的な前処理(最小化処理を用いた)を用いて、近似カーネルの品質を改善し、異なる変種(アルファ、ベータ、ガンマなど)に対応するウイルススパイクタンパク質配列を分類する。 分類とクラスタリングの異なるアルゴリズムを用いて結果を報告し,複数の評価指標を用いてその性能を評価する。 提案手法は,2つのデータセットを用いて,医療領域のベースラインや最先端アプローチと比較してカーネルの性能を向上させる。

Machine learning (ML) models, such as SVM, for tasks like classification and clustering of sequences, require a definition of distance/similarity between pairs of sequences. Several methods have been proposed to compute the similarity between sequences, such as the exact approach that counts the number of matches between $k$-mers (sub-sequences of length $k$) and an approximate approach that estimates pairwise similarity scores. Although exact methods yield better classification performance, they pose high computational costs, limiting their applicability to a small number of sequences. The approximate algorithms are proven to be more scalable and perform comparably to (sometimes better than) the exact methods -- they are designed in a "general" way to deal with different types of sequences (e.g., music, protein, etc.). Although general applicability is a desired property of an algorithm, it is not the case in all scenarios. For example, in the current COVID-19 (coronavirus) pandemic, there is a need for an approach that can deal specifically with the coronavirus. To this end, we propose a series of ways to improve the performance of the approximate kernel (using minimizers and information gain) in order to enhance its predictive performance pm coronavirus sequences. More specifically, we improve the quality of the approximate kernel using domain knowledge (computed using information gain) and efficient preprocessing (using minimizers computation) to classify coronavirus spike protein sequences corresponding to different variants (e.g., Alpha, Beta, Gamma). We report results using different classification and clustering algorithms and evaluate their performance using multiple evaluation metrics. Using two datasets, we show that our proposed method helps improve the kernel's performance compared to the baseline and state-of-the-art approaches in the healthcare domain.
翻訳日:2022-09-13 14:07:25 公開日:2022-09-11
# 合成波長イメージング --高精度飛行時間センシングのためのスペクトル相関を用いた

Synthetic Wavelength Imaging -- Utilizing Spectral Correlations for High-Precision Time-of-Flight Sensing ( http://arxiv.org/abs/2209.04941v1 )

ライセンス: Link先を確認
Florian Willomitzer(参考訳) 本章では,散乱光場のスペクトル相関を高精度な飛行時間センシングに利用する方法を述べる。 この章は穏やかな紹介であり、合成波長イメージングの興味深いトピックを専門とする計算画像科学者や学生に向いている。 技術的な詳細(検出器や光源の仕様など)はほとんど省略される。 代わりに、異なるメソッド間の類似性が強調され、"より大きな図を描きます"。

This book chapter describes how spectral correlations in scattered light fields can be utilized for high-precision time-of-flight sensing. The chapter should serve as a gentle introduction and is intended for computational imaging scientists and students new to the fascinating topic of synthetic wavelength imaging. Technical details (such as detector or light source specifications) will be largely omitted. Instead, the similarities between different methods will be emphasized to "draw the bigger picture."
翻訳日:2022-09-13 13:57:45 公開日:2022-09-11
# ベトナムにおける胸部x線写真における共通胸部疾患の診断法

Learning to diagnose common thorax diseases on chest radiographs from radiology reports in Vietnamese ( http://arxiv.org/abs/2209.04794v1 )

ライセンス: Link先を確認
Thao T.B. Nguyen, Tam M. Vo, Thang V. Nguyen, Hieu H. Pham, Ha Q. Nguyen(参考訳) ベトナムの放射線学報告から情報を抽出し,胸部X線画像の正確なラベルを提供するデータ収集・アノテーションパイプラインを提案する。 これはベトナムの放射線科医や臨床医にとって、国によって異なる固有診断カテゴリーと密接に一致するデータに注釈を付けることで有益である。 提案手法の有効性を評価するため,9,752研究を含むCXRデータセットを構築し,このデータセットのサブセットを用いてパイプラインの評価を行った。 f1-score は少なくとも 0.9923 であり,ラベリングツールがすべてのクラスに対して正確かつ一貫して動作することを示す。 データセットを構築した後、大規模な公開cxrデータセットから転送される知識を活用するディープラーニングモデルをトレーニングします。 我々は、不均衡なマルチラベルデータセットの呪いを克服し、様々なモデルアーキテクチャで実験を行い、最高のパフォーマンスを提供するものを選択するために、様々な損失関数を用いる。 我々の最良のモデル(chexpert-pretrained efficientnet-b2)は、0.6989(95% ci 0.6740, 0.7240)、auc 0.7912、感度 0.7064、特異度 0.8760である。 最後に,我々の粗い分類(異常の5つの特定の位置に基づく)は,一般的な異常検出のためのベンチマークであるchexpertデータセットの詳細な分類 (12の病理) に匹敵する結果をもたらし,すべてのクラスの平均性能で性能が向上することを示す。

We propose a data collecting and annotation pipeline that extracts information from Vietnamese radiology reports to provide accurate labels for chest X-ray (CXR) images. This can benefit Vietnamese radiologists and clinicians by annotating data that closely match their endemic diagnosis categories which may vary from country to country. To assess the efficacy of the proposed labeling technique, we built a CXR dataset containing 9,752 studies and evaluated our pipeline using a subset of this dataset. With an F1-score of at least 0.9923, the evaluation demonstrates that our labeling tool performs precisely and consistently across all classes. After building the dataset, we train deep learning models that leverage knowledge transferred from large public CXR datasets. We employ a variety of loss functions to overcome the curse of imbalanced multi-label datasets and conduct experiments with various model architectures to select the one that delivers the best performance. Our best model (CheXpert-pretrained EfficientNet-B2) yields an F1-score of 0.6989 (95% CI 0.6740, 0.7240), AUC of 0.7912, sensitivity of 0.7064 and specificity of 0.8760 for the abnormal diagnosis in general. Finally, we demonstrate that our coarse classification (based on five specific locations of abnormalities) yields comparable results to fine classification (twelve pathologies) on the benchmark CheXpert dataset for general anomaly detection while delivering better performance in terms of the average performance of all classes.
翻訳日:2022-09-13 13:49:10 公開日:2022-09-11
# ロスレス・ニアロスレス画像圧縮のためのDeep Lossy Plus残像符号化

Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image Compression ( http://arxiv.org/abs/2209.04847v1 )

ライセンス: Link先を確認
Yuanchao Bai, Xianming Liu, Kai Wang, Xiangyang Ji, Xiaolin Wu, Wen Gao(参考訳) ロスレスでロスレスに近い画像圧縮は、医療、リモートセンシング、精密工学、科学研究など、多くの技術分野において、プロのユーザにとって最重要課題である。 しかし、学習ベースの画像圧縮に関する研究が急速に増加しているにもかかわらず、公刊の方法はロスレスモードとロスレスモードの両方を提供していない。 本稿では,ロスレス画像圧縮と近ロスレス画像圧縮の両方のための,統一的で強力なdlp(deep lossy plus residual)符号化フレームワークを提案する。 損失のないモードでは、DLPR符号化システムはまず損失圧縮を行い、残余の損失のない符号化を行う。 本稿では,VAEのアプローチにおける連立損失と残留圧縮の問題を解くとともに,残余の自己回帰的文脈モデリングを加えて無損失圧縮性能を向上させる。 ほぼロスレスモードでは、与えられた$\ell_\infty$エラー境界を満たすために元の残差を量子化し、複数のネットワークをトレーニングする代わりに変数$\ell_\infty$バウンドに対してスケーラブルなニアロスレス圧縮スキームを提案する。 dlpr符号化を高速化するために,符号化コンテキストの新しい設計によりアルゴリズム並列化の度合いを増加させ,エントロピー符号化を適応残差区間で高速化する。 実験の結果,dlpr符号化システムは,最先端のロスレス画像圧縮性能とほぼロスレス画像圧縮性能の両方を達成し,競合する符号化速度を実現した。

Lossless and near-lossless image compression is of paramount importance to professional users in many technical fields, such as medicine, remote sensing, precision engineering and scientific research. But despite rapidly growing research interests in learning-based image compression, no published method offers both lossless and near-lossless modes. In this paper, we propose a unified and powerful deep lossy plus residual (DLPR) coding framework for both lossless and near-lossless image compression. In the lossless mode, the DLPR coding system first performs lossy compression and then lossless coding of residuals. We solve the joint lossy and residual compression problem in the approach of VAEs, and add autoregressive context modeling of the residuals to enhance lossless compression performance. In the near-lossless mode, we quantize the original residuals to satisfy a given $\ell_\infty$ error bound, and propose a scalable near-lossless compression scheme that works for variable $\ell_\infty$ bounds instead of training multiple networks. To expedite the DLPR coding, we increase the degree of algorithm parallelization by a novel design of coding context, and accelerate the entropy coding with adaptive residual interval. Experimental results demonstrate that the DLPR coding system achieves both the state-of-the-art lossless and near-lossless image compression performance with competitive coding speed.
翻訳日:2022-09-13 13:48:43 公開日:2022-09-11
# グラフニューラルネットワークのスパース化に向けて

Towards Sparsification of Graph Neural Networks ( http://arxiv.org/abs/2209.04766v1 )

ライセンス: Link先を確認
Hongwu Peng, Deniz Gurevin, Shaoyi Huang, Tong Geng, Weiwen Jiang, Omer Khan, and Caiwen Ding(参考訳) 現実世界のグラフのサイズが大きくなるにつれて、数十億のパラメータを持つより大きなGNNモデルがデプロイされる。 このようなモデルにおける高いパラメータカウントは、グラフのトレーニングと推論を高価かつ困難にする。 GNNの計算コストとメモリコストを削減するため、入力グラフにおける冗長ノードやエッジのプルーニングなどの最適化手法が広く採用されている。 しかしながら、モデルレイヤのスパース化を直接対象とするモデル圧縮は、画像分類やオブジェクト検出などのタスクに使用される従来のディープニューラルネットワーク(DNN)に限られている。 本稿では,(1)列車とプルーンのモデル圧縮手法と(2)GNNにおける重み付け層のスパース化のためのスパーストレーニングを利用する。 実世界のグラフ上で,両手法の精度,訓練空間性,および FLOP の学習効率を評価し,比較する。 リンク予測のためのia-email,wiki-talk,stackoverflowデータセットでは,はるかに低いトレーニングフロップを用いたスパーストレーニングが,trainおよびprune法と同等の精度で実現されている。 ノード分類のための脳データセットでは、スパーストレーニングはより低い数のFLOP(列車とプルー法の1/7FLOP未満)を使用し、極端なモデル空間下での精度をはるかに向上させる。

As real-world graphs expand in size, larger GNN models with billions of parameters are deployed. High parameter count in such models makes training and inference on graphs expensive and challenging. To reduce the computational and memory costs of GNNs, optimization methods such as pruning the redundant nodes and edges in input graphs have been commonly adopted. However, model compression, which directly targets the sparsification of model layers, has been mostly limited to traditional Deep Neural Networks (DNNs) used for tasks such as image classification and object detection. In this paper, we utilize two state-of-the-art model compression methods (1) train and prune and (2) sparse training for the sparsification of weight layers in GNNs. We evaluate and compare the efficiency of both methods in terms of accuracy, training sparsity, and training FLOPs on real-world graphs. Our experimental results show that on the ia-email, wiki-talk, and stackoverflow datasets for link prediction, sparse training with much lower training FLOPs achieves a comparable accuracy with the train and prune method. On the brain dataset for node classification, sparse training uses a lower number FLOPs (less than 1/7 FLOPs of train and prune method) and preserves a much better accuracy performance under extreme model sparsity.
翻訳日:2022-09-13 13:38:31 公開日:2022-09-11
# 縦断的臨床データ分析のための時間的パターンマイニング : アルツハイマー病の危険因子の同定

Temporal Pattern Mining for Analysis of Longitudinal Clinical Data: Identifying Risk Factors for Alzheimer's Disease ( http://arxiv.org/abs/2209.04793v1 )

ライセンス: Link先を確認
Annette Spooner, Gelareh Mohammadi, Perminder S. Sachdev, Henry Brodaty, Arcot Sowmya(参考訳) 縦型・多変量・異種臨床データのモデリング・解析の複雑なタスクを扱うための新しい枠組みを提案する。 この方法は、時間的抽象化を用いて、データをモデリング、時間的パターンマイニングのためのより適切な形式に変換し、複雑な縦型データとサバイバル解析の機械学習モデルの中からパターンを発見し、発見パターンを選択する。 この方法は、治療法のない進行性神経変性疾患であるアルツハイマー病(AD)の現実世界の研究に適用される。 得られたパターンは、最大0.8の一致指数を持つ生存分析モデルにおけるadの予測であった。 これは、ADのための時間データ収集を用いてADデータの生存分析を行う最初の作業である。 可視化モジュールは、解釈の容易さのために発見されたパターンの明確な図示を提供する。

A novel framework is proposed for handling the complex task of modelling and analysis of longitudinal, multivariate, heterogeneous clinical data. This method uses temporal abstraction to convert the data into a more appropriate form for modelling, temporal pattern mining, to discover patterns in the complex, longitudinal data and machine learning models of survival analysis to select the discovered patterns. The method is applied to a real-world study of Alzheimer's disease (AD), a progressive neurodegenerative disease that has no cure. The patterns discovered were predictive of AD in survival analysis models with a Concordance index of up to 0.8. This is the first work that performs survival analysis of AD data using temporal data collections for AD. A visualisation module also provides a clear picture of the discovered patterns for ease of interpretability.
翻訳日:2022-09-13 13:38:07 公開日:2022-09-11
# 3次元点群における擬似物体認識の連続学習

Continual Learning for Pose-Agnostic Object Recognition in 3D Point Clouds ( http://arxiv.org/abs/2209.04840v1 )

ライセンス: Link先を確認
Xihao Wang, Xian Wei(参考訳) 継続的学習は、複数の新しいタスクを継続的に学習し、学習したタスクのパフォーマンスを一貫したレベルに保つことを目的としている。 しかしながら、継続学習に関する既存の研究は、オブジェクトのポーズが事前に定義され、適切に整合していると仮定している。 本研究は,オブジェクトのポーズが動的かつ予測不能に変化するポーズ非依存の連続学習タスクに焦点をあてる。 過去のアプローチから採用したポイントクラウド拡張は、継続的な学習プロセスのタスクインクリメントとともに大幅に増加するだろう。 この問題を解決するため、ネットワークに余分な事前知識として等分散を注入する。 先行課題の幾何学的等分散情報を効果的に蒸留する新しい連続学習モデルを提案する。 実験により,本手法はいくつかの主流クラウドデータセットにおいて,ポーズに依存しないシナリオを克服することを示す。 さらに,アプローチの各コンポーネントの妥当性を評価するためのアブレーション研究を行っている。

Continual Learning aims to learn multiple incoming new tasks continually, and to keep the performance of learned tasks at a consistent level. However, existing research on continual learning assumes the pose of the object is pre-defined and well-aligned. For practical application, this work focuses on pose-agnostic continual learning tasks, where the object's pose changes dynamically and unpredictably. The point cloud augmentation adopted from past approaches would sharply rise with the task increment in the continual learning process. To address this problem, we inject the equivariance as the additional prior knowledge into the networks. We proposed a novel continual learning model that effectively distillates previous tasks' geometric equivariance information. The experiments show that our method overcomes the challenge of pose-agnostic scenarios in several mainstream point cloud datasets. We further conduct ablation studies to evaluate the validation of each component of our approach.
翻訳日:2022-09-13 13:21:57 公開日:2022-09-11
# OpenMixup: ビジュアル表現学習のためのOpen Mixup ToolboxとBenchmark

OpenMixup: Open Mixup Toolbox and Benchmark for Visual Representation Learning ( http://arxiv.org/abs/2209.04851v1 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Di Wu, and Stan Z. Li(参考訳) コンピュータビジョンにおけるディープニューラルネットワークの顕著な進歩により、トレーニングデータの量制限による一般化の低下を緩和するために、データ混合増強技術が広く研究されている。 しかし、ミックスアップ戦略は現在のビジョンツールボックスではうまく組み立てられていない。 本稿では,教師付き,半教師型,自己教師型視覚表現学習のためのオープンソースのオールインワンツールボックスである「texttt{OpenMixup}」を提案する。 一般的なネットワークアーキテクチャとモジュールの豊富なセット、データ混合拡張メソッドのコレクション、実用的なモデル分析ツールで構成される、統合されたモデル設計とトレーニングプラットフォームを提供する。 さらに,様々なデータセットにおける標準的なミックスアップ画像分類ベンチマークも提供している。 ソースコードとユーザ文書は \url{https://github.com/Westlake-AI/openmixup} で入手できる。

With the remarkable progress of deep neural networks in computer vision, data mixing augmentation techniques are widely studied to alleviate problems of degraded generalization when the amount of training data is limited. However, mixup strategies have not been well assembled in current vision toolboxes. In this paper, we propose \texttt{OpenMixup}, an open-source all-in-one toolbox for supervised, semi-, and self-supervised visual representation learning with mixup. It offers an integrated model design and training platform, comprising a rich set of prevailing network architectures and modules, a collection of data mixing augmentation methods as well as practical model analysis tools. In addition, we also provide standard mixup image classification benchmarks on various datasets, which expedites practitioners to make fair comparisons among state-of-the-art methods under the same settings. The source code and user documents are available at \url{https://github.com/Westlake-AI/openmixup}.
翻訳日:2022-09-13 13:21:42 公開日:2022-09-11
# ロングテール画像認識のための逆画像周波数

Inverse Image Frequency for Long-tailed Image Recognition ( http://arxiv.org/abs/2209.04861v1 )

ライセンス: Link先を確認
Konstantinos Panagiotis Alexandridis and Shan Luo and Anh Nguyen and Jiankang Deng and Stefanos Zafeiriou(参考訳) ロングテール分布は現実世界でよく見られる現象である。 抽出された大規模画像データセットは、不均衡なデータでトレーニングされたロングテール特性とモデルを必然的に示すことで、過剰に表現されたカテゴリに対して高いパフォーマンスを得ることができるが、未表示のカテゴリでは苦労し、偏りのある予測とパフォーマンスの低下をもたらす。 この課題に対処するために,逆画像周波数(IIF)という新しいデバイアス手法を提案する。 IIFは畳み込みニューラルネットワークの分類層におけるロジットの乗法的マージン調整変換である。 提案手法は, 類似作業よりも高い性能を達成し, 特に, 誤検出が少なくなるため, 長い尾のインスタンスセグメンテーションなどの下流タスクに有効である。 我々の広範な実験により、IIFはImageNet-LT、CIFAR-LT、Places-LT、LVISといった多くの長いベンチマークで、ImageNet-LTでResNet50、LVISでMaskRCNNで26.2%のセグメンテーションAPで55.8%の精度に達した。 コードはhttps://github.com/kostas1515/iifで利用可能

The long-tailed distribution is a common phenomenon in the real world. Extracted large scale image datasets inevitably demonstrate the long-tailed property and models trained with imbalanced data can obtain high performance for the over-represented categories, but struggle for the under-represented categories, leading to biased predictions and performance degradation. To address this challenge, we propose a novel de-biasing method named Inverse Image Frequency (IIF). IIF is a multiplicative margin adjustment transformation of the logits in the classification layer of a convolutional neural network. Our method achieves stronger performance than similar works and it is especially useful for downstream tasks such as long-tailed instance segmentation as it produces fewer false positive detections. Our extensive experiments show that IIF surpasses the state of the art on many long-tailed benchmarks such as ImageNet-LT, CIFAR-LT, Places-LT and LVIS, reaching 55.8% top-1 accuracy with ResNet50 on ImageNet-LT and 26.2% segmentation AP with MaskRCNN on LVIS. Code available at https://github.com/kostas1515/iif
翻訳日:2022-09-13 13:21:27 公開日:2022-09-11
# 表情からの感性の自動検出

Automatic Detection of Sentimentality from Facial Expressions ( http://arxiv.org/abs/2209.04908v1 )

ライセンス: Link先を確認
Mina Bishay, Jay Turcot, Graham Page and Mohammad Mavadati(参考訳) 過去20年間、感情認識はコンピュータビジョンコミュニティからかなりの注目を集めてきた。 しかし、研究の大半は6つの基本的な感情(例えば、喜び、怒り、驚き)を分析し、他の情緒的状態に限定した研究であった。 本稿では,感傷性(心温めやノスタルジーの強い感情)に取り組み,文学にはほとんど作品がなく,顔のマーカーを定義する指針もない新しい感情状態について述べる。 この目的のために、まず、感傷広告と非感傷広告を視聴する参加者の4.9kビデオのデータセットを収集し、次に広告の感傷性を誘発する瞬間をラベル付けする。 第2に,広告レベルのラベルと顔行動単位(aus)のアクティベーションを異なるフレームにまたがって使用し,弱いフレームレベルの感情ラベルを定義した。 第3に、感情検出のためにAUsアクティベーションを用いた多層パーセプトロン(MLP)を訓練する。 最後に、モデルの性能を評価するための2つの新しい広告レベルメトリクスを定義します。 定量的・定性的な結果から,感性検出に有望な結果が得られる。 私たちの知る限りでは、これは感情検出の問題に対処する最初の仕事です。

Emotion recognition has received considerable attention from the Computer Vision community in the last 20 years. However, most of the research focused on analyzing the six basic emotions (e.g. joy, anger, surprise), with a limited work directed to other affective states. In this paper, we tackle sentimentality (strong feeling of heartwarming or nostalgia), a new emotional state that has few works in the literature, and no guideline defining its facial markers. To this end, we first collect a dataset of 4.9K videos of participants watching some sentimental and non-sentimental ads, and then we label the moments evoking sentimentality in the ads. Second, we use the ad-level labels and the facial Action Units (AUs) activation across different frames for defining some weak frame-level sentimentality labels. Third, we train a Multilayer Perceptron (MLP) using the AUs activation for sentimentality detection. Finally, we define two new ad-level metrics for evaluating our model performance. Quantitative and qualitative results show promising results for sentimentality detection. To the best of our knowledge this is the first work to address the problem of sentimentality detection.
翻訳日:2022-09-13 13:21:03 公開日:2022-09-11
# 多様性とノベルティマスタ: ユーザカバレッジ向上のための複数のDeepMasterPrintの生成

Diversity and Novelty MasterPrints: Generating Multiple DeepMasterPrints for Increased User Coverage ( http://arxiv.org/abs/2209.04909v1 )

ライセンス: Link先を確認
M Charity, Nasir Memon, Zehua Jiang, Abhi Sen, Julian Togelius(参考訳) この研究は、DeepMasterPrintsによる遺伝指紋スプーフィングのこれまでの進歩を拡張し、Diversity and Novelty MasterPrintsを紹介している。 本システムは、品質多様性進化アルゴリズムを用いて、データセットからユーザの範囲を増やすことに焦点を当て、人工印刷の辞書を生成する。 Diversity MasterPrintsは、以前に見つかったプリントでカバーされていないユーザと一致するソリューションプリントを生成することに重点を置いており、Novety MasterPrintsは、以前のプリントよりもユーザスペースの広いプリントを明示的に検索する。 本手法は,指紋画像の画質を維持しつつ,カバレッジと一般化の両方において特異なDeepMasterPrintよりも優れている。

This work expands on previous advancements in genetic fingerprint spoofing via the DeepMasterPrints and introduces Diversity and Novelty MasterPrints. This system uses quality diversity evolutionary algorithms to generate dictionaries of artificial prints with a focus on increasing coverage of users from the dataset. The Diversity MasterPrints focus on generating solution prints that match with users not covered by previously found prints, and the Novelty MasterPrints explicitly search for prints with more that are farther in user space than previous prints. Our multi-print search methodologies outperform the singular DeepMasterPrints in both coverage and generalization while maintaining quality of the fingerprint image output.
翻訳日:2022-09-13 13:20:46 公開日:2022-09-11
# vec2face-v2: 顔認識における注意に基づくネットワークによるブラックボックス機能から人間の顔を表示する

Vec2Face-v2: Unveil Human Faces from their Blackbox Features via Attention-based Network in Face Recognition ( http://arxiv.org/abs/2209.04920v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, Ngan Le, Marios Savvides, Khoa Luu(参考訳) 本研究では,ブラックボックス顔認識エンジンから抽出した顔特徴表現を与えられた顔再建の問題について検討する。 実際、エンジンから情報を抽象化する限界があるため、実際に非常に難しい問題である。 そこで本研究では, 蒸留フレームワーク (dab-gan) において, 被写体の顔合成のための注意型複射生成逆ネットワークという新しい手法を提案する。 DAB-GANは、被検者の目に見えない顔の特徴を考慮し、高い定義で顔を再構築することができる。 DAB-GAN法は、新しく定義されたBijective Metrics Learningアプローチによる、新しい注意に基づく生成構造を含む。 このフレームワークは、画像再構成タスクに距離計測とメトリック学習プロセスを直接画像領域に適用できるように、単射的メトリックを導入することから始まります。 blackboxの顔認識エンジンからの情報は、グローバル蒸留プロセスを用いて最適に活用される。 そして、注意に基づくジェネレータを高堅牢なジェネレータに提示し、現実的な顔をID保存で合成する。 我々は,CelebA,LFW, AgeDB, CFP-FPといった難易度の高い顔認識データベースについて評価を行い,その現状を継続的に達成した。 DAB-GANの進歩は、画像リアリズムとID保存特性の両方で証明されている。

In this work, we investigate the problem of face reconstruction given a facial feature representation extracted from a blackbox face recognition engine. Indeed, it is very challenging problem in practice due to the limitations of abstracted information from the engine. We therefore introduce a new method named Attention-based Bijective Generative Adversarial Networks in a Distillation framework (DAB-GAN) to synthesize faces of a subject given his/her extracted face recognition features. Given any unconstrained unseen facial features of a subject, the DAB-GAN can reconstruct his/her faces in high definition. The DAB-GAN method includes a novel attention-based generative structure with the new defined Bijective Metrics Learning approach. The framework starts by introducing a bijective metric so that the distance measurement and metric learning process can be directly adopted in image domain for an image reconstruction task. The information from the blackbox face recognition engine will be optimally exploited using the global distillation process. Then an attention-based generator is presented for a highly robust generator to synthesize realistic faces with ID preservation. We have evaluated our method on the challenging face recognition databases, i.e. CelebA, LFW, AgeDB, CFP-FP, and consistently achieved the state-of-the-art results. The advancement of DAB-GAN is also proven on both image realism and ID preservation properties.
翻訳日:2022-09-13 13:20:33 公開日:2022-09-11
# 3次元オドメトリー支援による3次元シーンフローの教師なし学習

Unsupervised Learning of 3D Scene Flow with 3D Odometry Assistance ( http://arxiv.org/abs/2209.04945v1 )

ライセンス: Link先を確認
Guangming Wang, Zhiheng Feng, Chaokang Jiang, Hesheng Wang(参考訳) シーンフローはシーン内の各ポイントの3d動きを表し、各ポイントの動きの距離と方向を明示的に記述する。 シーンフロー推定は、自動運転フィールド、アクティビティ認識、仮想現実フィールドなど、さまざまなアプリケーションで使用されている。 実世界のデータに対してシーンフローに真実を記入することは難しいため、シーンフロー推定に真実を記した大量のデータを提供する実世界のデータセットは残っていない。 そのため、多くの研究が合成データを使ってネットワークと現実世界のLiDARデータを訓練して微調整している。 従来の点雲におけるシーンフローの教師なし学習とは違って,現場フローの教師なし学習を支援し,実世界のLiDARデータを用いてネットワークをトレーニングすることを提案する。 監視オードメトリは、シーンフローのより正確な共有コストボリュームを提供する。 さらに、提案するネットワークには、より正確な予測ポイントクラウドを得るために、マスク重み付きワープ層がある。 ワープ操作手段は、推定ポーズ変換又はシーンフローをソースポイントクラウドに適用して予測ポイントクラウドを得るとともに、シーンフローを粗く微細に精製する鍵となる。 warp操作を行う場合、異なる状態のポイントはポーズ変換とシーンフロー変換のために異なる重みを用いる。 点の状態は静的, 動的, 隠蔽状態として分類し, 静的マスクを用いて静的, 動的ポイントを分割し, 隠蔽マスクを用いて隠蔽点を分割する。 マスク重み付きワープ層は、ワープ操作を行う際に静的マスクとオクルージョンマスクがウェイトとして使用されることを示す。 我々の設計はアブレーション実験に有効であることが証明されている。 実験結果から,実世界データにおける3次元シーンフローの計測支援型教師なし学習法が期待できる可能性を示した。

Scene flow represents the 3D motion of each point in the scene, which explicitly describes the distance and the direction of each point's movement. Scene flow estimation is used in various applications such as autonomous driving fields, activity recognition, and virtual reality fields. As it is challenging to annotate scene flow with ground truth for real-world data, this leaves no real-world dataset available to provide a large amount of data with ground truth for scene flow estimation. Therefore, many works use synthesized data to pre-train their network and real-world LiDAR data to finetune. Unlike the previous unsupervised learning of scene flow in point clouds, we propose to use odometry information to assist the unsupervised learning of scene flow and use real-world LiDAR data to train our network. Supervised odometry provides more accurate shared cost volume for scene flow. In addition, the proposed network has mask-weighted warp layers to get a more accurate predicted point cloud. The warp operation means applying an estimated pose transformation or scene flow to a source point cloud to obtain a predicted point cloud and is the key to refining scene flow from coarse to fine. When performing warp operations, the points in different states use different weights for the pose transformation and scene flow transformation. We classify the states of points as static, dynamic, and occluded, where the static masks are used to divide static and dynamic points, and the occlusion masks are used to divide occluded points. The mask-weighted warp layer indicates that static masks and occlusion masks are used as weights when performing warp operations. Our designs are proved to be effective in ablation experiments. The experiment results show the promising prospect of an odometry-assisted unsupervised learning method for 3D scene flow in real-world data.
翻訳日:2022-09-13 13:20:12 公開日:2022-09-11
# SAR目標認識のための散乱モデル誘導逆例:攻撃と防御

Scattering Model Guided Adversarial Examples for SAR Target Recognition: Attack and Defense ( http://arxiv.org/abs/2209.04779v1 )

ライセンス: Link先を確認
Bowen Peng, Bo Peng, Jie Zhou, Jianyue Xie, and Li Liu(参考訳) ディープニューラルネットワーク(DNN)ベースのSAR(Synthetic Aperture Radar) 自動ターゲット認識(ATR)システムは、意図的に設計されているがほとんど認識できないが、ターゲットオブジェクトに追加された場合のDNN推論に偏りがある敵の摂動に対して非常に脆弱であることが示されている。 これにより、高いSAR ATRアプリケーションにDNNを適用する際の深刻な安全性上の懸念が生じる。 したがって、現代の現実世界SAR ATRシステムにDNNを実装するためには、DNNの対向ロバスト性を高めることが不可欠である。 本稿では、より堅牢なDNNベースのSAR ATRモデルの構築に向けて、SARイメージングプロセスのドメイン知識を探求し、電磁散乱応答(逆散乱散乱器と呼ばれる)の形で対向摂動を生成する新しいSMGAA(Scattering Model Guided Adversarial Attack)アルゴリズムを提案する。 提案されたSMGAAは2つの部分から構成される。 1)パラメトリック散乱モデルとそれに対応する撮像法 2) 最適化アルゴリズムをカスタマイズする。 まず, 実効的散乱中心モデル(ascm)と, sarイメージングプロセスにおける典型的な幾何学的構造の散乱挙動を記述する汎用イメージング手法を提案する。 さらに、SARターゲット画像のドメイン知識を考慮し、欲求探索手順を緩和する戦略を考案することにより、提案手法を巧妙に微調整する必要はないが、効率的なASCMパラメータを見つけることで、SAR分類器を騙し、堅牢なモデルトレーニングを容易にすることができる。 MSTARデータセットの総合的な評価は、SMGAAによって生成された逆散布機は、現在研究されている攻撃よりもSAR処理チェーンの摂動や変換に対して堅牢であり、悪意のある散布機に対する防御モデルを構築するのに有効であることを示している。

Deep Neural Networks (DNNs) based Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) systems have shown to be highly vulnerable to adversarial perturbations that are deliberately designed yet almost imperceptible but can bias DNN inference when added to targeted objects. This leads to serious safety concerns when applying DNNs to high-stake SAR ATR applications. Therefore, enhancing the adversarial robustness of DNNs is essential for implementing DNNs to modern real-world SAR ATR systems. Toward building more robust DNN-based SAR ATR models, this article explores the domain knowledge of SAR imaging process and proposes a novel Scattering Model Guided Adversarial Attack (SMGAA) algorithm which can generate adversarial perturbations in the form of electromagnetic scattering response (called adversarial scatterers). The proposed SMGAA consists of two parts: 1) a parametric scattering model and corresponding imaging method and 2) a customized gradient-based optimization algorithm. First, we introduce the effective Attributed Scattering Center Model (ASCM) and a general imaging method to describe the scattering behavior of typical geometric structures in the SAR imaging process. By further devising several strategies to take the domain knowledge of SAR target images into account and relax the greedy search procedure, the proposed method does not need to be prudentially finetuned, but can efficiently to find the effective ASCM parameters to fool the SAR classifiers and facilitate the robust model training. Comprehensive evaluations on the MSTAR dataset show that the adversarial scatterers generated by SMGAA are more robust to perturbations and transformations in the SAR processing chain than the currently studied attacks, and are effective to construct a defensive model against the malicious scatterers.
翻訳日:2022-09-13 13:14:55 公開日:2022-09-11
# MAiVAR:マルチモーダルオーディオ画像とビデオアクション認識装置

MAiVAR: Multimodal Audio-Image and Video Action Recognizer ( http://arxiv.org/abs/2209.04780v1 )

ライセンス: Link先を確認
Muhammad Bilal Shaikh, Douglas Chai, Syed Mohammed Shamsul Islam and Naveed Akhtar(参考訳) 現在、cnnで処理されるビデオデータにおいて、行動認識が優先的に行われる。 我々は,CNNの表現プロセスが,タスクに画像に基づく行動表現を組み込むことで,マルチモーダルな行動認識にも活用できるかどうかを検討する。 そこで本研究では,cnnによる映像と映像の融合モデルであるマルチモーダル音声画像・映像アクション認識器(maivar)を提案する。 MAiVARは、音声の有意義な画像表現を抽出し、ビデオ表現と融合して、大規模な行動認識データセットにおいて、両方のモーダルティを個別に比較すると、より良いパフォーマンスを達成する。

Currently, action recognition is predominately performed on video data as processed by CNNs. We investigate if the representation process of CNNs can also be leveraged for multimodal action recognition by incorporating image-based audio representations of actions in a task. To this end, we propose Multimodal Audio-Image and Video Action Recognizer (MAiVAR), a CNN-based audio-image to video fusion model that accounts for video and audio modalities to achieve superior action recognition performance. MAiVAR extracts meaningful image representations of audio and fuses it with video representation to achieve better performance as compared to both modalities individually on a large-scale action recognition dataset.
翻訳日:2022-09-13 13:14:19 公開日:2022-09-11
# 近代における複数物体追跡:文献レビュー

Multiple Object Tracking in Recent Times: A Literature Review ( http://arxiv.org/abs/2209.04796v1 )

ライセンス: Link先を確認
Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A.B.M. Ashikur Rahman and Md. Hasanul Kabir(参考訳) 近年、複数の物体追跡が研究者から多くの関心を集めており、特に近年の自動運転技術の進歩に伴い、コンピュータビジョンにおけるトレンドの1つとなっている。 MOTは、混み合ったシーンの閉塞、類似した外観、小さなオブジェクトの検出困難、IDの切り替えなど、さまざまな問題に対する重要な視覚タスクの1つです。 これらの課題に対処するため、研究者らはトランスフォーマーの注意機構、グラフ畳み込みニューラルネットワークとのトラックレットの相互関係、異なるフレーム内のオブジェクトとシアムネットワークとの外観的類似性を活用するために、単純なIOUマッチングベースのCNNネットワーク、LSTMを用いたモーション予測を試みた。 これらの散在する技法を傘の下に置くために,我々は過去3年間に発行された100以上の論文を調査し,近年研究者がより重視した手法を抽出し,motの問題を解決することを試みた。 我々は多くのアプリケーションや可能性、MOTが現実の生活とどのように結びつくのかを列挙してきた。 我々のレビューは、研究者たちが残業に使った様々な手法の視点を示し、潜在的な研究者に将来的な方向性を与えようとしている。 さらに、このレビューには人気のあるベンチマークデータセットとメトリクスが含まれています。

Multiple object tracking gained a lot of interest from researchers in recent years, and it has become one of the trending problems in computer vision, especially with the recent advancement of autonomous driving. MOT is one of the critical vision tasks for different issues like occlusion in crowded scenes, similar appearance, small object detection difficulty, ID switching, etc. To tackle these challenges, as researchers tried to utilize the attention mechanism of transformer, interrelation of tracklets with graph convolutional neural network, appearance similarity of objects in different frames with the siamese network, they also tried simple IOU matching based CNN network, motion prediction with LSTM. To take these scattered techniques under an umbrella, we have studied more than a hundred papers published over the last three years and have tried to extract the techniques that are more focused on by researchers in recent times to solve the problems of MOT. We have enlisted numerous applications, possibilities, and how MOT can be related to real life. Our review has tried to show the different perspectives of techniques that researchers used overtimes and give some future direction for the potential researchers. Moreover, we have included popular benchmark datasets and metrics in this review.
翻訳日:2022-09-13 13:14:06 公開日:2022-09-11
# OAIR: PSOによるオブジェクト認識画像の再ターゲティングと審美的品質評価

OAIR: Object-Aware Image Retargeting Using PSO and Aesthetic Quality Assessment ( http://arxiv.org/abs/2209.04804v1 )

ライセンス: Link先を確認
Mohammad Reza Naderi, Mohammad Hossein Givkashi, Nader Karimi, Shahram Shirani, Shadrokh Samavi(参考訳) 画像再ターゲティングは、重要なコンテンツを保持しながら画像サイズを変え、目に見える歪みを最小化することを目的としている。 しかし、以前の画像再ターゲティング手法は、アーティファクトや歪みに苦しむ出力を生成する。 さらに、以前のほとんどの作業は、入力画像の背景と前景を同時に再ターゲットしようとする。 前景と背景を同時にリサイズすると、オブジェクトのアスペクト比が変化します。 アスペクト比の変化は、特に人間のオブジェクトには望ましくない。 これらの問題を克服する再ターゲティング手法を提案する。 提案手法は以下のステップからなる。 まず、塗装方法は、フォアグラウンドオブジェクトの入力画像とバイナリマスクを使用して、フォアグラウンドオブジェクトなしで背景画像を生成する。 第2に、シーム彫り法は、背景画像を目標サイズにリサイズする。 そして,超解像法により入力画像の品質が向上し,前景オブジェクトを抽出する。 最後に、再ターゲットされた背景と抽出した超解像を粒子群最適化アルゴリズム(PSO)に入力する。 PSOアルゴリズムは、美的品質評価を目的関数として使用し、対象物が背景に配置される最適な位置と大きさを特定する。 画像品質評価と美的品質評価を用いて,画像再ターゲティング技術よりも優れた結果を示した。

Image retargeting aims at altering an image size while preserving important content and minimizing noticeable distortions. However, previous image retargeting methods create outputs that suffer from artifacts and distortions. Besides, most previous works attempt to retarget the background and foreground of the input image simultaneously. Simultaneous resizing of the foreground and background causes changes in the aspect ratios of the objects. The change in the aspect ratio is specifically not desirable for human objects. We propose a retargeting method that overcomes these problems. The proposed approach consists of the following steps. Firstly, an inpainting method uses the input image and the binary mask of foreground objects to produce a background image without any foreground objects. Secondly, the seam carving method resizes the background image to the target size. Then, a super-resolution method increases the input image quality, and we then extract the foreground objects. Finally, the retargeted background and the extracted super-resolued objects are fed into a particle swarm optimization algorithm (PSO). The PSO algorithm uses aesthetic quality assessment as its objective function to identify the best location and size for the objects to be placed in the background. We used image quality assessment and aesthetic quality assessment measures to show our superior results compared to popular image retargeting techniques.
翻訳日:2022-09-13 13:13:45 公開日:2022-09-11
# 語彙と注意に基づく手書き文字認識システム

Lexicon and Attention based Handwritten Text Recognition System ( http://arxiv.org/abs/2209.04817v1 )

ライセンス: Link先を確認
Lalita Kumari, Sukhdeep Singh, VVS Rathore and Anuj Sharma(参考訳) 手書き文字認識問題はコンピュータビジョンコミュニティの研究者によって広く研究されており、その改善範囲と日常生活への適用性から、パターン認識のサブドメインである。 過去数十年からコンピュータの計算能力の進歩により、ニューラルネットワークベースのシステムは最先端の手書き文字認識システムの提供に大きく貢献した。 同じ方向に、我々は最先端の2つのニューラルネットワークシステムを取り、注意機構をそれにマージした。 注意技術は、ニューラルネットワーク翻訳や自動音声認識の領域で広く使われており、現在ではテキスト認識領域で実装されている。 本研究では,iamデータセット上で4.15%の文字誤り率と9.72%の単語誤り率,7.07%の文字誤り率,16.14%の単語誤り率を達成した。 さらに分析するために, グリージーデコーダを用いた Shi et al. ニューラルネットワークシステムと類似したシステムを用いて, 基本モデルから文字誤り率を23.27%改善した。

The handwritten text recognition problem is widely studied by the researchers of computer vision community due to its scope of improvement and applicability to daily lives, It is a sub-domain of pattern recognition. Due to advancement of computational power of computers since last few decades neural networks based systems heavily contributed towards providing the state-of-the-art handwritten text recognizers. In the same direction, we have taken two state-of-the art neural networks systems and merged the attention mechanism with it. The attention technique has been widely used in the domain of neural machine translations and automatic speech recognition and now is being implemented in text recognition domain. In this study, we are able to achieve 4.15% character error rate and 9.72% word error rate on IAM dataset, 7.07% character error rate and 16.14% word error rate on GW dataset after merging the attention and word beam search decoder with existing Flor et al. architecture. To analyse further, we have also used system similar to Shi et al. neural network system with greedy decoder and observed 23.27% improvement in character error rate from the base model.
翻訳日:2022-09-13 13:13:28 公開日:2022-09-11
# 人物再同定のための地域意識グローバルアテンションネットワーク

Local-Aware Global Attention Network for Person Re-Identification ( http://arxiv.org/abs/2209.04821v1 )

ライセンス: Link先を確認
Nathanael L. Baisa(参考訳) 効果的な人物再識別(re-id)には,画像からのロバストかつ判別情報の学習が不可欠である。 本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的特徴学習のための複合的アプローチを提案する。 局所認識型グローバルアテンションネットワーク (LAGA-Net) は,空間的注意のための1つのブランチ,チャネル的注意のための1つのブランチ,グローバルな特徴表現のための1つのブランチ,局所的特徴表現のためのもう1つのブランチからなる多分岐深層ネットワークアーキテクチャである。 注意枝は、無関係な背景を抑えながら、画像の関連する特徴に焦点を当てる。 画素シャッフルと等価なアテンション機構の弱点を克服するため,相対的な位置エンコーディングを空間アテンションモジュールに統合し,画素の空間位置を捉える。 グローバルブランチは、グローバルコンテキストや構造情報の保存を目的としている。 細粒度情報をキャプチャするローカルブランチでは,conv層上に水平にストライプを生成するために,均一なパーティショニングを行う。 画像のパーティショニングやポーズ推定などの外部の手がかりを必要とすることなく,ソフトパーティショニングを行うことで,部品の検索を行う。 一連のアブレーション研究は、各コンポーネントがLAGA-Netの性能向上に寄与していることを示している。 4つの一般的なボディベースパーソンリidベンチマークと2つの公開ハンドデータセットの広範な評価結果から,提案手法が既存の最先端手法を一貫して上回っていることが判明した。

Learning representative, robust and discriminative information from images is essential for effective person re-identification (Re-Id). In this paper, we propose a compound approach for end-to-end discriminative deep feature learning for person Re-Id based on both body and hand images. We carefully design the Local-Aware Global Attention Network (LAGA-Net), a multi-branch deep network architecture consisting of one branch for spatial attention, one branch for channel attention, one branch for global feature representations and another branch for local feature representations. The attention branches focus on the relevant features of the image while suppressing the irrelevant backgrounds. In order to overcome the weakness of the attention mechanisms, equivariant to pixel shuffling, we integrate relative positional encodings into the spatial attention module to capture the spatial positions of pixels. The global branch intends to preserve the global context or structural information. For the the local branch, which intends to capture the fine-grained information, we perform uniform partitioning to generate stripes on the conv-layer horizontally. We retrieve the parts by conducting a soft partition without explicitly partitioning the images or requiring external cues such as pose estimation. A set of ablation study shows that each component contributes to the increased performance of the LAGA-Net. Extensive evaluations on four popular body-based person Re-Id benchmarks and two publicly available hand datasets demonstrate that our proposed method consistently outperforms existing state-of-the-art methods.
翻訳日:2022-09-13 13:13:06 公開日:2022-09-11
# Keke AIコンペティション:動的に変化するメカニック空間におけるパズルレベルの解決

Keke AI Competition: Solving puzzle levels in a dynamically changing mechanic space ( http://arxiv.org/abs/2209.04911v1 )

ライセンス: Link先を確認
M Charity and Julian Togelius(参考訳) Baba is You - ソコバンのようなパズルゲームで、プレイヤーはゲームのメカニックに影響を及ぼすルールを作成できる。 規則の変更は、解空間の一部となる可能性のある他のレベルの一時的なあるいは恒久的な影響を引き起こす可能性がある。 これらの動的なルールの性質とゲームの決定論的側面は、AIがレベルを解決するために様々なメカニックな組み合わせに適応する上での課題を生み出します。 本稿では,提案エージェントのランク付けに用いたフレームワークと評価指標とサンプルツリー検索エージェントのベースライン結果について述べる。

The Keke AI Competition introduces an artificial agent competition for the game Baba is You - a Sokoban-like puzzle game where players can create rules that influence the mechanics of the game. Altering a rule can cause temporary or permanent effects for the rest of the level that could be part of the solution space. The nature of these dynamic rules and the deterministic aspect of the game creates a challenge for AI to adapt to a variety of mechanic combinations in order to solve a level. This paper describes the framework and evaluation metrics used to rank submitted agents and baseline results from sample tree search agents.
翻訳日:2022-09-13 13:08:59 公開日:2022-09-11
# 説明連鎖:暗黙のヘイトスピーチのための高品質自然言語説明生成のための新しい提案法

Chain of Explanation: New Prompting Method to Generate Higher Quality Natural Language Explanation for Implicit Hate Speech ( http://arxiv.org/abs/2209.04889v1 )

ライセンス: Link先を確認
Fan Huang, Haewoon Kwak, Jisun An(参考訳) 最近の研究では、高度な生成言語モデルを利用して、特定のテキストがなぜ憎むことができるのかを自然言語説明(nle)を生成する。 暗黙のヘイトスピーチのための高品質なNLEを生成するために, 思考の連鎖から着想を得た説明の連鎖法を提案する。 GPT-2, GPT-Neo, OPT, T5, BART を含む主要な事前学習言語モデル (PLM) に基づいて, 語彙的, 意味的, 忠実な側面から, 様々な評価指標を用いたベンチマークを構築した。 ヒトの知覚から生成したNLEの品質を更に評価するために、生成したNLEの情報性と明瞭さを評価するために、人間のアノテータを雇う。 次に、どの自動評価指標が、人間の注釈による情報提供度や明快度と最もよく関連づけられるかを検査する。

Recent studies have exploited advanced generative language models to generate Natural Language Explanations (NLE) for why a certain text could be hateful. We propose the Chain of Explanation Prompting method, inspired by the chain of thoughts study \cite{wei2022chain}, to generate high-quality NLE for implicit hate speech. We build a benchmark based on the selected mainstream Pre-trained Language Models (PLMs), including GPT-2, GPT-Neo, OPT, T5, and BART, with various evaluation metrics from lexical, semantic, and faithful aspects. To further evaluate the quality of the generated NLE from human perceptions, we hire human annotators to score the informativeness and clarity of the generated NLE. Then, we inspect which automatic evaluation metric could be best correlated with the human-annotated informativeness and clarity metric scores.
翻訳日:2022-09-13 13:03:27 公開日:2022-09-11
# データ拡張と情報フィルタリングによるキーフレーズ抽出の改善

Improving Keyphrase Extraction with Data Augmentation and Information Filtering ( http://arxiv.org/abs/2209.04951v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Nicole Meister, Franck Dernoncourt, Thien Huu Nguyen(参考訳) キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。 以前の作品のほとんどは、書籍、ニュース、ウェブブログなどの形式的な設定に特化しているが、ビデオの書き起こしのような非公式なテキストは調査されていない。 この制限に対処するため,本稿では,Behanceプラットフォーム上でストリームされたビデオの書き起こしからキーフレーズを抽出する新しいコーパスと手法を提案する。 より具体的には、他のドメインからのキーフレーズ抽出タスクに関する背景知識でモデルを強化するために、新しいデータ拡張を提案する。 提案データセットの大規模な実験により,提案手法の有効性が示された。

Keyphrase extraction is one of the essential tasks for document understanding in NLP. While the majority of the prior works are dedicated to the formal setting, e.g., books, news or web-blogs, informal texts such as video transcripts are less explored. To address this limitation, in this work we present a novel corpus and method for keyphrase extraction from the transcripts of the videos streamed on the Behance platform. More specifically, in this work, a novel data augmentation is proposed to enrich the model with the background knowledge about the keyphrase extraction task from other domains. Extensive experiments on the proposed dataset dataset show the effectiveness of the introduced method.
翻訳日:2022-09-13 13:03:09 公開日:2022-09-11
# 談話レベル一貫性とオントロジーに基づくフィルタリングを用いたライブストリーム映像のチュートリアル推薦

Tutorial Recommendation for Livestream Videos using Discourse-Level Consistency and Ontology-Based Filtering ( http://arxiv.org/abs/2209.04953v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen(参考訳) ビデオのストリーミングは、クリエイターがクリエイティブな作品をオーディエンスと共有するための方法の1つだ。 これらのビデオでは、ストリーマーはクリエイティブなプロジェクトのために1つまたは複数のプログラムで様々なツールを使用することで、最終的な目的を達成する方法を共有している。 この目的のために、最終目標を達成するために必要なステップを議論することができる。 そのため、これらのビデオは、ストリーマーが使用するツールの使い方を学ぶために使用できる、相当な教育コンテンツを提供することができる。 しかし、欠点の1つは、ストリーマーがすべてのステップに対して十分な詳細を提供していないことである。 したがって、学習者にとって、すべてのステップに追いつくのは難しいかもしれない。 この問題を緩和するためには、ストリーミングビデオと、ストリーミングビデオで使用されるツールに関連するチュートリアルをリンクする、という方法がある。 より具体的には、システムはライブストリーミングビデオの内容を分析し、最も関連するチュートリアルを推薦することができる。 既存の文書レコメンデーションモデルは,このような状況に対処できないため,本研究では,ライブストリーミングビデオのチュートリアルレコメンデーションタスクのための新しいデータセットとモデルを提案する。 提案するデータセットとモデルについて広範な分析を行い,この課題の難解な性質を明らかにする。

Streaming videos is one of the methods for creators to share their creative works with their audience. In these videos, the streamer share how they achieve their final objective by using various tools in one or several programs for creative projects. To this end, the steps required to achieve the final goal can be discussed. As such, these videos could provide substantial educational content that can be used to learn how to employ the tools used by the streamer. However, one of the drawbacks is that the streamer might not provide enough details for every step. Therefore, for the learners, it might be difficult to catch up with all the steps. In order to alleviate this issue, one solution is to link the streaming videos with the relevant tutorial available for the tools used in the streaming video. More specifically, a system can analyze the content of the live streaming video and recommend the most relevant tutorials. Since the existing document recommendation models cannot handle this situation, in this work, we present a novel dataset and model for the task of tutorial recommendation for live-streamed videos. We conduct extensive analyses on the proposed dataset and models, revealing the challenging nature of this task.
翻訳日:2022-09-13 13:02:58 公開日:2022-09-11
# 空間と時間における統語辞書分類の安定性

Stability of Syntactic Dialect Classification Over Space and Time ( http://arxiv.org/abs/2209.04958v1 )

ライセンス: Link先を確認
Jonathan Dunn and Sidney Wong(参考訳) 本稿では,構文表現に基づく方言分類器が空間的・時間的に安定である程度を解析する。 従来の研究では、文法誘導と地理空間テキスト分類の組み合わせが堅牢な方言モデルを生み出すことが示されているが、文法の変化と人口の変化が方言モデルに与える影響は分かっていない。 本稿では,1,120都市に一定の空間分布を持つ月々3年間にわたる12の英語方言を対象としたテストセットを構築した。 構文表現は、uses-based construction grammar paradigm (cxg)で定式化されている。 各方言の分類性能は時間とともに低下するので,構文変化中の領域を識別できる。 また、方言領域における分類精度の分布により、方言の文法が内部的に不均一である程度を特定できる。 本研究の主な貢献は,方言分類モデルの厳密な評価により,空間的変化と時間的変化の両方を見出すことができることを示すことである。

This paper analyses the degree to which dialect classifiers based on syntactic representations remain stable over space and time. While previous work has shown that the combination of grammar induction and geospatial text classification produces robust dialect models, we do not know what influence both changing grammars and changing populations have on dialect models. This paper constructs a test set for 12 dialects of English that spans three years at monthly intervals with a fixed spatial distribution across 1,120 cities. Syntactic representations are formulated within the usage-based Construction Grammar paradigm (CxG). The decay rate of classification performance for each dialect over time allows us to identify regions undergoing syntactic change. And the distribution of classification accuracy within dialect regions allows us to identify the degree to which the grammar of a dialect is internally heterogeneous. The main contribution of this paper is to show that a rigorous evaluation of dialect classification models can be used to find both variation over space and change over time.
翻訳日:2022-09-13 13:02:39 公開日:2022-09-11
# 大規模事前学習型言語モデルにおける英語動詞のクラスと交代の理解

Probing for Understanding of English Verb Classes and Alternations in Large Pre-trained Language Models ( http://arxiv.org/abs/2209.04811v1 )

ライセンス: Link先を確認
David K. Yi, James V. Bruno, Jiayu Han, Peter Zukerman, Shane Steinert-Threlkeld(参考訳) Levin (1993) が記述した動詞交替クラスが BERT, RoBERTa, ELECTRA, DeBERTa などの大規模事前学習言語モデル (PLM) の埋め込みにおいて,単語・文レベルの予測タスクを選択的に構築した診断分類器を用いてエンコードされている範囲について検討する。 我々は、静的埋め込みが動詞のフレーム選択特性を符号化するかどうかを調査することを目的としたKann et al. (2019) の実験に従い、拡張する。 単語と文のレベルでは、PLMの文脈埋め込みは、非文脈埋め込みよりも優れているだけでなく、ほとんどの交替クラスにおけるタスクに対する驚くほど高い精度を達成する。 さらに、PLMの中間層が全ての探索タスクの下位層よりも平均して優れた性能を発揮することを示す。

We investigate the extent to which verb alternation classes, as described by Levin (1993), are encoded in the embeddings of Large Pre-trained Language Models (PLMs) such as BERT, RoBERTa, ELECTRA, and DeBERTa using selectively constructed diagnostic classifiers for word and sentence-level prediction tasks. We follow and expand upon the experiments of Kann et al. (2019), which aim to probe whether static embeddings encode frame-selectional properties of verbs. At both the word and sentence level, we find that contextual embeddings from PLMs not only outperform non-contextual embeddings, but achieve astonishingly high accuracies on tasks across most alternation classes. Additionally, we find evidence that the middle-to-upper layers of PLMs achieve better performance on average than the lower layers across all probing tasks.
翻訳日:2022-09-13 12:55:34 公開日:2022-09-11
# オンラインカウンセリングサービスにおける自殺リスクの検出:低リソース言語による検討

Detecting Suicide Risk in Online Counseling Services: A Study in a Low-Resource Language ( http://arxiv.org/abs/2209.04830v1 )

ライセンス: Link先を確認
Amir Bialer and Daniel Izmaylov and Avi Segal and Oren Tsur and Yossi Levi-Belz and Kobi Gal(参考訳) 精神危機の状況と社会的影響に対する認識が高まり、多くの国で緊急支援を提供するオンラインサービスが一般的になっている。 支援者と提供者の間の議論に基づいて訓練された計算モデルは、リスクの高い個人を特定することで自殺予防を支援することができる。 しかし、特に低リソース言語におけるドメイン固有モデルの欠如は、自殺リスクを自動的に検出する上で大きな課題となる。 本稿では,PLM(Pre-trained Language Model)と手作業による自殺手順の定式化(および臨床承認)とを組み合わせ,次いで2段階の微調整プロセスを提案する。 我々のモデルは0.91ROC-AUCと0.55のF2スコアを達成し、会話の早い段階でも強いベースラインの配列を著しく上回り、フィールドでのリアルタイム検出に欠かせない。 さらに、このモデルは性別と年齢グループでうまく機能する。

With the increased awareness of situations of mental crisis and their societal impact, online services providing emergency support are becoming commonplace in many countries. Computational models, trained on discussions between help-seekers and providers, can support suicide prevention by identifying at-risk individuals. However, the lack of domain-specific models, especially in low-resource languages, poses a significant challenge for the automatic detection of suicide risk. We propose a model that combines pre-trained language models (PLM) with a fixed set of manually crafted (and clinically approved) set of suicidal cues, followed by a two-stage fine-tuning process. Our model achieves 0.91 ROC-AUC and an F2-score of 0.55, significantly outperforming an array of strong baselines even early on in the conversation, which is critical for real-time detection in the field. Moreover, the model performs well across genders and age groups.
翻訳日:2022-09-13 12:55:16 公開日:2022-09-11
# デジタル通信信号に対するデータ駆動ブラインド同期と干渉拒否

Data-Driven Blind Synchronization and Interference Rejection for Digital Communication Signals ( http://arxiv.org/abs/2209.04871v1 )

ライセンス: Link先を確認
Alejandro Lancho, Amir Weiss, Gary C.F. Lee, Jennifer Tang, Yuheng Bu, Yury Polyanskiy and Gregory W. Wornell(参考訳) 本研究では,データ駆動型深層学習手法の2つの通信信号の混合観測から分離する可能性について検討する。 特に、興味の信号(SOI)と呼ばれる信号の1つの生成過程に関する知識を仮定し、干渉と呼ばれる2番目の信号の生成過程に関する知識を仮定する。 単一チャネルソース分離問題のこの形式は、干渉拒絶(interference rejection)とも呼ばれる。 我々は、SOIと干渉の両方に正確な同期を可能にする高分解能時間構造(非定常性)のキャプチャにより、性能が大幅に向上することを示す。 この重要な洞察により、我々のシミュレーションで示されるように、「既成の」NNと古典的検出と干渉拒絶の両方を改善することができるドメイン情報ニューラルネットワーク(NN)の設計を提案する。 我々の研究は、前例のない利益を約束するデータ駆動型アプローチの開発において、コミュニケーション固有のドメイン知識が果たす重要な役割を強調した。

We study the potential of data-driven deep learning methods for separation of two communication signals from an observation of their mixture. In particular, we assume knowledge on the generation process of one of the signals, dubbed signal of interest (SOI), and no knowledge on the generation process of the second signal, referred to as interference. This form of the single-channel source separation problem is also referred to as interference rejection. We show that capturing high-resolution temporal structures (nonstationarities), which enables accurate synchronization to both the SOI and the interference, leads to substantial performance gains. With this key insight, we propose a domain-informed neural network (NN) design that is able to improve upon both "off-the-shelf" NNs and classical detection and interference rejection methods, as demonstrated in our simulations. Our findings highlight the key role communication-specific domain knowledge plays in the development of data-driven approaches that hold the promise of unprecedented gains.
翻訳日:2022-09-13 12:45:08 公開日:2022-09-11
# バンドル販売データから消費者選好を学ぶ

Learning Consumer Preferences from Bundle Sales Data ( http://arxiv.org/abs/2209.04942v1 )

ライセンス: Link先を確認
Ningyuan Chen, Setareh Farajollahzadeh, Guan Wang(参考訳) 商品のバンドルは、オンライン小売でよく使われる販売メカニズムである。 利益を上げるバンドル価格を設定するには、売り手は取引データから消費者の好みを知る必要がある。 顧客がバンドルや複数の製品を購入するとき、個々の選択モデルのような古典的な手法は顧客の評価を見積もることはできない。 本稿では,バンドル販売データを用いた製品に対する消費者評価の分布を学習するためのアプローチを提案する。 このアプローチは、サンプルが多面体領域によって検閲される推定問題に還元される。 提案手法はemアルゴリズムとモンテカルロシミュレーションを用いて消費者評価の分布を再現する。 このフレームワークは、未購入の未購入とクラスタ化された市場セグメントを可能にする。 確率モデルの同定可能性とEMアルゴリズムの収束性に関する理論的結果を提供する。 また,本手法の性能を数値的に示す。

Product bundling is a common selling mechanism used in online retailing. To set profitable bundle prices, the seller needs to learn consumer preferences from the transaction data. When customers purchase bundles or multiple products, classical methods such as discrete choice models cannot be used to estimate customers' valuations. In this paper, we propose an approach to learn the distribution of consumers' valuations toward the products using bundle sales data. The approach reduces it to an estimation problem where the samples are censored by polyhedral regions. Using the EM algorithm and Monte Carlo simulation, our approach can recover the distribution of consumers' valuations. The framework allows for unobserved no-purchases and clustered market segments. We provide theoretical results on the identifiability of the probability model and the convergence of the EM algorithm. The performance of the approach is also demonstrated numerically.
翻訳日:2022-09-13 12:44:02 公開日:2022-09-11
# 視覚インフォームド深部強化学習を用いたランダム部分観測環境におけるパスフィンディング

Pathfinding in Random Partially Observable Environments with Vision-Informed Deep Reinforcement Learning ( http://arxiv.org/abs/2209.04801v1 )

ライセンス: Link先を確認
Anthony Dowling(参考訳) 深層強化学習(deep reinforcement learning)は、atariのビデオゲームから株式取引まで、さまざまな環境で問題を解決するテクニックである。 この方法は、深いニューラルネットワークモデルを利用して、目標に達するためのコストと報酬を組み込むことができる報酬関数を最大化することを目的として、所定の環境の観測に基づいて決定を行う。 パスフィンディングの目的により、報酬条件は移動コストとともに特定の目標領域に到達することを含むことができる。 本研究では,複数の深層qネットワーク(dqn)エージェントを訓練し,最小限の移動時間でターゲットゾーンに到達することを目標とした,部分的に観測可能な環境での運用を行う。 エージェントは周囲の視覚的表現に基づいて動作し、環境を観察する能力が制限される。 DQN, DQN-GRU, DQN-LSTMの比較を行い, 2種類の入力で各モデル機能について検討した。 この評価により、等価なトレーニングと類似したモデルアーキテクチャにより、DQNモデルが繰り返し発生するモデルよりも優れていることが示されている。

Deep reinforcement learning is a technique for solving problems in a variety of environments, ranging from Atari video games to stock trading. This method leverages deep neural network models to make decisions based on observations of a given environment with the goal of maximizing a reward function that can incorporate cost and rewards for reaching goals. With the aim of pathfinding, reward conditions can include reaching a specified target area along with costs for movement. In this work, multiple Deep Q-Network (DQN) agents are trained to operate in a partially observable environment with the goal of reaching a target zone in minimal travel time. The agent operates based on a visual representation of its surroundings, and thus has a restricted capability to observe the environment. A comparison between DQN, DQN-GRU, and DQN-LSTM is performed to examine each models capabilities with two different types of input. Through this evaluation, it is been shown that with equivalent training and analogous model architectures, a DQN model is able to outperform its recurrent counterparts.
翻訳日:2022-09-13 12:38:38 公開日:2022-09-11
# いつ「私は知らない」と言うかを学ぶ

Learning When to Say "I Don't Know" ( http://arxiv.org/abs/2209.04944v1 )

ライセンス: Link先を確認
Nicholas Kashani Motlagh, Jim Davis, Tim Anderson, Jeremy Gwinnup(参考訳) 本稿では,与えられた神経分類器とデータセットの判定空間における不確実性領域を識別・除去するための新しい拒絶選択分類手法を提案する。 このような既存の定式化では、学習拒絶(remove)/選択(keep)関数を採用しており、選択された例の正確性または範囲に関する強い制約を拒絶するための既知のコストが要求される。 代わりに補完的な拒絶領域を分析し,クラス毎のソフトマックス閾値を学習するための検証セットを用いる。 目標は、拒否された例に対する自然ランダム性許容条件(正しい予測よりも不正確な予測)に基づいて選択された例の精度を最大化することである。 本研究では,事前学習モデルを用いた2次元点,画像,テキスト分類データセットを用いた,na\"ively thresholding calibrated/uncalibrated softmax scoreに対する提案手法の有用性を示す。 ソースコードはhttps://github.com/osu-cvl/learning-idkで入手できる。

We propose a new Reject Option Classification technique to identify and remove regions of uncertainty in the decision space for a given neural classifier and dataset. Such existing formulations employ a learned rejection (remove)/selection (keep) function and require either a known cost for rejecting examples or strong constraints on the accuracy or coverage of the selected examples. We consider an alternative formulation by instead analyzing the complementary reject region and employing a validation set to learn per-class softmax thresholds. The goal is to maximize the accuracy of the selected examples subject to a natural randomness allowance on the rejected examples (rejecting more incorrect than correct predictions). We provide results showing the benefits of the proposed method over na\"ively thresholding calibrated/uncalibrated softmax scores with 2-D points, imagery, and text classification datasets using state-of-the-art pretrained models. Source code is available at https://github.com/osu-cvl/learning-idk.
翻訳日:2022-09-13 12:38:19 公開日:2022-09-11
# 説明可能な気候科学のためのカーネル学習

Kernel Learning for Explainable Climate Science ( http://arxiv.org/abs/2209.04947v1 )

ライセンス: Link先を確認
Vidhi Lalchand, Kenza Tazi, Talay M. Cheema, Richard E. Turner, Scott Hosking(参考訳) ヒマラヤのインダス盆地は人口2億7000万人と無数の生態系に水を供給している。 しかし, この地域では, 水文モデリングの重要な要素である降水があまり理解されていない。 この不確実性を取り巻く重要な課題は、盆地にまたがる複雑な時空間的な降水分布である。 本稿では,uibの沈殿パターンをモデル化するために,非定常カーネル構造を持つガウス過程を提案する。 ヒンドゥー・クシュ・カラコラム・ヒマラヤ地域の降水の定量化やモデル化の試みは、しばしば質的であり、より低い解像度では解決できない粗い仮定や単純化を含んでいる。 この研究機関は誤りの伝播もほとんど行っていない。 入力依存長スケールでパラメータ化した非定常ギブスカーネルによる降水の空間的変動について考察する。 これにより、後部関数のサンプルは、インダス地域の異なる基盤地形に固有の様々な降水パターンに適応することができる。 入力依存長スケールは、関数レベルのハイパーパラメータがスムーズに変化するように、定常二乗指数核を持つ潜在ガウス過程によって制御される。 アブレーション実験では,提案するカーネルの各コンポーネントを,空間的共分散,時間的構造,共同時空間再構成をモデル化し,モチベーションを高める。 我々は、定常ガウス過程とディープガウス過程でモデルをベンチマークする。

The Upper Indus Basin, Himalayas provides water for 270 million people and countless ecosystems. However, precipitation, a key component to hydrological modelling, is poorly understood in this area. A key challenge surrounding this uncertainty comes from the complex spatial-temporal distribution of precipitation across the basin. In this work we propose Gaussian processes with structured non-stationary kernels to model precipitation patterns in the UIB. Previous attempts to quantify or model precipitation in the Hindu Kush Karakoram Himalayan region have often been qualitative or include crude assumptions and simplifications which cannot be resolved at lower resolutions. This body of research also provides little to no error propagation. We account for the spatial variation in precipitation with a non-stationary Gibbs kernel parameterised with an input dependent lengthscale. This allows the posterior function samples to adapt to the varying precipitation patterns inherent in the distinct underlying topography of the Indus region. The input dependent lengthscale is governed by a latent Gaussian process with a stationary squared-exponential kernel to allow the function level hyperparameters to vary smoothly. In ablation experiments we motivate each component of the proposed kernel by demonstrating its ability to model the spatial covariance, temporal structure and joint spatio-temporal reconstruction. We benchmark our model with a stationary Gaussian process and a Deep Gaussian processes.
翻訳日:2022-09-13 12:32:36 公開日:2022-09-11
# Git Re-Basin: モデルをマージするModulo Permutation Symmetries

Git Re-Basin: Merging Models modulo Permutation Symmetries ( http://arxiv.org/abs/2209.04836v1 )

ライセンス: Link先を確認
Samuel K. Ainsworth, Jonathan Hayase, Siddhartha Srinivasa(参考訳) ディープラーニングの成功は、ある種の大規模な非凸最適化問題を比較的簡単に解決できる能力のおかげです。 非凸最適化はnpハードであるが、単純なアルゴリズム(しばしば確率的勾配降下の変種)は、大規模ニューラルネットワークを実際に適合させるのに驚くべき効果を示す。 我々は、ニューラルネットワークの損失景観は、隠れた単位のあらゆる置換対称性を考慮して、(ほぼ)単一の盆地を含むと主張する。 我々は、参照モデルの単位に合わせるために、1つのモデルの単位をパーミュレートする3つのアルゴリズムを導入する。 この変換は、参照モデルの近くの概凸盆地にある関数的に等価な重みの組を生成する。 実験では,CIFAR-10 と CIFAR-100 上で独立に訓練された ResNet モデル間のゼロバリアリニアモード接続のデモを含む,さまざまなモデルアーキテクチャやデータセットにまたがる単一の盆地現象を実証した。 さらに、モデル幅とトレーニング時間に関連する興味深い現象を特定し、様々なモデルやデータセット間の接続をモード化する。 最後に、線形モード接続仮説に対する反例を含む単一の盆地理論の欠点について議論する。

The success of deep learning is thanks to our ability to solve certain massive non-convex optimization problems with relative ease. Despite non-convex optimization being NP-hard, simple algorithms -- often variants of stochastic gradient descent -- exhibit surprising effectiveness in fitting large neural networks in practice. We argue that neural network loss landscapes contain (nearly) a single basin, after accounting for all possible permutation symmetries of hidden units. We introduce three algorithms to permute the units of one model to bring them into alignment with units of a reference model. This transformation produces a functionally equivalent set of weights that lie in an approximately convex basin near the reference model. Experimentally, we demonstrate the single basin phenomenon across a variety of model architectures and datasets, including the first (to our knowledge) demonstration of zero-barrier linear mode connectivity between independently trained ResNet models on CIFAR-10 and CIFAR-100. Additionally, we identify intriguing phenomena relating model width and training time to mode connectivity across a variety of models and datasets. Finally, we discuss shortcomings of a single basin theory, including a counterexample to the linear mode connectivity hypothesis.
翻訳日:2022-09-13 12:26:14 公開日:2022-09-11
# 離散潜在変数モデルに対する適応摂動に基づく勾配推定

Adaptive Perturbation-Based Gradient Estimation for Discrete Latent Variable Models ( http://arxiv.org/abs/2209.04862v1 )

ライセンス: Link先を確認
Pasquale Minervini, Luca Franceschi, Mathias Niepert(参考訳) ディープラーニングアーキテクチャにおける離散アルゴリズムコンポーネントの統合には多くの応用がある。 近年,離散的指数関数的家族分布に対する勾配推定のクラスである暗黙的最大推定法(imle, niepert, minervini, franceschi 2021)が,摂動による暗黙的微分とパスワイズ勾配推定法を組み合わせて提案されている。 しかし、勾配の有限差分近似のため、ユーザが指定する必要がある有限差分ステップサイズを選択することには特に敏感である。 本研究では、複雑な離散分布に対する最初の適応勾配推定器であるAdaptive IMLE(AIMLE)を提案する。 提案手法は, 合成例, 説明学習, 変分自動エンコーダの離散化, およびニューラルリレーショナル推論タスクにおいて実験的に評価する。 実験では,適応勾配推定器は,他の勾配推定器よりも桁違いに少ないサンプルを要求されながら,忠実な推定ができることを示した。

The integration of discrete algorithmic components in deep learning architectures has numerous applications. Recently, Implicit Maximum Likelihood Estimation (IMLE, Niepert, Minervini, and Franceschi 2021), a class of gradient estimators for discrete exponential family distributions, was proposed by combining implicit differentiation through perturbation with the path-wise gradient estimator. However, due to the finite difference approximation of the gradients, it is especially sensitive to the choice of the finite difference step size which needs to be specified by the user. In this work, we present Adaptive IMLE (AIMLE) the first adaptive gradient estimator for complex discrete distributions: it adaptively identifies the target distribution for IMLE by trading off the density of gradient information with the degree of bias in the gradient estimates. We empirically evaluate our estimator on synthetic examples, as well as on Learning to Explain, Discrete Variational Auto-Encoders, and Neural Relational Inference tasks. In our experiments, we show that our adaptive gradient estimator can produce faithful estimates while requiring orders of magnitude fewer samples than other gradient estimators.
翻訳日:2022-09-13 12:14:49 公開日:2022-09-11
# ロボット操作における教示駆動履歴認識ポリシー

Instruction-driven history-aware policies for robotic manipulations ( http://arxiv.org/abs/2209.04899v1 )

ライセンス: Link先を確認
Pierre-Louis Guhur, Shizhe Chen, Ricardo Garcia, Makarand Tapaswi, Ivan Laptev, Cordelia Schmid(参考訳) 人間の環境では、ロボットは単純な自然言語命令によって様々な操作タスクを果たすことが期待されている。 しかし、ロボット操作は、細かい運動制御、長期記憶、そしてこれまで見つからなかったタスクや環境への一般化を必要とするため、非常に難しい。 これらの課題に対処するため,複数入力を考慮した統一型トランスフォーマー方式を提案する。 特に 変圧器のアーキテクチャは (i)自然言語の指示及び指示 (ii)多視点映像観察 (iii)観察及び行動の全履歴を追跡すること。 このようなアプローチにより、履歴と命令間の依存関係を学習し、複数のビューによる操作精度を向上させることができる。 RLBenchベンチマークと実世界のロボットを用いて本手法の評価を行った。 特に,本手法は74種類のRLBenchタスクに拡張され,最先端技術に優れる。 また、命令条件付きタスクにも対処し、以前は見えなかったバリエーションに優れた一般化を示す。

In human environments, robots are expected to accomplish a variety of manipulation tasks given simple natural language instructions. Yet, robotic manipulation is extremely challenging as it requires fine-grained motor control, long-term memory as well as generalization to previously unseen tasks and environments. To address these challenges, we propose a unified transformer-based approach that takes into account multiple inputs. In particular, our transformer architecture integrates (i) natural language instructions and (ii) multi-view scene observations while (iii) keeping track of the full history of observations and actions. Such an approach enables learning dependencies between history and instructions and improves manipulation precision using multiple views. We evaluate our method on the challenging RLBench benchmark and on a real-world robot. Notably, our approach scales to 74 diverse RLBench tasks and outperforms the state of the art. We also address instruction-conditioned tasks and demonstrate excellent generalization to previously unseen variations.
翻訳日:2022-09-13 12:14:27 公開日:2022-09-11
# 因果メディエーション分析による事前学習型言語モデルの分配性理解の検証

Testing Pre-trained Language Models' Understanding of Distributivity via Causal Mediation Analysis ( http://arxiv.org/abs/2209.04761v1 )

ライセンス: Link先を確認
Pangbo Ban, Yifan Jiang, Tianran Liu, Shane Steinert-Threlkeld(参考訳) 事前学習された言語モデルは、分配性現象に関する意味知識をどの程度把握するか? 本稿では,分散性に起因する意味的差異を対象とする自然言語推論のための新たな診断データセットであるdistnliを紹介し,モデル行動の定量化と,この意味的関連課題における基礎的メカニズムを探るために因果的調停分析フレームワークを採用する。 モデルの理解範囲はモデルのサイズと語彙サイズに関係していることがわかった。 また、そのような高度な意味知識をモデルがどのように符号化するかについての洞察も提供する。

To what extent do pre-trained language models grasp semantic knowledge regarding the phenomenon of distributivity? In this paper, we introduce DistNLI, a new diagnostic dataset for natural language inference that targets the semantic difference arising from distributivity, and employ the causal mediation analysis framework to quantify the model behavior and explore the underlying mechanism in this semantically-related task. We find that the extent of models' understanding is associated with model size and vocabulary size. We also provide insights into how models encode such high-level semantic knowledge.
翻訳日:2022-09-13 12:12:48 公開日:2022-09-11
# オープンセット認識を改善するための人間の知覚の測定

Measuring Human Perception to Improve Open Set Recognition ( http://arxiv.org/abs/2209.03519v2 )

ライセンス: Link先を確認
Jin Huang, Derek Prijatelj, Justin Dulay and Walter Scheirer(参考訳) オブジェクトが知られているか、新しいかを認識する人間の能力は、現在、すべてのオープンセット認識アルゴリズムを上回っている。 心理学からの視覚心理物理学の手法と手順によって測定される人間の知覚は、コンピュータビジョンにおける視覚認識タスクの新規性を管理する追加のデータストリームを提供することができる。 例えば、ヒトの被験者から測定された反応時間は、既知のクラスサンプルが新しいサンプルと混同されるかどうかについての洞察を与えることができる。 本研究では,物体認識に関連する20万以上の反応時間測定を収集した大規模行動実験を考案し,実施した。 抽出された反応時間は、サンプルレベルでの物体間で有意義に変化する。 そこで我々は,異なる画像に対して異なる反応時間を示す深層ネットワークにおいて,人間の行動と整合性を示す新しい精神物理学的損失関数を設計した。 バイオビジョンと同様に、このアプローチはラベル付きトレーニングデータに制限のあるレジームにおいて、優れたオープンセット認識性能を達成することができる。 ImageNetのデータを用いた実験により、この新定式化によるマルチスケールDenseNetsのトレーニングにおいて、損失関数でトレーニングされたモデルでは、既知のサンプルにおけるトップ1テスト精度が7%向上し、未知サンプルにおけるトップ1テスト精度が33%向上した。 提案手法を文献から10個のオープンセット認識手法と比較し,複数の指標で比較した。

The human ability to recognize when an object is known or novel currently outperforms all open set recognition algorithms. Human perception as measured by the methods and procedures of visual psychophysics from psychology can provide an additional data stream for managing novelty in visual recognition tasks in computer vision. For instance, measured reaction time from human subjects can offer insight as to whether a known class sample may be confused with a novel one. In this work, we designed and performed a large-scale behavioral experiment that collected over 200,000 human reaction time measurements associated with object recognition. The data collected indicated reaction time varies meaningfully across objects at the sample level. We therefore designed a new psychophysical loss function that enforces consistency with human behavior in deep networks which exhibit variable reaction time for different images. As in biological vision, this approach allows us to achieve good open set recognition performance in regimes with limited labeled training data. Through experiments using data from ImageNet, significant improvement is observed when training Multi-Scale DenseNets with this new formulation: models trained with our loss function significantly improved top-1 validation accuracy by 7%, top-1 test accuracy on known samples by 18%, and top-1 test accuracy on unknown samples by 33%. We compared our method to 10 open set recognition methods from the literature, which were all outperformed on multiple metrics.
翻訳日:2022-09-13 10:35:59 公開日:2022-09-11
# インド文脈におけるアクセント付き音声認識

Accented Speech Recognition under the Indian context ( http://arxiv.org/abs/2209.03787v2 )

ライセンス: Link先を確認
Ankit Grover(参考訳) アクセントは文化や感情、行動などを特定する上で不可欠な部分を形成する。 人々はしばしば、アクセントによって異なる方法でお互いを知覚する。 アクセントそのものは、ステータス、プライド、その他の感情情報のコンベヤーであり、スピーチ自体を通じて捉えることができる。 アクセントそのものは、「特定の地域、国、社会集団の人々が単語を発音する方法」あるいは「音節、文中の単語、音符の集合における音節に特別に強調される方法」と定義できる。 アクセント付き音声認識は音声認識の分野で最も重要な問題の一つである。 音声認識はコンピュータ科学と言語学の研究の学際的なサブフィールドであり、主な目的は音声をテキストに変換する技術を開発することである。 音声は、読み上げ音声や自発音声、会話音声などのあらゆる形態でもよい。 言語発話の全ての例が現在存在する音声は非常に多様であり、多彩な特徴を持っている。 この多様性は、環境条件、話者から話者への変動、チャネルノイズ、障害による音声生成の違い、不均一性などに起因する。 したがって、スピーチは実際に悪用されるのを待っている豊富な情報ソースである。

Accent forms an integral part of identifying cultures, emotions, behavior'ss, etc. People often perceive each other in a different manner due to their accent. The accent itself can be a conveyor of status, pride, and other emotional information which can be captured through Speech itself. Accent itself can be defined as: "the way in which people in a particular area, country, or social group pronounce words" or "a special emphasis given to a syllable in a word, word in a sentence, or note in a set of musical notes". Accented Speech Recognition is one the most important problems in the domain of Speech Recognition. Speech recognition is an interdisciplinary sub-field of Computer Science and Linguistics research where the main aim is to develop technologies which enable conversion of speech into text. The speech can be of any form such as read speech or spontaneous speech, conversational speech. As all instances of language utterances are present speech is very diverse and exhibits many traits of variability. This diversity stems from the environmental conditions, variabilities from speaker to speaker, channel noise, differences in Speech production due to disabilities, presence of disfluencies. Speech therefore is indeed a rich source of information waiting to be exploited.
翻訳日:2022-09-13 10:34:50 公開日:2022-09-11