このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220927となっている論文です。

PDF登録状況(公開日: 20220927)

TitleAuthorsAbstract論文公表日・翻訳日
# 見かけの円二色性を用いたアキラルファブリペローキャビティに基づくキラルポラリトン

Chiral polaritons based on achiral Fabry-Perot cavities using apparent circular dichroism ( http://arxiv.org/abs/2208.14461v2 )

ライセンス: Link先を確認
Andrew H. Salij, Randall H. Goldsmith, Roel Tempelaar(参考訳) 高レベルのキラル非対称性を持つポラリトン状態は、量子情報、センシング、およびレーザー応用のエキサイティングな展望を提供する。 このような非対称性は、関連する光共振器または量子エミッタから生じなければならない。 本稿では,(高品質因子)アキラルファブリー・ペローキャビティと,線形複屈折と二色相互作用の干渉から生じる"apparent circular dichroism" (acd) として知られる現象を示すサンプルを組み合わせることで,キラルポラリトンがいかに実現できるかを理論的に示す。 ACDの量子電磁力学理論を導入することにより、キラル偏光子の非対称性を最適化できる設計規則を同定する。

Polariton states with high levels of chiral dissymmetry offer exciting prospects for quantum information, sensing, and lasing applications. Such dissymmetry must emanate from either the involved optical resonators or the quantum emitters. Here, we theoretically demonstrate how chiral polaritons can be realized by combining (high quality factor) achiral Fabry-Perot cavities with samples exhibiting a phenomenon known as "apparent circular dichroism" (ACD), which results from an interference between linear birefringence and dichroic interactions. By introducing a quantum electrodynamical theory of ACD, we identify the design rules based on which the dissymmetry of chiral polaritons can be optimized.
翻訳日:2023-01-28 11:32:26 公開日:2022-09-27
# ツリーテンソルネットワークの最適線形縮合順序について

On the Optimal Linear Contraction Order for Tree Tensor Networks ( http://arxiv.org/abs/2209.12332v2 )

ライセンス: Link先を確認
Mihail Stoian(参考訳) テンソルネットワークは現在、量子多体系と量子回路の古典的シミュレーションのバックボーンとなっている。 ほとんどのテンソル法は、最終的な結果を得るために最終的にテンソルネットワークを収縮できるという事実に依存している。 収縮操作自体は自明であるが、その実行時間は収縮が実行される順序に大きく依存する。 この目的のために、あらかじめ収縮を行うべき最適な順序を見つけようとする。 しかしながら、最適縮退位を求める一般的な問題はNP完全である。 したがって、小さな問題(例えば$n \leq 20$)に対する指数アルゴリズムの混合を解決し、そうでなければ良い収縮順序を期待しなければならない。 このため、過去の研究は後期に焦点を合わせ、より優れたヒューリスティックを見つけようとしている。 本研究では,より保守的なアプローチを採り,木テンソルネットワークが最適線形縮約順序を受け入れることを示す。 最適性以上の結果を得るため、任意のテンソルネットワークの最適に近い順序を保証するために、2つの結合順序付け手法を適用します。

Tensor networks are nowadays the backbone of classical simulations of quantum many-body systems and quantum circuits. Most tensor methods rely on the fact that we can eventually contract the tensor network to obtain the final result. While the contraction operation itself is trivial, its execution time is highly dependent on the order in which the contractions are performed. To this end, one tries to find beforehand an optimal order in which the contractions should be performed. However, there is a drawback: the general problem of finding the optimal contraction order is NP-complete. Therefore, one must settle for a mixture of exponential algorithms for small problems, e.g., $n \leq 20$, and otherwise hope for good contraction orders. For this reason, previous research has focused on the latter part, trying to find better heuristics. In this work, we take a more conservative approach and show that tree tensor networks accept optimal linear contraction orders. Beyond the optimality results, we adapt two join ordering techniques that can build on our work to guarantee near-optimal orders for arbitrary tensor networks.
翻訳日:2023-01-25 05:29:45 公開日:2022-09-27
# 非ガウス雑音が自己相関弱値増幅に及ぼす影響

The Effect of Non-Gaussian Noise on Auto-correlative Weak-value Amplification ( http://arxiv.org/abs/2209.12732v2 )

ライセンス: Link先を確認
Jing-Hui Huang, J. S. Lundeen, Adetunmise C. Dada, Kyle M.Jordan, Guang-Jun Wang, Xue-Ying Duan and Xiang-Yun Hu(参考訳) ノイズのスペクトル特性とオープン量子システムへの影響に関する正確な知識は、現実的な環境におけるダイナミクスの定量的理解と予測に基礎を置いている。 二段階系の弱い測定では、実験から得られた弱い値は必然的に環境の騒音に影響される。 ガウス雑音環境下での自己相関弱値増幅(AWVA)手法の先行研究に続いて、非ガウス雑音がAWVA手法に与える影響について検討し、特に負のdB信号対雑音比、周波数定常雑音、周波数非定常雑音の2種類のノイズについて検討した。 ガウスホワイトノイズを異なる帯域通過フィルタで変換することにより、低周波(1/f)ノイズ、中周波ノイズ、高周波ノイズなどの様々な周波数定常ノイズを生成する。 インパルスノイズは周波数非定常雑音の例として研究される。 シミュレーションの結果,AWVA測定では1/fノイズとインパルスノイズが大きく乱れていた。 さらに、一種類の周波数定常ノイズを付加し、検出された信号をクランプし、測定範囲を支配すれば、多くの敵対的な非ガウス雑音が存在する場合に、平均値の偏差と誤差バーを小さくすることで、awva手法の精度を向上させる可能性がある。

Accurate knowledge of the spectral features of noise and their influence on open quantum systems is fundamental for quantitative understanding and prediction of the dynamics in a realistic environment. For the weak measurements of two-level systems, the weak value obtained from experiments will inevitably be affected by the noise of the environment. Following our earlier work on the technique of the auto-correlative weak-value amplification (AWVA) approach under a Gaussian noise environment, here we study the effect of non-Gaussian noise on the AWVA technique.In particular, two types of noise with a negative-dB signal-to-noise ratio, frequency-stationary noises and frequency-nonstationary noises are studied. The various frequency-stationary noises, including low-frequency (1/f) noises, medium-frequency noises, and high-frequency noises, are generated in Simulink by translating the Gaussian white noise with different band-pass filters. While impulsive noise is studied as an example of frequency-non stationary noises. Our simulated results demonstrate that 1/f noises and impulsive noises have greater disturbance on the AWVA measurements. In addition, adding one kind of frequency-stationary noise, clamping the detected signals, and dominating the measurement range may {have} the potential to improve the precision of the AWVA technique with both a smaller deviation of the mean value and a smaller error bar in the presence of many hostile non-Gaussian noises.
翻訳日:2023-01-25 03:03:07 公開日:2022-09-27
# リングオプティメカルキャビティにおける鏡・光原子の絡み合い

Mirrors-light-atoms entanglement in ring optomechanical cavity ( http://arxiv.org/abs/2209.13228v1 )

ライセンス: Link先を確認
Oumayma El Bir and Morad El Baz(参考訳) 本稿では,固定ミラーと2つの可動鏡からなるリングオプトメカニカルキャビティに原子アンサンブルを閉じ込めた原子-オプトメカニカルシステムの実現について述べる。 動力学と方程式の線形化の解析により、多モード共分散行列を導出することができる。 実環境下では, 定常二成分および三成分連続変数の絡み合いを対数ネガティビティを用いて数値シミュレーションし, マルチモード系における共有絡み合いの解析を行った。 原子媒体の導入により、エンタングルメントのためのより大きなプラトーを得ることができ、温度デコヒーリング効果に対してより弾力性が得られる。

The present paper illustrates the realization of an atom-optomechanical system where an atomic ensemble is confined in a ring optomechanical cavity consisting of a fixed mirror and two movable ones. An analysis of the dynamics and the linearization of the equations allows to derive the multimode covariance matrix. Under realistic experimental conditions, we numerically simulate the steady-state bipartite and tripartite continuous variable entanglement using the logarithmic negativity, and analyze the shared entanglement in the multimode system. The introduction of the atomic medium allows to obtain a larger plateau for the entanglement and make more resilient to the temperature decohering effects.
翻訳日:2023-01-25 00:31:40 公開日:2022-09-27
# 2粒子トポロジーと分数チャーン絶縁体の関係

Relationship between two-particle topology and fractional Chern insulator ( http://arxiv.org/abs/2209.13215v1 )

ライセンス: Link先を確認
Nobuyuki Okuma and Tomonari Mizoguchi(参考訳) 分数量子ホール(FQH)系の格子一般化、すなわち分数チャーン絶縁体(FCI)は強い相関系で広く研究されている。 多くの努力にもかかわらず、以前の研究はFCI検索の指針の全てを明らかにしていない。 本稿では,2粒子問題におけるトポロジカルバンド構造と多体問題におけるFCI基底状態の関係について検討する。 まず,与えられたタイト結合ハミルトニアンの最低バンド上に投影されるボソニックオンサイト相互作用の2粒子問題を定式化する。 固有値が2粒子境界状態エネルギーに対応する還元ハミルトニアンを導入する。 還元ハミルトニアンを用いて、2粒子チャーン数を定義し、2粒子チャーン数によって予測されるバルク境界対応を数値的に確認する。 次に、非自明な2粒子チャーン数の支配的バンドは、充填係数$\nu=1/2$におけるボソニックFCI基底状態の存在を示す。 チャーンバンドを用いたいくつかの密結合モデルにおいて、この関係を数値的に検討し、2バンドモデルが例外であるにもかかわらず、ほとんどの場合において有効であることを示す。 2粒子トポロジーはFCI状態の必要条件でも十分条件でもないが,この2粒子トポロジーがFQH系と類似度を特徴付けることを示す数値的な結果が得られた。

Lattice generalizations of fractional quantum Hall (FQH) systems, called fractional Chern insulators (FCIs), have been extensively investigated in strongly correlated systems. Despite many efforts, previous studies have not revealed all of the guiding principles for the FCI search. In this paper, we investigate a relationship between the topological band structure in the two-particle problem and the FCI ground states in the many-body problem. We first formulate the two-particle problem of a bosonic on-site interaction projected onto the lowest band of a given tight-binding Hamiltonian. We introduce a reduced Hamiltonian whose eigenvalues correspond to the two-particle bound-state energies. By using the reduced Hamiltonian, we define the two-particle Chern number and numerically check the bulk-boundary correspondence that is predicted by the two-particle Chern number. We then propose that a nontrivial two-particle Chern number of dominant bands roughly indicates the presence of bosonic FCI ground states at filling factor $\nu=1/2$. We numerically investigate this relationship in several tight-binding models with Chern bands and find that it holds well in most of the cases, albeit two-band models being exceptions. Although the two-particle topology is neither a necessary nor a sufficient condition for the FCI state as other indicators in previous studies, our numerical results indicate that the two-particle topology characterizes the degree of similarity to the FQH systems.
翻訳日:2023-01-25 00:31:15 公開日:2022-09-27
# ハイブリッド量子加速度計によるベクトル加速度の追跡

Tracking the Vector Acceleration with a Hybrid Quantum Accelerometer Triad ( http://arxiv.org/abs/2209.13209v1 )

ライセンス: Link先を確認
Simon Templier and Pierrick Cheiney and Quentin d'Armagnac de Castanet and Baptiste Gouraud and Henri Porte and Fabien Napolitano and Philippe Bouyer and Baptiste Battelier and Brynle Barrett(参考訳) 堅牢で正確な加速度追跡は、多くの分野において依然として課題である。 地質学や経済地質学では、正確な重力マッピングには、正確な位置決めとナビゲーションシステムと組み合わさるセンサーが必要である。 低温原子ベースの量子慣性センサーは、そのような高精度な機器を提供する可能性がある。 しかし、現在のスカラー楽器はベクトル量と正確なアライメントを必要とする。 本稿では,3つの直交原子干渉計と古典的ナビゲーショングレードの加速度計を組み合わせ,量子優位性を生かした最初のハイブリッド3軸加速度計について述べる。 その超低バイアスは、長い時間スケールで加速ベクトルを追跡できる ― 従来の加速度計よりも50倍安定性が向上している(6 \times 10^{-8}~g$)。 加速度ベクトルを高いデータレート(1 khz)で記録し、絶対等級の精度は10$\mu g$以下で、4$\mu$radの精度を示す。 これにより、将来のストラップダウンアプリケーションを量子センサーで実現し、将来の慣性ナビゲーションユニットとしての可能性を強調することができる。

Robust and accurate acceleration tracking remains a challenge in many fields. For geophysics and economic geology, precise gravity mapping requires onboard sensors combined with accurate positioning and navigation systems. Cold-atom-based quantum inertial sensors can potentially provide such high-precision instruments. However, current scalar instruments require precise alignment with vector quantities. Here, we present the first hybrid three-axis accelerometer exploiting the quantum advantage to measure the full acceleration vector by combining three orthogonal atom interferometer measurements with a classical navigation-grade accelerometer triad. Its ultra-low bias permits tracking the acceleration vector over long timescales -- yielding a 50-fold improvement in stability ($6 \times 10^{-8}~g$) over our classical accelerometers. We record the acceleration vector at a high data rate (1 kHz), with absolute magnitude accuracy below 10 $\mu g$, and pointing accuracy of 4 $\mu$rad. This paves the way toward future strapdown applications with quantum sensors and highlights their potential as future inertial navigation units.
翻訳日:2023-01-25 00:30:54 公開日:2022-09-27
# ダイヤモンド中の高密度窒素空洞アンサンブルにおける核スピン偏極と再生のための最適マイクロ波制御パルス

Optimal microwave control pulse for nuclear spin polarization and readout in dense nitrogen-vacancy ensembles in diamond ( http://arxiv.org/abs/2209.13173v1 )

ライセンス: Link先を確認
V.V. Soshenko, I.S. Cojocaru, S.V. Bolshedvorskii, O.R. Rubinas, V.N. Sorokin, A.N. Smolyaninov and A.V. Akimov(参考訳) 核スピンを持つ窒素空洞中心は、新しい核スピンジャイロスコープの候補として有望である。 核スピン状態の生成は、核スピンを利用するセンサーを実装するための重要なステップである。 低磁場下では、電子スピンの偏極から核スピンへの人口移動をマイクロ波パルスを用いて利用する。 先に提案した狭帯域マイクロ波パルスの使用は、磁気遷移が十分に解決されていない場合、特に自然に炭素原子を多く含むダイヤモンドや窒素空洞中心の密集したアンサンブルに適用した場合、非効率である。 本研究では,比較的容易な3つのパルス形状に対するパルス形状の最適化を行った。 この最適化は、実質的に重要な窒素濃度(5-50ppm)に対応する様々な磁気遷移線幅に対して行われた。 その結果, 低窒素濃度下では, 単純な正方形パルスに最適化パルスをほとんど加えず, 密度の窒素空隙アンサンブルの場合, 1.5MHzの最適パルスの磁化遷移幅が比較的広い場合には, 目標状態の個体数の15%の改善が認められた。

Nitrogen-vacancy centers possessing nuclear spins are promising candidates for a novel nuclear spin gyroscope. Preparation of a nuclear spin state is a crucial step to implement a sensor that utilizes a nuclear spin. In a low magnetic field, such a preparation utilizes population transfer, from polarized electronic spin to nuclear spin, using microwave pulses. The use of the narrowband microwave pulse proposed earlier is inefficient when magnetic transitions are not well resolved, particularly when applied to diamond with a natural abundance of carbon atoms or dense ensembles of nitrogen-vacancy centers. In this study, the authors performed optimization of the pulse shape for 3 relatively easily accessible pulse shapes. The optimization was done for a range of magnetic transition linewidths, corresponding to the practically important range of nitrogen concentrations (5-50 ppm). It was found that, while at low nitrogen concentrations, optimized pulse added very little to simple square shape pulse, and in the case of dense nitrogen-vacancy ensembles, with a rather wide magnetic transition width of 1.5 MHz optimal pulses, a factor of 15% improvement in the population of the target state was observed.
翻訳日:2023-01-25 00:30:39 公開日:2022-09-27
# most-likelyパスによる雑音環境における量子状態準備制御

Quantum state-preparation control in noisy environment via most-likely paths ( http://arxiv.org/abs/2209.13164v1 )

ライセンス: Link先を確認
Wirawat Kokaew, Thiparat Chotibut, Areeya Chantasri(参考訳) オープン量子システムの最適制御を見つけるには、望ましくない環境騒音の影響を考慮する必要がある。 ノイズの実際の実現や状態は通常不明であるため、量子系の力学に対する通常の処理はリンドブラッド・マスター方程式(Lindblad Master equation)を介して行われ、本質的には未知のノイズに影響を受けるシステムの状態の平均的な進化(経路)を記述する。 そこで本研究では, 平均ダイナミクスを仮定した雑音量子軌道に解き放ち, 雑音発生の可能性に基づく状態準備問題に対する新しい最適制御戦略を提案する。 量子状態準備のための最もよく似た経路手法を採用し、ノイズ変数に対する確率的経路積分を構築し、ターゲット状態を達成するために最もよく似たノイズに関連する制御関数を見つける。 概念実証として,この手法をデファスノイズ下での量子状態準備に適用し,任意の対象状態に対する制御されたrabiドライブを解析的に解く。 提案手法はノイズの確率に基づいて構築されているため,新しい状態準備尺度として忠実度成功率を導入し,既存の平均経路アプローチに対する最好の経路制御をベンチマークする。

Finding optimal controls for open quantum systems needs to take into account effects from unwanted environmental noise. Since actual realizations or states of the noise are typically unknown, the usual treatment for the quantum system's dynamics is via the Lindblad master equation, which in essence describes an average evolution (mean path) of the system's state affected by the unknown noise. We here consider an alternative view of a noise-affected open quantum system, where the average dynamics can be unravelled into hypothetical noisy quantum trajectories, and propose a new optimal control strategy for the state-preparation problem based on the likelihood of noise occurrence. We adopt the most-likely path technique for quantum state-preparation, constructing a stochastic path integral for noise variables and finding control functions associated with the most-likely noise to achieve target states. As a proof of concept, we apply the method to a qubit-state preparation under a dephasing noise and analytically solve for controlled Rabi drives for arbitrary target states. Since the method is constructed based on the probability of noise, we also introduce a fidelity success rate as a new measure of the state preparation and benchmark our most-likely path controls against the existing mean-path approaches.
翻訳日:2023-01-25 00:30:18 公開日:2022-09-27
# 磁場独立型serf磁力計

Magnetic Field Independent SERF Magnetometer ( http://arxiv.org/abs/2209.13086v1 )

ライセンス: Link先を確認
Mark Dikopoltsev, Uriel Levy, Or Katz(参考訳) アルカリ金属スピンの密集したアンサンブルに基づくserf磁力計は、磁場に対する測定および投影感度の記録を保持する精密量子センサーであり、$\mu\textrm{g}-m\textrm{g}$ range である。 しかし、電磁界では、ランダムなスピン交換衝突によるスピンデコヒーレンスによる磁気感度が急速に低下する。 ここでは、核スピンが$I=1/2$の原子がスピン交換緩和自由(SERF)系で動作できることが分かるが、磁場のどの大きさにおいても。 高密度で光学的にアクセスできない(i=1/2)$ガスと他の光学的にアクセス可能なスピンガス(i>1/2$)との衝突が、後者の基本磁気感度を改善することを直観的に示す。 本研究では,二種カリウムおよび水素磁気センサの性能を解析し,地磁気学的条件下での基本的な感度を約10\,\mathrm{at}\sqrt{\mathrm{cm}^3/\mathrm{hz}}$とする。

SERF magnetometers based on dense ensembles of alkali-metal spins are precision quantum sensors that hold the record of measured and projected sensitivity to magnetic fields, in the $\mu\textrm{G}-m\textrm{G}$ range. At geomagnetic fields however, these sensors quickly lose their magnetic sensitivity due to spin decoherence by random spin-exchange collisions. Here we discover that atoms with nuclear spin $I=1/2$ can operate in the Spin-Exchange Relaxation Free (SERF) regime but for any magnitude of the magnetic field. We counter-intuitively show that frequent collisions between a dense and optically-inaccessible $(I=1/2)$ gas with another optically-accessible spin gas ($I>1/2$) improve the fundamental magnetic sensitivity of the latter. We analyze the performance of a dual-specie potassium and atomic hydrogen magnetometer, and project a fundamental sensitivity of about $10\,\mathrm{aT}\sqrt{\mathrm{cm}^3/\mathrm{Hz}}$ at geomagnetic fields for feasible experimental conditions.
翻訳日:2023-01-25 00:29:58 公開日:2022-09-27
# セキュアキーリースによる機能暗号化

Functional Encryption with Secure Key Leasing ( http://arxiv.org/abs/2209.13081v1 )

ライセンス: Link先を確認
Fuyuki Kitagawa and Ryo Nishimaki(参考訳) セキュアなソフトウェアリースは量子暗号プリミティブであり、それを量子状態にエンコードすることで、ユーザにソフトウェアをリースすることができる。 セキュアソフトウェアリースには、返却されたソフトウェアが有効であるかどうかを検証するメカニズムがある。 セキュリティの概念は、ユーザが有効な形式でソフトウェアを返却したら、ユーザはもはやソフトウェアを使わないことを保証します。 本研究では,秘密鍵機能暗号(SKFE)の概念を導入し,秘密鍵機能暗号(Secret-key functional encryption, SKFE)をセキュアな鍵リースで導入する。 また、標準的な暗号の仮定でインスタンス化する。 より具体的には、私たちの貢献は以下の通りです。 -セキュアなキーリースでSKFEの構文とセキュリティ定義を定義します。 -追加の仮定を使わずに安全な鍵リースで標準SKFEからSKFEへの変換を実現する。 特に,P/polyに対する有界コロシアン耐性SKFEは,P/polyに対する有界コロシアン耐性SKFEのインスタンス化が可能なため,量子後片道関数に基づくセキュアキーリースが可能である。 以前のセキュアソフトウェアリーススキームでは、(正当なプラットフォーム上で)正直な評価アルゴリズムで動作する海賊ソフトウェアのみをキャプチャする。 しかしながら、我々のセキュアキーリース概念は任意の攻撃戦略を捕捉し、そのような制限を持たない。 また,単一復号器FE(SDFE)の概念を導入し,各復号鍵をコピー保護する。 コピー保護はセキュアなソフトウェアリースよりも強力なプリミティブであるため、この概念はセキュアな鍵リースを持つfeよりも強力な暗号プリミティブと見なすことができる。 より具体的には: - SDFEの構文とセキュリティ定義を定義する。 誤り問題のある学習の難読化と量子ハードネスからp/poly用コルージョン耐性シングルデクリプタpkfeを実現する。

Secure software leasing is a quantum cryptographic primitive that enables us to lease software to a user by encoding it into a quantum state. Secure software leasing has a mechanism that verifies whether a returned software is valid or not. The security notion guarantees that once a user returns a software in a valid form, the user no longer uses the software. In this work, we introduce the notion of secret-key functional encryption (SKFE) with secure key leasing, where a decryption key can be securely leased in the sense of secure software leasing. We also instantiate it with standard cryptographic assumptions. More specifically, our contribution is as follows. - We define the syntax and security definitions for SKFE with secure key leasing. - We achieve a transformation from standard SKFE into SKFE with secure key leasing without using additional assumptions. Especially, we obtain bounded collusion-resistant SKFE for P/poly with secure key leasing based on post-quantum one-way functions since we can instantiate bounded collusion-resistant SKFE for P/poly with the assumption. Some previous secure software leasing schemes capture only pirate software that runs on an honest evaluation algorithm (on a legitimate platform). However, our secure key leasing notion captures arbitrary attack strategies and does not have such a limitation. We also introduce the notion of single-decryptor FE (SDFE), where each functional decryption key is copy-protected. Since copy-protection is a stronger primitive than secure software leasing, this notion can be seen as a stronger cryptographic primitive than FE with secure key leasing. More specifically: - We define the syntax and security definitions for SDFE. - We achieve collusion-resistant single-decryptor PKFE for P/poly from post-quantum indistinguishability obfuscation and quantum hardness of the learning with errors problem.
翻訳日:2023-01-25 00:29:13 公開日:2022-09-27
# 量子カルダーバンク・Shor-Steane符号の古典的積コード構成

Classical product code constructions for quantum Calderbank-Shor-Steane codes ( http://arxiv.org/abs/2209.13474v1 )

ライセンス: Link先を確認
Dimiter Ostrev, Davide Orsucci, Francisco L\'azaro, Balazs Matuz(参考訳) コード生成物のいくつかの概念は、超グラフ生成物、ホモロジー生成物、持ち上げ生成物、平衡生成物など、量子エラー補正で知られている。 本稿では,古典的製品コードから量子コードへの自然な一般化である新しい製品コード構築について紹介する:一組のコンポーネントであるCalderbank-Shor-Steane (CSS)コードから始め,古典的製品コードに$X$パリティチェックと$Z$パリティチェックが関連付けられた大きなCSSコードを得る。 我々は、製品cssコードのいくつかの特性を、コード距離の境界を含むコンポーネントコードの特性から推測し、パリティチェックの組み込み冗長性がいわゆるメタチェックとなり、シンドロームの読み出しエラーを訂正するために悪用されることを示した。 次に、古典的ドメインにおいて製品コードを構築するのに共通の選択肢である単一パリティチェック(SPC)製品コードについて専門化する。 パラメータ$[[512,174,8]]$のspc製品cssコードの論理誤差率シミュレーションは、消去チャネルの最大許容デコーダと非分極ノイズの信念伝搬デコードの両方の下に示される。 結果は、漸近的に優れた量子タンナー符号のファミリーのコードを含む、ブロック長とレートに匹敵する他のコードと比較する。 当社のリファレンス製品CSSコードは、他の検査済みコードよりも優れています。

Several notions of code products are known in quantum error correction, such as hyper-graph products, homological products, lifted products, balanced products, to name a few. In this paper we introduce a new product code construction which is a natural generalisation of classical product codes to quantum codes: starting from a set of component Calderbank-Shor-Steane (CSS) codes, a larger CSS code is obtained where both $X$ parity checks and $Z$ parity checks are associated to classical product codes. We deduce several properties of product CSS codes from the properties of the component codes, including bounds on the code distance, and show that built-in redundancies in the parity checks result in so-called meta-checks which can be exploited to correct syndrome read-out errors. We then specialise to the case of single-parity-check (SPC) product codes which in the classical domain are a common choice for constructing product codes. Logical error rate simulations of a SPC $3$-fold product CSS code having parameters $[[512,174,8]]$ are shown under both a maximum likelihood decoder for the erasure channel and belief propagation decoding for depolarising noise. We compare the results with other codes of comparable block length and rate, including a code from the family of asymptotically good quantum Tanner codes. We observe that our reference product CSS code outperforms all other examined codes.
翻訳日:2023-01-25 00:24:16 公開日:2022-09-27
# 任意位相回転をもつ一般化量子 Google PageRank アルゴリズム

Generalized Quantum Google PageRank Algorithm with Arbitrary Phase Rotations ( http://arxiv.org/abs/2209.13451v1 )

ライセンス: Link先を確認
Sergio A. Ortega, Miguel A. Martin-Delgado(参考訳) PageRankアルゴリズムの量子化は、将来の量子インターネットにとって有望なツールである。 ここでは,szegedyの量子ウォークに任意の位相回転(apr)を導入する量子ページランクの修正を提案する。 3つの異なるAPRスキームを1つの位相のみを自由度として定義する。 我々は,新しいアルゴリズムの挙動を小さな汎用グラフで解析し,相の低下が瞬時ページランクの標準偏差を減少させ,ネットワークのノードの識別性が向上することを示した。 しかし、アルゴリズムの収束にはより多くの時間がかかるため、位相を任意に減らすことはできない。 これらの結果から、後に複雑なスケールフリーグラフにアルゴリズムを適用するための位相の具体的値を選択する。 これらのネットワークでは、元の量子PageRankは残留ノードの縮退を破り、古典的なアルゴリズムが抑制する二次ハブを検出することができる。 それでも、検出されたセカンダリハブのすべてが、PageRankの定義に従って現実であるわけではない。 いくつかのAPRスキームはこの問題を克服し、残留ノードの劣化を回復し、ネットワークの真の二次ハブを強調する。 最後に,新しいアルゴリズムの安定性について検討した。 元の量子アルゴリズムは古典よりも安定であることが知られていた。 我々は、PageRank分布が古典的アルゴリズムに似ている新しいアルゴリズムの1つが、元の量子アルゴリズムに類似した安定性があることを発見した。

The quantization of the PageRank algorithm is a promising tool for a future quantum internet. Here we present a modification of the quantum PageRank introducing arbitrary phase rotations (APR) in the underlying Szegedy's quantum walk. We define three different APR schemes with only one phase as a degree of freedom. We have analyzed the behavior of the new algorithms in a small generic graph, observing that a decrease of the phase reduces the standard deviation of the instantaneous PageRank, so the nodes of the network can be distinguished better. However, the algorithm takes more time to converge, so the phase can not be decreased arbitrarily. With these results we choose a concrete value for the phase to later apply the algorithm to complex scale-free graphs. In these networks, the original quantum PageRank is able to break the degeneracy of the residual nodes and detect secondary hubs that the classical algorithm suppresses. Nevertheless, not all of the detected secondary hubs are real according to the PageRank's definition. Some APR schemes can overcome this problem, restoring the degeneration of the residual nodes and highlighting the truly secondary hubs of the networks. Finally, we have studied the stability of the new algorithms. The original quantum algorithm was known to be more stable than the classical. We have found that one of our new algorithms whose PageRank distribution resembles the classical one, has a stability similar to the original quantum algorithm.
翻訳日:2023-01-25 00:23:47 公開日:2022-09-27
# $H \to ZZ$におけるエンタングルメントとベルの不等式のテスト

Testing entanglement and Bell inequalities in $H \to ZZ$ ( http://arxiv.org/abs/2209.13441v1 )

ライセンス: Link先を確認
J. A. Aguilar-Saavedra, A. Bernal, J. A. Casas and J. M. Moreno(参考訳) 量子エンタングルメントとベルの不等式に対する$H\rightarrow ZZ$崩壊、特に2つの$Z-$ボソンが光レプトンに崩壊した場合について論じる。 このようなプロセスは統計学の重要な抑制を意味するが、これは「準極端に絡み合った」システムからのクリーンな信号によって交換され、これらの重要な現象を高エネルギーで確認することが非常に有望である。 本稿では,この目標,特にスピン相関観測可能性に関するすべての重要な情報を,$h \to zz$データから抽出する新しい枠組みを考案する。 この文脈では、2つのパラメータしか持たないエンタングルメントの十分かつ必要な条件を導出する。 同様にベル型不等式違反に対する十分かつ改善された条件を得る。 数値解析により、光度$L = 300 \text{fb}^{-1}$エンタングルメントが$>3\sigma$レベルで探索できることが示されている。 l = 3 \text{ab}^{-1}$ (hl-lhc) の場合、エンタングルメントは 5\sigma$ レベルを超えて調べられるが、ベルの不等式違反に対する感度は 4.5\sigma$ レベルである。

We discuss quantum entanglement and violation of Bell inequalities in the $H\rightarrow ZZ$ decay, in particular when the two $Z-$bosons decay into light leptons. Although such process implies an important suppression of the statistics, this is traded by clean signals from a "quasi maximally-entangled" system, which makes it very promising to check these crucial phenomena at high energy. In this paper we devise a novel framework to extract from $H \to ZZ$ data all significant information related to this goal, in particular spin correlation observables. In this context we derive sufficient and necessary conditions for entanglement in terms of only two parameters. Likewise, we obtain a sufficient and improved condition for the violation of Bell-type inequalities. The numerical analysis shows that with a luminosity of $L = 300 \text{fb}^{-1}$ entanglement can be probed at $> 3\sigma$ level. For $L = 3 \text{ab}^{-1}$ (HL-LHC) entanglement can be probed beyond the $5\sigma$ level, while the sensitivity to a violation of the Bell inequalities is at the $4.5\sigma$ level
翻訳日:2023-01-25 00:23:14 公開日:2022-09-27
# スピン-1Jaynes-Cummingsモデルにおける強い単一光子対2光子束放出

Strong single-photon to two-photon bundles emission in spin-1 Jaynes-Cummings model ( http://arxiv.org/abs/2209.13390v1 )

ライセンス: Link先を確認
Jing Tang and Yuangang Deng(参考訳) 強い単一原子空洞結合状態を超えた高品質な特殊非古典状態の実現は、量子情報科学の基本的な要素である。 本稿では、単一スピン-1原子と光学キャビティを結合した非古典的光子放出をスピン-1ジェインズ・カミングスモデルを用いて研究する。 二次ゼーマンシフトをチューニングすることにより、よく解決されたn-光子共鳴の着衣状態の分裂に関してエネルギースペクトルの非調和性を著しく向上することができる。 光子放出は、それぞれキャビティと原子駆動のケースで大きな光子数を持つ高品質の単一光子束と2光子束の特性を示す。 より興味深いことに、強い単光子ブロックから2光子バンドルへの非古典的な光スイッチと超ポアソニアン光子放出は、原子とキャビティ駆動場の両方の存在下での光キャビティデチューニングによって達成され、高制御可能である。 提案手法は,高品質なn-光子源を生成するための新たな道を開くだけでなく,量子ネットワークや量子メトロロジーにおける多様な応用を提供する。

The realization of high-quality special nonclassical states beyond strong single atom-cavity coupling regime is a fundamental element in quantum information science. Here, we study the nonclassical photon emission in a single spin-1 atom coupled to an optical cavity with constructing a spin-1 Jaynes-Cummings model. By tuning quadratic Zeeman shift, the energy-spectrum anharmonicity can be significantly enhanced with respect to the dressed-state splitting of well-resolved n-photon resonance largely increased. The photon emission exhibit high-quality single photon and two-photon bundles properties with large photon numbers in the cavity and atom driven cases, respectively. More interestingly, nonclassical optical switching from strong single-photon blockade to two-photon bundles and super-Poissonian photon emission is achieved and highly controllable by light-cavity detuning in the presence of both atom and cavity driven fields. Our proposal not only open up a new avenue for generating high-quality n-photon sources but also provide versatile applications in quantum networks and quantum metrology.
翻訳日:2023-01-25 00:22:51 公開日:2022-09-27
# 指数補正からブラックホールエントロピーへの非可換インスパイアされたブラックホールのシグネチャとスマー公式

Signatures of noncommutative inspired black holes from exponential corrections to the black hole entropy and the Smarr formula ( http://arxiv.org/abs/2209.13383v1 )

ライセンス: Link先を確認
Soham Sen, Ashis Saha, and Sunandan Gangopadhyay(参考訳) 最近、[\href{https://link.aps.org/doi/10.1103/PhysRevLett.125.041302}{Physに示されている。 Rev. Lett. 125 (2020) 041302}] ブラックホールの地平線上に存在する量子状態のマイクロ状態カウントは、ブラックホールエントロピーのbekenstein-hawking形式において、$\exp(-a/4l_p^2)$という形の補正をもたらす。 この手紙では、与えられた地平線半径に対するブラックホールのエントロピーから時空幾何学の可能な形を得るための新しいアプローチを開発する。 与えられたエネルギー-運動量テンソルに対するこの解の特異性についても議論されている。 興味深いことに、再構成されたブラックホールの幾何学は、非可換性にインスパイアされたシュワルツシルトブラックホール [\href{https://www.sciencedirect.com/science/article/pii/S0370269305016126}{Phys] に類似している。 Lett! B 632 (2006) 547}. また、ブラックホールの熱力学から再構成した測度に対してアインシュタイン場方程式を用いて物質密度関数を得る。 これらはまた、非可換なインスパイアされたシュワルツシルトブラックホールの物質密度関数と類似している。 最終的に、コマールエネルギーとスマール公式を有効ブラックホール幾何に対して計算し、非可換インスパイアされたシュワルツシルトブラックホールと比較する。 我々はまた、この解の天体物理学的な意味についても論じる。

It has been recently shown in [\href{https://link.aps.org/doi/10.1103/PhysRevLett.125.041302}{Phys. Rev. Lett. 125 (2020) 041302}] that microstate counting carried out for quantum states residing on the horizon of a black hole leads to a correction of the form $\exp(-A/4l_p^2)$ in the Bekenstein-Hawking form of the black hole entropy. In this letter we develop a novel approach to obtain the possible form of the spacetime geometry from the entropy of the black hole for a given horizon radius. The uniqueness of this solution for a given energy-momentum tensor has also been discussed. Remarkably, the black hole geometry reconstructed has striking similarities to that of noncommutative inspired Schwarzschild black holes [\href{https://www.sciencedirect.com/science/article/pii/S0370269305016126}{Phys. Lett. B 632 (2006) 547}]. We also obtain the matter density functions using the Einstein's field equations for the geometries we reconstruct from thermodynamics of black holes. These also have similarities to that of the matter density function of a noncommutative inspired Schwarzschild black hole. We finally compute the Komar energy and the Smarr formula for the effective black hole geometry and compare it with that of the noncommutative inspired Schwarzschild black hole. We also discuss some astrophysical implications of the solutions.
翻訳日:2023-01-25 00:22:32 公開日:2022-09-27
# 複合系に対するストラトノヴィチ・ワイル公理の一般化

Generalizing Stratonovich-Weyl axioms for composite systems ( http://arxiv.org/abs/2209.13298v1 )

ライセンス: Link先を確認
Arsen Khvedelidze(参考訳) 量子力学の統計モデルはヒルベルト空間上の作用素と位相空間上の関数の間の写像に基づいている。 この写像は物理的に動機づけられたストラトノヴィチ・ワイル公理を満たす作用素によって実装できる。 項は、量子系の合成の性質について事前知識があることを前提として、公理の特定の拡張を好んで与えられる。

The statistical model of quantum mechanics is based on the mapping between operators on the Hilbert space and functions on the phase space. This map can be implemented by an operator that satisfies physically motivated Stratonovich-Weyl axioms. Arguments are given in favour of a certain extension of the axioms, provided that there is a priori knowledge about the composite nature of the quantum system.
翻訳日:2023-01-25 00:20:29 公開日:2022-09-27
# クリフォードカナリア回路の多種多様なアンサンブルによる量子忠実度向上

Boosting Quantum Fidelity with an Ordered Diverse Ensemble of Clifford Canary Circuits ( http://arxiv.org/abs/2209.13732v1 )

ライセンス: Link先を確認
Gokul Subramanian Ravi, Jonathan M. Baker, Kaitlin N. Smith, Nathan Earnest, Ali Javadi-Abhari, Frederic Chong(参考訳) 今日のノイズの多い不完全な量子デバイスでは、実行の忠実さは少数の量子ビットを超えるほとんどのアプリケーションにとって劇的に崩壊する傾向がある。 したがって、新しい方法で量子忠実性を高める新しい技術を採用することが不可欠である。 量子カナリア順序付けられた多様なアンサンブルは、極端に低忠実度な量子応用の結果を特定するための基本的な新しいアプローチである。 これは量子デバイスの多様性というキーとなる考え方に基づいており、ノイズ源のバリエーション、各(aのポート)デバイスをユニークにするため、アプリケーションの忠実性にも影響する。 quancordeはクリフォード・カナリア回路(伝統的にシミュレート可能であるが、ターゲットアプリケーション構造に類似しており、同様の構造ノイズの影響を受けている)を使用して、ターゲットアプリケーションの忠実度を高める方向に沿って、デバイスやクビット/マッピングの多様なアンサンブルを注文する。 次に、Quarkcordeは、アプリケーションの各出力文字列のアンサンブルワイド確率とカナリアアンサンブル順序の相関を推定し、この相関を使ってアプリケーションのノイズの多い確率分布を重み付けする。 正しい適用結果がカナリアアンサンブルの順序と高い相関性を持つことが期待され、この過程でその確率が向上する。 quancordeは評価された量子アプリケーションの信頼性を8.9x/4.2x(異なるベースライン)と最大34倍向上させる。

On today's noisy imperfect quantum devices, execution fidelity tends to collapse dramatically for most applications beyond a handful of qubits. It is therefore imperative to employ novel techniques that can boost quantum fidelity in new ways. This paper aims to boost quantum fidelity with Clifford canary circuits by proposing Quancorde: Quantum Canary Ordered Diverse Ensembles, a fundamentally new approach to identifying the correct outcomes of extremely low-fidelity quantum applications. It is based on the key idea of diversity in quantum devices - variations in noise sources, make each (portion of a) device unique, and therefore, their impact on an application's fidelity, also unique. Quancorde utilizes Clifford canary circuits (which are classically simulable, but also resemble the target application structure and thus suffer similar structural noise impact) to order a diverse ensemble of devices or qubits/mappings approximately along the direction of increasing fidelity of the target application. Quancorde then estimates the correlation of the ensemble-wide probabilities of each output string of the application, with the canary ensemble ordering, and uses this correlation to weight the application's noisy probability distribution. The correct application outcomes are expected to have higher correlation with the canary ensemble order, and thus their probabilities are boosted in this process. Doing so, Quancorde improves the fidelity of evaluated quantum applications by a mean of 8.9x/4.2x (wrt. different baselines) and up to a maximum of 34x.
翻訳日:2023-01-25 00:13:17 公開日:2022-09-27
# 量子回路アルゴリズムに関するソフトウェア科学の展望

Software science view on quantum circuit algorithms ( http://arxiv.org/abs/2209.13731v1 )

ライセンス: Link先を確認
Yuri Gurevich and Andreas Blass(参考訳) 量子回路図の抽象化レベルにおいて、量子回路アルゴリズムは、我々が以前に研究した対話的逐次アルゴリズムの種類に属することを示す。 この観察は、量子回路アルゴリズムの自然な仕様言語に繋がる。

We show that, on the abstraction level of quantum circuit diagrams, quantum circuit algorithms belong to the species of interactive sequential algorithms that we studied in earlier work. This observation leads to a natural specification language for quantum circuit algorithms.
翻訳日:2023-01-25 00:12:45 公開日:2022-09-27
# 確率原子運動と3レベル原子との絡み合い

Entanglement Between Stochastic Atomic Motion and Three-Level Atom ( http://arxiv.org/abs/2209.13707v1 )

ライセンス: Link先を確認
Ahmed Salah, M. A. El-Sayed and N. H. Abdel Wahab(参考訳) 本稿では,原子運動を考慮した場合の1モードの空洞場と相互作用する1時間依存3レベル原子間のエントロピーと動的絡み合いの研究に興味がある。 波動関数の正確な解析解は、特定の初期条件に対してシュリンガー方程式を用いて与えられる。 この系の場エントロピーを非共振の場合で検討する。 変形パラメータと原子運動が絡み合い度に及ぼす影響について検討した。 重ね合わせパラメータと原子運動の両方がフォン・ノイマンのエントロピーと原子集団の進化において重要な役割を担っていることを示す。 最後に、結論といくつかの特徴が与えられます。

In this paper, we are interested in studying entropy and dynamics entanglement between a single time dependent three-level atom interacting with one-mode cavity field when the atomic motion is taken into account. An exact analytical solution for the wave function is given by using Schr\"odinger equation for a specific initial condition. The field entropy of this system is investigated in the non-resonant case. The influences of the detuning parameters and atomic motion on the entanglement degree are examined. We show that both of the detuning parameters and atomic motion play important roles in the evolution of von Neumann entropy and atomic populations. Finally, conclusion and some features are given.
翻訳日:2023-01-25 00:12:40 公開日:2022-09-27
# 4つのシリコン量子ドット量子ビットの実現可能な時間結晶

A realizable time crystal of four silicon quantum dot qubits ( http://arxiv.org/abs/2209.13649v1 )

ライセンス: Link先を確認
Nathan L. Foulk and Sankar Das Sarma(参考訳) 量子フロケ物質の励起可能な実現は、量子ドットに基づく現代のシリコンスピン量子ビット(特に離散時間結晶(DTC))の到達範囲内であることを示す。 これはスピン量子ビットが他の量子ビットアーキテクチャよりもサイズと制御の点で遅れていることを考えると重要である。 しかし、シリコンスピン量子ビットはこのタスクに特に適しており、通常はホイルズゲート演算を行う電荷ノイズはこの時間結晶の実現において資産として利用することができる。 熱前現象と真の時間結晶時空間秩序の差異を説明する。 4量子ビットのスピン鎖であっても、離散時間結晶とフロッケ対称性を保護した位相相(fspt)のシグネチャを観測することでリッチな位相構造が確立できることを実証する。 また、これらのシグネチャの長鎖長の持続性を解析し、DTC寿命がシステム長とともに指数関数的に増加し、これらのシグネチャが3量子ビットの鎖でも検出可能であることを示した。 また、より長いパルス持続時間の影響と、交換相互作用をイジングモデルに変換するためのパルスシーケンスの有効性についても論じる。 我々の理論的予測は、既存の量子ドットスピン量子ビットシステムを用いた直接実験の実装に適している。

We demonstrate that exciting possible realizations of quantum Floquet matter are within reach for modern silicon spin qubits based in quantum dots, most notably the discrete time crystal (DTC). This is significant given that spin qubits have fallen behind other qubit architectures in terms of size and control. However, silicon spin qubits are especially well suited to this task, as the charge noise that usually foils gate operations can now be leveraged as an asset in this time crystal realization. We illustrate differences between prethermal phenomena and true time-crystalline spatiotemporal order. We demonstrate that even for a spin chain of four qubits, rich phase structures can be established by observing signatures of the discrete time crystal and the Floquet symmetry-protected topological phase (FSPT), both distinct from the thermal phase. We also analyze the persistence of these signatures at longer chain lengths, showing that the DTC lifetime grows exponentially with the system length, and that these signatures may even be detectable for chains as small as three qubits. We also discuss the effects of longer pulse durations and the effectiveness of pulse sequences for converting the exchange interaction to an Ising model. Our theoretical predictions are well-suited for immediate experimental implementations using currently existing quantum dot spin qubit systems.
翻訳日:2023-01-25 00:12:12 公開日:2022-09-27
# 量子エルミティアン系と非エルミティアン系におけるベリー相と等価古典系におけるハンナイ相との関係

Relation between the Berry phase in quantum hermitian and non-hermitian systems and the Hannay phase in the equivalent classical systems ( http://arxiv.org/abs/2209.13630v1 )

ライセンス: Link先を確認
H. Fanchiotti, C.A. Garcia Canal, M. Mayosky, A. Veiga and V. Vento(参考訳) ベリーが長年前に発見した量子断熱進化におけるよく知られた幾何学的位相は、古典的な領域においてハンナイ相(Hannay phase)と類似しており、量子エルミートおよび非エルミートな$PT$対称ハミルトニアンの例でベリー相を計算し、古典的な等価量においてハンナイ相と比較する。

The well-known geometric phase present in the quantum adiabatic evolution discovered by Berry many years ago has its analogue, the Hannay phase, in the classical domain.We calculate the Berry phase with examples for quantum hermitian and non-hermitian $PT$-symmetric Hamiltonians and compare with the Hannay phase in their classical equivalents.We use the analogy to propose resonant electric circuits which reproduce the theoretical solutions in simulated laboratory experiments.
翻訳日:2023-01-25 00:11:52 公開日:2022-09-27
# nasduck serf: serf comagnetometer による軸状暗黒物質に対する新しい制約

NASDUCK SERF: New constraints on axion-like dark matter from a SERF comagnetometer ( http://arxiv.org/abs/2209.13588v1 )

ライセンス: Link先を確認
Itay M. Bloch, Roy Shaham, Yonit Hochberg, Eric Kuflik, Tomer Volansky, Or Katz (for the NASDUCK Collaboration)(参考訳) 超軽い軸状粒子は、宇宙の暗黒物質と源の異常な時間依存磁場を構成する、よく動機づけられた遺物である。 スピン交換緩和自由(SERF)系で作動するコマグネトロン検出器において、希ガス原子とアルカリ金属原子の原子核を用いた中性子と陽子との粒子の結合に関する新しい地磁気的境界について報告する。 1ヶ月の探索で、1.4\times 10^{-12}$ eV/$c^2$ to $2\times 10^{-10}$~eV/$c^2$の質量範囲をカバーし、この範囲内の多くの質量に対して、強い天体物理学的境界を超越し、以前の地球上の制約を最大2桁まで改善する世界誘導限界を提供する。 これらは、陽子と公転子のような暗黒物質との結合について報告された最初の信頼できる地球境界であり、そのパラメータ空間における新しい未探索の地形をカバーしている。

Ultralight axion-like particles are well-motivated relics that might compose the cosmological dark matter and source anomalous time-dependent magnetic fields. We report on new terrestrial bounds on the coupling of axion-like particles to neutrons and protons using the nuclei of noble-gas and alkali-metal atoms in a comagnetometer detector operating in the Spin-Exchange Relaxation-Free~(SERF) regime. Conducting a month-long search, we cover the mass range of $1.4\times 10^{-12}$ eV/$c^2$ to $2\times 10^{-10}$~eV/$c^2$ and provide world-leading limits which supersede robust astrophysical bounds and improve upon previous terrestrial constraints by up to two orders of magnitudes for many masses within this range. These are the first reliable terrestrial bounds reported on the coupling of protons with axion-like dark matter, covering a new and unexplored terrain in its parameter space.
翻訳日:2023-01-25 00:11:39 公開日:2022-09-27
# 多レベル量子システムに対するレート方程式アプローチ

Rate-equation approach for multi-level quantum systems ( http://arxiv.org/abs/2209.13505v1 )

ライセンス: Link先を確認
M. P. Liul and S. N. Shevchenko(参考訳) 量子システムの強い駆動は、状態の制御と特性化の両方の機会を開く。 これらの性質の理論的研究には、レート方程式形式を用いる。 このアプローチの利点はその相対的な単純さである。 我々は,2段階システム(TLS)の記述に形式的手法を用い,多段階システムの場合をさらに拡張した。 得られた理論結果は実験とよく一致している。 このアプローチは、量子系の性質や、例えばランダウ=ツェナー=シュタッケルベルク=ホルダナ遷移や干渉のような物理過程を探求する新たな方法の1つと見なすこともできる。

Strong driving of quantum systems opens opportunities for both controlling and characterizing their states. For theoretical studying of these systems properties we use the rate-equation formalism. The advantage of such approach is its relative simplicity. We used the formalism for description of a two-level system (TLS) with further expanding it on a case of a multi-level system. Obtained theoretical results have good agreement with experiments. The presented approach can also be considered as one more way to explore properties of quantum systems and underlying physical processes such as for instance Landau-Zener-Stuckelberg-Majorana transitions and interference.
翻訳日:2023-01-25 00:10:51 公開日:2022-09-27
# 単一時間モードで一貫した光の導波源:良い、悪い、悪い

Waveguided sources of consistent, single-temporal-mode squeezed light: the good, the bad, and the ugly ( http://arxiv.org/abs/2209.13491v1 )

ライセンス: Link先を確認
Martin Houde and Nicol\'as Quesada(参考訳) 本研究は, ポンプの明るさが, 固定パラメトリック波導波路により発生するスクイーズ状態の時間モード構造にどのように影響するかを理論的に検討した。 量子コンピューティングやヘラルド状態生成のためのリソースとしてこれらの状態を使用する場合、これらの圧縮状態の時間的モードは部分的に不一致し、識別可能であることが判明した。 共用周波数フィルタリング法を実験的に研究することにより, 不明瞭性を取り戻すことができるが, 状態の純度を大幅に低下させる可能性があることを見出した。 非ポッド化シングルパス、アポッド化シングルパス、アポッド化ダブルパスの3つのソース構成を検討した。 両パス構成は、明るさの異なる程度でほぼ完全に区別不可能な状態の最適結果が得られる。

We study theoretically how the brightness of pumps, with fixed profiles, affects the temporal mode structure of squeezed states generated by fixed parametric waveguided sources. We find that the temporal modes of these squeezed states can be partially mismatched and thus distinguishable, which is undesirable when using these states as resources for quantum computing or heralded state generation. By studying common frequency filtering techniques used experimentally, we find that although one can regain indistinguishability it comes at the price of potentially greatly reducing the purity of the state. We consider three different source configurations: unapodized single pass, apodized single pass, and apodized double pass. We find that the double pass configuration produces optimal results with almost perfectly indistinguishable states over varying degrees of brightness.
翻訳日:2023-01-25 00:10:43 公開日:2022-09-27
# 高次元多様体上のランゲヴィンダイナミクスのためのデータ駆動効率的な解法

Data-driven Efficient Solvers for Langevin Dynamics on Manifold in High Dimensions ( http://arxiv.org/abs/2005.12787v3 )

ライセンス: Link先を確認
Yuan Gao, Jian-Guo Liu, Nan Wu(参考訳) 未知多様体 $\mathcal{m}$ をプローブする実測点 $\{\mathsf{x}_i\}_{i=1}^n \subset \mathcal{m}$ に基づいて、多様体構造 $\mathcal{m}\subset\mathbb{r}^p$ を持つ物理系のランゲバン力学を研究する。 拡散写像を通して、まず、$\{\mathsf{y}_i\}_{i=1}^n\subset \mathcal{n}$ と$\{\mathsf{x}_i\}_{i=1}^n$ に対応する反応座標を学習する。 反応座標における$\mathcal{N}$上のランゲヴィンの誘導力学は、生化学反応のコンフォメーション変化のような遅い時間スケールのダイナミクスを捉える。 $\mathcal{N}$ 上のランゲヴィン力学の効率的かつ安定した近似を構築するために、反応座標 $\mathsf{y}$ の観点から、多様体 $\mathcal{N}$ 上の対応するフォッカー・プランク方程式を利用する。 このFokker-Planck方程式に対して実装可能で非条件で安定なデータ駆動有限体積スキームを提案し、$\mathcal{N}$の多様体構造を自動的に組み込む。 さらに、$\mathcal{N}$上のFokker-Planck方程式に対する有限体積スキームの重み付き$L^2$収束解析を提供する。 提案する有限体積スキームは、近似した遷移確率と最近傍点間のジャンプ率を持つ、$\{\mathsf{y}_i\}_{i=1}^n$ 上のマルコフ連鎖をもたらす。 無条件で安定な明示的な時間離散化の後、データ駆動有限体積スキームは$\mathcal{N}$上のランゲヴィン力学の近似マルコフ過程を与え、近似マルコフ過程は詳細なバランス、エルゴディディディティ、その他の良い性質を享受する。

We study the Langevin dynamics of a physical system with manifold structure $\mathcal{M}\subset\mathbb{R}^p$ based on collected sample points $\{\mathsf{x}_i\}_{i=1}^n \subset \mathcal{M}$ that probe the unknown manifold $\mathcal{M}$. Through the diffusion map, we first learn the reaction coordinates $\{\mathsf{y}_i\}_{i=1}^n\subset \mathcal{N}$ corresponding to $\{\mathsf{x}_i\}_{i=1}^n$, where $\mathcal{N}$ is a manifold diffeomorphic to $\mathcal{M}$ and isometrically embedded in $\mathbb{R}^\ell$ with $\ell \ll p$. The induced Langevin dynamics on $\mathcal{N}$ in terms of the reaction coordinates captures the slow time scale dynamics such as conformational changes in biochemical reactions. To construct an efficient and stable approximation for the Langevin dynamics on $\mathcal{N}$, we leverage the corresponding Fokker-Planck equation on the manifold $\mathcal{N}$ in terms of the reaction coordinates $\mathsf{y}$. We propose an implementable, unconditionally stable, data-driven finite volume scheme for this Fokker-Planck equation, which automatically incorporates the manifold structure of $\mathcal{N}$. Furthermore, we provide a weighted $L^2$ convergence analysis of the finite volume scheme to the Fokker-Planck equation on $\mathcal{N}$. The proposed finite volume scheme leads to a Markov chain on $\{\mathsf{y}_i\}_{i=1}^n$ with an approximated transition probability and jump rate between the nearest neighbor points. After an unconditionally stable explicit time discretization, the data-driven finite volume scheme gives an approximated Markov process for the Langevin dynamics on $\mathcal{N}$ and the approximated Markov process enjoys detailed balance, ergodicity, and other good properties.
翻訳日:2022-11-30 09:53:17 公開日:2022-09-27
# 協調学習のためのメタクラスタリング

Meta Clustering for Collaborative Learning ( http://arxiv.org/abs/2006.00082v3 )

ライセンス: Link先を確認
Chenglong Ye, Reza Ghanadan, Jie Ding(参考訳) 協調学習では、学習者はそれぞれの学習性能を高めるために協調する。 学習者の視点から見れば、重要な課題は、資格のない協力者をフィルタリングすることである。 この課題に対処するため,メタクラスタリングというフレームワークを提案する。 データポイントをクラスタリングする従来の問題とは異なり、メタクラスタリングは学習者を分類する。 各学習者が独立したローカルデータセット上で教師付き回帰を行うと仮定し、教師付き関数によって学習者を分類するsec(select-exchange-cluster)法を提案する。 理論的には、SECは学習者を正確なコラボレーションセットにまとめることができる。 実証的研究は、理論解析を裏付け、SECが計算的に効率的であり、学習者の不均一性に対して堅牢であり、シングルラーナーのパフォーマンス向上に有効であることを示す。 また,提案手法がデータの公平性向上にどのように役立つかを示す。 この記事の補足資料はオンラインで入手できる。

In collaborative learning, learners coordinate to enhance each of their learning performances. From the perspective of any learner, a critical challenge is to filter out unqualified collaborators. We propose a framework named meta clustering to address the challenge. Unlike the classical problem of clustering data points, meta clustering categorizes learners. Assuming each learner performs a supervised regression on a standalone local dataset, we propose a Select-Exchange-Cluster (SEC) method to classify the learners by their underlying supervised functions. We theoretically show that the SEC can cluster learners into accurate collaboration sets. Empirical studies corroborate the theoretical analysis and demonstrate that SEC can be computationally efficient, robust against learner heterogeneity, and effective in enhancing single-learner performance. Also, we show how the proposed approach may be used to enhance data fairness. Supplementary materials for this article are available online.
翻訳日:2022-11-26 22:55:10 公開日:2022-09-27
# 医療における機械学習の活用を促進するアクティブインフォームドコンセント

Active Informed Consent to Boost the Application of Machine Learning in Medicine ( http://arxiv.org/abs/2210.08987v1 )

ライセンス: Link先を確認
Marco Gerardi, Katarzyna Barud, Marie-Catherine Wagner, Nikolaus Forgo, Francesca Fallucchi, Noemi Scarpato, Fiorella Guadagni, Fabio Massimo Zanzotto(参考訳) 機械学習は、精密医学の研究を前例のない高みに押し上げるかもしれない。 機械学習を成功させるためには、個人データを含む大量のデータが必要である。 そのため、精密医療に応用された機械学習は崖の端にあり、飛行を学ばなければ深く落ちてしまう。 本稿では,機械学習のための大量のデータの収集を促進するための新しいハイブリッド法・技術ツールとして,アクティブインフォームドコンセント(aic)を提案する。 我々は、この技術ツールの欧州市民のプライバシーを守る法的複雑さに対するコンプライアンスを慎重に分析した。

Machine Learning may push research in precision medicine to unprecedented heights. To succeed, machine learning needs a large amount of data, often including personal data. Therefore, machine learning applied to precision medicine is on a cliff edge: if it does not learn to fly, it will deeply fall down. In this paper, we present Active Informed Consent (AIC) as a novel hybrid legal-technological tool to foster the gathering of a large amount of data for machine learning. We carefully analyzed the compliance of this technological tool to the legal intricacies protecting the privacy of European Citizens.
翻訳日:2022-10-23 20:52:45 公開日:2022-09-27
# 連合学習におけるクライアント選択のフロンティアのスナップショット

A Snapshot of the Frontiers of Client Selection in Federated Learning ( http://arxiv.org/abs/2210.04607v1 )

ライセンス: Link先を確認
Gergely D\'aniel N\'emeth, Miguel \'Angel Lozano, Novi Quadrianto, Nuria Oliver(参考訳) 分散機械学習におけるプライバシー保護手法としてフェデレートラーニング(FL)が提案されている。 フェデレーション学習アーキテクチャは、中央サーバと、プライベートで潜在的に機密性の高いデータにアクセス可能な多数のクライアントで構成される。 クライアントはデータをローカルマシンに保持し、ローカルにトレーニングされたモデルのパラメータのみを、コラボレーティブな学習プロセスを管理する中央サーバと共有することができる。 FLは医療、エネルギー、ファイナンスといった現実のシナリオで有望な成果を上げている。 しかし、参加するクライアントの数が多い場合には、クライアントの管理のオーバーヘッドが学習を遅くする。 したがって、プロセスの各ステップにおける通信相手の数を制限する戦略としてクライアントの選択が導入されている。 初期のna\"{i} はクライアントをランダムに選択して以来、いくつかのクライアント選択手法が文献に提案されている。 残念ながら、これは創発的なフィールドであることを考えると、クライアント選択メソッドの分類が欠けているため、アプローチの比較が困難である。 本稿では,フェデレーテッド・ラーニングにおけるクライアント選択の分類法を提案し,この分野における現在の進歩と,この将来的な機械学習分野における将来的な研究分野の特定を可能にする。

Federated learning (FL) has been proposed as a privacy-preserving approach in distributed machine learning. A federated learning architecture consists of a central server and a number of clients that have access to private, potentially sensitive data. Clients are able to keep their data in their local machines and only share their locally trained model's parameters with a central server that manages the collaborative learning process. FL has delivered promising results in real-life scenarios, such as healthcare, energy, and finance. However, when the number of participating clients is large, the overhead of managing the clients slows down the learning. Thus, client selection has been introduced as a strategy to limit the number of communicating parties at every step of the process. Since the early na\"{i}ve random selection of clients, several client selection methods have been proposed in the literature. Unfortunately, given that this is an emergent field, there is a lack of a taxonomy of client selection methods, making it hard to compare approaches. In this paper, we propose a taxonomy of client selection in Federated Learning that enables us to shed light on current progress in the field and identify potential areas of future research in this promising area of machine learning.
翻訳日:2022-10-16 16:27:37 公開日:2022-09-27
# ヒンディー語とタミル語における質問に対する抽出的回答

Extractive Question Answering on Queries in Hindi and Tamil ( http://arxiv.org/abs/2210.06356v1 )

ライセンス: Link先を確認
Adhitya Thirumala, Elisa Ferracane(参考訳) ヒンディー語やタミル語のような言語は、英語のような言語と比較して自然言語処理(NLP)の分野では不足している。 この表現不足のため、Indic言語におけるNLPタスク(検索アルゴリズムなど)のパフォーマンスは、英語のタスクよりも劣っている。 この違いは、地域言語で最もインターネットのコンテンツを消費するため、低い社会経済的地位から来る人々に影響を与える。 このプロジェクトの目的は、ヒンディー語とタミル語の公共データセット上でqa(extractive question-answering)タスクのための既存のモデルよりも優れたnlpモデルを構築することである。 抽出QAは、対応するテキストから質問に対する回答を抽出するNLPタスクである。 最良のソリューションを構築するために、3つの異なるモデルを使いました。 最初のモデルは、XLM-RoBERTaとして知られるNLPモデルのRoBERTaの、修正されていない言語間バージョンで、100言語で事前訓練されている。 第2のモデルは、事前訓練されたRoBERTaモデルに基づいており、質問応答のための追加の分類ヘッドを備えているが、カスタムのIndicトークンライザを使用して、ハイパーパラメータを最適化し、Indicデータセットに微調整した。 3番目のモデルはXLM-RoBERTaをベースにしているが、Indicデータセットで追加の微調整とトレーニングを行う。 我々は,XLM-RoBERTaモデルが事前訓練された言語の種類と,Indicデータセットに付加的な微調整を加えることで,第3のモデルが最高の性能を示すと仮定する。 この仮説は、使用したトレーニングデータがヒンディー語やタミル語にはない多くのデータを持つXLM-RoBERTaモデルと対照的に実行されたタスクに最も特化しているため、ペアのRoBERTaモデルが最もうまく機能していたことが証明された。

Indic languages like Hindi and Tamil are underrepresented in the natural language processing (NLP) field compared to languages like English. Due to this underrepresentation, performance on NLP tasks (such as search algorithms) in Indic languages are inferior to their English counterparts. This difference disproportionately affects those who come from lower socioeconomic statuses because they consume the most Internet content in local languages. The goal of this project is to build an NLP model that performs better than pre-existing models for the task of extractive question-answering (QA) on a public dataset in Hindi and Tamil. Extractive QA is an NLP task where answers to questions are extracted from a corresponding body of text. To build the best solution, we used three different models. The first model is an unmodified cross-lingual version of the NLP model RoBERTa, known as XLM-RoBERTa, that is pretrained on 100 languages. The second model is based on the pretrained RoBERTa model with an extra classification head for the question answering, but we used a custom Indic tokenizer, then optimized hyperparameters and fine tuned on the Indic dataset. The third model is based on XLM-RoBERTa, but with extra finetuning and training on the Indic dataset. We hypothesize the third model will perform best because of the variety of languages the XLM-RoBERTa model has been pretrained on and the additional finetuning on the Indic dataset. This hypothesis was proven wrong because the paired RoBERTa models performed the best as the training data used was most specific to the task performed as opposed to the XLM-RoBERTa models which had much data that was not in either Hindi or Tamil.
翻訳日:2022-10-16 16:27:20 公開日:2022-09-27
# 一般化した凸最適化

Dueling Convex Optimization with General Preferences ( http://arxiv.org/abs/2210.02562v1 )

ライセンス: Link先を確認
Aadirupa Saha, Tomer Koren, Yishay Mansour(参考訳) ここでは, より弱いフィードバック形式を与えられた凸関数の最小化を目標とする, デュエルリングフィードバックによるemph{convex最適化の問題に対処する。 各クエリは2つのポイントで構成され、デュエルフィードバックは2つのクエリポイントの関数値の(ノイズの多い)単一ビットバイナリ比較を返す。 関数値の単一の比較ビットへの変換は \emph{transfer function} を通して行われる。 この問題は以前いくつかの制限された転送関数のクラスに対して解決されてきたが、ここでは極小次数$p$の有限多項式で近似できるすべての関数を含む非常に一般的な転送関数クラスを考える。 我々の主な貢献は、滑らかな凸目的関数に対して$\smash{\widetilde O}(\epsilon^{-4p})$の収束率と、その目的が滑らかで強凸であるときに$$\smash{\widetilde O}(\epsilon^{-2p})$の最適率を持つ効率的なアルゴリズムである。

We address the problem of \emph{convex optimization with dueling feedback}, where the goal is to minimize a convex function given a weaker form of \emph{dueling} feedback. Each query consists of two points and the dueling feedback returns a (noisy) single-bit binary comparison of the function values of the two queried points. The translation of the function values to the single comparison bit is through a \emph{transfer function}. This problem has been addressed previously for some restricted classes of transfer functions, but here we consider a very general transfer function class which includes all functions that can be approximated by a finite polynomial with a minimal degree $p$. Our main contribution is an efficient algorithm with convergence rate of $\smash{\widetilde O}(\epsilon^{-4p})$ for a smooth convex objective function, and an optimal rate of $\smash{\widetilde O}(\epsilon^{-2p})$ when the objective is smooth and strongly convex.
翻訳日:2022-10-09 17:11:29 公開日:2022-09-27
# 家族による指紋分析:位置紙

Family-Based Fingerprint Analysis: A Position Paper ( http://arxiv.org/abs/2209.15620v1 )

ライセンス: Link先を確認
Carlos Diego Nascimento Damasceno and Daniel Str\"uber(参考訳) 毎月、national vulnerability databaseなどのセキュリティリポジトリに何千もの脆弱性が報告されている。 これらの脆弱性のうち、ソフトウェアの設定ミスはwebアプリケーションのセキュリティリスクのトップ10の1つです。 この大規模な脆弱性報告によって、ソフトウェアフィンガープリントは、独特で効率的なシグネチャを発見し、脆弱なソフトウェア実装を認識するために、非常に望ましい機能になっている。 指紋マッチングの最悪ケースが指数関数的に複雑になるため、指紋認証のためのより効率的な方法の設計が極めて望ましいものとなり、特にオプション機能によってその分析に別の指数関数的要素が加えられる可変性集約システムでは特に好まれる。 本稿では,モデル学習と家族分析の原則をソフトウェアフィンガープリントに適用するフレームワークの展望を示す。 本稿では,署名のデータベースを特徴的有限状態機械に統一し,存在条件を用いて与えられた入力出力トレースが観測される状況と状況を特定する。 機能ベースのシグネチャは,解析対象の指紋のサイズを小さくすることで,パフォーマンスの向上に役立つと考えている。

Thousands of vulnerabilities are reported on a monthly basis to security repositories, such as the National Vulnerability Database. Among these vulnerabilities, software misconfiguration is one of the top 10 security risks for web applications. With this large influx of vulnerability reports, software fingerprinting has become a highly desired capability to discover distinctive and efficient signatures and recognize reportedly vulnerable software implementations. Due to the exponential worst-case complexity of fingerprint matching, designing more efficient methods for fingerprinting becomes highly desirable, especially for variability-intensive systems where optional features add another exponential factor to its analysis. This position paper presents our vision of a framework that lifts model learning and family-based analysis principles to software fingerprinting. In this framework, we propose unifying databases of signatures into a featured finite state machine and using presence conditions to specify whether and in which circumstances a given input-output trace is observed. We believe feature-based signatures can aid performance improvements by reducing the size of fingerprints under analysis.
翻訳日:2022-10-09 17:11:09 公開日:2022-09-27
# ヨーロッパ列島における電力系統周波数の予測

Predicting the power grid frequency of European islands ( http://arxiv.org/abs/2209.15414v1 )

ライセンス: Link先を確認
Thorbj{\o}rn Lund Onsaker and Heidi S. Nyg{\aa}rd and Dami\`a Gomila and Pere Colet and Ralf Mikut and Richard Jumar and Heiko Maass and Uwe K\"uhnapfel and Veit Hagenmeyer and Dirk Witthaut and Benjamin Sch\"afer(参考訳) 電力網のダイナミクスとその周波数のモデリング、予測、および全体的な理解は、既存の電力網および将来の電力網の安全な運用に不可欠である。 以前の研究は大きな大陸地域に焦点を当てていたが、島のような小さなシステムはあまり研究されていない。 これらの自然島システムは、マイクログリッドの提案と人工島グリッド運用のための理想的なテスト環境である。 本稿では,ヨーロッパ列島(フェロー諸島,アイルランド,バレアレス諸島,アイスランド)における電力系統周波数の測定を行い,北欧の電力系統と比較し,その周波数の予測について検討した。 バレア諸島は特に決定論的であり、予測が難しいアイスランドとは対照的に予測が容易である。 さらに,単純なベンチマーク以上の予測性能向上には,通常2~4週間のデータが必要であることを示す。

Modelling, forecasting and overall understanding of the dynamics of the power grid and its frequency is essential for the safe operation of existing and future power grids. Much previous research was focused on large continental areas, while small systems, such as islands are less well-studied. These natural island systems are ideal testing environments for microgrid proposals and artificially islanded grid operation. In the present paper, we utilize measurements of the power grid frequency obtained in European islands: the Faroe Islands, Ireland, the Balearic Islands and Iceland and investigate how their frequency can be predicted, compared to the Nordic power system, acting as a reference. The Balearic islands are found to be particularly deterministic and easy to predict in contrast to hard-to-predict Iceland. Furthermore, we show that typically 2-4 weeks of data are needed to improve prediction performance beyond simple benchmarks.
翻訳日:2022-10-09 17:10:29 公開日:2022-09-27
# 平均場型ニューラルネットワーク確率制御の逆訓練による安定性

Stability Via Adversarial Training of Neural Network Stochastic Control of Mean-Field Type ( http://arxiv.org/abs/2210.00874v1 )

ライセンス: Link先を確認
Julian Barreiro-Gomez and Salah Eddine Choutri and Boualem Djehiche(参考訳) 本稿では,ニューラルネットワークの平均場型制御へのアプローチと,その確率的安定性を逆入力(別名逆攻撃)を用いて解析する。 これはデータ駆動平均場型制御のクラスであり、システム状態や制御入力などの変数の分布が問題に組み込まれている。 さらに,ニューラルネットワークによる解の近似の有効性を検証し,その安定性を評価する手法を提案する。 さらに,学習セットを逆入力で拡張し,より頑健なニューラルネットワークを得ることにより,安定性を高める。 最後に,線形二乗平均場型制御問題 (LQ-MTC) に基づく実例を示し,提案手法について述べる。

In this paper, we present an approach to neural network mean-field-type control and its stochastic stability analysis by means of adversarial inputs (aka adversarial attacks). This is a class of data-driven mean-field-type control where the distribution of the variables such as the system states and control inputs are incorporated into the problem. Besides, we present a methodology to validate the feasibility of the approximations of the solutions via neural networks and evaluate their stability. Moreover, we enhance the stability by enlarging the training set with adversarial inputs to obtain a more robust neural network. Finally, a worked-out example based on the linear-quadratic mean-field type control problem (LQ-MTC) is presented to illustrate our methodology.
翻訳日:2022-10-09 17:10:13 公開日:2022-09-27
# ターゲット外なバックドアwatermark: 有害でステルスなデータセットの著作権保護を目指す

Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection ( http://arxiv.org/abs/2210.00875v1 )

ライセンス: Link先を確認
Yiming Li, Yang Bai, Yong Jiang, Yong Yang, Shu-Tao Xia, Bo Li(参考訳) ディープニューラルネットワーク(DNN)は、実際にその優位性を実証している。 おそらくdnnsの急速な発展は、研究者や開発者が簡単に学習方法を評価し改善できる高品質な(オープンソース)データセットの恩恵を受けている。 データ収集は通常、時間を要するか、あるいは費用がかかるため、著作権を保護する方法は非常に重要であり、さらなる調査に値する。 本稿では,データセットの所有権検証を再考する。 既存の検証手法では,保護されたデータセット上でトレーニングされたdnnに新たなセキュリティリスクが導入された。 この問題を軽減するため,本研究では,異常モデル行動が決定論的でない,未目標のバックドア透かし方式について検討する。 具体的には、2つの分散性を導入し、それらの相関性を証明し、有害ラベルとクリーンラベルの両方の設定で未ターゲットのバックドア透かしを設計する。 また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。 ベンチマークデータセットにおける実験は、提案手法の有効性と既存のバックドア防御に対する耐性を検証する。 我々のコードは \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark} で利用可能です。

Deep neural networks (DNNs) have demonstrated their superiority in practice. Arguably, the rapid development of DNNs is largely benefited from high-quality (open-sourced) datasets, based on which researchers and developers can easily evaluate and improve their learning methods. Since the data collection is usually time-consuming or even expensive, how to protect their copyrights is of great significance and worth further exploration. In this paper, we revisit dataset ownership verification. We find that existing verification methods introduced new security risks in DNNs trained on the protected dataset, due to the targeted nature of poison-only backdoor watermarks. To alleviate this problem, in this work, we explore the untargeted backdoor watermarking scheme, where the abnormal model behaviors are not deterministic. Specifically, we introduce two dispersibilities and prove their correlation, based on which we design the untargeted backdoor watermark under both poisoned-label and clean-label settings. We also discuss how to use the proposed untargeted backdoor watermark for dataset ownership verification. Experiments on benchmark datasets verify the effectiveness of our methods and their resistance to existing backdoor defenses. Our codes are available at \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark}.
翻訳日:2022-10-09 17:03:50 公開日:2022-09-27
# 短繊維複合材料の経路依存循環変形に対するマイクロメカニクスに基づくリカレントニューラルネットワークモデル

A micromechanics-based recurrent neural networks model for path-dependent cyclic deformation of short fiber composites ( http://arxiv.org/abs/2210.00842v1 )

ライセンス: Link先を確認
J. Friemann, B. Dashtbozorg, M. Fagerstr\"om, S.M. Mirkhalaf(参考訳) 短繊維強化複合材料のマクロ応答は, 広範囲のミクロ組織パラメータに依存する。 したがって、これらの材料のマイクロメカニカルモデリングは困難であり、場合によっては計算コストがかかる。 これは、経路依存的なプラスチックの挙動を予測する必要がある場合に特に重要である。 この課題の解決策は、人工ニューラルネットワークのような機械学習技術によるマイクロメカニカルソリューションを強化することである。 本研究では, 短繊維強化複合材料の経路依存性弾塑性応力応答を予測するために, 微細構造パラメータとひずみ経路を考慮し, 繰り返し深部ニューラルネットワークモデルを訓練した。 マイクロメカニカル平均場シミュレーションを行い、モデルの検証をトレーニングするためのデータベースを作成する。 このモデルは、独立したマイクロメカニカルシミュレーションと比較した場合、計算的に非常に正確な予測を与える。

The macroscopic response of short fiber reinforced composites is dependent on an extensive range of microstructural parameters. Thus, micromechanical modeling of these materials is challenging and in some cases, computationally expensive. This is particularly important when path-dependent plastic behavior is needed to be predicted. A solution to this challenge is to enhance micromechanical solutions with machine learning techniques such as artificial neural networks. In this work, a recurrent deep neural network model is trained to predict the path-dependent elasto-plastic stress response of short fiber reinforced composites, given the microstructural parameters and the strain path. Micromechanical meanfield simulations are conducted to create a data base for training the validating the model. The model gives very accurate predictions in a computationally efficient manner when compared with independent micromechanical simulations.
翻訳日:2022-10-09 17:03:29 公開日:2022-09-27
# 光文字認識におけるデータ拡張のための3次元レンダリングフレームワーク

3D Rendering Framework for Data Augmentation in Optical Character Recognition ( http://arxiv.org/abs/2209.14970v1 )

ライセンス: Link先を確認
Andreas Spruck, Maximiliane Hawesch, Anatol Maier, Christian Riess, J\"urgen Seiler, Andr\'e Kaup(参考訳) 本稿では,光学文字認識(OCR)のためのデータ拡張フレームワークを提案する。 提案されたフレームワークは、利用可能なocrデータセットを効果的に強化し、新しい視野角と照明シナリオを合成することができる。 そのモジュール構造は、個々のユーザ要求に合うように修正できる。 このフレームワークは利用可能なデータセットの拡大係数を快適にスケールすることができる。 さらに,提案手法は単一フレームOCRに限らず,ビデオOCRにも適用可能である。 一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。 提案するフレームワークはOCRアプリケーションの性能を特に小さなデータセットに活用することができる。 提案手法の適用により,文字誤り率(CER)の最大2.79ポイント,単語誤り率(WER)の最大7.88ポイントの改善を実現した。 特に、難解なテキスト行の認識を改善することができる。 cer は 14.92 パーセンテージポイント、wer は 18.19 パーセンテージポイントまで減少することができる。 さらに,提案手法で拡張した15%サブセットのトレーニングにおいて,元の非拡張フルデータセットよりも少ない誤差率を実現することができる。

In this paper, we propose a data augmentation framework for Optical Character Recognition (OCR). The proposed framework is able to synthesize new viewing angles and illumination scenarios, effectively enriching any available OCR dataset. Its modular structure allows to be modified to match individual user requirements. The framework enables to comfortably scale the enlargement factor of the available dataset. Furthermore, the proposed method is not restricted to single frame OCR but can also be applied to video OCR. We demonstrate the performance of our framework by augmenting a 15% subset of the common Brno Mobile OCR dataset. Our proposed framework is capable of leveraging the performance of OCR applications especially for small datasets. Applying the proposed method, improvements of up to 2.79 percentage points in terms of Character Error Rate (CER), and up to 7.88 percentage points in terms of Word Error Rate (WER) are achieved on the subset. Especially the recognition of challenging text lines can be improved. The CER may be decreased by up to 14.92 percentage points and the WER by up to 18.19 percentage points for this class. Moreover, we are able to achieve smaller error rates when training on the 15% subset augmented with the proposed method than on the original non-augmented full dataset.
翻訳日:2022-09-30 18:04:07 公開日:2022-09-27
# 繰り返しStripeノイズ除去のためのディープアンフォールディング

Deep Unfolding for Iterative Stripe Noise Removal ( http://arxiv.org/abs/2209.14973v1 )

ライセンス: Link先を確認
Zeshan Fayyaz, Daniel Platnick, Hannan Fayyaz, Nariman Farsad(参考訳) 赤外線イメージングシステムの不均一光電応答により、赤外線画像に重畳される固定パターンストライプノイズが画像品質を著しく低下させる。 劣化した赤外線画像の応用は限られており、元の細部を効果的に保存することが重要である。 既存の画像デストリップ手法は、すべてのノイズアーティファクトを同時に除去し、画像の詳細と構造を保存し、リアルタイムのパフォーマンスのバランスをとるのに苦労する。 本稿では,劣化画像の除去アルゴリズムを提案する。このアルゴリズムは,近傍のカラム信号相関を利用して,独立したカラムストリップノイズを除去する。 これは、1つのネットワークイテレーションの推定ノイズを次のイテレーションの入力として使用する反復的ディープ展開アルゴリズムによって達成される。 この進歩は、可能な関数近似の探索空間を大幅に減らし、より大きなデータセットの効率的なトレーニングを可能にする。 提案手法により,ストリップノイズをより正確に推定し,シーンの詳細をより正確に保存することができる。 実験結果から,提案手法は,定量的評価と定性評価の両面において,既存のデストリップ法よりも優れていることが示された。

The non-uniform photoelectric response of infrared imaging systems results in fixed-pattern stripe noise being superimposed on infrared images, which severely reduces image quality. As the applications of degraded infrared images are limited, it is crucial to effectively preserve original details. Existing image destriping methods struggle to concurrently remove all stripe noise artifacts, preserve image details and structures, and balance real-time performance. In this paper we propose a novel algorithm for destriping degraded images, which takes advantage of neighbouring column signal correlation to remove independent column stripe noise. This is achieved through an iterative deep unfolding algorithm where the estimated noise of one network iteration is used as input to the next iteration. This progression substantially reduces the search space of possible function approximations, allowing for efficient training on larger datasets. The proposed method allows for a more precise estimation of stripe noise to preserve scene details more accurately. Extensive experimental results demonstrate that the proposed model outperforms existing destriping methods on artificially corrupted images on both quantitative and qualitative assessments.
翻訳日:2022-09-30 16:52:23 公開日:2022-09-27
# LapGM:マルチシーケンスMRバイアス補正と正規化モデル

LapGM: A Multisequence MR Bias Correction and Normalization Model ( http://arxiv.org/abs/2209.13619v1 )

ライセンス: Link先を確認
Luciano Vinas, Arash A. Amini, Jade Fischer, and Atchar Sudhyadhom(参考訳) バイアス場補正と磁気共鳴正規化問題に対して空間正規化ガウス混合モデルであるlapdmが提案されている。 提案する空間正規化器は,複数系列の磁気共鳴画像に対するバイアスフィールド除去と画像コントラスト保存のバランスを微調整した制御を行う。 LapGMのガウスパラメータは、異なる患者スキャンにおける画像強度の正規化に使用できる制御値として機能する。 LapGMは、シングルシーケンスとマルチシーケンスの両方でよく知られたデバイアスアルゴリズムN4ITKと比較される。 正規化手順として、lapgmはmax正規化、z-score正規化、および水まみれのinterest正規化のような既知の技術と比較される。 最後に、CUDAアクセラレーションされたPythonパッケージ$\texttt{lapgm}$が作者から提供されている。

A spatially regularized Gaussian mixture model, LapGM, is proposed for the bias field correction and magnetic resonance normalization problem. The proposed spatial regularizer gives practitioners fine-tuned control between balancing bias field removal and preserving image contrast preservation for multi-sequence, magnetic resonance images. The fitted Gaussian parameters of LapGM serve as control values which can be used to normalize image intensities across different patient scans. LapGM is compared to well-known debiasing algorithm N4ITK in both the single and multi-sequence setting. As a normalization procedure, LapGM is compared to known techniques such as: max normalization, Z-score normalization, and a water-masked region-of-interest normalization. Lastly a CUDA-accelerated Python package $\texttt{lapgm}$ is provided from the authors for use.
翻訳日:2022-09-29 18:23:46 公開日:2022-09-27
# 樹木における相関検出の統計的限界

Statistical limits of correlation detection in trees ( http://arxiv.org/abs/2209.13723v1 )

ライセンス: Link先を確認
Luca Ganassali, Laurent Massouli\'e, Guilhem Semerjian(参考訳) 本稿では、2つの観測された木$(t,t')$が独立に、あるいは相関関係にある関節分布からサンプリングされるかどうかをテストする問題に対処する。 この問題は木における相関検出と呼ばれ、2つの相関ランダムグラフに対するグラフアライメントの研究において重要な役割を果たしている。 グラフアライメントによってモチベーションされた片側テスト,すなわち,木深の限界におけるI型誤差と非消滅力を有するテストの存在条件について検討する。 平均 $\lambda>0$ と相関パラメータ $s \in (0,1)$ のポアソン子と相関したガルトン・ワットソンモデルに対して、大きな次数制限の位相遷移を $s = \sqrt{\alpha}$ で同定する。 すなわち、そのようなテストが$s \leq \sqrt{\alpha}$ に対して存在せず、$s > \sqrt{\alpha}$, for $\lambda$ が十分大きいとき、そのようなテストが存在することが証明される。 この結果はスパース系におけるグラフアライメント問題(平均ノード次数$O(1))と、ガナサリら(2021年)、ピッコリら(2021年)で研究されたMPAlign法の性能に新たな光を当て、特に相関パラメータ$s>\sqrt{\alpha}$の平均ノード次数$\lambda$が十分大きいことを証明するPiccioli et al.(2021年)の予想を証明した。

In this paper we address the problem of testing whether two observed trees $(t,t')$ are sampled either independently or from a joint distribution under which they are correlated. This problem, which we refer to as correlation detection in trees, plays a key role in the study of graph alignment for two correlated random graphs. Motivated by graph alignment, we investigate the conditions of existence of one-sided tests, i.e. tests which have vanishing type I error and non-vanishing power in the limit of large tree depth. For the correlated Galton-Watson model with Poisson offspring of mean $\lambda>0$ and correlation parameter $s \in (0,1)$, we identify a phase transition in the limit of large degrees at $s = \sqrt{\alpha}$, where $\alpha \sim 0.3383$ is Otter's constant. Namely, we prove that no such test exists for $s \leq \sqrt{\alpha}$, and that such a test exists whenever $s > \sqrt{\alpha}$, for $\lambda$ large enough. This result sheds new light on the graph alignment problem in the sparse regime (with $O(1)$ average node degrees) and on the performance of the MPAlign method studied in Ganassali et al. (2021), Piccioli et al. (2021), proving in particular the conjecture of Piccioli et al. (2021) that MPAlign succeeds in the partial recovery task for correlation parameter $s>\sqrt{\alpha}$ provided the average node degree $\lambda$ is large enough.
翻訳日:2022-09-29 18:16:36 公開日:2022-09-27
# MPC-Pipe: セキュアなマルチパーティ機械学習推論のための効率的なパイプラインスキーム

MPC-Pipe: an Efficient Pipeline Scheme for Secure Multi-party Machine Learning Inference ( http://arxiv.org/abs/2209.13643v1 )

ライセンス: Link先を確認
Yongqin Wang, Rachit Rajat, Murali Annavaram(参考訳) マルチパーティコンピューティング(MPC)は、特に機械学習(ML)推論において、セキュアなコンピューティングモデルとして近年人気を集めている。 競合他社と比較して、MPCは同型暗号化(HE)よりもオーバーヘッドが少なく、Intel SGXのようなハードウェアベースの信頼できる実行環境(TEE)よりも堅牢な脅威モデルを持っている。 明らかな優位性にもかかわらず、MPCプロトコルは、MLアルゴリズムに適用した場合の平文よりもかなりパフォーマンス上のペナルティを被っている。 オーバーヘッドは計算と通信コストの増加によるものだ。 mlアルゴリズムでユビキタスな乗算では、mpcプロトコルは32倍の計算コストと1ラウンドのブロードキャストをmpcサーバに付加する。 さらに、Softmax、ReLU、その他の非線形演算などの平文での自明なコストを持つML計算は、通信の追加により非常に高価になる。 これらのオーバーヘッドを追加することで、MPCは、音声翻訳などのリアルタイムML推論フレームワークへのデプロイが楽になる。 本研究では,ML固有の2つのアプローチを用いたMPCパイプライン推論手法であるMPC-Pipeを提案する。 1)リニア層間パイプライン及び 2)内層パイプライン。 これら2つのテクニックは、マシンラーニングモデル全体の推論ランタイムを短縮する。 実験により,モデルウェイトがプライベートな場合のML推論遅延を最大12.6%削減し,モデルウェイトがパブリックな場合の14.48\%を現行のMPCプロトコル実装と比較した。

Multi-party computing (MPC) has been gaining popularity over the past years as a secure computing model, particularly for machine learning (ML) inference. Compared with its competitors, MPC has fewer overheads than homomorphic encryption (HE) and has a more robust threat model than hardware-based trusted execution environments (TEE) such as Intel SGX. Despite its apparent advantages, MPC protocols still pay substantial performance penalties compared to plaintext when applied to ML algorithms. The overhead is due to added computation and communication costs. For multiplications that are ubiquitous in ML algorithms, MPC protocols add 32x more computational costs and 1 round of broadcasting among MPC servers. Moreover, ML computations that have trivial costs in plaintext, such as Softmax, ReLU, and other non-linear operations become very expensive due to added communication. Those added overheads make MPC less palatable to deploy in real-time ML inference frameworks, such as speech translation. In this work, we present MPC-Pipe, an MPC pipeline inference technique that uses two ML-specific approaches. 1) inter-linear-layer pipeline and 2) inner layer pipeline. Those two techniques shorten the total inference runtime for machine learning models. Our experiments have shown to reduce ML inference latency by up to 12.6% when model weights are private and 14.48\% when model weights are public, compared to current MPC protocol implementations.
翻訳日:2022-09-29 18:15:26 公開日:2022-09-27
# 局所文法に基づく符号化再訪

Local Grammar-Based Coding Revisited ( http://arxiv.org/abs/2209.13636v1 )

ライセンス: Link先を確認
{\L}ukasz D\k{e}bowski(参考訳) 局所文法に基づくコーディングの最小化の問題を再検討する。 この設定では、局所文法エンコーダは文法記号をシンボルでエンコードするが、最小文法変換は、局所文法エンコードの長さによって与えられる、事前設定された文法クラスにおける文法長を最小化する。 そのような極小符号は厳密に正のエントロピー率に対して強く普遍的であることが知られているが、極小文法における規則の数はソースの相互情報に対する上限を構成する。 完全に最小限のコードは難易度が高いが、制約のある最小のブロックコードは効率的に計算できる。 本稿では、エントロピー率に関係なく、最小ブロック符号の強い普遍性の新たな、より単純で、より一般的な証明を示す。 この証明は、ランク付けされた確率に対する単純なZipfian境界に基づいている。 ちなみに、最小ブロック符号におけるルールの数は、英語のテキストや文字のランダムな置換など、長期記憶源と無記憶源とを明確に区別できないことも実証的に示している。 これは我々の以前の期待と矛盾する。

We revisit the problem of minimal local grammar-based coding. In this setting, the local grammar encoder encodes grammars symbol by symbol, whereas the minimal grammar transform minimizes the grammar length in a preset class of grammars as given by the length of local grammar encoding. It is known that such minimal codes are strongly universal for a strictly positive entropy rate, whereas the number of rules in the minimal grammar constitutes an upper bound for the mutual information of the source. Whereas the fully minimal code is likely intractable, the constrained minimal block code can be efficiently computed. In this note, we present a new, simpler, and more general proof of strong universality of the minimal block code, regardless of the entropy rate. The proof is based on a simple Zipfian bound for ranked probabilities. By the way, we also show empirically that the number of rules in the minimal block code cannot clearly discriminate between long-memory and memoryless sources, such as a text in English and a random permutation of its characters. This contradicts our previous expectations.
翻訳日:2022-09-29 17:57:40 公開日:2022-09-27
# V2XP-ASG:車間知覚のための対向シーンの生成

V2XP-ASG: Generating Adversarial Scenes for Vehicle-to-Everything Perception ( http://arxiv.org/abs/2209.13679v1 )

ライセンス: Link先を確認
Hao Xiang, Runsheng Xu, Xin Xia, Zhaoliang Zheng, Bolei Zhou, Jiaqi Ma(参考訳) 近年の車両間通信技術の進歩により、自動運転車は感覚情報を共有できるようになり、知覚性能が向上している。 自動運転車とインテリジェントなインフラの急速な成長により、v2xの認識システムはすぐに大規模に展開されることになる。 多様な大規模な実世界のテストシーンの収集は、最も簡単なソリューションに思えるが、高価で時間がかかり、コレクションは限られたシナリオしかカバーできない。 そこで本研究では,現代のLiDARに基づくマルチエージェント認識システムにおいて,現実的で挑戦的なシーンを生成できる,最初のオープン対向シーン生成器 V2XP-ASG を提案する。 V2XP-ASGは、対向的な協調グラフを構築し、同時に複数のエージェントのポーズを対向的で妥当な方法で摂動させる。 実験により、V2XP-ASGは、広範囲のV2X知覚システムにおいて、困難なシーンを効果的に識別できることを示した。 一方、限られた数の挑戦シーンを訓練することで、V2X知覚システムの精度は、挑戦シーンで12.3%、通常のシーンで4%向上することができる。

Recent advancements in Vehicle-to-Everything communication technology have enabled autonomous vehicles to share sensory information to obtain better perception performance. With the rapid growth of autonomous vehicles and intelligent infrastructure, the V2X perception systems will soon be deployed at scale, which raises a safety-critical question: how can we evaluate and improve its performance under challenging traffic scenarios before the real-world deployment? Collecting diverse large-scale real-world test scenes seems to be the most straightforward solution, but it is expensive and time-consuming, and the collections can only cover limited scenarios. To this end, we propose the first open adversarial scene generator V2XP-ASG that can produce realistic, challenging scenes for modern LiDAR-based multi-agent perception system. V2XP-ASG learns to construct an adversarial collaboration graph and simultaneously perturb multiple agents' poses in an adversarial and plausible manner. The experiments demonstrate that V2XP-ASG can effectively identify challenging scenes for a large range of V2X perception systems. Meanwhile, by training on the limited number of generated challenging scenes, the accuracy of V2X perception systems can be further improved by 12.3% on challenging and 4% on normal scenes.
翻訳日:2022-09-29 17:57:02 公開日:2022-09-27
# 障害物移動を避けながら飛行目標を解釈する:深層マニフォールド学習による統一制御フレームワーク

Intercepting A Flying Target While Avoiding Moving Obstacles: A Unified Control Framework With Deep Manifold Learning ( http://arxiv.org/abs/2209.13628v1 )

ライセンス: Link先を確認
Apan Dastider and Mingjie Lin(参考訳) 静的な障害物や動的障害物で満たされた乱雑な環境でロボットアームによる高速移動物体のリアルタイムインターセプションは、反応時間に数十ミリ秒しかかからないため、最先端のロボット計画アルゴリズムが複数のロボットスキル(例えば、動的物体を捕捉し、障害物を避けるなど)を並行して実行するのは非常に困難かつ困難である。 本稿では,イベントストリームに含まれる高次元の時間情報を埋め込み,安全かつ衝突性のある軌道を,事前構築された2次元密結合グラフで表される低次元空間に区別することで,ロボット経路計画の統一的枠組みを提案する。 次に、高速なグラフトラバース戦略を利用して、高速な物体をインターセプトしながら、接近する障害物を効果的に回避するために必要なモータコマンドを生成する。 この手法の最も特徴的な特徴は、深部多様体学習に基づく同じアルゴリズムフレームワーク内で、オブジェクトインターセプションと障害物回避の両方を実行することである。 高効率な拡散マップに基づく変分自動符号化と拡張カルマンフィルタ(EKF)を活用することで,車載センシングと計算のみを用いた自律型7-DoFロボットアームへのアプローチの有効性を実証する。 ロボットマニピュレータは、大きさや形状の異なる複数の障害物を回避でき、手で投げられた速く動くソフトボールを、異なる角度で通常の速度で捕獲できた。 実験の完全なビデオデモは、https://sites.google.com/view/multirobotskill/homeで見ることができる。

Real-time interception of a fast-moving object by a robotic arm in cluttered environments filled with static or dynamic obstacles permits only tens of milliseconds for reaction times, hence quite challenging and arduous for state-of-the-art robotic planning algorithms to perform multiple robotic skills, for instance, catching the dynamic object and avoiding obstacles, in parallel. This paper proposes an unified framework of robotic path planning through embedding the high-dimensional temporal information contained in the event stream to distinguish between safe and colliding trajectories into a low-dimension space manifested with a pre-constructed 2D densely connected graph. We then leverage a fast graph-traversing strategy to generate the motor commands necessary to effectively avoid the approaching obstacles while simultaneously intercepting a fast-moving objects. The most distinctive feature of our methodology is to conduct both object interception and obstacle avoidance within the same algorithm framework based on deep manifold learning. By leveraging a highly efficient diffusion-map based variational autoencoding and Extended Kalman Filter(EKF), we demonstrate the effectiveness of our approach on an autonomous 7-DoF robotic arm using only onboard sensing and computation. Our robotic manipulator was capable of avoiding multiple obstacles of different sizes and shapes while successfully capturing a fast-moving soft ball thrown by hand at normal speed in different angles. Complete video demonstrations of our experiments can be found in https://sites.google.com/view/multirobotskill/home.
翻訳日:2022-09-29 17:48:20 公開日:2022-09-27
# 何を心配してるの? 新型コロナウイルスパンデミックにおける不安の実態調査

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic ( http://arxiv.org/abs/2209.13595v1 )

ライセンス: Link先を確認
Lucia L. Chen, Steven R. Wilson, Sophie Lohmann, Daniela V. Negraia(参考訳) 新型コロナウイルス(covid-19)は、パンデミックのさまざまな段階で、公衆に不釣り合いなメンタルヘルスをもたらす。 私たちは、パンデミックに対するオンラインコミュニティの不安を引き起こす特定の側面を捉え、これらの側面が時間とともにどのように変化するかを調べるために、計算的なアプローチを使用します。 まず、テーマ分析を用いて、r/COVID19\_ SupportのReddit投稿(N$=86)の9つの不安(SOA)を同定した。 次に,手動アノテーション付きサンプル(n$=793)上でアルゴリズムをトレーニングして,より大きな時系列サンプル(n$6,535)にsoaを自動的にラベル付けすることで,redditユーザの不安を定量化した。 9つのSOAは、最近開発されたパンデミックの不安測定尺度の項目と一致します。 redditのユーザーの健康リスクに対する懸念は、パンデミックの最初の8ヵ月間も高いままだった。 これらの懸念は後に発生した症例の増加にもかかわらず劇的に減少した。 一般に、パンデミックが進行するにつれて、SOAを開示するユーザの言語は激しさを増した。 しかし,本研究の期間を通じて,精神の健康と将来に対する不安が着実に高まった。 人々はまた、健康リスクや死の懸念よりも、メンタルヘルスの懸念を説明するために、より激しい言語を使う傾向があった。 以上の結果から,このオンライングループの精神健康状態は,適切な対策により,徐々に健康の脅威として弱体化しつつも必ずしも改善しないことが示唆された。 我々の制度は、人口健康と疫学研究者にとって、パンデミックの不安をタイムリーに引き起こす側面を検討するための基盤となる。

COVID-19 poses disproportionate mental health consequences to the public during different phases of the pandemic. We use a computational approach to capture the specific aspects that trigger an online community's anxiety about the pandemic and investigate how these aspects change over time. First, we identified nine subjects of anxiety (SOAs) in a sample of Reddit posts ($N$=86) from r/COVID19\_support using thematic analysis. Then, we quantified Reddit users' anxiety by training algorithms on a manually annotated sample ($N$=793) to automatically label the SOAs in a larger chronological sample ($N$=6,535). The nine SOAs align with items in various recently developed pandemic anxiety measurement scales. We observed that Reddit users' concerns about health risks remained high in the first eight months of the pandemic. These concerns diminished dramatically despite the surge of cases occurring later. In general, users' language disclosing the SOAs became less intense as the pandemic progressed. However, worries about mental health and the future increased steadily throughout the period covered in this study. People also tended to use more intense language to describe mental health concerns than health risks or death concerns. Our results suggest that this online group's mental health condition does not necessarily improve despite COVID-19 gradually weakening as a health threat due to appropriate countermeasures. Our system lays the groundwork for population health and epidemiology scholars to examine aspects that provoke pandemic anxiety in a timely fashion.
翻訳日:2022-09-29 17:32:17 公開日:2022-09-27
# 因果効果推定における外挿前の偽造

Falsification before Extrapolation in Causal Effect Estimation ( http://arxiv.org/abs/2209.13708v1 )

ライセンス: Link先を確認
Zeshan Hussain, Michael Oberst, Ming-Chieh Shih, David Sontag(参考訳) ランダム化対照試験(rcts)は、政策ガイドラインを作成する際の金本位制である。 しかし、RTTは狭いことが多く、より広い関心の人口のデータがない。 これらの集団における因果効果は、観察的データセットを用いてしばしば推定される。 観測的推定(例えば、複数の研究から)が与えられた場合、偏見のある観測的推定を拒否しようとするメタアルゴリズムを提案する。 rctと観測データの両方から推測可能な検証効果と因果効果を用いて,検証を行う。 このテストに合格しない推定子を拒絶した後、rctで観測されない部分群に対する外挿因果効果に対する保守的信頼区間を生成する。 少なくとも1つの観測推定器が漸近的に正常であり、検証効果と外挿効果の両方に一貫性があるという仮定の下で、本アルゴリズムが出力する間隔のカバレッジ確率の保証を提供する。 データセット間の因果効果伝達が必要な環境での仮説検証を容易にするため、フレキシブルな機械学習手法を用いて迷惑パラメータの推定を行う場合でも、グループ平均治療効果の二重ロバスト推定器が漸近的に正常である条件を与える。 半合成と実世界のデータセットに対する我々のアプローチの性質を説明し、標準のメタ分析技術と比較する。

Randomized Controlled Trials (RCTs) represent a gold standard when developing policy guidelines. However, RCTs are often narrow, and lack data on broader populations of interest. Causal effects in these populations are often estimated using observational datasets, which may suffer from unobserved confounding and selection bias. Given a set of observational estimates (e.g. from multiple studies), we propose a meta-algorithm that attempts to reject observational estimates that are biased. We do so using validation effects, causal effects that can be inferred from both RCT and observational data. After rejecting estimators that do not pass this test, we generate conservative confidence intervals on the extrapolated causal effects for subgroups not observed in the RCT. Under the assumption that at least one observational estimator is asymptotically normal and consistent for both the validation and extrapolated effects, we provide guarantees on the coverage probability of the intervals output by our algorithm. To facilitate hypothesis testing in settings where causal effect transportation across datasets is necessary, we give conditions under which a doubly-robust estimator of group average treatment effects is asymptotically normal, even when flexible machine learning methods are used for estimation of nuisance parameters. We illustrate the properties of our approach on semi-synthetic and real world datasets, and show that it compares favorably to standard meta-analysis techniques.
翻訳日:2022-09-29 17:31:08 公開日:2022-09-27
# 対向訓練における補助データセットを用いたデータ増幅の誘導

Inducing Data Amplification Using Auxiliary Datasets in Adversarial Training ( http://arxiv.org/abs/2209.14053v1 )

ライセンス: Link先を確認
Saehyung Lee and Hyungyu Lee(参考訳) 最近の研究では、余分な分配データを使用することで、高い対向性が得られることが示されている。 しかし、選択したデータセットに対して、常に十分な追加データを取得することができるという保証はない。 本稿では,一次データセットと補助データセットのクラス分布マッチングを必要とせず,公開可能な補助データセットを用いて,一次データセット上のトレーニングデータ増幅を誘導するバイアス付き多ドメイン逆トレーニング(BiaMAT)手法を提案する。 提案手法は,マルチドメイン学習による補助データセットを活用することで,プライマリデータセット上での対向的ロバスト性の向上を実現する。 具体的には、BiaMATの応用により、ロバストな特徴と非ロバストな特徴の両方に関するデータの増幅を理論的および実証的な分析によって達成することができる。 さらに,既存の手法は補助データと一次データとの分布的不一致により負の転送に弱いが,提案手法では,信頼度に基づく選択戦略の適用により,ドメインの不一致をうまく処理することにより,ニューラルネットワークが多様な画像データセットを柔軟に活用できることを示す。 事前訓練されたモデルとコードは以下の通りである。

Several recent studies have shown that the use of extra in-distribution data can lead to a high level of adversarial robustness. However, there is no guarantee that it will always be possible to obtain sufficient extra data for a selected dataset. In this paper, we propose a biased multi-domain adversarial training (BiaMAT) method that induces training data amplification on a primary dataset using publicly available auxiliary datasets, without requiring the class distribution match between the primary and auxiliary datasets. The proposed method can achieve increased adversarial robustness on a primary dataset by leveraging auxiliary datasets via multi-domain learning. Specifically, data amplification on both robust and non-robust features can be accomplished through the application of BiaMAT as demonstrated through a theoretical and empirical analysis. Moreover, we demonstrate that while existing methods are vulnerable to negative transfer due to the distributional discrepancy between auxiliary and primary data, the proposed method enables neural networks to flexibly leverage diverse image datasets for adversarial training by successfully handling the domain discrepancy through the application of a confidence-based selection strategy. The pre-trained models and code are available at: \url{https://github.com/Saehyung-Lee/BiaMAT}.
翻訳日:2022-09-29 17:22:54 公開日:2022-09-27
# 混合ドメイントレーニングによる地層セグメンテーションの改善

Mixed-domain Training Improves Multi-Mission Terrain Segmentation ( http://arxiv.org/abs/2209.13674v1 )

ライセンス: Link先を確認
Grace Vincent, Alice Yepremyan, Jingdao Chen, and Edwin Goh(参考訳) 惑星探査ミッションは、人間の存在はほとんど、あるいは全く存在せず、地球外探査を続けるために、機械学習に基づく知覚を利用する必要がある。 火星の地形区分は、土のサンプル収集や有機化合物の探索といったさらなる探索作業を行うために、ローバーの航行と危険回避に不可欠である。 現在の火星の地形区分モデルは、許容される性能を達成するために大量のラベル付きデータを必要とし、また、異なる領域、すなわち異なるローバーミッションまたは異なるタスク、すなわち地質学的識別とナビゲーションに対する再訓練も必要である。 本研究では,火星表面のマルチミッションセマンティクスセグメンテーションのためのバックボーンの教師なしコントラストプリトレーニングを活用した半教師付き学習手法を提案する。 このモデルは火星の現在のセグメンテーション能力を拡大し、異なる火星探査機ミッションを横断して地形の航行を可能にし、特徴の多様性を保証する混合ドメイン訓練セットを活用する。 平均画素精度を用いて評価した結果、半教師付き混合ドメインアプローチは、火星科学研究所のキュリオシティローバーの97%、2020年パーセバランスローバーの79.6%の精度で、単一ドメイントレーニングと教師付きトレーニングよりも精度が向上することが示された。 さらに、損失関数に異なる重み付け方法を提供することにより、標準クロスエントロピー損失と比較して、リコールメトリックを用いて、マイノリティクラスやレアクラスの予測を30%以上改善した。 これらの結果は、データ効率の良い方法でローバーミッションの将来のマルチミッションおよびマルチタスクセマンティクスセグメンテーションを知らせることができる。

Planetary rover missions must utilize machine learning-based perception to continue extra-terrestrial exploration with little to no human presence. Martian terrain segmentation has been critical for rover navigation and hazard avoidance to perform further exploratory tasks, e.g. soil sample collection and searching for organic compounds. Current Martian terrain segmentation models require a large amount of labeled data to achieve acceptable performance, and also require retraining for deployment across different domains, i.e. different rover missions, or different tasks, i.e. geological identification and navigation. This research proposes a semi-supervised learning approach that leverages unsupervised contrastive pretraining of a backbone for a multi-mission semantic segmentation for Martian surfaces. This model will expand upon the current Martian segmentation capabilities by being able to deploy across different Martian rover missions for terrain navigation, by utilizing a mixed-domain training set that ensures feature diversity. Evaluation results of using average pixel accuracy show that a semi-supervised mixed-domain approach improves accuracy compared to single domain training and supervised training by reaching an accuracy of 97% for the Mars Science Laboratory's Curiosity Rover and 79.6% for the Mars 2020 Perseverance Rover. Further, providing different weighting methods to loss functions improved the models correct predictions for minority or rare classes by over 30% using the recall metric compared to standard cross-entropy loss. These results can inform future multi-mission and multi-task semantic segmentation for rover missions in a data-efficient manner.
翻訳日:2022-09-29 17:06:06 公開日:2022-09-27
# XAI : 背景知識を用いた概念誘導によるデータ差分の記述

Towards Human-Compatible XAI: Explaining Data Differentials with Concept Induction over Background Knowledge ( http://arxiv.org/abs/2209.13710v1 )

ライセンス: Link先を確認
Cara Widmer, Md Kamruzzaman Sarker, Srikanth Nadella, Joshua Fiechter, Ion Juvina, Brandon Minnery, Pascal Hitzler, Joshua Schwartz, Michael Raymer(参考訳) 概念帰納法は記述論理に対する論理的論理的推論に基づいており、オントロジー(TBox)の公理をベースデータ(ABox)グラフから生成するためにオントロジー工学で用いられている。 本稿では、例えば説明可能なai(xai)の文脈において、データ微分を説明するのにも使用できることを示すとともに、人間の観察者にとって意味のある方法で実際に行うことができることを示す。 このアプローチでは、ウィキペディアのカテゴリ階層から収集した大きなクラス階層を背景知識として利用する。

Concept induction, which is based on formal logical reasoning over description logics, has been used in ontology engineering in order to create ontology (TBox) axioms from the base data (ABox) graph. In this paper, we show that it can also be used to explain data differentials, for example in the context of Explainable AI (XAI), and we show that it can in fact be done in a way that is meaningful to a human observer. Our approach utilizes a large class hierarchy, curated from the Wikipedia category hierarchy, as background knowledge.
翻訳日:2022-09-29 16:55:07 公開日:2022-09-27
# 文書レベルのMTメトリックス:事前訓練済みのメトリックをドキュメントレベルのメトリックに変換する方法

Embarrassingly Easy Document-Level MT Metrics: How to Convert Any Pretrained Metric Into a Document-Level Metric ( http://arxiv.org/abs/2209.13654v1 )

ライセンス: Link先を確認
Giorgos Vernikos, Brian Thompson, Prashant Mathur, Marcello Federico(参考訳) 既存の文レベルの機械翻訳(mt)の指標は、人間の参照が曖昧さを含む場合、効果が低くなると仮定する。 この仮説を検証するために,事前学習されたメトリクスを文書レベルでコンテキストを組み込むための非常に簡単な方法を提案する。 提案手法はBERTScore, Prism, COMETの3つの一般的なメトリクスに適用し, 基準自由度 COMET-QE に適用する。 提供するMQMアノテーションを用いて、WMT 2021メトリクス共有タスクの拡張メトリクスを評価する。 その結果,低品質な人文参照の結果を除いた場合,試験条件の約85%で文レベルの指標よりも優れていた。 さらに,文書レベルのCOMET-QEの拡張により,談話現象のタスクの精度が劇的に向上し,専用ベースラインを最大6.1%上回ることを示す。 我々の実験結果は最初の仮説を支持し、メトリクスの単純な拡張により、参照の曖昧さを解決するために文脈を活用することができることを示した。

We hypothesize that existing sentence-level machine translation (MT) metrics become less effective when the human reference contains ambiguities. To verify this hypothesis, we present a very simple method for extending pretrained metrics to incorporate context at the document level. We apply our method to three popular metrics, BERTScore, Prism, and COMET, and to the reference free metric COMET-QE. We evaluate the extended metrics on the WMT 2021 metrics shared task using the provided MQM annotations. Our results show that the extended metrics outperform their sentence-level counterparts in about 85% of the tested conditions, when excluding results on low-quality human references. Additionally, we show that our document-level extension of COMET-QE dramatically improves its accuracy on discourse phenomena tasks, outperforming a dedicated baseline by up to 6.1%. Our experimental results support our initial hypothesis and show that a simple extension of the metrics permits them to take advantage of context to resolve ambiguities in the reference.
翻訳日:2022-09-29 16:47:58 公開日:2022-09-27
# ノイズの多いビジネス電話対話音声認識のための実効的, 高性能なエンティティ認識システム

An Effective, Performant Named Entity Recognition System for Noisy Business Telephone Conversation Transcripts ( http://arxiv.org/abs/2209.13736v1 )

ライセンス: Link先を確認
Xue-Yong Fu, Cheng Chen, Md Tahmid Rahman Laskar, Shashi Bhushan TN, Simon Corston-Oliver(参考訳) 本稿では,音声会話の性質や自動音声認識の成果物に起因した雑音を含むビジネス電話会話の書き起こしを操作する,名前付きエンティティ認識(ner)モデルを訓練する簡易かつ効果的な手法を提案する。 我々はまず,限られた量の書き起こしに基づいて最先端のエンティティ認識(ner)モデルであるlukeを微調整し,それを教師モデルとして,弱いラベル付きデータと少数の人間の注釈付きデータを用いて,より小さなディチルバートベースの学生モデルを教える。 モデルは、GPUではなくコスト効率のよいCPUにデプロイされた場合のリアルタイムパフォーマンスという、商用電話製品に含めるための現実的な制約を満たすとともに、高い精度を達成する。

We present a simple yet effective method to train a named entity recognition (NER) model that operates on business telephone conversation transcripts that contain noise due to the nature of spoken conversation and artifacts of automatic speech recognition. We first fine-tune LUKE, a state-of-the-art Named Entity Recognition (NER) model, on a limited amount of transcripts, then use it as the teacher model to teach a smaller DistilBERT-based student model using a large amount of weakly labeled data and a small amount of human-annotated data. The model achieves high accuracy while also satisfying the practical constraints for inclusion in a commercial telephony product: realtime performance when deployed on cost-effective CPUs rather than GPUs.
翻訳日:2022-09-29 16:47:38 公開日:2022-09-27
# 離散連続(DISCO)畳み込みによるスケーラブル・等変球面CNN

Scalable and Equivariant Spherical CNNs by Discrete-Continuous (DISCO) Convolutions ( http://arxiv.org/abs/2209.13603v1 )

ライセンス: Link先を確認
Jeremy Ocampo, Matthew A. Price, Jason D. McEwen(参考訳) 既存の球面畳み込みニューラルネットワーク(cnn)フレームワークは、計算上スケーラブルかつ回転同値である。 連続的アプローチは回転同値を捕捉するが、しばしば計算的に要求される。 離散的アプローチは、より好ましい計算性能を提供するが、同値である。 我々は、同変かつ計算能力に富んだ高解像度のハイブリッド離散連続群畳み込み(DISCO)を開発する。 我々のフレームワークは任意のコンパクト群に適用できるが、球体に特化している。 私たちのディスコ球面畳み込みは、$\text{so}(3)$ rotational equivarianceを示すだけでなく、非漸近的な$\text{so}(3)/\text{so}(2)$ rotational equivarianceという形式も示しており、多くのアプリケーション($\text{so}(n)$ は$n$-dimensions における回転を表す特別な直交群である)でより望ましい。 スパーステンソル実装により,計算コストとメモリ使用量の両方において,球面上の画素数の線形スケーリングを実現する。 4k球面画像の場合、最も効率的な等価球面畳み込みに比べて計算コストが10^9$、メモリ使用量が10^4$になる。 本稿では,semantic segmentation や depth estimation といった球面上の多くのベンチマーク密予測問題に対して,最先端の性能を達成するためにdisco sphere cnn フレームワークを適用する。

No existing spherical convolutional neural network (CNN) framework is both computationally scalable and rotationally equivariant. Continuous approaches capture rotational equivariance but are often prohibitively computationally demanding. Discrete approaches offer more favorable computational performance but at the cost of equivariance. We develop a hybrid discrete-continuous (DISCO) group convolution that is simultaneously equivariant and computationally scalable to high-resolution. While our framework can be applied to any compact group, we specialize to the sphere. Our DISCO spherical convolutions not only exhibit $\text{SO}(3)$ rotational equivariance but also a form of asymptotic $\text{SO}(3)/\text{SO}(2)$ rotational equivariance, which is more desirable for many applications (where $\text{SO}(n)$ is the special orthogonal group representing rotations in $n$-dimensions). Through a sparse tensor implementation we achieve linear scaling in number of pixels on the sphere for both computational cost and memory usage. For 4k spherical images we realize a saving of $10^9$ in computational cost and $10^4$ in memory usage when compared to the most efficient alternative equivariant spherical convolution. We apply the DISCO spherical CNN framework to a number of benchmark dense-prediction problems on the sphere, such as semantic segmentation and depth estimation, on all of which we achieve the state-of-the-art performance.
翻訳日:2022-09-29 16:37:41 公開日:2022-09-27
# データローダのランドスケープ : 比較性能分析

An Overview of the Data-Loader Landscape: Comparative Performance Analysis ( http://arxiv.org/abs/2209.13705v1 )

ライセンス: Link先を確認
Iason Ofeidis, Diego Kiedanski, Leandros Tassiulas(参考訳) データローダは、機械学習モデルのトレーニング中にストレージからGPUへのデータ移動を担当し、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握る可能性がある。 最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。 本稿では,データローダをDeep Learning(DL)ワークフローの独立したコンポーネントとして識別し,その構造と特徴を概説する。 最後に、利用可能なさまざまなデータローディングライブラリの包括的な比較、機能、ユーザビリティ、パフォーマンス、およびそれらに由来する洞察のトレードオフを提供します。

Dataloaders, in charge of moving data from storage into GPUs while training machine learning models, might hold the key to drastically improving the performance of training jobs. Recent advances have shown promise not only by considerably decreasing training time but also by offering new features such as loading data from remote storage like S3. In this paper, we are the first to distinguish the dataloader as a separate component in the Deep Learning (DL) workflow and to outline its structure and features. Finally, we offer a comprehensive comparison of the different dataloading libraries available, their trade-offs in terms of functionality, usability, and performance and the insights derived from them.
翻訳日:2022-09-29 16:37:13 公開日:2022-09-27
# 深層学習を用いた脳MRIによる血管内空間拡大の検出

Deep Learning Based Detection of Enlarged Perivascular Spaces on Brain MRI ( http://arxiv.org/abs/2209.13727v1 )

ライセンス: Link先を確認
Tanweer Rashid, Hangfan Liu, Jeffrey B. Ware, Karl Li, Jose Rafael Romero, Elyas Fadaee, Ilya M. Nasrallah, Saima Hilal, R. Nick Bryan, Timothy M. Hughes, Christos Davatzikos, Lenore Launer, Sudha Seshadri, Susan R. Heckbert, Mohamad Habes(参考訳) 深層学習は多くのニューロイメージング応用で効果的に実証されている。 しかしながら、多くのシナリオにおいて、小血管病変に関連する情報をキャプチャする撮像シーケンスの数は、データ駆動技術をサポートするために不十分である。 さらに、コホートに基づく研究は、正確な病変検出に最適な画像配列や本質的な画像配列を持つとは限らない。 したがって、これらの画像のどの配列が正確な検出に必須かを決定する必要がある。 本研究では,拡大した末梢血管空間(ePVS)の深部学習に基づく検出のためのMRI(MRI)シーケンスの最適組み合わせを提案する。 そこで我々は,ePVS検出に適応した有効軽量U-Netを実装し,SWI,流体減衰インバージョンリカバリ(FLAIR),T1重み(T1w),T2重み(T2w)MRIからの情報の組み合わせを網羅的に検討した。 我々は、T2w MRIが正確なePVS検出に最も重要であると結論し、深部ニューラルネットワークにおけるSWI、FLAIR、T1w MRIの取り込みは、精度を著しく向上させる可能性があると結論付けた。

Deep learning has been demonstrated effective in many neuroimaging applications. However, in many scenarios the number of imaging sequences capturing information related to small vessel disease lesions is insufficient to support data-driven techniques. Additionally, cohort-based studies may not always have the optimal or essential imaging sequences for accurate lesion detection. Therefore, it is necessary to determine which of these imaging sequences are essential for accurate detection. In this study we aimed to find the optimal combination of magnetic resonance imaging (MRI) sequences for deep learning-based detection of enlarged perivascular spaces (ePVS). To this end, we implemented an effective light-weight U-Net adapted for ePVS detection and comprehensively investigated different combinations of information from susceptibility weighted imaging (SWI), fluid-attenuated inversion recovery (FLAIR), T1-weighted (T1w) and T2-weighted (T2w) MRI sequences. We conclude that T2w MRI is the most important for accurate ePVS detection, and the incorporation of SWI, FLAIR and T1w MRI in the deep neural network could make insignificant improvements in accuracy.
翻訳日:2022-09-29 16:37:01 公開日:2022-09-27
# DALL-E 2は放射線学について何を知っているのか?

What Does DALL-E 2 Know About Radiology? ( http://arxiv.org/abs/2209.13696v1 )

ライセンス: Link先を確認
Lisa C. Adams, Felix Busch, Daniel Truhn, Marcus R. Makowski, Hugo JWL. Aerts, Keno K. Bressem(参考訳) dall-e 2のような生成モデルは、放射線学における人工知能研究のための画像生成、拡張、操作のための将来の有望なツールであり、これらのモデルには十分な医療領域知識がある。 そこで,DALL-E 2は画像のゼロショットテキスト・画像生成,画像の元々の境界を超えての継続,要素の除去など,将来性のあるX線画像の関連表現を学習し,画像のCT,MRI,超音波画像はいまだに限られていることを示す。 したがって、これらのモデルをさらに細調整して各領域に適応させる必要が生じたとしても、生成モデルのラジオロジカルデータの増大と生成は実現可能と考えられる。

Generative models such as DALL-E 2 could represent a promising future tool for image generation, augmentation, and manipulation for artificial intelligence research in radiology provided that these models have sufficient medical domain knowledge. Here we show that DALL-E 2 has learned relevant representations of X-ray images with promising capabilities in terms of zero-shot text-to-image generation of new images, continuation of an image beyond its original boundaries, or removal of elements, while pathology generation or CT, MRI, and ultrasound images are still limited. The use of generative models for augmenting and generating radiological data thus seems feasible, even if further fine-tuning and adaptation of these models to the respective domain is required beforehand.
翻訳日:2022-09-29 16:30:02 公開日:2022-09-27
# 部分的可観測性下での障害から回復を効率的に学ぶ

Efficiently Learning Recoveries from Failures Under Partial Observability ( http://arxiv.org/abs/2209.13605v1 )

ライセンス: Link先を確認
Shivam Vats, Maxim Likhachev, Oliver Kroemer(参考訳) 実世界の条件下での運用は、部分的な可観測性によって引き起こされる幅広い障害の可能性のために困難である。 比較的良質な設定では、このような障害は少数の手動リカバリ戦略の1つを再試行または実行することで克服することができる。 対照的に、ドアの開閉や家具の組み立てなど、接触の多いシーケンシャルな操作タスクは、徹底的なハンドエンジニアリングには適さない。 この問題に対処するため,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。 当社のアプローチでは,シミュレーションの探索を通じて現在の戦略の障害モードを発見し,これらの障害に対処する新たな回復スキルを学習することで,ロバストネスを漸進的に向上する。 そこで本研究では,学習の効率を高めるために,どの障害モードを優先するか,どの状態から回復するかを選択するオンラインアルゴリズムであるhigher confidence limit(value-ucl)を提案する。 提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整の少ない評価を行う。 オープンループ実行と比較して,リカバリ学習が限られた場合であっても,シミュレーションでは71\%から92.4\%,実際のロボットでは75\%から90\%のタスク成功が著しく向上することが示された。

Operating under real world conditions is challenging due to the possibility of a wide range of failures induced by partial observability. In relatively benign settings, such failures can be overcome by retrying or executing one of a small number of hand-engineered recovery strategies. By contrast, contact-rich sequential manipulation tasks, like opening doors and assembling furniture, are not amenable to exhaustive hand-engineering. To address this issue, we present a general approach for robustifying manipulation strategies in a sample-efficient manner. Our approach incrementally improves robustness by first discovering the failure modes of the current strategy via exploration in simulation and then learning additional recovery skills to handle these failures. To ensure efficient learning, we propose an online algorithm Value Upper Confidence Limit (Value-UCL) that selects what failure modes to prioritize and which state to recover to such that the expected performance improves maximally in every training episode. We use our approach to learn recovery skills for door-opening and evaluate them both in simulation and on a real robot with little fine-tuning. Compared to open-loop execution, our experiments show that even a limited amount of recovery learning improves task success substantially from 71\% to 92.4\% in simulation and from 75\% to 90\% on a real robot.
翻訳日:2022-09-29 16:28:35 公開日:2022-09-27
# fair-fate: 勢いのあるフェアフェデレーション学習

FAIR-FATE: Fair Federated Learning with Momentum ( http://arxiv.org/abs/2209.13678v1 )

ライセンス: Link先を確認
Teresa Salazar, Miguel Fernandes, Helder Araujo, Pedro Henriques Abreu(参考訳) 公平を意識した機械学習アルゴリズムが注目されている一方で、集中型機械学習に重点が置かれており、分散化手法は未検討のままである。 フェデレートラーニング(Federated Learning)は、クライアントがローカルモデルをサーバでトレーニングし、共有グローバルモデルを取得するための分散型機械学習である。 クライアント間のデータの不均一性は、人種や性別などの繊細な属性によって定義された非特権集団の識別を誘導または悪化させるフェデレーション学習の一般的な特徴である。 本研究では,クライアントの公平性を考慮し,グローバルモデルを計算するフェアネスアウェアアグリゲーション手法を用いて,高い実用性を維持しつつ,グループフェアネスを達成することを目的とした,新しいフェアフェデレーション学習アルゴリズムであるfair-fateを提案する。 これを実現するために、ノイズ非フェア勾配の振動を克服する運動量項を用いて、公平なモデル更新を推定することにより、グローバルモデル更新を算出する。 我々の知る限りでは、公正なモメンタム推定を用いて公平性を達成することを目的とした機械学習における最初のアプローチである。 4つの実世界のデータセットの実験結果から、FAIR-FATEは、異なるレベルのデータヘテロジニティの下で、最先端のフェデレート学習アルゴリズムを著しく上回ることを示した。

While fairness-aware machine learning algorithms have been receiving increasing attention, the focus has been on centralized machine learning, leaving decentralized methods underexplored. Federated Learning is a decentralized form of machine learning where clients train local models with a server aggregating them to obtain a shared global model. Data heterogeneity amongst clients is a common characteristic of Federated Learning, which may induce or exacerbate discrimination of unprivileged groups defined by sensitive attributes such as race or gender. In this work we propose FAIR-FATE: a novel FAIR FederATEd Learning algorithm that aims to achieve group fairness while maintaining high utility via a fairness-aware aggregation method that computes the global model by taking into account the fairness of the clients. To achieve that, the global model update is computed by estimating a fair model update using a Momentum term that helps to overcome the oscillations of noisy non-fair gradients. To the best of our knowledge, this is the first approach in machine learning that aims to achieve fairness using a fair Momentum estimate. Experimental results on four real-world datasets demonstrate that FAIR-FATE significantly outperforms state-of-the-art fair Federated Learning algorithms under different levels of data heterogeneity.
翻訳日:2022-09-29 16:28:09 公開日:2022-09-27
# SGTM 2.0: 対話型知覚を用いた長大ケーブルの自律的アンタングリング

SGTM 2.0: Autonomously Untangling Long Cables using Interactive Perception ( http://arxiv.org/abs/2209.13706v1 )

ライセンス: Link先を確認
Kaushik Shivakumar, Vainavi Viswanath, Anrui Gu, Yahav Avigal, Justin Kerr, Jeffrey Ichnowski, Richard Cheng, Thomas Kollar, Ken Goldberg(参考訳) ケーブルは家、病院、工業用倉庫で一般的な場所であり、つまずく傾向にある。 本稿では,ケーブルと相互作用する新たな不確実性定量化指標と動作を導入することで,ケーブルを自律的にアンタングリングすることに関する先行研究を拡張する。 SGTM 2.0(Sliding and Grasping for Tangle Manipulation 2.0)は,各ステップにおける不確実性の推定値を用いて,長さ約3mのケーブルを自律的にアンハングリングするシステムである。 不確実性をインタラクティブに低減することにより、Tangle Manipulation 2.0 (SGTM 2.0) のスライディングとグラッピングは、必要な状態リセット動作の数を削減し、実行時間を大幅に短縮する。 実験の結果、SGTM 2.0は1または2本のオーバーハンドと8本の8ノットのケーブルで83%のアンハングリング成功を達成でき、70%の終端検出成功を達成でき、SGTM 1.0はアンハングリング精度で43%、フルロールアウト速度で200%を上回った。 補足資料、可視化、ビデオはsites.google.com/view/sgtm2で見ることができる。

Cables are commonplace in homes, hospitals, and industrial warehouses and are prone to tangling. This paper extends prior work on autonomously untangling long cables by introducing novel uncertainty quantification metrics and actions that interact with the cable to reduce perception uncertainty. We present Sliding and Grasping for Tangle Manipulation 2.0 (SGTM 2.0), a system that autonomously untangles cables approximately 3 meters in length with a bilateral robot using estimates of uncertainty at each step to inform actions. By interactively reducing uncertainty, Sliding and Grasping for Tangle Manipulation 2.0 (SGTM 2.0) reduces the number of state-resetting moves it must take, significantly speeding up run-time. Experiments suggest that SGTM 2.0 can achieve 83% untangling success on cables with 1 or 2 overhand and figure-8 knots, and 70% termination detection success across these configurations, outperforming SGTM 1.0 by 43% in untangling accuracy and 200% in full rollout speed. Supplementary material, visualizations, and videos can be found at sites.google.com/view/sgtm2.
翻訳日:2022-09-29 16:27:30 公開日:2022-09-27
# 教師なしメタラーニングのためのクラスタリングに基づく擬似ラベル再考

Rethinking Clustering-Based Pseudo-Labeling for Unsupervised Meta-Learning ( http://arxiv.org/abs/2209.13635v1 )

ライセンス: Link先を確認
Xingping Dong, Jianbing Shen, and Ling Shao(参考訳) 教師なしメタラーニングの先駆的手法であるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。 このアプローチはモデルに依存しず、教師付きアルゴリズムと組み合わせてラベルなしのデータから学ぶことができる。 しかし、しばしばラベルの不整合や限られた多様性に悩まされ、パフォーマンスが低下する。 本研究は, 組込み空間におけるクラスタリングに親しみやすい性質が欠如していることを証明する。 クラスタリングに親しみやすい埋め込み機能を実現するために,クラス間の類似度比を最小化し,包括的な実験を通じてアプローチを検証する。 埋め込み空間において擬似ラベルを得るために単純なクラスタリングアルゴリズム(k-means)しか利用していないことに注意。 さらに,より多様なサンプルを得るための段階的評価機構を採用し,限られた多様性問題を緩和する。 最後に、このアプローチはモデルに依存しず、既存の教師付きメソッドに簡単に統合できます。 一般化能力を示すために、MAMLとEPの2つの代表アルゴリズムに統合する。 3つのベンチマーク結果から,提案手法が最先端モデルと比較して著しく改善できることが明らかとなった。 特に、このアプローチは2つのタスクで対応する教師付きメソッドよりも優れています。

The pioneering method for unsupervised meta-learning, CACTUs, is a clustering-based approach with pseudo-labeling. This approach is model-agnostic and can be combined with supervised algorithms to learn from unlabeled data. However, it often suffers from label inconsistency or limited diversity, which leads to poor performance. In this work, we prove that the core reason for this is lack of a clustering-friendly property in the embedding space. We address this by minimizing the inter- to intra-class similarity ratio to provide clustering-friendly embedding features, and validate our approach through comprehensive experiments. Note that, despite only utilizing a simple clustering algorithm (k-means) in our embedding space to obtain the pseudo-labels, we achieve significant improvement. Moreover, we adopt a progressive evaluation mechanism to obtain more diverse samples in order to further alleviate the limited diversity problem. Finally, our approach is also model-agnostic and can easily be integrated into existing supervised methods. To demonstrate its generalization ability, we integrate it into two representative algorithms: MAML and EP. The results on three main few-shot benchmarks clearly show that the proposed method achieves significant improvement compared to state-of-the-art models. Notably, our approach also outperforms the corresponding supervised method in two tasks.
翻訳日:2022-09-29 16:21:04 公開日:2022-09-27
# CEC-CNN:超小型医用画像分類のための連続伸縮畳み込みネットワーク

CEC-CNN: A Consecutive Expansion-Contraction Convolutional Network for Very Small Resolution Medical Image Classification ( http://arxiv.org/abs/2209.13661v1 )

ライセンス: Link先を確認
Ioannis Vezakis, Antonios Vezakis, Sofia Gourtsoyianni, Vassilis Koutoulidis, George K. Matsopoulos and Dimitrios Koutsouris(参考訳) 画像分類のための深層畳み込みニューラルネットワーク(cnns)は、階層のプーリングや重ね合わせ畳み込みといった連続的な畳み込みやダウンサンプリング操作を行う。 これらのダウンサンプリング操作は計算資源を節約し、翻訳的不変性と、次の層でより大きな受容場を提供する。 しかし、これに固有の副作用として、ネットワークの奥深くで生成されるハイレベルな機能は、常に低解像度のフィーチャーマップでキャプチャされる。 浅い層は常に小さな特徴を含むため、逆もまた真である。 生物医学的な画像分析では、限られた量の情報しか持たない非常に小さな画像パッチを分類することがしばしば行われる。 その性質上、これらのパッチは、画像のテクスチャに未知のスケールを持つ微妙なパターンの検出に依存するため、オブジェクトさえ含まない可能性がある。 これらの場合、全ての情報に価値があるため、可能な限り多くの情報的特徴を抽出することが重要である。 そこで,本研究では,機能マップの連続的縮小と拡張とともにスキップ接続を利用して,深層,中間層,浅層層から多層的特徴を保存できるcnnアーキテクチャを提案する。 膵管腺癌(PDAC)CTの超低解像度パッチのデータセットを用いて,我々のネットワークが最先端のアートモデルより優れていることを示す。

Deep Convolutional Neural Networks (CNNs) for image classification successively alternate convolutions and downsampling operations, such as pooling layers or strided convolutions, resulting in lower resolution features the deeper the network gets. These downsampling operations save computational resources and provide some translational invariance as well as a bigger receptive field at the next layers. However, an inherent side-effect of this is that high-level features, produced at the deep end of the network, are always captured in low resolution feature maps. The inverse is also true, as shallow layers always contain small scale features. In biomedical image analysis engineers are often tasked with classifying very small image patches which carry only a limited amount of information. By their nature, these patches may not even contain objects, with the classification depending instead on the detection of subtle underlying patterns with an unknown scale in the image's texture. In these cases every bit of information is valuable; thus, it is important to extract the maximum number of informative features possible. Driven by these considerations, we introduce a new CNN architecture which preserves multi-scale features from deep, intermediate, and shallow layers by utilizing skip connections along with consecutive contractions and expansions of the feature maps. Using a dataset of very low resolution patches from Pancreatic Ductal Adenocarcinoma (PDAC) CT scans we demonstrate that our network can outperform current state of the art models.
翻訳日:2022-09-29 16:20:45 公開日:2022-09-27
# 分散計算プラットフォームのための回帰自由ニューラルネットワークを目指して

Towards Regression-Free Neural Networks for Diverse Compute Platforms ( http://arxiv.org/abs/2209.13740v1 )

ライセンス: Link先を確認
Rahul Duggal, Hao Zhou, Shuo Yang, Jun Fang, Yuanjun Xiong, Wei Xia(参考訳) デバイス上でのディープラーニングへの移行により、さまざまな計算プラットフォームにわたるAIサービスの一貫性のある動作を保証することが、極めて重要になります。 我々の研究は、負のフリップによって生じる予測の不一致を減らすという、創発的な問題に取り組んでいる。 負のフリップを小さくする高精度モデル群を設計するために,REG-NAS(Regression constrained Neural Architecture Search)を導入する。 REG-NASは2つのコンポーネントから構成される: 1) より大きなモデルでより小さなモデルの全重みを収容できる新しいアーキテクチャ制約により、重量共有を最大化する。 この考え方は,ネットワーク間の重み共有が,類似のサンプル単位の予測に結びつき,負のフリップが少ないこと,(2)Top-1の精度と負のフリップの両方をアーキテクチャの検索基準に組み込んだ新たな検索報酬である。 我々は,3つの人気のアーキテクチャ検索空間において,否定的なフリップが少なく,より望ましいアーキテクチャを見つけることができることを示した。 既存の最先端アプローチと比較して、REG-NASは33-48%の相対的な負のフリップの減少を可能にする。

With the shift towards on-device deep learning, ensuring a consistent behavior of an AI service across diverse compute platforms becomes tremendously important. Our work tackles the emergent problem of reducing predictive inconsistencies arising as negative flips: test samples that are correctly predicted by a less accurate model, but incorrectly by a more accurate one. We introduce REGression constrained Neural Architecture Search (REG-NAS) to design a family of highly accurate models that engender fewer negative flips. REG-NAS consists of two components: (1) A novel architecture constraint that enables a larger model to contain all the weights of the smaller one thus maximizing weight sharing. This idea stems from our observation that larger weight sharing among networks leads to similar sample-wise predictions and results in fewer negative flips; (2) A novel search reward that incorporates both Top-1 accuracy and negative flips in the architecture search metric. We demonstrate that \regnas can successfully find desirable architectures with few negative flips in three popular architecture search spaces. Compared to the existing state-of-the-art approach, REG-NAS enables 33-48% relative reduction of negative flips.
翻訳日:2022-09-29 16:20:20 公開日:2022-09-27
# 安全リニアバンドのための二重最適戦略

A Doubly Optimistic Strategy for Safe Linear Bandits ( http://arxiv.org/abs/2209.13694v1 )

ライセンス: Link先を確認
Tianrui Chen, Aditya Gangrade, Venkatesh Saligrama(参考訳) 我々は,\underline{d}oubly \underline{o}ptimistic strategy for the \underline{s}afe-\underline{l}inear-\underline{b}andit problem, doslbを提案する。 安全線形バンディット問題は、報酬と安全リスクの確率的ランディットフィードバックを用いて、未知のラウンドワイド安全制約を満たすとともに、未知の線形報酬を最適化することである。 集約された資源制約に関する以前の作業とは対照的に、我々の定式化は周方向の安全リスクの制御を明示的に要求する。 安全な盗賊のための既存の楽観的悲観的パラダイムとは異なり、DOSLBは最高の楽観主義を行使し、報酬と安全スコアの楽観的な推定を用いて行動を選択する。 しかし、驚くべきことに、doslbがリスクの高いアクションを取ることは滅多になく、$\tilde{o}(d \sqrt{t})$ regretが得られる。 ポリトープ領域に特化して、まず、$\sqrt{T}$-regret 境界は大きなギャップがあっても改善できないことを示す。 さらに、そのような領域では、過度に危険なアクションがプレイされる回数も$O(\log^2T)$として有界であると主張する。

We propose a \underline{d}oubly \underline{o}ptimistic strategy for the \underline{s}afe-\underline{l}inear-\underline{b}andit problem, DOSLB. The safe linear bandit problem is to optimise an unknown linear reward whilst satisfying unknown round-wise safety constraints on actions, using stochastic bandit feedback of reward and safety-risks of actions. In contrast to prior work on aggregated resource constraints, our formulation explicitly demands control on roundwise safety risks. Unlike existing optimistic-pessimistic paradigms for safe bandits, DOSLB exercises supreme optimism, using optimistic estimates of reward and safety scores to select actions. Yet, and surprisingly, we show that DOSLB rarely takes risky actions, and obtains $\tilde{O}(d \sqrt{T})$ regret, where our notion of regret accounts for both inefficiency and lack of safety of actions. Specialising to polytopal domains, we first notably show that the $\sqrt{T}$-regret bound cannot be improved even with large gaps, and then identify a slackened notion of regret for which we show tight instance-dependent $O(\log^2 T)$ bounds. We further argue that in such domains, the number of times an overly risky action is played is also bounded as $O(\log^2T)$.
翻訳日:2022-09-29 16:10:42 公開日:2022-09-27
# ハミルトン適応的重要度サンプリング

Hamiltonian Adaptive Importance Sampling ( http://arxiv.org/abs/2209.13716v1 )

ライセンス: Link先を確認
Ali Mousavi, Reza Monsefi, and V\'ictor Elvira(参考訳) 重要サンプリング (is) は、例えばベイズ推論の文脈で積分を近似するための強力なモンテカルロ法である。 isでは、サンプルはいわゆる提案分布からシミュレートされ、この提案の選択は高いパフォーマンスを達成するための鍵となる。 adaptive is (ais) メソッドでは、一連の提案が反復的に改善される。 AISは関連性がありタイムリーな方法論であるが、高次元および多モード問題における次元性の呪いなど、多くの制限がまだ克服されていない。 さらに、ハミルトンモンテカルロ(HMC)アルゴリズムは、機械学習と統計学でますます人気が高まっている。 HMCには探索的行動、特に他の方法が苦しむ場合の高次元的目標など、いくつかの魅力的な特徴がある。 本稿では,ハミルトニアン適応的重要度サンプリング(HAIS)法について紹介する。 HAISは2段階の適応プロセスを実装し、並列HMCチェーンは各イテレーションで協調する。 提案したHAISは,HMCの利点を抽出し,効率よく提案する。 HAISは、追加のサンプリングステップで、一般的な階層型AISファミリーの特別な例として理解することができる。 HAISは、最先端のアルゴリズムのような高次元問題において、大幅な性能向上を実現している。 haisの統計特性を考察し,その高い性能を2つの難解な例で示す。

Importance sampling (IS) is a powerful Monte Carlo (MC) methodology for approximating integrals, for instance in the context of Bayesian inference. In IS, the samples are simulated from the so-called proposal distribution, and the choice of this proposal is key for achieving a high performance. In adaptive IS (AIS) methods, a set of proposals is iteratively improved. AIS is a relevant and timely methodology although many limitations remain yet to be overcome, e.g., the curse of dimensionality in high-dimensional and multi-modal problems. Moreover, the Hamiltonian Monte Carlo (HMC) algorithm has become increasingly popular in machine learning and statistics. HMC has several appealing features such as its exploratory behavior, especially in high-dimensional targets, when other methods suffer. In this paper, we introduce the novel Hamiltonian adaptive importance sampling (HAIS) method. HAIS implements a two-step adaptive process with parallel HMC chains that cooperate at each iteration. The proposed HAIS efficiently adapts a population of proposals, extracting the advantages of HMC. HAIS can be understood as a particular instance of the generic layered AIS family with an additional resampling step. HAIS achieves a significant performance improvement in high-dimensional problems w.r.t. state-of-the-art algorithms. We discuss the statistical properties of HAIS and show its high performance in two challenging examples.
翻訳日:2022-09-29 16:10:17 公開日:2022-09-27
# 会話型AIにおけるエクイティの批判的評価--GPT-3の気候変動とブラックライフマターに関する異なる大衆との対話の監査から

A critical appraisal of equity in conversational AI: Evidence from auditing GPT-3's dialogues with different publics on climate change and Black Lives Matter ( http://arxiv.org/abs/2209.13627v1 )

ライセンス: Link先を確認
Kaiping Chen, Anqi Shao, Jirayu Burapacheep, Yixuan Li(参考訳) ディープラーニングを使って人間のようなテキストを生成する自動回帰言語モデルは、ますます広まりつつある。 このようなモデルは、スマートヘルス、ファイナンス、自動運転といった分野で人気のあるバーチャルアシスタントを動かしている。 これらの大きな言語モデルのパラメータは改善されているが、これらのモデルが社会のすべてのサブグループで等しく機能しないのではないかという懸念は残る。 規律間のAIフェアネスに関する議論が増えているにもかかわらず、対話システムにおけるエクイティと、アセスメントループにおける異なる集団の関わり方を評価するための体系的な指標が欠如している。 本稿では,人間とAIの対話において,株式の意味を解き放つための分析的枠組みを提案する。 この枠組みを用いて,GPT-3は,気候変動やBLM(Black Lives Matter)運動といった重要な科学・社会分野において,様々なサブ集団に対してどのように反応するかを監査研究した。 我々のコーパスは、ジェンダー、人種、民族、教育レベル、第一言語としての英語、問題に対する意見の異なるGPT-3と3290の2万回以上の対話で構成されています。 GPT-3のユーザ体験は,世論や教育マイノリティのサブ集団の中で著しく悪化しているが,この2つのグループは,チャット後のBLM支援や気候変動対策に対する態度を変えながら,最大の知識獲得を達成した。 我々は,これらのユーザ体験の相違点を会話の相違点として追跡し,GPT-3は,多数派と比較して,教育や世論の少数派に対して,ネガティブな表現を多く用いた。 本稿では,多様性,公平性,包摂性を集中化する会話型AIシステムについて,本研究の意義について論じる。

Autoregressive language models, which use deep learning to produce human-like texts, have become increasingly widespread. Such models are powering popular virtual assistants in areas like smart health, finance, and autonomous driving. While the parameters of these large language models are improving, concerns persist that these models might not work equally for all subgroups in society. Despite growing discussions of AI fairness across disciplines, there lacks systemic metrics to assess what equity means in dialogue systems and how to engage different populations in the assessment loop. Grounded in theories of deliberative democracy and science and technology studies, this paper proposes an analytical framework for unpacking the meaning of equity in human-AI dialogues. Using this framework, we conducted an auditing study to examine how GPT-3 responded to different sub-populations on crucial science and social topics: climate change and the Black Lives Matter (BLM) movement. Our corpus consists of over 20,000 rounds of dialogues between GPT-3 and 3290 individuals who vary in gender, race and ethnicity, education level, English as a first language, and opinions toward the issues. We found a substantively worse user experience with GPT-3 among the opinion and the education minority subpopulations; however, these two groups achieved the largest knowledge gain, changing attitudes toward supporting BLM and climate change efforts after the chat. We traced these user experience divides to conversational differences and found that GPT-3 used more negative expressions when it responded to the education and opinion minority groups, compared to its responses to the majority groups. We discuss the implications of our findings for a deliberative conversational AI system that centralizes diversity, equity, and inclusion.
翻訳日:2022-09-29 16:02:14 公開日:2022-09-27
# 多視点知識グラフによる推論

Reasoning over Multi-view Knowledge Graphs ( http://arxiv.org/abs/2209.13702v1 )

ライセンス: Link先を確認
Zhaohan Xi, Ren Pang, Changjiang Li, Tianyu Du, Shouling Ji, Fenglong Ma, Ting Wang(参考訳) 近年、知識表現学習(KRL)は、知識グラフ(KG)上のクエリを処理する最先端のアプローチとして登場しており、KGエンティティとクエリは、クエリに応答するエンティティがクエリの近くに埋め込まれるように、潜在空間に埋め込まれている。 しかしながら、KRLに関する集中的な研究にもかかわらず、既存の研究のほとんどは、同種KGに焦点を当てるか、KG完了タスク(すなわち、欠落した事実の推測)を仮定するか、複数の側面(複数ビューKG)を持つKG上の複雑な論理的クエリに答えることは、未解決の課題である。 本稿では、このギャップを埋めるために、マルチビューKG上で論理的クエリに応答する新しいKRLフレームワークであるROMAを提案する。 以前の作業と比較すると、ROMAは大きな側面で離脱している。 i) マルチビューKGを1つのビューに対応するオーバーレイサブKGの集合としてモデル化し、文献(例えば、時間的KG)で研究された多くのタイプのKGを仮定する。 (ii)関係やビューの制約(例えば、複雑なトポロジーや複数のビューから)を持つ複雑な論理クエリをサポートする。 (iii)大規模なKG(例:数百万の事実)と細粒度ビュー(例:数十のビュー)までスケールする。 (iv)トレーニング中に観測されないクエリ構造とKGビューを一般化する。 実世界のkgsに対する広範囲な経験的評価は、 \system が代替手法を大幅に上回っていることを示している。

Recently, knowledge representation learning (KRL) is emerging as the state-of-the-art approach to process queries over knowledge graphs (KGs), wherein KG entities and the query are embedded into a latent space such that entities that answer the query are embedded close to the query. Yet, despite the intensive research on KRL, most existing studies either focus on homogenous KGs or assume KG completion tasks (i.e., inference of missing facts), while answering complex logical queries over KGs with multiple aspects (multi-view KGs) remains an open challenge. To bridge this gap, in this paper, we present ROMA, a novel KRL framework for answering logical queries over multi-view KGs. Compared with the prior work, ROMA departs in major aspects. (i) It models a multi-view KG as a set of overlaying sub-KGs, each corresponding to one view, which subsumes many types of KGs studied in the literature (e.g., temporal KGs). (ii) It supports complex logical queries with varying relation and view constraints (e.g., with complex topology and/or from multiple views); (iii) It scales up to KGs of large sizes (e.g., millions of facts) and fine-granular views (e.g., dozens of views); (iv) It generalizes to query structures and KG views that are unobserved during training. Extensive empirical evaluation on real-world KGs shows that \system significantly outperforms alternative methods.
翻訳日:2022-09-29 16:01:42 公開日:2022-09-27
# リコンストラクション誘導によるニューラルネットワークの堅牢性と形状処理の改善

Reconstruction-guided attention improves the robustness and shape processing of neural networks ( http://arxiv.org/abs/2209.13620v1 )

ライセンス: Link先を確認
Seoyoung Ahn, Hossein Adeli, Gregory J. Zelinsky(参考訳) 多くの視覚現象は、人間が視覚的知覚(画像、オブジェクトの完了、パリドリアなど)を作るためにトップダウンの生成過程または再構成過程を使っていることを示唆している。 我々は,オブジェクト再構成を生成する反復エンコーダ・デコーダネットワークを構築し,それをトップダウンの注意フィードバックとして,最も関連する空間的・特徴的情報をフィードフォワードオブジェクト認識プロセスにルーティングする。 このモデルを,15種類の変換と破損を手書き文字画像に適用した,難解な分散桁認識データセットmnist-cを用いてテストした。 提案モデルでは, フィードフォワードCNNや対向訓練ネットワークなど, 各種画像摂動に対して高い一般化性能を示した。 私たちのモデルは特に、形知覚が重要な役割を担うぼやけやノイズ、咬合破壊に頑健です。 アブレーション研究により、ロバストな物体認識における空間的および特徴的注意の2つの相補的役割が明らかにされ、前者は注意文学における空間的マスキングの利点(再構築はマスクとして機能する)と、後者は、主にモデルの推論速度(ある信頼しきい値に達するための時間ステップの数)に寄与し、可能な対象仮説の空間を減少させる。 また、このモデルが時としてノイズから既存のパターンを幻覚させ、高い解釈可能な人間的な誤りを引き起こすことも観察した。 本研究は,人間の視覚処理における知覚生成の役割を理解するのに役立つ強力な注意機構を持つ,再構成に基づくフィードバックのモデリングがaiシステムを内在させることを示す。

Many visual phenomena suggest that humans use top-down generative or reconstructive processes to create visual percepts (e.g., imagery, object completion, pareidolia), but little is known about the role reconstruction plays in robust object recognition. We built an iterative encoder-decoder network that generates an object reconstruction and used it as top-down attentional feedback to route the most relevant spatial and feature information to feed-forward object recognition processes. We tested this model using the challenging out-of-distribution digit recognition dataset, MNIST-C, where 15 different types of transformation and corruption are applied to handwritten digit images. Our model showed strong generalization performance against various image perturbations, on average outperforming all other models including feedforward CNNs and adversarially trained networks. Our model is particularly robust to blur, noise, and occlusion corruptions, where shape perception plays an important role. Ablation studies further reveal two complementary roles of spatial and feature-based attention in robust object recognition, with the former largely consistent with spatial masking benefits in the attention literature (the reconstruction serves as a mask) and the latter mainly contributing to the model's inference speed (i.e., number of time steps to reach a certain confidence threshold) by reducing the space of possible object hypotheses. We also observed that the model sometimes hallucinates a non-existing pattern out of noise, leading to highly interpretable human-like errors. Our study shows that modeling reconstruction-based feedback endows AI systems with a powerful attention mechanism, which can help us understand the role of generating perception in human visual processing.
翻訳日:2022-09-29 15:53:27 公開日:2022-09-27
# mRobust04:TREC Robust 2004ベンチマークの多言語版

mRobust04: A Multilingual Version of the TREC Robust 2004 Benchmark ( http://arxiv.org/abs/2209.13738v1 )

ライセンス: Link先を確認
Vitor Jeronymo, Mauricio Nascimento, Roberto Lotufo and Rodrigo Nogueira(参考訳) robust 2004は情報検索ベンチマークであり、クエリ毎の判断回数が多く、信頼性の高い評価データセットとなっている。 本稿では,Google Translateを用いて8言語に翻訳されたロバスト04の多言語版であるmRobust04を提案する。 また、このデータセット上で3つの異なる多言語検索結果を提供する。 データセットはhttps://huggingface.co/datasets/unicamp-dl/mrobustで利用可能である。

Robust 2004 is an information retrieval benchmark whose large number of judgments per query make it a reliable evaluation dataset. In this paper, we present mRobust04, a multilingual version of Robust04 that was translated to 8 languages using Google Translate. We also provide results of three different multilingual retrievers on this dataset. The dataset is available at https://huggingface.co/datasets/unicamp-dl/mrobust
翻訳日:2022-09-29 15:51:42 公開日:2022-09-27
# 部分コンプライアンス下での公正な機械学習

Fair Machine Learning Under Partial Compliance ( http://arxiv.org/abs/2011.03654v4 )

ライセンス: Link先を確認
Jessica Dai, Sina Fazelpour, Zachary C. Lipton(参考訳) 通常、公正な機械学習の研究は単一の意思決定者に焦点を当て、基礎となる人口は静止していると仮定する。 しかし、この作品のモチベーションとなる重要な領域の多くは、多くの意思決定者と競争する市場によって特徴づけられる。 現実的には、強制的でない公平さを意識した政策を採用するのは一部の者に限られるかもしれない。 部分コンプライアンス設定における意思決定者の戦略的行動は、アロケーションの結果にどのように影響するか? もし雇用主のk%が自発的に公正促進の介入を採用するなら、k%は普遍的な採用の利益に向けて進歩するか、あるいは、部分的コンプライアンスのダイナミクスが期待する利益を洗い流すのだろうか? グローバルな(ローカルな)視点の採用は監査人の結論にどのように影響しますか? 本稿では,対話効果とインセンティブ効果が成果や監査指標に与える影響を検討するためのツールとしてシミュレーションを用いて,雇用市場の簡易モデルを提案する。 Our key findings are that at equilibrium: (1) partial compliance (k% of employers) can result in far less than proportional (k%) progress towards the full compliance outcomes; (2) the gap is more severe when fair employers match global (vs local) statistics; (3) choices of local vs global statistics can paint dramatically different pictures of the performance vis-a-vis fairness desiderata of compliant versus non-compliant employers; and (4) partial compliance to local parity measures can induce extreme segregation.

Typically, fair machine learning research focuses on a single decisionmaker and assumes that the underlying population is stationary. However, many of the critical domains motivating this work are characterized by competitive marketplaces with many decisionmakers. Realistically, we might expect only a subset of them to adopt any non-compulsory fairness-conscious policy, a situation that political philosophers call partial compliance. This possibility raises important questions: how does the strategic behavior of decision subjects in partial compliance settings affect the allocation outcomes? If k% of employers were to voluntarily adopt a fairness-promoting intervention, should we expect k% progress (in aggregate) towards the benefits of universal adoption, or will the dynamics of partial compliance wash out the hoped-for benefits? How might adopting a global (versus local) perspective impact the conclusions of an auditor? In this paper, we propose a simple model of an employment market, leveraging simulation as a tool to explore the impact of both interaction effects and incentive effects on outcomes and auditing metrics. Our key findings are that at equilibrium: (1) partial compliance (k% of employers) can result in far less than proportional (k%) progress towards the full compliance outcomes; (2) the gap is more severe when fair employers match global (vs local) statistics; (3) choices of local vs global statistics can paint dramatically different pictures of the performance vis-a-vis fairness desiderata of compliant versus non-compliant employers; and (4) partial compliance to local parity measures can induce extreme segregation.
翻訳日:2022-09-28 22:26:18 公開日:2022-09-27
# sigmoidal functionを用いた畳み込みニューラルネットワークによる連続近似

Continuous approximation by convolutional neural networks with a sigmoidal function ( http://arxiv.org/abs/2209.13332v1 )

ライセンス: Link先を確認
Weike Chang(参考訳) 本稿では、CNNの近似能力の研究において、非重複CNNと呼ばれる畳み込みニューラルネットワーク(CNN)のクラスを提案する。 このようなシグミカルアクティベーション関数を持つネットワークは任意の精度でコンパクトな入力集合上で定義された任意の連続関数を近似できることを示す。 この結果は、多層フィードフォワードネットワークのみが近似器のクラスである既存の結果を拡張する。 評価の結果から,提案する非重畳型cnnのノイズに対する感度は低下することが示唆された。

In this paper we present a class of convolutional neural networks (CNNs) called non-overlapping CNNs in the study of approximation capabilities of CNNs. We prove that such networks with sigmoidal activation function are capable of approximating arbitrary continuous function defined on compact input sets with any desired degree of accuracy. This result extends existing results where only multilayer feedforward networks are a class of approximators. Evaluations elucidate the accuracy and efficiency of our result and indicate that the proposed non-overlapping CNNs are less sensitive to noise.
翻訳日:2022-09-28 16:51:50 公開日:2022-09-27
# 機械学習による原始惑星円盤の化学モデリング

Machine learning-accelerated chemistry modeling of protoplanetary disks ( http://arxiv.org/abs/2209.13336v1 )

ライセンス: Link先を確認
Grigorii V. Smirnov-Pinchukov, Tamara Molyarova, Dmitry A. Semenov, Vitaly V. Akimkin, Sierk van Terwisga, Riccardo Francheschi, Thomas Henning(参考訳) 狙いだ サブミリ波観測所やジェームズ・ウェッブ宇宙望遠鏡からの大量の分子放出データにより、原始惑星系円盤の化学組成の高速前方モデルへのアクセスが極めて重要である。 メソッド。 熱化学モデリングコードを用いて、原始惑星系円盤モデルの多様な個体群を生成する。 k-nearest neighbors (knn)レグレッサーを訓練し、他のディスクモデルの化学を即座に予測した。 結果だ 原始惑星系円盤モデルにおける局所的な物理状態の相関により, 物理条件のごく一部だけを用いて化学を正確に再現できることが示唆された。 本手法の不確かさと限界について論じる。 結論だ 提案手法は観測データからディスク特性を取得するために線放出データのベイズフィッティングに使用できる。 本稿では,同じアプローチを他のディスク化学モデルで再現するパイプラインを提案する。

Aims. With the large amount of molecular emission data from (sub)millimeter observatories and incoming James Webb Space Telescope infrared spectroscopy, access to fast forward models of the chemical composition of protoplanetary disks is of paramount importance. Methods. We used a thermo-chemical modeling code to generate a diverse population of protoplanetary disk models. We trained a K-nearest neighbors (KNN) regressor to instantly predict the chemistry of other disk models. Results. We show that it is possible to accurately reproduce chemistry using just a small subset of physical conditions, thanks to correlations between the local physical conditions in adopted protoplanetary disk models. We discuss the uncertainties and limitations of this method. Conclusions. The proposed method can be used for Bayesian fitting of the line emission data to retrieve disk properties from observations. We present a pipeline for reproducing the same approach on other disk chemical model sets.
翻訳日:2022-09-28 16:51:40 公開日:2022-09-27
# 自動車のインターネットを用いた6g無線通信における移動型メタバースの資源配分:深層強化学習アプローチ

Resource Allocation for Mobile Metaverse with the Internet of Vehicles over 6G Wireless Communications: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2209.13425v1 )

ライセンス: Link先を確認
Terence Jie Chua, Wenhan Yu, Jun Zhao(参考訳) 人との対話性と相互接続性を改善することは、Metaverseのハイライトのひとつです。 Metaverseは、物理的な世界オブジェクト、人、アクション、シーンを仮想世界へ複製する手段として、デジタルツインニングという中心的なアプローチに依存している。 物理的な世界に関連するシーンや情報をリアルタイムかつモビリティの下でメタバースでアクセスできることは、すべてのユーザに対して、高度にアクセス可能でインタラクティブで相互接続可能なエクスペリエンスを開発する上で不可欠である。 この開発により、他の場所からのユーザは、他の場所で発生したイベントに関する高品質な実世界および最新の情報にアクセスでき、ハイパーインタラクティブに他の人と交流することができる。 それでも、Metaverseから他者が連続的に生成したスムーズな更新を受け取ることは、仮想世界グラフィックスの大規模なデータサイズと低レイテンシ転送の必要性のため、難しい作業である。 モバイル拡張現実(mar)の開発によって、ユーザはモビリティの下でも、非常にインタラクティブな方法でメタバースを介して対話することができる。 そこで本研究では,インターネット・オブ・ビークルズ(IoV)を移動させ,Metaverse Service Provider Cell Stations(MSPCS)からリアルタイムの仮想世界更新を無線通信でダウンロードする環境について検討した。 我々は,複数のセルステーションを持つ環境を設計し,セルステーション間でユーザの仮想世界グラフィックダウンロードタスクのハンドオーバを行う。 移動環境下での仮想世界更新の受信において,伝送遅延が主な懸念事項であるため,本研究は,車両利用者がセルステーションから仮想世界シーンをダウンロードするのに要する時間を最小限に抑えるために,システムリソースを割り当てることを目的としている。 深層強化学習を活用し,異なる環境条件下でのアルゴリズムの性能評価を行う。 私たちの研究は、AI対応の6G通信におけるMetaverseのユースケースを提供します。

Improving the interactivity and interconnectivity between people is one of the highlights of the Metaverse. The Metaverse relies on a core approach, digital twinning, which is a means to replicate physical world objects, people, actions and scenes onto the virtual world. Being able to access scenes and information associated with the physical world, in the Metaverse in real-time and under mobility, is essential in developing a highly accessible, interactive and interconnective experience for all users. This development allows users from other locations to access high-quality real-world and up-to-date information about events happening in another location, and socialize with others hyper-interactively. Nevertheless, receiving continual, smooth updates generated by others from the Metaverse is a challenging task due to the large data size of the virtual world graphics and the need for low latency transmission. With the development of Mobile Augmented Reality (MAR), users can interact via the Metaverse in a highly interactive manner, even under mobility. Hence in our work, we considered an environment with users in moving Internet of Vehicles (IoV), downloading real-time virtual world updates from Metaverse Service Provider Cell Stations (MSPCSs) via wireless communications. We design an environment with multiple cell stations, where there will be a handover of users' virtual world graphic download tasks between cell stations. As transmission latency is the primary concern in receiving virtual world updates under mobility, our work aims to allocate system resources to minimize the total time taken for users in vehicles to download their virtual world scenes from the cell stations. We utilize deep reinforcement learning and evaluate the performance of the algorithms under different environmental configurations. Our work provides a use case of the Metaverse over AI-enabled 6G communications.
翻訳日:2022-09-28 16:50:41 公開日:2022-09-27
# 機械学習による群れ赤道プラズマ気泡の予測

Predicting Swarm Equatorial Plasma Bubbles Via Supervised Machine Learning ( http://arxiv.org/abs/2209.13482v1 )

ライセンス: Link先を確認
S. Reddy, C. Forsyth, A. Aruliah, D. Kataria, A.Smith, J. Bortnik, E. Aa and G. Lewis(参考訳) 赤道プラズマ気泡(Equatorial Plasma Bubbles、EPBs)は、F層の底面から外気圏に向かって上昇する低密度プラズマの配管である。 EPBは、宇宙船との通信を劣化させる電波シンチレーションの原因として知られている。 SWARM 衛星に搭載された IBI プロセッサによって検出された EPB[0-1] の確率を予測・予測するためのランダムな森林回帰器を構築した。 2014年から2021年までの8年間のswarmデータを使用して、時系列から緯度、経度、mlt、年、そして日々の5次元空間にデータを変換します。 また、Kp、F10.7cm、太陽風速も加える。 位置、局地時間、季節、太陽活動に関するESBの観測は既存の活動とほとんど一致しているが、地磁気活動の関連性は明らかになっていない。 この予測は88%の精度を持ち、epb特有の時空間スケールでよく機能する。 このことは、XGBoost法がSWARM EPBの気候学的および日々の変動を捉えることができることを証明している。 電離圏内の局所的・確率的特徴から、日々のばらつきを捉えることは、長い間研究者を遠ざけてきた。 我々は、シェープ値を利用してモデルを説明し、EDBの物理に関する洞察を得る。 太陽風速が増加するにつれて、EDBの確率は減少する。 また,地球-太陽近日点周辺のepb確率の急上昇も確認した。 これらの知見はXGBoostとShapleyの技術から直接導出された。

Equatorial Plasma Bubbles (EPBs) are plumes of low density plasma that rise up from the bottomside of the F layer towards the exosphere. EPBs are known causes of radio wave scintillations which can degrade communications with spacecraft. We build a random forest regressor to predict and forecast the probability of an EPB [0-1] detected by the IBI processor on-board the SWARM spacecraft. We use 8-years of Swarm data from 2014 to 2021 and transform the data from a time series into a 5 dimensional space consisting of latitude, longitude, mlt, year, and day-of-the-year. We also add Kp, F10.7cm and solar wind speed. The observations of EPBs with respect to geolocation, local time, season and solar activity mostly agrees with existing work, whilst the link geomagnetic activity is less clear. The prediction has an accuracy of 88% and performs well across the EPB specific spatiotemporal scales. This proves that the XGBoost method is able to successfully capture the climatological and daily variability of SWARM EPBs. Capturing the daily variance has long evaded researchers because of local and stochastic features within the ionosphere. We take advantage of Shapley Values to explain the model and to gain insight into the physics of EPBs. We find that as the solar wind speed increases the probability of an EPB decreases. We also identify a spike in EPB probability around the Earth-Sun perihelion. Both of these insights were derived directly from the XGBoost and Shapley technique.
翻訳日:2022-09-28 16:50:08 公開日:2022-09-27
# 学習制約による半盲音源分離

Semi-Blind Source Separation with Learned Constraints ( http://arxiv.org/abs/2209.13585v1 )

ライセンス: Link先を確認
R\'emi Carloni Gertosio, J\'er\^ome Bobin, Fabio Acero(参考訳) ブラインドソース分離(bss)アルゴリズムは教師なしの手法であり、物理的に有意義なデータ分解を可能にすることで超スペクトルデータ解析の基礎となる。 BSS問題に問題があり、解法はソースをよりよく区別し、解釈可能な解を得るための効率的な正則化スキームを必要とする。 そこで本研究では,予測最小二乗アルゴリズムと学習に基づく正規化手法を組み合わせた半教師付きソース分離手法を提案する。 本稿では,生成モデルを用いて混合行列を学習多様体に属するように制約することに焦点を当てる。 また,この手法により,物理的に解釈可能な解を提供する改良されたBSSアルゴリズムが実現可能であることを示す。 提案手法は, 強騒音, 高相関スペクトル, 不均衡音源を含むシナリオにおいて, 現実的な超スペクトル天体物理データを用いて検討した。 その結果、ソース間のリークを減らすために学習した学習結果のメリットが浮き彫りになった。

Blind source separation (BSS) algorithms are unsupervised methods, which are the cornerstone of hyperspectral data analysis by allowing for physically meaningful data decompositions. BSS problems being ill-posed, the resolution requires efficient regularization schemes to better distinguish between the sources and yield interpretable solutions. For that purpose, we investigate a semi-supervised source separation approach in which we combine a projected alternating least-square algorithm with a learning-based regularization scheme. In this article, we focus on constraining the mixing matrix to belong to a learned manifold by making use of generative models. Altogether, we show that this allows for an innovative BSS algorithm, with improved accuracy, which provides physically interpretable solutions. The proposed method, coined sGMCA, is tested on realistic hyperspectral astrophysical data in challenging scenarios involving strong noise, highly correlated spectra and unbalanced sources. The results highlight the significant benefit of the learned prior to reduce the leakages between the sources, which allows an overall better disentanglement.
翻訳日:2022-09-28 16:47:21 公開日:2022-09-27
# WaterNeRF:水中シーンのための神経放射場

WaterNeRF: Neural Radiance Fields for Underwater Scenes ( http://arxiv.org/abs/2209.13091v1 )

ライセンス: Link先を確認
Advaith Venkatramanan Sethuraman, Manikandasriram Srinivasan Ramanagopal and Katherine A. Skinner(参考訳) 水中イメージングは、海洋ロボットが養殖、海洋インフラ検査、環境モニタリングなど幅広い応用のために行う重要なタスクである。 しかし、減衰や後方散乱などの水柱効果は、水中で撮影された画像の色と品質を大きく変えた。 様々な水環境とこれらの効果の範囲依存性のため、水中画像の復元は難しい課題である。 これは、深度推定や3次元再構成を含む下流の知覚課題に影響を及ぼす。 本稿では,ニューラルレイディアンス場(NeRF)の最先端技術を活用し,物理インフォームド深度推定と色補正を可能にする。 提案手法であるWaterNeRFは,水中画像形成のための物理モデルパラメータを推定し,ハイブリッドなデータ駆動・モデルベースソリューションを実現する。 シーン構造と放射界を決定した後、そのシーンの深度とともに、劣化と修正された水中画像の新たなビューを生成することができる。 提案手法を実際の水中データセット上で定性的かつ定量的に評価する。

Underwater imaging is a critical task performed by marine robots for a wide range of applications including aquaculture, marine infrastructure inspection, and environmental monitoring. However, water column effects, such as attenuation and backscattering, drastically change the color and quality of imagery captured underwater. Due to varying water conditions and range-dependency of these effects, restoring underwater imagery is a challenging problem. This impacts downstream perception tasks including depth estimation and 3D reconstruction. In this paper, we advance state-of-the-art in neural radiance fields (NeRFs) to enable physics-informed dense depth estimation and color correction. Our proposed method, WaterNeRF, estimates parameters of a physics-based model for underwater image formation, leading to a hybrid data-driven and model-based solution. After determining the scene structure and radiance field, we can produce novel views of degraded as well as corrected underwater images, along with dense depth of the scene. We evaluate the proposed method qualitatively and quantitatively on a real underwater dataset.
翻訳日:2022-09-28 16:47:05 公開日:2022-09-27
# 測地学の文法行列の低域特異ベクトル近似による画像の高能率ノイズフィルタ

Efficient Noise Filtration of Images by Low-Rank Singular Vector Approximations of Geodesics' Gramian Matrix ( http://arxiv.org/abs/2209.13094v1 )

ライセンス: Link先を確認
Kelum Gajamannage, Yonggi Park, and Sunil Mathur(参考訳) 現代の社会は、高度なカメラの急増により、高解像度で高品質な画像を撮影することに興味を持っている。 しかし,このような画像がリモートセンシングや物体追跡などのコンピュータビジョンタスクに利用される場合,画像中のノイズ汚染は人々の期待に反するだけでなく,その後のプロセスにも反する。 ノイズろ過は重要な役割を果たすが、高分解能画像のリアルタイム処理は、撮像装置のハードウェアの制限によって制限される。 geodesic gramian denoising (ggd) は,測地学のグラミアン行列の有意な特異ベクトルを雑音フィルタリングに利用した,これまでの研究で紹介した多様体に基づく雑音フィルタリング手法である。 GDDの適用性は、GGDが特異値分解(SVD)によって実装される$n^2 \times n^2$データ行列の顕著な特異ベクトルを計算するので、与えられた画像のサイズを$n\times n$とすることで、$\mathcal{O}(n^6)$に遭遇するため制限される。 本研究では,SVDのステップを4つの特異ベクトル近似手法に置き換えることで,GGDフレームワークの効率を向上する。 本稿では,GGDに組み込まれた4つの手法の計算時間とノイズフィルタリング性能を比較した。

Modern society is interested in capturing high-resolution and fine-quality images due to the surge of sophisticated cameras. However, the noise contamination in the images not only inferior people's expectations but also conversely affects the subsequent processes if such images are utilized in computer vision tasks such as remote sensing, object tracking, etc. Even though noise filtration plays an essential role, real-time processing of a high-resolution image is limited by the hardware limitations of the image-capturing instruments. Geodesic Gramian Denoising (GGD) is a manifold-based noise filtering method that we introduced in our past research which utilizes a few prominent singular vectors of the geodesics' Gramian matrix for the noise filtering process. The applicability of GDD is limited as it encounters $\mathcal{O}(n^6)$ when denoising a given image of size $n\times n$ since GGD computes the prominent singular vectors of a $n^2 \times n^2$ data matrix that is implemented by singular value decomposition (SVD). In this research, we increase the efficiency of our GGD framework by replacing its SVD step with four diverse singular vector approximation techniques. Here, we compare both the computational time and the noise filtering performance between the four techniques integrated into GGD.
翻訳日:2022-09-28 16:46:47 公開日:2022-09-27
# イベントカメラを用いた移動物体のパッシブ非視線イメージング

Passive Non-line-of-sight Imaging for Moving Targets with an Event Camera ( http://arxiv.org/abs/2209.13300v1 )

ライセンス: Link先を確認
Conghe Wang (1), Yutong He (2), Xia Wang (1), Honghao Huang (2), Changda Yan (1), Xin Zhang (1) and Hongwei Chen (2)((1) Key Laboratory of Photoelectronic Imaging Technology and System of Ministry of Education of China, School of Optics and Photonics, Beijing Institute of Technology (2) Beijing National Research Center for Information Science and Technology (BNRist), Department of Electronic Engineering, Tsinghua University)(参考訳) non-line-of-sight (nlos)イメージングは障害物の後ろや角の周りで物体を検出する新しい技術である。 受動NLOSの最近の研究は、移動目標認識の限界を示す定常測定と再構成に主に焦点をあてている。 我々はこの知識を最大限に活用するために,新しいイベントベース受動的nlosイメージング手法を提案する。 我々はNLOSターゲットの詳細な動的情報を含む非同期イベントベースデータを取得し、移動に伴うスペックル劣化を効率的に緩和する。 さらに、最初のイベントベースNLOSイメージングデータセットであるNLOS-ESを作成し、イベントベースの特徴を時間面表現によって抽出する。 イベントベースデータによる再構成とフレームベースデータを比較した。 このイベントベースの方法はpsnrとlpipsでうまく動作し、フレームベースの方法より20%と10%優れているが、データボリュームは従来の方法のわずか2%である。

Non-line-of-sight (NLOS) imaging is an emerging technique for detecting objects behind obstacles or around corners. Recent studies on passive NLOS mainly focus on steady-state measurement and reconstruction methods, which show limitations in recognition of moving targets. To the best of our knowledge, we propose a novel event-based passive NLOS imaging method. We acquire asynchronous event-based data which contains detailed dynamic information of the NLOS target, and efficiently ease the degradation of speckle caused by movement. Besides, we create the first event-based NLOS imaging dataset, NLOS-ES, and the event-based feature is extracted by time-surface representation. We compare the reconstructions through event-based data with frame-based data. The event-based method performs well on PSNR and LPIPS, which is 20% and 10% better than frame-based method, while the data volume takes only 2% of traditional method.
翻訳日:2022-09-28 16:46:23 公開日:2022-09-27
# 立方体正則化サブプロブレムに対する近似系方程式

Approximate Secular Equations for the Cubic Regularization Subproblem ( http://arxiv.org/abs/2209.13268v1 )

ライセンス: Link先を確認
Yihang Gao, Man-Chung Yue, Michael K. Ng(参考訳) 立方正則化法(CR)は、制約のない非凸最適化のための一般的なアルゴリズムである。 各反復において、CRは立方正則化部分プロブレム(CRS)と呼ばれる立方正則化二次問題を解く。 CRSの解法の一つは、計算のボトルネックがヘッセン行列のすべての固有値の計算にある世俗方程式の解法に依存する。 本稿では, ヘッセン固有値のいくつかしか必要とせず, より効率的であるような, 近似的世俗方程式に基づく新しいCRS解法を提案し, 解析する。 2つの近似世俗方程式(ASE)が開発されている。 両 ases について,まず根の存在と一意性を研究し,次に標準世俗方程式の根と根の間のギャップの上界を確立する。 このような上限は、近似CRS解に基づくASEから真のCRS解への距離を束縛するために用いられるので、我々のCRS解法に理論的保証を与える。 CRSソルバの望ましい特徴は,行列ベクトル乗算のみを必要とするが,行列逆転は必要とせず,低ランクリカバリやディープラーニングといった非凸最適化の高次元的応用に特に適している点である。 合成および実データを用いた数値実験を行い,提案したCRSソルバの性能について検討した。 実験の結果,提案手法は2つの最先端手法より優れていた。

The cubic regularization method (CR) is a popular algorithm for unconstrained non-convex optimization. At each iteration, CR solves a cubically regularized quadratic problem, called the cubic regularization subproblem (CRS). One way to solve the CRS relies on solving the secular equation, whose computational bottleneck lies in the computation of all eigenvalues of the Hessian matrix. In this paper, we propose and analyze a novel CRS solver based on an approximate secular equation, which requires only some of the Hessian eigenvalues and is therefore much more efficient. Two approximate secular equations (ASEs) are developed. For both ASEs, we first study the existence and uniqueness of their roots and then establish an upper bound on the gap between the root and that of the standard secular equation. Such an upper bound can in turn be used to bound the distance from the approximate CRS solution based ASEs to the true CRS solution, thus offering a theoretical guarantee for our CRS solver. A desirable feature of our CRS solver is that it requires only matrix-vector multiplication but not matrix inversion, which makes it particularly suitable for high-dimensional applications of unconstrained non-convex optimization, such as low-rank recovery and deep learning. Numerical experiments with synthetic and real data-sets are conducted to investigate the practical performance of the proposed CRS solver. Experimental results show that the proposed solver outperforms two state-of-the-art methods.
翻訳日:2022-09-28 16:44:13 公開日:2022-09-27
# 進化的TANNと固体力学における内部変数と進化方程式の発見

Evolution TANN and the discovery of the internal variables and evolution equations in solid mechanics ( http://arxiv.org/abs/2209.13269v1 )

ライセンス: Link先を確認
Filippo Masi, Ioannis Stefanou(参考訳) データ駆動型およびディープラーニングアプローチは、複雑な材料に対する古典的な構成モデルを置き換える可能性を示し、パス依存性を示し、複数の固有のスケールを持つ。 しかし、漸進的な定式化を伴う構成モデルを構築する必要性は、例えば、変形や時間の増大などの物理的量と人工的な非物理的量とをブレンドする、データ駆動的なアプローチを生み出している。 ニューラルネットワークと連続構成モデルは、特定の漸進的定式化に依存するため、時間内に局所的に物質表現を特定することに失敗し、一般化に苦しむ。 本稿では, 物質表現をインクリメンタルな定式化から切り離すための新しい手法を提案する。 熱力学に基づくニューラルネットワーク(TANN)と内部変数の理論に触発されて、進化 TANN(eTANN)は連続時間であり、前述の人工量とは無関係である。 提案手法の主な特徴は、インクリメンタル離散時間形式ではなく、通常の微分方程式の形で内部変数の進化方程式を発見することである。 本研究では,eTANNにおいてソリッド・メカニクスの一般的な概念がどのように実装されているかを示す。 熱力学の法則はネットワークの構造にハードワイヤーされ、常に一貫した予測を可能にする。 本研究では,データと第一原理から,複雑な材料中の微視的場から許容される内部変数の集合を探索する手法を提案する。 提案手法のスケーラビリティおよびスケーラビリティは, 塑性から損傷, 粘性に至るまで, 複雑な物質挙動の幅広いスペクトルを含むいくつかの応用を通して実証された。

Data-driven and deep learning approaches have demonstrated to have the potential of replacing classical constitutive models for complex materials, displaying path-dependency and possessing multiple inherent scales. Yet, the necessity of structuring constitutive models with an incremental formulation has given rise to data-driven approaches where physical quantities, e.g. deformation, blend with artificial, non-physical ones, such as the increments in deformation and time. Neural networks and the consequent constitutive models depend, thus, on the particular incremental formulation, fail in identifying material representations locally in time, and suffer from poor generalization. Here, we propose a new approach which allows, for the first time, to decouple the material representation from the incremental formulation. Inspired by the Thermodynamics-based Artificial Neural Networks (TANN) and the theory of the internal variables, the evolution TANN (eTANN) are continuous-time, thus independent of the aforementioned artificial quantities. Key feature of the proposed approach is the discovery of the evolution equations of the internal variables in the form of ordinary differential equations, rather than in an incremental discrete-time form. In this work, we focus attention to juxtapose and show how the various general notions of solid mechanics are implemented in eTANN. The laws of thermodynamics are hardwired in the structure of the network and allow predictions which are always consistent. We propose a methodology that allows to discover, from data and first principles, admissible sets of internal variables from the microscopic fields in complex materials. The capabilities as well as the scalability of the proposed approach are demonstrated through several applications involving a broad spectrum of complex material behaviors, from plasticity to damage and viscosity.
翻訳日:2022-09-28 16:43:51 公開日:2022-09-27
# smartfps: ニューラルネットワークを用いた無線慣性融合測位システム

SmartFPS: Neural Network based Wireless-inertial fusion positioning system ( http://arxiv.org/abs/2209.13261v1 )

ライセンス: Link先を確認
Luchi Hua, Yuan Zhuang, Jun Yang(参考訳) 現在の融合位置決めシステムは、主にカルマンフィルタリングや粒子フィルタリングといったフィルタリングアルゴリズムに基づいている。 しかし,歩行者慣性ナビゲーションシステムにおけるノイズモデリングや,指紋マッチングや局所化アルゴリズムにおける環境ノイズモデリングなど,実用シナリオのシステム複雑性は非常に高い場合が多い。 そこで本研究では,深層学習に基づく融合位置決めシステムを提案し,異なる分布を持つサンプルに対するニューラルネットワークモデルの性能向上のための伝達学習戦略を提案する。 その結果, 核融合ネットワークの平均測位精度は0.506mであった。 トランスファー・ラーニング実験の結果、歩行者の慣性航法位置決めステップサイズと回転角の推定精度を平均53.3%向上させ、異なる機器のbluetooth測位精度を33.4%向上させ、融合率を31.6%向上させることができた。

The current fusion positioning systems are mainly based on filtering algorithms, such as Kalman filtering or particle filtering. However, the system complexity of practical application scenarios is often very high, such as noise modeling in pedestrian inertial navigation systems, or environmental noise modeling in fingerprint matching and localization algorithms. To solve this problem, this paper proposes a fusion positioning system based on deep learning and proposes a transfer learning strategy for improving the performance of neural network models for samples with different distributions. The results show that in the whole floor scenario, the average positioning accuracy of the fusion network is 0.506 meters. The experiment results of transfer learning show that the estimation accuracy of the inertial navigation positioning step size and rotation angle of different pedestrians can be improved by 53.3% on average, the Bluetooth positioning accuracy of different devices can be improved by 33.4%, and the fusion can be improved by 31.6%.
翻訳日:2022-09-28 16:37:51 公開日:2022-09-27
# 相関源のブラインド分離のための生物学的に可視な決定式最大化ニューラルネットワーク

Biologically-Plausible Determinant Maximization Neural Networks for Blind Separation of Correlated Sources ( http://arxiv.org/abs/2209.12894v1 )

ライセンス: Link先を確認
Bariscan Bozkurt, Cengiz Pehlevan, Alper T. Erdogan(参考訳) 複合刺激の潜在源の抽出は、世界を理解する上で重要である。 脳はこのブラインドソース分離(BSS)問題を継続的に解決するが、アルゴリズムはまだ不明である。 生物学的に証明可能なBSSアルゴリズムに関する以前の研究は、観測された信号は統計的に独立あるいは非相関なソースの線形混合であり、これらのアルゴリズムの適用範囲を制限すると仮定していた。 この限界を克服するため,本論文では,潜在的依存/相関源のブラインド分離のための新しい生物学的可視性ニューラルネットワークを提案する。 従来の研究とは違って、ソースベクトル上の一般的な幾何学的条件を仮定し、潜在的な依存的/相関的ソースの分離を可能にする。 具体的には、ソースベクトルは、あるポリトープによって記述できる領域に十分に散在していると仮定する。 次に、出力相関行列の行列式を最大化するdet-max基準によるこれらのソースの回復を考慮し、ソース推定に類似のスプレッドを強制する。 この規範的原理から始まり、局所学習規則に適応可能な任意の線形変換を可能にする重み付き類似性マッチングアプローチを用いて、様々なソースドメインから得られるソースに混合物を分離できる2層生物学的に表現可能なニューラルネットワークアルゴリズムを導出する。 我々のアルゴリズムは、相関源分離問題において、他の生物学的に証明可能なBSSアルゴリズムよりも優れていることを示す。

Extraction of latent sources of complex stimuli is critical for making sense of the world. While the brain solves this blind source separation (BSS) problem continuously, its algorithms remain unknown. Previous work on biologically-plausible BSS algorithms assumed that observed signals are linear mixtures of statistically independent or uncorrelated sources, limiting the domain of applicability of these algorithms. To overcome this limitation, we propose novel biologically-plausible neural networks for the blind separation of potentially dependent/correlated sources. Differing from previous work, we assume some general geometric, not statistical, conditions on the source vectors allowing separation of potentially dependent/correlated sources. Concretely, we assume that the source vectors are sufficiently scattered in their domains which can be described by certain polytopes. Then, we consider recovery of these sources by the Det-Max criterion, which maximizes the determinant of the output correlation matrix to enforce a similar spread for the source estimates. Starting from this normative principle, and using a weighted similarity matching approach that enables arbitrary linear transformations adaptable by local learning rules, we derive two-layer biologically-plausible neural network algorithms that can separate mixtures into sources coming from a variety of source domains. We demonstrate that our algorithms outperform other biologically-plausible BSS algorithms on correlated source separation problems.
翻訳日:2022-09-28 16:37:14 公開日:2022-09-27
# モバイルエッジネットワーク上での半同期パーソナライズドフェデレーション学習

Semi-Synchronous Personalized Federated Learning over Mobile Edge Networks ( http://arxiv.org/abs/2209.13115v1 )

ライセンス: Link先を確認
Chaoqun You, Daquan Feng, Kun Guo, Howard H. Yang, Tony Q. S. Quek(参考訳) Personalized Federated Learning (PFL)は、分散ユーザ機器(UE)が生成するデータセットの不均一性問題に対処する新しいフェデレートラーニング(FL)アプローチである。 しかし、既存のPFL実装の多くは、適切な収束性能を確保するために同期トレーニングに依存しており、最も遅いUEによってトレーニング時間が大幅に延長される深刻なストラグラー問題を引き起こす可能性がある。 この問題を解決するために,モバイルエッジネットワーク上での半同期PFLアルゴリズム(Semi-Synchronous Personalized FederatedAveraging (PerFedS$^2$))を提案する。 無線帯域割り当てとUEスケジューリングポリシを協調的に最適化することにより、ストラグラー問題を緩和するだけでなく、収束トレーニング損失の保証も提供する。 我々は,グローバルラウンドあたりの参加者数とラウンド数の観点から,perfeds2の収束率の上限を導出する。 この手法により,解析解を用いて帯域幅割り当て問題を解くことができ,グレーディアルゴリズムによりUEスケジューリングポリシーを得ることができる。 実験の結果,PerFedS2がトレーニング時間を短縮すると同時に,同期および非同期PFLアルゴリズムとは対照的に,トレーニング損失の収束を保証することが確認できた。

Personalized Federated Learning (PFL) is a new Federated Learning (FL) approach to address the heterogeneity issue of the datasets generated by distributed user equipments (UEs). However, most existing PFL implementations rely on synchronous training to ensure good convergence performances, which may lead to a serious straggler problem, where the training time is heavily prolonged by the slowest UE. To address this issue, we propose a semi-synchronous PFL algorithm, termed as Semi-Synchronous Personalized FederatedAveraging (PerFedS$^2$), over mobile edge networks. By jointly optimizing the wireless bandwidth allocation and UE scheduling policy, it not only mitigates the straggler problem but also provides convergent training loss guarantees. We derive an upper bound of the convergence rate of PerFedS2 in terms of the number of participants per global round and the number of rounds. On this basis, the bandwidth allocation problem can be solved using analytical solutions and the UE scheduling policy can be obtained by a greedy algorithm. Experimental results verify the effectiveness of PerFedS2 in saving training time as well as guaranteeing the convergence of training loss, in contrast to synchronous and asynchronous PFL algorithms.
翻訳日:2022-09-28 16:36:11 公開日:2022-09-27
# ツリーベース分類器の説明可能なグローバルフェアネス検証

Explainable Global Fairness Verification of Tree-Based Classifiers ( http://arxiv.org/abs/2209.13179v1 )

ライセンス: Link先を確認
Stefano Calzavara, Lorenzo Cazzaro, Claudio Lucchese, Federico Marcuzzi(参考訳) 本稿では,木質分類器のグローバルフェアネス検証に対する新しいアプローチを提案する。 木に基づく分類器と識別につながる可能性のある重要な特徴のセットが与えられた場合、本分析は、従来の命題論理式の一式として表現される公正性の十分な条件を合成する。 検証された公正性保証はグローバルであり、式はいくつかの特定のテストインスタンスではなく、分類器のすべての入力を述語する。 私たちの分析は、音と完備の両方が正式に証明されている。 公開データセットでの実験的結果は、分析が正確であり、人間の専門家に説明可能であり、実用的採用に十分な効率性を示している。

We present a new approach to the global fairness verification of tree-based classifiers. Given a tree-based classifier and a set of sensitive features potentially leading to discrimination, our analysis synthesizes sufficient conditions for fairness, expressed as a set of traditional propositional logic formulas, which are readily understandable by human experts. The verified fairness guarantees are global, in that the formulas predicate over all the possible inputs of the classifier, rather than just a few specific test instances. Our analysis is formally proved both sound and complete. Experimental results on public datasets show that the analysis is precise, explainable to human experts and efficient enough for practical adoption.
翻訳日:2022-09-28 16:35:49 公開日:2022-09-27
# 動的高次元ロボットタスクの安全強化学習:ナビゲーション,操作,インタラクション

Safe reinforcement learning of dynamic high-dimensional robotic tasks: navigation, manipulation, interaction ( http://arxiv.org/abs/2209.13308v1 )

ライセンス: Link先を確認
Puze Liu, Kuo Zhang, Davide Tateo, Snehal Jauhri, Zhiyuan Hu, Jan Peters and Georgia Chalvatzaki(参考訳) 安全はあらゆるロボットプラットフォームの重要な特性であり、あらゆる制御ポリシーは常にアクチュエータの制限に準拠し、環境や人間との衝突を避けるべきである。 強化学習において、環境を探索する上で安全性はより基本的なものである。 安全な探査問題には多くの解決策が提案されているが、現実世界の複雑さに対処できるものはごくわずかである。 本稿では,各種ロボット作業の強化学習のための安全探索の新しい定式化を提案する。 提案手法は多種多様なロボットプラットフォームに適用され,制約多様体の接空間を探索することにより,データから得られた複雑な衝突制約の下でも安全性を向上する。 提案手法は, 環境との衝突を回避しつつ, シミュレーションによる高次元および動的タスクの最先端性能を実現する。 TIAGo++ロボットに学習コントローラを安全に配置し、操作や人間とロボットのインタラクションタスクにおいて優れた性能を発揮する。

Safety is a crucial property of every robotic platform: any control policy should always comply with actuator limits and avoid collisions with the environment and humans. In reinforcement learning, safety is even more fundamental for exploring an environment without causing any damage. While there are many proposed solutions to the safe exploration problem, only a few of them can deal with the complexity of the real world. This paper introduces a new formulation of safe exploration for reinforcement learning of various robotic tasks. Our approach applies to a wide class of robotic platforms and enforces safety even under complex collision constraints learned from data by exploring the tangent space of the constraint manifold. Our proposed approach achieves state-of-the-art performance in simulated high-dimensional and dynamic tasks while avoiding collisions with the environment. We show safe real-world deployment of our learned controller on a TIAGo++ robot, achieving remarkable performance in manipulation and human-robot interaction tasks.
翻訳日:2022-09-28 16:35:37 公開日:2022-09-27
# 流体バッチ:エッジNPU上での早期実行ニューラルネットワークの事前実行

Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs ( http://arxiv.org/abs/2209.13443v1 )

ライセンス: Link先を確認
Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane(参考訳) コンピュータビジョンタスクのバックボーンとしてディープニューラルネットワーク(DNN)が登場し、現実のコンシューマアプリケーションへの採用が継続的に広まっています。 スマートデバイスの豊富さと全能性を考えると、センサがスタンドアロンではなく同時に発生するような“スマートエコシステム”が形成されている。 これはデバイス上の推論パラダイムを、複数のデバイス(スマートホームや自動運転車など)が動的レートで処理するためにデータをストリームできる、エッジに集中型ニューラル処理ユニット(NPU)をデプロイすることに移行するものだ。 これにより、入力バッチのポテンシャルが向上する一方で、ナイーブなソリューションは、特にスピーキング負荷下で、パフォーマンスと経験の質を損なう可能性がある。 同時に、確率計算グラフ(例えばアーリーエグジット(EE)モデル)を含む動的DNNの展開は、そのようなシステムにおける動的挙動の新しい次元を導入している。 本研究では,実行時のサンプルプリエンプションを可能とし,到着過程と早期脱出過程の両方によって引き起こされる動的性を考慮し,新たな初期出力スケジューリングアルゴリズムを提案する。 同時に, npuハードウェアアーキテクチャの設計領域に, 異なるバッチサイズに対する実行時の適応性を実現し, 小さいバッチサイズでもnpu利用性を大幅に向上させる, 流体バッチとスタック可能な処理要素という, 2つの新たな次元を導入する。 評価の結果,従来のDNNストリーミングよりも平均1.97倍,平均6.7倍,平均遅延SLO満足度は平均1.97倍であった。

With deep neural networks (DNNs) emerging as the backbone in a multitude of computer vision tasks, their adoption in real-world consumer applications broadens continuously. Given the abundance and omnipresence of smart devices, "smart ecosystems" are being formed where sensing happens simultaneously rather than standalone. This is shifting the on-device inference paradigm towards deploying centralised neural processing units (NPUs) at the edge, where multiple devices (e.g. in smart homes or autonomous vehicles) can stream their data for processing with dynamic rates. While this provides enhanced potential for input batching, naive solutions can lead to subpar performance and quality of experience, especially under spiking loads. At the same time, the deployment of dynamic DNNs, comprising stochastic computation graphs (e.g. early-exit (EE) models), introduces a new dimension of dynamic behaviour in such systems. In this work, we propose a novel early-exit-aware scheduling algorithm that allows sample preemption at run time, to account for the dynamicity introduced both by the arrival and early-exiting processes. At the same time, we introduce two novel dimensions to the design space of the NPU hardware architecture, namely Fluid Batching and Stackable Processing Elements, that enable run-time adaptability to different batch sizes and significantly improve the NPU utilisation even at small batch sizes. Our evaluation shows that our system achieves an average 1.97x and 6.7x improvement over state-of-the-art DNN streaming systems in terms of average latency and tail latency SLO satisfaction, respectively.
翻訳日:2022-09-28 16:35:23 公開日:2022-09-27
# 大規模マルチエージェントモデルのニューラルパラメータ校正

Neural parameter calibration for large-scale multi-agent models ( http://arxiv.org/abs/2209.13565v1 )

ライセンス: Link先を確認
Thomas Gaskin, Grigorios A. Pavliotis, Mark Girolami(参考訳) 計算モデルは、時間とともに進化する複雑なシステムの振る舞いを理解するための定量的科学の強力なツールとなっている。 しかし、理論から値を得ることができないがデータから推測される必要のある、潜在的に多くの自由パラメータを含むことが多い。 これは特に社会科学、経済学、計算疫学のモデルの場合である。 しかし、多くの現在のパラメータ推定法は数学的に関係しており、計算が遅い。 本稿では,ニューラル微分方程式を用いたモデルパラメータの正確な確率密度を求めるための,計算学的に単純かつ高速な手法を提案する。 本稿では,一般あるいは確率微分方程式系のフォワードソルバとして機能するマルチエージェントモデルと,モデルが生成するデータからパラメータを抽出するニューラルネットワークからなるパイプラインを提案する。 この2つの組み合わせは、非常に大きなシステムでもモデルパラメータの密度を素早く見積もる強力なツールを生み出します。 本研究では,感染拡大モデルsirの時系列データを用いて,ネットワーク上での経済活動のharris-wilsonモデルの詳細分析を行い,非凸問題を表現する。 後者については,合成データとグレーター・ロンドン全域の経済活動データの両方に本手法を適用する。 本手法は,従来より195倍から390倍高速に動作しながら,同じデータ集合を用いた従来の研究よりも桁違いにモデルの順序を規定していることがわかった。

Computational models have become a powerful tool in the quantitative sciences to understand the behaviour of complex systems that evolve in time. However, they often contain a potentially large number of free parameters whose values cannot be obtained from theory but need to be inferred from data. This is especially the case for models in the social sciences, economics, or computational epidemiology. Yet many current parameter estimation methods are mathematically involved and computationally slow to run. In this paper we present a computationally simple and fast method to retrieve accurate probability densities for model parameters using neural differential equations. We present a pipeline comprising multi-agent models acting as forward solvers for systems of ordinary or stochastic differential equations, and a neural network to then extract parameters from the data generated by the model. The two combined create a powerful tool that can quickly estimate densities on model parameters, even for very large systems. We demonstrate the method on synthetic time series data of the SIR model of the spread of infection, and perform an in-depth analysis of the Harris-Wilson model of economic activity on a network, representing a non-convex problem. For the latter, we apply our method both to synthetic data and to data of economic activity across Greater London. We find that our method calibrates the model orders of magnitude more accurately than a previous study of the same dataset using classical techniques, while running between 195 and 390 times faster.
翻訳日:2022-09-28 16:34:55 公開日:2022-09-27
# ファサード損傷セグメンテーションにおける注意機構と生成的逆ネットワークの比較研究

A comparative study of attention mechanism and generative adversarial network in facade damage segmentation ( http://arxiv.org/abs/2209.13283v1 )

ライセンス: Link先を確認
Fangzheng Lin (1 and 3), Jiesheng Yang (1), Jiangpeng Shu (2), Raimar J. Scherer (3) ((1) Institute of Construction Informatics, Dresden University of Technology, (2) Collage of Civil Engineering and Architecture, Zhejiang University, (3) Deep Learning Center, Changzhou Microintelligence Co., Ltd.)(参考訳) セマンティックセグメンテーションはディープラーニングから利益を得ており、オンサイト検査からグラフィカルデータを扱う可能性を示している。 その結果、ファサード画像の視覚的損傷を検出する必要がある。 アテンション機構と生成的敵ネットワークは、意味セグメンテーションの品質を改善するための最も一般的な2つの戦略である。 本稿では,これら2つの戦略に特に焦点をあて,代表的な畳み込みニューラルネットワークであるu-netをプライマリネットワークとして採用し,二つのステップで比較研究を行う。 まず, セルイメージを用いて, 注目機構を有するU-net間の最も効果的なネットワークをそれぞれ決定する。 続いて、第1試験およびそれらの組み合わせから選択されたネットワークをファサード損傷セグメント化に適用し、これらのネットワークの性能を調べる。 さらに,注意機構と生成的敵ネットワークの複合効果を発見し,考察した。

Semantic segmentation profits from deep learning and has shown its possibilities in handling the graphical data from the on-site inspection. As a result, visual damage in the facade images should be detected. Attention mechanism and generative adversarial networks are two of the most popular strategies to improve the quality of semantic segmentation. With specific focuses on these two strategies, this paper adopts U-net, a representative convolutional neural network, as the primary network and presents a comparative study in two steps. First, cell images are utilized to respectively determine the most effective networks among the U-nets with attention mechanism or generative adversarial networks. Subsequently, selected networks from the first test and their combination are applied for facade damage segmentation to investigate the performances of these networks. Besides, the combined effect of the attention mechanism and the generative adversarial network is discovered and discussed.
翻訳日:2022-09-28 16:28:45 公開日:2022-09-27
# CCTCOVID:小型コンボリューショントランスを用いた胸部X線画像からのCOVID-19検出

CCTCOVID: COVID-19 Detection from Chest X-Ray Images Using Compact Convolutional Transformers ( http://arxiv.org/abs/2209.13399v1 )

ライセンス: Link先を確認
Abdolreza Marefat, Mahdieh Marefat, Javad Hasannataj Joloudari, Mohammad Ali Nematollahi, Reza Lashgari(参考訳) 新型コロナウイルス(covid-19)は、上気道と肺を攻撃する新しいウイルスである。 対人透過性はかなり速く、個人の生活のほぼ全ての面において深刻な問題を引き起こしている。 感染した人の中には完全に無症状のままの者もいるが、軽度から重篤な症状をしばしば目撃されている者もいる。 これに加えて、世界中の数千人の死者が、新型コロナウイルスの発見が緊急の需要であることを示した。 実際に、CT(Computed Tomography)やX線画像などの医療画像のスクリーニングの助けを借りて行われる。 しかし, 医療従事者には, 煩雑な臨床処置や日常的な症例が多く, 重大な課題となっている。 ディープラーニングベースのアプローチは、幅広い医療タスクにおいて大きな可能性を示しています。 その結果,コンパクト・コンボリューショナル・トランスフォーマー(CCT)を用いて,X線画像からCOVID-19を自動的に検出するトランスフォーマー方式が導入された。 提案手法の有効性を98%の精度で検証し,本手法の有効性を実証した。

COVID-19 is a novel virus that attacks the upper respiratory tract and the lungs. Its person-to-person transmissibility is considerably rapid and this has caused serious problems in approximately every facet of individuals lives. While some infected individuals may remain completely asymptomatic, others have been frequently witnessed to have mild to severe symptoms. In addition to this, thousands of death cases around the globe indicated that detecting COVID-19 is an urgent demand in the communities. Practically, this is prominently done with the help of screening medical images such as Computed Tomography (CT) and X-ray images. However, the cumbersome clinical procedures and a large number of daily cases have imposed great challenges on medical practitioners. Deep Learning-based approaches have demonstrated a profound potential in a wide range of medical tasks. As a result, we introduce a transformer-based method for automatically detecting COVID-19 from X-ray images using Compact Convolutional Transformers (CCT). Our extensive experiments prove the efficacy of the proposed method with an accuracy of 98% which outperforms the previous works.
翻訳日:2022-09-28 16:28:31 公開日:2022-09-27
# uavによる建物自動検査のための視覚リモートセンシング

UAV-based Visual Remote Sensing for Automated Building Inspection ( http://arxiv.org/abs/2209.13418v1 )

ライセンス: Link先を確認
Kushagra Srivastava, Dhruv Patel, Aditya Kumar Jha, Mohhit Kumar Jha, Jaskirat Singh, Ravi Kiran Sarvadevabhatla, Pradeep Kumar Ramancharla, Harikumar Kandath and K. Madhava Krishna(参考訳) 無人航空機(UAV)にコンピュータビジョンを組み込んだリモートセンシングシステムでは,地震時の建物建設や災害時の被害評価などの災害管理を支援する可能性が示された。 地震に対する建物の脆弱性は、関連するコンポーネントの損傷進行と構造システム性能へのコンポーネントの貢献を考慮に入れた検査によって評価することができる。 これらの検査のほとんどは手作業で行われ、人力、時間、コストの高利用につながる。 本稿では,UAVに基づく画像データ収集による検査の自動化手法と,地震構造パラメータの推定を支援する後処理用ソフトウェアライブラリを提案する。 ここで考慮される重要なパラメータは、隣接する建物間の距離、建物の計画形状、建築計画エリア、屋上にある物、屋上レイアウトである。 上記のパラメータ推定における提案手法の精度は,距離計測センサを用いたフィールド計測と,google earthから得られたデータを用いて検証した。 詳細とコードはhttps://uvrsabi.github.io/からアクセスできる。

Unmanned Aerial Vehicle (UAV) based remote sensing system incorporated with computer vision has demonstrated potential for assisting building construction and in disaster management like damage assessment during earthquakes. The vulnerability of a building to earthquake can be assessed through inspection that takes into account the expected damage progression of the associated component and the component's contribution to structural system performance. Most of these inspections are done manually, leading to high utilization of manpower, time, and cost. This paper proposes a methodology to automate these inspections through UAV-based image data collection and a software library for post-processing that helps in estimating the seismic structural parameters. The key parameters considered here are the distances between adjacent buildings, building plan-shape, building plan area, objects on the rooftop and rooftop layout. The accuracy of the proposed methodology in estimating the above-mentioned parameters is verified through field measurements taken using a distance measuring sensor and also from the data obtained through Google Earth. Additional details and code can be accessed from https://uvrsabi.github.io/ .
翻訳日:2022-09-28 16:28:15 公開日:2022-09-27
# CrossDTR:3次元物体検出のためのクロスビューおよび奥行き誘導変換器

CrossDTR: Cross-view and Depth-guided Transformers for 3D Object Detection ( http://arxiv.org/abs/2209.13507v1 )

ライセンス: Link先を確認
Ching-Yu Tseng, Yi-Rong Chen, Hsin-Ying Lee, Tsung-Han Wu, Wen-Chin Chen, Winston Hsu(参考訳) 自動運転車の低コストで高精度な3次元物体検出を実現するため,多くのマルチカメラ手法が提案され,モノクルアプローチの閉塞問題を解決している。 しかし、正確な推定深度がないため、既存のマルチカメラ方式では歩行者などの難しい小型物体に対して、深度方向の光線に沿って複数のバウンディングボックスを生成することが多いため、リコールは極めて少ない。 さらに、大規模ネットワークアーキテクチャで構成される既存のマルチカメラ手法に深度予測モジュールを直接適用することは、自動運転アプリケーションのリアルタイム要件を満たせない。 この問題に対処するために,3次元物体検出のためのクロスビューおよび深度誘導トランス,crossdtrを提案する。 まず、軽量深度予測器は、監視中に余分な深さデータセットを必要とせずに、精密な物体方向スパース深度マップと低次元深度埋め込みを生成するように設計されている。 第2に、異なる視野のカメラからの映像特徴と深度埋め込みを融合させ、3Dバウンディングボックスを生成するクロスビュー深度誘導変圧器を開発した。 大規模な実験により,本手法が既存のマルチカメラ手法を大幅に上回り,歩行者検出の10%,mAPおよびNDSの指標全体の約3%を超えた。 また,計算解析の結果,従来の手法の5倍高速であることが判明した。 私たちのコードはhttps://github.com/sty61010/CrossDTRで公開されます。

To achieve accurate 3D object detection at a low cost for autonomous driving, many multi-camera methods have been proposed and solved the occlusion problem of monocular approaches. However, due to the lack of accurate estimated depth, existing multi-camera methods often generate multiple bounding boxes along a ray of depth direction for difficult small objects such as pedestrians, resulting in an extremely low recall. Furthermore, directly applying depth prediction modules to existing multi-camera methods, generally composed of large network architectures, cannot meet the real-time requirements of self-driving applications. To address these issues, we propose Cross-view and Depth-guided Transformers for 3D Object Detection, CrossDTR. First, our lightweight depth predictor is designed to produce precise object-wise sparse depth maps and low-dimensional depth embeddings without extra depth datasets during supervision. Second, a cross-view depth-guided transformer is developed to fuse the depth embeddings as well as image features from cameras of different views and generate 3D bounding boxes. Extensive experiments demonstrated that our method hugely surpassed existing multi-camera methods by 10 percent in pedestrian detection and about 3 percent in overall mAP and NDS metrics. Also, computational analyses showed that our method is 5 times faster than prior approaches. Our codes will be made publicly available at https://github.com/sty61010/CrossDTR.
翻訳日:2022-09-28 16:27:58 公開日:2022-09-27
# StyleSwap: スタイルベースのジェネレータはロバストな顔スワップ

StyleSwap: Style-Based Generator Empowers Robust Face Swapping ( http://arxiv.org/abs/2209.13514v1 )

ライセンス: Link先を確認
Zhiliang Xu, Hang Zhou, Zhibin Hong, Ziwei Liu, Jiaming Liu, Zhizhi Guo, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang(参考訳) 広範囲の応用を考えると、顔の入れ替わりの課題に対して多くの試みがなされている。 既存の手法は主に退屈なネットワーク設計と損失設計に依存しているが、ソースとターゲットの顔間の情報バランスに問題があり、目に見えるアーティファクトを生成する傾向がある。 本稿では,StyleSwapという簡潔で効果的なフレームワークを紹介する。 私たちの核となるアイデアは、スタイルベースのジェネレータを活用して、高忠実度で堅牢な顔スワップを可能にすることで、ジェネレータの利点をアイデンティティの類似性を最適化するために採用することです。 最小限の変更だけで、stylegan2アーキテクチャがソースとターゲットの両方から必要な情報をうまく処理できることを私たちは認識します。 さらに、ToRGBレイヤにインスパイアされたSwapping-Driven Maskブランチは、情報ブレンディングを改善するためにさらに開発されている。 さらに、StyleGANの逆変換の利点も活用できる。 特にSwapping-Guided IDインバージョン戦略はアイデンティティの類似性を最適化するために提案されている。 広範な実験によって、我々のフレームワークが質的にも定量的にも最先端の手法を上回る高品質な顔スワップ結果を生成することが検証された。

Numerous attempts have been made to the task of person-agnostic face swapping given its wide applications. While existing methods mostly rely on tedious network and loss designs, they still struggle in the information balancing between the source and target faces, and tend to produce visible artifacts. In this work, we introduce a concise and effective framework named StyleSwap. Our core idea is to leverage a style-based generator to empower high-fidelity and robust face swapping, thus the generator's advantage can be adopted for optimizing identity similarity. We identify that with only minimal modifications, a StyleGAN2 architecture can successfully handle the desired information from both source and target. Additionally, inspired by the ToRGB layers, a Swapping-Driven Mask Branch is further devised to improve information blending. Furthermore, the advantage of StyleGAN inversion can be adopted. Particularly, a Swapping-Guided ID Inversion strategy is proposed to optimize identity similarity. Extensive experiments validate that our framework generates high-quality face swapping results that outperform state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2022-09-28 16:27:32 公開日:2022-09-27
# コンパクトかつ効果的な局所特徴記述子計算のための学習に基づく次元化

Learning-Based Dimensionality Reduction for Computing Compact and Effective Local Feature Descriptors ( http://arxiv.org/abs/2209.13586v1 )

ライセンス: Link先を確認
Hao Dong, Xieyuanli Chen, Mihai Dusmanu, Viktor Larsson, Marc Pollefeys and Cyrill Stachniss(参考訳) 特徴の形でのイメージパッチの独特な表現は、画像マッチング、画像検索、視覚的ローカライゼーションといった多くのコンピュータビジョンとロボティクスタスクの重要な要素である。 SIFTのような手作りの記述子からHardNetのような学習した記述子まで、最先端の記述子は通常高次元であり、128次元以上である。 次元が大きくなるほど、そのような記述子を用いたアプローチのメモリ消費と計算時間が大きくなる。 本稿では,低次元ながら高品質な記述子を抽出する多層パーセプトロン(MLP)について検討する。 提案手法を教師なし,自己管理,教師付き設定で徹底的に解析し,4つの代表記述子について次元削減結果を評価する。 視覚的ローカライゼーション,パッチ検証,画像マッチング,検索など,さまざまなアプリケーションを検討した。 実験の結果,PCAよりも軽量なMLPの方が次元の低減に優れることがわかった。 提案手法により生成する低次元記述子は, 下流タスク, 特に手作り作業において, 元の高次元記述子を上回っている。 コードはhttps://github.com/prbonn/descriptor-drで入手できる。

A distinctive representation of image patches in form of features is a key component of many computer vision and robotics tasks, such as image matching, image retrieval, and visual localization. State-of-the-art descriptors, from hand-crafted descriptors such as SIFT to learned ones such as HardNet, are usually high dimensional; 128 dimensions or even more. The higher the dimensionality, the larger the memory consumption and computational time for approaches using such descriptors. In this paper, we investigate multi-layer perceptrons (MLPs) to extract low-dimensional but high-quality descriptors. We thoroughly analyze our method in unsupervised, self-supervised, and supervised settings, and evaluate the dimensionality reduction results on four representative descriptors. We consider different applications, including visual localization, patch verification, image matching and retrieval. The experiments show that our lightweight MLPs achieve better dimensionality reduction than PCA. The lower-dimensional descriptors generated by our approach outperform the original higher-dimensional descriptors in downstream tasks, especially for the hand-crafted ones. The code will be available at https://github.com/PRBonn/descriptor-dr.
翻訳日:2022-09-28 16:27:16 公開日:2022-09-27
# セルネットワーク信号に対する人工知能に基づくスペクトルセンシングによる攻撃の軽減

Mitigating Attacks on Artificial Intelligence-based Spectrum Sensing for Cellular Network Signals ( http://arxiv.org/abs/2209.13007v1 )

ライセンス: Link先を確認
Ferhat Ozgur Catak and Murat Kuzlu and Salih Sarp and Evren Catak and Umit Cali(参考訳) 携帯電話ネットワーク(LTE、5Gなど)は、消費者からの需要が高まり、高度な通信技術を持つ他の無線ネットワークよりも有望である。 これらのネットワークの主な目的は、何十億ものデバイス、システム、ユーザーを高速なデータ伝送、セル容量、低レイテンシで接続することであり、また、仮想現実、メタバース、テレヘルス、オンライン教育、自律飛行車、先進的な製造など、幅広い新しいアプリケーションをサポートすることである。 これらの目標を達成するために、携帯電話ネットワークにおけるスペクトル管理に人工知能(AI)手法を用いる新しいアプローチとともに、スペクトルセンシングが注目されている。 本稿では,aiに基づくセマンティクスセグメンテーションモデルを用いて,防御蒸留法の有無に関わらず,敵対的攻撃下でのセルネットワーク信号の識別を行うスペクトルセンシング手法の脆弱性解析を行う。 その結果,AIを用いたスペクトルセンシングモデルによる敵攻撃に対する脆弱性の軽減効果が示唆された。

Cellular networks (LTE, 5G, and beyond) are dramatically growing with high demand from consumers and more promising than the other wireless networks with advanced telecommunication technologies. The main goal of these networks is to connect billions of devices, systems, and users with high-speed data transmission, high cell capacity, and low latency, as well as to support a wide range of new applications, such as virtual reality, metaverse, telehealth, online education, autonomous and flying vehicles, advanced manufacturing, and many more. To achieve these goals, spectrum sensing has been paid more attention, along with new approaches using artificial intelligence (AI) methods for spectrum management in cellular networks. This paper provides a vulnerability analysis of spectrum sensing approaches using AI-based semantic segmentation models for identifying cellular network signals under adversarial attacks with and without defensive distillation methods. The results showed that mitigation methods can significantly reduce the vulnerabilities of AI-based spectrum sensing models against adversarial attacks.
翻訳日:2022-09-28 16:26:57 公開日:2022-09-27
# 静的知識対動的議論:クリプキ意味論に基づく二重理論

Static Knowledge vs. Dynamic Argumentation: A Dual Theory Based on Kripke Semantics ( http://arxiv.org/abs/2209.13082v1 )

ライセンス: Link先を確認
Xinyu Wang, Momoka Fujieda(参考訳) 本稿では,知識と議論に関する二重理論を確立する。 我々の考えは、認識論理と議論理論の両方に根ざしており、表面的なだけでなく、知識と議論の本質的な関連性を徹底的に明らかにすることを目的としている。 具体的には,認識型クリプケモデルと引数クリプケモデルを双対として定義し,これら2種類のクリプケモデル間の双方向生成法を考案する。 このような生成は、モーダル公式の不変性に関する双対性定理によって厳密に正当化される。 我々はまた、我々のフレームワークの実用性が強く主張される、我々の世代を実例で示す。 最後に、知識は本質的に動的であるという哲学的な論文を提案し、マクスウェルの悪魔と、よく知られた「知識は力である」という証明との関係を描き出す。

This paper establishes a dual theory about knowledge and argumentation. Our idea is rooted at both epistemic logic and argumentation theory, and we aim to merge these two fields, not just in a superficial way but to thoroughly disclose the intrinsic relevance between knowledge and argumentation. Specifically, we define epistemic Kripke models and argument Kripke models as a dual pair, and then work out a two-way generation method between these two types of Kripke models. Such generation is rigorously justified by a duality theorem on modal formulae's invariance. We also provide realistic examples to demonstrate our generation, through which our framework's practical utility gets strongly advocated. We finally propose a philosophical thesis that knowledge is essentially dynamic, and we draw certain connection to Maxwell's demon as well as the well-known proverb "knowledge is power".
翻訳日:2022-09-28 16:26:38 公開日:2022-09-27
# 第4回自律システムのための形式的手法に関する国際ワークショップ(fmas)及び第4回自動検証ソフトウェアシステム開発に関する国際ワークショップ(asyde)

Proceedings Fourth International Workshop on Formal Methods for Autonomous Systems (FMAS) and Fourth International Workshop on Automated and verifiable Software sYstem DEvelopment (ASYDE) ( http://arxiv.org/abs/2209.13181v1 )

ライセンス: Link先を確認
Matt Luckcuck, Marie Farrell(参考訳) このeptcsには、2022年9月26日と27日に開催された第4回自律システムのための形式的手法に関する国際ワークショップ(fmas 2022)と第4回自動検証ソフトウェアシステム開発に関する国際ワークショップ(asyde 2022)の合同ワークショップが含まれている。 FMAS 2022とASYDE 2022は、ベルリンのハンボルト大学で第20回ソフトウェアエンジニアリング・フォーマルメソッド国際会議(SEFM'22)と共同で開催された。 FMASにとって、今年のワークショップは、新型コロナウイルス(COVID-19)の規制で完全にオンラインになったFMASの2つのエディションの後に、直接出席することへの回帰でした。 また、FMAS 2022が旅行できない人にも容易にアクセスできるようにしたいと考えており、ワークショップは遠隔でのプレゼンテーションと出席を円滑に進めた。 FMASの目標は、自律システムが提供するユニークな課題に対処するためにフォーマルな方法を使用している主要な研究者をまとめて、最近進行中の作業を共有することだ。 自律システムは高度に複雑であり、形式的手法の適用に特有の課題がある。 自律システムは人間の介入なしに行動し、しばしばロボットシステムに組み込まれ、現実世界と対話できるようにします。 そのため、それらは安全クリティカル、サイバー物理、ハイブリッド、リアルタイムシステムの特性を示す。 私たちは、自律型および/またはロボットシステムの特定、モデル化、検証にフォーマルな方法を使用する仕事に興味があります。 私たちはまた、産業応用の成功と、この新たな形式的手法の適用への潜在的な方向にも興味を持っています。

This EPTCS volume contains the joint proceedings for the fourth international workshop on Formal Methods for Autonomous Systems (FMAS 2022) and the fourth international workshop on Automated and verifiable Software sYstem DEvelopment (ASYDE 2022), which were held on the 26th and 27th of September 2022. FMAS 2022 and ASYDE 2022 were held in conjunction with 20th International Conference on Software Engineering and Formal Methods (SEFM'22), at Humboldt University in Berlin. For FMAS, this year's workshop was our return to having in-person attendance after two editions of FMAS that were entirely online because of the restrictions necessitated by COVID-19. We were also keen to ensure that FMAS 2022 remained easily accessible to people who were unable to travel, so the workshop facilitated remote presentation and attendance. The goal of FMAS is to bring together leading researchers who are using formal methods to tackle the unique challenges presented by autonomous systems, to share their recent and ongoing work. Autonomous systems are highly complex and present unique challenges for the application of formal methods. Autonomous systems act without human intervention, and are often embedded in a robotic system, so that they can interact with the real world. As such, they exhibit the properties of safety-critical, cyber-physical, hybrid, and real-time systems. We are interested in work that uses formal methods to specify, model, or verify autonomous and/or robotic systems; in whole or in part. We are also interested in successful industrial applications and potential directions for this emerging application of formal methods.
翻訳日:2022-09-28 16:26:23 公開日:2022-09-27
# 時相論理動作計画のための強化学習における変圧器の活用

Exploiting Transformer in Reinforcement Learning for Interpretable Temporal Logic Motion Planning ( http://arxiv.org/abs/2209.13220v1 )

ライセンス: Link先を確認
Hao Zhang, Hao Wang, and Zhen Kan(参考訳) オートマトンベースのアプローチにより、ロボットは様々な複雑なタスクを実行できる。 しかし、既存のオートマトンベースのアルゴリズムの多くは、検討されたタスクの状態を手動でカスタマイズすることで、深い強化学習アルゴリズムの適用性を制限している。 この問題に対処するため,Transformer を強化学習に組み込むことで,Transformer の構造的特徴,すなわち Transformer モジュールを介して LTL 命令を符号化して,トレーニング中のタスク命令を効率的に理解し,さらに Transformer を通じてコンテキスト変数を符号化することで,タスク性能を向上する,Double-Transformer ガイダンスのテンポラル論理フレームワーク (T2TL) を開発した。 特に ltl 命令は co-safe ltl で指定される。 セマンティクス保存リライト操作として、ltlプログレスは複雑なタスクを学習可能なサブゴールに分解し、非マルコフ的報酬決定プロセスをマルコフ的タスクに変換するだけでなく、複数のサブタスクを同時に学習することでサンプリング効率を向上させる。 環境に依存しないTLL事前学習スキームが組み込まれ、Transformerモジュールの学習が容易になり、LTLの表現が向上する。 シミュレーションと実験により,T2TLフレームワークの有効性が示された。

Automaton based approaches have enabled robots to perform various complex tasks. However, most existing automaton based algorithms highly rely on the manually customized representation of states for the considered task, limiting its applicability in deep reinforcement learning algorithms. To address this issue, by incorporating Transformer into reinforcement learning, we develop a Double-Transformer-guided Temporal Logic framework (T2TL) that exploits the structural feature of Transformer twice, i.e., first encoding the LTL instruction via the Transformer module for efficient understanding of task instructions during the training and then encoding the context variable via the Transformer again for improved task performance. Particularly, the LTL instruction is specified by co-safe LTL. As a semantics-preserving rewriting operation, LTL progression is exploited to decompose the complex task into learnable sub-goals, which not only converts non-Markovian reward decision process to Markovian ones, but also improves the sampling efficiency by simultaneous learning of multiple sub-tasks. An environment-agnostic LTL pre-training scheme is further incorporated to facilitate the learning of the Transformer module resulting in improved representation of LTL. The simulation and experiment results demonstrate the effectiveness of the T2TL framework.
翻訳日:2022-09-28 16:25:54 公開日:2022-09-27
# BayesNetCNN:画像に基づく分類タスクのためのニューラルネットワークの不確実性を活用する

BayesNetCNN: incorporating uncertainty in neural networks for image-based classification tasks ( http://arxiv.org/abs/2209.13096v1 )

ライセンス: Link先を確認
Matteo Ferrante, Tommaso Boccato, Nicola Toschi(参考訳) 自動アルゴリズムによって定式化された予測を信頼する意志は、膨大な数のドメインにおいて鍵となる。 しかし、膨大な数の深いアーキテクチャは、関連する不確実性なしに予測を定式化できるのみである。 本稿では,標準ニューラルネットワークをベイズニューラルネットワークに変換する手法を提案し,各前方パスで元のニューラルネットワークと同様の異なるネットワークをサンプリングすることにより,予測のばらつきを推定する。 我々は,モデルがユーザ設定閾値以下で不確実性のある分類が可能なデータセットのごく一部しか使用できない,可変的な拒絶ベースアプローチで手法を組み合わせる。 アルツハイマー病患者から得られた脳画像のコホートを用いて, 形態計測画像のみに基づいて, 健康なコントロールから患者を識別する実験を行った。 評価の不確実性と拒絶に基づくアプローチを組み合わせることで, 75%の精度を維持しつつ, 分類精度を0.86から0.95に向上させることを示す。 さらに,過度な不確実性に基づいて,手作業による評価を推奨する事例を選択することができる。 予測の不確実性を推定できると同時に,ネットワークの動作を,ユーザが通知された(かつ快適に)ある程度の信頼度に調整できるツールが,ユーザコンプライアンスの方向性における重要なステップであり,人間の操作者が現在行っている日常的なタスクへのディープラーニングツールの統合が容易である,と我々は信じている。

The willingness to trust predictions formulated by automatic algorithms is key in a vast number of domains. However, a vast number of deep architectures are only able to formulate predictions without an associated uncertainty. In this paper, we propose a method to convert a standard neural network into a Bayesian neural network and estimate the variability of predictions by sampling different networks similar to the original one at each forward pass. We couple our methods with a tunable rejection-based approach that employs only the fraction of the dataset that the model is able to classify with an uncertainty below a user-set threshold. We test our model in a large cohort of brain images from Alzheimer's Disease patients, where we tackle discrimination of patients from healthy controls based on morphometric images only. We demonstrate how combining the estimated uncertainty with a rejection-based approach increases classification accuracy from 0.86 to 0.95 while retaining 75% of the test set. In addition, the model can select cases to be recommended for manual evaluation based on excessive uncertainty. We believe that being able to estimate the uncertainty of a prediction, along with tools that can modulate the behavior of the network to a degree of confidence that the user is informed about (and comfortable with) can represent a crucial step in the direction of user compliance and easier integration of deep learning tools into everyday tasks currently performed by human operators.
翻訳日:2022-09-28 16:19:18 公開日:2022-09-27
# ヒッチハイカーの超解像ガイド:序論と最近の進歩

Hitchhiker's Guide to Super-Resolution: Introduction and Recent Advances ( http://arxiv.org/abs/2209.13131v1 )

ライセンス: Link先を確認
Brian Moser, Federico Raue, Stanislav Frolov, J\"orn Hees, Sebastian Palacio, Andreas Dengel(参考訳) ディープラーニング(DL)の出現に伴い、超解法(SR)も繁栄する研究領域となった。 しかし、有望な結果にもかかわらず、この分野は、フレキシブルなアップサンプリング、より効果的な損失関数、より良い評価指標など、さらなる研究を必要とする課題に直面している。 本稿では,最近の進歩を踏まえてSRの領域を概観し,拡散(DDPM)やトランスフォーマーベースSRモデルなどの最先端モデルについて検討する。 我々は,srで使用される現代戦略に関する批判的な議論を行い,有望でありながら未検討な研究方向を特定する。 我々は,不確実性による損失,ウェーブレットネットワーク,ニューラルアーキテクチャ探索,新しい正規化手法,最新の評価手法などの分野における最新の展開を取り入れて,過去の調査を補完する。 また,各章のモデルや手法を可視化することで,この分野の動向をグローバルに理解できるようにしている。 このレビューは究極的には、研究者がSRに適用されるDLの境界を押し上げるのを助けることを目的としている。

With the advent of Deep Learning (DL), Super-Resolution (SR) has also become a thriving research area. However, despite promising results, the field still faces challenges that require further research e.g., allowing flexible upsampling, more effective loss functions, and better evaluation metrics. We review the domain of SR in light of recent advances, and examine state-of-the-art models such as diffusion (DDPM) and transformer-based SR models. We present a critical discussion on contemporary strategies used in SR, and identify promising yet unexplored research directions. We complement previous surveys by incorporating the latest developments in the field such as uncertainty-driven losses, wavelet networks, neural architecture search, novel normalization methods, and the latests evaluation techniques. We also include several visualizations for the models and methods throughout each chapter in order to facilitate a global understanding of the trends in the field. This review is ultimately aimed at helping researchers to push the boundaries of DL applied to SR.
翻訳日:2022-09-28 16:18:52 公開日:2022-09-27
# デジタル画像解析による乳癌のKi-67指数測定

Ki-67 Index Measurement in Breast Cancer Using Digital Image Analysis ( http://arxiv.org/abs/2209.13155v1 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Wen-Tsung Huang, Hsun-Heng Tsai(参考訳) Ki-67は細胞増殖時に産生される核タンパク質である。 Ki67指数は、いくつかの種類のがんにおいて貴重な予後変数である。 乳癌では、この指標は多くの患者で定期的に検査される。 病理組織学者はki-67陽性悪性細胞の割合をki-67指数として算出するために免疫組織化学法を用いている。 高いスコアは通常、より攻撃的な腫瘍の挙動を意味する。 臨床実践では、Ki-67指数の測定は視覚的識別法と手動計数に依存する。 しかし, 視覚的・手作業による評価には時間を要するため, スコア基準の相違や腫瘍領域の制限などにより再現性が低下する。 そこで我々は,Ke-67インデックスを解釈するデジタル画像解析手法を作成するために,画像双対化や画像形態操作などのデジタル画像処理技術を用いた。 次に、10個の乳癌検体を高い精度で検証する(相関効率 r = 0.95127)。 デジタル画像解析の助けを借りて、病理学者はKi67インデックスをより効率的に解釈し、再現性に優れる。

Ki-67 is a nuclear protein that can be produced during cell proliferation. The Ki67 index is a valuable prognostic variable in several kinds of cancer. In breast cancer, the index is even routinely checked in many patients. Currently, pathologists use the immunohistochemistry method to calculate the percentage of Ki-67 positive malignant cells as Ki-67 index. The higher score usually means more aggressive tumor behavior. In clinical practice, the measurement of Ki-67 index relies on visual identifying method and manual counting. However, visual and manual assessment method is timeconsuming and leads to poor reproducibility because of different scoring standards or limited tumor area under assessment. Here, we use digital image processing technics including image binarization and image morphological operations to create a digital image analysis method to interpretate Ki-67 index. Then, 10 breast cancer specimens are used as validation with high accuracy (correlation efficiency r = 0.95127). With the assistance of digital image analysis, pathologists can interpretate the Ki67 index more efficiently, precisely with excellent reproducibility.
翻訳日:2022-09-28 16:18:35 公開日:2022-09-27
# 組織病理画像合成のための形態素焦点拡散確率モデル

A Morphology Focused Diffusion Probabilistic Model for Synthesis of Histopathology Images ( http://arxiv.org/abs/2209.13167v1 )

ライセンス: Link先を確認
Puria Azadi Moghadam, Sanne van Delen, Karina C. Martin, Jochen Lennerz, Stephen Yip, Hossein Farahani, Ali Bashashati(参考訳) 病理学者による疾患組織の顕微鏡的研究は、1世紀以上にわたって癌診断と予後の基盤となっている。 近年,組織画像の解析と分類において,深層学習法が大きな進歩を遂げている。 しかし, 病理組織像の生成にはそのようなモデルの有用性が限られている。 これらの合成画像は、教育、熟練度テスト、プライバシー、データ共有など、病理学にいくつかの応用がある。 近年,高画質画像を生成するために拡散確率モデルが導入された。 そこで本研究では,脳腫瘍の高品位組織病理像を合成するために,形態的重み付けと色彩正規化を優先したモデルの利用の可能性について初めて検討した。 以上の結果から,拡散確率モデルでは幅広い病理像の合成が可能であり,生成的対向ネットワークよりも優れた性能を有することが示された。

Visual microscopic study of diseased tissue by pathologists has been the cornerstone for cancer diagnosis and prognostication for more than a century. Recently, deep learning methods have made significant advances in the analysis and classification of tissue images. However, there has been limited work on the utility of such models in generating histopathology images. These synthetic images have several applications in pathology including utilities in education, proficiency testing, privacy, and data sharing. Recently, diffusion probabilistic models were introduced to generate high quality images. Here, for the first time, we investigate the potential use of such models along with prioritized morphology weighting and color normalization to synthesize high quality histopathology images of brain cancer. Our detailed results show that diffusion probabilistic models are capable of synthesizing a wide range of histopathology images and have superior performance compared to generative adversarial networks.
翻訳日:2022-09-28 16:18:21 公開日:2022-09-27
# 動態を考慮した都市環境の時空間占有予測

Dynamics-Aware Spatiotemporal Occupancy Prediction in Urban Environments ( http://arxiv.org/abs/2209.13172v1 )

ライセンス: Link先を確認
Maneekwan Toyungyernsub, Esen Yel, Jiachen Li and Mykel J. Kochenderfer(参考訳) 移動障害の検出とセグメンテーションと、将来の地域環境の占有状態の予測は、自動運転車が積極的に安全かつ情報的な決定を下すことに不可欠である。 本稿では,深層ニューラルネットワークアーキテクチャを用いて2つの機能を統合するフレームワークを提案する。 本手法は,まず現場の移動物体を検知・セグメントし,この情報を用いて自律走行車周辺環境の時空間的変化を予測する。 静的なオブジェクトセグメンテーションと環境予測モデルの両方を直接統合する問題に対処するため,フレームワーク全体にわたる占有型環境表現を提案する。 本手法は実世界のWaymo Open Dataset上で検証され,ベースライン法よりも高い予測精度を示す。

Detection and segmentation of moving obstacles, along with prediction of the future occupancy states of the local environment, are essential for autonomous vehicles to proactively make safe and informed decisions. In this paper, we propose a framework that integrates the two capabilities together using deep neural network architectures. Our method first detects and segments moving objects in the scene, and uses this information to predict the spatiotemporal evolution of the environment around autonomous vehicles. To address the problem of direct integration of both static-dynamic object segmentation and environment prediction models, we propose using occupancy-based environment representations across the whole framework. Our method is validated on the real-world Waymo Open Dataset and demonstrates higher prediction accuracy than baseline methods.
翻訳日:2022-09-28 16:18:08 公開日:2022-09-27
# NEURAL MARIONETTE: トランスフォーマーを用いた多動作人体動作合成システム

NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion Synthesis System ( http://arxiv.org/abs/2209.13204v1 )

ライセンス: Link先を確認
Weiqiang Wang, Xuefei Zhe, Huan Chen, Di Kang, Tingguang Li, Ruizhi Chen, and Linchao Bao(参考訳) 本稿では,長期多動作人間の動作合成のためのニューラルネットワークベースシステムを提案する。 NEURAL MARIONETTEと呼ばれるこのシステムは、単純なユーザ入力からのスムーズな遷移を伴う高品質で有意義な動作を生成することができる。 我々のシステムの中核はトランスフォーマーに基づく新しいモーション生成モデル、すなわちMARIONETであり、与えられたアクションタグを多種多様なモーションを生成することができる。 既存のモーション生成モデルとは異なり、MARIONETは過去のモーションクリップと将来のアクションタグのコンテキスト情報を利用して、過去のアクションと将来のアクションをスムーズにブレンドできるアクションを生成する。 具体的には、MARIONETはまずターゲットアクションタグとコンテキスト情報をアクションレベルの潜在コードにエンコードする。 コードはタイムアンロールモジュールを介してフレームレベルの制御信号に展開され、ターゲットの軌道のような他のフレームレベルの制御信号と組み合わせられる。 モーションフレームは自動回帰的に生成される。 MARIONETを逐次適用することにより、NEURAL MARIONETTEは、2つの簡単なスキーム、すなわち「シャドウスタート」と「アクションリビジョン」の助けを借りて、長期間の多動作動作を堅牢に生成することができる。 新たなシステムとともに,アクションタグとコンテキスト情報の両方を含むマルチアクションモーション合成タスク専用のデータセットも提示する。 本システムにより生じる動作の動作精度,自然性,過渡的スムーズ性について,広範囲にわたる実験を行った。

We present a neural network-based system for long-term, multi-action human motion synthesis. The system, dubbed as NEURAL MARIONETTE, can produce high-quality and meaningful motions with smooth transitions from simple user input, including a sequence of action tags with expected action duration, and optionally a hand-drawn moving trajectory if the user specifies. The core of our system is a novel Transformer-based motion generation model, namely MARIONET, which can generate diverse motions given action tags. Different from existing motion generation models, MARIONET utilizes contextual information from the past motion clip and future action tag, dedicated to generating actions that can smoothly blend historical and future actions. Specifically, MARIONET first encodes target action tag and contextual information into an action-level latent code. The code is unfolded into frame-level control signals via a time unrolling module, which could be then combined with other frame-level control signals like the target trajectory. Motion frames are then generated in an auto-regressive way. By sequentially applying MARIONET, the system NEURAL MARIONETTE can robustly generate long-term, multi-action motions with the help of two simple schemes, namely "Shadow Start" and "Action Revision". Along with the novel system, we also present a new dataset dedicated to the multi-action motion synthesis task, which contains both action tags and their contextual information. Extensive experiments are conducted to study the action accuracy, naturalism, and transition smoothness of the motions generated by our system.
翻訳日:2022-09-28 16:17:54 公開日:2022-09-27
# HEVC/H.265を用いた関心領域内符号化のためのニューラルフランクウルフポリシー最適化

Neural Frank-Wolfe Policy Optimization for Region-of-Interest Intra-Frame Coding with HEVC/H.265 ( http://arxiv.org/abs/2209.13210v1 )

ライセンス: Link先を確認
Yung-Han Ho, Chia-Hao Kao, Wen-Hsiao Peng, Ping-Chun Hsieh(参考訳) 本稿では、Frank-Wolfeポリシーの最適化を利用して、ROI(Regional-of-Interest)フレーム内符号化のためのCTU(Coding-Tree-Unit)ビット割り当てを解決する強化学習(RL)フレームワークを提案する。 従来のRL法では、歪み最小化とレート正規化の報酬は、経験的に選択されたハイパーパラメータによって重み付けされる。 近年,レートと歪みの批判を交互に修正するデュアル・クリティック・デザインが提案されている。 しかし、その収束は保証されていない。 これらの問題に対処するために、CTUレベルのビット割り当てをアクション制約付きRL問題として定式化する際に、Neural Frank-Wolfe Policy Optimization (NFWPO)を導入する。 この新たなフレームワークでは、レート批判を利用して実行可能なアクションのセットを予測する。 この実現可能なセットにより、歪み批評家を起動してアクターを更新し、レート制約を受けるROI強調画像品質を最大化する。 x265による実験結果から,提案手法の他のベースラインに対する優位性が確認された。

This paper presents a reinforcement learning (RL) framework that utilizes Frank-Wolfe policy optimization to solve Coding-Tree-Unit (CTU) bit allocation for Region-of-Interest (ROI) intra-frame coding. Most previous RL-based methods employ the single-critic design, where the rewards for distortion minimization and rate regularization are weighted by an empirically chosen hyper-parameter. Recently, the dual-critic design is proposed to update the actor by alternating the rate and distortion critics. However, its convergence is not guaranteed. To address these issues, we introduce Neural Frank-Wolfe Policy Optimization (NFWPO) in formulating the CTU-level bit allocation as an action-constrained RL problem. In this new framework, we exploit a rate critic to predict a feasible set of actions. With this feasible set, a distortion critic is invoked to update the actor to maximize the ROI-weighted image quality subject to a rate constraint. Experimental results produced with x265 confirm the superiority of the proposed method to the other baselines.
翻訳日:2022-09-28 16:17:25 公開日:2022-09-27
# Orbeez-SLAM:ORB機能とNeRF実現マッピングを備えたリアルタイム単眼視覚SLAM

Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping ( http://arxiv.org/abs/2209.13274v1 )

ライセンス: Link先を確認
Chi-Ming Chung, Yang-Che Tseng, Ya-Ching Hsu, Xiang-Qian Shi, Yun-Hung Hua, Jia-Fong Yeh, Wen-Chin Chen, Yi-Ting Chen and Winston H. Hsu(参考訳) 視覚信号を通じて複雑なタスクを実行し、人間と協調する空間AIが期待されている。 これを実現するには、事前トレーニングせずに新しいシーンに容易に適応し、下流タスクの密集したマップをリアルタイムで生成できるビジュアルなスラムが必要です。 従来の学習ベースおよび非学習ベースの視覚SLAMは、そのコンポーネント固有の制限のために、すべてのニーズを満たすものではなかった。 本研究では,orbeez-slamという視覚スラムを開発し,暗黙的神経表現(nerf)と視覚オドメトリ(visual odometry)と協調して目標を達成する。 さらに、Orbeez-SLAMは、RGB入力のみを必要とするため、モノクラーカメラで操作できるため、現実世界に広く適用できる。 様々な挑戦的なベンチマークでその有効性を検証する。 その結果、SLAMは強いベースラインよりも800倍高速で、優れたレンダリング結果が得られることがわかった。

A spatial AI that can perform complex tasks through visual signals and cooperate with humans is highly anticipated. To achieve this, we need a visual SLAM that easily adapts to new scenes without pre-training and generates dense maps for downstream tasks in real-time. None of the previous learning-based and non-learning-based visual SLAMs satisfy all needs due to the intrinsic limitations of their components. In this work, we develop a visual SLAM named Orbeez-SLAM, which successfully collaborates with implicit neural representation (NeRF) and visual odometry to achieve our goals. Moreover, Orbeez-SLAM can work with the monocular camera since it only needs RGB inputs, making it widely applicable to the real world. We validate its effectiveness on various challenging benchmarks. Results show that our SLAM is up to 800x faster than the strong baseline with superior rendering outcomes.
翻訳日:2022-09-28 16:17:05 公開日:2022-09-27
# 単一reluニューロンの訓練における大きさと角度ダイナミクス

Magnitude and Angle Dynamics in Training Single ReLU Neurons ( http://arxiv.org/abs/2209.13394v1 )

ライセンス: Link先を確認
Sangmin Lee, Byeongsu Sim, Jong Chul Ye(参考訳) 深層reluネットワークのダイナミクスを理解するために,w(t)$をマグニチュード$w(t)$とアングル$\phi(t):= \pi - \theta(t)$コンポーネントに分解することにより,勾配流れの動的系を考察する。 特に、球対称なデータ分布と正方形損失関数を有する多層単一reluニューロンに対して、勾配流のダイナミクスを記述するために、大きさおよび角度成分の上限を上下に設定する。 得られたバウンダリを用いて、小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度をもたらすと結論付ける。 最後に,勾配流と勾配降下の関係を生かして,勾配降下法に結果を拡張した。 すべての理論結果は実験によって検証される。

To understand learning the dynamics of deep ReLU networks, we investigate the dynamic system of gradient flow $w(t)$ by decomposing it to magnitude $w(t)$ and angle $\phi(t):= \pi - \theta(t) $ components. In particular, for multi-layer single ReLU neurons with spherically symmetric data distribution and the square loss function, we provide upper and lower bounds for magnitude and angle components to describe the dynamics of gradient flow. Using the obtained bounds, we conclude that small scale initialization induces slow convergence speed for deep single ReLU neurons. Finally, by exploiting the relation of gradient flow and gradient descent, we extend our results to the gradient descent approach. All theoretical results are verified by experiments.
翻訳日:2022-09-28 16:11:01 公開日:2022-09-27
# weightedshap: shapleyベースの機能帰属の分析と改善

WeightedSHAP: analyzing and improving Shapley based feature attributions ( http://arxiv.org/abs/2209.13429v1 )

ライセンス: Link先を確認
Yongchan Kwon, James Zou(参考訳) shapley valueは、個々の特徴の影響を測定するための一般的なアプローチである。 shapley feature attributionはゲーム理論のdesiderataに基づいているが、いくつかの制約は特定の機械学習環境では自然ではない可能性があり、直観的なモデル解釈につながる。 特に、Shapleyの値はすべての限界貢献に同じ重みを使います。つまり、多数の他の特徴が与えられる場合と、少数の他の特徴が与えられる場合とでは、同じ重みを与えます。 この性質は、より大きな特徴集合がより小さい特徴集合よりも多かれ少なかれ情報的であれば問題となる。 我々の研究は、Shapley特徴属性の潜在的な制限について厳密な分析を行う。 より少ない特徴に対する大きな属性を割り当てることで,Shapley値が数学的に最適であるような単純な設定を同定する。 この観測から得られたWeightedSHAPは、Shapleyの値を一般化し、データから直接フォーカスする限界寄与を学習する。 いくつかの実世界のデータセットにおいて、WeightedSHAPによって識別される影響のある機能は、Shapley値によって識別される特徴と比較してモデルの予測を再カプセル化できることを示す。

Shapley value is a popular approach for measuring the influence of individual features. While Shapley feature attribution is built upon desiderata from game theory, some of its constraints may be less natural in certain machine learning settings, leading to unintuitive model interpretation. In particular, the Shapley value uses the same weight for all marginal contributions -- i.e. it gives the same importance when a large number of other features are given versus when a small number of other features are given. This property can be problematic if larger feature sets are more or less informative than smaller feature sets. Our work performs a rigorous analysis of the potential limitations of Shapley feature attribution. We identify simple settings where the Shapley value is mathematically suboptimal by assigning larger attributions for less influential features. Motivated by this observation, we propose WeightedSHAP, which generalizes the Shapley value and learns which marginal contributions to focus directly from data. On several real-world datasets, we demonstrate that the influential features identified by WeightedSHAP are better able to recapitulate the model's predictions compared to the features identified by the Shapley value.
翻訳日:2022-09-28 16:10:31 公開日:2022-09-27
# 合成学習データのみを用いた実世界メディアからのサッカー特徴の同定と抽出

Identifying and Extracting Football Features from Real-World Media Sources using Only Synthetic Training Data ( http://arxiv.org/abs/2209.13254v1 )

ライセンス: Link先を確認
Jose Cerqueira Fernandes and Benjamin Kenwright(参考訳) 機械学習アルゴリズムのトレーニングに使用される実世界の画像は、しばしば非構造的で一貫性がない。 これらの画像の分析とタグ付けのプロセスは、コストがかかり、エラーが発生しやすい(可用性、ギャップ、法的混乱)。 しかし、本稿で示すように、実世界の情報源と区別できない正確なグラフィカル画像を生成する可能性には、機械学習のパラダイムに多くの利点がある。 この例の1つは、放送サービス(テレビジョンや他のストリーミングメディアソース)のフットボールデータである。 フットボールの試合は通常、複数のソース(カメラや電話)と解像度から記録されるが、視覚の詳細やその他のアーティファクト(ぼやけたり、風化したり、照明条件など)は正確に特徴を特定するのが困難である。 生成したタグ付きおよび構造化画像を用いて,これらの制限を克服できるアプローチを示す。 生成された画像は、現実世界のデータに散発的にのみ発生するさまざまなビューと条件(ノイズやぼやけを含む)をシミュレートすることができ、機械学習アルゴリズムがこれらの予期せぬ問題を実データで「解く」ことが困難になる。 提案手法により,実世界のフットボールの試合資料から,空間的位置,ピッチ上のマーカー,プレーヤの位置,ボールの位置,カメラFOVなどの特徴を正確に抽出する,堅牢なソリューションを迅速に訓練し,作成することができる。

Real-world images used for training machine learning algorithms are often unstructured and inconsistent. The process of analysing and tagging these images can be costly and error prone (also availability, gaps and legal conundrums). However, as we demonstrate in this article, the potential to generate accurate graphical images that are indistinguishable from real-world sources has a multitude of benefits in machine learning paradigms. One such example of this is football data from broadcast services (television and other streaming media sources). The football games are usually recorded from multiple sources (cameras and phones) and resolutions, not to mention, occlusion of visual details and other artefacts (like blurring, weathering and lighting conditions) which make it difficult to accurately identify features. We demonstrate an approach which is able to overcome these limitations using generated tagged and structured images. The generated images are able to simulate a variety views and conditions (including noise and blurring) which may only occur sporadically in real-world data and make it difficult for machine learning algorithm to 'cope' with these unforeseen problems in real-data. This approach enables us to rapidly train and prepare a robust solution that accurately extracts features (e.g., spacial locations, markers on the pitch, player positions, ball location and camera FOV) from real-world football match sources for analytical purposes.
翻訳日:2022-09-28 16:09:02 公開日:2022-09-27
# コントラストパターンマイニング:調査

Contrast Pattern Mining: A Survey ( http://arxiv.org/abs/2209.13556v1 )

ライセンス: Link先を確認
Yao Chen, Wensheng Gan, Yongdong Wu, and Philip S. Yu(参考訳) コントラストパターンマイニング(CPM)はデータマイニングの重要なサブフィールドである。 従来のシーケンシャルパターンは、異なるデータクラス間のコントラスト情報を記述できないが、コントラストの概念を含むコントラストパターンは、異なるコントラスト条件下でのデータセット間の重要な違いを記述できる。 この分野で出版された論文の数から、CPMに対する研究者の関心は依然として活発であることがわかる。 CPMには多くの研究課題や研究方法がある。 現場の新たな研究者が現場の一般的な状況を短時間で理解することは困難である。 そこで本論文の目的は,コントラストパターンマイニング研究の方向性を包括的かつ構造化した最新の概要を提供することである。 まず, 基本的な概念, タイプ, マイニング戦略, および識別能力を評価する指標を含むcpmの詳細な理解について述べる。 次に,CPM法の特徴に基づき,境界系アルゴリズム,木系アルゴリズム,進化ファジィ系アルゴリズム,決定木系アルゴリズム,その他のアルゴリズムに分類する。 さらに,これらの手法の古典的なアルゴリズムをリストアップし,その利点と欠点について考察する。 CPMの高度なトピックが紹介されている。 最後に,この分野における課題と機会について議論し,調査を締めくくった。

Contrast pattern mining (CPM) is an important and popular subfield of data mining. Traditional sequential patterns cannot describe the contrast information between different classes of data, while contrast patterns involving the concept of contrast can describe the significant differences between datasets under different contrast conditions. Based on the number of papers published in this field, we find that researchers' interest in CPM is still active. Since CPM has many research questions and research methods. It is difficult for new researchers in the field to understand the general situation of the field in a short period of time. Therefore, the purpose of this article is to provide an up-to-date comprehensive and structured overview of the research direction of contrast pattern mining. First, we present an in-depth understanding of CPM, including basic concepts, types, mining strategies, and metrics for assessing discriminative ability. Then we classify CPM methods according to their characteristics into boundary-based algorithms, tree-based algorithms, evolutionary fuzzy system-based algorithms, decision tree-based algorithms, and other algorithms. In addition, we list the classical algorithms of these methods and discuss their advantages and disadvantages. Advanced topics in CPM are presented. Finally, we conclude our survey with a discussion of the challenges and opportunities in this field.
翻訳日:2022-09-28 16:08:37 公開日:2022-09-27
# unrollingの呪い:最適化による差別化率

The Curse of Unrolling: Rate of Differentiating Through Optimization ( http://arxiv.org/abs/2209.13271v1 )

ライセンス: Link先を確認
Damien Scieur, Quentin Bertrand, Gauthier Gidel, Fabian Pedregosa(参考訳) 最適化問題の解のヤコビアンを計算することは、ハイパーパラメータ最適化、メタラーニング、層としての最適化、データセット蒸留など、機械学習における中心的な問題である。 unrolled differentiationは、反復解法を用いて解を近似し、計算経路を微分する一般的なヒューリスティックである。 この研究は、勾配降下とチェビシェフ法に対する二次目的に対するこのアプローチの非漸近収束率解析を提供する。 我々は、ヤコビアンの収束を保証するために、どちらかが可能であることを示す。 1)高速な漸近収束につながる大きな学習率を選択するが、アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか、 2) より少ない学習率を選択して, 瞬時に, 緩やかに収束させる。 我々はこの現象を解脱の呪いと呼ぶ。 最後に, 最適展開戦略のための実用的な更新規則の導出やソボレフ直交多項式の分野との新たな接続など, このアプローチに対するオープンな問題について議論する。

Computing the Jacobian of the solution of an optimization problem is a central problem in machine learning, with applications in hyperparameter optimization, meta-learning, optimization as a layer, and dataset distillation, to name a few. Unrolled differentiation is a popular heuristic that approximates the solution using an iterative solver and differentiates it through the computational path. This work provides a non-asymptotic convergence-rate analysis of this approach on quadratic objectives for gradient descent and the Chebyshev method. We show that to ensure convergence of the Jacobian, we can either 1) choose a large learning rate leading to a fast asymptotic convergence but accept that the algorithm may have an arbitrarily long burn-in phase or 2) choose a smaller learning rate leading to an immediate but slower convergence. We refer to this phenomenon as the curse of unrolling. Finally, we discuss open problems relative to this approach, such as deriving a practical update rule for the optimal unrolling strategy and making novel connections with the field of Sobolev orthogonal polynomials.
翻訳日:2022-09-28 16:08:18 公開日:2022-09-27
# 自然言語処理を用いた大型高分子コーパスからの汎用材料特性データ抽出パイプライン

A general-purpose material property data extraction pipeline from large polymer corpora using Natural Language Processing ( http://arxiv.org/abs/2209.13136v1 )

ライセンス: Link先を確認
Pranav Shetty, Arunkumar Chitteth Rajan, Christopher Kuenneth, Sonkakshi Gupta, Lakshmi Prerana Panchumarti, Lauren Holm, Chao Zhang, and Rampi Ramprasad(参考訳) 材料科学の論文がますます増え続けているため、出版文献から化学構造と物性の関係を推測することは困難である。 自然言語処理 (nlp) 法を用いて, 高分子論文の要約から材料特性データを自動的に抽出した。 パイプラインのコンポーネントとして、240万の材料科学抽象化を使用して言語モデルである MaterialsBERT をトレーニングし、テキストのエンコーダとして使用する場合、5つの名前のエンティティ認識データセットのうち3つで、他のベースラインモデルよりも優れていることを確認しました。 このパイプラインを使って、60時間で約130,000の抽象概念から約30万の物質的特性記録を得た。 抽出されたデータは燃料電池、スーパーキャパシタ、高分子太陽電池などの様々な用途で分析され、非自明な洞察を回復した。 私たちのパイプラインから抽出されたデータは、https://polymerscholar.orgのwebプラットフォームを通じて入手できます。 本研究は、出版文献から始まり、抽出された材料特性情報の完全なセットで終わる自動パイプラインの実現可能性を示す。

The ever-increasing number of materials science articles makes it hard to infer chemistry-structure-property relations from published literature. We used natural language processing (NLP) methods to automatically extract material property data from the abstracts of polymer literature. As a component of our pipeline, we trained MaterialsBERT, a language model, using 2.4 million materials science abstracts, which outperforms other baseline models in three out of five named entity recognition datasets when used as the encoder for text. Using this pipeline, we obtained ~300,000 material property records from ~130,000 abstracts in 60 hours. The extracted data was analyzed for a diverse range of applications such as fuel cells, supercapacitors, and polymer solar cells to recover non-trivial insights. The data extracted through our pipeline is made available through a web platform at https://polymerscholar.org which can be used to locate material property data recorded in abstracts conveniently. This work demonstrates the feasibility of an automatic pipeline that starts from published literature and ends with a complete set of extracted material property information.
翻訳日:2022-09-28 16:08:02 公開日:2022-09-27
# 長期交通予測のための説明可能なグラフピラミッドオートフォーマタ

Explainable Graph Pyramid Autoformer for Long-Term Traffic Forecasting ( http://arxiv.org/abs/2209.13123v1 )

ライセンス: Link先を確認
Weiheng Zhong, Tanwi Mallick, Hadi Meidani, Jane Macfarlane, Prasanna Balaprakash(参考訳) 正確な交通予測はインテリジェント交通システムにとって不可欠である。 多くのディープラーニングモデルは、1時間までの短期トラフィック予測において最先端のパフォーマンスを達成したが、複数の時間にわたる長期トラフィック予測は大きな課題である。 さらに、既存のディープラーニングトラフィック予測モデルのほとんどはブラックボックスであり、説明可能性と解釈可能性に関するさらなる課題を提示している。 我々は、新しいピラミッド自己相関アテンション機構を用いた、説明可能な注意に基づく時空間グラフニューラルネットワークであるグラフピラミッドオートフォーマ(X-GPA)を開発した。 グラフ上の長い時系列からの学習を可能にし、長期的なトラフィック予測精度を向上させる。 本モデルでは,最先端手法に比べて長期交通予測精度が最大35%向上する。 X-GPAモデルからの注意に基づくスコアは、通常対ピーク時のトラフィックと平日対週末のトラフィックで変化する交通力学に基づく空間的および時間的説明を提供する。

Accurate traffic forecasting is vital to an intelligent transportation system. Although many deep learning models have achieved state-of-art performance for short-term traffic forecasting of up to 1 hour, long-term traffic forecasting that spans multiple hours remains a major challenge. Moreover, most of the existing deep learning traffic forecasting models are black box, presenting additional challenges related to explainability and interpretability. We develop Graph Pyramid Autoformer (X-GPA), an explainable attention-based spatial-temporal graph neural network that uses a novel pyramid autocorrelation attention mechanism. It enables learning from long temporal sequences on graphs and improves long-term traffic forecasting accuracy. Our model can achieve up to 35 % better long-term traffic forecast accuracy than that of several state-of-the-art methods. The attention-based scores from the X-GPA model provide spatial and temporal explanations based on the traffic dynamics, which change for normal vs. peak-hour traffic and weekday vs. weekend traffic.
翻訳日:2022-09-28 16:02:01 公開日:2022-09-27
# 深層強化学習と拡張カルマンフィルタを用いた歴史依存モデルの校正実験の設計

Design of experiments for the calibration of history-dependent models via deep reinforcement learning and an enhanced Kalman filter ( http://arxiv.org/abs/2209.13126v1 )

ライセンス: Link先を確認
Ruben Villarreal, Nikolaos N. Vlassis, Nhon N. Phan, Tommie A. Catanach, Reese E. Jones, Nathaniel A. Trask, Sharlotte L.B. Kramer, WaiChing Sun(参考訳) 実験データを得るにはコストがかかるため、複雑なモデルのキャリブレーションが難しい。 多くのモデルでは、限られた実験予算で最適なキャリブレーションを生成する実験的な設計は明らかではない。 本稿では,Kalmanフィルタ(KF)を用いて得られたKulback-Leibler(KL)分散度を最大化する実験設計のための深部強化学習(RL)アルゴリズムを提案する。 この組み合わせは、従来の手法が高価すぎる高速オンライン実験のための実験的な設計を可能にする。 実験の可能な構成を決定木とマルコフ決定プロセス(mdp)として定式化し、各段階ごとに有限個のアクションの選択が可能となる。 アクションが実行されると、実験の状態を更新するためにさまざまな測定値が使用される。 この新たなデータは、状態表現を強化するために使用されるKFによるパラメータのベイズ的更新につながる。 前方予測のための仮説をテストするために追加サンプリングを必要とするナッシュ・サトクリフ効率(NSE)指数とは対照的に、KFは追加アクションによって得られた新しいデータの値を直接推定することで、実験のコストを下げることができる。 本研究では, 材料の機械的試験に着目する。 複雑で履歴に依存したモデルを用いた数値実験は、rlで設計された実験の実装とベンチマークに使用される。

Experimental data is costly to obtain, which makes it difficult to calibrate complex models. For many models an experimental design that produces the best calibration given a limited experimental budget is not obvious. This paper introduces a deep reinforcement learning (RL) algorithm for design of experiments that maximizes the information gain measured by Kullback-Leibler (KL) divergence obtained via the Kalman filter (KF). This combination enables experimental design for rapid online experiments where traditional methods are too costly. We formulate possible configurations of experiments as a decision tree and a Markov decision process (MDP), where a finite choice of actions is available at each incremental step. Once an action is taken, a variety of measurements are used to update the state of the experiment. This new data leads to a Bayesian update of the parameters by the KF, which is used to enhance the state representation. In contrast to the Nash-Sutcliffe efficiency (NSE) index, which requires additional sampling to test hypotheses for forward predictions, the KF can lower the cost of experiments by directly estimating the values of new data acquired through additional actions. In this work our applications focus on mechanical testing of materials. Numerical experiments with complex, history-dependent models are used to verify the implementation and benchmark the performance of the RL-designed experiments.
翻訳日:2022-09-28 16:01:44 公開日:2022-09-27
# DCE: 二重保守的見積によるオフライン強化学習

DCE: Offline Reinforcement Learning With Double Conservative Estimates ( http://arxiv.org/abs/2209.13132v1 )

ライセンス: Link先を確認
Chen Zhao, Kai Xing Huang, Chun yuan(参考訳) オフライン強化学習は、従来の強化学習のアプリケーション課題を解決することに多くの関心を寄せている。 オフライン強化学習は、事前に収集したデータセットを使用して、インタラクションなしでエージェントをトレーニングする。 OOD(out-of-distribution)アクションの過大評価に対処するために、保守的な見積もりは全ての入力に対して低い値を与える。 従来の保守的推定法は、通常、Q値推定に対するOODアクションの影響を避けることが困難である。 さらに、これらのアルゴリズムは通常、保守的推定の目的を達成するために計算効率を損なう必要がある。 本稿では,制約ポリシーに2つの保守的推定法を用いる,単純保守的推定法である二重保守的推定法(dce)を提案する。 提案アルゴリズムは,保守的推定を暗黙的に達成しながら,分布内動作の誤差を回避するためにV関数を導入する。 さらに,本アルゴリズムは,トレーニングにおける保守主義の程度を変える制御可能なペナルティ項を用いる。 理論的には、この手法がOOD行動と分布内行動の推定にどのように影響するかを示す。 本実験は,2つの保守的推定法が全ての状態行動の推定に与える影響を別々に示す。 DCEはD4RLの最先端性能を示す。

Offline Reinforcement Learning has attracted much interest in solving the application challenge for traditional reinforcement learning. Offline reinforcement learning uses previously-collected datasets to train agents without any interaction. For addressing the overestimation of OOD (out-of-distribution) actions, conservative estimates give a low value for all inputs. Previous conservative estimation methods are usually difficult to avoid the impact of OOD actions on Q-value estimates. In addition, these algorithms usually need to lose some computational efficiency to achieve the purpose of conservative estimation. In this paper, we propose a simple conservative estimation method, double conservative estimates (DCE), which use two conservative estimation method to constraint policy. Our algorithm introduces V-function to avoid the error of in-distribution action while implicit achieving conservative estimation. In addition, our algorithm uses a controllable penalty term changing the degree of conservatism in training. We theoretically show how this method influences the estimation of OOD actions and in-distribution actions. Our experiment separately shows that two conservative estimation methods impact the estimation of all state-action. DCE demonstrates the state-of-the-art performance on D4RL.
翻訳日:2022-09-28 16:01:06 公開日:2022-09-27
# MARS:再合成予測のためのモチーフに基づく自己回帰モデル

MARS: A Motif-based Autoregressive Model for Retrosynthesis Prediction ( http://arxiv.org/abs/2209.13178v1 )

ライセンス: Link先を確認
Jiahan Liu, Chaochao Yan, Yang Yu, Chan Lu, Junzhou Huang, Le Ou-Yang, Peilin Zhao(参考訳) 再合成は薬物発見の主要な課題である。 多くの既存手法によってグラフ生成問題として定式化されている。 具体的には、これらの方法はまず反応中心を同定し、合成子を生成するために標的分子を分解する。 反応物は、シンソングラフに原子を逐次付加するか、あるいは適切な離脱基を直接付加することによって生成される。 しかしながら、2つの戦略は、原子を追加することで生成の困難を増大させる長い予測シーケンスが得られ、一方、離脱基を追加することは、一般化が不十分なトレーニングセットにあるもののみを考えることができる。 本稿では, 反応中心を逐次同定し, 合成子を生成し, 合成子にモチーフを加えて反応物を生成する, 逆合成予測のための新しいエンドツーエンドグラフ生成モデルを提案する。 化学的に有意なモチーフは原子よりも大きく、残基よりも小さいため、本手法は原子を付加するよりも予測の複雑さが小さく、残基を付加するより一般化する方がよい。 ベンチマークデータセットの実験では、提案モデルが従来の最先端アルゴリズムよりも大幅に優れていることが示された。

Retrosynthesis is a major task for drug discovery. It is formulated as a graph-generating problem by many existing approaches. Specifically, these methods firstly identify the reaction center, and break target molecule accordingly to generate synthons. Reactants are generated by either adding atoms sequentially to synthon graphs or directly adding proper leaving groups. However, both two strategies suffer since adding atoms results in a long prediction sequence which increases generation difficulty, while adding leaving groups can only consider the ones in the training set which results in poor generalization. In this paper, we propose a novel end-to-end graph generation model for retrosynthesis prediction, which sequentially identifies the reaction center, generates the synthons, and adds motifs to the synthons to generate reactants. Since chemically meaningful motifs are bigger than atoms and smaller than leaving groups, our method enjoys lower prediction complexity than adding atoms and better generalization than adding leaving groups. Experiments on a benchmark dataset show that the proposed model significantly outperforms previous state-of-the-art algorithms.
翻訳日:2022-09-28 16:00:48 公開日:2022-09-27
# 行動伝達学習のための正規化ソフトアクタークリティカル

Regularized Soft Actor-Critic for Behavior Transfer Learning ( http://arxiv.org/abs/2209.13224v1 )

ライセンス: Link先を確認
Mingxi Tan, Andong Tian, Ludovic Denoyer(参考訳) 既存の模倣学習手法は主に、エージェントを効果的に動作を模倣することに焦点を当てるが、行動スタイルとタスクの目的との潜在的な矛盾には対処しない。 エージェントがタスクの主な目的を完了しながら、実証された動作をある程度まで部分的に模倣できる効率的な方法が一般的に欠如している。 本稿では,CMDP (Constrained Markov Decision Process framework) において,主タスクと模倣タスクを定式化する正則化ソフトアクター・クリティカル法を提案する。 メインタスクは、Soft Actor-Critic (SAC)で使用される最大エントロピー目標として定義され、模倣タスクは制約として定義される。 本手法は,ゲームアプリケーションに関連する連続制御タスクについて評価する。

Existing imitation learning methods mainly focus on making an agent effectively mimic a demonstrated behavior, but do not address the potential contradiction between the behavior style and the objective of a task. There is a general lack of efficient methods that allow an agent to partially imitate a demonstrated behavior to varying degrees, while completing the main objective of a task. In this paper we propose a method called Regularized Soft Actor-Critic which formulates the main task and the imitation task under the Constrained Markov Decision Process framework (CMDP). The main task is defined as the maximum entropy objective used in Soft Actor-Critic (SAC) and the imitation task is defined as a constraint. We evaluate our method on continuous control tasks relevant to video games applications.
翻訳日:2022-09-28 16:00:29 公開日:2022-09-27
# Fr'echet計算を用いたフィードフォワードニューラルネットワーク勾配の導出

A Derivation of Feedforward Neural Network Gradients Using Fr\'echet Calculus ( http://arxiv.org/abs/2209.13234v1 )

ライセンス: Link先を確認
Thomas Hamm(参考訳) 本稿では,Fr'echet calculus を用いたフィードフォワードニューラルネットワークの勾配の導出について述べる。 まず、ベクトルデータを扱う通常のニューラルネットワークの勾配を導出し、これらの公式を用いてニューラルネットワーク勾配を計算するための単純かつ効率的なアルゴリズムを導出する方法を示す。 その後、我々の分析が、畳み込みネットワークを含むより一般的なニューラルネットワークアーキテクチャにどのように一般化するかを示す。

We present a derivation of the gradients of feedforward neural networks using Fr\'echet calculus which is arguably more compact than the ones usually presented in the literature. We first derive the gradients for ordinary neural networks working on vectorial data and show how these derived formulas can be used to derive a simple and efficient algorithm for calculating a neural networks gradients. Subsequently we show how our analysis generalizes to more general neural network architectures including, but not limited to, convolutional networks.
翻訳日:2022-09-28 16:00:13 公開日:2022-09-27
# 意味検索の正規化コントラスト学習

Regularized Contrastive Learning of Semantic Search ( http://arxiv.org/abs/2209.13241v1 )

ライセンス: Link先を確認
Mingxi Tan, Alexis Rolland, Andong Tian(参考訳) セマンティック検索は、クエリーのためのデータベースから関連するインデックスを見つけることを目的とする重要なタスクである。 文の意味を適切に学習できる検索モデルが必要となる。 トランスフォーマティブベースのモデルは,セマンティクス表現の学習に優れた能力を持つため,検索モデルとして広く利用されている。 その間に、それらに適した多くの正規化方法も提案されている。 本稿では,トランスフォーマティブモデルによる文表現の学習を支援する,新しい正規化手法である正規化コントラスト学習を提案する。 まず、各文に対するいくつかの異なる意味表現を拡大し、それらを規制機関として対照的な目的に導く。 これらの対照的なレギュレータはオーバーフィッティング問題を克服し、異方性の問題を緩和することができる。 まず,より優れた事前学習モデルであるSRoBERTAを用いたセマンティックサーチベンチマークについて検討した。 その結果,本手法は優れた文表現の学習に有効であることがわかった。 そして、クエリとインデックスが長い2つの挑戦的なfaqデータセット、coughとfaqirのアプローチを評価した。 実験の結果,本手法がベースライン法より優れていることが示された。

Semantic search is an important task which objective is to find the relevant index from a database for query. It requires a retrieval model that can properly learn the semantics of sentences. Transformer-based models are widely used as retrieval models due to their excellent ability to learn semantic representations. in the meantime, many regularization methods suitable for them have also been proposed. In this paper, we propose a new regularization method: Regularized Contrastive Learning, which can help transformer-based models to learn a better representation of sentences. It firstly augments several different semantic representations for every sentence, then take them into the contrastive objective as regulators. These contrastive regulators can overcome overfitting issues and alleviate the anisotropic problem. We firstly evaluate our approach on 7 semantic search benchmarks with the outperforming pre-trained model SRoBERTA. The results show that our method is more effective for learning a superior sentence representation. Then we evaluate our approach on 2 challenging FAQ datasets, Cough and Faqir, which have long query and index. The results of our experiments demonstrate that our method outperforms baseline methods.
翻訳日:2022-09-28 16:00:04 公開日:2022-09-27
# outlier reduction: 低ビットトランスフォーマー言語モデルの限界を押し上げる

Outlier Suppression: Pushing the Limit of Low-bit Transformer Language Models ( http://arxiv.org/abs/2209.13325v1 )

ライセンス: Link先を確認
Xiuying Wei, Yunchen Zhang, Xiangguo Zhang, Ruihao Gong, Shanghang Zhang, Qi Zhang, Fengwei Yu, Xianglong Liu(参考訳) トランスフォーマーアーキテクチャは、広範囲にわたる自然言語処理(nlp)モデルの基本的な要素となっている。 大規模NLPモデルのトレンドにより、メモリと計算コストの増加は、リソース制限されたデバイスへの効率的なデプロイを妨げる。 そのため、変圧器の量子化は幅広い研究の関心を惹きつける。 最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。 しかし,提案手法は計算オーバーヘッドを増加させ,異常値も残している。 この問題を根本的に解決するために,本論文では,外乱の誘発と重要性について考察する。 layernorm (ln) における$\boldsymbol \gamma$ は、外れ値の罪悪増幅器として作用し、外れ値の重要性は、いくつかのトークンによって提供される外れ値が広い範囲をカバーするが、負の影響なしに鋭く切断される場合に大きく異なる。 これらの知見に触発されて,ガンママイグレーションとトケンワイズクリッピングという2つのコンポーネントを含む外部抑制フレームワークを提案する。 ガンママイグレーションは、外部増幅器を等価な変換で後続のモジュールに移行し、余分な負担なしにより量子化しやすいモデルに寄与する。 Token-Wise Clippingはトークン範囲の大きな分散を利用してトークン単位の粗いパイプラインを設計し、最小限の最終量子化損失のクリッピング範囲を効率的に得る。 このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。 大規模な実験により、我々のフレームワークが既存の作業を超えることが証明され、初めて6ビット後のBERT量子化をフル精度(FP)レベルに押し上げる。 私たちのコードはhttps://github.com/wimh966/outlier_suppressionで利用可能です。

Transformer architecture has become the fundamental element of the widespread natural language processing~(NLP) models. With the trends of large NLP models, the increasing memory and computation costs hinder their efficient deployment on resource-limited devices. Therefore, transformer quantization attracts wide research interest. Recent work recognizes that structured outliers are the critical bottleneck for quantization performance. However, their proposed methods increase the computation overhead and still leave the outliers there. To fundamentally address this problem, this paper delves into the inherent inducement and importance of the outliers. We discover that $\boldsymbol \gamma$ in LayerNorm (LN) acts as a sinful amplifier for the outliers, and the importance of outliers varies greatly where some outliers provided by a few tokens cover a large area but can be clipped sharply without negative impacts. Motivated by these findings, we propose an outlier suppression framework including two components: Gamma Migration and Token-Wise Clipping. The Gamma Migration migrates the outlier amplifier to subsequent modules in an equivalent transformation, contributing to a more quantization-friendly model without any extra burden. The Token-Wise Clipping takes advantage of the large variance of token range and designs a token-wise coarse-to-fine pipeline, obtaining a clipping range with minimal final quantization loss in an efficient way. This framework effectively suppresses the outliers and can be used in a plug-and-play mode. Extensive experiments prove that our framework surpasses the existing works and, for the first time, pushes the 6-bit post-training BERT quantization to the full-precision (FP) level. Our code is available at https://github.com/wimh966/outlier_suppression.
翻訳日:2022-09-28 15:59:49 公開日:2022-09-27
# 逆摂動とラベルノイズを用いた畳み込みニューラルネットワークのオーバーフィッティング計測

Measuring Overfitting in Convolutional Neural Networks using Adversarial Perturbations and Label Noise ( http://arxiv.org/abs/2209.13382v1 )

ライセンス: Link先を確認
Svetlana Pavlitskaya, Jo\"el Oswald and J.Marius Z\"ollner(参考訳) 畳み込みニューラルネットワーク(cnns)の過剰フィッティングを減らす多くの方法が存在するが、オーバーフィッティングの程度を自信を持って測定する方法はまだ明確ではない。 しかし、オーバーフィッティングレベルを反映したメトリックは、異なるアーキテクチャの比較やオーバーフィッティングに取り組むための様々なテクニックの評価に非常に役立つかもしれない。 過適合ニューラルネットワークは,非知覚データよりもトレーニングデータにノイズを記憶する傾向が強いため,データ摂動増加の有無でトレーニング精度がどう変化するのかを検証し,オーバーフィッティングとの関連について検討する。 従来の研究はラベルノイズのみに焦点を絞ったものだったが、敵の摂動や入力の破損などを含むトレーニングデータにノイズを注入する手法のスペクトルについて検討した。 これに基づいて、正しいモデルと過剰なモデルとを自信を持って区別できる2つの新しいメトリクスを定義します。 評価のために、オーバーフィッティング動作が事前に分かっているモデルのプールを導出する。 様々な要因の影響を検証すべく,vggとresnetに基づくアーキテクチャにおいて,いくつかのオーバーフィット対策を導入し,正規化手法,トレーニングセットサイズ,パラメータ数など,その影響について検討した。 最後に,モデルプール外の複数のcnnアーキテクチャのオーバーフィット度を測定することにより,提案手法の適用性を評価する。

Although numerous methods to reduce the overfitting of convolutional neural networks (CNNs) exist, it is still not clear how to confidently measure the degree of overfitting. A metric reflecting the overfitting level might be, however, extremely helpful for the comparison of different architectures and for the evaluation of various techniques to tackle overfitting. Motivated by the fact that overfitted neural networks tend to rather memorize noise in the training data than generalize to unseen data, we examine how the training accuracy changes in the presence of increasing data perturbations and study the connection to overfitting. While previous work focused on label noise only, we examine a spectrum of techniques to inject noise into the training data, including adversarial perturbations and input corruptions. Based on this, we define two new metrics that can confidently distinguish between correct and overfitted models. For the evaluation, we derive a pool of models for which the overfitting behavior is known beforehand. To test the effect of various factors, we introduce several anti-overfitting measures in architectures based on VGG and ResNet and study their impact, including regularization techniques, training set size, and the number of parameters. Finally, we assess the applicability of the proposed metrics by measuring the overfitting degree of several CNN architectures outside of our model pool.
翻訳日:2022-09-28 15:59:18 公開日:2022-09-27
# OmniNeRF:ニューラルサーフェス再構成のための全方位距離と放射場のハイブリッド化

OmniNeRF: Hybriding Omnidirectional Distance and Radiance fields for Neural Surface Reconstruction ( http://arxiv.org/abs/2209.13433v1 )

ライセンス: Link先を確認
Jiaming Shen, Bolin Song, Zirui Wu, Yi Xu(参考訳) 画像からの3D再構成は、精度の要求が非常に高いバーチャルリアリティと自動運転に幅広い応用がある。 多層知覚を用いたニューラルラジアンスフィールド(NeRF)の地中破壊研究により、3Dオブジェクトの表現品質が劇的に向上した。 後の研究では、tsdfs(truncated signed distance fields)を造ることでnerfを改善したが、3次元再構成における表面のぼやけた問題に苦しんでいる。 本研究では,3次元形状表現の新たな手法であるOmniNeRFを提案することにより,この表面の曖昧さに対処する。 これは、Omni-directional Distance Field(ODF)とNeRFの見かけ密度を全方向情報に置き換え、ハイブリッド暗黙界をトレーニングすることに基づいている。 さらに,再建の質を高めるため,深度マップのさらなる監視も導入する。 提案手法は, 表面再構成の端面のNeRF欠陥を効果的に処理し, 高品質な3次元シーン再構成結果を提供する。

3D reconstruction from images has wide applications in Virtual Reality and Automatic Driving, where the precision requirement is very high. Ground-breaking research in the neural radiance field (NeRF) by utilizing Multi-Layer Perceptions has dramatically improved the representation quality of 3D objects. Some later studies improved NeRF by building truncated signed distance fields (TSDFs) but still suffer from the problem of blurred surfaces in 3D reconstruction. In this work, this surface ambiguity is addressed by proposing a novel way of 3D shape representation, OmniNeRF. It is based on training a hybrid implicit field of Omni-directional Distance Field (ODF) and neural radiance field, replacing the apparent density in NeRF with omnidirectional information. Moreover, we introduce additional supervision on the depth map to further improve reconstruction quality. The proposed method has been proven to effectively deal with NeRF defects at the edges of the surface reconstruction, providing higher quality 3D scene reconstruction results.
翻訳日:2022-09-28 15:53:07 公開日:2022-09-27
# 階層化IC画像解析のためのヒストグラム付き画像変換による教師なし領域適応

Unsupervised Domain Adaptation with Histogram-gated Image Translation for Delayered IC Image Analysis ( http://arxiv.org/abs/2209.13479v1 )

ライセンス: Link先を確認
Yee-Yang Tee, Deruo Cheng, Chye-Soon Chee, Tong Lin, Yiqiong Shi, Bah-Hwee Gwee(参考訳) 深層学習は、回路構造のセグメンテーションに畳み込みニューラルネットワーク(CNN)を用いることで、困難な回路アノテーションタスクにおいて大きな成功を収めた。 ディープラーニングのアプローチは、優れたパフォーマンスを達成するために大量の手作業によるトレーニングデータを必要とするため、与えられたデータセットでトレーニングされたディープラーニングモデルが別のデータセットに適用されると、パフォーマンスが低下する可能性がある。 これは一般に、回路アノテーションの領域シフト問題として知られており、様々な画像データセットにまたがる分布の大きな変化に起因する。 異なる画像データセットは、単一のデバイス内の異なるデバイスまたは異なるレイヤから得ることができる。 ドメインシフト問題に対処するために、与えられたソースデータセットからターゲットデータセットのドメインに画像変換を行う教師なしドメイン適応フレームワークであるヒストグラムゲーテッド画像変換(hgit)を提案し、この変換画像をセグメンテーションネットワークのトレーニングに利用する。 具体的には,HGITはGANに基づく画像翻訳を行い,ヒストグラム統計を用いてデータキュレーションを行う。 3つの異なるターゲットデータセット(トレーニング用のラベルなし)に適応した単一のラベル付きソースデータセットで実験を行い、各ターゲットデータセットに対するセグメンテーション性能を評価した。 我々は,本手法が報告されたドメイン適応手法と比較して最高の性能を達成できることを実証した。

Deep learning has achieved great success in the challenging circuit annotation task by employing Convolutional Neural Networks (CNN) for the segmentation of circuit structures. The deep learning approaches require a large amount of manually annotated training data to achieve a good performance, which could cause a degradation in performance if a deep learning model trained on a given dataset is applied to a different dataset. This is commonly known as the domain shift problem for circuit annotation, which stems from the possibly large variations in distribution across different image datasets. The different image datasets could be obtained from different devices or different layers within a single device. To address the domain shift problem, we propose Histogram-gated Image Translation (HGIT), an unsupervised domain adaptation framework which transforms images from a given source dataset to the domain of a target dataset, and utilize the transformed images for training a segmentation network. Specifically, our HGIT performs generative adversarial network (GAN)-based image translation and utilizes histogram statistics for data curation. Experiments were conducted on a single labeled source dataset adapted to three different target datasets (without labels for training) and the segmentation performance was evaluated for each target dataset. We have demonstrated that our method achieves the best performance compared to the reported domain adaptation techniques, and is also reasonably close to the fully supervised benchmark.
翻訳日:2022-09-28 15:52:47 公開日:2022-09-27
# ファーストパーソンビジョンにおける視覚物体追跡

Visual Object Tracking in First Person Vision ( http://arxiv.org/abs/2209.13502v1 )

ライセンス: Link先を確認
Matteo Dunnhofer, Antonino Furnari, Giovanni Maria Farinella, Christian Micheloni(参考訳) 人間と物体の相互作用を理解することは、第一人物ビジョン(FPV)の基本である。 カメラ装着者が操作するオブジェクトに追従する視覚追跡アルゴリズムは、そのようなインタラクションを効果的にモデル化するための有用な情報を提供することができる。 過去数年間、コンピュータビジョンコミュニティは、多種多様な対象オブジェクトとシナリオの追跡アルゴリズムのパフォーマンスを大幅に改善した。 FPVドメインにおけるトラッカーの活用の試みはいくつかあったが、最先端トラッカーの性能に関する方法論的な分析はいまだに欠落している。 この研究ギャップは、現在の解決策が 'off-the-shelf'' あるいはもっとドメイン固有の調査に使えるかどうかという問題を提起する。 本稿では,そのような質問に対する回答の提供を目的とする。 FPVにおける単一物体追跡の最初の体系的な研究について述べる。 本研究は,ジェネリックオブジェクトトラッカーやベースラインFPVトラッカーを含む42のアルゴリズムの性能を広範囲に解析する。 分析は、FPV設定の異なる側面に着目し、新しいパフォーマンス対策を導入し、FPV固有のタスクに関連して行う。 この研究は、150の注釈付きビデオシーケンスからなる新しいベンチマークデータセットであるtrek-150の導入によって可能となった。 その結果、FPVにおける物体追跡は、現在の視覚トラッカーに新たな課題をもたらすことが示された。 このような行動を引き起こす要因を強調し,研究の方向性を指摘する。 その困難にもかかわらず、トラッカーは短期的なオブジェクト追跡を必要とするfpvダウンストリームタスクに恩恵をもたらすことを証明します。 我々は、新しいFPV特有の手法が研究されるにつれて、汎用オブジェクト追跡がFPVで人気になることを期待している。

The understanding of human-object interactions is fundamental in First Person Vision (FPV). Visual tracking algorithms which follow the objects manipulated by the camera wearer can provide useful information to effectively model such interactions. In the last years, the computer vision community has significantly improved the performance of tracking algorithms for a large variety of target objects and scenarios. Despite a few previous attempts to exploit trackers in the FPV domain, a methodical analysis of the performance of state-of-the-art trackers is still missing. This research gap raises the question of whether current solutions can be used ``off-the-shelf'' or more domain-specific investigations should be carried out. This paper aims to provide answers to such questions. We present the first systematic investigation of single object tracking in FPV. Our study extensively analyses the performance of 42 algorithms including generic object trackers and baseline FPV-specific trackers. The analysis is carried out by focusing on different aspects of the FPV setting, introducing new performance measures, and in relation to FPV-specific tasks. The study is made possible through the introduction of TREK-150, a novel benchmark dataset composed of 150 densely annotated video sequences. Our results show that object tracking in FPV poses new challenges to current visual trackers. We highlight the factors causing such behavior and point out possible research directions. Despite their difficulties, we prove that trackers bring benefits to FPV downstream tasks requiring short-term object tracking. We expect that generic object tracking will gain popularity in FPV as new and FPV-specific methodologies are investigated.
翻訳日:2022-09-28 15:52:21 公開日:2022-09-27
# グローバル・インテンション・ローカライゼーションと局所運動微細化を用いたモーショントランスフォーマ

Motion Transformer with Global Intention Localization and Local Movement Refinement ( http://arxiv.org/abs/2209.13508v1 )

ライセンス: Link先を確認
Shaoshuai Shi and Li Jiang and Dengxin Dai and Bernt Schiele(参考訳) 交通参加者のマルチモーダルな将来の行動を予測することは、ロボット車両が安全な判断を下す上で不可欠である。 既存の研究は、潜伏した特徴に基づいて将来の軌道を直接予測したり、密集した目標候補を用いてエージェントの目的地を特定することを目的としている。 本稿では, 動き予測を大域的意図定位と局所的動き改善の協調最適化としてモデル化するモーショントランスフォーマティブ(mtr)フレームワークを提案する。 目標候補を使う代わりに、MTRは学習可能な少数の動きクエリーペアを採用することで、空間的意図を取り入れている。 各動作クエリペアは、特定の動作モードの軌道予測と改善を担当し、トレーニングプロセスを安定化し、より良いマルチモーダル予測を容易にする。 実験の結果、MTRは、Waymo Open Motion Datasetのリーダーボードで1位にランクインし、限界運動予測とジョイントモーション予測の両方で最先端のパフォーマンスを達成した。 コードはhttps://github.com/sshaoshuai/MTRで入手できる。

Predicting multimodal future behavior of traffic participants is essential for robotic vehicles to make safe decisions. Existing works explore to directly predict future trajectories based on latent features or utilize dense goal candidates to identify agent's destinations, where the former strategy converges slowly since all motion modes are derived from the same feature while the latter strategy has efficiency issue since its performance highly relies on the density of goal candidates. In this paper, we propose Motion TRansformer (MTR) framework that models motion prediction as the joint optimization of global intention localization and local movement refinement. Instead of using goal candidates, MTR incorporates spatial intention priors by adopting a small set of learnable motion query pairs. Each motion query pair takes charge of trajectory prediction and refinement for a specific motion mode, which stabilizes the training process and facilitates better multimodal predictions. Experiments show that MTR achieves state-of-the-art performance on both the marginal and joint motion prediction challenges, ranking 1st on the leaderboards of Waymo Open Motion Dataset. Code will be available at https://github.com/sshaoshuai/MTR.
翻訳日:2022-09-28 15:51:59 公開日:2022-09-27
# FreeSeg: 解釈可能なコントラスト言語からの自由マスク-セマンティックセグメンテーションのための画像プレトレーニング

FreeSeg: Free Mask from Interpretable Contrastive Language-Image Pretraining for Semantic Segmentation ( http://arxiv.org/abs/2209.13558v1 )

ライセンス: Link先を確認
Yi Li, Huifeng Yao, Hualiang Wang, Xiaomeng Li(参考訳) 完全に教師付きセマンティックセグメンテーションは密集マスクから学習する。 本稿では,オープンワールドセグメンテーションのためのピクセルレベルのアノテーションを使わずに,自然言語を監督する。 提案したフレームワークをFreeSegと呼び、事前学習モデルの生の機能マップからマスクを自由に利用できる。 ゼロショットセグメンテーションやオープンセットセグメンテーションと比較すると、freesegは注釈付きマスクは必要とせず、クラスに依存しない非教師なしセグメンテーション以外のカテゴリを広く予測している。 具体的には、FreeSeg は Interpretable Contrastive Language- Image Pretraining (ICLIP) の Image-Text similarity Map (ITSM) からフリーマスクを取得する。 そして、我々は高密度ICLIPのためのスムーズなミンプーリングとセグメンテーションのための部分ラベルとピクセル戦略を改良した。 さらにFreeSegは、グループ化やクラスタリング、検索といった複雑な設計をせずに、非常にまっすぐに進んでいる。 単純さに加えて、freesegのパフォーマンスは以前の最先端技術を大きく上回り、例えば同じ設定で、miou on vocデータセットで13.4%高い。

Fully supervised semantic segmentation learns from dense masks, which requires heavy annotation cost for closed set. In this paper, we use natural language as supervision without any pixel-level annotation for open world segmentation. We call the proposed framework as FreeSeg, where the mask is freely available from raw feature map of pretraining model. Compared with zero-shot or openset segmentation, FreeSeg doesn't require any annotated masks, and it widely predicts categories beyond class-agnostic unsupervised segmentation. Specifically, FreeSeg obtains free mask from Image-Text Similarity Map (ITSM) of Interpretable Contrastive Language-Image Pretraining (ICLIP). And our core improvements are the smoothed min pooling for dense ICLIP, with the partial label and pixel strategies for segmentation. Furthermore, FreeSeg is very straight forward without complex design like grouping, clustering or retrieval. Besides the simplicity, the performances of FreeSeg surpass previous state-of-the-art at large margins, e.g. 13.4% higher at mIoU on VOC dataset in the same settings.
翻訳日:2022-09-28 15:51:37 公開日:2022-09-27
# 聴覚インタラクションによる状態認識視覚表現の学習

Learning State-Aware Visual Representations from Audible Interactions ( http://arxiv.org/abs/2209.13583v1 )

ライセンス: Link先を確認
Himangi Mittal, Pedro Morgado, Unnat Jain, Abhinav Gupta(参考訳) エゴセントリックビデオデータから表現を学ぶための自己教師付きアルゴリズムを提案する。 近年, 日常活動の場として, 環境と相互作用する人間を捕獲する取り組みが盛んに行われている。 その結果、対話に富むマルチモーダルデータの大規模なエゴセントリックデータセットが出現した。 しかし、ビデオから表現を学ぶことは困難である。 まず、長い連続ビデオの未解決の性質を考えると、効果的な表現を学ぶには、対話が行われる瞬間に焦点を合わせる必要がある。 第二に、日常生活の視覚的表現は環境の変化に敏感でなければならない。 しかし、現在成功したマルチモーダル学習フレームワークは、時間とともに表現の不変性を促進する。 これらの課題に対処するために、私たちはオーディオ信号を利用して、よりよい学習につながる可能性のあるインタラクションのモーメントを識別します。 また,対話による可聴状態の変化から学習する新たな自己教師型目標を提案する。 我々は、EPIC-Kitchens-100と最近リリースされたEgo4Dの2つの大規模エゴセントリックデータセットにおいて、これらのコントリビューションを広範囲に検証し、アクション認識、長期アクション予測、オブジェクト状態変化分類などの下流タスクの改善を示す。

We propose a self-supervised algorithm to learn representations from egocentric video data. Recently, significant efforts have been made to capture humans interacting with their own environments as they go about their daily activities. In result, several large egocentric datasets of interaction-rich multi-modal data have emerged. However, learning representations from videos can be challenging. First, given the uncurated nature of long-form continuous videos, learning effective representations require focusing on moments in time when interactions take place. Second, visual representations of daily activities should be sensitive to changes in the state of the environment. However, current successful multi-modal learning frameworks encourage representation invariance over time. To address these challenges, we leverage audio signals to identify moments of likely interactions which are conducive to better learning. We also propose a novel self-supervised objective that learns from audible state changes caused by interactions. We validate these contributions extensively on two large-scale egocentric datasets, EPIC-Kitchens-100 and the recently released Ego4D, and show improvements on several downstream tasks, including action recognition, long-term action anticipation, and object state change classification.
翻訳日:2022-09-28 15:51:18 公開日:2022-09-27
# ideareader: 科学出版物のアイデアの流れを理解するための機械読解システム

IdeaReader: A Machine Reading System for Understanding the Idea Flow of Scientific Publications ( http://arxiv.org/abs/2209.13243v1 )

ライセンス: Link先を確認
Qi Li, Yuyang Ren, Xingli Wang, Luoyi Fu, Jiaxin Ding, Xinde Cao, Xinbing Wang and Chenghu Zhou(参考訳) 出版物の起源と影響を理解することは科学的研究を行う上で重要である。 しかし、科学出版物の普及により、研究者が関連するすべての文献の進化を整理することが困難になっている。 そこで本研究では,どの論文が対象の出版物にインスパイアされるか,影響を受けやすいかを見極め,これらの論文のアイデアを自然言語で要約する機械読取システムであるideareaderを提案する。 具体的には、IdeanReaderはまず、対象の出版物の参照と引用(一階または上位)をクラスタ化し、得られたクラスタは、対象の出版物に刺激を与えるか、影響されるトピックと見なされる。 その後、各クラスタから重要な論文を抽出し、アイデアフローの骨格を抽出する。 最後に、ideareaderは各トピックの重要な論文の文献レビューを自動的に生成する。 本システムは,自動生成調査とアイデアフローの可視化により,論文の引用から引用まで,科学的アイデアがどのように流れるのかを研究者が把握するのに役立つ。

Understanding the origin and influence of the publication's idea is critical to conducting scientific research. However, the proliferation of scientific publications makes it difficult for researchers to sort out the evolution of all relevant literature. To this end, we present IdeaReader, a machine reading system that finds out which papers are most likely to inspire or be influenced by the target publication and summarizes the ideas of these papers in natural language. Specifically, IdeaReader first clusters the references and citations (first-order or higher-order) of the target publication, and the obtained clusters are regarded as the topics that inspire or are influenced by the target publication. It then picks out the important papers from each cluster to extract the skeleton of the idea flow. Finally, IdeaReader automatically generates a literature review of the important papers in each topic. Our system can help researchers gain insight into how scientific ideas flow from the target publication's references to citations by the automatically generated survey and the visualization of idea flow.
翻訳日:2022-09-28 15:50:40 公開日:2022-09-27
# PROD:Dense Retrievalのためのプログレッシブ蒸留

PROD: Progressive Distillation for Dense Retrieval ( http://arxiv.org/abs/2209.13335v1 )

ライセンス: Link先を確認
Zhenghao Lin, Yeyun Gong, Xiao Liu, Hang Zhang, Chen Lin, Anlei Dong, Jian Jiao, Jingwen Lu, Daxin Jiang, Rangan Majumder, Nan Duan(参考訳) 知識蒸留は、強力な教師から効率的な生徒モデルに知識を移す効果的な方法である。 理想的には、先生が良いこと、生徒が良いことを期待する。 しかし、この期待は必ずしも実現しない。 良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。 このギャップを埋めるため,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。 PRODは、教師のプログレッシブ蒸留とデータプログレッシブ蒸留からなり、学生を徐々に改善させる。 我々は,広く使用されている5つのベンチマーク,MS MARCO Passage, TREC Passage 19, TREC Document 19, MS MARCO Document and Natural Questionsについて広範な実験を行った。 コードとモデルがリリースされます。

Knowledge distillation is an effective way to transfer knowledge from a strong teacher to an efficient student model. Ideally, we expect the better the teacher is, the better the student. However, this expectation does not always come true. It is common that a better teacher model results in a bad student via distillation due to the nonnegligible gap between teacher and student. To bridge the gap, we propose PROD, a PROgressive Distillation method, for dense retrieval. PROD consists of a teacher progressive distillation and a data progressive distillation to gradually improve the student. We conduct extensive experiments on five widely-used benchmarks, MS MARCO Passage, TREC Passage 19, TREC Document 19, MS MARCO Document and Natural Questions, where PROD achieves the state-of-the-art within the distillation methods for dense retrieval. The code and models will be released.
翻訳日:2022-09-28 15:50:17 公開日:2022-09-27
# 対話システムにおける対話性

Interactivism in Spoken Dialogue Systems ( http://arxiv.org/abs/2209.13547v1 )

ライセンス: Link先を確認
T. Rodr\'iguez Mu\~noz (1), E. Ip (1), G. Huang (1) and R. K. Moore (1) ((1) The University of Sheffield)(参考訳) 対話性モデルは言語、コミュニケーション、認知に対する動的なアプローチを導入する。 本研究では,音声対話システム(sds)における対話モデリングの文脈において,この基本理論を考察する。 このような理論的枠組みを拡張するために,我々はsdsにおける対話性を実現するために,中央精神言語学とコミュニケーション理論に従う一連の設計原則を提案する。 これらのことから,提案した設計原則の基礎となる重要なアイデアがリンクされている。

The interactivism model introduces a dynamic approach to language, communication and cognition. In this work, we explore this fundamental theory in the context of dialogue modelling for spoken dialogue systems (SDS). To extend such a theoretical framework, we present a set of design principles which adhere to central psycholinguistic and communication theories to achieve interactivism in SDS. From these, key ideas are linked to constitute the basis of our proposed design principles.
翻訳日:2022-09-28 15:50:03 公開日:2022-09-27
# riga: 点クラウド登録のためのローテーション不変およびグローバルアウェアディスクリプタ

RIGA: Rotation-Invariant and Globally-Aware Descriptors for Point Cloud Registration ( http://arxiv.org/abs/2209.13252v1 )

ライセンス: Link先を確認
Hao Yu, Ji Hou, Zheng Qin, Mahdi Saleh, Ivan Shugurov, Kai Wang, Benjamin Busam, Slobodan Ilic(参考訳) 成功した点雲の登録は、強力な記述子に基づく正確な対応に依存する。 しかし、既存のニューラルディスクリプタは、大きな回転で性能が低下する回転不変のバックボーンを利用するか、あるいはあまり特徴のない局所幾何学を符号化する。 この問題に対処するために、RIGAを導入し、設計とGlobally-Awareによって回転不変の記述子を学ぶ。 スパース局所領域の点対特徴(ppfs)から、回転不変局所幾何学は幾何ディスクリプタに符号化される。 3次元構造と幾何学的文脈のグローバルな認識は、どちらも回転不変な方法で取り入れられる。 より具体的には、フレーム全体の3D構造は、まずグローバルなPPFシグネチャによって表現され、そこから構造記述子を学び、幾何学的記述子が局所領域を超えて3D世界を感知するのに役立つ。 シーン全体の幾何学的コンテキストは、デリプタにグローバルに集約される。 最後に、疎領域の記述を、登録のために対応を抽出した密接な点記述子に補間する。 このアプローチを検証するために,我々は,オブジェクトレベルとシーンレベルのデータの両方について広範な実験を行う。 大規模なローテーションでは、RIGAはModelNet40の相対回転誤差で最先端の手法を8度の差で上回り、3DLoMatchでは少なくとも5ポイントのFeature Matching Recallを改善する。

Successful point cloud registration relies on accurate correspondences established upon powerful descriptors. However, existing neural descriptors either leverage a rotation-variant backbone whose performance declines under large rotations, or encode local geometry that is less distinctive. To address this issue, we introduce RIGA to learn descriptors that are Rotation-Invariant by design and Globally-Aware. From the Point Pair Features (PPFs) of sparse local regions, rotation-invariant local geometry is encoded into geometric descriptors. Global awareness of 3D structures and geometric context is subsequently incorporated, both in a rotation-invariant fashion. More specifically, 3D structures of the whole frame are first represented by our global PPF signatures, from which structural descriptors are learned to help geometric descriptors sense the 3D world beyond local regions. Geometric context from the whole scene is then globally aggregated into descriptors. Finally, the description of sparse regions is interpolated to dense point descriptors, from which correspondences are extracted for registration. To validate our approach, we conduct extensive experiments on both object- and scene-level data. With large rotations, RIGA surpasses the state-of-the-art methods by a margin of 8\degree in terms of the Relative Rotation Error on ModelNet40 and improves the Feature Matching Recall by at least 5 percentage points on 3DLoMatch.
翻訳日:2022-09-28 15:44:47 公開日:2022-09-27
# ビデオによる犬の痛み指標の推定

Video-based estimation of pain indicators in dogs ( http://arxiv.org/abs/2209.13296v1 )

ライセンス: Link先を確認
Hongyi Zhu, Yasemin Salg{\i}rl{\i}, P{\i}nar Can, Durmu\c{s} At{\i}lgan, Albert Ali Salah(参考訳) 犬の飼い主は通常、痛みなどの主観的な状態を明らかにする行動的手がかりを認識できる。 しかし、痛み状態の自動認識は非常に難しい。 本稿では,この問題に対する新しいビデオベース2ストリーム深層ニューラルネットワーク手法を提案する。 ビデオ上のキーポイントとRGB表現の両方から、ボディキーポイントを抽出し、プリプロセスし、特徴を計算します。 自己排除と欠落するキーポイントに対処するアプローチを提案する。 また, 獣医が収集し, 痛みの有無をアノテートしたユニークなビデオベースの行動データセットを提示し, 提案手法を用いて良好な分類結果を示す。 この研究は、犬の痛み状態を機械学習で推定する最初の研究の1つである。

Dog owners are typically capable of recognizing behavioral cues that reveal subjective states of their dogs, such as pain. But automatic recognition of the pain state is very challenging. This paper proposes a novel video-based, two-stream deep neural network approach for this problem. We extract and preprocess body keypoints, and compute features from both keypoints and the RGB representation over the video. We propose an approach to deal with self-occlusions and missing keypoints. We also present a unique video-based dog behavior dataset, collected by veterinary professionals, and annotated for presence of pain, and report good classification results with the proposed approach. This study is one of the first works on machine learning based estimation of dog pain state.
翻訳日:2022-09-28 15:44:22 公開日:2022-09-27
# 一貫性を受け入れる: 時空間ビデオグラウンディングの一段階アプローチ

Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2209.13306v1 )

ライセンス: Link先を確認
Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu(参考訳) spatio-temporal video grounding (stvg) は、自由形式のテキスト表現で表される特定の物体の時空間チューブの検索に焦点を当てている。 既存のアプローチは主に、この複雑なタスクを並列フレームグラウンド問題として扱うため、特徴整合不整合と予測不整合という2つのタイプの矛盾に悩まされる。 本稿では,これらの問題を緩和するために,時空間整合型変圧器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。 特に,この課題に対処するためのグローバルな目的として,新しいマルチモーダルテンプレートを導入し,接地領域を明示的に制限し,全映像フレーム間の予測を関連付ける。 さらに,このテンプレートを十分な映像テキスト認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。 これらの重要な設計のおかげで、STCATは、事前訓練された物体検出器に依存することなく、より一貫性のあるクロスモーダルな特徴アライメントと管予測を享受できる。 広汎な実験により,提案手法は従来の最先端技術よりも高い性能を示し,視覚と自然言語の関連性をよりよく理解するために,提案手法の優位性を示した。 コードは \url{https://github.com/jy0205/STCAT} で公開されている。

Spatio-Temporal video grounding (STVG) focuses on retrieving the spatio-temporal tube of a specific object depicted by a free-form textual expression. Existing approaches mainly treat this complicated task as a parallel frame-grounding problem and thus suffer from two types of inconsistency drawbacks: feature alignment inconsistency and prediction inconsistency. In this paper, we present an end-to-end one-stage framework, termed Spatio-Temporal Consistency-Aware Transformer (STCAT), to alleviate these issues. Specially, we introduce a novel multi-modal template as the global objective to address this task, which explicitly constricts the grounding region and associates the predictions among all video frames. Moreover, to generate the above template under sufficient video-textual perception, an encoder-decoder architecture is proposed for effective global context modeling. Thanks to these critical designs, STCAT enjoys more consistent cross-modal feature alignment and tube prediction without reliance on any pre-trained object detectors. Extensive experiments show that our method outperforms previous state-of-the-arts with clear margins on two challenging video benchmarks (VidSTG and HC-STVG), illustrating the superiority of the proposed framework to better understanding the association between vision and natural language. Code is publicly available at \url{https://github.com/jy0205/STCAT}.
翻訳日:2022-09-28 15:44:13 公開日:2022-09-27
# superyolo: マルチモーダルリモートセンシング画像における超解像支援オブジェクト検出

SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery ( http://arxiv.org/abs/2209.13351v1 )

ライセンス: Link先を確認
Jiaqing Zhang, Jie Lei, Weiying Xie, Zhenman Fang, Yunsong Li, Qian Du(参考訳) 本稿では,マルチモーダルデータを融合し,補助的超解像(SR)学習を用いて高分解能(HR)オブジェクト検出を行い,検出精度と計算コストの両方を考慮したRSIの高精度かつ高速な小型物体検出手法であるSuperYOLOを提案する。 まず、HR機能を維持するためにFocusモジュールを削除し、小さなオブジェクトのエラーを著しく克服することで、コンパクトなベースラインを構築する。 第2に、画素レベルのマルチモーダル融合(MF)を用いて、様々なデータから情報を抽出し、RSI内の小さなオブジェクトに対してより適切で効果的な特徴を実現する。 さらに、低分解能(LR)入力で小さな物体を広い背景から識別できるHR特徴表現を学習するための単純で柔軟なSR分岐を設計し、検出精度をさらに向上する。 さらに、追加計算を導入するのを避けるため、推論段階でSR分岐を破棄し、LR入力によりネットワークモデルの計算を低減させる。 実験の結果、広く使われているVEDAI RSデータセットでは、SuperYOLOの精度は73.61%(mAP50)であり、YOLOv5l、YOLOv5x、RSの設計したYOLOrsといったSOTAの大型モデルよりも10%以上高いことがわかった。 一方、SuperYOLOのGFOLPとパラメータサイズは、YOLOv5xより約18.1倍、4.2倍小さい。 提案モデルでは,最先端モデルと比較して精度・速度のトレードオフが良好である。 コードはhttps://github.com/icey-zhang/SuperYOLOで公開されている。

In this paper, we propose an accurate yet fast small object detection method for RSI, named SuperYOLO, which fuses multimodal data and performs high resolution (HR) object detection on multiscale objects by utilizing the assisted super resolution (SR) learning and considering both the detection accuracy and computation cost. First, we construct a compact baseline by removing the Focus module to keep the HR features and significantly overcomes the missing error of small objects. Second, we utilize pixel-level multimodal fusion (MF) to extract information from various data to facilitate more suitable and effective features for small objects in RSI. Furthermore, we design a simple and flexible SR branch to learn HR feature representations that can discriminate small objects from vast backgrounds with low-resolution (LR) input, thus further improving the detection accuracy. Moreover, to avoid introducing additional computation, the SR branch is discarded in the inference stage and the computation of the network model is reduced due to the LR input. Experimental results show that, on the widely used VEDAI RS dataset, SuperYOLO achieves an accuracy of 73.61% (in terms of mAP50), which is more than 10% higher than the SOTA large models such as YOLOv5l, YOLOv5x and RS designed YOLOrs. Meanwhile, the GFOLPs and parameter size of SuperYOLO are about 18.1x and 4.2x less than YOLOv5x. Our proposed model shows a favorable accuracy-speed trade-off compared to the state-of-art models. The code will be open sourced at https://github.com/icey-zhang/SuperYOLO.
翻訳日:2022-09-28 15:43:46 公開日:2022-09-27
# Suppress with a Patch: Revisiting Universal Adversarial Patch Attacks against Object Detection

Suppress with a Patch: Revisiting Universal Adversarial Patch Attacks against Object Detection ( http://arxiv.org/abs/2209.13353v1 )

ライセンス: Link先を確認
Svetlana Pavlitskaya, Jonas Hendl, Sebastian Kleim, Leopold M\"uller, Fabian Wylczoch and J. Marius Z\"ollner(参考訳) 逆パッチベースの攻撃は、意図的に発生するノイズでニューラルネットワークを騙すことを目的としており、入力画像の特定の領域に集中している。 本研究では,初期化,パッチサイズ,特にトレーニング中の画像中のパッチの位置決めなど,さまざまなパッチ生成パラメータの詳細な解析を行う。 我々は、オブジェクトの消滅攻撃に注目し、White-box設定のモデルとしてYOLOv3で実験を行い、COCOデータセットの画像を使用する。 実験では,訓練中にサイズが増大する窓内にパッチを挿入すると,一定位置に比べて攻撃強度が著しく向上することを示した。 トレーニング中にパッチがランダムに位置決めされた場合, パッチ位置はバッチ内で追加的に変化した。

Adversarial patch-based attacks aim to fool a neural network with an intentionally generated noise, which is concentrated in a particular region of an input image. In this work, we perform an in-depth analysis of different patch generation parameters, including initialization, patch size, and especially positioning a patch in an image during training. We focus on the object vanishing attack and run experiments with YOLOv3 as a model under attack in a white-box setting and use images from the COCO dataset. Our experiments have shown, that inserting a patch inside a window of increasing size during training leads to a significant increase in attack strength compared to a fixed position. The best results were obtained when a patch was positioned randomly during training, while patch position additionally varied within a batch.
翻訳日:2022-09-28 15:43:17 公開日:2022-09-27
# アート・ドリームを描く:多モード誘導拡散による異種デジタル・アート・シンセサイザー

Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion ( http://arxiv.org/abs/2209.13360v1 )

ライセンス: Link先を確認
Huang Nisha, Tang Fan, Dong Weiming and Xu Changsheng(参考訳) デジタルアート・シンセサイザーは、アートを効果的に活用するため、マルチメディアコミュニティで注目を集めている。 現在のデジタルアート合成法は、通常、単一のモダリティ入力をガイダンスとして使用するため、モデルの表現性や生成結果の多様性が制限される。 この問題を解決するために,マルチモーダルプロンプトを用いた拡散型デジタルアートワーク生成手法であるMGADモデルを提案する。 さらに、テキストと画像のモダリティを統一するために、対照的な言語画像事前学習(CLIP)モデルが使用される。 生成したデジタルアート絵画の品質と量に関する広範な実験結果から,拡散モデルとマルチモーダル指導の組み合わせの有効性を確認した。 コードはhttps://github.com/haha-lisa/mgad-multimodal-guided-artwork-diffusionで入手できる。

Digital art synthesis is receiving increasing attention in the multimedia community because of engaging the public with art effectively. Current digital art synthesis methods usually use single-modality inputs as guidance, thereby limiting the expressiveness of the model and the diversity of generated results. To solve this problem, we propose the multimodal guided artwork diffusion (MGAD) model, which is a diffusion-based digital artwork generation approach that utilizes multimodal prompts as guidance to control the classifier-free diffusion model. Additionally, the contrastive language-image pretraining (CLIP) model is used to unify text and image modalities. Extensive experimental results on the quality and quantity of the generated digital art paintings confirm the effectiveness of the combination of the diffusion model and multimodal guidance. Code is available at https://github.com/haha-lisa/MGAD-multimodal-guided-artwork-diffusion.
翻訳日:2022-09-28 15:43:01 公開日:2022-09-27
# DELTAR:軽量ToFセンサとRGB画像からの深さ推定

DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image ( http://arxiv.org/abs/2209.13362v1 )

ライセンス: Link先を確認
Yijin Li, Xinyang Liu, Wenqi Dong, Han Zhou, Hujun Bao, Guofeng Zhang, Yinda Zhang, Zhaopeng Cui(参考訳) 軽量飛行時間(ToF)深度センサーは小型で安価で低エネルギーで、オートフォーカスや障害物検出などの目的でモバイルデバイスに大量にデプロイされている。 しかし, 特定の測定値(画素の深さ値ではなく領域内の深度分布)と極めて低分解能のため, 3次元再構成などの高忠実度化を必要とするアプリケーションには不十分である。 本稿では,カラー画像と協調して高分解能,高精度な深度を計測できる,軽量なtofセンサをエンパワーする新しい手法であるdeltarを提案する。 DELTARの中核として、深度分布用にカスタマイズされた特徴抽出器と注意に基づくニューラルアーキテクチャを提案し、色とToF領域からの情報を効率的に融合させる。 実世界のシナリオでシステムを評価するために,データ収集装置を設計し,RGBカメラとToFセンサを校正するための新しいアプローチを提案する。 実験により,提案手法は深度分解能と深度超解像のために設計された既存のフレームワークよりも精度が高く,コモディティレベルのRGB-Dセンサで同等の性能が得られることが示された。 コードとデータはhttps://zju3dv.github.io/deltar/で入手できる。

Light-weight time-of-flight (ToF) depth sensors are small, cheap, low-energy and have been massively deployed on mobile devices for the purposes like autofocus, obstacle detection, etc. However, due to their specific measurements (depth distribution in a region instead of the depth value at a certain pixel) and extremely low resolution, they are insufficient for applications requiring high-fidelity depth such as 3D reconstruction. In this paper, we propose DELTAR, a novel method to empower light-weight ToF sensors with the capability of measuring high resolution and accurate depth by cooperating with a color image. As the core of DELTAR, a feature extractor customized for depth distribution and an attention-based neural architecture is proposed to fuse the information from the color and ToF domain efficiently. To evaluate our system in real-world scenarios, we design a data collection device and propose a new approach to calibrate the RGB camera and ToF sensor. Experiments show that our method produces more accurate depth than existing frameworks designed for depth completion and depth super-resolution and achieves on par performance with a commodity-level RGB-D sensor. Code and data are available at https://zju3dv.github.io/deltar/.
翻訳日:2022-09-28 15:42:48 公開日:2022-09-27
# OBBStacking:リモートセンシングオブジェクト検出のためのアンサンブル手法

OBBStacking: An Ensemble Method for Remote Sensing Object Detection ( http://arxiv.org/abs/2209.13369v1 )

ライセンス: Link先を確認
Haoning Lin, Changhao Sun, Yunpeng Liu(参考訳) アンサンブルメソッドは、優れたパフォーマンスを達成するために複数のモデルを統合する信頼できる方法である。 しかし、リモートセンシングオブジェクト検出シナリオにおけるアンサンブル手法の適用に関する研究はほとんど見過ごされている。 2つの問題が生じる。 第一に、リモートセンシングオブジェクト検出のユニークな特徴は、オブジェクトのオブジェクト指向バウンディングボックス(OBB)であり、複数のOBBの融合にはさらなる研究が必要である。 第二に、広く使われている深層学習物体検出器は、検出対象毎に信頼度を示す指標としてスコアを提供するが、これらの指標をアンサンブル法で効果的に利用する方法は問題である。 そこで本研究では,OBBと互換性のあるアンサンブル手法であるOBBStackingを提案する。 このアンサンブル手法は、自動高分解能地球観測画像解釈に関する \textit{2021 gaofen challenge で紹介されたチャレンジトラック \textit{fine-grained object recognition in high- resolution optical images} で1位を獲得するのに役立つ。 DOTAデータセットとFAIR1Mデータセットに関する実験は、OBBStackingの性能改善とOBBStackingの特徴を分析した。

Ensemble methods are a reliable way to combine several models to achieve superior performance. However, research on the application of ensemble methods in the remote sensing object detection scenario is mostly overlooked. Two problems arise. First, one unique characteristic of remote sensing object detection is the Oriented Bounding Boxes (OBB) of the objects and the fusion of multiple OBBs requires further research attention. Second, the widely used deep learning object detectors provide a score for each detected object as an indicator of confidence, but how to use these indicators effectively in an ensemble method remains a problem. Trying to address these problems, this paper proposes OBBStacking, an ensemble method that is compatible with OBBs and combines the detection results in a learned fashion. This ensemble method helps take 1st place in the Challenge Track \textit{Fine-grained Object Recognition in High-Resolution Optical Images}, which was featured in \textit{2021 Gaofen Challenge on Automated High-Resolution Earth Observation Image Interpretation}. The experiments on DOTA dataset and FAIR1M dataset demonstrate the improved performance of OBBStacking and the features of OBBStacking are analyzed.
翻訳日:2022-09-28 15:42:03 公開日:2022-09-27
# StyleMask: ニューラルフェイス再現のためのスタイルGAN2のスタイルスペースを解消

StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face Reenactment ( http://arxiv.org/abs/2209.13375v1 )

ライセンス: Link先を確認
Stella Bounareli, Christos Tzelepis, Vasileios Argyriou, Ioannis Patras, Georgios Tzimiropoulos(参考訳) 本稿では,1対のソースと対象の顔画像が与えられた場合であっても,ソースのアイデンティティ特性(顔形,髪型など)を異なるアイデンティティに属する場合であっても保存して,ターゲットのポーズ(頭部のポーズとその表情と定義)をソース画像に転送する必要があるニューラルフェイス再現の問題に対処する。 その際、最先端作品の限界、すなわち、いくつかの制限に対処します。 a) ペアトレーニングデータ(すなわち、ソース面とターゲット面が同一の同一性を持つもの)に依存すること。 b) 推論中にラベル付きデータに依存すること,及び c) 頭部が大きく変化しても同一性が保持されないこと。 より具体的には、ランダムに生成した顔画像を用いて、最近導入されたスタイル空間であるStyleGAN2の$\mathcal{S}$を組み込むことで、顔のアイデンティティ特性をそのポーズから切り離すことができるフレームワークを提案する。 これを利用して、3Dモデルからの監督を利用して、ソースとターゲットの2つのスタイルのコードをうまく組み合わせることを学ぶ。 結果として得られた潜在コードは、後に再現に使用されるが、対象者の顔のポーズに対応する潜在単位と、ソースのアイデンティティのみに対応する単位で構成されており、最近の最先端の方法と比較して再現性能が著しく向上している。 現状と比較して,提案手法が極端なポーズ変動においても高品質な結果をもたらすことを定量的・定性的に示す。 最後に,事前学習した生成器の潜在空間に埋め込み,実画像の結果を報告する。 コードとトレーニング済みモデルの公開は、https://github.com/stelabou/stylemask.com/。

In this paper we address the problem of neural face reenactment, where, given a pair of a source and a target facial image, we need to transfer the target's pose (defined as the head pose and its facial expressions) to the source image, by preserving at the same time the source's identity characteristics (e.g., facial shape, hair style, etc), even in the challenging case where the source and the target faces belong to different identities. In doing so, we address some of the limitations of the state-of-the-art works, namely, a) that they depend on paired training data (i.e., source and target faces have the same identity), b) that they rely on labeled data during inference, and c) that they do not preserve identity in large head pose changes. More specifically, we propose a framework that, using unpaired randomly generated facial images, learns to disentangle the identity characteristics of the face from its pose by incorporating the recently introduced style space $\mathcal{S}$ of StyleGAN2, a latent representation space that exhibits remarkable disentanglement properties. By capitalizing on this, we learn to successfully mix a pair of source and target style codes using supervision from a 3D model. The resulting latent code, that is subsequently used for reenactment, consists of latent units corresponding to the facial pose of the target only and of units corresponding to the identity of the source only, leading to notable improvement in the reenactment performance compared to recent state-of-the-art methods. In comparison to state of the art, we quantitatively and qualitatively show that the proposed method produces higher quality results even on extreme pose variations. Finally, we report results on real images by first embedding them on the latent space of the pretrained generator. We make the code and pretrained models publicly available at: https://github.com/StelaBou/StyleMask
翻訳日:2022-09-28 15:41:40 公開日:2022-09-27
# スパース偏光センサを用いた高品質RGB画像と偏光情報の同時取得

Simultaneous Acquisition of High Quality RGB Image and Polarization Information using a Sparse Polarization Sensor ( http://arxiv.org/abs/2209.13106v1 )

ライセンス: Link先を確認
Teppei Kurita, Yuhi Kondo, Legong Sun and Yusuke Moriuchi(参考訳) 本稿では,新しい偏光センサ構造とネットワークアーキテクチャを提案し,高品質なrgb画像と偏光情報を得る。 従来の偏光センサは同時にRGB画像と偏光情報を取得することができるが、センサ上の偏光器はRGB画像の品質を低下させる。 偏光画素が少ないため、RGB画像の品質と偏光情報のトレードオフがあり、RGB画像の劣化は低減されるが、偏光情報の解像度は低下する。 そこで,センサ上に偏光画素を分散配置し,rgb画像をガイドとして高分解能の低分解能偏光情報を補償することにより,トレードオフを解決する手法を提案する。 提案するネットワークアーキテクチャは,RGB画像改善ネットワークと偏光情報補償ネットワークから構成される。 そこで本研究では, 偏光強度の差分成分を補償するネットワークの優位性を, 類似タスクに対する最先端手法との比較により検証した。 さらに,従来の偏光センサよりも高品質なRGB画像と偏光情報を同時に取得し,RGB画像の品質と偏光情報のトレードオフを解消できることを確認した。 ベースラインコードと新たに生成された実および合成の大規模偏光画像データセットは、さらなる研究と開発のために利用可能である。

This paper proposes a novel polarization sensor structure and network architecture to obtain a high-quality RGB image and polarization information. Conventional polarization sensors can simultaneously acquire RGB images and polarization information, but the polarizers on the sensor degrade the quality of the RGB images. There is a trade-off between the quality of the RGB image and polarization information as fewer polarization pixels reduce the degradation of the RGB image but decrease the resolution of polarization information. Therefore, we propose an approach that resolves the trade-off by sparsely arranging polarization pixels on the sensor and compensating for low-resolution polarization information with higher resolution using the RGB image as a guide. Our proposed network architecture consists of an RGB image refinement network and a polarization information compensation network. We confirmed the superiority of our proposed network in compensating the differential component of polarization intensity by comparing its performance with state-of-the-art methods for similar tasks: depth completion. Furthermore, we confirmed that our approach could simultaneously acquire higher quality RGB images and polarization information than conventional polarization sensors, resolving the trade-off between the quality of RGB images and polarization information. The baseline code and newly generated real and synthetic large-scale polarization image datasets are available for further research and development.
翻訳日:2022-09-28 15:34:40 公開日:2022-09-27
# ビデオ異常検出のための時空間関係学習

Spatio-Temporal Relation Learning for Video Anomaly Detection ( http://arxiv.org/abs/2209.13116v1 )

ライセンス: Link先を確認
Hui Lv, Zhen Cui, Biao Wang, Jian Yang(参考訳) 異常識別はオブジェクトとシーンの関係に大きく依存しており、同じ/異なるシーンにおける異なる/異なるオブジェクトアクションは、様々な正常性と異常をもたらす可能性がある。 したがって、オブジェクトとシーンの関係は実際には異常検出において重要な役割を果たすが、以前の作品では不十分に研究されている。 本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習(STRL)フレームワークを提案する。 まず,物体の動的特徴とシーン領域を考慮し,時空間的自動エンコーダ(stae)を構築し,表現学習に空間的・時間的発展パターンを併用する。 パターン抽出のための2つのデコード分岐はSTAEモジュールで設計されており、例えば、次のフレームを直接予測することで空間的キューをキャプチャする外観分岐と、光学フロー予測によるダイナミクスのモデリングに焦点を当てた動作分岐である。 次に、オブジェクト-シーン関係をよく理解するために、ナレッジグラフ埋め込み方法論を導入することにより、正規関係を解析・要約するために関係学習(rl)モジュールが考案される。 具体的には、オブジェクト/シーンの特徴と最適化可能なオブジェクト/シーン関係マップを併用して、オブジェクト/シーン関係の妥当性を測定する。 3つの公開データセットで広範な実験を行い,最新手法よりも優れた性能が得られた。

Anomaly identification is highly dependent on the relationship between the object and the scene, as different/same object actions in same/different scenes may lead to various degrees of normality and anomaly. Therefore, object-scene relation actually plays a crucial role in anomaly detection but is inadequately explored in previous works. In this paper, we propose a Spatial-Temporal Relation Learning (STRL) framework to tackle the video anomaly detection task. First, considering dynamic characteristics of the objects as well as scene areas, we construct a Spatio-Temporal Auto-Encoder (STAE) to jointly exploit spatial and temporal evolution patterns for representation learning. For better pattern extraction, two decoding branches are designed in the STAE module, i.e. an appearance branch capturing spatial cues by directly predicting the next frame, and a motion branch focusing on modeling the dynamics via optical flow prediction. Then, to well concretize the object-scene relation, a Relation Learning (RL) module is devised to analyze and summarize the normal relations by introducing the Knowledge Graph Embedding methodology. Specifically in this process, the plausibility of object-scene relation is measured by jointly modeling object/scene features and optimizable object-scene relation maps. Extensive experiments are conducted on three public datasets, and the superior performance over the state-of-the-art methods demonstrates the effectiveness of our method.
翻訳日:2022-09-28 15:34:19 公開日:2022-09-27
# スポーツ選手追跡における観察中心と中心距離の回復

Observation Centric and Central Distance Recovery on Sports Player Tracking ( http://arxiv.org/abs/2209.13154v1 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Jenq-Neng Hwang, Pyong-Kun Kim, Kwangju Kim, Kyoungoh Lee(参考訳) 物体検出と再同定の開発により,人間による多物体追跡が急速に向上した。 しかし、類似した外観と非線形運動を持つ人間に対するマルチアクター追跡は、最先端の追跡アルゴリズムでさえも非常に困難である。 現在の動きに基づく追跡アルゴリズムは、しばしばカルマンフィルタを用いて物体の動きを予測するが、その線形運動仮定は、目標が線形に動かないときに追跡に失敗する。 また、同じチームの選手は通常同じ色のジャージを着ているため、スポーツフィールドを追跡するマルチプレイヤーにとっては、短期的にも長期的にも再識別が難しくなる。 本研究では,バスケットボール,サッカー,バレーボールの3つのスポーツを対象とした動きに基づく追跡アルゴリズムと3つのポストプロセッシングパイプラインを提案し,競技場における選手の非線形運動の追跡をうまく処理した。 実験の結果,ECCV DeeperAction Challenge SportsMOT Datasetは,2022年のSportsmotワークショップの最終リーダーボードで3位となる73.968のHOTAを達成し,本手法の有効性を実証した。

Multi-Object Tracking over humans has improved rapidly with the development of object detection and re-identification. However, multi-actor tracking over humans with similar appearance and nonlinear movement can still be very challenging even for the state-of-the-art tracking algorithm. Current motion-based tracking algorithms often use Kalman Filter to predict the motion of an object, however, its linear movement assumption can cause failure in tracking when the target is not moving linearly. And for multi-players tracking over the sports field, because the players in the same team are usually wearing the same color of jersey, making re-identification even harder both in the short term and long term in the tracking process. In this work, we proposed a motionbased tracking algorithm and three post-processing pipelines for three sports including basketball, football, and volleyball, we successfully handle the tracking of the non-linear movement of players on the sports fields. Experiments result on the testing set of ECCV DeeperAction Challenge SportsMOT Dataset demonstrate the effectiveness of our method, which achieves a HOTA of 73.968, ranking 3rd place on the 2022 Sportsmot workshop final leaderboard.
翻訳日:2022-09-28 15:33:59 公開日:2022-09-27
# グローバル最適事象に基づく腹側着陸の発散推定

Globally Optimal Event-Based Divergence Estimation for Ventral Landing ( http://arxiv.org/abs/2209.13168v1 )

ライセンス: Link先を確認
Sofia McLeod, Gabriele Meoni, Dario Izzo, Anne Mergy, Daqi Liu, Yasir Latif, Ian Reid, Tat-Jun Chin(参考訳) イベントセンシングはバイオインスパイアされた飛行誘導と制御システムの主要なコンポーネントである。 イベントカメラを用いて,腹側着陸時の表面接触時間(ttc)の予測について検討した。 これは、着陸時に発生する事象の流れから放射光の流れの速度である発散(逆TTC)を推定することで達成される。 私たちの中心となる貢献は、イベントに基づく分岐推定のための新しいコントラスト最大化定式化と、コントラストを正確に最大化し最適な分岐値を求める分枝・バウンドアルゴリズムである。 グローバルアルゴリズムを高速化するためにGPUアクセラレーションが実行される。 もうひとつのコントリビューションは,私たちのメソッドのテストとベンチマークに使用された,腹側着陸からの実際のイベントストリームを含む,新たなデータセットだ。 グローバルな最適化により、我々のアルゴリズムは、他のヒューリスティックな発散推定器やイベントベースの光流法と比較して、真の発散を回復することができる。 GPUアクセラレーションでは、競合するランタイムも実現している。

Event sensing is a major component in bio-inspired flight guidance and control systems. We explore the usage of event cameras for predicting time-to-contact (TTC) with the surface during ventral landing. This is achieved by estimating divergence (inverse TTC), which is the rate of radial optic flow, from the event stream generated during landing. Our core contributions are a novel contrast maximisation formulation for event-based divergence estimation, and a branch-and-bound algorithm to exactly maximise contrast and find the optimal divergence value. GPU acceleration is conducted to speed up the global algorithm. Another contribution is a new dataset containing real event streams from ventral landing that was employed to test and benchmark our method. Owing to global optimisation, our algorithm is much more capable at recovering the true divergence, compared to other heuristic divergence estimators or event-based optic flow methods. With GPU acceleration, our method also achieves competitive runtimes.
翻訳日:2022-09-28 15:33:40 公開日:2022-09-27
# RepsNet: 自動化医療レポートのためのビジョンと言語の組み合わせ

RepsNet: Combining Vision with Language for Automated Medical Reports ( http://arxiv.org/abs/2209.13171v1 )

ライセンス: Link先を確認
Ajay Kumar Tanwani, Joelle Barral, Daniel Freedman(参考訳) 医用画像解析によるレポート作成は、経験の浅い実践者や経験者にとってエラーを起こしやすい。 本稿では,予め学習した視覚モデルと言語モデルを用いて医療画像の解釈を行い,自然言語で自動レポートを生成するrepsnetを提案する。 RepsNetはエンコーダ-デコーダモデルで構成されており、エンコーダはコントラスト学習によって画像と自然言語記述を整列し、デコーダはエンコーダ画像と近隣の検索によって検索された記述の事前コンテキストを条件付けして回答を予測する。 この問題を視覚的質問応答設定で定式化し,カテゴリー的および記述的自然言語応答の両方を扱う。 医用視覚質問応答(VQA-Rad)と報告生成(IU-Xray)の2つの課題を放射線画像データセット上で実験した。 その結果、RepsNetはVQA-Rad 2018では81.08%、IU-Xrayでは0.58BLEU-1スコアで最先端の手法よりも優れていた。 追加の詳細はhttps://sites.google.com/view/repsnetで確認できる。

Writing reports by analyzing medical images is error-prone for inexperienced practitioners and time consuming for experienced ones. In this work, we present RepsNet that adapts pre-trained vision and language models to interpret medical images and generate automated reports in natural language. RepsNet consists of an encoder-decoder model: the encoder aligns the images with natural language descriptions via contrastive learning, while the decoder predicts answers by conditioning on encoded images and prior context of descriptions retrieved by nearest neighbor search. We formulate the problem in a visual question answering setting to handle both categorical and descriptive natural language answers. We perform experiments on two challenging tasks of medical visual question answering (VQA-Rad) and report generation (IU-Xray) on radiology image datasets. Results show that RepsNet outperforms state-of-the-art methods with 81.08 % classification accuracy on VQA-Rad 2018 and 0.58 BLEU-1 score on IU-Xray. Supplementary details are available at https://sites.google.com/view/repsnet
翻訳日:2022-09-28 15:33:24 公開日:2022-09-27
# 医用画像分析における公正性に関する調査:概念・アルゴリズム・評価・課題

A Survey of Fairness in Medical Image Analysis: Concepts, Algorithms, Evaluations, and Challenges ( http://arxiv.org/abs/2209.13177v1 )

ライセンス: Link先を確認
Zikang Xu, Jun Li, Qingsong Yao, Han Li, Xin Shi, S. Kevin Zhou(参考訳) 異なる人口集団におけるアルゴリズムの性能評価に焦点をあてたフェアネスは、自然言語処理、レコメンデーションシステム、顔認識において注目を集めている。 医用画像サンプルには人口統計学的属性が多数存在するため、公平性の概念を理解し、不公平さ緩和技術に精通し、アルゴリズムの公平度を評価し、医用画像解析(media)における公平性問題における課題を認識することが重要である。 本稿では,まず公平性に関する包括的かつ正確な定義を行い,メディアの公平性問題に現在使用されている技術を導入する。 その後、フェアネス研究を促進するために人口統計属性を含む公開医療画像データセットをリストアップし、MedIAのフェアネスに関する現在のアルゴリズムを要約する。 フェアネスの理解を深め、公平性に関連する問題に注意を払うために、フェアネスとデータ不均衡の違いを比較し、特に分類、セグメンテーションおよび検出において、様々なMedIAタスクにおける不公平性の存在を検証し、不公平性軽減アルゴリズムの有効性を評価する実験を行った。 最後に,MedIAにおける公正化の機会と課題を結論付ける。

Fairness, a criterion focuses on evaluating algorithm performance on different demographic groups, has gained attention in natural language processing, recommendation system and facial recognition. Since there are plenty of demographic attributes in medical image samples, it is important to understand the concepts of fairness, be acquainted with unfairness mitigation techniques, evaluate fairness degree of an algorithm and recognize challenges in fairness issues in medical image analysis (MedIA). In this paper, we first give a comprehensive and precise definition of fairness, following by introducing currently used techniques in fairness issues in MedIA. After that, we list public medical image datasets that contain demographic attributes for facilitating the fairness research and summarize current algorithms concerning fairness in MedIA. To help achieve a better understanding of fairness, and call attention to fairness related issues in MedIA, experiments are conducted comparing the difference between fairness and data imbalance, verifying the existence of unfairness in various MedIA tasks, especially in classification, segmentation and detection, and evaluating the effectiveness of unfairness mitigation algorithms. Finally, we conclude with opportunities and challenges in fairness in MedIA.
翻訳日:2022-09-28 15:33:00 公開日:2022-09-27
# 360{\deg>全方位画像の視認識サルエント物体検出

View-aware Salient Object Detection for 360{\deg} Omnidirectional Image ( http://arxiv.org/abs/2209.13222v1 )

ライセンス: Link先を確認
Junjie Wu, Changqun Xia, Tianshu Yu, Jia Li(参考訳) 360{\deg}シナリオにおけるイメージベースサルエント物体検出(isod)は、パノラマ情報の理解と適用に重要である。 しかし、360{\deg} ISODの研究は、大きく、複雑で、高解像度で、十分にラベル付けされたデータセットがないために、広く研究されていない。 この目的に向けて、我々は2K以下の解像度のパノラマシーンを含むオブジェクトレベルのピクセルワイドアノテーション(ERP)を備えた大規模な360{\deg} ISODデータセットを構築し、私たちの知る限りでは最大の360{\deg} ISODデータセットである。 データの観察により、パノラマシナリオにおいて、様々な歪み度、不連続なエッジ効果、変更可能なオブジェクトスケールの3つの重要な課題に直面している。 そこで,人間の観察プロセスに触発されて,サンプル適応ビュートランスフォーマ(savt)モジュールと2つのサブモジュールを併用し,これらの問題を緩和する視点対応サルエント物体検出手法を提案する。 具体的には、サブモジュールビュー変換器(VT)は、異なる種類の変換に基づいて3つの変換分岐を含み、異なるビューの下で様々な特徴を学び、歪み、エッジ効果、オブジェクトスケールのモデルの特徴許容度を高める。 さらに、サブモジュールサンプル適応融合(SAF)は、様々なサンプル特徴に基づいて異なるトランスフォーメーションブランチの重みを調整し、変換された拡張機能をより適切にフューズする。 最先端のISODメソッド20のベンチマーク結果から、構築されたデータセットは非常に難しいことが分かる。 さらに,提案手法を徹底的に検証する実験は実用的であり,最先端手法を上回っている。

Image-based salient object detection (ISOD) in 360{\deg} scenarios is significant for understanding and applying panoramic information. However, research on 360{\deg} ISOD has not been widely explored due to the lack of large, complex, high-resolution, and well-labeled datasets. Towards this end, we construct a large scale 360{\deg} ISOD dataset with object-level pixel-wise annotation on equirectangular projection (ERP), which contains rich panoramic scenes with not less than 2K resolution and is the largest dataset for 360{\deg} ISOD by far to our best knowledge. By observing the data, we find current methods face three significant challenges in panoramic scenarios: diverse distortion degrees, discontinuous edge effects and changeable object scales. Inspired by humans' observing process, we propose a view-aware salient object detection method based on a Sample Adaptive View Transformer (SAVT) module with two sub-modules to mitigate these issues. Specifically, the sub-module View Transformer (VT) contains three transform branches based on different kinds of transformations to learn various features under different views and heighten the model's feature toleration of distortion, edge effects and object scales. Moreover, the sub-module Sample Adaptive Fusion (SAF) is to adjust the weights of different transform branches based on various sample features and make transformed enhanced features fuse more appropriately. The benchmark results of 20 state-of-the-art ISOD methods reveal the constructed dataset is very challenging. Moreover, exhaustive experiments verify the proposed approach is practical and outperforms the state-of-the-art methods.
翻訳日:2022-09-28 15:32:38 公開日:2022-09-27
# スタイルマター! オンラインコミュニティにおける言語スタイルの調査

Style Matters! Investigating Linguistic Style in Online Communities ( http://arxiv.org/abs/2209.13114v1 )

ライセンス: Link先を確認
Osama Khalid, Padmini Srinivasan(参考訳) コンテンツは歴史的に、オンラインコミュニティで言語を学ぶために使われる主要なレンズである。 本稿は、コミュニティの言語的スタイルに焦点を当てる。 個人が区別可能なスタイルを持っていることは分かっているが、ここではコミュニティが区別可能なスタイルを持っているかどうかを問う。 さらに,過去の研究はスタイルの定義が狭かったが,政治・テレビ・旅行を議論する3つのソーシャルメディアプラットフォームから9つのオンラインコミュニティの言語スタイルを分析するために,262の機能を含む幅広い定義を採用している。 コミュニティには確かに異なるスタイルがあります。 また、スタイルはグループメンバーシップの優れた予測器である(Fスコア0.952と精度96.09%)。 平均すると、コンテンツのみを用いた予測と統計的に等価であるが、トレーニングデータの削減にはより耐性がある。

Content has historically been the primary lens used to study language in online communities. This paper instead focuses on the linguistic style of communities. While we know that individuals have distinguishable styles, here we ask whether communities have distinguishable styles. Additionally, while prior work has relied on a narrow definition of style, we employ a broad definition involving 262 features to analyze the linguistic style of 9 online communities from 3 social media platforms discussing politics, television and travel. We find that communities indeed have distinct styles. Also, style is an excellent predictor of group membership (F-score 0.952 and Accuracy 96.09%). While on average it is statistically equivalent to predictions using content alone, it is more resilient to reductions in training data.
翻訳日:2022-09-28 15:26:18 公開日:2022-09-27
# 自動置換のための直接音声翻訳

Direct Speech Translation for Automatic Subtitling ( http://arxiv.org/abs/2209.13192v1 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Alina Karakanta, Mauro Cettolo, Matteo Negri, Marco Turchi(参考訳) 自動サブトレーション(automatic subtitling)は、オーディオビジュアル製品の音声を短い時間付きテキスト、すなわち字幕と対応するタイムスタンプに自動的に翻訳するタスクである。 生成されたサブタイトルは、複数の空間と時間要件(長さ、読み込み速度)に準拠しながら、音声と同期し、理解を容易にする方法でセグメント化する必要がある。 その相当な複雑さから、自動サブタイリングは、翻訳、翻訳、サブタイトルへのセグメント化、タイムスタンプの予測を別々に扱う要素のパイプラインを通じて対処されてきた。 本稿では,1つの解法を用いて,ソース音声からターゲット言語字幕とそのタイムスタンプを生成する,最初の直接自動サブタイピングモデルを提案する。 内領域データと外領域データの両方で訓練された最先端のカスケードモデルと比較すると、我々のシステムは高品質なサブタイトルを提供する一方で、整合性という点でも競争力がある。

Automatic subtitling is the task of automatically translating the speech of an audiovisual product into short pieces of timed text, in other words, subtitles and their corresponding timestamps. The generated subtitles need to conform to multiple space and time requirements (length, reading speed) while being synchronised with the speech and segmented in a way that facilitates comprehension. Given its considerable complexity, automatic subtitling has so far been addressed through a pipeline of elements that deal separately with transcribing, translating, segmenting into subtitles and predicting timestamps. In this paper, we propose the first direct automatic subtitling model that generates target language subtitles and their timestamps from the source speech in a single solution. Comparisons with state-of-the-art cascaded models trained with both in- and out-domain data show that our system provides high-quality subtitles while also being competitive in terms of conformity, with all the advantages of maintaining a single model.
翻訳日:2022-09-28 15:26:06 公開日:2022-09-27
# 英語・韓国語・タミル語音声データセットを用いたインテリジェンス分類の多言語分析

Multilingual analysis of intelligibility classification using English, Korean, and Tamil dysarthric speech datasets ( http://arxiv.org/abs/2209.13260v1 )

ライセンス: Link先を確認
Eun Jung Yeo, Sunhee Kim, Minhwa Chung(参考訳) 本稿では,韻律の異なる3言語(英語,韓国語,タミル語)の音声データセットを分析した。 音声の質,発音,韻律の3次元を反映した39種類の音響計測を行った。 多言語分析として, 音響測定値の平均値をインテリジェンスレベルで検討した。 さらに、言語によって設定された最適な特徴を精査するために、自動識別性分類を行う。 分析では、正しい子音のパーセンテージ、正しい母音のパーセンテージ、正しい音素のパーセンテージなどの発音特性を言語に依存しない測定として推奨している。 しかし、声質と韻律の特徴は一般的に言語によって異なる側面を示す。 実験の結果, 異なる言語において, 韻律は英語, 韓国語は韓国語, 韻律はタミル語に, 発音はタミル語に大きく寄与していることがわかった。 本稿では,英語,韓国語,タミル語の難聴度分類における言語非依存と言語依存の測定を区別する言語病理学に寄与する。

This paper analyzes dysarthric speech datasets from three languages with different prosodic systems: English, Korean, and Tamil. We inspect 39 acoustic measurements which reflect three speech dimensions including voice quality, pronunciation, and prosody. As multilingual analysis, examination on the mean values of acoustic measurements by intelligibility levels is conducted. Further, automatic intelligibility classification is performed to scrutinize the optimal feature set by languages. Analyses suggest pronunciation features, such as Percentage of Correct Consonants, Percentage of Correct Vowels, and Percentage of Correct Phonemes to be language-independent measurements. Voice quality and prosody features, however, generally present different aspects by languages. Experimental results additionally show that different speech dimension play a greater role for different languages: prosody for English, pronunciation for Korean, both prosody and pronunciation for Tamil. This paper contributes to speech pathology in that it differentiates between language-independent and language-dependent measurements in intelligibility classification for English, Korean, and Tamil dysarthric speech.
翻訳日:2022-09-28 15:25:46 公開日:2022-09-27
# インデックス言語用多言語ニューラルマシン翻訳システムの改良

Improving Multilingual Neural Machine Translation System for Indic Languages ( http://arxiv.org/abs/2209.13279v1 )

ライセンス: Link先を確認
Sudhansu Bala Das, Atharv Biradar, Tapas Kumar Mishra, Bidyut Kumar Patra(参考訳) 機械翻訳システム(MTS)は、ある言語から他の言語にテキストや音声を翻訳することでコミュニケーションを行う効果的なツールである。 効率的な翻訳システムの必要性は、英語と一組のインド語(IL)が公式に使用されるインドのような多言語環境において明らかになる。 英語とは対照的に、ILはコーパスが利用できないため、低リソース言語として扱われている。 このような非対称性に対処するために、MNMTシステムは、この方向に理想的なアプローチとして進化する。 本稿では,低リソース言語翻訳に関する問題に対処するためのmnmtシステムを提案する。 本モデルは2つのmnmtシステム、すなわち1対1の英語用と15の言語対(30の翻訳方向)を含む共有エンコーダ・デコーダを備えた2つのindic-english用(many-to-one)から構成される。 ほとんどのILペアは、並列コーパスの少ない量であるため、機械翻訳モデルのトレーニングには不十分である。 提案モデルを用いて,翻訳品質を向上させるための様々な拡張戦略について検討する。 提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。 大量のデータに対する試行は、従来のモデルよりも優れていることを示している。 さらに,言語関係(方言,スクリプトなど)の利用,特に低リソース言語の性能向上において,同族の高リソース言語が果たす役割について論じる。 さらに, 実験結果から, ソース言語とターゲット言語の翻訳品質を高めるために, ILの逆翻訳とドメイン適応の利点が示された。 これらすべての重要なアプローチを用いて,提案手法は,ILの集合に対するBLEU(BiLingual Evaluation Understudy)スコアを評価指標として,ベースラインモデルよりも効率的であることが判明した。

Machine Translation System (MTS) serves as an effective tool for communication by translating text or speech from one language to another language. The need of an efficient translation system becomes obvious in a large multilingual environment like India, where English and a set of Indian Languages (ILs) are officially used. In contrast with English, ILs are still entreated as low-resource languages due to unavailability of corpora. In order to address such asymmetric nature, multilingual neural machine translation (MNMT) system evolves as an ideal approach in this direction. In this paper, we propose a MNMT system to address the issues related to low-resource language translation. Our model comprises of two MNMT systems i.e. for English-Indic (one-to-many) and the other for Indic-English (many-to-one) with a shared encoder-decoder containing 15 language pairs (30 translation directions). Since most of IL pairs have scanty amount of parallel corpora, not sufficient for training any machine translation model. We explore various augmentation strategies to improve overall translation quality through the proposed model. A state-of-the-art transformer architecture is used to realize the proposed model. Trials over a good amount of data reveal its superiority over the conventional models. In addition, the paper addresses the use of language relationships (in terms of dialect, script, etc.), particularly about the role of high-resource languages of the same family in boosting the performance of low-resource languages. Moreover, the experimental results also show the advantage of backtranslation and domain adaptation for ILs to enhance the translation quality of both source and target languages. Using all these key approaches, our proposed model emerges to be more efficient than the baseline model in terms of evaluation metrics i.e BLEU (BiLingual Evaluation Understudy) score for a set of ILs.
翻訳日:2022-09-28 15:25:31 公開日:2022-09-27
# 米大統領選で勝利するために必要な感覚

Sentiment is all you need to win US Presidential elections ( http://arxiv.org/abs/2209.13487v1 )

ライセンス: Link先を確認
Sovesh Mohapatra, Somesh Mohapatra(参考訳) 選挙演説は候補者のビジョンと使命を伝える上で重要な役割を果たす。 lofty promiseからmud-slingingまで、選挙人候補は全員の責任を負う。 しかし、有権者に何が勝てるのかという疑問は残されている。 本研究では、現在最先端の自然言語処理手法を用いて、共和党候補のドナルド・トランプ、民主党候補のジョー・バイデンの演説と感情を研究する。 アメリカ合衆国における人種的二分法を比較して、異なる候補者の勝利と敗北の要因を分析した。 われわれはこの取り組みが選挙キャンペーン戦略に影響を及ぼし、多様な群衆とコミュニケーションするための基盤となると信じている。

Election speeches play an integral role in communicating the vision and mission of the candidates. From lofty promises to mud-slinging, the electoral candidate accounts for all. However, there remains an open question about what exactly wins over the voters. In this work, we used state-of-the-art natural language processing methods to study the speeches and sentiments of the Republican candidate, Donald Trump, and Democratic candidate, Joe Biden, fighting for the 2020 US Presidential election. Comparing the racial dichotomy of the United States, we analyze what led to the victory and defeat of the different candidates. We believe this work will inform the election campaigning strategy and provide a basis for communicating to diverse crowds.
翻訳日:2022-09-28 15:24:57 公開日:2022-09-27
# グローバルスケールでのデジタル言語サポートの評価

Assessing Digital Language Support on a Global Scale ( http://arxiv.org/abs/2209.13515v1 )

ライセンス: Link先を確認
Gary F. Simons, Abbey L. Thomas, and Chad K. White(参考訳) 絶滅危惧種の言語のユーザーは、デジタルで媒介される世界で育つのに苦労している。 我々は,ISO 639で認識されるすべての言語が,デジタル言語サポートにおいてどの程度優れているかを自動評価する方法を開発した。 この評価は、デジタル技術が言語をサポートするための幅広い方法を示すために選ばれた143のデジタルツールのウェブサイトから、サポート対象言語の名前を取り除くことに基づいている。 本手法はMokkenスケール解析を用いて,デジタル言語サポートの定量化と世界規模でのモニタリングを行うための説明可能なモデルを生成する。

The users of endangered languages struggle to thrive in a digitally-mediated world. We have developed an automated method for assessing how well every language recognized by ISO 639 is faring in terms of digital language support. The assessment is based on scraping the names of supported languages from the websites of 143 digital tools selected to represent a full range of ways that digital technology can support languages. The method uses Mokken scale analysis to produce an explainable model for quantifying digital language support and monitoring it on a global scale.
翻訳日:2022-09-28 15:24:46 公開日:2022-09-27
# マルチメディア児童文学の深層化

Deep Generative Multimedia Children's Literature ( http://arxiv.org/abs/2209.13129v1 )

ライセンス: Link先を確認
Matthew L. Olson(参考訳) ディープラーニング(DL)ベースのクリエイティブな取り組みの人気は、減速の兆候なしに成長を続けている。 10年前とは違って、さまざまなクリエイティブドメインにおけるDLモデルの成果は、それ自体が目覚ましいものです。 この作業では、複数の公開DLモデルを組み合わせて、マルチメディアエンターテイメントの世代で完全に自動化されたシステムを作成します。 私が提案するフレームワークは,あらゆるジャンルのエンターテイメントに対して十分に汎用的だが,子どものビデオ文学制作の課題に重点を置いている。

The popularity in Deep Learning (DL) based creative endeavours continues to grow without any signs of slowing down. Unpredictable to many a decade ago, the achievements of DL models in a variety of creative domains are spectacular in their own right. In this work, I combine multiple publicly available DL models to create a fully automated system in the generation of multimedia entertainment. The framework I propose is general enough for any genre of entertainment, but I focus on the task of children's video literature production.
翻訳日:2022-09-28 15:24:16 公開日:2022-09-27
# 行動提案を用いた協調意思決定

Collaborative Decision Making Using Action Suggestions ( http://arxiv.org/abs/2209.13160v1 )

ライセンス: Link先を確認
Dylan M. Asmar and Mykel J. Kochenderfer(参考訳) 自律性のレベルは、複数のドメインにまたがるシステムで増加しているが、これらのシステムは依然として障害を経験している。 障害のリスクを軽減する1つの方法は、自律システムの人間の監視を統合し、自律性が失敗したときに制御を人間に委ねることである。 本研究では,システム制御を行なわずに行動選択を改善する行動提案による協調的意思決定手法を提案する。 提案手法では,提案者の信念を変えるために提案によって共有される暗黙の情報を効果的に活用し,提案した行動に従うよりも少ない提案でより良い性能を達成する。 協調エージェントは同じ目的を共有し、有効な行動を通じてコミュニケーションをとると仮定する。 提案する動作が状態のみに依存すると仮定することで、提案するアクションを環境の独立した観察として組み込むことができる。 協調環境の仮定により,エージェントのポリシーを用いて行動提案よりも分布を推定することができる。 提案手法を2つ提案し,シミュレーション実験により提案手法を実証する。 提案手法により性能が向上し,提案手法の準最適性も向上する。

The level of autonomy is increasing in systems spanning multiple domains, but these systems still experience failures. One way to mitigate the risk of failures is to integrate human oversight of the autonomous systems and rely on the human to take control when the autonomy fails. In this work, we formulate a method of collaborative decision making through action suggestions that improves action selection without taking control of the system. Our approach uses each suggestion efficiently by incorporating the implicit information shared through suggestions to modify the agent's belief and achieves better performance with fewer suggestions than naively following the suggested actions. We assume collaborative agents share the same objective and communicate through valid actions. By assuming the suggested action is dependent only on the state, we can incorporate the suggested action as an independent observation of the environment. The assumption of a collaborative environment enables us to use the agent's policy to estimate the distribution over action suggestions. We propose two methods that use suggested actions and demonstrate the approach through simulated experiments. The proposed methodology results in increased performance while also being robust to suboptimal suggestions.
翻訳日:2022-09-28 15:24:08 公開日:2022-09-27
# 効用最大化のための全順序逐次規則

Totally-ordered Sequential Rules for Utility Maximization ( http://arxiv.org/abs/2209.13501v1 )

ライセンス: Link先を確認
Chunkai Zhang, Maohua Lyu, Wensheng Gan, and Philip S. Yu(参考訳) 高ユーティリティシーケンシャルパターンマイニング(HUSPM)は、多くの実世界のアプリケーションによる知識発見とデータ分析において重要かつ価値のある活動である。 場合によっては、huspmは、何が起こるかを予測する優れた手段を提供できない。 高実用性シーケンシャルルールマイニング(HUSRM)は、高実用性と高信頼性シーケンシャルルールを発見し、HUSPMの問題を解決する。 既存のすべてのHUSRMアルゴリズムは、現実と一致せず、偽のHUSRを生成する可能性のある高実用性部分順序規則(HUSR)を見つけることを目的としている。 そこで本研究では,高能率完全順序規則マイニングの問題を定式化し,高能率完全順序規則(HTSR)の特定を目的としたTotalSRとTotalSR+という2つの新しいアルゴリズムを提案する。 TotalSRは、先行するサポートを効率的に計算できるユーティリティテーブルと、残りのユーティリティをシーケンスのO(1)時間で計算できるユーティリティプレフィックスの和リストを作成する。 また,反モノトニック性を利用して信頼プルーニング戦略を活用できる左側展開戦略も導入する。 totalsrはまた、ユーティリティアッパーバウンドプルーニング戦略の助けを借りて、検索スペースを大幅に削減し、より意味のない計算を回避できる。 さらに、TotalSR+は補助先行レコードテーブルを使用してHTSRをより効率的に発見する。 最後に、TotalSRはプルーニング戦略の少ないアルゴリズムよりもはるかに効率的であり、TotalSR+は実行時間とスケーラビリティの点でTotalSRよりもはるかに効率的であることを示す実データと合成データの両方に関する実験結果が多数存在する。

High utility sequential pattern mining (HUSPM) is a significant and valuable activity in knowledge discovery and data analytics with many real-world applications. In some cases, HUSPM can not provide an excellent measure to predict what will happen. High utility sequential rule mining (HUSRM) discovers high utility and high confidence sequential rules, allowing it to solve the problem in HUSPM. All existing HUSRM algorithms aim to find high-utility partially-ordered sequential rules (HUSRs), which are not consistent with reality and may generate fake HUSRs. Therefore, in this paper, we formulate the problem of high utility totally-ordered sequential rule mining and propose two novel algorithms, called TotalSR and TotalSR+, which aim to identify all high utility totally-ordered sequential rules (HTSRs). TotalSR creates a utility table that can efficiently calculate antecedent support and a utility prefix sum list that can compute the remaining utility in O(1) time for a sequence. We also introduce a left-first expansion strategy that can utilize the anti-monotonic property to use a confidence pruning strategy. TotalSR can also drastically reduce the search space with the help of utility upper bounds pruning strategies, avoiding much more meaningless computation. In addition, TotalSR+ uses an auxiliary antecedent record table to more efficiently discover HTSRs. Finally, there are numerous experimental results on both real and synthetic datasets demonstrating that TotalSR is significantly more efficient than algorithms with fewer pruning strategies, and TotalSR+ is significantly more efficient than TotalSR in terms of running time and scalability.
翻訳日:2022-09-28 15:23:50 公開日:2022-09-27
# FG-UAP:機能ギャザリングユニバーサル対向摂動

FG-UAP: Feature-Gathering Universal Adversarial Perturbation ( http://arxiv.org/abs/2209.13113v1 )

ライセンス: Link先を確認
Zhixing Ye, Xinwen Cheng, Xiaolin Huang(参考訳) ディープニューラルネットワーク(DNN)は、そのような摂動が画像に依存しているかどうかに関わらず、精巧に設計された摂動に影響を受けやすい。 後者はUniversal Adversarial Perturbation (UAP)と呼ばれ、入力の独立性はモデルの本質的な特性を明らかにするため、モデルロバスト性解析において非常に魅力的である。 比較的興味深い観察はニューラル・コラプス(NC)であり、これは訓練の終盤に特徴変数が崩壊することを意味する。 そこで我々は,NC現象が起こる層を攻撃してUAPを生成することを提案する。 NCにより、提案された攻撃は、すべての自然画像の特徴を周囲に集めることができ、それゆえ、FG-UAP(Feature-Gathering UAP)と呼ばれる。 提案アルゴリズムは,未目標かつ目標とする汎用攻撃,限られたデータセットによる攻撃,視覚変換器を含む異なるアーキテクチャ間の移動ベースのブラックボックス攻撃など,豊富な実験に対する有効性を評価する。 さらに,fg-uapをncの観点から検討し,ラベルと抽出した敵例の特徴を分析し,モデル崩壊後の崩壊現象がより強まることを見出した。 コードは、論文が受け入れられたときにリリースされる。

Deep Neural Networks (DNNs) are susceptible to elaborately designed perturbations, whether such perturbations are dependent or independent of images. The latter one, called Universal Adversarial Perturbation (UAP), is very attractive for model robustness analysis, since its independence of input reveals the intrinsic characteristics of the model. Relatively, another interesting observation is Neural Collapse (NC), which means the feature variability may collapse during the terminal phase of training. Motivated by this, we propose to generate UAP by attacking the layer where NC phenomenon happens. Because of NC, the proposed attack could gather all the natural images' features to its surrounding, which is hence called Feature-Gathering UAP (FG-UAP). We evaluate the effectiveness our proposed algorithm on abundant experiments, including untargeted and targeted universal attacks, attacks under limited dataset, and transfer-based black-box attacks among different architectures including Vision Transformers, which are believed to be more robust. Furthermore, we investigate FG-UAP in the view of NC by analyzing the labels and extracted features of adversarial examples, finding that collapse phenomenon becomes stronger after the model is corrupted. The code will be released when the paper is accepted.
翻訳日:2022-09-28 15:17:32 公開日:2022-09-27
# Im2Oil:アダプティブサンプリングによる直線制御可能な微細化によるストローク系油絵レンダリング

Im2Oil: Stroke-Based Oil Painting Rendering with Linearly Controllable Fineness Via Adaptive Sampling ( http://arxiv.org/abs/2209.13219v1 )

ライセンス: Link先を確認
Zhengyan Tong, Xiaohang Wang, Shengchao Yuan, Xuanhong Chen, Junjie Wang, Xiangzhong Fang(参考訳) 本稿では,映像を油絵に翻訳する新しいストロークベースレンダリング(sbr)手法を提案する。 従来のSBR技術は通常、オイル塗装問題をピクセルワイド近似として定式化する。 この手法と異なり,油絵作成を適応的サンプリング問題として扱う。 まず,入力画像のテクスチャの複雑さに基づいて,確率密度マップを算出する。 次に、ボロノイアルゴリズムを用いて一組のピクセルをストロークアンカーとしてサンプリングする。 次に,各アンカーで個別オイルストロークを探索し,生成する。 最後に、油絵を得るために、すべてのストロークをキャンバスに置きます。 過パラメータ最大サンプリング確率を調整することにより,油塗膜の微細度を線形に制御できる。 従来の油絵技術と比較すると, より忠実で, よりリアルなテクスチャが得られている。 ユーザーの意見テストでは、他の方法よりも油絵の方が好まれていることが示されています。 より興味深い結果とコードはhttps://github.com/TZYSJTU/Im2Oilにある。

This paper proposes a novel stroke-based rendering (SBR) method that translates images into vivid oil paintings. Previous SBR techniques usually formulate the oil painting problem as pixel-wise approximation. Different from this technique route, we treat oil painting creation as an adaptive sampling problem. Firstly, we compute a probability density map based on the texture complexity of the input image. Then we use the Voronoi algorithm to sample a set of pixels as the stroke anchors. Next, we search and generate an individual oil stroke at each anchor. Finally, we place all the strokes on the canvas to obtain the oil painting. By adjusting the hyper-parameter maximum sampling probability, we can control the oil painting fineness in a linear manner. Comparison with existing state-of-the-art oil painting techniques shows that our results have higher fidelity and more realistic textures. A user opinion test demonstrates that people behave more preference toward our oil paintings than the results of other methods. More interesting results and the code are in https://github.com/TZYSJTU/Im2Oil.
翻訳日:2022-09-28 15:17:09 公開日:2022-09-27
# DBFBアルゴリズムの深部展開と限定角密度を用いたROICTイメージングへの応用

Deep Unfolding of the DBFB Algorithm with Application to ROI CT Imaging with Limited Angular Density ( http://arxiv.org/abs/2209.13264v1 )

ライセンス: Link先を確認
Marion Savanier, Emilie Chouzenoux, Jean-Christophe Pesquet, and Cyril Riddell(参考訳) 本稿では,関心領域(ROI)計算断層撮影(CT)における画像再構成の問題点について述べる。 このような問題にはモデルに基づく反復的手法が利用できるが、その実用性は退屈なパラメータ化と緩やかな収束のために制限されることが多い。 さらに、保持された前処理が解空間に完全に適合しない場合、不適切な解が得られる。 ディープラーニング手法は、高速で、大規模なデータセットからの情報を活用し、高いリコンストラクション品質に達するための代替アプローチを提供する。 しかし、これらの方法は通常、撮像系の物理を考慮しないブラックボックスに依存しており、解釈可能性の欠如はしばしば軽視される。 両手法の交差では,近年,展開された深層学習技術が提案されている。 彼らはモデルの物理と反復最適化アルゴリズムをニューラルネットワーク設計に取り入れ、様々なアプリケーションにおいて優れたパフォーマンスをもたらす。 本稿では,限定データからのROICT再構成を目的とした,U-RDBFBと呼ばれる新しい深層学習手法を提案する。 疎度誘導正規化関数と組み合わさった頑健な非凸データ忠実度関数により、少ないビュートランケートデータを効率的に処理する。 繰り返し再重み付けされたスキームに埋め込まれたブロック二重フォワードバックワード(DBFB)アルゴリズムの反復はニューラルネットワークアーキテクチャ上に展開され、様々なパラメータを教師付きで学習することができる。 実験では,モデルに基づく反復スキーム,ディープラーニングアーキテクチャ,深い展開手法など,さまざまな最先端手法の改善を示す。

This paper addresses the problem of image reconstruction for region-of-interest (ROI) computed tomography (CT). While model-based iterative methods can be used for such a problem, their practicability is often limited due to tedious parameterization and slow convergence. In addition, inadequate solutions can be obtained when the retained priors do not perfectly fit the solution space. Deep learning methods offer an alternative approach that is fast, leverages information from large data sets, and thus can reach high reconstruction quality. However, these methods usually rely on black boxes not accounting for the physics of the imaging system, and their lack of interpretability is often deplored. At the crossroads of both methods, unfolded deep learning techniques have been recently proposed. They incorporate the physics of the model and iterative optimization algorithms into a neural network design, leading to superior performance in various applications. This paper introduces a novel, unfolded deep learning approach called U-RDBFB designed for ROI CT reconstruction from limited data. Few-view truncated data are efficiently handled thanks to a robust non-convex data fidelity function combined with sparsity-inducing regularization functions. Iterations of a block dual forward-backward (DBFB) algorithm, embedded in an iterative reweighted scheme, are then unrolled over a neural network architecture, allowing the learning of various parameters in a supervised manner. Our experiments show an improvement over various state-of-the-art methods, including model-based iterative schemes, deep learning architectures, and deep unfolding methods.
翻訳日:2022-09-28 15:16:54 公開日:2022-09-27
# 病理組織学における前立腺の分類のための病理情報ワークフロー

A Pathologist-Informed Workflow for Classification of Prostate Glands in Histopathology ( http://arxiv.org/abs/2209.13408v1 )

ライセンス: Link先を確認
Alessandro Ferrero, Beatrice Knudsen, Deepika Sirohi, Ross Whitaker(参考訳) 病理学者は、ガラススライド上の針生検から組織を調べることで前立腺癌の診断と診断を行う。 がんの重症度と転移リスクは、前立腺の組織と形態に基づくスコアであるGleason gradeによって決定される。 診断作業のために、病理学者はまず、生検コア全体の腺を見つけ、がんを検出するとグリーソングレードを割り当てる。 この時間を要するプロセスは、厳格な診断基準にもかかわらず、エラーとサーバ間の大きなばらつきが伴う。 This paper proposes an automated workflow that follows pathologists' \textit{modus operandi}, isolating and classifying multi-scale patches of individual glands in whole slide images (WSI) of biopsy tissues using distinct steps: (1) two fully convolutional networks segment epithelium versus stroma and gland boundaries, respectively; (2) a classifier network separates benign from cancer glands at high magnification; and (3) an additional classifier predicts the grade of each cancer gland at low magnification. このプロセスは、他の機械学習ベースのグレーティング手法と比較して、前立腺がんのグレーディングに腺特異的なアプローチを提供する。

Pathologists diagnose and grade prostate cancer by examining tissue from needle biopsies on glass slides. The cancer's severity and risk of metastasis are determined by the Gleason grade, a score based on the organization and morphology of prostate cancer glands. For diagnostic work-up, pathologists first locate glands in the whole biopsy core, and -- if they detect cancer -- they assign a Gleason grade. This time-consuming process is subject to errors and significant inter-observer variability, despite strict diagnostic criteria. This paper proposes an automated workflow that follows pathologists' \textit{modus operandi}, isolating and classifying multi-scale patches of individual glands in whole slide images (WSI) of biopsy tissues using distinct steps: (1) two fully convolutional networks segment epithelium versus stroma and gland boundaries, respectively; (2) a classifier network separates benign from cancer glands at high magnification; and (3) an additional classifier predicts the grade of each cancer gland at low magnification. Altogether, this process provides a gland-specific approach for prostate cancer grading that we compare against other machine-learning-based grading methods.
翻訳日:2022-09-28 15:16:18 公開日:2022-09-27
# 非指数割引による強化学習

Reinforcement Learning with Non-Exponential Discounting ( http://arxiv.org/abs/2209.13413v1 )

ライセンス: Link先を確認
Matthias Schultheis, Constantin A. Rothkopf, Heinz Koeppl(参考訳) 典型的には強化学習(RL)において、報酬は指数関数を用いて時間的嗜好をモデル化し、予想される長期報酬を束縛する。 対照的に、経済学や心理学では、人間がしばしば双曲割引方式を採用することが示されており、これは特定のタスク終了時間分布を仮定した場合に最適である。 本研究では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。 この定式化は、非指数ランダム終了時間が存在する場合をカバーする。 最適方針を特徴づけるhamilton-jacobi-bellman(hjb)方程式を導出し,関数近似にディープラーニングを用いたコロケーション法を用いてその解法を説明する。 さらに,与えられた決定データのディスカウント関数の特性を回復しようとする逆rl問題に対して,どのようにアプローチするかを示す。 2つのシミュレーション問題に対する提案手法の適用性を検証する。 提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開く。

Commonly in reinforcement learning (RL), rewards are discounted over time using an exponential function to model time preference, thereby bounding the expected long-term reward. In contrast, in economics and psychology, it has been shown that humans often adopt a hyperbolic discounting scheme, which is optimal when a specific task termination time distribution is assumed. In this work, we propose a theory for continuous-time model-based reinforcement learning generalized to arbitrary discount functions. This formulation covers the case in which there is a non-exponential random termination time. We derive a Hamilton-Jacobi-Bellman (HJB) equation characterizing the optimal policy and describe how it can be solved using a collocation method, which uses deep learning for function approximation. Further, we show how the inverse RL problem can be approached, in which one tries to recover properties of the discount function given decision data. We validate the applicability of our proposed approach on two simulated problems. Our approach opens the way for the analysis of human discounting in sequential decision-making tasks.
翻訳日:2022-09-28 15:16:00 公開日:2022-09-27
# WikiDes: パラグラフから短い記述を生成するWikipediaベースのデータセット

WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs ( http://arxiv.org/abs/2209.13101v1 )

ライセンス: Link先を確認
Hoang Thang Ta, Abu Bakar Siddiqur Rahman, Navonil Majumder, Amir Hussain, Lotfollah Najjar, Newton Howard, Soujanya Poria and Alexander Gelbukh(参考訳) 大量のコンテンツを持つ無料のオンライン百科事典として、ウィキペディアとウィキデータは情報検索、知識ベース構築、機械翻訳、テキスト分類、テキスト要約といった多くの自然言語処理(NLP)タスクの鍵となる。 本稿では,テキスト要約問題に対するウィキペディア記事の短い記述を生成する新しいデータセットであるWikiDesを紹介する。 このデータセットは6987のトピックで80万以上の英語サンプルで構成されている。 二相要約法(説明生成法(第1相)と候補ランキング法(第2相)を,伝達とコントラスト学習に依拠する強固なアプローチとして設定した。 記述生成では、T5とBARTは他の小規模の事前訓練モデルと比較して優位性を示す。 ビーム探索からの多様な入力と対比学習を適用することで、メトリック融合に基づくランキングモデルは、トピック排他的スプリットとトピック非依存的スプリットにおいて、直接記述生成モデルを大幅に上回る。 さらに、第2相の結果記述は、第1相の23.66%に対して、第45.33%以上の人的評価によって支持されている。 感情分析の観点では、生成した記述は、金の記述からより優れた処理をしながら、段落から全ての感情極性を効果的に捉えることはできない。 新しい記述の自動生成は、それらを作成する人間の労力を減らし、Wikidataベースの知識グラフを強化します。 本論文はウィキペディアとウィキデータに実際に影響していることを示す。 最後に、WikiDesは、短い段落から有能な情報を収集するのに有用なデータセットとして期待する。 キュレートされたデータセットは、https://github.com/declare-lab/WikiDesで公開されている。

As free online encyclopedias with massive volumes of content, Wikipedia and Wikidata are key to many Natural Language Processing (NLP) tasks, such as information retrieval, knowledge base building, machine translation, text classification, and text summarization. In this paper, we introduce WikiDes, a novel dataset to generate short descriptions of Wikipedia articles for the problem of text summarization. The dataset consists of over 80k English samples on 6987 topics. We set up a two-phase summarization method - description generation (Phase I) and candidate ranking (Phase II) - as a strong approach that relies on transfer and contrastive learning. For description generation, T5 and BART show their superiority compared to other small-scale pre-trained models. By applying contrastive learning with the diverse input from beam search, the metric fusion-based ranking models outperform the direct description generation models significantly up to 22 ROUGE in topic-exclusive split and topic-independent split. Furthermore, the outcome descriptions in Phase II are supported by human evaluation in over 45.33% chosen compared to 23.66% in Phase I against the gold descriptions. In the aspect of sentiment analysis, the generated descriptions cannot effectively capture all sentiment polarities from paragraphs while doing this task better from the gold descriptions. The automatic generation of new descriptions reduces the human efforts in creating them and enriches Wikidata-based knowledge graphs. Our paper shows a practical impact on Wikipedia and Wikidata since there are thousands of missing descriptions. Finally, we expect WikiDes to be a useful dataset for related works in capturing salient information from short paragraphs. The curated dataset is publicly available at: https://github.com/declare-lab/WikiDes.
翻訳日:2022-09-28 15:14:54 公開日:2022-09-27
# UniCLIP: コントラスト言語イメージ事前トレーニングのための統一フレームワーク

UniCLIP: Unified Framework for Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2209.13430v1 )

ライセンス: Link先を確認
Janghyeon Lee, Jongsuk Kim, Hyounguk Shon, Bumsoo Kim, Seung Hwan Kim, Honglak Lee, Junmo Kim(参考訳) 対照的な目的を持った事前学習された視覚言語モデルは、大きな未処理データセットにスケーラブルで、多くの下流アプリケーションに転送可能な有望な結果を示している。 自己スーパービジョン項の追加によるデータ効率の向上を目的としている作品もあるが、ドメイン間(画像テキスト)のコントラスト損失とドメイン内(画像-画像)のコントラスト損失は、それらの作品の個々の空間で定義されているため、多くの監督の可能な組み合わせが見過ごされている。 この問題を解決するために,コントラスト言語画像事前学習のためのUniCLIPを提案する。 uniclipはドメイン間ペアとドメイン内ペアのコントラスト損失を単一の普遍空間に統合する。 異なるドメイン間のコントラスト損失を統合する際に生じる相違は、(1)拡張認識機能埋め込み、(2)MP-NCE損失、(3)ドメイン依存類似度測定の3つのキーコンポーネントによって解決される。 UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。 実験では,UniCLIPを構成する各コンポーネントが最終性能によく寄与することを示した。

Pre-training vision-language models with contrastive objectives has shown promising results that are both scalable to large uncurated datasets and transferable to many downstream applications. Some following works have targeted to improve data efficiency by adding self-supervision terms, but inter-domain (image-text) contrastive loss and intra-domain (image-image) contrastive loss are defined on individual spaces in those works, so many feasible combinations of supervision are overlooked. To overcome this issue, we propose UniCLIP, a Unified framework for Contrastive Language-Image Pre-training. UniCLIP integrates the contrastive loss of both inter-domain pairs and intra-domain pairs into a single universal space. The discrepancies that occur when integrating contrastive loss between different domains are resolved by the three key components of UniCLIP: (1) augmentation-aware feature embedding, (2) MP-NCE loss, and (3) domain dependent similarity measure. UniCLIP outperforms previous vision-language pre-training methods on various single- and multi-modality downstream tasks. In our experiments, we show that each component that comprises UniCLIP contributes well to the final performance.
翻訳日:2022-09-28 15:09:18 公開日:2022-09-27
# EgoSpeed-Net:エゴセントリックビデオデータによる運転行動の速度制御予測

EgoSpeed-Net: Forecasting Speed-Control in Driver Behavior from Egocentric Video Data ( http://arxiv.org/abs/2209.13459v1 )

ライセンス: Link先を確認
Yichen Ding, Ziming Zhang, Yanhua Li, Xun Zhou(参考訳) 速度制御予測(speed-control forecasting)は、ドライバーの行動分析における困難な問題であり、ブレーキや加速などの車両の速度制御におけるドライバーの将来行動を予測することを目的としている。 本稿では,エゴセントリックな映像データのみを用いて,この課題に対処しようとする。文献において,第三者の視点データやgpsなどの余分な車両センサデータを使う場合,あるいはその両方を用いている場合と対照的である。 そこで本研究では,新しいグラフ畳み込みネットワーク(gcn),すなわちegospeed-netを提案する。 我々は、時間とともに物体の位置が変わることが、将来の速度変化を予測する上で非常に有用な手がかりとなるという事実に動機づけられている。 まず,GCNを特徴抽出に適用した全連結グラフを用いて,各クラス,フレーム単位のオブジェクト間の空間関係をモデル化する。 次に, 長時間の短期記憶ネットワークを用いて, クラス毎にその特徴をベクトルに融合し, ベクトルを結合し, 多層パーセプトロン分類器を用いて速度制御動作を予測した。 我々は,ホンダ研究所ドライビングデータセットの広範な実験を行い,EgoSpeed-Netの優れた性能を示す。

Speed-control forecasting, a challenging problem in driver behavior analysis, aims to predict the future actions of a driver in controlling vehicle speed such as braking or acceleration. In this paper, we try to address this challenge solely using egocentric video data, in contrast to the majority of works in the literature using either third-person view data or extra vehicle sensor data such as GPS, or both. To this end, we propose a novel graph convolutional network (GCN) based network, namely, EgoSpeed-Net. We are motivated by the fact that the position changes of objects over time can provide us very useful clues for forecasting the speed change in future. We first model the spatial relations among the objects from each class, frame by frame, using fully-connected graphs, on top of which GCNs are applied for feature extraction. Then we utilize a long short-term memory network to fuse such features per class over time into a vector, concatenate such vectors and forecast a speed-control action using a multilayer perceptron classifier. We conduct extensive experiments on the Honda Research Institute Driving Dataset and demonstrate the superior performance of EgoSpeed-Net.
翻訳日:2022-09-28 15:08:56 公開日:2022-09-27
# LEO衛星コンステレーションにおける認知遅延/破壊耐性ネットワークノード管理のための強化学習

Reinforcement Learning for Cognitive Delay/Disruption Tolerant Network Node Management in an LEO-based Satellite Constellation ( http://arxiv.org/abs/2209.13237v1 )

ライセンス: Link先を確認
Xue Sun, Changhao Li, Lei Yan, Suzhi Cao(参考訳) 近年、宇宙船の大規模展開と衛星搭載能力の増大により、遅延/破壊耐性ネットワーク(DTN)は、過度なネットワークダイナミクスの場合にTCP/IPよりも堅牢な通信プロトコルとして出現している。 DTNノードバッファ管理は依然として研究の活発な領域であり、DTNコアプロトコルの現在の実装は、バンドルを保存および転送するために、異なるネットワークノードに常に十分なメモリが存在するという仮定に依存している。 加えて、古典キューイング理論はdtnノードバッファの動的管理には適用されない。 そこで本稿では,低地球軌道 (LEO) 衛星コンステレーションシナリオにおける認知DTNノードの自動管理を,アクタ・クリティカル (A2C) を利用した高度強化学習 (RL) 戦略に基づいて一元管理する手法を提案する。 LEO衛星コンステレーションシナリオにおけるすべてのDTNノードを管理するために、地球同期軌道知的エージェントの訓練を検討することを目的としている。 A2Cエージェントの目標は、ノードメモリ利用を考慮したデリバリ成功率の最大化と、ネットワークリソース消費コストの最小化である。 インテリジェントエージェントは、無線データレートを動的に調整し、バンドル優先度に基づいてドロップ操作を行うことができる。 本稿では,leo衛星コンステレーションにおけるdtnノード管理問題に対するa2c技術の適用効果を評価するために,訓練されたインテリジェントエージェント戦略と,ランダムおよび標準ポリシーを含む他の2つの非rlポリシーを比較した。 実験によると、A2C戦略はデリバリ成功率とコストのバランスを保ち、最高報酬と最低ノードメモリ利用率を提供する。

In recent years, with the large-scale deployment of space spacecraft entities and the increase of satellite onboard capabilities, delay/disruption tolerant network (DTN) emerged as a more robust communication protocol than TCP/IP in the case of excessive network dynamics. DTN node buffer management is still an active area of research, as the current implementation of the DTN core protocol still relies on the assumption that there is always enough memory available in different network nodes to store and forward bundles. In addition, the classical queuing theory does not apply to the dynamic management of DTN node buffers. Therefore, this paper proposes a centralized approach to automatically manage cognitive DTN nodes in low earth orbit (LEO) satellite constellation scenarios based on the advanced reinforcement learning (RL) strategy advantage actor-critic (A2C). The method aims to explore training a geosynchronous earth orbit intelligent agent to manage all DTN nodes in an LEO satellite constellation scenario. The goal of the A2C agent is to maximize delivery success rate and minimize network resource consumption cost while considering node memory utilization. The intelligent agent can dynamically adjust the radio data rate and perform drop operations based on bundle priority. In order to measure the effectiveness of applying A2C technology to DTN node management issues in LEO satellite constellation scenarios, this paper compares the trained intelligent agent strategy with the other two non-RL policies, including random and standard policies. Experiments show that the A2C strategy balances delivery success rate and cost, and provides the highest reward and the lowest node memory utilization.
翻訳日:2022-09-28 15:08:05 公開日:2022-09-27
# 意思決定者へのアドバイスをいつ学ぶか

Learning When to Advise Human Decision Makers ( http://arxiv.org/abs/2209.13578v1 )

ライセンス: Link先を確認
Gali Noti and Yiling Chen(参考訳) 人工知能(AI)システムは、人間の意思決定を促進するためのアドバイスを提供するために、ますます使われている。 大規模な研究で、AIシステムが正確で公正なアドバイスを生み出すためにどのように最適化できるか、そして人間の意思決定者に対してどのようにアルゴリズムによるアドバイスを提示すべきかを調査してきた。 アルゴリズム的アドバイスを常に提供する現在の慣行の制限により、我々は、人間のユーザと双方向に対話するAIシステムの設計を提案し、意思決定において人間に利益をもたらす可能性がある場合にのみアドバイスを提供する。 我々のaiシステムは過去の人間の決定を使って政策を助言する。 そして、新しいケースでは、学習されたポリシーは人間からの入力を利用して、アルゴリズム的アドバイスが有用である場合と、人間が単独で決定する方が良い場合を識別する。 我々は、米国刑事司法制度のデータを用いて、我々のアプローチを評価するために大規模な実験を行う。 本実験では, 参加者に対して, 釈放条件違反のリスク評価を依頼し, 異なる助言アプローチで助言した。 その結果,対話型アドバイザリングアプローチは,必要な時にアドバイスを提供し,固定型非対話型アドバイザリングアプローチと比較して,人間の意思決定を著しく改善できることがわかった。 このアプローチには、人間の学習の促進、人間の意思決定者の補完的な強みの維持、アドバイスに対するよりポジティブな応答性など、さらなるメリットがあります。

Artificial intelligence (AI) systems are increasingly used for providing advice to facilitate human decision making. While a large body of work has explored how AI systems can be optimized to produce accurate and fair advice and how algorithmic advice should be presented to human decision makers, in this work we ask a different basic question: When should algorithms provide advice? Motivated by limitations of the current practice of constantly providing algorithmic advice, we propose the design of AI systems that interact with the human user in a two-sided manner and provide advice only when it is likely to be beneficial to the human in making their decision. Our AI systems learn advising policies using past human decisions. Then, for new cases, the learned policies utilize input from the human to identify cases where algorithmic advice would be useful, as well as those where the human is better off deciding alone. We conduct a large-scale experiment to evaluate our approach by using data from the US criminal justice system on pretrial-release decisions. In our experiment, participants were asked to assess the risk of defendants to violate their release terms if released and were advised by different advising approaches. The results show that our interactive-advising approach manages to provide advice at times of need and to significantly improve human decision making compared to fixed, non-interactive advising approaches. Our approach has additional advantages in facilitating human learning, preserving complementary strengths of human decision makers, and leading to more positive responsiveness to the advice.
翻訳日:2022-09-28 15:07:15 公開日:2022-09-27
# 準ポテンシャルと機械学習に基づく確率力学系の平均終了時間制御

Controlling mean exit time of stochastic dynamical systems based on quasipotential and machine learning ( http://arxiv.org/abs/2209.13098v1 )

ライセンス: Link先を確認
Yang Li, Shenglan Yuan, Shengyuan Xu(参考訳) ホワイトノイズの存在下でのアトラクション盆地からの脱出時間の平均は、様々な科学分野で実践的に重要である。 本研究では,一般確率力学系の平均終了時間を制御し,準ポテンシャルの概念と機械学習に基づいて所望の値を達成する戦略を提案する。 具体的には,グローバルな準ポテンシャル関数を計算するニューラルネットワークアーキテクチャを開発する。 そこで我々は,所定の平均終了時間のコントローラを計算するために,系統的反復数値アルゴリズムを設計する。 さらに,ハミルトン・ヤコビ法とトレーニングニューラルネットワークを用いて,メタスタブルなアトラクタ間の最も可能性の高い経路を同定する。 数値実験により,制御戦略は有効かつ十分に正確であることが示された。

The mean exit time escaping basin of attraction in the presence of white noise is of practical importance in various scientific fields. In this work, we propose a strategy to control mean exit time of general stochastic dynamical systems to achieve a desired value based on the quasipotential concept and machine learning. Specifically, we develop a neural network architecture to compute the global quasipotential function. Then we design a systematic iterated numerical algorithm to calculate the controller for a given mean exit time. Moreover, we identify the most probable path between metastable attractors with help of the effective Hamilton-Jacobi scheme and the trained neural network. Numerical experiments demonstrate that our control strategy is effective and sufficiently accurate.
翻訳日:2022-09-28 15:06:50 公開日:2022-09-27
# 深層学習に基づくハイブリッド化による超音速再突入シミュレーション(保証付き)

Accelerating hypersonic reentry simulations using deep learning-based hybridization (with guarantees) ( http://arxiv.org/abs/2209.13434v1 )

ライセンス: Link先を確認
Paul Novello, Ga\"el Po\"ette, David Lugato, Simon Peluchon, Pietro Marco Congedo(参考訳) 本稿では,数値シミュレーションの高速化に関心がある。 流体力学と化学反応の結合をシミュレーションする極超音速惑星再突入問題に着目する。 化学反応をシミュレートするにはほとんどの計算時間を要するが、その一方で正確な予測を得るためには避けられない。 我々はコスト効率と精度のトレードオフに直面している。シミュレーションコードは運用環境で使用するのに十分な効率でなければならないが、その現象を忠実に予測するには十分正確である。 このトレードオフに対処するために,従来の流体力学解法と化学反応を近似するニューラルネットワークを結合したハイブリッドシミュレーションコードを設計する。 私たちは、ビッグデータのコンテキストに適用した場合の精度と寸法の削減、および行列ベクトル構造に起因する効率の面で、重要な加速係数を達成するために、そのパワーに依存しています(\times 10$から$\times 18.6$)。 本稿では,このようなコスト効率のよいハイブリッドシミュレーションコードを実際にどのように設計するかを説明する。 とりわけ、精度を保証するための方法論を説明し、従来のサロゲートモデリングを超えて、これらのコードを参照として使用できるようにします。

In this paper, we are interested in the acceleration of numerical simulations. We focus on a hypersonic planetary reentry problem whose simulation involves coupling fluid dynamics and chemical reactions. Simulating chemical reactions takes most of the computational time but, on the other hand, cannot be avoided to obtain accurate predictions. We face a trade-off between cost-efficiency and accuracy: the simulation code has to be sufficiently efficient to be used in an operational context but accurate enough to predict the phenomenon faithfully. To tackle this trade-off, we design a hybrid simulation code coupling a traditional fluid dynamic solver with a neural network approximating the chemical reactions. We rely on their power in terms of accuracy and dimension reduction when applied in a big data context and on their efficiency stemming from their matrix-vector structure to achieve important acceleration factors ($\times 10$ to $\times 18.6$). This paper aims to explain how we design such cost-effective hybrid simulation codes in practice. Above all, we describe methodologies to ensure accuracy guarantees, allowing us to go beyond traditional surrogate modeling and to use these codes as references.
翻訳日:2022-09-28 15:06:40 公開日:2022-09-27
# DBGSL: 動的脳グラフ構造学習

DBGSL: Dynamic Brain Graph Structure Learning ( http://arxiv.org/abs/2209.13513v1 )

ライセンス: Link先を確認
Alexander Campbell, Antonio Giuliano Zippo, Luca Passamonti, Nicola Toschi, Pietro Lio(参考訳) 脳の領域間の機能的接続(FC)は、機能的磁気共鳴画像(fMRI)データに適用される統計的依存度によって推定される。 結果として生じる機能的接続行列(FCM)は、しばしば脳グラフの隣接行列を表す。 近年、グラフニューラルネットワーク(GNN)がFCMに適用され、脳グラフ表現の学習に成功している。 しかし、既存のGNNアプローチの一般的な制限は、モデルトレーニングの前にグラフ隣接行列を知っておく必要があることである。 そのため、データの基本構造が知られていることを暗黙的に仮定する。 残念なことに、fMRIでは、データの依存関係構造を最もよく表す統計測度の選択は自明ではないため、そうではない。 また、fmriへのほとんどのgnnアプリケーションは、fcが時間とともに静的であると仮定しており、機能的脳ネットワークが時間的かつ動的であるという神経科学的証拠とは相反する。 これらの複合問題は、脳グラフの表現を学習するGNNの能力に有害な影響を与える可能性がある。 そこで本研究では,fMRIデータの最適時間変化依存構造を学習するための教師付き手法である動的脳グラフ構造学習(DBGSL)を提案する。 特に、DBGSLは、脳領域埋め込みに適用された空間的時間的注意を通して、fMRIの時系列から動的グラフを学習する。 得られたグラフは空間時間GNNに送られ、分類のためのグラフ表現を学ぶ。 大きな休息状態とジェンダー分類のためのタスクfMRIデータセットの実験は、DBGSLが最先端のパフォーマンスを達成することを示す。 さらに、学習動的グラフの分析は、既存の神経科学文献から得られた知見と一致した予測関連脳領域を強調する。

Functional connectivity (FC) between regions of the brain is commonly estimated through statistical dependency measures applied to functional magnetic resonance imaging (fMRI) data. The resulting functional connectivity matrix (FCM) is often taken to represent the adjacency matrix of a brain graph. Recently, graph neural networks (GNNs) have been successfully applied to FCMs to learn brain graph representations. A common limitation of existing GNN approaches, however, is that they require the graph adjacency matrix to be known prior to model training. As such, it is implicitly assumed the ground-truth dependency structure of the data is known. Unfortunately, for fMRI this is not the case as the choice of which statistical measure best represents the dependency structure of the data is non-trivial. Also, most GNN applications to fMRI assume FC is static over time, which is at odds with neuroscientific evidence that functional brain networks are time-varying and dynamic. These compounded issues can have a detrimental effect on the capacity of GNNs to learn representations of brain graphs. As a solution, we propose Dynamic Brain Graph Structure Learning (DBGSL), a supervised method for learning the optimal time-varying dependency structure of fMRI data. Specifically, DBGSL learns a dynamic graph from fMRI timeseries via spatial-temporal attention applied to brain region embeddings. The resulting graph is then fed to a spatial-temporal GNN to learn a graph representation for classification. Experiments on large resting-state as well as task fMRI datasets for the task of gender classification demonstrate that DBGSL achieves state-of-the-art performance. Moreover, analysis of the learnt dynamic graphs highlights prediction-related brain regions which align with findings from existing neuroscience literature.
翻訳日:2022-09-28 15:06:22 公開日:2022-09-27
# Reward Hackingの定義と特徴付け

Defining and Characterizing Reward Hacking ( http://arxiv.org/abs/2209.13085v1 )

ライセンス: Link先を確認
Joar Skalse, Nikolaus H. R. Howe, Dmitrii Krasheninnikov, David Krueger(参考訳) これは、不完全なプロキシ報酬関数である$\mathcal{\tilde{r}}$を最適化することで、真の報酬関数である$\mathcal{r}$に従ってパフォーマンスが低下する現象である。 期待されたプロキシのリターンを増加させることで、期待された真のリターンを決して減らせないのであれば、プロキシはハックできないと言う。 直感的には、いくつかの用語を報酬関数から外したり("より小さく"する)、ほぼ同等の結果間の細かな区別を見渡すことで、ハッキング不能なプロキシを作成することができるかもしれない。 重要な洞察は、報酬の線形性(状態-行動的訪問数)が、不安定を非常に強い条件にするということである。 特に、すべての確率的政策の集合に対して、2つの報酬関数は、その一方が一定であれば、ハッキングできない。 したがって、我々は、非自明な不可能なペアが常に存在する決定論的ポリシーと有限確率的ポリシーに注意を向け、単純化の存在に必要な十分な条件を確立する。 この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。

We provide the first formal definition of reward hacking, a phenomenon where optimizing an imperfect proxy reward function, $\mathcal{\tilde{R}}$, leads to poor performance according to the true reward function, $\mathcal{R}$. We say that a proxy is unhackable if increasing the expected proxy return can never decrease the expected true return. Intuitively, it might be possible to create an unhackable proxy by leaving some terms out of the reward function (making it "narrower") or overlooking fine-grained distinctions between roughly equivalent outcomes, but we show this is usually not the case. A key insight is that the linearity of reward (in state-action visit counts) makes unhackability a very strong condition. In particular, for the set of all stochastic policies, two reward functions can only be unhackable if one of them is constant. We thus turn our attention to deterministic policies and finite sets of stochastic policies, where non-trivial unhackable pairs always exist, and establish necessary and sufficient conditions for the existence of simplifications, an important special case of unhackability. Our results reveal a tension between using reward functions to specify narrow tasks and aligning AI systems with human values.
翻訳日:2022-09-28 14:59:41 公開日:2022-09-27
# ハイパーパラメータを用いた重要度サンプリングの最適化

Optimization of Annealed Importance Sampling Hyperparameters ( http://arxiv.org/abs/2209.13226v1 )

ライセンス: Link先を確認
Shirin Goshtasbpour and Fernando Perez-Cruz(参考訳) Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。 aisは任意のハイパーパラメータに対する偏りのない推定を提供することが保証されているが、一般的な実装は計算予算が制限されたときに推定性能に影響する初期分布と目標分布の間の幾何平均ブリッジ分布のような単純なヒューリスティックに依存する。 マルコフ遷移におけるメトロポリス・ハスティング(MH)補正ステップの使用により、完全なパラメトリックAISの最適化は依然として困難である。 本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。 MH補正を施したマルコフカーネルの大規模クラスに適用可能な分布列とマルコフ遷移のパラメータを最適化する再パラメータ化法が提案されている。 我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。

Annealed Importance Sampling (AIS) is a popular algorithm used to estimates the intractable marginal likelihood of deep generative models. Although AIS is guaranteed to provide unbiased estimate for any set of hyperparameters, the common implementations rely on simple heuristics such as the geometric average bridging distributions between initial and the target distribution which affect the estimation performance when the computation budget is limited. Optimization of fully parametric AIS remains challenging due to the use of Metropolis-Hasting (MH) correction steps in Markov transitions. We present a parameteric AIS process with flexible intermediary distributions and optimize the bridging distributions to use fewer number of steps for sampling. A reparameterization method that allows us to optimize the distribution sequence and the parameters of Markov transitions is used which is applicable to a large class of Markov Kernels with MH correction. We assess the performance of our optimized AIS for marginal likelihood estimation of deep generative models and compare it to other estimators.
翻訳日:2022-09-28 14:59:21 公開日:2022-09-27
# ディープニューラルネットワークの低ランクトレーニングの探索

Exploring Low Rank Training of Deep Neural Networks ( http://arxiv.org/abs/2209.13569v1 )

ライセンス: Link先を確認
Siddhartha Rao Kamalakara, Acyr Locatelli, Bharat Venkitesh, Jimmy Ba, Yarin Gal, Aidan N. Gomez(参考訳) ディープニューラルネットワークの低ランク、すなわちファクタ付けされたレイヤでのトレーニングは、コミュニティにとって特に興味深い。 先行研究は、事前訓練されたネットワークの低ランク近似と、追加目的の低ランク空間でのトレーニングに焦点を当てており、選択された実践のために様々なアドホックな説明を提供している。 我々は実際にうまく機能する手法を分析し、gpt2のようなモデル上で広範囲にアブレーションを行い、この分野の共通の信念を偽る証拠を提供し、まだ答えを必要とするエキサイティングな研究機会の過程を示唆する。

Training deep neural networks in low rank, i.e. with factorised layers, is of particular interest to the community: it offers efficiency over unfactorised training in terms of both memory consumption and training time. Prior work has focused on low rank approximations of pre-trained networks and training in low rank space with additional objectives, offering various ad hoc explanations for chosen practice. We analyse techniques that work well in practice, and through extensive ablations on models such as GPT2 we provide evidence falsifying common beliefs in the field, hinting in the process at exciting research opportunities that still need answering.
翻訳日:2022-09-28 14:59:04 公開日:2022-09-27
# 階層スライスワッサースタイン距離

Hierarchical Sliced Wasserstein Distance ( http://arxiv.org/abs/2209.13570v1 )

ライセンス: Link先を確認
Khai Nguyen and Tongzheng Ren and Huy Nguyen and Litu Rout and Tan Nguyen and Nhat Ho(参考訳) Sliced Wasserstein (SW) 距離は、次元の呪いに悩まされることなく、多数のサポートにスケールできるため、さまざまなアプリケーションシナリオで広く使用されている。 スライスされたワッサーシュタイン距離の値は、ラドン変換(RT)によって得られる原測度の1次元表現(投影)の間の輸送コストの平均である。 サポートの数で効率が良いにもかかわらず、スライスされたwasersteinの推定には、高次元の設定で比較的多くの投影が必要となる。 したがって、ミニバッチアプローチを利用するいくつかのディープラーニングアプリケーションのような次元と比較してサポート数が比較的小さいアプリケーションでは、Randon Transformの行列乗算による複雑さが主な計算ボトルネックとなる。 この問題に対処するために、ボトルネック投影と呼ばれる少数の投影を線形かつランダムに組み合わせることで、投影を導出することを提案する。 本稿では, 階層型ラドン変換 (HRT) を導入し, 再帰的にラドン変換の変種を適用した。 次にこのアプローチを,階層的スライスドワッサースタイン距離(hsw)と呼ばれる測度間の新しい計量に定式化する。 HRTのインジェクティビティを証明することにより、HSWの計量性を導出する。 さらに, HSW の SW 変種への接続や, 計算およびサンプルの複雑度などの理論的性質について検討する。 最後に,cifar10,celeba,tiny imagenetなどのベンチマークデータセットを用いた深部生成モデリングのタスクにおいて,hswの計算コストと生成品質を比較した。

Sliced Wasserstein (SW) distance has been widely used in different application scenarios since it can be scaled to a large number of supports without suffering from the curse of dimensionality. The value of sliced Wasserstein distance is the average of transportation cost between one-dimensional representations (projections) of original measures that are obtained by Radon Transform (RT). Despite its efficiency in the number of supports, estimating the sliced Wasserstein requires a relatively large number of projections in high-dimensional settings. Therefore, for applications where the number of supports is relatively small compared with the dimension, e.g., several deep learning applications where the mini-batch approaches are utilized, the complexities from matrix multiplication of Radon Transform become the main computational bottleneck. To address this issue, we propose to derive projections by linearly and randomly combining a smaller number of projections which are named bottleneck projections. We explain the usage of these projections by introducing Hierarchical Radon Transform (HRT) which is constructed by applying Radon Transform variants recursively. We then formulate the approach into a new metric between measures, named Hierarchical Sliced Wasserstein (HSW) distance. By proving the injectivity of HRT, we derive the metricity of HSW. Moreover, we investigate the theoretical properties of HSW including its connection to SW variants and its computational and sample complexities. Finally, we compare the computational cost and generative quality of HSW with the conventional SW on the task of deep generative modeling using various benchmark datasets including CIFAR10, CelebA, and Tiny ImageNet.
翻訳日:2022-09-28 14:58:52 公開日:2022-09-27
# ビデオテキスト検索のためのテキスト適応型複数プロトタイプマッチング

Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval ( http://arxiv.org/abs/2209.13307v1 )

ライセンス: Link先を確認
Chengzhi Lin, Ancong Wu, Junwei Liang, Jun Zhang, Wenhang Ge, Wei-Shi Zheng, Chunhua Shen(参考訳) ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。 一般的に、ビデオは豊富なインスタンスとイベント情報を含み、クエリテキストは情報の一部のみを記述する。 したがって、ビデオは複数の異なるテキスト記述とクエリに対応できる。 我々はこの現象を `Video-Text Cor correspondence Ambiguity' 問題と呼ぶ。 現在の技術は、主にビデオの内容とテキスト(オブジェクトからエンティティ、動詞へのアクション)の間のローカルまたはマルチレベルのアライメントのマイニングに集中している。 1つの機能のみを使用してビデオを記述することで、ビデオテキスト対応の曖昧さを緩和することは困難であり、同時に複数の異なるテキスト機能と一致させる必要がある。 そこで本研究では,ビデオトークン特徴の適応的な集約により,複数のプロトタイプを自動キャプチャして映像を記述できる,テキスト適応型複数視覚プロトタイプマッチングモデルを提案する。 クエリテキストが与えられた場合、その類似性は最も類似したプロトタイプによって決定され、ビデオ内の対応を見つける。 ビデオ中のリッチな情報を表現するための多種多様なプロトタイプを学習するために,異なるプロトタイプをビデオの内容に適応させる分散損失を提案する。 提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。

Cross-modal retrieval between videos and texts has gained increasing research interest due to the rapid emergence of videos on the web. Generally, a video contains rich instance and event information and the query text only describes a part of the information. Thus, a video can correspond to multiple different text descriptions and queries. We call this phenomenon the ``Video-Text Correspondence Ambiguity'' problem. Current techniques mostly concentrate on mining local or multi-level alignment between contents of a video and text (\textit{e.g.}, object to entity and action to verb). It is difficult for these methods to alleviate the video-text correspondence ambiguity by describing a video using only one single feature, which is required to be matched with multiple different text features at the same time. To address this problem, we propose a Text-Adaptive Multiple Visual Prototype Matching model, which automatically captures multiple prototypes to describe a video by adaptive aggregation of video token features. Given a query text, the similarity is determined by the most similar prototype to find correspondence in the video, which is termed text-adaptive matching. To learn diverse prototypes for representing the rich information in videos, we propose a variance loss to encourage different prototypes to attend to different contents of the video. Our method outperforms state-of-the-art methods on four public video retrieval datasets.
翻訳日:2022-09-28 14:58:28 公開日:2022-09-27
# リスト安定性を考慮したAUPRC最適化のアルゴリズム依存一般化の探索

Exploring the Algorithm-Dependent Generalization of AUPRC Optimization with List Stability ( http://arxiv.org/abs/2209.13262v1 )

ライセンス: Link先を確認
Peisong Wen, Qianqian Xu, Zhiyong Yang, Yuan He, Qingming Huang(参考訳) AUPRC(Area Under the Precision-Recall Curve)の確率的最適化は機械学習にとって重要な問題である。 AUPRC最適化のために様々なアルゴリズムが研究されているが、一般化はマルチクエリの場合のみ保証されている。 本研究では,確率 AUPRC 最適化の単一クエリ一般化における最初の試行を示す。 よりシャープな一般化境界に対しては、アルゴリズム依存の一般化に焦点を当てる。 目的地にはアルゴリズムと理論の両方の障害があります。 アルゴリズムの観点からは、既存の確率推定器の大多数はサンプリング戦略に偏りがある場合にのみ偏りがあり、非分解性のため不安定であることに気付く。 これらの問題に対処するために,より安定なサンプリングレート不変な確率的推定器を提案する。 これに加えて、AUPRC最適化は合成最適化問題として定式化され、この問題を解決するために確率的アルゴリズムが提案される。 理論的には、アルゴリズム依存汎化解析の標準的な手法は、リストワイズ合成最適化問題に直接適用することはできない。 このギャップを埋めるために、モデル安定性を例の損失からリストの損失まで拡張し、対応する一般化と安定性を橋渡しする。 さらに,安定性の再現性を記述するために状態遷移行列を構築し,行列スペクトルによる計算を簡略化する。 3つの画像検索データセットの実験結果から,本フレームワークの有効性と健全性について述べる。

Stochastic optimization of the Area Under the Precision-Recall Curve (AUPRC) is a crucial problem for machine learning. Although various algorithms have been extensively studied for AUPRC optimization, the generalization is only guaranteed in the multi-query case. In this work, we present the first trial in the single-query generalization of stochastic AUPRC optimization. For sharper generalization bounds, we focus on algorithm-dependent generalization. There are both algorithmic and theoretical obstacles to our destination. From an algorithmic perspective, we notice that the majority of existing stochastic estimators are biased only when the sampling strategy is biased, and is leave-one-out unstable due to the non-decomposability. To address these issues, we propose a sampling-rate-invariant unbiased stochastic estimator with superior stability. On top of this, the AUPRC optimization is formulated as a composition optimization problem, and a stochastic algorithm is proposed to solve this problem. From a theoretical perspective, standard techniques of the algorithm-dependent generalization analysis cannot be directly applied to such a listwise compositional optimization problem. To fill this gap, we extend the model stability from instancewise losses to listwise losses and bridge the corresponding generalization and stability. Additionally, we construct state transition matrices to describe the recurrence of the stability, and simplify calculations by matrix spectrum. Practically, experimental results on three image retrieval datasets on speak to the effectiveness and soundness of our framework.
翻訳日:2022-09-28 14:57:48 公開日:2022-09-27
# 入射流符号化による動的シーンのフレーム補間

Frame Interpolation for Dynamic Scenes with Implicit Flow Encoding ( http://arxiv.org/abs/2209.13284v1 )

ライセンス: Link先を確認
Pedro Figueir\^edo, Avinash Paliwal, Nima Khademi Kalantari(参考訳) 本稿では,動的シーンの1対の画像間を補間するアルゴリズムを提案する。 過去数年間、フレーム補間の大きな進歩が見られたが、現在のアプローチでは、画像がすぐに切り離されても一般的である明るさや照明の変化のある画像を処理できない。 照明の変動に対して非常に頑健な既存の光フロー手法を活用することで,この問題に対処することを提案する。 具体的には,既存の事前学習フローネットワークを用いて推定した双方向流れを用いて,中間フレームから2つの入力画像への流れを予測する。 そこで本研究では,ハイパーネットワークを用いた双方向フローを座標ベースネットワークに符号化し,時間にわたって流れを連続的に表現する手法を提案する。 推定フローが得られたら、それらを既存のブレンディングネットワーク内で使用して最終中間フレームを得る。 広範な実験により,本手法は最先端のフレーム補間アルゴリズムよりも優れた結果が得られることを示した。

In this paper, we propose an algorithm to interpolate between a pair of images of a dynamic scene. While in the past years significant progress in frame interpolation has been made, current approaches are not able to handle images with brightness and illumination changes, which are common even when the images are captured shortly apart. We propose to address this problem by taking advantage of the existing optical flow methods that are highly robust to the variations in the illumination. Specifically, using the bidirectional flows estimated using an existing pre-trained flow network, we predict the flows from an intermediate frame to the two input images. To do this, we propose to encode the bidirectional flows into a coordinate-based network, powered by a hypernetwork, to obtain a continuous representation of the flow across time. Once we obtain the estimated flows, we use them within an existing blending network to obtain the final intermediate frame. Through extensive experiments, we demonstrate that our approach is able to produce significantly better results than state-of-the-art frame interpolation algorithms.
翻訳日:2022-09-28 14:57:28 公開日:2022-09-27
# 手作りの特徴と深い特徴がミスマッチしたトレーニングとテストセットを満たしてディープフェイク検出を行うとき

When Handcrafted Features and Deep Features Meet Mismatched Training and Test Sets for Deepfake Detection ( http://arxiv.org/abs/2209.13289v1 )

ライセンス: Link先を確認
Ying Xu, Sule Yildirim Yayilgan(参考訳) 人工視覚メディアの生成と操作の加速は、現在重大な懸念を提起し、社会に対する大きな脅威となっている。 偽デジタルコンテンツに対する自動検出ネットワークの必要性と、この脅威に対抗するために危険な人工情報の拡散を避けることが必要である。 本稿では,2種類の手作り特徴(SIFTとHoG)と2種類の深度特徴(XceptionとCNN+RNN)を深度検出タスクに利用して比較する。 トレーニングセットとテストセットにミスマッチがある場合、これらの機能のパフォーマンスもチェックします。 このデータセットには4つのサブデータセット、deepfakes、face2face、facewap、neuraltextureが含まれている。 最良の結果はxceptionのもので、トレーニングとテストセットが同じサブデータセットからのものである場合、精度が99\%を超える可能性がある。 比較すると、トレーニングセットがテストセットと一致しなかった場合、結果は劇的に低下します。 この現象は、普遍的なディープフェイク検出システムを構築するという課題を明らかにする。

The accelerated growth in synthetic visual media generation and manipulation has now reached the point of raising significant concerns and posing enormous intimidations towards society. There is an imperative need for automatic detection networks towards false digital content and avoid the spread of dangerous artificial information to contend with this threat. In this paper, we utilize and compare two kinds of handcrafted features(SIFT and HoG) and two kinds of deep features(Xception and CNN+RNN) for the deepfake detection task. We also check the performance of these features when there are mismatches between training sets and test sets. Evaluation is performed on the famous FaceForensics++ dataset, which contains four sub-datasets, Deepfakes, Face2Face, FaceSwap and NeuralTextures. The best results are from Xception, where the accuracy could surpass over 99\% when the training and test set are both from the same sub-dataset. In comparison, the results drop dramatically when the training set mismatches the test set. This phenomenon reveals the challenge of creating a universal deepfake detection system.
翻訳日:2022-09-28 14:57:13 公開日:2022-09-27
# ニューラルネットワークのパンニング:トレーニング前に最適なスパースネットワークをスクリーニングする

Neural Network Panning: Screening the Optimal Sparse Network Before Training ( http://arxiv.org/abs/2209.13378v1 )

ライセンス: Link先を確認
Xiatao Kang, Ping Li, Jiayi Yao, Chengxi Li(参考訳) トレーニング前のニューラルネットワークのプルーニングは、オリジナルのモデルを圧縮するだけでなく、相当なアプリケーション価値を持つネットワークトレーニングフェーズを加速する。 現在の研究は細粒度の刈り込みに焦点を当てており、計量を使って重量スクリーニングの重量スコアを計算し、最初の単階刈りから反復刈りまで拡張している。 これらの研究を通じて,ネットワークプルーニングは重みの表現力伝達過程としてまとめることができ,そこでは元のネットワークの性能を維持するために,除去した重みから表現力を引き出すことができる。 最適表現力スケジューリングを実現するために,複数のインデクスおよびマルチプロセスステップを通じて表現力伝達を誘導するニューラルネットワークパンニングと呼ばれるトレーニング前のプルーニングスキームを提案し,強化学習に基づく一種のパンニングエージェントを設計し,プロセスを自動化する。 実験結果から, パンニングは, 訓練前の各種プルーニングよりも優れた性能を示した。

Pruning on neural networks before training not only compresses the original models, but also accelerates the network training phase, which has substantial application value. The current work focuses on fine-grained pruning, which uses metrics to calculate weight scores for weight screening, and extends from the initial single-order pruning to iterative pruning. Through these works, we argue that network pruning can be summarized as an expressive force transfer process of weights, where the reserved weights will take on the expressive force from the removed ones for the purpose of maintaining the performance of original networks. In order to achieve optimal expressive force scheduling, we propose a pruning scheme before training called Neural Network Panning which guides expressive force transfer through multi-index and multi-process steps, and designs a kind of panning agent based on reinforcement learning to automate processes. Experimental results show that Panning performs better than various available pruning before training methods.
翻訳日:2022-09-28 14:56:52 公開日:2022-09-27
# Sauron U-Net:フィルタプルーニングによる医用画像分割における簡便な冗長性除去

Sauron U-Net: Simple automated redundancy elimination in medical image segmentation via filter pruning ( http://arxiv.org/abs/2209.13590v1 )

ライセンス: Link先を確認
Juan Miguel Valverde, Artem Shatillo, Jussi Tohka(参考訳) 自動調整層別しきい値で対応するフィルタを破棄することにより,冗長な特徴写像を除去するフィルタプルーニング手法であるSauronを提案する。 さらに、sauronは、さまざまなメトリクスで示すように、フィーチャーマップクラスタの形成を促進する正規化項を最小化する。 ほとんどのフィルタプルーニング法とは対照的に、サウロンは典型的なニューラルネットワーク最適化と同様に単相であり、ハイパーパラメータと設計決定を少なくする。 さらに、他のクラスタベースのアプローチとは異なり、我々の方法はクラスタの数を事前に選択する必要がない。 医用画像分割作業におけるSauronおよび3つの最先端フィルタプルーニング手法の評価を行った。 これは、フィルタの刈り取りがあまり注目されず、プライバシの配慮によりクラウドサービスを使用しない医療用グレードコンピュータの効率的なモデルを構築するのに役立つ領域である。 サウロンは競合するプルーニング法よりも高い性能とプルーニング率のモデルを達成した。 さらに、Sauronはトレーニング中にフィルタを削除するため、最適化は時間とともに加速した。 最後に, サウロン刈り込みモデルの特徴地図は, 高い解釈性を示した。 sauronのコードはhttps://github.com/jmlipman/sauronunetで公開されている。

We present Sauron, a filter pruning method that eliminates redundant feature maps by discarding the corresponding filters with automatically-adjusted layer-specific thresholds. Furthermore, Sauron minimizes a regularization term that, as we show with various metrics, promotes the formation of feature maps clusters. In contrast to most filter pruning methods, Sauron is single-phase, similarly to typical neural network optimization, requiring fewer hyperparameters and design decisions. Additionally, unlike other cluster-based approaches, our method does not require pre-selecting the number of clusters, which is non-trivial to determine and varies across layers. We evaluated Sauron and three state-of-the-art filter pruning methods on three medical image segmentation tasks. This is an area where filter pruning has received little attention and where it can help building efficient models for medical grade computers that cannot use cloud services due to privacy considerations. Sauron achieved models with higher performance and pruning rate than the competing pruning methods. Additionally, since Sauron removes filters during training, its optimization accelerated over time. Finally, we show that the feature maps of a Sauron-pruned model were highly interpretable. The Sauron code is publicly available at https://github.com/jmlipman/SauronUNet.
翻訳日:2022-09-28 14:51:37 公開日:2022-09-27
# fedstack: スタック型フェデレーション学習によるパーソナライズされたアクティビティ監視

FedStack: Personalized activity monitoring using stacked federated learning ( http://arxiv.org/abs/2209.13080v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Niall Higgins, Raj Gururajan, Yuefeng Li, Xujuan Zhou, U Rajendra Acharya(参考訳) 遠隔患者モニタリング(RPM)システムの最近の進歩は、表面血管からの微妙な動きを含む重要な兆候を測定するために、様々な人間の活動を認識することができる。 この領域に人工知能(AI)を適用することへの関心が高まっており、重要な課題であるバイタルサインや身体運動の予測や分類といった既知の制限や課題に対処している。 フェデレートラーニング(Federated Learning)は、従来の機械学習モデリングを分散化することによってデータのプライバシを高めるために設計された、比較的新しいAIテクニックである。 しかし、従来のフェデレート学習では、ローカルクライアントとグローバルサーバ間でトレーニングされるのと同じアーキテクチャモデルが必要である。 これにより、局所モデルの不均一性が欠如しているため、グローバルモデルアーキテクチャが制限される。 そこで本研究では,ヘテロジニアス・アーキテクチャ・クライアントモデルをセンシングする新しいフェデレーション・ラーニング・アーキテクチャであるfeedstackを提案する。 本研究は,集中型アプローチで入院患者に保護されたプライバシーシステムを提供し,最適なセンサ配置を特定する。 提案するアーキテクチャは,モバイルヘルスセンサベンチマークデータセットに10の異なる被験者から12のルーチンアクティビティを分類するために適用した。 ANN、CNN、Bi-LSTMの3つのAIモデルは、個々の対象データに基づいて訓練された。 これらのモデルにフェデレートされた学習アーキテクチャを適用し、局所的およびグローバルなモデルを構築し、アートパフォーマンスの状態を表現した。 ローカルCNNモデルは、各対象データ上でANNおよびBi-LSTMモデルより優れていた。 提案手法は, 局所モデルの不均一な積み重ねに対して, 均質な積み重ねよりも優れた性能を示した。 この研究は、クライアントプライバシを組み込んだ拡張rpmシステムを構築し、急性精神保健施設における患者の臨床観察を支援し、最終的には予期せぬ死を予防する。

Recent advances in remote patient monitoring (RPM) systems can recognize various human activities to measure vital signs, including subtle motions from superficial vessels. There is a growing interest in applying artificial intelligence (AI) to this area of healthcare by addressing known limitations and challenges such as predicting and classifying vital signs and physical movements, which are considered crucial tasks. Federated learning is a relatively new AI technique designed to enhance data privacy by decentralizing traditional machine learning modeling. However, traditional federated learning requires identical architectural models to be trained across the local clients and global servers. This limits global model architecture due to the lack of local models heterogeneity. To overcome this, a novel federated learning architecture, FedStack, which supports ensembling heterogeneous architectural client models was proposed in this study. This work offers a protected privacy system for hospitalized in-patients in a decentralized approach and identifies optimum sensor placement. The proposed architecture was applied to a mobile health sensor benchmark dataset from 10 different subjects to classify 12 routine activities. Three AI models, ANN, CNN, and Bi-LSTM were trained on individual subject data. The federated learning architecture was applied to these models to build local and global models capable of state of the art performances. The local CNN model outperformed ANN and Bi-LSTM models on each subject data. Our proposed work has demonstrated better performance for heterogeneous stacking of the local models compared to homogeneous stacking. This work sets the stage to build an enhanced RPM system that incorporates client privacy to assist with clinical observations for patients in an acute mental health facility and ultimately help to prevent unexpected death.
翻訳日:2022-09-28 14:50:20 公開日:2022-09-27
# マラリア検出のためのディープラーニングと機械学習:概要,課題,今後の展望

Deep learning and machine learning for Malaria detection: overview, challenges and future directions ( http://arxiv.org/abs/2209.13292v1 )

ライセンス: Link先を確認
Imen Jdey, Ghazala Hcini and Hela Ltifi(参考訳) 最大の影響を与えるためには、証拠に基づく意思決定を用いて公衆衛生のイニシアチブを行う必要がある。 機械学習アルゴリズムは、データを収集、保存、処理、分析して知識を提供し、意思決定をガイドするために作成される。 監視システムにおいて重要な部分は画像解析である。 コンピュータービジョンと機械学習のコミュニティは、最近になって好奇心をそそられた。 本研究は,さまざまな機械学習と画像処理を用いてマラリアの診断と予測を行う。 そこで本研究では,マラリア検出に広く適用可能なスマートツールとしての深層学習技術の可能性を見出した。 コンピュータフレームワークと組織のためのディープラーニングの共通的な定義、データ準備の必要性の数え上げ、オーバーヘッドの作成、リアルタイム実行、能力の説明、そして、これらの制約に焦点を当てた軸受に関する今後の疑問を明らかにする。

To have the greatest impact, public health initiatives must be made using evidence-based decision-making. Machine learning Algorithms are created to gather, store, process, and analyse data to provide knowledge and guide decisions. A crucial part of any surveillance system is image analysis. The communities of computer vision and machine learning has ended up curious about it as of late. This study uses a variety of machine learning and image processing approaches to detect and forecast the malarial illness. In our research, we discovered the potential of deep learning techniques as smart tools with broader applicability for malaria detection, which benefits physicians by assisting in the diagnosis of the condition. We examine the common confinements of deep learning for computer frameworks and organising, counting need of preparing data, preparing overhead, realtime execution, and explain ability, and uncover future inquire about bearings focusing on these restrictions.
翻訳日:2022-09-28 14:49:51 公開日:2022-09-27
# 対数学習:様々な対数説明のための確率的特徴ベース学習

Learning to Counter: Stochastic Feature-based Learning for Diverse Counterfactual Explanations ( http://arxiv.org/abs/2209.13446v1 )

ライセンス: Link先を確認
Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung(参考訳) 解釈可能な機械学習は、説明可能性の欠如で長年悪名高い複雑なブラックボックスシステムの推論プロセスを理解しようとする。 これは、システムが特定の決定に達した理由を超えて、ユーザが結果を変更するために何ができるかをさらに提案するものだ。 逆実例は、ブラックボックス分類器からの元の予測に逆らうことができ、実用用途の様々な制約を満たす必要がある。 これらの制約は、既存の作業に根本的な課題を提示する一方と他方のトレードオフに存在する。 そこで本研究では,対実的トレードオフを効果的にバランスさせる確率論的学習に基づくフレームワークを提案する。 前者は有効なカウンターファクトの配布をモデル化することを目的としており、後者は差別化可能なトレーニングと償却最適化を可能にする方法で追加の制約を強制することを目的としている。 提案手法は,既存の手法よりも多種多様であり,特に同一能力の手法よりも効率的である実効性および実用性のある対物生成における有効性を示す。

Interpretable machine learning seeks to understand the reasoning process of complex black-box systems that are long notorious for lack of explainability. One growing interpreting approach is through counterfactual explanations, which go beyond why a system arrives at a certain decision to further provide suggestions on what a user can do to alter the outcome. A counterfactual example must be able to counter the original prediction from the black-box classifier, while also satisfying various constraints for practical applications. These constraints exist at trade-offs between one and another presenting radical challenges to existing works. To this end, we propose a stochastic learning-based framework that effectively balances the counterfactual trade-offs. The framework consists of a generation and a feature selection module with complementary roles: the former aims to model the distribution of valid counterfactuals whereas the latter serves to enforce additional constraints in a way that allows for differentiable training and amortized optimization. We demonstrate the effectiveness of our method in generating actionable and plausible counterfactuals that are more diverse than the existing methods and particularly in a more efficient manner than counterparts of the same capacity.
翻訳日:2022-09-28 14:49:35 公開日:2022-09-27
# Phy-Taylor:物理モデルに基づくディープニューラルネットワーク

Phy-Taylor: Physics-Model-Based Deep Neural Networks ( http://arxiv.org/abs/2209.13511v1 )

ライセンス: Link先を確認
Yanbing Mao, Lui Sha, Huajie Shao, Yuliang Gu, Qixin Wang, Tarek Abdelzaher(参考訳) 物理工学システムに適用される純粋にデータ駆動のディープニューラルネットワーク(DNN)は、物理法則に違反した関係を推測し、予期せぬ結果をもたらす。 この課題に対処するために,Phy-Taylor という物理モデルに基づく DNN フレームワークを提案する。 Phy-Taylorフレームワークは、2つの重要な貢献をしている。新しいアーキテクチャの物理互換ニューラルネットワーク(PhN)を導入し、新しいコンプライアンスメカニズムを特徴とし、我々は {\em Physics-guided Neural Network Editing\/} と呼ぶ。 phnは運動エネルギー、ポテンシャルエネルギー、電力、空力抵抗といった物理量に触発された非線形性を直接捉えることを目的としている。 そのためにPhNは、ニューラルネットワーク層を2つの重要なコンポーネントで強化する。 (i)物理知識を捉える非線形関数のテイラー級数展開の単項式、及び (ii)騒音の影響を緩和するための抑制器。 ニューラルネットワーク編集機構は、物理知識と一貫してネットワークリンクとアクティベーション機能を変更する。 拡張として,2つの追加機能を導入する自己修正型Phy-Taylorフレームワークを提案する。 (i)物理モデルに基づく安全関係学習、及び (ii)安全違反が発生した場合の自動出力補正。 実験により,Phy-Taylorは,(直接的かつ依存関係を制約することによって)パラメータが大幅に小さくなり,トレーニングプロセスが大幅に高速化され,モデルの堅牢性と精度が向上した。

Purely data-driven deep neural networks (DNNs) applied to physical engineering systems can infer relations that violate physics laws, thus leading to unexpected consequences. To address this challenge, we propose a physics-model-based DNN framework, called Phy-Taylor, that accelerates learning compliant representations with physical knowledge. The Phy-Taylor framework makes two key contributions; it introduces a new architectural Physics-compatible neural network (PhN), and features a novel compliance mechanism, we call {\em Physics-guided Neural Network Editing\/}. The PhN aims to directly capture nonlinearities inspired by physical quantities, such as kinetic energy, potential energy, electrical power, and aerodynamic drag force. To do so, the PhN augments neural network layers with two key components: (i) monomials of Taylor series expansion of nonlinear functions capturing physical knowledge, and (ii) a suppressor for mitigating the influence of noise. The neural-network editing mechanism further modifies network links and activation functions consistently with physical knowledge. As an extension, we also propose a self-correcting Phy-Taylor framework that introduces two additional capabilities: (i) physics-model-based safety relationship learning, and (ii) automatic output correction when violations of safety occur. Through experiments, we show that (by expressing hard-to-learn nonlinearities directly and by constraining dependencies) Phy-Taylor features considerably fewer parameters, and a remarkably accelerated training process, while offering enhanced model robustness and accuracy.
翻訳日:2022-09-28 14:48:57 公開日:2022-09-27
# 検索に基づく時系列予測

Retrieval Based Time Series Forecasting ( http://arxiv.org/abs/2209.13525v1 )

ライセンス: Link先を確認
Baoyu Jing, Si Zhang, Yada Zhu, Bin Peng, Kaiyu Guan, Andrew Margenot and Hanghang Tong(参考訳) 時系列データはスマートトランスポーテーションや環境モニタリングなど、さまざまなアプリケーションで表示されます。 時系列解析の基本的な問題の一つは時系列予測である。 近年のディープ時系列予測手法の成功にもかかわらず、正確な予測を行うには、過去の値の十分な観測が必要である。 言い換えれば、出力長さ(または予測地平線)と入力と出力長さの合計の比は十分に低くなければならない(例えば0.3)。 比が増加するにつれて(例えば0.8)、予測精度の不確実性は著しく増大する。 本稿では,関係時系列を参照として検索することで,不確実性を効果的に低減できることを示す。 理論解析において、まず不確実性を定量化し、平均二乗誤差(MSE)との関係を示す。 そして、検索した参照が不確実性を減少させるので、参照のないモデルよりも、参照を持つモデルは学習しやすいことを証明した。 検索に基づく時系列予測モデルの有効性を実証的に示すために,リレーショナル検索とコンテンツ合成からなるReTimeと呼ばれる,シンプルで効果的な2段階の手法を提案する。 また,空間-時間時系列と時系列インプテーションの設定にretimeが容易に適応できることを示す。 最後に、実世界のデータセット上でReTimeを評価し、その効果を実証する。

Time series data appears in a variety of applications such as smart transportation and environmental monitoring. One of the fundamental problems for time series analysis is time series forecasting. Despite the success of recent deep time series forecasting methods, they require sufficient observation of historical values to make accurate forecasting. In other words, the ratio of the output length (or forecasting horizon) to the sum of the input and output lengths should be low enough (e.g., 0.3). As the ratio increases (e.g., to 0.8), the uncertainty for the forecasting accuracy increases significantly. In this paper, we show both theoretically and empirically that the uncertainty could be effectively reduced by retrieving relevant time series as references. In the theoretical analysis, we first quantify the uncertainty and show its connections to the Mean Squared Error (MSE). Then we prove that models with references are easier to learn than models without references since the retrieved references could reduce the uncertainty. To empirically demonstrate the effectiveness of the retrieval based time series forecasting models, we introduce a simple yet effective two-stage method, called ReTime consisting of a relational retrieval and a content synthesis. We also show that ReTime can be easily adapted to the spatial-temporal time series and time series imputation settings. Finally, we evaluate ReTime on real-world datasets to demonstrate its effectiveness.
翻訳日:2022-09-28 14:48:33 公開日:2022-09-27
# ニューラルネットワークが単純な解を見つける理由:幾何複雑性の正規化器

Why neural networks find simple solutions: the many regularizers of geometric complexity ( http://arxiv.org/abs/2209.13083v1 )

ライセンス: Link先を確認
Benoit Dherin, Michael Munn, Mihaela C. Rosca, and David G.T. Barrett(参考訳) 多くの文脈において、より単純なモデルはより複雑なモデルよりも好まれ、このモデルの複雑さの制御は、正規化、ハイパーパラメータチューニング、アーキテクチャ設計といった機械学習における多くの手法の目標である。 ディープラーニングでは、多くの伝統的な尺度がディープニューラルネットワークに自然に適さないため、複雑性制御の基盤となるメカニズムを理解することは困難である。 ここでは、離散ディリクレエネルギーを用いて計算したモデル関数の変動性の尺度である幾何学的複雑性の概念を展開する。 パラメータノルム正則化, スペクトルノルム正則化, 平坦性正則化, 暗勾配正則化, 雑音正則化, パラメータ初期化の選択といった多くの一般的な訓練ヒューリスティックが, 幾何学的複雑性を制御し, 深層学習モデルの振る舞いを特徴付ける統一的な枠組みを提供する。

In many contexts, simpler models are preferable to more complex models and the control of this model complexity is the goal for many methods in machine learning such as regularization, hyperparameter tuning and architecture design. In deep learning, it has been difficult to understand the underlying mechanisms of complexity control, since many traditional measures are not naturally suitable for deep neural networks. Here we develop the notion of geometric complexity, which is a measure of the variability of the model function, computed using a discrete Dirichlet energy. Using a combination of theoretical arguments and empirical results, we show that many common training heuristics such as parameter norm regularization, spectral norm regularization, flatness regularization, implicit gradient regularization, noise regularization and the choice of parameter initialization all act to control geometric complexity, providing a unifying framework in which to characterize the behavior of deep learning models.
翻訳日:2022-09-28 14:48:16 公開日:2022-09-27
# 皮質視覚モデルのための脳様ニューラルネットワークの適応

Adapting Brain-Like Neural Networks for Modeling Cortical Visual Prostheses ( http://arxiv.org/abs/2209.13561v1 )

ライセンス: Link先を確認
Jacob Granley, Alexander Riedel, Michael Beyeler(参考訳) 皮質人工装具は視覚皮質に埋め込まれ、電気刺激によって失われた視覚を回復しようとする装置である。 現在、これらのデバイスが提供するビジョンは限られており、刺激による視覚知覚を正確に予測することは難しい。 本稿では,視覚システムの有望なモデルとして出現した「脳様」畳み込みニューラルネットワーク(cnns)を用いて,この問題に対処することを提案する。 視覚補綴をモデル化するための脳様CNNの適用可能性を検討するため,電気刺激による知覚を予測する概念実証モデルを開発した。 神経学的にインスパイアされたcnn活性化のデコーディングは、実際の患者が報告したホスフェンと同等の、定性的に正確なホスフェンを生成する。 全体として、これは脳に似た電気刺激モデルを構築するための重要な第一歩であり、これは皮質の補綴によって提供される視覚の質を改善するだけでなく、視覚の神経コードに対する理解を深めるかもしれない。

Cortical prostheses are devices implanted in the visual cortex that attempt to restore lost vision by electrically stimulating neurons. Currently, the vision provided by these devices is limited, and accurately predicting the visual percepts resulting from stimulation is an open challenge. We propose to address this challenge by utilizing 'brain-like' convolutional neural networks (CNNs), which have emerged as promising models of the visual system. To investigate the feasibility of adapting brain-like CNNs for modeling visual prostheses, we developed a proof-of-concept model to predict the perceptions resulting from electrical stimulation. We show that a neurologically-inspired decoding of CNN activations produces qualitatively accurate phosphenes, comparable to phosphenes reported by real patients. Overall, this is an essential first step towards building brain-like models of electrical stimulation, which may not just improve the quality of vision provided by cortical prostheses but could also further our understanding of the neural code of vision.
翻訳日:2022-09-28 14:42:09 公開日:2022-09-27
# サイバーセキュリティのための人工知能:脅威、攻撃、緩和

Artificial Intelligence for Cybersecurity: Threats, Attacks and Mitigation ( http://arxiv.org/abs/2209.13454v1 )

ライセンス: Link先を確認
Abhilash Chakraborty, Anupam Biswas, Ajoy Kumar Khan(参考訳) デジタル時代の到来とともに、日々のタスクは技術進歩によって自動化される。 しかし、テクノロジーはまだ十分なツールや安全対策を提供していない。 インターネットが世界中の多くのデバイスと接続するにつれ、接続されたデバイスを保護するという問題はさらにスパイラルな速度で増加する。 データ盗難、ID盗難、不正取引、パスワードの侵害、システム侵害は日常的なニュースになりつつある。 サイバー攻撃の脅威の高まりは、最近の人工知能の進歩から恩恵を受けた。 AIは、科学と工学のほぼすべての分野に適用されている。 AIの介入は特定のタスクを自動化するだけでなく、多くの折り畳みによって効率を向上させる。 なので、このような恐ろしい拡散がサイバー犯罪に非常に好意的であることは明らかです。 したがって、従来のサイバー脅威と攻撃は今や「知的な」脅威である。 本稿では,サイバー攻撃に対する従来的およびインテリジェントな防御方法とともに,サイバーセキュリティとサイバー脅威について論じる。 さらに最後に、サイバーセキュリティにおけるAIの将来の可能性に関する議論を終わらせる。

With the advent of the digital era, every day-to-day task is automated due to technological advances. However, technology has yet to provide people with enough tools and safeguards. As the internet connects more-and-more devices around the globe, the question of securing the connected devices grows at an even spiral rate. Data thefts, identity thefts, fraudulent transactions, password compromises, and system breaches are becoming regular everyday news. The surging menace of cyber-attacks got a jolt from the recent advancements in Artificial Intelligence. AI is being applied in almost every field of different sciences and engineering. The intervention of AI not only automates a particular task but also improves efficiency by many folds. So it is evident that such a scrumptious spread would be very appetizing to cybercriminals. Thus the conventional cyber threats and attacks are now ``intelligent" threats. This article discusses cybersecurity and cyber threats along with both conventional and intelligent ways of defense against cyber-attacks. Furthermore finally, end the discussion with the potential prospects of the future of AI in cybersecurity.
翻訳日:2022-09-28 14:41:52 公開日:2022-09-27
# EditEval: テキスト改善のためのインストラクションベースのベンチマーク

EditEval: An Instruction-Based Benchmark for Text Improvements ( http://arxiv.org/abs/2209.13331v1 )

ライセンス: Link先を確認
Jane Dwivedi-Yu, Timo Schick, Zhengbao Jiang, Maria Lomeli, Patrick Lewis, Gautier Izacard, Edouard Grave, Sebastian Riedel, Fabio Petroni(参考訳) 現在までのテキスト生成の評価は、主にテキストの改善ではなく、逐次的に作成されたコンテンツに焦点を当てている。 しかし、書き込みは当然反復的で漸進的なプロセスであり、古い情報を修正したり、スタイルをより一貫性のあるものにしたりといった様々なモジュラースキルの専門知識を必要とする。 それでも、これらのスキルと編集能力を実行するモデルの能力に関する総合的な評価は、いまだに乏しいままである。 命令ベースのベンチマークと評価スイートで、高品質な既存のデータセットと新しいデータセットを活用し、テキストの凝集性やパラフレーズ化などの編集機能を自動評価する。 InstructGPT と PEER が最良であることを示す事前学習モデルをいくつか評価するが,情報中和や更新を行う場合,ほとんどのベースラインはSOTA の監督下にある。 分析の結果、タスク編集によく使われるメトリクスは必ずしも相関が良くなく、最もパフォーマンスの高いプロンプトの最適化は必ずしも異なるモデルに強い頑健さを伴わないことがわかった。 このベンチマークのリリースと公開のleaderboardチャレンジを通じて、反復的でより制御可能な編集が可能なモデルの開発における将来の研究を解き放ちたいと考えています。

Evaluation of text generation to date has primarily focused on content created sequentially, rather than improvements on a piece of text. Writing, however, is naturally an iterative and incremental process that requires expertise in different modular skills such as fixing outdated information or making the style more consistent. Even so, comprehensive evaluation of a model's capacity to perform these skills and the ability to edit remains sparse. This work presents EditEval: An instruction-based, benchmark and evaluation suite that leverages high-quality existing and new datasets for automatic evaluation of editing capabilities such as making text more cohesive and paraphrasing. We evaluate several pre-trained models, which shows that InstructGPT and PEER perform the best, but that most baselines fall below the supervised SOTA, particularly when neutralizing and updating information. Our analysis also shows that commonly used metrics for editing tasks do not always correlate well, and that optimization for prompts with the highest performance does not necessarily entail the strongest robustness to different models. Through the release of this benchmark and a publicly available leaderboard challenge, we hope to unlock future research in developing models capable of iterative and more controllable editing.
翻訳日:2022-09-28 14:41:26 公開日:2022-09-27
# ディープラーニングを用いた視覚分類のための脳波画像特徴抽出

EEG-based Image Feature Extraction for Visual Classification using Deep Learning ( http://arxiv.org/abs/2209.13090v1 )

ライセンス: Link先を確認
Alankrit Mishra, Nikhil Raj and Garima Bajwa(参考訳) 視覚データを分離することは可能だが、人間は何千万というサンプルを使わずに、1つの断片を調べるのに時間がかかる。 ディープラーニングモデルは、現代のコンピューティングの助けを借りて、大きな情報を効率的に処理する。 しかし、彼らの疑わしい意思決定プロセスは、かなりの懸念を引き起こした。 近年の研究では、脳波信号から画像特徴を抽出し、それらを標準画像特徴と組み合わせるための新しいアプローチが特定されている。 これらのアプローチは、ディープラーニングモデルをより解釈しやすくし、より少ないサンプルでモデルのより高速な収束を可能にする。 近年の研究では,脳波信号を画像として効率的に符号化し,深層学習モデルによる脳波のより微妙な理解を促進する方法が開発されている。 このような符号化手法の2つのバリエーションを用いて、39の画像クラスに対応する符号化された脳波信号を6つの被験者の階層化データセット上で70%の精度で分類した。 画像分類法と脳波特徴を組み合わせることにより,純深層学習法に比べて精度が82%向上した。

While capable of segregating visual data, humans take time to examine a single piece, let alone thousands or millions of samples. The deep learning models efficiently process sizeable information with the help of modern-day computing. However, their questionable decision-making process has raised considerable concerns. Recent studies have identified a new approach to extract image features from EEG signals and combine them with standard image features. These approaches make deep learning models more interpretable and also enables faster converging of models with fewer samples. Inspired by recent studies, we developed an efficient way of encoding EEG signals as images to facilitate a more subtle understanding of brain signals with deep learning models. Using two variations in such encoding methods, we classified the encoded EEG signals corresponding to 39 image classes with a benchmark accuracy of 70% on the layered dataset of six subjects, which is significantly higher than the existing work. Our image classification approach with combined EEG features achieved an accuracy of 82% compared to the slightly better accuracy of a pure deep learning approach; nevertheless, it demonstrates the viability of the theory.
翻訳日:2022-09-28 14:41:03 公開日:2022-09-27
# 擬似LiDARによる3次元流れの推定:点運動の推定によるギャップのブリッジ化

3D Scene Flow Estimation on Pseudo-LiDAR: Bridging the Gap on Estimating Point Motion ( http://arxiv.org/abs/2209.13130v1 )

ライセンス: Link先を確認
Chaokang Jiang, Guangming Wang, Yanzi Miao, and Hesheng Wang(参考訳) 3次元シーンフローは、3次元ユークリッド空間における現在の時点の点が、シーン内の全ての物体の非剛体運動を自律的に推測する能力を持つ点を次に流れるかを示す。 画像からシーンフローを推定する従来の手法には限界があり、光学的流れと不一致を別々に推定することで3次元シーンフローの全体的性質を分割する。 点雲からの3Dシーンフローの学習は、合成データと実データとのギャップとLiDAR点雲の空間性にも直面する。 本稿では,2次元画像からの3次元シーンフローの直接学習を実現するために,生成された深度マップを用いて明示的な3次元座標を求める。 3次元空間に2次元画素の密集特性を導入することにより、予測されたシーンフローの安定性を向上させる。 生成した3次元点雲のアウトリージは統計的手法により除去され、3次元シーンフロー推定タスクにおけるノイズ点の影響が弱まる。 より効果的な3次元シーンフローの教師なし学習を実現するために, 差分整合損失を提案する。 実世界の画像上での3次元シーンフローの自己教師付き学習法を,合成データセット上での学習法とLiDAR点雲上での学習法を比較した。 複数のシーンフロー指標の比較により,シーンフロー推定における擬似LiDAR点雲の導入の有効性と優位性を示した。

3D scene flow characterizes how the points at the current time flow to the next time in the 3D Euclidean space, which possesses the capacity to infer autonomously the non-rigid motion of all objects in the scene. The previous methods for estimating scene flow from images have limitations, which split the holistic nature of 3D scene flow by estimating optical flow and disparity separately. Learning 3D scene flow from point clouds also faces the difficulties of the gap between synthesized and real data and the sparsity of LiDAR point clouds. In this paper, the generated dense depth map is utilized to obtain explicit 3D coordinates, which achieves direct learning of 3D scene flow from 2D images. The stability of the predicted scene flow is improved by introducing the dense nature of 2D pixels into the 3D space. Outliers in the generated 3D point cloud are removed by statistical methods to weaken the impact of noisy points on the 3D scene flow estimation task. Disparity consistency loss is proposed to achieve more effective unsupervised learning of 3D scene flow. The proposed method of self-supervised learning of 3D scene flow on real-world images is compared with a variety of methods for learning on the synthesized dataset and learning on LiDAR point clouds. The comparisons of multiple scene flow metrics are shown to demonstrate the effectiveness and superiority of introducing pseudo-LiDAR point cloud to scene flow estimation.
翻訳日:2022-09-28 14:40:44 公開日:2022-09-27
# テキスト認識ネットワークのための高性能特徴抽出器の探索

Searching a High-Performance Feature Extractor for Text Recognition Network ( http://arxiv.org/abs/2209.13139v1 )

ライセンス: Link先を確認
Hui Zhang, Quanming Yao, James T. Kwok, Xiang Bai(参考訳) 特徴抽出器はテキスト認識(TR)において重要な役割を担っているが、そのアーキテクチャのカスタマイズは、高価な手作業の微調整のため、比較的少ない。 本研究では,ニューラルアーキテクチャサーチ(NAS)の成功に触発されて,適切な特徴抽出器を探すことを提案する。 優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。 空間は、空間モデルのための3次元構造空間と、シーケンシャルモデルのための変換ベース空間を含む。 空間は巨大で複雑な構造であるため、既存のnasアルゴリズムは適用できない。 空間内を効率的に探索する2段階のアルゴリズムを提案する。 第1段階では,空間を複数のブロックに分割し,補助ヘッドの助けを借りて各ブロックを段階的に訓練する。 遅延制約を第2ステージに導入し,自然勾配降下によってトレーニングスーパーネットからサブネットワークを探索する。 実験では、設計空間、探索アルゴリズム、探索アーキテクチャをよりよく理解するために、一連のアブレーション研究が行われた。 また,手書きタスクとシーンTRタスクの両方において,提案手法と最先端タスクを比較した。 その結果,より低レイテンシで認識性能を向上できることがわかった。

Feature extractor plays a critical role in text recognition (TR), but customizing its architecture is relatively less explored due to expensive manual tweaking. In this work, inspired by the success of neural architecture search (NAS), we propose to search for suitable feature extractors. We design a domain-specific search space by exploring principles for having good feature extractors. The space includes a 3D-structured space for the spatial model and a transformed-based space for the sequential model. As the space is huge and complexly structured, no existing NAS algorithms can be applied. We propose a two-stage algorithm to effectively search in the space. In the first stage, we cut the space into several blocks and progressively train each block with the help of an auxiliary head. We introduce the latency constraint into the second stage and search sub-network from the trained supernet via natural gradient descent. In experiments, a series of ablation studies are performed to better understand the designed space, search algorithm, and searched architectures. We also compare the proposed method with various state-of-the-art ones on both hand-written and scene TR tasks. Extensive results show that our approach can achieve better recognition performance with less latency.
翻訳日:2022-09-28 14:40:18 公開日:2022-09-27
# 屋内移動エージェントのためのマルチモーダルマルチタスクシーン理解モデル

Towards Multimodal Multitask Scene Understanding Models for Indoor Mobile Agents ( http://arxiv.org/abs/2209.13156v1 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Hanlin Goh, Ali Farhadi, Jian Zhang(参考訳) パーソナライズされた移動体エージェントの認識システムは,3次元空間の理解,目的性の獲得,人間の行動分析などが可能な屋内シーン理解モデルを開発する必要がある。 にもかかわらず、この方向は屋外環境(歩行者予測、車検出、交通標識認識などを含む自律運転システムなど)のモデルと比較して、十分に探索されていない。 本稿ではまず,実世界の屋内環境におけるラベル付きデータの不足や,異種情報ソース(rgb画像やlidarポイントクラウドなど)の融合,さまざまな出力セット(3dオブジェクト位置,深度推定,人間のポーズなど)の関係のモデル化,計算効率といった課題について論じる。 次に,MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。 MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。 例えば、ベンチマークARKitScenesデータセットでは、ベースラインの3Dオブジェクト検出結果を11.7%改善しています。

The perception system in personalized mobile agents requires developing indoor scene understanding models, which can understand 3D geometries, capture objectiveness, analyze human behaviors, etc. Nonetheless, this direction has not been well-explored in comparison with models for outdoor environments (e.g., the autonomous driving system that includes pedestrian prediction, car detection, traffic sign recognition, etc.). In this paper, we first discuss the main challenge: insufficient, or even no, labeled data for real-world indoor environments, and other challenges such as fusion between heterogeneous sources of information (e.g., RGB images and Lidar point clouds), modeling relationships between a diverse set of outputs (e.g., 3D object locations, depth estimation, and human poses), and computational efficiency. Then, we describe MMISM (Multi-modality input Multi-task output Indoor Scene understanding Model) to tackle the above challenges. MMISM considers RGB images as well as sparse Lidar points as inputs and 3D object detection, depth completion, human pose estimation, and semantic segmentation as output tasks. We show that MMISM performs on par or even better than single-task models; e.g., we improve the baseline 3D object detection results by 11.7% on the benchmark ARKitScenes dataset.
翻訳日:2022-09-28 14:40:00 公開日:2022-09-27
# 機械学習によるlocoデータセットの批判的評価

Critical Evaluation of LOCO dataset with Machine Learning ( http://arxiv.org/abs/2209.13499v1 )

ライセンス: Link先を確認
Recep Savas, Johannes Hinckeldeyn(参考訳) 目的: 自動化システムの機械学習技術によって、オブジェクト検出が急速に進化している。 アルゴリズムのトレーニングには、十分に準備されたデータが必要です。 そこで本論文の目的は,ロジスティックス・オブジェクト・イン・コンテキスト(LOCO)データセットの再評価である。 方法論:locoデータセットの評価には3段階の実験的な研究アプローチを用いる。 まず、GitHubのイメージを分析してデータセットをよりよく理解した。 第二に、Google Drive Cloudはアルゴリズムの実装とトレーニングを再考するためのトレーニング目的に使用された。 最後に、LOCOデータセットについて、オリジナルの出版物と比較して同じトレーニング結果が得られるかどうかを検討した。 結果: 対象物検出における平均的精度は64.54%であり, LOCO著者の初期調査から顕著に増加し, 41%となった。 しかし、特にオブジェクトタイプのフォークリフトやパレットトラックで改善の可能性が見られる。 オリジン性: 本論文は, LOCOデータセットの生体内検出のための最初の臨界複製研究について述べる。 LOCOに基づくより優れたハイパーパラメータによるトレーニングは、オリジナルの出版物よりも高い精度を達成できることを示している。 しかし、LOCOデータセットを改善する余地もある。

Purpose: Object detection is rapidly evolving through machine learning technology in automation systems. Well prepared data is necessary to train the algorithms. Accordingly, the objective of this paper is to describe a re-evaluation of the so-called Logistics Objects in Context (LOCO) dataset, which is the first dataset for object detection in the field of intralogistics. Methodology: We use an experimental research approach with three steps to evaluate the LOCO dataset. Firstly, the images on GitHub were analyzed to understand the dataset better. Secondly, Google Drive Cloud was used for training purposes to revisit the algorithmic implementation and training. Lastly, the LOCO dataset was examined, if it is possible to achieve the same training results in comparison to the original publications. Findings: The mean average precision, a common benchmark in object detection, achieved in our study was 64.54%, and shows a significant increase from the initial study of the LOCO authors, achieving 41%. However, improvement potential is seen specifically within object types of forklifts and pallet truck. Originality: This paper presents the first critical replication study of the LOCO dataset for object detection in intralogistics. It shows that the training with better hyperparameters based on LOCO can even achieve a higher accuracy than presented in the original publication. However, there is also further room for improving the LOCO dataset.
翻訳日:2022-09-28 14:39:37 公開日:2022-09-27
# 衛星画像を用いた高効率車種分類ニューラルネットワークDense-TNT

Dense-TNT: Efficient Vehicle Type Classification Neural Network Using Satellite Imagery ( http://arxiv.org/abs/2209.13500v1 )

ライセンス: Link先を確認
Ruikang Luo, Yaofeng Song, Han Zhao, Yicheng Zhang, Yi Zhang, Nanbin Zhao, Liping Huang and Rong Su(参考訳) 正確な車両型分類は、インテリジェント輸送システムにおいて重要な役割を果たす。 支配者が道路状況を理解することは重要であり、通常、交通渋滞の緩和に対応するために交通光制御システムに寄与する。 航空写真やリモートセンシングデータなどの新しい技術や包括的なデータソースは、よりリッチで高次元な情報を提供する。 また、深層ニューラルネットワーク技術の急速な発展により、画像に基づく車両分類手法は、データ処理時の対象的特徴をより適切に抽出することができる。 近年,この問題を解決するためにいくつかのディープラーニングモデルが提案されている。 しかし、従来の純粋畳み込みに基づくアプローチは、グローバルな情報抽出に制約があり、悪天候のような複雑な環境は認識能力を著しく制限している。 本研究では,トランスフォーマーニューラルネットワーク(Dense-TNT)層におけるDensely Connected Convolutional Network(DenseNet)層とトランスフォーマー(TNT)層におけるトランスフォーマーを積み重ねることで,車種分類のための新しいDensely Connected Convolutional Transformer(Dense-TNT)フレームワークを提案する。 認識能力評価のために3つの地域車両データと4つの異なる気象条件を配置する。 実験により,重霧条件下においても,崩壊の少ない車両分類モデルの認識能力が検証された。

Accurate vehicle type classification serves a significant role in the intelligent transportation system. It is critical for ruler to understand the road conditions and usually contributive for the traffic light control system to response correspondingly to alleviate traffic congestion. New technologies and comprehensive data sources, such as aerial photos and remote sensing data, provide richer and high-dimensional information. Also, due to the rapid development of deep neural network technology, image based vehicle classification methods can better extract underlying objective features when processing data. Recently, several deep learning models have been proposed to solve the problem. However, traditional pure convolutional based approaches have constraints on global information extraction, and the complex environment, such as bad weather, seriously limits the recognition capability. To improve the vehicle type classification capability under complex environment, this study proposes a novel Densely Connected Convolutional Transformer in Transformer Neural Network (Dense-TNT) framework for the vehicle type classification by stacking Densely Connected Convolutional Network (DenseNet) and Transformer in Transformer (TNT) layers. Three-region vehicle data and four different weather conditions are deployed for recognition capability evaluation. Experimental findings validate the recognition ability of our proposed vehicle classification model with little decay, even under the heavy foggy weather condition.
翻訳日:2022-09-28 14:39:20 公開日:2022-09-27
# マルチタスクディープラーニングモデルの設計展望とその応用

Design Perspectives of Multitask Deep Learning Models and Applications ( http://arxiv.org/abs/2209.13444v1 )

ライセンス: Link先を確認
Yeshwant Singh, Anupam Biswas, Angshuman Bora, Debashish Malakar, Subham Chakraborty, Suman Bera(参考訳) 近年,マルチタスク学習は様々な分野で大きな成功を収めている。 単一のモデルトレーニングは、長年にわたって素晴らしい結果を約束してきたが、メトリクスをよりよく見積もるのに役立つ貴重な情報を無視している。 学習関連タスクでは、マルチタスク学習によりモデルをより一般化することができる。 我々は,関連するタスク間の特徴の共有と帰納的転送学習により,マルチタスクモデルの機能マッピングを強化する。 また,マルチタスク学習のメリットを享受するために,タスク間のタスク関係の学習にも関心があります。 本章では,既存のマルチタスクモデルを可視化し,その性能を比較すること,マルチタスクモデルの性能を評価する方法,各ドメインにおけるこれらのモデルの設計と実装における問題点,それらのメリットとマイルストーンについて議論することを目的とする。

In recent years, multi-task learning has turned out to be of great success in various applications. Though single model training has promised great results throughout these years, it ignores valuable information that might help us estimate a metric better. Under learning-related tasks, multi-task learning has been able to generalize the models even better. We try to enhance the feature mapping of the multi-tasking models by sharing features among related tasks and inductive transfer learning. Also, our interest is in learning the task relationships among various tasks for acquiring better benefits from multi-task learning. In this chapter, our objective is to visualize the existing multi-tasking models, compare their performances, the methods used to evaluate the performance of the multi-tasking models, discuss the problems faced during the design and implementation of these models in various domains, and the advantages and milestones achieved by them
翻訳日:2022-09-28 14:33:28 公開日:2022-09-27
# AdaFocusV3:統合時空間動的ビデオ認識について

AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition ( http://arxiv.org/abs/2209.13465v1 )

ライセンス: Link先を確認
Yulin Wang, Yang Yue, Xinhong Xu, Ali Hassani, Victor Kulikov, Nikita Orlov, Shiji Song, Humphrey Shi, Gao Huang(参考訳) 近年の研究では、時間的および空間的冗長性の低減は、例えば、計算の大部分をフレームのタスク関連サブセットやフレームの最も価値のある画像領域に割り当てるといった、効率的なビデオ認識への効果的なアプローチであることが明らかになっている。 しかし、現存するほとんどの作品では、どちらの冗長性も通常別の欠落を伴ってモデル化される。 本稿では,最近提案されたadafocusv2アルゴリズム上での空間時空間動的計算の統一的定式化について検討し,adafocusv3フレームワークの改良に寄与する。 提案手法は,小型だが情報に富む3Dビデオキューブ上でのみ高価な高容量ネットワークを動作させることにより,計算コストを削減する。 これらの立方体はフレームの高さ、幅、ビデオの長さで形成された空間から収穫され、その位置はサンプルごとに軽量なポリシーネットワークで適応的に決定される。 テスト時には、各映像に対応するキューブの数を動的に設定する、すなわち、十分に信頼できる予測が作成されるまで、ビデオキューブを順次処理する。 特に、AdaFocusV3は、未分化の収穫操作と深い特徴の補間を近似することにより、効果的に訓練することができる。 6つのベンチマークデータセット(ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2, Diving48)の大規模な実験結果から,我々のモデルは競争ベースラインよりもはるかに効率的であることが示された。

Recent research has revealed that reducing the temporal and spatial redundancy are both effective approaches towards efficient video recognition, e.g., allocating the majority of computation to a task-relevant subset of frames or the most valuable image regions of each frame. However, in most existing works, either type of redundancy is typically modeled with another absent. This paper explores the unified formulation of spatial-temporal dynamic computation on top of the recently proposed AdaFocusV2 algorithm, contributing to an improved AdaFocusV3 framework. Our method reduces the computational cost by activating the expensive high-capacity network only on some small but informative 3D video cubes. These cubes are cropped from the space formed by frame height, width, and video duration, while their locations are adaptively determined with a light-weighted policy network on a per-sample basis. At test time, the number of the cubes corresponding to each video is dynamically configured, i.e., video cubes are processed sequentially until a sufficiently reliable prediction is produced. Notably, AdaFocusV3 can be effectively trained by approximating the non-differentiable cropping operation with the interpolation of deep features. Extensive empirical results on six benchmark datasets (i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2 and Diving48) demonstrate that our model is considerably more efficient than competitive baselines.
翻訳日:2022-09-28 14:33:14 公開日:2022-09-27
# Mine yOur owN anatomy: Revising Medical Image Segmentation with Extremely Limited Labels (特集 バイオサイバネティックスとバイオサイバネティックス)

Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels ( http://arxiv.org/abs/2209.13476v1 )

ライセンス: Link先を確認
Chenyu You, Weicheng Dai, Fenglin Liu, Haoran Su, Xiaoran Zhang, Lawrence Staib, James S. Duncan(参考訳) 近年のコントラスト学習の研究は, 医療画像セグメンテーションの文脈において, ほとんどラベルを活用せず, 優れた成果を上げている。 既存の手法は主にインスタンス識別と不変写像に焦点を当てている。 しかし、それらは3つの共通の落とし穴に直面している: (1) テールネス: 医療画像データは通常、暗黙のロングテールクラス分布に従う。 トレーニングですべてのピクセルを盲目的に活用することで、データの不均衡やパフォーマンスの低下につながる可能性がある。 (2) 一貫性: セグメンテーションモデルが、異なる解剖学的特徴間のクラス内変異によって有意義かつ一貫性のある解剖学的特徴を学習したかどうか、(3) 多様性: データセット全体におけるスライス内相関の注目度は大幅に低下している。 これは、異なる解剖学的視点から類似しているが異なるサンプルを発見するために、データセット自体を戦略的に利用するための原則に基づくアプローチを求める動機付けとなります。 本稿では,Mine yOur owN Anatomy (MONA) と呼ばれる新しい半教師型医用画像分割フレームワークを紹介し,その3つの貢献について述べる。 まず、先行研究は全てのピクセルがモデルトレーニングに等しく重要であると主張する。我々は、このだけでは、主に監督信号の欠如のために、有意義な解剖学的特徴を定義することは不可能であると実証的に観察する。 より強力なデータ拡張と最も近い隣人を使って、不変性を学ぶための2つの簡単なソリューションを示します。 第2に,医療画像の解剖学的特徴の集合体への分解を教師なしで行うことをモデルに促す目的の集合を構築した。 最後に,ラベル付き設定の異なる3つのベンチマークデータセットの広範な結果から,提案するmonaの有効性が検証された。

Recent studies on contrastive learning have achieved remarkable performance solely by leveraging few labels in the context of medical image segmentation. Existing methods mainly focus on instance discrimination and invariant mapping. However, they face three common pitfalls: (1) tailness: medical image data usually follows an implicit long-tail class distribution. Blindly leveraging all pixels in training hence can lead to the data imbalance issues, and cause deteriorated performance; (2) consistency: it remains unclear whether a segmentation model has learned meaningful and yet consistent anatomical features due to the intra-class variations between different anatomical features; and (3) diversity: the intra-slice correlations within the entire dataset have received significantly less attention. This motivates us to seek a principled approach for strategically making use of the dataset itself to discover similar yet distinct samples from different anatomical views. In this paper, we introduce a novel semi-supervised medical image segmentation framework termed Mine yOur owN Anatomy (MONA), and make three contributions. First, prior work argues that every pixel equally matters to the model training; we observe empirically that this alone is unlikely to define meaningful anatomical features, mainly due to lacking the supervision signal. We show two simple solutions towards learning invariances - through the use of stronger data augmentations and nearest neighbors. Second, we construct a set of objectives that encourage the model to be capable of decomposing medical images into a collection of anatomical features in an unsupervised manner. Lastly, our extensive results on three benchmark datasets with different labeled settings validate the effectiveness of our proposed MONA which achieves new state-of-the-art under different labeled settings.
翻訳日:2022-09-28 14:32:45 公開日:2022-09-27
# ニューラルネットワークにおける形式的概念観

Formal Conceptual Views in Neural Networks ( http://arxiv.org/abs/2209.13517v1 )

ライセンス: Link先を確認
Johannes Hirth and Tom Hanika(参考訳) ニューラルネットワークモデルの説明は、現在に至るまで解決されていない課題である。 これは特に高次元および複雑なデータに当てはまる。 本稿では,ニューラルネットワークの概念的視点,特に多値と記号的視点の2つの概念を紹介する。 どちらも、人間のAIアナリストがネットワークのニューロンが捉えた知識に関する深い洞察を把握できるようにする、新しい分析方法を提供している。 我々は,imagenet と fruit-360 データセットの異なる実験を通して,新たな視点の概念表現性をテストする。 さらに,異なる学習アーキテクチャの概念的類似性を,ビューがどの程度定量化できるかを示す。 最後に,人間の理解可能なルールの学習に概念的視点を応用できることを実証する。 まとめると、私たちの研究は、ニューラルネットワークモデルをグローバルに説明する最も関連するタスクに寄与します。

Explaining neural network models is a challenging task that remains unsolved in its entirety to this day. This is especially true for high dimensional and complex data. With the present work, we introduce two notions for conceptual views of a neural network, specifically a many-valued and a symbolic view. Both provide novel analysis methods to enable a human AI analyst to grasp deeper insights into the knowledge that is captured by the neurons of a network. We test the conceptual expressivity of our novel views through different experiments on the ImageNet and Fruit-360 data sets. Furthermore, we show to which extent the views allow to quantify the conceptual similarity of different learning architectures. Finally, we demonstrate how conceptual views can be applied for abductive learning of human comprehensible rules from neurons. In summary, with our work, we contribute to the most relevant task of globally explaining neural networks models.
翻訳日:2022-09-28 14:32:07 公開日:2022-09-27
# 農業分野における人間検出のための領域シフトの評価と緩和のための新しいデータセット

A Novel Dataset for Evaluating and Alleviating Domain Shift for Human Detection in Agricultural Fields ( http://arxiv.org/abs/2209.13202v1 )

ライセンス: Link先を確認
Paraskevi Nousi, Emmanouil Mpampis, Nikolaos Passalis, Ole Green, Anastasios Tefas(参考訳) 本稿では、トレーニングセットの分布外のデータにデプロイする場合に、よく知られたオブジェクト検出データセットでトレーニングされた人間検出モデルにドメインシフトが与える影響を評価し、対象ドメインから利用可能なアノテーションに基づいてそのような現象を緩和する方法を提案する。 具体的には、ロボットティプラットフォームを用いて、農業ロボット応用の文脈で収集されたOpenDR Humans in Fieldデータセットを紹介し、そのようなアプリケーションにおけるドメインシフトの影響を定量的に測定する。 さらに,訓練データに関する3つの異なるシナリオを評価し,手動アノテーションの重要性について検討した。 a) 陰性なサンプル、つまりヒトの描写がないこと。 b) 陽性サンプルのみ、すなわちヒトを含む画像のみ、及び c) 陰性試料及び陽性試料の両方 以上の結果から, 負のサンプルのみを用いた場合であっても, トレーニングプロセスにさらなる考慮を加えると, 良好な性能が得られることが示唆された。 また, ポジティヴサンプルは, 特にローカライゼーションの点で, 性能が向上することがわかった。 データセットはhttps://github.com/opendr-eu/datasetsからダウンロードできる。

In this paper we evaluate the impact of domain shift on human detection models trained on well known object detection datasets when deployed on data outside the distribution of the training set, as well as propose methods to alleviate such phenomena based on the available annotations from the target domain. Specifically, we introduce the OpenDR Humans in Field dataset, collected in the context of agricultural robotics applications, using the Robotti platform, allowing for quantitatively measuring the impact of domain shift in such applications. Furthermore, we examine the importance of manual annotation by evaluating three distinct scenarios concerning the training data: a) only negative samples, i.e., no depicted humans, b) only positive samples, i.e., only images which contain humans, and c) both negative and positive samples. Our results indicate that good performance can be achieved even when using only negative samples, if additional consideration is given to the training process. We also find that positive samples increase performance especially in terms of better localization. The dataset is publicly available for download at https://github.com/opendr-eu/datasets.
翻訳日:2022-09-28 14:31:56 公開日:2022-09-27
# 強化学習を用いた協調共進化ポインターネットワークによる大規模セールスマン問題の遺伝的アルゴリズムの高速化

Accelerating the Genetic Algorithm for Large-scale Traveling Salesman Problems by Cooperative Coevolutionary Pointer Network with Reinforcement Learning ( http://arxiv.org/abs/2209.13077v1 )

ライセンス: Link先を確認
Rui Zhong and Enzhi Zhang and Masaharu Munetomo(参考訳) 本稿では,CCPNRL-GAという大規模トラベリングセールスマン問題(LSTSP)を解決するための2段階最適化手法を提案する。 まず、エリートとしての優れた個人参加は、最適化の収束を加速できるという仮説を立てる。 この仮説に基づいて、第1段階で都市をクラスタ化し、LSTSPを複数のサブコンポーネントに分解し、各サブコンポーネントを再利用可能なポインタネットワーク(PtrNet)で最適化する。 サブコンポーネント最適化の後、全てのサブツールを組み合わせて有効な解を作り、この解は最適化の第2段階のGAと結合する。 提案手法を10 LSTSPで検証し,従来のEAと比較した。 実験結果から,エリート個体の参加はLSTSPの最適化を大幅に加速する可能性が示唆された。

In this paper, we propose a two-stage optimization strategy for solving the Large-scale Traveling Salesman Problems (LSTSPs) named CCPNRL-GA. First, we hypothesize that the participation of a well-performed individual as an elite can accelerate the convergence of optimization. Based on this hypothesis, in the first stage, we cluster the cities and decompose the LSTSPs into multiple subcomponents, and each subcomponent is optimized with a reusable Pointer Network (PtrNet). After subcomponents optimization, we combine all sub-tours to form a valid solution, this solution joins the second stage of optimization with GA. We validate the performance of our proposal on 10 LSTSPs and compare it with traditional EAs. Experimental results show that the participation of an elite individual can greatly accelerate the optimization of LSTSPs, and our proposal has broad prospects for dealing with LSTSPs.
翻訳日:2022-09-28 14:31:40 公開日:2022-09-27
# BanglaSarc: サルカスム検出のためのデータセット

BanglaSarc: A Dataset for Sarcasm Detection ( http://arxiv.org/abs/2209.13461v1 )

ライセンス: Link先を確認
Tasnim Sakib Apon, Ramisa Anan, Elizabeth Antora Modhu, Arjun Suter, Ifrit Jamal Sneha, MD. Golam Rabiul Alam(参考訳) バングラ語は世界で最も広く話されている言語の一つであり、ソーシャルメディアの世界でもバングラ語の使用が増えている。 Sarcasmは、今日のソーシャルメディアプラットフォームで広く採用されている、ネガティブな動機に基づく肯定的な発言や発言である。 過去数年間、英語におけるサーカズム検出は大幅に改善されてきたが、バングラサーカズム検出に関する状況は変わっていない。 その結果,バングラにおけるサルカズムの同定は依然として困難であり,高品質なデータの欠如が大きな寄与要因となっている。 本稿は,バングラ文字データサーカズム検出用に特別に構築されたデータセットであるbanglasarcを提案する。 このデータセットには5112のコメント/統計と、facebook、youtubeなどさまざまなオンラインソーシャルプラットフォームから収集されたコンテンツと、いくつかのオンラインブログが含まれている。 ベンガル語における分類されたコメントの収集量が限られているため、このデータセットは皮肉を識別し、人々の感情を認識し、さまざまな種類のベンガル表現を検知する研究に役立つだろう。 データセットはhttps://www.kaggle.com/datasets/sakibapon/banglasarcで公開されている。

Being one of the most widely spoken language in the world, the use of Bangla has been increasing in the world of social media as well. Sarcasm is a positive statement or remark with an underlying negative motivation that is extensively employed in today's social media platforms. There has been a significant improvement in sarcasm detection in English over the previous many years, however the situation regarding Bangla sarcasm detection remains unchanged. As a result, it is still difficult to identify sarcasm in bangla, and a lack of high-quality data is a major contributing factor. This article proposes BanglaSarc, a dataset constructed specifically for bangla textual data sarcasm detection. This dataset contains of 5112 comments/status and contents collected from various online social platforms such as Facebook, YouTube, along with a few online blogs. Due to the limited amount of data collection of categorized comments in Bengali, this dataset will aid in the of study identifying sarcasm, recognizing people's emotion, detecting various types of Bengali expressions, and other domains. The dataset is publicly available at https://www.kaggle.com/datasets/sakibapon/banglasarc.
翻訳日:2022-09-28 14:31:23 公開日:2022-09-27
# 実生活課題に対する情報抽出と人間ロボット対話:MobileCSデータセットを用いたベースライン研究

Information Extraction and Human-Robot Dialogue towards Real-life Tasks: A Baseline Study with the MobileCS Dataset ( http://arxiv.org/abs/2209.13464v1 )

ライセンス: Link先を確認
Hong Liu, Hao Peng, Zhijian Ou, Juanzi Li, Yi Huang and Junlan Feng(参考訳) 近年,Wizard-of-Ozシミュレーションゲームを通じて収集されたタスク指向対話(TOD)データセットのクラスが統合されている。 しかし、ウィザード・オブ・ozデータは実際にはシミュレーションデータであり、より騒がしくカジュアルな実際の会話とは根本的に異なる。 最近、SereTODチャレンジが組織化され、実際のユーザとChina Mobileのカスタマーサービススタッフの間の実際の対話書き起こしで構成されるMobileCSデータセットがリリースされた。 MobileCSデータセットに基づいて、SereTODチャレンジには2つのタスクがあり、対話システム自体の構築を評価するだけでなく、TODの知識基盤を構築する上で欠かせないダイアログの書き起こしからの情報も抽出する。 本稿では主に,MobileCSデータセットを用いた2つのタスクのベースラインスタディを示す。 本稿では,2つのベースラインの構築方法,問題点,その結果について紹介する。 我々は,人間のロボット対話システムを構築するために,このベースラインが今後のエキサイティングな研究を促進することを期待する。

Recently, there have merged a class of task-oriented dialogue (TOD) datasets collected through Wizard-of-Oz simulated games. However, the Wizard-of-Oz data are in fact simulated data and thus are fundamentally different from real-life conversations, which are more noisy and casual. Recently, the SereTOD challenge is organized and releases the MobileCS dataset, which consists of real-world dialog transcripts between real users and customer-service staffs from China Mobile. Based on the MobileCS dataset, the SereTOD challenge has two tasks, not only evaluating the construction of the dialogue system itself, but also examining information extraction from dialog transcripts, which is crucial for building the knowledge base for TOD. This paper mainly presents a baseline study of the two tasks with the MobileCS dataset. We introduce how the two baselines are constructed, the problems encountered, and the results. We anticipate that the baselines can facilitate exciting future research to build human-robot dialogue systems for real-life tasks.
翻訳日:2022-09-28 14:31:04 公開日:2022-09-27
# データ効率の良い画像分類のための遺伝的プログラミングに基づく進化的深層学習

Genetic Programming-Based Evolutionary Deep Learning for Data-Efficient Image Classification ( http://arxiv.org/abs/2209.13233v1 )

ライセンス: Link先を確認
Ying Bi, Bing Xue, and Mengjie Zhang(参考訳) データ効率のよい画像分類は、小さなトレーニングデータを用いた画像分類の解決を目的とした課題である。 ニューラルネットワークベースのディープラーニング手法は、画像分類に有効であるが、通常は大規模なトレーニングデータを必要とし、ネットワークアーキテクチャの設計に専門知識を必要としたり、解釈容易性に乏しいといった大きな制限がある。 進化的ディープラーニングは、進化的計算とディープラーニングを組み合わせた最近のホットトピックである。 しかし、進化的ディープラーニングの手法のほとんどはニューラルネットワークのアーキテクチャの進化に焦点をあてている。 そこで本研究では,データ効率のよい画像分類のための遺伝的プログラミングに基づく進化的深層学習手法を提案する。 この新しいアプローチは、画像と分類領域の両方から多くの重要な演算子を使用して、可変長モデルを自動的に進化させることができる。 カラー画像やグレースケール画像から異なるタイプの画像特徴を学習し、画像分類のための効果的で多様なアンサンブルを構築することができる。 フレキシブルなマルチレイヤ表現により、異なるタスクのための浅いモデルや深いツリーを自動的に構築し、複数の内部ノードを介して入力データに効果的な変換を行うことができる。 新しいアプローチは、異なるトレーニングセットサイズで5つの画像分類タスクを解決するために適用される。 その結果,ほとんどの場合,データ効率のよい画像分類のためのディープラーニング手法よりも優れた性能が得られることがわかった。 深い分析により、新しいアプローチは収束性が高く、高い解釈性、異なる長さ/サイズ/形状、優れた転送性を持つモデルを進化させることが示された。

Data-efficient image classification is a challenging task that aims to solve image classification using small training data. Neural network-based deep learning methods are effective for image classification, but they typically require large-scale training data and have major limitations such as requiring expertise to design network architectures and having poor interpretability. Evolutionary deep learning is a recent hot topic that combines evolutionary computation with deep learning. However, most evolutionary deep learning methods focus on evolving architectures of neural networks, which still suffer from limitations such as poor interpretability. To address this, this paper proposes a new genetic programming-based evolutionary deep learning approach to data-efficient image classification. The new approach can automatically evolve variable-length models using many important operators from both image and classification domains. It can learn different types of image features from colour or gray-scale images, and construct effective and diverse ensembles for image classification. A flexible multi-layer representation enables the new approach to automatically construct shallow or deep models/trees for different tasks and perform effective transformations on the input data via multiple internal nodes. The new approach is applied to solve five image classification tasks with different training set sizes. The results show that it achieves better performance in most cases than deep learning methods for data-efficient image classification. A deep analysis shows that the new approach has good convergence and evolves models with high interpretability, different lengths/sizes/shapes, and good transferability.
翻訳日:2022-09-28 14:24:28 公開日:2022-09-27
# 多様なタスクに対する効率的な非パラメトリック最適探索

Efficient Non-Parametric Optimizer Search for Diverse Tasks ( http://arxiv.org/abs/2209.13575v1 )

ライセンス: Link先を確認
Ruochen Wang, Yuanhao Xiong, Minhao Cheng, Cho-Jui Hsieh(参考訳) フルスタックのAutoMLシステムでは,オプティマイザの効率的かつ自動設計が重要な役割を担っている。 しかし、オプティマイザ探索における先行手法は、スケーラビリティ、生成性、サンプル効率によって制限されることが多い。 オプティマイザ検索の研究と応用の民主化を目標として,関心のあるタスクを直接検索可能な,効率的でスケーラブルで汎用的なフレームワークを提案する。 まず,オプティマイザ更新がグラデーションに適用される数学的表現であることを示す。 基礎となる数学表現の自然木構造に触発されて、オプティマイザの空間をスーパーツリーに再配置し、各パスがオプティマイザをエンコードする。 このように、オプティマイザ探索は自然に経路探索問題として定式化され、様々な確立された木横断法を探索アルゴリズムとして用いることができる。 我々は,モンテカルロ法を木探索に適用し,再試行サンプリングと等価形状検出を施し,オプティマイザ更新ルールの特性を活用し,標本効率をさらに向上する。 アルゴリズムをベンチマークするタスクセットを多種多様に提供し、128評価で、提案フレームワークは、人間が設計した最適化手法と事前最適化手法を超越した最適化手法を見つけることができることを示した。

Efficient and automated design of optimizers plays a crucial role in full-stack AutoML systems. However, prior methods in optimizer search are often limited by their scalability, generability, or sample efficiency. With the goal of democratizing research and application of optimizer search, we present the first efficient, scalable and generalizable framework that can directly search on the tasks of interest. We first observe that optimizer updates are fundamentally mathematical expressions applied to the gradient. Inspired by the innate tree structure of the underlying math expressions, we re-arrange the space of optimizers into a super-tree, where each path encodes an optimizer. This way, optimizer search can be naturally formulated as a path-finding problem, allowing a variety of well-established tree traversal methods to be used as the search algorithm. We adopt an adaptation of the Monte Carlo method to tree search, equipped with rejection sampling and equivalent- form detection that leverage the characteristics of optimizer update rules to further boost the sample efficiency. We provide a diverse set of tasks to benchmark our algorithm and demonstrate that, with only 128 evaluations, the proposed framework can discover optimizers that surpass both human-designed counterparts and prior optimizer search methods.
翻訳日:2022-09-28 14:23:47 公開日:2022-09-27
# ディープラーニングに基づく画像再構成のためのスケーリング法則

Scaling Laws For Deep Learning Based Image Reconstruction ( http://arxiv.org/abs/2209.13435v1 )

ライセンス: Link先を確認
Tobit Klug and Reinhard Heckel(参考訳) ディープニューラルネットワークは、(ノイズ)画像の測定をクリーンイメージにマッピングするためにエンドツーエンドを訓練し、様々な線形逆問題に優れた性能を発揮する。 現在の手法は数百から数千の画像でしか訓練されないが、ディープネットワークが他のドメインで訓練されている数百万の例とは対照的である。 本研究は,トレーニングセットサイズをスケールアップすることで,大きなパフォーマンス向上が期待できるかどうかを考察する。 ネットワークサイズを最適にスケーリングしながら,画像デノイング,加速磁気共鳴イメージング,超高分解能・経験的に再構成品質をトレーニングセットサイズの関数として決定する。 3つのタスクすべてにおいて、当初急激なパワールールのスケーリングは、適度なトレーニングセットサイズですでに大幅に遅くなっています。 これらのスケーリング法則の補間は、何百万もの画像のトレーニングでさえ、パフォーマンスが大幅に向上しないことを示している。 予測された挙動を理解するために,初期停止勾配降下で学習した線形推定器の性能を解析的に特徴付ける。 その結果、信号モデルの学習によって引き起こされるエラーがエラーフロアに対して小さいという直観が定式化され、より多くのトレーニング例ではパフォーマンスが向上しない。

Deep neural networks trained end-to-end to map a measurement of a (noisy) image to a clean image perform excellent for a variety of linear inverse problems. Current methods are only trained on a few hundreds or thousands of images as opposed to the millions of examples deep networks are trained on in other domains. In this work, we study whether major performance gains are expected from scaling up the training set size. We consider image denoising, accelerated magnetic resonance imaging, and super-resolution and empirically determine the reconstruction quality as a function of training set size, while optimally scaling the network size. For all three tasks we find that an initially steep power-law scaling slows significantly already at moderate training set sizes. Interpolating those scaling laws suggests that even training on millions of images would not significantly improve performance. To understand the expected behavior, we analytically characterize the performance of a linear estimator learned with early stopped gradient descent. The result formalizes the intuition that once the error induced by learning the signal model is small relative to the error floor, more training examples do not improve performance.
翻訳日:2022-09-28 14:23:25 公開日:2022-09-27
# DAMO-NLP at NLPCC-2022 Task 2: Knowledge Enhanced Robust NER for Speech Entity Linking

DAMO-NLP at NLPCC-2022 Task 2: Knowledge Enhanced Robust NER for Speech Entity Linking ( http://arxiv.org/abs/2209.13187v1 )

ライセンス: Link先を確認
Shen Huang, Yuchen Zhai, Xinwei Long, Yong Jiang, Xiaobin Wang, Yin Zhang and Pengjun Xie(参考訳) Speech Entity Linkingは、音声言語で名前付きエンティティを認識し、曖昧にすることを目的としている。 従来の方法は、asrシステムによって生成された音声スタイルやノイズの多い書き起こしにひどく苦しむ。 本稿では,知識強化型エンティティ認識(kener)と呼ばれる新しい手法を提案する。エンティティ認識段階に適切な知識を無痛に取り入れ,エンティティリンク全体の性能を向上させることにより,堅牢性を向上させることに焦点を当てる。 KENERはまず、言及なしの文の候補エンティティを検索し、その後、エンティティ記述を追加情報として利用して、参照を認識する。 密集した検索モジュールによって検索される候補エンティティは、入力が短い場合やうるさい場合には特に有用である。 さらに,認識段階と曖昧段階の両方において,検索対象の質を向上させるために,様々なデータサンプリング戦略と効果的な損失関数について検討する。 最後に、フィルタリングモジュールとのリンクが最終セーフガードとして適用され、間違った認識された言及をフィルタリングすることができる。 NLPCC-2022共有タスク2のトラック2におけるトラック1とトラック2の1位を達成した。

Speech Entity Linking aims to recognize and disambiguate named entities in spoken languages. Conventional methods suffer gravely from the unfettered speech styles and the noisy transcripts generated by ASR systems. In this paper, we propose a novel approach called Knowledge Enhanced Named Entity Recognition (KENER), which focuses on improving robustness through painlessly incorporating proper knowledge in the entity recognition stage and thus improving the overall performance of entity linking. KENER first retrieves candidate entities for a sentence without mentions, and then utilizes the entity descriptions as extra information to help recognize mentions. The candidate entities retrieved by a dense retrieval module are especially useful when the input is short or noisy. Moreover, we investigate various data sampling strategies and design effective loss functions, in order to improve the quality of retrieved entities in both recognition and disambiguation stages. Lastly, a linking with filtering module is applied as the final safeguard, making it possible to filter out wrongly-recognized mentions. Our system achieves 1st place in Track 1 and 2nd place in Track 2 of NLPCC-2022 Shared Task 2.
翻訳日:2022-09-28 14:23:06 公開日:2022-09-27
# コンピュータビジョンにおけるグラフニューラルネットワークとグラフトランスフォーマーに関する調査:タスク指向の視点から

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective ( http://arxiv.org/abs/2209.13232v1 )

ライセンス: Link先を確認
Chaoqi Chen, Yushuang Wu, Qiyuan Dai, Hong-Yu Zhou, Mutian Xu, Sibei Yang, Xiaoguang Han, Yizhou Yu(参考訳) グラフニューラルネットワーク (GNN) はグラフ表現学習において勢いを増し、データマイニング (\emph{e.,} ソーシャルネットワーク分析とレコメンデーションシステム)、コンピュータビジョン (\emph{e.,} オブジェクト検出とポイントクラウド学習)、自然言語処理 (\emph{e.,} 関係抽出とシーケンス学習) など、様々な分野における技術の現状を高めている。 自然言語処理やコンピュータビジョンにおけるトランスフォーマーの出現に伴い、グラフトランスフォーマーはトランスフォーマーアーキテクチャにグラフ構造を組み込んで、厳密な構造的帰納バイアスを回避しつつ、局所的な近傍集約の限界を克服する。 本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフ変換器の総合的なレビューを行う。 具体的には,2次元の自然画像,ビデオ,3次元データ,視覚+言語,医療画像のモダリティに応じて,コンピュータビジョンにおけるそれらの応用を5つのカテゴリに分割する。 各カテゴリにおいて、私たちはアプリケーションをさらにビジョンタスクのセットに従って分割します。 このようなタスク指向の分類は、各タスクが異なるGNNベースのアプローチによってどのように取り組まれているか、そしてこれらのアプローチがいかにうまく機能するかを調べることができる。 必要な前提条件に基づいて、タスクの定義と課題、代表的アプローチの詳細なカバレッジ、洞察、限界、今後の方向性に関する議論を提供する。

Graph Neural Networks (GNNs) have gained momentum in graph representation learning and boosted the state of the art in a variety of areas, such as data mining (\emph{e.g.,} social network analysis and recommender systems), computer vision (\emph{e.g.,} object detection and point cloud learning), and natural language processing (\emph{e.g.,} relation extraction and sequence learning), to name a few. With the emergence of Transformers in natural language processing and computer vision, graph Transformers embed a graph structure into the Transformer architecture to overcome the limitations of local neighborhood aggregation while avoiding strict structural inductive biases. In this paper, we present a comprehensive review of GNNs and graph Transformers in computer vision from a task-oriented perspective. Specifically, we divide their applications in computer vision into five categories according to the modality of input data, \emph{i.e.,} 2D natural images, videos, 3D data, vision + language, and medical images. In each category, we further divide the applications according to a set of vision tasks. Such a task-oriented taxonomy allows us to examine how each task is tackled by different GNN-based approaches and how well these approaches perform. Based on the necessary preliminaries, we provide the definitions and challenges of the tasks, in-depth coverage of the representative approaches, as well as discussions regarding insights, limitations, and future directions.
翻訳日:2022-09-28 14:22:00 公開日:2022-09-27
# 眼科画像分類のための深部領域適応における重ね合わせ学習

Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic Image Classification ( http://arxiv.org/abs/2209.13420v1 )

ライセンス: Link先を確認
Yeganeh Madadi, Vahid Seydi, Jian Sun, Edward Chaum, and Siamak Yousefi(参考訳) ドメイン適応は、類似のプロパティを持つが異なるドメインを持つ大量のラベル付きデータの利用可能性を考えると、魅力的なアプローチである。 十分なラベルデータを取得することが困難な画像分類作業に有効である。 本研究では,実世界の課題を効果的に解決するための3つの領域適応手法を拡張して,アンサンブル学習を積み重ねる手法SELDAを提案する。 主要な前提は、ベースドメイン適応モデルを組み合わせると、各ベースモデルの能力を利用してより正確で堅牢なモデルを得ることができるということである。 最大平均偏差(mmd)、低ランク符号化、相関アライメント(coral)を拡張し、3つのベースモデルで適応損失を計算する。 また,2層結合層ネットワークをメタモデルとして利用し,これら3つのドメイン適応モデルの出力予測を積み重ね,眼科画像分類作業の高精度化を図る。 Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果は,提案モデルの有効性を示した。

Domain adaptation is an attractive approach given the availability of a large amount of labeled data with similar properties but different domains. It is effective in image classification tasks where obtaining sufficient label data is challenging. We propose a novel method, named SELDA, for stacking ensemble learning via extending three domain adaptation methods for effectively solving real-world problems. The major assumption is that when base domain adaptation models are combined, we can obtain a more accurate and robust model by exploiting the ability of each of the base models. We extend Maximum Mean Discrepancy (MMD), Low-rank coding, and Correlation Alignment (CORAL) to compute the adaptation loss in three base models. Also, we utilize a two-fully connected layer network as a meta-model to stack the output predictions of these three well-performing domain adaptation models to obtain high accuracy in ophthalmic image classification tasks. The experimental results using Age-Related Eye Disease Study (AREDS) benchmark ophthalmic dataset demonstrate the effectiveness of the proposed model.
翻訳日:2022-09-28 14:21:30 公開日:2022-09-27
# フェイクニュースにおけるジェンダーバイアスについて

On Gender Bias in Fake News ( http://arxiv.org/abs/2209.11984v2 )

ライセンス: Link先を確認
Navya Sahadevan, Deepak P(参考訳) 偽ニュースに関するデータサイエンスの研究は近年、大きな公開ベンチマークデータセットの出現によって、非常に勢いを増している。 ジェンダーバイアスはニュースメディアを広める問題であるとするメディア研究の中で、確立されているが、ジェンダーバイアスとフェイクニュースの関係についてはほとんど調査されていない。 本研究では,公開ベンチマークデータセットよりも単純で透明なレキシコンベースの手法を活用し,性バイアスvis-a-vis偽ニュースを初めて実証的に分析する。 本分析により, 偽ニュースにおける性バイアスの頻度は, 3つの顔, 豊富, 感情, 近位語にまたがる。 この分析から得られた知見は、フェイクニュースの研究においてジェンダーバイアスが重要な考慮事項である必要があるという強い議論をもたらす。

Data science research into fake news has gathered much momentum in recent years, arguably facilitated by the emergence of large public benchmark datasets. While it has been well-established within media studies that gender bias is an issue that pervades news media, there has been very little exploration into the relationship between gender bias and fake news. In this work, we provide the first empirical analysis of gender bias vis-a-vis fake news, leveraging simple and transparent lexicon-based methods over public benchmark datasets. Our analysis establishes the increased prevalance of gender bias in fake news across three facets viz., abundance, affect and proximal words. The insights from our analysis provide a strong argument that gender bias needs to be an important consideration in research into fake news.
翻訳日:2022-09-28 11:41:10 公開日:2022-09-27
# Blinder:個人化フェデレーション学習によるセンシングシステムにおけるエンドツーエンドのプライバシ保護

Blinder: End-to-end Privacy Protection in Sensing Systems via Personalized Federated Learning ( http://arxiv.org/abs/2209.12046v2 )

ライセンス: Link先を確認
Xin Yang, Omid Ardakanian(参考訳) 本稿では,分散データに基づいてトレーニングを行い,収集されたセンサデータが下位分布が異なる異種環境においても,データユーティリティとプライバシの間の望ましいトレードオフを行うセンサデータ匿名化モデルを提案する。 われわれの匿名化モデルは blinder と呼ばれ、変分オートエンコーダと識別器ネットワークに基づいて、敵対的な方法で訓練されている。 モデルに依存しないメタラーニングフレームワークを用いて,各ユーザのデータ分布にフェデレーション学習を通じてトレーニングされた匿名化モデルを適用する。 我々は、異なる設定下で盲目者を評価し、プライバシー損失を最大4.00%増加させ、データユーティリティを最大4.24%減少させるコストで、エンドツーエンドのプライバシー保護を提供することを示した。 実験により,Blinderは一度に複数のプライベート属性を隠蔽できることを確認した。センサデータのリアルタイム匿名化を実現するために,エッジデバイスやスマートフォンに展開する電力消費と計算オーバーヘッドが十分に低い。

This paper proposes a sensor data anonymization model that is trained on decentralized data and strikes a desirable trade-off between data utility and privacy, even in heterogeneous settings where the collected sensor data have different underlying distributions. Our anonymization model, dubbed Blinder, is based on a variational autoencoder and discriminator networks trained in an adversarial fashion. We use the model-agnostic meta-learning framework to adapt the anonymization model trained via federated learning to each user's data distribution. We evaluate Blinder under different settings and show that it provides end-to-end privacy protection at the cost of increasing privacy loss by up to 4.00% and decreasing data utility by up to 4.24%, compared to the state-of-the-art anonymization model trained on centralized data. Our experiments confirm that Blinder can obscure multiple private attributes at once, and has sufficiently low power consumption and computational overhead for it to be deployed on edge devices and smartphones to perform real-time anonymization of sensor data.
翻訳日:2022-09-28 11:40:55 公開日:2022-09-27
# DeepFusion:ライダー、カメラ、レーダーのためのロバストでモジュラーな3Dオブジェクト検出器

DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars ( http://arxiv.org/abs/2209.12729v2 )

ライセンス: Link先を確認
Florian Drews, Di Feng, Florian Faion, Lars Rosenbaum, Michael Ulrich and Claudius Gl\"aser(参考訳) 我々は,ライダー,カメラ,レーダーを異なる組み合わせで融合して3次元物体検出を行うモジュール型マルチモーダルアーキテクチャであるDeepFusionを提案する。 特殊特徴抽出器は各モードの利点を生かし、容易に交換でき、アプローチをシンプルかつ柔軟にする。 抽出された特徴は核融合の共通表現として鳥の目視に変換される。 空間的および意味的なアライメントは、特徴空間内のモダリティを融合する前に実行される。 最後に、検出ヘッドはリッチなマルチモーダル機能を利用して、3D検出性能を向上させる。 lidar- camera, lidar-camera-radar, camera-radar fusionの実験結果は,我々の融合アプローチの柔軟性と有効性を示している。 提案手法では,遠距離225mまでの車検出において,ライダー・カメラ融合の利点を実証した。 さらに,3次元物体検出に必要なライダー点密度について検討し,悪天候に対するロバスト性を示す。 さらに,我々のカメラレーダ融合におけるアブレーション研究は,正確な深度推定の重要性を強調している。

We propose DeepFusion, a modular multi-modal architecture to fuse lidars, cameras and radars in different combinations for 3D object detection. Specialized feature extractors take advantage of each modality and can be exchanged easily, making the approach simple and flexible. Extracted features are transformed into bird's-eye-view as a common representation for fusion. Spatial and semantic alignment is performed prior to fusing modalities in the feature space. Finally, a detection head exploits rich multi-modal features for improved 3D detection performance. Experimental results for lidar-camera, lidar-camera-radar and camera-radar fusion show the flexibility and effectiveness of our fusion approach. In the process, we study the largely unexplored task of faraway car detection up to 225 meters, showing the benefits of our lidar-camera fusion. Furthermore, we investigate the required density of lidar points for 3D object detection and illustrate implications at the example of robustness against adverse weather conditions. Moreover, ablation studies on our camera-radar fusion highlight the importance of accurate depth estimation.
翻訳日:2022-09-28 11:38:55 公開日:2022-09-27
# 強化学習における動物ビデオの利用の可能性と課題

On the Opportunities and Challenges of using Animals Videos in Reinforcement Learning ( http://arxiv.org/abs/2209.12347v2 )

ライセンス: Link先を確認
Vittorio Giammarino(参考訳) 強化学習(Reinforcement Learning, RL)において, 動物ビデオによる効率向上と性能向上を図る。 理論的観点からは,オフ・ポリシーrlにおける重み付きポリシー最適化の利用を動機付け,ビデオから学ぶ際の課題を説明し,解決策を提案する。 オフラインおよびオンラインのRLで私たちのアイデアをテストし、一連の2次元ナビゲーションタスクにおいて奨励的な結果を示す。

We investigate the use of animals videos to improve efficiency and performance in Reinforcement Learning (RL). Under a theoretical perspective, we motivate the use of weighted policy optimization for off-policy RL, describe the main challenges when learning from videos and propose solutions. We test our ideas in offline and online RL and show encouraging results on a series of 2D navigation tasks.
翻訳日:2022-09-28 11:38:38 公開日:2022-09-27
# unrolling と bilevel optimization を用いた変分モデルの学習

Learning Variational Models with Unrolling and Bilevel Optimization ( http://arxiv.org/abs/2209.12651v2 )

ライセンス: Link先を確認
Christoph Brauer, Niklas Breustedt, Timo de Wolff, Dirk A. Lorenz(参考訳) 本稿では,リスク最小化による教師あり学習の文脈における変動モデルの問題学習について考察する。 我々のゴールは、バイレベル最適化とアルゴリズムのアンロールによる変分モデルの学習の2つのアプローチをより深く理解することである。 前者は、変動モデルがリスク最小化問題より低いレベルの最適化問題であると考え、後者は、その問題をおよそ解くアルゴリズムによって下位レベルの最適化問題を置き換える。 どちらのアプローチも実際は使用されるが、アンローリングは計算の観点からはるかに単純である。 2つのアプローチを解析・比較するために,簡単な玩具モデルを検討し,リスクと各推定器を明示的に計算する。 アンローリングは二段階最適化手法よりも優れているが、アンローリングの性能はさらなるパラメータに大きく依存し、時には予期せぬ方法でも有益であることを示す: アンローリングアルゴリズムのステップサイズは重要であるが、アンローリングされたイテレーションの数は、その数が偶数か奇数かに限られており、これらの2つのケースは顕著に異なる。

In this paper we consider the problem learning of variational models in the context of supervised learning via risk minimization. Our goal is to provide a deeper understanding of the two approaches of learning of variational models via bilevel optimization and via algorithm unrolling. The former considers the variational model as a lower level optimization problem below the risk minimization problem, while the latter replaces the lower level optimization problem by an algorithm that solves said problem approximately. Both approaches are used in practice, but, unrolling is much simpler from a computational point of view. To analyze and compare the two approaches, we consider a simple toy model, and compute all risks and the respective estimators explicitly. We show that unrolling can be better than the bilevel optimization approach, but also that the performance of unrolling can depend significantly on further parameters, sometimes in unexpected ways: While the stepsize of the unrolled algorithm matters a lot, the number of unrolled iterations only matters if the number is even or odd, and these two cases are notably different.
翻訳日:2022-09-28 11:38:30 公開日:2022-09-27
# Meta Prompting: プロンプトを改善するための学習

MetaPrompting: Learning to Learn Better Prompts ( http://arxiv.org/abs/2209.11486v2 )

ライセンス: Link先を確認
Yutai Hou, Hongyuan Dong, Xinghao Wang, Bohan Li, Wanxiang Che(参考訳) プロンプト法は,数発の自然言語処理において重要な進歩の1つである。 離散トークンをベースとした ``hard prompts'' から連続 ``soft prompts' への移行の促進に関する最近の研究は、学習可能なベクトルを擬似プロンプトとして使用し、より良い性能を達成する。 有望な見通しを示すが、これらのソフトプロポーティング手法は効果を得るために良い初期化に大きく依存している。 残念ながら、ソフトプロンプトの完全な初期化を得るためには、内部言語モデルの動作と精巧な設計を理解する必要があり、これは簡単なタスクではなく、新しいタスクごとにスクラッチから再起動する必要がある。 To remedy this, we propose a generalized soft prompting method called MetaPrompting, which adopts the well-recognized model-agnostic meta-learning algorithm to automatically find better prompt initialization that facilitates fast adaptation to new prompting tasks.Extensive experiments show MetaPrompting tackles soft prompt initialization problem and brings significant improvement on four different datasets (over 6 points improvement in accuracy for 1-shot setting), achieving new state-of-the-art performance.

Prompting method is regarded as one of the crucial progress for few-shot nature language processing. Recent research on prompting moves from discrete tokens based ``hard prompts'' to continuous ``soft prompts'', which employ learnable vectors as pseudo prompt tokens and achieve better performance. Though showing promising prospects, these soft-prompting methods are observed to rely heavily on good initialization to take effect. Unfortunately, obtaining a perfect initialization for soft prompts requires understanding of inner language models working and elaborate design, which is no easy task and has to restart from scratch for each new task. To remedy this, we propose a generalized soft prompting method called MetaPrompting, which adopts the well-recognized model-agnostic meta-learning algorithm to automatically find better prompt initialization that facilitates fast adaptation to new prompting tasks.Extensive experiments show MetaPrompting tackles soft prompt initialization problem and brings significant improvement on four different datasets (over 6 points improvement in accuracy for 1-shot setting), achieving new state-of-the-art performance.
翻訳日:2022-09-28 11:38:12 公開日:2022-09-27
# 意味解析のための言語間多様体のメタラーニング

Meta-Learning a Cross-lingual Manifold for Semantic Parsing ( http://arxiv.org/abs/2209.12577v2 )

ライセンス: Link先を確認
Tom Sherborne and Mirella Lapata(参考訳) 新しい言語をサポートするためにセマンティックパーサをローカライズするには、効果的な言語間一般化が必要である。 最近の研究は機械翻訳やゼロショット手法で成功したが、これらの手法はネイティブスピーカーが質問する方法をモデル化するのに苦労している。 言語間セマンティック解析において,新しい言語における最小限の注釈付き例を効果的に活用する方法を検討する。 本稿では,言語間伝達中に最大サンプル効率で意味的パーサを訓練する一階メタ学習アルゴリズムを提案する。 アルゴリズムは高リソース言語を用いてパーサを訓練し,同時に低リソース言語のための言語間一般化を最適化する。 ATIS上の6つの言語にまたがる結果は、我々の一般化ステップの組み合わせによって、各新言語でソーストレーニングデータの10パーセントを正確なセマンティックパーザがサンプリングできることを実証している。 われわれのアプローチは、英語を用いてスパイダーの競争モデルを訓練し、中国語も同様にトレーニングデータの$\le$10%をサンプリングする。

Localizing a semantic parser to support new languages requires effective cross-lingual generalization. Recent work has found success with machine-translation or zero-shot methods although these approaches can struggle to model how native speakers ask questions. We consider how to effectively leverage minimal annotated examples in new languages for few-shot cross-lingual semantic parsing. We introduce a first-order meta-learning algorithm to train a semantic parser with maximal sample efficiency during cross-lingual transfer. Our algorithm uses high-resource languages to train the parser and simultaneously optimizes for cross-lingual generalization for lower-resource languages. Results across six languages on ATIS demonstrate that our combination of generalization steps yields accurate semantic parsers sampling $\le$10% of source training data in each new language. Our approach also trains a competitive model on Spider using English with generalization to Chinese similarly sampling $\le$10% of training data.
翻訳日:2022-09-28 11:37:54 公開日:2022-09-27
# リプシッツ連続勾配を持つ局所強凸関数上の(1+1)-進化戦略の収束率とその単調変換

Convergence rate of the (1+1)-evolution strategy on locally strongly convex functions with lipschitz continuous gradient and their monotonic transformations ( http://arxiv.org/abs/2209.12467v2 )

ライセンス: Link先を確認
Daiki Morinaga, Kazuto Fukuchi, Jun Sakuma, and Youhei Akimoto(参考訳) 進化戦略(ES)は、ブラックボックス連続最適化のための有望なアルゴリズムの1つである。 応用において広く成功したにもかかわらず、収束速度の理論解析は凸二次函数とその単調変換に限られる。 本研究では、u$-リプシッツ連続勾配を持つ局所的l$-強凸関数上の(1+1)-esの線形収束率の上限と下限をそれぞれ$\exp\left(-\omega_{d\to\infty}\left(\frac{l}{d\cdot u}\right)\right)$および$\exp\left(-\frac1d\right)$として導出する。 特に、リプシッツ定数のような目的関数の数学的性質に関する事前知識はアルゴリズムには与えられないが、既存の微分自由最適化アルゴリズムの分析にはそれらが必要である。

Evolution strategy (ES) is one of promising classes of algorithms for black-box continuous optimization. Despite its broad successes in applications, theoretical analysis on the speed of its convergence is limited on convex quadratic functions and their monotonic transformation. In this study, an upper bound and a lower bound of the rate of linear convergence of the (1+1)-ES on locally $L$-strongly convex functions with $U$-Lipschitz continuous gradient are derived as $\exp\left(-\Omega_{d\to\infty}\left(\frac{L}{d\cdot U}\right)\right)$ and $\exp\left(-\frac1d\right)$, respectively. Notably, any prior knowledge on the mathematical properties of the objective function such as Lipschitz constant is not given to the algorithm, whereas the existing analyses of derivative-free optimization algorithms require them.
翻訳日:2022-09-28 11:37:39 公開日:2022-09-27
# ロバスト動作認識のための変換器のマルチデータセット学習

Multi-dataset Training of Transformers for Robust Action Recognition ( http://arxiv.org/abs/2209.12362v2 )

ライセンス: Link先を確認
Junwei Liang, Enwei Zhang, Jun Zhang, Chunhua Shen(参考訳) 動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。 我々はその有効性のためにトランスフォーマーを用いた手法を構築した。 過去10年間、ビデオアクション認識の大きな進歩を目の当たりにしてきたが、複数のデータセットにまたがってうまく機能する単一のモデルをトレーニングする方法は、いまだに重要ではない。 本稿では、情報損失と投影損失という2つの新しい損失項を設計し、アクション認識のための堅牢な表現を学習することを目的とした、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。 特に、情報的損失は、各データセットの投影損失がデータセット全体のクラス間の固有の関係をマイニングする一方で、機能埋め込みの表現性を最大化する。 提案手法は,5つの挑戦的データセットである kinetics-400, kinetics-700, moments-in-time, activitynet, something-something-v2 データセットの有効性を検証する。 実験結果から,本手法は常に最先端の性能を向上できることが示された。

We study the task of robust feature representations, aiming to generalize well on multiple datasets for action recognition. We build our method on Transformers for its efficacy. Although we have witnessed great progress for video action recognition in the past decade, it remains challenging yet valuable how to train a single model that can perform well across multiple datasets. Here, we propose a novel multi-dataset training paradigm, MultiTrain, with the design of two new loss terms, namely informative loss and projection loss, aiming to learn robust representations for action recognition. In particular, the informative loss maximizes the expressiveness of the feature embedding while the projection loss for each dataset mines the intrinsic relations between classes across datasets. We verify the effectiveness of our method on five challenging datasets, Kinetics-400, Kinetics-700, Moments-in-Time, Activitynet and Something-something-v2 datasets. Extensive experimental results show that our method can consistently improve the state-of-the-art performance.
翻訳日:2022-09-28 11:37:24 公開日:2022-09-27
# 気候影響モデリングフレームワーク

Climate Impact Modelling Framework ( http://arxiv.org/abs/2209.12080v2 )

ライセンス: Link先を確認
Blair Edwards, Paolo Fraccaro, Nikola Stoyanov, Nelson Bore, Julian Kuehnert, Kommy Weldemariam, Anne Jones(参考訳) 気象や気候の物理的影響とその社会やビジネスへの影響のリスクを評価するためのモデルの適用は、我々の変化する気候において最も重要である。 このようなモデルの操作は歴史的に悪用され、特定の計算インフラに制約され、データセットと事前定義された設定を駆動する。 これらの制約は、モデルの実行をスケーリングし、モデルを関心のあるユーザの手に渡すという課題をもたらす。 本稿では,地理空間モデルのデプロイと運用のためのクラウドベースのモジュラーフレームワークを提案する。 気候影響モデリングフレームワーク(cimf)は、動的かつ柔軟な方法でモジュールワークフローの展開を可能にする。 ユーザはワークフローコンポーネントを合理化された方法で指定でき、これらのコンポーネントをさまざまな構成に簡単に整理して、さまざまな方法でさまざまなスケールでリスクを評価することができる。 これにより、異なるモデル(物理シミュレーションや機械学習モデル)とワークフローを接続して、リスクアセスメントを組み合わせることも可能になる。 洪水モデリングは、CIMFの運用を実証するためのエンドツーエンドの例として用いられる。

The application of models to assess the risk of the physical impacts of weather and climate and their subsequent consequences for society and business is of the utmost importance in our changing climate. The operation of such models is historically bespoke and constrained to specific compute infrastructure, driving datasets and predefined configurations. These constraints introduce challenges with scaling model runs and putting the models in the hands of interested users. Here we present a cloud-based modular framework for the deployment and operation of geospatial models, initially applied to climate impacts. The Climate Impact Modelling Frameworks (CIMF) enables the deployment of modular workflows in a dynamic and flexible manner. Users can specify workflow components in a streamlined manner, these components can then be easily organised into different configurations to assess risk in different ways and at different scales. This also enables different models (physical simulation or machine learning models) and workflows to be connected to produce combined risk assessment. Flood modelling is used as an end-to-end example to demonstrate the operation of CIMF.
翻訳日:2022-09-28 11:37:05 公開日:2022-09-27
# ウェーブレット変換による多段画像の雑音化

Multi-stage image denoising with the wavelet transform ( http://arxiv.org/abs/2209.12394v2 )

ライセンス: Link先を確認
Chunwei Tian, Menghua Zheng, Wangmeng Zuo, Bob Zhang, Yanning Zhang, David Zhang(参考訳) 深層畳み込みニューラルネットワーク(cnns)は、正確な構造情報を自動マイニングすることで画像の雑音化に使用される。 しかし、既存のcnnのほとんどが設計したネットワークの奥行きを拡大し、より良いデノイジン性能を得るため、トレーニングが困難になる可能性がある。 本稿では,ウェーブレット変換(MWDCNN)を動的畳み込みブロック(DCB)と2つのカスケードウェーブレット変換(WEB)と残差ブロック(RB)の3段階を経由した,CNNの多段化画像を提案する。 dcbは動的畳み込みを用いて複数の畳み込みのパラメータを動的に調整し、同期性能と計算コストのトレードオフを行う。 webでは、信号処理技術(すなわちウェーブレット変換)と識別学習を組み合わせてノイズを抑制し、より詳細な情報を回復する。 さらに冗長な特徴を除去するため、RBは、デノナイジング効果を改善するために得られた特徴を洗練し、高密度アーキテクチャの改善によりクリーンなイメージを再構築するために使用される。 実験結果から,提案したMWDCNNは定量的,定性的な分析において,一般的なデノナイジング法よりも優れていた。 コードはhttps://github.com/hellloxiaotian/mwdcnnで入手できる。

Deep convolutional neural networks (CNNs) are used for image denoising via automatically mining accurate structure information. However, most of existing CNNs depend on enlarging depth of designed networks to obtain better denoising performance, which may cause training difficulty. In this paper, we propose a multi-stage image denoising CNN with the wavelet transform (MWDCNN) via three stages, i.e., a dynamic convolutional block (DCB), two cascaded wavelet transform and enhancement blocks (WEBs) and residual block (RB). DCB uses a dynamic convolution to dynamically adjust parameters of several convolutions for making a tradeoff between denoising performance and computational costs. WEB uses a combination of signal processing technique (i.e., wavelet transformation) and discriminative learning to suppress noise for recovering more detailed information in image denoising. To further remove redundant features, RB is used to refine obtained features for improving denoising effects and reconstruct clean images via improved residual dense architectures. Experimental results show that the proposed MWDCNN outperforms some popular denoising methods in terms of quantitative and qualitative analysis. Codes are available at https://github.com/hellloxiaotian/MWDCNN.
翻訳日:2022-09-28 11:36:50 公開日:2022-09-27
# 真理と選好 -- 質的選択論理のためのゲームアプローチ

Truth and Preferences -- A Game Approach for Qualitative Choice Logic ( http://arxiv.org/abs/2209.12777v2 )

ライセンス: Link先を確認
Robert Freiman, Michael Bernreiter(参考訳) 本稿では,質的選択論理(qcl)のためのゲーム理論的意味論(gts)について紹介する。 まず、ゲームセマンティクスがQCLの既存の学位ベースのセマンティクスを自然な方法でキャプチャできることを実証する。 第2に,ゲームセマンティクスを利用してQCLの言語に新たなセマンティクスを導出できることを示す。 特に, GTS否定を利用した新たな意味論を提案し, 既存のQCL意味論における否定問題を回避する。

In this paper, we introduce game-theoretic semantics (GTS) for Qualitative Choice Logic (QCL), which, in order to express preferences, extends classical propositional logic with an additional connective called ordered disjunction. Firstly, we demonstrate that game semantics can capture existing degree-based semantics for QCL in a natural way. Secondly, we show that game semantics can be leveraged to derive new semantics for the language of QCL. In particular, we present a new semantics that makes use of GTS negation and, by doing so, avoids problems with negation in existing QCL-semantics.
翻訳日:2022-09-28 11:36:24 公開日:2022-09-27