このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230109となっている論文です。

PDF登録状況(公開日: 20230109)

TitleAuthorsAbstract論文公表日・翻訳日
# シリコン系スピン量子ビットの動的補正によるオフ共振誤差に対する非断熱幾何量子ゲートの最適化

Optimizing nonadiabatic geometric quantum gates against off-resonance error by dynamical correction in a silicon-based spin qubit ( http://arxiv.org/abs/2207.04597v2 )

ライセンス: Link先を確認
Liu-Jun Guo, Hai Xu, Zi-Yu Fang, Tao Chen, Kejin Wei, Chengxian Zhang(参考訳) 幾何学的量子ゲートは幾何学的位相を用いて行われ、固有大域特性によるパルス振幅誤差に対して特に頑健である。 しかし、シリコンベースのスピン量子ビットのような多くのシステムでは、オフ共振誤差が支配的なノイズであり、遅延の原因となり、幾何学的ゲートを扱うのは常に困難である。 したがって、オフ共振誤差に対処する方法は幾何学的ゲートの適用において非常に重要である。 A recent work in \emph{Phy. Rev. Appl。 16, 044005 (2021)} は、2つの$\pi$-pulseの動的修正シーケンスを進化経路に挿入することにより、ホロノミック量子ゲートはパルス振幅誤差を抑制するのに有効であるが、オフ共振誤差と戦うには役に立たないことを示した。 本研究に触発されて,動的補正技術と経路設計技術を組み合わせた。 驚くべきことに、$\pi$-pulse動的に補正されたシーケンスで挿入された特定の進化経路を拾うことで、得られた最適化幾何ゲートはノイズが静的であると仮定してオフ共鳴誤差に頑健であることが分かる。 さらに, シリコンのリアルな1/f$型雑音を考慮したフィルタ関数の計算により, 最適化された幾何ゲートの性能は, 幾何位相を使わずに構築された従来の幾何ゲートとナイーブ力学ゲートの両方を上回り得ることを示した。 その結果,動的補正は幾何学的ゲートを改善する強力なツールであることがわかった。

Geometric quantum gates are performed by using the geometric phase, making them particularly robust to the pulse amplitude error due to the intrinsic global property. However, in many systems, such as the silicon-based spin qubits, the off-resonance error is the dominant noise, which can cause dephasing and is always difficult to deal with for a geometric gate. Thus how to deal with the off-resonance error is very significant for the application of the geometric gates. A recent work in \emph{Phy. Rev. Appl. 16, 044005 (2021)} reveals that by inserting two $\pi$-pulse dynamically corrected sequences into the evolution paths, the holonomic quantum gate is effective to suppress the pulse amplitude error, however it is still useless for combating the off-resonance error. Inspired by this work, we combine using the techniques of dynamical correction and path design. Surprisingly, we find that by picking up a specific evolution path inserted by only a $\pi$-pulse dynamically corrected sequence, the obtained optimized geometric gate is robust to the off-resonance error, assuming the noise is static. Further, by calculating the filter function considering the realistic $1/f$-type noise in silicon, the related results show that the performance of the optimized geometric gate can also surpass both the conventional geometric gate and the naive dynamical gate constructed without using the geometric phase. Our results indicate dynamical correction is an powerful tool to improve the geometric gate.
翻訳日:2023-02-05 12:40:00 公開日:2023-01-09
# ベイズ逆問題に対する領域分解型VAE法

A domain-decomposed VAE method for Bayesian inverse problems ( http://arxiv.org/abs/2301.05708v1 )

ライセンス: Link先を確認
Xu Zhihang, Xia Yingzhi, Liao Qifeng(参考訳) ベイズ逆問題はしばしば、フォワードモデルが複素偏微分方程式(pdes)によって支配されるときに計算的に難しい。 これは通常、高価な前方モデル評価と事前の高次元パラメータ化によって引き起こされる。 本稿では,これらの課題を同時に解決するために,ドメイン分割型変分自動エンコーダのマルコフ連鎖モンテカルロ(DD-VAE-MCMC)法を提案する。 提案手法は,グローバルな物理領域を小さなサブドメインに分割することで,まず,局所的履歴データに基づく局所的決定論的生成モデルを構築し,効率的な局所的事前表現を提供する。 アクティブラーニングを伴うガウス過程モデルは、ドメイン分解インターフェイス条件に対処する。 次に、各サブドメインに対して並列および低次元潜在パラメータ空間で独立に反転を行う。 局所的な推論ソリューションはpoissonイメージブレンディング手順によって後処理され、効率的なグローバル推論結果が得られる。 提案手法の性能を示す数値的な例を示す。

Bayesian inverse problems are often computationally challenging when the forward model is governed by complex partial differential equations (PDEs). This is typically caused by expensive forward model evaluations and high-dimensional parameterization of priors. This paper proposes a domain-decomposed variational auto-encoder Markov chain Monte Carlo (DD-VAE-MCMC) method to tackle these challenges simultaneously. Through partitioning the global physical domain into small subdomains, the proposed method first constructs local deterministic generative models based on local historical data, which provide efficient local prior representations. Gaussian process models with active learning address the domain decomposition interface conditions. Then inversions are conducted on each subdomain independently in parallel and in low-dimensional latent parameter spaces. The local inference solutions are post-processed through the Poisson image blending procedure to result in an efficient global inference result. Numerical examples are provided to demonstrate the performance of the proposed method.
翻訳日:2023-01-29 14:16:19 公開日:2023-01-09
# 自律型航空システムの構築

Architecting Safer Autonomous Aviation Systems ( http://arxiv.org/abs/2301.08138v1 )

ライセンス: Link先を確認
Jane Fenn, Mark Nicholson, Ganesh Pai, and Michael Wilkinson(参考訳) 航空文献は、安全のための建築システム、特に安全要件の割り当てに対するアーキテクチャの影響、またはシステムまたはサブシステムレベルのアーキテクチャ選択によるシステム保証の比較的容易さについて、実践者に比較的少ないガイダンスを与えている。 本稿では,従来の航空システムにおける共通アーキテクチャパターンを考察し,人工知能(AI)と機械学習(ML)をベースとした機能の統合に応用した場合の安全性と安全性の保証について考察する。 安全性をアーキテクチャ特性として考慮し,安全要件の割り当てと設計ライフサイクルの初期段階におけるアーキテクチャ上のトレードオフについて論じる。 このアプローチは、セキュリティなどの安全性と同様に、他の保証されたプロパティにも拡張できる。 結論として,aiとmlの統合による自律性の実現に向けて,近年の文献で提案されているアーキテクチャパターン候補の文脈における安全性の検討を考察した。 プロパティ駆動のアーキテクチャパターンカタログを生成するために推奨される。

The aviation literature gives relatively little guidance to practitioners about the specifics of architecting systems for safety, particularly the impact of architecture on allocating safety requirements, or the relative ease of system assurance resulting from system or subsystem level architectural choices. As an exemplar, this paper considers common architectural patterns used within traditional aviation systems and explores their safety and safety assurance implications when applied in the context of integrating artificial intelligence (AI) and machine learning (ML) based functionality. Considering safety as an architectural property, we discuss both the allocation of safety requirements and the architectural trade-offs involved early in the design lifecycle. This approach could be extended to other assured properties, similar to safety, such as security. We conclude with a discussion of the safety considerations that emerge in the context of candidate architectural patterns that have been proposed in the recent literature for enabling autonomy capabilities by integrating AI and ML. A recommendation is made for the generation of a property-driven architectural pattern catalogue.
翻訳日:2023-01-29 13:58:27 公開日:2023-01-09
# 遅延自己回帰音源分離

Latent Autoregressive Source Separation ( http://arxiv.org/abs/2301.08562v1 )

ライセンス: Link先を確認
Emilian Postolache, Giorgio Mariani, Michele Mancusi, Andrea Santilli, Luca Cosmo, Emanuele Rodol\`a(参考訳) 自動回帰モデルは、生成品質とダウンストリームタスクパフォーマンスという観点で、幅広いドメインで印象的な成果を上げています。 連続領域において、この成功の鍵となる要因は量子化された潜在空間(例えば vq-vae オートエンコーダによって得られる)の使用である。 しかし、新しい非自明なタスクを実行するために既存の事前学習モデルを使用することは、プロンプトを誘発するために追加の微調整や広範囲な訓練を必要とするため困難である。 本稿では,ベクトル量子化された潜在自己回帰的音源分離(すなわち,入力信号をその構成源にデミックスする)を,既存モデルの勾配に基づく最適化や修正を必要とせずに行う手法としてlassを提案する。 分離法は,自己回帰モデルが先行するベイズ式に依存しており,加算トークンの潜在和の周波数カウントを行うことで離散的(非パラメトリックな)確率関数を構築する。 本手法は,複数のサンプリング戦略(例: ancestral, beam search)を用いて画像と音声の分離品質の面での競合性を示すとともに,推定時間と高次元データへのスケーラビリティの面での大幅な高速化を提供する。

Autoregressive models have achieved impressive results over a wide range of domains in terms of generation quality and downstream task performance. In the continuous domain, a key factor behind this success is the usage of quantized latent spaces (e.g., obtained via VQ-VAE autoencoders), which allow for dimensionality reduction and faster inference times. However, using existing pre-trained models to perform new non-trivial tasks is difficult since it requires additional fine-tuning or extensive training to elicit prompting. This paper introduces LASS as a way to perform vector-quantized Latent Autoregressive Source Separation (i.e., de-mixing an input signal into its constituent sources) without requiring additional gradient-based optimization or modifications of existing models. Our separation method relies on the Bayesian formulation in which the autoregressive models are the priors, and a discrete (non-parametric) likelihood function is constructed by performing frequency counts over latent sums of addend tokens. We test our method on images and audio with several sampling strategies (e.g., ancestral, beam search) showing competitive results with existing approaches in terms of separation quality while offering at the same time significant speedups in terms of inference time and scalability to higher dimensional data.
翻訳日:2023-01-29 13:48:58 公開日:2023-01-09
# クランプ付き古典質量バネ鎖の位相断熱力学

Topological adiabatic dynamics in classical mass-spring chains with clamps ( http://arxiv.org/abs/2210.00663v2 )

ライセンス: Link先を確認
Atushi Tanaka(参考訳) クランプを有する古典調和鎖における断熱的進化の経路依存性について検討した。 鎖の切断と接合は断熱正常モード周波数をブレイドする可能性がある。 したがって、同じ終点を持つ異なる断熱経路は、通常のモードを別のものへ移動させ、断熱サイクルは作用変数、すなわち可積分古典系の断熱不変量をポンプする。 クランプによって誘導される人工エッジモードのための別の断熱ポンプを応用として示す。 完全可積分系と量子系の拡張を概説する。

The path dependence of adiabatic evolution in classical harmonic chains with clamps is examined. It is shown that cutting and joining a chain may braid adiabatic normal mode frequencies. Accordingly, different adiabatic paths with the same endpoints may transport a normal mode to a different one, and an adiabatic cycle pumps action variables, i.e., the adiabatic invariants of integrable classical systems. Another adiabatic pump for artificial edge modes induced by clamps is shown as an application. Extensions to completely integrable systems and quantum systems are outlined.
翻訳日:2023-01-24 00:49:48 公開日:2023-01-09
# 不定形圧電周波数可変性を有するフォトンペア音源

An Integrated Photon-Pair Source with Monolithic Piezoelectric Frequency Tunability ( http://arxiv.org/abs/2210.16387v2 )

ライセンス: Link先を確認
Tiff Brydges, Arslan S. Raja, Angelo Gelmini, Grigorii Lihachev, Antoine Petitjean, Anat Siddharth, Hao Tian, Rui N. Wang, Sunil A. Bhave, Hugo Zbinden, Tobias J. Kippenberg, Rob Thew(参考訳) この研究は、モノリシック集積圧電周波数チューニングによるSi$_3$N$_4$マイクロ共振器に基づく、テレコム波長における絡み合った光子対光源の機能を示す。 従来, マイクロ共振器による光子対の周波数調整は温度制御のみで実証されてきたが, 作動帯域は限られており, 低温環境と互換性がない。 ここでは、窒化アルミニウム層をモノリシックに統合したSi$_3$N$_4$マイクロ共振器の周波数可変光子対生成能力を示す。 マイクロ共振器の外部レーザへの高速ロックが実証され、その結果、従来報告されていたサーマルロックよりもロック帯域幅が桁違いに大きくなる。 これらの能力は、例えばトラップイオンや希土類イオンスキームに基づく量子メモリとそのようなソースをインターフェースする将来のスキームで直接適用される。

This work demonstrates the capabilities of an entangled photon-pair source at telecom wavelengths, based on a photonic integrated Si$_3$N$_4$ microresonator with monolithically integrated piezoelectric frequency tuning. Previously, frequency tuning of photon-pairs generated by microresonators has only been demonstrated using thermal control, however these have limited actuation bandwidth, and are not compatible with cryogenic environments. Here, the frequency-tunable photon-pair generation capabilities of a Si$_3$N$_4$ microresonator with a monolithically integrated aluminium nitride layer are shown. Fast-frequency locking of the microresonator to an external laser is demonstrated, with a resulting locking bandwidth orders of magnitude larger than reported previously using thermal locking. These abilities will have direct application in future schemes which interface such sources with quantum memories based on e.g. trapped-ion or rare-earth ion schemes.
翻訳日:2023-01-21 05:17:38 公開日:2023-01-09
# 強結合状態における双極子反応速度:Pollak-Grabert-H\anggi理論

Vibropolaritonic Reaction Rates in the Collective Strong Coupling Regime: Pollak-Grabert-H\"anggi Theory ( http://arxiv.org/abs/2211.05820v2 )

ライセンス: Link先を確認
Matthew Du, Yong Rui Poh, Joel Yuen-Zhou(参考訳) 光マイクロキャビティにおける集合振動強い結合(VSC)から形成される振動偏光子が基底状態の反応速度を変化させる実験的な証拠に続いて、ポラック=グラベルト=H\anggi(PGH)理論(遷移状態理論(TST)を超越した理論的な説明が提案されている。 しかし、光に結合する1つの反応分子のみを考えると、これらの研究は実験で見られるアンサンブル効果を捉えない。 さらに、関連する光と光のカップリングは、前の作品よりも$\sqrt{N}$小さいはずであり、$N\approx10^{6}-10^{12}$はアンサンブルサイズである。 本稿では,この違いが重要である理由を解説し,これらの空洞摩擦の影響を無効化する。 キャビティpghモデルをn$という現実的な値に分析的に拡張することで、このモデルが「大きなn$問題」、すなわち1つの反応分子が、n$が大きい集合光・物質相互作用強度のわずか1/n$しか感じない状況にどのように結合するかを示す。

Following experimental evidence that vibrational polaritons, formed from collective vibrational strong coupling (VSC) in optical microcavities, can modify ground-state reaction rates, a spate of theoretical explanations relying on cavity-induced frictions has been proposed through the Pollak-Grabert-H\"anggi (PGH) theory, which goes beyond transition state theory (TST). However, by considering only a single reacting molecule coupled to light, these works do not capture the ensemble effects present in experiments. Moreover, the relevant light-matter coupling should have been $\sqrt{N}$ times smaller than those used by preceding works, where $N\approx10^{6}-10^{12}$ is the ensemble size. In this work, we explain why this distinction is significant and can nullify effects from these cavity-induced frictions. By analytically extending the cavity PGH model to realistic values of $N$, we show how this model succumbs to the polariton "large $N$ problem", that is, the situation whereby the single reacting molecule feels only a tiny $1/N$ part of the collective light-matter interaction intensity, where $N$ is large.
翻訳日:2023-01-19 19:05:53 公開日:2023-01-09
# 分光および散乱実験による銅酸化物の1バンドおよび3バンドハバード模型の接続

Connecting the one-band and three-band Hubbard models of cuprates via spectroscopy and scattering experiments ( http://arxiv.org/abs/2211.14019v2 )

ライセンス: Link先を確認
K. Sheshadri, D. Malterre, A. Fujimori and A. Chainani(参考訳) カップレートの電子構造を記述する1バンドと3バンドのハバードモデルは、オンサイトクーロンエネルギーやハイブリダイゼーション強度など、効果的な電子パラメータの非常に異なる値を示す。 対照的に、いくつかのカップレートの電子パラメータと分光および散乱実験の対応する値の比較は、実験結果のシミュレートに使用される3バンドモデルとクラスターモデル計算に類似した値を示している。 一連の銅酸化物に対する中性子散乱実験から得たJ$と整合した最適化解析を行うために、3つのバンドパラメータを用いて下降法により得られたハイゼンベルク交換結合$J$を用いる。 さらに、有効な1バンドパラメータ$\tilde{u}$および$\tilde{t}$を3つのバンドパラメータを用いて記述し、1バンドおよび3バンドモデルの隠れた等価性を明らかにする。 正確な対角化から得られる基底状態のシングルト重みは、同値性における張-李一重みの役割を解明する。 その結果, スペクトルから得られた電子パラメータと3バンドモデルとを, 散乱実験, バンド分散測定, 有効1バンドハバードモデルから得たJ$の値で結合する一貫した手法が得られた。

The one-band and three-band Hubbard models which describe the electronic structure of cuprates indicate very different values of effective electronic parameters, such as the on-site Coulomb energy and the hybridization strength. In contrast, a comparison of electronic parameters of several cuprates with corresponding values from spectroscopy and scattering experiments indicates similar values in the three-band model and cluster model calculations used to simulate experimental results. The Heisenberg exchange coupling $J$ obtained by a downfolding method in terms of the three band parameters is used to carry out an optimization analysis consistent with $J$ from neutron scattering experiments for a series of cuprates. In addition, the effective one-band parameters $\tilde{U}$ and $\tilde{t}$ are described using the three band parameters, thus revealing the hidden equivalence of the one-band and three-band models. The ground-state singlet weights obtained from an exact diagonalization elucidates the role of Zhang-Rice singlets in the equivalence. The results provide a consistent method to connect electronic parameters obtained from spectroscopy and the three-band model with values of $J$ obtained from scattering experiments, band dispersion measurements and the effective one-band Hubbard model.
翻訳日:2023-01-17 20:49:59 公開日:2023-01-09
# プログラムサイズ削減のためのスマートコンパイルの学習

Learning to compile smartly for program size reduction ( http://arxiv.org/abs/2301.05104v1 )

ライセンス: Link先を確認
Youwei Liang, Kevin Stone, Ali Shameli, Chris Cummins, Mostafa Elhoushi, Jiadong Guo, Benoit Steiner, Pengtao Xie, Hugh Leather, Yuandong Tian(参考訳) コンパイラ最適化パスは、プログラム効率を改善し、プログラムサイズを減らすための重要なツールである。 人間の専門家は、最適化パスのいくつかの固定シーケンス(例えば、Clang-Ozパス)を特定できたが、これらのシーケンスは特定のプログラムでは条件付けられていない。 本稿では,プログラムサイズ削減のためのパスを選択するポリシーを学習し,プログラムのカスタマイズと適応を可能にする手法を提案する。 提案手法では,有用なパスシーケンスを識別する検索機構と,最適なシーケンスを選択するための注意をカスタマイズしたGNNを用いる。 重要なことは、新しい、目に見えないプログラムに一般化することができ、以前のアプローチよりも柔軟で一般的である。 我々は,従来の最適化手法と比較して,様々なプログラムのアプローチを評価し,サイズ削減につながることを示す。 本結果は,多くのプログラムを最適化できる単一ポリシーの可能性を示すものである。

Compiler optimization passes are an important tool for improving program efficiency and reducing program size, but manually selecting optimization passes can be time-consuming and error-prone. While human experts have identified a few fixed sequences of optimization passes (e.g., the Clang -Oz passes) that perform well for a wide variety of programs, these sequences are not conditioned on specific programs. In this paper, we propose a novel approach that learns a policy to select passes for program size reduction, allowing for customization and adaptation to specific programs. Our approach uses a search mechanism that helps identify useful pass sequences and a GNN with customized attention that selects the optimal sequence to use. Crucially it is able to generalize to new, unseen programs, making it more flexible and general than previous approaches. We evaluate our approach on a range of programs and show that it leads to size reduction compared to traditional optimization techniques. Our results demonstrate the potential of a single policy that is able to optimize many programs.
翻訳日:2023-01-13 14:00:39 公開日:2023-01-09
# 真空エンタングルリンドラーモードを用いた連続可変量子テレポーテーション

Continuous-variable quantum teleportation with vacuum-entangled Rindler modes ( http://arxiv.org/abs/2001.03387v4 )

ライセンス: Link先を確認
Joshua Foo and Timothy C. Ralph(参考訳) 我々は、右リンドラーウェッジにおける一様加速送信機と、将来の光円錐に制限された共形受信機とミンコフスキー真空における慣性観測機との間の連続可変量子テレポーテーションプロトコルを考える。 非摂動量子回路モデルを用いて、加速されたオブザーバはフィールドのリンドラーモードと一元的に相互作用し、真空の絡み合いをリソースとしてアクセスする。 加速観測者によって準備されテレポートされたリンドラー配置のミンコフスキー真空状態が慣性観測者によって混合されるが、古典的限界以下の二次分散は減少している。 これは、加速オブザーバから直接送信される同じ状態が、慣性オブザーバに対して純粋なコヒーレント状態として現れるため、驚くべき結果である。 強い絡み合い資源の出力状態における真空ノイズの低減は、ウンルー放射の存在による熱ノイズの増幅によって制約される。

We consider a continuous-variable quantum teleportation protocol between a uniformly accelerated sender in the right Rindler wedge, a conformal receiver restricted to the future light cone, and an inertial observer in the Minkowski vacuum. Using a non-perturbative quantum circuit model, the accelerated observer interacts unitarily with the Rindler modes of the field, thereby accessing entanglement of the vacuum as a resource. We find that a Rindler-displaced Minkowski vacuum state prepared and teleported by the accelerated observer appears mixed according to the inertial observer, despite a reduction of the quadrature variances below classical limits. This is a surprising result, since the same state transmitted directly from the accelerated observer appears as a pure coherent state to the inertial observer. The decoherence of the state is caused by an interplay of opposing effects as the acceleration increases: the reduction of vacuum noise in the output state for a stronger entanglement resource, constrained by the amplification of thermal noise due to the presence of Unruh radiation.
翻訳日:2023-01-12 23:50:11 公開日:2023-01-09
# 量子レペラ上の共鳴の平均局在化

Average localization of resonances on the quantum repeller ( http://arxiv.org/abs/2301.04135v1 )

ライセンス: Link先を確認
J. Montes, Gabriel G. Carlo and F. Borondo(参考訳) 部分開裂(散乱)システムに関連する共鳴の局在性への関心は近年急増しており、マイクロレーザーのような共振キャビティの研究において最も有益である。 ごく最近になって、これらの状態のスケールした形式に局所化が存在しないことが判明した。 さらに、非正規化共鳴に対して、周期軌道とは異なる構造に新しいタイプのスカーリングを記述する。 本稿では,部分的に開放された量子トリベーカマップに対する量子レペラ表現に基づいて,スケール分布関数の局所化を分析する。 一般の場合において、非自明な方法で最も短い周期軌道に関連付けられるような局所化が見つかる。 また、正規化状態は周期軌道と決定的に関連づけられず、レペラを見ているとより明確になる拡張を与える。 これらの発見は、近年の理論的発展に対する新たな視点に扉を開けることになる。

There has been a very recent surge in the interest on the localization properties of resonances associated to partially open (scattering) systems, which are of the greatest relevance when studying resonant cavities like those used in microlasers for example. Very recently it has been found that no localization is present in a scaled form of these states. Moreover, a new kind of scarring on structures different from periodic orbits is described for non normalized resonances. In this paper, we analyze the localization of a scaled distribution function based on the quantum repeller representation for the partially open quantum tribaker map, a paradigmatic system. We find localization, which in the generic case can be associated to the shortest periodic orbits in non trivial ways. Also, normalized states present enhancements that could not be conclusively associated to periodic orbits and that become more evident when looking at the repeller. These findings leave the door open for new perspectives on recent theoretical developments.
翻訳日:2023-01-12 18:14:25 公開日:2023-01-09
# 双曲ファンデルワールス材料を用いたキャビティ量子電磁力学

Cavity Quantum Electrodynamics with Hyperbolic van der Waals Materials ( http://arxiv.org/abs/2301.03712v1 )

ライセンス: Link先を確認
Yuto Ashida, Atac Imamoglu, Eugene Demler(参考訳) 量子エミッタの基底状態特性と励起エネルギーは、共振器共振周波数に匹敵する光-物質相互作用強度を持つ共振器量子電磁力学(QED)の超強結合状態に変化することができる。 近年,電子材料を深いサブ波長スケールの電磁界を包含する空洞に埋め込むことで制御する可能性を探究する研究が始まっている。 現在、量子物質の基本的な励起の大部分はこの周波数窓にあるため、テラヘルツ(THz)範囲で超強結合空洞QEDを実現するための強い動機がある。 超薄型極性ファンデルワールス結晶からなる平面キャビティによって2次元電子材料がカプセル化されるこの目的を達成するための理想的なプラットフォームを提案し,解析する。 具体的には、ナノメートルの六方晶窒化ホウ素層により、二層グラフェン中の単電子サイクロトロン共鳴の超強結合状態が達成できることを示した。 提案したキャビティ設定は, 双曲分散を有する多種多様な誘電体材料によって実現可能である。 したがって、ファン・デル・ワールスのヘテロ構造はキャビティQED材料の超強結合物理を探索するのに理想的な遊び場となる。

The ground-state properties and excitation energies of a quantum emitter can be modified in the ultrastrong coupling regime of cavity quantum electrodynamics (QED) where the light-matter interaction strength becomes comparable to the cavity resonance frequency. Recent studies have started to explore the possibility to control an electronic material by embedding it in a cavity that confines electromagnetic fields in deep subwavelength scales. Currently, there is a strong motivation to realize ultrastrong-coupling cavity QED in the terahertz (THz) range, since most of the elementary excitations of quantum materials are in this frequency window. We propose and analyze an ideal platform to achieve this aim where a two-dimensional electronic material is encapsulated by a planar cavity consisting of ultrathin polar van der Waals crystals. As a concrete setup, we show that nanometer-thick hexagonal boron nitride layers allow for reaching the ultrastrong coupling regime for single-electron cyclotron resonance in a bilayer graphene. The proposed cavity setting can be realized by a wide variety of thin dielectric materials with hyperbolic dispersions. Consequently, van der Waals heterostructures could provide an ideal playground for exploring the ultrastrong-coupling physics of cavity QED materials.
翻訳日:2023-01-11 18:04:56 公開日:2023-01-09
# 通信制約下における分散スパース線形回帰

Distributed Sparse Linear Regression under Communication Constraints ( http://arxiv.org/abs/2301.04022v1 )

ライセンス: Link先を確認
Rodney Fonseca and Boaz Nadler(参考訳) 複数のドメインにおいて、統計処理は分散環境で行われ、データは融合センターに接続された複数のエンドマシンに分割される。 様々なアプリケーションにおいて、エンドマシンは帯域幅と電力が限られており、通信予算が厳しい。 本研究では,重度の通信制約下で分散線形回帰モデルの分散学習に焦点をあてる。 本稿では,マシンごとの通信がデータ次元のサブ線形である2つのラウンド分散スキームを提案する。 私たちのスキームでは、個々のマシンがデバイアスされたlasso推定値を計算するが、fusion centerに送信する値はごくわずかである。 理論的には、これらのスキームの1つを分析し、高い確率で低信号から雑音比での正確な支持回復を実現し、個々の機械が支持を回復できないことを示す。 シミュレーションでは、我々のスキームは通信集約的なアプローチよりもうまく機能し、場合によっては優れていることが示される。

In multiple domains, statistical tasks are performed in distributed settings, with data split among several end machines that are connected to a fusion center. In various applications, the end machines have limited bandwidth and power, and thus a tight communication budget. In this work we focus on distributed learning of a sparse linear regression model, under severe communication constraints. We propose several two round distributed schemes, whose communication per machine is sublinear in the data dimension. In our schemes, individual machines compute debiased lasso estimators, but send to the fusion center only very few values. On the theoretical front, we analyze one of these schemes and prove that with high probability it achieves exact support recovery at low signal to noise ratios, where individual machines fail to recover the support. We show in simulations that our scheme works as well as, and in some cases better, than more communication intensive approaches.
翻訳日:2023-01-11 17:57:39 公開日:2023-01-09
# 1+1Dハドロン、バイパルトン・レニー自由エネルギーを最小化

1+1D Hadrons Minimize their Biparton Renyi Free Energy ( http://arxiv.org/abs/2301.03611v1 )

ライセンス: Link先を確認
Pouya Asadi, Varun Vaidya(参考訳) 1+1次元の様々なゲージ理論の基底状態ハドロンのスペクトルとパルトン分布関数を計算するために変分法を用いる。 本手法のテンプレート関数は,光錐上の自由価粒子の運動エネルギーとバイパルトン部分系のレニエンタングルメントエントロピーの組合せとして定義される自由エネルギー関数を最小化する。 これらの理論のハドロンは提案された自由エネルギーを最小化する。 この手法の成功は、高次元のゲージ理論の収束に適用する動機となっている。

We use a variational method to calculate the spectrum and the parton distribution function of ground state hadrons of various gauge theories in 1+1 dimensions. The template functions in our method minimize a free energy functional defined as a combination of free valence partons' kinetic energy on the lightcone and the Renyi entanglement entropy of biparton subsystems. Our results show that hadrons in these theories minimize the proposed free energy. The success of this technique motivates applying it to confining gauge theories in higher dimensions.
翻訳日:2023-01-11 17:56:30 公開日:2023-01-09
# 有限系のワイル予想と熱放射

Weyl conjecture and thermal radiation of finite systems ( http://arxiv.org/abs/2301.03623v1 )

ライセンス: Link先を確認
M. C. Baldiotti, M. A. Jaraba, L. F. Santos, C. Molina(参考訳) 本研究は, D次元におけるワイル法則とワイル予想の補正を行い, 偏極と面積項に関連する効果を解析した。 導出形式は、半古典的処理における有限$d$次元箱内の電磁場の準熱力学に適用される。 この文脈では、ステファン=ボルツマン法則の補正が得られる。 実験装置のキャラクタリゼーションに利用することができるため、2次元シナリオに特に注意が払われる。 別の応用として、d次元の有限固体に対するデバイモデルの準熱力学的一般化における音響摂動がある。 既知の結果に対する拡張と補正、およびデバイ周波数やデュロングペティットの法則のような通常の公式を計算する。

In this work, corrections for the Weyl law and Weyl conjecture in d dimensions are obtained and effects related to the polarization and area term are analyzed. The derived formalism is applied on the quasithermodynamics of the electromagnetic field in a finite $d$-dimensional box within a semi-classical treatment. In this context, corrections to the Stefan-Boltzmann law are obtained. Special attention is given to the two-dimensional scenario, since it can be used in the characterization of experimental setups. Another application concerns acoustic perturbations in a quasithermodynamic generalization of Debye model for a finite solid in d dimensions. Extensions and corrections for known results and usual formulas, such as the Debye frequency and Dulong-Petit law, are calculated.
翻訳日:2023-01-11 17:56:20 公開日:2023-01-09
# 多体散乱によるブリッジ量子臨界

Bridging quantum criticality via many-body scarring ( http://arxiv.org/abs/2301.03631v1 )

ライセンス: Link先を確認
Aiden Daniel, Andrew Hallam, Jean-Yves Desaules, Ana Hudomal, Guo-Xian, Jad C. Halimeh, Zlatko Papi\'c(参考訳) ある速度論的に拘束された系における量子力学は、初期状態に対して強い感度を示すことができ、いくつかの初期状態は永続的な量子復調をもたらす("quantum many-body scarring" (qmbs)として知られる弱いエルゴディティの破れの一種)。 最近の研究 (Phys.Rev.B 105, 125123 (2022)) では、QMBSは系を量子臨界点に調整することで破壊され、系の平衡状態にある基底状態における長距離秩序の消失を反映していると指摘した。 ここでは、この図は、初期条件の連続的な族からQMBSのダイナミクスを示すシステムにおいて、よりリッチであることを示す: システムが臨界点を越えて調整されると同時に、初期状態が変形すると同時に、中間時のQMBSの動的シグネチャは、平衡相転移点を越えて明らかに滑らかな進化を行うことができる。 pxpモデル - ライドバーグ原子配列で最近実現されたqmbのパラダイムモデルと、傾斜した光学格子内の超低温ボソニック原子を用いてこれを実証する。 厳密な対角化と行列積状態法を用いて, pxpモデルの動的位相図をクエンチされた化学ポテンシャルにマッピングした。 我々は,QMBSを発生させる初期状態の連続的な族の存在を実証し,実験においてそのような状態を作成するのに使用できるランプングプロトコルを定式化する。 以上の結果から,PXPモデルにおけるスカーリングの普遍性を示し,量子臨界による興味深い相互作用を強調した。

Quantum dynamics in certain kinetically-constrained systems can display a strong sensitivity to the initial condition, wherein some initial states give rise to persistent quantum revivals -- a type of weak ergodicity breaking known as `quantum many-body scarring' (QMBS). Recent work [Phys.Rev.B 105, 125123 (2022)] pointed out that QMBS gets destroyed by tuning the system to a quantum critical point, echoing the disappearance of long-range order in the system's ground state at equilibrium. Here we show that this picture can be much richer in systems that display QMBS dynamics from a continuous family of initial conditions: as the system is tuned across the critical point while at the same time deforming the initial state, the dynamical signatures of QMBS at intermediate times can undergo an apparently smooth evolution across the equilibrium phase transition point. We demonstrate this using the PXP model -- a paradigmatic model of QMBS that has recently been realized in Rydberg atom arrays as well as ultracold bosonic atoms in a tilted optical lattice. Using exact diagonalization and matrix product state methods, we map out the dynamical phase diagram of the PXP model with the quenched chemical potential. We demonstrate the existence of a continuous family of initial states that give rise to QMBS and formulate a ramping protocol that can be used to prepare such states in experiment. Our results show the ubiquity of scarring in the PXP model and highlight its intriguing interplay with quantum criticality.
翻訳日:2023-01-11 17:56:10 公開日:2023-01-09
# MOC-AE : 臨床診断支援システムの解剖学的解析

MOC-AE: An Anatomically-Pathological-Based model for Clinical Decision Support System of tumoural brain images ( http://arxiv.org/abs/2301.03701v1 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera, Alberto D\'iaz-\'Alvarez, Miguel Grac\'ia-Remesal(参考訳) 本研究では,脳腫瘍画像から特徴を抽出するマルチアウトプット分類オートエンコーダ(moc-ae)アルゴリズムを提案する。 提案するアルゴリズムは,患者の正常な特徴と症例に存在する病理学的特徴の両方に焦点を合わせることができ,各画像のコンパクトかつ有意な表現が可能となる。 MOC-AEのアーキテクチャは、オートエンコーダ(AE)を用いてスキャンした患者の解剖情報と、同一の画像記述子を用いた分類出力を用いた特定の病理関連情報とを結合する。 この目標の組み合わせによって、ネットワークは、使用中のラベルの低コストを維持しながら、ケースの解剖学的特徴と病理学的特徴のバランスを維持することができる。 その結果, 同様の研究結果と比較し, それぞれのアプローチの強さと限界について考察した。 その結果,提案アルゴリズムは,推奨症例の解剖学的特徴と腫瘍的特徴の両面から,最先端の結果が得られることを示した。

The present work proposes a Multi-Output Classification Autoencoder (MOC-AE) algorithm to extract features from brain tumour images. The proposed algorithm is able to focus on both the normal features of the patient and the pathological features present in the case, resulting in a compact and significant representation of each image. The architecture of MOC-AE combines anatomical information from the patients scan using an Autoencoder (AE) with information related to a specific pathology using a classification output with the same image descriptor. This combination of goals forces the network to maintain a balance between anatomical and pathological features of the case while maintaining the low cost of the labels being used. The results obtained are compared with those of similar studies and the strengths and limitations of each approach are discussed. The results demonstrate that the proposed algorithm is capable of achieving state-of-the-art results in terms of both the anatomical and tumor characteristics of the recommended cases.
翻訳日:2023-01-11 17:49:21 公開日:2023-01-09
# 対向的ロバスト性とワッサースタイン昇華動力学の活用について

On adversarial robustness and the use of Wasserstein ascent-descent dynamics to enforce it ( http://arxiv.org/abs/2301.03662v1 )

ライセンス: Link先を確認
Camilo Garcia Trillos, Nicolas Garcia Trillos(参考訳) 本稿では,様々な教師付き学習環境における逆問題に対する反復アルゴリズムを提案する。 我々のアルゴリズムは、ワッサーシュタイン空間において適切な昇華ダイナミクスと解釈できるが、相互作用する粒子の系の形を取る。 これらの相互作用する粒子動力学は、ある多数の粒子レジームにおいて適切な平均場極限方程式に収束することが示されている。 逆に、ある正則性仮定の下では、これらの平均場方程式は、元の逆学習問題の近似ナッシュ平衡に対して、大きな時間制限で収束する。 コンベックス非凹面設定と非凸凹面設定の結果を示す。 数値実験で結果が分かる。

We propose iterative algorithms to solve adversarial problems in a variety of supervised learning settings of interest. Our algorithms, which can be interpreted as suitable ascent-descent dynamics in Wasserstein spaces, take the form of a system of interacting particles. These interacting particle dynamics are shown to converge toward appropriate mean-field limit equations in certain large number of particles regimes. In turn, we prove that, under certain regularity assumptions, these mean-field equations converge, in the large time limit, toward approximate Nash equilibria of the original adversarial learning problems. We present results for nonconvex-nonconcave settings, as well as for nonconvex-concave ones. Numerical experiments illustrate our results.
翻訳日:2023-01-11 17:48:45 公開日:2023-01-09
# フェデレーション学習は実践的なPETか?

Is Federated Learning a Practical PET Yet? ( http://arxiv.org/abs/2301.04017v1 )

ライセンス: Link先を確認
Franziska Boenisch, Adam Dziedzic, Roei Schuster, Ali Shahin Shamsabadi, Ilia Shumailov, Nicolas Papernot(参考訳) Federated Learning(FL)は、機械学習モデルを共同でトレーニングするためのフレームワークである。 FLは、データの最小化を提供するプライバシー強化技術(PET)として推進されている: データは、パーソナルデバイスを決して“解放”せず、ユーザは、分散トレーニングをコーディネートするサーバ(例えば、会社)とのみモデル更新を共有する。 サーバを信頼できないユーザに対して提供される現実的な(最悪の場合)プライバシ保証を評価します。 そこで本研究では,分散微分プライバシー (DDP) とセキュアアグリゲーション (SA) で保護されたFLに対する攻撃を提案する。 攻撃方法は、プロトコルから逸脱して個々のユーザのデータをサーバによる再構築のために公開するsybilデバイスの導入に基づいている。 攻撃の脆弱性の根本原因は、電力不均衡である。 サーバはプロトコル全体を編成し、ユーザはプロトコルに参加する他のユーザの選択についてほとんど保証されない。 今後,サーバを信頼せずにDDPを保証するためのFLプロトコルの要件について議論する。 このようなシステムはまだ実用的ではないと結論づける。

Federated learning (FL) is a framework for users to jointly train a machine learning model. FL is promoted as a privacy-enhancing technology (PET) that provides data minimization: data never "leaves" personal devices and users share only model updates with a server (e.g., a company) coordinating the distributed training. We assess the realistic (i.e., worst-case) privacy guarantees that are provided to users who are unable to trust the server. To this end, we propose an attack against FL protected with distributed differential privacy (DDP) and secure aggregation (SA). The attack method is based on the introduction of Sybil devices that deviate from the protocol to expose individual users' data for reconstruction by the server. The underlying root cause for the vulnerability to our attack is the power imbalance. The server orchestrates the whole protocol and users are given little guarantees about the selection of other users participating in the protocol. Moving forward, we discuss requirements for an FL protocol to guarantee DDP without asking users to trust the server. We conclude that such systems are not yet practical.
翻訳日:2023-01-11 17:40:08 公開日:2023-01-09
# 1次元トラップにおける強結合フェルミオン対への複合ボソン形式の適用

Composite-boson formalism applied to strongly bound fermion pairs in a one-dimensional trap ( http://arxiv.org/abs/2301.03637v1 )

ライセンス: Link先を確認
Mart\'in D. Jim\'enez, Eloisa Cuestas, Ana P. Majtey and Cecilia Cormick(参考訳) 異なるフェルミオン種間の魅力的なデルタ相互作用を持つ1次元調和トラップ内のフェルミオンの系を原子ダイマーに関する実験の近似記述として解析した。 本研究では,2つのフェルミオン対の問題を,単粒子法に基づく手法の代替として,いわゆる「コボソン形式」を用いて数値的に解く。 これにより、強結合状態の研究が可能となり、複合粒子がハードコア粒子として振る舞う無限アトラクションの限界に近づく。 提案手法は計算コストが低く,凝縮がなくても超低温原子系にコボソン工具箱が有用であることを示す。

We analyze a system of fermions in a one-dimensional harmonic trap with attractive delta-interactions between different fermions species, as an approximate description of experiments involving atomic dimers. We solve the problem of two fermion pairs numerically using the so-called ''coboson formalism'' as an alternative to techniques which are based on the single-particle basis. This allows us to explore the strongly bound regime, approaching the limit of infinite attraction in which the composite particles behave as hard-core bosons. Our procedure is computationally inexpensive and illustrates how the coboson toolbox is useful for ultracold atom systems even in absence of condensation.
翻訳日:2023-01-11 17:39:18 公開日:2023-01-09
# 電磁誘導透過を用いた中性原子のナノスケールアドレッシングと操作

Nanoscale addressing and manipulation of neutral atoms using electromagnetically induced transparency ( http://arxiv.org/abs/2301.03654v1 )

ライセンス: Link先を確認
U. Saglam, T. G. Walker, M. Saffman, and D. D. Yavuz(参考訳) 暗黒状態に基づくローカライゼーション手法を中性原子量子コンピューティングアーキテクチャに統合し、2つの特定のスキームを数値的に検討する。 第1のスキームは、特定の量子ビットから光子を散乱し、アンサンブル内の他の原子とほとんど交差しない状態選択的射影測定を実装している。 第2のスキームは、ターゲット原子上の単一量子ビット位相ゲートを0.01未満の非コヒーレント自発放出確率で実行する。 ルビジウム(Rb)原子の数値シミュレーションにより、これらのスキームのどちらも、近赤外光を用いた数十ナノメートルの空間分解能を実験的に現実的なパラメータで達成できることが示されている。

We propose to integrate dark-state based localization techniques into a neutral atom quantum computing architecture and numerically investigate two specific schemes. The first scheme implements state-selective projective measurement by scattering photons from a specific qubit with very little cross talk on the other atoms in the ensemble. The second scheme performs a single-qubit phase gate on the target atom with an incoherent spontaneous emission probability as low as 0.01. Our numerical simulations in rubidium (Rb) atoms show that for both of these schemes a spatial resolution at the level of tens of nanometers using near-infrared light can be achieved with experimentally realistic parameters.
翻訳日:2023-01-11 17:39:06 公開日:2023-01-09
# 3次元脳MRI合成のためのマルチスケールメタモルフィックVAE

Multiscale Metamorphic VAE for 3D Brain MRI Synthesis ( http://arxiv.org/abs/2301.03588v1 )

ライセンス: Link先を確認
Jaivardhan Kapoor, Christian F. Baumgartner, Jakob H. Macke(参考訳) 3次元脳MRIの生成的モデリングは、データ分布の十分なカバレッジを確保しつつ、高い視覚的忠実度を達成するのに困難を示す。 本稿では,可変オートエンコーダ(vae)フレームワークにおいて,構成可能で多スケールな形態素変換によってこの問題に対処することを提案する。 これらの変換は、選択された参照脳画像に適用され、MRIボリュームを生成し、強力な解剖学的誘導バイアスを持つモデルに適合する。 VAE潜在空間をモデルが十分にデータ分布をカバーするように構成する。 VAEやGAN(Generative Adversarial Network)をベースとした先行作業と比較して,FIDの性能は,同等あるいは優れた再現品質を維持しつつ,大幅に向上した。

Generative modeling of 3D brain MRIs presents difficulties in achieving high visual fidelity while ensuring sufficient coverage of the data distribution. In this work, we propose to address this challenge with composable, multiscale morphological transformations in a variational autoencoder (VAE) framework. These transformations are applied to a chosen reference brain image to generate MRI volumes, equipping the model with strong anatomical inductive biases. We structure the VAE latent space in a way such that the model covers the data distribution sufficiently well. We show substantial performance improvements in FID while retaining comparable, or superior, reconstruction quality compared to prior work based on VAEs and generative adversarial networks (GANs).
翻訳日:2023-01-11 17:31:56 公開日:2023-01-09
# patentview-evaluation: 発明者名非曖昧化の研究を進めるための評価データセットとツール

PatentsView-Evaluation: Evaluation Datasets and Tools to Advance Research on Inventor Name Disambiguation ( http://arxiv.org/abs/2301.03591v1 )

ライセンス: Link先を確認
Olivier Binette, Sarvo Madhavan, Jack Butler, Beth Anne Card, Emily Melluso, and Christina Jones(参考訳) patentsView-EvaluationはPythonパッケージで、研究者がPatentsView.orgのような発明名曖昧化システムの性能を評価することができる。 このパッケージには、ベンチマークデータセットと評価ツールが含まれており、高品質の評価データにアクセスし、評価基準を改善することにより、発明者名不曖昧化の研究を進めることを目的としている。

We present PatentsView-Evaluation, a Python package that enables researchers to evaluate the performance of inventor name disambiguation systems such as PatentsView.org. The package includes benchmark datasets and evaluation tools, and aims to advance research on inventor name disambiguation by providing access to high-quality evaluation data and improving evaluation standards.
翻訳日:2023-01-11 17:31:45 公開日:2023-01-09
# ソフトウェア要件ペアにおける競合と重複検出のための伝達学習

Transfer learning for conflict and duplicate detection in software requirement pairs ( http://arxiv.org/abs/2301.03709v1 )

ライセンス: Link先を確認
Garima Malik, Savas Yildirim, Mucahit Cevik, Ayse Bener, Devang Parikh(参考訳) ソフトウェアプロジェクトの成功には、ソフトウェア要件の一貫性と包括的表現が重要である。 本研究では,ソフトウェア要件仕様の矛盾や重複を自動的に識別することで,ソフトウェア開発プロセスの効率化を目指す。 要求対分類タスクとして競合と重複検出問題を定式化する。 コンフリクトと重複識別タスクのために,Sentence-BERTとBiエンコーダを組み込んだ新しいトランスフォーマーアーキテクチャSR-BERTを設計する。 さらに,教師付きマルチステージ微調整を事前学習したトランスモデルに適用する。 4つの異なるデータセットを用いて、異なる転送モデルの性能をテストする。 逐次訓練および微調整されたトランスフォーマーモデルは、SR-BERTでデータセット全体にわたって良好に動作し、より大きなデータセットに対して最高のパフォーマンスを実現している。 また、コンフリクト検出モデルのクロスドメイン性能を調査し、モデル分類を検証するルールベースのフィルタリング手法を採用する。 分析の結果,文対分類手法とトランスフォーマーに基づく自然言語処理手法が競合の自動化と重複検出に大きく寄与することが示された。

Consistent and holistic expression of software requirements is important for the success of software projects. In this study, we aim to enhance the efficiency of the software development processes by automatically identifying conflicting and duplicate software requirement specifications. We formulate the conflict and duplicate detection problem as a requirement pair classification task. We design a novel transformers-based architecture, SR-BERT, which incorporates Sentence-BERT and Bi-encoders for the conflict and duplicate identification task. Furthermore, we apply supervised multi-stage fine-tuning to the pre-trained transformer models. We test the performance of different transfer models using four different datasets. We find that sequentially trained and fine-tuned transformer models perform well across the datasets with SR-BERT achieving the best performance for larger datasets. We also explore the cross-domain performance of conflict detection models and adopt a rule-based filtering approach to validate the model classifications. Our analysis indicates that the sentence pair classification approach and the proposed transformer-based natural language processing strategies can contribute significantly to achieving automation in conflict and duplicate detection
翻訳日:2023-01-11 17:31:36 公開日:2023-01-09
# 赤外光を用いた非接触呼吸異常検出

Non-contact Respiratory Anomaly Detection using Infrared Light Wave Sensing ( http://arxiv.org/abs/2301.03713v1 )

ライセンス: Link先を確認
Md Zobaer Islam, Brenden Martin, Carly Gotcher, Tyler Martinez, John F. O'Hara, Sabit Ekin(参考訳) ヒト呼吸速度とそのパターンは、被験者の身体的および心理的状態に関する重要な情報を伝える。 異常な呼吸は、さらなる診断と治療につながる可能性のある致命的な健康上の問題の兆候である。 無コヒーレント赤外光を用いた無線光波センシング(LWS)は、安全で離散的、効率的で非侵襲的な方法で人間の呼吸監視において、プライバシーの懸念を生じさせることなく有望であることが判明した。 各個人の呼吸パターンは独特であり、呼吸監視システムは、呼吸異常の旗を上げるために、被験者の通常のパターンを学習する必要がある。 また、外部遮断やシステムの故障により発生する故障データはすべて廃棄されるため、収集したデータが呼吸波形であることを検証することが可能である必要がある。 これらのニーズを両立させるために, 赤外線センシング技術を用いて, 正常呼吸と異常呼吸の呼吸データを収集した。 呼吸異常と異常データを検出するために,2つの機械学習アルゴリズム,決定木とランダム森林を適用した。 最後に,クロスバリデーションにより得られた平均分類精度を用いてモデル性能を評価した。 最高分類精度は96.6%であり、決定木モデルを用いて0.5m距離で収集した。 ランダムフォレストのようなアンサンブルモデルは、光波センシング設定から複数の距離で収集されたデータの分類において、1つのモデルよりも優れた性能を示した。

Human respiratory rate and its pattern convey important information about the physical and psychological states of the subject. Abnormal breathing can be a sign of fatal health issues which may lead to further diagnosis and treatment. Wireless light wave sensing (LWS) using incoherent infrared light turns out to be promising in human breathing monitoring in a safe, discreet, efficient and non-invasive way without raising any privacy concerns. The regular breathing patterns of each individual are unique, hence the respiration monitoring system needs to learn the subject's usual pattern in order to raise flags for breathing anomalies. Additionally, the system needs to be capable of validating that the collected data is a breathing waveform, since any faulty data generated due to external interruption or system malfunction should be discarded. In order to serve both of these needs, breathing data of normal and abnormal breathing were collected using infrared light wave sensing technology in this study. Two machine learning algorithms, decision tree and random forest, were applied to detect breathing anomalies and faulty data. Finally, model performance was evaluated using average classification accuracies found through cross-validation. The highest classification accuracy of 96.6% was achieved with the data collected at 0.5m distance using decision tree model. Ensemble models like random forest were found to perform better than a single model in classifying the data that were collected at multiple distances from the light wave sensing setup.
翻訳日:2023-01-11 17:31:21 公開日:2023-01-09
# エネルギー制約型IoTデバイスのためのフェデレーション学習:システマティックマッピングによる研究

Federated Learning for Energy Constrained IoT devices: A systematic mapping study ( http://arxiv.org/abs/2301.03720v1 )

ライセンス: Link先を確認
Rachid EL Mokadem, Yann Ben Maissa and Zineb El Akkaoui(参考訳) Federated Machine Learning (Fed ML)は、クライアントのローカルデータを使ってグローバルモデルを協調的にトレーニングする、新たな分散機械学習技術である。 ノードはパラメータ更新(例えばニューラルネットワークの場合の重み更新)のみを送信するが、これはサーバが融合してグローバルモデルを構築する。 ノードデータを拡散しないことで、Fed MLはその機密性、ネットワークセキュリティの重要な側面を保証し、データに敏感なIoT(Internet of Things)と、スマートジオロケーションやスマートグリッドなどのモバイルアプリケーションで使用できるようにする。 しかし、ほとんどのIoTデバイスは特にエネルギーに制約があるため、効率的なトレーニングタスクと電力消費の最適化のためにFed MLプロセスを最適化する必要が生じる。 本稿では,エネルギー制約型IoTデバイスを対象としたFed ML最適化技術に関する第1回システムマッピング研究(SMS)を行う。 合計800以上の論文から基準を満たした67の論文を選び、慎重に選択された研究質問のセットを用いて、その分野の構造化された概要を示す。 最後に、エネルギー制約のあるFed MLの現状の分析を行い、研究コミュニティの潜在的な推奨事項について概説する。

Federated Machine Learning (Fed ML) is a new distributed machine learning technique applied to collaboratively train a global model using clients local data without transmitting it. Nodes only send parameter updates (e.g., weight updates in the case of neural networks), which are fused together by the server to build the global model. By not divulging node data, Fed ML guarantees its confidentiality, a crucial aspect of network security, which enables it to be used in the context of data-sensitive Internet of Things (IoT) and mobile applications, such as smart Geo-location and the smart grid. However, most IoT devices are particularly energy constrained, which raises the need to optimize the Fed ML process for efficient training tasks and optimized power consumption. In this paper, we conduct, to the best of our knowledge, the first Systematic Mapping Study (SMS) on Fed ML optimization techniques for energy-constrained IoT devices. From a total of more than 800 papers, we select 67 that satisfy our criteria and give a structured overview of the field using a set of carefully chosen research questions. Finally, we attempt to provide an analysis of the energy-constrained Fed ML state of the art and try to outline some potential recommendations for the research community.
翻訳日:2023-01-11 17:31:01 公開日:2023-01-09
# プライバシ保存記録の基数カウントへの応用

Privacy-Preserving Record Linkage for Cardinality Counting ( http://arxiv.org/abs/2301.04000v1 )

ライセンス: Link先を確認
Nan Wu, Dinusha Vatsalan, Mohamed Ali Kaafar, Sanath Kumar Ramesh(参考訳) いくつかの応用ではデータの異なる項目の数を数える必要があり、これは濃度計数問題として知られている。 例としては、適切な認識と資金提供を計るまれな疾患患者などの健康アプリケーション、アウトブレイク検出のための新しい病気の症例数を計数するアプリケーション、新製品が到達する可視性数を計るマーケティングアプリケーション、ソーシャルメディア投稿のユニークビュー数を追跡するサイバーセキュリティアプリケーションなどがある。 カウントに必要なデータは、多くの場合、個人的でセンシティブであり、プライバシ保存技術を使って処理する必要がある。 タイプミス、エラー、バリエーションなど、さまざまなデータベース内のデータの品質は、正確な濃度推定に新たな課題をもたらす。 近年,プライバシ保存濃度計数法が注目されているが,ファジィマッチングと証明可能なプライバシ保証を用いた記録リンク法を用いて,プライバシ保存濃度計数を行う手法が開発されている。 本稿では,非教師付きクラスタリング技術を用いて,プライバシやアイデンティティを損なうことなく,複数のデータセット内の個人の濃度をリンクしカウントする,新たなプライバシ保存レコードリンクアルゴリズムを提案する。 さらに、濃度として最適なクラスター数を求める既存の肘法は、生成したクラスターの純度と完全性を考慮していないため、正確ではない。 教師なし学習において最適なクラスタ数を求める新しい手法を提案する。 実データおよび合成データに対する実験結果は,最先端のファジィマッチングとクラスタリング法と比較して,プライバシー予算(epsilon)=1.0の0.1未満の誤差率で極めて有望である。

Several applications require counting the number of distinct items in the data, which is known as the cardinality counting problem. Example applications include health applications such as rare disease patients counting for adequate awareness and funding, and counting the number of cases of a new disease for outbreak detection, marketing applications such as counting the visibility reached for a new product, and cybersecurity applications such as tracking the number of unique views of social media posts. The data needed for the counting is however often personal and sensitive, and need to be processed using privacy-preserving techniques. The quality of data in different databases, for example typos, errors and variations, poses additional challenges for accurate cardinality estimation. While privacy-preserving cardinality counting has gained much attention in the recent times and a few privacy-preserving algorithms have been developed for cardinality estimation, no work has so far been done on privacy-preserving cardinality counting using record linkage techniques with fuzzy matching and provable privacy guarantees. We propose a novel privacy-preserving record linkage algorithm using unsupervised clustering techniques to link and count the cardinality of individuals in multiple datasets without compromising their privacy or identity. In addition, existing Elbow methods to find the optimal number of clusters as the cardinality are far from accurate as they do not take into account the purity and completeness of generated clusters. We propose a novel method to find the optimal number of clusters in unsupervised learning. Our experimental results on real and synthetic datasets are highly promising in terms of significantly smaller error rate of less than 0.1 with a privacy budget {\epsilon} = 1.0 compared to the state-of-the-art fuzzy matching and clustering method.
翻訳日:2023-01-11 17:29:37 公開日:2023-01-09
# 多面型人間中心型aiを目指して

Towards Multifaceted Human-Centered AI ( http://arxiv.org/abs/2301.03656v1 )

ライセンス: Link先を確認
Sajjadur Rahman, Hannah Kim, Dan Zhang, Estevam Hruschka, Eser Kandogan(参考訳) 人間中心のAIワークフローには、さまざまなタスクを達成するために、複数の役割を持つステークホルダーと自動化エージェントが含まれる。 本稿では,これらの多面的ワークフローに対して,インタラクションパラダイムやインターフェース,システムといった支援機構を設計する際の全体論的な見解を求める。

Human-centered AI workflows involve stakeholders with multiple roles interacting with each other and automated agents to accomplish diverse tasks. In this paper, we call for a holistic view when designing support mechanisms, such as interaction paradigms, interfaces, and systems, for these multifaceted workflows.
翻訳日:2023-01-11 17:20:50 公開日:2023-01-09
# qubitリサイクルとパスカウント問題

Qubit recycling and the path counting problem ( http://arxiv.org/abs/2301.03725v1 )

ライセンス: Link先を確認
Zijian Song, Isaac H. Kim(参考訳) 最近では、畳み込み形 (Matrix Product State Sand Multi-scale Entanglement Renormalization Ansatz) の回路で使われるキューディットが、測定なしでも、単位的に \href{https://doi.org/10.1103/PhysRevA.103.042613}{[Phys. Rev. A 103, 042613 (2021)] をリセットできることが示されている。 このような回路と局所量子回路の間を補間する量子回路群に対するこのプロトコルの忠実度を、ハールランダムゲート上で平均的に解析する。 この問題と、量子回路の形状によって決定されるグラフ上の有向経路の計数との接続を確立する。 この接続は、畳み込み回路とランダム量子回路の間を補間するファミリー全体のプロトコルの忠実さの正確な表現をもたらす。 一定の窓の大きさの畳み込み回路の場合、単位忠実度への収束速度は$\frac{q^2}{q^2+1}$で、窓の大きさとは独立であり、$q$は局所的なクウディ次元である。 畳み込み回路のほとんどのアプリケーションは定サイズの窓を使用するため、この方式ではユニタリリセットプロトコルがうまく機能する可能性が示唆された。 また、独立利害関係にあるかもしれない、畳み込み制限の2つの追加結果も導き出します。 まず、リセットクォーディット間の相関関係の正確な式を導出し、距離で指数関数的に減衰することを示す。 第二に、ノイズの存在下での忠実度を表す表現を、絡み合いの忠実度などのチャネルの性質を定義する量の観点から導出する。

Recently, it was shown that the qudits used in circuits of a convolutional form (e.g., Matrix Product State sand Multi-scale Entanglement Renormalization Ansatz) can be reset unitarily \href{https://doi.org/10.1103/PhysRevA.103.042613}{[Phys. Rev. A 103, 042613 (2021)]}, even without measurement. We analyze the fidelity of this protocol for a family of quantum circuits that interpolates between such circuits and local quantum circuits, averaged over Haar-random gates. We establish a connection between this problem and a counting of directed paths on a graph, which is determined by the shape of the quantum circuit. This connection leads to an exact expression for the fidelity of the protocol for the entire family that interpolates between convolutional circuit and random quantum circuit. For convolutional circuits of constant window size, the rate of convergence to unit fidelity is shown to be $\frac{q^2}{q^2+1}$, independent of the window size, where $q$ is the local qudit dimension. Since most applications of convolutional circuits use constant-sized windows, our result suggests that the unitary reset protocol will likely work well in such a regime. We also derive two extra results in the convolutional limit, which may be of an independent interest. First, we derive exact expressions for the correlations between reset qudits and show that it decays exponentially in the distance. Second, we derive an expression for the the fidelity in the presence of noise, expressed in terms of the quantities that define the property of the channel, such as the entanglement fidelity.
翻訳日:2023-01-11 17:13:53 公開日:2023-01-09
# 個人エージェントの視点から見た大沢のQB主義への反論

Ozawa's Intersubjectivity Theorem as objection to QBism individual agent perspective ( http://arxiv.org/abs/2301.04014v1 )

ライセンス: Link先を確認
Andrei Khrennikov(参考訳) qbism の'the outcome of a measurement of a observable is personal'' という基本的な主張は、ozawa's intersubjectivity theorem (oit) と正反対である。 後者(量子形式論において証明される)は、qbismの用語におけるエージェントである2人のオブザーバーが、システム上で同じ観測可能な$a$の合同測定を行い、$\psi$の状態において$s$が同じ結果を得るべきであると述べる。 大沢氏の用語では、この結果は形容詞的であり、個人的扱いはできない。 これは、原則を更新しなければ生き残れないQB主義に対する強い反対である。 量子可観測性(quantum observable)の概念は、QBismの基礎におけるOITの影響を理解する上で不可欠な側面である。 本稿では, PVM と POVM で表される不正確な, 雑音, 量子オブザーバブルの差に着目した補足的議論を含む。 さらに、量子力学のコペンハーゲン解釈におけるOITの影響についても論じる。

QBism's foundational statement that ``the outcome of a measurement of an observable is personal'' is in the straight contraversion with Ozawa's Intersubjectivity Theorem (OIT). The latter (proven within the quantum formalism) states that two observers, agents within the QBism terminology, performing joint measurements of the same observable $A$ on a system $S$ in the state $\psi$ should get the same outcome $A=x.$ In Ozawa's terminology, this outcome is intersubjective and it can't be treated as personal. This is the strong objection to QBism which can't survive without updating its principles. The essential aspect in understanding of the OIT-impact on QBism's foundations takes the notion of quantum observable. This paper comprises the complementary discussion highlighting the difference between the accurate, von Neumann, and inaccurate, noisy, quantum observables which are represented by PVMs and POVMs respectively. Moreover, we discuss the OIT-impact on the Copenhagen interpretation of quantum mechanics.
翻訳日:2023-01-11 17:11:54 公開日:2023-01-09
# 様々な作用空間における線形バンディットに対するミニマックスの後悔について

On the Minimax Regret for Linear Bandits in a wide variety of Action Spaces ( http://arxiv.org/abs/2301.03597v1 )

ライセンス: Link先を確認
Debangshu Banerjee, Aditya Gopalan(参考訳) \cite{lattimore2020bandit} の著作で言及されているように、様々な作用空間における線形バンディットのミニマックス後悔を特徴付けるのはオープン問題であると言及されている。 本稿では,多岐にわたる凸作用空間に対する最適後悔下限について述べる。

As noted in the works of \cite{lattimore2020bandit}, it has been mentioned that it is an open problem to characterize the minimax regret of linear bandits in a wide variety of action spaces. In this article we present an optimal regret lower bound for a wide class of convex action spaces.
翻訳日:2023-01-11 17:03:43 公開日:2023-01-09
# ダイヤモンドナノ構造における人工原子のモジュールチップ集積フォトニック制御

Modular chip-integrated photonic control of artificial atoms in diamond nanostructures ( http://arxiv.org/abs/2301.03693v1 )

ライセンス: Link先を確認
Kevin J. Palm, Mark Dong, D. Andrew Golter, Genevieve Clark, Matthew Zimmermann, Kevin C. Chen, Linsen Li, Adrian Menssen, Andrew J. Leenheer, Daniel Dominguez, Gerald Gilbert, Matt Eichenfield, and Dirk Englund(参考訳) 長距離量子ネットワークと分散量子コンピューティングの構築における中心的な目標は、相互接続および個別に制御された量子ビットノードの開発である。 ダイヤモンド中の原子様エミッタは、可視スペクトル多チャネルフォトニック集積回路(PIC)システムの開発を動機とした光ネットワーク量子メモリの先駆的なシステムとして出現している。 しかし、多くの光チャネルで高い光学検出確率を達成できる量子ビット層による光プログラム性を実現することは、まだ未解決の課題である。 本稿では,高効率自由空間収集のために設計されたダイヤモンドナノ構造に埋め込まれた圧電駆動型原子制御画像(apics)と人工原子のモジュラーアーキテクチャを導入することで,この問題に対処する。 高速4チャンネルAPICは三相シフト器マッハ・ツェンダー干渉計を備えた分割木メッシュに基づいている。 この設計は同時に可視波長での光ブロードバンド動作、低電圧での高忠実スイッチング(40$dB)、サブユーロ変調時間スケール(30$MHz)、繰り返し可能な光パルス彫刻のための最小チャネル間クロストークを実現する。 再構成可能な自由空間相互接続により、apicを用いて、逆テーパー付きカプラで個々のダイヤモンド導波路内の単一のシリコン空白色中心に対処し、効率的な単一光子検出確率 (15$\%$) と2次自己相関測定 $g^{(2)}(0) < 0.14$ を達成する。 この分散apicのモジュール性 - 量子メモリシステムは、量子制御問題を単純化し、1000チャネルまでのさらなるスケーリングを可能にする。

A central goal in creating long-distance quantum networks and distributed quantum computing is the development of interconnected and individually controlled qubit nodes. Atom-like emitters in diamond have emerged as a leading system for optically networked quantum memories, motivating the development of visible-spectrum, multi-channel photonic integrated circuit (PIC) systems for scalable atom control. However, it has remained an open challenge to realize optical programmability with a qubit layer that can achieve high optical detection probability over many optical channels. Here, we address this problem by introducing a modular architecture of piezoelectrically-actuated atom-control PICs (APICs) and artificial atoms embedded in diamond nanostructures designed for high-efficiency free-space collection. The high-speed 4-channel APIC is based on a splitting tree mesh with triple-phase shifter Mach-Zehnder interferometers. This design simultaneously achieves optically broadband operation at visible wavelengths, high-fidelity switching ($> 40$ dB) at low voltages, sub-$\mu$s modulation timescales ($> 30$ MHz), and minimal channel-to-channel crosstalk for repeatable optical pulse carving. Via a reconfigurable free-space interconnect, we use the APIC to address single silicon vacancy color centers in individual diamond waveguides with inverse tapered couplers, achieving efficient single photon detection probabilities (15$\%$) and second-order autocorrelation measurements $g^{(2)}(0) < 0.14$ for all channels. The modularity of this distributed APIC - quantum memory system simplifies the quantum control problem, potentially enabling further scaling to 1000s of channels.
翻訳日:2023-01-11 17:02:42 公開日:2023-01-09
# 分類タスクのための量子テキスト符号化

Quantum Text Encoding for Classification Tasks ( http://arxiv.org/abs/2301.03715v1 )

ライセンス: Link先を確認
Aaranya Alexander and Dominic Widdows(参考訳) 本稿では,量子コンピュータにおけるテキスト分類について述べる。 従来の結果は100の短い文からなる人工データセットで完全精度を達成できたが、各単語にキュービットを使用するコストは高くない。 本稿では,振幅符号化特徴マップと量子サポートベクターマシンを組み合わせることで,50本の映画レビューのデータセットを用いて,感情を予測できる平均62%の精度が得られることを示す。 これはまだ小さいが、以前報告された量子NLPの結果よりもかなり大きい。

This paper explores text classification on quantum computers. Previous results have achieved perfect accuracy on an artificial dataset of 100 short sentences, but at the unscalable cost of using a qubit for each word. This paper demonstrates that an amplitude encoded feature map combined with a quantum support vector machine can achieve 62% average accuracy predicting sentiment using a dataset of 50 actual movie reviews. This is still small, but considerably larger than previously-reported results in quantum NLP.
翻訳日:2023-01-11 17:02:08 公開日:2023-01-09
# メソスケール分子集合体の光線形吸収シミュレーション:純状態アプローチの適応的階層

Simulating optical linear absorption for mesoscale molecular aggregates: an adaptive hierarchy of pure states approach ( http://arxiv.org/abs/2301.03718v1 )

ライセンス: Link先を確認
Tarun Gera, Lipeng Chen, Alex Eisfeld, Jeffrey R. Reimers, Elliot J. Taffet, Doran I. G. B. Raccah(参考訳) 本稿では,dyadic adaptive hops (dadhops) と呼ばれる大規模分子集合体に対する線形吸収スペクトルを計算する新しい方法を提案する。 この手法は、局所性を用いて計算スケーリングを改善する適応型HOPS(adHOPS)フレームワークと、線形および非線形の分光信号を計算するための線量法(dyadic HOPS)を併用する。 直交型HOPSの局所表現を構築するために,局所励起初期条件上の和から線形吸収スペクトルを再構成する初期状態分解を導入する。 初期条件に対する和を効率的にモンテカルロの標本化し、対応する計算が十分に大きな集合に対して大きさ不変なスケーリング(例えば$\mathcal{O}(1)$)を達成し、ハミルトニアンにおける静的障害の自明な包含を可能にすることを示した。 複素分子集合体における初期状態分解の挙動を解明するために光系I核錯体の計算を行い, ペリレンビスイミドに着想を得た人工分子集合体上でのDAdHOPS計算を行った。

In this paper, we present a new method for calculating linear absorption spectra for large molecular aggregates, called dyadic adaptive HOPS (DadHOPS). This method combines the adaptive HOPS (adHOPS) framework, which uses locality to improve computational scaling, with the dyadic HOPS method previously developed to calculate linear and non-linear spectroscopic signals. To construct a local representation of dyadic HOPS, we introduce an initial state decomposition which reconstructs the linear absorption spectra from a sum over locally excited initial conditions. We demonstrate the sum over initial conditions can be efficiently Monte Carlo sampled, that the corresponding calculations achieve size-invariant (i.e. $\mathcal{O}(1)$) scaling for sufficiently large aggregates, and that it allows for the trivial inclusion of static disorder in the Hamiltonian. We present calculations on the photosystem I core complex to explore the behavior of the initial state decomposition in complex molecular aggregates, and proof-of-concept DadHOPS calculations on an artificial molecular aggregate inspired by perylene bis-imide.
翻訳日:2023-01-11 17:02:00 公開日:2023-01-09
# 逆攻撃・防御による時系列モデルの受容性とロバスト性について

On the Susceptibility and Robustness of Time Series Models through Adversarial Attack and Defense ( http://arxiv.org/abs/2301.03703v1 )

ライセンス: Link先を確認
Asadullah Hill Galib, Bidhan Bashyal(参考訳) 敵の攻撃の下では、時系列回帰と分類は脆弱である。 一方、敵対的な防御は、モデルをより弾力性のあるものにすることができる。 攻撃に対して異なる時系列モデルがどの程度脆弱であるか、防御によって回復するかを評価することは重要である。 本研究では,複数の時系列モデルの防御による各種攻撃に対する感度とロバスト性について検討した。 実験は3つの敵攻撃と1つの敵防衛を備えた7回のシリーズモデルで実施される。 調査結果によると、GRUやRNNなど、すべてのモデルに脆弱性があるようだ。 LSTMとGRUは防御性も向上した。 FGSMは攻撃の点でライバルを上回っている。 PGD攻撃は、他の種類の攻撃よりも回復が難しい。

Under adversarial attacks, time series regression and classification are vulnerable. Adversarial defense, on the other hand, can make the models more resilient. It is important to evaluate how vulnerable different time series models are to attacks and how well they recover using defense. The sensitivity to various attacks and the robustness using the defense of several time series models are investigated in this study. Experiments are run on seven-time series models with three adversarial attacks and one adversarial defense. According to the findings, all models, particularly GRU and RNN, appear to be vulnerable. LSTM and GRU also have better defense recovery. FGSM exceeds the competitors in terms of attacks. PGD attacks are more difficult to recover from than other sorts of attacks.
翻訳日:2023-01-11 16:36:50 公開日:2023-01-09
# santacoder: 星に手を伸ばすな!

SantaCoder: don't reach for the stars! ( http://arxiv.org/abs/2301.03988v1 )

ライセンス: Link先を確認
Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo Garc\'ia del R\'io, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra(参考訳) bigcodeプロジェクトは、コードのための大きな言語モデルの責任ある開発に取り組んでいる、オープン科学的なコラボレーションである。 この技術報告では、2022年12月までのコラボレーションの進捗を概説し、PII(Personally Identible Information)のリアクションパイプラインの現状、モデルアーキテクチャのリスクを下げるための実験、トレーニングデータに対するより良い事前処理方法の調査について概説する。 The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。 5つ以上のGitHubスターを持つリポジトリからファイルを選択することで、パフォーマンスが大幅に低下するのです。 私たちの最良のモデルは、これまでのオープンソースのマルチリンガルコード生成モデル(incoder-6.7bとcodegen-multi-2.7b)よりも優れています。 すべてのモデルは、https://hf.co/bigcodeでOpenRAILライセンスでリリースされている。

The BigCode project is an open-scientific collaboration working on the responsible development of large language models for code. This tech report describes the progress of the collaboration until December 2022, outlining the current state of the Personally Identifiable Information (PII) redaction pipeline, the experiments conducted to de-risk the model architecture, and the experiments investigating better preprocessing methods for the training data. We train 1.1B parameter models on the Java, JavaScript, and Python subsets of The Stack and evaluate them on the MultiPL-E text-to-code benchmark. We find that more aggressive filtering of near-duplicates can further boost performance and, surprisingly, that selecting files from repositories with 5+ GitHub stars deteriorates performance significantly. Our best model outperforms previous open-source multilingual code generation models (InCoder-6.7B and CodeGen-Multi-2.7B) in both left-to-right generation and infilling on the Java, JavaScript, and Python portions of MultiPL-E, despite being a substantially smaller model. All models are released under an OpenRAIL license at https://hf.co/bigcode.
翻訳日:2023-01-11 16:35:54 公開日:2023-01-09
# 変分ベイズニューラルネットワークを用いたN体シミュレーションによる宇宙パラメータの制約

Constraining cosmological parameters from N-body simulations with Variational Bayesian Neural Networks ( http://arxiv.org/abs/2301.03991v1 )

ライセンス: Link先を確認
H\'ector J. Hort\'ua, Luz \'Angela Garc\'ia and Leonardo Casta\~neda C(参考訳) 深層学習に基づく手法は, 複雑なデータから情報を取り出す能力により, 宇宙物理パラメータの回復に応用されている。 これらの手法の1つは近似ベイズニューラルネットワーク(BNN)であり、パラメータ空間に一貫した後続分布を導出し、不確実な定量化に役立っている。 しかしながら、現代のニューラルネットワークと同様に、過度に確実な不確実性推定を生成し、BNNがデータに適用されたときにバイアスを発生させる傾向がある。 本研究では,bnnのパラメータに対する近似後値の族である乗法正規化フロー(mnfs)を実装し,変分後値分布の柔軟性向上を目的として,quijoteシミュレーションから$\omega_m$,$h$,$\sigma_8$を抽出する。 我々は,この手法を標準BNNとフリップアウト推定器と比較した。 その結果,MNFとBNNの組合せは,標準BNNの約1桁の精度で予測性能が得られ,高い精度(r^2=0.99$)で抽出された$\sigma_8$,精度の高い不確実性推定が得られた。 後者は、mnfは変分近似によって引き起こされるバイアスを緩和し、適切に調整されたネットワークで作業できる真の後方のバイアスに近いより現実的な予測分布を提供することを示唆している。

Methods based on Deep Learning have recently been applied on astrophysical parameter recovery thanks to their ability to capture information from complex data. One of these methods is the approximate Bayesian Neural Networks (BNNs) which have demonstrated to yield consistent posterior distribution into the parameter space, helpful for uncertainty quantification. However, as any modern neural networks, they tend to produce overly confident uncertainty estimates and can introduce bias when BNNs are applied to data. In this work, we implement multiplicative normalizing flows (MNFs), a family of approximate posteriors for the parameters of BNNs with the purpose of enhancing the flexibility of the variational posterior distribution, to extract $\Omega_m$, $h$, and $\sigma_8$ from the QUIJOTE simulations. We have compared this method with respect to the standard BNNs, and the flipout estimator. We found that MNFs combined with BNNs outperform the other models obtaining predictive performance with almost one order of magnitude larger that standard BNNs, $\sigma_8$ extracted with high accuracy ($r^2=0.99$), and precise uncertainty estimates. The latter implies that MNFs provide more realistic predictive distribution closer to the true posterior mitigating the bias introduced by the variational approximation and allowing to work with well-calibrated networks.
翻訳日:2023-01-11 16:35:31 公開日:2023-01-09
# 学習報酬関数のフレギリティについて

On The Fragility of Learned Reward Functions ( http://arxiv.org/abs/2301.03652v1 )

ライセンス: Link先を確認
Lev McKinney, Yawen Duan, David Krueger, Adam Gleave(参考訳) 報酬関数は、特に複雑な目標を持つタスクに対して、指定が難しいことで悪名高い。 逆学習アプローチは、人間のフィードバックや好みから報酬関数を推論しようとする。 報酬学習に関する先行研究は、主に報酬関数と共に訓練された政策のパフォーマンスに焦点を当ててきた。 しかし、このプラクティスは、新しいポリシーをスクラッチからトレーニングできず、意図した振る舞いをキャプチャできない学習された報酬を検出できない可能性がある。 私たちの研究は、選好に基づく報酬学習の領域における、これらの再学習失敗の原因の実証と研究に焦点を当てています。 本研究では,表型および連続型の制御環境で実験を行い,再学習障害の重症度が報酬モデル設計および軌道データセット構成の変化に敏感であることを実証する。 本研究は,文献におけるリトレーニングに基づく評価の必要性を強調する。

Reward functions are notoriously difficult to specify, especially for tasks with complex goals. Reward learning approaches attempt to infer reward functions from human feedback and preferences. Prior works on reward learning have mainly focused on the performance of policies trained alongside the reward function. This practice, however, may fail to detect learned rewards that are not capable of training new policies from scratch and thus do not capture the intended behavior. Our work focuses on demonstrating and studying the causes of these relearning failures in the domain of preference-based reward learning. We demonstrate with experiments in tabular and continuous control environments that the severity of relearning failures can be sensitive to changes in reward model design and the trajectory dataset composition. Based on our findings, we emphasize the need for more retraining-based evaluations in the literature.
翻訳日:2023-01-11 16:27:04 公開日:2023-01-09
# 可変動作環境のポリシーとしてのトランスフォーマー

Transformers as Policies for Variable Action Environments ( http://arxiv.org/abs/2301.03679v1 )

ライセンス: Link先を確認
Niklas Zwingenberger(参考訳) 本稿では,可変動作環境におけるポリシーの実行可能なアーキテクチャとして,トランスフォーマーエンコーダの有効性を示す。 そこで我々は,Gym-$\mu$RTS環境において,複数の地図に対してPPO(Proximal Policy Optimisation)を用いてエージェントを訓練する。 最後のエージェントは、GridNetアーキテクチャを使用した次世代RLエージェントの計算リソースの半分を使って、より高いリターンを達成することができる。 ソースコードと事前トレーニングされたモデルは以下の通りである。 https://github.com/NiklasZ/transformers-for-variable-action-envs

In this project we demonstrate the effectiveness of the transformer encoder as a viable architecture for policies in variable action environments. Using it, we train an agent using Proximal Policy Optimisation (PPO) on multiple maps against scripted opponents in the Gym-$\mu$RTS environment. The final agent is able to achieve a higher return using half the computational resources of the next-best RL agent, which used the GridNet architecture. The source code and pre-trained models are available here: https://github.com/NiklasZ/transformers-for-variable-action-envs
翻訳日:2023-01-11 16:26:51 公開日:2023-01-09
# マルチ環境実験におけるテンソル回帰を用いたベイズ加法効果と乗法相互作用モデル

Bayesian Additive Main Effects and Multiplicative Interaction Models using Tensor Regression for Multi-environmental Trials ( http://arxiv.org/abs/2301.03655v1 )

ライセンス: Link先を確認
Antonia A. L. Dos Santos, Danilo A. Sarti, Rafael A. Moral, Andrew C. Parnell(参考訳) 本稿では,複数の因子が表現型予測に与える影響を考慮したベイズテンソル回帰モデルを提案する。 モデル内のパラメータ間に生じる可能性のある識別可能性の問題を解決する、一連の事前分布を採用する。 シミュレーション実験により,従来の関連するモデルや機械学習アルゴリズムを,サンプルサイズや複雑性度で比較した。 我々は,2010年から2019年までのアイルランドにおける小麦生産に関する実世界データを分析し,本モデルの適用性について検討した。 我々のモデルは競争力を発揮し、他の類似のアプローチで見られる重要な制限を克服する。 最後に, テンソル効果の後方分布に対して, 後方分布の不確かさを考慮しつつ, テンソル変数間の最適相互作用の同定を容易にする一連の可視化を適応させる。

We propose a Bayesian tensor regression model to accommodate the effect of multiple factors on phenotype prediction. We adopt a set of prior distributions that resolve identifiability issues that may arise between the parameters in the model. Simulation experiments show that our method out-performs previous related models and machine learning algorithms under different sample sizes and degrees of complexity. We further explore the applicability of our model by analysing real-world data related to wheat production across Ireland from 2010 to 2019. Our model performs competitively and overcomes key limitations found in other analogous approaches. Finally, we adapt a set of visualisations for the posterior distribution of the tensor effects that facilitate the identification of optimal interactions between the tensor variables whilst accounting for the uncertainty in the posterior distribution.
翻訳日:2023-01-11 16:26:42 公開日:2023-01-09
# 合成開口レーダのための説明可能な物理認識、信頼できるAIパラダイムシフト

Explainable, Physics Aware, Trustworthy AI Paradigm Shift for Synthetic Aperture Radar ( http://arxiv.org/abs/2301.03589v1 )

ライセンス: Link先を確認
Mihai Datcu, Zhongling Huang, Andrei Anghel, Juanping Zhao, Remus Cacoveanu(参考訳) SARシステムで観察されるシーンの認識や理解には、空間的文脈を超えた幅広い手がかりが必要である。 これらの包含は、撮像幾何学、撮像モード、画像のフーリエスペクトルの性質、ポラリメトリックシグネチャの挙動などに限定されない。 本稿では,SAR(Synthetic Aperture Radar)データに対するデータサイエンスにおける説明可能性に関するパラダイムの変更を提案する。 明確に確立されたモデルに基づいた説明可能なデータ変換を使用して、AIメソッドのインプットを生成し、トレーニングプロセスのための知識豊富なフィードバックを提供し、データから未知または非形式化された高複雑性モデルを学び、改善することを目指している。 まず,sarシステムの物理層による表現について紹介する。 一 機器及びプラットフォーム ii) 画像形成 三 ハイブリッドモデリングのためのaiモデルと統合することができる散乱シグネチャ及びオブジェクト 続いて,sar画像理解のためのハイブリッドモデリングを実現する方法について,いくつかの例を示す。 信頼性モデルと補足的な説明については後述する。 最後に、その結論を導き、提案概念がコヒーレント画像センサや他の計算画像システムの全クラスに適用可能であるとみなす。

The recognition or understanding of the scenes observed with a SAR system requires a broader range of cues, beyond the spatial context. These encompass but are not limited to: imaging geometry, imaging mode, properties of the Fourier spectrum of the images or the behavior of the polarimetric signatures. In this paper, we propose a change of paradigm for explainability in data science for the case of Synthetic Aperture Radar (SAR) data to ground the explainable AI for SAR. It aims to use explainable data transformations based on well-established models to generate inputs for AI methods, to provide knowledgeable feedback for training process, and to learn or improve high-complexity unknown or un-formalized models from the data. At first, we introduce a representation of the SAR system with physical layers: i) instrument and platform, ii) imaging formation, iii) scattering signatures and objects, that can be integrated with an AI model for hybrid modeling. Successively, some illustrative examples are presented to demonstrate how to achieve hybrid modeling for SAR image understanding. The perspective of trustworthy model and supplementary explanations are discussed later. Finally, we draw the conclusion and we deem the proposed concept has applicability to the entire class of coherent imaging sensors and other computational imaging systems.
翻訳日:2023-01-11 16:19:12 公開日:2023-01-09
# 3次元形状知覚は直観物理学と合成解析を統合する

3D Shape Perception Integrates Intuitive Physics and Analysis-by-Synthesis ( http://arxiv.org/abs/2301.03711v1 )

ライセンス: Link先を確認
Ilker Yildirim, Max H. Siegel, Amir A. Soltani, Shraman Ray Chaudhari, Joshua B. Tenenbaum(参考訳) 多くの表面のキューは3次元形状の知覚を支えているが、これらの特徴が欠落しているときには、時として、物体が完全に隠されている場合や、ドレープされた布で覆われている場合のように、形が見えることがある。 本研究では, 画像形成生成モデルにおける解析・合成モデルや推論モデルとして, 典型的・非典型的双方の知覚を記述した3次元形状知覚フレームワークを提案する。 この説明といくつかの代替品を比較した行動的・計算的研究は、人間の観察者が正確さと応答時間の両方で最適であることを示している。 我々の結果は、ボトムアップのディープニューラルネットワークモデルが人間の形状知覚を十分に考慮していないことを示唆し、マシンビジョンシステムがより人間的な堅牢性を達成する方法を示している。

Many surface cues support three-dimensional shape perception, but people can sometimes still see shape when these features are missing -- in extreme cases, even when an object is completely occluded, as when covered with a draped cloth. We propose a framework for 3D shape perception that explains perception in both typical and atypical cases as analysis-by-synthesis, or inference in a generative model of image formation: the model integrates intuitive physics to explain how shape can be inferred from deformations it causes to other objects, as in cloth-draping. Behavioral and computational studies comparing this account with several alternatives show that it best matches human observers in both accuracy and response times, and is the only model that correlates significantly with human performance on difficult discriminations. Our results suggest that bottom-up deep neural network models are not fully adequate accounts of human shape perception, and point to how machine vision systems might achieve more human-like robustness.
翻訳日:2023-01-11 16:18:50 公開日:2023-01-09
# AlGaAs[111]QDs系におけるバレンスバンド状態の進化に関する数値的研究

Numerical study of Valence Band states evolution in AlGaAs [111] QDs systems ( http://arxiv.org/abs/2301.03490v1 )

ライセンス: Link先を確認
M. Lazarev(参考訳) 逆ピラミッドにおける金属有機気相エピタキシー(MOVPE)成長は、予測可能なヘテロ構造ポテンシャルでナノ構造を成長させる機会を与える。 本稿では、単一量子ドット(qd)量子ドット分子(qdms)の例として、ナノ構造形状と組成が光学特性と原子価バンド(vb)特性に及ぼす影響を数値的に検討する。 特定のユースケースに対して,Luttinger Kohnモデルアダプタを用いて数値シミュレーションを行った。 モデル構造として、逆ピラミッドにおける量子ドット (QDs) GaAs/AlGaAs [111] システムについてよく知られている。 外部電界下での光学特性について検討し,光学偏光特性とその進化を動的に制御する方法を実証する。 QDの光学特性を制御できることは、QDが単一光子の実用的な源であるため、将来のナノ光学デバイスの製造にとって重要である。 特に、放出された光子のエネルギーと偏光の制御は、量子情報技術にとって不可欠である。

Metal Organic Vapor Phase Epitaxy (MOVPE) growth in an inverted pyramid provides an opportunity to grow nanostructure with predictable heterostructure potential. In this paper, we investigate numerically the effect of nanostructure geometry and composition on optical properties and Valence Band (VB) character on an example of single Quantum Dot (QD), Quantum Dot Molecules (QDMs). Numerical simulation was carried out using well known Luttinger Kohn model adapter to the particular use case. As a model structure, we take well known explored Quantum Dots (QDs) GaAs/AlGaAs [111] systems in inverted pyramids. We examine optical properties under an external electric field and demonstrate a dynamic way to control the optical polarization properties and their evolution. The ability to control the optical properties of QDs is important for the fabrication of future nano optical devices since QDs are practical sources of single photons. In particular, the control over the energy and polarization of the emitted photons is essential for quantum information technologies.
翻訳日:2023-01-10 19:10:08 公開日:2023-01-09
# 量子プロセッサ上での可逆ワームホールダイナミクス」へのコメント

A Comment on "Traversable wormhole dynamics on a quantum processor" ( http://arxiv.org/abs/2301.03522v1 )

ライセンス: Link先を確認
Galina Weinstein(参考訳) 最新のNatureの論文 "Traversable wormhole dynamics on a quantum processor" には、多くの噂が流れている。 Nature論文では、GoogleのSycamore量子プロセッサを使ってSYKモデルのスペーサー化バージョンをシミュレートする実験について論じている。 単純化されたモデルでは, 元のSYKモデルの重要な重力特性を保ち, 移動可能なワームホール挙動を生成するのに十分であることが示されている。 実験は実際のワームホールを作らない。 むしろ研究チームは、重力画像と量子情報画像の等価性を示している。 本報告では, 理論的および実験的研究から生じる哲学的問題について考察する。

There has been a lot of buzz surrounding the latest Nature paper, "Traversable wormhole dynamics on a quantum processor". The Nature paper discusses an experiment in which Google's Sycamore quantum processor is used to simulate a sparsified version of an SYK model. It is shown that the simplified model preserves the key gravitational characteristics of the original SYK model and that it is sufficient to produce a traversable wormhole behavior. The experiment does not create an actual wormhole. Rather, the team of researchers shows an equivalence between a gravity picture and a quantum information picture. This paper gives an account of the experiment and addresses philosophical questions arising from the theoretical and experimental work.
翻訳日:2023-01-10 19:09:41 公開日:2023-01-09
# クラウンエーテル機能ナノダイヤモンドを用いたイオンセンサ

Ion sensors with crown ether-functionalized nanodiamonds ( http://arxiv.org/abs/2301.03143v1 )

ライセンス: Link先を確認
Changhao Li, Shao-Xiong Lennon Luo, Daniel M. Kim, Guoqing Wang and Paola Cappellaro(参考訳) ナトリウムやカチオンなどのアルカリ金属イオンは生物学において基本的な役割を果たす。 これらのイオンを検出および定量化するための高感度かつ選択的な方法の開発は、医療診断およびバイオイメージングにおいて非常に重要である。 蛍光ナノ粒子はナノスケールイメージングの強力なツールとして登場したが、その光学特性は、生物学的プロセスに関するさらなる情報を提供するために、特定の化学信号や生物学的信号に比例して補う必要がある。 ダイヤモンド中の窒素空隙(nv)中心は、光学的安定性、生体適合性、環境条件における温度、磁場、電界の高感度量子センサーとして機能する能力により、蛍光マーカーとして特に魅力的である。 本研究では,ナノダイヤモンド(NDs)表面にクラウンエーテル構造を共有的に移植することにより,ナトリウムカチオンなどの特定のアルカリイオンを検出するセンサを構築する。 これらの金属イオンの存在は、ND内のNV中心の電荷状態を変化させ、光ルミネッセンススペクトルを測定して読み取ることができることを示す。 我々の研究は、ダイヤモンド中のNV中心に基づく選択的バイオセンサーの設計の道を開いた。

Alkali metal ions such as sodium and potassium cations play fundamental roles in biology. Developing highly sensitive and selective methods to both detect and quantify these ions is of considerable importance for medical diagnostics and bioimaging. Fluorescent nanoparticles have emerged as powerful tools for nanoscale imaging, but their optical properties need to be supplemented with specificity to particular chemical and biological signals in order to provide further information about biological processes. Nitrogen-vacancy (NV) centers in diamond are particularly attractive as fluorescence markers, thanks to their optical stability, biocompatibility and further ability to serve as highly sensitive quantum sensors of temperature, magnetic and electric fields in ambient conditions. In this work, by covalently grafting crown ether structures on the surface of nanodiamonds (NDs), we build sensors that are capable of detecting specific alkali ions such as sodium cations. We will show that the presence of these metal ions modifies the charge state of NV centers inside the ND, which can then be read out by measuring their photoluminescence spectrum. Our work paves the way for designing selective biosensors based on NV centers in diamond.
翻訳日:2023-01-10 19:05:34 公開日:2023-01-09
# 軌道空間上の量子ウォーク

Quantum Walk on Orbit Spaces ( http://arxiv.org/abs/2301.03193v1 )

ライセンス: Link先を確認
Satoshi Ohya(参考訳) 多重連結空間上の経路積分における被覆空間法に着想を得て、軌道空間上の連続および離散時間量子ウォークのための時間進化カーネルの普遍的な公式を示す。 ここで、ウォーカーの構成空間が軌道空間 $\Lambda/\Gamma$ である場合、$\Lambda$ は任意の格子であり、$\Gamma$ は $\Lambda$ 上の作用が固定点を持たない離散群である。 我々は、$\lambda/\gamma$ 上の時間発展核は $\lambda$ 上の時間発展核の重み付け和として書くことができ、ここでは和は $\lambda$ の初期点の軌道上にあり、重み係数は $\gamma$ の1次元ユニタリ表現によって与えられる。 1次元に焦点をあてて、この公式の多くの例を示す。 また、量子ウォークにおける可解核、正準密度行列、および任意の群のユニタリ表現の普遍的な公式は、いずれも時間進化カーネルと全く同じ方法で構成される。

Inspired by the covering-space method in path integral on multiply-connected spaces, we here present a universal formula of time-evolution kernels for continuous- and discrete-time quantum walks on orbit spaces. In this note, we focus on the case in which walkers' configuration space is the orbit space $\Lambda/\Gamma$, where $\Lambda$ is an arbitrary lattice and $\Gamma$ is a discrete group whose action on $\Lambda$ has no fixed points. We show that the time-evolution kernel on $\Lambda/\Gamma$ can be written as a weighted sum of time-evolution kernels on $\Lambda$, where the summation is over the orbit of initial point in $\Lambda$ and weight factors are given by a one-dimensional unitary representation of $\Gamma$. Focusing on one dimension, we present a number of examples of the formula. We also present universal formulae of resolvent kernels, canonical density matrices, and unitary representations of arbitrary groups in quantum walks on $\Lambda/\Gamma$, all of which are constructed in exactly the same way as for the time-evolution kernel.
翻訳日:2023-01-10 19:05:14 公開日:2023-01-09
# 量子干渉ワイヤタップチャネルのワンショット実現可能なシークレットレート領域

One-Shot Achievable Secrecy Rate Regions for Quantum Interference Wiretap Channel ( http://arxiv.org/abs/2301.03375v1 )

ライセンス: Link先を確認
Hadi Aghaee and Bahareh Akhbari(参考訳) 本稿では,量子干渉チャネルに対して,古典入力をワンショット設定で実現可能な秘密率領域を導出する。 この目的の主目的は、重ね合わせとレート分割を組み合わせた符号化スキームと、同時復号化に基づく復号化スキームを構築することである。

In this paper, we want to derive achievable secrecy rate regions for quantum interference channel with classical inputs under one-shot setting. The main idea to this end is to use the combination of superposition and rate splitting for encoding scheme and constructing a decoding scheme based on simultaneous decoding.
翻訳日:2023-01-10 19:04:50 公開日:2023-01-09
# mittlemanのdirac-fockモデルに対するアプローチの厳密な正当化

A rigorous justification of the Mittleman's approach to the Dirac--Fock model ( http://arxiv.org/abs/2301.03431v1 )

ライセンス: Link先を確認
Long Meng (CEREMADE)(参考訳) 本稿では、dirac-fockモデルと電子-ポジトロンhartree-fockモデルの関係について検討する。我々は、真空偏光が無視され、微細構造定数$\alpha$が小さく光速がc$が大きい場合にqedの変分近似としてdirac-fockモデルを正当化する。 副産物として、$\alpha$ が小さいときや $c$ が大きいとき、原子や分子のディラック・フォック理論における無充填殻理論が証明される。この証明はディラック・フォックモデルのいくつかの新しい性質に基づいている。

In this paper, we study the relationship between the Dirac--Fock model and the electron-positron Hartree--Fock model. We justify the Dirac--Fock model as a variational approximation of QED when the vacuum polarization is neglected and when the fine structure constant $\alpha$ is small and the velocity of light $c$ is large. As a byproduct, we also prove, when $\alpha$ is small or $c$ is large, the no-unfilled shells theory in the Dirac--Fock theory for atoms and molecules. The proof is based on some new properties of the Dirac--Fock model.
翻訳日:2023-01-10 19:04:44 公開日:2023-01-09
# 光格子における冷気の格子ゲージ理論ダイナミクスのab\,initio$導出

$Ab\,initio$ derivation of lattice gauge theory dynamics for cold gases in optical lattices ( http://arxiv.org/abs/2301.03474v1 )

ライセンス: Link先を確認
Federica Maria Surace, Pierre Fromholz, Nelson Darkwah Oppong, Marcello Dalmonte, Monika Aidelsburger(参考訳) 物質に結合したU$(1)$の格子ゲージ理論の量子シミュレーション法を提案する。 この提案により、ゲージ場とフェルミオンマター場の両方を1次元と2次元に積分することなく研究することができる。 我々は,アルカリ土類(様)原子種で利用可能な長寿命準安定時計状態を利用した,現実的でロバストな実装に着目する。 実験的な設定の$ab\,initio$モデリングから始まり、ターゲットU$(1)$ゲージ理論の導出を体系的に行う。 このアプローチにより、格子ゲージ理論の実装における概念的かつ実用的な挑戦を識別し、解決することができる: 実装の成功のために重要なものであるにもかかわらず、文献において厳密に扱われることはない: それらは、ワニエ関数の所望の構造を達成するための格子ポテンシャルの特定の工学と、ゲージ不変ダイナミクスを可能にするためのエネルギースケールの適切な分離を実現するのにかかわる微妙な点を含む。 我々は, フェルミイオン同位体$^{173}$ybを用いて, プラットフォーム内で実施可能な現実的な実験について検討し, シミュレーションにより不完全さのすべての主要な原因を解決し, 1次元と2次元の両方において関連するエネルギースケールの具体的なパラメータ推定を提供する。

We introduce a method for quantum simulation of U$(1)$ lattice gauge theories coupled to matter, utilizing alkaline-earth(-like) atoms in state-dependent optical lattices. The proposal enables the study of both gauge and fermionic-matter fields without integrating out one of them in one and two dimensions. We focus on a realistic and robust implementation that utilizes the long-lived metastable clock state available in alkaline-earth(-like) atomic species. Starting from an $ab\,initio$ modelling of the experimental setting, we systematically carry out a derivation of the target U$(1)$ gauge theory. This approach allows us to identify and address conceptual and practical challenges for the implementation of lattice gauge theories that - while pivotal for a successful implementation - have never been rigorously addressed in the literature: those include the specific engineering of lattice potentials to achieve the desired structure of Wannier functions, and the subtleties involved in realizing the proper separation of energy scales to enable gauge-invariant dynamics. We discuss realistic experiments that can be carried out within such a platform using the fermionic isotope $^{173}$Yb, addressing via simulations all key sources of imperfections, and provide concrete parameter estimates for relevant energy scales in both one- and two-dimensional settings.
翻訳日:2023-01-10 19:04:31 公開日:2023-01-09
# 自動話者認識によるモデル反転攻撃の導入

Introducing Model Inversion Attacks on Automatic Speaker Recognition ( http://arxiv.org/abs/2301.03206v1 )

ライセンス: Link先を確認
Karla Pizzi, Franziska Boenisch, Ugur Sahin, Konstantin B\"ottinger(参考訳) モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することができる。 各クラスが顔分類器などの異なる個人に対応するシナリオでは、これは深刻なプライバシーリスクを示すことが示されている。 本研究では,話者認識システムから話者の声の抽出を行うmiの新しいアプリケーションについて検討する。 本稿では,(1)訓練されたmlモデルから音声サンプルを再構成し,(2)話者の生体計測に有用な中間音声特徴表現を抽出する手法を提案する。 そこで本研究では,スライディングモデルインバージョンと呼ばれるMI攻撃の拡張を提案する。 スライディングmiはオーディオサンプルのオーバーラップを反復的に反転させ、オーディオデータのシーケンシャルな特性を利用してインバージョン性能を向上させることで標準miを拡張している。 逆音声データを用いて音声サンプルを生成して話者を偽装し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。 我々の知る限り、我々の研究は、MI攻撃をオーディオデータに拡張する最初のものであり、我々の結果は、そのセットアップにおける生体データ抽出によるセキュリティリスクを浮き彫りにする。

Model inversion (MI) attacks allow to reconstruct average per-class representations of a machine learning (ML) model's training data. It has been shown that in scenarios where each class corresponds to a different individual, such as face classifiers, this represents a severe privacy risk. In this work, we explore a new application for MI: the extraction of speakers' voices from a speaker recognition system. We present an approach to (1) reconstruct audio samples from a trained ML model and (2) extract intermediate voice feature representations which provide valuable insights into the speakers' biometrics. Therefore, we propose an extension of MI attacks which we call sliding model inversion. Our sliding MI extends standard MI by iteratively inverting overlapping chunks of the audio samples and thereby leveraging the sequential properties of audio data for enhanced inversion performance. We show that one can use the inverted audio data to generate spoofed audio samples to impersonate a speaker, and execute voice-protected commands for highly secured systems on their behalf. To the best of our knowledge, our work is the first one extending MI attacks to audio data, and our results highlight the security risks resulting from the extraction of the biometric data in that setup.
翻訳日:2023-01-10 18:57:24 公開日:2023-01-09
# 伝達学習によるネットワークスライシングによる分散深層強化学習

Network Slicing via Transfer Learning aided Distributed Deep Reinforcement Learning ( http://arxiv.org/abs/2301.03262v1 )

ライセンス: Link先を確認
Tianlun Hu, Qi Liao, Qiang Liu and Georg Carle(参考訳) ネットワークスライシングにおける動的かつ複雑な資源管理を扱うために、深層強化学習(DRL)がますます採用されている。 しかし、実ネットワークへのdrlポリシーの配置は、異種細胞条件によって複雑である。 本稿では, セル間リソース分割のためのエージェント間類似性解析を用いた, トランスファーラーニング(TL)支援マルチエージェントディープ強化学習(MADRL)アプローチを提案する。 まず,情報共有を伴う協調MADRL法を設計し,資源をスライスに分割し,セル間干渉を管理する。 第2に、各ローカルエージェント間で学習したDRLポリシーを転送し、ポリシー展開を高速化する統合TL手法を提案する。 本手法は,新しいドメインとタスク類似度測定手法と,どのドメインを転送するか,どのように転送するかという問題を解く知識伝達手法から構成される。 提案手法は,システムレベルシミュレータで大規模シミュレーションを行い,性能,収束速度,サンプル効率の点で最先端のソリューションよりも優れていることを示す。 さらに,TLを適用することで,TLのない座標MADRLアプローチよりも27%以上の利得が得られる。

Deep reinforcement learning (DRL) has been increasingly employed to handle the dynamic and complex resource management in network slicing. The deployment of DRL policies in real networks, however, is complicated by heterogeneous cell conditions. In this paper, we propose a novel transfer learning (TL) aided multi-agent deep reinforcement learning (MADRL) approach with inter-agent similarity analysis for inter-cell inter-slice resource partitioning. First, we design a coordinated MADRL method with information sharing to intelligently partition resource to slices and manage inter-cell interference. Second, we propose an integrated TL method to transfer the learned DRL policies among different local agents for accelerating the policy deployment. The method is composed of a new domain and task similarity measurement approach and a new knowledge transfer approach, which resolves the problem of from whom to transfer and how to transfer. We evaluated the proposed solution with extensive simulations in a system-level simulator and show that our approach outperforms the state-of-the-art solutions in terms of performance, convergence speed and sample efficiency. Moreover, by applying TL, we achieve an additional gain over 27% higher than the coordinate MADRL approach without TL.
翻訳日:2023-01-10 18:57:05 公開日:2023-01-09
# 物理インフォームドカーネル埋め込み:事前システム知識とデータ駆動制御の統合

Physics-Informed Kernel Embeddings: Integrating Prior System Knowledge with Data-Driven Control ( http://arxiv.org/abs/2301.03565v1 )

ライセンス: Link先を確認
Adam J. Thorpe, Cyrus Neary, Franck Djeumou, Meeko M. K. Oishi, Ufuk Topcu(参考訳) データ駆動制御アルゴリズムは、制御のために暗黙のモデルを構築するためにシステムダイナミクスの観測を使用する。 しかし、実際には、データ駆動技術は過剰なサンプルサイズを必要とすることが多く、システムの限られた観察しかできない現実のシナリオでは実現不可能である。 さらに、純粋データ駆動手法は、システムダイナミクスの近似モデルなど、しばしば有用な事前知識を無視する。 本稿では,カーネルヒルベルト空間を再現する理論に基づく非パラメトリック機械学習手法であるkernel embeddedsを用いて,事前知識をデータ駆動制御アルゴリズムに組み込む手法を提案する。 提案手法では,システムダイナミクスの事前知識を,カーネル学習問題におけるバイアス項として取り入れる。 偏りのある学習問題を、効率よく計算可能でクローズドな解を持つダイナミックスによって通知される正規化項で最小二乗問題として定式化する。 数値実験により, サンプル効率の向上と, 純粋にデータ駆動ベースライン上でのアプローチの一般化を実証的に実証した。 本研究では,非ホロノミックダイナミクスを用いた目標追尾問題,およびバネマスダンパーおよびf-16航空機の状態予測タスクにおいて,目標追尾問題を通じて制御する手法の応用を実証する。

Data-driven control algorithms use observations of system dynamics to construct an implicit model for the purpose of control. However, in practice, data-driven techniques often require excessive sample sizes, which may be infeasible in real-world scenarios where only limited observations of the system are available. Furthermore, purely data-driven methods often neglect useful a priori knowledge, such as approximate models of the system dynamics. We present a method to incorporate such prior knowledge into data-driven control algorithms using kernel embeddings, a nonparametric machine learning technique based in the theory of reproducing kernel Hilbert spaces. Our proposed approach incorporates prior knowledge of the system dynamics as a bias term in the kernel learning problem. We formulate the biased learning problem as a least-squares problem with a regularization term that is informed by the dynamics, that has an efficiently computable, closed-form solution. Through numerical experiments, we empirically demonstrate the improved sample efficiency and out-of-sample generalization of our approach over a purely data-driven baseline. We demonstrate an application of our method to control through a target tracking problem with nonholonomic dynamics, and on spring-mass-damper and F-16 aircraft state prediction tasks.
翻訳日:2023-01-10 18:56:46 公開日:2023-01-09
# 2レベル系による反射:ポアンカーの超球面上の位相特異点

Reflection by two level system: phase singularities on the Poincar\'e hypersphere ( http://arxiv.org/abs/2301.03247v1 )

ライセンス: Link先を確認
Ben Lang, Edmund Harbord and Ruth Oulton(参考訳) 準一次元導波路における2レベル系による光子の反射について考察する。 これは、多くのエミッタが導波路に結合される複雑な提案の背景を形成しているため、部分的には重要である。 キラル効果、例えば双極子エミッタの一方向放出の取り込みは、既にディマーカップリングのようなリッチな物理に導かれている。 しかし、位相特異性の観点から調べる限り、カイラリティだけが双極子の作用ではない。 双極子の制御により、両方向の散乱光の位相と振幅を多種多様に制御できることを実証する。 これにより、エミッターの1d鎖の物理学の範囲が拡大する。

We consider the reflection of a photon by a two-level system in a quasi-one-dimensional waveguide. This is important in part because it forms the backdrop for more complicated proposals where many emitters are coupled to the waveguide: leading to super and subradiant coupling even when the emitters are distant. The incorporation of chiral effects, for example unidirectional emission of dipole emitters, has already led to rich physics such as dimer coupling. However, chirality is not the only effect of the dipole, as we explore from a phase singularity perspective. We demonstrate that control of the dipole allows a rich variety of control of the phase and amplitude of the scattered light in both directions. This expands the scope for the physics of 1D chains of emitters.
翻訳日:2023-01-10 18:50:20 公開日:2023-01-09
# 光によるマイクロ波の絡み合い

Entangling microwaves with optical light ( http://arxiv.org/abs/2301.03315v1 )

ライセンス: Link先を確認
Rishabh Sahu, Liu Qiu, William Hease, Georg Arnold, Yuri Minoguchi, Peter Rabl and Johannes M. Fink(参考訳) 絡み合いは真の量子力学的性質であり、現在開発された量子技術の主要な資源である。 超伝導マイクロ波回路と光または原子系の間でこの脆弱な特性を共有することは、新しい機能を可能にするが、$\sim10^5$という膨大なエネルギーミスマッチと、相互に課される損失とノイズによって妨げられている。 本研究では,ミリケルビン環境におけるマイクロ波と光電界の絡み合いを創り,検証する。 光パルス超伝導電気光学デバイスを用いて、0.72^{+0.31}_{-0.25}$\,dBで圧縮され、標準偏差でDuan-Simonセパビリティ基準に違反するイテナントマイクロ波光学状態を決定的に生成する。 これにより、超伝導回路とテレコム波長光の長期的非古典的相関が確立され、モジュラー化、スケーリング、センシング、クロスプラットフォーム検証の文脈でハイブリッド量子ネットワークに広範に影響を及ぼす。

Entanglement is a genuine quantum mechanical property and the key resource in currently developed quantum technologies. Sharing this fragile property between superconducting microwave circuits and optical or atomic systems would enable new functionalities but has been hindered by the tremendous energy mismatch of $\sim10^5$ and the resulting mutually imposed loss and noise. In this work we create and verify entanglement between microwave and optical fields in a millikelvin environment. Using an optically pulsed superconducting electro-optical device, we deterministically prepare an itinerant microwave-optical state that is squeezed by $0.72^{+0.31}_{-0.25}$\,dB and violates the Duan-Simon separability criterion by $>5$ standard deviations. This establishes the long-sought non-classical correlations between superconducting circuits and telecom wavelength light with wide-ranging implications for hybrid quantum networks in the context of modularization, scaling, sensing and cross-platform verification.
翻訳日:2023-01-10 18:50:07 公開日:2023-01-09
# 固体中の1つのエルビウムイオンからの識別不能な通信帯域光子

Indistinguishable telecom band photons from a single erbium ion in the solid state ( http://arxiv.org/abs/2301.03564v1 )

ライセンス: Link先を確認
Salim Ourari, {\L}ukasz Dusanowski, Sebastian P. Horvath, Mehmet T. Uysal, Christopher M. Phenicie, Paul Stevenson, Mouktik Raha, Songtao Chen, Robert J. Cava, Nathalie P. de Leon, and Jeff D. Thompson(参考訳) 固体の原子欠陥は長距離量子通信における量子リピータネットワークの重要な構成要素である。 近年、希土類イオン、特に通信帯域の光遷移には er$^{3+}$ が注目されているが、その応用は識別不能な単一光子生成を妨げる光学スペクトル拡散によって妨げられている。 本研究では,非極性サイト対称性と核スピンからの低デコヒーレンスを結合し,背景希土類イオンを含まない物質であるcawo$_4$にer$^{3+}$を注入し,光学的スペクトル拡散を著しく低減する。 ナノフォトニックキャビティと大きなPurcell因子を結合した浅層イオンに対して、単走査光線幅150kHz、長期スペクトル拡散63kHzを観測した。 これにより、36kmの遅延線で測定された高視認性光子間のホン・ウー・マンデル干渉の観測が可能になる。 また、スピン緩和時間 $T_1$ = 3.7 s と $T_2$ > 200$\mu$s も観察し、後者は核スピンの代わりに結晶内の常磁性不純物によって制限される。 これは単一の er$^{3+}$ イオンを持つ通信帯域量子リピータネットワークの構築への大きな一歩である。

Atomic defects in the solid state are a key component of quantum repeater networks for long-distance quantum communication. Recently, there has been significant interest in rare earth ions, in particular Er$^{3+}$ for its telecom-band optical transition, but their application has been hampered by optical spectral diffusion precluding indistinguishable single photon generation. In this work we implant Er$^{3+}$ into CaWO$_4$, a material that combines a non-polar site symmetry, low decoherence from nuclear spins, and is free of background rare earth ions, to realize significantly reduced optical spectral diffusion. For shallow implanted ions coupled to nanophotonic cavities with large Purcell factor, we observe single-scan optical linewidths of 150 kHz and long-term spectral diffusion of 63 kHz, both close to the Purcell-enhanced radiative linewidth of 21 kHz. This enables the observation of Hong-Ou-Mandel interference between successively emitted photons with high visibility, measured after a 36 km delay line. We also observe spin relaxation times $T_1$ = 3.7 s and $T_2$ > 200 $\mu$s, with the latter limited by paramagnetic impurities in the crystal instead of nuclear spins. This represents a significant step towards the construction of telecom-band quantum repeater networks with single Er$^{3+}$ ions.
翻訳日:2023-01-10 18:49:48 公開日:2023-01-09
# ロコモーション・アクション・マニピュレーション:複雑な3次元環境における人間とシーンの相互作用の合成

Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in Complex 3D Environments ( http://arxiv.org/abs/2301.02667v1 )

ライセンス: Link先を確認
Jiye Lee, Hanbyul Joo(参考訳) 相互作用に関わる人間の動きの合成は、3D環境の複雑さと人間の行動の多様性のために困難である。 複雑な屋内環境下での自然および可視的長期的人間の運動を合成するためのLAMA, Locomotion-Action-Manipulationを提案する。 LAMAの主な動機は、移動、3Dシーンとのインタラクション、3Dオブジェクトの操作など、日常生活でよく見られる一連の動きを含む統一されたフレームワークを構築することである。 LAMAは、運動マッチングアルゴリズムと組み合わせた強化学習フレームワークに基づいて、共通の制約と衝突回避処理の下でシームレスに移動とシーンインタラクションを合成する。 lamaはまた、マニホールド学習によるモーション編集フレームワークを利用して、インタラクションと操作動作のバリエーションをカバーできる。 LAMAが様々な挑戦シナリオにおいて既存のアプローチよりも優れていることを定量的に定性的に実証する。 プロジェクトWebページ: https://lama-www.github.io/

Synthesizing interaction-involved human motions has been challenging due to the high complexity of 3D environments and the diversity of possible human behaviors within. We present LAMA, Locomotion-Action-MAnipulation, to synthesize natural and plausible long term human movements in complex indoor environments. The key motivation of LAMA is to build a unified framework to encompass a series of motions commonly observable in our daily lives, including locomotion, interactions with 3D scenes, and manipulations of 3D objects. LAMA is based on a reinforcement learning framework coupled with a motion matching algorithm to synthesize locomotion and scene interaction seamlessly under common constraints and collision avoidance handling. LAMA also exploits a motion editing framework via manifold learning to cover possible variations in interaction and manipulation motions. We quantitatively and qualitatively demonstrate that LAMA outperforms existing approaches in various challenging scenarios. Project webpage: https://lama-www.github.io/ .
翻訳日:2023-01-10 18:49:23 公開日:2023-01-09
# 周波数コム量子ビットと受動デバイスを用いた線形光量子計算

Linear optical quantum computation with frequency-comb qubits and passive devices ( http://arxiv.org/abs/2301.03188v1 )

ライセンス: Link先を確認
Tomohiro Yamazaki, Tomoaki Arizono, Toshiki Kobayashi, Rikizo Ikuta, and Takashi Yamamoto(参考訳) 時間周波数自由度を用いた線形光量子計算法を提案する。 この方式では、量子ビットを単一光子周波数コムに符号化し、時間分解検出器、ビームスプリッター、光インターリーバーを用いて量子ビットの操作を行う。 この方式では高速スイッチや電気光学変調器などのアクティブデバイスは必要とせず、主に検出器の有限分解能によって引き起こされる時間的およびスペクトル的誤差に対して頑健である。 現在の技術は、フォールトトレラント量子計算の要件をほぼ満たしている。

We propose a linear optical quantum computation scheme using time-frequency degree of freedom. In this scheme, a qubit is encoded in single-photon frequency combs, and manipulation of the qubits is performed using time-resolving detectors, beam splitters, and optical interleavers. This scheme does not require active devices such as high-speed switches and electro-optic modulators and is robust against temporal and spectral errors, which are mainly caused by the detectors' finite resolution. We show that current technologies almost meet the requirements for fault-tolerant quantum computation.
翻訳日:2023-01-10 18:38:17 公開日:2023-01-09
# 複素ブラウンSachdev-Ye-Kitaevモデルの情報スクランブルと絡み合いダイナミクス

Information Scrambling and Entanglement Dynamics of Complex Brownian Sachdev-Ye-Kitaev Models ( http://arxiv.org/abs/2301.03189v1 )

ライセンス: Link先を確認
Pengfei Zhang(参考訳) 本研究では, 複素ブラウン・サハデフ・イ・キタエフ(cBSYK)モデルにおける情報スクランブルと絡み合いのダイナミクスについて検討し, 電荷密度$n$への依存性に着目した。 まず1つのcBSYKモデルでスクランブルンの有効理論を導出し、遅延時間OTOCと演算子サイズの閉形式表現を与える。 特に、OTOCの結果は \cite{agarwal2022emergent} の数値観測と一致している。 次に、cBSYK鎖の絡み合いのダイナミクスを研究する。 R'enyiエントロピーとフォン・ノイマンエントロピーの両エンタングルメント速度の密度依存性をバタフライ速度と比較して導出した。 さらに、繰り返し測定を加えて、非相互作用モデルに対する$U(2)_L\otimes U(2)_R$対称性を示す測定誘起遷移の有効理論を導出する。

In this work, we study the information scrambling and the entanglement dynamics in the complex Brownian Sachdev-Ye-Kitaev (cBSYK) models, focusing on their dependence on the charge density $n$. We first derive the effective theory for scramblons in a single cBSYK model, which gives closed-form expressions for the late-time OTOC and operator size. In particular, the result for OTOC is consistent with numerical observations in \cite{agarwal2022emergent}. We then study the entanglement dynamics in cBSYK chains. We derive the density dependence of the entanglement velocity for both R\'enyi entropies and the Von Neumann entropy, with a comparison to the butterfly velocity. We further consider adding repeated measurements and derive the effective theory of the measurement induced transition which shows $U(2)_L\otimes U(2)_R$ symmetry for non-interacting models.
翻訳日:2023-01-10 18:38:08 公開日:2023-01-09
# 自発的ユニタリティ違反による一般初期状態の量子状態の低減

Quantum state reduction of general initial states through spontaneous unitarity violation ( http://arxiv.org/abs/2301.03233v1 )

ライセンス: Link先を確認
Aritro Mukherjee, Srinivas Gotur, Jelle Aalberts, Rosa van den Ende, Lotte Mertens, Jasper van Wezel(参考訳) 量子状態の測定を記述できないシュロディンガーのユニタリ時間進化は、依然として中心的な基礎問題である。 近年,シュロディンガー力学のユニタリティは自発的に破壊され,熱力学的限界の創発現象として測定される可能性が示唆された。 ここでは、任意に多くの状態に対する一般的な初期重ね合わせに適用可能な自発的ユニタリ性違反のモデル群について、単一または複数の状態非依存確率成分を用いて紹介する。 決定的に、すべてのケースにおいてボルンの確率則が自然に現れることを示す。

The inability of Schrodinger's unitary time evolution to describe measurement of a quantum state remains a central foundational problem. It was recently suggested that the unitarity of Schrodinger dynamics can be spontaneously broken, resulting in measurement as an emergent phenomenon in the thermodynamic limit. Here, we introduce a family of models for spontaneous unitarity violation that apply to generic initial superpositions over arbitrarily many states, using either single or multiple state-independent stochastic components. Crucially, we show that Born's probability rule emerges spontaneously in all cases.
翻訳日:2023-01-10 18:37:49 公開日:2023-01-09
# 複雑な沿岸環境に対する坑井データと地震属性に基づく機械学習による貯留層予測

Reservoir Prediction by Machine Learning Methods on The Well Data and Seismic Attributes for Complex Coastal Conditions ( http://arxiv.org/abs/2301.03216v1 )

ライセンス: Link先を確認
Dmitry Ivlev(参考訳) 本研究の目的は, 機械学習アルゴリズムのスタックとデータ拡張と修正手法を用いて, 研究対象の沿岸域における炭化水素捕集特性を有する岩石の拡散確率を予測することである。 本研究では,データと空間特性に基づいて学習を行う機械学習の方向性を考察する。 この方向の限界を克服する手法として,スピンドル法とリバース・キャリブレーション法(Revers-Calibration)の2つの方法が示されている。 提案手法は, 沿岸域における地震データ解釈の難しさを考慮し, 地質学的・物理的データの総量に対処し, 159次元空間特性から知識を抽出し, 許容品質で拡散予測を行うツールである。 提案手法を実装技術スタックに一貫した適用により,元のデータセットに対して1.56因子の貯水池予測精度が向上することを示した。

The aim of this work was to predict the probability of the spread of rock formations with hydrocarbon-collecting properties in the studied coastal area using a stack of machine learning algorithms and data augmentation and modification methods. This research develops the direction of machine learning where training is conducted on well data and spatial attributes. Methods for overcoming the limitations of this direction are shown, two methods - augmentation and modification of the well data sample: Spindle and Revers-Calibration. Considering the difficulties for seismic data interpretation in coastal area conditions, the proposed approach is a tool which is able to work with the whole totality of geological and geophysical data, extract the knowledge from 159-dimensional space spatial attributes and make facies spreading prediction with acceptable quality - F1 measure for reservoir class 0.798 on average for evaluation of "drilling" results of different geological conditions. It was shown that consistent application of the proposed augmentation methods in the implemented technology stack improves the quality of reservoir prediction by a factor of 1.56 relative to the original dataset.
翻訳日:2023-01-10 18:30:42 公開日:2023-01-09
# BQ-NCO: 一般化可能なニューラルコンビネーション最適化のためのビシミュレータ

BQ-NCO: Bisimulation Quotienting for Generalizable Neural Combinatorial Optimization ( http://arxiv.org/abs/2301.03313v1 )

ライセンス: Link先を確認
Darko Drakulic, Sofia Michel, Florian Mai, Arnaud Sors and Jean-Marc Andreoli(参考訳) エンドツーエンドのヒューリスティック学習のためのNeural Combinatorial Optimization手法の成功にもかかわらず、アウト・オブ・ディストリビューションの一般化は依然として課題である。 本稿では, 分散ロバスト性を改善するために, co問題の対称性を効果的に活用するマルコフ決定過程 (mdps) として, 組合せ最適化 (co) 問題の新たな定式化を提案する。 構成的ヒューリスティックの標準 MDP の定式化から始めて,MDP におけるバイシミュレート商化 (BQ) に基づく汎用変換を導入する。 この変換により、CO問題の固有の対称性を考慮し、状態空間を小さくすることができ、MDP解決を容易にする。 我々は,移動セールスマン,キャパシタブル・ルーティング,ナップサック問題に対する我々のアプローチを説明する。 本稿では,これらの問題のBQ再構成を行い,単一分布から小さなインスタンスに対して(ほぼ)最適解を模倣して訓練する,シンプルな注意に基づくポリシーネットワークを提案する。 我々は,最大1000ノードのインスタンスに対して,サイズとノード分布の両方が異なる合成および現実的なベンチマークから,新たな最先端の一般化結果を得る。

Despite the success of Neural Combinatorial Optimization methods for end-to-end heuristic learning, out-of-distribution generalization remains a challenge. In this paper, we present a novel formulation of combinatorial optimization (CO) problems as Markov Decision Processes (MDPs) that effectively leverages symmetries of the CO problems to improve out-of-distribution robustness. Starting from the standard MDP formulation of constructive heuristics, we introduce a generic transformation based on bisimulation quotienting (BQ) in MDPs. This transformation allows to reduce the state space by accounting for the intrinsic symmetries of the CO problem and facilitates the MDP solving. We illustrate our approach on the Traveling Salesman, Capacitated Vehicle Routing and Knapsack Problems. We present a BQ reformulation of these problems and introduce a simple attention-based policy network that we train by imitation of (near) optimal solutions for small instances from a single distribution. We obtain new state-of-the-art generalization results for instances with up to 1000 nodes from synthetic and realistic benchmarks that vary both in size and node distributions.
翻訳日:2023-01-10 18:30:23 公開日:2023-01-09
# スムーシングによる確率的プログラミングのための高速で正確なグラディエントベース最適化

Fast and Correct Gradient-Based Optimisation for Probabilistic Programming via Smoothing ( http://arxiv.org/abs/2301.03415v1 )

ライセンス: Link先を確認
Basim Khajwal, C.-H. Luke Ong, Dominik Wagner(参考訳) 確率的プログラミングのための後進推論を最適化問題として扱う変分推論の基礎について検討する。 実際に最適化を行う主要なアプローチは確率勾配降下である。 特に、いわゆる再パラメータ化勾配推定器を用いた変種は、従来の統計設定において高速収束を示す。 残念ながら、プログラミング言語で容易に表現できる不連続性は、このアプローチの正しさを損なう可能性がある。 我々は、条件付き単純(高次で確率的な)プログラミング言語を検討し、測定可能とスムーズな(近似的な)値セマンティクスの両方で言語を支持した。 技術的前提条件を確立する型システムを提案する。 したがって, 平滑化問題に適用した場合, 再パラメータ化勾配推定器を用いて確率的勾配降下を証明できる。 また、精度係数を適切に選べば、エラー許容度まで元の問題を解くことができる。 経験的に、我々のアプローチは重要な競合相手と同じような収束性を持つが、シンプルで高速であり、作業正規化分散の桁違いな削減を達成できることを実証する。

We study the foundations of variational inference, which frames posterior inference as an optimisation problem, for probabilistic programming. The dominant approach for optimisation in practice is stochastic gradient descent. In particular, a variant using the so-called reparameterisation gradient estimator exhibits fast convergence in a traditional statistics setting. Unfortunately, discontinuities, which are readily expressible in programming languages, can compromise the correctness of this approach. We consider a simple (higher-order, probabilistic) programming language with conditionals, and we endow our language with both a measurable and a smoothed (approximate) value semantics. We present type systems which establish technical pre-conditions. Thus we can prove stochastic gradient descent with the reparameterisation gradient estimator to be correct when applied to the smoothed problem. Besides, we can solve the original problem up to any error tolerance by choosing an accuracy coefficient suitably. Empirically we demonstrate that our approach has a similar convergence as a key competitor, but is simpler, faster, and attains orders of magnitude reduction in work-normalised variance.
翻訳日:2023-01-10 18:30:01 公開日:2023-01-09
# 公正学習に向けた教育データ科学におけるクラスタリングモデルの検討

A review of clustering models in educational data science towards fairness-aware learning ( http://arxiv.org/abs/2301.03421v1 )

ライセンス: Link先を確認
Tai Le Quy, Gunnar Friege, Eirini Ntoutsi(参考訳) 公平さの確保はあらゆる教育システムに不可欠である。 機械学習は、意思決定から教育活動、学習分析まで、教育システムと教育データサイエンス(EDS)ドメインをますますサポートしている。 しかし、アルゴリズムは、人種や性別といった生徒の保護された属性に基づいて結果を生成するため、機械学習に基づく決定は偏りがある。 クラスタリングは、意思決定者を支援するとともに、グループ割り当てなどの教育活動をサポートするために、学生データを調べるための重要な機械学習技術である。 したがって、公正性の制約を満たすとともに高品質なクラスタリングモデルを確保することが重要な要件である。 本章は、EDSにおけるクラスタリングモデルとその公平性について包括的に調査する。 特に,教育活動に適用される公平なクラスタリングモデルの検討に注目する。 これらのモデルは、学生のデータを分析し、EDSの公平性を確保するための実用的なツールであると考えられている。

Ensuring fairness is essential for every education system. Machine learning is increasingly supporting the education system and educational data science (EDS) domain, from decision support to educational activities and learning analytics. However, the machine learning-based decisions can be biased because the algorithms may generate the results based on students' protected attributes such as race or gender. Clustering is an important machine learning technique to explore student data in order to support the decision-maker, as well as support educational activities, such as group assignments. Therefore, ensuring high-quality clustering models along with satisfying fairness constraints are important requirements. This chapter comprehensively surveys clustering models and their fairness in EDS. We especially focus on investigating the fair clustering models applied in educational activities. These models are believed to be practical tools for analyzing students' data and ensuring fairness in EDS.
翻訳日:2023-01-10 18:29:42 公開日:2023-01-09
# L-SeqSleepNet:自動睡眠停止のための全サイクル長周期モデリング

L-SeqSleepNet: Whole-cycle Long Sequence Modelling for Automatic Sleep Staging ( http://arxiv.org/abs/2301.03441v1 )

ライセンス: Link先を確認
Huy Phan, Kristian P. Lorenzen, Elisabeth Heremans, Oliver Y. Ch\'en, Minh C. Tran, Philipp Koch, Alfred Mertins, Mathias Baumert, Kaare Mikkelsen, Maarten De Vos(参考訳) ヒトの睡眠は約90分間の周期で循環し、睡眠データに長い時間的依存を暗示する。 しかし、睡眠ステージングモデルを開発する際の長期的な依存関係を探求することは、まだ修正されていない。 本研究では,睡眠サイクル全体の論理をエンコードすることは睡眠ステージング性能を向上させる上で重要であるが,既存のディープラーニングモデルにおける逐次モデリングアプローチはその目的のためには非効率であることを示す。 そこで本研究では,本手法を組み込んだ新しい深層学習モデルl-seqsleepnetを提案する。 L-SeqSleepNetは,従来のポリソノグラフィ (PSG) における頭皮脳波 (cEEGrid) や耳内脳波 (cEEGrid) の3つの異なる脳波設定に対して,単一EEGチャネル入力においても,モデルによって得られた最先端性能を示す。 また、l-seqsleepnetは、他の睡眠ステージにおけるエラーを減少させるために、n2睡眠(分類における主要なクラス)の効果を治療することができ、ネットワークは、多くの被験者に見られる異常な高いエラーをほとんど低減できることを示した。 最後に、列長が増加すると、計算時間はサブ線形速度でしか成長しない。

Human sleep is cyclical with a period of approximately 90 minutes, implying long temporal dependency in the sleep data. Yet, exploring this long-term dependency when developing sleep staging models has remained untouched. In this work, we show that while encoding the logic of a whole sleep cycle is crucial to improve sleep staging performance, the sequential modelling approach in existing state-of-the-art deep learning models are inefficient for that purpose. We then introduce a method for efficient long sequence modelling and propose a new deep learning model, L-SeqSleepNet, incorporating this method to take into account whole-cycle sleep information for sleep staging. Evaluating L-SeqSleepNet on a set of four distinct databases of various sizes, we demonstrate state-of-the-art performance obtained by the model over three different EEG setups, including scalp EEG in conventional Polysomnography (PSG), in-ear EEG, and around-the-ear EEG (cEEGrid), even with a single-EEG channel input. Our analyses also show that L-SeqSleepNet is able to remedy the effect of N2 sleep (the major class in terms of classification) to bring down errors in other sleep stages and that the network largely reduces exceptionally high errors seen in many subjects. Finally, the computation time only grows at a sub-linear rate when the sequence length increases.
翻訳日:2023-01-10 18:29:29 公開日:2023-01-09
# 希少事象のサンプリング強化のための微分可能シミュレーション

Differentiable Simulations for Enhanced Sampling of Rare Events ( http://arxiv.org/abs/2301.03480v1 )

ライセンス: Link先を確認
Martin \v{S}\'ipka and Johannes C. B. Dietschreit and Rafael G\'omez-Bombarelli(参考訳) 我々は, 微分可能なシミュレーションを用いて, 化学的に反応した事象をサンプリングする新しい手法を開発した。 反応経路の発見とポテンシャル計算の偏りを1つのエンドツーエンド問題にマージし、経路積分最適化により解決する。 開発した手法は,新しい手法を導入し,本手法の安定性を証明し,微分可能シミュレーションの理解とユーザビリティに直接貢献する。

We develop a novel approach to enhanced sampling of chemically reactive events using differentiable simulations. We merge the reaction path discovery and biasing potential computation into one end-to-end problem and solve it by path-integral optimization. The techniques developed contribute directly to the understanding and usability of differentiable simulations as we introduce new approaches and prove the stability properties of our method.
翻訳日:2023-01-10 18:29:03 公開日:2023-01-09
# ミスマッチした背景知識ベースに対するトランシーバ協調学習支援セマンティックコミュニケーション

Transceiver Cooperative Learning-aided Semantic Communications Against Mismatched Background Knowledge Bases ( http://arxiv.org/abs/2301.03133v1 )

ライセンス: Link先を確認
Yanhu Wang, and Shuaishuai Guo(参考訳) 背景知識ベース(kbs)で学んだ意味的コミュニケーションは、知的エージェント間のコミュニケーションに有望な技術であると認識されている。 既存の研究は、意味コミュニケーションのトランシーバーは同じKBを共有していると仮定している。 しかし、インテリジェントトランシーバは、kbsのデータ交換に通信の負担やプライバシーの漏洩を心配することがある。 さらに、トランシーバーは独立して環境から学び、KBを動的に更新し、KBのタイムリーな共有が不可能になる。 これらすべてがKB間のミスマッチを引き起こし、受信側で意味レベルの誤解を引き起こす可能性がある。 そこで本研究では,tcl-sc(transceiver collaborative learning-assisted semantic communication)方式を提案する。 TCL-SCでは、トランスシーバーは自身のKBに基づいて同じ構造のセマンティックエンコーダとデコーダニューロンネットワーク(NN)を協調的に訓練する。 彼らは定期的にNNのパラメータを共有します。 パラメータ共有の通信オーバーヘッドを低減するために、パラメータ量子化を採用する。 また,セマンティック通信システムの性能に及ぼす通信ラウンド数の影響についても論じる。 実世界データを用いた実験により,提案するtcl-scは,特に低信号対雑音比(snr)におけるkbs間のミスマッチによる受信側の意味レベルの誤解を低減できることを示した。

Semantic communications learned on background knowledge bases (KBs) have been identified as a promising technology for communications between intelligent agents. Existing works assume that transceivers of semantic communications share the same KB. However, intelligent transceivers may suffer from the communication burden or worry about privacy leakage to exchange data in KBs. Besides, the transceivers may independently learn from the environment and dynamically update their KBs, leading to timely sharing of the KBs infeasible. All these cause the mismatch between the KBs, which may result in a semantic-level misunderstanding on the receiver side. To address this issue, we propose a transceiver cooperative learning-assisted semantic communication (TCL-SC) scheme against mismatched KBs. In TCL-SC, the transceivers cooperatively train semantic encoder and decoder neuron networks (NNs) of the same structure based on their own KBs. They periodically share the parameters of NNs. To reduce the communication overhead of parameter sharing, parameter quantization is adopted. Moreover, we discuss the impacts of the number of communication rounds on the performance of semantic communication systems. Experiments on real-world data demonstrate that our proposed TCL-SC can reduce the semantic-level misunderstanding on the receiver side caused by the mismatch between the KBs, especially at the low signal-to-noise (SNR) ratio regime.
翻訳日:2023-01-10 18:23:12 公開日:2023-01-09
# ワイヤレスエッジネットワークにおけるai生成コンテンツ(aigc)サービスの実現

Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks ( http://arxiv.org/abs/2301.03220v1 )

ライセンス: Link先を確認
Hongyang Du, Zonghang Li, Dusit Niyato, Jiawen Kang, Zehui Xiong, Xuemin (Sherman) Shen, and Dong In Kim(参考訳) 人工知能生成コンテンツ(AIGC)は、ユーザーのパーソナライズされた要求を満たしながら、情報生成プロセスを自動化するAIの使用を指す。 しかし、aigcモデルの不安定性、例えば拡散モデルの確率的性質により、生成されたコンテンツの品質と精度は著しく変化する可能性がある。 無線エッジネットワークでは、誤って生成されたコンテンツの送信がネットワークリソースを不要に消費する可能性がある。 したがって、ユーザが最も適したASPに接続できるように、動的AIGCサービスプロバイダ(ASP)の選択スキームが必要であり、生成されたコンテンツの満足度と品質が向上する。 本稿では,無線ネットワークにおけるAIGC技術とその応用について概説する。 次に、AIGC-as-a-service(AaaS)の概念を示し、エッジネットワークにAaaSをデプロイする際の課題について議論する。 しかし、AIGCサービスの正確性を評価するためには、パフォーマンス指標を持つことが不可欠である。 そこで本研究では,画像に基づく品質評価指標をいくつか紹介する。 そこで本研究では,計算資源とユーザ知覚品質評価指標の関係を説明するための汎用的かつ効果的なモデルを提案する。 無線エッジネットワークにおける効率的なAaaSを実現し、生成コンテンツの品質を最大化するために、最適なASP選択のための深層強化学習可能なアルゴリズムを提案する。 シミュレーションの結果,提案アルゴリズムは, オーバーロード回避, ランダム, ラウンドロビンポリシ, 上りバウンド方式の4つのベンチマークとの比較により, ユーザに対してより高品質な生成コンテンツの提供が可能であり, クラッシュするタスクが少ないことを示す。

Artificial Intelligence-Generated Content (AIGC) refers to the use of AI to automate the information creation process while fulfilling the personalized requirements of users. However, due to the instability of AIGC models, e.g., the stochastic nature of diffusion models, the quality and accuracy of the generated content can vary significantly. In wireless edge networks, the transmission of incorrectly generated content may unnecessarily consume network resources. Thus, a dynamic AIGC service provider (ASP) selection scheme is required to enable users to connect to the most suited ASP, improving the users' satisfaction and quality of generated content. In this article, we first review the AIGC techniques and their applications in wireless networks. We then present the AIGC-as-a-service (AaaS) concept and discuss the challenges in deploying AaaS at the edge networks. Yet, it is essential to have performance metrics to evaluate the accuracy of AIGC services. Thus, we introduce several image-based perceived quality evaluation metrics. Then, we propose a general and effective model to illustrate the relationship between computational resources and user-perceived quality evaluation metrics. To achieve efficient AaaS and maximize the quality of generated content in wireless edge networks, we propose a deep reinforcement learning-enabled algorithm for optimal ASP selection. Simulation results show that the proposed algorithm can provide a higher quality of generated content to users and achieve fewer crashed tasks by comparing with four benchmarks, i.e., overloading-avoidance, random, round-robin policies, and the upper-bound schemes.
翻訳日:2023-01-10 18:22:49 公開日:2023-01-09
# 強化学習を用いた自動運転車の経路追従制御

Tuning Path Tracking Controllers for Autonomous Cars Using Reinforcement Learning ( http://arxiv.org/abs/2301.03363v1 )

ライセンス: Link先を確認
Ana Carrasco, Jo\~ao Sequeira(参考訳) 本稿では,自動運転車の強化学習(rl)に基づく適応型経路追従制御システムを提案する。 4パラメータコントローラは車線変更やラウンドアバウトをナビゲートするための車両の挙動を形作る。 トラッカーのチューニングは、学習されたQラーニングアルゴリズムを用いて、横方向および操舵軌道誤差を最小化する。 CARLAシミュレーション環境は、トレーニングとテストの両方に使用された。 その結果、車両の挙動を異なる種類の参照軌道に適応させ、低追跡誤差で安全に走行できることが示されている。 カルラとトラッカーの間のrosブリッジの使用結果 (i)現実的なシステムで,そして (ii)実車によるCARLAの交換を簡易化する。 非スムースシステムの安定性結果に基づく全体的なアーキテクチャの信頼性に関する議論が論文の最後に提示された。

This paper proposes an adaptable path tracking control system based on Reinforcement Learning (RL) for autonomous cars. A four-parameter controller shapes the behavior of the vehicle to navigate on lane changes and roundabouts. The tuning of the tracker uses an educated Q-Learning algorithm to minimize the lateral and steering trajectory errors. The CARLA simulation environment was used both for training and testing. The results show the vehicle is able to adapt its behavior to the different types of reference trajectories, navigating safely with low tracking errors. The use of a ROS bridge between the CARLA and the tracker results (i) in a realistic system, and (ii) simplifies the replacement of the CARLA by a real vehicle. An argument on the dependability of the overall architecture based on stability results of non-smooth systems is presented at the end of the paper.
翻訳日:2023-01-10 18:22:12 公開日:2023-01-09
# メカニカル3次元モデルにおける範囲制約付きディスクリプタを用いた加工特徴認識

Machining feature recognition using descriptors with range constraints for mechanical 3D models ( http://arxiv.org/abs/2301.03167v1 )

ライセンス: Link先を確認
Seungeun Lim, Changmo Yeo, Fazhi He, Jinwon Lee, Duhwan Mun(参考訳) 加工特徴認識では、3次元コンピュータ支援設計モデルで生成される幾何学的要素を同定する。 この技術は、製造性評価、プロセス計画、ツールパス生成に使用される。 本稿では,形状に基づく部分検索研究でよく用いられる記述子を用いた16種類の加工特徴の認識手法を提案する。 基本面は特徴タイプ毎に選択され、記述子は基本面の最小、最大、等条件を表す。 さらに、ターゲット面から抽出した3つの記述子とベース面から抽出した記述子との類似度を算出する。 類似度が閾値以上であれば、その特徴の基面として目標面が決定される。 提案手法を用いて2つの試験ケースで加工特徴認識試験を行い, 試験ケースに含まれるすべての加工特徴を正常に認識した。 また,提案手法が最新の人工ニューラルネットワークよりも優れた特徴認識性能を示したことを追加試験により確認した。

In machining feature recognition, geometric elements generated in a three-dimensional computer-aided design model are identified. This technique is used in manufacturability evaluation, process planning, and tool path generation. Here, we propose a method of recognizing 16 types of machining features using descriptors, often used in shape-based part retrieval studies. The base face is selected for each feature type, and descriptors express the base face's minimum, maximum, and equal conditions. Furthermore, the similarity in the three conditions between the descriptors extracted from the target face and those from the base face is calculated. If the similarity is greater than or equal to the threshold, the target face is determined as the base face of the feature. Machining feature recognition tests were conducted for two test cases using the proposed method, and all machining features included in the test cases were successfully recognized. Also, it was confirmed through an additional test that the proposed method in this study showed better feature recognition performance than the latest artificial neural network.
翻訳日:2023-01-10 18:14:17 公開日:2023-01-09
# the algonauts project 2023 challenge: 人間の脳が自然の場面をどのように理解するか

The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes ( http://arxiv.org/abs/2301.03198v1 )

ライセンス: Link先を確認
A.T. Gifford, B. Lahner, S. Saba-Sadiya, M.G. Vilas, A. Lascelles, A. Oliva, K. Kay, G. Roig, R.M. Cichy(参考訳) 生物学と人工知能の科学はいっそう絡み合っている。 ニューラルコンピューティングの原理は、脳の理論的理解を進めるために使われる新しいインテリジェントマシンを刺激する。 生物と人工知能の研究者間のさらなるアイデアの交換とコラボレーションを促進するために、我々は2023年のalgonauts project challenge: how the human brain makes sense of natural scene (http://algonauts.csail.mit.edu)の設置を紹介する。 このインストールは、視覚シーンに対するfMRI応答の最大かつ最もリッチなデータセットであるNatural Scenes Dataset(NSD)を使用して、視覚脳の計算モデルを構築するために、人工知能と生物学的インテリジェンス分野の協力を促す。 nsdは73,000の異なる自然色シーンに対して高品質なfmri応答を提供し、2023年のチャレンジで推進されたデータ駆動モデル構築アプローチの理想的な候補となっている。 課題はすべてオープンであり、公開リーダボードを通じて結果を直接比較し、透過的に各提出後に自動的に更新することで、迅速なモデル開発が可能になる。 2023年の設置は、生物と人工知能の科学者の間で共生的なコラボレーションを引き起こし、最先端の計算モデルを通じて脳をより深く理解し、生物学的システムからの帰納的バイアスを通じて人工知能エージェントをエンジニアリングする新しい方法につながると信じている。

The sciences of biological and artificial intelligence are ever more intertwined. Neural computational principles inspire new intelligent machines, which are in turn used to advance theoretical understanding of the brain. To promote further exchange of ideas and collaboration between biological and artificial intelligence researchers, we introduce the 2023 installment of the Algonauts Project challenge: How the Human Brain Makes Sense of Natural Scenes (http://algonauts.csail.mit.edu). This installment prompts the fields of artificial and biological intelligence to come together towards building computational models of the visual brain using the largest and richest dataset of fMRI responses to visual scenes, the Natural Scenes Dataset (NSD). NSD provides high-quality fMRI responses to ~73,000 different naturalistic colored scenes, making it the ideal candidate for data-driven model building approaches promoted by the 2023 challenge. The challenge is open to all and makes results directly comparable and transparent through a public leaderboard automatically updated after each submission, thus allowing for rapid model development. We believe that the 2023 installment will spark symbiotic collaborations between biological and artificial intelligence scientists, leading to a deeper understanding of the brain through cutting-edge computational models and to novel ways of engineering artificial intelligent agents through inductive biases from biological systems.
翻訳日:2023-01-10 18:14:02 公開日:2023-01-09
# 転移リンパ節検出のためのリンパ節ステーションの機能統合

Integrating features from lymph node stations for metastatic lymph node detection ( http://arxiv.org/abs/2301.03202v1 )

ライセンス: Link先を確認
Chaoyi Wu, Feng Chang, Xiao Su, Zhihan Wu, Yanfeng Wang, Ling Zhu, Ya Zhang(参考訳) リンパ節転移 (LNs) は原発性腫瘍細胞において最も多い転移であり, 死亡率の増加の兆候である。 しかし、転移性lsnは、小ささ、高いスパース性、外観のあいまいさのため、プロの放射線科医でさえも検出するのが難しく、時間を要する。 近年のディープラーニングの発展を活用して,転移性LNを自動的に検出することが望まれている。 2段階検出ネットワークの他に,転移性LN検出のための補助情報として,転移性LN診断における放射線技師にとって重要なレファレンスであるLN局の情報を活用するための追加ブランチを導入する。 分岐はLN局レベルで密接に関連するタスク、すなわちLN局が転移性LNを含むか否かを分類し、LN局の表現を学ぶことを目的としている。 転移性LN局が近接するLN局に大きく影響することが期待されることから,各LN局間の関係をモデル化するためにGCNをベースとした構造が採用されている。 転移性LN検出の分類段階では、上記の学習されたLN局の特徴に加えて、LN候補とLNステーションの距離を反映する特徴をLN特徴に統合する。 口腔扁平上皮癌(oscc)患者の114例の造影ct(intravenous contrast-enhanced ct)画像を含むデータセット上で,本法がmfroc,maxf1,aucスコアの最先端法を上回っていることを示す。

Metastasis on lymph nodes (LNs), the most common way of spread for primary tumor cells, is a sign of increased mortality. However, metastatic LNs are time-consuming and challenging to detect even for professional radiologists due to their small sizes, high sparsity, and ambiguity in appearance. It is desired to leverage recent development in deep learning to automatically detect metastatic LNs. Besides a two-stage detection network, we here introduce an additional branch to leverage information about LN stations, an important reference for radiologists during metastatic LN diagnosis, as supplementary information for metastatic LN detection. The branch targets to solve a closely related task on the LN station level, i.e., classifying whether an LN station contains metastatic LN or not, so as to learn representations for LN stations. Considering that a metastatic LN station is expected to significantly affect the nearby ones, a GCN-based structure is adopted by the branch to model the relationship among different LN stations. At the classification stage of metastatic LN detection, the above learned LN station features, as well as the features reflecting the distance between the LN candidate and the LN stations, are integrated with the LN features. We validate our method on a dataset containing 114 intravenous contrast-enhanced Computed Tomography (CT) images of oral squamous cell carcinoma (OSCC) patients and show that it outperforms several state-of-the-art methods on the mFROC, maxF1, and AUC scores,respectively.
翻訳日:2023-01-10 18:13:33 公開日:2023-01-09
# 非造影頭部CTにおける3D異方性頭蓋内出血の現況 : INSTANCEの課題

The state-of-the-art 3D anisotropic intracranial hemorrhage segmentation on non-contrast head CT: The INSTANCE challenge ( http://arxiv.org/abs/2301.03281v1 )

ライセンス: Link先を確認
Xiangyu Li, Gongning Luo, Kuanquan Wang, Hongyu Wang, Shuo Li, Jun Liu, Xinjie Liang, Jie Jiang, Zhenghao Song, Chunyue Zheng, Haokai Chi, Mingwang Xu, Yingte He, Xinghua Ma, Jingwen Guo, Yifan Liu, Chuanpu Li, Zeli Chen, Md Mahfuzur Rahman Siddiquee, Andriy Myronenko, Antoine P. Sanner, Anirban Mukhopadhyay, Ahmed E. Othman, Xingyu Zhao, Weiping Liu, Jinhuang Zhang, Xiangyuan Ma, Qinghui Liu, Bradley J MacIntosh, Wei Liang, Moona Mazher, Abdul Qayyum, Valeriia Abramova, Xavier Llad\'o(参考訳) 3D Non-Contrast Head CT (NCCT) における頭蓋内出血分画は臨床的に重要である。 既存の出血セグメンテーション法は通常、ncctの異方性を無視し、異なるメトリクスを持つ異なる社内データセットで評価されるため、セグメンテーション性能の改善と異なる方法間の客観的比較が極めて困難である。 INSTANCE 2022は、2022年の医用画像コンピューティングおよびコンピュータ支援介入に関する国際会議(MICCAI)と共同で開催された大きな課題である。 以上の課題を解決し,脳内出血セグメンテーションと異方性データ処理の開発を促進することを目的としている。 実験では、被験者が利用可能な100のケースと30のケースからなる検証セットをトレーニングセットとしてリリースした。 最終評価とランキングには70事例からなるホールドアウトテストセットが使用される。 Dice similarity Coefficient (DSC), Hausdorff Distance (HD), Relative Volume difference (RVD), Normalized Surface Dice (NSD) の4つの指標に基づいて,参加者の手法をランク付けする。 合計13チームが、いくつかのベースラインモデル、前処理戦略、異方性データ処理技術を将来の研究者に提供し、課題を解決するために、それぞれ異なるソリューションを提出した。 勝者法は平均DSC0.6925を達成し,提案法よりも有意な成長を示した。 我々の知る限り、INSTANCEは最初の頭蓋内出血セグメンテーションのベンチマークを公表し、3D画像セグメンテーションにおける異方性問題の解決を目的とした最初の挑戦であり、これらの研究分野において新たな代替手段を提供する。

Automatic intracranial hemorrhage segmentation in 3D non-contrast head CT (NCCT) scans is significant in clinical practice. Existing hemorrhage segmentation methods usually ignores the anisotropic nature of the NCCT, and are evaluated on different in-house datasets with distinct metrics, making it highly challenging to improve segmentation performance and perform objective comparisons among different methods. The INSTANCE 2022 was a grand challenge held in conjunction with the 2022 International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI). It is intended to resolve the above-mentioned problems and promote the development of both intracranial hemorrhage segmentation and anisotropic data processing. The INSTANCE released a training set of 100 cases with ground-truth and a validation set with 30 cases without ground-truth labels that were available to the participants. A held-out testing set with 70 cases is utilized for the final evaluation and ranking. The methods from different participants are ranked based on four metrics, including Dice Similarity Coefficient (DSC), Hausdorff Distance (HD), Relative Volume Difference (RVD) and Normalized Surface Dice (NSD). A total of 13 teams submitted distinct solutions to resolve the challenges, making several baseline models, pre-processing strategies and anisotropic data processing techniques available to future researchers. The winner method achieved an average DSC of 0.6925, demonstrating a significant growth over our proposed baseline method. To the best of our knowledge, the proposed INSTANCE challenge releases the first intracranial hemorrhage segmentation benchmark, and is also the first challenge that intended to resolve the anisotropic problem in 3D medical image segmentation, which provides new alternatives in these research fields.
翻訳日:2023-01-10 18:13:06 公開日:2023-01-09
# ハイパースペクトルとLiDARデータ分類のための最も近い隣り合わせのコントラスト学習

Nearest Neighbor-Based Contrastive Learning for Hyperspectral and LiDAR Data Classification ( http://arxiv.org/abs/2301.03335v1 )

ライセンス: Link先を確認
Meng Wang, Feng Gao, Junyu Dong, Heng-Chao Li, Qian Du(参考訳) 共同ハイパースペクトル画像(HSI)とLiDARデータ分類は、より詳細に正確なレベルで地上の物体を解釈することを目的としている。 深層学習法は多元データ分類タスクにおいて著しく成功したが、自己教師あり学習はほとんど研究されていない。 多元データ分類のためのロバストな自己教師付き学習モデルを構築するのは、近隣地域の意味的類似性が既存のコントラスト学習フレームワークでは利用されないため、一般的に非自明である。 さらに,マルチソースデータの不整合分布に起因する異種間隙は,その分類性能を阻害する。 そこで,これらの欠点を克服するために,大量のラベルなしデータを最大限活用して識別的特徴表現を学習する最寄りのnearne-based contrastive learning network (nncnet)を提案する。 具体的には,近隣地域間のセマンティック関係を強化した近傍データ拡張手法を提案する。 インターモーダルセマンティクスアライメントをより正確に捉えることができる。 さらに, hsiデータとlidarデータ間の2次および高次特徴の相互作用を利用した2次アテンションモジュールの設計を行った。 4つのパブリックデータセットに関する広範な実験は、最先端のメソッドよりもncnetの方が優れていることを示している。 ソースコードは \url{https://github.com/summitgao/nncnet} で入手できる。

The joint hyperspectral image (HSI) and LiDAR data classification aims to interpret ground objects at more detailed and precise level. Although deep learning methods have shown remarkable success in the multisource data classification task, self-supervised learning has rarely been explored. It is commonly nontrivial to build a robust self-supervised learning model for multisource data classification, due to the fact that the semantic similarities of neighborhood regions are not exploited in existing contrastive learning framework. Furthermore, the heterogeneous gap induced by the inconsistent distribution of multisource data impedes the classification performance. To overcome these disadvantages, we propose a Nearest Neighbor-based Contrastive Learning Network (NNCNet), which takes full advantage of large amounts of unlabeled data to learn discriminative feature representations. Specifically, we propose a nearest neighbor-based data augmentation scheme to use enhanced semantic relationships among nearby regions. The intermodal semantic alignments can be captured more accurately. In addition, we design a bilinear attention module to exploit the second-order and even high-order feature interactions between the HSI and LiDAR data. Extensive experiments on four public datasets demonstrate the superiority of our NNCNet over state-of-the-art methods. The source codes are available at \url{https://github.com/summitgao/NNCNet}.
翻訳日:2023-01-10 18:12:33 公開日:2023-01-09
# image denoising: the deep learning revolution and beyond -- a survey paper --

Image Denoising: The Deep Learning Revolution and Beyond -- A Survey Paper -- ( http://arxiv.org/abs/2301.03362v1 )

ライセンス: Link先を確認
Michael Elad, Bahjat Kawar, Gregory Vaksman(参考訳) 画像復調(画像からの付加的な白色ガウスノイズの除去)は、画像処理において最も古く研究されている問題の一つである。 数十年にわたる広範囲にわたる研究が、この問題に関する何千もの論文や、この課題に対する多くの優れたアルゴリズムに繋がった。 実際、10年前には、この領域で達成できる全てのものが既に得られているという意味で、この成果が「脱生は死んだ」と疑う研究者もいた。 しかし、深層学習(DL)が画像処理に浸透したことで、これは真実とは程遠いことが判明した。 dlの時代は、今日の画像におけるノイズ除去能力のリードと、処理中のノイズ除去問題の範囲を広げることによって、画像のノイズ除去に革命をもたらした。 本稿は、この進化を説明することから始まり、特に古典的アプローチと画像デノイザの設計における現代のDLベースの代替品の間に存在する緊張と相乗効果を強調した。 画像デノイジングの分野における最近の変遷は、より良いデノイジングを設計する能力を超えている。 本稿の第2部では,近年発見された画像デノイザの能力と展望について注目する。 一般逆問題を正則化したり,拡散に基づく画像合成において主エンジンとして機能するなど,デノワザを他の問題に役立てる可能性を明らかにする。 我々はまた、デノイジングや他の逆問題には、一般的なアルゴリズムが信じさせるようなユニークな解決策がないかもしれないという考えも明らかにした。 代わりに、逆問題に対するランダム化および多種多様な高品質な結果を生成する構築的手法について述べる。 本研究の目的は,画像の雑音化の歴史と関連する話題の広い視点を提供することである。 我々の目的は、最近の発見と、我々のドメインにおけるDLの影響により良い文脈を提供することである。

Image denoising (removal of additive white Gaussian noise from an image) is one of the oldest and most studied problems in image processing. An extensive work over several decades has led to thousands of papers on this subject, and to many well-performing algorithms for this task. Indeed, 10 years ago, these achievements have led some researchers to suspect that "Denoising is Dead", in the sense that all that can be achieved in this domain has already been obtained. However, this turned out to be far from the truth, with the penetration of deep learning (DL) into image processing. The era of DL brought a revolution to image denoising, both by taking the lead in today's ability for noise removal in images, and by broadening the scope of denoising problems being treated. Our paper starts by describing this evolution, highlighting in particular the tension and synergy that exist between classical approaches and modern DL-based alternatives in design of image denoisers. The recent transitions in the field of image denoising go far beyond the ability to design better denoisers. In the 2nd part of this paper we focus on recently discovered abilities and prospects of image denoisers. We expose the possibility of using denoisers to serve other problems, such as regularizing general inverse problems and serving as the prime engine in diffusion-based image synthesis. We also unveil the idea that denoising and other inverse problems might not have a unique solution as common algorithms would have us believe. Instead, we describe constructive ways to produce randomized and diverse high quality results for inverse problems, all fueled by the progress that DL brought to image denoising. This survey paper aims to provide a broad view of the history of image denoising and closely related topics. Our aim is to give a better context to recent discoveries, and to the influence of DL in our domain.
翻訳日:2023-01-10 18:12:10 公開日:2023-01-09
# 長期3次元安定物体のエンドツーエンド教師なし学習

End-to-end Unsupervised Learning of Long-Term 3D Stable objects ( http://arxiv.org/abs/2301.03426v1 )

ライセンス: Link先を確認
Ibrahim Hroob, Sergi Molina, Riccardo Polvara, Grzegorz Cielniak and Marc Hanheide(参考訳) 3dポイントクラウドセマンティクス分類は、マッピングされた環境をよりよく理解するため、ロボティクスにおいて重要なタスクである。 この研究は、PointNet++に基づくニューラルネットワークを用いて、3Dオブジェクトの長期的な安定性を学ぶことを提案し、そこでは、長期安定オブジェクトは、自身では動かせない静的オブジェクト(木、ポール、ビルディングなど)を指す。 トレーニングデータは、同一環境の複数のタイムスライスを利用して、連続ラベルを個別のポイントに割り当てることで、教師なしの方法で生成される。 静的/動的な離散ラベルの代わりに、ポイント時間安定性を示す連続ラベル値を用いて回帰PointNet++ネットワークをトレーニングすることを提案する。 NCLTデータセットから2つの駐車場の点雲データについて検討した。 実験の結果,静的オブジェクトと動的オブジェクトの分類は回帰モデルのトレーニングとしきい値の学習が,分類モデルの直接のトレーニングよりも優れていることがわかった。

3D point cloud semantic classification is an important task in robotics as it enables a better understanding of the mapped environment. This work proposes to learn the long-term stability of the 3D objects using a neural network based on PointNet++, where the long-term stable object refers to a static object that cannot move on its own (e.g. tree, pole, building). The training data is generated in an unsupervised manner by assigning a continuous label to individual points by exploiting multiple time slices of the same environment. Instead of using discrete labels, i.e. static/dynamic, we propose to use a continuous label value indicating point temporal stability to train a regression PointNet++ network. We evaluated our approach on point cloud data of two parking lots from the NCLT dataset. The experiments' performance reveals that static vs dynamic object classification is best performed by training a regression model, followed by thresholding, compared to directly training a classification model.
翻訳日:2023-01-10 18:11:41 公開日:2023-01-09
# ソフトウェア構成調整の指導にはパフォーマンスの願望が重要か?

Do Performance Aspirations Matter for Guiding Software Configuration Tuning? ( http://arxiv.org/abs/2301.03290v1 )

ライセンス: Link先を確認
Tao Chen and Miqing Li(参考訳) 構成可能なソフトウェアシステムは、より良いパフォーマンスのために調整できる。 Paretoオプティマイザを活用することで、最近の作業は、単一の時間関連のパフォーマンス目標のチューニングから、システムの異なるパフォーマンス面を評価する2つの本質的に異なる目標へと移行した。 より良いオプティマイザを設計する前に、そこで行う重要なエンジニアリング上の決定は、チューニングプロセスにおける明確な仮定でパフォーマンス要求を処理する方法です。 このために、コミュニティは2つの代替最適化モデルを採用している: チューニングを導く探索目的への願望の定量化と組み込むか、または探索中の願望を考慮せずに、後続の意思決定プロセスでのみそれらを使用するかのどちらかである。 しかしながら、オプティマイザの設計と調整方法を決定する重要な決定であるにもかかわらず、どの最適化モデルを特定の状況と理由の下で選択すべきかについては、かなり限定的な理解がある。 本稿では,このギャップを埋めようとしている。 まず、文献の426以上の論文と14の現実世界の要件データセットのレビューを通じて、それを実施します。 そこで本研究では,最先端性能要求パターン,4種類の願望空間,3つのパレートオプティマイザ,8つの実世界のシステム/環境の組み合わせについて,総合的な実証研究を行い,1,296件の調査を行った。 その結果,(1)願望のリアリズムは,調律を導くために使うべきかどうかを決定する重要な要因であり,(2)目的の景観において与えられたパターンや現実の願望の位置は選択にはあまり重要でないが,改善の程度には関係しない,(3)利用可能な調律予算は非現実的な願望の選択にも影響を与えるが,現実のものとは無関係であることがわかった。

Configurable software systems can be tuned for better performance. Leveraging on some Pareto optimizers, recent work has shifted from tuning for a single, time-related performance objective to two intrinsically different objectives that assess distinct performance aspects of the system, each with varying aspirations. Before we design better optimizers, a crucial engineering decision to make therein is how to handle the performance requirements with clear aspirations in the tuning process. For this, the community takes two alternative optimization models: either quantifying and incorporating the aspirations into the search objectives that guide the tuning, or not considering the aspirations during the search but purely using them in the later decision-making process only. However, despite being a crucial decision that determines how an optimizer can be designed and tailored, there is a rather limited understanding of which optimization model should be chosen under what particular circumstance, and why. In this paper, we seek to close this gap. Firstly, we do that through a review of over 426 papers in the literature and 14 real-world requirements datasets. Drawing on these, we then conduct a comprehensive empirical study that covers 15 combinations of the state-of-the-art performance requirement patterns, four types of aspiration space, three Pareto optimizers, and eight real-world systems/environments, leading to 1,296 cases of investigation. We found that (1) the realism of aspirations is the key factor that determines whether they should be used to guide the tuning; (2) the given patterns and the position of the realistic aspirations in the objective landscape are less important for the choice, but they do matter to the extents of improvement; (3) the available tuning budget can also influence the choice for unrealistic aspirations but it is insignificant under realistic ones.
翻訳日:2023-01-10 18:04:54 公開日:2023-01-09
# リアルタイムマルチロボット協調探索のための非同期マルチエージェント強化学習

Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration ( http://arxiv.org/abs/2301.03398v1 )

ライセンス: Link先を確認
Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu, Yunfei Xiang, Ruixin Huang, Huazhong Yang, Yi Wu, Yu Wang(参考訳) 我々は,複数のロボットが協調して未知の領域をできるだけ早く探索する必要がある協調探索の問題を考える。 マルチエージェント強化学習(MARL)はこの課題を解決するためのトレンドパラダイムとなっている。 しかしながら、既存のmarlベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクションメイキングのステップを採用する:すなわち、すべてのエージェントが同時にアクションを生成し、すべてのアクションが各タイムステップで瞬時に実行される。 数学的単純さにもかかわらず、そのような同期MARLの定式化は現実世界のロボットアプリケーションには問題となる。 異なるロボットが、アトミックアクションを達成するためにわずかに異なる壁時計時間を取ることや、ハードウェアの問題のために定期的に失われることが典型的である。 全てのロボットが次のアクションの準備が整うのを待つことは、特に時間非効率だ。 そこで本研究では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。 まず,従来のMARLアルゴリズムであるMAPPO(Multi-agent PPO)を非同期設定に拡張し,さらに動作遅延のランダム化を適用して実世界の様々な動作遅延を一般化する。 さらに、各ナビゲーションエージェントは、チームサイズ不変のCNNベースのポリシーとして表現され、ロボットの紛失を処理し、低次元CNN機能による帯域幅効率の高いエージェント間通信を可能にすることで、実ロボットの展開に大きな恩恵を与える。 まず、グリッドベースのシナリオでアプローチを検証する。 シミュレーションと実ロボット実験の結果から、aceは従来のアプローチに比べて10%以上の探索時間を短縮できることがわかった。 また,このフレームワークを高忠実度なビジュアルベース環境であるhabitatに適用し,探索効率を28%向上させた。

We consider the problem of cooperative exploration where multiple robots need to cooperatively explore an unknown region as fast as possible. Multi-agent reinforcement learning (MARL) has recently become a trending paradigm for solving this challenge. However, existing MARL-based methods adopt action-making steps as the metric for exploration efficiency by assuming all the agents are acting in a fully synchronous manner: i.e., every single agent produces an action simultaneously and every single action is executed instantaneously at each time step. Despite its mathematical simplicity, such a synchronous MARL formulation can be problematic for real-world robotic applications. It can be typical that different robots may take slightly different wall-clock times to accomplish an atomic action or even periodically get lost due to hardware issues. Simply waiting for every robot being ready for the next action can be particularly time-inefficient. Therefore, we propose an asynchronous MARL solution, Asynchronous Coordination Explorer (ACE), to tackle this real-world challenge. We first extend a classical MARL algorithm, multi-agent PPO (MAPPO), to the asynchronous setting and additionally apply action-delay randomization to enforce the learned policy to generalize better to varying action delays in the real world. Moreover, each navigation agent is represented as a team-size-invariant CNN-based policy, which greatly benefits real-robot deployment by handling possible robot lost and allows bandwidth-efficient intra-agent communication through low-dimensional CNN features. We first validate our approach in a grid-based scenario. Both simulation and real-robot results show that ACE reduces over 10% actual exploration time compared with classical approaches. We also apply our framework to a high-fidelity visual-based environment, Habitat, achieving 28% improvement in exploration efficiency.
翻訳日:2023-01-10 18:04:20 公開日:2023-01-09
# EMAHA-DB1: 日常生活活動の分類のための新しい上肢sEMGデータセット

EMAHA-DB1: A New Upper Limb sEMG Dataset for Classification of Activities of Daily Living ( http://arxiv.org/abs/2301.03325v1 )

ライセンス: Link先を確認
Naveen Kumar Karnam, Anish Chand Turlapaty, Shiv Ram Dubey, and Balakrishna Gokaraju(参考訳) 本稿では,多チャンネル表面筋電図(sEMG)信号の新しいデータセットであるヒト活動データベース1(EMAHA-DB1)の筋電図解析を行い,日常生活(ADL)の活動を評価する。 このデータセットは、機能的腕活動行動システム(FAABOS)(3-フルハンドジェスチャー、6-オープン/クローズオフィスドロー、8-小さなオフィスオブジェクトの把握と保持、2-フレクションと指の動きの拡張、2-ライトと1-レスト)に基づいて分類された22のアクティビティを実行しながら、25人の有能な被験者から取得される。 sEMGデータは、人間の手にAg/Agcl電極を配置した5つのNoraxon Ultium無線sEMGセンサによって測定される。 データセットは、ハンドアクティビティ認識分類性能のために分析される。 この分類は、Random Forest(RF)、Fine K-Nearest Neighbour(KNN)、Ensemble KNN(sKNN)、Support Vector Machine(SVM)の7つの時間領域と周波数領域の特徴セットの組み合わせを含む4つの最先端機械学習分類器を用いて実行される。 FAABOSの5つのカテゴリにおける最先端の分類精度は、エネルギー特徴と自動回帰特徴集合アンサンブルを用いて、SVM分類器と3階多項式カーネルを用いて83:21%である。 22種類のハンドアクティビティの分類精度は、周波数領域におけるログモーメント(lmf)特徴、修飾lmf、時間領域統計(tds)特徴、スペクトル帯域パワー(sbp)、チャネルクロス相関および局所二分パターン(lbp)セットと同一のsvm分類器で75:39%である。 分析は、データセットが対処する技術的な課題を描写する。 開発したデータセットは,ADLに対応するsEMG信号解析や,人工装具などのウェアラブルロボティクスの開発において,様々な分類手法のベンチマークとして使用することができる。

In this paper, we present electromyography analysis of human activity - database 1 (EMAHA-DB1), a novel dataset of multi-channel surface electromyography (sEMG) signals to evaluate the activities of daily living (ADL). The dataset is acquired from 25 able-bodied subjects while performing 22 activities categorised according to functional arm activity behavioral system (FAABOS) (3 - full hand gestures, 6 - open/close office draw, 8 - grasping and holding of small office objects, 2 - flexion and extension of finger movements, 2 - writing and 1 - rest). The sEMG data is measured by a set of five Noraxon Ultium wireless sEMG sensors with Ag/Agcl electrodes placed on a human hand. The dataset is analyzed for hand activity recognition classification performance. The classification is performed using four state-ofthe-art machine learning classifiers, including Random Forest (RF), Fine K-Nearest Neighbour (KNN), Ensemble KNN (sKNN) and Support Vector Machine (SVM) with seven combinations of time domain and frequency domain feature sets. The state-of-theart classification accuracy on five FAABOS categories is 83:21% by using the SVM classifier with the third order polynomial kernel using energy feature and auto regressive feature set ensemble. The classification accuracy on 22 class hand activities is 75:39% by the same SVM classifier with the log moments in frequency domain (LMF) feature, modified LMF, time domain statistical (TDS) feature, spectral band powers (SBP), channel cross correlation and local binary patterns (LBP) set ensemble. The analysis depicts the technical challenges addressed by the dataset. The developed dataset can be used as a benchmark for various classification methods as well as for sEMG signal analysis corresponding to ADL and for the development of prosthetics and other wearable robotics.
翻訳日:2023-01-10 18:03:18 公開日:2023-01-09
# 二進変調連続可変量子鍵分布の精製有限サイズ解析

Refined finite-size analysis of binary-modulation continuous-variable quantum key distribution ( http://arxiv.org/abs/2301.03171v1 )

ライセンス: Link先を確認
Takaya Matsuura, Shinichiro Yamano, Yui Kuramochi, Toshihiko Sasaki, Masato Koashi(参考訳) 近年の研究では、一般攻撃に対するバイナリ変調CV-QKDプロトコルの有限サイズセキュリティが示されている。 しかし、送信距離に対するキーレートのスケーリングは低かった。 ここでは、離散可変QKDで使用される相補性に基づくセキュリティ証明を、有限サイズ体制下での逆整合を持つ以前に開発されたバイナリ変調CV-QKDプロトコルに拡張し、キーレートを大幅に改善する。 特に、漸近極限の鍵速度は、最適スケーリングであるが以前の有限次元解析では達成されない減衰速度に対して線形にスケールする。 この洗練されたセキュリティアプローチは、他の離散変調CV-QKDプロトコルの完全なセキュリティ証明を提供するかもしれない。

Recent studies showed the finite-size security of binary-modulation CV-QKD protocols against general attacks. However, they gave poor key-rate scaling against transmission distance. Here, we extend the security proof based on complementarity, which is used in the discrete-variable QKD, to the previously developed binary-modulation CV-QKD protocols with reverse reconciliation under the finite-size regime and obtain large improvements in the key rates. Notably, the key rate in the asymptotic limit scales linearly against the attenuation rate, which is known to be optimal scaling but is not achieved in previous finite-size analyses. This refined security approach may offer full-fledged security proofs for other discrete-modulation CV-QKD protocols.
翻訳日:2023-01-10 17:54:58 公開日:2023-01-09
# キュービット空間の正確な証明

Precise certification of a qubit space ( http://arxiv.org/abs/2301.03296v1 )

ライセンス: Link先を確認
Tomasz Bia{\l}ecki, Tomasz Rybotycki, Josep Batle, Jakub Tworzyd{\l}o, Adam Bednorz(参考訳) 本稿では,IBM の量子コンピュータを用いた量子ビット上の次元の精密検定の実装について,決定的次元証人を用いて実証する。 精度は、高次元における証人の最大値と比較すると、$10^{-3}以下である。 調整および測定操作(gate)の最小独立セットを含むテストは、特定の構成とパラメトリックの両方に適用される。 テストは、一貫性のないリークや誤ったゲート実行のような非理想性に対して堅牢である。 IBMデバイスのうち2台は5ドル以上の標準偏差でテストに失敗したが、簡単な説明はない。

We demonstrate an implementation of the precise test of dimension on the qubit, using the public IBM quantum computer, using the determinant dimension witness. The accuracy is below $10^{-3}$ comparing to maximal possible value of the witness in higher dimension. The test involving minimal independent sets of preparation and measurement operations (gates) is applied both for specific configurations and parametric ones. The test is be robust against nonidealities such as incoherent leakage and erroneous gate execution. Two of the IBM devices failed the test by more than $5$ standard deviations, which has no simple explanation.
翻訳日:2023-01-10 17:54:46 公開日:2023-01-09
# 超伝導回路上の時間最適ユニバーサル量子ゲート

Time-optimal universal quantum gates on superconducting circuits ( http://arxiv.org/abs/2301.03334v1 )

ライセンス: Link先を確認
Ze Li, Ming-Jie Liang, Zheng-Yuan Xue(参考訳) デコヒーレンス(decoherence)は、量子ゲートの忠実性を高めることを目標とする場合の必然的な問題であり、大規模量子計算の主要な障害の1つである。 ゲート操作が長ければ長いほど、デコヒーレンスによって引き起こされるゲート不忠実性は大きくなる。 したがって、ゲート時間を短くする方法は、解決すべき緊急の問題となる。 この目的のために、量子ブラヒストロン方程式の解法に基づく時間最適制御は簡単な解である。 ここでは、時間最適制御に基づき、2次元の正方格子配置で超伝導量子ビット上の普遍量子ゲートを実現するスキームを提案し、2量子ビットゲートの忠実度は99.7\%$以上となる。 一方、時間非依存のデチューニングを調整することにより、z軸ゲートをかなり加速することができる。 最後に、デファスメントエラーの影響を低減するため、デコヒーレンス自由部分空間も物理実装に組み込まれている。 そこで我々は,大規模量子計算のための有望な高速スキームを提案する。

Decoherence is an inevitable problem when targeting to increase the fidelity of quantum gates, and thus is one of the main obstacles for large-scale quantum computation. The longer a gate operation is, the more decoherence-induced gate infidelity will be. Therefore, how to shorten the gate time becomes an urgent problem to be solved. To this end, time-optimal control based on solving the quantum brachistochron equation is a straightforward solution. Here, based on time-optimal control, we propose a scheme to realize universal quantum gates on superconducting qubits, in a two-dimensional square lattice configuration, and the two-qubit gate fidelity can be higher than $99.7\%$. Meanwhile, we can further accelerate the z-axis gate considerably by adjusting the time-independent detuning. Finally, in order to reduce the influence of the dephasing error, decoherence free subspace is also incorporated in our physical implementation. Therefore, we present a promising fast scheme for large-scale quantum computation.
翻訳日:2023-01-10 17:54:37 公開日:2023-01-09
# エナンチオ選択的ショートカット-断熱経路によるキラル分子のエナンチオ特異的状態移動

Enantio-specific state transfer of chiral molecules through enantio-selective shortcut-to-adiabaticity paths ( http://arxiv.org/abs/2301.03341v1 )

ライセンス: Link先を確認
Jian-Jian Cheng, Chong Ye, Yong Li(参考訳) キラル分子の環状3レベル系に対して, 高速エナンチオ特異状態移動法が提案されている。 本研究では, カップリング強度の逆工学に基づく一般(キラル)分子の3レベル循環系において, 短絡から断熱への高速な集団移動が達成可能であることを示す。 適切なパラメータを選択することにより、2つのエナンチオマーは3レベル系の基底状態において、それぞれ異なるエネルギーの最終状態へのエナンチオ選択的近道から断熱への経路に沿って進化し、即ち高速エナンチオ特異的状態転移を達成する。

An interesting method of fast enantio-specific state transfer is proposed for cyclic three-level systems of chiral molecules. We show that the fast population transfer via shortcut to adiabaticity can be accomplished for the cyclic three-level system of a general (chiral) molecule with invariant-based inverse engineering of the coupling strengths. By choosing appropriate parameters, the two enantiomers, which are initially prepared in their ground states in the three-level systems, will evolve respectively along their enantio-selective shortcut-to-adiabaticity paths to different-energy final states simultaneously, namely achieving the fast enantio-specific state transfer.
翻訳日:2023-01-10 17:54:21 公開日:2023-01-09
# シャドウグループを用いた量子多体ハミルトニアンの高効率エネルギー推定

Guaranteed efficient energy estimation of quantum many-body Hamiltonians using ShadowGrouping ( http://arxiv.org/abs/2301.03385v1 )

ライセンス: Link先を確認
Alexander Gresch, Martin Kliesch(参考訳) 量子多体ハミルトニアンのエネルギー推定は、様々な研究分野におけるパラダイム的課題である。 特に効率的なエネルギー推定は、実用的な問題に対する量子上の優位性を達成する上で重要である。 例えば、測定の努力は変分量子アルゴリズムにおいて重要なボトルネックとなる。 本研究の目的は,全測定予算から最も高い証明可能な精度が得られる単一キュービット計測による最適戦略を見つけることである。 中心的なツールとして、エネルギーの実験的推定のための新しいテール境界を確立する。 エネルギー見積もりを改善するための測定設定を特定するのに有用である。 このタスクはNPハード問題を構成する。 しかし、我々はこのボトルネックを回避し、テール境界を用いてシャドウグループと呼ばれる実用的な効率的な推定戦略を開発することができる。 名前の通り、影推定法とパウリ弦の群戦略を組み合わせたものである。 数値実験において,ShadowGroupingは,様々な小分子の電子状態エネルギーを,証明可能かつ有効な精度ベンチマークで推定する上で,最先端の手法よりも優れていることを示す。 したがって、この研究は、例えば変分量子アルゴリズムの測定ボトルネックに取り組むための有望な方法を提供する。

Energy estimation in quantum many-body Hamiltonians is a paradigmatic task in various research fields. In particular, efficient energy estimation may be crucial in achieving a quantum advantage for a practically relevant problem. For instance, the measurement effort poses a crucial bottleneck in variational quantum algorithms. We aim to find the optimal strategy with single-qubit measurements that yields the highest provable accuracy given a total measurement budget. As a central tool, we establish new tail bounds for empirical estimators of the energy. They are useful for identifying measurement settings that improve the energy estimate the most. This task constitutes an NP-hard problem. However, we are able to circumvent this bottleneck and use the tail bounds to develop a practical efficient estimation strategy which we call ShadowGrouping. As the name suggests, it combines shadow estimation methods with grouping strategies for Pauli strings. In numerical experiments, we demonstrate that ShadowGrouping outperforms state-of-the-art methods in estimating the electronic ground-state energies of various small molecules, both in provable and effective accuracy benchmarks. Hence, this work provides a promising way, e.g., to tackle the measurement bottleneck of variational quantum algorithms.
翻訳日:2023-01-10 17:54:09 公開日:2023-01-09
# タイトスペースにおける認定ランダム性

Certified randomness in tight space ( http://arxiv.org/abs/2301.03536v1 )

ライセンス: Link先を確認
Andreas Fyrillas, Boris Bourdoncle, Alexandre Ma\"inos, Pierre-Emmanuel Emeriau, Kayleigh Start, Nico Margaria, Martina Morassi, Aristide Lema\^itre, Isabelle Sagnes, Petr Stepanov, Thi Huong Au, S\'ebastien Boissier, Niccolo Somaschi, Nicolas Maring, Nadia Belabas, Shane Mansfield(参考訳) 信頼性のあるランダム性は、数値シミュレーションから統計サンプリングや暗号まで、アルゴリズムや応用において核となる要素である。 絡み合った量子状態における測定結果がベルの不等式に違反し、固有ランダム性が保証される。 これは、信頼できないデバイスに適用される認定ランダムネス生成の基礎を構成する。 しかし、この認証にはいくつかのスペースライクな分離デバイスが必要であり、コンパクト機器には不適当である。 本稿では、小型のアプリケーション対応デバイス上での認定乱数生成の一般的な方法を提案し、固体エミッタとガラスチップを組み合わせた統合フォトニックデモンストレーションを行う。 空間的な分離がなければ、現実のデバイスに固有の抜け穴に脆弱な既存の認証プロトコルとは対照的に、我々が実装するプロトコルは、情報漏洩が新興のコンパクトなスケーラブルなデバイスと互換性があることを考慮に入れている。 実世界のアプリケーションでは無作為性が最も高い2量子ビットフォトニックデバイスが欠落していることを示す。 完全な94.5時間安定化プロセスは、明るく安定な単光子量子ドットベースのソースを利用し、再構成可能なフォトニックチップに供給し、実装された位相におけるミリラジアン範囲の安定性と、93%以上のエンタングル光子の一貫性を両立させる。 文脈性フレームワークを用いて、量子側情報の存在下においても、プライベートランダムネス生成の最高標準である暗号セキュリティを確実に認定する。 これは、実用上の限界とデバイスに依存しない認証を和らげるため、量子ハードウェアとプロトコルの制御されたアライアンスのためのプロトタイプである。

Reliable randomness is a core ingredient in algorithms and applications ranging from numerical simulations to statistical sampling and cryptography. The outcomes of measurements on entangled quantum states can violate Bell inequalities, thus guaranteeing their intrinsic randomness. This constitutes the basis for certified randomness generation, which applies to untrusted devices. However, this certification requires several spacelike separated devices, making it unfit for a compact apparatus. Here we provide a general method for certified randomness generation on a small-scale application-ready device and perform an integrated photonic demonstration combining a solid-state emitter and a glass chip. In contrast to most existing certification protocols, which in the absence of spacelike separation are vulnerable to loopholes inherent to realistic devices, the protocol we implement accounts for information leakage to be compatible with emerging compact scalable devices. We demonstrate a 2-qubit photonic device that achieves the highest standard in randomness yet is cut out for real-world applications. The full 94.5-hour-long stabilized process harnesses a bright and stable single-photon quantum-dot based source, feeding into a reconfigurable photonic chip, with stability in the milliradian range on the implemented phases and consistent indistinguishably of the entangled photons above 93%. Using the contextuality framework, we robustly certify the highest standard of private randomness generation, i.e. cryptographic security even in the presence of quantum side information. This is a prototype for the controlled alliance of quantum hardware and protocols to reconcile practical limitations and device-independent certification.
翻訳日:2023-01-10 17:53:51 公開日:2023-01-09
# 先進量子光源のための一極量子ドットダイオード構造

A unipolar quantum dot diode structure for advanced quantum light sources ( http://arxiv.org/abs/2301.03541v1 )

ライセンス: Link先を確認
T. Strobel, J. H. Weber, M. Schmidt, L. Wagner, L. Engel, M. Jetter, A. D. Wieck, S. L. Portalupi, A. Ludwig, P. Michler(参考訳) 引き起こされ、区別できない単一光子は、様々な量子フォトニック実装において中心的な役割を果たす。 ここでは、半導体量子ドットを埋め込んだ新規なn$^+-$i$-$n$^{++}$ダイオード構造を実現する。 点滅のない単光子放出と高い2光子不一致性が観察される。 線形幅の時間進化は、光子相関フーリエ分光、高分解能フォトルミネッセンス分光、および2光子干渉($V_{\text{TPI, 2ns}}=\left(85.5\pm2.2\right){\%}$と$V_{\text{TPI, 9ns}}=\left(78.3\pm3.0\right){\%}$の可視性)を組み合わせた6ドル以上の時間スケールで研究されている。 時間スケール上のスペクトル拡散やデコヒーレンスを持たない$\sim 9\,\text{ns}$は、ほとんどの点で観測され、出力された光子の直線幅$\left(\left(420\pm30\right)\text{MHz}\right)$はフーリエ変換極限から1.68ドルしか逸脱しない。 したがって、遠隔tpi実験では、74\%$以上のビジビリティが期待できる。 nドーピングの存在は高いキャリア移動性を示すことしかなく、このデバイスは高速波長可変で高性能な量子光源の開発に非常に魅力的である。

Triggered, indistinguishable, single photons play a central role in various quantum photonic implementations. Here, we realize a novel n$^+-$i$-$n$^{++}$ diode structure embedding semiconductor quantum dots: the gated device enables spectral tuning of the transitions and deterministic control of the observed charged states. Blinking-free single-photon emission and high two-photon indistinguishability is observed. The linewidth's temporal evolution is investigated for timescales spanning more than $6$ orders of magnitude, combining photon-correlation Fourier spectroscopy, high-resolution photoluminescence spectroscopy, and two-photon interference (visibility of $V_{\text{TPI, 2ns}}=\left(85.5\pm2.2\right){\%}$ and $V_{\text{TPI, 9ns}}=\left(78.3\pm3.0\right){\%}$). No spectral diffusion or decoherence on timescales above $\sim 9\,\text{ns}$ is observed for most of the dots, and the emitted photons' linewidth $\left(\left(420\pm30\right)\text{MHz}\right)$ deviates from the Fourier-transform limit only by a factor of $1.68$. Thus, for remote TPI experiments, visibilities above $74\%$ are anticipated. The presence of n-doping only signifies higher available carrier mobility, making the presented device highly attractive for future development of high-speed tunable, high-performance quantum light sources.
翻訳日:2023-01-10 17:53:25 公開日:2023-01-09
# Safer Together: 企業特化モデルより優れた建設障害予測のための共有事故データセットに基づく機械学習モデル

Safer Together: Machine Learning Models Trained on Shared Accident Datasets Predict Construction Injuries Better than Company-Specific Models ( http://arxiv.org/abs/2301.03567v1 )

ライセンス: Link先を確認
Antoine J.-P. Tixier, Matthew R. Hallowell(参考訳) 本研究では,3つのドメインに属する9社による57万件の事故の集合的データセットリポジトリを利用して,複数のデータセット(ジェネリックモデル)でトレーニングしたモデルが,企業固有のモデルよりも安全性を予測できるかどうかを検証した。 すべてのデータでトレーニングされた)完全ジェネリックモデル、ドメイン単位のジェネリックモデル(建設、電気t&d、石油およびガスモデル)、およびジェネリックおよび特定のモデルのアンサンブルを実験した。 結果は非常に肯定的であり、多くの場合、ジェネリックモデルが企業固有のモデルを上回るだけでなく、より細かい、従ってより有用な予測を生成する。 成功したジェネリックモデルは、企業固有のモデルのトレーニングの必要性を取り除き、多くの時間とリソースを節約し、事故データセットに制限があり、自身のモデルをトレーニングできない小さな企業に、安全結果の予測へのアクセスを与えます。 しかし、特定のモデルをトレーニングして、ジェネリックモデルとアンサンブルすることで、パフォーマンスをさらに向上させるのが有利かもしれない。 全体として、蓄積した経験がどの企業よりもはるかに多いデータセットから学んだり、単純な予測という形で容易に利用できるようにすることで、ジェネリックモデルは、建設業界における安全な組織間学習と普及の聖杯に取り組むことができる。

In this study, we capitalized on a collective dataset repository of 57k accidents from 9 companies belonging to 3 domains and tested whether models trained on multiple datasets (generic models) predicted safety outcomes better than the company-specific models. We experimented with full generic models (trained on all data), per-domain generic models (construction, electric T&D, oil & gas), and with ensembles of generic and specific models. Results are very positive, with generic models outperforming the company-specific models in most cases while also generating finer-grained, hence more useful, forecasts. Successful generic models remove the needs for training company-specific models, saving a lot of time and resources, and give small companies, whose accident datasets are too limited to train their own models, access to safety outcome predictions. It may still however be advantageous to train specific models to get an extra boost in performance through ensembling with the generic models. Overall, by learning lessons from a pool of datasets whose accumulated experience far exceeds that of any single company, and making these lessons easily accessible in the form of simple forecasts, generic models tackle the holy grail of safety cross-organizational learning and dissemination in the construction industry.
翻訳日:2023-01-10 17:46:50 公開日:2023-01-09
# 構造化医療記録を用いた自己教師付き時間-イベントモデリング

Self-Supervised Time-to-Event Modeling with Structured Medical Records ( http://arxiv.org/abs/2301.03150v1 )

ライセンス: Link先を確認
Ethan Steinberg, Yizhe Xu, Jason Fries, Nigam Shah(参考訳) 生存時間モデル(英: time-to-event model)は、特定の事象が起こるまでの確率分布を推定するために医学やその他の分野で用いられる。 検閲を自然に扱うような従来の分類モデルに対して多くの利点を提供する一方で、時間とイベントのモデルにはより多くのパラメータが必要であり、ラベル付きトレーニングデータで学習することは困難である。 長期間の地平線を持つイベントに共通する高い検閲レートは、利用可能なトレーニングデータをさらに制限し、過度な適合のリスクを悪化させる。 比例ハザードやフェールタイムベースアプローチの高速化といった既存の手法では、パラメータサイズを減らすために分散仮定を採用しているが、モデルの誤特定に対して脆弱である。 本研究では,電子カルテデータに代表される,タイムスタンプ付きだがラベル付きイベントの大規模コレクションに見られる時間構造を活用した自己教師付きモデルである motor を用いて,これらの課題に対処する。 motorは、イベント時間の確率分布を自然に捉え、医学の応用に適しているイベント前トレーニングタスクを定義している。 2.7m患者から自動生成した8,192タスク(臨床イベント2.4b)を事前トレーニングした後,未発見のタスクを微調整した後,プリトレーニングモデルの性能を評価する。 MOTOR由来のモデルは現在の最先端のC統計性能を6.6%改善し、トレーニング時間を最大8.2倍に短縮する。 95%のトレーニングデータを用いて,現在の最先端のパフォーマンスに適合する適応モデルを用いて,サンプル効率をさらに向上させる。

Time-to-event models (also known as survival models) are used in medicine and other fields for estimating the probability distribution of the time until a particular event occurs. While providing many advantages over traditional classification models, such as naturally handling censoring, time-to-event models require more parameters and are challenging to learn in settings with limited labeled training data. High censoring rates, common in events with long time horizons, further limit available training data and exacerbate the risk of overfitting. Existing methods, such as proportional hazard or accelerated failure time-based approaches, employ distributional assumptions to reduce parameter size, but they are vulnerable to model misspecification. In this work, we address these challenges with MOTOR, a self-supervised model that leverages temporal structure found in large-scale collections of timestamped, but largely unlabeled events, typical of electronic health record data. MOTOR defines a time-to-event pretraining task that naturally captures the probability distribution of event times, making it well-suited to applications in medicine. After pretraining on 8,192 tasks auto-generated from 2.7M patients (2.4B clinical events), we evaluate the performance of our pretrained model after fine-tuning to unseen time-to-event tasks. MOTOR-derived models improve upon current state-of-the-art C statistic performance by 6.6% and decrease training time (in wall time) by up to 8.2 times. We further improve sample efficiency, with adapted models matching current state-of-the-art performance using 95% less training data.
翻訳日:2023-01-10 17:35:41 公開日:2023-01-09
# mdps吸収のためのミニマックス重み学習

Minimax Weight Learning for Absorbing MDPs ( http://arxiv.org/abs/2301.03183v1 )

ライセンス: Link先を確認
Fengyin Li, Yuqiang Li, Xianyi Wu(参考訳) 強化学習政策評価問題は、有限あるいは割引/平均無限水平MDPとしてモデル化されることが多い。 本稿では,MDPを吸収する政策評価について検討する。 与えられたトランケーションレベルのi.i.dエピソードからなるデータセットを考慮し、状態-行動占有率の重要度によって予測されるリターンを直接推定するMWLAアルゴリズムを提案する。 MWLA法に結合した平均角誤差(MSE)を調査し,データサイズとトランケーションレベルに対する統計的誤差の依存性を解析した。 エピソードタクシー環境では、計算実験によりMWLAアルゴリズムの性能が示されている。

Reinforcement learning policy evaluation problems are often modeled as finite or discounted/averaged infinite-horizon MDPs. In this paper, we study undiscounted off-policy policy evaluation for absorbing MDPs. Given the dataset consisting of the i.i.d episodes with a given truncation level, we propose a so-called MWLA algorithm to directly estimate the expected return via the importance ratio of the state-action occupancy measure. The Mean Square Error (MSE) bound for the MWLA method is investigated and the dependence of statistical errors on the data size and the truncation level are analyzed. With an episodic taxi environment, computational experiments illustrate the performance of the MWLA algorithm.
翻訳日:2023-01-10 17:35:11 公開日:2023-01-09
# 位相正規化データ埋め込み

Topologically Regularized Data Embeddings ( http://arxiv.org/abs/2301.03338v1 )

ライセンス: Link先を確認
Edith Heiter, Robin Vandaele, Tijl De Bie, Yvan Saeys, Jefrey Lijffijt(参考訳) 教師なし表現学習法は、高次元、非構造化、構造化データに対する洞察を得るために広く使われている。 場合によっては、既知のクラスタ構造や、そのデータが木構造やグラフ構造トポロジに沿うことが知られているという事実など、データに関する事前のトポロジ的知識を持つ場合もある。 しかし、そのような構造を確実にする一般的な方法は、低次元表現が不足している。 これは、低次元埋め込みの解釈可能性に悪影響を与え、おそらく下流の学習タスクに影響を及ぼす。 この問題を解決するために、代数的トポロジに基づく一般的なアプローチであるトポロジカル正規化を導入し、トポロジカル事前知識を低次元埋め込みに組み込む。 位相損失関数のクラスを導入し、そのような位相損失関数を正規化器として併用することにより、局所的な近似だけでなく所望の位相構造も反映した埋め込みが得られることを示す。 本稿では,代数的トポロジーにおける基本概念の自己完結的な概要と,クラスタ,サイクル,分岐など,様々な形状のトポロジ的損失関数の設計方法についての直感的なガイダンスを提供する。 線形および非線形次元削減法とグラフ埋め込み法を組み合わせた計算効率,堅牢性,汎用性に関する提案手法を実験的に評価した。

Unsupervised representation learning methods are widely used for gaining insight into high-dimensional, unstructured, or structured data. In some cases, users may have prior topological knowledge about the data, such as a known cluster structure or the fact that the data is known to lie along a tree- or graph-structured topology. However, generic methods to ensure such structure is salient in the low-dimensional representations are lacking. This negatively impacts the interpretability of low-dimensional embeddings, and plausibly downstream learning tasks. To address this issue, we introduce topological regularization: a generic approach based on algebraic topology to incorporate topological prior knowledge into low-dimensional embeddings. We introduce a class of topological loss functions, and show that jointly optimizing an embedding loss with such a topological loss function as a regularizer yields embeddings that reflect not only local proximities but also the desired topological structure. We include a self-contained overview of the required foundational concepts in algebraic topology, and provide intuitive guidance on how to design topological loss functions for a variety of shapes, such as clusters, cycles, and bifurcations. We empirically evaluate the proposed approach on computational efficiency, robustness, and versatility in combination with linear and non-linear dimensionality reduction and graph embedding methods.
翻訳日:2023-01-10 17:35:00 公開日:2023-01-09
# CaSpeR: 連続学習のための潜在スペクトル規則化

CaSpeR: Latent Spectral Regularization for Continual Learning ( http://arxiv.org/abs/2301.03345v1 )

ライセンス: Link先を確認
Emanuele Frascaroli, Riccardo Benaglia, Matteo Boschini, Luca Moschella, Cosimo Fiorini, Emanuele Rodol\`a, Simone Calderara(参考訳) 新しい知識が生涯にわたって収集されるにつれて、生物学的知性は有機的に成長するが、ニューラルネットワークはトレーニングデータ分布の変化に直面すると壊滅的に忘れてしまう。 リハーサルベースの連続学習(CL)アプローチは、この制限を克服するための汎用的で信頼性の高いソリューションとして確立されているが、突然の入力障害とメモリ制約は予測の一貫性を変えることが知られている。 本研究は,学習者の潜在空間の幾何学的特徴を調査し,異なるクラスのデータポイントがより混ざり合うことを発見し,分類を補う。 そこで我々は,潜在空間のラプラシアンスペクトルに対する弱い要求を強制し,分割行動を促進する幾何学的正則化器を提案する。 提案手法はCaSpeR(Continuous Spectral Regularizer)と呼ばれ,任意のリハーサルベースのCLアプローチと容易に組み合わせて,標準ベンチマーク上でのSOTA法の性能を向上させることができることを示す。 最後に、CaSpeRの効果と適用性に関する洞察を提供するために、さらなる分析を行う。

While biological intelligence grows organically as new knowledge is gathered throughout life, Artificial Neural Networks forget catastrophically whenever they face a changing training data distribution. Rehearsal-based Continual Learning (CL) approaches have been established as a versatile and reliable solution to overcome this limitation; however, sudden input disruptions and memory constraints are known to alter the consistency of their predictions. We study this phenomenon by investigating the geometric characteristics of the learner's latent space and find that replayed data points of different classes increasingly mix up, interfering with classification. Hence, we propose a geometric regularizer that enforces weak requirements on the Laplacian spectrum of the latent space, promoting a partitioning behavior. We show that our proposal, called Continual Spectral Regularizer (CaSpeR), can be easily combined with any rehearsal-based CL approach and improves the performance of SOTA methods on standard benchmarks. Finally, we conduct additional analysis to provide insights into CaSpeR's effects and applicability.
翻訳日:2023-01-10 17:34:39 公開日:2023-01-09
# コントラスト学習によるオープンセットビデオドメイン適応の簡易化

Simplifying Open-Set Video Domain Adaptation with Contrastive Learning ( http://arxiv.org/abs/2301.03322v1 )

ライセンス: Link先を確認
Giacomo Zara, Victor Guilherme Turrisi da Costa, Subhankar Roy, Paolo Rota, Elisa Ricci(参考訳) アクション認識におけるアノテーションコストを削減するため、ラベル付きデータセット(すなわちソースドメイン)からラベル付きデータセット(すなわちターゲットドメイン)への予測モデルの適用を目的とした、教師なしビデオドメイン適応手法が提案されている。 この研究で我々は、OUVDA(Open-set Video Domain adaptation)と呼ばれるより現実的なシナリオに取り組み、ターゲットデータセットはソースと共有されていない"未知"の意味圏を含む。 課題は、共有クラスを未知のクラスから分離しながら、2つのドメインの共有クラスを整列させることである。 本稿では,識別的・密集した特徴を学習する統一的なコントラスト学習フレームワークで,オーヴィダに対処することを提案する。 また,ビデオデータから利用できる時間情報を活用することで,特徴空間のクラスタリングを向上するビデオ指向の時間的コントラスト損失を提案する。 識別的特徴空間は未知のクラスをよりよく分離し、単純な類似度に基づくスコアを用いて識別することができることを示す。 我々は,複数のOUVDAベンチマークを徹底的に評価し,提案手法の先行技術に対する有効性を示す。

In an effort to reduce annotation costs in action recognition, unsupervised video domain adaptation methods have been proposed that aim to adapt a predictive model from a labelled dataset (i.e., source domain) to an unlabelled dataset (i.e., target domain). In this work we address a more realistic scenario, called open-set video domain adaptation (OUVDA), where the target dataset contains "unknown" semantic categories that are not shared with the source. The challenge lies in aligning the shared classes of the two domains while separating the shared classes from the unknown ones. In this work we propose to address OUVDA with an unified contrastive learning framework that learns discriminative and well-clustered features. We also propose a video-oriented temporal contrastive loss that enables our method to better cluster the feature space by exploiting the freely available temporal information in video data. We show that discriminative feature space facilitates better separation of the unknown classes, and thereby allows us to use a simple similarity based score to identify them. We conduct thorough experimental evaluation on multiple OUVDA benchmarks and show the effectiveness of our proposed method against the prior art.
翻訳日:2023-01-10 17:19:19 公開日:2023-01-09
# hyrsm++: マイナショット動作認識のためのハイブリッド関係誘導時間セットマッチング

HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot Action Recognition ( http://arxiv.org/abs/2301.03330v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Zhiwu Qing, Zhengrong Zuo, Changxin Gao, Rong Jin, Nong Sang(参考訳) 最近の試みは主に、エピソジックなメタ学習環境下で個々のビデオの深い表現を学習し、クエリとサポートビデオのマッチングのために時間的アライメントを実行することに焦点を当てている。 しかし、まだ2つの欠点がある。 (i)タスク全体を考慮せずに個々の特徴を学習すると、表現能力が制限される場合がある。 (II)既存のアライメント戦略はノイズや不整合インスタンスに敏感である。 そこで,この2つの制約に対処するために,新たなハイブリッド関係誘導時間セットマッチング(hyrsm++)アプローチを提案する。 HyRSM++の中核となる考え方は、すべての動画をタスクに統合して識別表現を学習し、堅牢なマッチング技術を含むことである。 具体的には、HyRSM++は2つのキーコンポーネント、ハイブリッドリレーションモジュールと時間セットマッチングメトリックで構成される。 特徴抽出器からの基本的な表現を考えると、ハイブリッド関係モジュールは、エピソディックタスク内の関連関係とクロスビデオを完全に活用するために導入され、タスク固有の埋め込みを学習することができる。 その後、時間的セットマッチング尺度において、セットマッチングの観点から、クエリとサポートビデオ間の距離測定を行い、Bi-MHMを設計し、不整合インスタンスに対するレジリエンスを向上させる。 さらに,映像の時間的コヒーレンスを明示的に活用し,マッチングプロセスを定式化する。 さらに,提案したHyRSM++を拡張して,より難易度の高い半教師付き小ショットアクション認識と教師なし小ショットアクション認識タスクに対処する。 複数のベンチマークによる実験結果から,本手法は様々な撮影条件下での最先端性能を実現することが示された。 ソースコードはhttps://github.com/alibaba-mmai-research/hyrsmplusplusで入手できる。

Recent attempts mainly focus on learning deep representations for each video individually under the episodic meta-learning regime and then performing temporal alignment to match query and support videos. However, they still suffer from two drawbacks: (i) learning individual features without considering the entire task may result in limited representation capability, and (ii) existing alignment strategies are sensitive to noises and misaligned instances. To handle the two limitations, we propose a novel Hybrid Relation guided temporal Set Matching (HyRSM++) approach for few-shot action recognition. The core idea of HyRSM++ is to integrate all videos within the task to learn discriminative representations and involve a robust matching technique. To be specific, HyRSM++ consists of two key components, a hybrid relation module and a temporal set matching metric. Given the basic representations from the feature extractor, the hybrid relation module is introduced to fully exploit associated relations within and cross videos in an episodic task and thus can learn task-specific embeddings. Subsequently, in the temporal set matching metric, we carry out the distance measure between query and support videos from a set matching perspective and design a Bi-MHM to improve the resilience to misaligned instances. In addition, we explicitly exploit the temporal coherence in videos to regularize the matching process. Furthermore, we extend the proposed HyRSM++ to deal with the more challenging semi-supervised few-shot action recognition and unsupervised few-shot action recognition tasks. Experimental results on multiple benchmarks demonstrate that our method achieves state-of-the-art performance under various few-shot settings. The source code is available at https://github.com/alibaba-mmai-research/HyRSMPlusPlus.
翻訳日:2023-01-10 17:19:01 公開日:2023-01-09
# 野生におけるオープンセットセグメンテーションにおけるマスクレベル認識の利点について

On advantages of Mask-level Recognition for Open-set Segmentation in the Wild ( http://arxiv.org/abs/2301.03407v1 )

ライセンス: Link先を確認
Matej Grci\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) ほとんどの高密度認識法は、それぞれの画素に別々の決定をもたらす。 このアプローチは、小さな分類体系を持つ通常のクローズドセット設定において、依然として競争力を発揮する。 しかしながら、ワイルドで重要なアプリケーションは通常、強力なオープンセットのパフォーマンスと多数の既知のクラスを必要とする。 この2つの要求設定は,非微細化ベースラインモデルにおいてもマスクレベルの予測の恩恵が大きいことを示す。 さらに,意味境界における偽陽性応答を効果的に低減する高密度認識の不確実性の定式化を提案する。 提案手法は,非常に強いベースラインに対してさらなる改善を行い,負のデータをトレーニングすることなく,密集した異常検出の新たな状態を設定する。 私たちのコントリビューションは、最近のオープンセットのpanopticセットアップのパフォーマンス向上にもつながります。 奥行き実験により,マスクレベルの予測に画素レベルの手がかりが暗黙的に集約されることが確認できた。

Most dense recognition methods bring a separate decision in each particular pixel. This approach still delivers competitive performance in usual closed-set setups with small taxonomies. However, important applications in the wild typically require strong open-set performance and large numbers of known classes. We show that these two demanding setups greatly benefit from mask-level predictions, even in the case of non-finetuned baseline models. Moreover, we propose an alternative formulation of dense recognition uncertainty that effectively reduces false positive responses at semantic borders. The proposed formulation produces a further improvement over a very strong baseline and sets the new state of the art in dense anomaly detection without training on negative data. Our contributions also lead to a performance improvement in a recent open-set panoptic setup. In-depth experiments confirm that our approach succeeds due to implicit aggregation of pixel-level cues into mask-level predictions.
翻訳日:2023-01-10 17:17:48 公開日:2023-01-09
# マルチモーダル・マルチレゾリューションデータ融合による高分解能クラウド除去:新しいベースラインとベンチマーク

High-Resolution Cloud Removal with Multi-Modal and Multi-Resolution Data Fusion: A New Baseline and Benchmark ( http://arxiv.org/abs/2301.03432v1 )

ライセンス: Link先を確認
Fang Xu, Yilei Shi, Patrick Ebel, Wen Yang and Xiao Xiang Zhu(参考訳) 本稿では,マルチモーダル・マルチレゾリューションデータ融合を用いた高解像度クラウド除去のためのベンチマークデータセットであるPlanet-CRを紹介する。 Planet-CRは、地球規模の高解像度光学観測と、対のレーダー測定とピクセルレベルの土地被覆アノテーションを組み合わせた、クラウド除去のための最初の公開データセットである。 視覚的に心地よいテクスチャや意味のある構造を生成するという点で、徹底的な評価のための確固たる基盤を提供する。 本研究では,マルチモーダル情報とマルチレゾリューション情報を統合することにより,高解像度光リモートセンシング画像における雲除去の問題を考える。 したがって、既存のマルチモーダルデータ融合法は、画像対が画素間整列であると仮定するものであり、この問題には適していない。 そこで我々は,低分解能SAR画像に高分解能光雲除去を誘導するAlign-CRという新しいベースラインを設計した。 クラウド除去性能を促進するために、再構築プロセス中に暗黙的にマルチモーダルおよびマルチレゾリューションデータをアライメントする。 実験の結果,Align-CR法は視覚回復品質と意味回復品質の両面で最高の性能を示すことがわかった。 このプロジェクトはhttps://github.com/zhu-xlab/planet-crで入手できる。

In this paper, we introduce Planet-CR, a benchmark dataset for high-resolution cloud removal with multi-modal and multi-resolution data fusion. Planet-CR is the first public dataset for cloud removal to feature globally sampled high resolution optical observations, in combination with paired radar measurements as well as pixel-level land cover annotations. It provides solid basis for exhaustive evaluation in terms of generating visually pleasing textures and semantically meaningful structures. With this dataset, we consider the problem of cloud removal in high resolution optical remote sensing imagery by integrating multi-modal and multi-resolution information. Existing multi-modal data fusion based methods, which assume the image pairs are aligned pixel-to-pixel, are hence not appropriate for this problem. To this end, we design a new baseline named Align-CR to perform the low-resolution SAR image guided high-resolution optical image cloud removal. It implicitly aligns the multi-modal and multi-resolution data during the reconstruction process to promote the cloud removal performance. The experimental results demonstrate that the proposed Align-CR method gives the best performance in both visual recovery quality and semantic recovery quality. The project is available at https://github.com/zhu-xlab/Planet-CR, and hope this will inspire future research.
翻訳日:2023-01-10 17:17:10 公開日:2023-01-09
# 視覚変換器を用いた医用画像解析の進歩 : 総合的考察

Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review ( http://arxiv.org/abs/2301.03505v1 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Moein Heidari, Ehsan Khodapanah Aghdam, Amirali Molaei, Yiwei Jia, Abin Jose, Rijo Roy, Dorit Merhof(参考訳) 自然言語処理におけるTransformerアーキテクチャの顕著な性能は、最近コンピュータビジョンへの幅広い関心を呼び起こしている。 その他のメリットの中で、トランスフォーマーは長距離の依存関係と空間的相関を学習できると見られ、これはコンピュータビジョン問題のデファクトスタンダードとなっている畳み込みニューラルネットワーク(CNN)に対して明らかな優位性である。 このように、トランスフォーマーは現代の医療画像解析の不可欠な部分となっている。 本稿では,医療画像におけるトランスフォーマーの応用に関する百科事典レビューを行う。 具体的には, 分類, セグメンテーション, 検出, 登録, 合成, 臨床報告書生成など, 様々な医用画像解析課題に対して, 関連する最近のトランスフォーマー文献を体系的かつ徹底的に検討する。 それぞれの応用について,提案した戦略の新規性,強み,弱点について検討し,重要な特性と貢献を強調した分類学を開発する。 さらに、適用可能な場合は、異なるデータセットに関する現在のベンチマークを概説する。 最後に,重要な課題を要約し,今後の研究の方向性について考察する。 さらに、https://github.com/mindflow-institue/awesome-transformerで対応する実装に関する引用論文も提供しています。

The remarkable performance of the Transformer architecture in natural language processing has recently also triggered broad interest in Computer Vision. Among other merits, Transformers are witnessed as capable of learning long-range dependencies and spatial correlations, which is a clear advantage over convolutional neural networks (CNNs), which have been the de facto standard in Computer Vision problems so far. Thus, Transformers have become an integral part of modern medical image analysis. In this review, we provide an encyclopedic review of the applications of Transformers in medical imaging. Specifically, we present a systematic and thorough review of relevant recent Transformer literature for different medical image analysis tasks, including classification, segmentation, detection, registration, synthesis, and clinical report generation. For each of these applications, we investigate the novelty, strengths and weaknesses of the different proposed strategies and develop taxonomies highlighting key properties and contributions. Further, if applicable, we outline current benchmarks on different datasets. Finally, we summarize key challenges and discuss different future research directions. In addition, we have provided cited papers with their corresponding implementations in https://github.com/mindflow-institue/Awesome-Transformer.
翻訳日:2023-01-10 17:16:48 公開日:2023-01-09
# ヒューマンオブジェクトインタラクション検出のための並列推論ネットワーク

Parallel Reasoning Network for Human-Object Interaction Detection ( http://arxiv.org/abs/2301.03510v1 )

ライセンス: Link先を確認
Huan Peng, Fenggang Liu, Yangguang Li, Bin Huang, Jing Shao, Nong Sang, Changxin Gao(参考訳) 人間と物体の相互作用(hoi)検出は、人間が周囲の物体とどう相互作用するかを学ぶことを目的としている。 従来のHOI検出フレームワークは、予測器を用いて人、物、およびそれに対応する相互作用を同時に検出する。 1つの共有予測器だけでは、インスタンスレベルの予測と関係レベルの予測の注意領域を区別できない。 そこで本研究では,並列推論ネットワーク(pr-net)と呼ばれる,インスタンスレベルの局所化と関係レベル理解のための2つの独立した予測器を構築するトランスフォーマティブベース手法を提案する。 前者はインスタンスの極端領域を知覚することでインスタンスレベルのローカライゼーションに集中する。 後者は関係領域の範囲を広げ、関係レベルのセマンティック理解を改善する。 HICO-DETベンチマークの大規模な実験と分析により、我々のPR-Netはこの問題を効果的に軽減した。 我々のPR-NetはHICO-DETとV-COCOベンチマークで競合する結果を得た。

Human-Object Interaction (HOI) detection aims to learn how human interacts with surrounding objects. Previous HOI detection frameworks simultaneously detect human, objects and their corresponding interactions by using a predictor. Using only one shared predictor cannot differentiate the attentive field of instance-level prediction and relation-level prediction. To solve this problem, we propose a new transformer-based method named Parallel Reasoning Network(PR-Net), which constructs two independent predictors for instance-level localization and relation-level understanding. The former predictor concentrates on instance-level localization by perceiving instances' extremity regions. The latter broadens the scope of relation region to reach a better relation-level semantic understanding. Extensive experiments and analysis on HICO-DET benchmark exhibit that our PR-Net effectively alleviated this problem. Our PR-Net has achieved competitive results on HICO-DET and V-COCO benchmarks.
翻訳日:2023-01-10 17:16:29 公開日:2023-01-09
# ストーリービジュアライゼーションのためのImpartial Transformer

An Impartial Transformer for Story Visualization ( http://arxiv.org/abs/2301.03563v1 )

ライセンス: Link先を確認
Nikolaos Tsakas, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou(参考訳) ストーリービジュアライゼーション(ストーリービジュアライゼーション)は、シーケンシャルな画像合成をターゲットとする、コンピュータビジョンの高度なタスクであり、生成されたサンプルは現実的で、条件に忠実で、シーケンシャルに一貫性を持つ必要がある。 Inpartial Transformerはテキストに関連のある可視的なシーンと、トレーニング可能なパラメータを可能な限り少なく活用したシーケンシャルな一貫性を実現する。 この強化は、オブジェクトを隠蔽した'硬い'サンプルの合成を処理でき、過去のアプローチと比較した評価基準の改善も達成できる。

Story Visualization is an advanced task of computed vision that targets sequential image synthesis, where the generated samples need to be realistic, faithful to their conditioning and sequentially consistent. Our work proposes a novel architectural and training approach: the Impartial Transformer achieves both text-relevant plausible scenes and sequential consistency utilizing as few trainable parameters as possible. This enhancement is even able to handle synthesis of 'hard' samples with occluded objects, achieving improved evaluation metrics comparing to past approaches.
翻訳日:2023-01-10 17:16:16 公開日:2023-01-09
# SFI-Swin:顔成分分布を個別に学習したスイム変圧器による対称顔印加

SFI-Swin: Symmetric Face Inpainting with Swin Transformer by Distinctly Learning Face Components Distributions ( http://arxiv.org/abs/2301.03130v1 )

ライセンス: Link先を確認
MohammadReza Naderi, MohammadHossein Givkashi, Nader Karimi, Shahram Shirani, Shadrokh Samavi(参考訳) 画像塗装は、画像の充填穴または欠落部分からなる。 対称な特徴を持つ顔画像の塗り込みは、自然シーンの塗り込みよりも難しい。 既存の強力なモデルは、画像の対称性と均質性を考慮しながら、画像の欠落部分を埋めることはできない。 さらに、修復された顔画像の品質を評価する指標は、再建された顔と既存の顔の対称性の保存を計測できない。 本稿では,各顔器官の現実を別々にチェックする複数の識別器とトランスフォーマーベースネットワークを用いて,顔塗装作業における対称性問題を解くことを目的とする。 また,修復顔画像の対称性を測定するための新しい指標として「対称性集中スコア」を提案する。 定量的および定性的な結果は,最近提案されたアルゴリズムのいくつかと比較して,塗装部品の現実性,対称性,均一性に比較して,提案手法の優位性を示す。

Image inpainting consists of filling holes or missing parts of an image. Inpainting face images with symmetric characteristics is more challenging than inpainting a natural scene. None of the powerful existing models can fill out the missing parts of an image while considering the symmetry and homogeneity of the picture. Moreover, the metrics that assess a repaired face image quality cannot measure the preservation of symmetry between the rebuilt and existing parts of a face. In this paper, we intend to solve the symmetry problem in the face inpainting task by using multiple discriminators that check each face organ's reality separately and a transformer-based network. We also propose "symmetry concentration score" as a new metric for measuring the symmetry of a repaired face image. The quantitative and qualitative results show the superiority of our proposed method compared to some of the recently proposed algorithms in terms of the reality, symmetry, and homogeneity of the inpainted parts.
翻訳日:2023-01-10 17:09:31 公開日:2023-01-09
# 手書き回路図画像に対するインスタンスセグメンテーションに基づくグラフ抽出

Instance Segmentation Based Graph Extraction for Handwritten Circuit Diagram Images ( http://arxiv.org/abs/2301.03155v1 )

ライセンス: Link先を確認
Johannes Bayer, Amit Kumar Roy, Andreas Dengel(参考訳) 教育シナリオや歴史資料からの手書き回路図は、通常アナログメディア上に存在している。 機能原理や欠陥を自動的に導き出すためには、電子グラフを抽出してデジタル化する必要がある。 近年,このプロセスを促進する自動化パイプラインの基礎技術が,コンピュータビジョンから機械学習に移行した。 本稿では,電気部品(端末やテキストを含む)と相互接続(ジャンクションやワイヤホップを含む)の両方を事例分割とキーポイント抽出により抽出するアプローチについて述べる。 その結果、グラフ抽出プロセスはモデル推論の単純な2段階のプロセスと自明な幾何学的キーポイントマッチングからなる。 データセット自体、準備、モデルトレーニング、後処理が説明され、公開されている。

Handwritten circuit diagrams from educational scenarios or historic sources usually exist on analogue media. For deriving their functional principles or flaws automatically, they need to be digitized, extracting their electrical graph. Recently, the base technologies for automated pipelines facilitating this process shifted from computer vision to machine learning. This paper describes an approach for extracting both the electrical components (including their terminals and describing texts) as well their interconnections (including junctions and wire hops) by the means of instance segmentation and keypoint extraction. Consequently, the resulting graph extraction process consists of a simple two-step process of model inference and trivial geometric keypoint matching. The dataset itself, its preparation, model training and post-processing are described and publicly available.
翻訳日:2023-01-10 17:09:19 公開日:2023-01-09
# エンド・ツー・エンドグラウンドネットワークによる実時間パノプティブ・グラウンディングの実現に向けて

Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network ( http://arxiv.org/abs/2301.03160v1 )

ライセンス: Link先を確認
Haowei Wang, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Xiaoshuai Sun(参考訳) Panoptic Narrative Grounding (PNG)は、テキスト記述に対応する画像のターゲット領域を特定する、新たなクロスモーダルグラウンドタスクである。 PNGの既存のアプローチは主に計算コストのかかる2段階のパラダイムに基づいている。 本稿では,リアルタイムPNGのためのワンステージネットワーク,EPNG(End-to-End Panoptic Narrative Grounding Network)を提案する。 具体的には,テキスト表現と視覚オブジェクトの多対多関係を適切に扱うために,lpa(locality-perceptive attention)とsal(bidirectional semantic alignment loss)という2つの革新的な設計を提案する。 lpaは局所的な空間的プリエントをアテンションモデリングに組み込む。つまり、ピクセルは異なるスケールで複数のマスクに属し、セグメンテーションを改善する。 複雑な意味的関係を理解するために、salは意味的一貫性の相互モダリティを正則化するための双方向の対比目的を提案している。 PNGベンチマークデータセットの大規模な実験により,本手法の有効性と有効性を示した。 単段ベースラインと比較すると,最大9.4%の精度向上を実現している。 さらに重要なのは、EPNGは2段階モデルより10倍高速です。 一方、EPNGの一般化能力は、他の接地作業におけるゼロショット実験によっても検証される。

Panoptic Narrative Grounding (PNG) is an emerging cross-modal grounding task, which locates the target regions of an image corresponding to the text description. Existing approaches for PNG are mainly based on a two-stage paradigm, which is computationally expensive. In this paper, we propose a one-stage network for real-time PNG, termed End-to-End Panoptic Narrative Grounding network (EPNG), which directly generates masks for referents. Specifically, we propose two innovative designs, i.e., Locality-Perceptive Attention (LPA) and a bidirectional Semantic Alignment Loss (SAL), to properly handle the many-to-many relationship between textual expressions and visual objects. LPA embeds the local spatial priors into attention modeling, i.e., a pixel may belong to multiple masks at different scales, thereby improving segmentation. To help understand the complex semantic relationships, SAL proposes a bidirectional contrastive objective to regularize the semantic consistency inter modalities. Extensive experiments on the PNG benchmark dataset demonstrate the effectiveness and efficiency of our method. Compared to the single-stage baseline, our method achieves a significant improvement of up to 9.4% accuracy. More importantly, our EPNG is 10 times faster than the two-stage model. Meanwhile, the generalization ability of EPNG is also validated by zero-shot experiments on other grounding tasks.
翻訳日:2023-01-10 17:09:09 公開日:2023-01-09
# 深部平面視差による単眼深度推定

Deep Planar Parallax for Monocular Depth Estimation ( http://arxiv.org/abs/2301.03178v1 )

ライセンス: Link先を確認
Haoqian Liang, Zhichao Li, Ya Yang, Naiyan Wang(参考訳) 深度推定は、自動運転シーンの知覚システムにおいて根本的な問題である。 自律運転は難しいが、まだ多くの事前知識が利用できるため、問題の高度化を効果的に制限することができる。 平面パララックス幾何学(Paraar Parallax Geometry)による深度推定問題に先立って路面を導入している。 しかし、それらの使用法は有効ではなく、ネットワークは幾何情報を学ぶことができない。 そこで我々は,この問題を詳細に解析し,連続するフレームとフロー事前学習の明示的な歪みが,幾何学的事前学習を効果的に実現することを示した。 さらに,平面視差幾何学の本質的な弱点に対処する平面位置埋め込みを提案する。 KITTIやWaymo Open Dataset(WOD)といった自動運転データセットに関する総合的な実験結果は、私たちのPlanar Parallax Network(PPNet)が既存の学習ベースの手法を劇的に上回っていることを示している。

Depth estimation is a fundamental problem in the perception system of autonomous driving scenes. Although autonomous driving is challenging, much prior knowledge can still be utilized, by which the sophistication of the problem can be effectively restricted. Some previous works introduce the road plane prior to the depth estimation problem according to the Planar Parallax Geometry. However, we find that their usages are not effective, leaving the network cannot learn the geometric information. To this end, we analyze this problem in detail and reveal that explicit warping of consecutive frames and flow pre-training can effectively bring the geometric prior into learning. Furthermore, we propose Planar Position Embedding to deal with the intrinsic weakness of plane parallax geometry. Comprehensive experimental results on autonomous driving datasets like KITTI and Waymo Open Dataset (WOD) demonstrate that our Planar Parallax Network(PPNet) dramatically outperforms existing learning-based methods.
翻訳日:2023-01-10 17:08:46 公開日:2023-01-09
# 構造インフォームドシャドウ除去ネットワーク

Structure-Informed Shadow Removal Networks ( http://arxiv.org/abs/2301.03182v1 )

ライセンス: Link先を確認
Yuhao Liu, Qing Guo, Lan Fu, Zhanghan Ke, Ke Xu, Wei Feng, Ivor W. Tsang, and Rynson W.H. Lau(参考訳) シャドウ除去はコンピュータビジョンの基本的な課題である。 成功にもかかわらず、既存のディープラーニングベースのシャドウ除去手法は依然として影の残像を持つ画像を生成する。 これらの影残基は、通常、低強度の均一領域に存在し、既存の画像-画像マッピングパラダイムでは追跡できない。 画像構造レベル(連続色で満たされた物体の輪郭を人間が知覚する)において、影は主に物体の色を劣化させる。 そこで本稿では,画像構造レベルでの影を除去することを提案する。 そこで本研究では, 影残差問題に対処するために, 画像構造情報を活用する新しい構造インフォームドシャドウ除去ネットワーク (structnet) を提案する。 具体的には、StructNetはまず、シャドウのない入力画像の構造情報を再構成し、画像レベルのシャドウ除去を導く前に復元されたシャドウフリー構造を使用する。 structnetには,(1)非シャドウ方向からシャドウ方向のイメージ構造特徴を抽出するマスクガイド型シャドウフリー抽出(msfe)モジュール,(2)シャドウフリー構造情報を活用して特徴一貫性を規則化するマルチスケール機能・残留集約(mfra)モジュールという,2つの主要な新規モジュールが含まれている。 さらに,マルチレベル構造情報(MStructNet)を活用するためのStructNetの拡張も提案する。 3つのシャドウ除去ベンチマークに関する広範囲な実験により,提案手法が既存のシャドウ除去手法を上回っており,既存の手法と統合して性能をさらに高めることができることを示した。

Shadow removal is a fundamental task in computer vision. Despite the success, existing deep learning-based shadow removal methods still produce images with shadow remnants. These shadow remnants typically exist in homogeneous regions with low intensity values, making them untraceable in the existing image-to-image mapping paradigm. We observe from our experiments that shadows mainly degrade object colors at the image structure level (in which humans perceive object outlines filled with continuous colors). Hence, in this paper, we propose to remove shadows at the image structure level. Based on this idea, we propose a novel structure-informed shadow removal network (StructNet) to leverage the image structure information to address the shadow remnant problem. Specifically, StructNet first reconstructs the structure information of the input image without shadows and then uses the restored shadow-free structure prior to guiding the image-level shadow removal. StructNet contains two main novel modules: (1) a mask-guided shadow-free extraction (MSFE) module to extract image structural features in a non-shadow to shadow directional manner, and (2) a multi-scale feature & residual aggregation (MFRA) module to leverage the shadow-free structure information to regularize feature consistency. In addition, we also propose to extend StructNet to exploit multi-level structure information (MStructNet), to further boost the shadow removal performance with minimum computational overheads. Extensive experiments on three shadow removal benchmarks demonstrate that our method outperforms existing shadow removal methods, and our StructNet can be integrated with existing methods to boost their performances further.
翻訳日:2023-01-10 17:08:29 公開日:2023-01-09
# グラフ畳み込みネットワークを用いた数ショットセマンティックセマンティックセグメンテーション

Few-shot Semantic Segmentation with Support-induced Graph Convolutional Network ( http://arxiv.org/abs/2301.03194v1 )

ライセンス: Link先を確認
Jie Liu, Yanqi Bao, Wenzhe Ying, Haochen Wang, Yang Gao, Jan-Jakob Sonke, Efstratios Gavves(参考訳) 少数ショットセマンティクスセグメンテーション(fss)は、少数の注釈付きサンプルで新しいオブジェクトセグメンテーションを達成することを目的としており、近年は大きな進歩を遂げている。 既存のFSSモデルのほとんどは、FSSに取り組むためのサポートとクエリのマッチングに重点を置いている。 しかし、同一カテゴリのオブジェクト間の外観の変化は非常に大きく、信頼性の低い特徴マッチングとクエリマスクの予測に繋がる可能性がある。 そこで本稿では,問合せ画像の潜在コンテキスト構造を明示的に抽出する,SiGCN(Support-induced Graph Convolutional Network)を提案する。 具体的には,サポートによって誘導されるgcnを用いて,異なる意味レベルでの問い合わせ対象部品をキャプチャするサポート駆動型グラフ推論(sigr)モジュールを提案する。 さらに、インスタンスアソシエーション(IA)モジュールは、サポートインスタンスとクエリインスタンスの両方から高階インスタンスコンテキストをキャプチャするように設計されている。 提案された2つのモジュールを統合することで、SiGCNはリッチなクエリコンテキスト表現を学習できる。 PASCAL-5i と COCO-20i の広範囲な実験により,SiGCN が最先端の性能を発揮することが示された。

Few-shot semantic segmentation (FSS) aims to achieve novel objects segmentation with only a few annotated samples and has made great progress recently. Most of the existing FSS models focus on the feature matching between support and query to tackle FSS. However, the appearance variations between objects from the same category could be extremely large, leading to unreliable feature matching and query mask prediction. To this end, we propose a Support-induced Graph Convolutional Network (SiGCN) to explicitly excavate latent context structure in query images. Specifically, we propose a Support-induced Graph Reasoning (SiGR) module to capture salient query object parts at different semantic levels with a Support-induced GCN. Furthermore, an instance association (IA) module is designed to capture high-order instance context from both support and query instances. By integrating the proposed two modules, SiGCN can learn rich query context representation, and thus being more robust to appearance variations. Extensive experiments on PASCAL-5i and COCO-20i demonstrate that our SiGCN achieves state-of-the-art performance.
翻訳日:2023-01-10 17:07:58 公開日:2023-01-09
# EgoTracks: 長期的なエゴセントリックなビジュアルオブジェクト追跡データセット

EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset ( http://arxiv.org/abs/2301.03213v1 )

ライセンス: Link先を確認
Hao Tang, Kevin Liang, Kristen Grauman, Matt Feiszli, Weiyao Wang(参考訳) 視覚オブジェクトのトラッキングは多くのエゴセントリックな視覚問題の主要なコンポーネントである。 しかし、具体化されたaiが直面するエゴセントリックなトラッキングの課題のスペクトルは、既存の多くのデータセットで過小評価されている。 エゴセントリックビデオは、過去のデータセットでよく見られるいくつかの特徴がある: しばしば大きなカメラの動きとオブジェクトとの手動相互作用は、一般的に、フレームから出る閉塞や物体につながり、オブジェクトの外観は、視野、スケール、またはオブジェクトの状態が広く異なるため、急速に変化する。 身体的なトラッキングも自然に長期的であり、寿命が重要である限り、オブジェクトの出現や消失に一貫して(再)関連付けることができる。 以前のデータセットは、この再検出問題を過度に強調しており、その「フレーム」の性質は、我々が必ずしも自我中心ビデオに一般化しない様々な時空間前置法の採用につながった。 EgoTracksは、長期的エゴセントリックなビジュアルオブジェクト追跡のための新しいデータセットである。 Ego4Dデータセットから引用したこの新しいデータセットは、最近の最先端の単一オブジェクト追跡モデルに重大な課題をもたらします。 我々はさらに、EgoSTARKと呼ばれるベースラインモデルにより、エゴセントリックなデータの性能を大幅に向上させるためにSTARKトラッカーにできる改善を示す。 当社はアノテーションとベンチマークを公開し、データセットがトラッキングのさらなる進歩につながることを期待しています。

Visual object tracking is a key component to many egocentric vision problems. However, the full spectrum of challenges of egocentric tracking faced by an embodied AI is underrepresented in many existing datasets; these tend to focus on relatively short, third-person videos. Egocentric video has several distinguishing characteristics from those commonly found in past datasets: frequent large camera motions and hand interactions with objects commonly lead to occlusions or objects exiting the frame, and object appearance can change rapidly due to widely different points of view, scale, or object states. Embodied tracking is also naturally long-term, and being able to consistently (re-)associate objects to their appearances and disappearances over as long as a lifetime is critical. Previous datasets under-emphasize this re-detection problem, and their "framed" nature has led to adoption of various spatiotemporal priors that we find do not necessarily generalize to egocentric video. We thus introduce EgoTracks, a new dataset for long-term egocentric visual object tracking. Sourced from the Ego4D dataset, this new dataset presents a significant challenge to recent state-of-the-art single-object tracking models, which we find score poorly on traditional tracking metrics for our new dataset, compared to popular benchmarks. We further show improvements that can be made to a STARK tracker to significantly increase its performance on egocentric data, resulting in a baseline model we call EgoSTARK. We publicly release our annotations and benchmark, hoping our dataset leads to further advancements in tracking.
翻訳日:2023-01-10 17:07:39 公開日:2023-01-09
# ルールベース透明モデルとソフトラベル相関学習とラベル雑音抵抗を組み合わせたロバストマルチラベル法

A Robust Multilabel Method Integrating Rule-based Transparent Model, Soft Label Correlation Learning and Label Noise Resistance ( http://arxiv.org/abs/2301.03283v1 )

ライセンス: Link先を確認
Qiongdan Lou, Zhaohong Deng, Kup-Sze Choi, Shitong Wang(参考訳) モデル透明性、ラベル相関学習、ラベルノイズに対する堅牢性は、マルチラベル学習に不可欠である。 しかし,これら3つの特徴を同時に研究する手法はほとんどない。 この課題に対処するために,3つの機構を持つロバストな多ラベル高木スゲノカンファジィシステム(R-MLTSK-FS)を提案する。 まず,ラベル間の相互作用を明示的に測定することでラベルノイズの影響を低減し,他の2つのメカニズムの基礎となるソフトラベル学習機構を設計する。 第二に、規則に基づくTSK FSは、既存の多くのマルチラベルモデルよりも透過的な方法で、推論の関係を効率的にモデル化するためにベースモデルとして使用される。 第3に,マルチラベル学習の性能をさらに高めるために,ソフトラベル空間とファジィ特徴空間に基づく相関強化学習機構を構築する。 提案手法の優越性を示すため,広範な実験を行った。

Model transparency, label correlation learning and the robust-ness to label noise are crucial for multilabel learning. However, few existing methods study these three characteristics simultaneously. To address this challenge, we propose the robust multilabel Takagi-Sugeno-Kang fuzzy system (R-MLTSK-FS) with three mechanisms. First, we design a soft label learning mechanism to reduce the effect of label noise by explicitly measuring the interactions between labels, which is also the basis of the other two mechanisms. Second, the rule-based TSK FS is used as the base model to efficiently model the inference relationship be-tween features and soft labels in a more transparent way than many existing multilabel models. Third, to further improve the performance of multilabel learning, we build a correlation enhancement learning mechanism based on the soft label space and the fuzzy feature space. Extensive experiments are conducted to demonstrate the superiority of the proposed method.
翻訳日:2023-01-10 16:52:19 公開日:2023-01-09
# テキストマイニングと自然言語処理を用いた医療調達データマイニング -産業プロジェクトからの考察-

Mining Healthcare Procurement Data Using Text Mining and Natural Language Processing -- Reflection From An Industrial Project ( http://arxiv.org/abs/2301.03458v1 )

ライセンス: Link先を確認
Ziqi Zhang, Tomas Jasaitis, Richard Freeman, Rowida Alfrjani, Adam Funk(参考訳) テキストマイニングとnlp研究は数十年にわたって確立されてきたが、実世界のアプリケーション構築におけるこれらのテクニックの使用を報告した文献にはギャップがある。 例えば、彼らは通常、シングルタスクや時に単純化されたタスクに注目し、実際の問題やそれらのメソッド開発に共通する深いデータの不均一性と非一貫性を議論しない。 また、医療分野に焦点を当てた以前の作業はほとんどありません。 本稿では,医療分野における数百万の異種多言語調達文書をマイニングするために,テキストマイニングとnlpソリューションを開発した産業プロジェクトについて述べる。 我々は,サプライヤリスクを動的に評価するためのプラットフォームに電力を供給するための構造的調達契約データを抽出する。 私たちの作品は、さまざまな方法でユニークな貢献をしています。 まず、高度に異質で多言語的なデータに対処し、これらの課題に取り組むためのアプローチを文書化する。 これは主にドメイン知識を効果的に活用し、複数のテキストマイニングやNLPタスクや言語に一般化する手法に基づいている。 第2に、この手法を数百万の調達文書のマイニングに応用し、テンダリングプロセスの促進に役立つ最初の構造化された調達契約データベースを開発する。 第2に,実践的テキストマイニング/NLP開発で学んだ教訓について考察し,今後の研究と実践を推奨する。

While text mining and NLP research has been established for decades, there remain gaps in the literature that reports the use of these techniques in building real-world applications. For example, they typically look at single and sometimes simplified tasks, and do not discuss in-depth data heterogeneity and inconsistency that is common in real-world problems or their implication on the development of their methods. Also, few prior work has focused on the healthcare domain. In this work, we describe an industry project that developed text mining and NLP solutions to mine millions of heterogeneous, multilingual procurement documents in the healthcare sector. We extract structured procurement contract data that is used to power a platform for dynamically assessing supplier risks. Our work makes unique contributions in a number of ways. First, we deal with highly heterogeneous, multilingual data and we document our approach to tackle these challenges. This is mainly based on a method that effectively uses domain knowledge and generalises to multiple text mining and NLP tasks and languages. Second, applying this method to mine millions of procurement documents, we develop the first structured procurement contract database that will help facilitate the tendering process. Second, Finally, we discuss lessons learned for practical text mining/NLP development, and make recommendations for future research and practice.
翻訳日:2023-01-10 16:52:01 公開日:2023-01-09
# 自動機械翻訳を教育ビデオコースに適用する

Applying Automated Machine Translation to Educational Video Courses ( http://arxiv.org/abs/2301.03141v1 )

ライセンス: Link先を確認
Linden Wang(参考訳) オンラインビデオ教育分野における自動機械翻訳の能力について,khan academyの動画を最先端の翻訳モデルで自動翻訳し,テキストから音声への合成を適用し,対象言語で興味をそそるビデオを作成することにより検討した。 また, 翻訳品質を効率的に管理し, 翻訳作業を減らすために, ラウンドトリップ翻訳に基づく信頼性の高い翻訳信頼度推定器を構築した。 最後に,エンドユーザーに翻訳映像を配信し,反復的な改善のためにユーザ修正を収集するデプロイ可能なシステムを開発した。

We studied the capability of automated machine translation in the online video education space by automatically translating Khan Academy videos with state of the art translation models and applying Text-to-Speech synthesis to build engaging videos in target languages. We also analyzed and established a reliable translation confidence estimator based on round-trip translations in order to efficiently manage translation quality and reduce human translation effort. Finally, we developed a deployable system to deliver translated videos to end users and collect user corrections for iterative improvement.
翻訳日:2023-01-10 16:42:32 公開日:2023-01-09
# 抽象テキスト要約のためのアクティブラーニング

Active Learning for Abstractive Text Summarization ( http://arxiv.org/abs/2301.03252v1 )

ライセンス: Link先を確認
Akim Tsvigun, Ivan Lysenko, Danila Sedashov, Ivan Lazichny, Eldar Damirov, Vladimir Karlov, Artemy Belousov, Leonid Sanochkin, Maxim Panov, Alexander Panchenko, Mikhail Burtsev, Artem Shelmanov(参考訳) 抽象的テキスト要約(ats: abstractive text summarization)のためのヒューマンキュレーションアノテートデータセットの構築は非常に時間がかかり、高価である。それぞれのインスタンスの作成には、人間のアノテータが長いドキュメントを読み、元の文書で中継される重要な情報を保存する短い要約を作成する必要があるからだ。 アクティブラーニング(active learning、al)は、特定のレベルの機械学習モデルのパフォーマンスを達成するのに必要なアノテーションを減らすために開発されたテクニックである。 情報抽出とテキスト分類では、ALは最大で複数回の労力を削減することができる。 高価なアノテーションを支援する可能性はあるものの、我々が知る限り、ATSの効果的なALクエリ戦略は存在しなかった。 これは、多くのal戦略が不確実性推定に依存しているという事実に起因していますが、我々の研究で示されているように、不確実性インスタンスは通常騒がしく、それらを選択することで、パッシブアノテーションに比べてモデルパフォーマンスが低下する可能性があるのです。 多様性の原則に基づいて,ALのALに対する最初の効果的なクエリ戦略を提案することで,この問題に対処する。 我々は、あるアノテーション予算が与えられた場合、ALアノテーションの戦略を用いることで、ROUGEと一貫性スコアの点からモデル性能を向上させることができることを示す。 さらに,自己学習の効果を分析し,モデルの性能をさらに向上させることができることを示す。

Construction of human-curated annotated datasets for abstractive text summarization (ATS) is very time-consuming and expensive because creating each instance requires a human annotator to read a long document and compose a shorter summary that would preserve the key information relayed by the original document. Active Learning (AL) is a technique developed to reduce the amount of annotation required to achieve a certain level of machine learning model performance. In information extraction and text classification, AL can reduce the amount of labor up to multiple times. Despite its potential for aiding expensive annotation, as far as we know, there were no effective AL query strategies for ATS. This stems from the fact that many AL strategies rely on uncertainty estimation, while as we show in our work, uncertain instances are usually noisy, and selecting them can degrade the model performance compared to passive annotation. We address this problem by proposing the first effective query strategy for AL in ATS based on diversity principles. We show that given a certain annotation budget, using our strategy in AL annotation helps to improve the model performance in terms of ROUGE and consistency scores. Additionally, we analyze the effect of self-learning and show that it can further increase the performance of the model.
翻訳日:2023-01-10 16:42:20 公開日:2023-01-09
# 統一意味マッチングとしてのユニバーサル情報抽出

Universal Information Extraction as Unified Semantic Matching ( http://arxiv.org/abs/2301.03282v1 )

ライセンス: Link先を確認
Jie Lou, Yaojie Lu, Dai Dai, Wei Jia, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu(参考訳) 情報抽出(IE)の課題は、ラベルスキーマの多様性と構造の不均一性にある。 従来の手法ではタスク固有のモデル設計が必要であり、高価な監督に依存しており、新しいスキーマへの一般化が困難である。 本稿では,IEを2つの基本的能力,構造化と概念化に分割し,異なるタスクやスキーマで共有する。 このパラダイムに基づいて,統一意味マッチング(USM)フレームワークを用いた様々なIEタスクを普遍的にモデル化し,構造化と概念化の能力をモデル化するための3つの統一トークンリンク操作を提案する。 このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。 4つのIEタスクに対する実証評価の結果,提案手法は教師付き実験により最先端性能を実現し,ゼロ/フェーショット転送設定において強力な一般化能力を示す。

The challenge of information extraction (IE) lies in the diversity of label schemas and the heterogeneity of structures. Traditional methods require task-specific model design and rely heavily on expensive supervision, making them difficult to generalize to new schemas. In this paper, we decouple IE into two basic abilities, structuring and conceptualizing, which are shared by different tasks and schemas. Based on this paradigm, we propose to universally model various IE tasks with Unified Semantic Matching (USM) framework, which introduces three unified token linking operations to model the abilities of structuring and conceptualizing. In this way, USM can jointly encode schema and input text, uniformly extract substructures in parallel, and controllably decode target structures on demand. Empirical evaluation on 4 IE tasks shows that the proposed method achieves state-of-the-art performance under the supervised experiments and shows strong generalization ability in zero/few-shot transfer settings.
翻訳日:2023-01-10 16:41:58 公開日:2023-01-09
# ERNIE 3.0: タスク非依存の蒸留一般化を改善するための非常に単純な方法

ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic Distillation Generalization ( http://arxiv.org/abs/2301.03416v1 )

ライセンス: Link先を確認
Weixin Liu, Xuyi Chen, Jiaxiang Liu, Shikun Feng, Yu Sun, Hao Tian, Hua Wu(参考訳) タスクに依存しない知識蒸留は、教師と呼ばれる大きな事前学習されたモデルを生徒と呼ばれる小さなモデルに圧縮し、生徒が下流のタスクを直接微調整し、同等のパフォーマンスを維持することで、リソース制約のあるシナリオに大規模な事前訓練済み言語モデルを展開する問題に対処する。 しかし,既存の手法では,生徒と教師の間に一般化のギャップがあることを実証的に見出した。 本研究では, タスク非依存蒸留におけるマルチタスク学習を活用し, 学生の一般化を促進できることを示す。 特に,Multi-task Infused Task-Agnostic Knowledge Distillation (MITKD)を提案する。 まず、複数のダウンストリームタスクでマルチタスクのトレーニングを行い、次に蒸留を行い、生徒を育成する。 実験の結果,本手法は学生の汎用性が向上し,既存のベースラインを著しく上回っており,タスクに依存しない蒸留において,in-domain,out-domain,low-resourceのデータセット上で新たな最先端結果が得られた。 さらに、このメソッドはsquadと4つのglueタスクで8倍大きいbert$_{\text{base}}$を超えることさえある。 さらに,ernie 3.0を組み合わせることで,中国の10のデータセットで最新の結果が得られる。

Task-agnostic knowledge distillation attempts to address the problem of deploying large pretrained language model in resource-constrained scenarios by compressing a large pretrained model called teacher into a smaller one called student such that the student can be directly finetuned on downstream tasks and retains comparable performance. However, we empirically find that there is a generalization gap between the student and the teacher in existing methods. In this work, we show that we can leverage multi-task learning in task-agnostic distillation to advance the generalization of the resulted student. In particular, we propose Multi-task Infused Task-agnostic Knowledge Distillation (MITKD). We first enhance the teacher by multi-task training it on multiple downstream tasks and then perform distillation to produce the student. Experimental results demonstrate that our method yields a student with much better generalization, significantly outperforms existing baselines, and establishes a new state-of-the-art result on in-domain, out-domain, and low-resource datasets in the setting of task-agnostic distillation. Moreover, our method even exceeds an 8x larger BERT$_{\text{Base}}$ on SQuAD and four GLUE tasks. In addition, by combining ERNIE 3.0, our method achieves state-of-the-art results on 10 Chinese datasets.
翻訳日:2023-01-10 16:41:41 公開日:2023-01-09
# 機械翻訳のためのアラビア方言の自動標準化

Automatic Standardization of Arabic Dialects for Machine Translation ( http://arxiv.org/abs/2301.03447v1 )

ライセンス: Link先を確認
Abidrabbo Alnassan (CEL, ILCEA4, UJML3 Langues)(参考訳) テレビシリーズ『mar{\=a}y{\=a} 2013』の注釈付きマルチメディアコーパスに基づき、機械翻訳のためのアラビア語方言の「自動標準化」の問題について考察する。 ここではルールベース機械翻訳と統計機械翻訳を区別する。 アラビア語からの機械翻訳は、多くの場合、標準または現代アラビア語をソース言語として用い、モデルの訓練に必要な翻訳記憶が利用できるため、非常に満足のいく翻訳を生成する。 このケースはアラビア方言の翻訳において異なる。 生産効率ははるかに低い。 本研究では,方言入力から標準アラビア語テキストを自動的に生成するために,方言/標準アラビア語ペア(あるいは現代アラビア語ペア)に機械翻訳手法を適用し,その過程を「自動標準化」と呼ぶ。 規則に基づく「自動標準化」は、一方に「diglossic」辞書の欠如と、他方に方言ごとに言語規則を作成することが困難であることから、ここでは「統計モデル」の適用を選択した。 この研究をまとめると、'自動標準化'ソフトウェアと自動翻訳ソフトウェアを組み合わせることで、第1ソフトウェアの出力を第2のソフトウェアに入力として導入し、最後に高品質な機械翻訳を得ることが可能になる。 このアプローチはまた、方言のテキストを標準アラビア語に変換することによって、異なるアラビア語の方言を理解するためのアプリケーションの開発のような教育的応用も得る。

Based on an annotated multimedia corpus, television series Mar{\=a}y{\=a} 2013, we dig into the question of ''automatic standardization'' of Arabic dialects for machine translation. Here we distinguish between rule-based machine translation and statistical machine translation. Machine translation from Arabic most of the time takes standard or modern Arabic as the source language and produces quite satisfactory translations thanks to the availability of the translation memories necessary for training the models. The case is different for the translation of Arabic dialects. The productions are much less efficient. In our research we try to apply machine translation methods to a dialect/standard (or modern) Arabic pair to automatically produce a standard Arabic text from a dialect input, a process we call ''automatic standardization''. we opt here for the application of ''statistical models'' because ''automatic standardization'' based on rules is more hard with the lack of ''diglossic'' dictionaries on the one hand and the difficulty of creating linguistic rules for each dialect on the other. Carrying out this research could then lead to combining ''automatic standardization'' software and automatic translation software so that we take the output of the first software and introduce it as input into the second one to obtain at the end a quality machine translation. This approach may also have educational applications such as the development of applications to help understand different Arabic dialects by transforming dialectal texts into standard Arabic.
翻訳日:2023-01-10 16:41:16 公開日:2023-01-09
# color me intrigued: フィクションにおける色の使用の定量化

Color Me Intrigued: Quantifying Usage of Colors in Fiction ( http://arxiv.org/abs/2301.03559v1 )

ライセンス: Link先を確認
Siyan Li(参考訳) 本稿では,LitBank の著作物における色使用量の定量化に関する予備的結果を示す。 glasgow norms, human ratings on 5000+ wordsを用いて, 色項に依存する名詞の属性を測定した。 初期の結果は、時間とともに名詞の具体性が大きく増大したことを示している。 また,計算文色分析のための今後の研究方向を提案する。

We present preliminary results in quantitative analyses of color usage in selected authors' works from LitBank. Using Glasgow Norms, human ratings on 5000+ words, we measure attributes of nouns dependent on color terms. Early results demonstrate a significant increase in noun concreteness over time. We also propose future research directions for computational literary color analytics.
翻訳日:2023-01-10 16:40:53 公開日:2023-01-09
# 核セグメンテーションと分類:色と圧縮の一般化について

Nuclear Segmentation and Classification: On Color & Compression Generalization ( http://arxiv.org/abs/2301.03418v1 )

ライセンス: Link先を確認
Quoc Dang Vu, Robert Jewsbury, Simon Graham, Mostafa Jahanifar, Shan E Ahmed Raza, Fayyaz Minhas, Abhir Bhalerao, Nasir Rajpoot(参考訳) デジタルおよび計算病理学の分野として導入されて以来、アルゴリズムの臨床応用における大きな問題の1つは、トレーニングデータの分布外の例にうまく一般化することである。 病理学と自然画像の両方でこれに対処する既存の作業は、ほとんどが分類タスクに焦点を当てている。 この問題に対する最大の計算病理学的課題であるCoNICの課題から, 核分割・分類モデル7の堅牢性について検討し, 評価を行った。 既存のSoTAモデルが圧縮アーチファクトに対して堅牢であるが,カラー領域のシフトを受けると性能が著しく低下することが実証された。 ドメインシフト問題に対処するために染色正規化を用いることは、モデルの性能を損なう可能性がある。 一方、ニューラルスタイルトランスファーは、野生で大きな色の変化を示すとき、テストパフォーマンスを改善するのにより一貫性がある。

Since the introduction of digital and computational pathology as a field, one of the major problems in the clinical application of algorithms has been the struggle to generalize well to examples outside the distribution of the training data. Existing work to address this in both pathology and natural images has focused almost exclusively on classification tasks. We explore and evaluate the robustness of the 7 best performing nuclear segmentation and classification models from the largest computational pathology challenge for this problem to date, the CoNIC challenge. We demonstrate that existing state-of-the-art (SoTA) models are robust towards compression artifacts but suffer substantial performance reduction when subjected to shifts in the color domain. We find that using stain normalization to address the domain shift problem can be detrimental to the model performance. On the other hand, neural style transfer is more consistent in improving test performance when presented with large color variations in the wild.
翻訳日:2023-01-10 16:34:49 公開日:2023-01-09
# 一般化適応平滑化に基づく交通状態推定のためのニューラルネットワークアーキテクチャ

Generalized adaptive smoothing based neural network architecture for traffic state estimation ( http://arxiv.org/abs/2301.03439v1 )

ライセンス: Link先を確認
Chuhan Yang, Sai Venkata Ramana Ambadipudi and Saif Eddin Jabari(参考訳) adaptive smoothing method (asm) は、トラフィック状態推定に使用される標準データ駆動手法である。 ASMは自由パラメータを持ち、実際には直観に基づいて一般に受け入れられる値として選択される。 しかし、ヒューリスティックに選択された値はしばしばASMによる非物理的予測をもたらす。 本研究では,道路センサのスパースデータから学習したパラメータを自動的に調整するASMに基づくニューラルネットワークを提案する。 これを適応スムージングニューラルネットワーク(ASNN)と呼ぶ。 また,アンサンブル平均化を用いて強力な学習者を実現する改良型ASNN (MASNN) を提案する。 ASNNとMASNNは2つの実世界のデータセットをトレーニングし、テストしている。 実験の結果,ASNNとMASNNは従来のASMよりも優れていた。

The adaptive smoothing method (ASM) is a standard data-driven technique used in traffic state estimation. The ASM has free parameters which, in practice, are chosen to be some generally acceptable values based on intuition. However, we note that the heuristically chosen values often result in un-physical predictions by the ASM. In this work, we propose a neural network based on the ASM which tunes those parameters automatically by learning from sparse data from road sensors. We refer to it as the adaptive smoothing neural network (ASNN). We also propose a modified ASNN (MASNN), which makes it a strong learner by using ensemble averaging. The ASNN and MASNN are trained and tested two real-world datasets. Our experiments reveal that the ASNN and the MASNN outperform the conventional ASM.
翻訳日:2023-01-10 16:34:33 公開日:2023-01-09
# FedDebug: フェデレーション学習アプリケーションのためのシステムデバッグ

FedDebug: Systematic Debugging for Federated Learning Applications ( http://arxiv.org/abs/2301.03553v1 )

ライセンス: Link先を確認
Waris Gill, Ali Anwar, Muhammad Ali Gulzar(参考訳) フェデレートラーニング(FL)では、クライアントはモデルをローカルにトレーニングし、中央アグリゲータと共有してグローバルモデルを構築します。 クライアントのデータにアクセスできないことや協調トレーニングにより、FLは医療画像のようなデータプライバシの懸念のあるアプリケーションにアピールする。 しかし、これらのFL特性はデバッグに前例のない課題をもたらす。 グローバルモデルのパフォーマンスが低下すると、ラウンドを見つけ、責任を負うクライアントを見つけることが大きな痛点となる。 開発者は、クライアントのサブセットで試行錯誤デバッグを頼りにしており、正確性を高めたり、将来のFLラウンドでモデルを再調整することを望んでいる。 我々は,feddebugという系統的フォールトローカライズフレームワークを設計し,flデバッグを2つの新しいフロントで進める。 まずFedDebugは、記録と再生技術を活用してFLのリアルタイム協調トレーニングをインタラクティブにデバッグし、ライブFLをミラーするシミュレーションを構築する。 FedDebug's {\em breakpoint} は、FL状態(全体、クライアント、グローバルモデル)を検査し、ラウンドとクライアントのモデルの間をシームレスに移動し、きめ細かいステップバイステップインスペクションを可能にする。 第二に、FedDebugはテストデータやラベルなしでグローバルモデルのパフォーマンスを低下させるクライアントを自動的に識別する。 FedDebugの強みは、神経細胞の活性化とともに差分テストを適用し、正常な振る舞いから逸脱した正確なクライアントを決定することである。 feddebugは、単一クライアントを見つける100\%と、複数の障害のあるクライアントを見つける90.3\%の精度を達成する。 feddebugのインタラクティブデバッグでは、トレーニング中に1.2\%のオーバーヘッドが発生し、ラウンドのトレーニング時間の2.1\%で障害のあるクライアントをローカライズする。 FedDebugでは、フェデレーション学習に効果的なデバッグプラクティスを導入し、FLアプリケーション開発者の品質と生産性を改善します。

In Federated Learning (FL), clients train a model locally and share it with a central aggregator to build a global model. Impermissibility to access client's data and collaborative training makes FL appealing for applications with data-privacy concerns such as medical imaging. However, these FL characteristics pose unprecedented challenges for debugging. When a global model's performance deteriorates, finding the round and the clients responsible is a major pain point. Developers resort to trial-and-error debugging with subsets of clients, hoping to increase the accuracy or let future FL rounds retune the model, which are time-consuming and costly. We design a systematic fault localization framework, FedDebug, that advances the FL debugging on two novel fronts. First, FedDebug enables interactive debugging of realtime collaborative training in FL by leveraging record and replay techniques to construct a simulation that mirrors live FL. FedDebug's {\em breakpoint} can help inspect an FL state (round, client, and global model) and seamlessly move between rounds and clients' models, enabling a fine-grained step-by-step inspection. Second, FedDebug automatically identifies the client responsible for lowering global model's performance without any testing data and labels--both are essential for existing debugging techniques. FedDebug's strengths come from adapting differential testing in conjunction with neurons activations to determine the precise client deviating from normal behavior. FedDebug achieves 100\% to find a single client and 90.3\% accuracy to find multiple faulty clients. FedDebug's interactive debugging incurs 1.2\% overhead during training, while it localizes a faulty client in only 2.1\% of a round's training time. With FedDebug, we bring effective debugging practices to federated learning, improving the quality and productivity of FL application developers.
翻訳日:2023-01-10 16:34:20 公開日:2023-01-09
# 複雑性保証付き非凸等式制約最適化の2次定常点を求めるNewton-CGによる拡張ラグランジアン法

A Newton-CG based augmented Lagrangian method for finding a second-order stationary point of nonconvex equality constrained optimization with complexity guarantees ( http://arxiv.org/abs/2301.03139v1 )

ライセンス: Link先を確認
Chuan He, Zhaosong Lu and Ting Kei Pong(参考訳) 本稿では,非凸等性制約付き最適化の2次定常点(sosp)を求める。 特に,制約のない最適化の近似 sosp を求めるnewton-cg 法を提案し,newton-cg 法 [56] よりもかなり複雑であることを示す。 そこで本研究では,非凸等性制約付き最適化の近似 sosp を求めるために,newton-cg を用いた拡張ラグランジアン (al) 法を提案する。 一般化線形独立制約資格 (glicq) の下では、al法では、$\widetilde{\cal o}(\epsilon^{-7/2})$ と$\widetilde{\cal o}(\epsilon^{-7/2}\min\{n,\epsilon^{-3/4}\})$(\epsilon,\sqrt{\epsilon})$-sosp の非凸等化制限付き最適化が高確率で実現されており、これは近位al法 [60] によって達成されたものよりもかなり良い。 さらに、グリックが成立しない場合、全内的反復複雑性は$\widetilde{\cal o}(\epsilon^{-11/2})$であり、演算複雑性は$\widetilde{\cal o}(\epsilon^{-11/2}\min\{n,\epsilon^{-5/4}\})$であることを示した。 我々の知る限り、この論文で得られた複雑さの結果は、高い確率で非凸等式制約付き最適化の近似SOSPを見つけるために新しいものである。 また, [56,60] の手法よりも提案手法の方が優れていることを示す。

In this paper we consider finding a second-order stationary point (SOSP) of nonconvex equality constrained optimization when a nearly feasible point is known. In particular, we first propose a new Newton-CG method for finding an approximate SOSP of unconstrained optimization and show that it enjoys a substantially better complexity than the Newton-CG method [56]. We then propose a Newton-CG based augmented Lagrangian (AL) method for finding an approximate SOSP of nonconvex equality constrained optimization, in which the proposed Newton-CG method is used as a subproblem solver. We show that under a generalized linear independence constraint qualification (GLICQ), our AL method enjoys a total inner iteration complexity of $\widetilde{\cal O}(\epsilon^{-7/2})$ and an operation complexity of $\widetilde{\cal O}(\epsilon^{-7/2}\min\{n,\epsilon^{-3/4}\})$ for finding an $(\epsilon,\sqrt{\epsilon})$-SOSP of nonconvex equality constrained optimization with high probability, which are significantly better than the ones achieved by the proximal AL method [60]. Besides, we show that it has a total inner iteration complexity of $\widetilde{\cal O}(\epsilon^{-11/2})$ and an operation complexity of $\widetilde{\cal O}(\epsilon^{-11/2}\min\{n,\epsilon^{-5/4}\})$ when the GLICQ does not hold. To the best of our knowledge, all the complexity results obtained in this paper are new for finding an approximate SOSP of nonconvex equality constrained optimization with high probability. Preliminary numerical results also demonstrate the superiority of our proposed methods over the ones in [56,60].
翻訳日:2023-01-10 16:33:20 公開日:2023-01-09
# 二項分類のための最適入力独立ベースライン:オランダ図面

The Optimal Input-Independent Baseline for Binary Classification: The Dutch Draw ( http://arxiv.org/abs/2301.03318v1 )

ライセンス: Link先を確認
Joris Pries, Etienne van de Bijl, Jan Klein, Sandjai Bhulai, Rob van der Mei(参考訳) バイナリ分類モデルが実践される前に、適切なテストセット上でその性能を検証することが重要である。 ベースラインメソッドによって与えられる参照フレームがなければ、スコアが‘good’か‘bad’かを判断することは不可能である。 本研究の目的は,特徴値に依存しないベースライン手法をすべて検討し,どのモデルがベストか,なぜかを決定することである。 どのベースラインモデルが最適かを特定することにより、評価プロセスにおける重要な選択決定が簡単になる。 その結果,最近提案されたオランダドローベースラインは,サンプルがランダムにシャッフルされていることを仮定して,すべての位置不変測度(シーケンス順序に依存しない)に対する入力非依存分類器として最適であることが証明された。 これはオランダのDrawベースラインがこれらの直感的な要求の下で最適なベースラインであり、それゆえに実際に使用されるべきであることを意味する。

Before any binary classification model is taken into practice, it is important to validate its performance on a proper test set. Without a frame of reference given by a baseline method, it is impossible to determine if a score is `good' or `bad'. The goal of this paper is to examine all baseline methods that are independent of feature values and determine which model is the `best' and why. By identifying which baseline models are optimal, a crucial selection decision in the evaluation process is simplified. We prove that the recently proposed Dutch Draw baseline is the best input-independent classifier (independent of feature values) for all positional-invariant measures (independent of sequence order) assuming that the samples are randomly shuffled. This means that the Dutch Draw baseline is the optimal baseline under these intuitive requirements and should therefore be used in practice.
翻訳日:2023-01-10 16:32:36 公開日:2023-01-09
# 局所微分プライバシーと通信制約下での単純な二項仮説検証

Simple Binary Hypothesis Testing under Local Differential Privacy and Communication Constraints ( http://arxiv.org/abs/2301.03566v1 )

ライセンス: Link先を確認
Ankit Pensia, Amir R. Asadi, Varun Jog, Po-Ling Loh(参考訳) 我々は,ローカルディファレンシャルプライバシ(ldp)と通信制約の両方の下で,単純な二項仮説テストを行った。 前者は所定のヘリンジャー発散と全変動距離を持つ分布対の集合、後者は特定の分布対の集合の集合である。 純粋な LDP 制約下での単純な仮説テストのサンプル複雑性について、二元性を持つ分布のインスタンス最適境界、一般分布の最小最適境界、および(およそ)一般分布のインスタンス最適計算効率アルゴリズムを確立する。 プライバシと通信の制約がある場合、最小のサンプル複雑性(普遍定数まで)を達成するインスタンス最適化、計算効率のよいアルゴリズムを開発する。 共役範囲の極端点を識別するインスタンス最適化アルゴリズムのヒンジでは、$\mathcal A$ と $q$ を$\mathcal A := \{(\mathbf T p, \mathbf T q) | \mathbf T \in \mathcal C\}$ と定義し、$\mathcal C$ は制約を特徴づけるチャネルの集合である。

We study simple binary hypothesis testing under both local differential privacy (LDP) and communication constraints. We qualify our results as either minimax optimal or instance optimal: the former hold for the set of distribution pairs with prescribed Hellinger divergence and total variation distance, whereas the latter hold for specific distribution pairs. For the sample complexity of simple hypothesis testing under pure LDP constraints, we establish instance-optimal bounds for distributions with binary support; minimax-optimal bounds for general distributions; and (approximately) instance-optimal, computationally efficient algorithms for general distributions. When both privacy and communication constraints are present, we develop instance-optimal, computationally efficient algorithms that achieve the minimum possible sample complexity (up to universal constants). Our results on instance-optimal algorithms hinge on identifying the extreme points of the joint range set $\mathcal A$ of two distributions $p$ and $q$, defined as $\mathcal A := \{(\mathbf T p, \mathbf T q) | \mathbf T \in \mathcal C\}$, where $\mathcal C$ is the set of channels characterizing the constraints.
翻訳日:2023-01-10 16:32:10 公開日:2023-01-09
# 最適メタグラディエント

Optimistic Meta-Gradients ( http://arxiv.org/abs/2301.03236v1 )

ライセンス: Link先を確認
Sebastian Flennerhag and Tom Zahavy and Brendan O'Donoghue and Hado van Hasselt and Andr\'as Gy\"orgy and Satinder Singh(参考訳) 勾配に基づくメタラーニングと凸オプティマイゼーションの関連について検討する。 運動量のある勾配降下はメタ勾配の特別な場合であり、最適化の最近の結果に基づいて、1つのタスク設定でメタ学習の収束率を示す。 メタ学習更新規則は、定数係数までのより高速な収束をもたらすが、加速には不十分である。 代わりに、ある種の楽観主義が必要である。 メタラーニングにおける楽観性は,Bootstrapped Meta-Gradients (Flennerhag et al., 2022) を通じて捉えることができ,その基盤となる力学の深い洞察を提供する。

We study the connection between gradient-based meta-learning and convex op-timisation. We observe that gradient descent with momentum is a special case of meta-gradients, and building on recent results in optimisation, we prove convergence rates for meta-learning in the single task setting. While a meta-learned update rule can yield faster convergence up to constant factor, it is not sufficient for acceleration. Instead, some form of optimism is required. We show that optimism in meta-learning can be captured through Bootstrapped Meta-Gradients (Flennerhag et al., 2022), providing deeper insight into its underlying mechanics.
翻訳日:2023-01-10 16:26:10 公開日:2023-01-09
# Feature Engineering-Less Machine Learning を用いたIoTデバイスの効率的な攻撃検出

Efficient Attack Detection in IoT Devices using Feature Engineering-Less Machine Learning ( http://arxiv.org/abs/2301.03532v1 )

ライセンス: Link先を確認
Arshiya Khan, Chase Cotton(参考訳) ディープラーニングの一般化を通じて、研究コミュニティは、マルウェアの識別や異常検出など、ネットワークセキュリティ領域における重要な課題に対処してきた。 しかし、日々の運用のためにIoT(Internet of Things)デバイスにそれらを展開することについてはまだ議論されていない。 iotデバイスは、しばしばメモリと処理能力に制限があり、計算集約的なディープラーニング環境は使用できない。 本研究では,ディープラーニングパイプラインの機能工学をバイパスし,生パケットデータを入力として利用することにより,この障壁を克服する方法を提案する。 我々は,IoTデバイス上でマルウェア検出を行う機能エンジニアリングレス機械学習(ML)プロセスを導入する。 提案するモデルである"Feature Engineering-less-ML (FEL-ML)"は、"Engineered"機能に関する余分な計算を不要とする軽量な検出アルゴリズムである。 低電力のiotエッジを効果的に加速する。 パケットの未処理バイトストリームでトレーニングされる。 より良い結果を提供する以外は、従来の機能ベースのメソッドよりも高速です。 FEL-MLは、機能工学の専門家による重要な投資を排除し、リソースに敏感なネットワークトラフィックセキュリティを促進する。

Through the generalization of deep learning, the research community has addressed critical challenges in the network security domain, like malware identification and anomaly detection. However, they have yet to discuss deploying them on Internet of Things (IoT) devices for day-to-day operations. IoT devices are often limited in memory and processing power, rendering the compute-intensive deep learning environment unusable. This research proposes a way to overcome this barrier by bypassing feature engineering in the deep learning pipeline and using raw packet data as input. We introduce a feature engineering-less machine learning (ML) process to perform malware detection on IoT devices. Our proposed model, "Feature engineering-less-ML (FEL-ML)," is a lighter-weight detection algorithm that expends no extra computations on "engineered" features. It effectively accelerates the low-powered IoT edge. It is trained on unprocessed byte-streams of packets. Aside from providing better results, it is quicker than traditional feature-based methods. FEL-ML facilitates resource-sensitive network traffic security with the added benefit of eliminating the significant investment by subject matter experts in feature engineering.
翻訳日:2023-01-10 16:25:57 公開日:2023-01-09
# ミニバッチ確率的近位点法のシャープ解析 : 安定性, 滑らか性, 偏差

Sharper Analysis for Minibatch Stochastic Proximal Point Methods: Stability, Smoothness, and Deviation ( http://arxiv.org/abs/2301.03125v1 )

ライセンス: Link先を確認
Xiao-Tong Yuan and Ping Li(参考訳) 確率的近位点法 (SPP) は確率的最適化において近年注目されており、強い収束保証と古典的確率的勾配勾配勾配法 (SGD) に対する優れた頑健性は計算オーバーヘッドのコストをほとんど、あるいは全く加えていない。 本稿では, コンベックス複合リスク最小化問題の解法として, SPP のミニバッチ変種 M-SPP について検討する。 コアコントリビューションは、アルゴリズム安定性理論のレンズから導かれるM-SPPの新たな過剰リスク境界の集合である。 特に、滑らかで二次的な成長条件下では、ミニバッチサイズ$n$と反復数$T$のM-SPPが、$\mathcal{O}\left(\frac{1}{T^2}\right)$バイアス減衰項と$\mathcal{O}\left(\frac{1}{nT}\right)$分散崩壊項からなる、予想できない収束率を楽しむことを示す。 小型の$-large-$T$設定において、この結果は収束率に対するモデルのノイズレベルの影響を明らかにすることにより、SPP型アプローチの最もよく知られた結果を大幅に改善する。 相補的な小$T$-large-$n$レジームでは、M-SPPの2相拡張を提供し、同値収束率を達成する。 さらに、m-sppのサンプリング無置換変種におけるパラメータ推定誤差にバインドされた(データのランダム性よりも)密接な高確率を求める。 ラッソおよびロジスティック回帰モデルに実質化されると、理論的予測を支持する数値的な証拠が提供される。

The stochastic proximal point (SPP) methods have gained recent attention for stochastic optimization, with strong convergence guarantees and superior robustness to the classic stochastic gradient descent (SGD) methods showcased at little to no cost of computational overhead added. In this article, we study a minibatch variant of SPP, namely M-SPP, for solving convex composite risk minimization problems. The core contribution is a set of novel excess risk bounds of M-SPP derived through the lens of algorithmic stability theory. Particularly under smoothness and quadratic growth conditions, we show that M-SPP with minibatch-size $n$ and iteration count $T$ enjoys an in-expectation fast rate of convergence consisting of an $\mathcal{O}\left(\frac{1}{T^2}\right)$ bias decaying term and an $\mathcal{O}\left(\frac{1}{nT}\right)$ variance decaying term. In the small-$n$-large-$T$ setting, this result substantially improves the best known results of SPP-type approaches by revealing the impact of noise level of model on convergence rate. In the complementary small-$T$-large-$n$ regime, we provide a two-phase extension of M-SPP to achieve comparable convergence rates. Moreover, we derive a near-tight high probability (over the randomness of data) bound on the parameter estimation error of a sampling-without-replacement variant of M-SPP. Numerical evidences are provided to support our theoretical predictions when substantialized to Lasso and logistic regression models.
翻訳日:2023-01-10 16:24:19 公開日:2023-01-09
# 因果DAGのサブセット検証と探索アルゴリズム

Subset verification and search algorithms for causal DAGs ( http://arxiv.org/abs/2301.03180v1 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur(参考訳) 変数間の因果関係の学習は因果関係の基本的な課題であり、有向非巡回グラフ(DAG)は因果関係を表現するための一般的な選択である。 因果グラフを観測結果からマルコフ同値クラスまでしか回収できないため、リカバリ作業にしばしば介入が用いられる。 介入は一般的にコストがかかり、実行される介入の数を最小化するアルゴリズムを設計することが重要である。 本研究では,グラフ内のエッジ(ターゲットエッジ)の部分集合の因果関係を可能な限り少ない介入で学習する問題について検討する。 忠実性,因果便益性,理想的な介入という仮定の下で,基礎となる真理因果グラフが既知の場合(サブセット検証)と未知の場合(サブセット探索)という2つの設定でこの問題を研究する。 サブセット検証問題に対して、最小サイズの介入集合を計算するための効率的なアルゴリズムを提供し、これらの結果をさらに、境界サイズの非原子的介入とノード依存の介入コストに拡張する。 部分集合探索問題の場合、最悪の場合、(適応性やランダム化を伴う)アルゴリズムが、部分集合検証数と比較して対象辺の頂点被覆よりも漸近的に良い近似比を達成することができないことを示す。 因果グラフ全体を復元したい場合には,探索問題に対する対数近似アルゴリズムが存在するので,この結果は意外である。 以上の結果を得るため,本研究で研究されている部分的検証・探索問題以上の応用が期待できる介入因果グラフの興味深い構造的性質を示す。

Learning causal relationships between variables is a fundamental task in causal inference and directed acyclic graphs (DAGs) are a popular choice to represent the causal relationships. As one can recover a causal graph only up to its Markov equivalence class from observations, interventions are often used for the recovery task. Interventions are costly in general and it is important to design algorithms that minimize the number of interventions performed. In this work, we study the problem of learning the causal relationships of a subset of edges (target edges) in a graph with as few interventions as possible. Under the assumptions of faithfulness, causal sufficiency, and ideal interventions, we study this problem in two settings: when the underlying ground truth causal graph is known (subset verification) and when it is unknown (subset search). For the subset verification problem, we provide an efficient algorithm to compute a minimum sized interventional set; we further extend these results to bounded size non-atomic interventions and node-dependent interventional costs. For the subset search problem, in the worst case, we show that no algorithm (even with adaptivity or randomization) can achieve an approximation ratio that is asymptotically better than the vertex cover of the target edges when compared with the subset verification number. This result is surprising as there exists a logarithmic approximation algorithm for the search problem when we wish to recover the whole causal graph. To obtain our results, we prove several interesting structural properties of interventional causal graphs that we believe have applications beyond the subset verification/search problems studied here.
翻訳日:2023-01-10 16:23:41 公開日:2023-01-09
# 2次元正弦波モデルにおける最小偏差推定器の整合性と漸近正規性について

On Consistency and Asymptotic Normality of Least Absolute Deviation Estimators for 2-dimensional Sinusoidal Model ( http://arxiv.org/abs/2301.03229v1 )

ライセンス: Link先を確認
Saptarshi Roy, Amit Mitra and N K Archak(参考訳) ディジタル信号処理における2次元正弦波モデルのパラメータ推定は根本的な問題である。 本稿では,パラメータ推定のためのロバスト最小絶対偏差推定器を提案する。 提案手法は,データに異常値が存在する場合や重く尾部ノイズが存在する場合において,最小二乗推定法のような非ロバスト推定手法にロバストな代替手段を提供する。 我々は,lad推定器の重要な漸近特性を調査し,lad推定器の強い一貫性と漸近正規性を確立した。 さらに, LAD推定器を用いた最小2乗推定器の利点について, 広範囲なシミュレーション研究を通じて述べる。

Estimation of the parameters of a 2-dimensional sinusoidal model is a fundamental problem in digital signal processing. In this paper, we propose a robust least absolute deviation (LAD) estimators for parameter estimation. The proposed methodology provides a robust alternative to non-robust estimation techniques like the least squares estimators, in situations where outliers are present in the data or in the presence of heavy tailed noise. We study important asymptotic properties of the LAD estimators and establish the strong consistency and asymptotic normality of the LAD estimators. We further illustrate the advantage of using LAD estimators over least squares estimators through extensive simulation studies.
翻訳日:2023-01-10 16:23:14 公開日:2023-01-09
# eFIN:ホログラフィー画像における一般化可能なオートフォーカスと画素超解像のための拡張フーリエイメージネットワーク

eFIN: Enhanced Fourier Imager Network for generalizable autofocusing and pixel super-resolution in holographic imaging ( http://arxiv.org/abs/2301.03162v1 )

ライセンス: Link先を確認
Hanlong Chen, Luzhe Huang, Tairan Liu, Aydogan Ozcan(参考訳) 深層学習技術の応用はホログラフィックイメージング機能を大幅に強化し、位相回復と画像再構成を改善した。 本稿では,画素超解像と画像オートフォーカスを用いたホログラム再構成のための高一般化フレームワークとして,拡張フーリエイメージネットワーク(efin)と呼ばれる深層ニューラルネットワークを提案する。 肺,前立腺,唾液腺組織およびパパニコラウ(Pap)スミアを含むホログラフィー顕微鏡実験により,eFINは画像再構成の質が優れ,トレーニング期間中に見られない新しいタイプの試料に対して外部の一般化を示すことを示した。 このネットワークは、物理学インフォームドラーニングによりホログラム軸距離を正確に予測する能力を持ち、0.35mmの広い自己焦点軸範囲を実現する。 efinは3倍ピクセルの超解像度撮影を可能にし、再構成された画像の空間幅積を9倍に増やし、ほぼ性能損失をなくし、ホログラフィック画像とデータ処理ステップでかなりの時間を節約できる。 本研究は,eFINのホログラフィー画像の境界を定量的位相像やラベルフリー顕微鏡など様々な用途に応用するための進歩を示すものである。

The application of deep learning techniques has greatly enhanced holographic imaging capabilities, leading to improved phase recovery and image reconstruction. Here, we introduce a deep neural network termed enhanced Fourier Imager Network (eFIN) as a highly generalizable framework for hologram reconstruction with pixel super-resolution and image autofocusing. Through holographic microscopy experiments involving lung, prostate and salivary gland tissue sections and Papanicolau (Pap) smears, we demonstrate that eFIN has a superior image reconstruction quality and exhibits external generalization to new types of samples never seen during the training phase. This network achieves a wide autofocusing axial range of 0.35 mm, with the capability to accurately predict the hologram axial distances by physics-informed learning. eFIN enables 3x pixel super-resolution imaging and increases the space-bandwidth product of the reconstructed images by 9-fold with almost no performance loss, which allows for significant time savings in holographic imaging and data processing steps. Our results showcase the advancements of eFIN in pushing the boundaries of holographic imaging for various applications in e.g., quantitative phase imaging and label-free microscopy.
翻訳日:2023-01-10 16:22:14 公開日:2023-01-09
# 金融におけるエンティティレベルの感情分類のための事前学習言語モデルからの非定常知識の除去

Removing Non-Stationary Knowledge From Pre-Trained Language Models for Entity-Level Sentiment Classification in Finance ( http://arxiv.org/abs/2301.03136v1 )

ライセンス: Link先を確認
Guijin Son, Hanwool Lee, Nahyeon Kang, Moonjeong Hahm(参考訳) ニューステキスト、株価掲示板、事業報告から感情信号を抽出し、株価の動きを予測することは、金融への関心が高まりつつある。 過去の文献に基づいて、最も最近の研究は、アスペクトレベルの感情分類(ASC)を導入して、複雑な構文構造を持つ文からの感情をよりよく捉えようとするものである。 しかし、関心が高まりつつも、注釈付き財務データ不足のため、英語以外の文献では微粒な感情分析が完全には研究されていない。 したがって、非英語言語は、異なるドメイン、言語、タスクのデータセットと事前訓練された言語モデル(PLM)を最大限に活用する必要がある。 韓国語における金融特化ASC研究を促進するために,12,613人の注釈付きサンプルからなる金融用アスペクトレベル感情分類データセットKorFinASCを構築し,中間転写学習の方法を探る。 本実験は, PLMの予測能力を過大評価している, トレーニング期間中に符号化された金融機関の潜在的な誤った知識について, 過去の研究は無知であったことを示唆している。 本研究では,これまで正しかったが変化しそうな情報を「非定常知識」と表現し,plmがこの種の知識を推測することを制限した新しいマスキングパターン「tgt-masking」を提示する。 最後に,tgt-maskingを用いた一連のトランスファー学習により,korfinascのスタンドアロンモデルと比較して,分類精度が22.63%向上した。

Extraction of sentiment signals from news text, stock message boards, and business reports, for stock movement prediction, has been a rising field of interest in finance. Building upon past literature, the most recent works attempt to better capture sentiment from sentences with complex syntactic structures by introducing aspect-level sentiment classification (ASC). Despite the growing interest, however, fine-grained sentiment analysis has not been fully explored in non-English literature due to the shortage of annotated finance-specific data. Accordingly, it is necessary for non-English languages to leverage datasets and pre-trained language models (PLM) of different domains, languages, and tasks to best their performance. To facilitate finance-specific ASC research in the Korean language, we build KorFinASC, a Korean aspect-level sentiment classification dataset for finance consisting of 12,613 human-annotated samples, and explore methods of intermediate transfer learning. Our experiments indicate that past research has been ignorant towards the potentially wrong knowledge of financial entities encoded during the training phase, which has overestimated the predictive power of PLMs. In our work, we use the term "non-stationary knowledge'' to refer to information that was previously correct but is likely to change, and present "TGT-Masking'', a novel masking pattern to restrict PLMs from speculating knowledge of the kind. Finally, through a series of transfer learning with TGT-Masking applied we improve 22.63% of classification accuracy compared to standalone models on KorFinASC.
翻訳日:2023-01-10 16:16:27 公開日:2023-01-09
# サブステーションパトロール検査のためのタスク指向セマンティック画像通信システム

A Specific Task-oriented Semantic Image Communication System for substation patrol inspection ( http://arxiv.org/abs/2301.03331v1 )

ライセンス: Link先を確認
Senran Fan, Haotai Liang, Chen Dong, Xiaodong Xu, Geng Liu(参考訳) インテリジェント検査ロボットは変電所のパトロール検査に広く使われており、変電所のパトロールや現場画像の送信によって潜在的な安全上の危険をチェックできる。 しかし、弱い信号で限界領域をパトロールする場合、シーンイメージを余分に送信して隠れた危険を排除できないため、ロボットの日常作業の質が大幅に低下する。 このような問題を解決するため,Imag-STSCIのタスク指向セマンティックコミュニケーションシステムを設計し,弱い信号下での知的ロボットがより鮮明な画像を得るための意味的特徴抽出,伝達,復元,拡張を行う。 このようなサブステーションパトロールインスペクションタスクにおいて、画像の特定の詳細しか必要とせず、低ビットレートや低信号-雑音比の状況に直面した場合に、重要な意味情報の明確性を確保するために、そのような特定のタスクにおける意味的拡張の新しいパラダイムを提案する。 実環境下でのシミュレーションにより,stisciは,低信号対雑音比でも低ビットレートの変電所パトロール検査タスクにおいて,従来の画像圧縮方式やチャネルコーディング方式,その他の意味的通信システムを上回ることを実証した。

Intelligent inspection robots are widely used in substation patrol inspection, which can help check potential safety hazards by patrolling the substation and sending back scene images. However, when patrolling some marginal areas with weak signal, the scene images cannot be sucessfully transmissted to be used for hidden danger elimination, which greatly reduces the quality of robots'daily work. To solve such problem, a Specific Task-oriented Semantic Communication System for Imag-STSCI is designed, which involves the semantic features extraction, transmission, restoration and enhancement to get clearer images sent by intelligent robots under weak signals. Inspired by that only some specific details of the image are needed in such substation patrol inspection task, we proposed a new paradigm of semantic enhancement in such specific task to ensure the clarity of key semantic information when facing a lower bit rate or a low signal-to-noise ratio situation. Across the reality-based simulation, experiments show our STSCI can generally surpass traditional image-compression-based and channel-codingbased or other semantic communication system in the substation patrol inspection task with a lower bit rate even under a low signal-to-noise ratio situation.
翻訳日:2023-01-10 16:15:40 公開日:2023-01-09
# ancilia: 物の人工知能のためのスケーラブルなインテリジェントビデオ監視

Ancilia: Scalable Intelligent Video Surveillance for the Artificial Intelligence of Things ( http://arxiv.org/abs/2301.03561v1 )

ライセンス: Link先を確認
Armin Danesh Pazho, Christopher Neff, Ghazal Alinezhad Noghre, Babak Rahimi Ardabili, Shanle Yao, Mohammadreza Baharani, Hamed Tabkhi(参考訳) 視覚ベースの人工知能の進歩、モノのインターネット接続カメラの普及、迅速で公平なセキュリティに対する社会的必要性の高まりにより、正確なリアルタイムインテリジェントな監視の必要性は決して高まらなかった。 この記事では、人工知能のためのエンドツーエンドのスケーラブルでインテリジェントなビデオ監視システムAnciliaを紹介する。 Anciliaは、倫理的懸念を尊重し、リアルタイムにハイレベルな認知タスクを実行しながら、最先端の人工知能を現実世界の監視アプリケーションにもたらす。 Anciliaは、監視の環境に革命をもたらし、より効果的で知性があり、公平なセキュリティを現場に持ち込み、人々がプライバシーの権利を侵害することなく、より安全で安全なコミュニティを実現することを目指している。

With the advancement of vision-based artificial intelligence, the proliferation of the Internet of Things connected cameras, and the increasing societal need for rapid and equitable security, the demand for accurate real-time intelligent surveillance has never been higher. This article presents Ancilia, an end-to-end scalable, intelligent video surveillance system for the Artificial Intelligence of Things. Ancilia brings state-of-the-art artificial intelligence to real-world surveillance applications while respecting ethical concerns and performing high-level cognitive tasks in real-time. Ancilia aims to revolutionize the surveillance landscape, to bring more effective, intelligent, and equitable security to the field, resulting in safer and more secure communities without requiring people to compromise their right to privacy.
翻訳日:2023-01-10 16:15:17 公開日:2023-01-09
# VQNet 2.0: 古典と量子を統一する新しい世代の機械学習フレームワーク

VQNet 2.0: A New Generation Machine Learning Framework that Unifies Classical and Quantum ( http://arxiv.org/abs/2301.03251v1 )

ライセンス: Link先を確認
Huanyu Bian, Zhilong Jia, Menghan Dou, Yuan Fang, Lei Li, Yiming Zhao, Hanchao Wang, Zhaohui Zhou, Wei Wang, Wenyu Zhu, Ye Li, Yang Yang, Weiming Zhang, Nenghai Yu, Zhaoyun Chen, Guoping Guo(参考訳) 古典的および量子的機械学習の急速な発展に伴い、多くの機械学習フレームワークが提案されている。 しかしながら、既存の機械学習フレームワークは通常、両方ではなく、古典的または量子的にのみフォーカスする。 したがって、VQNet 1.0をベースとして、ハイブリッド最適化をサポートする統一古典的量子機械学習フレームワークであるVQNet 2.0を提案する。 フレームワークの中核となるライブラリはC++で実装され、ユーザレベルはPythonで実装され、量子および古典的なハードウェアへのデプロイをサポートする。 本稿では、次世代機械学習フレームワークの開発動向を分析し、vqnet 2.0の設計原則である統一性、実用性、効率性、互換性を詳細に紹介する。 本稿では、古典的畳み込みニューラルネットワーク、量子オートエンコーダ、ハイブリッド古典量子ネットワークなど、いくつかの基本的な応用を通してVQNet 2.0の機能を説明する。 その後、広範囲な実験により、VQNet 2.0の動作速度が比較法よりも高いことを示す。 最後に、VQNet 2.0が様々なハードウェアプラットフォームにデプロイ可能であることを実証し、全体的な計算速度が比較法よりも速いことを示した。 また、複数の量子コンピューティングライブラリからなる量子回路と混合して最適化することもできる。

With the rapid development of classical and quantum machine learning, a large number of machine learning frameworks have been proposed. However, existing machine learning frameworks usually only focus on classical or quantum, rather than both. Therefore, based on VQNet 1.0, we further propose VQNet 2.0, a new generation of unified classical and quantum machine learning framework that supports hybrid optimization. The core library of the framework is implemented in C++, and the user level is implemented in Python, and it supports deployment on quantum and classical hardware. In this article, we analyze the development trend of the new generation machine learning framework and introduce the design principles of VQNet 2.0 in detail: unity, practicality, efficiency, and compatibility, as well as full particulars of implementation. We illustrate the functions of VQNet 2.0 through several basic applications, including classical convolutional neural networks, quantum autoencoders, hybrid classical-quantum networks, etc. After that, through extensive experiments, we demonstrate that the operation speed of VQNet 2.0 is higher than the comparison method. Finally, through extensive experiments, we demonstrate that VQNet 2.0 can deploy on different hardware platforms, the overall calculation speed is faster than the comparison method. It also can be mixed and optimized with quantum circuits composed of multiple quantum computing libraries.
翻訳日:2023-01-10 16:15:02 公開日:2023-01-09
# 室内軌道データからの行動認識のための半教師付きアプローチ

A Semi-supervised Approach for Activity Recognition from Indoor Trajectory Data ( http://arxiv.org/abs/2301.03134v1 )

ライセンス: Link先を確認
Mashud Rana, Ashfaqur Rahman, and Daniel Smith(参考訳) 位置認識センサーがますます広く使われるようになり、様々な応用領域で大量の軌道データを収集できるようになった。 機械学習は、そのような軌道データと豊富な時空間情報を用いて、移動物体(例えば、人間、車両、ロボット)の行動や行動を研究することで、インフォームド戦略や運用上の意思決定を容易にする。 本研究では, 協調生産環境において, 騒音の多い室内軌道データから移動物体の動作を分類する作業を検討する。 活動認識は、製造業者が適切な経営方針を策定し、安全、生産性、効率を最適化するのに役立つ。 まず,物体が各セグメント内で均質な振る舞いを示すようなセグメントに長い軌道を分割するために,情報理論的基準を適用した半教師付き機械学習手法を提案する。 セグメントは制約付き階層クラスタリング法に基づいて自動的にラベル付けされる。 最後に、畳み込みニューラルネットワークに基づくディープラーニング分類モデルを、軌道セグメントと生成された擬似ラベルに基づいて訓練する。 提案手法は,三輪組立ワークショップから収集した複数の作業員の屋内軌跡を含むデータセットを用いて評価された。 提案手法は,少数のラベル付き軌道セグメントのみを用いて,高い分類精度(Fスコアは異なる軌道に対して0.81から0.95まで異なる)を実現する。

The increasingly wide usage of location aware sensors has made it possible to collect large volume of trajectory data in diverse application domains. Machine learning allows to study the activities or behaviours of moving objects (e.g., people, vehicles, robot) using such trajectory data with rich spatiotemporal information to facilitate informed strategic and operational decision making. In this study, we consider the task of classifying the activities of moving objects from their noisy indoor trajectory data in a collaborative manufacturing environment. Activity recognition can help manufacturing companies to develop appropriate management policies, and optimise safety, productivity, and efficiency. We present a semi-supervised machine learning approach that first applies an information theoretic criterion to partition a long trajectory into a set of segments such that the object exhibits homogeneous behaviour within each segment. The segments are then labelled automatically based on a constrained hierarchical clustering method. Finally, a deep learning classification model based on convolutional neural networks is trained on trajectory segments and the generated pseudo labels. The proposed approach has been evaluated on a dataset containing indoor trajectories of multiple workers collected from a tricycle assembly workshop. The proposed approach is shown to achieve high classification accuracy (F-score varies between 0.81 to 0.95 for different trajectories) using only a small proportion of labelled trajectory segments.
翻訳日:2023-01-10 16:13:32 公開日:2023-01-09
# 電子商取引マーケティングにおける外見的な顧客発見

Finding Lookalike Customers for E-Commerce Marketing ( http://arxiv.org/abs/2301.03147v1 )

ライセンス: Link先を確認
Yang Peng, Changzheng Liu, Wei Shen(参考訳) 顧客中心のマーケティングキャンペーンは、walmartのeコマースウェブサイトのトラフィックの大部分を生み出している。 顧客データの規模が大きくなるにつれて、より多くの顧客にリーチするためのマーケティングのオーディエンスの拡大は、eコマース企業にとってビジネスの成長を促進し、顧客により多くの価値をもたらすことがますます重要になっている。 本稿では,数億人の顧客に対応可能な,ターゲットとするマーケティングキャンペーンのオーディエンスを拡大するための,スケーラブルで効率的なシステムを提案する。 深層学習に基づく埋め込みモデルを用いて顧客を表現し、近隣の検索手法を用いて興味のある顧客を素早く見つける。 このモデルは、解釈可能で意味のある顧客類似度メトリクスを構築することで、さまざまなビジネス上の関心事を扱うことができる。 システムと顧客埋め込みモデルの優れた性能を実証するために、広範な実験を行う。

Customer-centric marketing campaigns generate a large portion of e-commerce website traffic for Walmart. As the scale of customer data grows larger, expanding the marketing audience to reach more customers is becoming more critical for e-commerce companies to drive business growth and bring more value to customers. In this paper, we present a scalable and efficient system to expand targeted audience of marketing campaigns, which can handle hundreds of millions of customers. We use a deep learning based embedding model to represent customers and an approximate nearest neighbor search method to quickly find lookalike customers of interest. The model can deal with various business interests by constructing interpretable and meaningful customer similarity metrics. We conduct extensive experiments to demonstrate the great performance of our system and customer embedding model.
翻訳日:2023-01-10 16:13:10 公開日:2023-01-09
# ランダム報酬を用いたモデルベース強化学習の探索

Exploration in Model-based Reinforcement Learning with Randomized Reward ( http://arxiv.org/abs/2301.03142v1 )

ライセンス: Link先を確認
Lingxiao Wang and Ping Li(参考訳) モデルベース強化学習(MBRL)はそのサンプル効率のために広く適用されている。 しかし、既存の最悪の後悔分析では概して楽観的な計画が必要であり、概して現実的ではない。 対照的に、この理論に動機づけられた実証的な研究は、様々なテスト環境で最先端のパフォーマンスを達成するモデルのアンサンブルを利用する。 このような理論と経験的研究の偏りは、ランダム化されたモデルアンサンブルが楽観主義を保証しているかどうかを疑問にさせる。 本稿は,MBRLによる探索の方向である報酬ランダム化の観点から,このような疑問に部分的に答える。 我々は、カーネル化された線形レギュレータ(KNR)モデルの下では、報酬ランダム化は部分的な楽観主義を保証し、相互作用の数の観点からは、ほぼ最適に近い最悪の後悔をもたらすことを示す。 さらに,この理論を一般化関数近似に拡張し,報酬ランダム化条件を同定し,効率的な探索を実現する。 そこで本研究では,効率的な報酬ランダム化の具体例を提案する。 我々の知る限りでは、関数近似を用いたランダム化mbrlの最悪の場合の後悔分析を初めて確立する。

Model-based Reinforcement Learning (MBRL) has been widely adapted due to its sample efficiency. However, existing worst-case regret analysis typically requires optimistic planning, which is not realistic in general. In contrast, motivated by the theory, empirical study utilizes ensemble of models, which achieve state-of-the-art performance on various testing environments. Such deviation between theory and empirical study leads us to question whether randomized model ensemble guarantee optimism, and hence the optimal worst-case regret? This paper partially answers such question from the perspective of reward randomization, a scarcely explored direction of exploration with MBRL. We show that under the kernelized linear regulator (KNR) model, reward randomization guarantees a partial optimism, which further yields a near-optimal worst-case regret in terms of the number of interactions. We further extend our theory to generalized function approximation and identified conditions for reward randomization to attain provably efficient exploration. Correspondingly, we propose concrete examples of efficient reward randomization. To the best of our knowledge, our analysis establishes the first worst-case regret analysis on randomized MBRL with function approximation.
翻訳日:2023-01-10 16:06:00 公開日:2023-01-09
# 風力タービンにおける上向き雷 : 大規模気象学からのリスク評価

Upward lightning at wind turbines: Risk assessment from larger-scale meteorology ( http://arxiv.org/abs/2301.03360v1 )

ライセンス: Link先を確認
Isabell Stucke, Deborah Morgenstern, Thorsten Simon, Georg J. Mayr, Achim Zeileis, Gerhard Diendorfer, Wolfgang Schulz, Hannes Pichler(参考訳) 上向きの雷 (UL) は風力タービンにとってますます重要な脅威となっている。 風力タービンが高ければ高いほど、人造構造体に衝突する雷の種類はULである。 ULは、長い持続する初期電流により雷放電過程内で大きな電荷移動をもたらすため、下向きの雷よりもはるかに破壊的である。 風力タービンにおける雷害リスク評価の現在の基準は、主にLSSから推定される夏の雷害を考慮に入れている。 ground truth lightning current measurementは、ulの50%未満がlightning location systems (lls) によって検出される可能性があることを示している。 このことは、寒冷期には雷が主流であった風力タービンにおけるLSS非検出可能なULの割合を大きく過小評価することにつながる。 本研究の目的は、ガイスベルク塔(オーストリア)とS\antis Tower(スウィッツァーランド)で直接UL測定を行い、風力タービンにおけるLSS検出可能およびLSS検出不能ULのリスクを評価することである。 直接UL観測は気象学的再分析データと関連付けられ、強力な機械学習技術であるランダム森林と結合する。 LLS検出不可能かつLSS検出不能なULの非発生要因は、塔で訓練されたランダムな森林モデルから明らかであり、独立したデータに対する予測能力が高い。 第2段階では、塔で訓練されたモデルの結果は、より大きな研究領域(中央ドイツと北ドイツ)に拡張される。 LLS検出可能な雷の塔で訓練されたモデルは、その領域内の風力タービンで独立に検証され、そのタイプのULを確実に診断することが判明した。 ケーススタディイベントに基づくリスクマップは、研究領域における高い診断確率が実際のULイベントと一致することを示している。

Upward lightning (UL) has become an increasingly important threat to wind turbines as ever more of them are being installed for renewably producing electricity. The taller the wind turbine the higher the risk that the type of lightning striking the man-made structure is UL. UL can be much more destructive than downward lightning due to its long lasting initial continuous current leading to a large charge transfer within the lightning discharge process. Current standards for the risk assessment of lightning at wind turbines mainly take the summer lightning activity into account, which is inferred from LLS. Ground truth lightning current measurements reveal that less than 50% of UL might be detected by lightning location systems (LLS). This leads to a large underestimation of the proportion of LLS-non-detectable UL at wind turbines, which is the dominant lightning type in the cold season. This study aims to assess the risk of LLS-detectable and LLS-non-detectable UL at wind turbines using direct UL measurements at the Gaisberg Tower (Austria) and S\"antis Tower (Switzerland). Direct UL observations are linked to meteorological reanalysis data and joined by random forests, a powerful machine learning technique. The meteorological drivers for the non-/occurrence of LLS-detectable and LLS-non-detectable UL, respectively, are found from the random forest models trained at the towers and have large predictive skill on independent data. In a second step the results from the tower-trained models are extended to a larger study domain (Central and Northern Germany). The tower-trained models for LLS-detectable lightning is independently verified at wind turbine locations in that domain and found to reliably diagnose that type of UL. Risk maps based on case study events show that high diagnosed probabilities in the study domain coincide with actual UL events.
翻訳日:2023-01-10 16:05:42 公開日:2023-01-09
# 自然データストリームから学ぶための課題について

On the challenges to learn from Natural Data Streams ( http://arxiv.org/abs/2301.03495v1 )

ライセンス: Link先を確認
Guido Borghi, Gabriele Graffieti and Davide Maltoni(参考訳) 実世界の状況では、データは、ストリーミングの性質、バランスのとれない分布、長いフレーム上のデータドリフト、短い時間範囲のサンプルの強い相関によって特徴付けられる、自然データストリーム形式で利用可能になることがある。 さらに、従来のトレーニングとデプロイメントフェーズの明確な分離は通常欠如しています。 このデータ組織と成果は、従来の機械学習アルゴリズムとインクリメンタル学習エージェント、すなわち過去の経験を通じて知識を漸進的に改善する能力を持つエージェントの両方にとって、興味深い、挑戦的なシナリオである。 本稿では,入力自然データストリームを学習する様々な研究分野(連続,ストリーミング,オンライン学習など)に属する様々なアルゴリズムの分類性能について検討する。 実験的な検証は3つの異なるデータセットで行われ、この困難な設定を再現するために明確に構成されている。

In real-world contexts, sometimes data are available in form of Natural Data Streams, i.e. data characterized by a streaming nature, unbalanced distribution, data drift over a long time frame and strong correlation of samples in short time ranges. Moreover, a clear separation between the traditional training and deployment phases is usually lacking. This data organization and fruition represents an interesting and challenging scenario for both traditional Machine and Deep Learning algorithms and incremental learning agents, i.e. agents that have the ability to incrementally improve their knowledge through the past experience. In this paper, we investigate the classification performance of a variety of algorithms that belong to various research field, i.e. Continual, Streaming and Online Learning, that receives as training input Natural Data Streams. The experimental validation is carried out on three different datasets, expressly organized to replicate this challenging setting.
翻訳日:2023-01-10 16:04:17 公開日:2023-01-09
# 抑うつ検出のための機械学習アルゴリズムとその比較

Machine Learning Algorithms for Depression Detection and Their Comparison ( http://arxiv.org/abs/2301.03222v1 )

ライセンス: Link先を確認
Danish Muzafar, Furqan Yaqub Khan, Mubashir Qayoom(参考訳) テキスト的感情知性は、ソーシャルメディアプラットフォーム上で人間の感情を活用する上で、ユビキタスに重要な役割を担っている。 ソーシャルメディアプラットフォームには感情的なコンテンツが特権化されており、意見マイニング、感情マイニング、感情分析など様々な目的で活用されている。 このデータ分析は、ソーシャルメディア利用者のオンラインいじめ、自殺防止、抑うつ検出の防止にも利用される。 本稿では,ソーシャルメディア利用者の行動を分析することで,オンラインソーシャルメディア利用者の自動抑うつ検出を設計した。 デザインされたうつ病検出分類は、ユーザのソーシャルメディアインタラクションのマイニングに効果的に使用することができ、ソーシャルメディアユーザーがうつ病に苦しんでいるかを判断することができる。 基礎となる分類器は、LSTM(Long Short Term Memory)やその他の機械学習分類器を含む感情人工知能の最先端技術を用いて作られている。 分類器の最高精度はLSTMの約70%であり、SVMの最高精度は81.79%である。 感情マイニングタスクの文献で広く使われているデータセットで分類器を訓練した。 結果の混乱行列も与えられる。

Textual emotional intelligence is playing a ubiquitously important role in leveraging human emotions on social media platforms. Social media platforms are privileged with emotional content and are leveraged for various purposes like opinion mining, emotion mining, and sentiment analysis. This data analysis is also levered for the prevention of online bullying, suicide prevention, and depression detection among social media users. In this article, we have designed an automatic depression detection of online social media users by analyzing their social media behavior. The designed depression detection classification can be effectively used to mine user's social media interactions and one can determine whether a social media user is suffering from depression or not. The underlying classifier is made using state-of-art technology in emotional artificial intelligence which includes LSTM (Long Short Term Memory) and other machine learning classifiers. The highest accuracy of the classifier is around 70% of LSTM and for SVM the highest accuracy is 81.79%. We trained the classifier on the datasets that are widely used in literature for emotion mining tasks. A confusion matrix of results is also given.
翻訳日:2023-01-10 15:58:05 公開日:2023-01-09
# 教師付き機械学習とBERTモデルを用いたオンラインフェイクレビュー検出

Online Fake Review Detection Using Supervised Machine Learning And BERT Model ( http://arxiv.org/abs/2301.03225v1 )

ライセンス: Link先を確認
Abrar Qadir Mir, Furqan Yaqub Khan, Mohammad Ahsan Chishti(参考訳) オンラインショッピングはここ数年で着実に成長している。 これらの事業の大規模な成長により、偽レビューの検出が注目を集めている。 偽レビューは顧客を誤解し、オンラインショッピング環境の誠実さと信頼性を損なおうとしている。 これまでのところ、レビューの内容を考慮して、様々な偽レビュー分類器が提案されている。 既存の偽レビュー分類や検出手法の精度を向上させるために,テキストから単語埋め込みを抽出するためにbert(bidirectional encoder representation from transformers)モデルを提案する。 単語埋め込みは、SVM(Support vector machine)、ランダムフォレスト(Random Forests)、ネイブベイズ(Naive Bayes)など、様々な基本的な手法で得られる。 また, 混乱行列法を用いて結果を評価し, 図式的に表現した。 その結果、SVM分類器は他の分類器よりも精度が良く、f1スコアは87.81%であり、前回の調査で用いた分類器より7.6%高いことが示唆された。

Online shopping stores have grown steadily over the past few years. Due to the massive growth of these businesses, the detection of fake reviews has attracted attention. Fake reviews are seriously trying to mislead customers and thereby undermine the honesty and authenticity of online shopping environments. So far, various fake review classifiers have been proposed that take into account the actual content of the review. To improve the accuracies of existing fake review classification or detection approaches, we propose to use BERT (Bidirectional Encoder Representation from Transformers) model to extract word embeddings from texts (i.e. reviews). Word embeddings are obtained in various basic methods such as SVM (Support vector machine), Random Forests, Naive Bayes, and others. The confusion matrix method was also taken into account to evaluate and graphically represent the results. The results indicate that the SVM classifiers outperform the others in terms of accuracy and f1-score with an accuracy of 87.81%, which is 7.6% higher than the classifier used in the previous study [5].
翻訳日:2023-01-10 15:57:38 公開日:2023-01-09
# AI2: ネイティブ言語と説明可能な機械学習フレームワークへの次の飛躍

AI2: The next leap toward native language based and explainable machine learning framework ( http://arxiv.org/abs/2301.03391v1 )

ライセンス: Link先を確認
Jean-S\'ebastien Dessureault, Daniel Massicotte(参考訳) 機械学習フレームワークは過去数十年で繁栄し、人工知能が学術的サークルから抜け出し、エンタープライズドメインに適用できるようになった。 この分野はかなり進歩しているが、その後の期待に到達するための有意義な改善がまだある。 提案されたフレームワークは ai$^{2}$ と呼ばれ、非専門家が必ずしもプログラミング言語でプログラミングする方法を知らずに機械学習アルゴリズムの恩恵を受けることができる自然言語インターフェイスを使用している。 ai$^{2}$フレームワークの主な貢献により、ユーザーは英語で機械学習アルゴリズムを呼び出すことができ、インターフェイスの使用が容易になる。 第2の貢献は温室効果ガス(GHG)の認識である。 呼び出すアルゴリズムによって生成されるGHGを評価するための戦略と、エネルギー集約アルゴリズムを実行することなく解を見つける代替案を提案する戦略がある。 もう1つの貢献は、データを適切に記述し読み込むのに役立つプリプロセッシングモジュールである。 このモジュールは、英語のテキストベースのチャットボットを使用して、ユーザがすべてのデータセットを適切に記述、正規化、ロード、分割できるように定義する。 この論文の最後の貢献は説明可能性に関するものである。 何十年もの間、科学界は機械学習アルゴリズムが有名なブラックボックス問題を意味することを知っていた。 従来の機械学習手法は、結果を正当化せずに入力を出力に変換する。 提案するフレームワークは、適切なテキスト、グラフィック、テーブルでアルゴリズムのプロセスを説明する。 その結果,5例で減少し,ユーザの英語コマンドから説明結果への使用例が得られた。 最終的に、AI$^{2}$フレームワークは、マシンラーニングフレームワークに関するネイティブ言語ベースのヒューマン指向の懸念への次の飛躍を表している。

The machine learning frameworks flourished in the last decades, allowing artificial intelligence to get out of academic circles to be applied to enterprise domains. This field has significantly advanced, but there is still some meaningful improvement to reach the subsequent expectations. The proposed framework, named AI$^{2}$, uses a natural language interface that allows a non-specialist to benefit from machine learning algorithms without necessarily knowing how to program with a programming language. The primary contribution of the AI$^{2}$ framework allows a user to call the machine learning algorithms in English, making its interface usage easier. The second contribution is greenhouse gas (GHG) awareness. It has some strategies to evaluate the GHG generated by the algorithm to be called and to propose alternatives to find a solution without executing the energy-intensive algorithm. Another contribution is a preprocessing module that helps to describe and to load data properly. Using an English text-based chatbot, this module guides the user to define every dataset so that it can be described, normalized, loaded and divided appropriately. The last contribution of this paper is about explainability. For decades, the scientific community has known that machine learning algorithms imply the famous black-box problem. Traditional machine learning methods convert an input into an output without being able to justify this result. The proposed framework explains the algorithm's process with the proper texts, graphics and tables. The results, declined in five cases, present usage applications from the user's English command to the explained output. Ultimately, the AI$^{2}$ framework represents the next leap toward native language-based, human-oriented concerns about machine learning framework.
翻訳日:2023-01-10 15:49:26 公開日:2023-01-09
# 単眼深度推定のためのニューラルネットワーク構造の一般性に関する研究

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation ( http://arxiv.org/abs/2301.03169v1 )

ライセンス: Link先を確認
Jinwoo Bae and Kyumin Hwang and Sunghoon Im(参考訳) 単眼深度推定は広く研究されており、近年は性能が大幅に向上している。 しかしながら、KITTIデータセットのようないくつかのベンチマークデータセットで以前の研究が評価されており、いずれの論文も単眼深度推定の一般化性能の詳細な分析を提供していない。 本稿では,単眼深度推定の一般化に向けて,様々なバックボーンネットワーク(cnnやトランスフォーマモデルなど)について深く検討する。 まず,ネットワークトレーニング中に一度も見られなかった分布内および分布外両方のモデルを評価する。 次に,合成テクスチャシフトデータセットを用いて,cnn/トランスフォーマモデル中間層からの表現の内部特性について検討する。 広範な実験により,トランスフォーマーは強いテクスチャバイアスを持つCNNよりも強い形状バイアスを示すことが明らかとなった。 また,テクスチャバイアスモデルでは,形状バイアスモデルよりも単眼深度推定の一般化性能が劣ることがわかった。 我々は、様々な環境下でキャプチャされた実世界の運転データセットで、同様の側面が観察されることを示した。 最後に,現代の戦略に活用される各種バックボーンネットワークを用いた高密度アブレーション研究を行った。 実験により, cnnの固有局所性とトランスフォーマーの自己付着がテクスチャバイアスと形状バイアスをそれぞれ引き起こすことが示された。

Monocular depth estimation has been widely studied, and significant improvements in performance have been recently reported. However, most previous works are evaluated on a few benchmark datasets, such as KITTI datasets, and none of the works provide an in-depth analysis of the generalization performance of monocular depth estimation. In this paper, we deeply investigate the various backbone networks (e.g.CNN and Transformer models) toward the generalization of monocular depth estimation. First, we evaluate state-of-the-art models on both in-distribution and out-of-distribution datasets, which have never been seen during network training. Then, we investigate the internal properties of the representations from the intermediate layers of CNN-/Transformer-based models using synthetic texture-shifted datasets. Through extensive experiments, we observe that the Transformers exhibit a strong shape-bias rather than CNNs, which have a strong texture-bias. We also discover that texture-biased models exhibit worse generalization performance for monocular depth estimation than shape-biased models. We demonstrate that similar aspects are observed in real-world driving datasets captured under diverse environments. Lastly, we conduct a dense ablation study with various backbone networks which are utilized in modern strategies. The experiments demonstrate that the intrinsic locality of the CNNs and the self-attention of the Transformers induce texture-bias and shape-bias, respectively.
翻訳日:2023-01-10 15:48:21 公開日:2023-01-09
# DeMT:Dense Predictionのマルチタスク学習のための変形可能なミキサー変換器

DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction ( http://arxiv.org/abs/2301.03461v1 )

ライセンス: Link先を確認
Yangyang Xu ang Yibo Yang and Lefei Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーには独自の利点があり、どちらもマルチタスク学習(MTL)における密度予測に広く利用されている。 MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。 本研究では,変形可能なCNNとクエリベースのTransformerを併用した新しいMTLモデルを提案する。 demt(demt)という名前の手法は、単純で効果的なエンコーダ-デコーダアーキテクチャ(つまり、変形可能なミキサエンコーダとタスクアウェアトランスデコーダ)に基づいている。 まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするために利用されたチャネル認識ミキサー演算子(例えば、効率的なチャネル位置ミキシング)と、より情報のある空間位置(例えば、変形特徴)を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識可変形演算子(英語版)の2種類を含む。 第2に、タスク対応トランスフォーマーデコーダは、タスクインタラクションブロックとタスククエリブロックで構成される。 前者は自己注意によってタスクインタラクションの機能をキャプチャするために適用される。 後者は変形した機能とタスクに相互作用した機能を活用し、対応するタスク予測のためのクエリベースのトランスフォーマーを通じて対応するタスク特有の機能を生成する。 2つの高密度画像予測データセット(NYUD-v2とPASCAL-Context)に対する大規模な実験により、我々のモデルはGFLOPを少なくし、現在のTransformerとCNNベースの競合モデルよりも大幅に優れていることが示された。 コードはhttps://github.com/yangyangxu0/DeMT で公開されている。

Convolution neural networks (CNNs) and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer for multi-task learning of dense prediction. Our method, named DeMT, is based on a simple and effective encoder-decoder architecture (i.e., deformable mixer encoder and task-aware transformer decoder). First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels ($i.e.,$ efficient channel location mixing), and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations (i.e., deformed features). Second, the task-aware transformer decoder consists of the task interaction block and task query block. The former is applied to capture task interaction features via self-attention. The latter leverages the deformed features and task-interacted features to generate the corresponding task-specific feature through a query-based Transformer for corresponding task predictions. Extensive experiments on two dense image prediction datasets, NYUD-v2 and PASCAL-Context, demonstrate that our model uses fewer GFLOPs and significantly outperforms current Transformer- and CNN-based competitive models on a variety of metrics. The code are available at https://github.com/yangyangxu0/DeMT .
翻訳日:2023-01-10 15:48:02 公開日:2023-01-09
# MAQA: 否定のためのマルチモーダルQAベンチマーク

MAQA: A Multimodal QA Benchmark for Negation ( http://arxiv.org/abs/2301.03238v1 )

ライセンス: Link先を確認
Judith Yue Li, Aren Jansen, Qingqing Huang, Joonseok Lee, Ravi Ganti, Dima Kuzmin(参考訳) マルチモーダル学習は、事前訓練された大規模言語モデル(LLM)の表現力の恩恵を受けることができる。 しかし、最先端のトランスフォーマーベースのLLMは自然言語の否定を無視することが多く、マルチモーダルトランスフォーマーがこの弱点を継承するかどうかを定量的に評価するベンチマークは存在しない。 本研究では,マルチモーダルトランスフォーマーが従来学習されていた概念の否定として新しい概念を認識するために,複雑な推論を行うことができるかどうかを体系的に評価することを目的として,オーディオセット(gemmeke et al., 2017)のラベル付き音楽ビデオから適応した新しいマルチモーダル質問応答(qa)ベンチマークを提案する。 標準の微調整アプローチでは、マルチモーダルトランスフォーマーはモデルサイズに関係なく、正しく否定を解釈できないことが示されている。 しかし,本実験では,元のトレーニングタスク分布を否定的QA例で拡張することで,否定を確実に推論できることを示した。 そこで本研究では, 540Bパラメータ PaLM モデルに対して, 容易にアクセス可能なビデオタグの合成として, 否定的 QA の例を自動的に生成する新たなデータ生成手法を提案する。 生成された例には、より自然な言語パターンが含まれており、テンプレートベースのタスク拡張アプローチと比較して、利益は大きい。

Multimodal learning can benefit from the representation power of pretrained Large Language Models (LLMs). However, state-of-the-art transformer based LLMs often ignore negations in natural language and there is no existing benchmark to quantitatively evaluate whether multimodal transformers inherit this weakness. In this study, we present a new multimodal question answering (QA) benchmark adapted from labeled music videos in AudioSet (Gemmeke et al., 2017) with the goal of systematically evaluating if multimodal transformers can perform complex reasoning to recognize new concepts as negation of previously learned concepts. We show that with standard fine-tuning approach multimodal transformers are still incapable of correctly interpreting negation irrespective of model size. However, our experiments demonstrate that augmenting the original training task distributions with negated QA examples allow the model to reliably reason with negation. To do this, we describe a novel data generation procedure that prompts the 540B-parameter PaLM model to automatically generate negated QA examples as compositions of easily accessible video tags. The generated examples contain more natural linguistic patterns and the gains compared to template-based task augmentation approach are significant.
翻訳日:2023-01-10 15:40:23 公開日:2023-01-09
# ATM-R:制約付き多目的進化最適化のための基準点付き適応トレードオフモデル

ATM-R: An Adaptive Tradeoff Model with Reference Points for Constrained Multiobjective Evolutionary Optimization ( http://arxiv.org/abs/2301.03317v1 )

ライセンス: Link先を確認
Bing-Chuan Wang, Yunchuan Qin, Xian-Bing Meng, Zhi-Zhong Liu(参考訳) 制約付き多目的進化最適化の目標は、よく収束し、よく分散された実現可能なソリューションの集合を得ることである。 この目標を達成するには、実現可能性、多様性、収束の間にトレードオフがあるべきです。 しかしながら、それぞれの要素の重要性は進化段階によって異なるため、これら3つの要素を単一のトレードオフモデルを用いて同時にバランスさせることは自明ではない。 代替として、異なるフェーズで異なるトレードオフモデルを適用し、ATM-Rと呼ばれる新しいアルゴリズムを提案する。 ATM-Rは,多様性と実現可能性のトレードオフを考慮に入れ,多様な探索方向から実現可能な地域へ人口を移動させることを目的としている。 半実現段階において、ATM-Rは「実現可能性と多様性のトレードオフ」から「多様性と収束のトレードオフ」への移行を促進し、十分な実現可能な領域の発見を容易にし、実現可能なパレト・オプティマの探索を高速化する。 実現可能なフェーズでは、多様性と収束の間のトレードオフは、よく収束し、よく分散された実現可能なソリューションの集合に達すると考えられる。 これらのトレードオフモデルを達成するために、ATM-Rで参照ポイントの利点を活用できることは注目に値する。 また、ATM-Rでは、異なる進化相に有用な有望な解を生成するため、多相マッチング選択戦略が開発されている。 幅広いベンチマークテスト関数のシステム実験により、ATM-Rは5つの最先端制約付き多目的最適化アルゴリズムと比較して効率的かつ競合的であることが示された。

The goal of constrained multiobjective evolutionary optimization is to obtain a set of well-converged and welldistributed feasible solutions. To complete this goal, there should be a tradeoff among feasibility, diversity, and convergence. However, it is nontrivial to balance these three elements simultaneously by using a single tradeoff model since the importance of each element varies in different evolutionary phases. As an alternative, we adapt different tradeoff models in different phases and propose a novel algorithm called ATM-R. In the infeasible phase, ATM-R takes the tradeoff between diversity and feasibility into account, aiming to move the population toward feasible regions from diverse search directions. In the semi-feasible phase, ATM-R promotes the transition from "the tradeoff between feasibility and diversity" to "the tradeoff between diversity and convergence", which can facilitate the discovering of enough feasible regions and speed up the search for the feasible Pareto optima in succession. In the feasible phase, the tradeoff between diversity and convergence is considered to attain a set of well-converged and well-distributed feasible solutions. It is worth noting that the merits of reference points are leveraged in ATM-R to accomplish these tradeoff models. Also, in ATM-R, a multiphase mating selection strategy is developed to generate promising solutions beneficial to different evolutionary phases. Systemic experiments on a wide range of benchmark test functions demonstrate that ATM-R is effective and competitive, compared against five state-of-the-art constrained multiobjective optimization evolutionary algorithms.
翻訳日:2023-01-10 15:39:43 公開日:2023-01-09
# FullStop:オランダ語変圧器のゆらぎとセグメンテーション予測

FullStop:Punctuation and Segmentation Prediction for Dutch with Transformers ( http://arxiv.org/abs/2301.03319v1 )

ライセンス: Link先を確認
Vincent Vandeghinste, Oliver Guhr(参考訳) ベルギーのオランダ語 (van dyck et al. 2021) に自動音声認識 (asr) を適用すると、その出力は句読点のない、意味のない単語のストリームで構成される。 次のステップはセグメンテーションを実行し、句読点を挿入することで、ASR出力をより読みやすく手動で修正しやすくする。 私たちが知る限り、利用可能なレベルで機能するオランダ語の句読点挿入システムは存在しない。 ここで紹介するモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。 オランダ語モデルRobBERT(Delobelle et al. 2020)に基づいてシーケンス分類モデルを訓練した。 入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。 また、言語が不明な場合や、コードが切り替えられる場合など、多言語モデルを拡張しました。 セグメンテーションのタスクを行う際には、ドメインテストデータからベストモデルの応用を行い、ASR出力ストリームの200ワードのスライディングウィンドウを分類器に送信し、システムがしきい値以上のセグメンテーション句読点を予測する際にセグメンテーションを適用する。 結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。

When applying automated speech recognition (ASR) for Belgian Dutch (Van Dyck et al. 2021), the output consists of an unsegmented stream of words, without any punctuation. A next step is to perform segmentation and insert punctuation, making the ASR output more readable and easy to manually correct. As far as we know there is no publicly available punctuation insertion system for Dutch that functions at a usable level. The model we present here is an extension of the models of Guhr et al. (2021) for Dutch and is made publicly available. We trained a sequence classification model, based on the Dutch language model RobBERT (Delobelle et al. 2020). For every word in the input sequence, the models predicts a punctuation marker that follows the word. We have also extended a multilingual model, for cases where the language is unknown or where code switching applies. When performing the task of segmentation, the application of the best models onto out of domain test data, a sliding window of 200 words of the ASR output stream is sent to the classifier, and segmentation is applied when the system predicts a segmenting punctuation sign with a ratio above threshold. Results show to be much better than a machine translation baseline approach.
翻訳日:2023-01-10 15:37:58 公開日:2023-01-09
# ゼロショット学習による臨床ノートにおける自殺文書同定のための文脈関連性活用

Leveraging Contextual Relatedness to Identify Suicide Documentation in Clinical Notes through Zero Shot Learning ( http://arxiv.org/abs/2301.03531v1 )

ライセンス: Link先を確認
Terri Elizabeth Workman, Joseph L. Goulet, Cynthia A. Brandt, Allison R. Warren, Jacob Eleazer, Melissa Skanderson, Luke Lindemann, John R. Blosnich, John O Leary, Qing Zeng Treitler(参考訳) 臨床ノートにおける電子健康記録データにおける自殺思想,試み,リスク要因などの自殺の特定は困難である。 大きな困難は、スクリーニングされる患者が増えている中で、少数の真の陽性例を考えると、トレーニングサンプルの欠如である。 本稿では,ゼロショット学習を通じて,このデータ空間の問題に対処することにより,臨床ノートの自殺を識別する新しい手法について述べる。 アメリカ退役軍人の臨床記録がデータとなった。 訓練データセットラベルは自殺未遂と自傷の診断符号を用いて決定された。 正のトレーニングケースをそのベースストリングを含むものに狭めることで補助情報を提供するために, 目標のsicidalityラベルに関連付けられたベースストリングを用いた。 トレーニング文書の内容と意味空間をマッピングして,ディープニューラルネットワークを訓練した。 比較のために、同じトレーニングデータセットラベルとback-of-words機能を使用して、別のディープニューラルネットワークをトレーニングした。 ゼロショット学習モデルは、AUC、感度、特異性、正の予測値を複数の確率閾値で比較し、ベースラインモデルを上回った。 この手法は0.90の確率閾値を適用し、自殺率を94%の精度で記録したICD 10 CMコードと関係のないメモを特定した。 本手法は手動のアノテーションを必要とせずに自殺を効果的に識別できる。

Identifying suicidality including suicidal ideation, attempts, and risk factors in electronic health record data in clinical notes is difficult. A major difficulty is the lack of training samples given the small number of true positive instances among the increasingly large number of patients being screened. This paper describes a novel methodology that identifies suicidality in clinical notes by addressing this data sparsity issue through zero-shot learning. U.S. Veterans Affairs clinical notes served as data. The training dataset label was determined using diagnostic codes of suicide attempt and self-harm. A base string associated with the target label of suicidality was used to provide auxiliary information by narrowing the positive training cases to those containing the base string. A deep neural network was trained by mapping the training documents contents to a semantic space. For comparison, we trained another deep neural network using the identical training dataset labels and bag-of-words features. The zero shot learning model outperformed the baseline model in terms of AUC, sensitivity, specificity, and positive predictive value at multiple probability thresholds. In applying a 0.90 probability threshold, the methodology identified notes not associated with a relevant ICD 10 CM code that documented suicidality, with 94 percent accuracy. This new method can effectively identify suicidality without requiring manual annotation.
翻訳日:2023-01-10 15:37:35 公開日:2023-01-09
# 限定スーパービジョンと伴奏外入力による双方向動作言語翻訳の学習

Learning Bidirectional Action-Language Translation with Limited Supervision and Incongruent Extra Input ( http://arxiv.org/abs/2301.03353v1 )

ライセンス: Link先を確認
Ozan \"Ozdemir, Matthias Kerzel, Cornelius Weber, Jae Hee Lee, Muhammad Burhan Hafez, Patrick Bruns, Stefan Wermter(参考訳) 人間の幼児学習は、環境の探索、物体との相互作用、そして教師なしの学習に類似した、さりげなく発話を聴き繰り返すことによって起こる。 時折、学習幼児は、それが犯している行動の一致する言葉による記述を受け取り、これは教師付き学習に似ている。 このような学習メカニズムは、深層学習と模倣することができる。 私たちは、アクションと言語オートエンコーダを組み合わせたペアゲートオートエンコーダ(pgae)モデルを使用して、この弱い教師付き学習パラダイムをモデル化します。 教師付きトレーニングの比率を下げる際の性能低下を観察した後,Transformer を用いた相互注意を用いた Paired Transformed Autoencoders (PTAE) モデルを導入する。 PTAEは言語から行動への翻訳や行動から言語への翻訳において、特に教師付きトレーニングサンプルがほとんどない場合において、はるかに高い精度を達成する。 また、訓練されたモデルが矛盾するマルチモーダル入力と現実的に振る舞うかどうかをテストした。 心理学における矛盾の概念に従って、対立はモデルの出力を悪化させる。 競合するアクションインプットは、言語インプットと競合するよりも深刻な影響を与える。 PTAEはラベル付きデータが乏しく、不連続な入力でテストした場合に妥当な振る舞いをする、ほとんどラベルのないデータでトレーニングすることができる。

Human infant learning happens during exploration of the environment, by interaction with objects, and by listening to and repeating utterances casually, which is analogous to unsupervised learning. Only occasionally, a learning infant would receive a matching verbal description of an action it is committing, which is similar to supervised learning. Such a learning mechanism can be mimicked with deep learning. We model this weakly supervised learning paradigm using our Paired Gated Autoencoders (PGAE) model, which combines an action and a language autoencoder. After observing a performance drop when reducing the proportion of supervised training, we introduce the Paired Transformed Autoencoders (PTAE) model, using Transformer-based crossmodal attention. PTAE achieves significantly higher accuracy in language-to-action and action-to-language translations, particularly in realistic but difficult cases when only few supervised training samples are available. We also test whether the trained model behaves realistically with conflicting multimodal input. In accordance with the concept of incongruence in psychology, conflict deteriorates the model output. Conflicting action input has a more severe impact than conflicting language input, and more conflicting features lead to larger interference. PTAE can be trained on mostly unlabelled data where labeled data is scarce, and it behaves plausibly when tested with incongruent input.
翻訳日:2023-01-10 15:31:04 公開日:2023-01-09
# 論理的にat factify 2023:エビデンス検索技術とトランスフォーマーエンコーダアーキテクチャに基づくマルチモーダルファクトチェックシステム

Logically at Factify 2023: A Multi-Modal Fact Checking System Based on Evidence Retrieval techniques and Transformer Encoder Architecture ( http://arxiv.org/abs/2301.03127v1 )

ライセンス: Link先を確認
Pim Jordi Verschuuren, Jie Gao, Adelize van Eeden, Stylianos Oikonomou and Anil Bandhakavi(参考訳) 本稿では,マルチモーダルファクトチェックタスク1におけるデファクト2チャレンジ(デファクト2023)の論理的な提案について述べる。 本稿では, 証拠検索と選択手法, 事前学習したクロスモーダルモデル, および自己注意の概念に強く依存する, 十分に確立されたトランスフォーマーエンコーダ(TE)アーキテクチャに基づくクロスモーダル妥当性モデルについて述べる。 また,本研究で提案するアーキテクチャを動機づける仮説と有意義なマルチモーダルパターンを明らかにするfactify 2データセットについても探索分析を行った。 様々な事前学習された埋め込みモデル、エビデンス検索設定およびしきい値を調査しベンチマークするために、一連の予備実験が行われた。 最終システムは、標準的な2段階の証拠に基づく精度検出システムであり、重み付けされたavgを生成する。 valセットと最終ブラインドテストの両方で0.79がタスク1に設定され、9人の参加者の間でトップパフォーマンスシステムへのマージンが小さい3位となった。

In this paper, we present the Logically submissions to De-Factify 2 challenge (DE-FACTIFY 2023) on the task 1 of Multi-Modal Fact Checking. We describes our submissions to this challenge including explored evidence retrieval and selection techniques, pre-trained cross-modal and unimodal models, and a cross-modal veracity model based on the well established Transformer Encoder (TE) architecture which is heavily relies on the concept of self-attention. Exploratory analysis is also conducted on this Factify 2 data set that uncovers the salient multi-modal patterns and hypothesis motivating the architecture proposed in this work. A series of preliminary experiments were done to investigate and benchmarking different pre-trained embedding models, evidence retrieval settings and thresholds. The final system, a standard two-stage evidence based veracity detection system, yields weighted avg. 0.79 on both val set and final blind test set on the task 1, which achieves 3rd place with a small margin to the top performing system on the leaderboard among 9 participants.
翻訳日:2023-01-10 15:30:40 公開日:2023-01-09
# 言語理解のためのユニバーサルマルチモーダル表現

Universal Multimodal Representation for Language Understanding ( http://arxiv.org/abs/2301.03344v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao(参考訳) 表現学習は自然言語処理(NLP)の基礎である。 本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。 各文に対して、まず、既存の文-画像対上で抽出された軽トピック-画像検索テーブルや、既成のテキスト-画像対上で事前訓練された共有モード間埋め込み空間から、柔軟な画像を検索する。 そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。 2つの表現列はさらに2つのモードの相互作用の注意層によって融合される。 本研究では,検索プロセスは制御可能で柔軟である。 普遍視覚表現は、大規模なバイリンガル文-画像ペアの欠如を克服する。 本手法は,マルチモーダル並列コーパスを手動でアノテートすることなく,テキストのみのタスクに容易に適用できる。 提案手法は,ニューラルマシン翻訳,自然言語推論,意味的類似性など,幅広い自然言語生成と理解タスクに適用する。 実験の結果,本手法は様々なタスクや言語に一般的に有効であることがわかった。 分析の結果、視覚信号は内容語のテキスト表現を豊かにし、概念と出来事の関係に関するきめ細かい基礎情報を提供し、曖昧さを生じさせる可能性が示唆された。

Representation learning is the foundation of natural language processing (NLP). This work presents new methods to employ visual information as assistant signals to general NLP tasks. For each sentence, we first retrieve a flexible number of images either from a light topic-image lookup table extracted over the existing sentence-image pairs or a shared cross-modal embedding space that is pre-trained on out-of-shelf text-image pairs. Then, the text and images are encoded by a Transformer encoder and convolutional neural network, respectively. The two sequences of representations are further fused by an attention layer for the interaction of the two modalities. In this study, the retrieval process is controllable and flexible. The universal visual representation overcomes the lack of large-scale bilingual sentence-image pairs. Our method can be easily applied to text-only tasks without manually annotated multimodal parallel corpora. We apply the proposed method to a wide range of natural language generation and understanding tasks, including neural machine translation, natural language inference, and semantic similarity. Experimental results show that our method is generally effective for different tasks and languages. Analysis indicates that the visual signals enrich textual representations of content words, provide fine-grained grounding information about the relationship between concepts and events, and potentially conduce to disambiguation.
翻訳日:2023-01-10 15:30:18 公開日:2023-01-09
# ビデオにおける字幕テキスト検出

Cursive Caption Text Detection in Videos ( http://arxiv.org/abs/2301.03164v1 )

ライセンス: Link先を確認
Ali Mirza, Imran Siddiqi(参考訳) ビデオに現れるテキストコンテンツは、ビデオのセマンティック検索(アーカイブから)、警告(ライブストリーム)の生成、意見マイニングやコンテンツの要約といった高度なアプリケーションのための興味深い指標である。 このようなシステムの鍵となる要素の1つは、ビデオフレーム内のテキスト内容の検出であり、本研究の主題となるものも同様である。 本稿では,ビデオフレームに現れるテキストコンテンツを検出するためのロバストな手法を提案する。 より具体的には、urduテキストをケーススタディとして、カーシブスクリプトのテキストをターゲットにしています。 ビデオフレーム内のテキスト領域の検出は、テキスト検出の特定のケースに対する深層畳み込みニューラルネットワークに基づく微調整対象検出器によって行われる。 字幕テキストを複数文字で持つのが一般的であるため、文字識別モジュールを用いてカーシブテキストとラテンテキストを区別する。 最後に、単一のエンドツーエンドトレーサブルシステムにおいて、検出とスクリプト識別を組み合わせる。 約11,000フレームの包括的なデータセットに関する実験では、f-measure は 0.91 である。

Textual content appearing in videos represents an interesting index for semantic retrieval of videos (from archives), generation of alerts (live streams) as well as high level applications like opinion mining and content summarization. One of the key components of such systems is the detection of textual content in video frames and the same makes the subject of our present study. This paper presents a robust technique for detection of textual content appearing in video frames. More specifically we target text in cursive script taking Urdu text as a case study. Detection of textual regions in video frames is carried out by fine-tuning object detectors based on deep convolutional neural networks for the specific case of text detection. Since it is common to have videos with caption text in multiple-scripts, cursive text is distinguished from Latin text using a script-identification module. Finally, detection and script identification are combined in a single end-to-end trainable system. Experiments on a comprehensive dataset of around 11,000 video frames report an F-measure of 0.91.
翻訳日:2023-01-10 15:29:16 公開日:2023-01-09
# シーン:異種グラフニューラルネットワークを用いた交通シーンの推論

SCENE: Reasoning about Traffic Scenes using Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2301.03512v1 )

ライセンス: Link先を確認
Thomas Monninger, Julian Schmidt, Jan Rupprecht, David Raba, Julian Jordan, Daniel Frank, Steffen Staab, Klaus Dietmayer(参考訳) トラフィックシーンを理解するには、動的エージェントと静的インフラストラクチャに関する異種情報を考慮する必要がある。 本研究では、異種グラフにおける多様なトラフィックシーンを符号化し、異種グラフニューラルネットワークエンコーダとタスク固有デコーダを用いてこれらのグラフを推論する手法であるSCENEを提案する。 構造がオントロジーによって定義される異質グラフは、タイプ固有のノード特徴とタイプ固有のエッジ特徴との異なる関係を持つ異なるノードから構成される。 これらのグラフが与える全ての情報を活用するために、グラフ畳み込みのカスケード層を使うように提案する。 その結果がシーンのエンコーディングである。 タスク固有のデコーダは、シーンの望ましい属性を予測するために適用できます。 2つの異なるバイナリノード分類タスクに対する広範囲な評価は、この方法論の主な強みを示している。 様々な知識グラフにおけるノード分類タスクへの我々の方法論のさらなる適用は、他の領域への転送可能性を示している。

Understanding traffic scenes requires considering heterogeneous information about dynamic agents and the static infrastructure. In this work we propose SCENE, a methodology to encode diverse traffic scenes in heterogeneous graphs and to reason about these graphs using a heterogeneous Graph Neural Network encoder and task-specific decoders. The heterogeneous graphs, whose structures are defined by an ontology, consist of different nodes with type-specific node features and different relations with type-specific edge features. In order to exploit all the information given by these graphs, we propose to use cascaded layers of graph convolution. The result is an encoding of the scene. Task-specific decoders can be applied to predict desired attributes of the scene. Extensive evaluation on two diverse binary node classification tasks show the main strength of this methodology: despite being generic, it even manages to outperform task-specific baselines. The further application of our methodology to the task of node classification in various knowledge graphs shows its transferability to other domains.
翻訳日:2023-01-10 15:29:01 公開日:2023-01-09
# バランスはエッセンス:適応的勾配補正によるスパーストレーニングの加速

Balance is Essence: Accelerating Sparse Training via Adaptive Gradient Correction ( http://arxiv.org/abs/2301.03573v1 )

ライセンス: Link先を確認
Bowen Lei, Dongkuan Xu, Ruqi Zhang, Shuren He, Bani K. Mallick(参考訳) さまざまなタスクにおける優れたパフォーマンスにもかかわらず、ディープニューラルネットワークは、リソース制約のあるシナリオでの応用を禁止し、メモリと計算コストを大幅に削減する必要がある。 スパーストレーニングはこれらのコストを削減する最も一般的な手法の1つであるが、スパース制約は最適化に困難をもたらし、トレーニング時間と不安定性が増大する。 本研究では,この問題を克服し,時空協調効率の実現を目指す。 スパーストレーニングの収束を加速・安定化するために,勾配変化を分析し,適応勾配補正法を開発した。 具体的には,2つの勾配のバランスを取って補正勾配を得るために用いられる電流勾配と先行勾配の相関を近似する。 本手法は, 一般的なスパース訓練パイプラインにおいて, 標準と逆の双方で使用することができる。 理論上,本手法はスパーストレーニングの収束速度を加速できることを実証する。 複数のデータセット、モデルアーキテクチャ、スパース性に関する広範囲な実験により、同じトレーニングエポック数を考慮すれば、本手法は、最大で偏ったトレーニングメソッドを最大で \textbf{5.0\%} の精度で上回り、同じ精度を達成するために最大で \textbf{52.1\%} のトレーニングエポック数を減少させることが示された。

Despite impressive performance on a wide variety of tasks, deep neural networks require significant memory and computation costs, prohibiting their application in resource-constrained scenarios. Sparse training is one of the most common techniques to reduce these costs, however, the sparsity constraints add difficulty to the optimization, resulting in an increase in training time and instability. In this work, we aim to overcome this problem and achieve space-time co-efficiency. To accelerate and stabilize the convergence of sparse training, we analyze the gradient changes and develop an adaptive gradient correction method. Specifically, we approximate the correlation between the current and previous gradients, which is used to balance the two gradients to obtain a corrected gradient. Our method can be used with most popular sparse training pipelines under both standard and adversarial setups. Theoretically, we prove that our method can accelerate the convergence rate of sparse training. Extensive experiments on multiple datasets, model architectures, and sparsities demonstrate that our method outperforms leading sparse training methods by up to \textbf{5.0\%} in accuracy given the same number of training epochs, and reduces the number of training epochs by up to \textbf{52.1\%} to achieve the same accuracy.
翻訳日:2023-01-10 15:28:46 公開日:2023-01-09
# 畳み込みネットワークのためのBERTの設計:スパースと階層型マスケッドモデリング

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling ( http://arxiv.org/abs/2301.03580v1 )

ライセンス: Link先を確認
Keyu Tian, Yi Jiang, Qishuai Diao, Chen Lin, Liwei Wang, Zehuan Yuan(参考訳) BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する上での2つの重要な障害を特定し克服する。 (i)畳み込み操作は、不規則で無作為な入力画像を処理できない。 (ii) bertプリトレーニングの単スケール性は、convnetの階層構造と矛盾する。 のために i) 未知の画素を3次元点雲のスパースボクセルとして扱い, スパース畳み込みを用いてエンコードする。 これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。 のために (II) 階層型デコーダを開発し, マルチスケール特徴量から画像を再構成する。 Sparse masKed Modeling (SparK) と呼ばれる手法は一般的に、バックボーンの修正なしに任意の畳み込みモデル上で直接使用できる。 古典的(ResNet)モデルと現代的(ConvNeXt)モデルの両方で検証する:3つの下流タスクでは、最先端のコントラスト学習とトランスフォーマーベースのマスクモデリングを、同様に大きなマージン(約+1.0%)で上回る。 オブジェクト検出とインスタンスセグメンテーションの改善(+3.5%まで)により、学習した機能の強い転送可能性を検証する。 また、より大きなモデルでより多くの利得を観察することで、その好ましいスケーリング行動を見つけます。 これらすべての証拠は、convnetsにおける生成前訓練の有望な未来を明らかにする。 コードとモデルはhttps://github.com/keyu-tian/sparkでリリースされている。

We identify and overcome two key obstacles in extending the success of BERT-style pre-training, or the masked image modeling, to convolutional networks (convnets): (i) convolution operation cannot handle irregular, random-masked input images; (ii) the single-scale nature of BERT pre-training is inconsistent with convnet's hierarchical structure. For (i), we treat unmasked pixels as sparse voxels of 3D point clouds and use sparse convolution to encode. This is the first use of sparse convolution for 2D masked modeling. For (ii), we develop a hierarchical decoder to reconstruct images from multi-scale encoded features. Our method called Sparse masKed modeling (SparK) is general: it can be used directly on any convolutional model without backbone modifications. We validate it on both classical (ResNet) and modern (ConvNeXt) models: on three downstream tasks, it surpasses both state-of-the-art contrastive learning and transformer-based masked modeling by similarly large margins (around +1.0%). Improvements on object detection and instance segmentation are more substantial (up to +3.5%), verifying the strong transferability of features learned. We also find its favorable scaling behavior by observing more gains on larger models. All this evidence reveals a promising future of generative pre-training on convnets. Codes and models are released at https://github.com/keyu-tian/SparK.
翻訳日:2023-01-10 15:28:21 公開日:2023-01-09
# IMKGA-SM:シーケンスモデリングによる解釈可能なマルチモーダル知識グラフ回答予測

IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling ( http://arxiv.org/abs/2301.02445v2 )

ライセンス: Link先を確認
Yilin Wen, Biao Luo and Yuqian Zhao(参考訳) マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。 しかし、複雑なマルチモーダル情報やスパーストレーニングデータの場合、ほとんどの手法では解釈可能性と高い精度を同時に達成することは困難である。 そこで本稿では,この課題に対処するために,多変量知識グラフ応答予測(imkga-sm)という新しいモデルを開発した。 まず,マルチモーダル微細粒度融合法を提案し,vgg16とocr(optical character recognition)技術を用いて画像や画像からテキスト情報を効果的に抽出する。 次に、知識グラフリンク予測タスクをオフライン強化学習マルコフ決定モデルとしてモデル化し、統一シーケンスフレームワークに抽象化する。 対話的な知覚に基づく報酬期待機構と特別な因果的マスキング機構が設計され、クエリを推論パスに`変換する。 そこで,マルチモーダル最適化の問題点を軽減するために,自己回帰動的勾配調整機構を提案する。 最後に、2つのデータセットが実験に採用され、一般的なSOTAベースラインが比較に使用される。 その結果,開発したIMKGA-SMは,異なるサイズのマルチモーダルリンク予測データセット上でのSOTAベースラインよりもはるかに優れた性能が得られることがわかった。

Multimodal knowledge graph link prediction aims to improve the accuracy and efficiency of link prediction tasks for multimodal data. However, for complex multimodal information and sparse training data, it is usually difficult to achieve interpretability and high accuracy simultaneously for most methods. To address this difficulty, a new model is developed in this paper, namely Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling (IMKGA-SM). First, a multi-modal fine-grained fusion method is proposed, and Vgg16 and Optical Character Recognition (OCR) techniques are adopted to effectively extract text information from images and images. Then, the knowledge graph link prediction task is modelled as an offline reinforcement learning Markov decision model, which is then abstracted into a unified sequence framework. An interactive perception-based reward expectation mechanism and a special causal masking mechanism are designed, which ``converts" the query into an inference path. Then, an autoregressive dynamic gradient adjustment mechanism is proposed to alleviate the insufficient problem of multimodal optimization. Finally, two datasets are adopted for experiments, and the popular SOTA baselines are used for comparison. The results show that the developed IMKGA-SM achieves much better performance than SOTA baselines on multimodal link prediction datasets of different sizes.
翻訳日:2023-01-10 13:18:08 公開日:2023-01-09
# プライオリティ投票力の測定 - デリゲートを真剣に考える

Measuring a Priori Voting Power -- Taking Delegations Seriously ( http://arxiv.org/abs/2301.02462v2 )

ライセンス: Link先を確認
Rachael Colley, Th\'eo Delemazure, Hugo Gilbert(参考訳) 本稿では,代議員が重要な役割を担っている選挙における有権者の批判性,すなわち2種類の代議員投票設定と液状民主主義設定を計測する新たな権力指標を提案する。 まず、我々のパワー指標は、従来の単純な投票ゲームにおけるpenrose-banzhafインデックスの自然な拡張であり、直観的な説明であると主張する。 重み付き投票ゲームにおける再帰公式は擬似多項時間でこれらの指標を計算することができることを示す。 最後に、理論的特性を強調し、代議員制の導入が有権者の投票力をどう変えるかを示す数値的な結果を提供する。

In this paper, we introduce new power indices to measure the criticality of voters involved in different elections where delegations play a key role, namely, two variants of the proxy voting setting and a liquid democracy setting. First, we argue that our power indices are natural extensions of the Penrose-Banzhaf index in classic simple voting games, illustrating their intuitions. We show that recursive formulas can compute these indices for weighted voting games in pseudo-polynomial time. Last, we highlight theoretical properties and provide numerical results to illustrate how introducing delegation options modifies the voting power of voters.
翻訳日:2023-01-10 13:17:33 公開日:2023-01-09