このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221201となっている論文です。

PDF登録状況(公開日: 20221201)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子コンピュータにおけるBCSハミルトンギャップの解決に向けて

Towards solving the BCS Hamiltonian gap in Near-Term Quantum Computers ( http://arxiv.org/abs/2105.14936v5 )

ライセンス: Link先を確認
Nahum S\'a, Ivan S. Oliveira, and Itzhak Roditi(参考訳) 本研究では、NISQフレームワークを用いて、BCSハミルトニアンのギャップを求める。 これは超伝導研究に興味深い影響をもたらす可能性がある。 このようなタスクでは、変動量子デフレを用いて、現在の量子ハードウェアのエネルギースペクトルを見つけるのに必要なハードウェアの制約を分析する。 また,線形近似による制約最適化 (COBYLA) と同時摂動確率近似 (SPSA) の2種類の古典最適化器を比較し,実機でのシミュレーションにおける雑音の存在によるデコヒーレンスの影響について検討した。 2および5キュービットのシステムに対して,本手法を実装した。 さらに,ノイズの存在下でも,1つの標準偏差内でのギャップを近似する方法を示す。

In this work, using a NISQ framework, we obtain the gap of a BCS Hamiltonian. This could lead to interesting implications for superconductivity research. For such task, we choose to use the Variational Quantum Deflation and analyze the hardware restrictions that are needed to find the energy spectra on current quantum hardware. We also compare two different kinds of classical optimizers, Constrained Optimization BY Linear Approximations (COBYLA) and Simultaneous Perturbation Stochastic Approximation (SPSA), and study the effect of decoherence caused by the presence of noise when using simulations in real devices. We implement this method for a system with both 2 and 5 qubits. Furthermore, we show how to approximate the gap within one standard deviation, even with the presence of noise.
翻訳日:2023-03-28 06:11:42 公開日:2022-12-01
# マルコフ環境における最適非平衡温度測定

Optimal nonequilibrium thermometry in Markovian environments ( http://arxiv.org/abs/2107.04425v2 )

ライセンス: Link先を確認
Pavel Sekatski, Mart\'i Perarnau-Llobet(参考訳) 温度を測るのに必要な最低時間は何時ですか。 本稿では,興味のある試料と弱結合したプローブ(温度計)を測定して温度を推定するプロセスにおいて,この問題を解くことにより,プローブの進化を量子マルコフマスター方程式によりよく記述する。 プローブ上の最も一般的な制御戦略(適応測定、プローブの状態およびハミルトニアンの任意の制御)を考えると、我々は有限時間内に達成可能な測定精度の境界を提供し、多くのシナリオにおいてこれらの基本的な限界が比較的単純な実験で飽和できることを示す。 試料-プローブ相互作用の一般クラスでは, 測定の不確かさのスケーリングはプロセスの時間と逆比例し, 温度測定の散逸性に起因するショットノイズのような挙動が生じることがわかった。 その結果, プローブ-サンプル相互作用によって誘起されるラムシフトが温度測定において重要な役割を担い, 低温状態での有限測定分解能が期待できることがわかった。 より正確には、測定の不確かさは、通常の指数崩壊である$t^{-1}$とは対照的に、温度が$t\rightarrow 0$と多項式的に崩壊する。 これらの一般的な結果を説明します i) ボソニックサンプルと相互作用するクォービットプローブで、ラムシフトの役割が強調され、 (ii)$N$-qubitプローブとサンプルとの集合超ラジカルカップリングにより、測定の不確かさを$N$で二次崩壊させることができる。

What is the minimum time required to take a temperature? In this paper, we solve this question for a large class of processes where temperature is inferred by measuring a probe (the thermometer) weakly coupled to the sample of interest, so that the probe's evolution is well described by a quantum Markovian master equation. Considering the most general control strategy on the probe (adaptive measurements, arbitrary control on the probe's state and Hamiltonian), we provide bounds on the achievable measurement precision in a finite amount of time, and show that in many scenarios these fundamental limits can be saturated with a relatively simple experiment. We find that for a general class of sample-probe interactions the scaling of the measurement uncertainty is inversely proportional to the time of the process, a shot-noise like behaviour that arises due to the dissipative nature of thermometry. As a side result, we show that the Lamb shift induced by the probe-sample interaction can play a relevant role in thermometry, allowing for finite measurement resolution in the low-temperature regime. More precisely, the measurement uncertainty decays polynomially with the temperature as $T\rightarrow 0$, in contrast to the usual exponential decay with $T^{-1}$. We illustrate these general results for (i) a qubit probe interacting with a bosonic sample, where the role of the Lamb shift is highlighted, and (ii) a collective superradiant coupling between a $N$-qubit probe and a sample, which enables a quadratic decay with $N$ of the measurement uncertainty.
翻訳日:2023-03-23 00:02:02 公開日:2022-12-01
# 逆原子配列の超放射とサブ放射

Superradiance and subradiance in inverted atomic arrays ( http://arxiv.org/abs/2110.11288v2 )

ライセンス: Link先を確認
Oriol Rubies-Bigorda and Susanne F. Yelin(参考訳) スーパー放射とサブ放射は、量子エミッタ間のコヒーレント相互作用から生じる集合効果である。 その多体の性質のため、原子遷移波長より長い試料の理論的研究は、通常、初期の時間的挙動やわずかな励起限界に制限される。 ここでは、複素多体系を2階までの全ての相関を含む効果的な2原子マスター方程式に還元し、時間内に数値的に伝播する平均場法を用いる。 3次元および2次元逆原子配列は臨界格子間隔以下で超輝度を保ち、両方の次元において超放射ピークのスケーリングを定量化する。 最後に, システムの遅延力学について検討し, システムの緩和前にサブラジアント相が現れることを示す。

Superradiance and subradiance are collective effects that emerge from coherent interactions between quantum emitters. Due to their many-body nature, theoretical studies of extended samples with length larger than the atomic transition wavelength are usually restricted to their early time behavior or to the few-excitation limit. We use herein a mean-field approach to reduce the complex many-body system to an effective two-atom master equation that includes all correlations up to second order and that can be numerically propagated in time. We find that three-dimensional and two-dimensional inverted atomic arrays sustain superradiance below a critical lattice spacing and quantify the scaling of the superradiant peak for both dimensionalities. Finally, we study the late-time dynamics of the system and demonstrate that a subradiant phase appears before the system finally relaxes.
翻訳日:2023-03-10 21:31:39 公開日:2022-12-01
# 超伝導量子ビットハードウェアにおける量子近似最適化アルゴリズムのスケーリング

Scaling of the quantum approximate optimization algorithm on superconducting qubit based hardware ( http://arxiv.org/abs/2202.03459v2 )

ライセンス: Link先を確認
Johannes Weidenfeller, Lucia C. Valor, Julien Gacon, Caroline Tornow, Luciano Bello, Stefan Woerner, and Daniel J. Egger(参考訳) 量子コンピュータは、QAOA(Quantum Approximate Optimization Algorithm)を利用して組合せ最適化問題に対する優れた解決策を提供することができる。 QAOAはしばしばノイズの多いハードウェアのアルゴリズムとして提示される。 しかし、ハードウェアの制約は、キュービットの接続に密接に一致する問題インスタンスへの適用性を制限する。 さらに、QAOAは古典的な解法よりも優れている。 本稿では,高密度問題を線形,グリッド,重ヘックスカップリングマップにマッピングするスワップ戦略について検討する。 直線ベースのスワップ戦略は線形および二次元グリッド結合写像に最適である。 重ヘックス結合写像はラインスワップ戦略の適応を必要とする。 対照的に、3次元グリッド結合マップは、異なるスワップ戦略の恩恵を受ける。 既知のエントロピー的議論を用いて、高密度問題に必要なゲート忠実度が耐障害しきい値より深いことが分かる。 また、QAOAの実行時間を判断する方法論も提供します。 最後に、QAOA Qiskit Runtimeプログラムを提案し、QAOAに最適化されたトランスパイラ設定を備えたクラウドベースの量子コンピュータ上でクローズドループ最適化を実行する。 この研究は、ゲート忠実度、ゲート速度、必要な多数のショットなど、QAOAを競争力のあるものにするために改善すべきいくつかの障害を強調している。 qiskitランタイムプログラムは、ノイズの多い超伝導量子ビットハードウェア上でこのような問題を大規模に調査するツールを提供します。

Quantum computers may provide good solutions to combinatorial optimization problems by leveraging the Quantum Approximate Optimization Algorithm (QAOA). The QAOA is often presented as an algorithm for noisy hardware. However, hardware constraints limit its applicability to problem instances that closely match the connectivity of the qubits. Furthermore, the QAOA must outpace classical solvers. Here, we investigate swap strategies to map dense problems into linear, grid and heavy-hex coupling maps. A line-based swap strategy works best for linear and two-dimensional grid coupling maps. Heavy-hex coupling maps require an adaptation of the line swap strategy. By contrast, three-dimensional grid coupling maps benefit from a different swap strategy. Using known entropic arguments we find that the required gate fidelity for dense problems lies deep below the fault-tolerant threshold. We also provide a methodology to reason about the execution-time of QAOA. Finally, we present a QAOA Qiskit Runtime program and execute the closed-loop optimization on cloud-based quantum computers with transpiler settings optimized for QAOA. This work highlights some obstacles to improve to make QAOA competitive, such as gate fidelity, gate speed, and the large number of shots needed. The Qiskit Runtime program gives us a tool to investigate such issues at scale on noisy superconducting qubit hardware.
翻訳日:2023-02-26 15:02:22 公開日:2022-12-01
# 時間トラップ:強い結合と決定論的光量子計算への道

Temporal trapping: a route to strong coupling and deterministic optical quantum computation ( http://arxiv.org/abs/2203.11909v2 )

ライセンス: Link先を確認
Ryotatsu Yanagimoto, Edwin Ng, Marc Jankowski, Hideo Mabuchi, Ryan Hamerly(参考訳) 決定論的光子-光子ゲートの実現は、光学量子計算と工学の中心的な目標である。 長年にわたる課題は、拡張性のある室温材料プラットフォームにおける光学非線形性は、既存のフォトニック構造における致命的な損失集中トレードオフのため、要求される強い結合を達成するには弱すぎることである。 本研究では,このトレードオフを回避するために,分散工学的時間トラップ法である新しい閉じ込め法を導入し,全光学的強結合への経路を創出する。 位相変調により補助トラップパルスによって時間的閉じ込めが課され、導波路の空間的閉じ込めと組み合わせることで、非線形相互作用強度を少なくとも1桁高める「フライングキャビティ」が形成される。 数値シミュレーションにより、時間的トラップはマルチモード非線形ダイナミクスを単一モード部分空間に定義し、高忠実性決定論的量子ゲート演算を可能にする。 現実的な分散工学と損失図を用いて、時間的に閉じ込められた超短パルスは、短期非線形ナノフォトニックプラットフォーム上で強い結合を達成できることを示した。 我々は,超高速非線形光学が,量子コンピューティング,シミュレーション,光源への新たな道を開くことで,強力な結合を実現する最初のスケーラブルで高帯域,室温のプラットフォームとなる可能性を強調した。

The realization of deterministic photon-photon gates is a central goal in optical quantum computation and engineering. A longstanding challenge is that optical nonlinearities in scalable, room-temperature material platforms are too weak to achieve the required strong coupling, due to the critical loss-confinement tradeoff in existing photonic structures. In this work, we introduce a novel confinement method, dispersion-engineered temporal trapping, to circumvent the tradeoff, paving a route to all-optical strong coupling. Temporal confinement is imposed by an auxiliary trap pulse via cross-phase modulation, which, combined with the spatial confinement of a waveguide, creates a "flying cavity" that enhances the nonlinear interaction strength by at least an order of magnitude. Numerical simulations confirm that temporal trapping confines the multimode nonlinear dynamics to a single-mode subspace, enabling high-fidelity deterministic quantum gate operations. With realistic dispersion engineering and loss figures, we show that temporally trapped ultrashort pulses could achieve strong coupling on near-term nonlinear nanophotonic platforms. Our results highlight the potential of ultrafast nonlinear optics to become the first scalable, high-bandwidth, and room-temperature platform that achieves a strong coupling, opening a new path to quantum computing, simulation, and light sources.
翻訳日:2023-02-21 02:50:04 公開日:2022-12-01
# 一般化測定による量子熱機関の実験的検討

Experimental investigation of a quantum heat engine powered by generalized measurements ( http://arxiv.org/abs/2204.01041v3 )

ライセンス: Link先を確認
V. F. Lisboa, P. R. Dieguez, J. R. Guimar\~aes, J. F. G. Santos, and R. M. Serra(参考訳) 一般化された測定は、非常に弱いものから強い射影作用に補間することで量子系におけるバックアクションの制御を可能にする。 このような測定は、量子熱エンジンに燃料を供給したり、システム・メーターの相互作用に応じて作業を抽出することができる。 本研究では,核磁気共鳴法による概念実証実験を行い,非選択的一般化(weak)測定で駆動されるスピン量子熱エンジンをフィードバック制御なしで検証した。 量子熱装置のプロトタイプは、測定プロトコルと1つの熱浴で動作します。 このプロトコルは、異なる測定強度を持つ2つの非選択的測定チャネルから成り、一方は(熱源に類似した)装置の燃料供給に特化し、もう一方は作業抽出にコミットする。 実験結果から, 測定強度の微調整により, 最大抽出電力で単位効率を達成できることが明らかになった。

Generalized measurements may allow the control of its back-action on the quantum system by interpolating from a very weak to strong projective action. Such a measurement can fuel a quantum heat engine or extract work depending on the system-meter interaction. Here, we performed a proof-of-concept experiment using nuclear magnetic resonance techniques to investigate a spin quantum heat engine driven by non-selective generalized (weak) measurements without feedback control. Our prototype of a quantum thermal device operates with a measurement protocol and a single heat bath. The protocol is composed of two non-selective measurement channels with variable measurement strengths, one dedicated to fueling the device (analogous to a hot heat source) and the other committed to work extraction. The experimental results highlight that this kind of quantum thermal device can reach unit efficiency with maximum extracted power by fine-tuning of the measurement strengths.
翻訳日:2023-02-19 15:58:33 公開日:2022-12-01
# フレキシブルな社会的推論は、報酬が観察できない時にターゲットとなる社会学習を促進する

Flexible social inference facilitates targeted social learning when rewards are not observable ( http://arxiv.org/abs/2212.00869v1 )

ライセンス: Link先を確認
Robert D. Hawkins, Andrew M. Berdahl, Alex "Sandy" Pentland, Joshua B. Tenenbaum, Noah D. Goodman, P. M. Krafft(参考訳) 他人を頼りにするのは、報酬になるのと同じくらい危険です。 助言を求める者は、良いアドバイスを悪から遠ざけ、共有知恵の潜在的な利益を誤解されるリスクとバランスさせなければならない。 グループが情報の共有や問題解決に最も効果的であるのは,全員が‘何を知っているか’に敏感な時です。 しかし、そもそもそのような知識を取得するのは簡単ではない。特に背景情報が限られている状況では。 情報制限環境において,ソーシャルラーニングはどのような認知能力を必要とするのか? 本稿では,人間の集団行動において,柔軟な社会的推論の能力が重要な役割を担っており,他者の個人的報酬や「成功」が文脈によって異なる場合であっても,成功やスキルといった潜在性が他者の外部的行動から推測可能であることを提案する。 まず,本提案を認知モデルで定式化し,このモデルの予測を,一連の計算シミュレーションにおいて単純なヒューリスティックスと比較することから始める。 次に,隠れた報酬を含むマルチエージェント探索パラダイムを用いて,これらの予測を3つの大規模行動実験で評価した。 実験1では,モデルが予測する速度でグループサイズの関数として平均性能が向上するが,より単純な3つの選択肢は改善しないことがわかった。 実験2では,人工エージェントを用いた制御シナリオに人間の参加者を配置し,社会的情報に頼ろうとする条件をより体系的に評価した。 最後に,実験3では,これらの知見をより複雑でノイズの多い環境に一般化し,推論が故障する可能性のある状況が示唆された。 まとめると、最も初歩的な社会的認知能力でさえ、人間の集団行動の特徴的な柔軟性を促進することが分かる。

Relying on others can be as risky as it can be rewarding. Advice seekers must disentangle good advice from bad, and balance the potential benefits of shared wisdom against the risks of being misled. Groups are most effective at sharing information and solving problems together when everyone is sensitive to ``who knows what.'' Acquiring such knowledge in the first place, however, is not trivial -- especially in contexts where background information is limited. What underlying cognitive abilities are needed for social learning to be useful in information-limited environments? Here, we propose that the capacity for flexible social inference plays a key role in human group behavior, allowing latent properties such as success or skill to be inferred from others' outward behavior even when there is no direct access to others' private rewards and "success" manifests differently from context to context. We begin by formalizing our proposal in a cognitive model and comparing this model's predictions against those of simpler heuristics in a series of computational simulations. We then evaluated these predictions in three large-scale behavioral experiments using a multi-agent search paradigm with hidden rewards. In Experiment 1, we found that average performance improves as a function of group size at a rate predicted by our model but not by three simpler alternatives. In Experiment 2, we placed human participants in controlled scenarios with artificial agents to more systematically evaluate the conditions under which people choose to rely on social information. Finally, in Experiment 3, we generalized these findings to a more complex and noisy environment, suggesting regimes where inferences may break down. Taken together, we find that even the most rudimentary social cognition abilities may facilitate the characteristic flexibility of human collective behavior.
翻訳日:2023-02-19 12:47:54 公開日:2022-12-01
# データプライバシとパーソナライズされたプライバシアシスタントの価値中心探索

A Value-Centered Exploration of Data Privacy and Personalized Privacy Assistants ( http://arxiv.org/abs/2212.00528v1 )

ライセンス: Link先を確認
Sarah E. Carter(参考訳) 現在のGDPR以降の状況では、プライバシ通知が携帯電話やオンライン上でますます一般的になっています。 しかし、これらの通知はユーザーが情報的な判断を下すのを助けるという目的には適していない。 通知を利用してインフォームドコンセントを誘うのではなく、プライバシー通知を再利用して、より有意義で価値中心のユーザー決定のためのスペースを作ることを提案します。 価値中心のプライバシ決定、あるいは私たちが誰で何が価値があるかを正確に反映するものは、データプライバシ決定における個人的価値の直感的な役割をカプセル化する。 このような決定をサポートするために通知をどのように再利用できるかを探るため、Suzy Killmister氏の4次元自律性理論(4DT)を使って、価値中心のプライバシー決定を運用しています。 次に、既存の技術であるパーソナライズドプライバシアシスタント(PPAs)が、価値中心の意思決定を可能にする方法で通知を使用する程度を評価します。 最後に、価値中心型プライバシアシスタント(VcPA)と呼ばれる新しいアシスタントの設計におけるPPA評価の影響について検討する。 VcPAは理想的には通知を利用して,価値中心のアプリ選択やデータプライバシ決定を支援する。

In the the current post-GDPR landscape, privacy notices have become ever more prevalent on our phones and online. However, these notices are not well suited to their purpose of helping users make informed decisions. I suggest that instead of utilizing notice to eliciting informed consent, we could repurpose privacy notices to create the space for more meaningful, value-centered user decisions. Value-centered privacy decisions, or those that accurately reflect who we are and what we value, encapsulate the intuitive role of personal values in data privacy decisions. To explore how notices could be repurposed to support such decisions, I utilize Suzy Killmister's four-dimensional theory of autonomy (4DT) to operationalize value-centered privacy decisions. I then assess the degree that an existing technology, Personalized Privacy Assistants (PPAs), uses notices in a manner that allows for value-centered decision-making. Lastly, I explore the implications of the PPA assessment for designing a new assistant, called a value-centered privacy assistant (VcPA). A VcPA could ideally utilized notice to assists users in value-centered app selection and in other data privacy decisions.
翻訳日:2023-02-19 12:45:54 公開日:2022-12-01
# FairGen: 公正な合成データ生成

FairGen: Fair Synthetic Data Generation ( http://arxiv.org/abs/2210.13023v2 )

ライセンス: Link先を確認
Bhushan Chaudhari, Himanshu Chaudhary, Aakash Agarwal, Kamna Meena, Tanmoy Bhowmik(参考訳) 銀行、製薬、エドテックなどの分野における機械学習の普及に伴い、モデルがあらゆるグループに対して不公平に差別されないように、責任あるai手法を採用することが最も重要になっている。 クリーンなトレーニングデータがないことから、生成的な敵対的手法は、テキスト、画像、不正検出をモデル化する構造化データセットなどの非構造化データから、さまざまなドメインにまたがる最先端アーキテクチャによる合成データを生成するのが望ましい。 これらのテクニックは、クラス不均衡、限られたトレーニングデータ、プライバシー問題によるデータへのアクセス制限など、いくつかの課題を克服する。 公正なデータを生成することに焦点を当てた既存の作業は、特定のGANアーキテクチャで機能するか、あるいはGAN間でチューニングするのが非常に困難です。 本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。 本論文はバイアス誘発サンプルの同定と除去に前処理アルゴリズムを用いる。 特に、合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアス誘発サンプルを除去することで、GANは本質的に真の情報的サンプルに焦点を当てる。 2つのオープンソースのデータセットを実験的に評価した結果,提案するパイプラインが公平なデータを生成する方法と,その性能向上を実証した。

With the rising adoption of Machine Learning across the domains like banking, pharmaceutical, ed-tech, etc, it has become utmost important to adopt responsible AI methods to ensure models are not unfairly discriminating against any group. Given the lack of clean training data, generative adversarial techniques are preferred to generate synthetic data with several state-of-the-art architectures readily available across various domains from unstructured data such as text, images to structured datasets modelling fraud detection and many more. These techniques overcome several challenges such as class imbalance, limited training data, restricted access to data due to privacy issues. Existing work focusing on generating fair data either works for a certain GAN architecture or is very difficult to tune across the GANs. In this paper, we propose a pipeline to generate fairer synthetic data independent of the GAN architecture. The proposed paper utilizes a pre-processing algorithm to identify and remove bias inducing samples. In particular, we claim that while generating synthetic data most GANs amplify bias present in the training data but by removing these bias inducing samples, GANs essentially focuses more on real informative samples. Our experimental evaluation on two open-source datasets demonstrates how the proposed pipeline is generating fair data along with improved performance in some cases.
翻訳日:2023-02-19 12:01:52 公開日:2022-12-01
# インフラストラクチャ投資と開発におけるブロックチェーン対応トークン化の未来: Delphiベースのシナリオ分析

The future of blockchain-enabled tokenization in infrastructure investment and development: A Delphi-based scenario analysis ( http://arxiv.org/abs/2208.04710v2 )

ライセンス: Link先を確認
Yifeng Tian, Chaofeng Wang, Junghoon Woo, Zheng Lu, and Peter Adriaens(参考訳) 新興のブロックチェーン技術とトークン化への関心が高まり、この予測研究は広範な文献と専門知識に基づいて構築され、インフラストラクチャ投資と開発におけるブロックチェーン対応トークン化の実装の可能性を探究した。 Delphiベースのシナリオ分析アプローチは、ブロックチェーントークン化とインフラストラクチャ開発の専門家39人で構成される研究パネルの長期的な予測と評価を収集するために適用され、トークン化がインフラストラクチャファイナンスの将来にどのように影響し、潜在的なアプリケーションと影響のシナリオを特定する。 国際専門家は、インフラストラクチャ開発とブロックチェーントークン化の両方の経験に基づいて、このトピック領域に忠実な2つのグループに分離された。 2035年の23の予測は、文献レビュー、ケーススタディ分析、専門家インタビューから発展し、ブロックチェーンのトークン化導入における供給と需要の両面の視点を2ラウンドのデルフィ分析で評価した。 トークン化の規制、経済、社会、技術的観点が考慮された。 評価は発生の確率と影響の両方に基づいて行われた。 シナリオの3つのグループは、量的および質的分析から導き出され、両者の合意と区別を反映した。 この研究の結果は、インフラストラクチャにおけるトークン化の可能性を明確に強調している。 技術の拡散に直面する不確かさと障壁について議論した。 本研究は、一般的な技術駆動型ブロックチェーン対応トークン化知識からインフラストラクチャ固有のトークン化知識への移行に寄与する。 インフラストラクチャ開発におけるブロックチェーン関連の取り組みの出発点として,シナリオデータを活用して,長期的な戦略的計画を支援する。

Spurred by the emerging blockchain technology and increased interest in tokenization, this forecasting research built on extensive literature and aggregated expertise to explore the potential implementation of blockchain-enabled tokenization in infrastructure investment and development. The Delphi-based scenario analysis approach was applied to gather long-term forecasts and assessments of a research panel consisting of 39 experts in blockchain tokenization and infrastructure development on how tokenization will influence the future of infrastructure finance and identify scenarios of potential applications and impact. International experts were segregated into two groups salient to this topical area based on both experience ad self-identification: infrastructure development and blockchain tokenization. Twenty-three projections for 2035, developed from a literature review, case study analysis, and expert interviews, concerning perspectives of both the supply and demand side for the adoption of blockchain tokenization, were assessed in a two-round Delphi analysis. Regulatory, economic, social, and technological perspectives of tokenization were taken into consideration. Assessments were based on both probability and impact of occurrence. Three groups of scenarios resulted from quantitative and qualitative analysis, reflecting agreement and differentiation between both expert groups. The results of this study clearly underlined the potential of tokenization in infrastructure. Uncertainties and barriers confronting the technologies' diffusion were discussed. This study contributes to the transfer of general technical-driven blockchain-enabled tokenization knowledge to infrastructure-specific tokenization knowledge. Long-term strategic planning is supported by this study with the scenario data acting as a starting point for blockchain-related efforts in infrastructure development.
翻訳日:2023-02-19 10:27:37 公開日:2022-12-01
# ハイブリッド量子古典ニューラルネットワークにおける埋め込み学習

Embedding Learning in Hybrid Quantum-Classical Neural Networks ( http://arxiv.org/abs/2204.04550v2 )

ライセンス: Link先を確認
Minzhao Liu, Junyu Liu, Rui Liu, Henry Makhanov, Danylo Lykov, Anuj Apte and Yuri Alexeev(参考訳) 量子埋め込み学習は、古典データへの量子機械学習の適用において重要なステップである。 本稿では,下流の量子機械学習タスクのトレーニングに有用な組込みを学習する,量子マイナショット組込み学習パラダイムを提案する。 古典的パラメータがヒルベルト空間を効率的に利用しないハイブリッドニューラルネットワークにおいて,回路バイパス問題を特定することが重要である。 数少ない学習組込みは未発見のクラスに一般化し、他のアプローチに比べて回路バイパス問題に苦しむことを観察した。

Quantum embedding learning is an important step in the application of quantum machine learning to classical data. In this paper we propose a quantum few-shot embedding learning paradigm, which learns embeddings useful for training downstream quantum machine learning tasks. Crucially, we identify the circuit bypass problem in hybrid neural networks, where learned classical parameters do not utilize the Hilbert space efficiently. We observe that the few-shot learned embeddings generalize to unseen classes and suffer less from the circuit bypass problem compared with other approaches.
翻訳日:2023-02-17 18:52:10 公開日:2022-12-01
# 量子通信のための原子薄単一光子源

Atomically-thin Single-photon Sources for Quantum Communication ( http://arxiv.org/abs/2204.06427v2 )

ライセンス: Link先を確認
Timm Gao, Martin v. Helversen, Carlos Anton-Solanas, Christian Schneider, Tobias Heindel(参考訳) 現在、量子通信は秘密鍵生成のために減衰レーザーに大きく依存している。 将来の量子ネットワークでは、その確率的光子分布から生じる基本的な制限は、決定論的量子光源を用いて克服されなければならない。 遷移金属ジアルコゲナイド (TMDCs) の単分子膜に閉じ込められた励起子は、量子光発生のための新しいタイプのエミッタである。 これらの原子の薄い固体源は、量子情報技術の要求を満たす大規模で低コストなデバイス統合の魅力を示す。 本稿では,量子通信におけるTMDCデバイスの実用的適合性を開拓する。 我々は、BB84プロトコルを量子鍵分布(QKD)設定でエミュレートし、最大66.95kHzのクリック率と0.034までの反バンチ値を達成するために、$\mathrm{WSe}_2$単層単光子源を用いる。 我々の研究は、TMDC単一光子源を用いた量子情報技術の幅広い応用への道を開く。

To date, quantum communication widely relies on attenuated lasers for secret key generation. In future quantum networks fundamental limitations resulting from their probabilistic photon distribution must be overcome by using deterministic quantum light sources. Confined excitons in monolayers of transition metal dichalcogenides (TMDCs) constitute an emerging type of emitter for quantum light generation. These atomically-thin solid-state sources show appealing prospects for large-scale and low-cost device integration, meeting the demands of quantum information technologies. Here, we pioneer the practical suitability of TMDC devices in quantum communication. We employ a $\mathrm{WSe}_2$ monolayer single-photon source to emulate the BB84 protocol in a quantum key distribution (QKD) setup and achieve click rates of up to 66.95 kHz and antibunching values down to 0.034 - a performance competitive with QKD experiments using semiconductor quantum dots or color centers in diamond. Our work opens the route towards wider applications of quantum information technologies using TMDC single-photon sources.
翻訳日:2023-02-17 02:56:09 公開日:2022-12-01
# Levenberg Marquardt Machine Learningによる量子ハードウェアのプログラミング

Programming Quantum Hardware via Levenberg Marquardt Machine Learning ( http://arxiv.org/abs/2204.07011v2 )

ライセンス: Link先を確認
James E. Steck, Nathan L. Thompson, Elizabeth C. Behrman(参考訳) 重要な課題は、マクロ量子コンピューティングの開発、ノイズ、デコヒーレンス、スケーリングのハードウェア問題、エラー修正のソフトウェア問題、そして最も重要なアルゴリズム構築である。 真の量子アルゴリズムを見つけることは極めて困難であり、Shor素因数分解や位相推定のような多くの量子アルゴリズムは、実際の応用において極めて長い回路深さを必要とし、誤り訂正を必要とする。 機械学習は、量子コンピュータを非論理的にプログラムする体系的な方法として使用できる。 量子機械学習により、アルゴリズムをゲートビルディングブロックに分割することなく計算を実行でき、その困難なステップを排除し、不要な複雑さを軽減できます。 さらに,我々の機械学習手法はノイズとデコヒーレンスの両方に対して堅牢であり,誤差訂正に利用可能な量子ビット数に制限のあるノイズの多いNISQデバイス上での動作に最適であることを示した。 基礎的に非古典的な計算を用いてこれを実証し、未知の量子状態の絡み合いを実験的に推定した。 この結果、IBMハードウェアへの移植に成功し、Levenberg Marquardt LM法を改良した強力なハイブリッド強化学習技術を用いて訓練された。 LM法は、一般にアクセスできない中間量子状態ではなく、量子計算の最終測定結果の知識のみを必要とするため、量子機械学習に理想的に適している。 すべての学習データを同時に処理するため、量子ハードウェアのヒットも大幅に少なくなります。 機械学習はシミュレーションの結果で実証され、IBM Qiskitハードウェアインターフェイス上で動作する。

Significant challenges remain with the development of macroscopic quantum computing, hardware problems of noise, decoherence, and scaling, software problems of error correction, and, most important, algorithm construction. Finding truly quantum algorithms is quite difficult, and many quantum algorithms, like Shor prime factoring or phase estimation, require extremely long circuit depth for any practical application, necessitating error correction. Machine learning can be used as a systematic method to nonalgorithmically program quantum computers. Quantum machine learning enables us to perform computations without breaking down an algorithm into its gate building blocks, eliminating that difficult step and potentially reducing unnecessary complexity. In addition, we have shown that our machine learning approach is robust to both noise and to decoherence, which is ideal for running on inherently noisy NISQ devices which are limited in the number of qubits available for error correction. We demonstrated this using a fundamentally non classical calculation, experimentally estimating the entanglement of an unknown quantum state. Results from this have been successfully ported to the IBM hardware and trained using a powerful hybrid reinforcement learning technique which is a modified Levenberg Marquardt LM method. The LM method is ideally suited to quantum machine learning as it only requires knowledge of the final measured output of the quantum computation, not intermediate quantum states which are generally not accessible. Since it processes all the learning data simultaneously, it also requires significantly fewer hits on the quantum hardware. Machine learning is demonstrated with results from simulations and runs on the IBM Qiskit hardware interface.
翻訳日:2023-02-17 00:07:34 公開日:2022-12-01
# CoVaRを用いた変分量子回路の訓練:古典的影を用いた共分散根探索

Training variational quantum circuits with CoVaR: covariance root finding with classical shadows ( http://arxiv.org/abs/2204.08494v3 )

ライセンス: Link先を確認
Gregory Boyd and B\'alint Koczor(参考訳) 短期的な量子コンピュータの活用と実用的価値の達成は、非常にエキサイティングな課題である。 変分アルゴリズムとしての最も顕著な候補は、一般に量子コンピュータによってサンプリングされた1つの古典的(エネルギー)曲面を最小化することでハミルトンの基底状態を見つけることを目的としている。 ここでは、変分回路のパワーを利用する代替手段であるCoVaRと呼ぶ方法を紹介する: 量子状態の多項式的に増大する性質の結合根を、我々の選択したハミルトニアンと作用素プールの間の共分散関数として見つけることによって、固有状態を求める。 CoVaRアプローチの最も顕著な特徴は、非常に強力な古典的影の技法、すなわち、非常に多数の共分散の$>10^4-10^7$を同時に推定することができることである。 古典型計算機を用いて解く, 確率的レベンベルグ・マルカルトステップを適用した各反復の共分散をランダムに選択し, 解析微分を推定する。 量子リソースのイテレーション当たりのコストは標準勾配推定に匹敵するものであることが証明されているが、数値シミュレーションでは収束速度の桁数で非常に大きな改善がみられる。 CoVaRは、古典的な機械学習において最重要となる確率的勾配に基づく最適化と直接的に類似している。

Exploiting near-term quantum computers and achieving practical value is a considerable and exciting challenge. Most prominent candidates as variational algorithms typically aim to find the ground state of a Hamiltonian by minimising a single classical (energy) surface which is sampled from by a quantum computer. Here we introduce a method we call CoVaR, an alternative means to exploit the power of variational circuits: We find eigenstates by finding joint roots of a polynomially growing number of properties of the quantum state as covariance functions between the Hamiltonian and an operator pool of our choice. The most remarkable feature of our CoVaR approach is that it allows us to fully exploit the extremely powerful classical shadow techniques, i.e., we simultaneously estimate a very large number $>10^4-10^7$ of covariances. We randomly select covariances and estimate analytical derivatives at each iteration applying a stochastic Levenberg-Marquardt step via a large but tractable linear system of equations that we solve with a classical computer. We prove that the cost in quantum resources per iteration is comparable to a standard gradient estimation, however, we observe in numerical simulations a very significant improvement by many orders of magnitude in convergence speed. CoVaR is directly analogous to stochastic gradient-based optimisations of paramount importance to classical machine learning while we also offload significant but tractable work onto the classical processor.
翻訳日:2023-02-16 11:32:55 公開日:2022-12-01
# マルチキュービット量子デバイスの並列QND計測トモグラフィ

Parallel QND measurement tomography of multi-qubit quantum devices ( http://arxiv.org/abs/2204.10336v2 )

ライセンス: Link先を確認
L. Pereira, J. J. Garc\'ia-Ripoll, and T. Ramos(参考訳) QND測定の効率的な評価は、量子プロセッサの性能とスケーラビリティを認証し改善するための重要な要素である。 本研究では,マルチキュービット量子プロセッサ上でのシングルキュービットと2キュービットの読み出しに対処するQND測定の並列トモグラフィーを導入する。 7ビットのIBM-Qデバイス上でのトモグラフィープロトコルの実証実験を行い、従来のクビット読み出しの質を特徴付けるとともに、パリティや測定・リセット方式などの一般的な測定方法を示す。 本プロトコルは, 測定プロセスのChoi行列を再構成し, 関連量化器, 忠実度, QND-ness, 破壊性を抽出し, 繰り返しQND測定においてデバイスの性能を制限する誤差の原因を特定する。 また、クロストークの測定を定量化し、それを複数のキュービット上で同時読み出しの品質を証明する方法を示す。

An efficient characterization of QND measurements is an important ingredient towards certifying and improving the performance and scalability of quantum processors. In this work, we introduce a parallel tomography of QND measurements that addresses single- and two-qubit readout on a multi-qubit quantum processor. We provide an experimental demonstration of the tomographic protocol on a 7-qubit IBM-Q device, characterizing the quality of conventional qubit readout as well as generalized measurements such as parity or measurement-and-reset schemes. Our protocol reconstructs the Choi matrices of the measurement processes, extracts relevant quantifiers -- fidelity, QND-ness, destructiveness -- and identifies sources of errors that limit the performance of the device for repeated QND measurements. We also show how to quantify measurement cross-talk and use it to certify the quality of simultaneous readout on multiple qubits.
翻訳日:2023-02-16 03:26:03 公開日:2022-12-01
# ベル不等式に対する臨界検出効率の指数的に低下

Exponentially decreasing critical detection efficiency for any Bell inequality ( http://arxiv.org/abs/2204.11726v3 )

ライセンス: Link先を確認
Nikolai Miklin, Anubhav Chaturvedi, Mohamed Bourennane, Marcin Paw{\l}owski, Ad\'an Cabello(参考訳) 本稿では,ベル実験における検出効率の抜け穴を埋めることの問題点に対処する。 すべてのベルの不等式は臨界検出効率が$\eta$であり、検出の抜け穴を避けるために超過する必要がある。 本稿では,任意のベル不等式の臨界検出効率を任意の低値に還元する方法を提案する。 これは、2つの粒子を直交部分空間(例えば、$N$自由度)に絡めて、平行に$N$ベル試験を行うことによって達成される。 さらに,提案手法は,いわゆる同時計測ループホールを閉じたペナルティ化されたn$-product(pnp)ベル不等式の導入に基づくものであり,局所隠れ変数理論の最大値は,当初考慮されていたベル不等式のうちの1つであるn$のパワーのみである。 PNPベルの不等式の場合、臨界検出効率は指数関数的に$N$で崩壊する。 提案手法の強度は, クレーター-ホルン-シモニー-ホルト不等式に起因するPNPベルの不等式について詳細に検討した。

We address the problem of closing the detection efficiency loophole in Bell experiments, which is crucial for real-world applications. Every Bell inequality has a critical detection efficiency $\eta$ that must be surpassed to avoid the detection loophole. Here, we propose a general method for reducing the critical detection efficiency of any Bell inequality to arbitrary low values. This is accomplished by entangling two particles in $N$ orthogonal subspaces (e.g., $N$ degrees of freedom) and conducting $N$ Bell tests in parallel. Furthermore, the proposed method is based on the introduction of penalized $N$-product (PNP) Bell inequalities, for which the so-called simultaneous measurement loophole is closed, and the maximum value for local hidden-variable theories is simply the $N$th power of the one of the Bell inequality initially considered. We show that, for the PNP Bell inequalities, the critical detection efficiency decays exponentially with $N$. The strength of our method is illustrated with a detailed study of the PNP Bell inequalities resulting from the Clauser-Horne-Shimony-Holt inequality.
翻訳日:2023-02-15 17:50:42 公開日:2022-12-01
# 半自動微分による量子最適制御

Quantum Optimal Control via Semi-Automatic Differentiation ( http://arxiv.org/abs/2205.15044v2 )

ライセンス: Link先を確認
Michael H. Goerz, Sebasti\'an C. Carrasco and Vladimir S. Malinovsky(参考訳) 我々は,既存の勾配に基づく量子最適制御法と自動微分法を組み合わせた「半自動微分」の枠組みを開発した。 このアプローチは事実上計算可能な関数を最適化することができ、QuantumControl.jlフレームワークの一部であるGRAPE.jlとKrotov.jlの2つのオープンソースパッケージで実装されている。 提案手法は, 最適化関数を伝搬状態, ターゲット状態との重なり合い, 量子ゲートで正式に書き換えることに基づいている。 チェーンルールの解析的な応用により、勾配を計算する際に時間伝播と機能評価を分離することができる。 前者は改良されたGRAPEスキームにより高い効率で評価することができる。 後者は自動微分で評価されるが, 時間伝播に比べて著しく複雑性が低下する。 そこで,本手法では,量子情報や量子メトロロジー,特にオープン量子システムにおける非解析関数の直接最適化を可能にすることにより,通常,自動微分に関連する制限メモリとランタイムオーバヘッドを排除し,量子制御のさらなる進歩を促進する。 共有伝送線路を介して結合された超伝導量子ビット上での完全絡み合う量子ゲートの最適化にセミオートマチックな微分を用いることを図示し、ベンチマークする。 これには、非解析ゲート共起の第一の直接最適化が含まれる。

We develop a framework of "semi-automatic differentiation" that combines existing gradient-based methods of quantum optimal control with automatic differentiation. The approach allows to optimize practically any computable functional and is implemented in two open source Julia packages, GRAPE.jl and Krotov.jl, part of the QuantumControl.jl framework. Our method is based on formally rewriting the optimization functional in terms of propagated states, overlaps with target states, or quantum gates. An analytical application of the chain rule then allows to separate the time propagation and the evaluation of the functional when calculating the gradient. The former can be evaluated with great efficiency via a modified GRAPE scheme. The latter is evaluated with automatic differentiation, but with a profoundly reduced complexity compared to the time propagation. Thus, our approach eliminates the prohibitive memory and runtime overhead normally associated with automatic differentiation and facilitates further advancement in quantum control by enabling the direct optimization of non-analytic functionals for quantum information and quantum metrology, especially in open quantum systems. We illustrate and benchmark the use of semi-automatic differentiation for the optimization of perfectly entangling quantum gates on superconducting qubits coupled via a shared transmission line. This includes the first direct optimization of the non-analytic gate concurrence.
翻訳日:2023-02-11 13:45:24 公開日:2022-12-01
# ベイズ誤差追跡を用いたパリティ符号化型量子コンピューティング

Parity-encoding-based quantum computing with Bayesian error tracking ( http://arxiv.org/abs/2207.06805v4 )

ライセンス: Link先を確認
Seok-Hyung Lee, Srikrishna Omkar, Yong Siah Teo, Hyunseok Jeong(参考訳) 線形光学系における計測ベースの量子コンピューティング(MBQC)は、ほぼ将来の量子コンピューティングアーキテクチャに期待できる。 しかし、絡み合う操作と光子損失の非決定論的性質は、グラフ状態の大規模生成を妨げ、論理的エラーをもたらす。 本研究では,パリティ符号化に基づく多光子量子ビットを用いた線形光トポロジカルMBQCプロトコルを提案する。 現実的な誤り解析では, ベイズ的手法を安定化形式と組み合わせて導入し, このような有害な影響による誤りの追跡を行う。 さらに,任意のグラフ状態を構築するためのグラフ理論的最適化スキームを提案し,リソースのオーバーヘッドを大幅に削減した。 特に,本プロトコルは,フォールトトレランス,リソースオーバーヘッド,基本要素の実現性の観点から,他のいくつかの既存手法よりも有利であることを示す。

Measurement-based quantum computing (MBQC) in linear optical systems is promising for near-future quantum computing architecture. However, the nondeterministic nature of entangling operations and photon losses hinder the large-scale generation of graph states and introduce logical errors. In this work, we propose a linear optical topological MBQC protocol employing multiphoton qubits based on the parity encoding, which turns out to be highly photon-loss tolerant and resource-efficient even under the effects of nonideal entangling operations that unavoidably corrupt nearby qubits. For the realistic error analysis, we introduce a Bayesian methodology, in conjunction with the stabilizer formalism, to track errors caused by such detrimental effects. We additionally suggest a graph-theoretical optimization scheme for the process of constructing an arbitrary graph state, which greatly reduces its resource overhead. Notably, we show that our protocol is advantageous over several other existing approaches in terms of fault-tolerance, resource overhead, or feasibility of basic elements.
翻訳日:2023-02-05 01:29:17 公開日:2022-12-01
# 大域的相互作用を用いたクリフォード演算と乗算制御ゲートの定コスト実装

Constant-cost implementations of Clifford operations and multiply controlled gates using global interactions ( http://arxiv.org/abs/2207.08691v2 )

ライセンス: Link先を確認
Sergey Bravyi, Dmitri Maslov, and Yunseong Nam(参考訳) 我々は、Ising型ハミルトニアンによって生成される単一量子ビット演算と大域エンタングリングゲートからなる量子回路を考える。 このような回路は、量子アルゴリズムで一般的に使用される大規模なユニタリ演算子を、非常に低コストで実装できることが示されている。 具体的には,アシラエの有無に関わらずクリフォード操作を一定コストで実装し,線形に多数のアシラエを持つマルチプライ制御ゲートを一定コストで実装し,対数的に多数のアシラエを用いてn$制御された単一ターゲットゲートを$o(\log^*(n))$で実装した。 これは、グローバルエンタングリングゲートによって実現された回路の顕著な漸近的優位性を示す。

We consider quantum circuits composed of single-qubit operations and global entangling gates generated by Ising-type Hamiltonians. It is shown that such circuits can implement a large class of unitary operators commonly used in quantum algorithms at a very low cost -- using a constant or effectively constant number of global entangling gates. Specifically, we report constant-cost implementations of Clifford operations with and without ancillae, constant-cost implementation of the multiply controlled gates with linearly many ancillae, and an $O(\log^*(n))$ cost implementation of the $n$-controlled single-target gates using logarithmically many ancillae. This shows a significant asymptotic advantage of circuits enabled by the global entangling gates.
翻訳日:2023-02-04 15:49:59 公開日:2022-12-01
# 光学・準安定・基底状態トラップイオン量子ビットに対する$\hat{\sigma}_z$スピン依存力の合成

Synthesizing a $\hat{\sigma}_z$ spin-dependent force for optical, metastable, and ground state trapped-ion qubits ( http://arxiv.org/abs/2207.11193v2 )

ライセンス: Link先を確認
O. B\u{a}z\u{a}van, S. Saner, M. Minder, A. C. Hughes, R. T. Sutherland, D. M. Lucas, R. Srinivas, C. J. Ballance(参考訳) 量子ビット遷移に近い1つの双色場は、通常、閉じ込められたイオン系における$\hat{\sigma}_x$または$\hat{\sigma}_y$m{\o}lmer-s{\o}rensen型の相互作用に用いられる。 このフィールド構成を用いることで、ビート音の周波数を単に調整するだけで、$\hat{\sigma}_z$のスピン依存力を合成することもできる。 ここでは、これまでの研究を拡大し、このスキームをレーザー近共振器を用いて、$^{88}$Sr$^+$の四重極遷移による包括的および実験的に研究する。 さらに,光位相,量子周波数オフセットに対するロバスト性を特徴付けるとともに,光,準安定,基底状態キュービットを絡み合わせることで,その汎用性を示す。

A single bichromatic field near-resonant to a qubit transition is typically used for $\hat{\sigma}_x$ or $\hat{\sigma}_y$ M{\o}lmer-S{\o}rensen type interactions in trapped ion systems. Using this field configuration, it is also possible to synthesize a $\hat{\sigma}_z$ spin-dependent force by merely adjusting the beat-note frequency. Here, we expand on previous work and present a comprehensive theoretical and experimental investigation of this scheme with a laser near-resonant to a quadrupole transition in $^{88}$Sr$^+$. Further, we characterise its robustness to optical phase and qubit frequency offsets, and demonstrate its versatility by entangling optical, metastable, and ground state qubits.
翻訳日:2023-02-04 02:43:34 公開日:2022-12-01
# 絡み合いエントロピーと非局所双対性:量子チャネルと量子代数

Entanglement entropy and non-local duality: quantum channels and quantum algebras ( http://arxiv.org/abs/2207.12436v3 )

ライセンス: Link先を確認
Oliver DeWolfe and Kenneth Higginbotham(参考訳) 双対性の下での絡み合いエントロピーの変換を、逆場イジングモデルに存在するkramers-wannier双対性を用いて検討する。 局所的なスピン度の間の絡み合いエントロピーは双対性によって一般に保存されず、代わりに絡み合い状態は局所的な絡み合いのない状態にマッピングされる。 この絡み合いの運命を理解するために、自由度とその双対性の下での変換の2つの定量的記述を考える。 第一はクラウス作用素が部分トレースを量子チャネルとして実装し、第二は量子力学への代数的アプローチを利用しており、自由度は部分代数で符号化される。 両者のアプローチを用いて,局所自由度の絡み合いは失われず,代わりに双対性変換によって非局所自由度に移されることを示した。

We investigate the transformation of entanglement entropy under dualities, using the Kramers-Wannier duality present in the transverse field Ising model as our example. Entanglement entropy between local spin degrees of freedom is not generically preserved by the duality; instead, entangled states may be mapped to states with no local entanglement. To understand the fate of this entanglement, we consider two quantitative descriptions of degrees of freedom and their transformation under duality. The first involves Kraus operators implementing the partial trace as a quantum channel, while the second utilizes the algebraic approach to quantum mechanics, where degrees of freedom are encoded in subalgebras. Using both approaches, we show that entanglement of local degrees of freedom is not lost; instead it is transferred to non-local degrees of freedom by the duality transformation.
翻訳日:2023-02-03 19:29:10 公開日:2022-12-01
# 絡み合い検出性に関する基礎的限界

Fundamental Limitation on the Detectability of Entanglement ( http://arxiv.org/abs/2208.02518v2 )

ライセンス: Link先を確認
Pengyu Liu, Zhenhuan Liu, Shu Chen, Xiongfeng Ma(参考訳) 絡み合い検出は、量子情報科学および量子多体物理学において必須である。 ランダムな量子状態に対してほぼ確実に絡み合いが存在することが証明されているが、効果的な絡み合い基準の実現は通常指数的資源を消費し、効率的な基準はしばしば事前の知識なしではうまく機能しない。 この事実は、絡み合いの検出性に根本的な限界が存在することを示唆している。 本研究では,この制限を体系的手法を用いて,エンタングルメント基準の効率性と有効性との根本的なトレードオフとして定式化し,エンタングルメント基準の検出能力を理論的に評価する。 環境に結合したシステムでは,任意の絡み合い基準が指数関数的に多くの観測値を必要とすることが証明される。 さもなければ、基準の検出能力は2倍に低下する。 さらに,マルチコピージョイント測定が可能であれば,エンタングルメント検出の有効性が指数関数的に向上し,エンタングルメント検出問題における量子アドバンテージが示唆される。

Entanglement detection is essential in quantum information science and quantum many-body physics. It has been proved that entanglement exists almost surely for a random quantum state, while the realizations of effective entanglement criteria usually consume exponential resources, and efficient criteria often perform poorly without prior knowledge. This fact implies a fundamental limitation might exist in the detectability of entanglement. In this work, we formalize this limitation as a fundamental trade-off between the efficiency and effectiveness of entanglement criteria via a systematic method to theoretically evaluate the detection capability of entanglement criteria. For a system coupled to an environment, we prove that any entanglement criterion needs exponentially many observables to detect the entanglement effectively when restricted to single-copy operations. Otherwise, the detection capability of the criterion will decay double-exponentially. Furthermore, if multi-copy joint measurements are allowed, the effectiveness of entanglement detection can be exponentially improved, which implies a quantum advantage in entanglement detection problems.
翻訳日:2023-02-02 07:32:14 公開日:2022-12-01
# tsallisおよびrenyiエントロピーのエントロピー増分としてのコヒーレンス

Coherence as entropy increment for Tsallis and Renyi entropies ( http://arxiv.org/abs/2208.06840v2 )

ライセンス: Link先を確認
Anna Vershynina(参考訳) コヒーレンスの相対エントロピーは、相対エントロピーによって測定すると、元の状態とそれに最も近い非コヒーレント状態とのエントロピー差として書ける。 この状況を tsallis あるいは r\'enyi entropies に一般化すれば、良いコヒーレンス測度を定義するだろうか? 言い換えれば、Tsallis相対エントロピーによって測定されたとき、原状態のTsallisエントロピーとそれに最も近い非コヒーレント状態との差を定義する。 ツァリスエントロピーの代わりに R'enyi entropy をとると、よく知られた距離ベースの R'enyi coherence が導かれる。 興味深いことに、Tsallis entropyは、非常に制限的な操作のクラスでない限り、真のコヒーレンスモノトンさえ生成しない。 さらに, tsallis と r\'enyi のコヒーレンス表現の連続性推定を行う。 さらに, tsallis または r\'enyi の相対エントロピーによる測定では, 最接近不整合状態に基づく2つのコヒーレンス測度を示す。

Relative entropy of coherence can be written as an entropy difference of the original state and the incoherent state closest to it when measured by relative entropy. The natural question is, if we generalize this situation to Tsallis or R\'enyi entropies, would it define good coherence measures? In other words, we define a difference between Tsallis entropies of the original state and the incoherent state closest to it when measured by Tsallis relative entropy. Taking R\'enyi entropy instead of the Tsallis entropy, leads to the well-known distance-based R\'enyi coherence, which means this expression defined a good coherence measure. Interestingly, we show that Tsallis entropy does not generate even a genuine coherence monotone, unless it is under a very restrictive class of operations. Additionally, we provide continuity estimates for both Tsallis and R\'enyi coherence expressions. Furthermore, we present two coherence measures based on the closest incoherent state when measures by Tsallis or R\'enyi relative entropy.
翻訳日:2023-01-31 03:53:24 公開日:2022-12-01
# シンメトリー分解R'enyi忠実度と量子相転移

Symmetry-resolved R\'enyi fidelities and quantum phase transitions ( http://arxiv.org/abs/2208.09457v2 )

ライセンス: Link先を確認
Gilles Parez(参考訳) 我々は、量子r\'enyi のフィデリティの族を紹介し、それらの対称性の解決について論じる。 対称分解されたフィデリティを荷電フィデリティのフーリエ変換として表現し、ガウス状態の正確な公式を導出する。 これらの結果は、ガウス状態の全忠実度に関する公式も得られ、この論文の範囲を超えて応用が期待できる。 我々は XX スピン鎖のトータルおよび対称性分解忠実度について検討し、焦点をあてる。 一 熱状態と熱状態との間の忠実性 (ii)ゼロ温度における還元密度行列間のフィダリティ。 熱的および還元されたフィデリティは、xxスピン鎖の量子相転移を検出できる。 さらに、対称性分解されたフィパティは状態の内部構造に敏感であると主張する。 特に、臨界点における電荷セクタの再編成を通じて位相遷移を検出することができる。 これは我々が一般に期待する対称性分解された忠実性の主特徴である。 また,熱力学的限界下での量子相転移を検出することができることを強調する。

We introduce a family of quantum R\'enyi fidelities and discuss their symmetry resolution. We express the symmetry-resolved fidelities as Fourier transforms of charged fidelities, for which we derive exact formulas for Gaussian states. These results also yield a formula for the total fidelities of Gaussian states, which we expect to have applications beyond the scope of this paper. We investigate the total and symmetry-resolved fidelities in the XX spin chain, and focus on (i) fidelities between thermal states, and (ii) fidelities between reduced density matrices at zero temperature. Both thermal and reduced fidelities can detect the quantum phase transition of the XX spin chain. Moreover, we argue that symmetry-resolved fidelities are sensitive to the inner structure of the states. In particular, they can detect the phase transition through the reorganisation of the charge sectors at the critical point. This a main feature of symmetry-resolved fidelities which we expect to be general. We also highlight that reduced fidelities can detect quantum phase transitions in the thermodynamic limit.
翻訳日:2023-01-30 11:58:51 公開日:2022-12-01
# リー代数的量子位相還元

Lie Algebraic Quantum Phase Reduction ( http://arxiv.org/abs/2208.12006v2 )

ライセンス: Link先を確認
Wataru Setoyama and Yoshihiko Hasegawa(参考訳) 量子非線形振動子に対する位相還元理論の一般的な枠組みを提案する。 量子軌道理論を用いることで、確率的schr\"{o}dinger方程式に従って極限サイクル軌道と位相空間を定義する。 摂動は量子力学におけるユニタリ変換によって表されるので、リー代数に関して位相応答曲線を計算する。 提案手法は, 位相応答曲線の同期を誘導し, 位相応答曲線を変化させることを示す。 位相空間の結果として生じるクラスターは、密度演算子から得られる間接的な指標とは異なり、量子同期の観測可能なシグネチャを形成する。

We introduce a general framework of phase reduction theory for quantum nonlinear oscillators. By employing the quantum trajectory theory, we define the limit-cycle trajectory and the phase space according to a stochastic Schr\"{o}dinger equation. Because a perturbation is represented by unitary transformation in quantum dynamics, we calculate phase response curves with respect to Lie algebra. Our method shows that the proposed measurement induces synchronization and alters the phase response curves. The resulting clusters in the phase space form observable signature of the quantum synchronization, unlike indirect indicators obtained from density operators.
翻訳日:2023-01-29 21:24:17 公開日:2022-12-01
# 一般化量子マスター方程式に対する準古典的アプローチ

Quasiclassical approaches to the generalized quantum master equation ( http://arxiv.org/abs/2209.01076v2 )

ライセンス: Link先を確認
Graziano Amati, Maximilian A. C. Saller, Aaron Kelly, Jeremy O. Richardson(参考訳) 一般化量子マスター方程式(GQME)の定式化は、非断熱量子力学のシミュレーションにおける準古典的軌道法の精度と効率を同時に向上する有効なツールである。 GQMEは、非マルコフ運動方程式の項で相関関数を表現し、通常は高速に分解され、したがって短時間の準古典軌道によって計算できるメモリカーネルを含む。 本稿では,gqmeの近似解を2つの方法(ehrenfest平均場理論とスピン写像)で計算し,その近似解について検討する。 我々は,2つの電子レベル間のエネルギーバイアスを増大させるスピン-ボーソンモデルを用いて,そのアプローチをテストし,個体群の長期的限界に特に焦点をあてた。 その結果,gqmeの予測精度は,カーネル計算に用いる特定の手法に強く依存することがわかった。 特にスピンマッピングは、研究されている全てのシステムにおいてehrenfestよりも優れている。 スピンマッピングに影響を及ぼす非物理的負電子集団の問題は、この方法とマスター方程式を結合することによって解決される。 逆に、エレンフェストはgqmeと共に負の人口を予測できるが、直接力学から計算された人口は正定値である。

The formalism of the generalized quantum master equation (GQME) is an effective tool to simultaneously increase the accuracy and the efficiency of quasiclassical trajectory methods in the simulation of nonadiabatic quantum dynamics. The GQME expresses correlation functions in terms of a non-Markovian equation of motion, involving memory kernels which are typically fast-decaying and can therefore be computed by short-time quasiclassical trajectories. In this paper we study the approximate solution of the GQME, obtained by calculating the kernels with two methods, namely Ehrenfest mean-field theory and spin mapping. We test the approaches on a range of spin--boson models with increasing energy bias between the two electronic levels and place a particular focus on the long-time limits of the populations. We find that the accuracy of the predictions of the GQME depends strongly on the specific technique used to calculate the kernels. In particular, spin mapping outperforms Ehrenfest for all systems studied. The problem of unphysical negative electronic populations affecting spin mapping is resolved by coupling the method with the master equation. Conversely, Ehrenfest in conjunction with the GQME can predict negative populations, despite the fact that the populations calculated from direct dynamics are positive definite.
翻訳日:2023-01-28 04:01:41 公開日:2022-12-01
# 正定距離をもつ非ハーミット系に対する剛ヒルベルト空間アプローチ

Rigged Hilbert Space Approach for Non-Hermite Systems with Positive Definite Metric ( http://arxiv.org/abs/2209.01598v3 )

ライセンス: Link先を確認
Shousuke Ohmori and Junichi Takahashi(参考訳) 正定値計量を持つ非ヘルマイト量子系に対する厳密なヒルベルト空間に基づくディラックのブラケット形式について検討する。 まず、正定値計量によって特徴づけられるリグジットヒルベルト空間が確立される。 得られたヒルベルト空間に対する核スペクトル定理の助けを借りて、準ハーミット作用素の一般化固有ベクトルによってブラケットに対してスペクトル展開が示される。 スペクトル展開は、完全双直交系とヘルマイト系と非ヘルマイト系の間の変換理論に寄与するために用いられる。 応用例として、あるパリティ時間対称量子系に対する厳密なヒルベルト空間処理の具体的記述を示す。

We investigate Dirac's bra-ket formalism based on a rigged Hilbert space for a non-Hermite quantum system with a positive-definite metric. First, the rigged Hilbert space, characterized by positive-definite metric, is established. With the aid of the nuclear spectral theorem for the obtained rigged Hilbert space, spectral expansions are shown for the bra-kets by the generalized eigenvectors of a quasi-Hermite operator. The spectral expansions are utilized to endow the complete bi-orthogonal system and the transformation theory between the Hermite and non-Hermite systems. As an example of application, we show a specific description of our rigged Hilbert space treatment for some parity-time symmetrical quantum systems.
翻訳日:2023-01-27 23:17:12 公開日:2022-12-01
# フロッピー分子系と錯体の厳密な量子力学発展

Exact quantum dynamics developments for floppy molecular systems and complexes ( http://arxiv.org/abs/2209.08113v3 )

ライセンス: Link先を確認
Edit M\'atyus and Alberto Mart\'in Santa Dar\'ia and Gustavo Avila(参考訳) 分子の回転、振動、内部回転、異性化、トンネル化、弱い相互作用系の分子間動力学、分子間エネルギー移動、阻害された回転、表面上の障害付き変換は重要な分子運動である。 それらの基本的な正確かつ詳細な説明は、ポテンシャルエネルギー面上の核シュレーディンガー方程式を解いて得られる。 化学的に興味深い過程の多くは、複数のポテンシャルエネルギー井戸上で「非局在化」される量子核運動を含む。 これらの「大きな振幅」運動は振動問題の高次元性に加えて、現在の(ロ)振動法への挑戦を表している。 量子核運動法を概観し、核シュル=オディンガー方程式を解く現在のボトルネックを特定し、解戦略について検討する。 選択された数値例に対して, 限界モデルおよび分光関連概念の観点から, 技術的詳細, 計算結果, 解析を行った。

Molecular rotation, vibration, internal rotation, isomerization, tunneling, intermolecular dynamics of weakly and strongly interacting systems, intra-to-inter-molecular energy transfer, hindered rotation and hindered translation over surfaces are important types of molecular motions. Their fundamentally correct and detailed description can be obtained by solving the nuclear Schr\"odinger equation on a potential energy surface. Many of the chemically interesting processes involve quantum nuclear motions which are `delocalized' over multiple potential energy wells. These `large-amplitude' motions in addition to the high dimensionality of the vibrational problem represent challenges to the current (ro)vibrational methodology. A review of the quantum nuclear motion methodology is provided, current bottlenecks of solving the nuclear Schr\"odinger equation are identified, and solution strategies are reviewed. Technical details, computational results, and analysis of these results in terms of limiting models and spectroscopically relevant concepts are highlighted for selected numerical examples.
翻訳日:2023-01-26 09:15:45 公開日:2022-12-01
# 時間方向の実験的重ね合わせ

Experimental superposition of time directions ( http://arxiv.org/abs/2211.01283v2 )

ライセンス: Link先を確認
Teodor Str\"omberg, Peter Schiansky, Marco T\'ulio Quintino, Michael Antesberger, Lee Rozema, Iris Agresti, \v{C}aslav Brukner, Philip Walther(参考訳) マクロの世界では、時間は本質的に非対称であり、過去から未来にかけて特定の方向に流れる。 しかし、ある量子過程は時間反転の下で有効な量子進化を生み出すため、量子系では必ずしも同じことが当てはまるわけではない。 このような過程を両時間方向に探究できると仮定すると、前方方向と後方方向のコヒーレントな重ね合わせで探究された量子過程を考えることもできる。 これは、不明確な因果順序を持つものを含む、これまでの文献で考慮されたものよりも幅広い量子過程のクラスをもたらす。 そこで本研究では,この新しいクラスに属する演算として量子時間フリップ(quantum time flip)を初めて示す。 この演算のフォトニック化を用いて、2組の演算子間の識別タスクとして定式化されたゲームに適用する。 このゲームは無期限の時間方向の目撃者となるだけでなく、固定された時間方向と無期限の因果順序を持つものを用いた戦略よりも計算上の優位性をもたらす。

In the macroscopic world, time is intrinsically asymmetric, flowing in a specific direction, from past to future. However, the same is not necessarily true for quantum systems, as some quantum processes produce valid quantum evolutions under time reversal. Supposing that such processes can be probed in both time directions, we can also consider quantum processes probed in a coherent superposition of forwards and backwards time directions. This yields a broader class of quantum processes than the ones considered so far in the literature, including those with indefinite causal order. In this work, we demonstrate for the first time an operation belonging to this new class: the quantum time flip. Using a photonic realisation of this operation, we apply it to a game formulated as a discrimination task between two sets of operators. This game not only serves as a witness of an indefinite time direction, but also allows for a computational advantage over strategies using a fixed time direction, and even those with an indefinite causal order.
翻訳日:2023-01-20 16:38:09 公開日:2022-12-01
# ナノフォトニック導波路の存在下での双極子-双極子相互作用の修飾

Modified dipole-dipole interactions in the presence of a nanophotonic waveguide ( http://arxiv.org/abs/2211.13595v2 )

ライセンス: Link先を確認
Mathias B. M. Svendsen, Beatriz Olmos(参考訳) エミッタアンサンブルが電磁界と相互作用すると、エミッタ間で双極子-双極子相互作用が引き起こされる。 これらの相互作用の大きさと形状は電磁場モードの特定の形態によって決定される。 円筒状ナノファイバーのようなナノフォトニック導波路近傍にエミッタを配置すると、これらのモードの複雑な機能形態は双極子-双極子相互作用の解析的評価を煩雑で数値的に高価に行う。 本稿では,これらの相互作用をうまく計算する方法を詳細に説明し,他の環境や境界条件に容易に拡張できる方法を概説する。 このような正確な評価は、この種のシステムにおける相互作用と散逸の集合的な特徴のため、相互作用の小さな変更は、特にエミッターの数が増加するにつれて、実験的な観測可能性に劇的な変化をもたらす可能性がある。 本稿では, 円筒状ナノファイバーで導かれる光の伝達信号を, 近傍のエミッタ鎖の存在下で計算することによって, これを説明する。

When an emitter ensemble interacts with the electromagnetic field, dipole-dipole interactions are induced between the emitters. The magnitude and shape of these interactions are fully determined by the specific form of the electromagnetic field modes. If the emitters are placed in the vicinity of a nanophotonic waveguide, such as a cylindrical nanofiber, the complex functional form of these modes makes the analytical evaluation of the dipole-dipole interaction cumbersome and numerically costly. In this work, we provide a full detailed description of how to successfully calculate these interactions, outlining a method that can be easily extended to other environments and boundary conditions. Such exact evaluation is of importance as, due to the collective character of the interactions and dissipation in this kind of systems, any small modification of the interactions may lead to dramatic changes in experimental observables, particularly as the number of emitters increases. We illustrate this by calculating the transmission signal of the light guided by a cylindrical nanofiber in the presence of a nearby chain of emitters.
翻訳日:2023-01-18 22:49:50 公開日:2022-12-01
# 連続量子場理論のための変分ニューラルネットワークアンサッツ

Variational Neural-Network Ansatz for Continuum Quantum Field Theory ( http://arxiv.org/abs/2212.00782v1 )

ライセンス: Link先を確認
John M. Martyn, Khadijeh Najafi, Di Luo(参考訳) ファインマンにさかのぼる物理学者は、量子場理論に変分原理を適用することの難しさを嘆いている。 非相対論的場の量子論では、状態のフォック空間表現を構成する無限に多くの$n$粒子波動関数をパラメータ化し、最適化することが課題である。 ここでは,連続体における非相対論的量子場理論への変分原理の適用を可能にする深層学習アンサッツであるニューラルネットワーク量子場状態を導入することにより,この問題にアプローチする。 我々のansatzは、ディープセットニューラルネットワークアーキテクチャを使用して、量子場状態を含むn$-particle波関数のすべてを同時にパラメータ化します。 我々は、ansatzを用いて、不均一系や長距離相互作用を持つ系を含む様々な場理論の基底状態の近似を行い、量子場理論を探索する強力な新しいツールを示す。

Physicists dating back to Feynman have lamented the difficulties of applying the variational principle to quantum field theories. In non-relativistic quantum field theories, the challenge is to parameterize and optimize over the infinitely many $n$-particle wave functions comprising the state's Fock space representation. Here we approach this problem by introducing neural-network quantum field states, a deep learning ansatz that enables application of the variational principle to non-relativistic quantum field theories in the continuum. Our ansatz uses the Deep Sets neural network architecture to simultaneously parameterize all of the $n$-particle wave functions comprising a quantum field state. We employ our ansatz to approximate ground states of various field theories, including an inhomogeneous system and a system with long-range interactions, thus demonstrating a powerful new tool for probing quantum field theories.
翻訳日:2023-01-09 23:07:28 公開日:2022-12-01
# 開量子系の対称性:散逸性量子カオスの分類

Symmetry of open quantum systems: Classification of dissipative quantum chaos ( http://arxiv.org/abs/2212.00605v1 )

ライセンス: Link先を確認
Kohei Kawabata, Anish Kulkarni, Jiachen Li, Tokiro Numasawa, Shinsei Ryu(参考訳) 開量子系における対称性の理論を開発する。 作用素状態写像を用いて、二重ヒルベルト空間の作用素の対称性により開量子力学に対するリウヴィリア超作用素の対称性を特徴づけ、非エルミート作用素の38倍の内部対称性分類を適用する。 対応する閉量子系における対称性とリウヴィリアン超作用素の構成に内在する対称性との相互作用によって、リッチ対称性の分類が見つかる。 開量子ボソニック系の実例として、散逸性量子スピンモデルの対称性クラスを研究する。 開量子フェルミオン系に対しては、閉量子系における$\mathbb{Z}_8$分類とは対照的な、二重ヒルベルト空間におけるフェルミオンパリティ対称性と反単位対称性の$\mathbb{Z}_4$分類を開発する。 また、開量子フェルミオン多体系の対称性分類(Sachdev-Ye-Kitaev(SYK)モデルの散逸一般化)をリンドブラッドマスター方程式で記述する。 我々はSYKリンドブラディアンの周期表を確立し、SYKハミルトニアンとの違いを解明する。 さらに,その複素スペクトル統計を広範囲な数値計算から検討し,対称性に富む散逸量子カオスを実証する。

We develop a theory of symmetry in open quantum systems. Using the operator-state mapping, we characterize symmetry of Liouvillian superoperators for the open quantum dynamics by symmetry of operators in the double Hilbert space and apply the 38-fold internal-symmetry classification of non-Hermitian operators. We find rich symmetry classification due to the interplay between symmetry in the corresponding closed quantum systems and symmetry inherent in the construction of the Liouvillian superoperators. As an illustrative example of open quantum bosonic systems, we study symmetry classes of dissipative quantum spin models. For open quantum fermionic systems, we develop the $\mathbb{Z}_4$ classification of fermion parity symmetry and antiunitary symmetry in the double Hilbert space, which contrasts with the $\mathbb{Z}_8$ classification in closed quantum systems. We also develop the symmetry classification of open quantum fermionic many-body systems -- a dissipative generalization of the Sachdev-Ye-Kitaev (SYK) model described by the Lindblad master equation. We establish the periodic tables of the SYK Lindbladians and elucidate the difference from the SYK Hamiltonians. Furthermore, from extensive numerical calculations, we study its complex-spectral statistics and demonstrate dissipative quantum chaos enriched by symmetry.
翻訳日:2023-01-09 23:06:35 公開日:2022-12-01
# 変分量子アルゴリズムのためのハイブリッドゲートパルスモデル

Hybrid Gate-Pulse Model for Variational Quantum Algorithms ( http://arxiv.org/abs/2212.00661v1 )

ライセンス: Link先を確認
Zhiding Liang, Zhixin Song, Jinglei Cheng, Zichang He, Ji Liu, Hanrui Wang, Ruiyang Qin, Yiru Wang, Song Han, Xuehai Qian, Yiyu Shi(参考訳) 現在の量子プログラムは主に、量子回路が量子ゲートで構成されているゲートレベルで合成され、コンパイルされる。 しかし、ゲートレベルのワークフローは、量子ゲートが最終的に制御信号に変換され、量子デバイスに適用されるとき、大きな冗長性をもたらす。 超伝導量子コンピュータでは、制御信号はマイクロ波パルスである。 そのため、パルスレベルの最適化は回路長の利点から研究者から注目されている。 しかし、最近の研究は、制御信号の大きなパラメータ空間によってもたらされるスケーラビリティの低さによって制限されている。 さらに、ゲートレベルの"知識"の欠如は、純粋なパルスレベルのフレームワークのパフォーマンスにも影響を及ぼす。 これらの問題を緩和できるハイブリッドゲートパルスモデルを提案する。 本稿では,量子回路の"固定"部分に対してゲートレベルのコンパイルと最適化を行い,問題のない部分に対してパルスレベルの手法を適用することを提案する。 実験結果は離散最適化タスクにおける提案フレームワークの有効性を示す。 問題非依存層におけるパルス持続時間を60%短縮し,8%以上の性能向上を実現した。

Current quantum programs are mostly synthesized and compiled on the gate-level, where quantum circuits are composed of quantum gates. The gate-level workflow, however, introduces significant redundancy when quantum gates are eventually transformed into control signals and applied on quantum devices. For superconducting quantum computers, the control signals are microwave pulses. Therefore, pulse-level optimization has gained more attention from researchers due to their advantages in terms of circuit duration. Recent works, however, are limited by their poor scalability brought by the large parameter space of control signals. In addition, the lack of gate-level "knowledge" also affects the performance of pure pulse-level frameworks. We present a hybrid gate-pulse model that can mitigate these problems. We propose to use gate-level compilation and optimization for "fixed" part of the quantum circuits and to use pulse-level methods for problem-agnostic parts. Experimental results demonstrate the efficiency of the proposed framework in discrete optimization tasks. We achieve a performance boost at most 8% with 60% shorter pulse duration in the problem-agnostic layer.
翻訳日:2023-01-09 22:40:35 公開日:2022-12-01
# anyonsによる量子コンピューティング:$f$マトリックスとブレイド計算機

Quantum computing with anyons: an $F$-matrix and braid calculator ( http://arxiv.org/abs/2212.00831v1 )

ライセンス: Link先を確認
Willie Aboumrad(参考訳) 我々は,SageMathの一部として利用可能なペンタゴン方程式解法を導入し,それを用いて任意のシステムに関連付けられたブレイド群表現を構築する。 我々は、トポロジカル量子計算のカテゴリ理論の枠組みを思い出し、これらの表現が情報処理のための正準量子コンピュータで利用可能な論理ゲートの集合を記述する方法について説明する。 そうすることで、トポロジカルまたは共形場の量子論に深く入り込むのを避けることができる。 代わりに、ペンタゴンや六角形方程式を含む多くの公理を満たすデータの集合とともにラベルの集合として抽象的に表現し、これらのデータがリボン融合カテゴリ(RFC)をどう特徴づけるかを説明する。 rfc の言語では、変形パラメータがユニティの根である単純リー代数に付随する量子群の表現論に関連して生じる多重度フリーな核融合環に対応する任意のオン系に対する$f$-行列を生成できる。

We introduce a pentagon equation solver, available as part of SageMath, and use it to construct braid group representations associated to certain anyon systems. We recall the category-theoretic framework for topological quantum computation to explain how these representations describe the sets of logical gates available to an anyonic quantum computer for information processing. In doing so, we avoid venturing deep into topological or conformal quantum field theory. Instead, we present anyons abstractly as sets of labels together with a collection of data satisfying a number of axioms, including the pentagon and hexagon equations, and explain how these data characterize ribbon fusion categories (RFCs). In the language of RFCs, our solver can produce $F$-matrices for anyon systems corresponding to multiplicity-free fusion rings arising in connection with the representation theory of quantum groups associated to simple Lie algebras with deformation parameter a root of unity.
翻訳日:2023-01-09 22:40:22 公開日:2022-12-01
# algorithmicaにおける量子暗号

Quantum Cryptography in Algorithmica ( http://arxiv.org/abs/2212.00879v1 )

ライセンス: Link先を確認
William Kretschmer, Luowen Qian, Makrand Sinha, Avishay Tal(参考訳) 古典オラクルは、$\mathsf{p} = \mathsf{np}$ しかし、単一コピーのセキュアな疑似ランダム量子状態が存在する。 インパグリアッツォの5つの世界の言語では、これは"Algorithmica"における擬似ランダム状態の構成であり、従ってブラックボックスの設定では、一方の関数が存在しなくても擬似ランダム状態に基づく量子暗号が可能であることを示す。 その結果、(1)擬似乱数状態を構成するのに十分であり、(2)ランダムなオラクルを保ち、(3)ブラックボックス設定における$\mathsf{P}$対$\mathsf{NP}$とは独立である暗号ハッシュ関数の性質が示されている。 また、我々の結果をマルチコピー安全な擬似ランダム状態に一般化する予想も導入する。 Aaronson, Ingram, and Kretschmer (CCC 2022) によるオラクルの最近の構成に基づき、OR $\circ$ Forrelation 問題の硬さに基づき、$\mathsf{P} = \mathsf{NP}$ と $\mathsf{BQP} \neq \mathsf{QCMA}$ が成り立つ。 我々の証明はまた、 Forrelation 分布の新しい離散的に定義された変種を導入し、$\mathsf{AC^0}$ 回路に対して擬似ランダム性を証明する。 この変種は独立した興味を持つかもしれない。

We construct a classical oracle relative to which $\mathsf{P} = \mathsf{NP}$ yet single-copy secure pseudorandom quantum states exist. In the language of Impagliazzo's five worlds, this is a construction of pseudorandom states in "Algorithmica," and hence shows that in a black-box setting, quantum cryptography based on pseudorandom states is possible even if one-way functions do not exist. As a consequence, we demonstrate that there exists a property of a cryptographic hash function that simultaneously (1) suffices to construct pseudorandom states, (2) holds for a random oracle, and (3) is independent of $\mathsf{P}$ vs. $\mathsf{NP}$ in the black-box setting. We also introduce a conjecture that would generalize our results to multi-copy secure pseudorandom states. We build on the recent construction by Aaronson, Ingram, and Kretschmer (CCC 2022) of an oracle relative to which $\mathsf{P} = \mathsf{NP}$ but $\mathsf{BQP} \neq \mathsf{QCMA}$, based on hardness of the OR $\circ$ Forrelation problem. Our proof also introduces a new discretely-defined variant of the Forrelation distribution, for which we prove pseudorandomness against $\mathsf{AC^0}$ circuits. This variant may be of independent interest.
翻訳日:2023-01-09 22:40:07 公開日:2022-12-01
# 調和振動子、スピン1/2および二段熱機関系における量子力学および幾何相

Quantum dynamic and geometric phases in harmonic oscillator, spin 1/2 and two-level thermal engines systems ( http://arxiv.org/abs/2212.02970v1 )

ライセンス: Link先を確認
Y.Ben-Aryeh(参考訳) 作動媒質が単一高調波発振器である量子熱機関に対して動的位相を求める。 このエンジンの動力学は、2ステップで時間依存周波数が変化している4ステップを用いて得られる。 他の2つのステップでは、熱エンジンは熱湯と冷湯に代えて結合される。 同様の動的位相は、加工媒体がスピン1/2系である量子熱機関で得られる。 最大効率を得るための量子エンジンにおけるそのようなステップの持続時間の役割を解析する。 2つの貯水池に結合した量子ドット内の電荷ポンプのダイナミクスについて検討した。 幾何位相を得るためのゆらぎを含む多くの変調パラメータの効果を解析した。 サーマルエンジンの別段は非環状回路を記述するため, ゲージ不変な非環状回路に対するサーマルエンジンの幾何位相を測定するための特別な手法を提案する。

Dynamical phases are obtained for a quantum thermal engine, whose working medium is a single harmonic oscillator. The dynamics of this engine is obtained by using four steps where in two steps the time dependent frequency is changing. In the other two steps, the thermal engine is coupled alternatively to hot and cold heat baths. Similar dynamical phases are obtained in a quantum thermal engine whose working medium is spin 1/2 system. The role of times durations of such steps in the quantum engines for getting maximal efficiency is analyzed. The dynamic of charge pumping in a quantum dot coupled to two reservoirs is studied. The effects of many modulation parameters including their fluctuations for getting geometric phases are analyzed. Since the separate steps in thermal engines describe non-cyclic circuits, we propose to use a special method for measuring geometric phases in thermal engines for non-cyclic circuits which is gauge invariant.
翻訳日:2023-01-09 22:30:23 公開日:2022-12-01
# 量子コンピュータ上のマトリックスビッグバン

A Matrix Big Bang on a Quantum Computer ( http://arxiv.org/abs/2212.00260v1 )

ライセンス: Link先を確認
Viti Chandra, Yuan Feng, Michael McGuigan(参考訳) m-理論は、異なる弦理論を1つの低い次元で統一しようとする謎の理論である。 最も研究された例は11次元であるが、他の次元も検討されている。 非臨界 M-理論は異なる非臨界弦理論を統一しようとする。 計算の観点からは、非臨界 m-理論は 11 次元 m-理論よりも場が少ないため、シミュレートがより簡単である。 非臨界M-理論の単純さは量子コンピューティングに受け継がれ、量子シミュレーションは臨界M-理論よりも少ない量子ビットとパウリ項を必要とすることを示す。 量子計算の例として、有限差分および発振器基底における非臨界M-理論の行列モデルの基底状態エネルギーの量子計算を行い、変分量子固有解法(VQE)アルゴリズムを用いて、異なる基底のパウリ項の精度、量子ビット数、および数を比較する。 量子コンピュータ上での「マトリックスビッグバン」と呼ばれる時空特異点を持つ非臨界M-理論解を、トロッター近似を用いてハミルトン量子アルゴリズムの進化(EOH)を用いて研究し、量子計算を用いて得られる精度と結果を比較する。 最後に,3次元M-理論行列モデルのBRST量子化について,量子計算とBRST不変状態の計算を,VQEアルゴリズムを用いたBRSTラプラシアンの研究により検討する。

M-theory is a mysterious theory that seeks to unite different string theories in one lower dimension. The most studied example is eleven dimensional but other dimensions have been considered. The non-critical M-theories seek to unite different non-critical string theories. From the point of view of computing, non-critical M-theories should be simpler to simulate as they have fewer fields than eleven dimensional M-theory. The simplicity of non-critical M-theory carries over to quantum computing and we show that the quantum simulation requires fewer qubits and Pauli terms than critical M-theory. As an example quantum calculation we study the quantum computation of the ground state energy of Matrix models of non-critical M-theory in 3d in the finite difference and oscillator basis and compare the accuracy, number of qubits and number of Pauli terms of the different basis using the Variational Quantum Eigensolver (VQE) algorithm. We study non-critical M- Theory solutions with space-time singularities referred to as a "Matrix Big Bang" on the Quantum Computer using the Evolution of Hamiltonian (EOH) quantum algorithm using the Trotter approximation and compare the accuracy and results the can be obtained using quantum computation. Finally we consider the BRST quantization of the 3d M-theory Matrix model using quantum computation and compute BRST invariant states by studying the BRST Laplacian using the VQE algorithm.
翻訳日:2023-01-09 22:29:43 公開日:2022-12-01
# サブフィールド計量とその量子誤差補正への応用

The Subfield Metric and its Application to Quantum Error Correction ( http://arxiv.org/abs/2212.00431v1 )

ライセンス: Link先を確認
Markus Grassl, Anna-Lena Horlemann, Violetta Weger(参考訳) 非対称誤差補正のための有限拡大体上の新しい重みと対応する計量を導入する。 重みは、基底場の要素と外部の要素を区別するが、これは非対称量子符号によって動機付けられる。 我々は、この重みと計量に関する理論的な枠組み(上界と下界を含む)を設定し、ランダムコードの漸近的挙動を示し、シングルトン型上界を達成する最適な符号群の存在を示す。

We introduce a new weight and corresponding metric over finite extension fields for asymmetric error correction. The weight distinguishes between elements from the base field and the ones outside of it, which is motivated by asymmetric quantum codes. We set up the theoretic framework for this weight and metric, including upper and lower bounds, asymptotic behavior of random codes, and we show the existence of an optimal family of codes achieving the Singleton-type upper bound.
翻訳日:2023-01-09 22:29:06 公開日:2022-12-01
# 反射の反射

Reflections on reflections ( http://arxiv.org/abs/2212.00550v1 )

ライセンス: Link先を確認
Kuan-Nan Lin, Pisin Chen(参考訳) 1+3)次元平面時空における完全反射鏡から放射されるアナログホーキング放射について検討した。 これはアインシュタイン鏡に基づく反射周波数と運動量の研究によって達成され、可能であれば動的ディリクレ境界条件の下での波動方程式の解法の代わりに得られる。 有限サイズのミラーの場合、回折パターンは放射スペクトルに現れる。 提案したAnaBHEL実験における関連するパラメータに基づいて、ホーキング温度TH = 0.03 eVとミラー面積A = 0.1 mm2を推定し、ホーキング光子収率をレーザーショット当たりのN = 16と推定する(AnaBHEL実験で高反射率ミラーが生成されると仮定する)。

Analog Hawking radiation emitted by a perfectly reflecting mirror in (1+3)-dimensional flat spacetime is investigated. This is accomplished by studying the reflected frequency and momentum based on Einstein mirror, instead of the canonical way of solving, if possible, wave equations subjected to a dynamical Dirichlet boundary condition. In the case of a finite-size mirror, diffraction pattern appears in the radiation spectrum. Based on the relevant parameters in the proposed AnaBHEL experiment, where the Hawking temperature TH = 0.03 eV and the mirror area A = 0.1 mm2, the Hawking photon yield is estimated to be N = 16 per laser shot (assuming a high reflectivity mirror can be generated in the proposed AnaBHEL experiment).
翻訳日:2023-01-09 22:28:32 公開日:2022-12-01
# 自動量子ソフトウェアエンジニアリング:なぜか? 何だって? どうやって?

Automated Quantum Software Engineering: why? what? how? ( http://arxiv.org/abs/2212.00619v1 )

ライセンス: Link先を確認
Aritra Sarkar(参考訳) この記事では、AQSE(Automated Quantum Software Engineering)の研究に関する個人的な見解を提供する。 aqse(why??)、そのようなフレームワークの正確な説明(what??)、実装に必要なコンポーネントのリフレクション(how??)などを研究する動機が解明されている。

This article provides a personal perspective on research in Automated Quantum Software Engineering (AQSE). It elucidates the motivation to research AQSE (why?), a precise description of such a framework (what?), and reflections on components that are required for implementing it (how?).
翻訳日:2023-01-09 22:28:17 公開日:2022-12-01
# 導波束を用いた循環超電導量子冷凍機

Cyclic Superconducting Quantum Refrigerators Using Guided Fluxon Propagation ( http://arxiv.org/abs/2212.00277v1 )

ライセンス: Link先を確認
Tathagata Karmakar, \'Etienne Jussiau, Sreenath K. Manikandan, Andrew N. Jordan(参考訳) 冷却剤として第二種超伝導体(別名フラックス)内の磁場渦の気体を用いる固体状態の循環型量子冷凍を提案する。 冷凍サイクルは、断熱アームと等温アームの両方からなるレーストラック形状をII型超伝導体にエッチングすることで実現される。 競馬場におけるフラクソンの誘導伝播は、試料を通してコルビノ幾何の外部電流を印加することによって達成される。 レーストラックを横切る磁場の勾配が設定され、断熱的に冷却され、フラクトンを加熱し、それぞれ寒冷と高温の貯水池と熱交換する。 本研究では, 熱力学的に, $s-$wave と $d-$wave のペアリング対称性の双方に対して, 冷却サイクルの定常状態を特徴付けるとともに, 冷却電力の供給, 性能係数などの特性を示す。 我々の冷却原理は, 従来の希釈冷凍機で実現可能な基本温度以下で局所的に冷却することにより, オンチップのマイクロ冷凍用として重要な冷却を提供することができる。 典型的な運転条件下で単位面積あたりの冷却電力は10\mathrm{nw}/\mathrm{mm}^2$である。 フラクトン冷蔵庫を量子回路に統合することで、熱ゆらぎを局所的に抑制することでコヒーレンス時間を短縮し、単一光子検出器と電荷センサーの効率を向上させることができる。

We propose cyclic quantum refrigeration in solid-state, employing a gas of magnetic field vortices in a type-II superconductor -- also known as fluxons -- as the cooling agent. Refrigeration cycles are realized by envisioning a racetrack geometry consisting of both adiabatic and isothermal arms, etched into a type-II superconductor. The guided propagation of fluxons in the racetrack is achieved by applying an external electrical current, in a Corbino geometry, through the sample. A gradient of magnetic field is set across the racetrack allowing one to adiabatically cool down and heat up the fluxons, which subsequently exchange heat with the cold, and hot reservoirs, respectively. We characterize the steady state of refrigeration cycles thermodynamically for both $s-$wave and $d-$wave pairing symmetries, and present their figures of merit such as the cooling power delivered, and the coefficient of performance. Our cooling principle can offer significant cooling for on-chip micro-refrigeration purposes, by locally cooling below the base temperatures achievable in a conventional dilution refrigerator. We estimate $10\mathrm{nW}/\mathrm{mm}^2$ of cooling power per unit area under typical operating conditions. Integrating the fluxon fridge to quantum circuits can enhance their coherence time by locally suppressing thermal fluctuations, and improve the efficiency of single photon detectors and charge sensors.
翻訳日:2023-01-09 20:03:01 公開日:2022-12-01
# 超伝導量子回路における故障モデル

Fault Models in Superconducting quantum circuits ( http://arxiv.org/abs/2212.00337v1 )

ライセンス: Link先を確認
Qifan Huang, Boxi Li, Minbo Gao, Mingsheng Ying(参考訳) 量子ハードウェアの設計と実装において、障害モデルは多くのedaタスクにとって不可欠である。 本稿では,超伝導量子システムの故障モデルを提案する。 我々の断層モデルは、制御信号の実際の故障挙動と量子系の構造を反映している。 そこで我々はQuTiPによる制御Zゲートと量子回路の故障シミュレーションを行った。 コヒーレントな障害に対する忠実度ベンチマークと、コヒーレントな障害に対する最小限のテスト反復テストパターンを提供する。 その結果、34回の繰り返しで10%の制御ノイズを検出でき、テスト時間とメモリを節約できることがわかった。

Fault models are indispensable for many EDA tasks, so as for design and implementation of quantum hardware. In this article, we propose a fault model for superconducting quantum systems. Our fault model reflects the real fault behavior in control signals and structure of quantum systems. Based on it, we conduct fault simulation on controlled-Z gate and quantum circuits by QuTiP. We provide fidelity benchmarks for incoherent faults and test patterns of minimal test repetitions for coherent faults. Results show that with 34 test repetitions a 10% control noise can be detected, which help to save test time and memory.
翻訳日:2023-01-09 20:02:37 公開日:2022-12-01
# 2次元磁気量子ウォークにおける非相互性操作

Manipulating non-reciprocity in a two-dimensional magnetic quantum walk ( http://arxiv.org/abs/2212.00387v1 )

ライセンス: Link先を確認
Quan Lin, Wei Yi and Peng Xue(参考訳) 非相互性は、基礎物理学と量子デバイス設計において重要なトピックであり、その工学と操作に多くの努力が注がれている。 本研究では,光子の2次元量子ウォークにおける非相反輸送を実験的に示し,方向伝播は散逸と合成磁束によって高度に調整可能であることを示した。 非相反ダイナミクスは非エルミート皮膚効果の顕現であり、その方向は光子損失パラメータを通じて連続的に調整可能である。 対照的に、合成フラックスは、磁気閉じ込めによる非エルミート皮膚効果と競合する工学的幾何学的位相に由来する。 さらに,非相反性と合成フラックスがフロッケ位相エッジモードの力学にどのように影響するかを示す。 この結果は、より高次元の量子系における非ヘルミティリティとゲージ場の相互作用を強調する、波長可変非相反輸送を実現するための興味深い戦略を示す。

Non-reciprocity is an important topic in fundamental physics and quantum-device design, as much effort has been devoted to its engineering and manipulation. Here we experimentally demonstrate non-reciprocal transport in a two-dimensional quantum walk of photons, where the directional propagation is highly tunable through dissipation and synthetic magnetic flux. The non-reciprocal dynamics hereof is a manifestation of the non-Hermitian skin effect, with its direction continuously adjustable through the photon-loss parameters. By contrast, the synthetic flux originates from an engineered geometric phase, which competes with the non-Hermitian skin effect through magnetic confinement. We further demonstrate how the non-reciprocity and synthetic flux impact the dynamics of the Floquet topological edge modes along an engineered boundary. Our results exemplify an intriguing strategy for achieving tunable non-reciprocal transport, highlighting the interplay of non-Hermiticity and gauge fields in quantum systems of higher dimensions.
翻訳日:2023-01-09 20:02:30 公開日:2022-12-01
# 光光シフトのスピンノイズ分光

Spin noise spectroscopy of optical light shifts ( http://arxiv.org/abs/2212.00401v1 )

ライセンス: Link先を確認
Joseph Delpy, Shikang Liu, Pascal Neveu, E Wu, Fabien Bretenaker, and Fabienne Goldfarb(参考訳) 光誘起非平衡スピンノイズ分光法は、理論的および実験的に、プローブ遷移における構造とコヒーレント効果を明らかにする効率的な技術であることが示されている。 実際、準安定ヘリウムを用いて、スピンノイズスペクトルはラーモア周波数の周りの二重ピーク構造を示す。 この以前は観測されなかった特徴は、関連するレベルの光のシフトによるもので、プローブのパワー、変形、偏光方向に強く依存している。 数値モデルと解析モデルの両方がスピンノイズスペクトルの詳細をうまく再現しており、この手法により光のシフトをシンプルかつ直接測定することができ、偏光依存は非曖昧な方法でレベル構造を明らかにすることができる。

Light induced non-equilibrium spin noise spectroscopy is theoretically and experimentally shown to be an efficient technique to reveal the structure and the coherent effects in the probed transition. Indeed, using metastable helium, the spin noise spectrum is shown to exhibit a dual-peak structure around the Larmor frequency. This previously unobserved feature is due to the light shifts of the involved levels and strongly depends on the probe power, detuning, and polarization orientation. Both numerical and analytical models reproduce very well the details of the split spin noise spectra: this technique thus allows a simple and direct measurement of the light shifts, and its polarization dependence permits to reveal the level structure in a non ambiguous manner.
翻訳日:2023-01-09 20:02:14 公開日:2022-12-01
# 多体弱値による物理空間と構成空間の量子熱化評価

Assessing Quantum Thermalization in Physical and Configuration Spaces via Many-Body Weak Values ( http://arxiv.org/abs/2212.00410v1 )

ライセンス: Link先を確認
Carlos F. Destefani and Xavier Oriols(参考訳) シュレーディンガー方程式によって記述された孤立量子系における時間の矢印の起源を考察する。 構成空間の弱い値から説明し、明確に定義されたプロトコルに従って実験室で得られた操作特性として理解する。 固有状態熱化仮説を満足する量子系は、同じ操作確率分布から同時に熱的アンサンブル期待値と非熱的弱値を同時に得られることを示した。 運動量の弱い値が固有状態の熱化仮説から脱却する理由は、エネルギー表現における密度行列の対角外要素のみに関係しているからである。 しかし、識別不能な粒子の場合、操作性は構成空間では定義できない。 したがって、シュレーディンガー方程式によって説明される孤立量子系における時間の矢印の起源は、構成空間のある程度の自由度を平均化(トレースアウト)することによって得られる性質を扱うことから生じる。 熱化は、構成空間で定義された性質には生じず、熱化は物理空間で定義された性質の真の現象であると主張するものと矛盾する。 これらの結論はすべて、多体弱値を通じて実験室で検証可能である。

We explore the origin of the arrow of time in an isolated quantum system described by the Schroedinger equation. We provide an explanation from weak values in the configuration space, which are understood as operational properties obtained in the laboratory following a well-defined protocol. We show that quantum systems satisfying the eigenstate thermalization hypothesis can simultaneously provide thermalized ensemble expectation values and nonthermalized weak values of the momentum, both from the same operational probability distribution. The reason why weak values of the momentum may escape from the eigenstate thermalization hypothesis is because they are linked only to off-diagonal elements of the density matrix in the energy representation. For indistinguishable particles, however, operational properties can not be defined in the configuration space. Therefore, we state that the origin of the arrow of time in isolated quantum systems described by the Schroedinger equation comes from dealing with properties obtained by averaging (tracing out) some degrees of freedom of the configuration space. We then argue that thermalization does not occur in the properties defined in the configuration space, and our argument is compatible with defending that thermalization is a real phenomenon in the properties defined in the physical space. All of these conclusions are testable in the laboratory through many-body weak values.
翻訳日:2023-01-09 20:02:01 公開日:2022-12-01
# 100ns以下の時間分解能を持つ単一Er$^{3+}$イオンの光イオン化検出

Photoionization detection of a single Er$^{3+}$ ion with sub-100-ns time resolution ( http://arxiv.org/abs/2212.00440v1 )

ライセンス: Link先を確認
Yangbo Zhang, Wenda Fan, Jiliang Yang, Hao Guan, Qi Zhang, Xi Qin, Changkui Duan, Gabriele G. de Boo, Brett C. Johnson, Jeffrey C. McCallum, Matthew J. Sellars, Sven Rogge, Chunming Yin, Jiangfeng Du(参考訳) 固体中の単一光中心の効率的な検出は、量子情報処理、センシング、単一光子生成に不可欠である。 本研究では, 高周波反射法を用いてsi中の1つのer$^{3+}$イオンによって誘起される光電離を電気的に検出する。 RF反射計の高帯域幅と感度は、光イオン化検出のための100ns以下の時間分解能を提供する。 この方法では、siナノトランジスタ内の1つのer$^{3+}$イオンの光学励起状態の寿命を初めて測定し、0.049$\pm$ 0.04$\mu$sとなる。 本研究は,er励起と緩和によって引き起こされる電荷状態変化を効率的に検出する手法を示す。 このアプローチは固体中の他の単一光中心の高速読み出しに利用することができ、周波数多重化技術で示されるマルチチャンネルrf反射法のおかげで、大規模集積光量子システムにとって魅力的である。

Efficient detection of single optical centers in solids is essential for quantum information processing, sensing, and single-photon generation applications. In this work, we use radio-frequency (RF) reflectometry to electrically detect the photoionization induced by a single Er$^{3+}$ ion in Si. The high bandwidth and sensitivity of the RF reflectometry provide sub-100-ns time resolution for the photoionization detection. With this technique, the optically excited state lifetime of a single Er$^{3+}$ ion in a Si nano-transistor is measured for the first time to be 0.49 $\pm$ 0.04 $\mu$s. Our results demonstrate an efficient approach for detecting a charge state change induced by Er excitation and relaxation. This approach could be used for fast readout of other single optical centers in solids and is attractive for large-scale integrated optical quantum systems thanks to the multi-channel RF reflectometry demonstrated with frequency multiplexing techniques.
翻訳日:2023-01-09 20:01:42 公開日:2022-12-01
# 長時間の平衡は過渡熱度を決定することができる

Long-time equilibration can determine transient thermality ( http://arxiv.org/abs/2212.00698v1 )

ライセンス: Link先を確認
Karen V. Hovhannisyan, Somayyeh Nemati, Carsten Henkel, Janet Anders(参考訳) 2つの熱多体系が強く相互作用し始めると、それらの過渡状態はすぐに非ギブス状態になる。 過渡的構造における明らかな構造の欠如を乗り越えるために、我々はg-局所と呼ばれる、洗練された熱性の概念を用いる。 もし全ての小さなサブシステムの状態が大域的な熱状態の限界であるなら、システムはg局所熱である。 2つの調和格子を数値的に示し、全系が長い周期で平衡するたびに、各格子は常にg局所的に熱的であり、過渡状態を含む。 これは、格子がそれらの内部に長距離相互作用を持つときでも当てはまる。 いずれの場合においても、平衡は一般化ギブスアンサンブルによって記述され、3次元格子は保存電荷の延長された集合のために特別な処理を必要とする。 我々はこの発見をよく知られた2つの温度モデルと比較する。 その標準形式は弱いカップリング以外には有効ではないが、強いカップリングではg局所温度の概念を取り入れることで部分的に救済できることを示す。

When two initially thermal many-body systems start interacting strongly, their transient states quickly become non-Gibbsian, even if the systems eventually equilibrate. To see beyond this apparent lack of structure during the transient regime, we use a refined notion of thermality, which we call g-local. A system is g-locally thermal if the states of all its small subsystems are marginals of global thermal states. We numerically demonstrate for two harmonic lattices that whenever the total system equilibrates in the long run, each lattice remains g-locally thermal at all times, including the transient regime. This is true even when the lattices have long-range interactions within them. In all cases, we find that the equilibrium is described by the generalized Gibbs ensemble, with 3D lattices requiring special treatment due to their extended set of conserved charges. We compare our findings with the well-known two-temperature model. While its standard form is not valid beyond weak coupling, we show that at strong coupling it can be partially salvaged by adopting the concept of a g-local temperature.
翻訳日:2023-01-09 20:01:03 公開日:2022-12-01
# ランダムに相互作用するボソンの基底状態はランダムか?

Are the ground states of randomly interacting bosons random? ( http://arxiv.org/abs/2212.00848v1 )

ライセンス: Link先を確認
Charles White, Alexander Volya, Declan Mulhall, and Vladimir Zelevinsky(参考訳) 複雑な量子多体力学、対称性、集合的挙動、クラスタリング、位相遷移の一部としてのボゾン自由度とその出現は、量子系の現代研究において重要な役割を果たす。 本研究では,ランダムな相互作用によって制御される多ボソン系の体系的研究について述べる。 その結果、ランダムに相互作用するボソンの基底状態はランダムではなく、クラスターの凝縮を含むいくつかの集合配置に支配されていることがわかった。

Bosonic degrees of freedom and their emergence as a part of complex quantum many-body dynamics, symmetries, collective behavior, clustering and phase transitions play an important role in modern studies of quantum systems. In this work we present a systematic study of many-boson systems governed by random interactions. Our findings show that ground states of randomly interacting bosons are not random, being dominated by a few collective configurations containing condensates of clusters.
翻訳日:2023-01-09 20:00:45 公開日:2022-12-01
# ブラックホール$S$-行列の相補性とユニタリ性

Complementarity and the unitarity of the black hole $S$-matrix ( http://arxiv.org/abs/2212.00194v1 )

ライセンス: Link先を確認
Isaac H. Kim, John Preskill(参考訳) 近年、Akersらはブラックホールの内部から外部への非等距離ホログラフマップを提案した。 このモデルの中では、ブラックホールの外に留まる観測者に原則的にアクセス可能な$S$-matrixの特性について研究する。 具体的には、入射剤がブラックホールの外側と内側の両方で放射と相互作用するシナリオについて検討する。 ホログラフ写像はポストセレクションを含むため、このシナリオでは$S$-行列のユニタリ性は保証されないが、適切な条件が満たされた場合、ユニタリティは極めて高精度に満たされる。 内部ブラックホールのダイナミクスが疑似ランダムなユニタリ変換によって記述され、インファイヤーによって実行される演算がブラックホールエントロピーと多項式的にスケーリングする計算複雑性を持つならば、$s$-matrix はブラックホールエントロピーにおいて超多項的に小さい補正までユニタリである。 さらに、原則として、ポストセレクションを補助する量子計算は非常に強力であるが、蒸発するブラックホールの$S$-行列が多項式計算の複雑さを持つという同様の仮定のもとに見つかる。

Recently, Akers et al. proposed a non-isometric holographic map from the interior of a black hole to its exterior. Within this model, we study properties of the black hole $S$-matrix, which are in principle accessible to observers who stay outside the black hole. Specifically, we investigate a scenario in which an infalling agent interacts with radiation both outside and inside the black hole. Because the holographic map involves postselection, the unitarity of the $S$-matrix is not guaranteed in this scenario, but we find that unitarity is satisfied to very high precision if suitable conditions are met. If the internal black hole dynamics is described by a pseudorandom unitary transformation, and if the operations performed by the infaller have computational complexity scaling polynomially with the black hole entropy, then the $S$-matrix is unitary up to corrections that are superpolynomially small in the black hole entropy. Furthermore, while in principle quantum computation assisted by postselection can be very powerful, we find under similar assumptions that the $S$-matrix of an evaporating black hole has polynomial computational complexity.
翻訳日:2023-01-09 19:51:59 公開日:2022-12-01
# 古典的影の量子分割とコンカ

Quantum Divide and Conquer for Classical Shadows ( http://arxiv.org/abs/2212.00761v1 )

ライセンス: Link先を確認
Daniel T. Chen, Zain H. Saleem, Michael A. Perlin(参考訳) 古典的なシャドウトモグラフィーは、量子システムを特徴づけ、その特性の多くを予測するためのサンプリング効率の良い手法である。 回路切断は、大きな量子回路をより小さな断片に分割し、少ない量子資源でより堅牢に実行できる技術である。 本稿では,古典的影を用いた観測者の期待値を推定する分別回路切断手法を提案する。 回路フラグメントの古典的影を任意に切断した回路から予測する一般的な公式を導出する。 さらに,所望の加算誤差に対する可観測誤差を高い確率で推定するために必要なサンプル複雑性を提供する。 最後に,多くの量子ビット上で非自明に作用する高次観測可能量の推定において,分割・対数法が従来の非切断影トモグラフィよりも優れていることを示す。

Classical shadow tomography is a sample-efficient technique for characterizing a quantum system and predicting many of their properties. Circuit cutting is a technique for dividing large quantum circuits into smaller fragments that can be executed more robustly using fewer quantum resources. We introduce a divide-and-conquer circuit cutting method for estimating the expectation values of observables using classical shadows. We derive a general formula for making predictions using the classical shadows of circuit fragments from arbitrarily cut circuits. In addition, we provide the sample complexity required to estimate an observable to a desired additive error with high probability. Lastly, we numerically show that our divide-and-conquer method outperforms traditional uncut shadow tomography when estimating high-weight observables that act nontrivially on many qubits, and discuss the mechanisms for this advantage.
翻訳日:2023-01-09 19:28:24 公開日:2022-12-01
# 低オーバーヘッドマジック状態準備のためのフォールトトレラント後選択

Fault-tolerant Post-Selection for Low Overhead Magic State Preparation ( http://arxiv.org/abs/2212.00813v1 )

ライセンス: Link先を確認
H\'ector Bomb\'in, Mihir Pant, Sam Roberts, Karthik I. Seetharam(参考訳) 我々は,可視的シンドロームと消去情報に基づくソフト情報メトリクスを用いて,表面コードに基づくようなフォールトトレラントなコードやチャネルのフォールトトレラントポスト選択(ftps)のためのフレームワークを提案する。 症候群や消去のランキング設定のための指標をいくつか紹介する。 特に,位相的誤り訂正符号に基づくフォールトトレラントチャネルの論理エラー率を予測するための強力なソフト情報指標として,emph{logical gap}(およびその変種)を導入する。 論理ギャップは、等価でない論理補正間の符号なしの重み差が大まかであり、いかなる調整されたノイズモデルやデコーダにも適応できる。 我々はこのフレームワークを、独立で同一に分散された(\emph{i.d.}) Pauli のモデルの下で、低オーバーヘッドで高品質な表面コードマジック状態を作成するためにデプロイし、エラーを消去する。 論理的ギャップに基づく選択後の戦略は、マジック状態準備チャネルの符号化エラー率を、オーバーヘッドの少ない物理誤差率のレベルに抑えることができる。 例えば、対応するサーフェスコードのバルクしきい値の60\%で操作する場合、エンコードエラー率を15ドルとすると、相対的なオーバーヘッド係数が${<2}$(単純なシンドロームカウントルールよりも約23ドル安い)となる。 我々は,魔法の状態蒸留の文脈において,魔法の状態工場における選択後規則を実装するためのスキーマバッファアーキテクチャを解析する。 FTPSフレームワークは、より一般的なフォールトトレラントな論理チャネルにおけるエラーの軽減に利用できる。

We introduce a framework for fault-tolerant post-selection (FTPS) of fault-tolerant codes and channels -- such as those based on surface-codes -- using soft-information metrics based on visible syndrome and erasure information. We introduce several metrics for ranking configurations of syndromes and erasures. In particular, we introduce the \emph{logical gap} (and variants thereof) as a powerful soft-information metric for predicting logical error rates of fault-tolerant channels based on topological error-correcting codes. The logical gap is roughly the unsigned weight difference between inequivalent logical corrections and is adaptable to any tailored noise model or decoder. We deploy this framework to prepare high-quality surface code magic states with low overhead under a model of independent and identically distributed (\emph{i.i.d.}) Pauli and erasure errors. Post-selection strategies based on the logical gap can suppress the encoding error rate of a magic state preparation channel to the level of the physical error rate with low overhead. For example, when operating at $60\%$ the bulk threshold of the corresponding surface code, an overall reduction of the encoding error rate by a factor of $15$ is achievable with a relative overhead factor of ${< 2}$ (approximately $23$ times less than that of simple syndrome-counting rules). We analyze a schematic buffer architecture for implementing post-selection rules on magic state factories in the context of magic state distillation. The FTPS framework can be utilized for mitigating errors in more general fault-tolerant logical channels.
翻訳日:2023-01-09 19:28:07 公開日:2022-12-01
# 繰り返し量子位相推定測定による資源フルーガルハミルトン固有状態生成

Resource-frugal Hamiltonian eigenstate preparation via repeated quantum phase estimation measurements ( http://arxiv.org/abs/2212.00846v1 )

ライセンス: Link先を確認
Richard Meister, Simon C. Benjamin(参考訳) ハミルトン固有状態の合成は、量子コンピューティングにおける多くの応用に必須であり、その効率性は重要な関心事である。 正準的アプローチは量子位相推定(qpe)アルゴリズムを利用する。 本手法の変種からのアイデアを資源フルーガー反復方式の実装に適用し、利用可能な情報やツールの様々なケースにおける複雑さ(シミュレーション時間コスト)の解析的境界を提供する。 我々は、全体効率を高めるために、ターゲットハミルトンの修正を含む拡張を提案し、特徴付ける。 次に,2次量子化におけるLiHおよびH$_2$のハミルトニアンの基底状態を作成し,シミュレートされた量子コンピュータを用いた理想的および雑音的実装の性能を報告する。 収束は一般に境界よりもはるかに早く達成され、質的特徴は検証される。

The preparation of Hamiltonian eigenstates is essential for many applications in quantum computing; the efficiency with which this can be done is of key interest. A canonical approach exploits the quantum phase estimation (QPE) algorithm. We adopt ideas from variants of this method to implement a resource-frugal iterative scheme, and provide analytic bounds on the complexity (simulation time cost) for various cases of available information and tools. We propose and characterise an extension involving a modification of the target Hamiltonian to increase overall efficiency. The presented methods and bounds are then demonstrated by preparing the ground state of the Hamiltonians of LiH and H$_2$ in second quantisation; we report the performance of both ideal and noisy implementations using simulated quantum computers. Convergence is generally achieved much faster than the bounds suggest, while the qualitative features are validated.
翻訳日:2023-01-09 19:27:40 公開日:2022-12-01
# 異なる量子エミッタからの2光子干渉の特異スペクトル解析

Singular Spectrum Analysis of Two Photon Interference from Distinct Quantum Emitters ( http://arxiv.org/abs/2212.00889v1 )

ライセンス: Link先を確認
Rocco Duquennoy, Maja Colautti, Pietro Lombardi, Vincenzo Berardi, Ilaria Gianani, Costanza Toninelli, and Marco Barbieri(参考訳) 2光子干渉は多くの量子フォトニクスデバイスの機能の下にある。 また、異なる光子の区別不能性をテストするための顕著なツールとしても機能する。 しかし、時間スペクトルプロファイルがより関与するにつれて、関連するパラメータ、特に中心周波数差の抽出は困難に陥る可能性がある。 パラメトリックなアプローチでは、これらは限定カウント統計と組み合わせた網羅的なモデルの必要性から生じる。 本稿では, 半パラメトリック法に基づく周波数分離評価におけるこれらの効果を短縮する解について述べる。 2つの独立固体エミッタからの2つの光子の量子干渉パターンの時間トレースは、スペクトル内容を検査する前に特異スペクトル分析によって前処理される。 このアプローチでは、エンベロープとノイズの両方から関連する振動を、フィッティングに頼ることなく取り出すことができる。 これにより、量子エミッタのオンライン監視の堅牢で効率的な方法が開かれる。

Two-photon interference underlies the functioning of many quantum photonics devices. It also serves as the prominent tool for testing the indistinguishability of distinct photons. However, as their time-spectral profile becomes more involved, extracting relevant parameters, foremost the central frequency difference, may start suffering difficulties. In a parametric approach, these arise from the need for an exhaustive model combined with limited count statistics. Here we discuss a solution to curtail these effects on the evaluation of frequency separation relying on a semiparametric method. The time trace of the quantum interference pattern of two photons from two independent solid-state emitters is preprocessed by means of singular spectral analysis before inspecting its spectral content. This approach allows to single out the relevant oscillations from both the envelope and the noise, without resorting to fitting. This opens the way for robust and efficient ways of on-line monitoring of quantum emitters.
翻訳日:2023-01-09 19:27:24 公開日:2022-12-01
# 光原子時計における波面曲率

Wavefront Curvature in Optical Atomic Beam Clocks ( http://arxiv.org/abs/2212.00308v1 )

ライセンス: Link先を確認
A. Strathearn, R. F. Offer, A. P. Hilton, E. Klantsataya, A. N. Luiten, R. P. Anderson, and T. M. Stace(参考訳) 原子時計は、時間と周波数を理解するための再現可能な基盤を提供する。 近年、原子線を用いた小型光時計のデモは、10-16ドルという国際周波数標準と競合する短期的な周波数不安定性を達成している。 しかし、コンパクトクロックに固有の深刻な課題は、必然的に小さな光ビームであり、これは尋問波面の急激な変動をもたらす。 これにより、熱ビームの不均質な励起が出力周波数の長いドリフトに繋がる可能性がある。 ここでは,湾曲波面を有する光学場を用いたラムジー・ボード・エ干渉計のモデルを開発し,[olson et al., phys. rev. lett. 123, 073202 (2019)] で記述された$^{40}$caビームクロック実験をシミュレートする。 オルソンらの結果は、尋問中の原子の反応における驚きで説明できない行動を示した。 本モデルは, 実験データと整合する信号を予測し, 報告されたレーザ形状に対する感度を考慮できる。 また,不均一性を最小限に抑えるため,問合せゾーンでレーザーが非合体した場合の信号対雑音比を最大化するとともに,レーザー不均一性と原子ビームの速度分布の両方で決定される最適なウエストサイズを同定した。 クロック周波数の変動と安定性について検討し,レーザー幾何から生じる周波数変化の主源はグーイ位相であることを示した。

Atomic clocks provide a reproducible basis for our understanding of time and frequency. Recent demonstrations of compact optical clocks, employing thermal atomic beams, have achieved short-term fractional frequency instabilities in the $10^{-16}$, competitive with the best international frequency standards available. However, a serious challenge inherent in compact clocks is the necessarily smaller optical beams, which results in rapid variation in interrogating wavefronts. This can cause inhomogeneous excitation of the thermal beam leading to long term drifts in the output frequency. Here we develop a model for Ramsey-Bord\'e interferometery using optical fields with curved wavefronts and simulate the $^{40}$Ca beam clock experiment described in [Olson et al., Phys. Rev. Lett. 123, 073202 (2019)]. Olson et al.'s results had shown surprising and unexplained behaviour in the response of the atoms in the interrogation. Our model predicts signals consistent with experimental data and can account for the significant sensitivity to laser geometry that was reported. We find the signal-to-noise ratio is maximised when the laser is uncollimated at the interrogation zones to minimise inhomogeneity, and also identify an optimal waist size determined by both laser inhomogeneity and the velocity distribution of the atomic beam. We investigate the shifts and stability of the clock frequency, showing that the Gouy phase is the primary source of frequency variations arising from laser geometry.
翻訳日:2023-01-09 19:19:02 公開日:2022-12-01
# 有限次元における量子貯水池計算

Quantum reservoir computing in finite dimensions ( http://arxiv.org/abs/2212.00396v1 )

ライセンス: Link先を確認
Rodrigo Mart\'inez-Pe\~na and Juan-Pablo Ortega(参考訳) 古典入力を持つ量子貯水池計算(qrc)システムの既存の結果の多くは密度行列形式を用いて得られた。 本稿では,設計および評価問題に対処する上で,代替表現がより良い洞察を与えることを示す。 より明確には、系同型が確立され、ゲルマン基底に付随するブロッホベクトルを用いて観測可能空間における表現とQRCへの密度行列アプローチを統一する。 これらのベクトル表現は、古典的な貯水池計算の文献で以前に導入され、多くの理論的結果が得られた状態アフィンシステム(SAS)をもたらすことが示されている。 この接続は、フェージングメモリ(FMP)とエコー状態(ESP)特性に関する様々なステートメントが表現とは独立であることを示し、また有限次元のQRC理論における基本的な問題にいくつかの光を当てるために用いられる。 特に、ESPとFMPが保持する必要十分条件が定式化され、単純半無限解のみを持つ収縮量子チャネルは入力非依存の固定点の存在によって特徴づけられる。

Most existing results in the analysis of quantum reservoir computing (QRC) systems with classical inputs have been obtained using the density matrix formalism. This paper shows that alternative representations can provide better insights when dealing with design and assessment questions. More explicitly, system isomorphisms have been established that unify the density matrix approach to QRC with the representation in the space of observables using Bloch vectors associated with Gell-Mann bases. It has been shown that these vector representations yield state-affine systems (SAS) previously introduced in the classical reservoir computing literature and for which numerous theoretical results have been established. This connection has been used to show that various statements in relation to the fading memory (FMP) and the echo state (ESP) properties are independent of the representation, and also to shed some light on fundamental questions in QRC theory in finite dimensions. In particular, a necessary and sufficient condition for the ESP and FMP to hold has been formulated, and contractive quantum channels that have exclusively trivial semi-infinite solutions have been characterized in terms of the existence of input-independent fixed points.
翻訳日:2023-01-09 19:18:34 公開日:2022-12-01
# 進化に基づく量子アーキテクチャ探索

Evolutionary-based quantum architecture search ( http://arxiv.org/abs/2212.00421v1 )

ライセンス: Link先を確認
Anqi Zhang, Shengmei Zhao(参考訳) 量子アーキテクチャサーチ (QAS) は、今日のノイズ中間量子(NISQ)時代の誤り発生や深さ制限量子回路における量子優位性を著しく加速できる、強力で一般的なQASプラットフォームを構築することが望まれている。 本稿では,高い表現力と学習能力のバランスをとるための最適レイアウトのための進化型量子アーキテクチャ探索(eqas)スキームを提案する。 EQASでは、量子回路の各レイアウト、すなわち量子回路アーキテクチャ(QCA)は、後に量子遺伝子と呼ばれるバイナリ文字列に符号化される。 そして、対応する量子フィッシャー情報行列(QFIM)の固有値に応じて、QCA内の冗長パラメータを除去するアルゴリズムを実行する。 その後、各QCAを正規化適合度で評価し、Roulette Wheel選択戦略により親生成をサンプリングするサンプリングレートを得ることができた。 その後、変異と交叉を施して次の世代を得る。 eqasは3つのデータセットの量子機械学習の分類タスクによって検証される。 その結果,提案したEQASはパラメータ化の少ない最適なQCAを探索でき,より高い精度は3つのデータセットの分類タスクにEQASを適用して得られることがわかった。

Quantum architecture search (QAS) is desired to construct a powerful and general QAS platform which can significantly accelerate quantum advantages in error-prone and depth limited quantum circuits in today Noisy Intermediate-Scale Quantum (NISQ) era. In this paper, we propose an evolutionary-based quantum architecture search (EQAS) scheme for the optimal layout to balance the higher expressive power and the trainable ability. In EQAS, each layout of quantum circuits, i.e quantum circuit architecture(QCA), is first encoded into a binary string, which is called quantum genes later. Then, an algorithm to remove the redundant parameters in QCA is performed according to the eigenvalues of the corresponding quantum Fisher information matrix (QFIM). Later, each QCA is evaluated by the normalized fitness, so that the sampling rate could be obtained to sample the parent generation by the Roulette Wheel selection strategy. Thereafter, the mutation and crossover are applied to get the next generation. EQAS is verified by the classification task in quantum machine learning for three datasets. The results show that the proposed EQAS can search for the optimal QCA with less parameterized gates, and the higher accuracies are obtained by adopting EQAS for the classification tasks over three dataset.
翻訳日:2023-01-09 19:18:16 公開日:2022-12-01
# QAOAにおける不要な変動の抑制と近似量子アニール

Suppressing unwanted fluctuations in QAOA and approximate quantum annealing ( http://arxiv.org/abs/2212.00515v1 )

ライセンス: Link先を確認
Touheed Anwar Atif, Catherine Potts, David Haycraft, Raouf Dridi, and Nicholas Chancellor(参考訳) 量子近似最適化アルゴリズム(QAOA)は、部分的に量子アニールのデジタル化にインスパイアされた。 この着想に基づいて,量子アニーリング内の探索空間を歪め偽のミニマムを生じさせることで知られるゆらぎ効果を緩和するために,ユニバーサルゲートモデル量子コンピュータの付加的な柔軟性を利用する手法を開発した。 パウリX測定の付加能力さえあれば、フビニ・スタディ計量の対角要素に比例する方法でミキサー項をスケーリングすることで、これらの効果に対応するためにミキサー角を変更することができる。 これらの効果を緩和することで、エネルギー環境が歪んだ場合の成功確率が高くなり、強い揺らぎの影響を受けやすい変数をターゲットに同じpauli x測定を使うことができることが判明した。 導入した手法の効果は,比較的低い深さの$p=10-20$であっても関係があり,近い将来に開発する手法が関係している可能性が示唆された。 さらに、これらの手法は、通常QAOAで修正されない自由度制御に依存しているため、我々の手法は他の様々なQAOAイノベーションと互換性がある。 さらに,これらの変動効果がIonQ Harmony QPU上で観測可能であることを検証した。

The quantum approximate optimisation algorithm (QAOA) was partially inspired by digitising quantum annealing. Based on this inspiration, we develop techniques to use the additional flexibility of a universal gate-model quantum computer to mitigate fluctuation effects which are known to distort the search space within quantum annealing and lead to false minima. We find that even just the added ability to take Pauli X measurements allows us to modify the mixer angles to counteract these effects by scaling mixer terms in a way proportional to the diagonal elements of the Fubini-Study metric. We find that mitigating these effects can lead to higher success probabilities in cases where the energy landscape is distorted and that we can use the same Pauli X measurements to target which variables are likely to be susceptible to strong fluctuations. The effects of the methods we introduce are relevant even at relatively low depth of $p=10-20$, suggesting that the techniques we are developing are likely to be relevant in the near term. Furthermore, since these methods rely on controlling a degree of freedom which is not typically modified in QAOA, our methods will be compatible with a wide range of other QAOA innovations. We further verify that these fluctuation effects can be observed on an IonQ Harmony QPU.
翻訳日:2023-01-09 19:17:58 公開日:2022-12-01
# 3状態量子ウォークの1パラメータファミリーの監視的再発

Monitored Recurrence of a One-parameter Family of Three-state Quantum Walks ( http://arxiv.org/abs/2212.00540v1 )

ライセンス: Link先を確認
Martin Stefanak(参考訳) 直線上の3状態量子ウォークの1パラメータ集合の監視再帰について検討した。 計算は、コイン空間の適切な基底を選択することで大幅に単純化される。 ポリア数(すなわち、サイト再帰確率)は、コインパラメータと、ウォーカーが最初に特定のコイン状態にある確率に依存しており、ウォークが確実に原点に戻ることを示す。 最後に,量子状態の再現性について簡単な考察を行った。

Monitored recurrence of a one-parameter set of three-state quantum walks on a line is investigated. The calculations are considerably simplified by choosing a suitable basis of the coin space. We show that the Polya number (i.e. the site recurrence probability) depends on the coin parameter and the probability that the walker is initially in a particular coin state for which the walk returns to the origin with certainty. Finally, we present a brief investigation of the exact quantum state recurrence.
翻訳日:2023-01-09 19:17:37 公開日:2022-12-01
# 3光子非対称最大絡み合い状態の実験的実現とその量子テレポーテーションへの応用

Experimental realization of a three-photon asymmetric maximally entangled state and its application to quantum teleportation ( http://arxiv.org/abs/2212.00545v1 )

ライセンス: Link先を確認
Linxiang Zhou, Qiao Xu, Tianfeng Feng, Xiaoqi Zhou(参考訳) 量子エンタングルメントは量子情報処理の基本的な資源であり、量子通信、量子計算、量子気象学で広く利用されている。 量子エンタングルメントの初期の研究は主に量子ビット状態に焦点を当てていたが、近年は高次元エンタングルド状態に焦点をあてる研究が増えている。 量子エンタングル状態と比較して、高次元エンタングル状態は情報容量が大きく、より複雑な量子応用を実現する可能性を秘めている。 この手紙では、2つの二次元光子と1つの4次元光子からなる、いわゆる3光子非対称な最大エンタングル状態である特別な高次元エンタングル状態が実験的に作成されている。 この非対称な最大エンタングル状態を資源として、2つの量子ビットから1つのクォートへの量子情報の転送を実現する、原理的量子テレポーテーションの実験も実施した。 量子テレポーテーションの忠実度は0.79から0.86の範囲で、これは2/5の最適シングルコピークォート状態推定限界と3/4の最大クォート-クォート重なり合いをはるかに上回る。 ここで実現される非対称エンタングル状態は、将来の量子ネットワークにおける量子インタフェースとして使われる可能性を持ち、この研究で証明された量子テレポーテーションプロトコルを介して異なる次元の量子オブジェクト間の量子情報転送を可能にする。

Quantum entanglement is a fundamental resource for quantum information processing and is widely used in quantum communication, quantum computation and quantum metrology. Early research on quantum entanglement mainly focus on qubit states, but in recent years, more and more research has begun to focus on high-dimensional entangled states. Compared with qubit entangled states, higher-dimensional entangled states have a larger information capacity and the potential to realize more complex quantum applications. In this Letter, we have experimentally prepared a special high-dimensional entangled state, the so-called three-photon asymmetric maximally entangled state, which consists of two two-dimensional photons and one four-dimensional photon. Using this asymmetric maximally entangled state as a resource, we have also implemented a proof-of-principle quantum teleportation experiment, realizing the transfer of quantum information from two qubits to a single ququart. The fidelities of the quantum teleportation range from 0.79 to 0.86, which are well above both the optimal single-copy ququart state-estimation limit of 2/5 and maximal qutrit-ququart overlap of 3/4, thus confirming a genuine and nonclassical four-dimensional teleportation. The asymmetric entangled state realized here has the potential to be used as a quantum interface in future quantum networks, allowing quantum information transfer between quantum objects of different dimensions via the quantum teleportation protocol demonstrated in this work.
翻訳日:2023-01-09 19:17:29 公開日:2022-12-01
# 完全M粒子グラフ上の量子ウォークに基づく状態伝達アルゴリズム

Quantum walk based state transfer algorithms on the complete M-partite graph ( http://arxiv.org/abs/2212.00546v1 )

ライセンス: Link先を確認
Stanislav Skoupy and Martin Stefanak(参考訳) 量子ウォーク探索と状態伝達アルゴリズムを考案し、各分割に$n$頂点を持つ$m$-partiteグラフの完全化に焦点を当てた。 まず,各頂点にループを加えることで,探索アルゴリズムは大きなグラフの極限において,単位確率でマークされた頂点を求める。 次に、2つのマークされた頂点を持つ探索の進化演算子を用いて送信者と受信者の状態伝達を行う。 送信側と受信側が異なる分割にある場合、アルゴリズムは大きなグラフに対して忠実さに近づくことで成功することを示す。 しかし、送信側と受信側が同じパーティションにある場合、忠実度は正確には1つには達しない。 この問題を解決するために,単一の頂点探索のみに基づいて忠実度を推定できるアクティブスイッチを用いた状態伝達アルゴリズムを提案する。

We investigate coined quantum walk search and state transfer algorithms, focusing on the complete $M$-partite graph with $N$ vertices in each partition. First, it is shown that by adding a loop to each vertex the search algorithm finds the marked vertex with unit probability in the limit of a large graph. Next, we employ the evolution operator of the search with two marked vertices to perform a state transfer between the sender and the receiver. We show that when the sender and the receiver are in different partitions the algorithm succeeds with fidelity approaching unity for a large graph. However, when the sender and the receiver are in the same partition the fidelity does not reach exactly one. To amend this problem we propose a state transfer algorithm with an active switch, whose fidelity can be estimated based on the single vertex search alone.
翻訳日:2023-01-09 19:16:58 公開日:2022-12-01
# 古典量子コムとそのミンエントロピーとその測定に基づく応用

Classical-Quantum Combs, their Min-Entropy and their Measurement-Based Applications ( http://arxiv.org/abs/2212.00553v1 )

ライセンス: Link先を確認
Isaac D. Smith, Marius Krumm, Lukas J. Fiderer, Hendrik Poulsen Nautrup and Hans J. Briegel(参考訳) 量子システムの隠れた性質を学ぶには、通常一連の相互作用が必要である。 本研究では,古典量子コムと呼ばれる古典量子状態の一般化を用いた多ラウンド学習プロセスの形式化を検討する。 ここでは、「古典」とは学習すべき隠れた性質を符号化するランダム変数を指し、「量子」はシステムの振る舞いを記述する量子コムを指す。 量子コーム形式を用いることで、隠れた性質を学習するための最適戦略はコームミンエントロピー(chiribella and ebler, njp, 2016)を通じて定量化することができる。 このようなツールを用いて,測定に基づく量子計算(mbqc)とその関連アプリケーションから導出されるコームの配列に注目した。 具体的には、コーム形式を用いた既知のブラインド量子計算(bqc)プロトコルを記述し、ミンエントロピーを利用してプロトコルの複数ラウンドに対するシングルショットセキュリティの証明を提供し、既存の結果を文献に拡張する。 さらに、MBQCと量子因果モデルと量子因果推論の新たな接続を導入し、最小エントロピーを用いて因果発見の最適戦略を定量化する。 我々は、量子参照フレームの学習に関連するものを含む、さらなる運用上の動機付けの例を検討する。

Learning a hidden property of a quantum system typically requires a series of interactions. In this work, we consider a formalisation of such multi-round learning processes that uses a generalisation of classical-quantum states called classical-quantum combs. Here, "classical" refers to a random variable encoding the hidden property to be learnt, and "quantum" refers to the quantum comb describing the behaviour of the system. By using the quantum combs formalism, the optimal strategy for learning the hidden property can be quantified via the comb min-entropy (Chiribella and Ebler, NJP, 2016). With such a tool on hand, we focus attention on an array of combs derived from measurement-based quantum computation (MBQC) and related applications. Specifically, we describe a known blind quantum computation (BQC) protocol using the combs formalism and thereby leverage the min-entropy to provide a proof of single-shot security for multiple rounds of the protocol, extending the existing result in the literature. Furthermore, we introduce novel connections between MBQC and quantum causal models and quantum causal inference, which allows for the use of the min-entropy to quantify the optimal strategy for causal discovery. We consider further operationally motivated examples, including one associated to learning a quantum reference frame.
翻訳日:2023-01-09 19:16:45 公開日:2022-12-01
# 高速光機械的光子遮断

Fast Optomechanical Photon Blockade ( http://arxiv.org/abs/2212.00628v1 )

ライセンス: Link先を確認
Yuxun Ling and Sofia Qvarfort and Florian Mintert(参考訳) 光子遮断効果は、単一光子源の開発で一般的に利用される。 光子遮断効果は理想化された方法で高忠実度単光子状態を作成するのに使用できるが、光機械システムにおける実用的な実装は競合する過程の相互作用に苦しむ。 ここでは、複数の光子のフォック状態振幅の破壊的干渉を利用する制御スキームを導出する。 結果として生じる光子遮断量子状態の準備時間は、光学的相互作用強度によってのみ制限されるため、定常状態における光子遮断状態を達成する既存のスキームよりも桁違いに短い。

The photon blockade effect is commonly exploited in the development of single-photon sources. While the photon blockade effect could be used to prepare high-fidelity single-photon states in idealized regimes, practical implementations in optomechanical systems suffer from an interplay of competing processes. Here we derive a control scheme that exploits destructive interference of Fock state amplitudes of more than one photon. The resulting preparation time for photon-blockaded quantum states is limited only by the optomechanical interaction strength and can thus be orders of magnitude shorter than in existing schemes that achieve photon-blockaded state in the steady state.
翻訳日:2023-01-09 19:16:22 公開日:2022-12-01
# トラッピングイオンを用いたロバストな2量子ゲートのBespokeパルス設計

Bespoke Pulse Design for Robust Rapid Two-Qubit Gates with Trapped Ions ( http://arxiv.org/abs/2212.00702v1 )

ライセンス: Link先を確認
Seyed Shakib Vedaie, Eduardo J. P\'aez, Nhung H. Nguyen, Norbert M. Linke, Barry C. Sanders(参考訳) 2量子ビットゲート性能はイオントラップ量子コンピューティングのスケールアップに不可欠である。 ゲートタイムとゲートエラーレートの低減を達成するには、最適化された量子制御が必要である。 量子マスター方程式(QME)により、線形捕捉イオン鎖内にラマンビームを配向した2量子ゲートを記述する。 QMEは、単一イオン2光子有効ラビ周波数、オートラー・タウンズおよび振動型ブロッホ・シーガートエネルギーシフト、オフ共鳴遷移、ラマンとレイリー散乱、レーザーパワー変動、運動加熱、クロスカーフォノン結合、レーザー流出、非対称アドレッシングビームおよび不完全な初期運動基底状態を含む。 最先端の手法はゲート設計におけるこれらの効果を無視する。 数値積分QMEソリューションを最適化することにより、7つのトラップされた$^{171}$Yb$^{+}$イオンに対して、ロバストな2量子ゲートを実現するためにパルス列を大域的に最適化する。 ここでは、ロバストとは運動周波数の遅いドリフトに対する弾力性であり、ラビの有効周波数がイオンの素電子遷移によるレーザーの変形に匹敵するラピッド平均ゲート実行である。 我々の堅牢な量子制御は、長いイオン鎖の高速な高品質な2ビットゲートを提供し、イオンを閉じ込めたスケーラブルな量子コンピューティングを可能にします。

Two-qubit gate performance is vital for scaling up ion-trap quantum computing. Optimized quantum control is needed to achieve reductions in gate-time and gate error-rate. We describe two-qubit gates with addressed Raman beams within a linear trapped-ion chain by a quantum master equation (QME). The QME incorporates the single-ion two-photon effective Rabi frequency, Autler-Townes and vibrational Bloch-Siegert energy shifts, off-resonant transitions, Raman and Rayleigh scattering, laser-power fluctuations, motional heating, cross-Kerr phonon coupling, laser spillover, asymmetric addressing beams and an imperfect initial motional ground state, with no fitting parameters. Whereas state-of-the-art methods are oblivious to these effects in the gate design procedure. We employ global optimization to design pulse sequences for achieving a robust rapid two-qubit gate for seven trapped $^{171}$Yb$^{+}$ ions by optimizing over numerically integrated QME solutions. Here, robust means resilient against slow drift of motional frequencies, and rapid means gate execution where the effective Rabi frequency is comparable to the detuning of the laser from the ion's bare electronic transition. Our robust quantum control delivers rapid high-quality two-qubit gates in long ion chains, enabling scalable quantum computing with trapped ions.
翻訳日:2023-01-09 19:16:11 公開日:2022-12-01
# 強調画像分類のための反射同変量子ニューラルネットワーク

Reflection Equivariant Quantum Neural Networks for Enhanced Image Classification ( http://arxiv.org/abs/2212.00264v1 )

ライセンス: Link先を確認
Maxwell West, Martin Sevior, Muhammad Usman(参考訳) ジェネリック量子機械学習(qml)アーキテクチャは、しばしば厳しいトレーサビリティの問題と一般化性能の低下に苦しむ。 近年の研究では、幾何学的QML(GQML)が、これらの問題に対処するために、そのデータの対称性を明示的に尊重するターゲットQMLモデルを構築することが示唆されている。 ここでは、GQMLの技法を画像分類に転換し、画像の反射に同値な新しいQMLモデルを構築する。 このQMLモデルは,データセットの対称性を直接活用して,優れたQMLネットワークを将来開発する可能性を強調し,広く使用されている汎用的アンサテイズを一貫して上回る可能性を実証する最初のものである。

Generic quantum machine learning (QML) architectures often suffer from severe trainability issues and poor generalisation performance. Recent work has suggested that geometric QML (GQML) may combat these issues through the construction of targeted QML models which explicitly respect the symmetries of their data. Here we turn the techniques of GQML to image classification, building new QML models which are equivariant with respect to reflections of the images. Our results are the first to demonstrate that this class of QML models is capable of consistently outperforming widely used generic ansatze, highlighting the potential for the future development of superior QML networks by directly exploiting the symmetries of datasets.
翻訳日:2023-01-09 19:07:13 公開日:2022-12-01
# コネクティビティ駆動型コミュニケーションによるマルチエージェント協調学習

Learning Multi-Agent Coordination through Connectivity-driven Communication ( http://arxiv.org/abs/2002.05233v4 )

ライセンス: Link先を確認
Emanuele Pesce, Giovanni Montana(参考訳) 人工マルチエージェントシステムでは、エージェントのコミュニケーションスキルに基づいて協調ポリシーを学習する能力が示される: エージェントは環境から受信した情報をエンコードし、そのタスクが必要とする他のエージェントと共有する方法を学ぶ必要がある。 我々は,多エージェント協調行動の出現を経験を通してのみ促進する,深い強化学習手法であるコネクティビティ駆動コミュニケーション(CDC)を提案する。 エージェントは重み付きグラフのノードとしてモデル化され、状態依存のエッジは交換可能な対方向のメッセージをエンコードする。 エージェントの受信メッセージの重み付け方法を制御する,グラフ依存型アテンション機構を導入する。 このメカニズムは、グラフで表されるシステムの現在の状態をフルに考慮し、その情報がどのようにグラフ上で流れるかをキャプチャする拡散プロセスの上に構築する。 グラフトポロジーは事前には知られていないが、エージェントの観察に動的に依存しており、エンドツーエンドで注意機構とポリシーと並行して学習される。 実験の結果,cdcは効果的な協調政策を学習でき,協調的ナビゲーションタスクにおいて競合する学習アルゴリズムを過大に活用できることがわかった。

In artificial multi-agent systems, the ability to learn collaborative policies is predicated upon the agents' communication skills: they must be able to encode the information received from the environment and learn how to share it with other agents as required by the task at hand. We present a deep reinforcement learning approach, Connectivity Driven Communication (CDC), that facilitates the emergence of multi-agent collaborative behaviour only through experience. The agents are modelled as nodes of a weighted graph whose state-dependent edges encode pair-wise messages that can be exchanged. We introduce a graph-dependent attention mechanisms that controls how the agents' incoming messages are weighted. This mechanism takes into full account the current state of the system as represented by the graph, and builds upon a diffusion process that captures how the information flows on the graph. The graph topology is not assumed to be known a priori, but depends dynamically on the agents' observations, and is learnt concurrently with the attention mechanism and policy in an end-to-end fashion. Our empirical results show that CDC is able to learn effective collaborative policies and can over-perform competing learning algorithms on cooperative navigation tasks.
翻訳日:2023-01-01 18:54:07 公開日:2022-12-01
# BaCO: 高速でポータブルなベイズコンパイラ最適化フレームワーク

BaCO: A Fast and Portable Bayesian Compiler Optimization Framework ( http://arxiv.org/abs/2212.11142v1 )

ライセンス: Link先を確認
Erik Hellsten, Artur Souza, Johannes Lenfers, Rubens Lacouture, Olivia Hsu, Adel Ejjeh, Fredrik Kjolstad, Michel Steuwer, Kunle Olukotun, Luigi Nardi(参考訳) 我々は、cpu、gpu、fpgaをターゲットにした現代のコンパイラのための汎用オートチューナーであるbayesian compiler optimization framework (baco)を紹介する。 BaCOは、現代的な自動チューニングタスクの要件を処理するために必要な柔軟性を提供する。 特に、既知のパラメータと未知のパラメータの制約とともに、置換、順序、連続パラメータの型を扱う。 これらのパラメータの型を推論し、高品質なコードを効率よく提供するために、BaCOは自動チューニングドメインに特化したベイズ最適化アルゴリズムを使用している。 本稿では,CPU,GPU,FPGA用のTACO,RISE,ELEVATE,HPVM2FPGAの3つの現代コンパイラシステムにおけるBaCOの有効性を示す。 これらの領域では、BaCOは、平均1.39x-1.89xの高速コードを検索予算で提供することで、現在の最先端のオートチューナーよりも優れており、BaCOは専門家レベルのパフォーマンス2.89x-8.77xの高速化を実現している。

We introduce the Bayesian Compiler Optimization framework (BaCO), a general purpose autotuner for modern compilers targeting CPUs, GPUs, and FPGAs. BaCO provides the flexibility needed to handle the requirements of modern autotuning tasks. Particularly, it deals with permutation, ordered, and continuous parameter types along with both known and unknown parameter constraints. To reason about these parameter types and efficiently deliver high-quality code, BaCO uses Bayesian optimization algorithms specialized towards the autotuning domain. We demonstrate BaCO's effectiveness on three modern compiler systems: TACO, RISE & ELEVATE, and HPVM2FPGA for CPUs, GPUs, and FPGAs respectively. For these domains, BaCO outperforms current state-of-the-art autotuners by delivering on average 1.39x-1.89x faster code with a tiny search budget, and BaCO is able to reach expert-level performance 2.89x-8.77x faster.
翻訳日:2022-12-25 03:20:27 公開日:2022-12-01
# 1次適応学習と重み対称性を実現するシナプスダイナミクス

Synaptic Dynamics Realize First-order Adaptive Learning and Weight Symmetry ( http://arxiv.org/abs/2212.09440v1 )

ライセンス: Link先を確認
Yukun Yang, Peng Li(参考訳) adamオプティマイザのような勾配に基づく一階適応最適化手法は、人工ネットワークのトレーニングにおいて一般的であり、最先端の結果が得られる。 この研究は、生物学的ニューラルネットワークがこのような最適化手法を採用することが可能かどうかという疑問に答えようとしている。 そこで本研究では,生物学的に可視な機構を用いてadamオプティマイザの実現を実証する。 提案した学習規則は,生物学的対応が明確で,連続的に動作し,Adamに匹敵する性能を発揮する。 さらに,神経科学において観察されるシナプスの沈着特性から着想を得た新しいアプローチを提案し,後部プロパゲーション(BP)における重量輸送問題の生物学的不確実性を回避した。 局所的な情報のみと独立したトレーニングフェーズを持たず、前方および後方のシグナル伝達経路における重み対称性を確立し維持し、提案する生物学的に妥当なadam学習規則に適用できる。 これらのメカニズムは、生物学的シナプス力学が学習を促進する過程に光を放つ可能性がある。

Gradient-based first-order adaptive optimization methods such as the Adam optimizer are prevalent in training artificial networks, achieving the state-of-the-art results. This work attempts to answer the question whether it is viable for biological neural systems to adopt such optimization methods. To this end, we demonstrate a realization of the Adam optimizer using biologically-plausible mechanisms in synapses. The proposed learning rule has clear biological correspondence, runs continuously in time, and achieves performance to comparable Adam's. In addition, we present a new approach, inspired by the predisposition property of synapses observed in neuroscience, to circumvent the biological implausibility of the weight transport problem in backpropagation (BP). With only local information and no separate training phases, this method establishes and maintains weight symmetry in the forward and backward signaling paths, and is applicable to the proposed biologically plausible Adam learning rule. These mechanisms may shed light on the way in which biological synaptic dynamics facilitate learning.
翻訳日:2022-12-25 03:10:30 公開日:2022-12-01
# ニューラルスパイク復号のためのトポロジ的深層学習フレームワーク

A Topological Deep Learning Framework for Neural Spike Decoding ( http://arxiv.org/abs/2212.05037v1 )

ライセンス: Link先を確認
Edward C. Mitchell, Brittany Story, David Boothe, Piotr J. Franaszczuk, Vasileios Maroulas(参考訳) 脳の空間配向システムは、異なるニューロンアンサンブルを使用して環境ベースのナビゲーションを支援する。 脳が空間情報をエンコードする方法の1つは、環境ベースのナビゲーションを提供するためにオーバーレイされたニューロンの層である格子細胞である。 これらのニューロンはアンサンブルで発火し、複数のニューロンが同時に発火して単一の格子を活性化する。 この発射構造を捉えて、グリッドセルデータのデコードに利用したいのです。 これらの神経構造を理解し、表現し、デコードするには、従来のグラフベースのモデルよりも高次接続性を必要とする。 そこで本研究では,ニューラルネットワークのスパイクトレイン復号のためのトポロジカルディープラーニングフレームワークを開発した。 我々のフレームワークは、教師なしのsimplicial complex discoveryと、simplicial convolutional recurrent Neural Network(SCRNN)と呼ばれる新しいアーキテクチャによるディープラーニングのパワーを組み合わせる。 単純複体、頂点や辺だけでなく高次元のオブジェクトも使う位相空間は、自然にグラフを一般化し、ただの対関係以上のものを取り込む。 さらに、このアプローチはスパイクカウント以外の神経活動に関する事前の知識を必要としないため、類似度測定の必要性がなくなる。 SCRNNの有効性と汎用性は、その性能をテストするために方向データ上で実証され、そのタスクで格子セルデータセットに適用され、自動的に軌道を予測する。

The brain's spatial orientation system uses different neuron ensembles to aid in environment-based navigation. One of the ways brains encode spatial information is through grid cells, layers of decked neurons that overlay to provide environment-based navigation. These neurons fire in ensembles where several neurons fire at once to activate a single grid. We want to capture this firing structure and use it to decode grid cell data. Understanding, representing, and decoding these neural structures require models that encompass higher order connectivity than traditional graph-based models may provide. To that end, in this work, we develop a topological deep learning framework for neural spike train decoding. Our framework combines unsupervised simplicial complex discovery with the power of deep learning via a new architecture we develop herein called a simplicial convolutional recurrent neural network (SCRNN). Simplicial complexes, topological spaces that use not only vertices and edges but also higher-dimensional objects, naturally generalize graphs and capture more than just pairwise relationships. Additionally, this approach does not require prior knowledge of the neural activity beyond spike counts, which removes the need for similarity measurements. The effectiveness and versatility of the SCRNN is demonstrated on head direction data to test its performance and then applied to grid cell datasets with the task to automatically predict trajectories.
翻訳日:2022-12-18 18:49:18 公開日:2022-12-01
# 熱間プレス加工におけるリアルタイムブランク形状最適化のための画像ベース人工知能エンパワードサーロゲートモデルと形状モルファ

Image-based Artificial Intelligence empowered surrogate model and shape morpher for real-time blank shape optimisation in the hot stamping process ( http://arxiv.org/abs/2212.05885v1 )

ライセンス: Link先を確認
Haosu Zhou, and Nan Li(参考訳) 現代の製造技術の複雑さが増すにつれて、反復的で高価なシミュレーションを必要とする伝統的な試行錯誤設計は信頼できなくなり、時間がかかる。 この難しさは、超高強度鋼(UHSS)Bピラーなど、ホットスタンプの安全クリティカルな部品の設計において特に重要である。 設計コストを低減し,製造性を確保するため,スカラーベースの人工人工知能を用いたサロゲートモデリング (SAISM) を研究開発し,実装した。 しかし、SAISMは低い精度と一般性に悩まされ、通常大量のトレーニングサンプルを必要とする。 そこで本研究では, 自動デコーダ型ブランク形状生成器と組み合わせたイメージベースaim(artificial-intelligence-empowered surrogate modelling)手法を提案する。 IAISMは、Mask-Res-SE-U-Netアーキテクチャに基づいており、任意の空白形状のas-formedコンポーネントの完全な薄めフィールドを予測するために訓練されている。 IAISMの優れた予測性能は256のトレーニングサンプルで達成され、構造化データ表現を用いたエンジニアリングAIタスクの小さな学習特性を示す。 トレーニングされたオートデコーダ、トレーニングされたMask-Res-SE-U-Net、およびAdam optimiserは、潜在ベクトルを変更することによって空白最適化を行う。 オプティマイザは、製造性基準を満たす空白形状を迅速に見つけることができる。 高精度で汎用的なサロゲートモデリングおよび最適化ツールとして,提案パイプラインはリアルタイム多目的設計最適化を実現するために,フルチェーンディジタルツインに統合されることを約束している。

As the complexity of modern manufacturing technologies increases, traditional trial-and-error design, which requires iterative and expensive simulations, becomes unreliable and time-consuming. This difficulty is especially significant for the design of hot-stamped safety-critical components, such as ultra-high-strength-steel (UHSS) B-pillars. To reduce design costs and ensure manufacturability, scalar-based Artificial-Intelligence-empowered surrogate modelling (SAISM) has been investigated and implemented, which can allow real-time manufacturability-constrained structural design optimisation. However, SAISM suffers from low accuracy and generalisability, and usually requires a high volume of training samples. To solve this problem, an image-based Artificial-intelligence-empowered surrogate modelling (IAISM) approach is developed in this research, in combination with an auto-decoder-based blank shape generator. The IAISM, which is based on a Mask-Res-SE-U-Net architecture, is trained to predict the full thinning field of the as-formed component given an arbitrary blank shape. Excellent prediction performance of IAISM is achieved with only 256 training samples, which indicates the small-data learning nature of engineering AI tasks using structured data representations. The trained auto-decoder, trained Mask-Res-SE-U-Net, and Adam optimiser are integrated to conduct blank optimisation by modifying the latent vector. The optimiser can rapidly find blank shapes that satisfy manufacturability criteria. As a high-accuracy and generalisable surrogate modelling and optimisation tool, the proposed pipeline is promising to be integrated into a full-chain digital twin to conduct real-time, multi-objective design optimisation.
翻訳日:2022-12-18 18:48:56 公開日:2022-12-01
# ColBERT: 並列ニューラルネットワークにおけるBERT文の埋め込みによる計算モデル

ColBERT: Using BERT Sentence Embedding in Parallel Neural Networks for Computational Humor ( http://arxiv.org/abs/2004.12765v7 )

ライセンス: Link先を確認
Issa Annamoradnejad and Gohar Zoghi(参考訳) ユーモア検出と評価の自動化は、ヒューマノイドロボット、チャットボット、バーチャルアシスタントといった現代技術における興味深いユースケースである。 本稿では,ユーモアの一般的な言語理論に基づいて,短文におけるユーモアの検出と評価を行う新しい手法を提案する。 提案手法は,与えられたテキストの文を分離し,BERTモデルを用いて各テキストの埋め込みを生成する。 埋め込みはニューラルネットワーク(各文の1行)内の隠されたレイヤの別々の行に供給され、潜伏した特徴を抽出する。 そして、最後に平行線を連結して文間の合同性その他の関係を判定し、目標値を予測する。 20万の短い文章からなるユーモア検出のための新しいデータセットを論文に添付した。 新たなデータセットに関する作業の評価に加えて、スペインのつぶやきにおけるユーモアの評価に焦点を当てた、ライブ機械学習コンペにも参加しました。 提案モデルは, 一般モデルおよび最先端モデルに匹敵するユーモア検出実験において, 0.982, 0.869のf1スコアを得た。 2つのコントラスト設定で実施した評価により,モデルの強度と頑健性が確認でき,現在の作業における高精度化に重要な2つの要因が示唆された。 1) 文の埋め込みと使用法 2)提案モデルの設計においてユーモアの言語構造を利用する。

Automation of humor detection and rating has interesting use cases in modern technologies, such as humanoid robots, chatbots, and virtual assistants. In this paper, we propose a novel approach for detecting and rating humor in short texts based on a popular linguistic theory of humor. The proposed technical method initiates by separating sentences of the given text and utilizing the BERT model to generate embeddings for each one. The embeddings are fed to separate lines of hidden layers in a neural network (one line for each sentence) to extract latent features. At last, the parallel lines are concatenated to determine the congruity and other relationships between the sentences and predict the target value. We accompany the paper with a novel dataset for humor detection consisting of 200,000 formal short texts. In addition to evaluating our work on the novel dataset, we participated in a live machine learning competition focused on rating humor in Spanish tweets. The proposed model obtained F1 scores of 0.982 and 0.869 in the humor detection experiments which outperform general and state-of-the-art models. The evaluation performed on two contrasting settings confirm the strength and robustness of the model and suggests two important factors in achieving high accuracy in the current task: 1) usage of sentence embeddings and 2) utilizing the linguistic structure of humor in designing the proposed model.
翻訳日:2022-12-09 04:28:14 公開日:2022-12-01
# オンライン顧客行動分析のためのハイブリッド統計的・機械学習アプローチ:実証的研究

A Hybrid Statistical-Machine Learning Approach for Analysing Online Customer Behavior: An Empirical Study ( http://arxiv.org/abs/2212.02255v1 )

ライセンス: Link先を確認
Saed Alizami, Kasun Bandara, Ali Eshragh, Foaad Iravani(参考訳) 従来の統計的手法を最先端の機械学習技術と組み合わせて、中国最大のオンライン小売店であるJDで、特定の商品カテゴリーの顧客454,897の行動分析を行うハイブリッド解釈モデルを開発した。 多くの機械学習手法は、実際には解釈可能性の欠如に悩まされているが、我々の新しいハイブリッドアプローチは、説明可能な出力を生成することで、この問題に対処する。 この分析は、顧客の購入行動に最も大きな影響を与える特徴や特徴を特定することを含み、それによって、高いレベルの精度で将来の販売を予測し、最も影響のある変数を特定できる。 以上の結果から,顧客の製品選択が約束される納期に無関心であることが分かるが,この要因は顧客の注文量に大きな影響を及ぼす。 また, 各種ディスカウント方式の有効性は, 特定の製品とディスカウントサイズに依存することを示した。 特定のディスカウントアプローチがより効果的である製品クラスを特定し、異なるディスカウントツールのより良い使用を推奨する。 異なる製品クラスにおける顧客の選択行動は、主に価格によって行われ、顧客層によっても少なくなる。 前者は、いつ、どのくらいのディスカウントを提供するべきかを決める際に注意を喚起するが、後者はパーソナライズされた広告とターゲットマーケティングの機会を特定する。 さらに、顧客のバッチ注文動作を抑制し、望ましくないブルホイップ効果を避けるため、jdは注文の迅速な配信を確保するためにロジスティクスを改善しなければならない。

We apply classical statistical methods in conjunction with the state-of-the-art machine learning techniques to develop a hybrid interpretable model to analyse 454,897 online customers' behavior for a particular product category at the largest online retailer in China, that is JD. While most mere machine learning methods are plagued by the lack of interpretability in practice, our novel hybrid approach will address this practical issue by generating explainable output. This analysis involves identifying what features and characteristics have the most significant impact on customers' purchase behavior, thereby enabling us to predict future sales with a high level of accuracy, and identify the most impactful variables. Our results reveal that customers' product choice is insensitive to the promised delivery time, but this factor significantly impacts customers' order quantity. We also show that the effectiveness of various discounting methods depends on the specific product and the discount size. We identify product classes for which certain discounting approaches are more effective and provide recommendations on better use of different discounting tools. Customers' choice behavior across different product classes is mostly driven by price, and to a lesser extent, by customer demographics. The former finding asks for exercising care in deciding when and how much discount should be offered, whereas the latter identifies opportunities for personalized ads and targeted marketing. Further, to curb customers' batch ordering behavior and avoid the undesirable Bullwhip effect, JD should improve its logistics to ensure faster delivery of orders.
翻訳日:2022-12-06 19:21:49 公開日:2022-12-01
# 畳み込み・集約・注意に基づく深層ニューラルネットワークによる力学シミュレーションの高速化

Convolution, aggregation and attention based deep neural networks for accelerating simulations in mechanics ( http://arxiv.org/abs/2212.01386v1 )

ライセンス: Link先を確認
Saurabh Deshpande, Ra\'ul I. Sosa, St\'ephane P.A. Bordas, Jakub Lengiewicz(参考訳) ディープラーニングサロゲートモデルは、コストのかかる従来の数値手法の代替として、科学シミュレーションの加速にますます利用されている。 しかし、実世界の複雑な例を扱う場合、それらの使用は依然として大きな課題である。 本研究では,固体の非線形変形を効率的に学習するための3種類のニューラルネットワークアーキテクチャを示す。 最初の2つのアーキテクチャは、最近提案されたCNN U-NETとMagNET(グラフ U-NET)フレームワークに基づいている。 第3のアーキテクチャであるPerceiver IOは、注目に基づくニューラルネットワークのファミリーに属する、非常に最近のアーキテクチャである。 3つのネットワークの性能を2つのベンチマーク例で比較し,ソフトボディの非線形機械的応答を正確に予測する能力を示した。

Deep learning surrogate models are being increasingly used in accelerating scientific simulations as a replacement for costly conventional numerical techniques. However, their use remains a significant challenge when dealing with real-world complex examples. In this work, we demonstrate three types of neural network architectures for efficient learning of highly non-linear deformations of solid bodies. The first two architectures are based on the recently proposed CNN U-NET and MAgNET (graph U-NET) frameworks which have shown promising performance for learning on mesh-based data. The third architecture is Perceiver IO, a very recent architecture that belongs to the family of attention-based neural networks--a class that has revolutionised diverse engineering fields and is still unexplored in computational mechanics. We study and compare the performance of all three networks on two benchmark examples, and show their capabilities to accurately predict the non-linear mechanical responses of soft bodies.
翻訳日:2022-12-06 18:55:37 公開日:2022-12-01
# 格子ゲージ同変ニューラルネットワークの応用

Applications of Lattice Gauge Equivariant Neural Networks ( http://arxiv.org/abs/2212.00832v1 )

ライセンス: Link先を確認
Matteo Favoni, Andreas Ipp, David I. M\"uller(参考訳) ニューラルネットワークアーキテクチャへの関連物理情報の導入は、そのパフォーマンスを改善するために広く使われ、成功した戦略となっている。 格子ゲージ理論では,近年提案した格子ゲージ同変畳み込みニューラルネットワーク(L-CNN)のネットワーク層に組み込まれたゲージ対称性と同一視できる。 l-cnnは従来のニューラルネットワークと異なる大きさの格子に一般化することができ、格子ゲージ変換の下で構築同値である。 本稿では,L-CNNのWilsonフローや連続正規化フローへの適用の可能性について述べる。 提案手法は, ゲージ同変方法でリンク構成を修正できるニューラル常微分方程式に基づいている。 シンプルさのために、これらのアイデアを実際にテストするためのシンプルなおもちゃモデルにフォーカスします。

The introduction of relevant physical information into neural network architectures has become a widely used and successful strategy for improving their performance. In lattice gauge theories, such information can be identified with gauge symmetries, which are incorporated into the network layers of our recently proposed Lattice Gauge Equivariant Convolutional Neural Networks (L-CNNs). L-CNNs can generalize better to differently sized lattices than traditional neural networks and are by construction equivariant under lattice gauge transformations. In these proceedings, we present our progress on possible applications of L-CNNs to Wilson flow or continuous normalizing flow. Our methods are based on neural ordinary differential equations which allow us to modify link configurations in a gauge equivariant manner. For simplicity, we focus on simple toy models to test these ideas in practice.
翻訳日:2022-12-05 18:01:55 公開日:2022-12-01
# プレコーディング学習のためのモデルベースGNN

A Model-based GNN for Learning Precoding ( http://arxiv.org/abs/2212.00860v1 )

ライセンス: Link先を確認
Jia Guo and Chenyang Yang(参考訳) ニューラルネットワークによる事前コーディングポリシの学習は、低複雑性のオンライン実装、チャネル障害に対する堅牢性、チャネル取得との併用最適化を可能にする。 しかし、既存のニューラルネットワークは、マルチユーザ干渉を緩和するためのプリコーディングの最適化を学ぶために使用されると、トレーニングの複雑さと一般化能力の低下に悩まされる。 これは、ユーザ数が時間的に異なる実用的なシステムでの使用を妨げる。 本稿では,数理モデルとポリシの特性を両立させることで,プリコーディングポリシを学習するためのグラフニューラルネットワーク(GNN)を提案する。 まず,アンテナ数とユーザ数が大きい場合,バニラGNNはチャネル行列の擬似逆解析を十分に学べず,未確認ユーザ数には一般化できないことを示す。 そこで,GNNをTaylorの擬似逆行列の拡張に頼って設計し,事前符号化ポリシーを効率よく学習する上で欠かせない,隣り合うエッジの重要性を把握できるようにする。 シミュレーションの結果、GNNは、訓練の複雑さの低いシングルセルおよびマルチセルマルチユーザアンテナシステムにおいて、スペクトル効率とエネルギー効率のよいプリコーディングポリシーを十分に学習でき、ユーザ数によく一般化できることがわかった。

Learning precoding policies with neural networks enables low complexity online implementation, robustness to channel impairments, and joint optimization with channel acquisition. However, existing neural networks suffer from high training complexity and poor generalization ability when they are used to learn to optimize precoding for mitigating multi-user interference. This impedes their use in practical systems where the number of users is time-varying. In this paper, we propose a graph neural network (GNN) to learn precoding policies by harnessing both the mathematical model and the property of the policies. We first show that a vanilla GNN cannot well-learn pseudo-inverse of channel matrix when the numbers of antennas and users are large, and is not generalizable to unseen numbers of users. Then, we design a GNN by resorting to the Taylor's expansion of matrix pseudo-inverse, which allows for capturing the importance of the neighbored edges to be aggregated that is crucial for learning precoding policies efficiently. Simulation results show that the proposed GNN can well learn spectral efficient and energy efficient precoding policies in single- and multi-cell multi-user multi-antenna systems with low training complexity, and can be well generalized to the numbers of users.
翻訳日:2022-12-05 18:01:44 公開日:2022-12-01
# ニューラルネットワークによるロバスト状態オブザーバの学習(より長いバージョン)

Learning Robust State Observers using Neural ODEs (longer version) ( http://arxiv.org/abs/2212.00866v1 )

ライセンス: Link先を確認
Keyan Miao and Konstantinos Gatsis(参考訳) 本稿では,神経オデムに関する最近の研究結果に基づき,神経オデムに基づく非線形系に対する状態オブザーバの設計手法を提案し,ルンベルガー様オブザーバとそれらの非線形拡張(カザンツィス・クラヴァリス・ルエンベルガー(kkl)オブザーバ)について,部分的既知の非線形ダイナミクスと未知の非線形ダイナミクスをそれぞれ学習する。 特に、調整可能なKKLオブザーバの場合、学習における学習に基づくオブザーバの堅牢性向上の基礎として、オブザーバの設計と収束速度とロバストネスのトレードオフの関係を分析し、利用する。 この手法の利点を数値シミュレーションで説明する。

Relying on recent research results on Neural ODEs, this paper presents a methodology for the design of state observers for nonlinear systems based on Neural ODEs, learning Luenberger-like observers and their nonlinear extension (Kazantzis-Kravaris-Luenberger (KKL) observers) for systems with partially-known nonlinear dynamics and fully unknown nonlinear dynamics, respectively. In particular, for tuneable KKL observers, the relationship between the design of the observer and its trade-off between convergence speed and robustness is analysed and used as a basis for improving the robustness of the learning-based observer in training. We illustrate the advantages of this approach in numerical simulations.
翻訳日:2022-12-05 18:01:22 公開日:2022-12-01
# 不確実性下での最適化入門 -- 短期調査-

An introduction to optimization under uncertainty -- A short survey ( http://arxiv.org/abs/2212.00862v1 )

ライセンス: Link先を確認
Keivan Shariatmadar, Kaizheng Wang, Calvin R. Hubbard, Hans Hallez, David Moens(参考訳) 最適化は、様々な分野のエンジニアや科学者に、問題を一般的な定式化に書き起こし、比較的容易な最適解を受け取る能力を与える。 航空宇宙からロボティクスまで、産業は最適化理論と関連するアルゴリズム開発の進歩の恩恵を受け続けている。 今日では、自動運転車のような安全上重要な状況で動作する自律システムにおいて、最適化がリアルタイムに使用されている。 不確実性を最適化プログラムに組み込むことでロバストなソリューションを作ることがますます重要になっている。 本稿では,不確実性の下での最適化技術の現状について簡単な調査を行う。 論文は、不確実性のない最適化の主要なクラスの概要から始まる。 本稿の残りは、動脈とてんかんの両不確実性を扱うための異なる方法に焦点を当てている。 この論文で議論されているアプリケーションの多くは、制御の領域内にある。 本研究の目的は,様々な方法で芸術の現状を簡潔に把握し,本研究のトピックをより深く扱うために読者を他の文献に紹介することである。

Optimization equips engineers and scientists in a variety of fields with the ability to transcribe their problems into a generic formulation and receive optimal solutions with relative ease. Industries ranging from aerospace to robotics continue to benefit from advancements in optimization theory and the associated algorithmic developments. Nowadays, optimization is used in real time on autonomous systems acting in safety critical situations, such as self-driving vehicles. It has become increasingly more important to produce robust solutions by incorporating uncertainty into optimization programs. This paper provides a short survey about the state of the art in optimization under uncertainty. The paper begins with a brief overview of the main classes of optimization without uncertainty. The rest of the paper focuses on the different methods for handling both aleatoric and epistemic uncertainty. Many of the applications discussed in this paper are within the domain of control. The goal of this survey paper is to briefly touch upon the state of the art in a variety of different methods and refer the reader to other literature for more in-depth treatments of the topics discussed here.
翻訳日:2022-12-05 17:44:33 公開日:2022-12-01
# CPUおよびGPU上のGCN中の埋め込み次元のアーキテクチャ的意味

Architectural Implications of Embedding Dimension during GCN on CPU and GPU ( http://arxiv.org/abs/2212.00827v1 )

ライセンス: Link先を確認
Matthew Adiletta, David Brooks, Gu-Yeon Wei(参考訳) グラフニューラルネットワーク(GNN)は、データのグラフィカルな構造から情報を抽出するために設計されたニューラルネットワークのクラスである。 グラフ畳み込みネットワーク(GCN)は、グラフから情報を学ぶために畳み込みを適用した、トランスダクティブグラフ学習問題に広く用いられているタイプのGNNである。 GCNは、固有のスパーシリティ、低いデータ再利用、大規模なメモリ容量要求のため、アーキテクチャの観点からは難しいアルゴリズムである。 従来のニューラルネットワークは、推論とトレーニングの両方で高いパフォーマンスを達成するために、GPUの高い計算能力を利用する。 GCN推論にGPUを使用するというアーキテクチャ上の決定は、この研究で検討された問題である。 CPUとGPUの両方のGCNは、グラフサイズ、埋め込み次元、パフォーマンスのサンプリングの影響をよりよく理解するために特徴付けられている。

Graph Neural Networks (GNNs) are a class of neural networks designed to extract information from the graphical structure of data. Graph Convolutional Networks (GCNs) are a widely used type of GNN for transductive graph learning problems which apply convolution to learn information from graphs. GCN is a challenging algorithm from an architecture perspective due to inherent sparsity, low data reuse, and massive memory capacity requirements. Traditional neural algorithms exploit the high compute capacity of GPUs to achieve high performance for both inference and training. The architectural decision to use a GPU for GCN inference is a question explored in this work. GCN on both CPU and GPU was characterized in order to better understand the implications of graph size, embedding dimension, and sampling on performance.
翻訳日:2022-12-05 17:42:33 公開日:2022-12-01
# 力学の分類問題に対するディープラーニングモデル校正の検討

Investigating Deep Learning Model Calibration for Classification Problems in Mechanics ( http://arxiv.org/abs/2212.00881v1 )

ライセンス: Link先を確認
Saeed Mohammadzadeh, Peerasait Prachaseree, Emma Lejeune(参考訳) 近年,機械学習手法を工学的な問題に適用することへの関心が高まっている。 特に,異種材料や構造物の力学挙動の予測に深層学習技術を適用することには大きな関心が寄せられている。 深層学習法は、エンジニアリングされた複合材料から幾何学的に複雑なメタマテリアル、異質な生体組織に至るまで、システムの機械的挙動を低誤差で効果的に予測できることを示した。 しかし、ディープラーニングモデルのキャリブレーション、すなわち予測された結果の確率と真の結果の確率との一致には、比較的注意が払われていない。 本研究では,MLモデルのキャリブレーションを,3種類の機械的問題を網羅する7つのオープンアクセスエンジニアリングメカニクスデータセットに対して包括的に調査する。 具体的には,複数の機械学習手法におけるモデル校正誤差とモデル校正誤差を評価し,温度スケーリングによるアンサンブル平均化とポストホックモデル校正の影響について検討する。 全体として、深層ニューラルネットワークのアンサンブル平均化は、モデルキャリブレーションを改善する効果的な一貫したツールであり、温度スケーリングは比較的限られた利点がある。 今後,本研究は,深層学習モデルのキャリブレーションに対する力学固有のアプローチ開発における今後の研究の基盤となるものと期待されている。

Recently, there has been a growing interest in applying machine learning methods to problems in engineering mechanics. In particular, there has been significant interest in applying deep learning techniques to predicting the mechanical behavior of heterogeneous materials and structures. Researchers have shown that deep learning methods are able to effectively predict mechanical behavior with low error for systems ranging from engineered composites, to geometrically complex metamaterials, to heterogeneous biological tissue. However, there has been comparatively little attention paid to deep learning model calibration, i.e., the match between predicted probabilities of outcomes and the true probabilities of outcomes. In this work, we perform a comprehensive investigation into ML model calibration across seven open access engineering mechanics datasets that cover three distinct types of mechanical problems. Specifically, we evaluate both model and model calibration error for multiple machine learning methods, and investigate the influence of ensemble averaging and post hoc model calibration via temperature scaling. Overall, we find that ensemble averaging of deep neural networks is both an effective and consistent tool for improving model calibration, while temperature scaling has comparatively limited benefits. Looking forward, we anticipate that this investigation will lay the foundation for future work in developing mechanics specific approaches to deep learning model calibration.
翻訳日:2022-12-05 17:42:19 公開日:2022-12-01
# 神経確率微分方程式による非線形制御性と関数表現

Nonlinear controllability and function representation by neural stochastic differential equations ( http://arxiv.org/abs/2212.00896v1 )

ライセンス: Link先を確認
Tanya Veeravalli and Maxim Raginsky(参考訳) 近年、ランダムな内部パラメータに関して与えられた非線形性の期待として表現できる関数の学習と近似に多くの関心が寄せられている。 そのような表現の例としては、「無限に広い」ニューラルネットワークがあり、基礎となる非線形性は個々のニューロンの活性化関数によって与えられる。 本稿では、この視点を神経確率微分方程式(SDE)による関数表現に適用する。 神経SDEは、ドリフトと拡散行列がいくつかのパラメトリックファミリーの要素である It\^o 拡散過程である。 ニューラルSDEが初期状態の非線形関数を実現する能力は、有限時間で与えられた2つの点間の決定論的力学系を最適に操る問題と関連していることを示す。 この補助システムは、SDEにおけるブラウン運動を決定論的制御入力で正式に置き換えることにより得られる。 これらの境界は、運動計画と決定論的最適制御の文脈において独立した関心を持つかもしれない。

There has been a great deal of recent interest in learning and approximation of functions that can be expressed as expectations of a given nonlinearity with respect to its random internal parameters. Examples of such representations include "infinitely wide" neural nets, where the underlying nonlinearity is given by the activation function of an individual neuron. In this paper, we bring this perspective to function representation by neural stochastic differential equations (SDEs). A neural SDE is an It\^o diffusion process whose drift and diffusion matrix are elements of some parametric families. We show that the ability of a neural SDE to realize nonlinear functions of its initial condition can be related to the problem of optimally steering a certain deterministic dynamical system between two given points in finite time. This auxiliary system is obtained by formally replacing the Brownian motion in the SDE by a deterministic control input. We derive upper and lower bounds on the minimum control effort needed to accomplish this steering; these bounds may be of independent interest in the context of motion planning and deterministic optimal control.
翻訳日:2022-12-05 17:41:55 公開日:2022-12-01
# Karolos: ロボットタスク環境のためのオープンソースの強化学習フレームワーク

Karolos: An Open-Source Reinforcement Learning Framework for Robot-Task Environments ( http://arxiv.org/abs/2212.00906v1 )

ライセンス: Link先を確認
Christian Bitter, Timo Thun, Tobias Meisen(参考訳) 強化学習(RL)研究において、シミュレーションはエージェントのプロトタイピングやハイパーパラメータチューニングと同様に、アルゴリズム間のベンチマークを可能にする。 研究と実世界のアプリケーションの両方においてRLを推進するためには、実験をできるだけ早く実行するためには、一方的に効率的であるフレームワークが必要である。 一方、新しい最適化手法、例えば、アクティブな研究コミュニティによって継続的に推進される新しいRLアルゴリズムの統合を可能にするには、柔軟でなければならない。 本稿では,ロボットアプリケーション用に開発されたRLフレームワークであるKarolosを紹介する。 さらに,現状のRLアルゴリズムの実装や,学習能力の向上,複数のプロセスにまたがって環境を並列化し,実験を著しく高速化するアーキテクチャも提供する。 このコードはオープンソースであり、ロボティクスにおけるrlアプリケーションの研究を促進する目的でgithubで公開されている。

In reinforcement learning (RL) research, simulations enable benchmarks between algorithms, as well as prototyping and hyper-parameter tuning of agents. In order to promote RL both in research and real-world applications, frameworks are required which are on the one hand efficient in terms of running experiments as fast as possible. On the other hand, they must be flexible enough to allow the integration of newly developed optimization techniques, e.g. new RL algorithms, which are continuously put forward by an active research community. In this paper, we introduce Karolos, a RL framework developed for robotic applications, with a particular focus on transfer scenarios with varying robot-task combinations reflected in a modular environment architecture. In addition, we provide implementations of state-of-the-art RL algorithms along with common learning-facilitating enhancements, as well as an architecture to parallelize environments across multiple processes to significantly speed up experiments. The code is open source and published on GitHub with the aim of promoting research of RL applications in robotics.
翻訳日:2022-12-05 17:36:14 公開日:2022-12-01
# ビデオデータの海をナビゲートする:YouTubeビデオのハンプバッククジラ分類のためのディープラーニング

Navigating an Ocean of Video Data: Deep Learning for Humpback Whale Classification in YouTube Videos ( http://arxiv.org/abs/2212.00822v1 )

ライセンス: Link先を確認
Michelle Ramirez(参考訳) 人工知能(AI)によって強化された画像解析技術は、画像とビデオがハチクジラ(Megaptera novaeangliae)の個体数と動態を学習するための貴重なデータ源であることが証明された。 ソーシャルメディアの出現に伴い、YouTubeのようなプラットフォームは、世界中のユーザーからのハチクジラの遭遇を記録できる、時空間にまたがる大量のビデオデータを提示する。 本研究では,本研究の焦点は,深層学習によるハチの遭遇を文書化するかどうかに基づいて,YouTubeビデオの分類を関連性あるいは無関係性として自動化することである。 我々は、YouTubeビデオの分類にImageNetデータセットで事前訓練されたCNN-RNNアーキテクチャを使用する。 平均85.7%の精度、84.7%(無関係)/86.6%(関連)のF1スコアを5倍のクロス検証を用いてデータセット上で評価する。 深層学習は、ソーシャルメディアを生物多様性評価のための画像およびビデオデータの有効源とするために、時間効率のよいステップとして利用できることを示す。

Image analysis technologies empowered by artificial intelligence (AI) have proved images and videos to be an opportune source of data to learn about humpback whale (Megaptera novaeangliae) population sizes and dynamics. With the advent of social media, platforms such as YouTube present an abundance of video data across spatiotemporal contexts documenting humpback whale encounters from users worldwide. In our work, we focus on automating the classification of YouTube videos as relevant or irrelevant based on whether they document a true humpback whale encounter or not via deep learning. We use a CNN-RNN architecture pretrained on the ImageNet dataset for classification of YouTube videos as relevant or irrelevant. We achieve an average 85.7% accuracy, and 84.7% (irrelevant)/ 86.6% (relevant) F1 scores using five-fold cross validation for evaluation on the dataset. We show that deep learning can be used as a time-efficient step to make social media a viable source of image and video data for biodiversity assessments.
翻訳日:2022-12-05 17:34:23 公開日:2022-12-01
# クラスタリング -- 基本的な概念と方法

Clustering -- Basic concepts and methods ( http://arxiv.org/abs/2212.01248v1 )

ライセンス: Link先を確認
Jan-Oliver Felix Kapp-Joswig, Bettina G. Keller(参考訳) 分析ツールとしてのクラスタリングと,その基盤となる概念について紹介する。 クラスタリングとは何か、クラスタリングはどのようにプログラム的に実現できるか? クラスタリングタスクに対して、データをどのように表現して準備するか? クラスタリングの結果はどのように検証できますか? 接続性に基づくアプローチとプロトタイプベースのアプローチは, 単一リンク, スペクトル埋め込み, k平均, ガウス混合, 密度ベースプロトコル(H)DBSCAN, Jarvis-Patrick, CommonNN, 密度ピークなど, 一般的な手法のコンテキストに反映される。

We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
翻訳日:2022-12-05 17:25:43 公開日:2022-12-01
# 深層強化学習衝突回避システムの報酬関数最適化

Reward Function Optimization of a Deep Reinforcement Learning Collision Avoidance System ( http://arxiv.org/abs/2212.00855v1 )

ライセンス: Link先を確認
Cooper Cone, Michael Owen, Luis Alvarez, Marc Brittain(参考訳) 無人航空機システム(UAS)の普及により、航空規制当局がこれらの航空機と衝突回避システムとの相互運用性を検討するようになった。 現在義務化されているTCASの制限により、連邦航空局は、UASを含む複数の航空機プラットフォームでの衝突回避機能を実現するために設計された新しいソリューションである空中衝突回避システムX(ACAS X)の開発を委託した。 衝突回避のための深部強化学習アルゴリズム (DRL) を用いた以前の研究では、DRLは既存のソリューションほど性能が良くなかった。 本研究では,サロゲートオプティマイザを用いてパラメータを調整したDRL衝突回避システムの利点を検討する。 本稿では,サロゲートオプティマイザを用いることで,安全性と運用性を高め,UAS衝突回避のための今後の能力開発を支援するDRLアプローチを提案する。

The proliferation of unmanned aircraft systems (UAS) has caused airspace regulation authorities to examine the interoperability of these aircraft with collision avoidance systems initially designed for large transport category aircraft. Limitations in the currently mandated TCAS led the Federal Aviation Administration to commission the development of a new solution, the Airborne Collision Avoidance System X (ACAS X), designed to enable a collision avoidance capability for multiple aircraft platforms, including UAS. While prior research explored using deep reinforcement learning algorithms (DRL) for collision avoidance, DRL did not perform as well as existing solutions. This work explores the benefits of using a DRL collision avoidance system whose parameters are tuned using a surrogate optimizer. We show the use of a surrogate optimizer leads to DRL approach that can increase safety and operational viability and support future capability development for UAS collision avoidance.
翻訳日:2022-12-05 17:24:17 公開日:2022-12-01
# 自動都市計画のための人間教育型深層階層生成学習

Human-instructed Deep Hierarchical Generative Learning for Automated Urban Planning ( http://arxiv.org/abs/2212.00904v1 )

ライセンス: Link先を確認
Dongjie Wang, Lingfei Wu, Denghui Zhang, Jingbo Zhou, Leilei Sun, and Yanjie Fu(参考訳) 都市計画の重要な課題は、対象地域の最適土地利用構成を生成することである。 しかし、伝統的な都市計画は時間と労力がかかる。 深層生成学習は、この計画プロセスを自動化し、理想的な都市計画を思いつくことを期待しています。 顕著な成果は得られているが、認識の欠如には限界がある。 1) 機能的ゾーンと空間的グリッドの間の階層的依存関係 2)機能領域間の相互依存関係,及び 3) 生成した構成のユーザビリティを確保するためのヒューマンレギュレーション。 これらの制約に対処するため,我々は新しい階層的階層モデルを開発した。 我々は,都市計画生成タスクをユニークな機能の観点から再考し,計画要件を異なる機能予測にまとめ,都市計画生成を改善する。 そこで我々は,対象領域からゾーン,グリッドへの3段階生成プロセスを開発した。 第一段階は、潜在機能を持つ対象領域の格子をラベル付けして機能的ゾーンを見つけることである。 第2段階は、都市機能予測を形成するための計画要件を認識することである。 本稿では,人間の指示と地理空間的コンテキストの埋め込みをゾーンレベルの計画に投影し,その射影を得る機能化モジュールを提案する。 それぞれのプロジェクションは、特定の都市機能の観点から、土地利用ポートフォリオの情報と空間グリッド間の構造的依存関係を含む。 第3段階は、マルチアテンションを利用して、機能プロジェクションのゾーンゾーン間のピア依存性をモデル化し、グリッドレベルの土地利用構成を生成することだ。 最後に,フレームワークの有効性を実証するための実験を行った。

The essential task of urban planning is to generate the optimal land-use configuration of a target area. However, traditional urban planning is time-consuming and labor-intensive. Deep generative learning gives us hope that we can automate this planning process and come up with the ideal urban plans. While remarkable achievements have been obtained, they have exhibited limitations in lacking awareness of: 1) the hierarchical dependencies between functional zones and spatial grids; 2) the peer dependencies among functional zones; and 3) human regulations to ensure the usability of generated configurations. To address these limitations, we develop a novel human-instructed deep hierarchical generative model. We rethink the urban planning generative task from a unique functionality perspective, where we summarize planning requirements into different functionality projections for better urban plan generation. To this end, we develop a three-stage generation process from a target area to zones to grids. The first stage is to label the grids of a target area with latent functionalities to discover functional zones. The second stage is to perceive the planning requirements to form urban functionality projections. We propose a novel module: functionalizer to project the embedding of human instructions and geospatial contexts to the zone-level plan to obtain such projections. Each projection includes the information of land-use portfolios and the structural dependencies across spatial grids in terms of a specific urban function. The third stage is to leverage multi-attentions to model the zone-zone peer dependencies of the functionality projections to generate grid-level land-use configurations. Finally, we present extensive experiments to demonstrate the effectiveness of our framework.
翻訳日:2022-12-05 17:24:02 公開日:2022-12-01
# 表領域における半教師付き学習におけるプログレッシブ・フィーチャー・アップグレード

Progressive Feature Upgrade in Semi-supervised Learning on Tabular Domain ( http://arxiv.org/abs/2212.00892v1 )

ライセンス: Link先を確認
Morteza Mohammady Gharasuie, Fenjiao Wang(参考訳) 近年の半教師あり・自己教師あり方式は強調技術を利用して画像・テキスト領域において大きな成功を収めている。 このような成功にもかかわらず、この成功を表ドメインに転送するのは容易ではない。 表領域に異なるデータ型(連続データと分類データ)が混在しているため、画像や言語から表データへのドメイン固有の変換は容易ではない。 表データの新たな拡張技術の提案に焦点をあてた、表領域に関する半教師付き研究がいくつかある。 これらのアプローチは、カテゴリデータにおける低心拍数データセットにいくつかの改善をもたらした可能性がある。 しかし、基本的な課題は解決されていない。 提案手法は,高心性データセットには適用されないか,分類データの効率的な符号化を用いない。 半教師付きアプリケーションにおける表データの表現を効果的に学習するために,条件付き確率表現と効率的な機能アップグレードフレームワークを提案する。 広範な実験により,提案手法の優れた性能と,半教師あり設定における潜在的応用が示された。

Recent semi-supervised and self-supervised methods have shown great success in the image and text domain by utilizing augmentation techniques. Despite such success, it is not easy to transfer this success to tabular domains. It is not easy to adapt domain-specific transformations from image and language to tabular data due to mixing of different data types (continuous data and categorical data) in the tabular domain. There are a few semi-supervised works on the tabular domain that have focused on proposing new augmentation techniques for tabular data. These approaches may have shown some improvement on datasets with low-cardinality in categorical data. However, the fundamental challenges have not been tackled. The proposed methods either do not apply to datasets with high-cardinality or do not use an efficient encoding of categorical data. We propose using conditional probability representation and an efficient progressively feature upgrading framework to effectively learn representations for tabular data in semi-supervised applications. The extensive experiments show superior performance of the proposed framework and the potential application in semi-supervised settings.
翻訳日:2022-12-05 17:17:13 公開日:2022-12-01
# グラフニューラルネットワークのための階層モデル選択

Hierarchical Model Selection for Graph Neural Netoworks ( http://arxiv.org/abs/2212.00898v1 )

ライセンス: Link先を確認
Yuga Oishi, Ken Kaneiwa(参考訳) グラフデータのノード分類は大きな問題であり、様々なグラフニューラルネットワーク(GNN)が提案されている。 H2GCNやCPFのようなGNNの多様性は、従来のGNNの弱点を改善することにより、GCNよりも優れている。 しかし、これらのGNN変種がノード分類タスクの他のGNNよりもうまく機能しないグラフデータもある。 これは、H2GCNがグラフデータに高い平均度で機能を薄めているためであり、CPFはラベルプロパゲーション適合性の問題を引き起こす。 そこで我々は,各グラフデータの指標を分析し,適切なGNNモデルを選択する階層モデル選択フレームワーク(HMSF)を提案する。 実験では,我々のhmsfで選択したモデルが,各種グラフデータのノード分類において高い性能を実現することを示す。

Node classification on graph data is a major problem, and various graph neural networks (GNNs) have been proposed. Variants of GNNs such as H2GCN and CPF outperform graph convolutional networks (GCNs) by improving on the weaknesses of the traditional GNN. However, there are some graph data which these GNN variants fail to perform well than other GNNs in the node classification task. This is because H2GCN has a feature thinning on graph data with high average degree, and CPF gives rise to a problem about label-propagation suitability. Accordingly, we propose a hierarchical model selection framework (HMSF) that selects an appropriate GNN model by analyzing the indicators of each graph data. In the experiment, we show that the model selected by our HMSF achieves high performance on node classification for various types of graph data.
翻訳日:2022-12-05 17:17:00 公開日:2022-12-01
# 因果深層学習のナビゲーション

Navigating causal deep learning ( http://arxiv.org/abs/2212.00911v1 )

ライセンス: Link先を確認
Jeroen Berrevoets, Krzysztof Kacprzyk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 因果的ディープラーニング(cdl)は、機械学習の大きな分野において、新しく重要な研究領域である。 cdlでは、研究者はディープラーニングモデルの非常に柔軟な表現空間で因果知識を構造化し、エンコードすることを目指している。 そうすることで、より情報があり、堅牢で、一般的な予測と推論につながります。 しかし、CDLはまだ初期段階である。 例えば、アウトプットの違いや因果的知識のエンコード方法、さらにはその知識の表現方法など、どのように異なる方法を比較するべきかは明確ではありません。 これは、パールの因果関係のはしごを越えて因果的深層学習の手法を分類する生きた論文である。 パールのはしごのハングを洗練させながら、入力と表現の両方のパラメトリック仮定を分類する別の次元を追加し、因果深層学習の地図に到達します。 本マップでは,教師付き学習,強化学習,生成モデリングなど,機械学習の分野を網羅する。 私たちのパラダイムは、研究者がベンチマークを見つけ、メソッドを比較し、そして最も重要なのは、研究ギャップを特定するのに役立つツールです。 本研究の目的は,因果的深層学習に関する論文の雪崩を構造化することである。 トピックに関する論文が毎日発行されている間、私たちの地図は固定されています。 関連したワークセクションでガイダンスを提供するか、あるいは論文の貢献をより強調するために、私たちはマップをオープンソースとして公開しています。

Causal deep learning (CDL) is a new and important research area in the larger field of machine learning. With CDL, researchers aim to structure and encode causal knowledge in the extremely flexible representation space of deep learning models. Doing so will lead to more informed, robust, and general predictions and inference -- which is important! However, CDL is still in its infancy. For example, it is not clear how we ought to compare different methods as they are so different in their output, the way they encode causal knowledge, or even how they represent this knowledge. This is a living paper that categorises methods in causal deep learning beyond Pearl's ladder of causation. We refine the rungs in Pearl's ladder, while also adding a separate dimension that categorises the parametric assumptions of both input and representation, arriving at the map of causal deep learning. Our map covers machine learning disciplines such as supervised learning, reinforcement learning, generative modelling and beyond. Our paradigm is a tool which helps researchers to: find benchmarks, compare methods, and most importantly: identify research gaps. With this work we aim to structure the avalanche of papers being published on causal deep learning. While papers on the topic are being published daily, our map remains fixed. We open-source our map for others to use as they see fit: perhaps to offer guidance in a related works section, or to better highlight the contribution of their paper.
翻訳日:2022-12-05 17:16:46 公開日:2022-12-01
# 自己整合クラスタリング解析による均質化のためのカーネルおよびオペレータ学習法入門

An Introduction to Kernel and Operator Learning Methods for Homogenization by Self-consistent Clustering Analysis ( http://arxiv.org/abs/2212.00802v1 )

ライセンス: Link先を確認
Owen Huang, Sourav Saha, Jiachen Guo, Wing Kam Liu(参考訳) 作用素学習理論の最近の進歩により、無限次元空間間の学習地図に関する知識が向上した。 しかし, 機械特性の並列マルチスケールシミュレーションなどの大規模工学問題では, 現在の演算子学習手法の訓練コストが非常に高い。 本稿では,演算子学習パラダイムの数学的基盤に関する詳細な解析を行い,関数空間間をマッピングするカーネル学習法を提案する。 まず,現代のカーネルと演算子学習理論の調査を行い,最近の結果とオープン問題について考察した。 そこで本論文では,演算子学習のためのR上の部分的定数関数を解析的に近似するアルゴリズムを提案する。 これは、クラスタ化された関数上でのニューラル演算子の成功の可能性を示している。 最後に、メカニック応答に基づくk-平均クラスター領域を考察し、マイクロメカニカル均質化のためのリップマン・シュウィンガー方程式を解く。 本稿では,従来のカーネル学習手法の数学と,それらの手法による予備的な結果について概説する。 提案したカーネル演算子学習法は,グラフカーネルネットワークを用いて,マルチスケール均質化のための機械的縮小順序法を考案する。

Recent advances in operator learning theory have improved our knowledge about learning maps between infinite dimensional spaces. However, for large-scale engineering problems such as concurrent multiscale simulation for mechanical properties, the training cost for the current operator learning methods is very high. The article presents a thorough analysis on the mathematical underpinnings of the operator learning paradigm and proposes a kernel learning method that maps between function spaces. We first provide a survey of modern kernel and operator learning theory, as well as discuss recent results and open problems. From there, the article presents an algorithm to how we can analytically approximate the piecewise constant functions on R for operator learning. This implies the potential feasibility of success of neural operators on clustered functions. Finally, a k-means clustered domain on the basis of a mechanistic response is considered and the Lippmann-Schwinger equation for micro-mechanical homogenization is solved. The article briefly discusses the mathematics of previous kernel learning methods and some preliminary results with those methods. The proposed kernel operator learning method uses graph kernel networks to come up with a mechanistic reduced order method for multiscale homogenization.
翻訳日:2022-12-05 17:06:47 公開日:2022-12-01
# オンデバイストレーニング: 既存システムに関する最初の概要

On-device Training: A First Overview on Existing Systems ( http://arxiv.org/abs/2212.00824v1 )

ライセンス: Link先を確認
Shuai Zhu, Thiemo Voigt, JeongGil Ko, Fatemeh Rahimian(参考訳) 最近の機械学習(ML)とディープラーニング(DL)のブレークスルーにより、多くのアプリケーションドメインにまたがる多くの新機能が実現された。 既存の機械学習モデルは、大きなメモリと計算能力を必要とするが、いくつかのモデルをリソースに制約されたデバイスにデプロイする努力も行われている。 デバイス上で推論を行うシステムはいくつかあるが、デバイス上での直接トレーニングは依然として課題である。 On-device training, however, is attracting more and more interest because: (1) it enables training models on local data without needing to share data over the cloud, thus enabling privacy preserving computation by design; (2) models can be refined on devices to provide personalized services and cope with model drift in order to adapt to the changes of the real-world environment; and (3) it enables the deployment of models in remote, hardly accessible locations or places without stable internet connectivity. 我々は,最先端システム研究を要約して分析し,システムの観点からデバイス上でのトレーニングに関する最初の調査を行う。

The recent breakthroughs in machine learning (ML) and deep learning (DL) have enabled many new capabilities across plenty of application domains. While most existing machine learning models require large memory and computing power, efforts have been made to deploy some models on resource-constrained devices as well. There are several systems that perform inference on the device, while direct training on the device still remains a challenge. On-device training, however, is attracting more and more interest because: (1) it enables training models on local data without needing to share data over the cloud, thus enabling privacy preserving computation by design; (2) models can be refined on devices to provide personalized services and cope with model drift in order to adapt to the changes of the real-world environment; and (3) it enables the deployment of models in remote, hardly accessible locations or places without stable internet connectivity. We summarize and analyze the-state-of-art systems research to provide the first survey of on-device training from a systems perspective.
翻訳日:2022-12-05 17:06:28 公開日:2022-12-01
# 潜在空間における交響曲--高次元技法と非線形機械学習モデルの統合

Symphony in the Latent Space: Provably Integrating High-dimensional Techniques with Non-linear Machine Learning Models ( http://arxiv.org/abs/2212.00852v1 )

ライセンス: Link先を確認
Qiong Wu, Jian Li, Zhenming Liu, Yanhua Li, Mihai Cucuringu(参考訳) 本稿では,アクティブに管理されたポートフォリオ内の金融資産間のインタラクションや,ソーシャルネットワーク内のユーザ間のインタラクションなど,エンティティ間のインタラクションを含む機械学習アルゴリズムの構築について検討する。 私たちの目標は、このようなアプリケーションにおける多変量時系列のアンサンブルの将来進化を予測することです(例えば、金融資産の将来的なリターンや、twitterアカウントの将来的な人気など)。 このようなシステムのためにMLアルゴリズムを設計するには、高次元の相互作用と非線形性の課題に対処する必要がある。 既存のアプローチは通常、高次元の手法を非線形モデルに統合するためのアドホックなアプローチを採用しており、近年の研究により、これらのアプローチは時間進化相互作用系において疑わしい有効性を示している。 そこで本研究では,付加的影響モデルとして提案する新しいフレームワークを提案する。 本研究では,高次元相互作用の学習を非線形特徴相互作用の学習から切り離すことが可能であることを示す。 高次元の相互作用を学習するために、証明可能な保証とともにカーネルベースの技術を活用し、低次元の潜在空間にエンティティを埋め込む。 非線形特徴応答相互作用を学ぶために,新しい統計的に健全な非パラメトリック法やベクトル回帰に最適化されたアンサンブル学習アルゴリズムを設計するなど,著名な機械学習手法を一般化する。 2つの一般的な応用に関する大規模な実験により、我々の新しいアルゴリズムは、標準および最近提案された手法と比較して、はるかに強力な予測能力を提供することを示した。

This paper revisits building machine learning algorithms that involve interactions between entities, such as those between financial assets in an actively managed portfolio, or interactions between users in a social network. Our goal is to forecast the future evolution of ensembles of multivariate time series in such applications (e.g., the future return of a financial asset or the future popularity of a Twitter account). Designing ML algorithms for such systems requires addressing the challenges of high-dimensional interactions and non-linearity. Existing approaches usually adopt an ad-hoc approach to integrating high-dimensional techniques into non-linear models and recent studies have shown these approaches have questionable efficacy in time-evolving interacting systems. To this end, we propose a novel framework, which we dub as the additive influence model. Under our modeling assumption, we show that it is possible to decouple the learning of high-dimensional interactions from the learning of non-linear feature interactions. To learn the high-dimensional interactions, we leverage kernel-based techniques, with provable guarantees, to embed the entities in a low-dimensional latent space. To learn the non-linear feature-response interactions, we generalize prominent machine learning techniques, including designing a new statistically sound non-parametric method and an ensemble learning algorithm optimized for vector regressions. Extensive experiments on two common applications demonstrate that our new algorithms deliver significantly stronger forecasting power compared to standard and recently proposed methods.
翻訳日:2022-12-05 17:06:15 公開日:2022-12-01
# UniT3D:3Dディエンスキャプションと視覚グラウンドのための統一トランス

UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding ( http://arxiv.org/abs/2212.00836v1 )

ライセンス: Link先を確認
Dave Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nie{\ss}ner, Angel X. Chang(参考訳) 3次元の密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。 しかしながら、これらの2つの関連するタスクを高いタスク固有のニューラルモジュールに接続する以前の試みにもかかわらず、共有された性質を明示的に表現して同時に学習する方法はまだ検討されていない。 本研究では,3次元視覚接地と密接なキャプションを共同で解くための,完全統一トランスフォーマーアーキテクチャであるunit3dを提案する。 unit3dは双方向およびseq-to-seq目的の教師付き事前学習スキームを通じて、2つのタスクにまたがる強力なマルチモーダル表現を学習できる。 汎用アーキテクチャ設計により、UniT3Dは事前学習範囲を2D事前知識から合成されたデータなど、より多様なトレーニングソースに拡大し、3Dビジョン言語タスクの恩恵を受けることができる。 広汎な実験と解析により、UniT3Dは3D高密度キャプションと視覚的グラウンドニングにおいて大きな利益を得ることが示された。

Performing 3D dense captioning and visual grounding requires a common and shared understanding of the underlying multimodal relationships. However, despite some previous attempts on connecting these two related tasks with highly task-specific neural modules, it remains understudied how to explicitly depict their shared nature to learn them simultaneously. In this work, we propose UniT3D, a simple yet effective fully unified transformer-based architecture for jointly solving 3D visual grounding and dense captioning. UniT3D enables learning a strong multimodal representation across the two tasks through a supervised joint pre-training scheme with bidirectional and seq-to-seq objectives. With a generic architecture design, UniT3D allows expanding the pre-training scope to more various training sources such as the synthesized data from 2D prior knowledge to benefit 3D vision-language tasks. Extensive experiments and analysis demonstrate that UniT3D obtains significant gains for 3D dense captioning and visual grounding.
翻訳日:2022-12-05 16:39:45 公開日:2022-12-01
# 3D-LDM:潜在拡散モデルを用いたニューラルインシシシト3次元形状生成

3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models ( http://arxiv.org/abs/2212.00842v1 )

ライセンス: Link先を確認
Gimin Nam, Mariem Khlifi, Andrew Rodriguez, Alberto Tono, Linqi Zhou, Paul Guerrero(参考訳) 拡散モデルは画像生成に非常に有望であり、画像品質に匹敵する世代多様性でGANを上回っている。 しかし、それらの3次元形状への応用は、3次元曲面を正確に表現できない点やボクセル表現に限られている。 オートデコーダの潜在空間で動作する3次元形状の神経的暗黙的表現のための拡散モデルを提案する。 これにより、多様な高品質な3d表面を生成できる。 さらに,画像やテキストにモデルを条件付けすることで,クリップ埋め込みによる画像から3d生成とテキストから3d生成を可能にすることを示す。 さらに、既存の形状の潜在符号にノイズを加えることで、形状のバリエーションを探索することができる。

Diffusion models have shown great promise for image generation, beating GANs in terms of generation diversity, with comparable image quality. However, their application to 3D shapes has been limited to point or voxel representations that can in practice not accurately represent a 3D surface. We propose a diffusion model for neural implicit representations of 3D shapes that operates in the latent space of an auto-decoder. This allows us to generate diverse and high quality 3D surfaces. We additionally show that we can condition our model on images or text to enable image-to-3D generation and text-to-3D generation using CLIP embeddings. Furthermore, adding noise to the latent codes of existing shapes allows us to explore shape variations.
翻訳日:2022-12-05 16:39:26 公開日:2022-12-01
# 学習と意思決定へのリスク適応的アプローチ:調査

Risk-Adaptive Approaches to Learning and Decision Making: A Survey ( http://arxiv.org/abs/2212.00856v1 )

ライセンス: Link先を確認
Johannes O. Royset(参考訳) 不確実性は、工学設計、統計学習、意思決定において広く見られる。 本質的なリスク回避性と仮定に対する曖昧さのため、リスクと関連する概念の尺度を用いて表現される保守的最適化モデルを定式化し、解決することで不確実性に対処することが一般的である。 我々は過去4半世紀におけるリスク対策の急速な発展を調査した。 金融工学の始まりから、工学と応用数学のほぼすべての分野にその広がりを振り返る。 凸解析に根ざしたリスク対策は、重要な計算的および理論的優位性を持つ不確実性を扱うための一般的な枠組みを提供する。 重要な事実を説明し、いくつかの具体的なアルゴリズムをリストアップし、さらに読むための参照のリストを提供する。 この調査はユーティリティ理論と分散的ロバストな最適化との関係を思い出し、公正な機械学習のような新しい応用分野を指し示し、信頼性の尺度を定義している。

Uncertainty is prevalent in engineering design, statistical learning, and decision making broadly. Due to inherent risk-averseness and ambiguity about assumptions, it is common to address uncertainty by formulating and solving conservative optimization models expressed using measure of risk and related concepts. We survey the rapid development of risk measures over the last quarter century. From its beginning in financial engineering, we recount their spread to nearly all areas of engineering and applied mathematics. Solidly rooted in convex analysis, risk measures furnish a general framework for handling uncertainty with significant computational and theoretical advantages. We describe the key facts, list several concrete algorithms, and provide an extensive list of references for further reading. The survey recalls connections with utility theory and distributionally robust optimization, points to emerging applications areas such as fair machine learning, and defines measures of reliability.
翻訳日:2022-12-05 16:33:19 公開日:2022-12-01
# ポート・ハミルトンニューラルネットワークを用いた動的システムの構成学習

Compositional Learning of Dynamical System Models Using Port-Hamiltonian Neural Networks ( http://arxiv.org/abs/2212.00893v1 )

ライセンス: Link先を確認
Cyrus Neary and Ufuk Topcu(参考訳) 環境と対話するロボットから、大規模なマルチフィジカルシステムまで、多くの動的システムは、多くの相互作用するサブシステムを含んでいる。 このようなシステムの複合モデル学習の目的に向けて,本稿で提示する。 一 構成ニューラルネットワークの枠組み 二 これらのモデルを訓練するアルゴリズム 三 学習したモデルを構成する方法 四 結果の合成モデルの誤差を拘束する理論的結果及び 五 前者でないときは、その構成自体を学習する方法 ニューラルネットワークのサブモデルは比較的単純なサブシステムによって生成された軌道データに基づいて訓練され、さらに複雑なコンポジットシステムのダイナミクスは、コンポジットシステム自身で生成された追加データを必要としないように予測される。 この構成性は、各サブシステムと同様に、ポート-ハミルトンニューラルネットワーク(PHNN)として、ポート-ハミルトン系を帰納バイアスとして用いるニューラル常微分方程式のクラスとして表現することで達成される。 phnnのコレクションは、前もって知られていたり、データから学ばれたりできる、物理に変形した相互接続構造を用いて構成する。 本稿では,spring-mass-damperシステムの相互作用に関する数値例を通して,提案フレームワークの新たな機能を示す。 非線形エネルギー散逸と制御入力を含むこれらのシステムのモデルは独立に学習される。 正確な構成は、新しいモデルをスクラッチからトレーニングするために必要なものと比べて無視できる大量のトレーニングデータを用いて学習される。 最後に、複合PHNNはシクロパッシビティのようなポート-ハミルトン系の特性を享受し、制御目的に有用な特性を享受する。

Many dynamical systems -- from robots interacting with their surroundings to large-scale multiphysics systems -- involve a number of interacting subsystems. Toward the objective of learning composite models of such systems from data, we present i) a framework for compositional neural networks, ii) algorithms to train these models, iii) a method to compose the learned models, iv) theoretical results that bound the error of the resulting composite models, and v) a method to learn the composition itself, when it is not known a prior. The end result is a modular approach to learning: neural network submodels are trained on trajectory data generated by relatively simple subsystems, and the dynamics of more complex composite systems are then predicted without requiring additional data generated by the composite systems themselves. We achieve this compositionality by representing the system of interest, as well as each of its subsystems, as a port-Hamiltonian neural network (PHNN) -- a class of neural ordinary differential equations that uses the port-Hamiltonian systems formulation as inductive bias. We compose collections of PHNNs by using the system's physics-informed interconnection structure, which may be known a priori, or may itself be learned from data. We demonstrate the novel capabilities of the proposed framework through numerical examples involving interacting spring-mass-damper systems. Models of these systems, which include nonlinear energy dissipation and control inputs, are learned independently. Accurate compositions are learned using an amount of training data that is negligible in comparison with that required to train a new model from scratch. Finally, we observe that the composite PHNNs enjoy properties of port-Hamiltonian systems, such as cyclo-passivity -- a property that is useful for control purposes.
翻訳日:2022-12-05 16:23:07 公開日:2022-12-01
# 無限次元における拡散生成モデル

Diffusion Generative Models in Infinite Dimensions ( http://arxiv.org/abs/2212.00886v1 )

ライセンス: Link先を確認
Gavin Kerrigan, Justin Ley, Padhraic Smyth(参考訳) 拡散生成モデルは最近、利用可能なデータが音声信号や時系列のような基礎関数の離散化と見なすことができる領域に適用されている。 しかし、これらのモデルは離散化されたデータを直接操作し、観測されたデータと基礎となる機能形式を関連づける意味論は存在しない。 我々は拡散モデルを一般化し、ヒルベルト空間上のガウス測度の観点からそのようなモデルの基礎理論を開発することによって関数空間で直接操作する。 関数空間の観点の大きな利点は、我々が取り組んでいる関数の空間を明示的に指定できるので、ソボレフ空間における拡散生成モデリングの手法を開発することができることである。 このアプローチにより、無条件データと無条件データの両方を生成できる。 我々は、いくつかの合成および実世界のベンチマークで手法を実証する。

Diffusion generative models have recently been applied to domains where the available data can be seen as a discretization of an underlying function, such as audio signals or time series. However, these models operate directly on the discretized data, and there are no semantics in the modeling process that relate the observed data to the underlying functional forms. We generalize diffusion models to operate directly in function space by developing the foundational theory for such models in terms of Gaussian measures on Hilbert spaces. A significant benefit of our function space point of view is that it allows us to explicitly specify the space of functions we are working in, leading us to develop methods for diffusion generative modeling in Sobolev spaces. Our approach allows us to perform both unconditional and conditional generation of function-valued data. We demonstrate our methods on several synthetic and real-world benchmarks.
翻訳日:2022-12-05 16:15:13 公開日:2022-12-01
# CHAPTER:自己教師型音声モデルのための畳み込みニューラルネットワークアダプタの爆発

CHAPTER: Exploiting Convolutional Neural Network Adapters for Self-supervised Speech Models ( http://arxiv.org/abs/2212.01282v1 )

ライセンス: Link先を確認
Zih-Ching Chen, Yu-Shun Sung, Hung-yi Lee(参考訳) 自己教師付き学習(ssl)はラベルのないデータから表現を学習するための強力な技術である。 特徴抽出器と変換器層からなるHuBERTのようなトランスフォーマーモデルが、音声領域におけるフィールドをリードしている。 SSLモデルは、さまざまなダウンストリームタスクで微調整され、各タスクのモデルの大部分が再トレーニングされる。 これは自然言語処理(nlp)で一般的に使用される小さな軽量モジュールで、事前学習されたモデルを新しいタスクに適応させる。 しかし、このような効率的なチューニング技術はトランスフォーマー層でのみ適応するが、特徴抽出器では適応できない。 本稿では,特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法CHAPTERを提案する。 この方法を用いることで、タスク毎のパラメータの5%未満の微調整と、完全な微調整と、より良く、より安定したパフォーマンスを実現することができる。 特徴抽出器にCNNアダプタを追加することで、感情や話者のタスクに適応できることを実証的に見出した。 例えば、SIDの精度は87.71から91.56に改善され、ERの精度は5%向上する。

Self-supervised learning (SSL) is a powerful technique for learning representations from unlabeled data. Transformer based models such as HuBERT, which consist a feature extractor and transformer layers, are leading the field in the speech domain. SSL models are fine-tuned on a wide range of downstream tasks, which involves re-training the majority of the model for each task. Previous studies have introduced applying adapters, which are small lightweight modules commonly used in Natural Language Processing (NLP) to adapt pre-trained models to new tasks. However, such efficient tuning techniques only provide adaptation at the transformer layer, but failed to perform adaptation at the feature extractor. In this paper, we propose CHAPTER, an efficient tuning method specifically designed for SSL speech model, by applying CNN adapters at the feature extractor. Using this method, we can only fine-tune fewer than 5% of parameters per task compared to fully fine-tuning and achieve better and more stable performance. We empirically found that adding CNN adapters to the feature extractor can help the adaptation on emotion and speaker tasks. For instance, the accuracy of SID is improved from 87.71 to 91.56, and the accuracy of ER is improved by 5%.
翻訳日:2022-12-05 16:12:21 公開日:2022-12-01
# エンボディエージェントのための汎用監視信号

A General Purpose Supervisory Signal for Embodied Agents ( http://arxiv.org/abs/2212.01186v1 )

ライセンス: Link先を確認
Kunal Pratap Singh, Jordi Salvador, Luca Weihs, Aniruddha Kembhavi(参考訳) 効果的な実施AIエージェントの訓練には、手動報酬エンジニアリング、専門家の模倣、地図のような特殊なコンポーネント、奥行きと位置付けのための追加センサーの活用などが含まれる。 もう1つのアプローチは、より優れた表現学習を促進する自己教師対象とニューラルアーキテクチャを使用することである。 実際には、これらの自己教師付き目的がタスク関連情報をエンコードする保証はほとんどない。 本稿では,シーングラフを汎用的,訓練専用,監督的な信号として利用するSGC損失を提案する。 SGCの損失は明示的なグラフデコーディングを廃止し、コントラスト学習を使用してエージェントの表現を環境のリッチなグラフィカルエンコーディングと整合させる。 SGC損失は一般的に適用可能で、実装が簡単で、オブジェクトの意味論、関係、歴史をエンコードする表現を奨励する。 SGCの損失を利用して、オブジェクトナビゲーション、マルチオブジェクトナビゲーション、アームポイントナビゲーションの3つの具体化タスクにおいて、大幅に向上した。 最後に,学習した表現が環境に関する意味的手がかりをエンコードする能力を示す研究と分析を行う。

Training effective embodied AI agents often involves manual reward engineering, expert imitation, specialized components such as maps, or leveraging additional sensors for depth and localization. Another approach is to use neural architectures alongside self-supervised objectives which encourage better representation learning. In practice, there are few guarantees that these self-supervised objectives encode task-relevant information. We propose the Scene Graph Contrastive (SGC) loss, which uses scene graphs as general-purpose, training-only, supervisory signals. The SGC loss does away with explicit graph decoding and instead uses contrastive learning to align an agent's representation with a rich graphical encoding of its environment. The SGC loss is generally applicable, simple to implement, and encourages representations that encode objects' semantics, relationships, and history. Using the SGC loss, we attain significant gains on three embodied tasks: Object Navigation, Multi-Object Navigation, and Arm Point Navigation. Finally, we present studies and analyses which demonstrate the ability of our trained representation to encode semantic cues about the environment.
翻訳日:2022-12-05 16:05:48 公開日:2022-12-01
# 強化学習エージェントとしてのモバイルヘルスユーザーモデリング

Modeling Mobile Health Users as Reinforcement Learning Agents ( http://arxiv.org/abs/2212.00863v1 )

ライセンス: Link先を確認
Eura Shin, Siddharth Swaroop, Weiwei Pan, Susan Murphy, Finale Doshi-Velez(参考訳) モバイルヘルス(mHealth)技術は、患者の要求に合わせた介入(プッシュ通知など)を提供することで、患者の日常生活における健康な行動の採用と維持を可能にする。 これらの設定では、介入なしに人間の意思決定が損なわれることがある(例えば、長期的目標よりも近い喜びを評価するなど)。 本研究では,ユーザが(潜在的に障害のある)マルコフ決定プロセス(MDP)を最適化し,mHealthエージェントがユーザのMDPパラメータに介入するフレームワークとの関係を形式化する。 障害の種類によって最適な介入のタイプが異なることを示す。 また,これらの相違点の分析的および実証的研究を行った。

Mobile health (mHealth) technologies empower patients to adopt/maintain healthy behaviors in their daily lives, by providing interventions (e.g. push notifications) tailored to the user's needs. In these settings, without intervention, human decision making may be impaired (e.g. valuing near term pleasure over own long term goals). In this work, we formalize this relationship with a framework in which the user optimizes a (potentially impaired) Markov Decision Process (MDP) and the mHealth agent intervenes on the user's MDP parameters. We show that different types of impairments imply different types of optimal intervention. We also provide analytical and empirical explorations of these differences.
翻訳日:2022-12-05 16:05:08 公開日:2022-12-01
# 雑音ラベル付きデータセットバイアスのロバストなトレーニング手法によるエントロピーに基づくデバイアス後のデノージング

Denoising after Entropy-based Debiasing A Robust Training Method for Dataset Bias with Noisy Labels ( http://arxiv.org/abs/2212.01189v1 )

ライセンス: Link先を確認
Sumyeong Ahn and Se-Young Yun(参考訳) 不適切に構築されたデータセットは不正確な推論をもたらす可能性がある。 例えば、偏りのあるデータセットでトレーニングされたモデルは、一般化(すなわちデータセットバイアス)の面では性能が悪い。 近年のデバイアス技術は, 分かり易いサンプル(バイアスアライメントサンプル)を過小評価し, 読みにくいサンプル(バイアスコンプライシングサンプル)を強調することで, 一般化性能を達成している。 しかし、これらのテクニックはノイズラベルによって失敗する可能性がある。なぜなら、訓練されたモデルはノイズラベルを学習が難しいと認識し、それらを強調しているからである。 本研究では,提供されたラベルを用いて難易度を定量化する手法が,ノイズの少ないラベルの影響を受けやすいことを示す。 さらに,デバイアス前のデニュージングアルゴリズムの実行は,デニュージングアルゴリズムが貴重なバイアスコンフリクトサンプルを含む難解なサンプルの影響を減少させるため,効果がないことがわかった。 そこで本研究では, エントロピーに基づくデバイアス(debiasing, DENEB)の後にデノナイジング(denoising)と呼ばれるアプローチを提案する。 1) 偏見モデルは, ガウス混合モデルを用いて選択したサンプル(バイアスアライメント, クリーン)を強調することにより訓練される。 2) 偏見モデルの出力からサンプル当たりのエントロピーを用いて, エントロピーに比例する各試料のサンプリング確率を算出する。 3) 計算されたサンプリング確率に追従して構築したミニバッチを用いて, 既存の分数化アルゴリズムを用いて最終モデルを訓練する。 既存のdebiasingおよびdenoisingアルゴリズムと比較して,複数のベンチマークにおけるdebiasing性能が向上した。

Improperly constructed datasets can result in inaccurate inferences. For instance, models trained on biased datasets perform poorly in terms of generalization (i.e., dataset bias). Recent debiasing techniques have successfully achieved generalization performance by underestimating easy-to-learn samples (i.e., bias-aligned samples) and highlighting difficult-to-learn samples (i.e., bias-conflicting samples). However, these techniques may fail owing to noisy labels, because the trained model recognizes noisy labels as difficult-to-learn and thus highlights them. In this study, we find that earlier approaches that used the provided labels to quantify difficulty could be affected by the small proportion of noisy labels. Furthermore, we find that running denoising algorithms before debiasing is ineffective because denoising algorithms reduce the impact of difficult-to-learn samples, including valuable bias-conflicting samples. Therefore, we propose an approach called denoising after entropy-based debiasing, i.e., DENEB, which has three main stages. (1) The prejudice model is trained by emphasizing (bias-aligned, clean) samples, which are selected using a Gaussian Mixture Model. (2) Using the per-sample entropy from the output of the prejudice model, the sampling probability of each sample that is proportional to the entropy is computed. (3) The final model is trained using existing denoising algorithms with the mini-batches constructed by following the computed sampling probability. Compared to existing debiasing and denoising algorithms, our method achieves better debiasing performance on multiple benchmarks.
翻訳日:2022-12-05 16:03:50 公開日:2022-12-01
# 多目的マルチアームバンドにおけるパレートレグレス解析

Pareto Regret Analyses in Multi-objective Multi-armed Bandit ( http://arxiv.org/abs/2212.00884v1 )

ライセンス: Link先を確認
Mengfan Xu, Diego Klabjan(参考訳) 本研究では,多目的多目的多腕バンディットの定式化と,そのパレートの後悔を確率的設定にも一般化し,多目的多腕バンディットのパレート最適性について検討する。 後悔はいかなるスカラー化機能にも依存せず、スカラー化された後悔と比べてパレートの最適性を反映している。 また,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。 アルゴリズムは敵対的設定において最適であり、確率的設定において、我々が確立した上界と下界でパレート後悔を同時に行うのにほぼ最適である。 さらに, 下部境界解析により, 新たな後悔は確率的設定に対する既存のパレートの後悔と一致し, バンディットから多目的攻撃へ敵意攻撃機構を拡張できることを示した。

We study Pareto optimality in multi-objective multi-armed bandit by providing a formulation of adversarial multi-objective multi-armed bandit and properly defining its Pareto regrets that can be generalized to stochastic settings as well. The regrets do not rely on any scalarization functions and reflect Pareto optimality compared to scalarized regrets. We also present new algorithms assuming both with and without prior information of the multi-objective multi-armed bandit setting. The algorithms are shown optimal in adversarial settings and nearly optimal in stochastic settings simultaneously by our established upper bounds and lower bounds on Pareto regrets. Moreover, the lower bound analyses show that the new regrets are consistent with the existing Pareto regret for stochastic settings and extend an adversarial attack mechanism from bandit to the multi-objective one.
翻訳日:2022-12-05 16:02:51 公開日:2022-12-01
# マルチモーダルグリーティングカードデータセットのための弱い教師付きアノテーション

Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset ( http://arxiv.org/abs/2212.00847v1 )

ライセンス: Link先を確認
Sidra Hanif, Longin Jan Latecki(参考訳) 近年、大規模なデータコーパスでトレーニングされた事前学習モデルが増加し、マルチモーダルデータセットの分類など、さまざまなタスクで優れたパフォーマンスを実現している。 これらのモデルは自然画像に優れた性能を示すが、画像の抽象概念の不足のために完全には探索されていない。 本稿では,グリーティングカードと呼ばれる画像/テキストベースのデータセットを紹介する。 抽象的な視覚概念を持つデータセット(GCD)。 本稿では,GCDから抽象的な視覚概念を学習するために,事前学習した画像とテキスト埋め込みの特徴を集約することを提案する。 これにより、マルチモーダルデータストリームからの相補的および冗長な情報を単一の有意義な機能に組み合わせた、テキスト修正された画像機能を学ぶことができます。 次に、事前訓練されたCLIPベースの画像キャプションモデルを用いて、GCDデータセットのキャプションを算出する。 また,提案データセットは,事前学習したテキスト・画像生成モデルを用いて,挨拶カード画像の生成にも有用であることを示す。

In recent years, there is a growing number of pre-trained models trained on a large corpus of data and yielding good performance on various tasks such as classifying multimodal datasets. These models have shown good performance on natural images but are not fully explored for scarce abstract concepts in images. In this work, we introduce an image/text-based dataset called Greeting Cards. Dataset (GCD) that has abstract visual concepts. In our work, we propose to aggregate features from pretrained images and text embeddings to learn abstract visual concepts from GCD. This allows us to learn the text-modified image features, which combine complementary and redundant information from the multi-modal data streams into a single, meaningful feature. Secondly, the captions for the GCD dataset are computed with the pretrained CLIP-based image captioning model. Finally, we also demonstrate that the proposed the dataset is also useful for generating greeting card images using pre-trained text-to-image generation model.
翻訳日:2022-12-05 15:57:07 公開日:2022-12-01
# ニューラルネットワークが一般化に失敗したとき? モデル感度の視点

When Neural Networks Fail to Generalize? A Model Sensitivity Perspective ( http://arxiv.org/abs/2212.00850v1 )

ライセンス: Link先を確認
Jiajin Zhang, Hanqing Chao, Amit Dhurandhar, Pin-Yu Chen, Ali Tajer, Yangyang Xu, Pingkun Yan(参考訳) ドメイン一般化(Domain Generalization, DG)は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。 本稿では、単一のソースドメインのみをトレーニングできる単一ドメイン一般化(Single-DG)という、より現実的でより困難なシナリオについて考察する。 この課題に対処するために、ニューラルネットワークが一般化に失敗したときの理解を最初に試みる。 我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。 そこで本研究では,高感度の周波数をターゲットとした拡張画像を生成するために,SADA(Spectral Adversarial Data Augmentation)の新たな戦略を提案する。 これらの難学習サンプルを用いて訓練されたモデルは、周波数空間の感度を効果的に抑制し、一般化性能を向上させる。 複数の公開データセットに対する大規模な実験は、最先端の単一DG手法を超えるアプローチの優位性を示している。

Domain generalization (DG) aims to train a model to perform well in unseen domains under different distributions. This paper considers a more realistic yet more challenging scenario,namely Single Domain Generalization (Single-DG), where only a single source domain is available for training. To tackle this challenge, we first try to understand when neural networks fail to generalize? We empirically ascertain a property of a model that correlates strongly with its generalization that we coin as "model sensitivity". Based on our analysis, we propose a novel strategy of Spectral Adversarial Data Augmentation (SADA) to generate augmented images targeted at the highly sensitive frequencies. Models trained with these hard-to-learn samples can effectively suppress the sensitivity in the frequency space, which leads to improved generalization performance. Extensive experiments on multiple public datasets demonstrate the superiority of our approach, which surpasses the state-of-the-art single-DG methods.
翻訳日:2022-12-05 15:56:52 公開日:2022-12-01
# 拡張問題解関係を用いた類推的数学語問題解法

Analogical Math Word Problems Solving with Enhanced Problem-Solution Association ( http://arxiv.org/abs/2212.00837v1 )

ライセンス: Link先を確認
Zhenwen Liang, Jipeng Zhang, Xiangliang Zhang(参考訳) 数学語問題(MWP)解決は、人間のような推論能力を必要とする質問応答において重要な課題である。 数学教育では、数学的な状況の共通関係構造を新しい問題を解決するために適用できるため、類推学は長い間使われてきた。 本稿では,様々な種類のMWPにまたがる解の一般化能力を向上するアナログMWPを利用して,新しいMWPソルバを構築することを提案する。 アナログ識別と呼ばれる鍵となるアイデアは、アナログMWP対を潜在空間、すなわち別のアナログMWPに近づいたMWPを符号化し、非解析的なものから離れることである。 さらに、解判別器をMWPソルバに統合し、MWPの表現と真の解との関連性を高める。 評価結果は,提案したアナログ学習戦略により,最新技術モデルGenerate2RankよりもMWP-BERTの性能が向上し,エンコーダのパラメータが5倍になることを確認した。 また,本モデルでは,MWPの類似学習により,難解なMWPを解く上で,より強力な一般化能力を有することがわかった。

Math word problem (MWP) solving is an important task in question answering which requires human-like reasoning ability. Analogical reasoning has long been used in mathematical education, as it enables students to apply common relational structures of mathematical situations to solve new problems. In this paper, we propose to build a novel MWP solver by leveraging analogical MWPs, which advance the solver's generalization ability across different kinds of MWPs. The key idea, named analogy identification, is to associate the analogical MWP pairs in a latent space, i.e., encoding an MWP close to another analogical MWP, while moving away from the non-analogical ones. Moreover, a solution discriminator is integrated into the MWP solver to enhance the association between the representations of MWPs and their true solutions. The evaluation results verify that our proposed analogical learning strategy promotes the performance of MWP-BERT on Math23k over the state-of-the-art model Generate2Rank, with 5 times fewer parameters in the encoder. We also find that our model has a stronger generalization ability in solving difficult MWPs due to the analogical learning from easy MWPs.
翻訳日:2022-12-05 15:48:16 公開日:2022-12-01
# GPT-3に関する調査

a survey on GPT-3 ( http://arxiv.org/abs/2212.00857v1 )

ライセンス: Link先を確認
Mingyu Zong, Bhaskar Krishnamachari(参考訳) 本稿では, GPT-3 の紹介調査を行う。 我々は、この技術の背後にある歴史的発展のいくつか、GPT-3の重要な特徴を取り上げ、機械学習モデルと使用するデータセットについて論じる。 我々は,会話型AIチャットボットの開発,ソフトウェア開発,創造的作業,ドメイン知識,ビジネス生産性など,GPT-3を適用した学術的・商業的な取り組みについて調査する。 本稿では,GPT-3が直面する課題として,学習の複雑さ,バイアス,幻覚/誤答などについて議論する。 この分野における今後の研究機会についても論じる。

This paper provides an introductory survey to GPT-3. We cover some of the historical development behind this technology, some of the key features of GPT-3, and discuss the machine learning model and the datasets used. We survey both academic and commercial efforts applying GPT-3 in diverse domains such as developing conversational AI chatbots, software development, creative work, domain knowledge, and business productivity. We discuss some of the challenges that GPT-3 faces such as the problems of training complexity, bias, and hallucination/incorrect answers. We also discuss the future research opportunities in this area.
翻訳日:2022-12-05 15:47:53 公開日:2022-12-01
# 集中しろ! ニュース画像キャプションにおけるコンテキスト選択の関連性

Focus! Relevant and Sufficient Context Selection for News Image Captioning ( http://arxiv.org/abs/2212.00843v1 )

ライセンス: Link先を確認
Mingyang Zhou, Grace Luo, Anna Rohrbach, Zhou Yu(参考訳) ニュース画像キャプションは、ニュース記事から追加のコンテキストを利用して画像を記述する必要がある。 事前の作業は、必要なコンテキストを抽出するために、記事を粗末に活用するだけであり、モデルが関連するイベントや名前付きエンティティを識別することは困難である。 本稿ではまず,(oracle が管理する)キーとなる名前付きエンティティをキャプチャするよりきめ細かいコンテキストと,ニュースを要約するグローバルコンテキストを組み合わせることで,正確なニュースキャプションを生成するモデルの能力を大幅に向上できることを示す。 イメージからこのようなキーエンティティを自動的に取り出すには、どうすればよいのか? 本稿では,事前学習された視覚・言語検索モデルクリップを用いて,ニュース記事中の視覚的接地されたエンティティをローカライズし,オープンリレーション抽出モデルを用いて非視覚エンティティをキャプチャする。 実験では,記事からより優れたコンテキストを選択することで,既存モデルの性能を大幅に向上し,複数のベンチマークで新たな最先端性能を実現することができることを示した。

News Image Captioning requires describing an image by leveraging additional context from a news article. Previous works only coarsely leverage the article to extract the necessary context, which makes it challenging for models to identify relevant events and named entities. In our paper, we first demonstrate that by combining more fine-grained context that captures the key named entities (obtained via an oracle) and the global context that summarizes the news, we can dramatically improve the model's ability to generate accurate news captions. This begs the question, how to automatically extract such key entities from an image? We propose to use the pre-trained vision and language retrieval model CLIP to localize the visually grounded entities in the news article and then capture the non-visual entities via an open relation extraction model. Our experiments demonstrate that by simply selecting a better context from the article, we can significantly improve the performance of existing models and achieve new state-of-the-art performance on multiple benchmarks.
翻訳日:2022-12-05 15:45:00 公開日:2022-12-01
# 大語彙連続音声認識のためのエンコーダとしての代理勾配スパイクニューラルネットワーク

Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition ( http://arxiv.org/abs/2212.01187v1 )

ライセンス: Link先を確認
Alexandre Bittar and Philip N. Garner(参考訳) 密度と実測値の反応を生成する従来の人工ニューロンと比較すると、生物学的にインスパイアされたスパイキングニューロンはスパースとバイナリ情報を伝達し、エネルギー効率も向上する。 近年の研究では、スパイクニューラルネットワークはサーロゲート勾配法を用いて、標準的なリカレントニューラルネットワークのように訓練できることが示されている。 音声コマンド認識タスクにおいて有望な結果が得られた。 同じ手法を用いて,エンコーダ内のLSTMをわずかな性能損失で置き換えることのできる,大規模語彙連続音声認識にスケーラブルであることを示す。 これは、より複雑なシーケンス対シーケンスタスクに適用可能であることを示唆している。 さらに, 繰り返し発生する非スパイキングとは対照的に, ゲートを使わずに爆発的な勾配問題に対して頑健性を示す。

Compared to conventional artificial neurons that produce dense and real-valued responses, biologically-inspired spiking neurons transmit sparse and binary information, which can also lead to energy-efficient implementations. Recent research has shown that spiking neural networks can be trained like standard recurrent neural networks using the surrogate gradient method. They have shown promising results on speech command recognition tasks. Using the same technique, we show that they are scalable to large vocabulary continuous speech recognition, where they are capable of replacing LSTMs in the encoder with only minor loss of performance. This suggests that they may be applicable to more involved sequence-to-sequence tasks. Moreover, in contrast to their recurrent non-spiking counterparts, they show robustness to exploding gradient problems without the need to use gates.
翻訳日:2022-12-05 15:39:13 公開日:2022-12-01
# SOLD: Sinhala攻撃的な言語データセット

SOLD: Sinhala Offensive Language Dataset ( http://arxiv.org/abs/2212.00851v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Isuri Anuradha, Damith Premasiri, Kanishka Silva, Hansi Hettiarachchi, Lasitha Uyangodage, Marcos Zampieri(参考訳) ヘイトスピーチやサイバーいじめなど、ネット上の攻撃的なコンテンツの拡散は、世界的な現象である。 これは人工知能(AI)と自然言語処理(NLP)コミュニティへの関心を喚起し、潜在的に有害なコンテンツを自動的に検出する訓練された様々なシステムの開発を動機付けている。 これらのシステムは、機械学習(ML)モデルをトレーニングするために注釈付きデータセットを必要とする。 しかしながら、注目すべき例外はいくつかあるが、このトピックに関するデータセットのほとんどは、英語や他のいくつかの高リソース言語を扱う。 その結果、攻撃的言語識別の研究はこれらの言語に限られている。 本稿は、スリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラで、攻撃的な言語識別に取り組むことで、このギャップに対処する。 我々は,Sinhala Offensive Language Dataset (SOLD)を紹介し,このデータセットについて複数の実験を行った。 SOLDは手動でアノテートされたデータセットで、Twitterから1万のポストがアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。 SOLDは、Sinhala用にコンパイルされた最初の大規模な公開言語データセットである。 また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。

The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
翻訳日:2022-12-05 15:38:33 公開日:2022-12-01
# 解の多様化による数学単語問題解の一般化

Generalizing Math Word Problem Solvers via Solution Diversification ( http://arxiv.org/abs/2212.00833v1 )

ライセンス: Link先を確認
Zhenwen Liang, Jipeng Zhang, Lei Wang, Yan Wang, Jie Shao, Xiangliang Zhang(参考訳) 現在の数学語問題(MWP)の解法は通常セック2Seqモデルであり、それぞれが問題記述と正しい解を得るための推論フローを示す解で構成されている。 しかし、1つのMWP問題は自然に複数の解方程式を持つ。 MWPソルバの (1-problem; 1-solution) ペアによるトレーニングは、他の正しい解を除外し、MWPソルバの一般化性を制限する。 この制限に対する実現可能な解決策の1つは、与えられた問題に対する複数のソリューションを強化することである。 しかし、人間の努力によって多様で正確な拡張ソリューションを収集することは困難である。 本稿では,解バッファと解判別器を導入することで,MWPソルバの新しいトレーニングフレームワークを設計する。 バッファは、トレーニングデータの多様性を促進するためにMWPソルバによって生成されるソリューションを含む。 判別器は、訓練に参加するための緩衝液の品質を制御する。 本フレームワークは,全Seq2Seq MWPソルバの完全・半弱・弱教師付きトレーニングに柔軟に適用可能である。 我々はベンチマークデータセットMath23kとWeak12kという新しいデータセットについて広範な実験を行い、そのフレームワークが正しい解を生成することで様々なMWPソルバの性能を向上させることを示す。

Current math word problem (MWP) solvers are usually Seq2Seq models trained by the (one-problem; one-solution) pairs, each of which is made of a problem description and a solution showing reasoning flow to get the correct answer. However, one MWP problem naturally has multiple solution equations. The training of an MWP solver with (one-problem; one-solution) pairs excludes other correct solutions, and thus limits the generalizability of the MWP solver. One feasible solution to this limitation is to augment multiple solutions to a given problem. However, it is difficult to collect diverse and accurate augment solutions through human efforts. In this paper, we design a new training framework for an MWP solver by introducing a solution buffer and a solution discriminator. The buffer includes solutions generated by an MWP solver to encourage the training data diversity. The discriminator controls the quality of buffered solutions to participate in training. Our framework is flexibly applicable to a wide setting of fully, semi-weakly and weakly supervised training for all Seq2Seq MWP solvers. We conduct extensive experiments on a benchmark dataset Math23k and a new dataset named Weak12k, and show that our framework improves the performance of various MWP solvers under different settings by generating correct and diverse solutions.
翻訳日:2022-12-05 15:36:08 公開日:2022-12-01
# 深層強化学習におけるシングルエージェントとマルチエージェント

Single-agent to Multi-agent in Deep Reinforcement-learning ( http://arxiv.org/abs/2211.15411v2 )

ライセンス: Link先を確認
Nitsan Soffair(参考訳) OW QMIX, CW QMIX, QTRAN, QMIX, VDNはDec-POMDPドメインを解決するための最先端のアルゴリズムである。 OW QMIX, CW QMIX, QTRAN, QMIX, VDN はボックス処理のような複雑なエージェントの協調ドメインの解決に失敗した。 このような問題を解決するために2段階のアルゴリズムを与える。 第1段階では、単一エージェント問題(POMDP)を解き、最適なポリシートレースを得る。 第2段階では,単一エージェント最適政策トレースを用いてマルチエージェント問題(dec-pomdp)を解く。 単一エージェントとマルチエージェントは、複雑なエージェントの協調ドメインにおけるOW QMIX、CW QMIX、QTRAN、QMIX、VDNに対して明確な優位性を持つ。

OW QMIX, CW QMIX, QTRAN, QMIX, and VDN are the state-of-the-art algorithms for solving Dec-POMDP domains. OW QMIX, CW QMIX, QTRAN, QMIX, and VDN failed to solve complex agents' cooperation domains such as box-pushing. We give a 2-stage algorithm to solve such problems. On 1st stage we solve single-agent problem (POMDP) and get an optimal policy traces. On 2nd stage we solve multi-agent problem (Dec-POMDP) with the single-agent optimal policy traces. Single-agent to multi-agent has a clear advantage over OW QMIX, CW QMIX, QTRAN, QMIX, and VDN on complex agents' cooperative domains.
翻訳日:2022-12-04 14:57:08 公開日:2022-12-01
# 学習コストモデルによる高速ユニットコミット制約スクリーニングの実現

Enabling Fast Unit Commitment Constraint Screening via Learning Cost Model ( http://arxiv.org/abs/2212.00483v1 )

ライセンス: Link先を確認
Xuan He, Honglin Wen, Yufan Zhang and Yize Chen(参考訳) ユニットコミットメント(UC)は、最も経済的かつ実現可能な生成スケジュールと送信信号を見つけるために、送信システムオペレーターに不可欠なツールである。 制約スクリーニングは、UC問題における多くの不活性な制約や冗長な制約を減らし、最適化問題を考慮し、大規模UC問題の解法を加速させるという約束を果たすことで注目されている。 標準制約スクリーニングアプローチは、バインドラインフローの制約を見つけるためにロードと世代を最適化するが、それでもuc問題に留まった制約の大部分が保守的である。 本稿では,負荷入力に対して最も経済的なコストを予測するための機械学習(ml)モデルを提案する。 このようなMLモデルは、UC決定のコスト観点を最適化ベースの制約スクリーニングモデルにブリッジし、より高い操作制約をスクリーニングすることができる。 提案手法の性能はサンプル認識とサンプル認識の両方で検証し,提案手法はUC問題に対する様々な設定の計算時間をさらに短縮することができることを示す。

Unit commitment (UC) are essential tools to transmission system operators for finding the most economical and feasible generation schedules and dispatch signals. Constraint screening has been receiving attention as it holds the promise for reducing a number of inactive or redundant constraints in the UC problem, so that the solution process of large scale UC problem can be accelerated by considering the reduced optimization problem. Standard constraint screening approach relies on optimizing over load and generations to find binding line flow constraints, yet the screening is conservative with a large percentage of constraints still reserved for the UC problem. In this paper, we propose a novel machine learning (ML) model to predict the most economical costs given load inputs. Such ML model bridges the cost perspectives of UC decisions to the optimization-based constraint screening model, and can screen out higher proportion of operational constraints. We verify the proposed method's performance on both sample-aware and sample-agnostic setting, and illustrate the proposed scheme can further reduce the computation time on a variety of setup for UC problems.
翻訳日:2022-12-02 17:58:21 公開日:2022-12-01
# 認知レーダーはいつ有効か?

When is Cognitive Radar Beneficial? ( http://arxiv.org/abs/2212.00597v1 )

ライセンス: Link先を確認
Charles E. Thornton and R. Michael Buehrer(参考訳) オンライン強化学習に基づくアジャイル認知レーダーは、いつ、ルールベースの適応波形選択戦略を上回ることを期待できるだろうか? 本研究では,各パルス繰り返し間隔において,レーダーが最広帯域の伝送を希望するダイナミックスペクトルアクセスシナリオを検討することにより,この問題に対する洞察を求める。 オンライン学習は、固定されたルールベースの感覚・回避戦略と比較される。 単純マルコフチャネルモデルが与えられた場合,この問題は確率的支配によって解析的に検証できることを示す。 さらに,より現実的なチャネル仮定では,学習に基づくアプローチがより一般化できることを示す。 しかし、適切に特定された短時間の時間-水平問題では、収束時間に固有の制限があるため、機械学習アプローチは性能が悪くなる可能性がある。 学習に基づくアプローチがいつ有用になるかという結論を導き,今後の研究のガイドラインを提供する。

When should an online reinforcement learning-based frequency agile cognitive radar be expected to outperform a rule-based adaptive waveform selection strategy? We seek insight regarding this question by examining a dynamic spectrum access scenario, in which the radar wishes to transmit in the widest unoccupied bandwidth during each pulse repetition interval. Online learning is compared to a fixed rule-based sense-and-avoid strategy. We show that given a simple Markov channel model, the problem can be examined analytically for simple cases via stochastic dominance. Additionally, we show that for more realistic channel assumptions, learning-based approaches demonstrate greater ability to generalize. However, for short time-horizon problems that are well-specified, we find that machine learning approaches may perform poorly due to the inherent limitation of convergence time. We draw conclusions as to when learning-based approaches are expected to be beneficial and provide guidelines for future study.
翻訳日:2022-12-02 17:58:04 公開日:2022-12-01
# ラベルシフト下の高次元バイナリ分類:位相遷移と正規化

High Dimensional Binary Classification under Label Shift: Phase Transition and Regularization ( http://arxiv.org/abs/2212.00700v1 )

ライセンス: Link先を確認
Jiahui Cheng, Minshuo Chen, Hao Liu, Tuo Zhao, Wenjing Liao(参考訳) ラベルシフトは機械学習モデルの一般化性能に有害であると広く信じられている。 研究者は、トレーニングデータのバランスなど、ラベルシフトの影響を軽減するための多くのアプローチを提案している。 しかし、これらの手法は、サンプルサイズがデータ次元よりもはるかに大きい、非パラメータ化されたレジームをしばしば考慮する。 オーバーパラメトリライズド・レジームの研究は非常に限られている。 このギャップを埋めるために,ラベルシフトを伴うバイナリ分類のためのフィッシャー線形判別分類器の漸近解析を提案する。 特に,位相遷移現象が存在することを証明している。ある過パラメータ化状態下では,不均衡データを用いて訓練された分類器は,バランスのとれたデータで比較される。 さらに, ラベルシフトに対する正規化の影響について検討する: 上記の相転移は, 正規化が強まるにつれて消滅する。

Label Shift has been widely believed to be harmful to the generalization performance of machine learning models. Researchers have proposed many approaches to mitigate the impact of the label shift, e.g., balancing the training data. However, these methods often consider the underparametrized regime, where the sample size is much larger than the data dimension. The research under the overparametrized regime is very limited. To bridge this gap, we propose a new asymptotic analysis of the Fisher Linear Discriminant classifier for binary classification with label shift. Specifically, we prove that there exists a phase transition phenomenon: Under certain overparametrized regime, the classifier trained using imbalanced data outperforms the counterpart with reduced balanced data. Moreover, we investigate the impact of regularization to the label shift: The aforementioned phase transition vanishes as the regularization becomes strong.
翻訳日:2022-12-02 17:57:50 公開日:2022-12-01
# 実効的可視赤外人物再同定のための漸進的モダリティ共有トランスフォーマーの学習

Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2212.00226v1 )

ライセンス: Link先を確認
Hu Lu and Xuezhang Zou and Pingping Zhang(参考訳) Visible-Infrared Person Re-Identification (VI-ReID) は複雑なモダリティ変化下での困難な検索課題である。 既存の手法は通常、異なるモダリティ間の視覚的特徴の信頼性と共通性を無視しながら、識別的視覚的特徴の抽出に重点を置いている。 本稿では,効率的なVI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。 モダリティギャップの悪影響を低減するために,まずグレースケール画像を補助モダリティとして捉え,プログレッシブ学習戦略を提案する。 そこで本研究では,モダリティ共有機能からより信頼性の高い識別情報を探索するためのモデルについて,MSEL(Modality-Shared Enhancement Loss)を提案する。 最後に,クラス内差とクラス間差の小さい問題に対処するため,MSELと組み合わせた識別中心損失(DCL)を提案し,信頼性の高い特徴の識別をさらに向上させる。 sysu-mm01とregdbデータセットの広範な実験により,提案手法は最先端手法よりも優れた性能を示す。 モデル再現のために、ソースコードをhttps://github.com/hulu88/pmtでリリースします。

Visible-Infrared Person Re-Identification (VI-ReID) is a challenging retrieval task under complex modality changes. Existing methods usually focus on extracting discriminative visual features while ignoring the reliability and commonality of visual features between different modalities. In this paper, we propose a novel deep learning framework named Progressive Modality-shared Transformer (PMT) for effective VI-ReID. To reduce the negative effect of modality gaps, we first take the gray-scale images as an auxiliary modality and propose a progressive learning strategy. Then, we propose a Modality-Shared Enhancement Loss (MSEL) to guide the model to explore more reliable identity information from modality-shared features. Finally, to cope with the problem of large intra-class differences and small inter-class differences, we propose a Discriminative Center Loss (DCL) combined with the MSEL to further improve the discrimination of reliable features. Extensive experiments on SYSU-MM01 and RegDB datasets show that our proposed framework performs better than most state-of-the-art methods. For model reproduction, we release the source code at https://github.com/hulu88/PMT.
翻訳日:2022-12-02 17:53:02 公開日:2022-12-01
# AstroSLAM: 骨格小体における自律単分子ナビゲーション -理論と実験-

AstroSLAM: Autonomous Monocular Navigation in the Vicinity of a Celestial Small Body -- Theory and Experiments ( http://arxiv.org/abs/2212.00350v1 )

ライセンス: Link先を確認
Mehregan Dor, Travis Driver, Kenneth Getzandanner, Panagiotis Tsiotras(参考訳) AstroSLAMは、未知の小さな天体を取り巻く自律的なオンラインナビゲーションのためのスタンドアロンの視覚ベースのソリューションである。 AstroSLAM は GTSAM ライブラリと iSAM2 エンジンを用いることにより, SLAM 問題を段階的に増大する因子グラフとして定式化する。 センサ融合と軌道運動先行値を組み合わせることで,ベースラインSLAM法の性能向上を実現した。 本研究では, 軌道運動の制約を因子グラフに組み込むことで, 宇宙船の相対的な姿勢と小型物体近傍の宇宙船の運動から生じる軌道の予測問題とを関連付ける新しい相対力学因子を考案する。 我々は、nasaのプラネタリーデータシステムと、3自由度宇宙船シミュレーターテストベッドで生成された実機内画像データの両方を用いて、astroslamの優れた性能を実証する。

We propose AstroSLAM, a standalone vision-based solution for autonomous online navigation around an unknown target small celestial body. AstroSLAM is predicated on the formulation of the SLAM problem as an incrementally growing factor graph, facilitated by the use of the GTSAM library and the iSAM2 engine. By combining sensor fusion with orbital motion priors, we achieve improved performance over a baseline SLAM solution. We incorporate orbital motion constraints into the factor graph by devising a novel relative dynamics factor, which links the relative pose of the spacecraft to the problem of predicting trajectories stemming from the motion of the spacecraft in the vicinity of the small body. We demonstrate the excellent performance of AstroSLAM using both real legacy mission imagery and trajectory data courtesy of NASA's Planetary Data System, as well as real in-lab imagery data generated on a 3 degree-of-freedom spacecraft simulator test-bed.
翻訳日:2022-12-02 17:52:42 公開日:2022-12-01
# 幾何学的深層学習による冠動脈の自動ラベリング

Automated Coronary Arteries Labeling Via Geometric Deep Learning ( http://arxiv.org/abs/2212.00386v1 )

ライセンス: Link先を確認
Yadan Li, Mohammad Ali Armin, Simon Denman, David Ahmedt-Aristizabal(参考訳) 冠状動脈などの解剖学的構造の自動ラベリングは診断に重要であるが、既存の(非深層学習)手法は、予想される木のような構造の以前のトポロジー的知識に依存している。 このような血管構造はしばしば概念化が難しいため、グラフに基づく表現は、向きに依存しない抽象的な方法で形態の幾何学的および位相的特性を捉える能力によって人気を博している。 しかし,木状解剖構造の自動ラベリングのためのグラフベース学習は,本研究で注目されている。 先行研究の大部分は、エンティティグラフの構成に制限があり、位相構造に依存しており、対象間の解剖学的変動のために精度が限られている。 本稿では,血管造影検査から得られた3次元座標データを用いて,直感的なグラフ表現法を提案する。 その後,幾何学的深層学習を用いて主題別グラフの解析を行う。 提案モデルでは,141例のアノテートラベルを用いて各冠動脈セグメントの表現を学習し,訓練データ中の解剖学的変動の影響を捉えた。 我々は、いわゆるメッセージパッシングニューラルネットの異なる変種を調査した。 広範囲な評価により, 冠状動脈 (13クラス) を5倍のクロスバリデーションにラベル付けするためのF1スコアは0.805と期待できる。 本研究は,不規則なデータを扱うグラフモデルとデータセグメンテーションのスケーラビリティを考慮し,医療専門家の意思決定を支援する定量的な証拠を提供する手法の可能性を明らかにする。

Automatic labelling of anatomical structures, such as coronary arteries, is critical for diagnosis, yet existing (non-deep learning) methods are limited by a reliance on prior topological knowledge of the expected tree-like structures. As the structure such vascular systems is often difficult to conceptualize, graph-based representations have become popular due to their ability to capture the geometric and topological properties of the morphology in an orientation-independent and abstract manner. However, graph-based learning for automated labeling of tree-like anatomical structures has received limited attention in the literature. The majority of prior studies have limitations in the entity graph construction, are dependent on topological structures, and have limited accuracy due to the anatomical variability between subjects. In this paper, we propose an intuitive graph representation method, well suited to use with 3D coordinate data obtained from angiography scans. We subsequently seek to analyze subject-specific graphs using geometric deep learning. The proposed models leverage expert annotated labels from 141 patients to learn representations of each coronary segment, while capturing the effects of anatomical variability within the training data. We investigate different variants of so-called message passing neural networks. Through extensive evaluations, our pipeline achieves a promising weighted F1-score of 0.805 for labeling coronary artery (13 classes) for a five-fold cross-validation. Considering the ability of graph models in dealing with irregular data, and their scalability for data segmentation, this work highlights the potential of such methods to provide quantitative evidence to support the decisions of medical experts.
翻訳日:2022-12-02 17:52:25 公開日:2022-12-01
# 軌道生成による効率的強化学習

Efficient Reinforcement Learning Through Trajectory Generation ( http://arxiv.org/abs/2211.17249v2 )

ライセンス: Link先を確認
Wenqi Cui, Linbin Huang, Weiwei Yang, Baosen Zhang(参考訳) 多くの実世界のアプリケーションで強化学習(RL)を使用するための鍵となる障壁は、優れた制御ポリシーを学ぶために多数のシステムインタラクションが必要であることである。 歴史的データから制御ポリシを学習することにより,物理環境との相互作用を減らすために,オフ・ポリティクスとオフラインRL法が提案されている。 しかし、彼らのパフォーマンスは探索の欠如と、コントローラが更新されると軌道上の分布シフトに苦しむ。 さらに、ほとんどのRL法では、全ての状態が直接観察されることが要求されるが、多くの設定で達成することは困難である。 これらの課題を克服するため,我々は,システムが更新された制御ポリシーの下で運用されているかのように適応的に新しい軌道を生成する軌道生成アルゴリズムを提案する。 線形系の基本補題に動機付けられ、十分な励起を仮定して、歴史的軌跡の線形結合から軌道を生成する。 線形フィードバック制御では,更新された制御ポリシーを用いて実システムからサンプリングされたかのように,正確な分布を持つ軌道を生成する。 特に、このアルゴリズムは状態が直接観測されないシステムにまで拡張される。 実験の結果,提案手法はRLアルゴリズムに必要なサンプルデータの数を著しく削減することがわかった。

A key barrier to using reinforcement learning (RL) in many real-world applications is the requirement of a large number of system interactions to learn a good control policy. Off-policy and Offline RL methods have been proposed to reduce the number of interactions with the physical environment by learning control policies from historical data. However, their performances suffer from the lack of exploration and the distributional shifts in trajectories once controllers are updated. Moreover, most RL methods require that all states are directly observed, which is difficult to be attained in many settings. To overcome these challenges, we propose a trajectory generation algorithm, which adaptively generates new trajectories as if the system is being operated and explored under the updated control policies. Motivated by the fundamental lemma for linear systems, assuming sufficient excitation, we generate trajectories from linear combinations of historical trajectories. For linear feedback control, we prove that the algorithm generates trajectories with the exact distribution as if they are sampled from the real system using the updated control policy. In particular, the algorithm extends to systems where the states are not directly observed. Experiments show that the proposed method significantly reduces the number of sampled data needed for RL algorithms.
翻訳日:2022-12-02 17:52:01 公開日:2022-12-01
# 線形力学系に対するマルチタスク模倣学習

Multi-Task Imitation Learning for Linear Dynamical Systems ( http://arxiv.org/abs/2212.00186v1 )

ライセンス: Link先を確認
Thomas T. Zhang, Katie Kang, Bruce D. Lee, Claire Tomlin, Sergey Levine, Stephen Tu and Nikolai Matni(参考訳) 線形システム上での効率的な模倣学習のための表現学習について検討する。 特に,学習を2つの段階に分けて考える。 (a)共有$k$次元表現が$H$ソースポリシーから学習される事前学習ステップ (b)ポリシークラスをパラメータ化するために学習表現を使用するターゲットポリシーの微調整ステップ。 学習対象ポリシーによって生成されたトラジェクトリの模倣ギャップは、$\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$は、学習中の各ポリシーで収集されたデータの総量を示し、$N_{\mathrm{target}}$はターゲットタスクデータの量である。 この結果は、関連するタスク間でデータを集約して表現を学ぶという直感を定式化することで、対象タスクを学習するサンプル効率を大幅に向上させることができる。 この境界によって示唆される傾向はシミュレーションで裏付けられている。

We study representation learning for efficient imitation learning over linear systems. In particular, we consider a setting where learning is split into two phases: (a) a pre-training step where a shared $k$-dimensional representation is learned from $H$ source policies, and (b) a target policy fine-tuning step where the learned representation is used to parameterize the policy class. We find that the imitation gap over trajectories generated by the learned target policy is bounded by $\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$ denotes the total amount of data collected for each policy during representation learning, and $N_{\mathrm{target}}$ is the amount of target task data. This result formalizes the intuition that aggregating data across related tasks to learn a representation can significantly improve the sample efficiency of learning a target task. The trends suggested by this bound are corroborated in simulation.
翻訳日:2022-12-02 17:50:30 公開日:2022-12-01
# モノラル音声強調のためのディープニューラルネットワーク技術--アート分析の現状

Deep neural network techniques for monaural speech enhancement: state of the art analysis ( http://arxiv.org/abs/2212.00369v1 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 自然言語処理やコンピュータビジョンといった領域では、ディープニューラルネットワーク(DNN)技術が普及している。 彼らは機械翻訳や画像生成といったタスクでこれらの領域で大きな成功を収めた。 その成功により、これらのデータ駆動技術はオーディオ領域に応用されている。 より具体的には、dnnモデルが音声強調領域に応用され、単調音声強調においてデノシング、デノベーション、マルチスピーカー分離を達成する。 本稿では,音声分離のためのDNN手法について概説する。 このレビューでは、特徴抽出による音声強調のパイプライン全体、DNNベースのツールが、音声とモデルトレーニング(教師なし、教師なし)のグローバルな特徴とローカルな特徴の両方をモデル化している様子を取り上げている。 また,音声強調のための事前訓練モデルについても検討した。 本研究は,単一話者による音声強調におけるDNNの適用について,支配的な傾向をカバーすることを目的としている。

Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
翻訳日:2022-12-02 17:50:00 公開日:2022-12-01
# 自動車レーダにおける車両認識改善のためのオンライン学習に基づく波形選択

Online Learning-based Waveform Selection for Improved Vehicle Recognition in Automotive Radar ( http://arxiv.org/abs/2212.00615v1 )

ライセンス: Link先を確認
Charles E. Thornton, William W. Howard, and R. Michael Buehrer(参考訳) 本稿では、周波数変調連続波(FMCW)自動車レーダにおける目標同定のためのオンライン強化学習に基づく波形選択に関する重要な考察と課題について述べる。 本稿では,トンプソンサンプリングに基づく新しい学習手法を提案する。 レーダが候補波形の膨大なカタログから選択しなければならない場合でも,効果的な波形選択戦略を迅速に学習できることを計測レベルシミュレーションにより実証する。 レーダは、期待される分類基準を最適化することにより、適切な解像度のための帯域幅と、関心場面における干渉緩和のための遅い単モジュラー符号とを適応的に選択することを学ぶ。

This paper describes important considerations and challenges associated with online reinforcement-learning based waveform selection for target identification in frequency modulated continuous wave (FMCW) automotive radar systems. We present a novel learning approach based on satisficing Thompson sampling, which quickly identifies a waveform expected to yield satisfactory classification performance. We demonstrate through measurement-level simulations that effective waveform selection strategies can be quickly learned, even in cases where the radar must select from a large catalog of candidate waveforms. The radar learns to adaptively select a bandwidth for appropriate resolution and a slow-time unimodular code for interference mitigation in the scene of interest by optimizing an expected classification metric.
翻訳日:2022-12-02 17:44:31 公開日:2022-12-01
# 機械学習に応用したおそらく近似シェープリーフェアネス

Probably Approximate Shapley Fairness with Applications in Machine Learning ( http://arxiv.org/abs/2212.00630v1 )

ライセンス: Link先を確認
Zijian Zhou, Xinyi Xu, Rachael Hwee Ling Sim, Chuan Sheng Foo, Kian Hsiang Low(参考訳) Shapley値(SV)は、データバリュエーション、エージェントのバリュエーション、機能属性など、機械学習(ML)のさまざまなシナリオで採用されている。 しかし、正確なSVは実際に計算できないため、SV推定は代わりに近似される。 この近似ステップは重要な疑問を提起する: SV推定は正確なSVの公平性を保証するか? 正確なSVの公平性保証は、SV推定に制限的すぎることが観察される。 したがって、Shapley Fairness をおそらく近似したShapley Fairness に一般化し、SV推定の変動を測定する指標であるfidelity score を提案する。 最後の理論的な貢献は、最も低い忠実度スコアを最大化し、事実上のモンテカルロ推定よりも公平性を保証する新しいgreedy active estimation (gae)アルゴリズムである。 我々は,実世界データセットを用いた様々なmlシナリオにおける推定精度の競争力を維持しつつ,公平性の保証においてgaeが既存の手法を上回っていることを実証的に検証する。

The Shapley value (SV) is adopted in various scenarios in machine learning (ML), including data valuation, agent valuation, and feature attribution, as it satisfies their fairness requirements. However, as exact SVs are infeasible to compute in practice, SV estimates are approximated instead. This approximation step raises an important question: do the SV estimates preserve the fairness guarantees of exact SVs? We observe that the fairness guarantees of exact SVs are too restrictive for SV estimates. Thus, we generalise Shapley fairness to probably approximate Shapley fairness and propose fidelity score, a metric to measure the variation of SV estimates, that determines how probable the fairness guarantees hold. Our last theoretical contribution is a novel greedy active estimation (GAE) algorithm that will maximise the lowest fidelity score and achieve a better fairness guarantee than the de facto Monte-Carlo estimation. We empirically verify GAE outperforms several existing methods in guaranteeing fairness while remaining competitive in estimation accuracy in various ML scenarios using real-world datasets.
翻訳日:2022-12-02 17:44:18 公開日:2022-12-01
# launchpad: オフラインおよびオンラインrlメソッドによるスケジュール学習

Launchpad: Learning to Schedule Using Offline and Online RL Methods ( http://arxiv.org/abs/2212.00639v1 )

ライセンス: Link先を確認
Vanamala Venkataswamy, Jake Grigsby, Andrew Grimshaw, Yanjun Qi(参考訳) 深層強化学習アルゴリズムはいくつかの課題領域で成功している。 古典的なオンラインrlジョブスケジューラは効率的なスケジューリング戦略を学習するが、環境を探索しランダムに初期化されたdnnポリシーから適応するには数千の時間を要する。 既存のRLスケジューラは、歴史的データから学び、カスタムヒューリスティックポリシーを改善することの重要性を見落としている。 オフライン強化学習は、オンライン環境相互作用のない事前記録データセットからポリシー最適化の見通しを示す。 データ駆動学習の成功に続いて、我々は2つのRL手法を探求する。 1) 行動のクローニングと 2) 環境と対話することなくログデータからポリシーを学習することを目的としたオフラインRL。 これらの手法は、データ収集と安全性のコスト、特に実世界のRL応用に関連する問題に対処する。 データ駆動RL法は良い結果をもたらすが,その性能は過去のデータセットの品質に大きく依存していることを示す。 最後に、エージェントを事前訓練するために事前専門家によるデモンストレーションを効果的に取り入れることで、ランダム探索フェーズを短縮し、オンライントレーニングで合理的なポリシーを学ぶことを実証する。 Outline RL を \textbf{ Launchpad} として使用して,Oracle あるいはヒューリスティックなポリシを使用して収集された事前経験から,効果的なスケジューリングポリシを学習する。 このようなフレームワークは、履歴データセットからの事前トレーニングに有効であり、オンラインデータ収集による継続的改善に適している。

Deep reinforcement learning algorithms have succeeded in several challenging domains. Classic Online RL job schedulers can learn efficient scheduling strategies but often takes thousands of timesteps to explore the environment and adapt from a randomly initialized DNN policy. Existing RL schedulers overlook the importance of learning from historical data and improving upon custom heuristic policies. Offline reinforcement learning presents the prospect of policy optimization from pre-recorded datasets without online environment interaction. Following the recent success of data-driven learning, we explore two RL methods: 1) Behaviour Cloning and 2) Offline RL, which aim to learn policies from logged data without interacting with the environment. These methods address the challenges concerning the cost of data collection and safety, particularly pertinent to real-world applications of RL. Although the data-driven RL methods generate good results, we show that the performance is highly dependent on the quality of the historical datasets. Finally, we demonstrate that by effectively incorporating prior expert demonstrations to pre-train the agent, we short-circuit the random exploration phase to learn a reasonable policy with online training. We utilize Offline RL as a \textbf{launchpad} to learn effective scheduling policies from prior experience collected using Oracle or heuristic policies. Such a framework is effective for pre-training from historical datasets and well suited to continuous improvement with online data collection.
翻訳日:2022-12-02 17:43:57 公開日:2022-12-01
# カーネル密度推定によるカーネル行列のサブ量子アルゴリズム

Sub-quadratic Algorithms for Kernel Matrices via Kernel Density Estimation ( http://arxiv.org/abs/2212.00642v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Piotr Indyk, Praneeth Kacham, Sandeep Silwal and Samson Zhou(参考訳) カーネル行列は、それらで表される重み付きグラフと同様に、機械学習、統計、その他の関連分野においてユビキタスなオブジェクトである。 カーネルメソッド(カーネル行列を用いた学習と推論)を使用する主な欠点は効率である。$n$の入力ポイントが与えられた場合、ほとんどのカーネルベースのアルゴリズムは、その後の計算を実行する前にフル$n \times n$のカーネル行列を実体化する必要がある。 そのため、この二次障壁を突破することは広範な研究の課題となっている。 二次障壁を破って、いくつかの基本線形代数およびグラフ処理プリミティブに対する$\textit{subquadratic}$時間アルゴリズムを得る。例えば、トップ固有値および固有ベクトルの近似、スペクトルスパーシフィケーション、線形系を解くこと、局所クラスタリング、低ランク近似、アルボリシティ推定、重み付き三角形の計数などである。 最近のカーネル密度推定フレームワークに基づいて構築し、(n$の時間的サブクアドラティックな前処理の後)カーネルマトリックスの行/カラム和の見積もりを返すことができる。 特に、$\textit{weighted vertex}$および$\textit{weighted edge sample}$ on kernel graphs, $\textit{simulating random walk}$ on kernel graphs, $\textit{importance sample}$ on matrices to Kernel Density Estimation から$\textit{sublinear}$(分布のサポート)時間でこれらの分布からサンプルを生成することができることを示す。 私たちの還元は、それぞれのアプリケーションにおいて中心的な要素であり、それらが独立した関心事であると信じています。 低ランク近似(LRA)とスペクトルスペーシフィケーション(スペクトルスペーシフィケーション)に対するアルゴリズムの有効性を実証的に実証し、LRAのベースラインよりもカーネル評価が減少する$\textbf{9x}$とスペクトルスペーシフィケーションのためのグラフサイズが減少する$\textbf{41x}$を観察した。

Kernel matrices, as well as weighted graphs represented by them, are ubiquitous objects in machine learning, statistics and other related fields. The main drawback of using kernel methods (learning and inference using kernel matrices) is efficiency -- given $n$ input points, most kernel-based algorithms need to materialize the full $n \times n$ kernel matrix before performing any subsequent computation, thus incurring $\Omega(n^2)$ runtime. Breaking this quadratic barrier for various problems has therefore, been a subject of extensive research efforts. We break the quadratic barrier and obtain $\textit{subquadratic}$ time algorithms for several fundamental linear-algebraic and graph processing primitives, including approximating the top eigenvalue and eigenvector, spectral sparsification, solving linear systems, local clustering, low-rank approximation, arboricity estimation and counting weighted triangles. We build on the recent Kernel Density Estimation framework, which (after preprocessing in time subquadratic in $n$) can return estimates of row/column sums of the kernel matrix. In particular, we develop efficient reductions from $\textit{weighted vertex}$ and $\textit{weighted edge sampling}$ on kernel graphs, $\textit{simulating random walks}$ on kernel graphs, and $\textit{importance sampling}$ on matrices to Kernel Density Estimation and show that we can generate samples from these distributions in $\textit{sublinear}$ (in the support of the distribution) time. Our reductions are the central ingredient in each of our applications and we believe they may be of independent interest. We empirically demonstrate the efficacy of our algorithms on low-rank approximation (LRA) and spectral sparsification, where we observe a $\textbf{9x}$ decrease in the number of kernel evaluations over baselines for LRA and a $\textbf{41x}$ reduction in the graph size for spectral sparsification.
翻訳日:2022-12-02 17:43:34 公開日:2022-12-01
# 指数関数的に成長する普遍量子回路の族

An exponentially-growing family of universal quantum circuits ( http://arxiv.org/abs/2212.00736v1 )

ライセンス: Link先を確認
Mohammad Kordzanganeh, Pavel Sekatski, Leonid Fedichkin, Alexey Melnikov(参考訳) 量子機械学習は関心が高まりつつあるが、理論上はハードウェア固有の制限がある。 特に、勾配の消失(不毛高原)の問題により、量子ビット数の高い回路ではトレーニングが不可能となり、データサイエンティストが問題解決に使用できる量子ビットの数に制限が課される。 独立に、アングル埋め込みされた教師付き量子ニューラルネットワークは、エンコーディングの深さとエンコーディングする並列量子ビットの数という2つの要因に直接依存する次数を持つ切断フーリエ級数を生成することを示した。 フーリエ級数の次数はモデル表現性を制限する。 この研究は、シーケンシャルおよび並列な指数量子機械学習アーキテクチャであるフーリエ次数が指数関数的に増加する2つの新しいアーキテクチャを導入している。 これは、エンコーディング時に利用可能なヒルベルト空間を効率的に使用し、量子エンコーディングの表現性を高めることによって行われる。 したがって、指数的成長は低ビットの極限に留まり、バレンプラトーを避けるために非常に表現性の高い回路を作ることができる。 実際、並列指数型アーキテクチャは1次元のテスト問題において、最終的な平均2乗誤差値を44.7%まで削減することで、既存の線形アーキテクチャよりも優れていることを示した。 さらに, 閉じ込められたイオン量子処理装置において, この手法の実現可能性を示した。

Quantum machine learning has become an area of growing interest but has certain theoretical and hardware-specific limitations. Notably, the problem of vanishing gradients, or barren plateaus, renders the training impossible for circuits with high qubit counts, imposing a limit on the number of qubits that data scientists can use for solving problems. Independently, angle-embedded supervised quantum neural networks were shown to produce truncated Fourier series with a degree directly dependent on two factors: the depth of the encoding, and the number of parallel qubits the encoding is applied to. The degree of the Fourier series limits the model expressivity. This work introduces two new architectures whose Fourier degrees grow exponentially: the sequential and parallel exponential quantum machine learning architectures. This is done by efficiently using the available Hilbert space when encoding, increasing the expressivity of the quantum encoding. Therefore, the exponential growth allows staying at the low-qubit limit to create highly expressive circuits avoiding barren plateaus. Practically, parallel exponential architecture was shown to outperform the existing linear architectures by reducing their final mean square error value by up to 44.7% in a one-dimensional test problem. Furthermore, the feasibility of this technique was also shown on a trapped ion quantum processing unit.
翻訳日:2022-12-02 17:42:27 公開日:2022-12-01
# p(expression|grammar):確率的文脈自由文法による代数表現を導出する確率

P(Expression|Grammar): Probability of deriving an algebraic expression with a probabilistic context-free grammar ( http://arxiv.org/abs/2212.00751v1 )

ライセンス: Link先を確認
Urh Primozi\v{c} and Ljup\v{c}o Todorovski and Matej Petkovi\'c(参考訳) 確率論的文脈自由文法は、機械学習とシンボリック回帰における生成モデルとしての使用の長期記録を持つ。 記号回帰に使用すると、代数的表現を生成する。 後者は文法から導出される文字列の同値類として定義し、与えられた文法で与えられた式を導出する確率を計算する問題に対処する。 その問題は一般に決定不能であることを示す。 次に、ある表現の確率を計算するアルゴリズムが存在する線形式、多項式式、有理式を生成するための特定の文法を示す。 これらの文法に対して、任意の精度で正確な確率と効率的な近似を計算するアルゴリズムを設計する。

Probabilistic context-free grammars have a long-term record of use as generative models in machine learning and symbolic regression. When used for symbolic regression, they generate algebraic expressions. We define the latter as equivalence classes of strings derived by grammar and address the problem of calculating the probability of deriving a given expression with a given grammar. We show that the problem is undecidable in general. We then present specific grammars for generating linear, polynomial, and rational expressions, where algorithms for calculating the probability of a given expression exist. For those grammars, we design algorithms for calculating the exact probability and efficient approximation with arbitrary precision.
翻訳日:2022-12-02 17:41:21 公開日:2022-12-01
# 遅延ヘッシアンによる二階最適化

Second-order optimization with lazy Hessians ( http://arxiv.org/abs/2212.00781v1 )

ライセンス: Link先を確認
Nikita Doikov, El Mahdi Chayti, Martin Jaggi(参考訳) 一般の非凸最適化問題を解くために,遅延ヘッセン更新を用いたニュートン法を解析した。 提案手法では,各ステップで新しい勾配を計算しながら,いくつかのイテレーションで既見のヘッシアンを再利用する。 これは二階最適化スキームの全体的な算術的複雑性を大幅に削減する。 立方正則化法を用いて,本手法の高速な大域収束を2次定常点に確立する一方,ヘッセンは反復ごとに更新される必要はない。 凸問題に対して、計算が容易な2次正規化による遅延ニュートンステップのグローバルおよび局所超線形率を正当化する。 ヘシアンを更新する最適な周波数は、1回$d$の繰り返しであり、$d$は問題の次元である。 これは2階アルゴリズムの算術的複雑性を$\sqrt{d}$で証明的に改善する。

We analyze Newton's method with lazy Hessian updates for solving general possibly non-convex optimization problems. We propose to reuse a previously seen Hessian for several iterations while computing new gradients at each step of the method. This significantly reduces the overall arithmetical complexity of second-order optimization schemes. By using the cubic regularization technique, we establish fast global convergence of our method to a second-order stationary point, while the Hessian does not need to be updated each iteration. For convex problems, we justify global and local superlinear rates for lazy Newton steps with quadratic regularization, which is easier to compute. The optimal frequency for updating the Hessian is once every $d$ iterations, where $d$ is the dimension of the problem. This provably improves the total arithmetical complexity of second-order algorithms by a factor $\sqrt{d}$.
翻訳日:2022-12-02 17:41:11 公開日:2022-12-01
# 物理形学習におけるニューラルネットワークと偏微分方程式の適合性について

On the Compatibility between a Neural Network and a Partial Differential Equation for Physics-informed Learning ( http://arxiv.org/abs/2212.00270v1 )

ライセンス: Link先を確認
Kuangdai Leng and Jeyan Thiyagalingam(参考訳) 私たちは、落とし穴と物理情報ニューラルネットワーク(PINN)の機会に光を当てました。 relu(rectified linear unit)またはreluライクリプシッツ活性化関数のみを持つ多層パーセプトロン(mlp)は、常に消滅したヘッシアンをもたらす。 このようなネットワーク上の制約は、二階あるいは高階の偏微分方程式(PDE)と矛盾する。 したがって、ReLU ベースの MLP は、それらの解の近似に対する許容関数空間を形成できない。 この落とし穴に着想を得て、出力層の重みが特定の超平面上にあるとき、$C^n$ 活性化関数を持つ MLP で$n$-階までの線形 PDE が厳密に満足できることを証明した。 層外超平面を備えたMLPは、PDE自体の損失関数(初期条件と境界条件のみ)を必要としない「物理強化」となる。 このような超平面は、MLPだけでなく、完全に接続された隠された層によって尾行されるネットワークアーキテクチャにも存在している。 私たちの知る限り、これはPDEのポイントワイドな正しさを強制する最初のPINNアーキテクチャであるべきです。 2階線形PDEに対する外層超平面の閉形式表現と実装について述べる。

We shed light on a pitfall and an opportunity in physics-informed neural networks (PINNs). We prove that a multilayer perceptron (MLP) only with ReLU (Rectified Linear Unit) or ReLU-like Lipschitz activation functions will always lead to a vanished Hessian. Such a network-imposed constraint contradicts any second- or higher-order partial differential equations (PDEs). Therefore, a ReLU-based MLP cannot form a permissible function space for the approximation of their solutions. Inspired by this pitfall, we prove that a linear PDE up to the $n$-th order can be strictly satisfied by an MLP with $C^n$ activation functions when the weights of its output layer lie on a certain hyperplane, as called the out-layer-hyperplane. An MLP equipped with the out-layer-hyperplane becomes "physics-enforced", no longer requiring a loss function for the PDE itself (but only those for the initial and boundary conditions). Such a hyperplane exists not only for MLPs but for any network architecture tailed by a fully-connected hidden layer. To our knowledge, this should be the first PINN architecture that enforces point-wise correctness of a PDE. We give the closed-form expression of the out-layer-hyperplane for second-order linear PDEs and provide an implementation.
翻訳日:2022-12-02 17:35:30 公開日:2022-12-01
# 不均一なディファレンシャルプライバシを持つ分散行列分解

Decentralized Matrix Factorization with Heterogeneous Differential Privacy ( http://arxiv.org/abs/2212.00306v1 )

ライセンス: Link先を確認
Wentao Hu and Hui Fang(参考訳) 従来のマトリックスファクタリングは、ユーザのレコメンデーションのための集中的なデータ収集に依存しているため、特にレコメンデータが信頼できない場合には、プライバシリークのリスクが高まる可能性がある。 既存のプライベートな行列因数分解手法は、推奨者が信頼されていると仮定するか、または信頼できない推奨者を持つすべてのユーザやアイテムに対して、一様にプライバシー保護を提供することができる。 本稿では,信頼度の低いレコメンデータに対して,不均一な微分プライベート行列分解アルゴリズム(hdpmf)を提案する。 我々の知る限りでは、信頼できないレコメンデータシナリオにおいて、分散行列分解のための異種差分プライバシーを最初に達成する。 具体的には,改良されたストレッチ機構と革新的なリスケーリングスキームを用いて,プライバシと精度のトレードオフを改善する。 一方,プライバシ予算を適切に割り当てることで,ユーザ/イット内の均質なプライバシの選好を,異なるユーザ/イット間の異質なプライバシの選好を捉えることができる。 理論的分析により、hdpmfは厳密なプライバシ保証を実現しており、徹底的な実験は特に強力なプライバシ保証、高次元モデル、スパースデータセットシナリオにおいてその優位性を示している。

Conventional matrix factorization relies on centralized collection of users' data for recommendation, which might introduce an increased risk of privacy leakage especially when the recommender is untrusted. Existing differentially private matrix factorization methods either assume the recommender is trusted, or can only provide a uniform level of privacy protection for all users and items with untrusted recommender. In this paper, we propose a novel Heterogeneous Differentially Private Matrix Factorization algorithm (denoted as HDPMF) for untrusted recommender. To the best of our knowledge, we are the first to achieve heterogeneous differential privacy for decentralized matrix factorization in untrusted recommender scenario. Specifically, our framework uses modified stretching mechanism with an innovative rescaling scheme to achieve better trade off between privacy and accuracy. Meanwhile, by allocating privacy budget properly, we can capture homogeneous privacy preference within a user/item but heterogeneous privacy preference across different users/items. Theoretical analysis confirms that HDPMF renders rigorous privacy guarantee, and exhaustive experiments demonstrate its superiority especially in strong privacy guarantee, high dimension model and sparse dataset scenario.
翻訳日:2022-12-02 17:35:09 公開日:2022-12-01
# 遅延プリコンディショナによる微分プライベート適応最適化

Differentially Private Adaptive Optimization with Delayed Preconditioners ( http://arxiv.org/abs/2212.00309v1 )

ライセンス: Link先を確認
Tian Li, Manzil Zaheer, Ken Ziyu Liu, Sashank J. Reddi, H. Brendan McMahan, Virginia Smith(参考訳) プライバシノイズは、微分プライベートモデルトレーニングで適応最適化器を使用することの利点を否定する可能性がある。 従来の研究は、適応最適化の有効性を高めるために補助情報(例えば、公開データ)を使用することでこの問題に対処する。 本研究では,補助データを用いずに個人適応最適化において,勾配幾何を推定し,効率的に適応する手法について検討する。 そこで本研究では,遅延プリコンディショナー(dp^2)を用いた,適応型プリコンディショナーの適応性を高めるための簡易な手法として,適応型プリコンディショナー(dp^2)を提案する。 理論的には、凸問題と非凸問題の両方に対する収束保証を提供し、遅延とプライバシノイズ低減のトレードオフを分析する。 実世界の複数のデータセットにまたがってdp^2を探索し,非適応ベースラインと比較して収束速度を最大4倍向上し,補助データを必要とする最先端最適化手法の性能に適合できることを実証した。

Privacy noise may negate the benefits of using adaptive optimizers in differentially private model training. Prior works typically address this issue by using auxiliary information (e.g., public data) to boost the effectiveness of adaptive optimization. In this work, we explore techniques to estimate and efficiently adapt to gradient geometry in private adaptive optimization without auxiliary data. Motivated by the observation that adaptive methods can tolerate stale preconditioners, we propose differentially private adaptive training with delayed preconditioners (DP^2), a simple method that constructs delayed but less noisy preconditioners to better realize the benefits of adaptivity. Theoretically, we provide convergence guarantees for our method for both convex and non-convex problems, and analyze trade-offs between delay and privacy noise reduction. Empirically, we explore DP^2 across several real-world datasets, demonstrating that it can improve convergence speed by as much as 4x relative to non-adaptive baselines and match the performance of state-of-the-art optimization methods that require auxiliary data.
翻訳日:2022-12-02 17:34:48 公開日:2022-12-01
# ジャコビアンおよびヘッセン正規化の一般化と改善

Generalizing and Improving Jacobian and Hessian Regularization ( http://arxiv.org/abs/2212.00311v1 )

ライセンス: Link先を確認
Chenwei Cui, Zehao Yan, Guangshen Liu, Liangfu Lu(参考訳) ヤコビアンとヘッセンの正則化は、ニューラルネットワークの入力に対する1階と2階の部分微分の大きさを減らすことを目的としており、画像分類器の逆ロバスト性を保証するために主に使われている。 本研究では,対象行列をゼロから効率的な行列ベクトル積を許容する任意の行列に拡張することにより,これまでの取り組みを一般化する。 提案されたパラダイムにより、正方ヤコビ行列とヘッセン行列の対称性または対角性を強制する新しい正規化項を構築することができる。 一方、ヤコビアン正規化とヘッセン正規化の大きな課題は、高い計算複雑性である。 本稿では,Lanczosを用いたスペクトルノルム最小化手法を提案する。 この手法はランチョスアルゴリズムの並列化実装を用いており、大きなヤコビ行列とヘッセン行列の効率的で安定な正則化が可能である。 提案されたパラダイムとテクニックについて理論的正当化と実証的な証拠が提供される。 新たな正規化項の有効性を検証するための探索実験を行った。 また,lanczosに基づくスペクトルノルムの最小化について比較実験を行った。 その結果,提案手法は幅広いタスクに有利であることが示唆された。

Jacobian and Hessian regularization aim to reduce the magnitude of the first and second-order partial derivatives with respect to neural network inputs, and they are predominantly used to ensure the adversarial robustness of image classifiers. In this work, we generalize previous efforts by extending the target matrix from zero to any matrix that admits efficient matrix-vector products. The proposed paradigm allows us to construct novel regularization terms that enforce symmetry or diagonality on square Jacobian and Hessian matrices. On the other hand, the major challenge for Jacobian and Hessian regularization has been high computational complexity. We introduce Lanczos-based spectral norm minimization to tackle this difficulty. This technique uses a parallelized implementation of the Lanczos algorithm and is capable of effective and stable regularization of large Jacobian and Hessian matrices. Theoretical justifications and empirical evidence are provided for the proposed paradigm and technique. We carry out exploratory experiments to validate the effectiveness of our novel regularization terms. We also conduct comparative experiments to evaluate Lanczos-based spectral norm minimization against prior methods. Results show that the proposed methodologies are advantageous for a wide range of tasks.
翻訳日:2022-12-02 17:34:26 公開日:2022-12-01
# 必要なのはハッシュだけ - 垂直連合学習におけるデータ再構成攻撃に対する防御

All You Need Is Hashing: Defending Against Data Reconstruction Attack in Vertical Federated Learning ( http://arxiv.org/abs/2212.00325v1 )

ライセンス: Link先を確認
Pengyu Qiu, Xuhong Zhang, Shouling Ji, Yuwen Pu, Ting Wang(参考訳) 垂直連合学習は、機械学習モデルのトレーニングにおいて、多人数コラボレーションのためのトレンドソリューションである。 産業フレームワークは、データのセキュリティとプライバシを保証するために、準同型暗号化のようなセキュアなマルチパーティ計算手法を採用する。 しかしながら、一連の研究により、VFLにはまだ漏洩リスクがあることが明らかになった。 リークは、中間表現と生データとの相関によって引き起こされる。 ディープニューラルネットワークの強力な近似能力により、敵は相関を正確に捉えてデータを再構成することができる。 データレコンストラクション攻撃の脅威に対処するため,我々は,ハッシュベースのvflフレームワークである \textit{hashvfl} を提案する。 ハッシュの一方的な性質により、私たちのフレームワークはハッシュコードからデータを復元するすべての試みをブロックできます。 しかし、ハッシュの統合は、例えば情報の損失など、いくつかの課題をもたらす。 本稿では,ハッシュの学習性,ビットバランス,一貫性という3つの課題について論じる。 実験の結果,主タスクの性能維持とデータ復元攻撃に対する防御における \textit{hashvfl} の効率性が示された。 さらに,異常入力の検出においてその潜在値を分析する。 さらに、様々な設定で \textit{HashVFL} の一般化を証明するための広範な実験を行う。 まとめると、 \textit{HashVFL}はVFLにおけるマルチパーティのデータセキュリティとプライバシを保護するための新しい視点を提供する。 我々の研究は、より多くの研究者を惹きつけ、 \textit{HashVFL} の応用領域を拡張することを願っている。

Vertical federated learning is a trending solution for multi-party collaboration in training machine learning models. Industrial frameworks adopt secure multi-party computation methods such as homomorphic encryption to guarantee data security and privacy. However, a line of work has revealed that there are still leakage risks in VFL. The leakage is caused by the correlation between the intermediate representations and the raw data. Due to the powerful approximation ability of deep neural networks, an adversary can capture the correlation precisely and reconstruct the data. To deal with the threat of the data reconstruction attack, we propose a hashing-based VFL framework, called \textit{HashVFL}, to cut off the reversibility directly. The one-way nature of hashing allows our framework to block all attempts to recover data from hash codes. However, integrating hashing also brings some challenges, e.g., the loss of information. This paper proposes and addresses three challenges to integrating hashing: learnability, bit balance, and consistency. Experimental results demonstrate \textit{HashVFL}'s efficiency in keeping the main task's performance and defending against data reconstruction attacks. Furthermore, we also analyze its potential value in detecting abnormal inputs. In addition, we conduct extensive experiments to prove \textit{HashVFL}'s generalization in various settings. In summary, \textit{HashVFL} provides a new perspective on protecting multi-party's data security and privacy in VFL. We hope our study can attract more researchers to expand the application domains of \textit{HashVFL}.
翻訳日:2022-12-02 17:34:10 公開日:2022-12-01
# ac-band:アルゴリズム構成に対する組合せバンディットに基づくアプローチ

AC-Band: A Combinatorial Bandit-Based Approach to Algorithm Configuration ( http://arxiv.org/abs/2212.00333v1 )

ライセンス: Link先を確認
Jasmin Brandt, Elias Schede, Viktor Bengs, Bj\"orn Haddenhorst, Eyke H\"ullermeier, Kevin Tierney(参考訳) 本研究では,与えられた対象アルゴリズムの最適パラメータ構成を自動で求めるアルゴリズム構成問題(ac)について検討する。 近年、強力な理論的保証を満たすACアプローチの設計が著しく進歩している。 しかし、これらの手法の実践的性能と最先端のヒューリスティック手法の間には依然として大きなギャップが残っている。 そこで本稿では,AC-Bandという多腕バンディットに基づくAC問題に対する一般的なアプローチを導入し,高い実用性能を示しながら理論的な保証を提供する。 本稿では,AC-Band の計算時間は,理論上の保証を提供する他の AC 手法に比べて有意に少なく,高品質な構成が得られることを示す。

We study the algorithm configuration (AC) problem, in which one seeks to find an optimal parameter configuration of a given target algorithm in an automated way. Recently, there has been significant progress in designing AC approaches that satisfy strong theoretical guarantees. However, a significant gap still remains between the practical performance of these approaches and state-of-the-art heuristic methods. To this end, we introduce AC-Band, a general approach for the AC problem based on multi-armed bandits that provides theoretical guarantees while exhibiting strong practical performance. We show that AC-Band requires significantly less computation time than other AC approaches providing theoretical guarantees while still yielding high-quality configurations.
翻訳日:2022-12-02 17:33:48 公開日:2022-12-01
# セキュアな情報共有のためのプライバシー保護データ合成

Privacy-Preserving Data Synthetisation for Secure Information Sharing ( http://arxiv.org/abs/2212.00484v1 )

ライセンス: Link先を確認
T\^ania Carvalho and Nuno Moniz and Pedro Faria and Lu\'is Antunes and Nitesh Chawla(参考訳) 統計変換や生成モデルなど,さまざまなアプローチを通じてユーザデータのプライバシを保護することが可能です。 しかし、それぞれに重大な欠点がある。 一方,従来の手法を用いた変換データセットの作成には時間を要する。 一方、長期学習フェーズに加えて、近年のディープラーニングベースのソリューションは、かなりの計算資源を必要とする。 本稿では,より少ない時間と計算資源を必要とせず,再同定のリスクを最大に抑えながらケースを保護できる手法である privatesmote を提案する。 補間による合成データ生成によって高リスクのケースを隠蔽し、元のデータのデータユーティリティ損失を最小限に抑える。 従来と最先端のプライバシ保存手法を20データセットで比較した場合,PrivateSMOTEは再識別リスクの競合結果を示す。 また、生成する対向ネットワークと変分オートエンコーダを含むベースラインと類似または高い予測性能を示し、そのエネルギー消費と時間要求をそれぞれ9と12の最小係数で削減する。

We can protect user data privacy via many approaches, such as statistical transformation or generative models. However, each of them has critical drawbacks. On the one hand, creating a transformed data set using conventional techniques is highly time-consuming. On the other hand, in addition to long training phases, recent deep learning-based solutions require significant computational resources. In this paper, we propose PrivateSMOTE, a technique designed for competitive effectiveness in protecting cases at maximum risk of re-identification while requiring much less time and computational resources. It works by synthetic data generation via interpolation to obfuscate high-risk cases while minimizing data utility loss of the original data. Compared to multiple conventional and state-of-the-art privacy-preservation methods on 20 data sets, PrivateSMOTE demonstrates competitive results in re-identification risk. Also, it presents similar or higher predictive performance than the baselines, including generative adversarial networks and variational autoencoders, reducing their energy consumption and time requirements by a minimum factor of 9 and 12, respectively.
翻訳日:2022-12-02 17:33:39 公開日:2022-12-01
# パラメトリックCoKleisli型としてのグラフ畳み込みニューラルネットワーク

Graph Convolutional Neural Networks as Parametric CoKleisli morphisms ( http://arxiv.org/abs/2212.00542v1 )

ライセンス: Link先を確認
Bruno Gavranovi\'c, Mattia Villani(参考訳) グラフ畳み込みニューラルネットワークの双カテゴリを、任意のグラフに対して$n$ノードを持つ$\mathbf{gcnn}_n$で定義する。 我々は、積コモナドのCoKleisli圏に基底圏をセットした、 $\mathbf{Para}$ と $\mathbf{Lens}$ と呼ばれるディープラーニングのための既に存在するカテゴリ構成を導出できることを示した。 単射(injective-on-objects)、忠実な 2-functor $\mathbf{GCNN}_n \to \mathbf{Para}(\mathsf{CoKl}(\mathbb{R}^{n \times n} \times -)$ が存在することを証明している。 本稿では,この構成により,GCNNの隣接行列を局所的な階層的パラメータではなくグローバルパラメータとして扱うことができることを示す。 これにより、GCNNが持つ特定の帰納バイアスの高レベルの分類的特徴付けが得られる。 最後に、一般的なメッセージパッシンググラフニューラルネットワークへのgcnnの一般化の可能性、同変学習への接続、およびアクティベーション関数の実用性について仮定する。

We define the bicategory of Graph Convolutional Neural Networks $\mathbf{GCNN}_n$ for an arbitrary graph with $n$ nodes. We show it can be factored through the already existing categorical constructions for deep learning called $\mathbf{Para}$ and $\mathbf{Lens}$ with the base category set to the CoKleisli category of the product comonad. We prove that there exists an injective-on-objects, faithful 2-functor $\mathbf{GCNN}_n \to \mathbf{Para}(\mathsf{CoKl}(\mathbb{R}^{n \times n} \times -))$. We show that this construction allows us to treat the adjacency matrix of a GCNN as a global parameter instead of a a local, layer-wise one. This gives us a high-level categorical characterisation of a particular kind of inductive bias GCNNs possess. Lastly, we hypothesize about possible generalisations of GCNNs to general message-passing graph neural networks, connections to equivariant learning, and the (lack of) functoriality of activation functions.
翻訳日:2022-12-02 17:33:21 公開日:2022-12-01
# Purifier: 信頼スコア変換によるデータ推論攻撃の回避

Purifier: Defending Data Inference Attacks via Transforming Confidence Scores ( http://arxiv.org/abs/2212.00612v1 )

ライセンス: Link先を確認
Ziqi Yang, Lijin Wang, Da Yang, Jie Wan, Ziming Zhao, Ee-Chien Chang, Fan Zhang, Kui Ren(参考訳) ニューラルネットワークは、メンバシップ推論攻撃、敵モデル反転攻撃、属性推論攻撃などのデータ推論攻撃に影響を受けやすく、攻撃者は、ターゲット分類器が予測した信頼度スコアから、データサンプルのメンバシップ、再構築、または機密属性などの有用な情報を推測することができる。 本稿では,PURIFIERを用いた会員推論攻撃に対する防御手法を提案する。 ターゲット分類器によって予測される信頼スコアベクトルを変換し、メンバーと非メンバー間の個人形状、統計分布、予測ラベルに区別できない純粋信頼スコアを作成する。 実験の結果, PURIFIERは, 有効性と効率性が高く, 従来の防御方法よりも優れており, 無効なユーティリティ損失も生じていることがわかった。 さらに,PURIFIERは,敵モデル逆転攻撃や属性推論攻撃の防御にも有効であることを示す。 例えば、facescrub530分類器では、インバージョンエラーが約4回発生し、実験で精製器をデプロイすると属性推論精度が大幅に低下します。

Neural networks are susceptible to data inference attacks such as the membership inference attack, the adversarial model inversion attack and the attribute inference attack, where the attacker could infer useful information such as the membership, the reconstruction or the sensitive attributes of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a method, namely PURIFIER, to defend against membership inference attacks. It transforms the confidence score vectors predicted by the target classifier and makes purified confidence scores indistinguishable in individual shape, statistical distribution and prediction label between members and non-members. The experimental results show that PURIFIER helps defend membership inference attacks with high effectiveness and efficiency, outperforming previous defense methods, and also incurs negligible utility loss. Besides, our further experiments show that PURIFIER is also effective in defending adversarial model inversion attacks and attribute inference attacks. For example, the inversion error is raised about 4+ times on the Facescrub530 classifier, and the attribute inference accuracy drops significantly when PURIFIER is deployed in our experiment.
翻訳日:2022-12-02 17:32:32 公開日:2022-12-01
# ホークス過程のスケーラブルな変分ベイズ法

Scalable Variational Bayes methods for Hawkes processes ( http://arxiv.org/abs/2212.00293v1 )

ライセンス: Link先を確認
Deborah Sulem, Vincent Rivoirard and Judith Rousseau(参考訳) 多変量ホークス過程は、過去の出来事や相互作用現象に依存する事象データをモデル化するための時間点過程である。 一般化非線形モデルでは、過程の成分間の正の相互作用と負の相互作用が許容されるため、いわゆる励起と抑制効果が考慮される。 非パラメトリックな設定では、ホークス過程の時間的依存構造を学習することは、しばしば計算にコストがかかる課題であり、ベイズ推定法でも同様である。 一般に、非線形ホークスモデルの後方分布は非共役であり、二重可算である。 さらに、既存のモンテカルロ・マルコフ連鎖法はしばしば遅く、実際は高次元プロセスには拡張性がない。 近年,後方分布の平均場変動近似を対象とする効率的なアルゴリズムが提案されている。 本研究では,既存の変分ベイズ推定手法を一般の枠組みで統一し,理論上,前者,変分クラス,およびモデル上で容易に検証可能な条件下で解析する。 特に,本理論を,多変量ホークスモデルの接続グラフパラメータを通じて空間性を誘導できる新しいスパイク・アンド・スラブ変分類に適用する。 次に,人気のあるsgmoid hawkesモデルの文脈において,既存のデータ拡張手法を活用し,適応的およびスパーシティ誘導平均場変分法を設計する。 特に,しきい値付きヒューリスティックに基づくグラフパラメータ選択のための二段階アルゴリズムを提案する。 計算効率が高く,グラフパラメータを選択することで問題の次元性を低減でき,基礎となるパラメータの滑らかさに適応できる。

Multivariate Hawkes processes are temporal point processes extensively applied to model event data with dependence on past occurrences and interaction phenomena. In the generalised nonlinear model, positive and negative interactions between the components of the process are allowed, therefore accounting for so-called excitation and inhibition effects. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is often a computationally expensive task, all the more with Bayesian estimation methods. In general, the posterior distribution in the nonlinear Hawkes model is non-conjugate and doubly intractable. Moreover, existing Monte-Carlo Markov Chain methods are often slow and not scalable to high-dimensional processes in practice. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed. In this work, we unify existing variational Bayes inference approaches under a general framework, that we theoretically analyse under easily verifiable conditions on the prior, the variational class, and the model. We notably apply our theory to a novel spike-and-slab variational class, that can induce sparsity through the connectivity graph parameter of the multivariate Hawkes model. Then, in the context of the popular sigmoid Hawkes model, we leverage existing data augmentation technique and design adaptive and sparsity-inducing mean-field variational methods. In particular, we propose a two-step algorithm based on a thresholding heuristic to select the graph parameter. Through an extensive set of numerical simulations, we demonstrate that our approach enjoys several benefits: it is computationally efficient, can reduce the dimensionality of the problem by selecting the graph parameter, and is able to adapt to the smoothness of the underlying parameter.
翻訳日:2022-12-02 17:26:59 公開日:2022-12-01
# 3次元乱流に対する物理制約付き生成共振ネットワーク

Physics-Constrained Generative Adversarial Networks for 3D Turbulence ( http://arxiv.org/abs/2212.00217v1 )

ライセンス: Link先を確認
Dima Tretiak, Arvind T. Mohan, Daniel Livescu(参考訳) Generative Adversarial Networks(GAN)は、現実的な2D画像を生成する能力について、機械学習(ML)コミュニティの間で広く称賛されている。 MLはコンピュータビジョン以上の複雑な問題に適用されることが多い。 しかし、現在のフレームワークは、しばしばブラックボックスとして機能し、物理埋め込みが欠如しており、制約や信頼できないモデルを強制する能力が不足している。 本研究では,ニューラルネットワークアーキテクチャにおいて,厳密に拘束され,ハード制約と呼ばれる物理組込みを開発する。 特に非圧縮性流体乱流における質量保存制約を強制するために,ganに埋め込むことで3次元乱流の能力を示す。 また, GANsフレームワーク内の物理制約を課す他の手法, 特に文学で一般的なペナルティに基づく物理制約の効果についても検討・対比する。 物理インフォームド診断と統計学を用いて、我々のアプローチの強みと弱みを評価し、その実現可能性を示す。

Generative Adversarial Networks (GANs) have received wide acclaim among the machine learning (ML) community for their ability to generate realistic 2D images. ML is being applied more often to complex problems beyond those of computer vision. However, current frameworks often serve as black boxes and lack physics embeddings, leading to poor ability in enforcing constraints and unreliable models. In this work, we develop physics embeddings that can be stringently imposed, referred to as hard constraints, in the neural network architecture. We demonstrate their capability for 3D turbulence by embedding them in GANs, particularly to enforce the mass conservation constraint in incompressible fluid turbulence. In doing so, we also explore and contrast the effects of other methods of imposing physics constraints within the GANs framework, especially penalty-based physics constraints popular in literature. By using physics-informed diagnostics and statistics, we evaluate the strengths and weaknesses of our approach and demonstrate its feasibility.
翻訳日:2022-12-02 17:23:55 公開日:2022-12-01
# 畳み込みニューラルネットワーク活性化のトポロジーに関する実験的観察

Experimental Observations of the Topology of Convolutional Neural Network Activations ( http://arxiv.org/abs/2212.00222v1 )

ライセンス: Link先を確認
Emilie Purvine, Davis Brown, Brett Jefferson, Cliff Joslyn, Brenda Praggastis, Archit Rathore, Madelyn Shapiro, Bei Wang, Youjia Zhou(参考訳) tda(topological data analysis)は、計算数学の一分野であり、代数トポロジーとデータサイエンスを橋渡しし、複雑な構造のコンパクトでノイズロバストな表現を提供する。 ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習し、結果として入力データの内部表現を高次元で理解しにくくする。 DNNが社会の複数の分野にまたがって普及するにつれて、これらのモデルの内部表現が最終分類とどのように関係しているかを理解し、解釈する上で、アナリスト、研究者、実践者を支援する数学的方法が必要であるという認識が高まっている。 本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。 2つの一般的なTDA手法を用いて、隠蔽層活性化を高次元の点雲としてモデル化し、これらの点雲がモデルプロセスに関する貴重な構造情報を収集する実験的な証拠を提供する。 まず、永続的ホモロジーに基づく距離計量を用いて、層間の有意義な差異を定量化できることを示し、ニューラルネットワークの解釈可能性のための既存の表現的類似度メトリクスのより広い文脈でこれらの距離を議論する。 第二に、マッパーグラフは、これらのモデルがどのように階層的クラス知識を各層に整理するかに関する意味的洞察を与えることができる。 これらの観察により、TDAはディープラーニングの実践者がモデルの隠れた構造を解き放つのに役立つことが示される。

Topological data analysis (TDA) is a branch of computational mathematics, bridging algebraic topology and data science, that provides compact, noise-robust representations of complex structures. Deep neural networks (DNNs) learn millions of parameters associated with a series of transformations defined by the model architecture, resulting in high-dimensional, difficult-to-interpret internal representations of input data. As DNNs become more ubiquitous across multiple sectors of our society, there is increasing recognition that mathematical methods are needed to aid analysts, researchers, and practitioners in understanding and interpreting how these models' internal representations relate to the final classification. In this paper, we apply cutting edge techniques from TDA with the goal of gaining insight into the interpretability of convolutional neural networks used for image classification. We use two common TDA approaches to explore several methods for modeling hidden-layer activations as high-dimensional point clouds, and provide experimental evidence that these point clouds capture valuable structural information about the model's process. First, we demonstrate that a distance metric based on persistent homology can be used to quantify meaningful differences between layers, and we discuss these distances in the broader context of existing representational similarity metrics for neural network interpretability. Second, we show that a mapper graph can provide semantic insight into how these models organize hierarchical class knowledge at each layer. These observations demonstrate that TDA is a useful tool to help deep learning practitioners unlock the hidden structures of their models.
翻訳日:2022-12-02 17:23:40 公開日:2022-12-01
# P2Net: Consistency of Consecutive Framesに基づくLiDARポイントクラウドのセマンティックセグメンテーションを洗練するための後処理ネットワーク

P2Net: A Post-Processing Network for Refining Semantic Segmentation of LiDAR Point Cloud based on Consistency of Consecutive Frames ( http://arxiv.org/abs/2212.00567v1 )

ライセンス: Link先を確認
Yutaka Momma, Weimin Wang, Edgar Simo-Serra, Satoshi Iizuka, Ryosuke Nakamura, Hiroshi Ishikawa(参考訳) 本稿では,ポイントクラウドシーケンスのセマンティックセグメンテーション結果を洗練するための軽量な後処理手法を提案する。 既存のほとんどの手法はフレーム単位でフレームを分割し、問題の本質的な曖昧さに遭遇する。 この問題を改善するために,既存のセグメンテーション手法によって予測される結果を洗練するために,ネットワークを明示的に訓練することを提案する。 P2Netと呼ばれるこのネットワークは、登録後の連続フレームから一致点間の整合性制約を学習する。 提案手法は,実際の屋外シーンからなるsemantickittiデータセットを定性的かつ定量的に評価する。 提案手法の有効性は,2つの代表ネットワークが予測する結果と,後処理ネットワークによる改良の有無を比較して検証する。 特に、定性的可視化は、予測が難しい点のラベルをP2Netで修正できるというキーアイデアを検証する。 定量的には、mIoUはPointNet [1]で10.5%から11.7%、PointNet++ [2]で10.8%から15.9%に改善されている。

We present a lightweight post-processing method to refine the semantic segmentation results of point cloud sequences. Most existing methods usually segment frame by frame and encounter the inherent ambiguity of the problem: based on a measurement in a single frame, labels are sometimes difficult to predict even for humans. To remedy this problem, we propose to explicitly train a network to refine these results predicted by an existing segmentation method. The network, which we call the P2Net, learns the consistency constraints between coincident points from consecutive frames after registration. We evaluate the proposed post-processing method both qualitatively and quantitatively on the SemanticKITTI dataset that consists of real outdoor scenes. The effectiveness of the proposed method is validated by comparing the results predicted by two representative networks with and without the refinement by the post-processing network. Specifically, qualitative visualization validates the key idea that labels of the points that are difficult to predict can be corrected with P2Net. Quantitatively, overall mIoU is improved from 10.5% to 11.7% for PointNet [1] and from 10.8% to 15.9% for PointNet++ [2].
翻訳日:2022-12-02 17:17:47 公開日:2022-12-01
# ハイブリッドCNN変換器と構造テンソルによるゴーストフリー高ダイナミックレンジイメージング

Ghost-free High Dynamic Range Imaging via Hybrid CNN-Transformer and Structure Tensor ( http://arxiv.org/abs/2212.00595v1 )

ライセンス: Link先を確認
Yu Yuan and Jiaqi Wu and Zhongliang Jing and Henry Leung and Han Pan(参考訳) 移動物体によるゴーストアーティファクトの除去は、高ダイナミックレンジ(HDR)イメージングにおいて難しい問題である。 本稿では,畳み込みエンコーダとトランスフォーマーデコーダを組み合わせたハイブリッドモデルを用いて,ゴーストフリーなHDR画像を生成する。 エンコーダでは、コンテキストアグリゲーションネットワークと非局所アテンションブロックを用いて、マルチスケールの特徴を最適化し、複数の低ダイナミックレンジ(LDR)画像のグローバルおよびローカルの依存関係をキャプチャする。 Swin Transformer に基づくデコーダを用いて,提案モデルの再構成性能を向上させる。 構造テンソル(ST)のフィールド下での人工物の存在と欠如の現象的差異により,我々はLDR画像のST情報をネットワークの補助入力として統合し,ST損失を利用してアーティファクトをさらに制約する。 従来のアプローチとは異なり、我々のネットワークは任意の数のLDR画像を処理することができる。 定性的かつ定量的な実験により,提案手法の有効性を既存のHDRデゴーストモデルと比較した。 コードはhttps://github.com/pandayuanyu/hsthdrで入手できる。

Eliminating ghosting artifacts due to moving objects is a challenging problem in high dynamic range (HDR) imaging. In this letter, we present a hybrid model consisting of a convolutional encoder and a Transformer decoder to generate ghost-free HDR images. In the encoder, a context aggregation network and non-local attention block are adopted to optimize multi-scale features and capture both global and local dependencies of multiple low dynamic range (LDR) images. The decoder based on Swin Transformer is utilized to improve the reconstruction capability of the proposed model. Motivated by the phenomenal difference between the presence and absence of artifacts under the field of structure tensor (ST), we integrate the ST information of LDR images as auxiliary inputs of the network and use ST loss to further constrain artifacts. Different from previous approaches, our network is capable of processing an arbitrary number of input LDR images. Qualitative and quantitative experiments demonstrate the effectiveness of the proposed method by comparing it with existing state-of-the-art HDR deghosting models. Codes are available at https://github.com/pandayuanyu/HSTHdr.
翻訳日:2022-12-02 17:17:26 公開日:2022-12-01
# マルチレータプリズム:複数レーダからの自己校正型医用画像セグメンテーションの学習

Multi-rater Prism: Learning self-calibrated medical image segmentation from multiple raters ( http://arxiv.org/abs/2212.00601v1 )

ライセンス: Link先を確認
Junde Wu, Huihui Fang, Yehui Yang, Yuanpei Liu, Jing Gao, Lixin Duan, Weihua Yang, Yanwu Xu(参考訳) 医用画像セグメンテーションでは、最終決定を行うには複数の専門家の意見を集める必要がある。 この臨床ルーチンは個人のバイアスを軽減するのに役立つ。 しかし、データが複数にアノテートされる場合、標準的なディープラーニングモデルは適用されないことが多い。 本稿では,複数のラベルから医用画像のセグメンテーションを学ぶために,マルチレート・プリズム(mrprism)と呼ばれる新しいニューラルネットワークフレームワークを提案する。 繰り返し2次最適化にインスパイアされたMrPrismは、マルチレータ信頼度割り当てタスクとキャリブレーションされたセグメンテーションタスクを反復的に組み合わせる。 この再帰的なプロセスでは、mrprismはイメージのセマンティクス特性を考慮したオブザーバ間変動を学習し、最終的にオブザーバ間合意を反映した自己共役セグメンテーション結果に収束する。 具体的には,2つのタスクを反復的に処理するために,Conp(Converging Prism)とDivP(DivP)を提案する。 ConPは、DivPによって推定されるマルチレータ信頼マップに基づいて、キャリブレーションされたセグメンテーションを学習する。 DivPは、ConPによって推定されるセグメンテーションマスクに基づいて、マルチレータ信頼マップを生成する。 実験の結果,conpとdivpを繰り返し実行することで,2つのタスクが相互に改善できることがわかった。 MrPrismの最終的なセグメンテーション結果は、幅広い医療画像セグメンテーションタスクにおける最先端(SOTA)戦略よりも優れている。

In medical image segmentation, it is often necessary to collect opinions from multiple experts to make the final decision. This clinical routine helps to mitigate individual bias. But when data is multiply annotated, standard deep learning models are often not applicable. In this paper, we propose a novel neural network framework, called Multi-Rater Prism (MrPrism) to learn the medical image segmentation from multiple labels. Inspired by the iterative half-quadratic optimization, the proposed MrPrism will combine the multi-rater confidences assignment task and calibrated segmentation task in a recurrent manner. In this recurrent process, MrPrism can learn inter-observer variability taking into account the image semantic properties, and finally converges to a self-calibrated segmentation result reflecting the inter-observer agreement. Specifically, we propose Converging Prism (ConP) and Diverging Prism (DivP) to process the two tasks iteratively. ConP learns calibrated segmentation based on the multi-rater confidence maps estimated by DivP. DivP generates multi-rater confidence maps based on the segmentation masks estimated by ConP. The experimental results show that by recurrently running ConP and DivP, the two tasks can achieve mutual improvement. The final converged segmentation result of MrPrism outperforms state-of-the-art (SOTA) strategies on a wide range of medical image segmentation tasks.
翻訳日:2022-12-02 17:17:03 公開日:2022-12-01
# NeuWigs: ボリュームヘアキャプチャとアニメーションのためのニューラルダイナミックモデル

NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and Animation ( http://arxiv.org/abs/2212.00613v1 )

ライセンス: Link先を確認
Ziyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Chen Cao, Jason Saragih, Michael Zollhoefer, Jessica Hodgins and Christoph Lassner(参考訳) 人間の髪のキャプチャーとアニメーションは、バーチャルリアリティーのための現実的なアバターを作成する上で大きな課題の2つだ。 毛髪は複雑な形状と外観を持ち、また困難な動きを示すため、どちらの問題も非常に困難である。 本稿では,毛髪を頭部から独立にモデル化し,これらの課題をデータ駆動方式で解決する2段階のアプローチを提案する。 第1段階である状態圧縮は、新しいオートエンコーダ・アズ・ア・トラックラー戦略により、動きと外観を含む3dヘア状態の低次元潜在空間を学習する。 外観学習における毛髪と頭部の絡み合いを改善するため,多視点の毛髪セグメンテーションマスクと微分可能なボリュームレンダラを併用した。 第2段階は、検出された潜在コードに基づいて時間的毛髪移動を行う新しい毛髪動力学モデルを学ぶ。 動的モデルを駆動しながら高い安定性を実現するため, 圧縮段階から3Dポイントクラウドオートエンコーダを用いてヘア状態の除音を行う。 提案モデルは,新しい視点合成の技法を上回っており,毛髪観察を駆動信号として必要とせずに,新たな髪髪アニメーションを作成できる。

The capture and animation of human hair are two of the major challenges in the creation of realistic avatars for the virtual reality. Both problems are highly challenging, because hair has complex geometry and appearance, as well as exhibits challenging motion. In this paper, we present a two-stage approach that models hair independently from the head to address these challenges in a data-driven manner. The first stage, state compression, learns a low-dimensional latent space of 3D hair states containing motion and appearance, via a novel autoencoder-as-a-tracker strategy. To better disentangle the hair and head in appearance learning, we employ multi-view hair segmentation masks in combination with a differentiable volumetric renderer. The second stage learns a novel hair dynamics model that performs temporal hair transfer based on the discovered latent codes. To enforce higher stability while driving our dynamics model, we employ the 3D point-cloud autoencoder from the compression stage for de-noising of the hair state. Our model outperforms the state of the art in novel view synthesis and is capable of creating novel hair animations without having to rely on hair observations as a driving signal.
翻訳日:2022-12-02 17:16:40 公開日:2022-12-01
# スパースフュージョン:3次元再構成のためのビューコンディショニング拡散

SparseFusion: Distilling View-conditioned Diffusion for 3D Reconstruction ( http://arxiv.org/abs/2212.00792v1 )

ライセンス: Link先を確認
Zhizhuo Zhou, Shubham Tulsiani(参考訳) ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。 既存のアプローチは通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。 代替手法は、これを(確率的な)2D合成タスクとして扱い、可塑性2D画像を生成することができるが、一貫した基礎となる3Dを推論しない。 しかし,この3次元一貫性と確率的画像生成のトレードオフが存在する必要はない。 実際、幾何学的整合性と生成的推論は、モード探索動作において相補的であることを示す。 ビュー条件付き潜伏拡散モデルから3次元一貫したシーン表現を蒸留することにより、レンダリングが正確かつリアルな3次元表現を復元することができる。 提案手法は,CO3Dデータセットの51カテゴリにまたがって評価され,歪みと知覚の両指標において,スパースビューの新規ビュー合成において,既存の手法よりも優れていることを示す。

We propose SparseFusion, a sparse view 3D reconstruction approach that unifies recent advances in neural rendering and probabilistic image generation. Existing approaches typically build on neural rendering with re-projected features but fail to generate unseen regions or handle uncertainty under large viewpoint changes. Alternate methods treat this as a (probabilistic) 2D synthesis task, and while they can generate plausible 2D images, they do not infer a consistent underlying 3D. However, we find that this trade-off between 3D consistency and probabilistic image generation does not need to exist. In fact, we show that geometric consistency and generative inference can be complementary in a mode-seeking behavior. By distilling a 3D consistent scene representation from a view-conditioned latent diffusion model, we are able to recover a plausible 3D representation whose renderings are both accurate and realistic. We evaluate our approach across 51 categories in the CO3D dataset and show that it outperforms existing methods, in both distortion and perception metrics, for sparse-view novel view synthesis.
翻訳日:2022-12-02 17:15:55 公開日:2022-12-01
# ハイブリッドライフ:生物・人工・認知システムの統合

Hybrid Life: Integrating Biological, Artificial, and Cognitive Systems ( http://arxiv.org/abs/2212.00285v1 )

ライセンス: Link先を確認
Manuel Baltieri, Hiroyuki Iizuka, Olaf Witkowski, Lana Sinapayen, Keisuke Suzuki(参考訳) 人工生命は、物理、自然、計算科学にまたがる多分野的なアプローチに基づいて、プロセスと性質が生命を定義する研究分野である。 人工生命(artificial life)は、生命の基本特性の理論的、合成的、経験的モデルを用いて、「我々の知る生命」を超えて、生命の包括的な研究を促進することを目的としている。 まだ比較的若い分野だが、様々な背景を持つ研究者の環境として人工生命は繁栄し、幅広い主題からアイデアや貢献を歓迎している。 ハイブリッドライフ(Hybrid Life)は、より伝統的な人工生命研究に根ざしているが、他の分野との相互作用から生まれる新しい課題に目を向ける、人工生命コミュニティにおける最新の発展に注意を向ける試みである。 特にハイブリッドライフは3つのテーマに焦点を当てている。 1)システム及びエージェントの理論 2)ハイブリッド化, 生体と人工システムを組み合わせた拡張アーキテクチャ, 及び 3) 人工システムと生物システム間のハイブリッド相互作用 これらのテーマの主なインスピレーション源について議論した後、2018年から2022年にかけて開催される毎年恒例のArtificial Life Conferenceで開催されるHybrid Lifeスペシャルセッションに登場した作品の概要に焦点を当てる。

Artificial life is a research field studying what processes and properties define life, based on a multidisciplinary approach spanning the physical, natural and computational sciences. Artificial life aims to foster a comprehensive study of life beyond "life as we know it" and towards "life as it could be", with theoretical, synthetic and empirical models of the fundamental properties of living systems. While still a relatively young field, artificial life has flourished as an environment for researchers with different backgrounds, welcoming ideas and contributions from a wide range of subjects. Hybrid Life is an attempt to bring attention to some of the most recent developments within the artificial life community, rooted in more traditional artificial life studies but looking at new challenges emerging from interactions with other fields. In particular, Hybrid Life focuses on three complementary themes: 1) theories of systems and agents, 2) hybrid augmentation, with augmented architectures combining living and artificial systems, and 3) hybrid interactions among artificial and biological systems. After discussing some of the major sources of inspiration for these themes, we will focus on an overview of the works that appeared in Hybrid Life special sessions, hosted by the annual Artificial Life Conference between 2018 and 2022.
翻訳日:2022-12-02 17:15:33 公開日:2022-12-01
# 構造誘導型能動・時差接続ネットワークによる脳障害メカニズムの解明

A Structure-guided Effective and Temporal-lag Connectivity Network for Revealing Brain Disorder Mechanisms ( http://arxiv.org/abs/2212.00555v1 )

ライセンス: Link先を確認
Zhengwang Xia, Tao Zhou, Saqib Mamoon, Amani Alfakih, Jianfeng Lu(参考訳) 脳ネットワークは多くの脳疾患の診断に重要な洞察を与え、脳構造を効果的にモデル化する方法は、脳画像解析の領域における重要な問題の一つとなっている。 近年,脳領域間の因果関係(効果的な接続性)を推定するために,様々な計算手法が提案されている。 従来の相関に基づく手法と比較して、効果的な接続は情報の流れの方向を与え、脳疾患の診断に付加的な情報を与えることができる。 しかし、既存の手法では、脳領域間の情報伝達に時間ラグがあるという事実を無視するか、単にすべての脳領域間の時間ラグ値を固定値に設定する。 これらの問題を克服するために,脳領域間の因果関係と時間的ラグ値を同時に推測する効果的な時間的ラグニューラルネットワーク(etln)を設計する。 さらに,脳ネットワークのモデリングの指針となる3つのメカニズムについても紹介する。 アルツハイマー病神経画像イニシアチブ(ADNI)データベースにおける評価結果は,提案手法の有効性を示すものである。

Brain network provides important insights for the diagnosis of many brain disorders, and how to effectively model the brain structure has become one of the core issues in the domain of brain imaging analysis. Recently, various computational methods have been proposed to estimate the causal relationship (i.e., effective connectivity) between brain regions. Compared with traditional correlation-based methods, effective connectivity can provide the direction of information flow, which may provide additional information for the diagnosis of brain diseases. However, existing methods either ignore the fact that there is a temporal-lag in the information transmission across brain regions, or simply set the temporal-lag value between all brain regions to a fixed value. To overcome these issues, we design an effective temporal-lag neural network (termed ETLN) to simultaneously infer the causal relationships and the temporal-lag values between brain regions, which can be trained in an end-to-end manner. In addition, we also introduce three mechanisms to better guide the modeling of brain networks. The evaluation results on the Alzheimer's Disease Neuroimaging Initiative (ADNI) database demonstrate the effectiveness of the proposed method.
翻訳日:2022-12-02 17:15:10 公開日:2022-12-01
# 不確かさを持つマルコフジャンプ線形系の形式制御器合成

Formal Controller Synthesis for Markov Jump Linear Systems with Uncertain Dynamics ( http://arxiv.org/abs/2212.00679v1 )

ライセンス: Link先を確認
Luke Rickard, Thom Badings, Licio Romao, Nils Jansen, Alessandro Abate(参考訳) サイバーフィジカルシステムのための確実に正しい制御器の自動合成は、これらのシステムを安全クリティカルなシナリオでデプロイするのに不可欠である。 しかし、それらのハイブリッド特徴と確率的あるいは未知の振る舞いは、この合成問題を難しくする。 本稿では,マルコフジャンプ線形システム(MJLS)の制御系を,確率計算木論理(PCTL)の仕様として表現された要件を確実に満たす手法を提案する。 MJLSは、未知の加法的障害を持つ線形力学の有限集合で構成され、これらのモード間のジャンプはマルコフ決定過程(MDP)によって制御される。 このMDPの遷移関数が確率間隔によって与えられる場合や、それが完全に未知である場合も考慮する。 我々のアプローチは、元のシステムの離散的および連続的な振る舞いの両方をキャプチャする有限状態抽象を生成することに基づいている。 いわゆる"scenarioアプローチ"からのサンプリング技術を用いて,遷移確率の間隔を計算し,mjlsの確率的に近似する。 このiMDPはモード間のジャンプダイナミクスとモード内の連続ダイナミクスの両方を抽象化する。 本手法の有効性を実証するために,本手法を複数の現実的なベンチマーク問題,特に温度制御や航空機の配送問題に適用する。

Automated synthesis of provably correct controllers for cyber-physical systems is crucial for deploying these systems in safety-critical scenarios. However, their hybrid features and stochastic or unknown behaviours make this synthesis problem challenging. In this paper, we propose a method for synthesizing controllers for Markov jump linear systems (MJLSs), a particular class of cyber-physical systems, that certifiably satisfy a requirement expressed as a specification in probabilistic computation tree logic (PCTL). An MJLS consists of a finite set of linear dynamics with unknown additive disturbances, where jumps between these modes are governed by a Markov decision process (MDP). We consider both the case where the transition function of this MDP is given by probability intervals or where it is completely unknown. Our approach is based on generating a finite-state abstraction which captures both the discrete and the continuous behaviour of the original system. We formalise such abstraction as an interval Markov decision process (iMDP): intervals of transition probabilities are computed using sampling techniques from the so-called "scenario approach", resulting in a probabilistically sound approximation of the MJLS. This iMDP abstracts both the jump dynamics between modes, as well as the continuous dynamics within the modes. To demonstrate the efficacy of our technique, we apply our method to multiple realistic benchmark problems, in particular, temperature control, and aerial vehicle delivery problems.
翻訳日:2022-12-02 17:14:38 公開日:2022-12-01
# マルチセンサ衛星データを用いた森林インベントリマッピングのための新しい半教師付きコントラスト回帰フレームワーク

A Novel Semisupervised Contrastive Regression Framework for Forest Inventory Mapping with Multisensor Satellite Data ( http://arxiv.org/abs/2212.00246v1 )

ライセンス: Link先を確認
Shaojia Ge, Hong Gu, Weimin Su, Anne L\"onnqvist, Oleg Antropov(参考訳) 森林の正確なマッピングは森林管理と炭素ストックモニタリングにとって重要である。 深層学習は地球観測(eo)でより普及しているが、参照データの利用は広域森林マッピングの可能性を制限している。 これらの制約を克服するために,eoベースのフォレストマッピングに対比回帰を導入し,連続フォレスト変数の壁対壁マッピングのための新しい半教師あり回帰フレームワークを開発した。 教師付きコントラスト回帰損失と半教師付きクロスプリュード回帰損失を組み合わせる。 copernicus sentinel-1 と sentinel-2 画像を用いて森林の樹高をマッピングした。 達成された予測精度は、バニラUNetや従来の回帰モデルと比較して非常に良く、相対RMSEは15.1%である。 開発フレームワークは、他の森林変数やEOデータセットのモデリングに使用できると期待している。

Accurate mapping of forests is critical for forest management and carbon stocks monitoring. Deep learning is becoming more popular in Earth Observation (EO), however, the availability of reference data limits its potential in wide-area forest mapping. To overcome those limitations, here we introduce contrastive regression into EO based forest mapping and develop a novel semisupervised regression framework for wall-to-wall mapping of continuous forest variables. It combines supervised contrastive regression loss and semi-supervised Cross-Pseudo Regression loss. The framework is demonstrated over a boreal forest site using Copernicus Sentinel-1 and Sentinel-2 imagery for mapping forest tree height. Achieved prediction accuracies are strongly better compared to using vanilla UNet or traditional regression models, with relative RMSE of 15.1% on stand level. We expect that developed framework can be used for modeling other forest variables and EO datasets.
翻訳日:2022-12-02 17:09:01 公開日:2022-12-01
# OCT画像における網膜浮腫病変の信頼性の検討

Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images ( http://arxiv.org/abs/2212.00330v1 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Ke Zou, Yanyu Xu, Qingquan Meng, Rick Siow Mong Goh, Yong Liu, Xinxing Xu, and Huazhu Fu(参考訳) OCT画像からの網膜浮腫病変の関節分節化のタスクにおいて, ぼやけた境界, 症状のスケール差, 背景雑音の干渉など, 複雑な病態の特徴に着目し, より信頼性の高い分節化を図った。 本稿では,信頼性評価により精度の高いセグメンテーション結果が得られる,信頼性の高いマルチスケールウェーブレットエンハンスドトランスネットワークを提案する。 具体的には,OCT画像における網膜浮腫病変の複雑な病態を学習する能力の向上を目的として,新たに設計されたウェーブレット強化特徴抽出器ネットワークとマルチスケールトランスフォーマーモジュールを統合した,新たなセグメンテーションバックボーンを開発した。 一方、セグメンテーション結果の信頼性を高めるために、主観的論理実証理論に基づく新たな不確実性セグメンテーションヘッドを導入し、対応する全体不確実性評価スコアマップを用いて最終セグメンテーション結果を生成する。 網膜浮腫病変セグメンテーションにおけるai-challenge 2018の公開データベースについて総合的な実験を行い,本手法は他の最先端セグメンテーション法に比べて高い信頼性でセグメンテーション精度を達成できることを示した。 コードは、https://github.com/LooKing9218/ReliableRESegでリリースされる。

Focusing on the complicated pathological features, such as blurred boundaries, severe scale differences between symptoms, background noise interference, etc., in the task of retinal edema lesions joint segmentation from OCT images and enabling the segmentation results more reliable. In this paper, we propose a novel reliable multi-scale wavelet-enhanced transformer network, which can provide accurate segmentation results with reliability assessment. Specifically, aiming at improving the model's ability to learn the complex pathological features of retinal edema lesions in OCT images, we develop a novel segmentation backbone that integrates a wavelet-enhanced feature extractor network and a multi-scale transformer module of our newly designed. Meanwhile, to make the segmentation results more reliable, a novel uncertainty segmentation head based on the subjective logical evidential theory is introduced to generate the final segmentation results with a corresponding overall uncertainty evaluation score map. We conduct comprehensive experiments on the public database of AI-Challenge 2018 for retinal edema lesions segmentation, and the results show that our proposed method achieves better segmentation accuracy with a high degree of reliability as compared to other state-of-the-art segmentation approaches. The code will be released on: https://github.com/LooKing9218/ReliableRESeg.
翻訳日:2022-12-02 17:08:37 公開日:2022-12-01
# 同時探索と同定による3次元物体ゴールナビゲーション

3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification ( http://arxiv.org/abs/2212.00338v1 )

ライセンス: Link先を確認
Jiazhao Zhang, Liu Dai, Fanpeng Meng, Qingnan Fan, Xuelin Chen, Kai Xu, He Wang(参考訳) 見えない環境でのオブジェクトゴールナビゲーション(ObjectNav)は、Embodied AIの基本的なタスクである。 既存の作業のエージェントは、2Dマップ、シーングラフ、イメージシーケンスに基づいてObjectNavポリシーを学ぶ。 このタスクが3D空間で発生することを考慮すれば、3Dエージェントは細かな空間情報から学習することでObjectNav能力を向上することができる。 しかし,このフロアレベルのタスクでは,サンプル効率の低さと計算コストの高騰から,3次元シーン表現の活用は禁止的に実践的ではない。 本研究では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。 2つのサブポリス、すなわちコーナー誘導探索政策とカテゴリー認識識別政策は、オンライン融合3Dポイントを観察として同時に実施する。 広範な実験を通じて,このフレームワークが3次元シーン表現から学習することで,objectnavの性能を劇的に向上できることを示す。 我々のフレームワークはmatterport3dとgibsonデータセット上のすべてのモジュールベースメソッドで最高のパフォーマンスを実現しますが、トレーニングに計算コスト(最大30倍)を必要とします。

Object goal navigation (ObjectNav) in unseen environments is a fundamental task for Embodied AI. Agents in existing works learn ObjectNav policies based on 2D maps, scene graphs, or image sequences. Considering this task happens in 3D space, a 3D-aware agent can advance its ObjectNav capability via learning from fine-grained spatial information. However, leveraging 3D scene representation can be prohibitively unpractical for policy learning in this floor-level task, due to low sample efficiency and expensive computational cost. In this work, we propose a framework for the challenging 3D-aware ObjectNav based on two straightforward sub-policies. The two sub-polices, namely corner-guided exploration policy and category-aware identification policy, simultaneously perform by utilizing online fused 3D points as observation. Through extensive experiments, we show that this framework can dramatically improve the performance in ObjectNav through learning from 3D scene representation. Our framework achieves the best performance among all modular-based methods on the Matterport3D and Gibson datasets, while requiring (up to 30x) less computational cost for training.
翻訳日:2022-12-02 17:08:04 公開日:2022-12-01
# 自己増殖型ニューラルネットワークによる半導体欠陥パターンの分類

Semiconductor Defect Pattern Classification by Self-Proliferation-and-Attention Neural Network ( http://arxiv.org/abs/2212.00345v1 )

ライセンス: Link先を確認
YuanFu Yang, Min Sun(参考訳) 半導体製造は、モノのインターネット(IoT)という革命の頂点にある。 IoTを使うことで、すべての機器を接続し、情報を工場に戻すことで、品質上の問題を検出することができます。 この状況では、ウエハ検査装置にますます多くのエッジ装置が使用されている。 このエッジデバイスには、欠陥を迅速に検出する能力が必要です。 したがって、エッジデバイスに適した自動欠陥分類のための高効率アーキテクチャを開発することが主な課題である。 本稿では,欠陥分類をより効率的に行うことができる新しいアーキテクチャを提案する。 最初の関数は自己増殖であり、一連の線形変換を使ってより安価なコストでより多くの特徴マップを生成する。 第2の機能は自己注意であり、チャネルワイドおよび空間ワイドアテンション機構により特徴写像の長距離依存性をキャプチャする。 我々はこの手法を自己増殖型ニューラルネットワークと命名した。 この手法は様々な欠陥パターン分類タスクに適用されている。 他の最新の手法と比較すると、多くの欠陥検査タスクにおいてSP&A-Netは精度が高く、計算コストも低い。

Semiconductor manufacturing is on the cusp of a revolution: the Internet of Things (IoT). With IoT we can connect all the equipment and feed information back to the factory so that quality issues can be detected. In this situation, more and more edge devices are used in wafer inspection equipment. This edge device must have the ability to quickly detect defects. Therefore, how to develop a high-efficiency architecture for automatic defect classification to be suitable for edge devices is the primary task. In this paper, we present a novel architecture that can perform defect classification in a more efficient way. The first function is self-proliferation, using a series of linear transformations to generate more feature maps at a cheaper cost. The second function is self-attention, capturing the long-range dependencies of feature map by the channel-wise and spatial-wise attention mechanism. We named this method as self-proliferation-and-attention neural network. This method has been successfully applied to various defect pattern classification tasks. Compared with other latest methods, SP&A-Net has higher accuracy and lower computation cost in many defect inspection tasks.
翻訳日:2022-12-02 17:07:45 公開日:2022-12-01
# FoPro:ロバストなWeb改善型プロトタイプ学習

FoPro: Few-Shot Guided Robust Webly-Supervised Prototypical Learning ( http://arxiv.org/abs/2212.00465v1 )

ライセンス: Link先を確認
Yulei Qin, Xingyu Chen, Chao Chen, Yunhang Shen, Bo Ren, Yun Gu, Jie Yang, Chunhua Shen(参考訳) 近年,webly supervised learning (wsl) がインターネットから大量のアクセス可能なデータを活用するために研究されている。 既存の手法の多くは、Webドメインと実世界のドメインの違いによるパフォーマンス低下を無視しながら、Webイメージからノイズロスモデルを学ぶことに焦点を当てている。 しかし、上記のパフォーマンスギャップに取り組むことでのみ、Webデータセットの実用的価値を完全に活用できます。 そこで本研究では,現実からのラベル付きサンプルを数個しか必要とせず,実世界領域のパフォーマンスを著しく向上させることのできる,数ショット誘導型(fopro)表現学習手法を提案する。 具体的には,Web インスタンスと ‘realistic' プロトタイプ間のクラス内距離を,対照的な学習によって狭めることによって,各クラスセンタを "realistic" プロトタイプとして初期化する。 最後に、学習可能なメトリックを用いて画像-プロトタイプ距離を測定する。 プロトタイプは、隣接する高品質なWebイメージによって洗練され、遠隔配布サンプルの除去に関与している。 実験では、foproはwebデータセットでトレーニングされ、実世界のデータセットで指導と評価された実例がいくつかある。 提案手法は,3つの細粒度データセットと2つの大規模データセットに対して,最先端の性能を実現する。 同じ少数ショット設定で既存のwslメソッドと比較すると、foproは実世界の一般化において依然として優れている。 コードはhttps://github.com/yuleiqin/foproで入手できる。

Recently, webly supervised learning (WSL) has been studied to leverage numerous and accessible data from the Internet. Most existing methods focus on learning noise-robust models from web images while neglecting the performance drop caused by the differences between web domain and real-world domain. However, only by tackling the performance gap above can we fully exploit the practical value of web datasets. To this end, we propose a Few-shot guided Prototypical (FoPro) representation learning method, which only needs a few labeled examples from reality and can significantly improve the performance in the real-world domain. Specifically, we initialize each class center with few-shot real-world data as the ``realistic" prototype. Then, the intra-class distance between web instances and ``realistic" prototypes is narrowed by contrastive learning. Finally, we measure image-prototype distance with a learnable metric. Prototypes are polished by adjacent high-quality web images and involved in removing distant out-of-distribution samples. In experiments, FoPro is trained on web datasets with a few real-world examples guided and evaluated on real-world datasets. Our method achieves the state-of-the-art performance on three fine-grained datasets and two large-scale datasets. Compared with existing WSL methods under the same few-shot settings, FoPro still excels in real-world generalization. Code is available at https://github.com/yuleiqin/fopro.
翻訳日:2022-12-02 17:07:33 公開日:2022-12-01
# ゼロ平均相関を持つ組込みGPUの効率的なステレオマッチング

Efficient stereo matching on embedded GPUs with zero-means cross correlation ( http://arxiv.org/abs/2212.00476v1 )

ライセンス: Link先を確認
Qiong Chang, Aolong Zha, Weimin Wang, Xin Liu, Masaki Onishi, Lei Lei, Meng Joo Er, Tsutomu Maruyama(参考訳) モバイルステレオマッチングシステムは、自動運転車や自律ロボットなど、多くのアプリケーションで重要な部分となっている。 正確なステレオマッチング手法は通常高い計算複雑性をもたらすが、モバイルプラットフォームは消費電力を低く抑えるためのハードウェアリソースが限られているため、モバイルプラットフォームでの処理速度と精度を維持するのが困難である。 本稿では,このトレードオフを解決するために,Jetson Tx2組み込みGPU上でのよく知られたゼロ平均正規化クロス相関(ZNCC)マッチングコスト計算アルゴリズムを提案する。 本手法では,ZNCCの高速化のために,対象画像をジグザグ方式でスキャンし,隣接する画素に対して1ピクセルの計算を効率よく再利用することにより,データ転送量を削減し,オンチップレジスタの利用率を向上し,処理速度を向上する。 その結果,従来の画像スキャン法より2倍高速で,最新のNCC法より26%高速であることがわかった。 この手法とドメイン変換(DT)アルゴリズムを組み合わせることで,最大1280x384ピクセル画像のJetson Tx2 GPUにおいて,32fpsのリアルタイム処理速度を示した。 さらに、KITTI 2015ベンチマークの評価結果は、我々の組み合わせシステムは、ほぼ同じ処理速度を維持しながら、国勢調査と組み合わせたアルゴリズムよりも精度が7.26%高いことを示している。

Mobile stereo-matching systems have become an important part of many applications, such as automated-driving vehicles and autonomous robots. Accurate stereo-matching methods usually lead to high computational complexity; however, mobile platforms have only limited hardware resources to keep their power consumption low; this makes it difficult to maintain both an acceptable processing speed and accuracy on mobile platforms. To resolve this trade-off, we herein propose a novel acceleration approach for the well-known zero-means normalized cross correlation (ZNCC) matching cost calculation algorithm on a Jetson Tx2 embedded GPU. In our method for accelerating ZNCC, target images are scanned in a zigzag fashion to efficiently reuse one pixel's computation for its neighboring pixels; this reduces the amount of data transmission and increases the utilization of on-chip registers, thus increasing the processing speed. As a result, our method is 2X faster than the traditional image scanning method, and 26% faster than the latest NCC method. By combining this technique with the domain transformation (DT) algorithm, our system show real-time processing speed of 32 fps, on a Jetson Tx2 GPU for 1,280x384 pixel images with a maximum disparity of 128. Additionally, the evaluation results on the KITTI 2015 benchmark show that our combined system is more accurate than the same algorithm combined with census by 7.26%, while maintaining almost the same processing speed.
翻訳日:2022-12-02 17:07:13 公開日:2022-12-01
# GPUを用いたリアルタイム高速ステレオマッチングシステム

Real-Time High-Quality Stereo Matching System on a GPU ( http://arxiv.org/abs/2212.00488v1 )

ライセンス: Link先を確認
Qiong Chang, Tsutomu Maruyama(参考訳) 本稿では,GPU上での低エラー率とリアルタイムステレオビジョンシステムを提案する。 GPU上の多くのステレオビジョンシステムが提案されている。 これらのシステムでは、エラー率と処理速度はトレードオフ関係にある。 高解像度画像のためのGPU上のリアルタイムステレオビジョンシステムを提案する。 このシステムは、他の高速システムと比較してエラー率も低い。 提案手法では,リアルタイム処理を実現するために,GPU上でコストアグリゲーション(CA),クロスチェック,中央値フィルタを実装した。 処理速度は1436x992ピクセルで最大差が145である場合40fpsであり、エラー率は30fpsより高速なGPUシステムの中では最低である。

In this paper, we propose a low error rate and real-time stereo vision system on GPU. Many stereo vision systems on GPU have been proposed to date. In those systems, the error rates and the processing speed are in trade-off relationship. We propose a real-time stereo vision system on GPU for the high resolution images. This system also maintains a low error rate compared to other fast systems. In our approach, we have implemented the cost aggregation (CA), cross-checking and median filter on GPU in order to realize the real-time processing. Its processing speed is 40 fps for 1436x992 pixels images when the maximum disparity is 145, and its error rate is the lowest among the GPU systems which are faster than 30 fps.
翻訳日:2022-12-02 17:06:45 公開日:2022-12-01
# EBHI-Seg : 新しい内視鏡生検組織学的ヘマトキシリンとエオシン画像データセット

EBHI-Seg: A Novel Enteroscope Biopsy Histopathological Haematoxylin and Eosin Image Dataset for Image Segmentation Tasks ( http://arxiv.org/abs/2212.00532v1 )

ライセンス: Link先を確認
Liyu Shi, Xiaoyan Li, Weiming Hua, Haoyuan Chen, Jing Chen, Zizhen Fan, Minghe Gao, Yujie Jing, Guotao Lu, Deguo Ma, Zhiyu Ma, Qingtao Meng, Dechao Tang, Hongzan Sun, Marcin Grzegorzek, Shouliang Qi, Yueyang Teng, Chen Li(参考訳) 背景と目的:大腸癌は一般的な致死性悪性腫瘍であり、男性では4番目に多く、女性では3番目に多いがんである。 早期のがんのタイムリーな検出は、疾患の治療に不可欠である。 現在、直腸癌の病理組織学的画像分割のためのデータセットが不足しており、コンピュータ技術が診断に役立っている場合、しばしば評価精度を損なう。 方法: 本研究は, 画像分割作業 (ebhi-seg) のための, 新たに利用可能な腸鏡生検組織学的ヘマトキシリンおよびエオシン画像データセットを提供した。 EBHI-Segの有効性と拡張性を示すため,古典的な機械学習手法とディープラーニング手法を用いてEBHI-Segの実験結果を評価した。 結果: EBHI-Segを用いた場合, 深層学習法は画像分割性能が優れていた。 古典的機械学習法におけるサイス評価基準の最大精度は0.948であり、深層学習法におけるサイス評価基準は0.965である。 結論: この公開データセットは,6種類の腫瘍分化段階と対応する基底真理像の5,170枚の画像を含む。 このデータセットは、大腸癌の診断のための新しいセグメンテーションアルゴリズムを研究者に提供することができる。

Background and Purpose: Colorectal cancer is a common fatal malignancy, the fourth most common cancer in men, and the third most common cancer in women worldwide. Timely detection of cancer in its early stages is essential for treating the disease. Currently, there is a lack of datasets for histopathological image segmentation of rectal cancer, which often hampers the assessment accuracy when computer technology is used to aid in diagnosis. Methods: This present study provided a new publicly available Enteroscope Biopsy Histopathological Hematoxylin and Eosin Image Dataset for Image Segmentation Tasks (EBHI-Seg). To demonstrate the validity and extensiveness of EBHI-Seg, the experimental results for EBHI-Seg are evaluated using classical machine learning methods and deep learning methods. Results: The experimental results showed that deep learning methods had a better image segmentation performance when utilizing EBHI-Seg. The maximum accuracy of the Dice evaluation metric for the classical machine learning method is 0.948, while the Dice evaluation metric for the deep learning method is 0.965. Conclusion: This publicly available dataset contained 5,170 images of six types of tumor differentiation stages and the corresponding ground truth images. The dataset can provide researchers with new segmentation algorithms for medical diagnosis of colorectal cancer, which can be used in the clinical setting to help doctors and patients.
翻訳日:2022-12-02 17:06:35 公開日:2022-12-01
# アクティブ話者検出のための視聴覚活動誘導型クロスモーダルアイデンティティアソシエーション

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection ( http://arxiv.org/abs/2212.00539v1 )

ライセンス: Link先を確認
Rahul Sharma and Shrikanth Narayanan(参考訳) ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。 このような対面関係を導出するための2つの主要な情報源は 一 視覚活動及びその音声信号との相互作用 二 顔及び話し言葉の形式における様相をまたいだ話者のアイデンティティの共起 音声・視覚活動モデルと笑い・噛みなどの頻繁な発声活動とが混同されるのに対し、話者のアイデンティティに基づく手法は、音声と顔の関連を確立するのに十分な曖昧な情報を持つビデオに限られる。 2つのアプローチは独立であるため、本研究における相補的な性質について検討する。 本稿では,アクティブな話者検出のための音声・視覚活動と話者のクロスモーダルアイデンティティを関連づける新しい非教師付きフレームワークを提案する。 ava active speaker (movies) と visual person clustering dataset (tv shows) という2つのベンチマークデータセットからのエンタテインメントメディアビデオ実験を通じて,この2つのアプローチの簡易な遅延融合により,アクティブな話者検出性能が向上することを示す。

Active speaker detection in videos addresses associating a source face, visible in the video frames, with the underlying speech in the audio modality. The two primary sources of information to derive such a speech-face relationship are i) visual activity and its interaction with the speech signal and ii) co-occurrences of speakers' identities across modalities in the form of face and speech. The two approaches have their limitations: the audio-visual activity models get confused with other frequently occurring vocal activities, such as laughing and chewing, while the speakers' identity-based methods are limited to videos having enough disambiguating information to establish a speech-face association. Since the two approaches are independent, we investigate their complementary nature in this work. We propose a novel unsupervised framework to guide the speakers' cross-modal identity association with the audio-visual activity for active speaker detection. Through experiments on entertainment media videos from two benchmark datasets, the AVA active speaker (movies) and Visual Person Clustering Dataset (TV shows), we show that a simple late fusion of the two approaches enhances the active speaker detection performance.
翻訳日:2022-12-02 17:06:10 公開日:2022-12-01
# 説明可能な深層学習を用いた色眼底画像におけるAMD関連病変の検出

Weakly-supervised detection of AMD-related lesions in color fundus images using explainable deep learning ( http://arxiv.org/abs/2212.00565v1 )

ライセンス: Link先を確認
Jos\'e Morano, \'Alvaro S. Hervella, Jos\'e Rouco, Jorge Novo, Jos\'e I. Fern\'andez-Vigo, Marcos Ortega(参考訳) 加齢関連黄斑変性 (AMD) は、網膜の視力にとって重要な領域である黄斑に影響を及ぼす変性疾患である。 現在では、先進国で最も頻繁な盲目の原因となっている。 有望な治療法がいくつか開発されているが、その有効性は進行段階において低い。 これは大規模なスクリーニングプログラムの重要性を強調している。 それにもかかわらず、AMDのこのようなプログラムの実装は、リスクの高い人口が大きく、診断が難しいため、通常は不可能である。 これらすべてが自動手法の開発を動機付けている。 この意味で、畳み込みニューラルネットワーク(CNN)を用いたAMD診断では、いくつかの研究が肯定的な結果を得た。 しかし、説明可能性のメカニズムは組み込まれておらず、臨床での使用を制限する。 そこで本研究では,関連網膜病変の同時同定によるAMD診断のための説明可能な深層学習手法を提案する。 本提案では,画像レベルラベルを用いた共同作業に対して,CNNをエンドツーエンドで訓練する。 得られた病変情報は、AMDの発達段階を評価することができるため、臨床的に興味深い。 さらに、このアプローチは、同定された病変からの診断を説明できる。 これは、病変と診断を関連付けるカスタム設定を備えたCNNを使用することで可能になる。 さらに, 提案手法により, 粗い病変のセグメンテーションマップを弱教師付きで取得し, さらに説明可能性を向上させることができる。 このアプローチのトレーニングデータは、臨床医が余計な作業をすることなく得られる。 実験では,amdとその関連病変を良好に同定し,最も一般的な病変に対して十分な粗粒分画マップを提供することができた。

Age-related macular degeneration (AMD) is a degenerative disorder affecting the macula, a key area of the retina for visual acuity. Nowadays, it is the most frequent cause of blindness in developed countries. Although some promising treatments have been developed, their effectiveness is low in advanced stages. This emphasizes the importance of large-scale screening programs. Nevertheless, implementing such programs for AMD is usually unfeasible, since the population at risk is large and the diagnosis is challenging. All this motivates the development of automatic methods. In this sense, several works have achieved positive results for AMD diagnosis using convolutional neural networks (CNNs). However, none incorporates explainability mechanisms, which limits their use in clinical practice. In that regard, we propose an explainable deep learning approach for the diagnosis of AMD via the joint identification of its associated retinal lesions. In our proposal, a CNN is trained end-to-end for the joint task using image-level labels. The provided lesion information is of clinical interest, as it allows to assess the developmental stage of AMD. Additionally, the approach allows to explain the diagnosis from the identified lesions. This is possible thanks to the use of a CNN with a custom setting that links the lesions and the diagnosis. Furthermore, the proposed setting also allows to obtain coarse lesion segmentation maps in a weakly-supervised way, further improving the explainability. The training data for the approach can be obtained without much extra work by clinicians. The experiments conducted demonstrate that our approach can identify AMD and its associated lesions satisfactorily, while providing adequate coarse segmentation maps for most common lesions.
翻訳日:2022-12-02 17:05:49 公開日:2022-12-01
# AIサッカー環境におけるDQNを用いたキックモーショントレーニング

Kick-motion Training with DQN in AI Soccer Environment ( http://arxiv.org/abs/2212.00389v1 )

ライセンス: Link先を確認
Bumgeun Park, Jihui Lee, Taeyoung Kim, Dongsoo Har(参考訳) 本稿では,強化学習(RL)を用いて,AIサッカーでキックモーションを行うロボットを訓練する手法を提案する。 RLでは、エージェントが環境と相互作用し、各ステップで状態のアクションを選択することを学ぶ。 RLアルゴリズムをトレーニングする場合、状態の次元が高く、トレーニングデータの数が低い場合には、次元性の呪い(COD)と呼ばれる問題が発生する。 CODはしばしばRLモデルの劣化性能を引き起こす。 ボールを蹴るロボットの状況では、ボールがロボットに近づくと、サッカー場から得た情報に基づいてアクションを選択する。 codに苦しまないために、rlの場合の経験であるトレーニングデータは、サッカー場のすべての領域から(理論上は無限の)時間にわたって均等に収集されるべきである。 本稿では,相対座標系(RCS)を絶対座標系(ACS)の代わりにロボットエージェントのキックモーションを訓練するための状態として利用する。 RCSを使用することで、エージェントがサッカー場全体の(状態)情報を全て知る必要がなくなり、エージェントがキックモーションを実行するために知る必要がある状態の次元が減少し、結果としてCODが軽減される。 RCSに基づくトレーニングは、広く使われているディープQネットワーク(DQN)を用いて行われ、Webotsシミュレーションソフトウェアで実装されたAIサッカー環境でテストされる。

This paper presents a technique to train a robot to perform kick-motion in AI soccer by using reinforcement learning (RL). In RL, an agent interacts with an environment and learns to choose an action in a state at each step. When training RL algorithms, a problem called the curse of dimensionality (COD) can occur if the dimension of the state is high and the number of training data is low. The COD often causes degraded performance of RL models. In the situation of the robot kicking the ball, as the ball approaches the robot, the robot chooses the action based on the information obtained from the soccer field. In order not to suffer COD, the training data, which are experiences in the case of RL, should be collected evenly from all areas of the soccer field over (theoretically infinite) time. In this paper, we attempt to use the relative coordinate system (RCS) as the state for training kick-motion of robot agent, instead of using the absolute coordinate system (ACS). Using the RCS eliminates the necessity for the agent to know all the (state) information of entire soccer field and reduces the dimension of the state that the agent needs to know to perform kick-motion, and consequently alleviates COD. The training based on the RCS is performed with the widely used Deep Q-network (DQN) and tested in the AI Soccer environment implemented with Webots simulation software.
翻訳日:2022-12-02 17:00:02 公開日:2022-12-01
# CL4CTR: CTR予測のための比較学習フレームワーク

CL4CTR: A Contrastive Learning Framework for CTR Prediction ( http://arxiv.org/abs/2212.00522v1 )

ライセンス: Link先を確認
Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu(参考訳) 多くのクリックスルーレート(CTR)予測は、複雑な特徴相互作用をモデル化する高度なアーキテクチャの設計に重点を置いているが、特徴表現学習の重要性を無視している。 例えば、多くのCTRタスクで機能の大部分を占める低周波機能は、標準的な教師付き学習設定では考慮されないため、準最適特徴表現につながる。 本稿では,高品質な特徴表現を直接生成するために自己教師あり学習を導入するとともに,特徴表現学習を定式化する3つの自己教師あり学習信号からなるctr(cl4ctr)フレームワークのためのモデル非依存コントラスト学習を提案する。 コントラストモジュールは、まずデータ拡張により正の特徴対を構成し、その後、コントラスト損失により各正の特徴対の表現間の距離を最小化する。 特徴のアライメントの制約は同一のフィールドから特徴の表現を近いものにし、フィールドの統一性制約は異なるフィールドから特徴の表現を遠ざけることを強いる。 大規模な実験により、CL4CTRは4つのデータセット上で最高のパフォーマンスを達成し、様々な代表的ベースラインとの互換性に優れていた。

Many Click-Through Rate (CTR) prediction works focused on designing advanced architectures to model complex feature interactions but neglected the importance of feature representation learning, e.g., adopting a plain embedding layer for each feature, which results in sub-optimal feature representations and thus inferior CTR prediction performance. For instance, low frequency features, which account for the majority of features in many CTR tasks, are less considered in standard supervised learning settings, leading to sub-optimal feature representations. In this paper, we introduce self-supervised learning to produce high-quality feature representations directly and propose a model-agnostic Contrastive Learning for CTR (CL4CTR) framework consisting of three self-supervised learning signals to regularize the feature representation learning: contrastive loss, feature alignment, and field uniformity. The contrastive module first constructs positive feature pairs by data augmentation and then minimizes the distance between the representations of each positive feature pair by the contrastive loss. The feature alignment constraint forces the representations of features from the same field to be close, and the field uniformity constraint forces the representations of features from different fields to be distant. Extensive experiments verify that CL4CTR achieves the best performance on four datasets and has excellent effectiveness and compatibility with various representative baselines.
翻訳日:2022-12-02 16:59:40 公開日:2022-12-01
# EURO: ESPnet による教師なし ASR オープンソースツールキット

EURO: ESPnet Unsupervised ASR Open-source Toolkit ( http://arxiv.org/abs/2211.17196v2 )

ライセンス: Link先を確認
Dongji Gao and Jiatong Shi and Shun-Po Chuang and Leibny Paola Garcia and Hung-yi Lee and Shinji Watanabe and Sanjeev Khudanpur(参考訳) 本稿では、教師なし自動音声認識(UASR)のためのエンドツーエンドオープンソースツールキットであるESPnet Unsupervised ASR Open-source Toolkit(EURO)について述べる。 EUROは、Wav2vec-Uによって導入された最先端のUASR学習手法を採用しており、当初はFAIRSEQで実装されていた。 wav2vec2に加えて、EUROは機能を拡張し、S3PRLとk2を統合することでUASRタスクの再現性を促進する。 EUROはESPnetで実装され、統一パイプラインに従ってUASRレシピを完全なセットアップで提供する。 これによりパイプラインの効率が向上し、espnetの既存のデータセットにユーロを簡単に適用できるようになる。 3つの主流な自己教師型モデルに対する大規模な実験は、TIMITおよびLibriSpeechデータセット上でツールキットの有効性を示し、最先端のUASR性能を実現する。 EUROはhttps://github.com/espnet/espnetで公開され、オープンソース活動を通じてUASRに基づくこのエキサイティングで新興の研究領域を促進することを目的としている。

This paper describes the ESPnet Unsupervised ASR Open-source Toolkit (EURO), an end-to-end open-source toolkit for unsupervised automatic speech recognition (UASR). EURO adopts the state-of-the-art UASR learning method introduced by the Wav2vec-U, originally implemented at FAIRSEQ, which leverages self-supervised speech representations and adversarial training. In addition to wav2vec2, EURO extends the functionality and promotes reproducibility for UASR tasks by integrating S3PRL and k2, resulting in flexible frontends from 27 self-supervised models and various graph-based decoding strategies. EURO is implemented in ESPnet and follows its unified pipeline to provide UASR recipes with a complete setup. This improves the pipeline's efficiency and allows EURO to be easily applied to existing datasets in ESPnet. Extensive experiments on three mainstream self-supervised models demonstrate the toolkit's effectiveness and achieve state-of-the-art UASR performance on TIMIT and LibriSpeech datasets. EURO will be publicly available at https://github.com/espnet/espnet, aiming to promote this exciting and emerging research area based on UASR through open-source activity.
翻訳日:2022-12-02 16:58:00 公開日:2022-12-01
# 自然言語処理によるメディアバイアスとコンテンツ品質の推定

Inference of Media Bias and Content Quality Using Natural-Language Processing ( http://arxiv.org/abs/2212.00237v1 )

ライセンス: Link先を確認
Zehan Chao, Denali Molitor, Deanna Needell, and Mason A. Porter(参考訳) メディアバイアスは、集団における意見や感情の形成と発展に大きな影響を与える可能性がある。 したがって、パルチザンメディアの出現と発展と政治的分極を研究することが重要である。 しかし,メディアのイデオロギー的立場を定量的に推測することは困難である。 本稿では,テキストからメディアの政治的バイアスとコンテンツ品質の両方を推測する定量的な枠組みを提案し,実世界データを用いた実証実験により,このフレームワークについて述べる。 双方向長短期記憶(LSTM)ニューラルネットワークを100万以上のツイートのデータセットに適用し、各ツイートに対して2次元イデオロギーバイアスとコンテンツ品質測定を生成する。 次に、メディアメディアのつぶやきの(バイアス、品質)測定を統合することで、メディアメディアに対して「メディアバイアスチャート」の座標(バイアス、品質)を推測する。 また,各ツイートのバイアスと品質値を推定するために,naive-bayes法や support-vector machine (svm) など,さまざまなベースライン機械学習手法を適用した。 これらのベースラインアプローチはすべて、backer-of-wordsアプローチに基づいている。 LSTM-networkアプローチは,本手法の最適性能を示す。 本研究は,テキスト解析における機械学習手法における単語順の活用の重要性を示す。

Media bias can significantly impact the formation and development of opinions and sentiments in a population. It is thus important to study the emergence and development of partisan media and political polarization. However, it is challenging to quantitatively infer the ideological positions of media outlets. In this paper, we present a quantitative framework to infer both political bias and content quality of media outlets from text, and we illustrate this framework with empirical experiments with real-world data. We apply a bidirectional long short-term memory (LSTM) neural network to a data set of more than 1 million tweets to generate a two-dimensional ideological-bias and content-quality measurement for each tweet. We then infer a ``media-bias chart'' of (bias, quality) coordinates for the media outlets by integrating the (bias, quality) measurements of the tweets of the media outlets. We also apply a variety of baseline machine-learning methods, such as a naive-Bayes method and a support-vector machine (SVM), to infer the bias and quality values for each tweet. All of these baseline approaches are based on a bag-of-words approach. We find that the LSTM-network approach has the best performance of the examined methods. Our results illustrate the importance of leveraging word order into machine-learning methods in text analysis.
翻訳日:2022-12-02 16:57:35 公開日:2022-12-01
# 話者認識のための雑音ラベル検出

Noisy Label Detection for Speaker Recognition ( http://arxiv.org/abs/2212.00239v1 )

ライセンス: Link先を確認
Ruibin Yuan, Hanzhi Yin, Yi Wang, Yifan He, Yushi Ye, Lei Zhang(参考訳) ディープニューラルネットワークの成功には、高いアノテーション品質と膨大なデータが必要である。 しかし、データセットのサイズと品質は通常、データ収集とクリーニングが高価で時間がかかるため、トレードオフとなる。 したがって,特にクラウドソーシングデータセットを用いた場合,NLD(Automatic Noisy label Detection)技術は実世界のアプリケーションにとって重要となる。 自動話者照合(automated speaker verification:asv)では,この問題に対する単純かつ効果的な解決法を提案する。 まず,様々な騒音環境におけるメトリクス学習損失関数の有効性を比較検討した。 そこで我々は,クラス間不整合とクラス内不整合ランキングの2つのランキングベースNLD手法を提案する。 ノイズラベルの一貫性に欠ける性質を利用し,高レベルの雑音下においても高い検出精度を示す。 我々のソリューションは、大規模話者認識データセットの効率的かつ効果的なクリーニングをもたらす。

The success of deep neural networks requires both high annotation quality and massive data. However, the size and the quality of a dataset are usually a trade-off in practice, as data collection and cleaning are expensive and time-consuming. Therefore, automatic noisy label detection (NLD) techniques are critical to real-world applications, especially those using crowdsourcing datasets. As this is an under-explored topic in automatic speaker verification (ASV), we present a simple but effective solution to the task. First, we compare the effectiveness of various commonly used metric learning loss functions under different noise settings. Then, we propose two ranking-based NLD methods, inter-class inconsistency and intra-class inconsistency ranking. They leverage the inconsistent nature of noisy labels and show high detection precision even under a high level of noise. Our solution gives rise to both efficient and effective cleaning of large-scale speaker recognition datasets.
翻訳日:2022-12-02 16:57:15 公開日:2022-12-01
# 距離に基づく特徴量を用いたGPS軌道データのクラスタリングと解析

Clustering and Analysis of GPS Trajectory Data using Distance-based Features ( http://arxiv.org/abs/2212.00206v1 )

ライセンス: Link先を確認
Zann Koh, Yuren Zhou, Billy Pik Lik Lau, Ran Liu, Keng Hua Chong, Chau Yuen(参考訳) スマートフォンの普及は、利用可能なモビリティデータの種類と量を大きく増やすことで、モビリティ研究を加速させている。 このようなモビリティデータの源の1つはGPS技術であり、それがますます普及し、研究コミュニティが人々のモビリティパターンを理解するのに役立つ。 しかし、機械学習手法を使用して、ワークデイとオフデイの非職場、非在宅ユーザーによるさまざまなモビリティパターンを研究するための標準化されたフレームワークが欠けている。 本稿では,新しい移動度指標,日毎特性距離を提案し,その特徴を原点-運命行列の特徴と合わせてユーザ毎に生成する。 次に、これらの機能を教師なしの機械学習メソッド、$k$-meansクラスタリングで使用し、一日(作業日と休日)ごとに3つのユーザクラスタを取得します。 最後に,クラスタリング結果の分析のために,ユーザの共通性と平均頻度という2つの新しい指標を提案する。 提案するメトリクスを使用することで、興味深いユーザの振る舞いを識別でき、ユーザのモビリティパターンをより理解する上で役立ちます。

The proliferation of smartphones has accelerated mobility studies by largely increasing the type and volume of mobility data available. One such source of mobility data is from GPS technology, which is becoming increasingly common and helps the research community understand mobility patterns of people. However, there lacks a standardized framework for studying the different mobility patterns created by the non-Work, non-Home locations of Working and Nonworking users on Workdays and Offdays using machine learning methods. We propose a new mobility metric, Daily Characteristic Distance, and use it to generate features for each user together with Origin-Destination matrix features. We then use those features with an unsupervised machine learning method, $k$-means clustering, and obtain three clusters of users for each type of day (Workday and Offday). Finally, we propose two new metrics for the analysis of the clustering results, namely User Commonality and Average Frequency. By using the proposed metrics, interesting user behaviors can be discerned and it helps us to better understand the mobility patterns of the users.
翻訳日:2022-12-02 16:50:37 公開日:2022-12-01
# ODPP:決定点プロセスに基づく教師なしオプション発見のための統一アルゴリズムフレームワーク

ODPP: A Unified Algorithm Framework for Unsupervised Option Discovery based on Determinantal Point Process ( http://arxiv.org/abs/2212.00211v1 )

ライセンス: Link先を確認
Jiayu Chen, Vaneet Aggarwal, Tian Lan(参考訳) 外部報酬の監督なしに時間的抽象化を通じて豊かなスキルを学ぶことは、強化学習研究の最前線にある。 既存の作品は主に変分とラプラシアンに基づくオプション発見という2つの異なるカテゴリーに分類される。 前者は相互情報損失によって発見された選択肢の多様性を最大化するが、州空間の範囲を見落とし、後者は探検中に接続性を高めてオプションの範囲を改善することに注力するが、多様性は考慮しない。 本稿では,dpp(decisionantal point process)を新規に利用し,両目的を明示的に最適化した非教師なしオプション発見を可能にする統一フレームワークを提案する。 具体的には、状態遷移グラフのラプラシアンスペクトルを持つdppカーネル行列を定義し、軌道上の期待モード番号を、学習されたオプションの多様性と範囲をキャプチャし、拡張する目的とする。 提案するオプション探索アルゴリズムは,MujocoとAtariで構築した課題を用いて広範に評価され,提案アルゴリズムは多様性とカバレッジ駆動のカテゴリからSOTAベースラインを大幅に上回ることを示した。 コードはhttps://github.com/lucascjysdl/odppで入手できる。

Learning rich skills through temporal abstractions without supervision of external rewards is at the frontier of Reinforcement Learning research. Existing works mainly fall into two distinctive categories: variational and Laplacian-based option discovery. The former maximizes the diversity of the discovered options through a mutual information loss but overlooks coverage of the state space, while the latter focuses on improving the coverage of options by increasing connectivity during exploration, but does not consider diversity. In this paper, we propose a unified framework that quantifies diversity and coverage through a novel use of the Determinantal Point Process (DPP) and enables unsupervised option discovery explicitly optimizing both objectives. Specifically, we define the DPP kernel matrix with the Laplacian spectrum of the state transition graph and use the expected mode number in the trajectories as the objective to capture and enhance both diversity and coverage of the learned options. The proposed option discovery algorithm is extensively evaluated using challenging tasks built with Mujoco and Atari, demonstrating that our proposed algorithm substantially outperforms SOTA baselines from both diversity- and coverage-driven categories. The codes are available at https://github.com/LucasCJYSDL/ODPP.
翻訳日:2022-12-02 16:50:17 公開日:2022-12-01
# タスク発見:ニューラルネットワークが一般化するタスクを見つける

Task Discovery: Finding the Tasks that Neural Networks Generalize on ( http://arxiv.org/abs/2212.00261v1 )

ライセンス: Link先を確認
Andrei Atanov, Andrei Filatov, Teresa Yeo, Ajay Sohmshetty, Amir Zamir(参考訳) ディープラーニングモデルを開発するとき、私たちは通常、どのタスクを解決したいかを決め、タスクをうまく一般化するモデルを探します。 興味深い疑問は、もしタスクを修正してモデル空間で検索する代わりに、モデルを修正してタスク空間で検索するとしたら? モデルが一般化するタスクを見つけることはできますか? どのように見えるのか、それとも何かを示すのか? これらの質問は、この論文で取り上げています。 本稿では,合意スコアと呼ばれる一般化に基づく量を最適化することで,タスクの例を自動的に発見するタスク発見フレームワークを提案する。 ニューラルネットワークが一般化する多くのタスクを、ひとつのイメージセットが生み出すことができることを実証する。 これらのタスクは、学習フレームワークの帰納的バイアスとデータに存在する統計的パターンを反映しているため、ニューラルネットワークとそのバイアスを分析するのに有用なツールとなる。 例えば、検出されたタスクは、ピクセルやラベルを変更することなく、テスト時にモデルが失敗するような、反対のトレインテスト分割を自動的に作成するために使用できるが、データポイントをトレインとテストセットの間でどのように分割すべきかを選択するだけでよい。 最後に,発見タスクのヒューマンコンタラクタビリティに関する議論を行う。

When developing deep learning models, we usually decide what task we want to solve then search for a model that generalizes well on the task. An intriguing question would be: what if, instead of fixing the task and searching in the model space, we fix the model and search in the task space? Can we find tasks that the model generalizes on? How do they look, or do they indicate anything? These are the questions we address in this paper. We propose a task discovery framework that automatically finds examples of such tasks via optimizing a generalization-based quantity called agreement score. We demonstrate that one set of images can give rise to many tasks on which neural networks generalize well. These tasks are a reflection of the inductive biases of the learning framework and the statistical patterns present in the data, thus they can make a useful tool for analysing the neural networks and their biases. As an example, we show that the discovered tasks can be used to automatically create adversarial train-test splits which make a model fail at test time, without changing the pixels or labels, but by only selecting how the datapoints should be split between the train and test sets. We end with a discussion on human-interpretability of the discovered tasks.
翻訳日:2022-12-02 16:49:56 公開日:2022-12-01
# ニューラルネットワークの動作性に及ぼすデータ次元の影響

The Effect of Data Dimensionality on Neural Network Prunability ( http://arxiv.org/abs/2212.00291v1 )

ライセンス: Link先を確認
Zachary Ankner, Alex Renda, Gintare Karolina Dziugaite, Jonathan Frankle, Tian Jin(参考訳) 効率向上と一般化のためにニューラルネットワークをプルーニングするが、モデルのテスト精度を損なうことなく、プルーニングが除去できる最大重みの比率をニューラルネットワークのプルーナビリティを決定する要因を精査する人は少ない。 本研究では,ニューラルネットワークのプルーナビリティに寄与する可能性のある入力データの特性について検討する。 画像、テキスト、音声といった高次元の入力データに対して、多様体仮説は、これらの高次元の入力が概ね低次元の多様体上またはその近くに存在することを示唆する。 先行研究は、入力データの下位の低次元構造が学習のサンプル効率に影響を及ぼすことを示した。 本稿では,入力データの低次元構造がニューラルネットワークのプルーナビリティに与える影響について検討する。

Practitioners prune neural networks for efficiency gains and generalization improvements, but few scrutinize the factors determining the prunability of a neural network the maximum fraction of weights that pruning can remove without compromising the model's test accuracy. In this work, we study the properties of input data that may contribute to the prunability of a neural network. For high dimensional input data such as images, text, and audio, the manifold hypothesis suggests that these high dimensional inputs approximately lie on or near a significantly lower dimensional manifold. Prior work demonstrates that the underlying low dimensional structure of the input data may affect the sample efficiency of learning. In this paper, we investigate whether the low dimensional structure of the input data affects the prunability of a neural network.
翻訳日:2022-12-02 16:49:40 公開日:2022-12-01
# なぜ条件生成モデルが無条件モデルより優れているのか?

Why Are Conditional Generative Models Better Than Unconditional Ones? ( http://arxiv.org/abs/2212.00362v1 )

ライセンス: Link先を確認
Fan Bao, Chongxuan Li, Jiacheng Sun, Jun Zhu(参考訳) 広範な実証的証拠は、条件付き生成モデルがデータラベルを利用することにより、無条件モデルよりも訓練が容易で、より優れた性能を示す。 スコアベースの拡散モデルも必要です。 本稿では,この現象を解析し,条件学習の鍵はデータを適切に分割することであることを示す。 そこで本研究では,k-meansアルゴリズムによりクラスタリングされた指標に基づいて,事前学習したモデルによって抽出された特徴に基づいて,自己条件付き拡散モデル(SCDM)を提案する。 SCDMは様々なデータセットの無条件モデルを大幅に改善し、ラベルなしでImageNet 64x64で3.94のFIDを記録破りに達成している。 さらに、SCDMはCIFAR10の対応する条件モデルよりも若干良いFIDを達成する。

Extensive empirical evidence demonstrates that conditional generative models are easier to train and perform better than unconditional ones by exploiting the labels of data. So do score-based diffusion models. In this paper, we analyze the phenomenon formally and identify that the key of conditional learning is to partition the data properly. Inspired by the analyses, we propose self-conditioned diffusion models (SCDM), which is trained conditioned on indices clustered by the k-means algorithm on the features extracted by a model pre-trained in a self-supervised manner. SCDM significantly improves the unconditional model across various datasets and achieves a record-breaking FID of 3.94 on ImageNet 64x64 without labels. Besides, SCDM achieves a slightly better FID than the corresponding conditional model on CIFAR10.
翻訳日:2022-12-02 16:49:26 公開日:2022-12-01
# granngan氏:グラフアノテーション生成広告ネットワーク

GrannGAN: Graph annotation generative adversarial networks ( http://arxiv.org/abs/2212.00449v1 )

ライセンス: Link先を確認
Yoann Boget and Magda Gregorova and Alexandros Kalousis(参考訳) 我々は,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成するという問題を考察する。 提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。 第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。 我々は,GAN(Generative Adversarial Network)による暗黙分布モデリングと,ノードとエッジの集合上で動作する置換同変メッセージパッシングアーキテクチャを併用した戦略に従う。 これにより、1つのGo(2フェーズ)における全てのグラフオブジェクトの特徴ベクトルを、より遅い1世代ずつのシーケンシャルモデルとは対照的に生成することができ、確率ベースの生成モデルに通常必要とされる高価なグラフマッチング手順の必要性を回避し、グラフ表現における特定のノードの順序に敏感なネットワークキャパシティを効率的に利用することができる。 我々の知る限り、この手法は、ユーザが指定した構造を持つ注釈付きグラフを世代別作成できるグラフスケルトンに沿って特徴分布をモデル化する最初の方法である。 本実験は,3つのアノテートグラフデータセットの定量的評価により,複雑な構造分布を学習する能力を示す。

We consider the problem of modelling high-dimensional distributions and generating new examples of data with complex relational feature structure coherent with a graph skeleton. The model we propose tackles the problem of generating the data features constrained by the specific graph structure of each data point by splitting the task into two phases. In the first it models the distribution of features associated with the nodes of the given graph, in the second it complements the edge features conditionally on the node features. We follow the strategy of implicit distribution modelling via generative adversarial network (GAN) combined with permutation equivariant message passing architecture operating over the sets of nodes and edges. This enables generating the feature vectors of all the graph objects in one go (in 2 phases) as opposed to a much slower one-by-one generations of sequential models, prevents the need for expensive graph matching procedures usually needed for likelihood-based generative models, and uses efficiently the network capacity by being insensitive to the particular node ordering in the graph representation. To the best of our knowledge, this is the first method that models the feature distribution along the graph skeleton allowing for generations of annotated graphs with user specified structures. Our experiments demonstrate the ability of our model to learn complex structured distributions through quantitative evaluation over three annotated graph datasets.
翻訳日:2022-12-02 16:49:11 公開日:2022-12-01
# 拡張ビューを用いたマルチスケールコントラスト学習ネットワークによるグラフ異常検出

Graph Anomaly Detection via Multi-Scale Contrastive Learning Networks with Augmented View ( http://arxiv.org/abs/2212.00535v1 )

ライセンス: Link先を確認
Jingcan Duan, Siwei Wang, Pei Zhang, En Zhu, Jingtao Hu, Hu Jin, Yue Liu, Zhibin Dong(参考訳) グラフ異常検出(GAD)は、グラフベースの機械学習において重要なタスクであり、多くの現実世界のアプリケーションに広く応用されている。 GADの主な目標は、グラフデータセットから異常ノードをキャプチャすることであり、これは明らかにほとんどのノードから逸脱している。 最近の手法は、GAD、すなわちノード-サブグラフとノード-ノードコントラストの様々なコントラスト戦略に注意を払っている。 しかし、通常のサブグラフ対と異常なサブグラフ対がGADの埋め込みや構造において異なる振る舞いをするサブグラフ-サブグラフ比較情報を無視し、サブ最適タスク性能をもたらす。 本稿では,提案するマルチビューマルチスケールコントラスト学習フレームワークにおいて,まず,サブグラフとサブグラフのコントラストを併用した上で,上記の考え方を実現する。 具体的には、元の入力グラフを第1のビューとみなし、エッジ修正によるグラフ拡張による第2のビューを生成する。 サブグラフ対の類似性を最大化するためのガイダンスにより、提案したサブグラフ-サブグラフコントラストは、構造の変化にもかかわらずより堅牢なサブグラフ埋め込みに寄与する。 さらに,提案したサブグラフ・サブグラフのコントラストは,GAD性能向上のためのノード・サブグラフとノード・ノード・コントラストのコントラストとよく一致している。 また,様々なグラフ拡張手法が検出性能に与える影響について十分な実験を行った。 総合的な実験結果から,本手法の最先端手法との比較と,GADタスクに対する多視点サブグラフペアコントラスト戦略の有効性が明らかとなった。

Graph anomaly detection (GAD) is a vital task in graph-based machine learning and has been widely applied in many real-world applications. The primary goal of GAD is to capture anomalous nodes from graph datasets, which evidently deviate from the majority of nodes. Recent methods have paid attention to various scales of contrastive strategies for GAD, i.e., node-subgraph and node-node contrasts. However, they neglect the subgraph-subgraph comparison information which the normal and abnormal subgraph pairs behave differently in terms of embeddings and structures in GAD, resulting in sub-optimal task performance. In this paper, we fulfill the above idea in the proposed multi-view multi-scale contrastive learning framework with subgraph-subgraph contrast for the first practice. To be specific, we regard the original input graph as the first view and generate the second view by graph augmentation with edge modifications. With the guidance of maximizing the similarity of the subgraph pairs, the proposed subgraph-subgraph contrast contributes to more robust subgraph embeddings despite of the structure variation. Moreover, the introduced subgraph-subgraph contrast cooperates well with the widely-adopted node-subgraph and node-node contrastive counterparts for mutual GAD performance promotions. Besides, we also conduct sufficient experiments to investigate the impact of different graph augmentation approaches on detection performance. The comprehensive experimental results well demonstrate the superiority of our method compared with the state-of-the-art approaches and the effectiveness of the multi-view subgraph pair contrastive strategy for the GAD task.
翻訳日:2022-12-02 16:48:49 公開日:2022-12-01
# 時間変化に直面した死亡予測のためのディープカーネル学習

Deep Kernel Learning for Mortality Prediction in the Face of Temporal Shift ( http://arxiv.org/abs/2212.00557v1 )

ライセンス: Link先を確認
Miguel Rios, Ameen Abu-Hanna(参考訳) ニューラルモデルは、新しい表現を提供する能力を持ち、医療における予測タスクの有望な結果を示している。 しかし、患者の人口統計、医療技術、医療の質は時間とともに変化する。 これはしばしば、特にその校正の観点から、将来の患者に対する神経モデルの性能を低下させる。 ディープカーネル学習(DKL)フレームワークは、予測の不確実性を認識したニューラルモデルとガウス過程を組み合わせることで、このような変化に対して堅牢である可能性がある。 我々の仮説は、分布外テストポイントは世界平均に近い確率をもたらすため、自信過剰な予測を防止できるというものである。 これにより、予測データのキャリブレーションが向上する、と我々は仮説を立てている。 本稿では,コホートデータベースを供給する情報システムが変更されると,dklが時間的変化に直面する場合の行動について検討する。 我々は,dklの性能を,再帰的ニューラルネットワークに基づくニューラルネットワークのベースラインと比較する。 DKLは確かに優れたキャリブレーション予測を導出した。 また、DKLの予測が実際あまり鋭くなかったことも確認した。 さらに、DKLの識別能力はさらに改善され、AUCは0.746 (+- 0.014 std)、ベースラインは0.739 (+- 0.028 std)であった。 この論文は、ニューラルコンピューティングにおける不確実性を含むことの重要性を実証した。

Neural models, with their ability to provide novel representations, have shown promising results in prediction tasks in healthcare. However, patient demographics, medical technology, and quality of care change over time. This often leads to drop in the performance of neural models for prospective patients, especially in terms of their calibration. The deep kernel learning (DKL) framework may be robust to such changes as it combines neural models with Gaussian processes, which are aware of prediction uncertainty. Our hypothesis is that out-of-distribution test points will result in probabilities closer to the global mean and hence prevent overconfident predictions. This in turn, we hypothesise, will result in better calibration on prospective data. This paper investigates DKL's behaviour when facing a temporal shift, which was naturally introduced when an information system that feeds a cohort database was changed. We compare DKL's performance to that of a neural baseline based on recurrent neural networks. We show that DKL indeed produced superior calibrated predictions. We also confirm that the DKL's predictions were indeed less sharp. In addition, DKL's discrimination ability was even improved: its AUC was 0.746 (+- 0.014 std), compared to 0.739 (+- 0.028 std) for the baseline. The paper demonstrated the importance of including uncertainty in neural computing, especially for their prospective use.
翻訳日:2022-12-02 16:48:21 公開日:2022-12-01
# 一様対不確実性サンプリング:アクティブな場合、受動的にとどまるより効率が低い

Uniform versus uncertainty sampling: When being active is less efficient than staying passive ( http://arxiv.org/abs/2212.00772v1 )

ライセンス: Link先を確認
Alexandru Tifrea, Jacob Clarysse, Fanny Yang(参考訳) 同じラベル付け予算から、不確実性サンプリングのようなアクティブな学習アルゴリズムは、計算コストが高いにもかかわらず、受動的学習(一様サンプリング)よりも予測性能が良いと広く信じられている。 最近の実証的な証拠は、不確実性サンプリングが受動的学習よりもさらに悪い結果をもたらすことがあるため、この追加コストが無駄である可能性を示唆している。 既存の研究は低次元環境において異なる説明を提供するが、基礎となるメカニズムは高次元において全く異なることを証明している: パッシブ学習がノイズのないデータにおいても不確実性サンプリングよりも優れており、ベイズ最適分類器の不確実性を使用している場合、不確実性サンプリングよりも優れていることを証明する。 この証明からの洞察は、クラス間の分離が小さいと、この高次元現象が悪化することを示している。 この直感は、ファイナンスや組織学、化学、コンピュータビジョンなど、さまざまな応用にまたがる20の高次元データセットの実験と相関する。

It is widely believed that given the same labeling budget, active learning algorithms like uncertainty sampling achieve better predictive performance than passive learning (i.e. uniform sampling), albeit at a higher computational cost. Recent empirical evidence suggests that this added cost might be in vain, as uncertainty sampling can sometimes perform even worse than passive learning. While existing works offer different explanations in the low-dimensional regime, this paper shows that the underlying mechanism is entirely different in high dimensions: we prove for logistic regression that passive learning outperforms uncertainty sampling even for noiseless data and when using the uncertainty of the Bayes optimal classifier. Insights from our proof indicate that this high-dimensional phenomenon is exacerbated when the separation between the classes is small. We corroborate this intuition with experiments on 20 high-dimensional datasets spanning a diverse range of applications, from finance and histology to chemistry and computer vision.
翻訳日:2022-12-02 16:47:59 公開日:2022-12-01
# マスキングによる言語画像事前学習のスケーリング

Scaling Language-Image Pre-training via Masking ( http://arxiv.org/abs/2212.00794v1 )

ライセンス: Link先を確認
Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming He(参考訳) CLIPの簡易かつ効率的な訓練法であるFLIP(Fast Language- Image Pre-training)を提案する。 本手法は,トレーニング中の画像パッチの大部分をランダムにマスクアウトし,除去する。 マスキングによって、同じウォールクロック時間でより多くの画像テキストペアから学ぶことができ、同じメモリフットプリントで、イテレーション毎により多くのサンプルをコントラストできる。 正確さとトレーニング時間の間の良好なトレードオフにつながります。 4億の画像テキストペアに対する実験では、FLIPは非マスキングベースラインよりも精度と速度を向上する。 下流タスクの多様さにおいて、FLIPは同じデータでトレーニングされたCLIPタスクよりも圧倒的に優れています。 スピードアップに特化して、モデルサイズ、データサイズ、トレーニング長の増大によるスケーリングの挙動を調査し、奨励的な結果と比較を報告する。 私たちの研究が視覚言語学習のスケーリングに関する将来の研究を促進することを期待しています。

We present Fast Language-Image Pre-training (FLIP), a simple and more efficient method for training CLIP. Our method randomly masks out and removes a large portion of image patches during training. Masking allows us to learn from more image-text pairs given the same wall-clock time and contrast more samples per iteration with similar memory footprint. It leads to a favorable trade-off between accuracy and training time. In our experiments on 400 million image-text pairs, FLIP improves both accuracy and speed over the no-masking baseline. On a large diversity of downstream tasks, FLIP dominantly outperforms the CLIP counterparts trained on the same data. Facilitated by the speedup, we explore the scaling behavior of increasing the model size, data size, or training length, and report encouraging results and comparisons. We hope that our work will foster future research on scaling vision-language learning.
翻訳日:2022-12-02 16:42:07 公開日:2022-12-01
# Detect-Localize-Repair: CodeT5でデバッグを学ぶための統一フレームワーク

Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5 ( http://arxiv.org/abs/2211.14875v2 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yue Wang, Steven Hoi(参考訳) ソフトウェアデバッギングの自動化は、ソフトウェア開発者の生産性を向上させるための重要なタスクです。 多くのニューラルネットワーク技術は、バグローカライゼーションやプログラム修復(バグ修正)といったデバッグ関連のタスクに有効であることが証明されている。 しかし、これらの技法は、しばしば両者の相互利益を無視して、どちらか一方にのみ焦点をあてたり、段階的にアプローチしたりする。 本研究では,事前に訓練されたプログラミング言語モデルであるCodeT5をベースとして,これらのタスクをシームレスに処理する新しい統合型 'emph{Detect-Localize-Repair} フレームワークを提案する。 具体的には,デバッグに汎用的なcodet5を適用するための3つの目標を提案する。与えられたコードスニペットがバギーであるかどうかを判断するバグ検出目的,バギーラインを特定するバグローカライゼーション目標,バギーコードを固定バージョンに変換するプログラム修復目標である。 新たに収集した2つの行レベルのデバッグデータセットをJavaとPythonで組み合わせて評価する。 その結果,NLPとソフトウェア工学の両分野において,モデルが既存のベースラインを大幅に上回ることがわかった。

Automated software debugging is a crucial task for improving the productivity of software developers. Many neural-based techniques have been proven effective for debugging-related tasks such as bug localization and program repair (or bug fixing). However, these techniques often focus only on either one of them or approach them in a stage-wise manner, ignoring the mutual benefits between them. In this work, we propose a novel unified \emph{Detect-Localize-Repair} framework based on a pretrained programming language model CodeT5 to seamlessly address these tasks, named CodeT5-DLR. Specifically, we propose three objectives to adapt the generic CodeT5 for debugging: a bug detection objective to determine whether a given code snippet is buggy or not, a bug localization objective to identify the buggy lines, and a program repair objective to translate the buggy code to its fixed version. We evaluate it on each of these tasks and their combined setting on two newly collected line-level debugging datasets in Java and Python. Extensive results show that our model significantly outperforms existing baselines from both NLP and software engineering domains.
翻訳日:2022-12-02 16:41:53 公開日:2022-12-01
# Anger Breeds氏の議論:Redditでの議論と感情の分析

Anger Breeds Controversy: Analyzing Controversy and Emotions on Reddit ( http://arxiv.org/abs/2212.00339v1 )

ライセンス: Link先を確認
Kai Chen, Zihao He, Rong-Ching Chang, Jonathan May, Kristina Lerman(参考訳) 感情は対人関係や社会的対立において重要な役割を担っているが、議論の進展やオンライン会話における意見の相違は研究されていない。 このギャップに対処するために、オンラインディスカッションフォーラムの人気ネットワークであるRedditで論争を調査する。 我々は、さまざまなトピックのフォーラムから議論を集め、感情検出を使用して、怒り、恐怖、喜び、賞賛など、テキストから様々な感情を認識する。 私たちの研究には3つの主な発見がある。 まず、物議を醸すコメントは、議論を起こさないコメントよりも、怒りや賞賛、喜び、楽観的である。 第2に、議論中のダウンストリームのコメントの感情は議論の対象となり、通常は長期的な怒りの増加とポジティブな感情の減少をもたらすが、感情の変化の大きさと方向はフォーラムに依存する。 最後に、感情がどのコメントが議論を呼ぶかを予測するのに役立つことを示す。 オンライン議論の感情的ダイナミクスを理解することは、コミュニティが会話を管理するのに役立つ。

Emotions play an important role in interpersonal interactions and social conflict, yet their function in the development of controversy and disagreement in online conversations has not been explored. To address this gap, we study controversy on Reddit, a popular network of online discussion forums. We collect discussions from a wide variety of topical forums and use emotion detection to recognize a range of emotions from text, including anger, fear, joy, admiration, etc. Our study has three main findings. First, controversial comments express more anger and less admiration, joy and optimism than non-controversial comments. Second, controversial comments affect emotions of downstream comments in a discussion, usually resulting in long-term increase in anger and a decrease in positive emotions, although the magnitude and direction of emotional change depends on the forum. Finally, we show that emotions help better predict which comments will become controversial. Understanding emotional dynamics of online discussions can help communities to better manage conversations.
翻訳日:2022-12-02 16:41:35 公開日:2022-12-01
# 言語モデルと脳アライメント : 単語レベルの意味論と予測を超えて

Language models and brain alignment: beyond word-level semantics and prediction ( http://arxiv.org/abs/2212.00596v1 )

ライセンス: Link先を確認
Gabriele Merlin and Mariya Toneva(参考訳) 何十億ものテキスト文書の次の単語を予測するために訓練された事前学習された言語モデルは、言語を理解する人々の脳の記録を著しく予測する。 機械の言語と脳の言語の間に観察された類似点の背後にある理由を理解することは、両方のシステムについてより深い洞察をもたらす可能性がある。 近年の研究では、次の単語の予測が両者のアライメントに寄与する重要なメカニズムであることを示唆している。 まだ理解されていないのは、この観測されたアライメントに次の単語の予測が必要なのか、あるいは単に十分なのか、また同様の重要な共有メカニズムや情報が存在するかどうかである。 この研究では、人気のある事前学習言語モデルにおける2つの単純な摂動を通して、理解を深める第一歩を踏み出す。 第一の摂動は、脳記録が対応する特定の自然刺激テキストにおける次の単語を予測するモデルの能力を改善することである。 これは脳の録音とのアライメントが向上することを示している。 しかし、この改善されたアライメントは、刺激物語によって記述される特定の世界に対する単語レベルまたは複数ワードレベルのセマンティクスの改善による可能性もある。 我々は,次の単語の予測と意味知識の寄与を,次の単語の予測能力の低下を図りながら,新たに学習した単語レベルのセマンティクスを維持するために,推論時に単語の順序を乱すという2つ目の摂動を通じて,解き放つことを目的としている。 これらの異なる摂動モデルの脳記録とのアライメントを比較することで、脳記録とのアライメントの改善は、次の単語予測と単語レベルのセマンティクスの改善によるものであることを示す。

Pretrained language models that have been trained to predict the next word over billions of text documents have been shown to also significantly predict brain recordings of people comprehending language. Understanding the reasons behind the observed similarities between language in machines and language in the brain can lead to more insight into both systems. Recent works suggest that the prediction of the next word is a key mechanism that contributes to the alignment between the two. What is not yet understood is whether prediction of the next word is necessary for this observed alignment or simply sufficient, and whether there are other shared mechanisms or information that is similarly important. In this work, we take a first step towards a better understanding via two simple perturbations in a popular pretrained language model. The first perturbation is to improve the model's ability to predict the next word in the specific naturalistic stimulus text that the brain recordings correspond to. We show that this indeed improves the alignment with the brain recordings. However, this improved alignment may also be due to any improved word-level or multi-word level semantics for the specific world that is described by the stimulus narrative. We aim to disentangle the contribution of next word prediction and semantic knowledge via our second perturbation: scrambling the word order at inference time, which reduces the ability to predict the next word, but maintains any newly learned word-level semantics. By comparing the alignment with brain recordings of these differently perturbed models, we show that improvements in alignment with brain recordings are due to more than improvements in next word prediction and word-level semantics.
翻訳日:2022-12-02 16:41:20 公開日:2022-12-01
# DBLPディスカバリデータセットによる計算機科学研究の現状分析

Analyzing the State of Computer Science Research with the DBLP Discovery Dataset ( http://arxiv.org/abs/2212.00629v1 )

ライセンス: Link先を確認
Lennart K\"ull(参考訳) 科学出版物の数は、特にコンピュータ科学(cs)において指数関数的に増加を続けている。 しかしながら、これらのパブリッシュを解析するための現在のソリューションは、ペイウォールの背後へのアクセスを制限し、ビジュアル分析のための機能を提供しず、データへのアクセスを制限し、ニッチやサブフィールドにのみフォーカスする。 本論文では,CSメタデータに隠された暗黙のパターンを明らかにするための科学的分析を行い,CS研究の現状を明らかにする。 具体的には、著者、会場、文書タイプ(会議対ジャーナル)、研究分野(医学など)の量、影響、話題の傾向について検討する。 そこで我々は,CS-Insightsシステムを導入し,様々なダッシュボード,フィルタ,ビジュアライゼーションを用いてCS出版物を分析する。 このシステムの基盤となるデータはDBLP Discovery Dataset (D3)であり、500万のCS出版物のメタデータを含んでいる。 d3とcs-insightsはどちらもオープンアクセスであり、cs-insightsは他のデータセットに将来容易に適応できる。 私たちのサイエントメトリック分析で最も興味深い発見は、 一 この二十年で出版物、著作家及び会場が大幅に増加したこと。 二 多くの著者が最近になってその分野に加わったこと。 三 最も引用される著者及び会場は、コンピュータビジョン及びパターン認識に焦点を当てる一方、最も生産的なものは、工学に関する話題を好む。 四 研究者が学術雑誌よりも会議に掲載することを好むこと。 五 平均して、雑誌記事は、会議論文の2倍の引用を受け取っているが、最も引用される会議や雑誌のコントラストははるかに小さい。 六 学術誌は、他のすべての研究分野においてより多くの引用を受け、一方、学術誌よりも会議で出版されるのは、cs及び工学者のみである。

The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
翻訳日:2022-12-02 16:40:51 公開日:2022-12-01
# MEMEとは何か? ミームにおける視覚的意味的役割ラベリングのための説明の生成

What do you MEME? Generating Explanations for Visual Semantic Role Labelling in Memes ( http://arxiv.org/abs/2212.00715v1 )

ライセンス: Link先を確認
Shivam Sharma, Siddhant Agarwal, Tharun Suresh, Preslav Nakov, Md. Shad Akhtar, Tanmoy Charkraborty(参考訳) ミームはソーシャルメディア上で効果的なコミュニケーションのための強力な手段である。 バイラルなビジュアルと魅力的なメッセージの融合は、適切なマーケティングに大きく影響する可能性がある。 ミームに関するこれまでの研究は、彼らの感情的なスペクトルの特徴付けと、ミームのメッセージが、憎しみ、犯罪、人種差別など、意図した損害を与えるかどうかの検出に重点を置いてきた。 しかし、ミームはしばしば抽象的(抽象的)を使う。 ここでは,ミームにおける視覚的意味的役割ラベリングのための説明を生成する新しいタスクについて紹介する。 この目的のために,3Kミームに存在する4,680個のエンティティを含む3種類のエンティティ(ヒーロー,悪役,被害者)について,意味的役割を自然言語で説明する新しいデータセットであるExHVをキュレートする。 また、ExHVVをいくつかの強力な単モーダルおよびマルチモーダルベースラインでベンチマークする。 さらに, 適切な意味的役割を予測し, 適切な自然言語説明を生成するために, 協調学習により, 最適な評価に最善を尽くす, 新たなマルチモーダルマルチタスク学習フレームワーク lumen を提案する。 LUMENは18の標準自然言語生成評価指標で明らかに最高のベースラインを上回っている。 体系的な評価と分析により,意味的役割を判断するのに必要な特徴的マルチモーダル手がかりが,適切な説明を生成するのに有用であることが示された。

Memes are powerful means for effective communication on social media. Their effortless amalgamation of viral visuals and compelling messages can have far-reaching implications with proper marketing. Previous research on memes has primarily focused on characterizing their affective spectrum and detecting whether the meme's message insinuates any intended harm, such as hate, offense, racism, etc. However, memes often use abstraction, which can be elusive. Here, we introduce a novel task - EXCLAIM, generating explanations for visual semantic role labeling in memes. To this end, we curate ExHVV, a novel dataset that offers natural language explanations of connotative roles for three types of entities - heroes, villains, and victims, encompassing 4,680 entities present in 3K memes. We also benchmark ExHVV with several strong unimodal and multimodal baselines. Moreover, we posit LUMEN, a novel multimodal, multi-task learning framework that endeavors to address EXCLAIM optimally by jointly learning to predict the correct semantic roles and correspondingly to generate suitable natural language explanations. LUMEN distinctly outperforms the best baseline across 18 standard natural language generation evaluation metrics. Our systematic evaluation and analyses demonstrate that characteristic multimodal cues required for adjudicating semantic roles are also helpful for generating suitable explanations.
翻訳日:2022-12-02 16:40:19 公開日:2022-12-01
# 大規模マルチメディアデータセットを活用したコンテンツモデレーションモデル

Leveraging Large-scale Multimedia Datasets to Refine Content Moderation Models ( http://arxiv.org/abs/2212.00668v1 )

ライセンス: Link先を確認
Ioannis Sarridis, Christos Koutlis, Olga Papadopoulou, and Symeon Papadopoulos(参考訳) オンラインユーザー生成コンテンツの膨大な量によって、デジタルプラットフォームオーディエンスを不安や不安、懸念を引き起こすコンテンツから守るために、コンテンツモデレーション技術が不可欠になった。 この問題を解決するための自動化ソリューションの開発努力にもかかわらず、適切なタスク固有のトレーニングデータがないため、正確なモデルの作成は依然として困難である。 このようなデータを手動でアノテートすることは、アノテータの感情的幸福に深刻な影響を及ぼすような、非常に要求の多い手順であるという事実は、後者の制限に直接関係している。 本稿では,大規模マルチメディアデータセットを活用したcm-refineryフレームワークを提案し,コンテンツモデレーションモデルの改良が可能なハードサンプルによる初期トレーニングデータセットの自動拡張と,アノテータの関与度を著しく低減する。 本手法は,データ収集時に観察される課題,すなわちデータの欠如に関する2つのモデル適応戦略に適用する。 i)タスク固有の負のデータ (ii)正と負のデータの両方。 さらに,データ収集プロセスに適用した多様性基準を導入し,改良モデルの一般化性能をさらに向上させる。 提案手法は,nsfw(not safe for work)と,ベンチマークデータセットにおけるコンテンツ検出タスクを乱し,それぞれ1.32%と1.94%の精度向上を達成している。 最後に、nsfwタスクに人間の介入を必要とせず、コンテンツが乱される場合、92.54%のデータが自動的にアノテートされるため、人間の関与を著しく減少させる。

The sheer volume of online user-generated content has rendered content moderation technologies essential in order to protect digital platform audiences from content that may cause anxiety, worry, or concern. Despite the efforts towards developing automated solutions to tackle this problem, creating accurate models remains challenging due to the lack of adequate task-specific training data. The fact that manually annotating such data is a highly demanding procedure that could severely affect the annotators' emotional well-being is directly related to the latter limitation. In this paper, we propose the CM-Refinery framework that leverages large-scale multimedia datasets to automatically extend initial training datasets with hard examples that can refine content moderation models, while significantly reducing the involvement of human annotators. We apply our method on two model adaptation strategies designed with respect to the different challenges observed while collecting data, i.e. lack of (i) task-specific negative data or (ii) both positive and negative data. Additionally, we introduce a diversity criterion applied to the data collection process that further enhances the generalization performance of the refined models. The proposed method is evaluated on the Not Safe for Work (NSFW) and disturbing content detection tasks on benchmark datasets achieving 1.32% and 1.94% accuracy improvements compared to the state of the art, respectively. Finally, it significantly reduces human involvement, as 92.54% of data are automatically annotated in case of disturbing content while no human intervention is required for the NSFW task.
翻訳日:2022-12-02 16:33:17 公開日:2022-12-01
# マルチモーダルクエリ誘導オブジェクトローカライゼーション

Multimodal Query-guided Object Localization ( http://arxiv.org/abs/2212.00749v1 )

ライセンス: Link先を確認
Aditay Tripathi, Rajath R Dani, Anand Mishra, Anirban Chakraborty(参考訳) オブジェクトのイメージもオブジェクトのカテゴリ名もクエリとして利用できない、ワンショットクエリ誘導オブジェクトローカライゼーションのシナリオを考えてみましょう。 このようなシナリオでは、オブジェクトの手書きのスケッチがクエリの選択になる可能性がある。 しかし、手描きの粗雑なスケッチだけでは、クエリーとして使うと、オブジェクトのローカライゼーションには曖昧である可能性がある。 一方、このカテゴリの言語的な定義、例えば「膝で使うのに十分小さい小さなポータブルコンピュータ」は、スケッチクエリとともに、オブジェクトのローカライゼーションのための視覚的およびセマンティックな手がかりを提供する。 本稿では,課題となるオープンセット設定下でのマルチモーダルクエリ誘導オブジェクトローカライゼーション手法を提案する。 特に,手描きのスケッチとオブジェクト(glossとしても知られる)の記述という2つのモダリティからのクエリを用いて,オブジェクトのローカライゼーションを行う。 特にクエリと自然画像の間に大きなドメインギャップが存在する場合や、クエリにまたがる補完的および最小限の情報を組み合わせるという課題がある場合、マルチモーダルクエリ誘導オブジェクトローカライゼーションは難しい課題である。 例えば、手書きの粗面スケッチはオブジェクトの抽象的な形状情報を含み、テキスト記述はしばしば与えられたオブジェクトカテゴリに関する部分的な意味情報をキャプチャする。 上記の課題に対処するために,領域提案ネットワークを誘導し,入力クエリに関連するオブジェクト提案を生成する新しいクロスモーダル・アテンション・スキームと,クエリに対して各提案をスコア付けする新たな直交射影に基づくプロポーザル・スコアリング手法を提案する。 ...

Consider a scenario in one-shot query-guided object localization where neither an image of the object nor the object category name is available as a query. In such a scenario, a hand-drawn sketch of the object could be a choice for a query. However, hand-drawn crude sketches alone, when used as queries, might be ambiguous for object localization, e.g., a sketch of a laptop could be confused for a sofa. On the other hand, a linguistic definition of the category, e.g., a small portable computer small enough to use in your lap" along with the sketch query, gives better visual and semantic cues for object localization. In this work, we present a multimodal query-guided object localization approach under the challenging open-set setting. In particular, we use queries from two modalities, namely, hand-drawn sketch and description of the object (also known as gloss), to perform object localization. Multimodal query-guided object localization is a challenging task, especially when a large domain gap exists between the queries and the natural images, as well as due to the challenge of combining the complementary and minimal information present across the queries. For example, hand-drawn crude sketches contain abstract shape information of an object, while the text descriptions often capture partial semantic information about a given object category. To address the aforementioned challenges, we present a novel cross-modal attention scheme that guides the region proposal network to generate object proposals relevant to the input queries and a novel orthogonal projection-based proposal scoring technique that scores each proposal with respect to the queries, thereby yielding the final localization results. ...
翻訳日:2022-12-02 16:32:38 公開日:2022-12-01
# FakeOut:マルチモーダルビデオディープフェイク検出のためのドメイン外セルフスーパービジョンを活用する

FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video Deepfake Detection ( http://arxiv.org/abs/2212.00773v1 )

ライセンス: Link先を確認
Gil Knafo and Ohad Fried(参考訳) 近年、ビデオ合成法は急速に進歩し、合成ヒトを容易に作れるようになった。 これは、特にソーシャルメディアの時代において問題となり、話す人間の合成ビデオは、説得力のある方法で誤情報の拡散に使用できる。 したがって、トレーニング中に見えない偽造技術を検出することができる正確で堅牢なディープフェイク検出方法が求められている。 本研究では,ビデオのdeepfakeドメインに適応した,自己監督型でトレーニングされたマルチモーダルなドメイン外バックボーンを活用することで,これを実現することができるか検討する。 プリトレーニングフェーズと適応フェーズの両方において,マルチモーダルデータに依存する新しいアプローチであるfakeoutを提案する。 様々なタイプのディープフェイク,特に訓練中に見られなかった操作の検出において,フェイクアウトの有効性とロバスト性を示す。 本手法はクロスマニピュレーションとクロスデータセットの一般化により最先端の結果を得る。 この研究は、おそらく驚くべきことに、ドメイン外ビデオ(つまり、人間を話さないビデオ)のトレーニングがディープフェイク検出システムの改善につながることを示している。 コードはGitHubで入手できる。

Video synthesis methods rapidly improved in recent years, allowing easy creation of synthetic humans. This poses a problem, especially in the era of social media, as synthetic videos of speaking humans can be used to spread misinformation in a convincing manner. Thus, there is a pressing need for accurate and robust deepfake detection methods, that can detect forgery techniques not seen during training. In this work, we explore whether this can be done by leveraging a multi-modal, out-of-domain backbone trained in a self-supervised manner, adapted to the video deepfake domain. We propose FakeOut; a novel approach that relies on multi-modal data throughout both the pre-training phase and the adaption phase. We demonstrate the efficacy and robustness of FakeOut in detecting various types of deepfakes, especially manipulations which were not seen during training. Our method achieves state-of-the-art results in cross-manipulation and cross-dataset generalization. This study shows that, perhaps surprisingly, training on out-of-domain videos (i.e., videos with no speaking humans), can lead to better deepfake detection systems. Code is available on GitHub.
翻訳日:2022-12-02 16:32:09 公開日:2022-12-01
# ResFormer:マルチリゾリューショントレーニングによるViTのスケーリング

ResFormer: Scaling ViTs with Multi-Resolution Training ( http://arxiv.org/abs/2212.00776v1 )

ライセンス: Link先を確認
Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang(参考訳) 視覚トランスフォーマー(vits)は圧倒的な成功を収めているが、それらは脆弱な解像度のスケーラビリティ、すなわち、トレーニング中に目に見えない入力解像度が提示されると、パフォーマンスが大幅に低下する。 resformerはマルチレゾリューショントレーニングという独創的なアイデアに基づいて構築されたフレームワークで、幅広い範囲(ほとんど見えない)のテスト解像度のパフォーマンス向上を目的としています。 特に、resformerは異なる解像度の複製された画像を操作し、異なるスケールでインタラクティブな情報を扱うためにスケール一貫性の損失を強制する。 さらに,様々な解像度に代えて,入力サイズに応じてスムースに変化するグローバルローカルな位置埋め込み戦略を提案する。 これにより、resformerは新しい解像度に効果的に対応できる。 ImageNet上で画像分類のための広範な実験を行う。 この結果は、resformerが幅広い解像度に向けたスケーリング能力を持っているという強力な定量的証拠を提供する。 例えば、ResFormer-B-MRは、比較的低解像度と高解像度(96と640)で評価すると、Top-1の精度が75.86%と81.72%に達する(DeiT-Bより48%と7.49%良い)。 また、ResFormerは柔軟性があり、セマンティックセグメンテーションやビデオアクション認識に容易に拡張できることを示す。

Vision Transformers (ViTs) have achieved overwhelming success, yet they suffer from vulnerable resolution scalability, i.e., the performance drops drastically when presented with input resolutions that are unseen during training. We introduce, ResFormer, a framework that is built upon the seminal idea of multi-resolution training for improved performance on a wide spectrum of, mostly unseen, testing resolutions. In particular, ResFormer operates on replicated images of different resolutions and enforces a scale consistency loss to engage interactive information across different scales. More importantly, to alternate among varying resolutions, we propose a global-local positional embedding strategy that changes smoothly conditioned on input sizes. This allows ResFormer to cope with novel resolutions effectively. We conduct extensive experiments for image classification on ImageNet. The results provide strong quantitative evidence that ResFormer has promising scaling abilities towards a wide range resolutions. For instance, ResFormer-B-MR achieves a Top-1 accuracy of 75.86% and 81.72% when evaluated on relatively low and high resolutions respectively (i.e., 96 and 640), which are 48% and 7.49% better than DeiT-B. We also demonstrate, among other things, ResFormer is flexible and can be easily extended to semantic segmentation and video action recognition.
翻訳日:2022-12-02 16:31:50 公開日:2022-12-01
# 画像テキストペアのみを用いたオープンワールドセマンティックセマンティックセグメンテーションのためのテキストグラウンドマスク生成学習

Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs ( http://arxiv.org/abs/2212.00785v1 )

ライセンス: Link先を確認
Junbum Cha, Jonghwan Mun, Byungseok Roh(参考訳) 画像中の任意の視覚概念を,濃密なアノテーションを伴わない画像テキストペアのみを用いて,学習するオープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。 既存のオープンワールドセグメンテーション手法は、コントラスト学習(CL)を用いて多様な視覚概念を学習し、学習されたイメージレベルの理解をセグメンテーションタスクに適用することで、目覚ましい進歩を見せている。 しかし、clに基づくこれらの方法は、トレーニング時間に画像-テキストレベルのアライメントのみを考慮し、セグメンテーションタスクにはテスト時間に領域-テキストレベルのアライメントが必要であるため、不一致がある。 本稿では,テキストとテキストによって記述された領域を直接アライメントして,列車テストの相違に対処する,新しいテキストグラウンド・コントラシティブ・ラーニング(TCL)フレームワークを提案する。 本手法は,与えられたテキストに関連付けられたセグメンテーションマスクを生成し,マスク領域から接地画像埋め込みを抽出し,TCLによるテキスト埋め込みと整合する。 このフレームワークは、画像テキストレベルのアライメントではなく、領域テキストレベルのアライメントをモデルに学習させ、生成したセグメンテーションマスクの質を直接改善させることによって、その相違に対処する。 さらに,厳密かつ公正な比較のために,広く用いられている8つのセマンティックセグメンテーションデータセットを用いた統一評価プロトコルを提案する。 TCLは、すべてのデータセットで大きなマージンを持つ最先端のゼロショットセグメンテーション性能を達成する。 コードはhttps://github.com/kakaobrain/tclで入手できる。

We tackle open-world semantic segmentation, which aims at learning to segment arbitrary visual concepts in images, by using only image-text pairs without dense annotations. Existing open-world segmentation methods have shown impressive advances by employing contrastive learning (CL) to learn diverse visual concepts and adapting the learned image-level understanding to the segmentation task. However, these methods based on CL have a discrepancy since it only considers image-text level alignment in training time, while the segmentation task requires region-text level alignment at test time. In this paper, we propose a novel Text-grounded Contrastive Learning (TCL) framework to directly align a text and a region described by the text to address the train-test discrepancy. Our method generates a segmentation mask associated with a given text, extracts grounded image embedding from the masked region, and aligns it with text embedding via TCL. The framework addresses the discrepancy by letting the model learn region-text level alignment instead of image-text level alignment and encourages the model to directly improve the quality of generated segmentation masks. In addition, for a rigorous and fair comparison, we present a unified evaluation protocol with widely used 8 semantic segmentation datasets. TCL achieves state-of-the-art zero-shot segmentation performance with large margins in all datasets. Code is available at https://github.com/kakaobrain/tcl.
翻訳日:2022-12-02 16:31:24 公開日:2022-12-01
# 合成データを用いた点雲中の人間の3次元セグメンテーション

3D Segmentation of Humans in Point Clouds with Synthetic Data ( http://arxiv.org/abs/2212.00786v1 )

ライセンス: Link先を確認
Ay\c{c}a Takmaz, Jonas Schult, Irem Kaftan, Mertcan Ak\c{c}ay, Robert Sumner, Bastian Leibe, Francis Engelmann, Siyu Tang(参考訳) 3D屋内シーンにおける人間のセグメンテーションは、人間中心のロボット工学とAR/VR応用の台頭によってますます重要になっている。 この方向では、3次元人間の意味、インスタンス、マルチヒューマンボディパートセグメンテーションのタスクを探求する。 ポイントクラウド(または深度マップ)で人間を直接分割しようとする試みはほとんどないが、これは主に3dシーンと対話する人間のトレーニングデータがないためである。 この課題に対処し、リアルな3Dシーンで仮想人間を合成するためのフレームワークを提案する。 合成点雲データは、画像に比べて実深度と合成深度の領域ギャップが小さいため、魅力的である。 合成データと実データの組み合わせを用いて異なるトレーニングスキームを解析した結果,プリトレーニングのための合成データが様々なセグメンテーションタスクとモデルの性能を向上させることがわかった。 さらに、上記すべてのセグメンテーションタスクを統一的に実行する3次元多人数身体部分セグメンテーションのための最初のエンドツーエンドモデルであるhuman3dを提案する。 注目すべきは、Human3Dは従来のタスク固有の最先端の手法よりも優れています。 最後に、EgoBodyのテストシーンで人間が手動でアノテートして、提案したトレーニングスキームとセグメンテーションモデルを比較した。

Segmenting humans in 3D indoor scenes has become increasingly important with the rise of human-centered robotics and AR/VR applications. In this direction, we explore the tasks of 3D human semantic-, instance- and multi-human body-part segmentation. Few works have attempted to directly segment humans in point clouds (or depth maps), which is largely due to the lack of training data on humans interacting with 3D scenes. We address this challenge and propose a framework for synthesizing virtual humans in realistic 3D scenes. Synthetic point cloud data is attractive since the domain gap between real and synthetic depth is small compared to images. Our analysis of different training schemes using a combination of synthetic and realistic data shows that synthetic data for pre-training improves performance in a wide variety of segmentation tasks and models. We further propose the first end-to-end model for 3D multi-human body-part segmentation, called Human3D, that performs all the above segmentation tasks in a unified manner. Remarkably, Human3D even outperforms previous task-specific state-of-the-art methods. Finally, we manually annotate humans in test scenes from EgoBody to compare the proposed training schemes and segmentation models.
翻訳日:2022-12-02 16:30:56 公開日:2022-12-01
# 再帰的ノイズ拡散を用いた空中からのマルチクラスセグメンテーション

Multi-Class Segmentation from Aerial Views using Recursive Noise Diffusion ( http://arxiv.org/abs/2212.00787v1 )

ライセンス: Link先を確認
Benedikt Kolbeinsson, Krystian Mikolajczyk(参考訳) 航空ビューからのセマンティックセグメンテーションは、安全かつ効率的に横断するために正確かつ正確なセグメンテーションを必要とする自律ドローンにとって重要なタスクである。 空中ビューからの画像分割は、さまざまなビューポイント、極端なスケールのバリエーション、高いシーンの複雑さを含むため、特に難しい。 そこで本研究では,エンドツーエンドのセマンティックセマンティックセマンティクス拡散モデルを提案する。 本稿では,予測誤差をデノナイジングプロセスを通じて伝播させる再帰的デノナイジングを提案する。 さらに, 拡散過程を補完する階層的マルチスケールアプローチと組み合わせる。 提案手法は,UAVid および Vaihingen ビルのセグメンテーションベンチマーク上での最先端結果を実現する。

Semantic segmentation from aerial views is a vital task for autonomous drones as they require precise and accurate segmentation to traverse safely and efficiently. Segmenting images from aerial views is especially challenging as they include diverse view-points, extreme scale variation and high scene complexity. To address this problem, we propose an end-to-end multi-class semantic segmentation diffusion model. We introduce recursive denoising which allows predicted error to propagate through the denoising process. In addition, we combine this with a hierarchical multi-scale approach, complementary to the diffusion process. Our method achieves state-of-the-art results on UAVid and on the Vaihingen building segmentation benchmark.
翻訳日:2022-12-02 16:30:37 公開日:2022-12-01
# Sparsity Agnostic Depth Completion

Sparsity Agnostic Depth Completion ( http://arxiv.org/abs/2212.00790v1 )

ライセンス: Link先を確認
Andrea Conti, Matteo Poggi and Stefano Mattoccia(参考訳) そこで本研究では,多くの応用において,深度点の空間性に依存しない新しい深度完備化手法を提案する。 最先端のアプローチは、特定の密度と入力点の分布を処理する場合にのみ正確な結果が得られる。 逆に、我々のソリューションは不均一な分布に対して堅牢であり、トレーニング中に見つからなかった極めて低密度である。 標準室内および屋外ベンチマークにおける実験結果では,このフレームワークのロバスト性が強調され,密度と分布をトレーニングと同等の精度でテストした場合の最先端手法に匹敵する精度が得られた。 トレーニング済みのモデルとさらなる資料は、プロジェクトのページで利用可能です。

We present a novel depth completion approach agnostic to the sparsity of depth points, that is very likely to vary in many practical applications. State-of-the-art approaches yield accurate results only when processing a specific density and distribution of input points, i.e. the one observed during training, narrowing their deployment in real use cases. On the contrary, our solution is robust to uneven distributions and extremely low densities never witnessed during training. Experimental results on standard indoor and outdoor benchmarks highlight the robustness of our framework, achieving accuracy comparable to state-of-the-art methods when tested with density and distribution equal to the training one while being much more accurate in the other cases. Our pretrained models and further material are available in our project page.
翻訳日:2022-12-02 16:30:27 公開日:2022-12-01
# Unite and Conquer:拡散モデルを用いたクロスデータセットマルチモーダル合成

Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion Models ( http://arxiv.org/abs/2212.00793v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) 複数の制約を満たす写真を生成することは、コンテンツ制作業界で幅広い有用性を見出す。 この課題を達成するための重要なハードルは、すべてのモダリティ(すなわち制約)と対応する出力からなるペアデータの必要性である。 さらに、既存のメソッドでは、新しい条件を導入するために、すべてのモダリティにまたがるペアデータの使用を再トレーニングする必要がある。 本稿では拡散確率モデル (DDPM) に基づくこの問題に対する解法を提案する。 他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造にある。 DDPMの各サンプリングステップはガウス分布に従うので、様々な制約を課した画像を生成するための閉形式解が存在することを示す。 提案手法は,複数のサブタスクで訓練された複数の拡散モデルを結合し,提案するサンプリング戦略により複合タスクを克服する。 また,複数の制約を満たす望ましい結果に導出するために,サンプリング時間のみに様々なデータセットでトレーニングされたオフ・ザ・シェルフ拡散モデルを使用することが可能な,新しい信頼性パラメータも導入する。 提案手法の有効性を実証するために,各種標準マルチモーダルタスクの実験を行った。 詳細はhttps://nithin-gk.github.io/projectpages/multidiff/index.htmlにある。

Generating photos satisfying multiple constraints find broad utility in the content creation industry. A key hurdle to accomplishing this task is the need for paired data consisting of all modalities (i.e., constraints) and their corresponding output. Moreover, existing methods need retraining using paired data across all modalities to introduce a new condition. This paper proposes a solution to this problem based on denoising diffusion probabilistic models (DDPMs). Our motivation for choosing diffusion models over other generative models comes from the flexible internal structure of diffusion models. Since each sampling step in the DDPM follows a Gaussian distribution, we show that there exists a closed-form solution for generating an image given various constraints. Our method can unite multiple diffusion models trained on multiple sub-tasks and conquer the combined task through our proposed sampling strategy. We also introduce a novel reliability parameter that allows using different off-the-shelf diffusion models trained across various datasets during sampling time alone to guide it to the desired outcome satisfying multiple constraints. We perform experiments on various standard multimodal tasks to demonstrate the effectiveness of our approach. More details can be found in https://nithin-gk.github.io/projectpages/Multidiff/index.html
翻訳日:2022-12-02 16:30:12 公開日:2022-12-01
# ViewNeRF:カテゴリーレベルニューラルネットワークを用いた教師なし視点推定

ViewNeRF: Unsupervised Viewpoint Estimation Using Category-Level Neural Radiance Fields ( http://arxiv.org/abs/2212.00436v1 )

ライセンス: Link先を確認
Octave Mariotti, Oisin Mac Aodha and Hakan Bilen(参考訳) 本研究では,学習中の画像から直接カテゴリレベルの視点を予測できるニューラルラミアンスフィールドに基づく視点推定手法viewnerfを提案する。 通常、NeRFは地上カメラのポーズで訓練されるが、この高価な監視の必要性を減らすために複数の拡張が提案されている。 とはいえ、これらの手法のほとんどは依然として大きなカメラの動きを伴う複雑な設定で苦労しており、単一のシーンに限定されている。 これらの問題に対処するために,条件付きNeRFと視点予測器とシーンエンコーダを組み合わせた合成手法を用いて,オブジェクトカテゴリ全体の自己教師型再構築を行う。 高忠実度再構成に注目するのではなく,実データ上での360{\deg}回転など,複雑なシナリオにおける効率的かつ正確な視点予測を目標としている。 本モデルでは, 合成および実データに対して, シングルシーンとマルチインスタンスコレクションの両方において, 競合する結果を示す。

We introduce ViewNeRF, a Neural Radiance Field-based viewpoint estimation method that learns to predict category-level viewpoints directly from images during training. While NeRF is usually trained with ground-truth camera poses, multiple extensions have been proposed to reduce the need for this expensive supervision. Nonetheless, most of these methods still struggle in complex settings with large camera movements, and are restricted to single scenes, i.e. they cannot be trained on a collection of scenes depicting the same object category. To address these issues, our method uses an analysis by synthesis approach, combining a conditional NeRF with a viewpoint predictor and a scene encoder in order to produce self-supervised reconstructions for whole object categories. Rather than focusing on high fidelity reconstruction, we target efficient and accurate viewpoint prediction in complex scenarios, e.g. 360{\deg} rotation on real data. Our model shows competitive results on synthetic and real datasets, both for single scenes and multi-instance collections.
翻訳日:2022-12-02 16:24:23 公開日:2022-12-01
# MGTANet:3次元物体検出のための長期動作ガイドによる連続LiDAR点の符号化

MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term Motion-Guided Temporal Attention for 3D Object Detection ( http://arxiv.org/abs/2212.00442v1 )

ライセンス: Link先を確認
Junho Koh, Junhyung Lee, Youngwoo Lee, Jaekyum Kim, Jun Won Choi(参考訳) ほとんどのLiDARセンサーはリアルタイムで一連の点雲を生成する。 従来の3Dオブジェクト検出器では、一定時間間隔で取得した不整合LiDAR点の集合を用いるが、最近の研究では、LiDAR点集合の列に存在する時空間の時空間を利用して、大幅な性能向上が達成されている。 本稿では,複数の連続走査により得られたLiDAR点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。 点雲列の符号化処理は、2つの異なる時間スケールで行われる。 まず、各ボクセル内の物体の動きによって駆動される点雲の短期的時間変化をキャプチャする、短期的な動き対応のボクセル符号化を設計する。 また,短期ボクセル符号化により得られたBEV特徴マップを,特徴マップのシーケンスから推定される動的動きコンテキストを利用して適応的にアライメントし集約する,長期移動誘導型鳥眼ビュー(BEV)機能拡張を提案する。 公開nuScenesベンチマークで行った実験により,提案した3Dオブジェクト検出器は,ベースライン法と比較して性能が大幅に向上し,特定の3Dオブジェクト検出カテゴリに対して最先端の性能が設定できることを示した。 コードはhttps://github.com/HYjhkoh/MGTANet.gitで入手できる。

Most scanning LiDAR sensors generate a sequence of point clouds in real-time. While conventional 3D object detectors use a set of unordered LiDAR points acquired over a fixed time interval, recent studies have revealed that substantial performance improvement can be achieved by exploiting the spatio-temporal context present in a sequence of LiDAR point sets. In this paper, we propose a novel 3D object detection architecture, which can encode LiDAR point cloud sequences acquired by multiple successive scans. The encoding process of the point cloud sequence is performed on two different time scales. We first design a short-term motion-aware voxel encoding that captures the short-term temporal changes of point clouds driven by the motion of objects in each voxel. We also propose long-term motion-guided bird's eye view (BEV) feature enhancement that adaptively aligns and aggregates the BEV feature maps obtained by the short-term voxel encoding by utilizing the dynamic motion context inferred from the sequence of the feature maps. The experiments conducted on the public nuScenes benchmark demonstrate that the proposed 3D object detector offers significant improvements in performance compared to the baseline methods and that it sets a state-of-the-art performance for certain 3D object detection categories. Code is available at https://github.com/HYjhkoh/MGTANet.git
翻訳日:2022-12-02 16:24:07 公開日:2022-12-01
# デジタル病理と自然画像のためのアノテーション効率学習(AEL)の導入

Embracing Annotation Efficient Learning (AEL) for Digital Pathology and Natural Images ( http://arxiv.org/abs/2212.00470v1 )

ライセンス: Link先を確認
Eu Wern Teh(参考訳) ジテンドラ・マリクはかつて「スーパービジョンはAI研究者のアヘンだ」と言った。 ほとんどのディープラーニング技術は、効果的に働くために極度の量の人間ラベルに大きく依存している。 現在の世界では、データ生成の速度がデータアノテーションの速度を大きく上回っている。 人間のアノテーションに完全に依存することは、AIの現在のクローズドな問題を解決する一時的な手段にすぎない。 実際には、ほんのわずかなデータに注釈を付けるだけである。 AEL(Annotation Efficient Learning)は、より少ないアノテーションでモデルを効果的に訓練するアルゴリズムの研究である。 AEL環境で成長するには、手動のアノテーション(画像、バウンディングボックス、ピクセルごとのラベルなど)に頼らず、ラベルのないデータから有用な情報を学ぶ深層学習技術が必要である。 本論文では, AEL を扱うための 5 つの手法について考察する。

Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
翻訳日:2022-12-02 16:23:42 公開日:2022-12-01
# テスト時間拡張クロスエントロピーとノイズミクス学習を用いたラベル雑音選択を用いた雑音ラベル分類

Noisy Label Classification using Label Noise Selection with Test-Time Augmentation Cross-Entropy and NoiseMix Learning ( http://arxiv.org/abs/2212.00479v1 )

ライセンス: Link先を確認
Hansang Lee, Haeil Lee, Helen Hong, and Junmo Kim(参考訳) ディープラーニングタスクで使用されるデータセットのサイズが大きくなるにつれて、深層学習を誤ったラベル付きデータに堅牢にするタスクであるノイズラベル問題は重要な課題となっている。 本稿では,tta(test-time augmentation)クロスエントロピーを用いたラベル雑音選択と雑音混合法による分類学習を用いた雑音ラベルデータの学習手法を提案する。 ラベルノイズ選択において、テスト時間拡張トレーニングデータを予測するために、クロスエントロピーを測定してTTAクロスエントロピーを提案する。 分類器学習では,ノイズデータとクリーンラベルデータからサンプルを混合することにより,MixUp と BalancedMix の手法に基づくノイズミクス法を提案する。 ISIC-18公開皮膚病変診断データセットの実験において,提案したTTAクロスエントロピーは,ラベルノイズ選択過程におけるラベルノイズデータの検出において,従来のクロスエントロピーとTTA不確実性を上回った。 さらに,提案手法は分類性能に優れるだけでなく,分類器学習においてラベル雑音に対して最も頑健性を示した。

As the size of the dataset used in deep learning tasks increases, the noisy label problem, which is a task of making deep learning robust to the incorrectly labeled data, has become an important task. In this paper, we propose a method of learning noisy label data using the label noise selection with test-time augmentation (TTA) cross-entropy and classifier learning with the NoiseMix method. In the label noise selection, we propose TTA cross-entropy by measuring the cross-entropy to predict the test-time augmented training data. In the classifier learning, we propose the NoiseMix method based on MixUp and BalancedMix methods by mixing the samples from the noisy and the clean label data. In experiments on the ISIC-18 public skin lesion diagnosis dataset, the proposed TTA cross-entropy outperformed the conventional cross-entropy and the TTA uncertainty in detecting label noise data in the label noise selection process. Moreover, the proposed NoiseMix not only outperformed the state-of-the-art methods in the classification performance but also showed the most robustness to the label noise in the classifier learning.
翻訳日:2022-12-02 16:23:29 公開日:2022-12-01
# Denoising Diffusion Null-Space Model を用いたゼロショット画像復元

Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model ( http://arxiv.org/abs/2212.00490v1 )

ライセンス: Link先を確認
Yinhuai Wang, Jiwen Yu, Jian Zhang(参考訳) 既存の画像復元(IR)モデルはタスク固有であり、異なる分解演算子に一般化することはできない。 本研究では,画像の超解像,カラー化,インパインティング,圧縮センシング,デブラリングなどを含む,任意の線形ir問題に対する新しいゼロショットフレームワークであるdenoising diffusion null-space model (ddnm)を提案する。 DDNMは、事前訓練されたオフザシェルフ拡散モデルしか必要とせず、追加のトレーニングやネットワーク修正は必要としない。 逆拡散過程中にヌル空間コンテンツだけを精錬することで、データの一貫性と現実性の両方を満足する多様な結果が得られる。 さらに, DDNM+と呼ばれる強化された頑健なバージョンを提案し, 難易度向上と難易度向上を図っている。 いくつかのIRタスクに対する実験により、DDNMは他の最先端のゼロショットIR手法よりも優れていることが示された。 また,ddnm+は,例えば古い写真復元など,複雑な実世界のアプリケーションを解決できることを実証する。

Most existing Image Restoration (IR) models are task-specific, which can not be generalized to different degradation operators. In this work, we propose the Denoising Diffusion Null-Space Model (DDNM), a novel zero-shot framework for arbitrary linear IR problems, including but not limited to image super-resolution, colorization, inpainting, compressed sensing, and deblurring. DDNM only needs a pre-trained off-the-shelf diffusion model as the generative prior, without any extra training or network modifications. By refining only the null-space contents during the reverse diffusion process, we can yield diverse results satisfying both data consistency and realness. We further propose an enhanced and robust version, dubbed DDNM+, to support noisy restoration and improve restoration quality for hard tasks. Our experiments on several IR tasks reveal that DDNM outperforms other state-of-the-art zero-shot IR methods. We also demonstrate that DDNM+ can solve complex real-world applications, e.g., old photo restoration.
翻訳日:2022-12-02 16:23:07 公開日:2022-12-01
# 教師なし3Dポイントクラウドコンプリートのためのシングルビュー画像の活用

Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion ( http://arxiv.org/abs/2212.00564v1 )

ライセンス: Link先を確認
Lintai Wu, Qijian Zhang, Junhui Hou, and Yong Xu(参考訳) 走査デバイスによって捕獲される点雲はしばしば閉塞のため不完全である。 ポイントクラウド補完は、部分的な入力に基づいて完全な形状を予測することを目的としている。 既存のメソッドは教師なしメソッドと教師なしメソッドに分類できる。 しかし、どちらも多くの3D完全点雲を必要としており、捕獲は困難である。 本稿では,3次元完全点雲を必要としない非教師付き点雲補完手法であるCross-PCCを提案する。 3d completeやclean point cloudよりもキャプチャが容易な完全オブジェクトの2dイメージのみを利用する。 具体的には,2d画像からの補足情報を活用するために,単視点rgb画像を用いて2d特徴を抽出し,部分点クラウドから抽出した2d特徴と3d特徴を融合する融合モジュールを設計する。 予測された点雲の形状を導くために、予測された物体の点を2次元平面に投影し、シルエットマップの前景画素を用いて投影された点の位置を制約する。 予測された点雲の外れ値を減らすために,背景に投影された点を単一視点シルエット画像によりフォアグラウンドで移動させるビューキャリブレータを提案する。 私たちの知る限りでは、私たちのアプローチは3Dの監督を必要としない最初のポイントクラウド補完手法です。 本手法の実験結果は,最先端の非教師なし手法よりも大きなマージンで優れている。 さらに, 教師付き手法と比較して, 同様の性能を実現する。 ソースコードはhttps://github.com/ltwu6/cross-pcc.comで公開します。

Point clouds captured by scanning devices are often incomplete due to occlusion. Point cloud completion aims to predict the complete shape based on its partial input. Existing methods can be classified into supervised and unsupervised methods. However, both of them require a large number of 3D complete point clouds, which are difficult to capture. In this paper, we propose Cross-PCC, an unsupervised point cloud completion method without requiring any 3D complete point clouds. We only utilize 2D images of the complete objects, which are easier to capture than 3D complete and clean point clouds. Specifically, to take advantage of the complementary information from 2D images, we use a single-view RGB image to extract 2D features and design a fusion module to fuse the 2D and 3D features extracted from the partial point cloud. To guide the shape of predicted point clouds, we project the predicted points of the object to the 2D plane and use the foreground pixels of its silhouette maps to constrain the position of the projected points. To reduce the outliers of the predicted point clouds, we propose a view calibrator to move the points projected to the background into the foreground by the single-view silhouette image. To the best of our knowledge, our approach is the first point cloud completion method that does not require any 3D supervision. The experimental results of our method are superior to those of the state-of-the-art unsupervised methods by a large margin. Moreover, compared to some supervised methods, our method achieves similar performance. We will make the source code publicly available at https://github.com/ltwu6/cross-pcc.
翻訳日:2022-12-02 16:22:49 公開日:2022-12-01
# gmm-il: インクリメンタル学習型独立確率モデルを用いた小標本サイズの画像分類

GMM-IL: Image Classification using Incrementally Learnt, Independent Probabilistic Models for Small Sample Sizes ( http://arxiv.org/abs/2212.00572v1 )

ライセンス: Link先を確認
Penny Johnston, Keiller Nogueira, Kevin Swingler(参考訳) 現在のディープラーニング分類器は、教師付き学習を行い、共有ネットワーク重みのセットにクラス識別情報を格納する。 これらの重み付けは、クラスの追加を段階的に学習するために容易に変更できない。なぜなら、分類重みは、すべて古いクラス情報が失われるのを防ぐために再トレーニングが必要であり、また、以前のトレーニングデータも必要である。 本稿では,視覚特徴学習と確率モデルを組み合わせてガウス混合モデルとして各クラスを表現する新しい2段階アーキテクチャを提案する。 これらの独立クラス表現を分類器内で使用することにより、サンプルサイズが12未満の場合の精度が向上し、サンプル範囲内の3つの不均衡クラスプロファイルに対する重み付きF1スコアが増加した。 新しいクラスを学ぶとき、分類器は壊滅的な問題を示さず、新しいクラスのトレーニングイメージを提示するだけです。 これにより、時間とともに成長するクラスのデータベースを視覚的にインデックスし、推論することができる。

Current deep learning classifiers, carry out supervised learning and store class discriminatory information in a set of shared network weights. These weights cannot be easily altered to incrementally learn additional classes, since the classification weights all require retraining to prevent old class information from being lost and also require the previous training data to be present. We present a novel two stage architecture which couples visual feature learning with probabilistic models to represent each class in the form of a Gaussian Mixture Model. By using these independent class representations within our classifier, we outperform a benchmark of an equivalent network with a Softmax head, obtaining increased accuracy for sample sizes smaller than 12 and increased weighted F1 score for 3 imbalanced class profiles in that sample range. When learning new classes our classifier exhibits no catastrophic forgetting issues and only requires the new classes' training images to be present. This enables a database of growing classes over time which can be visually indexed and reasoned over.
翻訳日:2022-12-02 16:22:27 公開日:2022-12-01
# conda: 自動運転車の視覚知覚における教師なしドメイン適応学習

CONDA: Continual Unsupervised Domain Adaptation Learning in Visual Perception for Self-Driving Cars ( http://arxiv.org/abs/2212.00621v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Pierce Helton, Ahmed Moustafa, Jackson David Cothren, Khoa Luu(参考訳) 教師なし領域適応手法は、自動運転車の視覚知覚においてセマンティックシーンセグメンテーションにおいて顕著な性能を達成しているが、現実のユースケースではこれらの手法は実用的ではない。 実際には、セグメンテーションモデルは、まだ見られない新しいデータに遭遇する可能性がある。 また、以前のセグメンテーションモデルのデータトレーニングは、プライバシーの問題によりアクセスできない場合がある。 そこで本研究では,これらの問題に対処するために,モデルが新しいデータの存在に関して継続的に学習し,適応できるようにする,連続的教師なしドメイン適応(CONDA)アプローチを提案する。 さらに,提案手法は,事前のトレーニングデータへのアクセスを必要とせずに設計する。 破滅的な忘れの問題を避け,セグメンテーションモデルの性能を維持するために,予測セグメンテーション分布シフトの制約を課すために,新たなBijective Maximum Likelihood lossを提案する。 連続的教師なし領域適応のベンチマーク実験の結果、提案手法の高度な性能を示した。

Although unsupervised domain adaptation methods have achieved remarkable performance in semantic scene segmentation in visual perception for self-driving cars, these approaches remain impractical in real-world use cases. In practice, the segmentation models may encounter new data that have not been seen yet. Also, the previous data training of segmentation models may be inaccessible due to privacy problems. Therefore, to address these problems, in this work, we propose a Continual Unsupervised Domain Adaptation (CONDA) approach that allows the model to continuously learn and adapt with respect to the presence of the new data. Moreover, our proposed approach is designed without the requirement of accessing previous training data. To avoid the catastrophic forgetting problem and maintain the performance of the segmentation models, we present a novel Bijective Maximum Likelihood loss to impose the constraint of predicted segmentation distribution shifts. The experimental results on the benchmark of continual unsupervised domain adaptation have shown the advanced performance of the proposed CONDA method.
翻訳日:2022-12-02 16:22:08 公開日:2022-12-01
# BEV-LGKD:BEV3Dオブジェクト検出のための統一LiDAR誘導知識蒸留フレームワーク

BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for BEV 3D Object Detection ( http://arxiv.org/abs/2212.00623v1 )

ライセンス: Link先を確認
Jianing Li, Ming Lu, Jiaming Liu, Yandong Guo, Li Du, Shanghang Zhang(参考訳) 近年,Bird's-Eye-View (BEV) 表現は多視点3Dオブジェクト検出において注目を集めており,自動運転における有望な応用を実証している。 マルチビューカメラシステムは低コストで展開できるが、深度情報がないため、現在のアプローチでは、優れた性能のために大きなモデルを採用することができる。 したがって、BEV 3Dオブジェクト検出の効率を向上させることが不可欠である。 知識蒸留(KD)は、効率的で正確なモデルを訓練する最も実践的な手法の1つである。 しかしながら、BEV KDは、私たちの知る限りでは未熟です。 画像分類タスクと異なり、BEV 3Dオブジェクト検出アプローチはより複雑で、複数のコンポーネントから構成される。 そこで本稿では,教師・教師の方法で知識を伝達するための統合フレームワークbev-lgkdを提案する。 しかし,教師/学生のパラダイムをBEV機能に直接適用しても,RGBカメラの背景情報が大きいため,満足な結果が得られない。 そこで本研究では,LiDAR点の局所化の利点を活用することを提案する。 具体的には、LiDARの点をBEV空間に変換し、教師-学生パラダイムのための前景マスクとビュー依存マスクを生成する。 なお,本手法では,RGBモデル間のKD誘導にLiDAR点のみを用いる。 BEVの認識には深度推定の質が不可欠であるため,本フレームワークにさらに深度蒸留を導入する。 当社の統一フレームワークはシンプルかつ効果的であり、大幅なパフォーマンス向上を実現しています。 コードはリリースされる。

Recently, Bird's-Eye-View (BEV) representation has gained increasing attention in multi-view 3D object detection, which has demonstrated promising applications in autonomous driving. Although multi-view camera systems can be deployed at low cost, the lack of depth information makes current approaches adopt large models for good performance. Therefore, it is essential to improve the efficiency of BEV 3D object detection. Knowledge Distillation (KD) is one of the most practical techniques to train efficient yet accurate models. However, BEV KD is still under-explored to the best of our knowledge. Different from image classification tasks, BEV 3D object detection approaches are more complicated and consist of several components. In this paper, we propose a unified framework named BEV-LGKD to transfer the knowledge in the teacher-student manner. However, directly applying the teacher-student paradigm to BEV features fails to achieve satisfying results due to heavy background information in RGB cameras. To solve this problem, we propose to leverage the localization advantage of LiDAR points. Specifically, we transform the LiDAR points to BEV space and generate the foreground mask and view-dependent mask for the teacher-student paradigm. It is to be noted that our method only uses LiDAR points to guide the KD between RGB models. As the quality of depth estimation is crucial for BEV perception, we further introduce depth distillation to our framework. Our unified framework is simple yet effective and achieves a significant performance boost. Code will be released.
翻訳日:2022-12-02 16:21:52 公開日:2022-12-01
# コントラスト学習と物理レンダリングを用いた任意の物体のワンショット認識

One-shot recognition of any material anywhere using contrastive learning with physics-based rendering ( http://arxiv.org/abs/2212.00648v1 )

ライセンス: Link先を確認
Manuel S. Drehwald (3), Sagi Eppel (1 and 2 and 4), Jolina Li (2 and 4), Han Hao (2), Alan Aspuru-Guzik (1 and 2) ((1) Vector institute, (2) University of Toronto, (3) Karlsruhe Institute of Technology, (4) Innoviz)(参考訳) matsim: 材料とテクスチャの類似性と遷移をコンピュータビジョンベースで認識する合成データセット、ベンチマーク、および方法を提案する。1つまたは数個の例(ワンショット学習)を用いて、任意の条件下で任意の素材を識別することにフォーカスする。 材料の視覚的な認識は、調理中の食品の検査から農業、化学、工業製品の検査まで、あらゆるものにとって不可欠である。 本研究では,コンピュータグラフィックスアーティストが使用する巨大リポジトリを用いて,材料類似性のための新しいCGIデータセットを作成する。 我々は物理ベースレンダリング(PBR)レポジトリを用いて視覚材料シミュレーションを行い、これらの材料をランダムな3Dオブジェクトに割り当て、背景と照明条件の広い画像をレンダリングする。 材料間の段階的な遷移を加えて、状態間のスムーズな遷移を支援する(徐々に調理される食品のように)。 また、透明容器内に材料をレンダリングして飲料や化学実験室のユースケースをサポートします。 次に, コントラスト学習ネットワークを訓練し, 1つの画像を用いて不慣れな資料を識別する記述子を生成する。 また, 化学反応の状態, 腐った果実, 食品の状態, 建設材料の種類, 地盤の種類, および物質状態, 遷移, サブクラスを含む多くのユースケースを含む, 幅広い実世界の実例を含む, 数発の物質認識のための新しいベンチマークを提示する。 MatSim合成データセットでトレーニングされたネットワークは、トレーニング中に見られなかった物質クラスでテストされているにもかかわらず、ベンチマークでClipのような最先端のモデルを上回っていることを示す。 データセット、ベンチマーク、コード、トレーニングされたモデルはオンラインで利用可能だ。

We present MatSim: a synthetic dataset, a benchmark, and a method for computer vision based recognition of similarities and transitions between materials and textures, focusing on identifying any material under any conditions using one or a few examples (one-shot learning). The visual recognition of materials is essential to everything from examining food while cooking to inspecting agriculture, chemistry, and industrial products. In this work, we utilize giant repositories used by computer graphics artists to generate a new CGI dataset for material similarity. We use physics-based rendering (PBR) repositories for visual material simulation, assign these materials random 3D objects, and render images with a vast range of backgrounds and illumination conditions (HDRI). We add a gradual transition between materials to support applications with a smooth transition between states (like gradually cooked food). We also render materials inside transparent containers to support beverage and chemistry lab use cases. We then train a contrastive learning network to generate a descriptor that identifies unfamiliar materials using a single image. We also present a new benchmark for a few-shot material recognition that contains a wide range of real-world examples, including the state of a chemical reaction, rotten/fresh fruits, states of food, different types of construction materials, types of ground, and many other use cases involving material states, transitions and subclasses. We show that a network trained on the MatSim synthetic dataset outperforms state-of-the-art models like Clip on the benchmark, despite being tested on material classes that were not seen during training. The dataset, benchmark, code and trained models are available online.
翻訳日:2022-12-02 16:21:29 公開日:2022-12-01
# CL3D:クロスLiDAR3D検出のための教師なしドメイン適応

CL3D: Unsupervised Domain Adaptation for Cross-LiDAR 3D Detection ( http://arxiv.org/abs/2212.00244v1 )

ライセンス: Link先を確認
Xidong Peng, Xinge Zhu, Yuexin Ma(参考訳) 異なる点密度と点配置を持つ生データ表現のギャップが大きいため,クロスライダー3次元検出のための領域適応は困難である。 ドメイン不変な3次元幾何学的特徴と運動パターンを探索することにより、上述の困難を克服する教師なし領域適応法を提案する。 まず、同じオブジェクトクラスの類似した3次元形状の幾何学的特徴を抽出し、2つの領域を整列させ、異なる点分布の影響を排除した空間幾何アライメントモジュールを提案する。 次に,2つの領域にマッチする逐次フレームの動作特徴を利用した時間動アライメントモジュールを提案する。 2つのモジュールから生成されたプロトタイプを擬似ラベル再重み付け手順に組み込み、対象ドメインに対する効果的な自己学習フレームワークに寄与する。 大規模実験により,デバイス間データセット,特にメカニカルスキャニングLiDARとソリッドステートLiDARによってキャプチャされた大きなギャップを持つデータセットの最先端性能が得られた。 プロジェクトホームページはhttps://github.com/4dvlab/cl3d.git

Domain adaptation for Cross-LiDAR 3D detection is challenging due to the large gap on the raw data representation with disparate point densities and point arrangements. By exploring domain-invariant 3D geometric characteristics and motion patterns, we present an unsupervised domain adaptation method that overcomes above difficulties. First, we propose the Spatial Geometry Alignment module to extract similar 3D shape geometric features of the same object class to align two domains, while eliminating the effect of distinct point distributions. Second, we present Temporal Motion Alignment module to utilize motion features in sequential frames of data to match two domains. Prototypes generated from two modules are incorporated into the pseudo-label reweighting procedure and contribute to our effective self-training framework for the target domain. Extensive experiments show that our method achieves state-of-the-art performance on cross-device datasets, especially for the datasets with large gaps captured by mechanical scanning LiDARs and solid-state LiDARs in various scenes. Project homepage is at https://github.com/4DVLab/CL3D.git
翻訳日:2022-12-02 16:14:52 公開日:2022-12-01
# 複数音源画像による顔アニメーション

Face Animation with Multiple Source Images ( http://arxiv.org/abs/2212.00256v1 )

ライセンス: Link先を確認
Zhaoying Pan, Jinge Ma(参考訳) 顔アニメーションは、様々な将来性のある応用のために、近年、研究者から多くの注目を集めている。 光フローやディープニューラルネットワークに基づく多くの顔アニメーションモデルは大きな成功を収めている。 しかし、これらのモデルは大きなビュー変更を伴うアニメーションシナリオでは失敗する可能性があり、非現実的あるいは歪んだ顔になる。 考えられる理由の1つは、そのようなモデルが人間の顔に関する事前の知識を欠き、これまで見たことのない顔領域を想像できないためである。 本稿では,新たな学習をすることなく,顔アニメーションの性能を向上させるためのフレキシブルで汎用的な手法を提案する。 顔の事前知識の欠如に対する補償として,複数のソースイメージを入力として使用する。 本手法の有効性を実験的に検証し,提案手法がベースライン法を補うことに成功した。

Face animation has received a lot of attention from researchers in recent years due to its wide range of promising applications. Many face animation models based on optical flow or deep neural networks have achieved great success. However, these models are likely to fail in animated scenarios with significant view changes, resulting in unrealistic or distorted faces. One of the possible reasons is that such models lack prior knowledge of human faces and are not proficient to imagine facial regions they have never seen before. In this paper, we propose a flexible and generic approach to improve the performance of face animation without additional training. We use multiple source images as input as compensation for the lack of prior knowledge of faces. The effectiveness of our method is experimentally demonstrated, where the proposed method successfully supplements the baseline method.
翻訳日:2022-12-02 16:14:32 公開日:2022-12-01
# 屋外空間における視覚的に類似した鳥類群集の多視点追跡, 再ID, ソーシャルネットワーク解析

Multi-view Tracking, Re-ID, and Social Network Analysis of a Flock of Visually Similar Birds in an Outdoor Aviary ( http://arxiv.org/abs/2212.00266v1 )

ライセンス: Link先を確認
Shiting Xiao, Yufu Wang, Ammon Perkes, Bernd Pfrommer, Marc Schmidt, Kostas Daniilidis and Marc Badger(参考訳) 社会集団内の個人間の詳細な相互作用を捉える能力は、動物行動と神経科学の研究の基礎となる。 ディープラーニングとコンピュータビジョンの最近の進歩は、複数の個人の行動とインタラクションを同時に記録できる方法の急速な進歩を後押ししている。 しかし、鳥類のような多くの社会種は3次元の世界に深く埋め込まれている。 この世界は、オクルージョン、方向に依存した外観、目に見える大きさの大きな変化、そして3D再構成のためのセンサーのカバー不足といった、他の知覚上の課題を導入する。 ここでは,3次元飛行場中を移動する鳴鳥集団の行動動態を研究するシステムについて紹介する。 密接な相互作用を持つ動物群を3次元で追跡する際に生じる複雑度を調査し,マルチビュートラッカを評価するための新しいデータセットを提案する。 最後に, 捕獲したエトグラムデータを分析し, 生活環境が鳥類間の連続的な相互作用の分布に及ぼす影響を実証する。

The ability to capture detailed interactions among individuals in a social group is foundational to our study of animal behavior and neuroscience. Recent advances in deep learning and computer vision are driving rapid progress in methods that can record the actions and interactions of multiple individuals simultaneously. Many social species, such as birds, however, live deeply embedded in a three-dimensional world. This world introduces additional perceptual challenges such as occlusions, orientation-dependent appearance, large variation in apparent size, and poor sensor coverage for 3D reconstruction, that are not encountered by applications studying animals that move and interact only on 2D planes. Here we introduce a system for studying the behavioral dynamics of a group of songbirds as they move throughout a 3D aviary. We study the complexities that arise when tracking a group of closely interacting animals in three dimensions and introduce a novel dataset for evaluating multi-view trackers. Finally, we analyze captured ethogram data and demonstrate that social context affects the distribution of sequential interactions between birds in the aviary.
翻訳日:2022-12-02 16:14:20 公開日:2022-12-01
# grit: オブジェクト理解のための生成領域からテキストへのトランスフォーマー

GRiT: A Generative Region-to-text Transformer for Object Understanding ( http://arxiv.org/abs/2212.00280v1 )

ライセンス: Link先を確認
Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang(参考訳) 本稿では,オブジェクト理解のためのジェネレーティブレジイオン・トゥ・テキスト変換器GRiTを提案する。 gritの精神は、領域がオブジェクトを見つけ、テキストがオブジェクトを記述する<region, text>ペアとして、オブジェクトの理解を定式化することである。 例えば、オブジェクト検出のテキストはクラス名を示し、密度の高いキャプションでは記述文を指します。 具体的には、画像特徴を抽出するビジュアルエンコーダ、オブジェクトをローカライズするフォアグラウンドオブジェクト抽出器、オープンセットオブジェクト記述を生成するテキストデコーダから構成される。 同じモデルアーキテクチャで、gritは単純な名詞だけでなく、オブジェクト属性やアクションを含むリッチな記述文でもオブジェクトを理解できる。 実験では,GRiTを物体検出および高密度キャプションタスクに適用した。 GRiTはオブジェクト検出のためのCOCO 2017 test-devで60.4 AP、高密度キャプションのためのVisual Genomeで15.5 mAPを達成した。 コードはhttps://github.com/JialianW/GRiTで入手できる。

This paper presents a Generative RegIon-to-Text transformer, GRiT, for object understanding. The spirit of GRiT is to formulate object understanding as <region, text> pairs, where region locates objects and text describes objects. For example, the text in object detection denotes class names while that in dense captioning refers to descriptive sentences. Specifically, GRiT consists of a visual encoder to extract image features, a foreground object extractor to localize objects, and a text decoder to generate open-set object descriptions. With the same model architecture, GRiT can understand objects via not only simple nouns, but also rich descriptive sentences including object attributes or actions. Experimentally, we apply GRiT to object detection and dense captioning tasks. GRiT achieves 60.4 AP on COCO 2017 test-dev for object detection and 15.5 mAP on Visual Genome for dense captioning. Code is available at https://github.com/JialianW/GRiT
翻訳日:2022-12-02 16:14:01 公開日:2022-12-01
# 自然言語と視覚言語を用いた聴覚障害者の多言語コミュニケーションシステム

Multilingual Communication System with Deaf Individuals Utilizing Natural and Visual Languages ( http://arxiv.org/abs/2212.00305v1 )

ライセンス: Link先を確認
Tuan-Luc Huynh, Khoi-Nguyen Nguyen-Ngoc, Chi-Bien Chu, Minh-Triet Tran, Trung-Nghia Le(参考訳) 世界聴覚障害者連盟によると、200以上の手話が存在する。 そのため、手話の熟練者でさえも聴覚障害の個人を理解することは困難であり、聴覚障害のコミュニティと社会の他の部分との障壁となる。 この言語障壁を埋めるため,手話利用者のコミュニケーション効率を向上させるために,MUGCATという新しい多言語通信システムを提案する。 認識された特定の手の動きを、普遍的な使用法と言語独立性である表現力のある画像に変換することで、私たちのMUGCATシステムは、聴覚障害者が自分の思考を伝えるのに大いに役立ちます。 手話使用の限界を克服するために,手話不完全翻訳から意味のある文を再構築する手法を提案する。 また, 生成文の意味的類似度を, 認識された手振りで測定し, 元の意味を維持した。 実験結果から,手話の手話のジェスチャーから,実感的なイラストや意味のある文章を合成し,リアルタイムに動作できることが示唆された。 このことは、MUGCATが聴覚障害者のコミュニケーションを支援する有望な可能性を証明している。

According to the World Federation of the Deaf, more than two hundred sign languages exist. Therefore, it is challenging to understand deaf individuals, even proficient sign language users, resulting in a barrier between the deaf community and the rest of society. To bridge this language barrier, we propose a novel multilingual communication system, namely MUGCAT, to improve the communication efficiency of sign language users. By converting recognized specific hand gestures into expressive pictures, which is universal usage and language independence, our MUGCAT system significantly helps deaf people convey their thoughts. To overcome the limitation of sign language usage, which is mostly impossible to translate into complete sentences for ordinary people, we propose to reconstruct meaningful sentences from the incomplete translation of sign language. We also measure the semantic similarity of generated sentences with fragmented recognized hand gestures to keep the original meaning. Experimental results show that the proposed system can work in a real-time manner and synthesize exquisite stunning illustrations and meaningful sentences from a few hand gestures of sign language. This proves that our MUGCAT has promising potential in assisting deaf communication.
翻訳日:2022-12-02 16:13:43 公開日:2022-12-01
# タスクアライン検出変換器を用いたパッシブミリ波画像の物体検出

Concealed Object Detection for Passive Millimeter-Wave Security Imaging Based on Task-Aligned Detection Transformer ( http://arxiv.org/abs/2212.00313v1 )

ライセンス: Link先を確認
Cheng Guo, Fei Hu, and Yan Hu(参考訳) パッシブミリ波(PMMW)は、人間のセキュリティスクリーニングにおいて重要な技術である。 PMMW画像にはいくつかの一般的な物体検出ネットワークが使われている。 しかし,PMMW画像の低分解能化や高ノイズ化により,深層学習に基づくPMMW隠れ物体検出は通常,低精度・低分類信頼性に悩まされる。 そこで本稿では,pmmw-detrと呼ばれるタスクアライメント検出トランスフォーマーネットワークを提案する。 最初の段階では、DCFT(Denoising Coarse-to-Fine Transformer)バックボーンは、異なるスケールで長短の特徴を抽出するように設計されている。 第2段階では,学習した空間的特徴を事前知識としてネットワークに導入し,ネットワークの意味知覚能力を高めるクエリ選択モジュールを提案する。 第3段階では,分類性能の向上を目的としたタスクアライメント型デュアルヘッドブロックを実施し,分類と回帰タスクを分離する。 自己開発PMMWセキュリティスクリーニングデータセットに基づいて, PMMW-DETRが従来よりも精度が高く, 分類信頼性が高く, 低品質のPMMW画像に対して堅牢性を示すことを示す。

Passive millimeter-wave (PMMW) is a significant potential technique for human security screening. Several popular object detection networks have been used for PMMW images. However, restricted by the low resolution and high noise of PMMW images, PMMW hidden object detection based on deep learning usually suffers from low accuracy and low classification confidence. To tackle the above problems, this paper proposes a Task-Aligned Detection Transformer network, named PMMW-DETR. In the first stage, a Denoising Coarse-to-Fine Transformer (DCFT) backbone is designed to extract long- and short-range features in the different scales. In the second stage, we propose the Query Selection module to introduce learned spatial features into the network as prior knowledge, which enhances the semantic perception capability of the network. In the third stage, aiming to improve the classification performance, we perform a Task-Aligned Dual-Head block to decouple the classification and regression tasks. Based on our self-developed PMMW security screening dataset, experimental results including comparison with State-Of-The-Art (SOTA) methods and ablation study demonstrate that the PMMW-DETR obtains higher accuracy and classification confidence than previous works, and exhibits robustness to the PMMW images of low quality.
翻訳日:2022-12-02 16:13:25 公開日:2022-12-01
# 相互情報に基づく一般化カテゴリー発見

Mutual Information-based Generalized Category Discovery ( http://arxiv.org/abs/2212.00334v1 )

ライセンス: Link先を確認
Florent Chiaroni, Jose Dolz, Ziko Imtiaz Masud, Amar Mitiche, Ismail Ben Ayed(参考訳) 一般化カテゴリ発見(gcd)問題に対する情報最大化手法を提案する。 具体的には,特徴量とラベル間の相互情報を評価するパラメトリックな損失関数群を探索し,予測性能を最大化する機能を自動的に見つける。 さらに,ラベルなし集合のクラス数を推定するElbow Maximum Centroid-Shift (EMaCS)技術を導入する。 我々の相互情報ベースアプローチ(MIB)は多様なGCDシナリオにおいて多目的かつ高い競争力を持つことを示す総合的な実験を報告する。 提案手法と既存手法とのギャップは重要であり,細粒度分類問題を扱う場合にはより重要となる。 コード: \url{https://github.com/fchiaroni/Mutual-Information-Based-GCD}。

We introduce an information-maximization approach for the Generalized Category Discovery (GCD) problem. Specifically, we explore a parametric family of loss functions evaluating the mutual information between the features and the labels, and find automatically the one that maximizes the predictive performances. Furthermore, we introduce the Elbow Maximum Centroid-Shift (EMaCS) technique, which estimates the number of classes in the unlabeled set. We report comprehensive experiments, which show that our mutual information-based approach (MIB) is both versatile and highly competitive under various GCD scenarios. The gap between the proposed approach and the existing methods is significant, more so when dealing with fine-grained classification problems. Our code: \url{https://github.com/fchiaroni/Mutual-Information-Based-GCD}.
翻訳日:2022-12-02 16:13:01 公開日:2022-12-01
# サブカテゴリ化による領域適応シーンテキスト検出

Domain Adaptive Scene Text Detection via Subcategorization ( http://arxiv.org/abs/2212.00377v1 )

ライセンス: Link先を確認
Zichen Tian, Chuhui Xue, Jingyi Zhang, Shijian Lu(参考訳) 既存のシーンテキスト検出装置のほとんどは、大きなトレーニングデータを必要とするが、2つの大きな要因によりスケールできない。 1)シーンテキスト画像は、しばしばドメイン固有の分布を持つ。 2)大規模な注釈付きテキスト画像の収集は手間がかかる。 様々な領域におけるラベルなし画像の処理をしながら,ラベル付きテキスト画像の最適な転送を目的とした,ほとんど無視されているが非常に有意義なタスクである。 具体的には、ドメイン適応シーンテキスト検出において、ネットワーク過度に適合しノイズの多い擬似ラベルを効果的に軽減するサブカテゴリ対応自己学習技術であるSCASTを設計する。 SCASTは2つの新しい設計で構成されている。 ラベル付きソースデータに対しては、フォアグラウンドテキストとバックグラウンドの両方の擬似サブカテゴリを導入し、マルチクラス検出目的のより一般化可能なソースモデルをトレーニングするのに役立つ。 ラベルなしのターゲットデータでは、ソースドメインでトレーニングされたバイナリとサブカテゴリの分類器を併用することで、ネットワークの過剰フィッティングを緩和する。 大規模な実験により、SCASTは複数の公開ベンチマークで一貫して優れた検出性能を達成し、また、車両検出のような他のドメイン適応検出タスクによく適応することを示した。

Most existing scene text detectors require large-scale training data which cannot scale well due to two major factors: 1) scene text images often have domain-specific distributions; 2) collecting large-scale annotated scene text images is laborious. We study domain adaptive scene text detection, a largely neglected yet very meaningful task that aims for optimal transfer of labelled scene text images while handling unlabelled images in various new domains. Specifically, we design SCAST, a subcategory-aware self-training technique that mitigates the network overfitting and noisy pseudo labels in domain adaptive scene text detection effectively. SCAST consists of two novel designs. For labelled source data, it introduces pseudo subcategories for both foreground texts and background stuff which helps train more generalizable source models with multi-class detection objectives. For unlabelled target data, it mitigates the network overfitting by co-regularizing the binary and subcategory classifiers trained in the source domain. Extensive experiments show that SCAST achieves superior detection performance consistently across multiple public benchmarks, and it also generalizes well to other domain adaptive detection tasks such as vehicle detection.
翻訳日:2022-12-02 16:12:48 公開日:2022-12-01
# 画像復調用パッチの教師なし線形および反復結合

Unsupervised Linear and Iterative Combinations of Patches for Image Denoising ( http://arxiv.org/abs/2212.00422v1 )

ライセンス: Link先を確認
S\'ebastien Herbreteau and Charles Kervrann(参考訳) BM3Dが代表的であり,2次リスク最小化を非教師なし最適化に活用する非局所的2段階デノイザのパラメトリックビューを導入する。 このパラダイム内では、反復による数学的パラメトリックな定式化の拡張を提案する。 この一般化は、2段階のデノイザーすべてに対して2段目の繰り返しが現実的でないために、さらなるデノイジング性能の向上を期待できる。 結果として得られる定式化は、さらに多くのパラメータを教師なしの方法で推定することを伴う。 nl-ridgeのパラメータ化形式,最も単純だが最も効率的な非局所二段階デノイザーに着目し,リスクを最小化するパラメータを近似するプログレッシブスキームを提案する。 最終的に、切り離された画像はパッチの反復的な線形結合で構成されている。 人工的にノイズの多い画像だけでなく,実世界のノイズ画像でも実験した結果,wnnmなどの教師なしデノイザと比較して,近年のディープラーニングアプローチをはるかに高速で上回る結果が得られた。

We introduce a parametric view of non-local two-step denoisers, for which BM3D is a major representative, where quadratic risk minimization is leveraged for unsupervised optimization. Within this paradigm, we propose to extend the underlying mathematical parametric formulation by iteration. This generalization can be expected to further improve the denoising performance, somehow curbed by the impracticality of repeating the second stage for all two-step denoisers. The resulting formulation involves estimating an even larger amount of parameters in a unsupervised manner which is all the more challenging. Focusing on the parameterized form of NL-Ridge, the simplest but also most efficient non-local two-step denoiser, we propose a progressive scheme to approximate the parameters minimizing the risk. In the end, the denoised images are made up of iterative linear combinations of patches. Experiments on artificially noisy images but also on real-world noisy images demonstrate that our method compares favorably with the very best unsupervised denoisers such as WNNM, outperforming the recent deep-learning-based approaches, while being much faster.
翻訳日:2022-12-02 16:12:28 公開日:2022-12-01
# ViewNet:条件生成からの教師なし視点推定

ViewNet: Unsupervised Viewpoint Estimation from Conditional Generation ( http://arxiv.org/abs/2212.00435v1 )

ライセンス: Link先を確認
Octave Mariotti, Oisin Mac Aodha and Hakan Bilen(参考訳) この領域のタスクのディープネットワークを監督するために必要なアノテーションは、大規模に入手するのに費用がかかるため、コンピュータビジョンにおける3D世界を理解することは、現在大きな課題である。 本稿では,教師なし視点推定の問題に対処する。 これを自己監督学習タスクとして定式化し,画像再構成によりカメラ視点の予測に必要な監督を行う。 具体的には、一方の画像からの視点情報と他方からの外観情報とを組み合わせることにより、未知の視点から自己監督訓練まで、訓練時間における同一物体のペア画像を利用する。 我々は,パースペクティブ空間トランスフォーマを用いて効率的な視点学習を可能にし,既存の教師なし手法を合成データで上回り,挑戦的なpascal3d+データセット上での競合結果を得ることを実証する。

Understanding the 3D world without supervision is currently a major challenge in computer vision as the annotations required to supervise deep networks for tasks in this domain are expensive to obtain on a large scale. In this paper, we address the problem of unsupervised viewpoint estimation. We formulate this as a self-supervised learning task, where image reconstruction provides the supervision needed to predict the camera viewpoint. Specifically, we make use of pairs of images of the same object at training time, from unknown viewpoints, to self-supervise training by combining the viewpoint information from one image with the appearance information from the other. We demonstrate that using a perspective spatial transformer allows efficient viewpoint learning, outperforming existing unsupervised approaches on synthetic data, and obtains competitive results on the challenging PASCAL3D+ dataset.
翻訳日:2022-12-02 16:12:08 公開日:2022-12-01
# xem: customer 360で説明可能なエンティティマッチング

xEM: Explainable Entity Matching in Customer 360 ( http://arxiv.org/abs/2212.00342v1 )

ライセンス: Link先を確認
Sukriti Jaitly, Deepa Mariam George, Balaji Ganesan, Muhammad Ameen, Srinivas Pusapati(参考訳) 顧客360におけるエンティティマッチングは、複数のレコードが同じ実世界エンティティを表すかどうかを決定するタスクである。 エンティティは通常、グラフ内の属性ノードとして表される人、組織、場所、イベントであるが、リレーショナルデータのレコードとして表すこともできる。 このタスクには確率的マッチングエンジンと人工ニューラルネットワークモデルが存在するが、エンティティマッチングの説明はあまり注目されていない。 このデモでは、説明可能なエンティティマッチング(xEM)システムを紹介し、その実装におけるAI/MLのさまざまな考察について議論する。

Entity matching in Customer 360 is the task of determining if multiple records represent the same real world entity. Entities are typically people, organizations, locations, and events represented as attributed nodes in a graph, though they can also be represented as records in relational data. While probabilistic matching engines and artificial neural network models exist for this task, explaining entity matching has received less attention. In this demo, we present our Explainable Entity Matching (xEM) system and discuss the different AI/ML considerations that went into its implementation.
翻訳日:2022-12-02 16:05:58 公開日:2022-12-01
# onmatheduオントロジーエンリッチメント方法

Ontomathedu Ontology Enrichment Method ( http://arxiv.org/abs/2212.00368v1 )

ライセンス: Link先を確認
O. A. Nevzorova, K. S. Nikolaev(参考訳) 近年,遠隔学習技術が普及している。 最近のパンデミックは、遠隔教育技術の発展に特に大きな影響を与えている。 カザン連邦大学はLMS Moodleに基づく遠隔学習システムを持っている。 本稿では,学校数学講座の指導過程を改善することを目的としたOntoMathEduエコシステムの構造について述べるとともに,文脈関連概念間の新たなつながりの同定に基づくOntoMathEduオントロジー構造の改善方法について述べる。

Nowadays, distance learning technologies have become very popular. The recent pandemic has had a particularly strong impact on the development of distance education technologies. Kazan Federal University has a distance learning system based on LMS Moodle. This article describes the structure of the OntoMathEdu ecosystem aimed at improving the process of teaching school mathematics courses, and also provides a method for improving the OntoMathEdu ontology structure based on identifying new connections between contextually related concepts.
翻訳日:2022-12-02 16:05:47 公開日:2022-12-01
# インターリービングを用いた単発正規表現に対する耐雑音性差分学習手法

A Noise-tolerant Differentiable Learning Approach for Single Occurrence Regular Expression with Interleaving ( http://arxiv.org/abs/2212.00373v1 )

ライセンス: Link先を確認
Rongzhen Ye, Tianqu Zhuang, Hai Wan, Jianfeng Du, Weilin Luo, Pingjia Liang(参考訳) ノイズのある文字列の集合からインターリービング(SOIRE)を用いて単一発生正規表現を学習する問題について検討する。 SOIREはインターリービングの制限のないサポートをしており、実際にはほとんどの正規表現をカバーしている。 SOIREの学習は、重い計算を必要とし、テキスト文字列は通常、実際にノイズを含むため、難しい。 以前の作業のほとんどは制限されたSOIREしか学習せず、ノイズの多いデータでは堅牢ではない。 これらの課題に対処するために,SOIREのためのSOIREDLを用いた雑音耐性微分学習手法を提案する。 我々は、与えられた文字列のSOIREマッチングをシミュレートするニューラルネットワークを設計し、ニューラルネットワークによって学習されたパラメータの集合のクラスが、有界サイズでSOIREに対応する1対1であることが理論的に証明する。 この対応に基づき、最も近い忠実な符号化を探索することにより、ニューラルネットワークのパラメータ集合からターゲットSOIREを解釈する。 実験の結果,SOIREDLは特にノイズの多いデータに対して,最先端のアプローチよりも優れていた。

We examine the problem of learning a single occurrence regular expression with interleaving (SOIRE) from a set of text strings with noise. SOIRE has unrestricted support for interleaving and covers most of the regular expressions in practice. Learning SOIREs is challenging because it needs heavy computation and text strings usually contains noise in practice. Most of the previous work only learns restricted SOIREs and is not robust on noisy data. To tackle these issues, we proposea noise-tolerant differentiable learning approach SOIREDL for SOIRE. We design a neural network to simulate SOIRE matching of given text strings and theoretically prove that a class of the set of parameters learnt by the neural network, called faithful encoding, is one-to-one corresponding to SOIRE for a bounded size. Based on this correspondence, we interpret the target SOIRE from the set of parameters of the neural network by exploring nearest faithful encodings. Experimental results show that SOIREDL outperforms the state-of-the-art approaches especially on noisy data.
翻訳日:2022-12-02 16:05:38 公開日:2022-12-01
# リレーショナルメッセージパッシングニューラルネットワークを用いた不均一シーングラフ生成

Unbiased Heterogeneous Scene Graph Generation with Relation-aware Message Passing Neural Network ( http://arxiv.org/abs/2212.00443v1 )

ライセンス: Link先を確認
Kanghoon Yoon, Kibum Kim, Jinyoung Moon, Chanyoung Park(参考訳) 最近のシーングラフ生成(SGG)フレームワークは、画像内の複数のオブジェクト間の複雑な関係を学習することに焦点を当てている。 オブジェクトとその隣接するオブジェクト間の高次相互作用をモデル化するメッセージパッシングニューラルネットワーク(MPNN)の性質のおかげで、SGGの代表的な表現学習モジュールとなっている。 しかし、既存のMPNNベースのフレームワークはシーングラフを均質なグラフとみなし、オブジェクト間の視覚的関係の文脈認識を制限する。 つまり、関係が関連している対象に大きく依存する傾向があるという事実を、彼らは見落としている。 本稿では,メッセージパッシングニューラルネットワークを用いて関係認識コンテキストをキャプチャする不偏不均一シーングラフ生成(hetsgg)フレームワークを提案する。 本稿では,オブジェクト間の述語型を考慮した画像の文脈情報を集約する,rmp(relation-aware message passing neural network)と呼ばれる新しいメッセージパッシング層を考案する。 以上の結果から,HetSGGは最先端の手法,特に尾部述語クラスでは性能に優れていた。

Recent scene graph generation (SGG) frameworks have focused on learning complex relationships among multiple objects in an image. Thanks to the nature of the message passing neural network (MPNN) that models high-order interactions between objects and their neighboring objects, they are dominant representation learning modules for SGG. However, existing MPNN-based frameworks assume the scene graph as a homogeneous graph, which restricts the context-awareness of visual relations between objects. That is, they overlook the fact that the relations tend to be highly dependent on the objects with which the relations are associated. In this paper, we propose an unbiased heterogeneous scene graph generation (HetSGG) framework that captures relation-aware context using message passing neural networks. We devise a novel message passing layer, called relation-aware message passing neural network (RMP), that aggregates the contextual information of an image considering the predicate type between objects. Our extensive evaluations demonstrate that HetSGG outperforms state-of-the-art methods, especially outperforming on tail predicate classes.
翻訳日:2022-12-02 16:05:22 公開日:2022-12-01
# マルチエージェント計画における公平性

Fairness in Multi-Agent Planning ( http://arxiv.org/abs/2212.00506v1 )

ライセンス: Link先を確認
Alberto Pozanco, Daniel Borrajo(参考訳) 協調的多エージェント計画(MAP)において、目標のセットはエージェントのセットによって達成されなければならない。 エージェントに事前割り当てを行うか、あるいは目標割り当てなしで直接ソリューションを探索するかとは独立して、ほとんどの以前の作業はエージェントによる目標の公平な分配/達成に重点を置いていなかった。 本稿では、MAPによく知られたフェアネススキームを適用し、コストを考慮したフェアネスプランを作成するための2つの新しいアプローチを提案する。 1つ目はエージェントに目標を割り当てる最適化問題の解法であり、次にその代入を使って集中的なMAPタスクを解く。 もうひとつは,与えられた公平性を考慮しながら,目標割り当てと計画の共通問題を解決するための,計画ベースのコンパイルである。 いくつかの標準MAPベンチマークの実証結果は、これらのアプローチが異なるベースラインよりも優れていることを示している。 彼らはまた、公正な計画を作成するのに多くの計画コストを犠牲にする必要はないことを示した。

In cooperative Multi-Agent Planning (MAP), a set of goals has to be achieved by a set of agents. Independently of whether they perform a pre-assignment of goals to agents or they directly search for a solution without any goal assignment, most previous works did not focus on a fair distribution/achievement of goals by agents. This paper adapts well-known fairness schemes to MAP, and introduces two novel approaches to generate cost-aware fair plans. The first one solves an optimization problem to pre-assign goals to agents, and then solves a centralized MAP task using that assignment. The second one consists of a planning-based compilation that allows solving the joint problem of goal assignment and planning while taking into account the given fairness scheme. Empirical results in several standard MAP benchmarks show that these approaches outperform different baselines. They also show that there is no need to sacrifice much plan cost to generate fair plans.
翻訳日:2022-12-02 16:05:01 公開日:2022-12-01
# 薬物・標的相互作用予測のための微粒化選択類似性統合

Fine-Grained Selective Similarity Integration for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2212.00543v1 )

ライセンス: Link先を確認
Bin Liu, Jin Wang, Kaiwei Sun, Grigorios Tsoumakas(参考訳) 薬物標的相互作用の発見(DTIs)は医薬品開発における重要なプロセスである。 計算アプローチは、多くの候補から新しいDTIを予測するため、退屈でコストのかかるウェットラブ実験に代わる、有望で効率的な代替手段である。 近年,多種多様なデータソースから多種多様な生物情報が得られるようになり,dti予測の性能を高めるために複数の薬物や標的類似性を利用した計算手法が開発されている。 相似性統合は相補的相似性ビューにまたがる重要な情報を抽出する効果的で柔軟な戦略であり、相似性に基づくdti予測モデルに対して圧縮入力を提供する。 しかし、既存の類似性統合手法はグローバルの観点から類似性をフィルタリングし融合し、各薬物や標的に対する類似性ビューの有用性を無視している。 本研究では、局所的相互作用一貫性に基づく重み行列を用いて、類似度選択と組み合わせステップの両方において、より微細な粒度での類似性の重要性を捉え、活用するFGSと呼ばれるファイングラインド選択類似性統合手法を提案する。 5つのDTI予測データセットのFGSを様々な予測条件下で評価する。 実験結果から,提案手法は類似性統合の競合を同等の計算コストで上回るだけでなく,従来のベースモデルとの協調による最新のDTI予測手法よりも優れた予測性能が得られることが示された。 さらに、類似度重みの解析と新しい予測の検証に関するケーススタディにより、FGSの実用性が確認された。

The discovery of drug-target interactions (DTIs) is a pivotal process in pharmaceutical development. Computational approaches are a promising and efficient alternative to tedious and costly wet-lab experiments for predicting novel DTIs from numerous candidates. Recently, with the availability of abundant heterogeneous biological information from diverse data sources, computational methods have been able to leverage multiple drug and target similarities to boost the performance of DTI prediction. Similarity integration is an effective and flexible strategy to extract crucial information across complementary similarity views, providing a compressed input for any similarity-based DTI prediction model. However, existing similarity integration methods filter and fuse similarities from a global perspective, neglecting the utility of similarity views for each drug and target. In this study, we propose a Fine-Grained Selective similarity integration approach, called FGS, which employs a local interaction consistency-based weight matrix to capture and exploit the importance of similarities at a finer granularity in both similarity selection and combination steps. We evaluate FGS on five DTI prediction datasets under various prediction settings. Experimental results show that our method not only outperforms similarity integration competitors with comparable computational costs, but also achieves better prediction performance than state-of-the-art DTI prediction approaches by collaborating with conventional base models. Furthermore, case studies on the analysis of similarity weights and on the verification of novel predictions confirm the practical ability of FGS.
翻訳日:2022-12-02 16:04:47 公開日:2022-12-01
# Fast-SNARF:人工神経の高速変形器

Fast-SNARF: A Fast Deformer for Articulated Neural Fields ( http://arxiv.org/abs/2211.15601v2 )

ライセンス: Link先を確認
Xu Chen, Tianjian Jiang, Jie Song, Max Rietmann, Andreas Geiger, Michael J. Black, Otmar Hilliges(参考訳) ニューラルフィールドは3次元再構成と剛体シーンの新しいビュー合成の領域に革命をもたらした。 このような手法を人体などの関節オブジェクトに適用する上で重要な課題は、残りのポーズ(標準空間)と変形した空間の間の3D位置の変形をモデル化することである。 本研究では, 反復的ルート探索により, 正準空間とポーズ空間の正確な対応を求める, ニューラルフィールドのための新しい調音モジュールfast-snarfを提案する。 Fast-SNARFは、これまでの作業であるSNARFの代替機能であり、計算効率は大幅に向上した。 我々は,SNARFに対するアルゴリズムおよび実装の改善に寄与し,150\times$の高速化を実現した。 これらの改善には、voxelベースの対応検索、線形ブレンドスキン機能の事前計算、CUDAカーネルによる効率的なソフトウェア実装が含まれる。 高速SNARFは、対応のない変形した観察(例えば3Dメッシュ)に対して、形状とスキンの重量の効率的かつ同時最適化を可能にする。 変形マップの学習は多くの人間のアバター法において重要な要素であり、Fast-SNARFは計算効率の良い解を提供するので、この研究は3次元仮想人間の実現に向けた重要な一歩であると信じている。

Neural fields have revolutionized the area of 3D reconstruction and novel view synthesis of rigid scenes. A key challenge in making such methods applicable to articulated objects, such as the human body, is to model the deformation of 3D locations between the rest pose (a canonical space) and the deformed space. We propose a new articulation module for neural fields, Fast-SNARF, which finds accurate correspondences between canonical space and posed space via iterative root finding. Fast-SNARF is a drop-in replacement in functionality to our previous work, SNARF, while significantly improving its computational efficiency. We contribute several algorithmic and implementation improvements over SNARF, yielding a speed-up of $150\times$. These improvements include voxel-based correspondence search, pre-computing the linear blend skinning function, and an efficient software implementation with CUDA kernels. Fast-SNARF enables efficient and simultaneous optimization of shape and skinning weights given deformed observations without correspondences (e.g. 3D meshes). Because learning of deformation maps is a crucial component in many 3D human avatar methods and since Fast-SNARF provides a computationally efficient solution, we believe that this work represents a significant step towards the practical creation of 3D virtual humans.
翻訳日:2022-12-02 16:04:24 公開日:2022-12-01
# 高速マルチビュービデオ合成のための混合ニューラルネットワークボクセル

Mixed Neural Voxels for Fast Multi-view Video Synthesis ( http://arxiv.org/abs/2212.00190v1 )

ライセンス: Link先を確認
Feng Wang, Sinan Tan, Xinghang Li, Zeyue Tian and Huaping Liu(参考訳) 実世界のマルチビュー入力から高忠実度ビデオを合成することは、現実の環境の複雑さと非常にダイナミックな動きのために困難である。 従来の神経放射場に基づく研究は、動的シーンの高品質な再構成を実証してきた。 しかし、そのようなモデルを実世界のシーンでトレーニングするのには通常数日から数週間かかる。 本稿では,高速なトレーニング速度と競争性を有する動的シーンをよりよく表現するためのmixvoxelsという新しい手法を提案する。 提案したMixVoxelsは、4D動的シーンを静的および動的ボクセルの混合として表現し、異なるネットワークで処理する。 このようにして、静的なボクセルに必要なモダリティの計算を軽量なモデルで行うことができ、特に静的な背景が支配する多くの動的シーンにおいて、計算の量を削減することができる。 2種類のボクセルを分離するために,各ボクセルの時間的ばらつきを推定する新しい変動場を提案する。 動的ボクセルでは,複数の時間ステップを効率的に問合せするための内積時間問合せ手法を設計し,高ダイナミックな動作の復元に不可欠である。 その結果,300コマビデオの入力によるダイナミックシーンのトレーニング15分で,MixVoxelsは従来の手法よりも優れたPSNRを実現することができた。 コードとトレーニングされたモデルはhttps://github.com/fengres/mixvoxelsで入手できる。

Synthesizing high-fidelity videos from real-world multi-view input is challenging because of the complexities of real-world environments and highly dynamic motions. Previous works based on neural radiance fields have demonstrated high-quality reconstructions of dynamic scenes. However, training such models on real-world scenes is time-consuming, usually taking days or weeks. In this paper, we present a novel method named MixVoxels to better represent the dynamic scenes with fast training speed and competitive rendering qualities. The proposed MixVoxels represents the 4D dynamic scenes as a mixture of static and dynamic voxels and processes them with different networks. In this way, the computation of the required modalities for static voxels can be processed by a lightweight model, which essentially reduces the amount of computation, especially for many daily dynamic scenes dominated by the static background. To separate the two kinds of voxels, we propose a novel variation field to estimate the temporal variance of each voxel. For the dynamic voxels, we design an inner-product time query method to efficiently query multiple time steps, which is essential to recover the high-dynamic motions. As a result, with 15 minutes of training for dynamic scenes with inputs of 300-frame videos, MixVoxels achieves better PSNR than previous methods. Codes and trained models are available at https://github.com/fengres/mixvoxels
翻訳日:2022-12-02 16:03:37 公開日:2022-12-01
# VIDM:ビデオインシシデント拡散モデル

VIDM: Video Implicit Diffusion Models ( http://arxiv.org/abs/2212.00235v1 )

ライセンス: Link先を確認
Kangfu Mei and Vishal M. Patel(参考訳) 拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。 本稿では,拡散モデルに基づく映像生成手法を提案する。動きの影響を暗黙の条件でモデル化する。 我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。 異なる解像度と異なるフレーム数の動画からなるデータセット上で、様々な実験が行われた。 その結果,提案手法は,FVDスコアと知覚可能な視覚的品質の点で,最先端の対向的ネットワークベース手法よりも優れていた。

Diffusion models have emerged as a powerful generative method for synthesizing high-quality and diverse set of images. In this paper, we propose a video generation method based on diffusion models, where the effects of motion are modeled in an implicit condition manner, i.e. one can sample plausible video motions according to the latent feature of frames. We improve the quality of the generated videos by proposing multiple strategies such as sampling space truncation, robustness penalty, and positional group normalization. Various experiments are conducted on datasets consisting of videos with different resolutions and different number of frames. Results show that the proposed method outperforms the state-of-the-art generative adversarial network-based methods by a significant margin in terms of FVD scores as well as perceptible visual quality.
翻訳日:2022-12-02 16:03:14 公開日:2022-12-01
# WMT 22効率的な翻訳共有タスクのためのCUNI非自己回帰システム

CUNI Non-Autoregressive System for the WMT 22 Efficient Translation Shared Task ( http://arxiv.org/abs/2212.00477v1 )

ライセンス: Link先を確認
Jind\v{r}ich Helcl(参考訳) WMT 22 の効率的な翻訳共有タスクに非自己回帰システムを提案する。 本システムは,非自己回帰モデルと自己回帰モデルとの公正な比較を目的としたHelclらによって2022年に開発された。 この提案は、特に復号速度の測定の観点から、健全なベースラインと音響評価手法を確立するための試みである。 モデル自体が12層トランスフォーマーモデルであり、強い自己回帰型教師モデルによる知識蒸留データセットの接続性時間的分類を訓練している。

We present a non-autoregressive system submission to the WMT 22 Efficient Translation Shared Task. Our system was used by Helcl et al. (2022) in an attempt to provide fair comparison between non-autoregressive and autoregressive models. This submission is an effort to establish solid baselines along with sound evaluation methodology, particularly in terms of measuring the decoding speed. The model itself is a 12-layer Transformer model trained with connectionist temporal classification on knowledge-distilled dataset by a strong autoregressive teacher model.
翻訳日:2022-12-02 15:57:03 公開日:2022-12-01
# IRRGN:マルチターン応答選択のための暗黙リレーショナル推論グラフネットワーク

IRRGN: An Implicit Relational Reasoning Graph Network for Multi-turn Response Selection ( http://arxiv.org/abs/2212.00482v1 )

ライセンス: Link先を確認
Jingcheng Deng, Hengwei Dai, Xuewei Guo, Yuanchen Ju and Wei Peng(参考訳) マルチターン対話における応答選択のタスクは、すべての候補から最適な選択肢を見つけることである。 モデルの推論能力を向上させるために、これまでの研究では、決定論的で限定的で柔軟性に乏しい発話間の依存関係をモデル化するために、明示的なアルゴリズムを使うことに注意を払っている。 加えて、推論前後の選択肢の違いを考慮する研究はほとんどない。 本稿では,これらの問題に対処するImplicit Relational Reasoning Graph Networkを提案し,Utterance Relational Reasoner (URR) とOption Dual Comparator (ODC) から構成される。 URRは、発話間の依存関係を暗黙的に抽出し、発話とオプションを抽出し、リレーショナルグラフ畳み込みネットワークで推論することを目的としている。 ODCは、ノイズオプションの干渉を排除できる二重比較により、選択肢間の差異を知覚することに焦点を当てている。 2つのマルチターン対話推論ベンチマークデータセットにおける実験結果から,本手法は4つの事前学習言語モデルのベースラインを大幅に改善し,最先端の性能を実現する。 このモデルは、MuTualデータセットで初めて人間のパフォーマンスを上回ります。

The task of response selection in multi-turn dialogue is to find the best option from all candidates. In order to improve the reasoning ability of the model, previous studies pay more attention to using explicit algorithms to model the dependencies between utterances, which are deterministic, limited and inflexible. In addition, few studies consider differences between the options before and after reasoning. In this paper, we propose an Implicit Relational Reasoning Graph Network to address these issues, which consists of the Utterance Relational Reasoner (URR) and the Option Dual Comparator (ODC). URR aims to implicitly extract dependencies between utterances, as well as utterances and options, and make reasoning with relational graph convolutional networks. ODC focuses on perceiving the difference between the options through dual comparison, which can eliminate the interference of the noise options. Experimental results on two multi-turn dialogue reasoning benchmark datasets MuTual and MuTual+ show that our method significantly improves the baseline of four pretrained language models and achieves state-of-the-art performance. The model surpasses human performance for the first time on the MuTual dataset.
翻訳日:2022-12-02 15:56:49 公開日:2022-12-01
# WMT22チェコ・ウクライナ翻訳タスクのためのCUNIシステム

CUNI Systems for the WMT22 Czech-Ukrainian Translation Task ( http://arxiv.org/abs/2212.00486v1 )

ライセンス: Link先を確認
Martin Popel, Jind\v{r}ich Libovick\'y, Jind\v{r}ich Helcl(参考訳) チェコ・ウクライナ語・ウクライナ語・チェコ語機械翻訳に関するWMT22総合翻訳共有タスクをチャールズ大学に提出する。 ブロックのバックトランスレーションとタグ付きバックトランスレーションに基づく制約付き2つの提案と,ルールに基づくウクライナのロマン化の実験を行った。 その結果,ローマ字化は翻訳品質にわずかな影響しか及ぼさないことがわかった。 さらに、2022年3月にウクライナからチェコへの移民に対応するために開発されたチャールズ・トランスレーターについて述べる。 制約のあるシステムと比較して、ローマ化は使用せず、プロプライエタリなデータソースも使用しました。

We present Charles University submissions to the WMT22 General Translation Shared Task on Czech-Ukrainian and Ukrainian-Czech machine translation. We present two constrained submissions based on block back-translation and tagged back-translation and experiment with rule-based romanization of Ukrainian. Our results show that the romanization only has a minor effect on the translation quality. Further, we describe Charles Translator, a system that was developed in March 2022 as a response to the migration from Ukraine to the Czech Republic. Compared to our constrained systems, it did not use the romanization and used some proprietary data sources.
翻訳日:2022-12-02 15:56:20 公開日:2022-12-01
# culturebert: 企業文化のためのトランスフォーマーベースの言語モデル

CultureBERT: Fine-Tuning Transformer-Based Language Models for Corporate Culture ( http://arxiv.org/abs/2212.00509v1 )

ライセンス: Link先を確認
Sebastian Koch and Stefan Pasch(参考訳) 本稿では,テキスト文書から企業文化を計測する文献に教師付き機械学習を導入する。 我々は、企業の企業文化に関するレビューが示す情報に関して、人的評価者によってラベル付けされた従業員レビューのユニークなデータセットをコンパイルします。 このデータセットを用いて、最先端のトランスフォーマーベースの言語モデルを微調整し、同じ分類タスクを実行する。 サンプル外予測では、我々の言語モデルは、従来のテキスト分類のアプローチよりも、人間の評価者に沿った16~28パーセントの従業員レビューを分類します。

This paper introduces supervised machine learning to the literature measuring corporate culture from text documents. We compile a unique data set of employee reviews that were labeled by human evaluators with respect to the information the reviews reveal about the firms' corporate culture. Using this data set, we fine-tune state-of-the-art transformer-based language models to perform the same classification task. In out-of-sample predictions, our language models classify 16 to 28 percent points more of employee reviews in line with human evaluators than traditional approaches of text classification.
翻訳日:2022-12-02 15:56:11 公開日:2022-12-01
# マルチラベルテキスト分類におけるコントラスト学習の適用に関する研究

Research on the application of contrastive learning in multi-label text classification ( http://arxiv.org/abs/2212.00552v1 )

ライセンス: Link先を確認
Nankai Lin, Guanqiu Qin, Jigang Wang, Aimin Yang, Dong Zhou(参考訳) 自然言語処理タスクにおけるコントラスト学習技術の効果的な応用は,テキスト解析タスクにおけるコントラスト学習の優位性を示す。 正と負のサンプルを正しくかつ合理的に構築する方法は、コントラスト学習の核となる課題である。 多段マルチクラス化タスクでは、コントラストオブジェクトの構築が困難であるため、多段マルチクラス化テキスト分類のコントラスト損失は少ない。 本稿では,マルチラベルマルチクラス化タスクにおける5つのコントラスト損失を提案する。 SCL(Strict Contrastive Loss)、ICL(Intra-label Contrastive Loss)、JSCL(Jaccard similarity Contrastive Loss)、JSPCL(Jaccard similarity Probability Contrastive Loss)、SLCL(Stepwise Label Contrastive Loss)である。 異なる戦略下でのマルチラベル多分類タスクにおけるコントラスト学習の有効性について検討し,マルチラベル分類タスクにおけるコントラスト学習手法のベースライン手法を提案する。 また,このアプローチの解釈可能性分析を行い,異なるコントラスト学習手法がどのような役割を担っているかを示す。 本稿では,提案するコントラスト損失がマルチラベルマルチクラス化タスクにいくつかの改善をもたらすことを示す。 マルチラベルマルチクラス化タスクにおけるコントラスト学習の適応性を改善するための鍵となるアイデアは、コントラスト学習のコントラスト学習を「適切に」変える方法を明らかにすることである。

The effective application of contrastive learning technology in natural language processing tasks shows the superiority of contrastive learning in text analysis tasks. How to construct positive and negative samples correctly and reasonably is the core challenge of contrastive learning. Since it is difficult to construct contrastive objects in multi-label multi-classification tasks, there are few contrastive losses for multi-label multi-classification text classification. In this paper, we propose five contrastive losses for multi-label multi-classification tasks. They are Strict Contrastive Loss (SCL), Intra-label Contrastive Loss (ICL), Jaccard Similarity Contrastive Loss (JSCL), and Jaccard Similarity Probability Contrastive Loss (JSPCL) and Stepwise Label Contrastive Loss (SLCL). We explore the effectiveness of contrastive learning for multi-label multi-classification tasks under different strategies, and provide a set of baseline methods for contrastive learning techniques on multi-label classification tasks. We also perform an interpretability analysis of our approach to show how different contrastive learning methods play their roles. The experimental results in this paper demonstrate that our proposed contrastive losses can bring some improvement for multi-label multi-classification tasks. Our work reveal how to "appropriately" change the contrastive way of contrastive learning is the key idea to improve the adaptability of contrastive learning in multi-label multi-classification tasks.
翻訳日:2022-12-02 15:56:02 公開日:2022-12-01
# 言語モデルの拡張可能なプロンプト

Extensible Prompts for Language Models ( http://arxiv.org/abs/2212.00616v1 )

ライセンス: Link先を確認
Tao Ge, Jing Hu, Li Dong, Shaoguang Mao, Yan Xia, Xun Wang, Si-Qing Chen, Furu Wei(参考訳) 本稿では,自然言語(nl)を超えた大規模言語モデル(llm)の推進を目的とした拡張性プロンプト(x-prompt)を提案する。 X-Prompt は、NL だけでなく、NL の言葉がほとんど説明できないものを表現するために導入された想像上の単語の拡張語彙も LLM に指示する。 NLプロンプトと同様に、X-Promptは配布外(OOD)ロバストであり、即時拡張による文脈誘導学習を提案する。 X-Promptの有望な結果は、コミュニケーションギャップを埋めるために人間とLLMの高度な相互作用に近づく可能性を示している。

We propose eXtensible Prompt (X-Prompt) for prompting a large language model (LLM) beyond natural language (NL). X-Prompt instructs an LLM with not only NL but also an extensible vocabulary of imaginary words that are introduced to help represent what NL words hardly describe, allowing a prompt to be more descriptive. Like NL prompts, X-Prompt is out-of-distribution (OOD) robust, for which we propose context-guided learning with prompt augmentation to learn its imaginary words for general usability, enabling them to use in different prompt contexts for fine-grain specifications. The promising results of X-Prompt demonstrate its potential of approaching advanced interaction between humans and LLMs to bridge their communication gap.
翻訳日:2022-12-02 15:55:33 公開日:2022-12-01
# CliMedBERT:気候および健康関連テキストのための事前学習言語モデル

CliMedBERT: A Pre-trained Language Model for Climate and Health-related Text ( http://arxiv.org/abs/2212.00689v1 )

ライセンス: Link先を確認
B. Jalalzadeh Fard, S. A. Hasan, J. E. Bell(参考訳) 気候変動は前例のない命令や様々な方法で人間の健康を脅かしている。 これらの脅威は、効果的かつエビデンスに基づく政策が開発され、それらを最小化または排除するために行動しない限り拡大することが期待されている。 そのようなタスクを達成するには、科学から政策への知識の流れの最高度が必要である。 出版科学の多分野、位置特化、及び広大な分野において、この領域における新しい研究の追跡を困難にし、科学を政策に注入する伝統的な知識合成手法を非効率にする。 そこで本研究では,気候関連情報と健康関連情報とのバリエーションが異なる複数のドメイン固有言語モデル(lms)を開発し,気候関連概念と健康関連概念の類似性の検出,事実チェック,関係抽出,政策テキスト生成に対する健康影響の証拠など,さまざまな課題を解決するための基本的なステップとして機能する。 我々の知る限り、これは検討されたドメインに対して複数のドメイン固有言語モデルを開発することを提案する最初の作業である。 開発したモデル、リソース、コードベースを研究者に提供します。

Climate change is threatening human health in unprecedented orders and many ways. These threats are expected to grow unless effective and evidence-based policies are developed and acted upon to minimize or eliminate them. Attaining such a task requires the highest degree of the flow of knowledge from science into policy. The multidisciplinary, location-specific, and vastness of published science makes it challenging to keep track of novel work in this area, as well as making the traditional knowledge synthesis methods inefficient in infusing science into policy. To this end, we consider developing multiple domain-specific language models (LMs) with different variations from Climate- and Health-related information, which can serve as a foundational step toward capturing available knowledge to enable solving different tasks, such as detecting similarities between climate- and health-related concepts, fact-checking, relation extraction, evidence of health effects to policy text generation, and more. To our knowledge, this is the first work that proposes developing multiple domain-specific language models for the considered domains. We will make the developed models, resources, and codebase available for the researchers.
翻訳日:2022-12-02 15:55:17 公開日:2022-12-01
# 箱の中で考えるか 箱の中から考えるか? 洞察と概念の相互関係による科学的発見

To think inside the box, or to think out of the box? Scientific discovery via the reciprocation of insights and concepts ( http://arxiv.org/abs/2212.00258v1 )

ライセンス: Link先を確認
Yu-Zhe Shi, Manjie Xu, Wenjuan Han, Yixin Zhu(参考訳) 科学的発見が人間の進歩の主要な推進力であるなら、その洞察はエンジンの燃料であり、その基礎となる認知過程を理解しモデル化するために、長年にわたって行動レベルの研究を惹きつけてきた。 しかし、現在の抽象科学的発見のタスクは、主に洞察の出現に焦点を合わせ、ドメイン知識が果たす特別な役割を無視している。 この概念的な論文では、科学的な発見を、洞察に富んだ解を求める$thinking \out \ of \ the \ box$と、概念的なドメイン知識を一般化して正しい状態を維持する$thinking \ inside \ the \ box$の間の相互作用と見なしている。 そこで我々は,科学的発見を大規模に探求するための基盤として,科学的発見的な思考を自然に引き起こす意味探索ゲームMindleを提案する。 この観点から、洞察のメタストラテジーと概念の利用を相互に検討することができる。 パイロット研究では、いくつかの興味深い観察がメタストラテジー、文脈、個人の多様性に関する仮説を解明し、さらなる調査を行った。

If scientific discovery is one of the main driving forces of human progress, insight is the fuel for the engine, which has long attracted behavior-level research to understand and model its underlying cognitive process. However, current tasks that abstract scientific discovery mostly focus on the emergence of insight, ignoring the special role played by domain knowledge. In this concept paper, we view scientific discovery as an interplay between $thinking \ out \ of \ the \ box$ that actively seeks insightful solutions and $thinking \ inside \ the \ box$ that generalizes on conceptual domain knowledge to keep correct. Accordingly, we propose Mindle, a semantic searching game that triggers scientific-discovery-like thinking spontaneously, as infrastructure for exploring scientific discovery on a large scale. On this basis, the meta-strategies for insights and the usage of concepts can be investigated reciprocally. In the pilot studies, several interesting observations inspire elaborated hypotheses on meta-strategies, context, and individual diversity for further investigations.
翻訳日:2022-12-02 15:54:47 公開日:2022-12-01
# AIによる6G用Net-RCA

AI Empowered Net-RCA for 6G ( http://arxiv.org/abs/2212.00331v1 )

ライセンス: Link先を確認
Chengbo Qiu, Kai Yang, Ji Wang, and Shenjie Zhao(参考訳) 6Gは、より高いデータレート、信頼性の向上、ユビキタスAIサービス、大規模な接続デバイスのサポートを提供する予定である。 その結果、6gは前機種よりずっと複雑になる。 システムスケールと複雑性の増大、レガシネットワークとの共存、およびサービス要件の多様化は、必然的に、将来の6Gネットワークの保守コストと労力を増大させます。 ネットワークルート原因解析(Net-RCA)はネットワーク障害の根本原因を特定する上で重要な役割を果たしている。 本稿では,まず,想定される6Gネットワークについて紹介する。 次に,6gネットワーク運用と管理の課題と潜在的な解決策を議論し,既存のrca手法を包括的に調査する。 次に,人工知能を用いた6G用Net-RCAフレームワークを提案する。 合成および実世界のネットワークデータの性能比較を行い,提案手法が既存手法よりも優れていることを示す。

6G is envisioned to offer higher data rate, improved reliability, ubiquitous AI services, and support massive scale of connected devices. As a consequence, 6G will be much more complex than its predecessors. The growth of the system scale and complexity as well as the coexistence with the legacy networks and the diversified service requirements will inevitably incur huge maintenance cost and efforts for future 6G networks. Network Root Cause Analysis (Net-RCA) plays a critical role in identifying root causes of network faults. In this article, we first give an introduction about the envisioned 6G networks. Next, we discuss the challenges and potential solutions of 6G network operation and management, and comprehensively survey existing RCA methods. Then we propose an artificial intelligence (AI)-empowered Net-RCA framework for 6G. Performance comparisons on both synthetic and real-world network data are carried out to demonstrate that the proposed method outperforms the existing method considerably.
翻訳日:2022-12-02 15:54:29 公開日:2022-12-01
# スパース時空サンプルからの遷移演算子学習

Learning Transition Operators From Sparse Space-Time Samples ( http://arxiv.org/abs/2212.00746v1 )

ライセンス: Link先を確認
Christian K\"ummerle, Mauro Maggioni, Sui Tang(参考訳) 我々は、遷移作用素 $\mathbf{a}$ を異なる時間における部分的観測から学習する非線形逆問題、特にそのパワーの成分のスパース観測 $\mathbf{a},\mathbf{a}^2,\cdots,\mathbf{a}^{t}$ を考える。 この時空間遷移演算子回復問題は、グラフトポロジに依存するグラフ演算子によって駆動される時間変化グラフ信号の学習に対する近年の関心に動機付けられている。 適切なブロック・ハンケル行列の高次元空間に埋め込むことで問題の非線形性に対処し、$\mathbf{A}$ がフルランクであっても、低ランク行列完備問題となる。 一様および適応的ランダム時空サンプリングモデルにおいて、これらのブロック・ハンケル埋め込み行列の不整合の適切な尺度を用いて遷移作用素の回復性を定量化する。 グラフ遷移作用素の場合、これらの非コヒーレンスの測定は力学とグラフトポロジーの間の相互作用に依存する。 我々は、適切な非凸反復再重み付き最小二乗法(IRLS)アルゴリズムを開発し、その二次局所収束を確立し、最適なシナリオでは、$\mathcal{O}(rn \log(nT))$ 時空間サンプルが、階数-r$演算子$\mathbf{A}$ サイズ$n \times n$ の正確な回復を保証するのに十分であることを示す。 これにより、空間サンプルは、同じ数の時空サンプルで置き換えることができる。 提案したIRLSアルゴリズムを,次数$O(r n T)$の空間複雑性と,次数$n$の時間単位の複雑性を線形に実装する。 複数のグラフモデルに基づく遷移作用素の数値実験により、理論的知見は経験的相転移を正確に追跡し、提案するアルゴリズムの適用性と拡張性を示す。

We consider the nonlinear inverse problem of learning a transition operator $\mathbf{A}$ from partial observations at different times, in particular from sparse observations of entries of its powers $\mathbf{A},\mathbf{A}^2,\cdots,\mathbf{A}^{T}$. This Spatio-Temporal Transition Operator Recovery problem is motivated by the recent interest in learning time-varying graph signals that are driven by graph operators depending on the underlying graph topology. We address the nonlinearity of the problem by embedding it into a higher-dimensional space of suitable block-Hankel matrices, where it becomes a low-rank matrix completion problem, even if $\mathbf{A}$ is of full rank. For both a uniform and an adaptive random space-time sampling model, we quantify the recoverability of the transition operator via suitable measures of incoherence of these block-Hankel embedding matrices. For graph transition operators these measures of incoherence depend on the interplay between the dynamics and the graph topology. We develop a suitable non-convex iterative reweighted least squares (IRLS) algorithm, establish its quadratic local convergence, and show that, in optimal scenarios, no more than $\mathcal{O}(rn \log(nT))$ space-time samples are sufficient to ensure accurate recovery of a rank-$r$ operator $\mathbf{A}$ of size $n \times n$. This establishes that spatial samples can be substituted by a comparable number of space-time samples. We provide an efficient implementation of the proposed IRLS algorithm with space complexity of order $O(r n T)$ and per-iteration time complexity linear in $n$. Numerical experiments for transition operators based on several graph models confirm that the theoretical findings accurately track empirical phase transitions, and illustrate the applicability and scalability of the proposed algorithm.
翻訳日:2022-12-02 15:48:52 公開日:2022-12-01
# テンソル化流による高次元密度推定

High-dimensional density estimation with tensorizing flow ( http://arxiv.org/abs/2212.00759v1 )

ライセンス: Link先を確認
Yinuo Ren, Hongli Zhao, Yuehaw Khoo, Lexing Ying(参考訳) 観測データから高次元確率密度関数を推定するテンソル化流法を提案する。 本手法はテンソルトレインとフローベース生成モデルに基づく。 提案手法はまず,低次元縁のカーネル密度推定器に基づく線形系からテンソルコアを解くことにより,テンソルトレイン形状の近似密度を効率的に構築する。 次に, このテンソル-トレイン密度から観測実験分布まで, 最大確率推定を行い, 連続時間フローモデルを訓練する。 提案手法はテンソルトレインの最適化なし特徴とフローベース生成モデルの柔軟性を組み合わせたものである。 提案手法の性能を示すために, 数値計算結果を含む。

We propose the tensorizing flow method for estimating high-dimensional probability density functions from the observed data. The method is based on tensor-train and flow-based generative modeling. Our method first efficiently constructs an approximate density in the tensor-train form via solving the tensor cores from a linear system based on the kernel density estimators of low-dimensional marginals. We then train a continuous-time flow model from this tensor-train density to the observed empirical distribution by performing a maximum likelihood estimation. The proposed method combines the optimization-less feature of the tensor-train with the flexibility of the flow-based generative models. Numerical results are included to demonstrate the performance of the proposed method.
翻訳日:2022-12-02 15:48:16 公開日:2022-12-01
# クロスタスク近傍を用いたデータ効率の良い微調整

Data-Efficient Finetuning Using Cross-Task Nearest Neighbors ( http://arxiv.org/abs/2212.00196v1 )

ライセンス: Link先を確認
Hamish Ivison and Noah A. Smith and Hannaneh Hajishirzi and Pradeep Dasigi(参考訳) T0(Sanh et al., 2021)やFLAN(Wei et al., 2021a)のような大規模なマルチタスクデータセットに基づいてトレーニングされた言語モデルは、トレーニング中に見えないタスクに一般化することができる。 慎重に選択されたインスタンスのサブセットでのトレーニングは、さまざまなデータセットで利用可能なすべてのデータでのトレーニングよりも優れていることを示す。 ラベルなしのターゲットタスクインスタンス(250~1000)へのアクセスを想定し、マルチタスクデータのプールから最寄りの隣接インスタンスを選択し、取得したデータを使用してターゲットタスク固有のモデルをトレーニングする。 本手法は,単一のマルチタスクモデルをトレーニングするよりもデータ効率が良いが,大きなマージンをも上回っている。 我々は、T0の評価や法的および科学的な文書QAを含む複雑なタスクを含むマルチタスクプールにない様々なタスクについて評価する。 また,T0-3Bのトレーニングに使用するデータのうち,T0-3Bのトレーニングに使用するデータのうち,T0-3Bのトレーニングに使用したデータのうち,T0(T0-3B)の3ビリオンパラメータを3~30%上回る,P3(T0(T0-3B)の小さなサブセットを検索した。 これらのモデルはまた、8つのデータセット上の2~23%の相対的な改善で示されるように、ターゲット-タスクデータのマイニングにt0-3bよりも優れた初期化を提供する。 私たちのコードはhttps://github.com/allenai/data- efficient-finetuningで利用可能です。

Language models trained on massive prompted multitask datasets like T0 (Sanh et al., 2021) or FLAN (Wei et al., 2021a) can generalize to tasks unseen during training. We show that training on a carefully chosen subset of instances can outperform training on all available data on a variety of datasets. We assume access to a small number (250--1000) of unlabeled target task instances, select their nearest neighbors from a pool of multitask data, and use the retrieved data to train target task-specific models. Our method is more data-efficient than training a single multitask model, while still outperforming it by large margins. We evaluate across a diverse set of tasks not in the multitask pool we retrieve from, including those used to evaluate T0 and additional complex tasks including legal and scientific document QA. We retrieve small subsets of P3 (the collection of prompted datasets from which T0's training data was sampled) and finetune T5 models that outperform the 3-billion parameter variant of T0 (T0-3B) by 3--30% on 12 out of 14 evaluation datasets while using at most 2% of the data used to train T0-3B. These models also provide a better initialization than T0-3B for few-shot finetuning on target-task data, as shown by a 2--23% relative improvement over few-shot finetuned T0-3B models on 8 datasets. Our code is available at https://github.com/allenai/data-efficient-finetuning.
翻訳日:2022-12-02 15:46:37 公開日:2022-12-01
# 蒸留BERN2と和フレームワークを用いた企業のためのバイオメディカルNER

Biomedical NER for the Enterprise with Distillated BERN2 and the Kazu Framework ( http://arxiv.org/abs/2212.00223v1 )

ライセンス: Link先を確認
Wonjin Yoon, Richard Jackson, Elliot Ford, Vladimir Poroshin, Jaewoo Kang(参考訳) 創薬・開発プロセスを支援するために、製薬会社はしばしば内外のコーパスにバイオメディカルナーとリンク技術を適用する。 BioNLPの分野の研究は、多くのアルゴリズム、システム、データセットを生み出している。 しかし、我々の経験では、現代の製薬会社の要件をすべて満たすオープンソースシステムはひとつも存在しない。 本稿では,これらの要件を業界経験に基づいて記述し,バイオNLPを医薬品業界でサポートするために設計された,高度に拡張可能なスケーラブルなオープンソースフレームワークである和について述べる。 Kazuは、BERN2 NERモデル(TinyBERN2)の計算効率の良いバージョンを中心に構築され、その後、他のBioNLP技術を1つのコヒーレントシステムにラップする。 KAZUフレームワークがオープンソースに:https://github.com/AstraZeneca/KAZU

In order to assist the drug discovery/development process, pharmaceutical companies often apply biomedical NER and linking techniques over internal and public corpora. Decades of study of the field of BioNLP has produced a plethora of algorithms, systems and datasets. However, our experience has been that no single open source system meets all the requirements of a modern pharmaceutical company. In this work, we describe these requirements according to our experience of the industry, and present Kazu, a highly extensible, scalable open source framework designed to support BioNLP for the pharmaceutical sector. Kazu is a built around a computationally efficient version of the BERN2 NER model (TinyBERN2), and subsequently wraps several other BioNLP technologies into one coherent system. KAZU framework is open-sourced: https://github.com/AstraZeneca/KAZU
翻訳日:2022-12-02 15:46:04 公開日:2022-12-01
# 複数の選択肢から選択する学習

Learning to Select from Multiple Options ( http://arxiv.org/abs/2212.00301v1 )

ライセンス: Link先を確認
Jiangshu Du, Wenpeng Yin, Congying Xia, Philip S. Yu(参考訳) 多くのNLPタスクは、分類タスク、複数選択質問応答など、一連のオプションから選択問題とみなすことができる。 テクスチャエンテーメント(TE)は、それらの選択問題に対処するための最先端(SOTA)アプローチとして示されている。 TEは入力テキストを前提 (P) として扱い、オプションを仮説 (H) として扱う。 第一に、ペアワイズ・モデリングは、他の選択肢に気付かないが、人間は競合する候補を比較して最適な選択肢を決定することが多いため、直感的ではない。 この2つの問題に対処するために、この研究はまず、現在の(P, H)モデリングのコンテキストとして他のkオプションを追加することで、コンテキスト化されたTEモデル(Context-TE)を提案する。 Context-TEは、さまざまなコンテキストを考慮するため、より信頼性の高いHの決定を学習することができる。 次に,複数の選択肢を同時に選択するparallel-teを考案することで,コンテキストテを高速化する。 Parallel-TEはContext-TEと同等のパフォーマンスを維持しながら、推論速度を大幅に改善する。 提案手法は,オプションのサイズの異なる典型的な選択問題である3つのタスク(超微細なエンティティタイピング,意図検出,複数選択QA)で評価する。 実験の結果,新たなSOTA性能が得られた。特にParallel-TEは,1対のTEよりも100倍高速である。 私たちのコードはhttps://github.com/jiangshdd/LearningToSelect.comで公開されています。

Many NLP tasks can be regarded as a selection problem from a set of options, such as classification tasks, multi-choice question answering, etc. Textual entailment (TE) has been shown as the state-of-the-art (SOTA) approach to dealing with those selection problems. TE treats input texts as premises (P), options as hypotheses (H), then handles the selection problem by modeling (P, H) pairwise. Two limitations: first, the pairwise modeling is unaware of other options, which is less intuitive since humans often determine the best options by comparing competing candidates; second, the inference process of pairwise TE is time-consuming, especially when the option space is large. To deal with the two issues, this work first proposes a contextualized TE model (Context-TE) by appending other k options as the context of the current (P, H) modeling. Context-TE is able to learn more reliable decision for the H since it considers various context. Second, we speed up Context-TE by coming up with Parallel-TE, which learns the decisions of multiple options simultaneously. Parallel-TE significantly improves the inference speed while keeping comparable performance with Context-TE. Our methods are evaluated on three tasks (ultra-fine entity typing, intent detection and multi-choice QA) that are typical selection problems with different sizes of options. Experiments show our models set new SOTA performance; particularly, Parallel-TE is faster than the pairwise TE by k times in inference. Our code is publicly available at https://github.com/jiangshdd/LearningToSelect.
翻訳日:2022-12-02 15:45:49 公開日:2022-12-01
# 真の否定に基づく言語モデル事前学習

Language Model Pre-training on True Negatives ( http://arxiv.org/abs/2212.00460v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao, Masao Utiyama, Eiichiro Sumita(参考訳) 判別事前学習言語モデル(plm)は、故意に破損した言語から元のテキストを予測することを学ぶ。 前者のテキストを正、後者を負のサンプルとして、plmはコンテキスト化された表現のために効果的に訓練することができる。 しかし、この種のPLMの訓練は、自動構築されたサンプルの品質に大きく依存している。 既存のPLMは、すべての破損したテキストを検査なしで同等の負として扱うだけで、結果のモデルが必然的に偽陰性データでトレーニングが行われる偽陰性問題に悩まされ、結果のPLMの効率が低下し、堅牢性が低下する。 本研究では,長年無視されてきた識別的plmにおける偽陰性問題の定義に基づいて,偽陰性予測に対抗し,偽陰性予測の対象となる有害な勾配更新を補正することにより,真陰性の言語モデルに事前学習を促すための拡張事前学習法をデザインする。 GLUE と SQuAD ベンチマークによる実験結果から,我々の反偽陰性事前学習法は,強靭性とともに性能が向上することが示された。

Discriminative pre-trained language models (PLMs) learn to predict original texts from intentionally corrupted ones. Taking the former text as positive and the latter as negative samples, the PLM can be trained effectively for contextualized representation. However, the training of such a type of PLMs highly relies on the quality of the automatically constructed samples. Existing PLMs simply treat all corrupted texts as equal negative without any examination, which actually lets the resulting model inevitably suffer from the false negative issue where training is carried out on pseudo-negative data and leads to less efficiency and less robustness in the resulting PLMs. In this work, on the basis of defining the false negative issue in discriminative PLMs that has been ignored for a long time, we design enhanced pre-training methods to counteract false negative predictions and encourage pre-training language models on true negatives by correcting the harmful gradient updates subject to false negative predictions. Experimental results on GLUE and SQuAD benchmarks show that our counter-false-negative pre-training methods indeed bring about better performance together with stronger robustness.
翻訳日:2022-12-02 15:45:23 公開日:2022-12-01
# 多次元データ復元のための低ランクテンソル関数表現

Low-Rank Tensor Function Representation for Multi-Dimensional Data Recovery ( http://arxiv.org/abs/2212.00262v1 )

ライセンス: Link先を確認
Yisi Luo, Xile Zhao, Zhemin Li, Michael K. Ng, Deyu Meng(参考訳) 高階テンソルは、例えばカラー画像やビデオなどの実世界の多次元データを表現するのに自然に適しているため、低階テンソル表現は機械学習やコンピュータビジョンの新興分野の一つとなっている。 しかしながら、古典的な低ランクテンソル表現は、本質的に離散的な性質のため、有限メッシュグリッド上のデータしか表現できない。 この障壁を断ち切るために,メッシュグリッドを越えるデータを無限解像度で連続的に表現できる低ランクテンソル関数表現(LRTFR)を提案する。 具体的には、任意の座標を対応する値にマッピングするテンソル関数は、無限実空間におけるデータを連続的に表現することができる。 離散テンソルと平行して、テンソル関数の2つの基本概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。 理論的には、低ランクかつ滑らかな正規化はLRTFRにおいて調和的に統一され、データの連続表現に高い効率と効率をもたらす。 画像処理(画像インパインティングとノイズ除去)、機械学習(ハイパーパラメータ最適化)、およびコンピュータグラフィックス(ポイントクラウドアップサンプリング)から生じる広範囲な多次元データリカバリアプリケーションは、最先端の手法と比較して、この手法の優位性と汎用性を実証する。 特に、元のメッシュグリッド解像度(ハイパーパラメータ最適化)を超える実験や、meshgrid(ポイントクラウドアップサンプリング)を超える実験は、連続表現のための我々の方法の好ましい性能を検証する。

Since higher-order tensors are naturally suitable for representing multi-dimensional data in real-world, e.g., color images and videos, low-rank tensor representation has become one of the emerging areas in machine learning and computer vision. However, classical low-rank tensor representations can only represent data on finite meshgrid due to their intrinsical discrete nature, which hinders their potential applicability in many scenarios beyond meshgrid. To break this barrier, we propose a low-rank tensor function representation (LRTFR), which can continuously represent data beyond meshgrid with infinite resolution. Specifically, the suggested tensor function, which maps an arbitrary coordinate to the corresponding value, can continuously represent data in an infinite real space. Parallel to discrete tensors, we develop two fundamental concepts for tensor functions, i.e., the tensor function rank and low-rank tensor function factorization. We theoretically justify that both low-rank and smooth regularizations are harmoniously unified in the LRTFR, which leads to high effectiveness and efficiency for data continuous representation. Extensive multi-dimensional data recovery applications arising from image processing (image inpainting and denoising), machine learning (hyperparameter optimization), and computer graphics (point cloud upsampling) substantiate the superiority and versatility of our method as compared with state-of-the-art methods. Especially, the experiments beyond the original meshgrid resolution (hyperparameter optimization) or even beyond meshgrid (point cloud upsampling) validate the favorable performances of our method for continuous representation.
翻訳日:2022-12-02 15:38:38 公開日:2022-12-01
# 畳み込みカーネル冗長度測定によるResNet構造簡易化

ResNet Structure Simplification with the Convolutional Kernel Redundancy Measure ( http://arxiv.org/abs/2212.00272v1 )

ライセンス: Link先を確認
Hongzhi Zhu, Robert Rohling, Septimiu Salcudean(参考訳) ディープラーニング、特に畳み込みニューラルネットワークは、コンピュータビジョンの進歩を加速させ、私たちの日々の実践に変化をもたらした。 さらに、標準化されたディープラーニングモジュール(バックボーンネットワークとも呼ばれる)、すなわちResNetとEfficientNetは、新しいコンピュータビジョンソリューションの効率的かつ迅速な開発を可能にした。 しかし、ディープラーニング手法にはいくつかの欠点がある。 最も関係のある問題の1つは高メモリと計算コストであり、例えば専用コンピューティングユニット(典型的にはGPU)をトレーニングと開発に使わなければならない。 そこで本稿では,ネットワーク構造の簡易化を導くために,認識された画像差に基づく畳み込みカーネル冗長度尺度(convolutional kernel redundancy measure)を提案する。 ResNetを用いた胸部X線画像分類問題に本手法を適用すると,ネットワークの性能を維持でき,パラメータ数を2300万ドル以上から128ドル程度に削減できる(パラメータの99.46\%を還元する)。

Deep learning, especially convolutional neural networks, has triggered accelerated advancements in computer vision, bringing changes into our daily practice. Furthermore, the standardized deep learning modules (also known as backbone networks), i.e., ResNet and EfficientNet, have enabled efficient and rapid development of new computer vision solutions. Yet, deep learning methods still suffer from several drawbacks. One of the most concerning problems is the high memory and computational cost, such that dedicated computing units, typically GPUs, have to be used for training and development. Therefore, in this paper, we propose a quantifiable evaluation method, the convolutional kernel redundancy measure, which is based on perceived image differences, for guiding the network structure simplification. When applying our method to the chest X-ray image classification problem with ResNet, our method can maintain the performance of the network and reduce the number of parameters from over $23$ million to approximately $128$ thousand (reducing $99.46\%$ of the parameters).
翻訳日:2022-12-02 15:38:08 公開日:2022-12-01
# 第3回読書音楽システム国際ワークショップ参加報告

Proceedings of the 3rd International Workshop on Reading Music Systems ( http://arxiv.org/abs/2212.00378v1 )

ライセンス: Link先を確認
Jorge Calvo-Zaragoza and Alexander Pacha (Eds.)(参考訳) The International Workshop on Reading Music Systems (WoRMS)は、光学音楽認識の分野のような音楽を読むシステムを開発する研究者と、図書館員や音楽学者のようなシステムから恩恵を受けることができる他の研究者や実践者を結びつけるワークショップである。 ワークショップには、音楽読取システム、光学的音楽認識、データセットとパフォーマンス評価、音楽スコアの画像処理、作者識別、音楽スコアのオーサリング、編集、保存、プレゼンテーションシステム、マルチモーダルシステム、作曲された音楽を作成するための新しい入力メソッド、Webベースの音楽情報検索サービス、アプリケーションとプロジェクト、そして、書き込まれた音楽に関連するユースケースが含まれる。 これらは2021年7月23日にアリカンテで開催された第3回読書音楽システム国際ワークショップの手続きである。

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
翻訳日:2022-12-02 15:37:50 公開日:2022-12-01
# 第2回読書音楽システム国際ワークショップ参加報告

Proceedings of the 2nd International Workshop on Reading Music Systems ( http://arxiv.org/abs/2212.00380v1 )

ライセンス: Link先を確認
Jorge Calvo-Zaragoza and Alexander Pacha (Eds.)(参考訳) The International Workshop on Reading Music Systems (WoRMS)は、光学音楽認識の分野のような音楽を読むシステムを開発する研究者と、図書館員や音楽学者のようなシステムから恩恵を受けることができる他の研究者や実践者を結びつけるワークショップである。 ワークショップには、音楽読取システム、光学的音楽認識、データセットとパフォーマンス評価、音楽スコアの画像処理、作者識別、音楽スコアのオーサリング、編集、保存、プレゼンテーションシステム、マルチモーダルシステム、作曲された音楽を作成するための新しい入力メソッド、Webベースの音楽情報検索サービス、アプリケーションとプロジェクト、そして、書き込まれた音楽に関連するユースケースが含まれる。 2019年11月2日にデルフトで開催された第2回リーディング・ミュージック・システムズ国際ワークショップの議事録である。

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
翻訳日:2022-12-02 15:37:35 公開日:2022-12-01
# BNNにおけるカーネル圧縮の爆発

Exploiting Kernel Compression on BNNs ( http://arxiv.org/abs/2212.00608v1 )

ライセンス: Link先を確認
Franyell Silfa, Jose Maria Arnau, Antonio Gonz\'alez(参考訳) バイナリニューラルネットワーク(BNN)は、現実的な画像分類タスクにおいて大きな成功を収めている。 特に、その精度は、エッジデバイスに合わせた完全精度モデルによって得られた最先端の精度と似ている。 この点において、BNNは入力と重みを格納するために1ビットを使用するため、エッジデバイスには非常に適しており、ストレージ要件は低い。 また、bnns計算は主にxnorとpop-counts演算を使用して行われ、単純なハードウェア構造を使用して非常に効率的に実装される。 それでも、モバイルCPU上で効率よくBNNをサポートすることは、ロードウェイトや入力に対する頻繁なメモリアクセスによってその利点が妨げられるため、決して簡単ではない。 bnnでは、重みまたは入力を1ビットで記憶し、記憶および計算効率を向上させることを目指して、それらのいくつかをビット列としてまとめる。 本研究では,一組の重みを表す一意列の数が典型的に低いことを観察する。 また,BNN層の評価において,特定の配列の小さなグループが他よりも頻繁に採用されていることも確認した。 そこで本研究では,Huffman Encodingを用いてビットシーケンスを符号化し,BNN評価中に間接テーブルを用いて復号する手法を提案する。 また、最も一般的なビット列を識別し、あまり一般的でないビット列を類似の共通配列に置き換えるクラスタリング手法を提案する。 したがって、共通のシーケンスは少ないビットでエンコードされるため、ストレージ要件とメモリアクセスを削減できる。 圧縮されたビット列を効率よくキャッシュしデコードできる小さなハードウェア構造を追加することで、モバイルCPUを拡張します。 我々はimagenetデータセットを用いたreaacnetモデルを用いてスキームを評価する。 実験結果から,本手法はメモリ要求を 1.32 倍削減し,性能を 1.35 倍向上できることがわかった。

Binary Neural Networks (BNNs) are showing tremendous success on realistic image classification tasks. Notably, their accuracy is similar to the state-of-the-art accuracy obtained by full-precision models tailored to edge devices. In this regard, BNNs are very amenable to edge devices since they employ 1-bit to store the inputs and weights, and thus, their storage requirements are low. Also, BNNs computations are mainly done using xnor and pop-counts operations which are implemented very efficiently using simple hardware structures. Nonetheless, supporting BNNs efficiently on mobile CPUs is far from trivial since their benefits are hindered by frequent memory accesses to load weights and inputs. In BNNs, a weight or an input is stored using one bit, and aiming to increase storage and computation efficiency, several of them are packed together as a sequence of bits. In this work, we observe that the number of unique sequences representing a set of weights is typically low. Also, we have seen that during the evaluation of a BNN layer, a small group of unique sequences is employed more frequently than others. Accordingly, we propose exploiting this observation by using Huffman Encoding to encode the bit sequences and then using an indirection table to decode them during the BNN evaluation. Also, we propose a clustering scheme to identify the most common sequences of bits and replace the less common ones with some similar common sequences. Hence, we decrease the storage requirements and memory accesses since common sequences are encoded with fewer bits. We extend a mobile CPU by adding a small hardware structure that can efficiently cache and decode the compressed sequence of bits. We evaluate our scheme using the ReAacNet model with the Imagenet dataset. Our experimental results show that our technique can reduce memory requirement by 1.32x and improve performance by 1.35x.
翻訳日:2022-12-02 15:37:20 公開日:2022-12-01
# 後悔・最適協調的非stastic multi-armed banditsについて

On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits ( http://arxiv.org/abs/2211.17154v2 )

ライセンス: Link先を確認
Jialin Yi and Milan Vojnovi\'c(参考訳) 我々は,遅延を伴う通信ネットワークを介して協調するエージェントによる,非確率的マルチエージェントマルチアームバンディット問題を考える。 すべてのエージェントに対する個人の後悔に対する限界は低い。 適切な正規化器と通信プロトコルを用いて、協調的マルチエージェント \emph{follow-the-regularized-leader} (FTRL) アルゴリズムは、通信グラフ内のエージェントの次数に対して腕の数が十分大きい場合に、下限の値に一致する個々の後悔上限を持つことを示す。 また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。 提案手法が提案するアルゴリズムを上回った場合を数値実験で検証し,実例を示す。

We consider the nonstochastic multi-agent multi-armed bandit problem with agents collaborating via a communication network with delays. We show a lower bound for individual regret of all agents. We show that with suitable regularizers and communication protocols, a collaborative multi-agent \emph{follow-the-regularized-leader} (FTRL) algorithm has an individual regret upper bound that matches the lower bound up to a constant factor when the number of arms is large enough relative to degrees of agents in the communication graph. We also show that an FTRL algorithm with a suitable regularizer is regret optimal with respect to the scaling with the edge-delay parameter. We present numerical experiments validating our theoretical results and demonstrate cases when our algorithms outperform previously proposed algorithms.
翻訳日:2022-12-02 15:36:40 公開日:2022-12-01
# データに光を当てる:量子力学による幾何学的データ解析

Shining light on data: Geometric data analysis through quantum dynamics ( http://arxiv.org/abs/2212.00682v1 )

ライセンス: Link先を確認
Akshat Kumar, Mohan Sarovar(参考訳) 実験科学は、自然過程によって支配される多数の変数の観測から生成された高次元データセットを組織化し、解釈し、分析する能力に大きく依存している。 自然法則、保存原理、動的構造はこれらの観測変数の間に複雑な相互依存性をもたらし、データセット上で自由度の低い幾何学的構造をもたらす。 本研究では,データ駆動グラフラプラシアンおよび局所波束によって与えられる量子力学過程への<emph{discrete}近似から,この構造の微細な特徴を抽出する方法を示す。 このデータ駆動量子化法は、限られたデータによって誘導されるデータ解析において、新しいが自然な不確実性原理をもたらす。 新型コロナウイルス(COVID-19)パンデミックにおける社会的距離と移動行動のパターンや異常の学習など、現実のデータに対するアルゴリズムといくつかの応用について説明する。

Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
翻訳日:2022-12-02 15:36:25 公開日:2022-12-01
# 分散深層強化学習:マルチプレイヤーマルチエージェント学習ツールボックス

Distributed Deep Reinforcement Learning: A Survey and A Multi-Player Multi-Agent Learning Toolbox ( http://arxiv.org/abs/2212.00253v1 )

ライセンス: Link先を確認
Qiyue Yin, Tongtong Yu, Shengqi Shen, Jun Yang, Meijing Zhao, Kaiqi Huang, Bin Liang, Liang Wang(参考訳) AlphaGoのブレークスルーにより、深層強化学習はシーケンシャルな意思決定問題を解決するための技術として認知される。 その評判にもかかわらず、その試行錯誤学習機構によって引き起こされるデータ非効率は、広範囲で深い強化学習を実践し難いものにしている。 環境モデリングや経験移譲,分散的な修正など,効率的な深層学習のための多種多様な手法が開発されており,その中でも,人為的コンピュータゲームやインテリジェントトランスポートといった様々な応用において,分散深層学習がその可能性を示している。 本稿では,従来の分散深部強化学習法を比較し,分散学習を実現するために重要な要素について検討し,分散深部強化学習を複数のエージェントを分散深部強化学習として扱うことで,このエキサイティングな分野の現状を結論付ける。 さらに,分散深層強化学習を実現するためのツールボックスを,非分散バージョンに多くの修正を加えることなくレビューした。 それらの強みと弱点を分析してマルチプレイヤー分散深度強化学習ツールボックスを開発し、複雑な環境であるウォーゲームでさらに検証し、複数のプレイヤーと複数のエージェントが複雑なゲームの下で分散深度強化学習を行うためのツールボックスの有用性を示す。 最後に、私たちは課題と今後のトレンドを指摘し、この短いレビューが分散深層強化学習に興味を持つ研究者のガイドやきっかけになることを期待しています。

With the breakthrough of AlphaGo, deep reinforcement learning becomes a recognized technique for solving sequential decision-making problems. Despite its reputation, data inefficiency caused by its trial and error learning mechanism makes deep reinforcement learning hard to be practical in a wide range of areas. Plenty of methods have been developed for sample efficient deep reinforcement learning, such as environment modeling, experience transfer, and distributed modifications, amongst which, distributed deep reinforcement learning has shown its potential in various applications, such as human-computer gaming, and intelligent transportation. In this paper, we conclude the state of this exciting field, by comparing the classical distributed deep reinforcement learning methods, and studying important components to achieve efficient distributed learning, covering single player single agent distributed deep reinforcement learning to the most complex multiple players multiple agents distributed deep reinforcement learning. Furthermore, we review recently released toolboxes that help to realize distributed deep reinforcement learning without many modifications of their non-distributed versions. By analyzing their strengths and weaknesses, a multi-player multi-agent distributed deep reinforcement learning toolbox is developed and released, which is further validated on Wargame, a complex environment, showing usability of the proposed toolbox for multiple players and multiple agents distributed deep reinforcement learning under complex games. Finally, we try to point out challenges and future trends, hoping this brief review can provide a guide or a spark for researchers who are interested in distributed deep reinforcement learning.
翻訳日:2022-12-02 15:30:48 公開日:2022-12-01
# 逆埋め込みを用いたハイジャック垂直フェデレーション学習モデル

Hijack Vertical Federated Learning Models with Adversarial Embedding ( http://arxiv.org/abs/2212.00322v1 )

ライセンス: Link先を確認
Pengyu Qiu, Xuhong Zhang, Shouling Ji, Changjiang Li, Yuwen Pu, Xing Yang, Ting Wang(参考訳) Vertical Federated Learning(VFL)は、コラボレーション者が分散形式で機械学習モデルを一緒に構築できるようにする、新たなパラダイムである。 一般に、これらのパーティーには共通のユーザグループがあるが、独自の機能がある。 既存のVFLフレームワークは、データのプライバシとセキュリティ保証を提供するために暗号化技術を使用しており、計算効率と高速な実装を研究する一連の研究につながっている。 しかし、vflモデルのセキュリティは未検討のままである。

Vertical federated learning (VFL) is an emerging paradigm that enables collaborators to build machine learning models together in a distributed fashion. In general, these parties have a group of users in common but own different features. Existing VFL frameworks use cryptographic techniques to provide data privacy and security guarantees, leading to a line of works studying computing efficiency and fast implementation. However, the security of VFL's model remains underexplored.
翻訳日:2022-12-02 15:30:21 公開日:2022-12-01
# Per-Sample Adaptive Clippingを用いた差分プライベート学習

Differentially Private Learning with Per-Sample Adaptive Clipping ( http://arxiv.org/abs/2212.00328v1 )

ライセンス: Link先を確認
Tianyu Xia and Shuheng Shen and Su Yao and Xinyi Fu and Ke Xu and Xiaolong Xu and Xing Fu and Weiqiang Wang(参考訳) AIにおけるプライバシは、近年の研究者や一般大衆から注目を集めているトピックである。 プライバシ保護AIを実装する方法の1つとして、差分プライベート学習は、AIモデルが差分プライバシ(DP)を使用することを可能にするフレームワークである。 学習過程においてDPを達成するために、既存のアルゴリズムは、モデルの性能に大きな影響を与えるため、注意深く調整する必要がある、一定のクリッピングで勾配の規模を制限している。 この問題の解決策として、NSGDとAuto-Sの最新の研究は、クリッピングの代わりに正規化を使用することを革新的に提案している。 しかし、NSGDやAuto-Sのような正規化に基づくアプローチは単調な重み関数に依存しており、小さな勾配サンプルに過剰な重みを課し、更新に余分な偏差をもたらす。 本稿では,非単調適応重み関数を基本とし,更新値と真のバッチ平均勾配のずれを著しく低減しつつ,定値クリッピングを用いた典型的なハイパーパラメータチューニング処理を行わず,プライバシを保証する差分プライベートな1サンプル適応クリッピング(dp-psac)アルゴリズムを提案する。 厳密な理論的収束解析を行い,提案アルゴリズムは, NSGD/Auto-Sと比較して, トレーニング繰り返しを通して維持される低い非消滅境界を達成することを示す。 さらに, DP-PSACが複数のメインストリームビジョンおよび言語タスクにおいて, 最先端の手法よりも優れ, 適合していることを示す。

Privacy in AI remains a topic that draws attention from researchers and the general public in recent years. As one way to implement privacy-preserving AI, differentially private learning is a framework that enables AI models to use differential privacy (DP). To achieve DP in the learning process, existing algorithms typically limit the magnitude of gradients with a constant clipping, which requires carefully tuned due to its significant impact on model performance. As a solution to this issue, latest works NSGD and Auto-S innovatively propose to use normalization instead of clipping to avoid hyperparameter tuning. However, normalization-based approaches like NSGD and Auto-S rely on a monotonic weight function, which imposes excessive weight on small gradient samples and introduces extra deviation to the update. In this paper, we propose a Differentially Private Per-Sample Adaptive Clipping (DP-PSAC) algorithm based on a non-monotonic adaptive weight function, which guarantees privacy without the typical hyperparameter tuning process of using a constant clipping while significantly reducing the deviation between the update and true batch-averaged gradient. We provide a rigorous theoretical convergence analysis and show that with convergence rate at the same order, the proposed algorithm achieves a lower non-vanishing bound, which is maintained over training iterations, compared with NSGD/Auto-S. In addition, through extensive experimental evaluation, we show that DP-PSAC outperforms or matches the state-of-the-art methods on multiple main-stream vision and language tasks.
翻訳日:2022-12-02 15:30:14 公開日:2022-12-01
# ランプマージのための確率的制御障壁関数を用いた安全強化学習

Safe Reinforcement Learning with Probabilistic Control Barrier Functions for Ramp Merging ( http://arxiv.org/abs/2212.00618v1 )

ライセンス: Link先を確認
Soumith Udatha, Yiwei Lyu, John Dolan(参考訳) 以前の研究では、強化学習と模倣学習のアプローチを自動運転シナリオに適用することを検討したが、安全性とアルゴリズムの効率は損なわれた。 強化学習ポリシーに組み込まれた制御バリア機能を利用することで、自動運転車の性能を最適化する安全なポリシーにたどり着く。 しかし、制御障壁関数は車のモデルの適切な近似を必要とする。 モデルの不確実性の推定には確率的制御障壁関数を用いる。 このアルゴリズムは、CARLA(Dosovitskiy et al., 2017)シミュレータのオンライン版として実装され、NGSIMデータベースから抽出されたデータセットのオフライン版として実装されている。 提案アルゴリズムは、安全なランプマージアルゴリズムだけではなく、高速道路のランプマージに対処するための安全な自律運転アルゴリズムである。

Prior work has looked at applying reinforcement learning and imitation learning approaches to autonomous driving scenarios, but either the safety or the efficiency of the algorithm is compromised. With the use of control barrier functions embedded into the reinforcement learning policy, we arrive at safe policies to optimize the performance of the autonomous driving vehicle. However, control barrier functions need a good approximation of the model of the car. We use probabilistic control barrier functions as an estimate of the model uncertainty. The algorithm is implemented as an online version in the CARLA (Dosovitskiy et al., 2017) Simulator and as an offline version on a dataset extracted from the NGSIM Database. The proposed algorithm is not just a safe ramp merging algorithm but a safe autonomous driving algorithm applied to address ramp merging on highways.
翻訳日:2022-12-02 15:29:46 公開日:2022-12-01
# Vertical Federated Learning: 構造化された文献レビュー

Vertical Federated Learning: A Structured Literature Review ( http://arxiv.org/abs/2212.00622v1 )

ライセンス: Link先を確認
Afsana Khan, Marijn ten Thij, Anna Wilbik(参考訳) Federated Learning(FL)は、データプライバシのメリットを付加した、有望な分散学習パラダイムとして登場した。 データ所有者間のコラボレーションへの関心が高まり、flは組織に大きな注目を集めている。 FLの考え方は、協力する参加者が、プライバシーを侵害することなく、分散データ上で機械学習(ML)モデルをトレーニングできるようにすることである。 単純な言い方をすれば、フェデレートドラーニングは‘モデムにデータを持ち込むのではなく、モデルにデータを与える’というアプローチである。 フェデレートラーニング(Federated Learning)は、参加者間で垂直に分割されたデータに適用された場合、データのみを使用してトレーニングされたローカルモデルと、ローカルサイトの異なる機能を組み合わせた完全なMLモデルを構築することができる。 FLのこのアーキテクチャは垂直連合学習(VFL)と呼ばれ、水平分割データでは従来のFLとは異なる。 VFLは従来のFLとは異なるため、独自の問題と課題が伴う。 本稿では,VFLにおける最先端のアプローチを論じる構造化文献レビューを行う。 さらに、文献レビューでは、VFLの課題に対する既存の解決策を強調し、この領域における潜在的研究の方向性を提供する。

Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
翻訳日:2022-12-02 15:29:32 公開日:2022-12-01
# 完全動的決定木

Fully-Dynamic Decision Trees ( http://arxiv.org/abs/2212.00778v1 )

ライセンス: Link先を確認
Marco Bressan and Gabriel Damay and Mauro Sozio(参考訳) ラベル付き例の挿入と削除の任意の列上で決定木を維持する最初の完全動的アルゴリズムを開発した。 与えられた$\epsilon > 0$のアルゴリズムは、すべての時点において、決定ツリーのすべてのノードが、最適値の加法$\epsilon$内のGiniゲインの分割を使用することを保証します。 実数値の関数に対しては、アルゴリズムは$o\big(\frac{d \log^3 n}{\epsilon^2}\big)$の挿入/削除毎にamortized実行時間を持ち、バイナリまたはカテゴリの特徴に対して$o\big(\frac{d \log^2 n}{\epsilon}\big)$になるが、スペース$o(n d)$を使用する。 我々のアルゴリズムはほぼ最適であり、同様の保証を持つ任意のアルゴリズムは、アモルティックランニングタイム$\Omega(d)$とスペース$\tilde{\Omega} (n d)$を使用する。 本研究では,実世界データに対する広範囲な実験評価を行い,アルゴリズムの有効性を示す。

We develop the first fully dynamic algorithm that maintains a decision tree over an arbitrary sequence of insertions and deletions of labeled examples. Given $\epsilon > 0$ our algorithm guarantees that, at every point in time, every node of the decision tree uses a split with Gini gain within an additive $\epsilon$ of the optimum. For real-valued features the algorithm has an amortized running time per insertion/deletion of $O\big(\frac{d \log^3 n}{\epsilon^2}\big)$, which improves to $O\big(\frac{d \log^2 n}{\epsilon}\big)$ for binary or categorical features, while it uses space $O(n d)$, where $n$ is the maximum number of examples at any point in time and $d$ is the number of features. Our algorithm is nearly optimal, as we show that any algorithm with similar guarantees uses amortized running time $\Omega(d)$ and space $\tilde{\Omega} (n d)$. We complement our theoretical results with an extensive experimental evaluation on real-world data, showing the effectiveness of our algorithm.
翻訳日:2022-12-02 15:29:14 公開日:2022-12-01
# テストログライクティフィケーションを正しく使用していますか?

Are you using test log-likelihood correctly? ( http://arxiv.org/abs/2212.00219v1 )

ライセンス: Link先を確認
Sameer K. Deshpande and Soumya Ghosh and Tin D. Nguyen and Tamara Broderick(参考訳) テストログは、同じデータの異なるモデルと、同じ確率モデルに適合する異なる近似推論アルゴリズムを比較するために一般的に使用される。 本稿では,テストログ類似度に基づく比較が,他の目的による比較と矛盾することを示す単純な例を示す。 特に我々の例では (i)試験ログ類似比較に基づく予測精度に関する結論は、手段等の他の分布量に基づく結論と一致しない場合がある。 (ii)高いテストログ類似度を達成する近似ベイズ推定アルゴリズムは、より正確な後続近似を生成する必要もない。

Test log-likelihood is commonly used to compare different models of the same data and different approximate inference algorithms for fitting the same probabilistic model. We present simple examples demonstrating how comparisons based on test log-likelihood can contradict comparisons according to other objectives. Specifically, our examples show that (i) conclusions about forecast accuracy based on test log-likelihood comparisons may not agree with conclusions based on other distributional quantities like means; and (ii) that approximate Bayesian inference algorithms that attain higher test log-likelihoods need not also yield more accurate posterior approximations.
翻訳日:2022-12-02 15:28:32 公開日:2022-12-01
# フェイク機能による正規化

Regularization with Fake Features ( http://arxiv.org/abs/2212.00433v1 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) 近年の過パラメータモデルの成功は、過パラメータモデルがうまく一般化できる基礎となる条件を調査する新しい一連の研究に影響を与えている。 本稿では、過度にパラメータ化されたモデルに偽の機能、すなわちモデルに存在するがデータには存在しない機能を含むフレームワークについて考察する。 擬似特徴を持つモデルの誤特定の下で、リッジ回帰問題の一般化誤差に縛られる非漸近的高確率を示す。 本研究では,偽特徴による暗黙的正規化とリッジパラメータによる明示的正規化との相互作用を特徴付ける。 疑似特徴は,データに無関係であっても,一般化誤差を改善する可能性がある。

Recent successes of massively overparameterized models have inspired a new line of work investigating the underlying conditions that enable overparameterized models to generalize well. This paper considers a framework where the possibly overparametrized model includes fake features, i.e., features that are present in the model but not in the data. We present a non-asymptotic high-probability bound on the generalization error of the ridge regression problem under the model misspecification of having fake features. Our high-probability results characterize the interplay between the implicit regularization provided by the fake features and the explicit regularization provided by the ridge parameter. We observe that fake features may improve the generalization error, even though they are irrelevant to the data.
翻訳日:2022-12-02 15:28:22 公開日:2022-12-01
# 深層学習における伝達可能性の2つのコンセンサス再考

Rethinking Two Consensuses of the Transferability in Deep Learning ( http://arxiv.org/abs/2212.00399v1 )

ライセンス: Link先を確認
Yixiong Chen, Jingxian Li, Chris Ding, Li Liu(参考訳) ディープ・トランスファー・ラーニング(Deep Transfer Learning、DTL)は、ディープ・ニューラルネットワーク(Deep Neural Network、DNN)が人間と同じくらい効率的に過去の経験を再利用できるようにするための長期的探求である。 この能力は知識伝達能力と呼ばれる。 DTLの一般的なパラダイムは、まず一般的な知識(事前学習)を学び、次に特定の目標タスクに対してそれらを再利用することである。 事前学習されたdnnの転送可能性に関するコンセンサスは2つある: (1) 事前訓練データと下流データの間のより大きなドメインギャップは、転送可能性の低下をもたらす; (2) 転送可能性は、低層(入力付近)から高層(出力付近)へと徐々に減少する。 しかし、これらのコンセンサスは基本的に自然画像に基づく実験から導かれ、適用範囲が制限された。 本研究の目的は、事前学習したDNNパラメータの転送可能性を測定する手法を提案し、より広い視点からそれらを研究・補完することである。 12の多様な画像分類データセットに対する実験は、以前のコンセンサスと同様の結論を得る。 より重要なことは、(1)ドメインギャップ、より大きなデータ量、そして下流のターゲットタスクの巨大なデータセットの多様性に加えて、転送可能性も禁止する、(2)下位層は基本的なイメージ特徴を学ぶが、ドメインの感度のために一般的に最も転送可能な層ではない、という2つの新たな発見が提示されている。

Deep transfer learning (DTL) has formed a long-term quest toward enabling deep neural networks (DNNs) to reuse historical experiences as efficiently as humans. This ability is named knowledge transferability. A commonly used paradigm for DTL is firstly learning general knowledge (pre-training) and then reusing (fine-tuning) them for a specific target task. There are two consensuses of transferability of pre-trained DNNs: (1) a larger domain gap between pre-training and downstream data brings lower transferability; (2) the transferability gradually decreases from lower layers (near input) to higher layers (near output). However, these consensuses were basically drawn from the experiments based on natural images, which limits their scope of application. This work aims to study and complement them from a broader perspective by proposing a method to measure the transferability of pre-trained DNN parameters. Our experiments on twelve diverse image classification datasets get similar conclusions to the previous consensuses. More importantly, two new findings are presented, i.e., (1) in addition to the domain gap, a larger data amount and huge dataset diversity of downstream target task also prohibit the transferability; (2) although the lower layers learn basic image features, they are usually not the most transferable layers due to their domain sensitivity.
翻訳日:2022-12-02 15:21:49 公開日:2022-12-01
# グローバル・ローカル・インタープリタビリティのための解釈専門家のインプシット・ミックス

Implicit Mixture of Interpretable Experts for Global and Local Interpretability ( http://arxiv.org/abs/2212.00471v1 )

ライセンス: Link先を確認
Nathan Elazar, Kerry Taylor(参考訳) 我々は,MNIST10上に解釈可能な画像分類器を構築するために,解釈可能な専門家(MoIE)の混合物を使用することの可能性を検討した。 MoIEはブラックボックスルータを使用して、各入力を多くの本質的に解釈可能な専門家に割り当てる。 ナイーブに訓練されたmoieは'チート'を学習し、ブラックボックスルータは分類問題を単独で解決し、各専門家は特定のクラスに対して一定の関数を学習する。 我々は,解釈可能なルータを導入し,解釈可能なルータにマッチするブラックボックスルータの決定をトレーニングすることで,この問題を解決することを提案する。 さらに,任意の数の専門家を混合して構成できる新しい暗黙的パラメータ化手法を提案し,専門家の数が増加するにつれて,分類性能,局所的,グローバル的解釈可能性がどのように変化するかを研究する。 提案手法は,局所的な解釈可能性を提供しつつ,mnist10の最先端の分類精度と一致し,分類精度を低下させることなくグローバル解釈可能性を提供することができる。

We investigate the feasibility of using mixtures of interpretable experts (MoIE) to build interpretable image classifiers on MNIST10. MoIE uses a black-box router to assign each input to one of many inherently interpretable experts, thereby providing insight into why a particular classification decision was made. We find that a naively trained MoIE will learn to 'cheat', whereby the black-box router will solve the classification problem by itself, with each expert simply learning a constant function for one particular class. We propose to solve this problem by introducing interpretable routers and training the black-box router's decisions to match the interpretable router. In addition, we propose a novel implicit parameterization scheme that allows us to build mixtures of arbitrary numbers of experts, allowing us to study how classification performance, local and global interpretability vary as the number of experts is increased. Our new model, dubbed Implicit Mixture of Interpretable Experts (IMoIE) can match state-of-the-art classification accuracy on MNIST10 while providing local interpretability, and can provide global interpretability albeit at the cost of reduced classification accuracy.
翻訳日:2022-12-02 15:21:26 公開日:2022-12-01
# 高速衛星物体検出用ソフトラベル

Soft Labels for Rapid Satellite Object Detection ( http://arxiv.org/abs/2212.00585v1 )

ライセンス: Link先を確認
Matthew Ciolino, Grant Rosario, David Noever(参考訳) 画像分類におけるソフトラベルは、画像の真の分類のベクトル表現である。 本稿では,衛星物体検出の文脈におけるソフトラベルについて検討する。 ソフトラベルの新しいデータセットの基盤として検出法を提案する。 高品質なモデルを作成するための努力の多くは、トレーニングデータの収集と注釈です。 モデルを使ってデータセットを生成できれば、データセットを迅速に作成するだけでなく、既存のオープンソースデータセットを補完することができます。 xViewデータセットのサブセットを使用して、車、飛行機、船を検出するためにYOLOv5モデルをトレーニングします。 そのモデルを使用して、第2のトレーニングセットのソフトラベルを生成し、トレーニングを行い、元のモデルと比較します。 ソフトラベルを用いて、元のデータに基づいてトレーニングされたモデルとほぼ同じ精度のモデルをトレーニングできることが示される。

Soft labels in image classification are vector representations of an image's true classification. In this paper, we investigate soft labels in the context of satellite object detection. We propose using detections as the basis for a new dataset of soft labels. Much of the effort in creating a high-quality model is gathering and annotating the training data. If we could use a model to generate a dataset for us, we could not only rapidly create datasets, but also supplement existing open-source datasets. Using a subset of the xView dataset, we train a YOLOv5 model to detect cars, planes, and ships. We then use that model to generate soft labels for the second training set which we then train and compare to the original model. We show that soft labels can be used to train a model that is almost as accurate as a model trained on the original data.
翻訳日:2022-12-02 15:21:02 公開日:2022-12-01
# finetune like you pretrain:ゼロショットビジョンモデルの微調整の改善

Finetune like you pretrain: Improved finetuning of zero-shot vision models ( http://arxiv.org/abs/2212.00638v1 )

ライセンス: Link先を確認
Sachin Goyal, Ananya Kumar, Sankalp Garg, Zico Kolter, and Aditi Raghunathan(参考訳) CLIPのような微細な画像テキストモデルは、様々なベンチマークで最先端の精度を達成する。 しかし、最近の WiseFT (Wortsman et al., 2021) や LP-FT (Kumar et al., 2022) のような研究は、微調整過程の微妙な違いでさえ、分布内(ID)と分布外(OOD)のデータの両方において、最終的なパフォーマンスに大きな違いをもたらすことを示した。 本研究は,コントラストプリトレーニングを模倣する自然で単純なアプローチが,代替微調整手法を一貫して上回っていることを示す。 具体的には、下流クラスラベルをテキストプロンプトとしてキャストし、画像埋め込みとクラス記述プロンプト埋め込み(コントラストファインタニング)の対照的な損失を最適化し続けます。 提案手法は,7つの分散シフト,6つの転移学習,および3つの数ショット学習ベンチマークのベースラインを一貫して上回る。 WILDS-iWILDCamでは、提案したFLYPがリーダーボードの上位を$2.3\%のIDと$2.7\%のOODで上回り、最も高い精度が報告されている。 7つのOODデータセット(2つのWILDSと5つのImageNet関連シフト)に平均して、FLYPは標準的な微調整よりも4.2\%のOODを得られる。 同様に、3つの数ショットの学習ベンチマークでは、標準的な微調整よりも4.6\%、最先端技術よりも4.4\%まで上昇する。 これらのベンチマークは、CLIPのような画像テキストモデルの教師付き微調整のための、単純で直感的で最先端のアプローチとして対照的な微調整を確立している。 コードはhttps://github.com/locuslab/FLYP.comで入手できる。

Finetuning image-text models such as CLIP achieves state-of-the-art accuracies on a variety of benchmarks. However, recent works like WiseFT (Wortsman et al., 2021) and LP-FT (Kumar et al., 2022) have shown that even subtle differences in the finetuning process can lead to surprisingly large differences in the final performance, both for in-distribution (ID) and out-of-distribution (OOD) data. In this work, we show that a natural and simple approach of mimicking contrastive pretraining consistently outperforms alternative finetuning approaches. Specifically, we cast downstream class labels as text prompts and continue optimizing the contrastive loss between image embeddings and class-descriptive prompt embeddings (contrastive finetuning). Our method consistently outperforms baselines across 7 distribution shifts, 6 transfer learning, and 3 few-shot learning benchmarks. On WILDS-iWILDCam, our proposed approach FLYP outperforms the top of the leaderboard by $2.3\%$ ID and $2.7\%$ OOD, giving the highest reported accuracy. Averaged across 7 OOD datasets (2 WILDS and 5 ImageNet associated shifts), FLYP gives gains of $4.2\%$ OOD over standard finetuning and outperforms the current state of the art (LP-FT) by more than $1\%$ both ID and OOD. Similarly, on 3 few-shot learning benchmarks, our approach gives gains up to $4.6\%$ over standard finetuning and $4.4\%$ over the state of the art. In total, these benchmarks establish contrastive finetuning as a simple, intuitive, and state-of-the-art approach for supervised finetuning of image-text models like CLIP. Code is available at https://github.com/locuslab/FLYP.
翻訳日:2022-12-02 15:20:51 公開日:2022-12-01
# 物体以外の視覚表現のための双曲的コントラスト学習

Hyperbolic Contrastive Learning for Visual Representations beyond Objects ( http://arxiv.org/abs/2212.00653v1 )

ライセンス: Link先を確認
Songwei Ge, Shlok Mishra, Simon Kornblith, Chun-Liang Li, David Jacobs(参考訳) 自己教師なしの手法は、視覚表現学習の急速な進歩をもたらしたが、これらの手法は一般に同じレンズを使ってオブジェクトやシーンを扱う。 本稿では,その間の構造を保ったオブジェクトやシーンの表現を学習することに焦点を当てる。 視覚的に類似したオブジェクトが表現空間に近接しているという観察に動機づけられ、シーンとオブジェクトは、その構成性に基づいて階層構造に従うべきであると主張する。 このような構造を利用するために,ユークリッド的損失を対象表現の学習に用い,双曲的損失を双曲的空間における構成的対象の表現に近い位置にあるシーンの表現を促すための対比的学習フレームワークを提案する。 この新たな双曲的目的は、それらのノルムの大きさを最適化することによって、シーンオブジェクトのハイパーネミーを促進する。 また,COCOデータセットとOpenImagesデータセットの事前トレーニングでは,画像分類やオブジェクト検出,セマンティックセグメンテーションなど,複数のデータセットやタスクにまたがる複数のベースラインのダウンストリーム性能が向上することを示した。 また、学習した表現の特性により、ゼロショット方式でシーンとオブジェクト間の相互作用を含む様々な視覚タスクを解くことができることを示す。 我々のコードは \url{https://github.com/shlokk/HCL/tree/main/HCL} にある。

Although self-/un-supervised methods have led to rapid progress in visual representation learning, these methods generally treat objects and scenes using the same lens. In this paper, we focus on learning representations for objects and scenes that preserve the structure among them. Motivated by the observation that visually similar objects are close in the representation space, we argue that the scenes and objects should instead follow a hierarchical structure based on their compositionality. To exploit such a structure, we propose a contrastive learning framework where a Euclidean loss is used to learn object representations and a hyperbolic loss is used to encourage representations of scenes to lie close to representations of their constituent objects in a hyperbolic space. This novel hyperbolic objective encourages the scene-object hypernymy among the representations by optimizing the magnitude of their norms. We show that when pretraining on the COCO and OpenImages datasets, the hyperbolic loss improves downstream performance of several baselines across multiple datasets and tasks, including image classification, object detection, and semantic segmentation. We also show that the properties of the learned representations allow us to solve various vision tasks that involve the interaction between scenes and objects in a zero-shot fashion. Our code can be found at \url{https://github.com/shlokk/HCL/tree/main/HCL}.
翻訳日:2022-12-02 15:20:10 公開日:2022-12-01
# 残留畳み込みネットワークにおけるクラス適合様式の神経表現

Neural Representations Reveal Distinct Modes of Class Fitting in Residual Convolutional Networks ( http://arxiv.org/abs/2212.00771v1 )

ライセンス: Link先を確認
Micha{\l} Jamro\.z and Marcin Kurdziel(参考訳) 我々は,神経表現の確率モデルを用いて,残留ネットワークがクラスにどのように適合するかを調べる。 この目的のために,Deep ResNetsで学習した表現のクラス条件密度モデルを推定する。 次に、これらのモデルを用いて、学習クラス間の表現の分布を特徴づける。 驚くべきことに、調査対象モデルのクラスは均一な方法で適合していない。 反対に、表現の明らかに異なる分布に適合するクラスの2つの群を明らかにする。 これらのクラスフィッティングの異なるモードは、調査対象モデルの深い層にのみ明らかであり、低レベル画像の特徴とは無関係であることを示している。 神経表現の未発見構造は,訓練例の記憶と対向的強靭性との関連性を示す。 最後に、記憶された例と典型例のニューラル表現のクラス条件分布を比較した。 これにより、メモリ化および標準入力に対してネットワーク構造クラスラベルが生じる場所を明らかにすることができる。

We leverage probabilistic models of neural representations to investigate how residual networks fit classes. To this end, we estimate class-conditional density models for representations learned by deep ResNets. We then use these models to characterize distributions of representations across learned classes. Surprisingly, we find that classes in the investigated models are not fitted in an uniform way. On the contrary: we uncover two groups of classes that are fitted with markedly different distributions of representations. These distinct modes of class-fitting are evident only in the deeper layers of the investigated models, indicating that they are not related to low-level image features. We show that the uncovered structure in neural representations correlate with memorization of training examples and adversarial robustness. Finally, we compare class-conditional distributions of neural representations between memorized and typical examples. This allows us to uncover where in the network structure class labels arise for memorized and standard inputs.
翻訳日:2022-12-02 15:19:48 公開日:2022-12-01
# スコアジャコビアンチェイン:3次元生成のための2次元拡散モデルのリフティング

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation ( http://arxiv.org/abs/2212.00774v1 )

ライセンス: Link先を確認
Haochen Wang, Xiaodan Du, Jiahao Li, Raymond A. Yeh, Greg Shakhnarovich(参考訳) 拡散モデルは勾配のベクトル場を予測することを学ぶ。 本稿では、学習した勾配に連鎖則を適用し、微分可能なレンダラーのヤコビアンを通して拡散モデルのスコアをバックプロパガントし、これをボクセル放射場とする。 このセットアップは、複数のカメラ視点で2Dスコアを3Dスコアに集約し、3Dデータ生成のための事前訓練された2Dモデルを再利用する。 本稿では,本アプリケーションで発生する分散ミスマッチの技術的課題を特定し,それを解決するための新しい推定機構を提案する。 大規模なLAIONデータセットでトレーニングされたStable Diffusionを含む,市販の拡散画像生成モデル上で,アルゴリズムを実行する。

A diffusion model learns to predict a vector field of gradients. We propose to apply chain rule on the learned gradients, and back-propagate the score of a diffusion model through the Jacobian of a differentiable renderer, which we instantiate to be a voxel radiance field. This setup aggregates 2D scores at multiple camera viewpoints into a 3D score, and repurposes a pretrained 2D model for 3D data generation. We identify a technical challenge of distribution mismatch that arises in this application, and propose a novel estimation mechanism to resolve it. We run our algorithm on several off-the-shelf diffusion image generative models, including the recently released Stable Diffusion trained on the large-scale LAION dataset.
翻訳日:2022-12-02 15:19:37 公開日:2022-12-01
# ラベル分布優先によるゼロショットモデルの改善

Improving Zero-Shot Models with Label Distribution Priors ( http://arxiv.org/abs/2212.00784v1 )

ライセンス: Link先を確認
Jonathan Kahana, Niv Cohen, Yedid Hoshen(参考訳) 顔年齢やオブジェクトタイプなどの属性による大きな画像データセットのラベリングは退屈で、時には実現不可能である。 監視された機械学習手法は、非常に正確なソリューションを提供するが、しばしば利用できない手動ラベルを必要とする。 ゼロショットモデル(例えばCLIP)は手動ラベルを必要としないが、特に属性が数値である場合、教師付きラベルほど正確ではない。 そこで本研究では,ゼロショットモデルを適用した新しい手法であるクリップpr(clip with priors)を提案する。 我々の手法では注釈付き画像は一切使用しない。 その代わり、データセット内のラベルの分布に先立ってプリエントを仮定します。 次に、2つの競合する目標の下で、CLIP上にアダプタネットワークをトレーニングします。 i)オリジナルクリップモデルからの予測の最小限の変更 二 ラベルの予測分布と事前分布との間の最小距離 さらに,本研究では,事前分布を用いたビジョン・アンド・ランゲージモデルのプロンプト選択手法を提案する。 提案手法は有効であり,元のモデルよりも大幅に改善されている。 utk年齢回帰課題において,平均絶対誤差が28%向上することを示した。 また、分類ベンチマークの有望な結果を示し、ラベルを使わずにImageNetデータセットの分類精度を2.83%改善した。

Labeling large image datasets with attributes such as facial age or object type is tedious and sometimes infeasible. Supervised machine learning methods provide a highly accurate solution, but require manual labels which are often unavailable. Zero-shot models (e.g., CLIP) do not require manual labels but are not as accurate as supervised ones, particularly when the attribute is numeric. We propose a new approach, CLIPPR (CLIP with Priors), which adapts zero-shot models for regression and classification on unlabelled datasets. Our method does not use any annotated images. Instead, we assume a prior over the label distribution in the dataset. We then train an adapter network on top of CLIP under two competing objectives: i) minimal change of predictions from the original CLIP model ii) minimal distance between predicted and prior distribution of labels. Additionally, we present a novel approach for selecting prompts for Vision & Language models using a distributional prior. Our method is effective and presents a significant improvement over the original model. We demonstrate an improvement of 28% in mean absolute error on the UTK age regression task. We also present promising results for classification benchmarks, improving the classification accuracy on the ImageNet dataset by 2.83%, without using any labels.
翻訳日:2022-12-02 15:19:23 公開日:2022-12-01
# 正確かつ解釈可能な映像異常検出のための属性に基づく表現

Attribute-based Representations for Accurate and Interpretable Video Anomaly Detection ( http://arxiv.org/abs/2212.00789v1 )

ライセンス: Link先を確認
Tal Reiss, Yedid Hoshen(参考訳) ビデオ異常検出(VAD)は多くの実用的な応用で難しいコンピュータビジョンタスクである。 異常は本質的に曖昧であるため,システム決定の背景にある推論を理解して合理的に判断することが不可欠である。 本稿では,属性に基づく表現を用いたvad精度と解釈可能性の境界をプッシュする,単純かつ高効率な手法を提案する。 我々の方法はすべての物体の速度とポーズを表す。 異常スコアは密度に基づくアプローチで計算される。 驚いたことに、この単純な表現は、最大かつ最も複雑なVADデータセットであるShanghaiTechの最先端のパフォーマンスを達成するのに十分である。 解釈可能な属性ベースの表現と暗黙的な表現を組み合わせることで、最先端のパフォーマンスが99.1\%、93.3\%、Ped2、アベニュー、上海TechのAUROCが85.9\%になる。 私たちの方法は正確で解釈可能で実装が容易です。

Video anomaly detection (VAD) is a challenging computer vision task with many practical applications. As anomalies are inherently ambiguous, it is essential for users to understand the reasoning behind a system's decision in order to determine if the rationale is sound. In this paper, we propose a simple but highly effective method that pushes the boundaries of VAD accuracy and interpretability using attribute-based representations. Our method represents every object by its velocity and pose. The anomaly scores are computed using a density-based approach. Surprisingly, we find that this simple representation is sufficient to achieve state-of-the-art performance in ShanghaiTech, the largest and most complex VAD dataset. Combining our interpretable attribute-based representations with implicit, deep representation yields state-of-the-art performance with a $99.1\%, 93.3\%$, and $85.9\%$ AUROC on Ped2, Avenue, and ShanghaiTech, respectively. Our method is accurate, interpretable, and easy to implement.
翻訳日:2022-12-02 15:19:06 公開日:2022-12-01
# 好奇心に満ちた機械の5つの特性

Five Properties of Specific Curiosity You Didn't Know Curious Machines Should Have ( http://arxiv.org/abs/2212.00187v1 )

ライセンス: Link先を確認
Nadia M. Ady, Roshan Shariff, Johannes G\"unther, Patrick M. Pilarski(参考訳) 機械エージェントの好奇心は、活発な研究活動の焦点となっている。 人間と動物の好奇心、特に特定の好奇心の研究は、機械学習者にとって重要な利益をもたらすいくつかの特性を発掘してきたが、マシンインテリジェンスではまだよく研究されていない。 本研究では,動物と機械の好奇心の分野を包括的に多分野的に調査する。 この研究の主な貢献として、我々はこの調査を基礎として、特定の好奇心の最も重要な5つの特性について紹介し、定義します。 1) 目立たない参照者に対する指示性 2 満足したときの停止 3)自発的曝露 4)不透明,及び 5)コヒーレントな長期学習。 本研究の2つ目の主な貢献として、これらの特性が概念強化学習エージェントにどのように組み合わされるかを示し、好奇心誘導位置と好奇心誘導目標を含む単純な非エポゾディックグリッドワールド環境において、このエージェントの挙動に現れる性質を実証する。 私たちが期待しているように、計算特異的好奇心エージェントの例は、好奇心を誘導する状況に適応するために、長期的な好奇心を更新しながら、短期的な指向行動を示す。 この研究は、機械学習と強化学習の領域において、特定の好奇心の目覚ましい合成と翻訳を示し、将来、複雑な環境におけるゴール探索、意思決定の計算エージェントの振る舞いに、特定の好奇心がどのように機能するかに関する新しい見解を提供する。

Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
翻訳日:2022-12-02 15:12:49 公開日:2022-12-01
# Lov\'asz局所補題を用いたマルコフランダムフィールドによる組合せ構造学習

Learning Combinatorial Structures via Markov Random Fields with Sampling through Lov\'asz Local Lemma ( http://arxiv.org/abs/2212.00296v1 )

ライセンス: Link先を確認
Nan Jiang, Yi Gu, Yexiang Xue(参考訳) 組合せ構造を学習するための生成モデルは、多くの応用において変換的影響を持つ。 しかし、既存のアプローチは効率的で正確な学習結果を提供していない。 組合せ制約を受ける学習対象の勾配推定の非常に難解な性質のためである。 既存の勾配推定法は指数時間/メモリ空間に容易に適用でき、不適切な近似による巨大な推定誤差を生じさせる。 Lov\'asz Local Lemma (LLL) に基づくニューラルネットワークである NEural Lovasz Sampler (Nelson) を開発した。 制約付きマルコフ確率場モデル(mrf)の特定の条件下での分布から組合せ制約を満たすサンプルを生成することが保証される。 さらに,制約付きmrf(nelson-cd)を用いた完全微分可能なコントラスト・ダイバージェンスに基づく学習フレームワークを提案する。 一方、nelson-cdは完全に微分可能であり、gpuの並列計算能力を利用することができ、非常に効率が良い。 3つの実世界の組合せ問題の実験結果から、ネルソンは100%有効な構造を作り出すことを学んでいることが分かる。 対照的に、ベースラインは大規模なデータセットにタイムアウトするか、有効な構造を生成できないかのいずれかである。 さらに,log-likelihoodやmap scoreなど,さまざまな学習指標のベースラインを上回っている。

Generative models for learning combinatorial structures have transformative impacts in many applications. However, existing approaches fail to offer efficient and accurate learning results. Because of the highly intractable nature of the gradient estimation of the learning objective subject to combinatorial constraints. Existing gradient estimation methods would easily run into exponential time/memory space, or incur huge estimation errors due to improper approximation. We develop NEural Lovasz Sampler (Nelson), a neural network based on Lov\'asz Local Lemma (LLL). We show it guarantees to generate samples satisfying combinatorial constraints from the distribution of the constrained Markov Random Fields model (MRF) under certain conditions. We further present a fully differentiable contrastive-divergence-based learning framework on constrained MRF (Nelson-CD). Meanwhile, Nelson-CD being fully differentiable allows us to take advantage of the parallel computing power of GPUs, resulting in great efficiency. Experimental results on three real-world combinatorial problems reveal that Nelson learns to generate 100% valid structures. In comparison, baselines either time out on large-size data sets or fail to generate valid structures, whereas Nelson scales much better with problem size. In addition, Nelson outperforms baselines in various learning metrics, such as log-likelihood and MAP scores.
翻訳日:2022-12-02 15:12:22 公開日:2022-12-01
# 分類器の予測精度の向上とアルツハイマー病診断に必要な検査回数の削減を目的とした機械学習法に関する包括的研究

A Comprehensive Study on Machine Learning Methods to Increase the Prediction Accuracy of Classifiers and Reduce the Number of Medical Tests Required to Diagnose Alzheimer'S Disease ( http://arxiv.org/abs/2212.00414v1 )

ライセンス: Link先を確認
Md. Sharifur Rahman, Professor Girijesh Prasad(参考訳) アルツハイマー病患者は徐々に考え、行動し、他人と対話する能力を失っていく。 疾患の診断には、医療史、検査、日々の活動、人格の変化が利用できる。 一連の時間と費用のかかる検査が病気の診断に使用される。 アルツハイマー病を識別する最も効果的な方法は、他の機械学習技術とともにランダムフォレスト分類器を使用することである。 本研究の主な目的は、適切な疾患発見精度を維持しつつ、少ない検査で病気を検出するために分類器を微調整することである。 健常者30名中4名を用いて,約94%の症例で診断に成功した。

Alzheimer's patients gradually lose their ability to think, behave, and interact with others. Medical history, laboratory tests, daily activities, and personality changes can all be used to diagnose the disorder. A series of time-consuming and expensive tests are used to diagnose the illness. The most effective way to identify Alzheimer's disease is using a Random-forest classifier in this study, along with various other Machine Learning techniques. The main goal of this study is to fine-tune the classifier to detect illness with fewer tests while maintaining a reasonable disease discovery accuracy. We successfully identified the condition in almost 94% of cases using four of the thirty frequently utilized indicators.
翻訳日:2022-12-02 15:12:05 公開日:2022-12-01
# 深層連関学習によるicu死亡リスクの早期予測

Early prediction of the risk of ICU mortality with Deep Federated Learning ( http://arxiv.org/abs/2212.00554v1 )

ライセンス: Link先を確認
Korbinian Rand, N\'uria Llad\'os Armengol, Lena Mondrejevski, Ioanna Miliou(参考訳) 集中治療室は通常、重篤な死亡リスクのある患者を搬送する。 近年の研究では、機械学習が患者の死亡リスクを示し、医師をケアの必要性が高まる個人に向ける能力が示されている。 それにもかかわらず、医療データは、しばしばプライバシー規制の対象となり、複数の病院の複合データを使用する集中型機械学習モデルを構築するために、簡単には共有できない。 Federated Learningは、データプライバシ用に設計された機械学習フレームワークで、この問題を回避するために使用できる。 本研究では,集中治療ユニットの死亡リスクを早期に予測するために,深層連関学習の能力を評価する。 我々は、AUPRC、F1スコア、AUROCの観点から、フェデレーション、集中型、局所機械学習の予測性能を比較した。 その結果,フェデレーテッド・ラーニングは集中型アプローチと同等に機能し,局所的アプローチよりも大幅に優れており,早期集中型ケア・ユニットの死亡予測に有効なソリューションであることがわかった。 また,患者の病歴ウィンドウが退院や死亡に近づくと,予測性能が高くなることを示す。 最後に,F1スコアを早期停止指標として使用することにより,課題に対する我々のアプローチの安定化と性能向上が図れることを示す。

Intensive Care Units usually carry patients with a serious risk of mortality. Recent research has shown the ability of Machine Learning to indicate the patients' mortality risk and point physicians toward individuals with a heightened need for care. Nevertheless, healthcare data is often subject to privacy regulations and can therefore not be easily shared in order to build Centralized Machine Learning models that use the combined data of multiple hospitals. Federated Learning is a Machine Learning framework designed for data privacy that can be used to circumvent this problem. In this study, we evaluate the ability of deep Federated Learning to predict the risk of Intensive Care Unit mortality at an early stage. We compare the predictive performance of Federated, Centralized, and Local Machine Learning in terms of AUPRC, F1-score, and AUROC. Our results show that Federated Learning performs equally well as the centralized approach and is substantially better than the local approach, thus providing a viable solution for early Intensive Care Unit mortality prediction. In addition, we show that the prediction performance is higher when the patient history window is closer to discharge or death. Finally, we show that using the F1-score as an early stopping metric can stabilize and increase the performance of our approach for the task at hand.
翻訳日:2022-12-02 15:11:54 公開日:2022-12-01
# 平均リワードMDPのための準最適還元型政策学習

Near Sample-Optimal Reduction-based Policy Learning for Average Reward MDP ( http://arxiv.org/abs/2212.00603v1 )

ライセンス: Link先を確認
Jinghan Wang, Mengdi Wang, Lin F. Yang(参考訳) この研究は、生成モデル(シミュレータ)にアクセス可能な平均報酬マルコフ決定過程(AMDP)において、$\varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。 基底構造 MDP が弱通信の場合、上界の$\widetilde O(H \varepsilon^{-3} \ln \frac{1}{\delta})$ 状態-作用ペアあたりのサンプルを証明し、$H := sp(h^*)$ は任意の最適ポリシーのバイアスのスパンであり、$\varepsilon$ は精度、$\delta$ は失敗確率である。 この境界は[jin & sidford 2021]における最もよく知られた混合時間に基づくアプローチを改善する。 本分析の核となるのは,AMDP 問題から割引 MDP (DMDP) 問題への適切なリダクションであり,他の設定で DMDP アルゴリズムを適用できるため,独立した関心を持つ可能性がある。 上界は、$\Omega(|\mathcal S| |\mathcal A| H \varepsilon^{-2} \ln \frac{1}{\delta})$の全サンプルを証明し、$H$への線形依存が必要であり、上界が$(|\mathcal S|, |\mathcal A|, H, \ln \frac{1}{\delta})$のすべてのパラメータで下界と一致することを示す。

This work considers the sample complexity of obtaining an $\varepsilon$-optimal policy in an average reward Markov Decision Process (AMDP), given access to a generative model (simulator). When the ground-truth MDP is weakly communicating, we prove an upper bound of $\widetilde O(H \varepsilon^{-3} \ln \frac{1}{\delta})$ samples per state-action pair, where $H := sp(h^*)$ is the span of bias of any optimal policy, $\varepsilon$ is the accuracy and $\delta$ is the failure probability. This bound improves the best-known mixing-time-based approaches in [Jin & Sidford 2021], which assume the mixing-time of every deterministic policy is bounded. The core of our analysis is a proper reduction bound from AMDP problems to discounted MDP (DMDP) problems, which may be of independent interests since it allows the application of DMDP algorithms for AMDP in other settings. We complement our upper bound by proving a minimax lower bound of $\Omega(|\mathcal S| |\mathcal A| H \varepsilon^{-2} \ln \frac{1}{\delta})$ total samples, showing that a linear dependent on $H$ is necessary and that our upper bound matches the lower bound in all parameters of $(|\mathcal S|, |\mathcal A|, H, \ln \frac{1}{\delta})$ up to some logarithmic factors.
翻訳日:2022-12-02 15:11:36 公開日:2022-12-01
# プロセスモデリング改善のための説明可能な人工知能

Explainable Artificial Intelligence for Improved Modeling of Processes ( http://arxiv.org/abs/2212.00695v1 )

ライセンス: Link先を確認
Riza Velioglu, Jan Philip G\"opfert, Andr\'e Artelt, Barbara Hammer(参考訳) 現代のビジネスプロセスでは、収集されたデータの量は近年大幅に増加しています。 このデータによって価値ある洞察が得られる可能性があるため、プロセスマイニングに基づく自動知識抽出が提案されており、その情報に直感的にアクセスできるようになっている。 現在、多くの技術は明確なビジネスプロセスモデルを再構築することを目指している。 これらは直接解釈可能であるが、多様で実価値の高い情報ソースの統合に関する制限がある。 一方、機械学習(ML)は、利用可能な膨大なデータから恩恵を受け、高次元のソースを扱うことができるが、プロセスで使用されることはめったにない。 そこで本研究では,近年のトランスフォーマーアーキテクチャの能力と,より古典的なml技術であるモデリングプロセス規則性を評価し,その予測能力によって定量的に評価する。 さらに,プロセスの予測能力に不可欠な特徴を強調することで,注意特性と特徴関連性判定の能力を示す。 5つのベンチマークデータセットを用いてアプローチの有効性を実証し、MLモデルが臨界結果を予測でき、注意機構やXAIコンポーネントが基盤となるプロセスに新たな洞察を与えることを示す。

In modern business processes, the amount of data collected has increased substantially in recent years. Because this data can potentially yield valuable insights, automated knowledge extraction based on process mining has been proposed, among other techniques, to provide users with intuitive access to the information contained therein. At present, the majority of technologies aim to reconstruct explicit business process models. These are directly interpretable but limited concerning the integration of diverse and real-valued information sources. On the other hand, Machine Learning (ML) benefits from the vast amount of data available and can deal with high-dimensional sources, yet it has rarely been applied to being used in processes. In this contribution, we evaluate the capability of modern Transformer architectures as well as more classical ML technologies of modeling process regularities, as can be quantitatively evaluated by their prediction capability. In addition, we demonstrate the capability of attentional properties and feature relevance determination by highlighting features that are crucial to the processes' predictive abilities. We demonstrate the efficacy of our approach using five benchmark datasets and show that the ML models are capable of predicting critical outcomes and that the attention mechanisms or XAI components offer new insights into the underlying processes.
翻訳日:2022-12-02 15:10:53 公開日:2022-12-01
# 局所適応型階層クラスタ終端と個々の木行列への応用

Locally Adaptive Hierarchical Cluster Termination With Application To Individual Tree Delineation ( http://arxiv.org/abs/2212.00288v1 )

ライセンス: Link先を確認
Ashlin Richardson, Donald Leckie(参考訳) 距離関数を備えた集合上の集合的階層的クラスタリングにおいて、局所的に適応的なクラスタリング終了手順(集合的マージを表す集合の階層木について)を提案する。 これは従来のスケール依存しきい値に基づく終了基準に代わるマルチスケールの代替である。

A clustering termination procedure which is locally adaptive (with respect to the hierarchical tree of sets representative of the agglomerative merging) is proposed, for agglomerative hierarchical clustering on a set equipped with a distance function. It represents a multi-scale alternative to conventional scale dependent threshold based termination criteria.
翻訳日:2022-12-02 15:10:35 公開日:2022-12-01
# 良いヘルパーはあなたの周りにある:注意駆動マスク画像モデリング

Good helper is around you: Attention-driven Masked Image Modeling ( http://arxiv.org/abs/2211.15362v2 )

ライセンス: Link先を確認
Zhengqi Liu, Jie Gui, Hao Luo(参考訳) マスク付き画像モデリング(MIM)は,過去1年間,自己教師型学習において大きな可能性を秘めてきた。 MIMは、ユニバーサルバックボーン・ビジョン・トランスフォーマーから恩恵を受け、画像のパッチの一部を隠蔽し、欠落したピクセルを回復しようとすることで、自己監督された視覚表現を学習する。 これまでのほとんどの作業では、画像のパッチをランダムにマスクし、視覚表現学習に有用な意味情報を弱めている。 一方、バックボーンの大きさが大きいため、以前のほとんどの作品は事前トレーニングに多くの時間を費やしなければならない。 本稿では,上記の2つの問題を解くことができるtextbf{Attention-driven Masking and Throwing Strategy} (AMT)を提案する。 まず,教師付き手法を使わずに,学習過程中に画像の意味情報を自動取得するために自己照査機構を利用する。 マスキング戦略は、その情報を選択的にマスキング領域に誘導することができ、表現学習に役立つ。 さらに,冗長なパッチスロー戦略を提案し,学習をより効率的にする。 マスク画像モデリング用プラグアンドプレイモジュールとして、AMTは、CIFAR-10/100, STL-10, Tiny ImageNet, ImageNet-1K上のMAEの線形探索精度を$2.9\% \sim 5.9\%で改善し、MAEとSimMIMの微調整精度に関して改善された性能を得る。 さらに、この設計は下流検出およびセグメント化タスクにおいて優れた性能を達成する。 コードはhttps://github.com/guijiejie/AMT.comで入手できる。

It has been witnessed that masked image modeling (MIM) has shown a huge potential in self-supervised learning in the past year. Benefiting from the universal backbone vision transformer, MIM learns self-supervised visual representations through masking a part of patches of the image while attempting to recover the missing pixels. Most previous works mask patches of the image randomly, which underutilizes the semantic information that is beneficial to visual representation learning. On the other hand, due to the large size of the backbone, most previous works have to spend much time on pre-training. In this paper, we propose \textbf{Attention-driven Masking and Throwing Strategy} (AMT), which could solve both problems above. We first leverage the self-attention mechanism to obtain the semantic information of the image during the training process automatically without using any supervised methods. Masking strategy can be guided by that information to mask areas selectively, which is helpful for representation learning. Moreover, a redundant patch throwing strategy is proposed, which makes learning more efficient. As a plug-and-play module for masked image modeling, AMT improves the linear probing accuracy of MAE by $2.9\% \sim 5.9\%$ on CIFAR-10/100, STL-10, Tiny ImageNet, and ImageNet-1K, and obtains an improved performance with respect to fine-tuning accuracy of MAE and SimMIM. Moreover, this design also achieves superior performance on downstream detection and segmentation tasks. Code is available at https://github.com/guijiejie/AMT.
翻訳日:2022-12-02 15:10:30 公開日:2022-12-01
# グラフ畳み込みネットワークを用いた工学図の部品分割

Component Segmentation of Engineering Drawings Using Graph Convolutional Networks ( http://arxiv.org/abs/2212.00290v1 )

ライセンス: Link先を確認
Wentai Zhang, Joe Joseph, Yue Yin, Liuyue Xie, Tomotake Furuhata, Soji Yamakawa, Kenji Shimada, Levent Burak Kara(参考訳) 2次元工学部図のベクトル化と機械解釈を自動化するためのデータ駆動フレームワークを提案する。 工業環境では、ほとんどの製造技術者は、設計者が提出した図面からトポロジカルおよび製造要求を特定するために、手書きの読み取りに依存している。 解釈プロセスは手間と時間がかかるため、部品の引用や製造作業の効率を著しく阻害する。 画像に基づくコンピュータビジョン手法の最近の進歩は、セマンティックセグメンテーションアプローチによる自然画像の解釈に大きな可能性を示しているが、技術図面を意味的に正確なコンポーネントに解析する手法の適用は、依然として大きな課題である。 エンジニアリング図面における重度のピクセル間隔は、画像ベースのデータ駆動手法の効果的な成果化を制限している。 これらの課題を克服するために,各ベクトル化成分の意味型を予測するディープラーニングフレームワークを提案する。 ラスター画像を入力として、薄型化、ストロークトレーシング、立方体ベジターフィッティングにより全ての成分をベクトル化する。 そして、コンポーネント間の接続に基づいて、そのようなコンポーネントのグラフを生成する。 最後に、このグラフデータに基づいてグラフ畳み込みニューラルネットワークをトレーニングし、各コンポーネントの意味型を特定する。 エンジニアリング図面におけるテキスト,次元,輪郭成分の意味的セグメンテーションの文脈で,我々のフレームワークをテストする。 その結果,本手法は最近の画像とグラフベースセグメンテーション法と比較して,最高の性能を示すことがわかった。

We present a data-driven framework to automate the vectorization and machine interpretation of 2D engineering part drawings. In industrial settings, most manufacturing engineers still rely on manual reads to identify the topological and manufacturing requirements from drawings submitted by designers. The interpretation process is laborious and time-consuming, which severely inhibits the efficiency of part quotation and manufacturing tasks. While recent advances in image-based computer vision methods have demonstrated great potential in interpreting natural images through semantic segmentation approaches, the application of such methods in parsing engineering technical drawings into semantically accurate components remains a significant challenge. The severe pixel sparsity in engineering drawings also restricts the effective featurization of image-based data-driven methods. To overcome these challenges, we propose a deep learning based framework that predicts the semantic type of each vectorized component. Taking a raster image as input, we vectorize all components through thinning, stroke tracing, and cubic bezier fitting. Then a graph of such components is generated based on the connectivity between the components. Finally, a graph convolutional neural network is trained on this graph data to identify the semantic type of each component. We test our framework in the context of semantic segmentation of text, dimension and, contour components in engineering drawings. Results show that our method yields the best performance compared to recent image, and graph-based segmentation methods.
翻訳日:2022-12-02 15:09:59 公開日:2022-12-01
# マルチクラス画像分類におけるデータとクラス別不確かさ推定のためのテスト時混合化

Test-Time Mixup Augmentation for Data and Class-Specific Uncertainty Estimation in Multi-Class Image Classification ( http://arxiv.org/abs/2212.00214v1 )

ライセンス: Link先を確認
Hansang Lee, Haeil Lee, Helen Hong, and Junmo Kim(参考訳) 訓練された深層学習ネットワークの不確実性推定は、学習効率の向上やネットワーク予測の信頼性評価に重要な情報を提供する。 本稿では,TTMA(Test-time Mixup Augmentation)を用いたマルチクラス画像分類の不確実性推定手法を提案する。 そこで本研究では, 実験データに混合増強を適用し, 予測されたラベルのヒストグラムのエントロピーを計測することにより, 既存のアレタリック不確実性の正しい予測と誤予測との識別性を向上する。 データの不確実性に加えて、訓練されたネットワークのクラス混乱とクラス類似性に関する情報を提供するための、特定のクラスに関連するアレラトリック不確実性を示すクラス固有の不確実性を提案する。 提案手法はISIC-18皮膚病変診断データセットとCIFAR-100リアルタイム画像分類データセットの2つの公開データセットで検証された。 提案するデータ不確実性は,混合摂動による既存の不確実性尺度よりも正確かつ不正確な予測を分離し,(2)提案されたクラス固有の不確実性は,両データセットのトレーニングされたネットワークのクラス混乱とクラス類似性に関する情報を提供する。

Uncertainty estimation of the trained deep learning network provides important information for improving the learning efficiency or evaluating the reliability of the network prediction. In this paper, we propose a method for the uncertainty estimation for multi-class image classification using test-time mixup augmentation (TTMA). To improve the discrimination ability between the correct and incorrect prediction of the existing aleatoric uncertainty, we propose the data uncertainty by applying the mixup augmentation on the test data and measuring the entropy of the histogram of predicted labels. In addition to the data uncertainty, we propose a class-specific uncertainty presenting the aleatoric uncertainty associated with the specific class, which can provide information on the class confusion and class similarity of the trained network. The proposed methods are validated on two public datasets, the ISIC-18 skin lesion diagnosis dataset, and the CIFAR-100 real-world image classification dataset. The experiments demonstrate that (1) the proposed data uncertainty better separates the correct and incorrect prediction than the existing uncertainty measures thanks to the mixup perturbation, and (2) the proposed class-specific uncertainty provides information on the class confusion and class similarity of the trained network for both datasets.
翻訳日:2022-12-02 15:04:00 公開日:2022-12-01
# 水中物体検出のためのマルチビームフォワード・ソナー付きデータセット

A Dataset with Multibeam Forward-Looking Sonar for Underwater Object Detection ( http://arxiv.org/abs/2212.00352v1 )

ライセンス: Link先を確認
Kaibing Xie (1), Jian Yang (1), Kang Qiu (1) ((1) Peng Cheng Laboratory, Shenzhen, China)(参考訳) マルチビーム前方ソナー (MFLS) は水中検出において重要な役割を担っている。 MFLSを用いた水中物体検出の研究にはいくつかの課題がある。 まず、研究には利用可能なデータセットがない。 第二に、ソナー画像は一般的にピクセルレベルで処理され、人間の視覚的習慣のセクター表現に変換されるが、人工知能(AI)分野の研究には不利である。 これらの課題に向けて,Tritech Gemini 1200ikソナーを用いて9000枚以上のMFLS画像からなる,水中音響目標検出(UATD)データセットを提案する。 本データセットは,対象対象物10種類(キューブ,シリンダ,タイヤなど)の注釈付きソナー画像の生データを提供する。 データは湖と浅い水から収集された。 UATDの実用性を検証するため、このデータセットを最先端検出器に適用し、その精度と効率のベンチマークを行う。

Multibeam forward-looking sonar (MFLS) plays an important role in underwater detection. There are several challenges to the research on underwater object detection with MFLS. Firstly, the research is lack of available dataset. Secondly, the sonar image, generally processed at pixel level and transformed to sector representation for the visual habits of human beings, is disadvantageous to the research in artificial intelligence (AI) areas. Towards these challenges, we present a novel dataset, the underwater acoustic target detection (UATD) dataset, consisting of over 9000 MFLS images captured using Tritech Gemini 1200ik sonar. Our dataset provides raw data of sonar images with annotation of 10 categories of target objects (cube, cylinder, tyres, etc). The data was collected from lake and shallow water. To verify the practicality of UATD, we apply the dataset to the state-of-the-art detectors and provide corresponding benchmarks for its accuracy and efficiency.
翻訳日:2022-12-02 15:03:36 公開日:2022-12-01
# タイムラプスカメラ記録における小昆虫の運動情報物体検出

Motion Informed Object Detection of Small Insects in Time-lapse Camera Recordings ( http://arxiv.org/abs/2212.00423v1 )

ライセンス: Link先を確認
Kim Bjerge, Carsten Eie Frigaard and Henrik Karstoft(参考訳) 受粉者としての昆虫は、生態系管理と世界食糧生産において重要な役割を担っている。 しかし、昆虫の個体数は減少しており、昆虫モニタリングの国際的需要が要求されている。 既存の方法は、自然界の昆虫の映像やタイムラプス画像を分析するが、昆虫は自然植生の複雑なダイナミックな場面で小さな物体であるため、分析は難しい。 現在の論文では、夏期の2ヶ月間に3つの異なる植物種を訪れるミツバチのデータセットを提供している。 データセットには、複数のカメラからの70万以上のタイムラプス画像が含まれており、10万以上の注釈付き画像が含まれている。 タイムラプスRGB画像における昆虫検出のための新しいパイプラインを提案する。 パイプラインは2段階のプロセスで構成される。 まず、タイムラプスのRGB画像は、画像中の昆虫を強化するために前処理される。 動作インフォームドエンハンスメント(Motion-Informed-Enhancement)を提案する。 この技術は、動きと色を使って、画像中の昆虫を強化する。 強化された画像はその後、畳み込みニューラルネットワーク(CNN)オブジェクト検出器に送られる。 Motion-Informed-Enhancementは、You Only Look Once (YOLO)とFaster Region-based Convolutional Neural Networks (Faster R-CNN)を改善している。 Motion-Informed-Enhancementを用いて、YOLO-detectorは平均マイクロF1スコアを0.49から0.71に改善し、Faster R-CNN-detectorは平均マイクロF1スコアを0.32から0.56に改善した。 私たちのデータセットは、https://vision.eng.au.dk/mie/

Insects as pollinators play a key role in ecosystem management and world food production. However, insect populations are declining, calling for a necessary global demand of insect monitoring. Existing methods analyze video or time-lapse images of insects in nature, but the analysis is challenging since insects are small objects in complex and dynamic scenes of natural vegetation. The current paper provides a dataset of primary honeybees visiting three different plant species during two months of summer-period. The dataset consists of more than 700,000 time-lapse images from multiple cameras, including more than 100,000 annotated images. The paper presents a new method pipeline for detecting insects in time-lapse RGB-images. The pipeline consists of a two-step process. Firstly, the time-lapse RGB-images are preprocessed to enhance insects in the images. We propose a new prepossessing enhancement method: Motion-Informed-enhancement. The technique uses motion and colors to enhance insects in images. The enhanced images are subsequently fed into a Convolutional Neural network (CNN) object detector. Motion-Informed-enhancement improves the deep learning object detectors You Only Look Once (YOLO) and Faster Region-based Convolutional Neural Networks (Faster R-CNN). Using Motion-Informed-enhancement the YOLO-detector improves average micro F1-score from 0.49 to 0.71, and the Faster R-CNN-detector improves average micro F1-score from 0.32 to 0.56 on the our dataset. Our datasets are published on: https://vision.eng.au.dk/mie/
翻訳日:2022-12-02 15:03:22 公開日:2022-12-01
# マルチスケール動作一貫性学習による群集レベルの異常行動検出

Crowd-level Abnormal Behavior Detection via Multi-scale Motion Consistency Learning ( http://arxiv.org/abs/2212.00501v1 )

ライセンス: Link先を確認
Linbo Luo, Yuanjing Li, Haiyan Yin, Shangwei Xie, Ruimin Hu, Wentong Cai(参考訳) 個人の複雑な相互作用から生じる異常な群集の動きを検出することは、群衆の安全を確保するために最重要である。 群集レベルの異常行動(cab)、例えばカウンターフローや群集乱流は、多くの群集災害の重要な原因であることが証明されている。 近年、ビデオ異常検出(VAD)技術は、個人レベルの異常な動作(例えば、突然のランニング、戦闘、盗難)を検知することに成功したが、CABに対するVADの研究は限られている。 個々のレベルの異常とは異なり、CABは局所的に観察された場合の正常な行動と顕著な差は見られず、CABの規模はシナリオによって異なる可能性がある。 本稿では,群衆運動学習フレームワークであるマルチスケール運動整合ネットワーク(MSMC-Net)を用いて,CABに対するVADの重要な問題に取り組むための系統的研究を行う。 MSMC-Netはまず、グラフ表現における空間的および時間的群集運動一貫性情報をキャプチャする。 そして、異なるスケールで構築された複数の特徴グラフを同時に訓練し、豊かな群衆パターンをキャプチャする。 注意ネットワークは、CAB検出を改善するために、マルチスケール機能を適応的に融合するために使用される。 実証実験では,3つの大規模イベントデータセット,UMN,Hajj,Love Paradeについて考察する。 実験結果から,MSMC-Netは全データセットの最先端性能を大幅に向上できることが示された。

Detecting abnormal crowd motion emerging from complex interactions of individuals is paramount to ensure the safety of crowds. Crowd-level abnormal behaviors (CABs), e.g., counter flow and crowd turbulence, are proven to be the crucial causes of many crowd disasters. In the recent decade, video anomaly detection (VAD) techniques have achieved remarkable success in detecting individual-level abnormal behaviors (e.g., sudden running, fighting and stealing), but research on VAD for CABs is rather limited. Unlike individual-level anomaly, CABs usually do not exhibit salient difference from the normal behaviors when observed locally, and the scale of CABs could vary from one scenario to another. In this paper, we present a systematic study to tackle the important problem of VAD for CABs with a novel crowd motion learning framework, multi-scale motion consistency network (MSMC-Net). MSMC-Net first captures the spatial and temporal crowd motion consistency information in a graph representation. Then, it simultaneously trains multiple feature graphs constructed at different scales to capture rich crowd patterns. An attention network is used to adaptively fuse the multi-scale features for better CAB detection. For the empirical study, we consider three large-scale crowd event datasets, UMN, Hajj and Love Parade. Experimental results show that MSMC-Net could substantially improve the state-of-the-art performance on all the datasets.
翻訳日:2022-12-02 15:02:55 公開日:2022-12-01
# 移動可能な極細粒度物体検出のための関係性の利用について

On Utilizing Relationships for Transferable Few-Shot Fine-Grained Object Detection ( http://arxiv.org/abs/2212.00770v1 )

ライセンス: Link先を確認
Ambar Pal, Arnau Ramisa, Amit Kumar K C, Ren\'e Vidal(参考訳) 最先端の物体検出器は高速かつ精度が高いが、優れた性能を得るためには大量の注釈付きトレーニングデータが必要である。 しかし、特定のタスクに特化した大量のトレーニングアノテーション、すなわちきめ細かいアノテーションを得ることは、実際にコストがかかる。 対照的に、「テーブルランプはテーブルの上に座るランプである」といったテキストから常識的な関係を得るのは非常に容易である。 さらに、"オン・トップ・オブ"のような常識的な関係はタスクに依存しない方法で注釈を付けるのが容易です。 本稿では,そのような関係知識を用いて,粗い対象カテゴリー(例えば「テーブル」,「ランプ」)のオフザシェルフ検出器を,きめ細かいカテゴリ(例えば「テーブルランプ」)の検出器に変換する確率論的モデルを提案する。 提案手法であるRelDetectは,細粒度アノテーションが極めて少ない場合(全データセットの0.2 %$)に,細粒度に基づくオブジェクト検出器のベースラインの微調整に競争力を発揮することを示す。 また、RelDetectは、関係情報の固有の転送可能性を利用して、上述したベースライン(ゼロショット転送)よりも優れたパフォーマンス(+5$mAPポイント)を得ることができることを示す。 要約すると,細粒度オブジェクトのカテゴリを適切な関係を通じて粗粒度カテゴリに関連付けることのできるデータセット上で,オブジェクト検出にリレーションシップを使用する能力を示す。

State-of-the-art object detectors are fast and accurate, but they require a large amount of well annotated training data to obtain good performance. However, obtaining a large amount of training annotations specific to a particular task, i.e., fine-grained annotations, is costly in practice. In contrast, obtaining common-sense relationships from text, e.g., "a table-lamp is a lamp that sits on top of a table", is much easier. Additionally, common-sense relationships like "on-top-of" are easy to annotate in a task-agnostic fashion. In this paper, we propose a probabilistic model that uses such relational knowledge to transform an off-the-shelf detector of coarse object categories (e.g., "table", "lamp") into a detector of fine-grained categories (e.g., "table-lamp"). We demonstrate that our method, RelDetect, achieves performance competitive to finetuning based state-of-the-art object detector baselines when an extremely low amount of fine-grained annotations is available ($0.2\%$ of entire dataset). We also demonstrate that RelDetect is able to utilize the inherent transferability of relationship information to obtain a better performance ($+5$ mAP points) than the above baselines on an unseen dataset (zero-shot transfer). In summary, we demonstrate the power of using relationships for object detection on datasets where fine-grained object categories can be linked to coarse-grained categories via suitable relationships.
翻訳日:2022-12-02 15:02:29 公開日:2022-12-01
# 部分的マルチグラフマッチングのためのユニバースポイント表現学習

Universe Points Representation Learning for Partial Multi-Graph Matching ( http://arxiv.org/abs/2212.00780v1 )

ライセンス: Link先を確認
Zhakshylyk Nurlanov, Frank R. Schmidt, Florian Bernard(参考訳) 自然界からの多くの挑戦はグラフマッチング問題として定式化することができる。 従来のディープラーニングベースの手法では、主に完全な2グラフマッチングの設定を検討する。 本研究では,マルチグラフサイクルの整合性を保証するため,より一般的な部分マッチング問題について検討する。 グラフの深層学習の最近の進歩を基盤として,オブジェクト指向の定式化を用いて抽象宇宙点の潜在表現を学習する部分多重グラフマッチングのための新しいデータ駆動手法(URL)を提案する。 提案手法は,Pascal VOC,CUB,Wilowの各データセットで評価された意味キーポイントマッチング問題における技術の現状を推し進める。 さらに,合成グラフマッチングデータセットにおける制御実験のセットは,多数のノードを有するグラフへの拡張性と高い部分性に対する頑健性を示す。

Many challenges from natural world can be formulated as a graph matching problem. Previous deep learning-based methods mainly consider a full two-graph matching setting. In this work, we study the more general partial matching problem with multi-graph cycle consistency guarantees. Building on a recent progress in deep learning on graphs, we propose a novel data-driven method (URL) for partial multi-graph matching, which uses an object-to-universe formulation and learns latent representations of abstract universe points. The proposed approach advances the state of the art in semantic keypoint matching problem, evaluated on Pascal VOC, CUB, and Willow datasets. Moreover, the set of controlled experiments on a synthetic graph matching dataset demonstrates the scalability of our method to graphs with large number of nodes and its robustness to high partiality.
翻訳日:2022-12-02 15:02:04 公開日:2022-12-01
# 長期文書の言語間相互要約

Long-Document Cross-Lingual Summarization ( http://arxiv.org/abs/2212.00586v1 )

ライセンス: Link先を確認
Shaohui Zheng, Zhixu Li, Jiaan Wang, Jianfeng Qu, An Liu, Lei Zhao, Zhigang Chen(参考訳) 言語間要約(CLS)は、ある言語で与えられた文書の要約を生成することを目的としている。 CLSは多言語世界での実践的重要性から広く研究されている。 コントリビューションは多いが、既存のCRSの作品はニュース記事や短い対話、ガイドなどの短い文書に重点を置いている。 これらの短いテキストと異なり、学術論文やビジネスレポートのような長い文書は、通常複雑な主題を議論し、数千語からなるため、処理や要約が簡単ではない。 長文のCLS研究を促進するために、英語の要約と組み合わせた約94万の中国科学文書を収集する最初の長文のCLSデータセットPerseusを構築した。 ペルセウスの文書の平均の長さは2,000枚以上である。 長文書CLSの予備研究として,パイプラインやエンドツーエンドの手法を含む様々なCLSベースラインを構築し,評価する。 Perseusの実験結果は、高度な機械翻訳システムを備えた強力なパイプラインモデルよりも優れた、エンドツーエンドベースラインの優位性を示している。 さらに,モデルのアウトプットを手作業で分析し,現在のアプローチが直面する具体的な課題について議論する。 我々の研究が長期文書CLSをベンチマークし、将来の研究に役立つことを期待しています。

Cross-Lingual Summarization (CLS) aims at generating summaries in one language for the given documents in another language. CLS has attracted wide research attention due to its practical significance in the multi-lingual world. Though great contributions have been made, existing CLS works typically focus on short documents, such as news articles, short dialogues and guides. Different from these short texts, long documents such as academic articles and business reports usually discuss complicated subjects and consist of thousands of words, making them non-trivial to process and summarize. To promote CLS research on long documents, we construct Perseus, the first long-document CLS dataset which collects about 94K Chinese scientific documents paired with English summaries. The average length of documents in Perseus is more than two thousand tokens. As a preliminary study on long-document CLS, we build and evaluate various CLS baselines, including pipeline and end-to-end methods. Experimental results on Perseus show the superiority of the end-to-end baseline, outperforming the strong pipeline models equipped with sophisticated machine translation systems. Furthermore, to provide a deeper understanding, we manually analyze the model outputs and discuss specific challenges faced by current approaches. We hope that our work could benchmark long-document CLS and benefit future studies.
翻訳日:2022-12-02 14:55:57 公開日:2022-12-01
# ブラジルポルトガル語ユーザレビューのテキスト分類のための埋め込み生成--back-of-wordsからtransformerへ

Embedding generation for text classification of Brazilian Portuguese user reviews: from bag-of-words to transformers ( http://arxiv.org/abs/2212.00587v1 )

ライセンス: Link先を確認
Frederico Dias Souza and Jo\~ao Baptista de Oliveira e Souza Filho(参考訳) テキスト分類は、eコマースやカスタマーサービスなど、多くの商用アプリケーションに関連する自然言語処理(nlp)タスクである。 当然、こうした抜粋を正確に分類することは、皮肉やニュアンスのような内在的な言語的側面から、しばしば挑戦を表している。 このタスクを達成するには、埋め込みとして知られる文書の堅牢な数値表現を提供しなければならない。 近年、埋め込みは重要なNLP分野であり、特に、ワード・ツー・ベクターの概念の導入や、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマーベースの言語モデル(TLM)など、NLPタスクを解決するディープラーニングモデルの普及以降、この10年間で大きな進歩に直面している。 この分野での顕著な成果にもかかわらず、ブラジルポルトガル語のテキストの埋め込みに関する文献は、特に商業的ユーザレビューを考えると、ほとんどない。 そこで本研究は,ブラジル・ポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする組込みアプローチの包括的実験研究を目的とする。 本研究は,古典的(バック・オブ・ワード)から最先端(トランスフォーマーベース)nlpモデルまでを含む。 これらの方法は、再現性を促進するために、オープンデジタルリポジトリで利用可能な事前定義されたデータパーティションを持つ5つのオープンソースデータベースで評価される。 微調整 TLM は全てのケースで最高の結果となり、分析対象のデータベースによって異なるランクで特徴ベースの TLM, LSTM, CNN が続く。

Text classification is a natural language processing (NLP) task relevant to many commercial applications, like e-commerce and customer service. Naturally, classifying such excerpts accurately often represents a challenge, due to intrinsic language aspects, like irony and nuance. To accomplish this task, one must provide a robust numerical representation for documents, a process known as embedding. Embedding represents a key NLP field nowadays, having faced a significant advance in the last decade, especially after the introduction of the word-to-vector concept and the popularization of Deep Learning models for solving NLP tasks, including Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Transformer-based Language Models (TLMs). Despite the impressive achievements in this field, the literature coverage regarding generating embeddings for Brazilian Portuguese texts is scarce, especially when considering commercial user reviews. Therefore, this work aims to provide a comprehensive experimental study of embedding approaches targeting a binary sentiment classification of user reviews in Brazilian Portuguese. This study includes from classical (Bag-of-Words) to state-of-the-art (Transformer-based) NLP models. The methods are evaluated with five open-source databases with pre-defined data partitions made available in an open digital repository to encourage reproducibility. The Fine-tuned TLMs achieved the best results for all cases, being followed by the Feature-based TLM, LSTM, and CNN, with alternate ranks, depending on the database under analysis.
翻訳日:2022-12-02 14:55:37 公開日:2022-12-01
# パッチレベル事前訓練ドキュメンテーション画像モデルのためのアライメント強化チューニング

Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image Models ( http://arxiv.org/abs/2211.14777v2 )

ライセンス: Link先を確認
Lei Wang, Jiabang He, Xing Xu, Ning Liu, Hui Liu(参考訳) 画像とテキストのアライメントは、パッチレベルの事前訓練された文書イメージモデルに有望な改善を示している。 しかしながら、事前トレーニング中のより効果的で細かいアライメント技術を調査するには、大量の計算コストと時間が必要となる。 トレーニング済みのモデルを、アライメントの目的を持った下流タスクに適応させ、同等あるいはより良いパフォーマンスを達成することができるだろうか? 本稿では,事前訓練された文書画像モデルに基づくアライメント強化チューニング(AETNet)を用いた新しいモデルアーキテクチャを提案する。 具体的には,アライメントウェア画像エンコーダとしての余分な視覚トランスと,マルチモーダル融合前のアライメントウェアテキストエンコーダとしての余分なテキストトランスについて紹介する。 私たちは以下の3つの側面で整合性を考える。 1) クロスモーダル及びイントラモーダルコントラスト損失を利用した文書レベルのアライメント 2) 文書画像における局所的及び構造的情報をモデル化するためのグローバル局所的アライメント 3)より正確なパッチレベル情報に対する局所レベルアライメント。 様々なダウンストリームタスクの実験は、AETNetが様々なダウンストリームタスクで最先端のパフォーマンスを達成できることを示している。 特に、AETNetは3つの異なる下流タスクにおいて、LayoutLMv3のような最先端の事前訓練されたモデルよりも一貫して優れている。

Alignment between image and text has shown promising improvements on patch-level pre-trained document image models. However, investigating more effective or finer-grained alignment techniques during pre-training requires a large amount of computation cost and time. Thus, a question naturally arises: Could we fine-tune the pre-trained models adaptive to downstream tasks with alignment objectives and achieve comparable or better performance? In this paper, we propose a new model architecture with alignment-enriched tuning (dubbed AETNet) upon pre-trained document image models, to adapt downstream tasks with the joint task-specific supervised and alignment-aware contrastive objective. Specifically, we introduce an extra visual transformer as the alignment-ware image encoder and an extra text transformer as the alignment-ware text encoder before multimodal fusion. We consider alignment in the following three aspects: 1) document-level alignment by leveraging the cross-modal and intra-modal contrastive loss; 2) global-local alignment for modeling localized and structural information in document images; and 3) local-level alignment for more accurate patch-level information. Experiments on various downstream tasks show that AETNet can achieve state-of-the-art performance on various downstream tasks. Notably, AETNet consistently outperforms state-of-the-art pre-trained models, such as LayoutLMv3 with fine-tuning techniques, on three different downstream tasks.
翻訳日:2022-12-02 14:55:10 公開日:2022-12-01
# super-clevr:ビジュアル推論におけるドメインロバストネスを診断する仮想ベンチマーク

Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning ( http://arxiv.org/abs/2212.00259v1 )

ライセンス: Link先を確認
Zhuowan Li (1), Xingrui Wang (2), Elias Stengel-Eskin (1), Adam Kortylewski (3 and 4), Wufei Ma (1), Benjamin Van Durme (1), Alan Yuille (1) ((1) Johns Hopkins University, (2) University of Southern California, (3) Max Planck Institute for Informatics, (4) University of Freiburg)(参考訳) ビジュアル質問応答(vqa)モデルは、しばしば分散データで性能が悪く、ドメインの一般化に苦しむ。 このタスクのマルチモーダル性のため、変動の複数の要因が絡み合っており、一般化は分析が困難である。 これにより、VQAドメインシフトの異なる要因を分離して、その効果を独立して研究できる仮想ベンチマークであるSuper-CLEVRを導入することができる。 視覚の複雑さ、質問の冗長性、概念分布、概念構成性である。 制御されたデータにより、テストデータが各軸に沿ったトレーニングデータと異なる状況下で、Super-CLEVRはVQAメソッドをテストすることができる。 2つのニューラルシンボリックメソッドNSCLとNSVQAと2つの非シンボリックメソッドFiLMとmDETRを含む4つの既存手法と、不確実な推論でNSVQAを拡張する確率的NSVQA(P-NSVQA)を提案する。 P-NSVQAは4つの領域シフト因子のうち3つで他の手法より優れている。 この結果から,確率的不確実性と相まって,ドメインシフトに対してより堅牢な強いVQAモデルを形成することが示唆された。 データセットとコードはhttps://github.com/lizw14/super-clevrでリリースされる。

Visual Question Answering (VQA) models often perform poorly on out-of-distribution data and struggle on domain generalization. Due to the multi-modal nature of this task, multiple factors of variation are intertwined, making generalization difficult to analyze. This motivates us to introduce a virtual benchmark, Super-CLEVR, where different factors in VQA domain shifts can be isolated in order that their effects can be studied independently. Four factors are considered: visual complexity, question redundancy, concept distribution and concept compositionality. With controllably generated data, Super-CLEVR enables us to test VQA methods in situations where the test data differs from the training data along each of these axes. We study four existing methods, including two neural symbolic methods NSCL and NSVQA, and two non-symbolic methods FiLM and mDETR; and our proposed method, probabilistic NSVQA (P-NSVQA), which extends NSVQA with uncertainty reasoning. P-NSVQA outperforms other methods on three of the four domain shift factors. Our results suggest that disentangling reasoning and perception, combined with probabilistic uncertainty, form a strong VQA model that is more robust to domain shifts. The dataset and code are released at https://github.com/Lizw14/Super-CLEVR.
翻訳日:2022-12-02 14:54:48 公開日:2022-12-01
# ローカライゼーション対セマンティクス: 言語はどのように視覚表現学習に適合するか?

Localization vs. Semantics: How Can Language Benefit Visual Representation Learning? ( http://arxiv.org/abs/2212.00281v1 )

ライセンス: Link先を確認
Zhuowan Li (1), Cihang Xie (2), Benjamin Van Durme (1), Alan Yuille (1) ((1) Johns Hopkins University, (2) University of California, Santa Cruz)(参考訳) 視覚と言語による事前学習がもたらす優れたパフォーマンスにもかかわらず、マルチモーダルデータによる学習が個々のモダリティを理解するのに役立つかどうかは不明だ。 本研究では,言語が探索的視点から視覚表現学習にどう役立つかを検討する。 具体的には、学習した表現の質をきめ細かい方法で評価するために、幅広いタスクで視覚表現を探索することにより、視覚と言語のみのモデルと比較する。 興味深いことに、我々の調査結果は、視覚と言語モデルの方が、オブジェクトや属性予測のようなラベル予測タスクに優れていることを示唆している。 詳細なメトリクスを用いたさらなる分析により、言語は視覚モデルによるセマンティクスの学習に役立ち、ローカライゼーションは行わないことが示唆された。 コードはhttps://github.com/lizw14/visual_probingでリリースされる。

Despite the superior performance brought by vision-and-language pretraining, it remains unclear whether learning with multi-modal data can help understand each individual modality. In this work, we investigate how language can help with visual representation learning from a probing perspective. Specifically, we compare vision-and-language and vision-only models by probing their visual representations on a broad range of tasks, in order to assess the quality of the learned representations in a fine-grained manner. Interestingly, our probing results suggest that vision-and-language models are better at label prediction tasks like object and attribute prediction, while vision-only models are stronger at dense prediction tasks that require more localized information. With further analysis using detailed metrics, our study suggests that language helps vision models learn better semantics, but not localization. Code is released at https://github.com/Lizw14/visual_probing.
翻訳日:2022-12-02 14:54:25 公開日:2022-12-01
# AUG-FedPrompt: データ強化プロンプットによる実践的FwショットフェデレーションNLP

AUG-FedPrompt: Practical Few-shot Federated NLP with Data-augmented Prompts ( http://arxiv.org/abs/2212.00192v1 )

ライセンス: Link先を確認
Dongqi Cai, Yaozong Wu, Haitao Yuan, Shangguang Wang, Felix Xiaozhu Lin, Mengwei Xu(参考訳) トランスフォーマーベースの事前学習モデルは、NLPタスクのデファクトソリューションとなっている。 ダウンストリームタスクのためにトレーニング済みのモデルを微調整するには、プライベートかつラベル付けされた大量のデータが必要になることが多い。 しかし、実際には 1)このようなプライベートデータは収集できず,モバイルデバイス間で配布される。 2) 精度の高いラベル付きデータは少ない。 これらの問題に対処するため、まず、少ないラベル付きデータの量と分布を現実的な設定で包含する、フェデレート・マイズショット学習タスクのためのデータジェネレータを定義する。 次に、データ拡張のために、豊富なラベルのないデータを慎重に注釈付けする、プロンプトベースのフェデレート学習アルゴリズムであるAUG-FedPromptを提案する。 AUG-FedPromptはフルセットの微調整と同等に動作し、初期ラベル付きデータはほとんどない。

Transformer-based pre-trained models have become the de-facto solution for NLP tasks. Fine-tuning such pre-trained models for downstream tasks often requires tremendous amount of data that is both private and labeled. However, in reality: 1) such private data cannot be collected and is distributed across mobile devices, and 2) well-curated labeled data is scarce. To tackle those issues, we first define a data generator for federated few-shot learning tasks, which encompasses the quantity and distribution of scarce labeled data in a realistic setting. Then we propose AUG-FedPrompt, a prompt-based federated learning algorithm that carefully annotates abundant unlabeled data for data augmentation. AUG-FedPrompt can perform on par with full-set fine-tuning with very few initial labeled data.
翻訳日:2022-12-02 14:54:06 公開日:2022-12-01
# 意味分解による大規模言語モデルの多段階推論能力を小型モデルに蒸留する

Distilling Multi-Step Reasoning Capabilities of Large Language Models into Smaller Models via Semantic Decompositions ( http://arxiv.org/abs/2212.00193v1 )

ライセンス: Link先を確認
Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan(参考訳) cot(chain-of-thought)のようなステップバイステップの推論アプローチは、大規模言語モデルにおいて推論能力を誘導する非常に効果的なテクニックであることが証明されている。 しかし、CoTアプローチの成功は主にモデルのサイズに依存し、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。 本稿では,より大きなモデルの段階的なcot推論能力を活用し,これらの推論能力をより小さなモデルに分解する知識蒸留手法を提案する。 本手法では,原問題のセマンティクス分解をサブプロブレム列に学習し,2つのモデルを訓練する。 a) 複雑な推論問題をより単純なサブプロブレムの列に分解することを学ぶ問題分解器 b) 中間のサブプロブレムを用いて全体の問題を解く問題解決器 マルチステップ数学語問題データセット(GSM8K)では,提案手法をCoTと比較した場合,GPT-2変種の性能を最大35%向上させる。 提案手法を用いることで,CoT推論を用いて訓練した10倍のGPT-3(6B)モデルより優れたGPT-2大モデル(775M)を訓練できることを示す。 最後に,問題分解のアプローチがCoTプロンプトの代替として利用できることを示し,GPT-3の性能をCoTプロンプトと比較して40%向上させることを示した。

Step-by-step reasoning approaches like chain-of-thought (CoT) have proved to be a very effective technique to induce reasoning capabilities in large language models. However, the success of the CoT approach depends primarily on model size, and often billion parameter-scale models are needed to get CoT to work. In this paper, we propose a knowledge distillation approach, that leverages the step-by-step CoT reasoning capabilities of larger models and distils these reasoning abilities into smaller models. Our approach Decompositional Distillation learns a semantic decomposition of the original problem into a sequence of subproblems and uses it to train two models: a) a problem decomposer that learns to decompose the complex reasoning problem into a sequence of simpler sub-problems and b) a problem solver that uses the intermediate subproblems to solve the overall problem. On a multi-step math word problem dataset (GSM8K), we boost the performance of GPT-2 variants up to 35% when distilled with our approach compared to CoT. We show that using our approach, it is possible to train a GPT-2-large model (775M) that can outperform a 10X larger GPT-3 (6B) model trained using CoT reasoning. Finally, we also demonstrate that our approach of problem decomposition can also be used as an alternative to CoT prompting, which boosts the GPT-3 performance by 40% compared to CoT prompts.
翻訳日:2022-12-02 14:53:53 公開日:2022-12-01
# pizza: タスク指向構文解析のための新しいベンチマーク

PIZZA: A new benchmark for complex end-to-end task-oriented parsing ( http://arxiv.org/abs/2212.00265v1 )

ライセンス: Link先を確認
Konstantine Arkoudas, Nicolas Guenon des Mesnards, Melanie Rubino, Sandesh Swamy, Saarthak Khanna, Weiqi Sun, Khan Haidar(参考訳) タスク指向構文解析における最近の研究は、平らなスロットとインテントの間の中間部分を見つけることに集中しており、非表現的だがアノテートが容易であり、ラムダ計算のような強力な表現は、表現的だがアノテートにコストがかかる。 本稿では,ピザとドリンクの注文を解析するための新しいデータセットを導入することで,タスク指向の構文解析の探求を継続する。 本研究では,セック2セックシステムとRNNGの異なるフレーバーを含む,タスク指向構文解析のためのディープラーニング手法の広範な評価を行う。 データセットは2つの主なバージョンで構成されている。1つは最近導入されたTOPと呼ばれる発話レベルの階層表記で、もう1つは実行可能表現(EXR)である。 我々は,exr表記を直接生成するパーサをトレーニングすることで,エンティティ解決の問題を解決するだけでなく,トップ表記の表現上の制限を克服し,解析精度を大幅に向上させることを示す。

Much recent work in task-oriented parsing has focused on finding a middle ground between flat slots and intents, which are inexpressive but easy to annotate, and powerful representations such as the lambda calculus, which are expressive but costly to annotate. This paper continues the exploration of task-oriented parsing by introducing a new dataset for parsing pizza and drink orders, whose semantics cannot be captured by flat slots and intents. We perform an extensive evaluation of deep-learning techniques for task-oriented parsing on this dataset, including different flavors of seq2seq systems and RNNGs. The dataset comes in two main versions, one in a recently introduced utterance-level hierarchical notation that we call TOP, and one whose targets are executable representations (EXR). We demonstrate empirically that training the parser to directly generate EXR notation not only solves the problem of entity resolution in one fell swoop and overcomes a number of expressive limitations of TOP notation, but also results in significantly greater parsing accuracy.
翻訳日:2022-12-02 14:53:29 公開日:2022-12-01
# 対角線RNNによる状態空間モデルの単純化と理解

Simplifying and Understanding State Space Models with Diagonal Linear RNNs ( http://arxiv.org/abs/2212.00768v1 )

ライセンス: Link先を確認
Ankit Gupta, Harsh Mehta, Jonathan Berant(参考訳) 線形状態空間(ssms)に基づくシーケンスモデルは、様々なモード間の長距離依存性をモデル化するためのアーキテクチャの有望な選択として最近登場した。 しかし、それらは常に、プレゼンテーションと理解を複雑にする連続状態空間の離散化に依存している。 本研究では、離散化ステップを分解し、バニラ対角線形RNN(\mathrm{DLR}$)に基づくモデルを提案する。 我々は,概念的にはるかに単純であるにもかかわらず,これまで提案されていたSSMと同様の性能を示すことを実証的に示す。 さらに,SSMの表現性($\mathrm{DLR}$を含む)やアテンションベースモデルの特徴として,入力シーケンスのシフトなどの単純な操作から,フラット化された画像の長い空間範囲における共依存的な視覚特徴の検出に至るまで,数万のトークン間のインタラクションを含む1,13ドルの合成シーケンス・ツー・シーケンスタスクのスイートを特徴付ける。 SSMは、$\textit{few}$ convolutional kernelsを介してモデル化できるタスクについてほぼ完璧なパフォーマンスを報告しているが、$\textit{many}$そのようなカーネルを必要とするタスク、特に所望のシーケンス操作が$\textit{context-dependent}$である場合には、苦労している。 例えば、$\mathrm{DLR}$は0.5M$-long入力を任意の位置で完全にシフトすることを学習するが、シフトサイズがコンテキストに依存すると失敗する。 これらの制限にもかかわらず、$\mathrm{dlr}$は2つの高次推論タスクで高いパフォーマンスに達する$\mathrm{listopssubtrees}$と$\mathrm{pathfindersegmentation}\text{-}\mathrm{256}$ それぞれ8k$と65k$ であり、$\mathrm{pathfindersegmentation}\text{-}\mathrm{512}$ 入力長は262k$ であり、注意が有効な選択肢ではない。

Sequence models based on linear state spaces (SSMs) have recently emerged as a promising choice of architecture for modeling long range dependencies across various modalities. However, they invariably rely on discretization of a continuous state space, which complicates their presentation and understanding. In this work, we dispose of the discretization step, and propose a model based on vanilla Diagonal Linear RNNs ($\mathrm{DLR}$). We empirically show that $\mathrm{DLR}$ is as performant as previously-proposed SSMs in the presence of strong supervision, despite being conceptually much simpler. Moreover, we characterize the expressivity of SSMs (including $\mathrm{DLR}$) and attention-based models via a suite of $13$ synthetic sequence-to-sequence tasks involving interactions over tens of thousands of tokens, ranging from simple operations, such as shifting an input sequence, to detecting co-dependent visual features over long spatial ranges in flattened images. We find that while SSMs report near-perfect performance on tasks that can be modeled via $\textit{few}$ convolutional kernels, they struggle on tasks requiring $\textit{many}$ such kernels and especially when the desired sequence manipulation is $\textit{context-dependent}$. For example, $\mathrm{DLR}$ learns to perfectly shift a $0.5M$-long input by an arbitrary number of positions but fails when the shift size depends on context. Despite these limitations, $\mathrm{DLR}$ reaches high performance on two higher-order reasoning tasks $\mathrm{ListOpsSubTrees}$ and $\mathrm{PathfinderSegmentation}\text{-}\mathrm{256}$ with input lengths $8K$ and $65K$ respectively, and gives encouraging performance on $\mathrm{PathfinderSegmentation}\text{-}\mathrm{512}$ with input length $262K$ for which attention is not a viable choice.
翻訳日:2022-12-02 14:53:09 公開日:2022-12-01
# 超短期太陽観測・クラウド解析・モデリングのためのオープンソース地上画像データセット:総合調査

Open-Source Ground-based Sky Image Datasets for Very Short-term Solar Forecasting, Cloud Analysis and Modeling: A Comprehensive Survey ( http://arxiv.org/abs/2211.14709v2 )

ライセンス: Link先を確認
Yuhao Nie, Xiatong Li, Quentin Paletta, Max Aragon, Andea Scott, Adam Brandt(参考訳) 深層学習を用いたスカイイメージに基づく太陽予測は、太陽光発電の不確実性を低減するための有望なアプローチとして認識されている。 しかし、最大の課題の1つは、巨大で多様なスカイイメージのサンプルがないことである。 本研究では,非常に短期的な日射予測(30分以内の地平線予測)のための,オープンソースの地上画像データセットの総合的な調査と,雲のセグメンテーション,雲の分類,雲の動き予測など,太陽の予測方法の改善に役立つ研究分野について述べる。 まず,機械学習と深層学習のニーズを満たす72のオープンソーススカイイメージデータセットを同定する。 そして、識別されたデータセットの様々な側面に関する情報データベースを構築する。 各調査データセットを評価するために,データセットの8次元に基づくマルチクリテリアランキングシステムを開発し,データの利用に重要な影響を与える可能性がある。 最後に、異なるアプリケーションに対するこれらのデータセットの使用状況に関する洞察を提供する。 この論文は、非常に短期的な太陽予報と関連する領域のデータセットを探している研究者に概要を提供することを望んでいる。

Sky-image-based solar forecasting using deep learning has been recognized as a promising approach in reducing the uncertainty in solar power generation. However, one of the biggest challenges is the lack of massive and diversified sky image samples. In this study, we present a comprehensive survey of open-source ground-based sky image datasets for very short-term solar forecasting (i.e., forecasting horizon less than 30 minutes), as well as related research areas which can potentially help improve solar forecasting methods, including cloud segmentation, cloud classification and cloud motion prediction. We first identify 72 open-source sky image datasets that satisfy the needs of machine/deep learning. Then a database of information about various aspects of the identified datasets is constructed. To evaluate each surveyed datasets, we further develop a multi-criteria ranking system based on 8 dimensions of the datasets which could have important impacts on usage of the data. Finally, we provide insights on the usage of these datasets for different applications. We hope this paper can provide an overview for researchers who are looking for datasets for very short-term solar forecasting and related areas.
翻訳日:2022-12-02 14:52:20 公開日:2022-12-01
# prasatul matrix:進化最適化アルゴリズムの解析のための直接比較アプローチ

Prasatul Matrix: A Direct Comparison Approach for Analyzing Evolutionary Optimization Algorithms ( http://arxiv.org/abs/2212.00671v1 )

ライセンス: Link先を確認
Anupam Biswas(参考訳) 個々の進化的最適化アルゴリズムの性能は、主に平均、中央値、標準偏差などの統計量で測定され、アルゴリズムの軌跡の少ない最良の解上で計算される。 2つのアルゴリズムの性能を比較するために、これらの統計値を直接比較するのではなく比較する。 この種の比較は、異なるアルゴリズムで得られる解の直接比較を欠いている。 例えば、2つのアルゴリズムの最良の解(または最悪の解)の比較は、単に不可能である。 さらに、アルゴリズムの収束も重要な要因であるにもかかわらず、アルゴリズムのランク付けは解の質の観点からのみ行われることが多い。 本稿では,進化的最適化アルゴリズムの性能を分析するために,直接比較手法を提案する。 特定の試行数に対して、2つのアルゴリズムで得られた最適解の直接比較結果を利用する「emph{Prasatul Matrix}」という直接比較行列を作成する。 最適性および解の可比較性の観点からアルゴリズムの性能を評価するために, プラサトゥール行列に基づいて5つの異なる性能尺度を設計する。 これらのスコアは、複数のアルゴリズムの性能を比較するためのスコア駆動のアプローチと、ソリューションの品質と収束分析の両方の点においてランク付けするために利用される。 提案手法は25のベンチマーク関数上の6つの進化的最適化アルゴリズムを用いて解析される。 また,提案する直接比較手法の結果を検証するために,非パラメトリック統計解析,すなわちウィルコクソン対和ランクテストも実施した。

The performance of individual evolutionary optimization algorithms is mostly measured in terms of statistics such as mean, median and standard deviation etc., computed over the best solutions obtained with few trails of the algorithm. To compare the performance of two algorithms, the values of these statistics are compared instead of comparing the solutions directly. This kind of comparison lacks direct comparison of solutions obtained with different algorithms. For instance, the comparison of best solutions (or worst solution) of two algorithms simply not possible. Moreover, ranking of algorithms is mostly done in terms of solution quality only, despite the fact that the convergence of algorithm is also an important factor. In this paper, a direct comparison approach is proposed to analyze the performance of evolutionary optimization algorithms. A direct comparison matrix called \emph{Prasatul Matrix} is prepared, which accounts direct comparison outcome of best solutions obtained with two algorithms for a specific number of trials. Five different performance measures are designed based on the prasatul matrix to evaluate the performance of algorithms in terms of Optimality and Comparability of solutions. These scores are utilized to develop a score-driven approach for comparing performance of multiple algorithms as well as for ranking both in the grounds of solution quality and convergence analysis. Proposed approach is analyzed with six evolutionary optimization algorithms on 25 benchmark functions. A non-parametric statistical analysis, namely Wilcoxon paired sum-rank test is also performed to verify the outcomes of proposed direct comparison approach.
翻訳日:2022-12-02 14:46:53 公開日:2022-12-01
# CNNからシフト不変双ウェーブレットモデルへ

From CNNs to Shift-Invariant Twin Wavelet Models ( http://arxiv.org/abs/2212.00394v1 )

ライセンス: Link先を確認
Hubert Leterme, K\'evin Polisano, Val\'erie Perrier, Karteek Alahari(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)におけるシフト不変性を高める新しいアンチエイリアシング法を提案する。 より正確には、従来の "real-valued convolutions + max pooling" (\mathbb r$max) を "complex-valued convolutions + modulus" (\mathbb c$mod) に置き換える。 最近の研究で、そのようなフィルタに対して、2つの演算子が同様の出力を得ることを示した。 したがって、$\mathbb C$Mod は $\mathbb R$Max の安定な代替品と見なすことができる。 帯域通過フィルタを他の自由に訓練されたカーネルから分離するため、我々はデュアルツリー複合ウェーブレットパケット変換に基づく「トウィン」アーキテクチャを設計した。 imagenet や cifar10 などの自然画像データセットでは,小さなシフトに対する安定性の向上に加えて,alexnet と resnet の実験により予測精度が向上した。 さらに,メモリ使用量を減らしつつ高周波情報を保存し,低パスフィルタリングに基づく最近のアンチエイリアス手法を上回った。

We propose a novel antialiasing method to increase shift invariance in convolutional neural networks (CNNs). More precisely, we replace the conventional combination "real-valued convolutions + max pooling" ($\mathbb R$Max) by "complex-valued convolutions + modulus" ($\mathbb C$Mod), which produce stable feature representations for band-pass filters with well-defined orientations. In a recent work, we proved that, for such filters, the two operators yield similar outputs. Therefore, $\mathbb C$Mod can be viewed as a stable alternative to $\mathbb R$Max. To separate band-pass filters from other freely-trained kernels, in this paper, we designed a "twin" architecture based on the dual-tree complex wavelet packet transform, which generates similar outputs as standard CNNs with fewer trainable parameters. In addition to improving stability to small shifts, our experiments on AlexNet and ResNet showed increased prediction accuracy on natural image datasets such as ImageNet and CIFAR10. Furthermore, our approach outperformed recent antialiasing methods based on low-pass filtering by preserving high-frequency information, while reducing memory usage.
翻訳日:2022-12-02 14:46:32 公開日:2022-12-01
# マルチソースサバイバルドメイン適応

Multi-Source Survival Domain Adaptation ( http://arxiv.org/abs/2212.00424v1 )

ライセンス: Link先を確認
Ammar Shaker, Carolin Lawrence(参考訳) サバイバル分析(Survival analysis)とは、生命体の特徴と生存時間との関係を研究する統計学の一分野であり、検閲された事例が保持する部分的情報を考慮している。 例えば、良い分析によって、ある患者の1つの治療が他の患者より優れているかどうかを判断することができる。 機械学習の台頭により、生存分析は、研究対象の患者を生存時間にマップする機能を学ぶものとしてモデル化することができる。 それを達成するには、3つの重要な課題に取り組む必要がある。 第一に、一部の患者データは検閲されている:我々はすべての患者にとって真の生存期間を知らない。 第2に、データが不足していることは、さまざまな病気タイプをマルチタスクセットアップのドメインとして扱うという過去の研究につながった。 第3に,ラベルがほとんどあるいはまったく存在しない,新規あるいは極めて稀な疾患タイプへの適応が必要である。 従来のマルチタスクとは対照的に、複数のサバイバルソースドメインから新しいサバイバルターゲットドメインに効率的に適応する方法を考察したい。 そこで本研究では,新たな生存基準と生存分布間の相違尺度を提案する。 これにより、検閲されたデータを取り込んだまま、生存分析のためのドメイン適応を定義することができる。 2つのがんデータセットに関する実験により,標的領域での優れた性能,治療上の推奨,および説明の可能な重み行列が明らかにされた。

Survival analysis is the branch of statistics that studies the relation between the characteristics of living entities and their respective survival times, taking into account the partial information held by censored cases. A good analysis can, for example, determine whether one medical treatment for a group of patients is better than another. With the rise of machine learning, survival analysis can be modeled as learning a function that maps studied patients to their survival times. To succeed with that, there are three crucial issues to be tackled. First, some patient data is censored: we do not know the true survival times for all patients. Second, data is scarce, which led past research to treat different illness types as domains in a multi-task setup. Third, there is the need for adaptation to new or extremely rare illness types, where little or no labels are available. In contrast to previous multi-task setups, we want to investigate how to efficiently adapt to a new survival target domain from multiple survival source domains. For this, we introduce a new survival metric and the corresponding discrepancy measure between survival distributions. These allow us to define domain adaptation for survival analysis while incorporating censored data, which would otherwise have to be dropped. Our experiments on two cancer data sets reveal a superb performance on target domains, a better treatment recommendation, and a weight matrix with a plausible explanation.
翻訳日:2022-12-02 14:46:09 公開日:2022-12-01
# 感情分析のための層間融合型マルチモーダルbertの適用

Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis ( http://arxiv.org/abs/2212.00678v1 )

ライセンス: Link先を確認
Odysseas S. Chlapanis, Georgios Paraskevopoulos, Alexandros Potamianos(参考訳) マルチモーダル学習パイプラインは、事前訓練された言語モデルの成功の恩恵を受けている。 しかし、これはモデルパラメータの増加のコストがかかっている。 本稿では,アダプタモジュールと中間融合層を組み合わせたマルチモーダルタスクのためのbertベースのアーキテクチャであるadapted multimodal bert (amb)を提案する。 アダプタはタスクの事前学習された言語モデルを調整し、融合層は音声視覚情報とテキストのbert表現をタスク固有の階層的に融合する。 適応プロセスの間、事前訓練された言語モデルパラメータは凍結し続け、高速でパラメータ効率のよいトレーニングを可能にした。 われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。 CMU-MOSEI を用いた感情分析実験により,AMB は,結果の誤差が3.4%減少し,7クラス分類精度が2.1%向上した。

Multimodal learning pipelines have benefited from the success of pretrained language models. However, this comes at the cost of increased model parameters. In this work, we propose Adapted Multimodal BERT (AMB), a BERT-based architecture for multimodal tasks that uses a combination of adapter modules and intermediate fusion layers. The adapter adjusts the pretrained language model for the task at hand, while the fusion layers perform task-specific, layer-wise fusion of audio-visual information with textual BERT representations. During the adaptation process the pre-trained language model parameters remain frozen, allowing for fast, parameter-efficient training. In our ablations we see that this approach leads to efficient models, that can outperform their fine-tuned counterparts and are robust to input noise. Our experiments on sentiment analysis with CMU-MOSEI show that AMB outperforms the current state-of-the-art across metrics, with 3.4% relative reduction in the resulting error and 2.1% relative improvement in 7-class classification accuracy.
翻訳日:2022-12-02 14:45:46 公開日:2022-12-01
# エンボディドソーシャルナビゲーションにおけるソーシャルアウェアタスクの活用

Exploiting Socially-Aware Tasks for Embodied Social Navigation ( http://arxiv.org/abs/2212.00767v1 )

ライセンス: Link先を確認
Enrico Cancelli, Tommaso Campari, Luciano Serafini, Angel X. Chang, Lamberto Ballan(参考訳) 人間と空間的に制約された屋内環境での移動方法を学ぶことは、エージェントを社会に統合するために必要な重要な能力である。 本稿では,社会的に認識されたタスク(リスクや社会的コンパスと推定される)を活用して,共通の社会的行動を推測する能力を持つ強化学習ナビゲーションポリシに注入するエンドツーエンドアーキテクチャを提案する。 この目的のために、我々のタスクは衝突の即時および将来の危険の概念を利用する。 さらに,シミュレーション環境におけるソーシャルナビゲーションタスク用に特別に設計された評価プロトコルを提案する。 これは、Encounterと呼ばれる人間とロボットの空間的相互作用の最小単位を分析することで、ポリシーの細かい特徴と特性を捉える。 Gibson4+およびHabitat-Matterport3Dデータセットに対するアプローチを検証する。

Learning how to navigate among humans in an occluded and spatially constrained indoor environment, is a key ability required to embodied agent to be integrated into our society. In this paper, we propose an end-to-end architecture that exploits Socially-Aware Tasks (referred as to Risk and Social Compass) to inject into a reinforcement learning navigation policy the ability to infer common-sense social behaviors. To this end, our tasks exploit the notion of immediate and future dangers of collision. Furthermore, we propose an evaluation protocol specifically designed for the Social Navigation Task in simulated environments. This is done to capture fine-grained features and characteristics of the policy by analyzing the minimal unit of human-robot spatial interaction, called Encounter. We validate our approach on Gibson4+ and Habitat-Matterport3D datasets.
翻訳日:2022-12-02 14:44:55 公開日:2022-12-01
# 内部注意を伴う形状誘導拡散

Shape-Guided Diffusion with Inside-Outside Attention ( http://arxiv.org/abs/2212.00210v1 )

ライセンス: Link先を確認
Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell(参考訳) シェープはキーオブジェクトの制約を指定することができるが、既存のテキストと画像の拡散モデルはこのキューを無視し、間違ったスケール、カット、あるいはバックグラウンドコンテンツに置き換えられたオブジェクトを合成する。 そこで本研究では,新しい内面注意機構を用いて,形状の内側を参照する切手(および画素)が形状の外側に収まらないような相互接触(および自己注意)マップを拘束する,トレーニングフリーな形状誘導拡散法を提案する。 提案手法の有効性を示すために,マスクとテキストプロンプトで指定されたオブジェクトをモデルが置き換えなければならない新しい画像編集タスクを提案する。 我々は、MS-COCOに基づく新しいShapePromptsベンチマークをキュレートし、定量的メトリクスと人間の嗜好の両方に応じて、形状忠実度、テキストアライメント、リアリズムのSOTA結果を達成する。 私たちのデータとコードはhttps://shape-guided-diffusion.github.ioで利用可能になります。

Shape can specify key object constraints, yet existing text-to-image diffusion models ignore this cue and synthesize objects that are incorrectly scaled, cut off, or replaced with background content. We propose a training-free method, Shape-Guided Diffusion, which uses a novel Inside-Outside Attention mechanism to constrain the cross-attention (and self-attention) maps such that prompt tokens (and pixels) referring to the inside of the shape cannot attend outside the shape, and vice versa. To demonstrate the efficacy of our method, we propose a new image editing task where the model must replace an object specified by its mask and a text prompt. We curate a new ShapePrompts benchmark based on MS-COCO and achieve SOTA results in shape faithfulness, text alignment, and realism according to both quantitative metrics and human preferences. Our data and code will be made available at https://shape-guided-diffusion.github.io.
翻訳日:2022-12-02 14:44:41 公開日:2022-12-01
# 文セマンティックセグメンテーション誘導条件変分自動エンコーダによる複合対話マッピングのモデル化

Modeling Complex Dialogue Mappings via Sentence Semantic Segmentation Guided Conditional Variational Auto-Encoder ( http://arxiv.org/abs/2212.00231v1 )

ライセンス: Link先を確認
Bin Sun, Shaoxiong Feng, Yiwei Li, Weichao Wang, Fei Mi, Yitong Li, Kan Li(参考訳) 複合対話マッピング(CDM)は、一対多、多対一のマッピングを含む、対話モデルを不整合あるいは鈍い応答を生成する傾向があり、これらのマッピングをモデル化することは、ニューラル対話システムにとって大きな課題である。 これらの問題を緩和するため、外部情報の導入、最適化関数の再構築、データサンプルの操作といった手法が提案され、主にCDMによるトレーニングの回避、人間の会話におけるCDM理解能力の低下、モデル性能の向上の抑制に焦点が当てられている。 本稿では、CDMデータのモデル化と活用が可能なSegCVAE法について、Sentence Semantic \textbf{Seg}mentation guided \textbf{C}onditional \textbf{V}ariational \textbf{A}uto-\textbf{E}ncoderを提案する。 具体的には、一対多で生じる不整合問題に対処するために、SegCVAEは応答に関連した顕著なセマンティクスを使用して潜伏変数を制約する。 多対一で引き起こされる非diverse問題を軽減するため、segcvaeセグメントは潜伏変数を豊かにするために複数の顕著な意味を持つ。 SegCVAEを実現するために, 内部分離, 外部誘導, セマンティックノルムの3つの新規成分が提案されている。 対話生成タスクにおいて、SegCVAEは、自動評価結果と人的評価結果の両方で、新しい最先端のパフォーマンスを達成することを示す。

Complex dialogue mappings (CDM), including one-to-many and many-to-one mappings, tend to make dialogue models generate incoherent or dull responses, and modeling these mappings remains a huge challenge for neural dialogue systems. To alleviate these problems, methods like introducing external information, reconstructing the optimization function, and manipulating data samples are proposed, while they primarily focus on avoiding training with CDM, inevitably weakening the model's ability of understanding CDM in human conversations and limiting further improvements in model performance. This paper proposes a Sentence Semantic \textbf{Seg}mentation guided \textbf{C}onditional \textbf{V}ariational \textbf{A}uto-\textbf{E}ncoder (SegCVAE) method which can model and take advantages of the CDM data. Specifically, to tackle the incoherent problem caused by one-to-many, SegCVAE uses response-related prominent semantics to constrained the latent variable. To mitigate the non-diverse problem brought by many-to-one, SegCVAE segments multiple prominent semantics to enrich the latent variables. Three novel components, Internal Separation, External Guidance, and Semantic Norms, are proposed to achieve SegCVAE. On dialogue generation tasks, both the automatic and human evaluation results show that SegCVAE achieves new state-of-the-art performance.
翻訳日:2022-12-02 14:44:02 公開日:2022-12-01
# 多言語ニュース見出しにおける政治的極性の予測を促進するコモンセンス型言語非依存学習フレームワーク

A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing Prediction of Political Polarity in Multilingual News Headlines ( http://arxiv.org/abs/2212.00298v1 )

ライセンス: Link先を確認
Swati Swati (1 and 2), Adrian Mladeni\'c Grobelnik (1), Dunja Mladeni\'c (1 and 2), Marko Grobelnik (1) ((1) Jo\v{z}ef Stefan Institute - Ljubljana, (2) Jo\v{z}ef Stefan International Postgraduate School - Ljubljana)(参考訳) ニュース見出しの政治的極性を予測することは、低リソース言語による多言語環境でさらに難しい課題となる。 これに対応するために,翻訳・検索・翻訳戦略を用いて推論コモンセンス知識を活用し,学習フレームワークを導入することを提案する。 まず,翻訳と検索の手法を用いて,対象言語における推論知識を取得する。 次に、重要な推論を強調するために注意メカニズムを採用します。 バイアス予測のための多言語事前学習型言語モデルに,最後に参加者の推論を統合した。 本フレームワークの有効性を評価するため,それぞれの政治的極性に注釈を付けた5言語で62.6K以上の多言語ニュースの見出しを示す。 性能は言語によって異なる傾向があるため、最先端の多言語事前訓練言語モデルを評価した。 評価の結果,提案手法が採用するモデルによらず有効であることが示された。 概して、ヘッドラインのみをトレーニングした最高のパフォーマンスモデルは、0.90の精度とf1、0.83のjaccardスコアを示している。 フレームワークの知識に従えば、同じモデルでも2.2%の精度とF1、そして3.6%のジャカードスコアが向上する。 実験を個々の言語に拡張することで、Slovenianで分析したモデルは、データセットの他の言語よりも大幅にパフォーマンスが悪くなりました。 そこで本研究では,翻訳品質が予測性能に及ぼす影響について検討する。 翻訳品質の低さから, 性能の差が最も大きいことが示唆された。 将来の研究のために、データセットとスクリプトをhttps://github.com/Swati17293/KG-Multi-Biasでリリースします。 われわれのフレームワークはジャーナリスト、社会科学者、ニュースプロデューサー、消費者に利益をもたらす可能性がある。

Predicting the political polarity of news headlines is a challenging task that becomes even more challenging in a multilingual setting with low-resource languages. To deal with this, we propose to utilise the Inferential Commonsense Knowledge via a Translate-Retrieve-Translate strategy to introduce a learning framework. To begin with, we use the method of translation and retrieval to acquire the inferential knowledge in the target language. We then employ an attention mechanism to emphasise important inferences. We finally integrate the attended inferences into a multilingual pre-trained language model for the task of bias prediction. To evaluate the effectiveness of our framework, we present a dataset of over 62.6K multilingual news headlines in five European languages annotated with their respective political polarities. We evaluate several state-of-the-art multilingual pre-trained language models since their performance tends to vary across languages (low/high resource). Evaluation results demonstrate that our proposed framework is effective regardless of the models employed. Overall, the best performing model trained with only headlines show 0.90 accuracy and F1, and 0.83 jaccard score. With attended knowledge in our framework, the same model show an increase in 2.2% accuracy and F1, and 3.6% jaccard score. Extending our experiments to individual languages reveals that the models we analyze for Slovenian perform significantly worse than other languages in our dataset. To investigate this, we assess the effect of translation quality on prediction performance. It indicates that the disparity in performance is most likely due to poor translation quality. We release our dataset and scripts at: https://github.com/Swati17293/KG-Multi-Bias for future research. Our framework has the potential to benefit journalists, social scientists, news producers, and consumers.
翻訳日:2022-12-02 14:43:31 公開日:2022-12-01
# 説明指向メッセージパッシングを用いたGNNの訓練に向けて

Towards Training GNNs using Explanation Directed Message Passing ( http://arxiv.org/abs/2211.16731v2 )

ライセンス: Link先を確認
Valentina Giunchiglia, Chirag Varun Shukla, Guadalupe Gonzalez, Chirag Agarwal(参考訳) 重要な現実世界の応用においてグラフニューラルネットワーク(GNN)の利用が増加しているため、予測を理解するためにいくつかのポストホックな説明法が提案されている。 しかしながら、モデルトレーニング中にフライの説明を生成し、それを利用して基礎となるgnnモデルの表現力を向上させる作業は行われていない。 本稿では,gnn説明手法で重要と認識されるノードとエッジからのみ埋め込みを集約した,gnnのための説明指向型ニューラルメッセージパッシングフレームワークexpass(説明可能なメッセージパッシング)を提案する。 EXPASSは既存のGNNアーキテクチャやサブグラフ最適化の説明器を使って正確なグラフ埋め込みを学習することができる。 理論上,EXPASSはディリクレエネルギーの層状損失を遅くすることで,GNNの過度なスムース化問題を緩和し,各モデル重みの差により,バニラメッセージパッシングとEXPASSフレームワークの埋め込み差を上限にすることができることを示す。 実験の結果、EXPASSを用いて学習したグラフ埋め込みは予測性能を改善し、GNNの過度な問題を軽減し、グラフ機械学習の新しいフロンティアを開放し、説明に基づくトレーニングフレームワークを開発した。

With the increasing use of Graph Neural Networks (GNNs) in critical real-world applications, several post hoc explanation methods have been proposed to understand their predictions. However, there has been no work in generating explanations on the fly during model training and utilizing them to improve the expressive power of the underlying GNN models. In this work, we introduce a novel explanation-directed neural message passing framework for GNNs, EXPASS (EXplainable message PASSing), which aggregates only embeddings from nodes and edges identified as important by a GNN explanation method. EXPASS can be used with any existing GNN architecture and subgraph-optimizing explainer to learn accurate graph embeddings. We theoretically show that EXPASS alleviates the oversmoothing problem in GNNs by slowing the layer wise loss of Dirichlet energy and that the embedding difference between the vanilla message passing and EXPASS framework can be upper bounded by the difference of their respective model weights. Our empirical results show that graph embeddings learned using EXPASS improve the predictive performance and alleviate the oversmoothing problems of GNNs, opening up new frontiers in graph machine learning to develop explanation-based training frameworks.
翻訳日:2022-12-02 14:19:31 公開日:2022-12-01
# コンファウンディング時のオフライン政策評価と最適化

Offline Policy Evaluation and Optimization under Confounding ( http://arxiv.org/abs/2211.16583v2 )

ライセンス: Link先を確認
Kevin Tan, Yangyi Lu, Chinmaya Kausik, Yixin Wang, Ambuj Tewari(参考訳) いくつかの例外を除いて、オフライン強化学習(rl)の作業は、コンファウンディングがないと仮定している。 古典的な回帰設定では、共同設立者は省略変数バイアスを導入し、因果効果の識別を阻害する。 オフラインRLでは、ポリシーの価値の識別が防止され、ポリシーの改善が不可能になる。 したがって、コンファウンディングの存在下でオフラインrlで従来の方法を使用することは、意思決定の貧弱さや政策の貧弱さにつながるだけでなく、医療や教育といったアプリケーションにも悲惨な影響を与える可能性がある。 我々は、オフ・ポリティクス・アセスメント(OPE)と地域政策最適化の両方に、i.d.d.とグローバル共同設立者の設定でアプローチを提供する。 理論的および実証的な結果はこれらの方法の有効性と可能性を確認する。

With a few exceptions, work in offline reinforcement learning (RL) has so far assumed that there is no confounding. In a classical regression setting, confounders introduce omitted variable bias and inhibit the identification of causal effects. In offline RL, they prevent the identification of a policy's value, and therefore make it impossible to perform policy improvement. Using conventional methods in offline RL in the presence of confounding can therefore not only lead to poor decisions and poor policies, but can also have disastrous effects in applications such as healthcare and education. We provide approaches for both off-policy evaluation (OPE) and local policy optimization in the settings of i.i.d. and global confounders. Theoretical and empirical results confirm the validity and viability of these methods.
翻訳日:2022-12-02 14:19:08 公開日:2022-12-01
# 希少事象による動的因果発見に向けて:非パラメトリック条件独立試験

Towards Dynamic Causal Discovery with Rare Events: A Nonparametric Conditional Independence Test ( http://arxiv.org/abs/2211.16596v2 )

ライセンス: Link先を確認
Chih-Yuan Chiu, Kshitij Kulkarni, Shankar Sastry(参考訳) 稀な事象に関連する因果現象は、危険に敏感な安全分析、事故解析と予防、極端な価値理論など、幅広い工学的問題にまたがる。 しかし、因果発見の現在の手法は、変数が最初に低確率の実現を経験したときにのみ現れる、動的環境におけるランダム変数間の因果関係を発見できないことが多い。 そこで本研究では, 時間不変力学系から収集されたデータに対して, 稀ではあるが連続的な事象が発生する新しい統計独立性テストを提案する。 特に,システム状態の重畳されたデータセットを,異なるタイミングで発生する前に構築するために,基礎となるデータの時間的不変性を利用する。 次に、再構成データに基づいて条件付き独立試験を設計する。 本手法の一貫性のために非漸近的なサンプル複雑性境界を提供し,caltrans performance measurement system (pems) から収集したインシデントデータを含む様々なシミュレーションおよび実世界のデータセットでその性能を検証する。 データセットと実験を含むコードは公開されている。

Causal phenomena associated with rare events occur across a wide range of engineering problems, such as risk-sensitive safety analysis, accident analysis and prevention, and extreme value theory. However, current methods for causal discovery are often unable to uncover causal links, between random variables in a dynamic setting, that manifest only when the variables first experience low-probability realizations. To address this issue, we introduce a novel statistical independence test on data collected from time-invariant dynamical systems in which rare but consequential events occur. In particular, we exploit the time-invariance of the underlying data to construct a superimposed dataset of the system state before rare events happen at different timesteps. We then design a conditional independence test on the reorganized data. We provide non-asymptotic sample complexity bounds for the consistency of our method, and validate its performance across various simulated and real-world datasets, including incident data collected from the Caltrans Performance Measurement System (PeMS). Code containing the datasets and experiments is publicly available.
翻訳日:2022-12-02 14:18:56 公開日:2022-12-01
# 変形性膝関節症のMRI画像における骨・軟骨の3次元自動計測

Automated anomaly-aware 3D segmentation of bones and cartilages in knee MR images from the Osteoarthritis Initiative ( http://arxiv.org/abs/2211.16696v2 )

ライセンス: Link先を確認
Boyeong Woo, Craig Engstrom, William Baresic, Jurgen Fripp, Stuart Crozier, Shekhar S. Chandra(参考訳) 医用画像解析では、しばしば潜在的な異常や病理のスペクトルを持つ多成分解剖構造の自動分割は難しい課題である。 本研究では, 変形性膝関節症患者の3次元磁気共鳴(MR)画像から, 遠位部, 近位部, 近位部, 膝蓋骨の異常(骨髄病変, 骨嚢胞)を早期に検出するために, U-Net-based Neural Network を用いた多段階的アプローチを開発した。 その後、抽出したデータは、個々の骨と軟骨体積のセグメンテーションと骨異常を含む下流タスクに使用される。 anomaly detectionのために、u-netベースのモデルが開発され、画像中の大腿骨と骨の骨プロファイルを塗り替えることにより、異常な骨領域を正常な外観に置き換えることができた。 再建誤差は骨異常の検出に用いられた。 anomaly-na\"ive segmentation networkと比較した第2のanomaly-aware networkは、骨異常のスペクトルを含む膝関節mr画像からの大腿骨、骨、膝蓋骨および軟骨の最終的な自動セグメント化を提供するために使用された。 Anomaly-aware segmentation(英語版)アプローチは、Anomaly-na\ive segmentation Network(英語版)の結果と比較して、Hausdorff 距離を最大58%削減した。 さらに,mr画像中の骨病変を,感度と特異性(受信者動作特性曲線[auc]下の領域が0.896まで)で検出できた。

In medical image analysis, automated segmentation of multi-component anatomical structures, which often have a spectrum of potential anomalies and pathologies, is a challenging task. In this work, we develop a multi-step approach using U-Net-based neural networks to initially detect anomalies (bone marrow lesions, bone cysts) in the distal femur, proximal tibia and patella from 3D magnetic resonance (MR) images of the knee in individuals with varying grades of osteoarthritis. Subsequently, the extracted data are used for downstream tasks involving semantic segmentation of individual bone and cartilage volumes as well as bone anomalies. For anomaly detection, the U-Net-based models were developed to reconstruct the bone profiles of the femur and tibia in images via inpainting so anomalous bone regions could be replaced with close to normal appearances. The reconstruction error was used to detect bone anomalies. A second anomaly-aware network, which was compared to anomaly-na\"ive segmentation networks, was used to provide a final automated segmentation of the femoral, tibial and patellar bones and cartilages from the knee MR images containing a spectrum of bone anomalies. The anomaly-aware segmentation approach provided up to 58% reduction in Hausdorff distances for bone segmentations compared to the results from the anomaly-na\"ive segmentation networks. In addition, the anomaly-aware networks were able to detect bone lesions in the MR images with greater sensitivity and specificity (area under the receiver operating characteristic curve [AUC] up to 0.896) compared to the anomaly-na\"ive segmentation networks (AUC up to 0.874).
翻訳日:2022-12-02 14:18:37 公開日:2022-12-01
# 非決定論的近似固定点理論とその分離論理プログラミングへの応用

Non-Deterministic Approximation Fixpoint Theory and Its Application in Disjunctive Logic Programming ( http://arxiv.org/abs/2211.17262v2 )

ライセンス: Link先を確認
Jesse Heyninck and Ofer Arieli and Bart Bogaerts(参考訳) 近似不動点理論(英: Approximation Fixpoint theory、AFT)は、非単調論理のセマンティクスを研究するための抽象的で一般的な代数的フレームワークである。 これは論理プログラミング、デフォルト論理、自己認識論理のような非単調推論のための異なる形式主義の意味論を統一的に研究する。 本稿では,不確定な情報を扱うことを可能にする非決定論的構成物を扱うためにftを拡張した。 これは AFT の主構成とそれに対応する結果を、単元ではなく要素の集合である非決定論的作用素に一般化することで達成される。 この一般化の適用性と有用性は、分離論理プログラミングの文脈で示される。

Approximation fixpoint theory (AFT) is an abstract and general algebraic framework for studying the semantics of nonmonotonic logics. It provides a unifying study of the semantics of different formalisms for nonmonotonic reasoning, such as logic programming, default logic and autoepistemic logic. In this paper, we extend AFT to dealing with non-deterministic constructs that allow to handle indefinite information, represented e.g. by disjunctive formulas. This is done by generalizing the main constructions and corresponding results of AFT to non-deterministic operators, whose ranges are sets of elements rather than single elements. The applicability and usefulness of this generalization is illustrated in the context of disjunctive logic programming.
翻訳日:2022-12-02 14:18:11 公開日:2022-12-01
# 任意解像度映像による運動ロバストリモートフォトプレチモグラフィの学習

Learning Motion-Robust Remote Photoplethysmography through Arbitrary Resolution Videos ( http://arxiv.org/abs/2211.16922v2 )

ライセンス: Link先を確認
Jianwei Li, Zitong Yu, Jingang Shi(参考訳) 遠隔プラチスモグラフィー(rPPG)は,非接触型心拍数(HR)を顔画像から推定できる。 実世界の長期健康モニタリングのシナリオでは、参加者と頭部の運動距離は通常時間によって異なり、顔の解像度や複雑な運動人工物による不正確なrPPG測定が行われる。 本稿では,カメラと参加者の一定距離を想定した従来のrppgモデルと異なる2つのプラグ・アンド・プレイブロック(つまり,生理的信号特徴抽出ブロック(pfe)と時間的顔アライメントブロック(tfa))を提案する。 一方、代表領域情報で案内されたPFEは、任意の解像度の顔フレームを固定解像度の顔構造特徴に適応的に符号化する。 一方、推定光流を利用して、TFAは頭部の動きによって引き起こされるrPPG信号の混乱を防止できるので、動きを損なうrPPG信号の回復に役立てることができる。 さらに,2ストリームのデュアルレゾリューションフレームワークを使用して,クロスレゾリューション制約でモデルをトレーニングすることで,pfeによるレゾリューションロバスト顔rppg機能の学習をさらに支援する。 3つのベンチマークデータセット(UBFC-rPPG, COHFACE, PURE)の大規模な実験により,提案手法の優れた性能が示された。 PFEとTFAでは、オフザシェルフ時空間rPPGモデルにより、顔の解像度と重度の頭部運動のシナリオの両方において、より堅牢なrPPG信号を予測できる。 コードはhttps://github.com/LJW-GIT/Arbitrary_Resolution_rPPGで公開されている。

Remote photoplethysmography (rPPG) enables non-contact heart rate (HR) estimation from facial videos which gives significant convenience compared with traditional contact-based measurements. In the real-world long-term health monitoring scenario, the distance of the participants and their head movements usually vary by time, resulting in the inaccurate rPPG measurement due to the varying face resolution and complex motion artifacts. Different from the previous rPPG models designed for a constant distance between camera and participants, in this paper, we propose two plug-and-play blocks (i.e., physiological signal feature extraction block (PFE) and temporal face alignment block (TFA)) to alleviate the degradation of changing distance and head motion. On one side, guided with representative-area information, PFE adaptively encodes the arbitrary resolution facial frames to the fixed-resolution facial structure features. On the other side, leveraging the estimated optical flow, TFA is able to counteract the rPPG signal confusion caused by the head movement thus benefit the motion-robust rPPG signal recovery. Besides, we also train the model with a cross-resolution constraint using a two-stream dual-resolution framework, which further helps PFE learn resolution-robust facial rPPG features. Extensive experiments on three benchmark datasets (UBFC-rPPG, COHFACE and PURE) demonstrate the superior performance of the proposed method. One highlight is that with PFE and TFA, the off-the-shelf spatio-temporal rPPG models can predict more robust rPPG signals under both varying face resolution and severe head movement scenarios. The codes are available at https://github.com/LJW-GIT/Arbitrary_Resolution_rPPG.
翻訳日:2022-12-02 14:17:59 公開日:2022-12-01
# 制約付きmarlのための原始双対アルゴリズムの解釈

Interpreting Primal-Dual Algorithms for Constrained MARL ( http://arxiv.org/abs/2211.16069v2 )

ライセンス: Link先を確認
Daniel Tabas, Ahmed S. Zamzam, Baosen Zhang(参考訳) 制約付きマルチエージェント強化学習(C-MARL)は、MARLアルゴリズムがエネルギーシステムからドローン群まで、現実世界のシステムに新しい応用を見出すにつれ、重要性が高まっている。 ほとんどのc-marlアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために原始的アプローチを用いる。 本稿では,このペナルティ項がmarl問題に及ぼす影響について検討する。 まず,制約関数をペナルティとして使用する標準的な慣行が,安全性の弱い概念につながることを示す。 しかし、ペナルティ項に簡単な修正を加えることで、有意義な確率的制約(リスクのチャンスと条件値)を課すことができる。 次に, ペナルティ項が値関数に与える影響を定量化し, 改良された値推定法を明らかにする。 本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション(C-MAA2C)アルゴリズムを提案する。 単純な制約付きマルチエージェント環境におけるシミュレーションは、確率的制約の観点からの原始双対法の再解釈が有効であること、提案する値推定が安全な合同政策への収束を促進することを裏付ける。

Constrained multiagent reinforcement learning (C-MARL) is gaining importance as MARL algorithms find new applications in real-world systems ranging from energy systems to drone swarms. Most C-MARL algorithms use a primal-dual approach to enforce constraints through a penalty function added to the reward. In this paper, we study the structural effects of this penalty term on the MARL problem. First, we show that the standard practice of using the constraint function as the penalty leads to a weak notion of safety. However, by making simple modifications to the penalty term, we can enforce meaningful probabilistic (chance and conditional value at risk) constraints. Second, we quantify the effect of the penalty term on the value function, uncovering an improved value estimation procedure. We use these insights to propose a constrained multiagent advantage actor critic (C-MAA2C) algorithm. Simulations in a simple constrained multiagent environment affirm that our reinterpretation of the primal-dual method in terms of probabilistic constraints is effective, and that our proposed value estimate accelerates convergence to a safe joint policy.
翻訳日:2022-12-02 14:16:48 公開日:2022-12-01
# 重み付き時間遅延フィードバックを用いたゲートリカレントニューラルネットワーク

Gated Recurrent Neural Networks with Weighted Time-Delay Feedback ( http://arxiv.org/abs/2212.00228v1 )

ライセンス: Link先を確認
N. Benjamin Erichson and Soon Hoe Lim and Michael W. Mahoney(参考訳) 逐次データにおける長期依存性のモデリングを改善するため、重み付け時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。 このモデルは、リカレント単位の連続時間定式化の離散化バージョンであり、ダイナミクスは遅延微分方程式(ddes)によって制御される。 適切な時間分散化方式を考慮し、離散時間ゲート再帰単位である$\tau$-GRUを提案する。 提案するフィードバック機構が,長期依存のモデリングを改善する上で有効であることを実証する。 実験の結果,$\tau$-gruは,時系列分類,人間の行動認識,音声認識など,さまざまなタスクにおいて,最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも高速に収束し,より一般化できることがわかった。

We introduce a novel gated recurrent unit (GRU) with a weighted time-delay feedback mechanism in order to improve the modeling of long-term dependencies in sequential data. This model is a discretized version of a continuous-time formulation of a recurrent unit, where the dynamics are governed by delay differential equations (DDEs). By considering a suitable time-discretization scheme, we propose $\tau$-GRU, a discrete-time gated recurrent unit with delay. We prove the existence and uniqueness of solutions for the continuous-time model, and we demonstrate that the proposed feedback mechanism can help improve the modeling of long-term dependencies. Our empirical results show that $\tau$-GRU can converge faster and generalize better than state-of-the-art recurrent units and gated recurrent architectures on a range of tasks, including time-series classification, human activity recognition, and speech recognition.
翻訳日:2022-12-02 14:16:28 公開日:2022-12-01
# PiggyBack: 深層学習専門職を支援するための事前学習型視覚質問応答環境

PiggyBack: Pretrained Visual Question Answering Environment for Backing up Non-deep Learning Professionals ( http://arxiv.org/abs/2211.15940v3 )

ライセンス: Link先を確認
Zhihao Zhang, Siwen Luo, Junyi Chen, Sijia Lai, Siqu Long, Hyunsuk Chung, Soyeon Caren Han(参考訳) 我々は,最先端のビジュアル言語事前学習モデルを容易に適用できるビジュアル質問応答プラットフォーム piggyback を提案する。 PiggyBackは、視覚的な質問応答タスクのフルスタック、特にデータ処理、モデル微調整、結果の可視化をサポートする。 ディープラーニング技術のオープンソースAPIプラットフォームであるHuggingFaceによって事前訓練された視覚言語モデルを統合していますが、プログラミングスキルやディープラーニングの理解なしには実行できません。 したがって、私たちのpiggybackは、一般ユーザやドメインの専門家のために、いくつかのディープラーニングビジュアル言語を事前学習したモデルを備えた、使いやすいブラウザベースのユーザインターフェースをサポートします。 このPiggyBackには,次のようなメリットがある。MITライセンス下での無償提供,Webベースによる移植性,ほぼすべてのプラットフォームで動作すること,包括的なデータ生成と処理技術,ディープラーニングベースのビジュアル言語事前トレーニングモデルでの使いやすさ。 デモビデオはYouTubeで公開されており、https://youtu.be/iz44RZ1lF4sで見ることができる。

We propose a PiggyBack, a Visual Question Answering platform that allows users to apply the state-of-the-art visual-language pretrained models easily. The PiggyBack supports the full stack of visual question answering tasks, specifically data processing, model fine-tuning, and result visualisation. We integrate visual-language models, pretrained by HuggingFace, an open-source API platform of deep learning technologies; however, it cannot be runnable without programming skills or deep learning understanding. Hence, our PiggyBack supports an easy-to-use browser-based user interface with several deep learning visual language pretrained models for general users and domain experts. The PiggyBack includes the following benefits: Free availability under the MIT License, Portability due to web-based and thus runs on almost any platform, A comprehensive data creation and processing technique, and ease of use on deep learning-based visual language pretrained models. The demo video is available on YouTube and can be found at https://youtu.be/iz44RZ1lF4s.
翻訳日:2022-12-02 14:07:56 公開日:2022-12-01
# flip initial features: 半教師付きノード分類のためのニューラルネットワークの一般化

Flip Initial Features: Generalization of Neural Networks for Semi-supervised Node Classification ( http://arxiv.org/abs/2211.15081v2 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim(参考訳) グラフニューラルネットワーク(GNN)は、半教師付き設定下で広く利用されている。 以前の研究は主に、好気性グラフと好気性グラフの両方をよく一般化するための適切なグラフフィルタ(例えば集約スキーム)を見つけることに重点を置いてきた。 これらのアプローチは必須かつ効果的ではあるが、単語の袋表現に内在する初期ノードの特徴のスパースに苦しむ。 半教師付き学習では、トレーニングサンプルがグラフフィルタ(超平面)の全次元をカバーできない場合があり、これは第1のプロジェクター行列における特定の次元の過度な適合を生じさせる。 この問題に対処するために、我々は単純で新しい戦略を提案し、初期特徴と超平面を同時に反転させて追加空間を作成する。 オリジナルとフリップスペースの両方でのトレーニングは、学習可能なパラメータの正確な更新を提供することができる。 我々の知る限りでは、これはGNNのオーバーフィッティング問題を効果的に緩和する最初の試みである。 実世界のデータセットに対する大規模な実験により、提案手法はノード分類精度を最大40.2%改善することを示した。

Graph neural networks (GNNs) have been widely used under semi-supervised settings. Prior studies have mainly focused on finding appropriate graph filters (e.g., aggregation schemes) to generalize well for both homophilic and heterophilic graphs. Even though these approaches are essential and effective, they still suffer from the sparsity in initial node features inherent in the bag-of-words representation. Common in semi-supervised learning where the training samples often fail to cover the entire dimensions of graph filters (hyperplanes), this can precipitate over-fitting of specific dimensions in the first projection matrix. To deal with this problem, we suggest a simple and novel strategy; create additional space by flipping the initial features and hyperplane simultaneously. Training in both the original and in the flip space can provide precise updates of learnable parameters. To the best of our knowledge, this is the first attempt that effectively moderates the overfitting problem in GNN. Extensive experiments on real-world datasets demonstrate that the proposed technique improves the node classification accuracy up to 40.2 %
翻訳日:2022-12-02 14:07:39 公開日:2022-12-01