このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221206となっている論文です。

PDF登録状況(公開日: 20221206)

TitleAuthorsAbstract論文公表日・翻訳日
# デノグラフホログラム理論による事象の1次量子化の創発的量子力学

Emergent quantum mechanics of the event-universe, quantization of events via Denrographic Hologram Theory ( http://arxiv.org/abs/2208.01931v4 )

ライセンス: Link先を確認
Oded Shor, Felix Benninger, and Andrei Khrennikov(参考訳) 量子力学(qm、quantum mechanics)は、観測可能な結果など、事象のみで構成された宇宙に基づいている。 そのような事象宇宙は、デンドログラム(有限木)で表され、p-進木によって無限に多くの事象の極限で表される。 ツリーには、イベント間の階層的な関係を表現する超メトリックが付与されている。 すべてのイベントはツリー構造を通じて結合される。 このような事象過程の全体像は、デンドログラムホログラム理論(DHT)の中で形式化された。 本稿ではDHTからのQMの出現について述べる。 Smolin が開発した QM-emergence スキームの一般化を利用した。 このスキームに従うと、我々は事象を定量化せず、むしろそれらの違いと解析的導出を通してボヘミア力学に到達した。 これまでは一般相対性理論(GR)の基本要素をDHTに埋め込むことができ、SmolinのようなDHTの量子化の後、GRの量子化に向けて一歩踏み出すことができた。 最後に、DHT は木のような幾何学では非局所的であるが、この非局所性は事象空間における関係非局所性を指し、アインシュタインの空間非局所性ではない。

Quantum mechanics (QM) is derived on the basis of a universe composed solely of events, for example, outcomes of observables. Such an event universe is represented by a dendrogram (a finite tree) and in the limit of infinitely many events by the p-adic tree. The trees are endowed with an ultrametric expressing hierarchical relationships between events. All events are coupled through the tree structure. Such a holistic picture of event-processes was formalized within the Dendrographic Hologram Theory (DHT). The present paper is devoted to the emergence of QM from DHT. We used the generalization of the QM-emergence scheme developed by Smolin. Following this scheme, we did not quantize events but rather the differences between them and through analytic derivation arrived at Bohmian mechanics. Previously, we were able to embed the basic elements of general relativity (GR) into DHT, and now after Smolin-like quantization of DHT, we can take a step toward quantization of GR. Finally, we remark that DHT is nonlocal in the treelike geometry, but this nonlocality refers to relational nonlocality in the space of events and not Einstein's spatial nonlocality.
翻訳日:2023-02-02 10:13:55 公開日:2022-12-06
# フロッケトポロジカル物質における絡み合いスペクトルとエントロピー

Entanglement spectrum and entropy in Floquet topological matter ( http://arxiv.org/abs/2208.02075v3 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 絡み合いは量子システムの最も基本的な特徴の1つである。 本研究では、Floquet非相互作用フェルミオン格子モデルの絡み合いスペクトルとエントロピーを求め、Floquet位相との接続を構築する。 絡み合いスペクトルと固有モードを特徴づけるために、トポロジカルな巻線とチャーン数が導入された。 周期境界条件下のハミルトニアンと開境界条件下のトポロジカルエッジ状態のスペクトルとトポロジの対応性をさらに確立する。 この理論は、異なる対称性クラスと空間次元のフロケ位相絶縁体に適用される。 そこで本研究は, フロケトポロジカル物質中の豊富な絡み合いパターンの研究に有用な枠組みを提供する。

Entanglement is one of the most fundamental features of quantum systems. In this work, we obtain the entanglement spectrum and entropy of Floquet noninteracting fermionic lattice models and build their connections with Floquet topological phases. Topological winding and Chern numbers are introduced to characterize the entanglement spectrum and eigenmodes. Correspondences between the spectrum and topology of entanglement Hamiltonians under periodic boundary conditions and topological edge states under open boundary conditions are further established. The theory is applied to Floquet topological insulators in different symmetry classes and spatial dimensions. Our work thus provides a useful framework for the study of rich entanglement patterns in Floquet topological matter.
翻訳日:2023-02-02 10:04:30 公開日:2022-12-06
# 測定誘起核スピン偏極

Measurement-induced nuclear spin polarization ( http://arxiv.org/abs/2208.09113v2 )

ライセンス: Link先を確認
Zhu-yao Jin, Jia-shun Yan, Jun Jing(参考訳) 一般的な進化・測定フレームワークにおける核スピン偏極プロトコルを提案する。 このプロトコルはスピンスター構成で動作し、中心スピンは等しい強度のフリップフロップ相互作用によって周囲の浴(核)スピンと結合し、基底状態における一連の投影的測定を受ける。 すると、非決定論的核スピン偏極は測定によるエントロピー還元によって実現される。 最適化された測定区間$\tau_{\rm opt}$は、最終ラウンドの測定における核スピンの偏極度、核スピンの数、中心スピンと核スピンの結合強度に関連する近共振条件で解析的に得られる。 数百、何千ものランダムに配列された核スピンが熱状態においてほぼ完全に分極され、不等時間間隔で20ドル以下で測定される。 従来の手法と比較すると, 本プロトコルは磁場強度に敏感ではなく, 近共振状態における余分な反回転相互作用に対して頑健である。

We propose a nuclear-spin-polarization protocol in a general evolution-and-measurement framework. The protocol works in a spin-star configuration, where the central spin is coupled to the surrounding bath (nuclear) spins by flip-flop interaction of equal strength and is subject to a sequence of projective measurements on its ground state. Then a nondeterministic nuclear spin polarization could be implemented by entropy reduction through measurement. The optimized measurement-interval $\tau_{\rm opt}$ is analytically obtained in the near-resonant condition, which is relevant to the nuclear spins' polarization degree of the last-round measurement, the number of nuclear spins, and the coupling strength between the central spin and nuclear spins. Hundreds and even thousands of randomly aligned nuclear spins at the thermal state could be almost fully polarized with an optimized sequence of less than $20$ unequal-time-spacing measurements. In comparison to the conventional approaches, our protocol is not sensitive to the magnetic-field intensity, and it is robust against the extra counterrotating interaction in the near-resonant situation.
翻訳日:2023-01-30 12:16:10 公開日:2022-12-06
# フロッケ2階トポロジカル超伝導体における多くのマヨナコーナーモードと多重相転移の生成

Generating many Majorana corner modes and multiple phase transitions in Floquet second-order topological superconductors ( http://arxiv.org/abs/2210.13784v2 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) d$-dimensional, $n$th-order topological insulator or superconductor は、固有モードを $(d-n)$-dimensional boundary (n\leq d$) にローカライズする。 本研究では,2次元超伝導体に周期駆動場を適用し,Floquet 2次トポロジカル超伝導(SOTSC)相を多種に有し,多くのMajoranaコーナーモードを0および$\pi$クアシエネルギーで得る。 2つの異なるフロケットSOTSC相は、バルクスペクトルギャップの開閉/再開による位相相転移、エッジスペクトルギャップの開閉/再開による位相相転移、バルクスペクトルが隙間のない全く異なる位相の3つの可能な変換によって分離される。 システムの駆動と内在エネルギースケールの強い相互作用により、全ての位相と遷移は、システムの単一ホッピングパラメータをチューニングすることで、高度に制御可能である。 我々の発見はFloquet SOTSC相の可能な形式を豊かにするだけでなく、Floquet量子計算に応用できる多くのMajorana 0と$\pi$ cornerモードを生成する効率的なスキームも提供する。

A $d$-dimensional, $n$th-order topological insulator or superconductor has localized eigenmodes at its $(d-n)$-dimensional boundaries ($n\leq d$). In this work, we apply periodic driving fields to two-dimensional superconductors, and obtain a wide variety of Floquet second-order topological superconducting (SOTSC) phases with many Majorana corner modes at both zero and $\pi$ quasienergies. Two distinct Floquet SOTSC phases are found to be separated by three possible kinds of transformations, i.e., a topological phase transition due to the closing/reopening of a bulk spectral gap, a topological phase transition due to the closing/reopening of an edge spectral gap, or an entirely different phase in which the bulk spectrum is gapless. Thanks to the strong interplay between driving and intrinsic energy scales of the system, all the found phases and transitions are highly controllable via tuning a single hopping parameter of the system. Our discovery not only enriches the possible forms of Floquet SOTSC phases, but also offers an efficient scheme to generate many coexisting Majorana zero and $\pi$ corner modes that may find applications in Floquet quantum computation.
翻訳日:2023-01-21 16:14:59 公開日:2022-12-06
# 捕捉イオン量子ビットにおける励起ラマン遷移中の光子散乱誤差

Photon scattering errors during stimulated Raman transitions in trapped-ion qubits ( http://arxiv.org/abs/2211.00744v4 )

ライセンス: Link先を確認
I.D. Moore, W.C. Campbell, E.R. Hudson, M.J. Boguslawski, D.J. Wineland, D.T.C. Allcock(参考訳) ラマン駆動量子論理ゲートにおける光子散乱誤差について検討する。 特定のパラメータレジームに対しては、フォトン散乱によるゲートエラー率をかなり過大に見積もった、以前の単純化されたプロセスのモデルを見いだす。 この過大評価は、散乱光子周波数とラムダイクパラメータの減衰依存性、第2の散乱過程、準安定多様体への散乱速度に対する干渉効果、ラマン遷移速度に対する反回転寄与を無視した以前のモデルによるものである。 得られた改良モデルでは、ラマンレーザービームが主光学遷移から赤く離された場合、一般的に使用されるトラップイオン種における電子状態量子ビットの光子散乱によるゲート誤差に根本的な制限はないことが示された。 さらに、準安定$D_{5/2}$多様体で符号化された量子ビットに対して光子散乱の誤差が研究され、一般的に使われている全てのイオンに対して10^{-4}$以下のゲート誤差が達成可能であることを示す。

We study photon scattering errors in stimulated Raman driven quantum logic gates. For certain parameter regimes, we find that previous, simplified models of the process significantly overestimate the gate error rate due to photon scattering. This overestimate is shown to be due to previous models neglecting the detuning dependence of the scattered photon frequency and Lamb-Dicke parameter, a second scattering process, interference effects on scattering rates to metastable manifolds, and the counter-rotating contribution to the Raman transition rate. The resulting improved model shows that there is no fundamental limit on gate error due to photon scattering for electronic ground state qubits in commonly-used trapped-ion species when the Raman laser beams are red detuned from the main optical transition. Additionally, photon scattering errors are studied for qubits encoded in metastable $D_{5/2}$ manifold, showing that gate errors below $10^{-4}$ are achievable for all commonly-used trapped ions.
翻訳日:2023-01-20 19:17:50 公開日:2022-12-06
# フラックス可変トランスモン量子コンピュータシミュレーションモデルにおけるゲートエラーメトリクスの脆弱性について

On the fragility of gate-error metrics in simulation models of flux-tunable transmon quantum computers ( http://arxiv.org/abs/2211.11011v3 )

ライセンス: Link先を確認
Hannes Lagemann, Dennis Willsch, Madita Willsch, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 量子コンピュータの構築には、量子システムに対する極めて正確な制御が必要である。 精度の欠如は、平均不忠実度やダイヤモンド距離などのゲートエラー指標によって定量化されることが多い。 しかしながら、このようなゲートエラーメトリクスは個々のゲートに対してのみ考慮され、連続するゲートに蓄積されるエラーではない。 さらに、メトリクスがモデルを構成する仮定にどの程度影響するかはよく分かっていない。 本稿では,これらの問題をフラックス可変トランスモンとカップリング共振器を用いた量子コンピュータの現実シミュレーションモデルを用いて検討する。 ゲートエラーの指標はモデルを構成する多くの仮定に影響を受けやすいことを示す。 また,連続ゲートエラーは線形に蓄積しないことがわかった。 これまでの研究では、ゲートエラーの指標は連続ゲートの性能の予測に乏しいことが示されている。 ここでは、この発見のさらなる証拠と簡潔な理論的説明を提供する。 さらに,本研究で検討したデバイスアーキテクチャ全体のスケーリング能力を潜在的に制限する問題についても考察する。

Constructing a quantum computer requires immensely precise control over a quantum system. A lack of precision is often quantified by gate-error metrics, such as the average infidelity or the diamond distance. However, usually such gate-error metrics are only considered for individual gates, and not the errors that accumulate over consecutive gates. Furthermore, it is not well known how susceptible the metrics are to the assumptions which make up the model. Here, we investigate these issues using realistic simulation models of quantum computers with flux-tunable transmons and coupling resonators. We show that the gate-error metrics are susceptible to many of the assumptions which make up the model. Additionally, we find that consecutive gate errors do not accumulate linearly. Previous work showed that the gate-error metrics are poor predictors for the performance of consecutive gates. Here, we provide further evidence and a concise theoretical explanation for this finding. Furthermore, we discuss a problem that potentially limits the overall scaling capabilities of the device architecture we study in this work.
翻訳日:2023-01-17 23:42:23 公開日:2022-12-06
# インダクタンスパラメトリック増幅器におけるスピンエコーのその場増幅

In-situ amplification of spin echoes within a kinetic inductance parametric amplifier ( http://arxiv.org/abs/2211.11333v2 )

ライセンス: Link先を確認
Wyatt Vine, Mykhailo Savytskyi, Daniel Parker, James Slack-Smith, Thomas Schenkel, Jeffrey C. McCallum, Brett C. Johnson, Andrea Morello, and Jarryd J. Pla(参考訳) 近年、量子制限されたジョセフソンパラメトリック増幅器と組み合わせた超伝導マイクロ共振器の使用により、パルス電子スピン共鳴(ESR)測定の感度が4桁以上向上している。 これまでのところマイクロ波共振器と増幅器は、中程度の磁場を持つジョセフソン接合素子の非互換性のため、別個の部品として設計されている。 これにより複雑な分光計は厳密な環境下で動作し、この技術を広く採用するための技術的障壁を生み出した。 ここでは、磁場抵抗性薄膜超伝導膜から作製した弱い非線形マイクロ波共振器に直接スピンのアンサンブルを誘導的に結合することでこの問題を回避する。 パルスESR測定を1〜pL有効モード体積で行い、結果のスピン信号を同じデバイスで増幅し、最終的に400mKの温度で単発ハーンエコー測定において2.8 \times 10^3$スピンの感度を得る。 従来のESR操作条件下での応用の可能性を明らかにするため,254〜mTのフィールドでの複合機能を示す。

The use of superconducting micro-resonators in combination with quantum-limited Josephson parametric amplifiers has in recent years lead to more than four orders of magnitude improvement in the sensitivity of pulsed Electron Spin Resonance (ESR) measurements. So far, the microwave resonators and amplifiers have been designed as separate components, largely due to the incompatibility of Josephson junction-based devices with even moderate magnetic fields. This has led to complex spectrometers that operate under strict environments, creating technical barriers for the widespread adoption of the technique. Here we circumvent this issue by inductively coupling an ensemble of spins directly to a weakly nonlinear microwave resonator, which is engineered from a magnetic field-resilient thin superconducting film. We perform pulsed ESR measurements with a $1$~pL effective mode volume and amplify the resulting spin signal using the same device, ultimately achieving a sensitivity of $2.8 \times 10^3$ spins in a single-shot Hahn echo measurement at a temperature of 400 mK. We demonstrate the combined functionalities at fields as large as 254~mT, highlighting the technique's potential for application under more conventional ESR operating conditions.
翻訳日:2023-01-17 23:35:39 公開日:2022-12-06
# パーフェクトテンソルの家族

Families of Perfect Tensors ( http://arxiv.org/abs/2211.15776v3 )

ライセンス: Link先を確認
Runshi Geng(参考訳) 完全テンソル(英: perfect tensors)とは、量子情報理論において特に興味を持つ量子状態である絶対的に絡み合った状態に対応するテンソルである。 我々は、リー理論からの指数写像を用いて、$(\mathbb{C}^d)^{\otimes 4}$で完全テンソルのパラメータ化された族を計算する方法を確立する。 この方法により、$(\mathbb{C}^3)^{\otimes 4}$ の非古典的完全テンソルの明示的な例を見つける。 特に、我々は \ によって投稿された開質問に答える。 Zyczkowskiら。

Perfect tensors are the tensors corresponding to the absolutely maximally entangled states, a special type of quantum states of interest in quantum information theory. We establish a method to compute parameterized families of perfect tensors in $(\mathbb{C}^d)^{\otimes 4}$ using exponential maps from Lie theory. With this method, we find explicit examples of non-classical perfect tensors in $(\mathbb{C}^3)^{\otimes 4}$. In particular, we answer an open question posted by \.Zyczkowski et al.
翻訳日:2023-01-17 14:41:40 公開日:2022-12-06
# OSC-Qasm:量子コンピューティングを使った音楽ソフトウェア

OSC-Qasm: Interfacing Music Software with Quantum Computing ( http://arxiv.org/abs/2212.01615v2 )

ライセンス: Link先を確認
Omar Costa Hamido and Paulo Vitor Itabora\'i(参考訳) OSC-Qasmは、Qasmコードを実行するためのクロスプラットフォームでPythonベースのOSCインターフェースである。 これは、Open Sound Controlプロトコルを使用して、Max(QAC Toolkit)やPure Dataのようなクリエイティブなプログラミング環境と実際の量子ハードウェアを接続する簡単な方法として機能する。 本稿では,このようなツールの開発状況と意義について紹介し,クリエイティブアーティストに何が提供できるかについて述べる。

OSC-Qasm is a cross-platform, Python-based, OSC interface for executing Qasm code. It serves as a simple way to connect creative programming environments like Max (with The QAC Toolkit) and Pure Data with real quantum hardware, using the Open Sound Control protocol. In this paper, the authors introduce the context and meaning of developing a tool like this, and what it can offer to creative artists.
翻訳日:2023-01-09 22:48:19 公開日:2022-12-06
# ベイズ最適化による計測フィードバック制御による量子状態の生成

Preparing Quantum States by Measurement-feedback Control with Bayesian Optimization ( http://arxiv.org/abs/2212.02336v2 )

ライセンス: Link先を確認
Yadong Wu, Juan Yao and Pengfei Zhang(参考訳) 量子状態の生成は、量子計算や量子シミュレーションを行う上で極めて重要である。 本研究では,計測フィードバック制御プロセス(MFCP)と機械学習手法を組み合わせることで,多体システムの基底状態を作成するための汎用フレームワークを提案する。 ベイズ最適化(BO)戦略を用いて,MFCPの測定およびフィードバック演算子を決定する効率を実証した。 一次元のBose-Hubbardモデルを例にとると、BOは演算子ベースによって制約されているにもかかわらず最適なパラメータを生成できることを示し、典型的な量子軌道の確率が高い低エネルギー状態までシステムを駆動することができる。

Preparation of quantum states is of vital importance for performing quantum computations and quantum simulations. In this work, we propose a general framework for preparing ground states of many-body systems by combining the measurement-feedback control process (MFCP) and the machine learning method. Using the Bayesian optimization (BO) strategy, the efficiency of determining the measurement and feedback operators in the MFCP is demonstrated. Taking the one dimensional Bose-Hubbard model as an example, we show that BO can generate optimal parameters, although constrained by the operator basis, which can drive the system to the low energy state with high probability in typical quantum trajectories.
翻訳日:2023-01-09 20:20:10 公開日:2022-12-06
# 時空間秩序における時間的障害

Temporal disorder in spatiotemporal order ( http://arxiv.org/abs/2212.03135v1 )

ライセンス: Link先を確認
Hongzheng Zhao, Johannes Knolle, Roderich Moessner(参考訳) 時間依存駆動は静的システムに存在しない動的現象を実現するという約束を果たす。 本稿では,周期運転でも達成できない時空間順序を実現するための相関したランダム駆動プロトコルを導入し,時間変換対称性の破れに関する議論をランダム駆動システムに拡張する。 時間的に乱れた微小運動と温熱前ストロボスコープによる時空間長周期秩序の組合せを見いだした。 この時空間次数は一般的な摂動に対して頑健であり、代数的に長い予熱寿命では、スケーリング指数は摂動の対称性に強く依存し、解析的に説明できる。

Time-dependent driving holds the promise of realizing dynamical phenomenon absent in static systems. Here, we introduce a correlated random driving protocol to realize a spatiotemporal order that cannot be achieved even by periodic driving, thereby extending the discussion of time translation symmetry breaking to randomly driven systems. We find a combination of temporally disordered micro-motion with prethermal stroboscopic spatiotemporal long-range order. This spatiotemporal order remains robust against generic perturbations, with an algebraically long prethermal lifetime where the scaling exponent strongly depends on the symmetry of the perturbation, which we account for analytically.
翻訳日:2023-01-09 19:09:08 公開日:2022-12-06
# 全線形問題に対する平均値削減のための量子最悪のケース

Quantum Worst-Case to Average-Case Reductions for All Linear Problems ( http://arxiv.org/abs/2212.03348v1 )

ライセンス: Link先を確認
Vahid R. Asadi, Alexander Golovnev, Tom Gur, Igor Shinkar, Sathyawageeswar Subramanian(参考訳) 量子アルゴリズムにおける最悪のケースと平均ケースの削減を設計する問題について検討する。 すべての線形問題に対して、我々は量子アルゴリズムの明示的かつ効率的な変換を提供し、それらは入力の小さな(定数以下の)分数のみを全ての入力で正しい分数に変換する。 これは古典的な設定とは対照的であり、そのような結果は少数の特定の問題や制限された計算モデルでのみ知られている。 その過程で,行列-ベクトル乗算問題の平均ケース量子クエリの複雑性に対して,厳密な$\Omega(n^2)$ローバウンドを求める。 提案手法は,最近導入された古典的最悪ケースから平均ケース還元までの加算コンビネータの枠組み(stoc 2022)を強化し,一般化する。 我々は量子特異値変換に頼り、重ね合わせにおける線形検証とボゴリューボフ部分空間のノイズ量子オラクルからの学習のための量子アルゴリズムを構築する。 我々はこれらのツールを用いて、ボゴリューボフの補題の雑音ロバスト確率的一般化に基づく減算の中心にある量子局所補正補題の証明を行う。

We study the problem of designing worst-case to average-case reductions for quantum algorithms. For all linear problems, we provide an explicit and efficient transformation of quantum algorithms that are only correct on a small (even sub-constant) fraction of their inputs into ones that are correct on all inputs. This stands in contrast to the classical setting, where such results are only known for a small number of specific problems or restricted computational models. En route, we obtain a tight $\Omega(n^2)$ lower bound on the average-case quantum query complexity of the Matrix-Vector Multiplication problem. Our techniques strengthen and generalise the recently introduced additive combinatorics framework for classical worst-case to average-case reductions (STOC 2022) to the quantum setting. We rely on quantum singular value transformations to construct quantum algorithms for linear verification in superposition and learning Bogolyubov subspaces from noisy quantum oracles. We use these tools to prove a quantum local correction lemma, which lies at the heart of our reductions, based on a noise-robust probabilistic generalisation of Bogolyubov's lemma from additive combinatorics.
翻訳日:2023-01-09 18:43:03 公開日:2022-12-06
# 置換群上の量子インスパイアされた最適化

Quantum-Inspired Optimization over Permutation Groups ( http://arxiv.org/abs/2212.02669v1 )

ライセンス: Link先を確認
Rathi Munukur, Bhaskar Roy Bardhan, Devesh Upadhyay, Joydip Ghosh(参考訳) 量子インスパイア最適化 (quantum-inspired optimization, qio) アルゴリズムは、古典的ハードウェア上で特定の量子力学的効果をエミュレートし、最適化タスクのクラスに取り組む計算手法である。 qio法は、様々なバイナリ最適化問題を解くためにこれまでに使われており、従来の技術に対する重要な(多項的な)計算速度向上も報告されている。 本研究では,アルゴリズムフレームワークであるperm-qioを開発し,qioツールを用いて任意の最適化問題を直接解決する。 このような問題はバイナリ最適化に自然に再キャストできないため、必ずしも従来のqioツールの直接実装の範囲内ではない。 本稿では,Perm-QIOのコストランドスケープ構造を利用して,置換空間上の非自明な組合せ最適化のカテゴリに属する車両経路問題に対して,高品質な解を求める方法を提案する。

Quantum-inspired optimization (QIO) algorithms are computational techniques that emulate certain quantum mechanical effects on a classical hardware to tackle a class of optimization tasks. QIO methods have so far been employed to solve various binary optimization problems and a significant (polynomial) computational speedup over traditional techniques has also been reported. In this work, we develop an algorithmic framework, called Perm-QIO, to tailor QIO tools to directly solve an arbitrary optimization problem, where the domain of the underlying cost function is defined over a permutation group. Such problems are not naturally recastable to a binary optimization and, therefore, are not necessarily within the scope of direct implementation of traditional QIO tools. We demonstrate the efficacy of Perm-QIO in leveraging the structure of cost-landscape to find high-quality solutions for a class of vehicle routing problems that belong to the category of non-trivial combinatorial optimization over the space of permutations.
翻訳日:2023-01-09 18:33:51 公開日:2022-12-06
# 捕捉イオン診断のための古典モードdyanmic

Classical Mode Dyanmics for Trapped Ion Diagnostics ( http://arxiv.org/abs/2212.02722v1 )

ライセンス: Link先を確認
Itzal D.U. Terrazas and Daniel F.V. James(参考訳) 本稿では,イオンの群発振運動の解析が潜在的に有用な結果をもたらすトラップ型イオン結晶の診断における2つの問題について考察する。 線形結晶中のイオンの1つが衝突した場合、その後の運動の観察により、どのイオンが衝突を持続したかを推測することができる。 直線状イオン結晶が暗黒の不純物イオンで形成されるとき、イオンの運動の解析は不純物の質量(つまり種に重要な手がかりを与える)を識別することができる。

In this paper we consider two problems in diagnostics of trapped ion crystals in which an analysis of the ions' collective oscillatory motion yield potentially useful results. When one of the ions in a linear crystal undergoes a collision, observation of the subsequent motion allows one to deduce the identity of which ion sustained the collision. When a linear ion crystal is formed with a dark impurity ion, analysis of the ions' motion can identify the mass (and thus give an important clue to the species) of the impurity.
翻訳日:2023-01-09 18:33:35 公開日:2022-12-06
# 量子真空、回転、非線形場

Quantum vacuum, rotation, and nonlinear fields ( http://arxiv.org/abs/2212.02776v1 )

ライセンス: Link先を確認
Antonino Flachi, Matthew Edmonds(参考訳) 本稿では、非相互作用回転系および相互作用非回転系において、量子真空またはカシミールエネルギーに関するこれまでの結果を、回転と相互作用の両方が存在する場合に拡張する。 具体的には,まずスカラー場理論の非相互作用回転の場合を再考し,レプリカトリックとコールマン・ワインバーグ実効ポテンシャルに基づくカシミールエネルギーの計算方法を提案する。 次に、回転対称性の明示的な破れを含む回転と相互作用の同時効果を考察し、ゼータ関数正規化の数値的実装を開発する。 私たちの {work} は、以前の結果を限界ケースとして復元し、回転と相互作用の同時包含が量子真空エネルギーに非自明な変化をもたらすことを示した。 期待される変化(環の大きさが一定相互作用強度で大きくなるにつれて角運動量も角速度とともに増加する)に加えて、回転と結合定数の結合が相互作用強度の強度を増幅することに気づく。 興味深いことに、カシミールエネルギーが環の逆サイズに比例する典型的な質量を持たない挙動から逸脱することも観察できる。

In this paper, we extend previous results on the quantum vacuum or Casimir energy, for a non-interacting rotating system and for an interacting non-rotating system, to the case where both rotation and interactions are present. Concretely, we first reconsider the non-interacting rotating case of a scalar field theory and propose an alternative and simpler method to compute the Casimir energy based on a replica trick and the Coleman-Weinberg effective potential. We then consider the simultaneous effect of rotation and interactions, including an explicit breaking of rotational symmetry, {and develop a numerical implementation of zeta-function regularization}. Our {work} recovers previous results as limiting cases and shows that the simultaneous inclusion of rotation and interactions produces nontrivial changes in the quantum vacuum energy. Besides expected changes (where, as the size of the ring increases for fixed interaction strength, the angular momentum grows with the angular velocity), we notice that the way rotation combines with coupling constant amplifies the intensity of interaction strength. Interestingly, we also observe a departure from the typical massless behavior where the Casimir energy is proportional to the inverse size of the ring.
翻訳日:2023-01-09 18:33:26 公開日:2022-12-06
# 量子測定のメタリニア構造とサブストラクショナル論理

Metalinear structures and the substructural logic of quantum measurements ( http://arxiv.org/abs/2212.02833v1 )

ライセンス: Link先を確認
Daniel Lehmann(参考訳) 本稿では、ヒルベルト空間の性質の一部を抽象化する3種類の金属構造を示す。 これらの構造は要素間の直交性を表現する二元関係を含み、ヒルベルト空間における射影演算を一般化する操作の定義を可能にする。 最も一般的なクラスで定義される論理はユニタリ連結と2つの双対結合を持ち、可換でも連想的でもない。 これは、交換規則が極端に制限され、ウィークニングも制限されるシーケンスのサブ構造論理である。 これは証明理論が魅力的である量子測定の論理を提供する。 完全な結果が証明される。 二項関係のさらなる性質は、構造がMacLane-Steinitz交換性を満たすことを保証し、ある種のマトロイドである。 量子物理学の誕生因子を一般化するある種の実内積に基づくよりリッチな構造に関する予備的な結果も提示する。

This paper presents three classes of metalinear structures that abstract some of the properties of Hilbert spaces. Those structures include a binary relation that expresses orthogonality between elements and enables the definition of an operation that generalizes the projection operation in Hilbert spaces. The logic defined by the most general class has a unitary connective and two dual binary connectives that are neither commutative nor associative. It is a substructural logic of sequents in which the Exchange rule is extremely limited and Weakening is also restricted. This provides a logic for quantum measurements whose proof theory is attractive. A completeness result is proved. An additional property of the binary relation ensures that the structure satisfies the MacLane-Steinitz exchange property and is some kind of matroid. Preliminary results on richer structures based on a sort of real inner product that generalizes the Born factor of Quantum Physics are also presented.
翻訳日:2023-01-09 18:33:06 公開日:2022-12-06
# カラビ・ヤウ量子力学におけるクリロフ複雑性

Krylov Complexity in Calabi-Yau Quantum Mechanics ( http://arxiv.org/abs/2212.02926v1 )

ライセンス: Link先を確認
Bao-ning Du, Min-xin Huang(参考訳) 近年、LanczosアルゴリズムとKrylov再帰法に基づく演算子成長の複雑さの新しい尺度が提案されている。 量子力学系におけるこのクリロフの複雑性は、局所的なトーリックカラビ・ヤウ測地線や非相対論的モデルから導かれる。 カラビ・ヤウモデルの場合、Laczos係数は小さな$n$sに対して線形よりも遅く成長し、可積分モデルの挙動と一致することが分かる。 一方、非相対論的モデルでは、ランツォスの係数は最初小さな$n$sで線形に成長し、その後高原に達する。 これはカオス的なシステムの振る舞いのように見えるが、主に文献で論じられているように、サドルに支配されたスクランブル効果によるものである。 我々の場合、線形に成長するランツォス係数の傾斜は温度によってほぼ飽和する。 本研究では,斜面境界の代替的な一般導出についても述べる。

Recently, a novel measure for the complexity of operator growth is proposed based on Lanczos algorithm and Krylov recursion method. We study this Krylov complexity in quantum mechanical systems derived from some well-known local toric Calabi-Yau geometries, as well as some non-relativistic models. We find that for the Calabi-Yau models, the Lanczos coefficients grow slower than linearly for small $n$'s, consistent with the behavior of integrable models. On the other hand, for the non-relativistic models, the Lanczos coefficients initially grow linearly for small $n$'s, then reach a plateau. Although this looks like the behavior of a chaotic system, it is mostly likely due to saddle-dominated scrambling effects instead, as argued in the literature. In our cases, the slopes of linearly growing Lanczos coefficients almost saturate a bound by the temperature. During our study, we also provide an alternative general derivation of the bound for the slope.
翻訳日:2023-01-09 18:32:54 公開日:2022-12-06
# 平面 #csp 等式は量子同型に対応する -- 正則的視点

Planar #CSP Equality Corresponds to Quantum Isomorphism -- A Holant Viewpoint ( http://arxiv.org/abs/2212.03335v1 )

ライセンス: Link先を確認
Jin-Yi Cai (University of Wisconsin-Madison) and Ben Young (University of Wisconsin-Madison)(参考訳) 最近、man\v{c}inska と roberson は、2つのグラフ $g$ と $g'$ が量子同型であると証明した。 この結果は、任意の集合の組 $\mathcal{F}$ と $\mathcal{F}'$ で、実数値で任意のアリティ制約関数を持つ平面 #CSP に拡張する。 グラフ準同型は、$\mathcal{F}$ と $\mathcal{F}'$ のそれぞれが 1 つの対称な 0-1 値のバイナリ制約関数を含む特別な場合である。 我々の治療は平面ホラント問題の枠組みを用いる。 量子同型制約函数集合が任意の平面#CSPインスタンスに同じ値を与えることを証明するために、量子同型を定義する$C^*$-algebra上のマジックユニタリ行列を用いて、ヴァリアントのホログラフィック変換の新しい形式を適用する。 C^*$-代数の非可換性のため、この形のホログラフィック変換は平面ホラントにのみ適用可能であることが判明した。 この逆を証明するために、量子自己同型群 $\text{Qut}(\mathcal{F})$ の制約関数/テンソルの集合 $\mathcal{F}$ を導入し、プランナー $\text{Holant}(\mathcal{F}) \mid \mathcal{EQ})$ のシグネチャ行列として $\text{Qut}(\mathcal{F})$ のインターツウィンダーを特徴付ける。 次に、制約函数に対する(射影)接続の新しい概念を定義し、量子自己同型群を維持しながらアーリティーを減少させる。 最後に、0-1 から実値制約関数への一般化によって生じる課題に対処するため、実重み付きグラフの同型に関する古典的設定において、lov\'asz のテクニックを量子同型の設定に適用する。

Recently, Man\v{c}inska and Roberson proved that two graphs $G$ and $G'$ are quantum isomorphic if and only if they admit the same number of homomorphisms from all planar graphs. We extend this result to planar #CSP with any pair of sets $\mathcal{F}$ and $\mathcal{F}'$ of real-valued, arbitrary arity constraint functions. Graph homomorphism is the special case where each of $\mathcal{F}$ and $\mathcal{F}'$ contain a single symmetric 0-1 valued binary constraint function. Our treatment uses the framework of planar Holant problems. To prove that quantum isomorphic constraint function sets give the same value on any planar #CSP instance, we apply a novel form of holographic transformation of Valiant, using the magic unitary matrix over a $C^*$-algebra defining the quantum isomorphism. Due to the $C^*$-algebra's noncommutativity, it turns out that this form of holographic transformation is only applicable to planar Holant. To prove the converse, we introduce the quantum automorphism group $\text{Qut}(\mathcal{F})$ of a set of constraint functions/tensors $\mathcal{F}$, and characterize the intertwiners of $\text{Qut}(\mathcal{F})$ as the signature matrices of planar $\text{Holant}(\mathcal{F} \mid \mathcal{EQ})$ quantum gadgets. Then we define a new notion of (projective) connectivity for constraint functions and reduce arity while preserving the quantum automorphism group. Finally, to address the challenges posed by generalizing from 0-1 valued to real-valued constraint functions, we adapt a technique of Lov\'asz in the classical setting for isomorphisms of real-weighted graphs to the setting of quantum isomorphisms.
翻訳日:2023-01-09 18:32:17 公開日:2022-12-06
# 数量知覚のための量子スピンモデル

Quantum spin models for numerosity perception ( http://arxiv.org/abs/2212.03344v1 )

ライセンス: Link先を確認
Jorge Yago Malo, Guido Marco Cicchini, Maria Concetta Morrone, Maria Luisa Chiofalo(参考訳) 人間は、脊椎動物と無脊椎動物の両方の動物と共有し、すでに誕生した環境にあるアイテムの数を感知する能力を持つ。 動物界におけるこのスキルの広汎性は、非常に単純なニューロン集団に出現することを示唆している。 しかしながら、現在のモデリング文献は、このタスクを実行する単純なアーキテクチャを提案するのに苦労しており、ほとんどの提案は、多層複雑なニューラルネットワークにおいて数感覚の出現を示唆し、典型的には教師付き学習を必要とする。 我々は、無秩序または秩序な時間系列に発生する多くの過渡信号と共に、刺激後のスペクトルにヌメロシティを符号化する、全対全接続を持つ単純な量子スピンモデルを提案する。 我々は、ニューラルネットワークにおける情報処理を記述可能な方法として、平衡から開放量子系の理論と方法から借用したパラダイムシミュレーションアプローチを用いる。 本手法は,そのようなシステムにおける数量性の知覚的特徴の多くを捉えることができる。 系のトンネル周波数の高調波における磁化スペクトルの周波数成分は、提示される刺激数とともに増加する。 理想的なオブザーバモデルで実行される各スペクトルの振幅復号法は、動物王国全体での特異性知覚の指標の一つであるウェバーの法則に従っていることを明らかにした。 これは、ウェバーの法則を線形系やアキュムレータモデルで再現できなかったこととは対照的である。

Humans share with animals, both vertebrates and invertebrates, the capacity to sense the number of items in their environment already at birth. The pervasiveness of this skill across the animal kingdom suggests that it should emerge in very simple populations of neurons. Current modelling literature, however, has struggled to suggest a simple architecture carrying out this task, with most proposals suggesting the emergence of number sense in multi-layered complex neural networks, and typically requiring supervised learning. We present a simple quantum spin model with all-to-all connectivity, where numerosity is encoded in the spectrum after stimulation with a number of transient signals occurring in a random or orderly temporal sequence. We use a paradigmatic simulational approach borrowed from the theory and methods of open quantum systems out of equilibrium, as a possible way to describe information processing in neural systems. Our method is able to capture many of the perceptual characteristics of numerosity in such systems. The frequency components of the magnetization spectra at harmonics of the system's tunneling frequency increase with the number of stimuli presented. The amplitude decoding of each spectrum, performed with an ideal-observer model, reveals that the system follows Weber's law, one of the hallmarks of numerosity perception across the animal kingdom. This contrasts with the well-known failure to reproduce Weber's law with linear system or accumulators models.
翻訳日:2023-01-09 17:58:58 公開日:2022-12-06
# 高磁場における捕捉イオン多量子ゲートの自発発光の比較

Comparison of Spontaneous Emission in Trapped Ion Multi-Qubit Gates at High Magnetic Fields ( http://arxiv.org/abs/2212.03367v1 )

ライセンス: Link先を確認
Allison L. Carter, Sean R. Muleady, Athreya Shankar, Jennifer F. Lilieholm, Bryce B. Bullock, Matthew Affolter, Ana Maria Rey, John J. Bollinger(参考訳) ペニングトラップは、数百個のイオンで量子シミュレーションやセンシングを行い、二次元と3次元の結晶で数百から数千個のイオンをトラップし制御できるため、閉じ込められたイオン量子プラットフォームをスケールアップするための有望な経路を提供する。 ペニングトラップとより一般的なRFポールトラップの両方では、レーザーは多ビットエンタングリング動作の駆動にしばしば使用される。 これらの操作におけるデコヒーレンスの主な原因は、オフ共振自発的放出である。 多くの閉じ込められたイオン量子コンピュータやシミュレータはクロック量子ビットを使用するが、他のシステム、特にペニングトラップのような非常に高い磁場を持つシステムはゼーマン量子ビットに依存しており、より複雑なデコヒーレンス計算を必要とする。 そこで, 強磁場中でイオンを捕捉した量子ゲートに対する自然放出の影響を理論的に検討した。 特に,ライトシフトゲートとモルマーソレンセンゲートの2種類のゲートについて検討し,それぞれのデコヒーレンスエラーを比較した。 各ゲートタイプにおいて、ゲートを駆動するレーザービームの変形と偏光に関して異なる動作点を比較する。 両ゲートは最適動作条件下でも同様の性能を示し, 各種動作点の実験的実現可能性について検討する。 さらに、光シフトゲートでは、高磁場で達成できる忠実度と、最先端の2量子ビット閉じ込められたイオン量子ゲートの忠実度とを近似的に比較する。 自然放出に関しては、現在のNIST構成の達成可能な忠実度は、最高のローフィールドゲートの約1桁以下であるが、最先端のイオンゲートに匹敵する潜在的なエラー率を持つ多くの代替構成についても論じる。

Penning traps have been used for performing quantum simulations and sensing with hundreds of ions and provide a promising route toward scaling up trapped ion quantum platforms because of the ability to trap and control hundreds or thousands of ions in two- and three-dimensional crystals. In both Penning traps and the more common RF Paul traps, lasers are often used to drive multi-qubit entangling operations. A leading source of decoherence in these operations is off-resonant spontaneous emission. While many trapped ion quantum computers or simulators utilize clock qubits, other systems, especially those with very high magnetic fields such as Penning traps, rely on Zeeman qubits, which require a more complex calculation of this decoherence. We therefore examine theoretically the impacts of spontaneous emission on quantum gates performed with trapped ions in a high magnetic field. In particular, we consider two types of gates -- light-shift gates and Molmer-Sorensen gates -- and compare the decoherence errors in each. Within each gate type, we also compare different operating points with regards to the detunings and polarizations of the laser beams used to drive the gates. We show that both gates can have similar performance at their optimal operating conditions and examine the experimental feasibility of various operating points. Additionally, for the light-shift gate, we make an approximate comparison between the fidelities that can be achieved at high fields with the fidelities of state-of-the-art two-qubit trapped ion quantum gates. We show that, with regards to spontaneous emission, the achievable fidelity of the current NIST configuration is about an order of magnitude below that of the best low-field gates, but we also discuss a number of alternative configurations with potential error rates that are comparable with state-of-the-art trapped ion gates.
翻訳日:2023-01-09 17:58:34 公開日:2022-12-06
# 量子局所モデルにおける環の3色化のための非自明な下界

Non-trivial lower bound for 3-coloring the ring in the quantum LOCAL model ( http://arxiv.org/abs/2212.02768v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall and Ansis Rosmanis(参考訳) 分散コンピューティングのLOCALモデルを考えると、各ノードは1ラウンドの通信で各ノードに任意の大きさのメッセージを送ることができる。 古典的には、$n$-ノード環を3色する丸い複雑さは$\theta(\log^*\! n) である。 通信が量子である場合、単純な境界のみが知られており、少なくともいくつかの通信を行う必要がある。 単方向通信のラウンドのみを実行するリングの色付けのための分散アルゴリズムについて検討した。 古典的には、このような限定的な通信は必要な色数を$\theta(n)$ から$\theta(\log n)$ に減らすことが既に知られている。 本研究では,任意の量子一周一方向分散アルゴリズムが適切な3ドルカラー化を出力する確率は指数関数的にn$で小さいことを示す。

We consider the LOCAL model of distributed computing, where in a single round of communication each node can send to each of its neighbors a message of an arbitrary size. It is know that, classically, the round complexity of 3-coloring an $n$-node ring is $\Theta(\log^*\!n)$. In the case where communication is quantum, only trivial bounds were known: at least some communication must take place. We study distributed algorithms for coloring the ring that perform only a single round of one-way communication. Classically, such limited communication is already known to reduce the number of required colors from $\Theta(n)$, when there is no communication, to $\Theta(\log n)$. In this work, we show that the probability of any quantum single-round one-way distributed algorithm to output a proper $3$-coloring is exponentially small in $n$.
翻訳日:2023-01-09 17:50:26 公開日:2022-12-06
# 懸濁サブ波長ナノワイヤを用いたキャビティナノオプトメカニクス

Cavity nano-optomechanics with suspended subwavelength-sized nanowires ( http://arxiv.org/abs/2212.02860v1 )

ライセンス: Link先を確認
Antoine Reigue, Francesco Fogliano, Philip Heringlake, Laure Mercier de L\'epinay, Benjamin Besga, Jakob Reichel, Benjamin Pigeau, Olivier Arcizet(参考訳) キャビティナノオプトメカニクスの分野では、ナノ共振子の中間アプローチは、ファイバマイクロキャビティの小さなモードボリュームにサブ波長の変形可能な共振器(ここでナノワイヤ)を挿入することである。 ナノワイヤの内部共鳴は、ナノワイヤをキャビティフィールド内に正確に配置する条件下で、巨大な結合強度(キャビティオメカニクスの単一光子状態に入るのに十分な)を提供する光ナノワイヤ相互作用を強化する。 ここでは、ナノワイヤによる共振器内光のMie散乱の解析的定式化と、共振器内光固有モードの力学を記述した入出力形式とを組み合わせた理論的記述を公開する。 位置依存パラメトリックおよび散逸型オプトメカニカルカップリング強度を記述したオプトメカニカル相互作用の両面と,ナノワイヤが経験するオプトメカニカル力場について検討した。 我々は最近の実験的実現と定量的に一致している。 ナノワイヤが両横方向を同時に振動できるのでベクトル的特性を得る光学的相互作用の具体的な現象を議論する: 光学的力場は非ゼロ回転であり、異常な正の空洞シフトが期待できる。 カーライクな大きな非線形性を利用して、この研究はナノ共振器を用いた量子光学の分野の視点を開き、例えば、単一光子レベルに近い外部のキャビティ場をブロードバンドスキューズする。

In the field of cavity nano-optomechanics, the nanoresonator-in-the-middle approach consists in inserting a sub-wavelength sized deformable resonator, here a nanowire, in the small mode volume of a fiber microcavity. Internal resonances in the nanowire enhance the light nanowire interaction which provide giant coupling strengthes -- sufficient to enter the single photon regime of cavity optomechanics -- at the condition to precisely position the nanowire within the cavity field. Here we expose a theoretical description that combines an analytical formulation of the Mie-scattering of the intracavity light by the nanowire and an input-output formalism describing the dynamics of the intracavity optical eigenmodes. We investigate both facets of the optomechanical interaction describing the position dependent parametric and dissipative optomechanical coupling strengths, as well as the optomechanical force field experienced by the nanowire. We find a quantitative agreement with recent experimental realization. We discuss the specific phenomenology of the optomechanical interaction which acquires a vectorial character since the nanowire can identically vibrate along both transverse directions: the optomechanical force field presents a non-zero rotational, while anomalous positive cavity shifts are expected. Taking advantage of the large Kerr-like non linearity, this work opens perspectives in the field of quantum optics with nanoresonator with for instance broadband squeezing of the outgoing cavity fields close to the single photon level.
翻訳日:2023-01-09 17:49:59 公開日:2022-12-06
# 皮膚局在のない非エルミタン端バースト

Non-Hermitian edge burst without skin localizations ( http://arxiv.org/abs/2212.02879v1 )

ライセンス: Link先を確認
C. Yuce, H. Ramezani(参考訳) 開境界条件を持つ損失格子における非エルミート量子ウォークのクラスでは、崩壊確率の分布の予期せぬピークがエッジバーストと呼ばれるエッジに現れる。 エッジバーストは非エルミート皮膚効果 (nhse) とスペクトルの空隙性 (wen-tan xue et al., phys. rev. lett. 128, 120401 (2022)) に起因していることが示唆された。 非一様損失率を持つ特定の1次元損失格子を用いて,nhse が存在しない場合にもエッジバーストが発生することを示す。 さらに,スペクトルが虚ギャップ条件を満たす場合,エッジバーストは現れない可能性があることを考察する。 その基本的な重要性とは別に、エッジバースト効果の観測に関する制限を取り除き、エッジバースト効果の将来の応用のためのより広い設計空間への扉を開く。

In a class of non-Hermitian quantum walk in lossy lattices with open boundary conditions, an unexpected peak in the distribution of the decay probabilities appears at the edge, dubbed edge burst. It is proposed that the edge burst is originated jointly from the non-Hermitian skin effect (NHSE) and the imaginary gaplessness of the spectrum [Wen-Tan Xue et al., Phys. Rev. Lett. 128, 120401 (2022)]. Using a particular one-dimensional lossy lattice with a nonuniform loss rate, we show that the edge burst can occur even in the absence of NHSE. Furthermore, we discuss that the edge burst may not appear if the spectrum satisfies the imaginary gaplesness condition. Aside from its fundamental importance, by removing the restrictions on observing the edge burst effect, our results open the door to broader design space for future applications of the edge burst effect.
翻訳日:2023-01-09 17:49:18 公開日:2022-12-06
# 絡み合った2色Hong-Ou-Mandel顕微鏡によるサブ{\mu}m軸方向精密イメージング

Sub-{\mu}m axial precision depth imaging with entangled two-colour Hong-Ou-Mandel microscopy ( http://arxiv.org/abs/2212.02990v1 )

ライセンス: Link先を確認
Cyril Torre, Alex McMillan, Jorge Monroy-Ruz and Jonathan C.F. Matthews(参考訳) ビームスプリッターで重なる2つの波長交叉光子の量子干渉は振動干渉パターンをもたらす。 この干渉パターンの周波数は、絡み合った光子の波長分離に依存するが、標準干渉測定の実用性を制限できる波長スケールの摂動に頑健である。 ここでは2色絡み干渉計を用いて,半透明試料の3次元イメージングとサブ${\mu}$m精度を示す。 絡み合った光子対の波長分離を微調整することにより、顕微鏡の軸方向精度とダイナミックレンジを積極的に制御する。 サブ${\mu}$mの精度は、各ピクセルに対して平均10^3光子対の平均で最大16nmのデチューニングを用いて報告される。

The quantum interference of two wavelength-entangled photons overlapping at a beamsplitter results in an oscillating interference pattern. The frequency of this interference pattern is dependent on the wavelength separation of the entangled photons, but is robust to wavelength scale perturbations that can limit the practicality of standard interferometry. Here we use two-colour entanglement interferometry to demonstrate 3D imaging of a semi-transparent sample with sub-${\mu}$m precision. The axial precision and the dynamic range of the microscope is actively controlled by detuning the wavelength separation of the entangled photon pairs. Sub-${\mu}$m precision is reported using up to 16 nm of detuning with an average in the order of 10^3 photon pairs for each pixel.
翻訳日:2023-01-09 17:48:58 公開日:2022-12-06
# ハイブリッド量子古典型ニューラルネットワークによる地盤および励起状態のポテンシャルエネルギー面推定

Potential energy surfaces inference of both ground and excited state using hybrid quantum-classical neural network ( http://arxiv.org/abs/2212.03005v1 )

ライセンス: Link先を確認
Yasutaka Nishida and Fumihiko Aiga(参考訳) 量子コンピューティングへの関心の高まりを反映して、変分量子固有ソルバ(vqe)は、短期量子コンピュータの応用として多くの注目を集めている。 vqeは量子化学にしばしば適用されているが、正確な期待値を得るために無限に多くの測定値が必要であり、変動最適化手順におけるコスト関数を最小化するために期待値が何度も計算されるため、信頼性の高い結果には高い計算コストが必要である。 したがって, 分子構造解析や化学反応のダイナミクス解析において特に重要となる, ポテンシャルエネルギー面(PES)を化学的精度で推定するなど, 実用的な作業におけるVQEの計算コストを削減する必要がある。 VQE [Xia $et\ al$, Entropy 22, 828 (2020)] の代理モデルとして, ハイブリッド量子古典ニューラルネットワークが提案されている。 このモデルを用いて、H2のような単純な分子の基底状態エネルギーを変動最適化の手順なしで正確に推定することができる。 本研究では,サブスペース探索型変分量子固有解法を用いて,地中および励起状態のPSSを化学的精度で推定できるようにモデルを拡張した。 また,IBMのQASMバックエンドを用いて,サンプリングノイズが事前学習モデルの性能に与える影響を示す。

Reflecting the increasing interest in quantum computing, the variational quantum eigensolver (VQE) has attracted much attentions as a possible application of near-term quantum computers. Although the VQE has often been applied to quantum chemistry, high computational cost is required for reliable results because infinitely many measurements are needed to obtain an accurate expectation value and the expectation value is calculated many times to minimize a cost function in the variational optimization procedure. Therefore, it is necessary to reduce the computational cost of the VQE for a practical task such as estimating the potential energy surfaces (PESs) with chemical accuracy, which is of particular importance for the analysis of molecular structures and chemical reaction dynamics. A hybrid quantum-classical neural network has recently been proposed for surrogate modeling of the VQE [Xia $et\ al$, Entropy 22, 828 (2020)]. Using the model, the ground state energies of a simple molecule such as H2 can be inferred accurately without the variational optimization procedure. In this study, we have extended the model by using the subspace-search variational quantum eigensolver procedure so that the PESs of the both ground and excited state can be inferred with chemical accuracy. We also demonstrate the effects of sampling noise on performance of the pre-trained model by using IBM's QASM backend.
翻訳日:2023-01-09 17:48:45 公開日:2022-12-06
# 量子インターネット上のゼロ知識証明について

On Zero-Knowledge Proofs over the Quantum Internet ( http://arxiv.org/abs/2212.03027v1 )

ライセンス: Link先を確認
Mark Carney(参考訳) 本稿では,量子ID認証(QIA)プロトコルの新しい手法を提案する。 古典的なゼロ知識証明(ZKP)の論理は量子回路やアルゴリズムに適用される。 この新しいアプローチは、証明者$P$が証明者$V$に直接検証者$V$に送信せずに秘密を知っていることを正確に証明する方法を提供する。 量子インターネット」の出現が予想される中で、そのようなプロトコルやアイデアはすぐに現実の世界で実用性と実行をもたらすかもしれない。

This paper presents a new method for quantum identity authentication (QIA) protocols. The logic of classical zero-knowledge proofs (ZKPs) due to Schnorr is applied in quantum circuits and algorithms. This novel approach gives an exact way with which a prover $P$ can prove they know some secret without transmitting that directly to a verifier $V$ by means of a quantum channel - allowing for a ZKP wherein an eavesdropper or manipulation can be detected with a `fail safe' design. With the anticipated advent of a `quantum internet', such protocols and ideas may soon have utility and execution in the real world.
翻訳日:2023-01-09 17:47:59 公開日:2022-12-06
# 欠陥のない原子配列の高速作成のための並列圧縮アルゴリズム

Parallel compression algorithm for fast preparation of defect-free atom arrays ( http://arxiv.org/abs/2212.03047v1 )

ライセンス: Link先を確認
Shangguo Zhu, Yun Long, Mingbo Pu, Xiangang Luo(参考訳) 欠陥のない原子配列は、高いプログラマビリティと有望なスケーラビリティを備えた量子シミュレーションと計算のための強力なプラットフォームとして登場した。 欠陥のない配列は、初期部分負荷配列からターゲット部位に原子を配置することで作成することができる。 しかし、原子再配列中の原子損失と、配列サイズに逆比例する真空限界寿命により、大規模な欠陥のない配列を実現することは困難である。 時間コストと原子損失を最小限に抑えた高速アルゴリズムで原子を再配置することが重要である。 本稿では,複数の移動式ツイーザを用いて並列に原子を転送する並列圧縮アルゴリズムを提案する。 原子再配置の総時間コストは、ターゲット部位の数に応じて線形にスケールするように削減できる。 このアルゴリズムは、現在の実験装置で容易に実装できる。

Defect-free atom arrays have emerged as a powerful platform for quantum simulation and computation with high programmability and promising scalability. Defect-free arrays can be prepared by rearranging atoms from an initial partially loaded array to the target sites. However, it is challenging to achieve large-size defect-free arrays due to atom loss during atom rearrangement and the vaccum-limited lifetime which is inversely proportional to the array size. It is crucial to rearrange atoms in fast algorithms with minimized time cost and atom loss. Here we propose a novel parallel compression algorithm which utilizes multiple mobile tweezers to transfer the atoms in parallel. The total time cost of atom rearrangement could be reduced to scale linearly with the number of target sites. The algorithm can be readily implemented in current experimental setups.
翻訳日:2023-01-09 17:47:49 公開日:2022-12-06
# 古典的ランダム相互作用による完全絡み合い2および3量子ビット状態の生成

Generation of perfectly entangled two and three qubits states by classical random interaction ( http://arxiv.org/abs/2212.03115v1 )

ライセンス: Link先を確認
Javed Akram(参考訳) 本研究は、現在関心のある複数の量子情報プラットフォームに対応するハミルトニアンの完全絡み目を見つける可能性について検討する。 しかし,本研究では,コンデンサやマイクロ波共振器を介してトランスモン量子ビットを結合することができ,高いコヒーレンス性,高速なゲート,設計パラメータの柔軟性を両立させることができるため,他の量子計算デバイスとは際立っている超伝導回路を用いる。 現在、超伝導プロセッサの性能を制限する2つの要因がある:タイミングミスマッチと絡み合うゲートの制限である。 本研究では,2-qubitのSWAPと3-qubitのFredkinゲート,さらに2-3個のプログラム可能な超伝導量子ビット間の完全断熱エンタングルメント生成を示す。 さらに, この研究では, ランダムな劣化, 放出, 吸収音が量子ゲートや絡み合いに与える影響を実証した。 CSWAPゲートと$W$状態生成は、弱い結合条件下で信頼性の高い1ステップで完全に達成できることを数値シミュレーションにより実証した。 したがって、我々の計画は量子テレポーテーション、量子通信、その他の量子情報処理の分野に寄与する可能性がある。

This study examines the possibility of finding perfect entanglers for a Hamiltonian which corresponds to several quantum information platforms of interest at the present time. However, in this study, we use a superconducting circuit that stands out from other quantum-computing devices, especially because Transmon qubits can be coupled via capacitors or microwave cavities, which enable us to combine high coherence, fast gates, and high flexibility in its design parameters. There are currently two factors limiting the performance of superconducting processors: timing mismatch and the limitation of entangling gates to two qubits. In this work, we present a two-qubit SWAP and a three-qubit Fredkin gate, additionally, we also demonstrate a perfect adiabatic entanglement generation between two and three programmable superconducting qubits. Furthermore, in this study, we also demonstrate the impact of random dephasing, emission, and absorption noises on the quantum gates and entanglement. It is demonstrated by numerical simulation that the CSWAP gate and $W$-state generation can be achieved perfectly in one step with high reliability under weak coupling conditions. Hence, our scheme could contribute to quantum teleportation, quantum communication, and some other areas of quantum information processing.
翻訳日:2023-01-09 17:47:38 公開日:2022-12-06
# 電磁波の基本伝達行列, 点散乱器の平面集束による散乱, 反PT対称性

Fundamental transfer matrix for electromagnetic waves, scattering by a planar collection of point scatterers, and anti-PT-symmetry ( http://arxiv.org/abs/2212.03205v1 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) エバネッセント波の寄与を取り入れ、等方性、均質性、受動性を必要としない一般的な静止線形媒質に適用する電磁(em)波の散乱の基本的な伝達行列を定式化する。 媒体をスライスすることを含む従来の転移行列とは異なり、基本転移行列は無限次元関数空間で作用する線型作用素である。 これは非ユニタリ量子系の進化作用素として与えられ、解析計算を可能にする利点がある。 この点において、これは標準グリーン関数のEM散乱への代替となる唯一のものである。 我々は、平面上に横たわる非磁性点散乱器の任意の有限集合に対して、優れたEM散乱問題の正確な解を提供する。 特に,一対の等方性点散乱器からなるダブレットの包括的処理とスペクトル特異性の研究を行っている。 同一かつ$\mathcal{P}\mathcal{T}$-symmetric doubletsはスペクトル特異性を認めず、その誘電率の真の部分が真空のそれと等しない限りレーザーとして機能しないことを示す。 この制限は反-$\mathcal{p}\mathcal{t}$-symmetry を示す二重項には適用されない。 一般の反-$\mathcal{p}\mathcal{t}$-symmetric doublet に対する発散しきい値を決定し、連続発振スペクトルを持つことを示す。

We develop a fundamental transfer-matrix formulation of the scattering of electromagnetic (EM) waves that incorporates the contribution of the evanescent waves and applies to general stationary linear media which need not be isotropic, homogenous, or passive. Unlike the traditional transfer matrices whose definition involves slicing the medium, the fundamental transfer matrix is a linear operator acting in an infinite-dimensional function space. It is given in terms of the evolution operator for a non-unitary quantum system and has the benefit of allowing for analytic calculations. In this respect it is the only available alternative to the standard Green's-function approaches to EM scattering. We use it to offer an exact solution of the outstanding EM scattering problem for an arbitrary finite collection of possibly anisotropic nonmagnetic point scatterers lying on a plane. In particular, we provide a comprehensive treatment of doublets consisting of pairs of isotropic point scatterers and study their spectral singularities. We show that identical and $\mathcal{P}\mathcal{T}$-symmetric doublets do not admit spectral singularities and cannot function as a laser unless the real part of their permittivity equals that of vacuum. This restriction does not apply to doublets displaying anti-$\mathcal{P}\mathcal{T}$-symmetry. We determine the lasing threshold for a generic anti-$\mathcal{P}\mathcal{T}$-symmetric doublet and show that it possesses a continuous lasing spectrum.
翻訳日:2023-01-09 17:47:18 公開日:2022-12-06
# 毎秒10ボリュームの画像による量子イメージング

Quantum imaging at 10 volumetric images per second ( http://arxiv.org/abs/2212.02672v1 )

ライセンス: Link先を確認
Gianlorenzo Massaro, Paul Mos, Sergii Vasiukov, Francesco Di Lena, Francesco Scattarella, Francesco V. Pepe, Arin Ulku, Davide Giannella, Edoardo Charbon, Claudio Bruschini, Milena D'Angelo(参考訳) 光の相関性は従来のイメージング技術の限界を克服する優れたツールとなる。 関係するケースは相関レンズ画像(英語版) (CPI) によって表現される。これは時空間相関を用いた量子画像プロトコルで、従来の光フィールドイメージングの主な限界、すなわち、空間分解能の低下と3Dイメージングの視点の変化に対処する。 しかし、高分解能量子イメージングの応用ポテンシャルは、実際には、相関を求めるために多数のフレームを収集する必要があるため、制限されている。 これにより、量子イメージングの時間的性能と従来の撮像方法との間に、多くの関連するタスクでは受け入れられないギャップが生じる。 本稿では, カオス光に内在する光子数相関を, 単一光子アバランシェダイオード(SPAD)の大きな配列からなる最先端の超高速センサと組み合わせることで, この問題に対処する。 毎秒10ボリューム画像の取得速度で量子イメージングを実証するために、新しいシングルレンズCPI方式が採用された。 その結果, 量子イメージングは競争の激しい領域に位置づけられ, 実用化の可能性が証明された。

The correlation properties of light provide an outstanding tool to overcome the limitations of traditional imaging techniques. A relevant case is represented by correlation plenoptic imaging (CPI), a quantum imaging protocol employing spatio-temporal correlations to address the main limitations of conventional light-field imaging, namely, the poor spatial resolution and the reduced change of perspective for 3D imaging. However, the application potential of high-resolution quantum imaging is limited, in practice, by the need to collect a large number of frames to retrieve correlations. This creates a gap, unacceptable for many relevant tasks, between the time performance of quantum imaging and that of traditional imaging methods. In this article, we address this issue by exploiting the photon number correlations intrinsic in chaotic light, in combination with a cutting-edge ultrafast sensor made of a large array of single-photon avalanche diodes (SPADs). A novel single-lens CPI scheme is employed to demonstrate quantum imaging at an acquisition speed of 10 volumetric images per second. Our results place quantum imaging at a competitive edge and prove its potential in practical applications.
翻訳日:2023-01-09 17:38:56 公開日:2022-12-06
# 走行セールスマン問題に対するガスベース量子アルゴリズムの実現

A Realizable GAS-based Quantum Algorithm for Traveling Salesman Problem ( http://arxiv.org/abs/2212.02735v1 )

ライセンス: Link先を確認
Jieao Zhu, Yihuai Gao, Hansen Wang, Tiefu Li, and Hao Wu(参考訳) 本稿では,IBMのQiskitライブラリ上で実行可能なGrover Adaptive Search(GAS)に基づく,旅行セールスマン問題(TSP)の量子アルゴリズムを提案する。 GASフレームワークでは、組合せ最適化問題に対する量子アルゴリズムの適用を制限する、少なくとも2つの基本的な困難がある。 1つの困難は、量子アルゴリズムによって与えられる解は実現不可能であるかもしれないことである。 もう1つの難点は、現在の量子コンピュータの量子ビット数はまだ非常に限られており、アルゴリズムが要求する量子ビット数の最小要件を満たせないことである。 上記の困難に対応するため,我々は数理定理に基づくハミルトニアンサイクル検出(hcd)オラクルを設計し,改良した。 アルゴリズムの実行中に無効なソリューションを自動的に排除することができる。 一方,我々は,qubitsの使用を節約するためのアンカーレジスタ戦略を設計した。 この戦略は量子コンピューティングの可逆性要件を完全に考慮し、使用する量子ビットが単に上書きや解放できないという難しさを克服する。 その結果,IBMのQiskit上でTSPの数値解を実現した。 7ノードのTSPでは31量子ビットしか必要とせず、最適解を得る成功率は86.71%である。

The paper proposes a quantum algorithm for the traveling salesman problem (TSP) based on the Grover Adaptive Search (GAS), which can be successfully executed on IBM's Qiskit library. Under the GAS framework, there are at least two fundamental difficulties that limit the application of quantum algorithms for combinatorial optimization problems. One difficulty is that the solutions given by the quantum algorithms may not be feasible. The other difficulty is that the number of qubits of current quantum computers is still very limited, and it cannot meet the minimum requirements for the number of qubits required by the algorithm. In response to the above difficulties, we designed and improved the Hamiltonian Cycle Detection (HCD) oracle based on mathematical theorems. It can automatically eliminate infeasible solutions during the execution of the algorithm. On the other hand, we design an anchor register strategy to save the usage of qubits. The strategy fully considers the reversibility requirement of quantum computing, overcoming the difficulty that the used qubits cannot be simply overwritten or released. As a result, we successfully implemented the numerical solution to TSP on IBM's Qiskit. For the seven-node TSP, we only need 31 qubits, and the success rate in obtaining the optimal solution is 86.71%.
翻訳日:2023-01-09 17:38:35 公開日:2022-12-06
# Si/SiGe量子ドットとオフチップTiN共振器の縦結合

Longitudinal coupling between a Si/SiGe quantum dot and an off-chip TiN resonator ( http://arxiv.org/abs/2212.02736v1 )

ライセンス: Link先を確認
J. Corrigan, Benjamin Harpt, Nathan Holman, Rusko Ruskov, Piotr Marciniec, D. Rosenberg, D. Yost, R. Das, William D. Oliver, R. McDermott, Charles Tahan, Mark Friesen, and M. A. Eriksson(参考訳) 超伝導キャビティは量子ドットのスピン状態を測定する重要なツールとして登場した。 これまでのところ、ドットと空洞の間の縦方向の結合を探索する実験はほとんどなく、その完全なポテンシャルは現在不明である。 本稿では,高インピーダンス共振器に結合した量子ドットハイブリッド量子ビットの「フリップチップ」設計形状を報告する。 2つの異なるチャネルを通して、アクドライブをキュービットに印加することにより、キュービットとキャビティの間の縦方向の結合の存在を不当に確認することができる。 この結合は駆動振幅に比例するため、量子ビット実験において強力な新しいツールになる可能性がある。

Superconducting cavities have emerged as a key tool for measuring the spin states of quantum dots. So far, few experiments have explored longitudinal couplings between dots and cavities, so their full potential is currently unknown. Here, we report measurements of a quantum-dot hybrid qubit coupled to a high-impedance resonator via a "flip-chip" design geometry. By applying an ac drive to the qubit through two different channels, we are able to unequivocally confirm the presence of a longitudinal coupling between the qubit and cavity. Since this coupling is proportional to the driving amplitude, it has the potential to become a powerful new tool in qubit experiments.
翻訳日:2023-01-09 17:38:17 公開日:2022-12-06
# 雑音変動量子固有解法のためのans\"atze

Ans\"atze for Noisy Variational Quantum Eigensolvers ( http://arxiv.org/abs/2212.04323v1 )

ライセンス: Link先を確認
Mafalda Ram\^oa(参考訳) 有用な量子アルゴリズムのハードウェア要件は、今日利用可能な量子コンピュータでは未解決のままである。 これらの要求を和らげるために設計されたため、変分量子固有解法 (VQE) は、短期量子コンピュータの量子優位性のための候補として人気を集めている。 試験状態を作成するパラメータ化回路であるアンザッツは、VQEの成功(またはその欠如)を規定することができる。 あまりに深いans\"atzeは、短期的生存可能性を妨げるか、アルゴリズムを非効率にする訓練可能性の問題を引き起こす。 この論文の目的は、量子化学のために提案された異なるans\"atzeを解析し、最先端の量子コンピュータのノイズ耐性と生存可能性を調べることである。 特に, 動的ans\"atze (adapt-vqes) を探索し, プール選択と選択基準が性能に及ぼす影響について検討した。

The hardware requirements of useful quantum algorithms remain unmet by the quantum computers available today. Because it was designed to soften these requirements, the Variational Quantum Eigensolver (VQE) has gained popularity as a contender for a chance at quantum advantage with near-term quantum computers. The ansatz, a parameterized circuit that prepares trial states, can dictate the success (or lack thereof) of a VQE. Too deep ans\"atze can hinder near-term viability, or lead to trainability issues that render the algorithm inefficient. The purpose of this thesis was to analyse different ans\"atze proposed for quantum chemistry, examining their noise-resilience and viability in state-of-the-art quantum computers. In particular, dynamic ans\"atze (ADAPT-VQEs) were explored, and the impact of the choice of pool and selection criterion on their performance was analysed.
翻訳日:2023-01-09 17:13:00 公開日:2022-12-06
# p-quasi分布関数の一般化フーリエ変換

A generalized Fourier transform of the P-quasi distribution function ( http://arxiv.org/abs/2212.04345v1 )

ライセンス: Link先を確認
Du\v{s}an Popov(参考訳) この論文では、複素空間におけるフーリエ変換の一般化を、非線形コヒーレント状態の表現において、フシミとP-準分布の対に適用した。 必然的に、我々の結果はメフタの一般化と同様の結果であるが、これは正準コヒーレント状態(一次元高調波発振器に付随する)のみを指す。 この結果は両種類のコヒーレント状態(それぞれバルート・ギラルデッロ、klauder-perelomov方式で定義される)において有効である。

In the paper we made a generalization of the Fourier transform in the complex space, applicable to the pair of Husimi and P-quasi distributions, in the representation of nonlinear coherent states. Implicitly, our result is a generalization similar result of Mehta, but which referred only to the canonical coherent states (associated with the one-dimensional harmonic oscillator). Our result is valid for both types of coherent states (defined in the Barut-Girardello, respectively Klauder-Perelomov manner).
翻訳日:2023-01-09 17:12:47 公開日:2022-12-06
# マクロリアリズムの量子干渉法テストの古典モデル

Classical model of quantum interferometry tests of macrorealism ( http://arxiv.org/abs/2212.03301v1 )

ライセンス: Link先を確認
Brian R. La Cour(参考訳) マクロリアリズムは多くの古典システムの特徴であるが、全てではない。 例えば、古典光はレゲット・ガーグの不等式を破ることができ、従ってマクロリアリズムの解釈を拒絶することが知られている。 最近の実験では、絡み合った光と負の測定を使ってマクロリアリズムのループホールフリーなテスト[prx quantum $\mathbf{3}$, 010307 (2022)]を実証している。 本稿では,そのような実験が,マクロリアリズムを正当に否定する一方で,古典的な解釈に開放されることを示唆する。 これは光干渉計とビームブロッカを併用した古典的な光子検出モデルを提供することによって実現される。 このモデルの数値解析は、局所現実主義とマクロ現実主義の拒絶の両方と実験的な観察と整合性によく一致することを示している。

Macrorealism is a characteristic feature of many, but not all, classical systems. It is known, for example, that classical light can violate a Leggett-Garg inequality and, hence, reject a macrorealist interpretation. A recent experiment has used entangled light and negative measurements to demonstrate a loophole-free test of macrorealism [PRX Quantum $\mathbf{3}$, 010307 (2022)]. This paper shows that such an experiment, while soundly rejecting macrorealism, may nevertheless be open to a classical interpretation. This is done by offering an explicit classical model of heralded photon detection in an optical interferometer with beam blockers. A numerical analysis of the model shows good agreement with experimental observations and consistency with both local realism and a rejection of macrorealism.
翻訳日:2023-01-09 16:46:36 公開日:2022-12-06
# 量子および現実的な隠れ変数理論における情報の検索可能性

Retrievability of information in quantum and realistic hidden variable theories ( http://arxiv.org/abs/2212.02815v1 )

ライセンス: Link先を確認
Roope Uola, Erkka Haapasalo, Juha-Pekka Pellonp\"a\"a, Tom Kuusela(参考訳) 本稿では,レゲット・ガーグ条件の一般化を提案する。 本提案は,非侵襲的測定可能性の仮定と情報検索可能性の仮定を緩和することに依存する。 このことは、マクロ現実論的な記述を持つものよりも厳密に幅広い隠れ変数理論のクラスにつながる。 重要なことに、マクロリアリズムの量子力学的テストでは、可能な全ての状態更新を最適化する必要があるが、情報の検索性のために、全ての量子測定に存在している基本的なl\"uders状態更新を使用することが十分である。 量子ビット系では、最適検索プロトコルは、バッシュ・ラフティ・ヴェルナーの不確かさ関係によって与えられる量子理論の基本的な精度限界にさらに関係していることを示す。 フォトニックセッティングを用いて最適なプロトコルを実装し,提案したマクロリアリズムの一般化に関する実験的違反を報告する。

We propose a generalisation of the Leggett-Garg conditions for macrorealistic behaviour. Our proposal relies on relaxing the postulate of non-invasive measurability with that of retrievability of information. This leads to a strictly broader class of hidden variable theories than those having a macrorealistic description. Crucially, whereas quantum mechanical tests of macrorealism require one to optimise over all possible state updates, for retrievability of information it suffices to use the basic L\"uders state update, which is present in every quantum measurement. We show that in qubit systems the optimal retrieving protocols further relate to the fundamental precision limit of quantum theory given by Busch-Lahti-Werner error-disturbance uncertainty relations. We implement an optimal protocol using a photonic setting, and report an experimental violation of the proposed generalisation of macrorealism.
翻訳日:2023-01-09 16:38:28 公開日:2022-12-06
# 99.92%の固体中CNOTゲートの時間依存性及び量子ノイズによるフィルタ

99.92%-Fidelity CNOT Gates in Solids by Filtering Time-dependent and Quantum Noises ( http://arxiv.org/abs/2212.02831v1 )

ライセンス: Link先を確認
Tianyu Xie, Zhiyuan Zhao, Shaoyi Xu, Xi Kong, Zhiping Yang, Mengqi Wang, Ya Wang, Fazhan Shi, Jiangfeng Du(参考訳) 貯水池との避けられない相互作用は、非局所ゲートの性能を著しく低下させ、実用的な量子計算の存在を妨げる。 ここでは, 室温固体スピン系における複雑なノイズを抑制することにより, 99.920(7)\%の忠実度制御NOTゲートを実験的に実証する。 従来の研究では99%に制限された忠実度は静的ノイズのみを考慮した結果であり,本研究では時間依存ノイズや量子ノイズも含むことがわかった。 すべてのノイズは、巧妙に設計された形状のパルスによって動的に補正され、結果として誤差は10^{-4}$以下になる。 残差ゲート誤差は主に長手方向の緩和と波形歪みが原因で、どちらも技術的にさらに低減できる。 耐雑音性は普遍的であり,他の固体スピン系にも有益である。

Inevitable interactions with the reservoir largely degrade the performance of non-local gates, which hinders practical quantum computation from coming into existence. Here we experimentally demonstrate a 99.920(7)\%-fidelity controlled-NOT gate by suppressing the complicated noise in a solid-state spin system at room temperature. We found that the fidelity limited at 99\% in previous works results from only considering static noise, and thus, in this work, time-dependent noise and quantum noise are also included. All noises are dynamically corrected by an exquisitely designed shaped pulse, giving the resulting error below $10^{-4}$. The residual gate error is mainly originated from the longitudinal relaxation and the waveform distortion that can both be further reduced technically. Our noise-resistant method is universal, and will benefit other solid-state spin systems.
翻訳日:2023-01-09 16:38:10 公開日:2022-12-06
# hzレベル精度で求めた固体中の単一スピン欠陥の温度依存性

Temperature-dependent behaviors of single spin defects in solids determined with Hz-level precision ( http://arxiv.org/abs/2212.02849v1 )

ライセンス: Link先を確認
Shaoyi Xu, Mingzhe Liu, Tianyu Xie, Zhiyuan Zhao, Qian Shi, Pei Yu, Chang-Kui Duan, Fazhan Shi, Jiangfeng Du(参考訳) 固体の単一スピン欠陥の性質を明らかにすることは、固体系に基づく量子応用に不可欠である。 しかし, 単一欠陥の温度依存性は, 単一欠陥測定の精度が低いため, 単一欠陥の温度依存性について検討することは困難である。 本稿では,ダイヤモンド中の1つの負荷電窒素空孔(nv$^{-}$)中心のハミルトニアンパラメータの温度依存性を精密に測定し,第一原理計算と合理的に一致したことを示す。 特に、ランダムに分散した$^{13}$C核スピンとの超微粒子相互作用は温度によって明らかに変化し、関連する係数はHzレベルの精度で測定される。 温度依存性の挙動は、第一原理計算による熱膨張と格子振動の両方に起因する。 我々の結果は、核スピンをナノスケールでより安定な温度計として捉えるための道を開いた。 ここで開発された高精度測定と第一原理計算は、他の固体スピン欠陥にも拡張することができる。

Revealing the properties of single spin defects in solids is essential for quantum applications based on solid-state systems. However, it is intractable to investigate the temperature-dependent properties of single defects, due to the low precision for single-defect measurements in contrast to defect ensembles. Here we report that the temperature dependence of the Hamiltonian parameters for single negatively charged nitrogen-vacancy (NV$^{-}$) centers in diamond is precisely measured, and the results find a reasonable agreement with first-principles calculations. Particularly, the hyperfine interactions with randomly distributed $^{13}$C nuclear spins are clearly observed to vary with temperature, and the relevant coefficients are measured with Hz-level precision. The temperature-dependent behaviors are attributed to both thermal expansion and lattice vibrations by first-principles calculations. Our results pave the way for taking nuclear spins as more stable thermometers at nanoscale. The methods developed here for high-precision measurements and first-principles calculations can be further extended to other solid-state spin defects.
翻訳日:2023-01-09 16:37:47 公開日:2022-12-06
# 将来の量子インターネットにおける量子ネットワークトポロジーの比較分析

A comparative analysis of quantum network topologies in the context of future quantum internet ( http://arxiv.org/abs/2212.02877v1 )

ライセンス: Link先を確認
Muhammad Daud, Aeysha Khalique(参考訳) マルチノードネットワークにおける絡み合い分布は、将来の量子インターネットのバックボーンとなる。 量子リピータネットワークの効率が高まるにつれ、広く受け入れられる現象となる。 セキュアな通信と分散量子計算のために実現可能なマルチノード量子ネットワークを構築するグラフ理論的アプローチは、古典的インターネットがそのような理論に基づいて構築されたので、エキサイティングである。 今日の古典的なインターネットとは異なり、量子インターネットはソースとデスティネーションの間の複数の経路に依存する可能性が高い。 このマルチパスルーティングパラダイムにより、ユーザは最短の経路以外の経路を通じてベルペアを送信でき、エンタングルメントの浄化により、最後には単一の高忠実なベルペアを取得できる。 本研究は、量子メモリを用いたマルチパスルーティングをサポートするために、ネットワークに必要最小限以上のエッジを持つという、一意的な比較分析を含む。 本稿では,各層にエッジリングを付加し,コスト距離を格子ネットワークと比較することにより,ツリーネットワークに冗長なエッジを持つことの利点を説明する。 本分析は,ユーザ競争とパス探索確率の文脈における忠実性効率のトレードオフの理解を提供する。 ネットワークトポロジーは絡み合い分布を提供するのに不可欠であると主張する。 大規模量子通信ネットワークの展開可能性を示すため,2つのファイバー光ネットワークで14ドルのノードネットワークをイスラマバードで提案する。 1つは、最小のスパンディングツリートポロジーで、約$61,370.00$、もう1つは完全グラフトポロジーであり、約$$1.1\text{mil}$である。 ネットワークトポロジは、メモリが利用できない場合でも、キー生成率を大幅に向上させることができる。

Entanglement distribution in multi-node networks can become the backbone for a future quantum internet. It will become a widely accepted phenomenon as quantum repeater networks become increasingly efficient. Graph theoretical approaches to make a feasible multi-node quantum network for secure communication and distributed quantum computation are exciting, as the classical internet was built on such theories. Unlike today's classical internet, a quantum internet will likely rely on more than one path between the source and destination. This multi-path routing paradigm allows the user-pair to send their Bell-pairs through pathways other than the shortest one and still get a single high-fidelity Bell-pair at the end via entanglement purification. This study encompasses a quintessential comparative analysis of having more than the minimum required edges in networks to support multi-path routing with quantum memories. We explain the benefits of having redundant edges in tree networks by adding rings of edges at each level and comparing cost distances with that of lattice networks. Our analysis provides an understanding of fidelity-efficiency trade-offs in the context of user competition and path-finding probabilities. We argue that network topologies are essential in serving the entanglement distribution. To show the deployability of large-scale quantum communication networks, we present a $14$-node network in Islamabad in two fibre-optic-based networks. One is the minimal spanning tree topology that costs around $\$61,370.00$, and the other is a complete graph topology, which costs about $\$1.1\text{Mil}$. It shows that the network topologies can significantly improve key generation rates, even when memory is unavailable.
翻訳日:2023-01-09 16:37:22 公開日:2022-12-06
# 有限幾何学における物理

Physics in a finite geometry ( http://arxiv.org/abs/2212.02915v1 )

ライセンス: Link先を確認
Arkady Bolotin(参考訳) 測定可能な量が無限値を持たないという規定は物理学において不可欠である。 同時に、数学において、全体として無限の手続きを考える可能性は、通常当然である。 しかし、そのような可能性は計算可能性に逆らうだけでなく、現代の物理学における最も深刻な問題、すなわち計算された物理量における無限大の出現につながる。 特に、集合論の無限遠の公理(物理学のあらゆる分野に統合された微積分学の理論的基礎のバックボーン)に同意したことによって、量子化できない古典場理論の存在をもはや否定することはできない。 対照的に,本論文では無限遠の公理を否定することで,すべての古典場理論が量子化可能であることが保証される有限幾何学において物理が作用することを示す。

The stipulation that no measurable quantity could have an infinite value is indispensable in physics. At the same time, in mathematics, the possibility of considering an infinite procedure as a whole is usually taken for granted. However, not only does such possibility run counter to computational feasibleness, but it also leads to the most serious problem in modern physics, to wit, the emergence of infinities in calculated physical quantities. Particularly, having agreed on the axiom of infinity for set theory -- the backbone of the theoretical foundations of calculus integrated in every branch of physics -- one could no longer rule out the existence of a classical field theory which is not quantizable, let alone renormalizable. By contrast, the present paper shows that negating the axiom of infinity results in physics acting in a finite geometry where it is ensured that all classical field theories are quantizable.
翻訳日:2023-01-09 16:36:55 公開日:2022-12-06
# 量子鍵分散ネットワークのための動的ルーティング

Dynamic Routing for Quantum Key Distribution Networks ( http://arxiv.org/abs/2212.03144v1 )

ライセンス: Link先を確認
Omar Amer, Walter O. Krawec, Victoria U. Manfredi, and Bing Wang(参考訳) 本稿では,量子リピータと少数の信頼ノードを持つ量子ネットワークにおける量子鍵分布(QKD)について考察する。 信頼できるノードのみを持つ現在のQKDネットワークや、量子リピータのみを持つ真のQuantum Internetとは対照的に、そのようなネットワークは中間層であり、ほぼ将来的なQKDネットワークとして機能する。 この設定では、QKDは効率的かつ実用的なデプロイが可能であり、将来の真の量子インターネットの洞察を提供する。 このようなネットワークにおけるキー生成効率を大幅に向上させるために,現在のネットワーク状態に基づいてルーティング決定を行う動的ルーティング戦略を開発し,各種の古典/量子後処理技術を評価する。 シミュレーションを用いて,非対称信頼ノード配置設定において,動的経路戦略により2ユーザ間の鍵レートが著しく向上することを示す。 後処理技術は、高ノイズシナリオにおけるキーレートを向上する。 さらに、動的ルーティング戦略と後処理技術を組み合わせることで、QKDネットワーク全体の性能をさらに向上させることができる。

In this paper, we consider quantum key distribution (QKD) in a quantum network with both quantum repeaters and a small number of trusted nodes. In contrast to current QKD networks with only trusted nodes and the true Quantum Internet with only quantum repeaters, such networks represent a middle ground, serving as near-future QKD networks. In this setting, QKD can be efficiently and practically deployed, while providing insights for the future true Quantum Internet. To significantly improve the key generation efficiency in such networks, we develop a new dynamic routing strategy that makes routing decisions based on the current network state, as well as evaluate various classical/quantum post-processing techniques. Using simulations, we show that our dynamic routing strategy can improve the key rate between two users significantly in settings with asymmetric trusted node placement. The post-processing techniques can also increase key rates in high noise scenarios. Furthermore, combining the dynamic routing strategy with the post-processing techniques can further improve the overall performance of the QKD network.
翻訳日:2023-01-09 16:36:43 公開日:2022-12-06
# 誘電体媒体における光子パルスの時空間伝播,ビームスプリッタによる回折

Space-time propagation of photon pulses in dielectric media,illustrations with beam splitters ( http://arxiv.org/abs/2212.03203v1 )

ライセンス: Link先を確認
M. Federico, V. Dorier, S. Gu\'erin, H.R. Jauslin(参考訳) 光子は電磁場の基本的な量子励起である。 量子化は通常、固有モードの拡張に基づいて、平面波の形で構築される。 基底を形成するため、他の電磁配置は線形結合によって構成することができる。 本発表では、ボソニックフォック空間の一般形式に構築された定式化について論じ、任意の形状の局所パルス上で量子励起を直接構成することができる。 2つの定式化は本質的に同値であるが、パルスの項による直接定式化には概念的かつ実用的な利点がある。 1つ目は、ビームスプリッターを通る1つの光子パルスの通過である。 フォック空間のパルスによるこの定式化の分析は、文献でよく見られるように、「未使用港を通過する真空変動」を導入する必要はないことを示している。 もう一つの例は、Hong-Ou-Mandel効果である。 これは、フォック空間のシュリンガー表現において時間依存過程として記述される。 この分析は、香港・奥羽・マンデル効果の2つの必須成分が、光子のパルスとボゾンの性質の同じ形状であることを示す。 この定式化は、線形量子光学デバイスを含むすべての現象を、対応する古典的なマクスウェル方程式のパルスに対する時間依存解に基づいて記述し、計算できることを示し、そこからフォック空間における量子力学を即座に構築できる。

Photons are the elementary quantum excitations of the electromagnetic field. Quantization is usually constructed on the basis of an expansion in eigenmodes, in the form of plane waves. Since they form a basis, other electromagnetic configurations can be constructed by linear combinations. In this presentation we discuss a formulation constructed in the general formalism of bosonic Fock space, in which the quantum excitation can be constructed directly on localized pulses of arbitrary shape. Although the two formulations are essentially equivalent, the direct formulation in terms of pulses has some conceptual and practical advantages, which we illustrate with some examples. The first one is the passage of a single photon pulse through a beam splitter. The analysis of this formulation in terms of pulses in Fock space shows that there is no need to introduce "vacuum fluctuations entering through the unused port", as is often done in the literature. Another example is the Hong-Ou-Mandel effect. It is described as a time dependent process in the Schr\"odinger representation in Fock space. The analysis shows explicitly how the two essential ingredients of the Hong-Ou-Mandel effect are the same shape of the pulses and the bosonic nature of photons. This formulation shows that all the phenomena involving linear quantum optical devices can be described and calculated on the basis of the time dependent solution of the corresponding classical Maxwell's equations for pulses, from which the quantum dynamics in Fock space can be immediately constructed.
翻訳日:2023-01-09 16:36:26 公開日:2022-12-06
# ポリトープスライスからの新しいベル不等式

New Bell inequalities from polytope slices ( http://arxiv.org/abs/2212.03212v1 )

ライセンス: Link先を確認
Jos\'e Jesus and Emmanuel Zambrini Cruzeiro(参考訳) 我々は様々なシナリオで新しい密接な二部ベル不等式を導出する。 アリスとボブの2部構成のベルシナリオ(X,Y,A,B)はそれぞれ、パーティーごとの設定数と結果、X,A,Y,Bによって定義される。 局所ポリトープ (6,3,2,2), (3,3,3,2), (3,2,3,3), (2,2,3,5) の完全集合を導出する。 2,2,4,4), (3,3,4,2) および (4,3,3,2) に対するファセットの広範なリストを提供する。 各不等式について、量子違反の最大値、ノイズに対する抵抗値、およびqubits、qutrits、ququartsの検出ループホールを閉じるために必要な最小対称検出効率を計算する。 これらの結果から,CHSHと比較して可視性,耐雑音性,あるいはその両方において良好な性能を示すシナリオを特定する。 このようなシナリオは量子通信において重要な応用を見出すことができる。

We derive new tight bipartite Bell inequalities for various scenarios. A bipartite Bell scenario (X,Y,A,B) is defined by the numbers of settings and outcomes per party, X, A and Y, B for Alice and Bob, respectively. We derive the complete set of facets of the local polytopes of (6,3,2,2), (3,3,3,2), (3,2,3,3), and (2,2,3,5). We provide extensive lists of facets for (2,2,4,4), (3,3,4,2) and (4,3,3,2). For each inequality we compute the maximum quantum violation, the resistance to noise, and the minimal symmetric detection efficiency required to close the detection loophole, for qubits, qutrits and ququarts. Based on these results, we identify scenarios which perform better in terms of visibility, resistance to noise, or both, when compared to CHSH. Such scenarios could find important applications in quantum communication.
翻訳日:2023-01-09 16:36:02 公開日:2022-12-06
# 表面符号の復号化のための一般化された信念伝播アルゴリズム

Generalized Belief Propagation Algorithms for Decoding of Surface Codes ( http://arxiv.org/abs/2212.03214v1 )

ライセンス: Link先を確認
Josias Old and Manuel Rispler(参考訳) BP(Belief propagation)は、量子誤り訂正符号の重要なクラス、例えばランダム拡張符号の量子低密度パリティチェック(LDPC)符号クラスに対して高い性能を持つ低複雑性復号アルゴリズムとしてよく知られている。 しかし、表面コードのようなトポロジカルなコードに直面するとbpの性能が低下し、naive bpは完全に弱体化しない、すなわちエラー訂正が有用になるような状態に達することが知られている。 以前の研究では、BPのフレームワーク外のデコーダを後処理することで、これを修復できることが示されている。 そこで本研究では,外部再初期化ループを用いた一般化された信念伝播法を提案する。表面符号の復号化,すなわちnaive bpとは対照的に,表面符号に合わせたデコーダや統計機械マッピングから既知のサブスレッショルドレジームを回復する。 本研究では,非BPポストプロセッシング法で達成した閾値と同等の17%の閾値(20.6%の理想的な閾値)と,非BPポストプロセッシング法で得られた閾値(18.9%の理想しきい値)の14%の閾値を報告した。

Belief propagation (BP) is well-known as a low complexity decoding algorithm with a strong performance for important classes of quantum error correcting codes, e.g. notably for the quantum low-density parity check (LDPC) code class of random expander codes. However, it is also well-known that the performance of BP breaks down when facing topological codes such as the surface code, where naive BP fails entirely to reach a below-threshold regime, i.e. the regime where error correction becomes useful. Previous works have shown, that this can be remedied by resorting to post-processing decoders outside the framework of BP. In this work, we present a generalized belief propagation method with an outer re-initialization loop that successfully decodes surface codes, i.e. opposed to naive BP it recovers the sub-threshold regime known from decoders tailored to the surface code and from statistical-mechanical mappings. We report a threshold of 17% under independent bit-and phase-flip data noise (to be compared to the ideal threshold of 20.6%) and a threshold value of 14% under depolarizing data noise (compared to the ideal threshold of 18.9%), which are on par with thresholds achieved by non-BP post-processing methods.
翻訳日:2023-01-09 16:35:45 公開日:2022-12-06
# エネルギー時間エンタングルメントを用いた242km部分配置ファイバの高次元量子鍵分布

High-dimensional quantum key distribution using energy-time entanglement over 242 km partially deployed fiber ( http://arxiv.org/abs/2212.02695v1 )

ライセンス: Link先を確認
Jingyuan Liu, Zhihao Lin, Dongning Liu, Xue Feng, Fang Liu, Kaiyu Cui, Yidong Huang, Wei Zhang(参考訳) エンタングルメントベースの量子鍵分布(QKD)は、ソース非依存のセキュリティの性質と大規模量子通信ネットワークを構築する可能性から、量子通信において重要な要素である。 しかし、長距離光ファイバーリンク上での絡み合いに基づくQKDの実装は、特に展開ファイバ上ではまだ難しい。 本研究では,242kmの光ファイバー(19kmの光ファイバーを含む)を伝送するエネルギー時間交絡光子対を用いた実験QKDについて報告する。 2つの非正方形基底における94.1$\pm$1.9%と%92.4$\pm$5.4%の生のフリンジビジビビティとのフランソン型干渉により、高品質の絡み合い分布が検証される。 QKDは分散光学QKDのプロトコルによって実現される。 高次元符号化を適用して、より効率的に一致数を利用する。 信頼性が高く正確な時間同期技術を用いることで、アクティブな分極や位相校正がなくても7日間以上連続して動作する。 最終的に、漸近的かつ有限サイズのレジームにおいて、セキュアキーレート0.22 bpsと0.06 bpsのセキュアキーを生成する。 このシステムは既存の通信インフラと互換性があり、将来の大規模量子通信ネットワークの実現に大きな可能性を秘めている。

Entanglement-based quantum key distribution (QKD) is an essential ingredient in quantum communication, owing to the property of source-independent security and the potential on constructing large-scale quantum communication networks. However, implementation of entanglement-based QKD over long-distance optical fiber links is still challenging, especially over deployed fibers. In this work, we report an experimental QKD using energy-time entangled photon pairs that transmit over optical fibers of 242 km (including a section of 19 km deployed fibers). High-quality entanglement distribution is verified by Franson-type interference with raw fringe visibilities of 94.1$\pm$1.9% and %92.4$\pm$5.4% in two non-orthogonal bases. The QKD is realized through the protocol of dispersive-optics QKD. A high-dimensional encoding is applied to utilize coincidence counts more efficiently. Using reliable, high-accuracy time synchronization technology, the system operates continuously for more than 7 days, even without active polarization or phase calibration. We ultimately generate secure keys with secure key rates of 0.22 bps and 0.06 bps in asymptotic and finite-size regime,respectively. This system is compatible with existing telecommunication infrastructures, showing great potential on realizing large-scale quantum communication networks in future.
翻訳日:2023-01-09 16:27:10 公開日:2022-12-06
# フォトニックパスと偏光を用いた普遍量子状態変換のための最適化アーキテクチャ

Optimized architectures for universal quantum state transformations using photonic path and polarization ( http://arxiv.org/abs/2212.02703v1 )

ライセンス: Link先を確認
Dong-Xu Chen, Junliang Jia, Pei Zhang and Chui-Ping Yang(参考訳) 高次元量子空間における任意のロスレス変換は実装が容易な基本演算に分解することができ、高次元システムを構築する上で有効な分解アルゴリズムが重要である。 本稿では,既存の分解アルゴリズムに基づくフォトニックパスと偏光を用いた任意のユニタリ変換を効果的に実現するための2つの最適化アーキテクチャを提案する。 最初のアーキテクチャでは、必要な干渉計の数は以前の作品と比べて半分に減らされている。 第2のアーキテクチャでは、高次元のxゲートを用いて、全ての基本操作は、同じ経路でフォトニック偏光に局所的に作用する演算に移される。 このようなアーキテクチャは、偏光ベースのアプリケーションでは重要かもしれない。 どちらのアーキテクチャも対称レイアウトを維持している。 本研究は,高次元変換の光学的実装を促進するとともに,高次元量子計算や量子通信にも応用できる可能性がある。

An arbitrary lossless transformation in high-dimensional quantum space can be decomposed into elementary operations which are easy to implement, and an effective decomposition algorithm is important for constructing high-dimensional systems. Here, we present two optimized architectures to effectively realize an arbitrary unitary transformation by using the photonic path and polarization based on the existing decomposition algorithm. In the first architecture, the number of required interferometers is reduced by half compared with previous works. In the second architecture, by using the high-dimensional X gate, all the elementary operations are transferred to the operations which act locally on the photonic polarization in the same path. Such an architecture could be of significance in polarization-based applications. Both architectures maintain the symmetric layout. Our work facilitates the optical implementation of high-dimensional transformations and could have potential applications in high-dimensional quantum computation and quantum communication.
翻訳日:2023-01-09 16:26:45 公開日:2022-12-06
# ディスプレイ広告における予算制約を伴う適応型リスクアウェア入札

Adaptive Risk-Aware Bidding with Budget Constraint in Display Advertising ( http://arxiv.org/abs/2212.12533v1 )

ライセンス: Link先を確認
Zhimeng Jiang, Kaixiong Zhou, Mi Zhang, Rui Chen, Xia Hu, Soo-Hyun Choi(参考訳) リアルタイム入札(RTB)はディスプレイ広告の主要なパラダイムとなっている。 ユーザ訪問から生成された各広告インプレッションをリアルタイムでオークションし、デマンド側プラットフォーム(DSP)は、通常広告インプレッション値推定と最適な入札価格決定に依存する自動入札価格を提供する。 しかし、現在の入札戦略は、ユーザ行動(例えばクリック)とオークション競争によるコストの不確実性の大きなランダム性を見落としている。 本研究では,推定広告インプレッション値の不確実性を明示的に考慮し,逐次決定プロセスを通じて,特定の状況や市場環境下でのdspのリスク嗜好をモデル化する。 具体的には、予測の不確実性とDSPの動的リスク傾向を同時に検討した最初の手法である強化学習による予算制約付き適応型リスク認識入札アルゴリズムを提案する。 リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の関係を理論的に明らかにする。 そこで本研究では,3つの本質的特徴を包含する専門知識に基づく定式化と,自己指導型強化学習に基づく適応学習方法を含む,モデルリスク傾向に対する2つのインスタンス化を提案する。 我々は,公開データセットに関する広範な実験を行い,提案手法が実運用環境での最先端手法よりも優れていることを示す。

Real-time bidding (RTB) has become a major paradigm of display advertising. Each ad impression generated from a user visit is auctioned in real time, where demand-side platform (DSP) automatically provides bid price usually relying on the ad impression value estimation and the optimal bid price determination. However, the current bid strategy overlooks large randomness of the user behaviors (e.g., click) and the cost uncertainty caused by the auction competition. In this work, we explicitly factor in the uncertainty of estimated ad impression values and model the risk preference of a DSP under a specific state and market environment via a sequential decision process. Specifically, we propose a novel adaptive risk-aware bidding algorithm with budget constraint via reinforcement learning, which is the first to simultaneously consider estimation uncertainty and the dynamic risk tendency of a DSP. We theoretically unveil the intrinsic relation between the uncertainty and the risk tendency based on value at risk (VaR). Consequently, we propose two instantiations to model risk tendency, including an expert knowledge-based formulation embracing three essential properties and an adaptive learning method based on self-supervised reinforcement learning. We conduct extensive experiments on public datasets and show that the proposed framework outperforms state-of-the-art methods in practical settings.
翻訳日:2023-01-01 14:24:28 公開日:2022-12-06
# 推薦システムの公平性向上のためのパレートペアワイズランキング

Pareto Pairwise Ranking for Fairness Enhancement of Recommender Systems ( http://arxiv.org/abs/2212.10459v1 )

ライセンス: Link先を確認
Hao Wang(参考訳) ランクへの学習は、2010年頃に導入されて以来、効果的な推奨アプローチである。 Bayesian Personalized Ranking や Collaborative Less is More Filtering といった有名なアルゴリズムは、学術と産業の両方に大きな影響を与えている。 しかしながら、ランク付けアプローチを学ぶほとんどの方法は、auc、mr、ndcgといった技術精度の指標の改善に焦点を当てている。 フェアネスのようなレコメンダシステムの他の評価指標は、近年までほとんど見過ごされてきた。 本稿では,pareto pairwise rankingと呼ばれる新しいランク付けアルゴリズムを提案する。 我々はベイジアンパーソナライズされたランク付けと権力法分布の考え方に着想を得た。 技術的精度の指標から評価すると,本アルゴリズムは他のアルゴリズムと競合することを示す。 さらに重要なことは、我々の実験セクションでは、Pareto Pairwise Rankingが、他の9つの現代アルゴリズムと比較して最も公正なアルゴリズムであることを実証している。

Learning to rank is an effective recommendation approach since its introduction around 2010. Famous algorithms such as Bayesian Personalized Ranking and Collaborative Less is More Filtering have left deep impact in both academia and industry. However, most learning to rank approaches focus on improving technical accuracy metrics such as AUC, MRR and NDCG. Other evaluation metrics of recommender systems like fairness have been largely overlooked until in recent years. In this paper, we propose a new learning to rank algorithm named Pareto Pairwise Ranking. We are inspired by the idea of Bayesian Personalized Ranking and power law distribution. We show that our algorithm is competitive with other algorithms when evaluated on technical accuracy metrics. What is more important, in our experiment section we demonstrate that Pareto Pairwise Ranking is the most fair algorithm in comparison with 9 other contemporary algorithms.
翻訳日:2022-12-25 03:10:56 公開日:2022-12-06
# poissonmat: poisson分布を用いた行列分解のリモデリングと入力データ無しでコールドスタート問題を解決する

PoissonMat: Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data ( http://arxiv.org/abs/2212.10460v1 )

ライセンス: Link先を確認
Hao Wang(参考訳) matrix factorizationは、過去10年間で最も成功したレコメンデーションシステムテクニックの1つだ。 しかし、行列分解の古典的確率論フレームワークは正規分布を用いてモデル化される。 より良い確率モデルを見つけるために、RandMat、ZeroMat、DotMatといったアルゴリズムが近年発明されている。 本稿では,レコメンダシステムにおけるユーザの評価行動をpoissonプロセスとしてモデル化し,レコメンデーション問題とコールドスタート問題を同時に解決するための入力データに依存しないアルゴリズムを設計する。 本稿では,行列分解,ランダム配置,Zipf配置,ZeroMat,DotMatなどと比較してアルゴリズムの優位性を証明した。

Matrix Factorization is one of the most successful recommender system techniques over the past decade. However, the classic probabilistic theory framework for matrix factorization is modeled using normal distributions. To find better probabilistic models, algorithms such as RankMat, ZeroMat and DotMat have been invented in recent years. In this paper, we model the user rating behavior in recommender system as a Poisson process, and design an algorithm that relies on no input data to solve the recommendation problem and the cold start issue at the same time. We prove the superiority of our algorithm in comparison with matrix factorization, random placement, Zipf placement, ZeroMat, DotMat, etc.
翻訳日:2022-12-25 03:10:43 公開日:2022-12-06
# アンサンブル学習のためのboosttreeとboostforest

BoostTree and BoostForest for Ensemble Learning ( http://arxiv.org/abs/2003.09737v3 )

ライセンス: Link先を確認
Changming Zhao, Dongrui Wu, Jian Huang, Ye Yuan, Hai-Tao Zhang, Ruimin Peng, Zhenhua Shi(参考訳) Bootstrap aggregating (Bagging) と boosting の2つの一般的なアンサンブル学習アプローチは、複数のベース学習者を組み合わせて、より正確で信頼性の高いパフォーマンスのための複合モデルを生成する。 生物学、工学、医療などにおいて広く使われている。 本稿では,BoostTreeをベースラーナーとして使用したアンサンブル学習手法であるBoostForestを提案する。 boosttreeは勾配ブースティングによってツリーモデルを構築する。 ノード分割時にカットポイントをランダムに描画することで、ランダム性(多様性)を高める。 BoostForestは、異なるBoostTreesを構築する際のトレーニングデータをブートストラップすることで、さらにランダム性を高める。 BoostForestは一般的に、35の分類と回帰データセットで4つの古典的なアンサンブル学習アプローチ(Random Forest、Extra-Trees、XGBoost、LightGBM)を上回りました。 注目すべきは、BoostForestはパラメータプールからランダムにサンプリングすることでパラメータを調整し、簡単に指定できる。

Bootstrap aggregating (Bagging) and boosting are two popular ensemble learning approaches, which combine multiple base learners to generate a composite model for more accurate and more reliable performance. They have been widely used in biology, engineering, healthcare, etc. This paper proposes BoostForest, which is an ensemble learning approach using BoostTree as base learners and can be used for both classification and regression. BoostTree constructs a tree model by gradient boosting. It increases the randomness (diversity) by drawing the cut-points randomly at node splitting. BoostForest further increases the randomness by bootstrapping the training data in constructing different BoostTrees. BoostForest generally outperformed four classical ensemble learning approaches (Random Forest, Extra-Trees, XGBoost and LightGBM) on 35 classification and regression datasets. Remarkably, BoostForest tunes its parameters by simply sampling them randomly from a parameter pool, which can be easily specified, and its ensemble learning framework can also be used to combine many other base learners.
翻訳日:2022-12-21 12:41:33 公開日:2022-12-06
# 普遍近似保証の拡張:実世界の学習課題の連続性に関する理論的正当化

Extending Universal Approximation Guarantees: A Theoretical Justification for the Continuity of Real-World Learning Tasks ( http://arxiv.org/abs/2212.07934v1 )

ライセンス: Link先を確認
Naveen Durvasula(参考訳) 普遍近似定理は、ニューラルネットワーク関数近似子の様々なクラスの密度を $c(k, \mathbb{r}^m)$ で定め、ここで $k \subset \mathbb{r}^n$ はコンパクトである。 本稿では,これらの保証を継続性を保証する学習課題の条件を確立することによって拡張することを目的とする。 条件付き期待値$x \mapsto \mathrm{E}\left[Y \mid X = x\right]$で与えられる学習タスクについて検討する。 因数化 $l = t \circ w$ において、$t$ はランダム入力 $w$ に作用する決定論的写像と見なされるデータ生成プロセスにおいて、実際の \textit{any} 派生学習タスク $x \mapsto \mathrm{e}\left[f \circ l \mid x = x\right]$ の連続性を保証する条件($t$ 単独で容易に検証できる)を確立する。 ランダム化された安定マッチングの例を用いて、我々の条件のリアリズムを動機付け、現実の学習タスクの連続性の理論的正当化を提供する。

Universal Approximation Theorems establish the density of various classes of neural network function approximators in $C(K, \mathbb{R}^m)$, where $K \subset \mathbb{R}^n$ is compact. In this paper, we aim to extend these guarantees by establishing conditions on learning tasks that guarantee their continuity. We consider learning tasks given by conditional expectations $x \mapsto \mathrm{E}\left[Y \mid X = x\right]$, where the learning target $Y = f \circ L$ is a potentially pathological transformation of some underlying data-generating process $L$. Under a factorization $L = T \circ W$ for the data-generating process where $T$ is thought of as a deterministic map acting on some random input $W$, we establish conditions (that might be easily verified using knowledge of $T$ alone) that guarantee the continuity of practically \textit{any} derived learning task $x \mapsto \mathrm{E}\left[f \circ L \mid X = x\right]$. We motivate the realism of our conditions using the example of randomized stable matching, thus providing a theoretical justification for the continuity of real-world learning tasks.
翻訳日:2022-12-18 18:51:26 公開日:2022-12-06
# インサイダー取引検出における機械学習による意思決定支援

A machine learning approach to support decision in insider trading detection ( http://arxiv.org/abs/2212.05912v1 )

ライセンス: Link先を確認
Piero Mazzarisi, Adele Ravagnani, Paola Deriu, Fabrizio Lillo, Francesca Medda, Antonio Russo(参考訳) 投資家のトレーディング活動のデータから市場の悪用活動を特定することは、データ量と低信号対ノイズ比の両方において非常に困難である。 本稿では、市場監視を支援するための2つの補完的教師なし機械学習手法を提案する。 1つ目は、買収入札のような価格に敏感なイベントの近傍で、自身の過去の取引履歴や仲間の現在の取引活動に関する投資家の取引活動の不連続を特定するためにクラスタリングを使用する。 第2の非監督的アプローチは、価格センシティブなイベントに対して、潜在的インサイダーリング(すなわち、価格センシティブなイベントの前の期間に、強い方向性のトレーダーが報酬のポジションで強力な取引を行うグループ)を指し示す(小さな)投資家のグループを特定することを目的としている。 ケーススタディとして、当社の手法を、買収入札に関するイタリアの株式の解決されたデータに応用する。

Identifying market abuse activity from data on investors' trading activity is very challenging both for the data volume and for the low signal to noise ratio. Here we propose two complementary unsupervised machine learning methods to support market surveillance aimed at identifying potential insider trading activities. The first one uses clustering to identify, in the vicinity of a price sensitive event such as a takeover bid, discontinuities in the trading activity of an investor with respect to his/her own past trading history and on the present trading activity of his/her peers. The second unsupervised approach aims at identifying (small) groups of investors that act coherently around price sensitive events, pointing to potential insider rings, i.e. a group of synchronised traders displaying strong directional trading in rewarding position in a period before the price sensitive event. As a case study, we apply our methods to investor resolved data of Italian stocks around takeover bids.
翻訳日:2022-12-18 18:49:37 公開日:2022-12-06
# qualiaの目的は:もし人間の思考が(単に)情報処理ではないとしたら?

The purpose of qualia: What if human thinking is not (only) information processing? ( http://arxiv.org/abs/2212.00800v2 )

ライセンス: Link先を確認
Martin Korth(参考訳) 最近の人工知能(ai)分野のブレークスルー、具体的には、オブジェクト認識と自然言語処理のための機械学習(ml)アルゴリズムにもかかわらず、現在のaiアプローチは依然として自然知能(ni)に当てはまらないという見解が有力である。 More importantly, philosophers have collected a long catalogue of features which imply that NI works differently from current AI not only in a gradual sense, but in a more substantial way: NI is closely related to consciousness, intentionality and experiential features like qualia (the subjective contents of mental states) and allows for understanding (e.g., taking insight into causal relationships instead of 'blindly' relying on correlations), as well as aesthetical and ethical judgement beyond what we can put into (explicit or data-induced implicit) rules to program machines with. さらに心理学者は、niは無意識の心理的プロセスから集中した情報処理、具体化や暗黙の認知から「真の」機関や創造性まで幅広いものを見出している。 このようにniは、データの意味での情報ではなく「意味のビット」で操作することで、神経生物学的機能主義を超越しているように見えるが、過去の「古き良き」、象徴的なai、そして現在のディープニューラルネットワークに基づく「サブシンボリック」aiの波とは全く異なる。 以下では、情報処理+「束押し」としてのniの代替的視点を提案し、バンドルプッシュが情報処理を短く削減できることを示す例を示し、神経生物学および情報理論における科学的実験の最初のアイデアを更なる研究として提案する。

Despite recent breakthroughs in the field of artificial intelligence (AI) - or more specifically machine learning (ML) algorithms for object recognition and natural language processing - it seems to be the majority view that current AI approaches are still no real match for natural intelligence (NI). More importantly, philosophers have collected a long catalogue of features which imply that NI works differently from current AI not only in a gradual sense, but in a more substantial way: NI is closely related to consciousness, intentionality and experiential features like qualia (the subjective contents of mental states) and allows for understanding (e.g., taking insight into causal relationships instead of 'blindly' relying on correlations), as well as aesthetical and ethical judgement beyond what we can put into (explicit or data-induced implicit) rules to program machines with. Additionally, Psychologists find NI to range from unconscious psychological processes to focused information processing, and from embodied and implicit cognition to 'true' agency and creativity. NI thus seems to transcend any neurobiological functionalism by operating on 'bits of meaning' instead of information in the sense of data, quite unlike both the 'good old fashioned', symbolic AI of the past, as well as the current wave of deep neural network based, 'sub-symbolic' AI, which both share the idea of thinking as (only) information processing. In the following I propose an alternative view of NI as information processing plus 'bundle pushing', discuss an example which illustrates how bundle pushing can cut information processing short, and suggest first ideas for scientific experiments in neuro-biology and information theory as further investigations.
翻訳日:2022-12-11 13:00:28 公開日:2022-12-06
# gps++:分子特性予測のための最適化ハイブリッドmpnn/transformer

GPS++: An Optimised Hybrid MPNN/Transformer for Molecular Property Prediction ( http://arxiv.org/abs/2212.02229v2 )

ライセンス: Link先を確認
Dominic Masters, Josef Dean, Kerstin Klaser, Zhiyi Li, Sam Maddrell-Mander, Adam Sanders, Hatem Helal, Deniz Beker, Ladislav Ramp\'a\v{s}ek and Dominique Beaini(参考訳) この技術レポートは、PCQM4Mv2分子特性予測タスクのためのOpen Graph Benchmark Large-Scale Challenge (OGB-LSC 2022)の第一位ソリューションであるGPS++を提示する。 我々のアプローチは、以前の文献からいくつかの重要な原則を実装している。 コアとなるGPS++手法は,3次元原子位置と補助的復調タスクを組み込んだMPNN/Transformerハイブリッドモデルである。 GPS++の有効性は、独立したテストチャンジPCQM4Mv2分割に対して0.0719平均絶対誤差を達成することで実証される。 Graphcore IPUアクセラレーションのおかげで、GPS++は深層アーキテクチャ(16層)、エポック毎のトレーニング3分、大規模なアンサンブル(112モデル)までスケールし、最終的な予測は1時間32分で完了する。 実装はhttps://github.com/graphcore/ogb-lsc-pcqm4mv2で公開しています。

This technical report presents GPS++, the first-place solution to the Open Graph Benchmark Large-Scale Challenge (OGB-LSC 2022) for the PCQM4Mv2 molecular property prediction task. Our approach implements several key principles from the prior literature. At its core our GPS++ method is a hybrid MPNN/Transformer model that incorporates 3D atom positions and an auxiliary denoising task. The effectiveness of GPS++ is demonstrated by achieving 0.0719 mean absolute error on the independent test-challenge PCQM4Mv2 split. Thanks to Graphcore IPU acceleration, GPS++ scales to deep architectures (16 layers), training at 3 minutes per epoch, and large ensemble (112 models), completing the final predictions in 1 hour 32 minutes, well under the 4 hour inference budget allocated. Our implementation is publicly available at: https://github.com/graphcore/ogb-lsc-pcqm4mv2.
翻訳日:2022-12-11 12:59:59 公開日:2022-12-06
# GAUCHE:ガウス化学プロセスのための図書館

GAUCHE: A Library for Gaussian Processes in Chemistry ( http://arxiv.org/abs/2212.04450v1 )

ライセンス: Link先を確認
Ryan-Rhys Griffiths and Leo Klarner and Henry B. Moss and Aditya Ravuri and Sang Truong and Bojana Rankovic and Yuanqi Du and Arian Jamasb and Julius Schwartz and Austin Tripp and Gregory Kell and Anthony Bourached and Alex Chan and Jacob Moss and Chengzhi Guo and Alpha A. Lee and Philippe Schwaller and Jian Tang(参考訳) 本稿では,CHEmistryにおけるGAUssianプロセスのライブラリであるGAUCHEを紹介する。 ガウス過程は確率論的機械学習の基盤であり、不確実な定量化とベイズ最適化に特に利点がある。 しかし、ガウス過程を化学表現に拡張することは非自明であり、グラフ、文字列、ビットベクトルといった構造化入力上で定義される核を必要とする。 このようなカーネルをGAUCHEで定義することにより、不確実な定量化とベイズ最適化のための強力なツールへの扉を開くことを目指す。 実験化学において頻繁に発生するシナリオによって動機付けられ,分子発見および化学反応最適化におけるGAUCHEの応用を示す。 コードベースはhttps://github.com/leojklarner/gaucheで利用可能である。

We introduce GAUCHE, a library for GAUssian processes in CHEmistry. Gaussian processes have long been a cornerstone of probabilistic machine learning, affording particular advantages for uncertainty quantification and Bayesian optimisation. Extending Gaussian processes to chemical representations, however, is nontrivial, necessitating kernels defined over structured inputs such as graphs, strings and bit vectors. By defining such kernels in GAUCHE, we seek to open the door to powerful tools for uncertainty quantification and Bayesian optimisation in chemistry. Motivated by scenarios frequently encountered in experimental chemistry, we showcase applications for GAUCHE in molecular discovery and chemical reaction optimisation. The codebase is made available at https://github.com/leojklarner/gauche
翻訳日:2022-12-09 16:50:51 公開日:2022-12-06
# 変分オートエンコーダの3変分

Three Variations on Variational Autoencoders ( http://arxiv.org/abs/2212.04451v1 )

ライセンス: Link先を確認
R. I. Cukier(参考訳) 変分オートエンコーダ(VAEs)は、既知のデータに基づく推論のために設計された生成確率潜在変数モデルの一種である。 本稿では,2番目のパラメータ化エンコーダ/デコーダペアと1つの変分に対して固定エンコーダを導入することで,VAEの3つのバリエーションを開発する。 エンコーダ/デコーダのパラメータはニューラルネットワークで学習する必要がある。 固定エンコーダは確率PCAにより得られる。 これらのバリエーションは、元のvaeに対するエビデンス下限(elbo)近似と比較される。 1つのバリエーションはエビデンス・アッパー・バウンド(EUBO)につながり、元のELBOと組み合わせてVAEの収束を疑うことができる。

Variational autoencoders (VAEs) are one class of generative probabilistic latent-variable models designed for inference based on known data. We develop three variations on VAEs by introducing a second parameterized encoder/decoder pair and, for one variation, an additional fixed encoder. The parameters of the encoders/decoders are to be learned with a neural network. The fixed encoder is obtained by probabilistic-PCA. The variations are compared to the Evidence Lower Bound (ELBO) approximation to the original VAE. One variation leads to an Evidence Upper Bound (EUBO) that can be used in conjunction with the original ELBO to interrogate the convergence of the VAE.
翻訳日:2022-12-09 16:09:04 公開日:2022-12-06
# 大規模弱監視によるロバスト音声認識

Robust Speech Recognition via Large-Scale Weak Supervision ( http://arxiv.org/abs/2212.04356v1 )

ライセンス: Link先を確認
Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever(参考訳) インターネット上の大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。 マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果のモデルは標準ベンチマークによく当てはまり、以前の完全に監督された結果と競合することが多いが、微調整を必要とせずにゼロショット転送設定になる。 人間と比較すると、モデルは正確性と堅牢性に近づきます。 我々は、ロバストな音声処理に関するさらなる作業の基盤となるモデルと推論コードをリリースします。

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.
翻訳日:2022-12-09 15:07:12 公開日:2022-12-06
# ファジィ量子化に基づくファジィ粗集合

Fuzzy Rough Sets Based on Fuzzy Quantification ( http://arxiv.org/abs/2212.04327v1 )

ライセンス: Link先を確認
Adnan Theerens and Chris Cornelis(参考訳) 古典的(ファジィな)粗集合の弱点の1つはノイズに対する感度であり、特に機械学習アプリケーションには望ましくない。 この問題を解決する1つのアプローチは、あいまいに定量化されたファジィ粗集合(VQFRS)モデルによってなされるファジィ量化器を利用することである。 このアイデアは直感的であるが、VQFRSモデルは理論上の欠陥とアプリケーションにおける準最適性能の両方に悩まされている。 本稿では、ファジィ量子化モデルを用いたファジィ粗集合の直感的な一般化であるファジィ量子化器に基づくファジィ粗集合(FQFRS)を導入することにより、VQFRSの改善を行う。 既存のモデルがこの一般化にどのように適合するか、また新しいモデルにどのように影響するかを示す。 いくつかのバイナリ量子化モデルがFQFRSで使用されることが提案されている。 我々は,それらの性質を理論的に研究し,分類問題に適用してその可能性について検討する。 特に,vqfrsの大幅な改善であるファジィ粗集合モデルと,一般的な順序重み付き平均型ファジィ粗集合(owafrs)モデルとの競合であるファジィ粗集合モデル(ファジィ粗集合モデル)を誘導するyagerの重み付き含意ベース(ywi)二元量子化モデルに注目した。

One of the weaknesses of classical (fuzzy) rough sets is their sensitivity to noise, which is particularly undesirable for machine learning applications. One approach to solve this issue is by making use of fuzzy quantifiers, as done by the vaguely quantified fuzzy rough set (VQFRS) model. While this idea is intuitive, the VQFRS model suffers from both theoretical flaws as well as from suboptimal performance in applications. In this paper, we improve on VQFRS by introducing fuzzy quantifier-based fuzzy rough sets (FQFRS), an intuitive generalization of fuzzy rough sets that makes use of general unary and binary quantification models. We show how several existing models fit in this generalization as well as how it inspires novel ones. Several binary quantification models are proposed to be used with FQFRS. We conduct a theoretical study of their properties, and investigate their potential by applying them to classification problems. In particular, we highlight Yager's Weighted Implication-based (YWI) binary quantification model, which induces a fuzzy rough set model that is both a significant improvement on VQFRS, as well as a worthy competitor to the popular ordered weighted averaging based fuzzy rough set (OWAFRS) model.
翻訳日:2022-12-09 14:58:56 公開日:2022-12-06
# 可変決定周波数オプション批判

Variable-Decision Frequency Option Critic ( http://arxiv.org/abs/2212.04407v1 )

ライセンス: Link先を確認
Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin Jagersand and Samuele Tosatto(参考訳) 古典的な強化学習アルゴリズムでは、エージェントは離散時間と固定時間間隔で決定する。 1つの決定と次の決定の間の物理的持続時間は臨界ハイパーパラメータとなる。 この期間が短すぎると、エージェントはその目標を達成するために多くの決断をし、問題の難しさを増す必要がある。 しかし、この期間が長すぎると、エージェントはシステムを制御することができない。 しかし、物理系は一定の制御周波数を必要としない。 学習エージェントは、可能であれば低周波、必要ならば高周波で操作することが望ましい。 提案するフレームワークはCTCO(Continuous-Time Continuous-Options)で,エージェントがオプションを可変期間のサブポリケーションとして選択する。 このようなオプションは時間連続であり、アクションのスムーズな変更を提供する任意の所望の頻度でシステムと対話することができる。 経験的分析により,我々のアルゴリズムは古典的オプション学習や行動反復といった時間短縮技術と競合し,決定頻度の難しい選択を実質的に克服していることが示された。

In classic reinforcement learning algorithms, agents make decisions at discrete and fixed time intervals. The physical duration between one decision and the next becomes a critical hyperparameter. When this duration is too short, the agent needs to make many decisions to achieve its goal, aggravating the problem's difficulty. But when this duration is too long, the agent becomes incapable of controlling the system. Physical systems, however, do not need a constant control frequency. For learning agents, it is desirable to operate with low frequency when possible and high frequency when necessary. We propose a framework called Continuous-Time Continuous-Options (CTCO), where the agent chooses options as sub-policies of variable durations. Such options are time-continuous and can interact with the system at any desired frequency providing a smooth change of actions. The empirical analysis shows that our algorithm is competitive w.r.t. other time-abstraction techniques, such as classic option learning and action repetition, and practically overcomes the difficult choice of the decision frequency.
翻訳日:2022-12-09 14:58:29 公開日:2022-12-06
# veriFIRE: 産業用学習型山火事検知システム検証

veriFIRE: Verifying an Industrial, Learning-Based Wildfire Detection System ( http://arxiv.org/abs/2212.03287v1 )

ライセンス: Link先を確認
Guy Amir, Ziv Freund, Guy Katz, Elad Mandelbaum, Idan Refaeli(参考訳) 本稿では,産業とアカデミアのコラボレーションであるverifireプロジェクトについて,実世界の安全クリティカルシステムの信頼性向上のための検証を目標とした,現在進行中の課題について述べる。 対象とするシステムは,2つのディープニューラルネットワークを組み込んだ,山火事検出のための空中プラットフォームである。 本稿では,システムとその興味特性について述べるとともに,ワイルドファイアが強度の増大を表現していても,システムの一貫性,すなわち,入力を継続し,正しく分類する能力を検証する試みについて述べる。 我々は,本研究を,学術指向の検証ツールを実世界の興味あるシステムに組み込むための一歩と考えている。

In this short paper, we present our ongoing work on the veriFIRE project -- a collaboration between industry and academia, aimed at using verification for increasing the reliability of a real-world, safety-critical system. The system we target is an airborne platform for wildfire detection, which incorporates two deep neural networks. We describe the system and its properties of interest, and discuss our attempts to verify the system's consistency, i.e., its ability to continue and correctly classify a given input, even if the wildfire it describes increases in intensity. We regard this work as a step towards the incorporation of academic-oriented verification tools into real-world systems of interest.
翻訳日:2022-12-08 17:29:09 公開日:2022-12-06
# 類似性維持型知識蒸留による低密度脳波型脳コンピューターインタフェースの強化

Enhancing Low-Density EEG-Based Brain-Computer Interfaces with Similarity-Keeping Knowledge Distillation ( http://arxiv.org/abs/2212.03329v1 )

ライセンス: Link先を確認
Xin-Yao Huang, Sung-Yu Chen, Chun-Shu Wei(参考訳) 脳電図(EEG)は、非侵襲性、低コスト、高時間分解能のため、現実世界の脳-コンピュータインターフェース(BCI)の一般的な神経モニタリング法の一つである。 近年,低密度モンタージュに基づく軽量でポータブルなEEGウェアラブルデバイスは,BCIアプリケーションの利便性とユーザビリティを高めている。 しかし,低密度脳波モンタージュの電極数減少と頭皮領域の被覆のため,脳波復号性能の低下は避けられないことが多い。 そこで本研究では,ニューラルネットワークモデル間の知識・情報伝達のための学習機構である知識蒸留(kd)を導入し,低密度脳波復号の性能を向上させる。 高密度脳波データに基づいて学習した教師モデルのように、低密度脳波学生モデルがサンプル間類似性を取得することを奨励する、新たに提案された類似性保持(SK)教師学生KDスキームを含む。 実験の結果,入力された脳波データに対して電極数が減少すると,SK-KDフレームワークは運動画像の脳波復号精度を一貫して向上することがわかった。 一般的な低密度ヘッドホンとヘッドバンドライクなモンタージュでは,脳波復号モデルアーキテクチャにおける最先端KD法よりも優れる。 脳波復号化のための最初のKDスキームとして、現実世界のアプリケーションにおける低密度脳波BCIの実現を容易にするために提案されているSK-KDフレームワークを予見する。

Electroencephalogram (EEG) has been one of the common neuromonitoring modalities for real-world brain-computer interfaces (BCIs) because of its non-invasiveness, low cost, and high temporal resolution. Recently, light-weight and portable EEG wearable devices based on low-density montages have increased the convenience and usability of BCI applications. However, loss of EEG decoding performance is often inevitable due to reduced number of electrodes and coverage of scalp regions of a low-density EEG montage. To address this issue, we introduce knowledge distillation (KD), a learning mechanism developed for transferring knowledge/information between neural network models, to enhance the performance of low-density EEG decoding. Our framework includes a newly proposed similarity-keeping (SK) teacher-student KD scheme that encourages a low-density EEG student model to acquire the inter-sample similarity as in a pre-trained teacher model trained on high-density EEG data. The experimental results validate that our SK-KD framework consistently improves motor-imagery EEG decoding accuracy when number of electrodes deceases for the input EEG data. For both common low-density headphone-like and headband-like montages, our method outperforms state-of-the-art KD methods across various EEG decoding model architectures. As the first KD scheme developed for enhancing EEG decoding, we foresee the proposed SK-KD framework to facilitate the practicality of low-density EEG-based BCI in real-world applications.
翻訳日:2022-12-08 17:28:58 公開日:2022-12-06
# 氷河氷モデルのベイズ推定への応用による多段階スタイン変分勾配降下のさらなる解析

Further analysis of multilevel Stein variational gradient descent with an application to the Bayesian inference of glacier ice models ( http://arxiv.org/abs/2212.03366v1 )

ライセンス: Link先を確認
Terrence Alsup and Tucker Hartland and Benjamin Peherstorfer and Noemi Petra(参考訳) 多レベルスタイン変分勾配降下 (multilevel stein variational gradient descent) は、目標分布の近似の階層を、様々なコストと計算速度アップに対する忠実度で活用する、粒子ベースの変分推定の手法である。 この研究は、従来の結果よりも軽度の条件で適用され、特に離散時間的状態や、指数関数的に高速な収束を達成するような限定的な条件を超えて、多レベルスタイン変分勾配勾配のコスト複雑性解析を提供する。 解析の結果、スタイン変分勾配降下の収束速度は、マルチレベルバージョンにおけるコスト複雑性の定数因子としてのみ入ることを示し、これは、スタイン変分勾配降下の収束速度とは無関係に、マルチレベルバージョンスケールのコストが1つのレベルにあることを示している。 アロラ氷河の離散基底すべり係数場を推定するベイズ逆問題による数値実験により,多レベルスタイン変分勾配勾配は,その単層版に比べて桁違いの速度アップを達成することが示された。

Multilevel Stein variational gradient descent is a method for particle-based variational inference that leverages hierarchies of approximations of target distributions with varying costs and fidelity to computationally speed up inference. This work provides a cost complexity analysis of multilevel Stein variational gradient descent that applies under milder conditions than previous results, especially in discrete-in-time regimes and beyond the limited settings where Stein variational gradient descent achieves exponentially fast convergence. The analysis shows that the convergence rate of Stein variational gradient descent enters only as a constant factor for the cost complexity of the multilevel version, which means that the costs of the multilevel version scale independently of the convergence rate of Stein variational gradient descent on a single level. Numerical experiments with Bayesian inverse problems of inferring discretized basal sliding coefficient fields of the Arolla glacier ice demonstrate that multilevel Stein variational gradient descent achieves orders of magnitude speedups compared to its single-level version.
翻訳日:2022-12-08 17:28:36 公開日:2022-12-06
# ゲートトランスを用いた無接触酸素モニタリング

Contactless Oxygen Monitoring with Gated Transformer ( http://arxiv.org/abs/2212.03357v1 )

ライセンス: Link先を確認
Hao He, Yuan Yuan, Ying-Cong Chen, Peng Cao and Dina Katabi(参考訳) 遠隔医療の普及に伴い、患者のオーバーヘッドを最小限に抑えながら、自宅で基礎的な生理的信号を正確に監視できることが重要となる。 本稿では、室内の無線信号を分析するだけで、ウェアラブル装置を使わずに、自宅での血液酸素濃度をモニタリングする非接触型アプローチを提案する。 我々は、患者の呼吸を体から反射する電波信号から抽出し、呼吸信号から患者の酸素推定を推測する新しいニューラルネットワークを考案する。 我々のモデルは「emph{Gated BERT-UNet}」と呼ばれ、患者の医療指標(例えば、性別、睡眠段階)に適応するよう設計されている。 複数の予測ヘッドを持ち、人の生理指標によって制御されるゲートを介して最も適した頭を選択する。 実験結果から, 医療用および無線用両方のデータセットにおいて, 精度の高いモデルが得られた。

With the increasing popularity of telehealth, it becomes critical to ensure that basic physiological signals can be monitored accurately at home, with minimal patient overhead. In this paper, we propose a contactless approach for monitoring patients' blood oxygen at home, simply by analyzing the radio signals in the room, without any wearable devices. We extract the patients' respiration from the radio signals that bounce off their bodies and devise a novel neural network that infers a patient's oxygen estimates from their breathing signal. Our model, called \emph{Gated BERT-UNet}, is designed to adapt to the patient's medical indices (e.g., gender, sleep stages). It has multiple predictive heads and selects the most suitable head via a gate controlled by the person's physiological indices. Extensive empirical results show that our model achieves high accuracy on both medical and radio datasets.
翻訳日:2022-12-08 17:12:00 公開日:2022-12-06
# 気候モデルエミュレーションのためのランダム有線ニューラルネットワークの検討

Exploring Randomly Wired Neural Networks for Climate Model Emulation ( http://arxiv.org/abs/2212.03369v1 )

ライセンス: Link先を確認
William Yik, Sam J. Silva, Andrew Geiss, Duncan Watson-Parris(参考訳) 様々な人為的排出シナリオの気候影響を探索することは、気候変動の緩和と適応のための情報的な決定を下す鍵となる。 最先端の地球システムモデルは、これらの影響について詳細な知見を提供することができるが、シナリオごとに計算コストが大きい。 この膨大な計算負荷は、気候モデルエミュレーションのタスクのための安価な機械学習モデルの開発に近年の関心を惹き付けている。 本稿では,この課題に対するランダム配線ニューラルネットワークの有効性について検討する。 本稿では、climatebenchデータセットを用いて、それらの構築方法を記述し、標準feedforwardと比較する。 具体的には,多層パーセプトロン,畳み込みニューラルネットワーク,畳み込み型長期記憶ネットワークの直列接続層をランダムに結合した密集層で置き換え,100万から1000万のパラメータを持つモデルにおけるモデル性能への影響を評価する。 平均的な性能改善はモデルの複雑さと予測タスクで4.2%となり、場合によっては16.4%まで向上した。 さらに,標準フィードフォワード密度層を有するネットワークとランダムな有線層を有するネットワークとの間には,予測速度に有意な差は認められない。 これらの結果は、ランダムに配線されたニューラルネットワークが、多くの標準モデルにおいて従来の高密度層を直接置き換えるのに適していることを示唆している。

Exploring the climate impacts of various anthropogenic emissions scenarios is key to making informed decisions for climate change mitigation and adaptation. State-of-the-art Earth system models can provide detailed insight into these impacts, but have a large associated computational cost on a per-scenario basis. This large computational burden has driven recent interest in developing cheap machine learning models for the task of climate model emulation. In this manuscript, we explore the efficacy of randomly wired neural networks for this task. We describe how they can be constructed and compare them to their standard feedforward counterparts using the ClimateBench dataset. Specifically, we replace the serially connected dense layers in multilayer perceptrons, convolutional neural networks, and convolutional long short-term memory networks with randomly wired dense layers and assess the impact on model performance for models with 1 million and 10 million parameters. We find average performance improvements of 4.2% across model complexities and prediction tasks, with substantial performance improvements of up to 16.4% in some cases. Furthermore, we find no significant difference in prediction speed between networks with standard feedforward dense layers and those with randomly wired layers. These findings indicate that randomly wired neural networks may be suitable direct replacements for traditional dense layers in many standard models.
翻訳日:2022-12-08 17:11:46 公開日:2022-12-06
# 多段階時系列予測のためのコプラ共形予測

Copula Conformal Prediction for Multi-step Time Series Forecasting ( http://arxiv.org/abs/2212.03281v1 )

ライセンス: Link先を確認
Sophia Sun, Rose Yu(参考訳) 正確な不確実性測定は、堅牢で信頼性の高い機械学習システムを構築するための重要なステップである。 共形予測(conformal prediction)は、実装の容易さ、統計カバレッジの保証、基盤となる予測器の汎用性で有名な分布のない不確実性定量化アルゴリズムである。 しかし、時系列に対する既存の共形予測アルゴリズムは、時間依存を考慮せずに単段予測に制限される。 本稿では,多変量・多段階時系列予測のためのCopula Conformal Predictionアルゴリズム,CopulaCPTSを提案する。 いくつかの合成および実世界の多変量時系列データセットにおいて、CopulaCPTSは既存の手法よりも多段階予測タスクに対してより校正され、鋭い信頼区間を生成することを示す。

Accurate uncertainty measurement is a key step to building robust and reliable machine learning systems. Conformal prediction is a distribution-free uncertainty quantification algorithm popular for its ease of implementation, statistical coverage guarantees, and versatility for underlying forecasters. However, existing conformal prediction algorithms for time series are limited to single-step prediction without considering the temporal dependency. In this paper we propose a Copula Conformal Prediction algorithm for multivariate, multi-step Time Series forecasting, CopulaCPTS. On several synthetic and real-world multivariate time series datasets, we show that CopulaCPTS produces more calibrated and sharp confidence intervals for multi-step prediction tasks than existing techniques.
翻訳日:2022-12-08 16:59:01 公開日:2022-12-06
# 異種雑音源を用いた無線ネットワークの同期化へのニューラルアプローチ

A neural approach to synchronization in wireless networks with heterogeneous sources of noise ( http://arxiv.org/abs/2212.03327v1 )

ライセンス: Link先を確認
Maurizio Mongelli, Stefano Scanzio(参考訳) 本稿では,同期品質に影響する要因の存在下でのクロック同期状態推定について述べる。 例えば、温度変化や遅延非対称性がある。 これらの作業条件は、無線センサネットワークやWiFiなど、多くの無線環境において、同期が困難な問題となっている。 非定常ノイズを克服するために必要な動的状態推定について検討する。 双方向メッセージ交換同期プロトコルは参照として利用されてきた。 確率環境ではa-プリオリの仮定は行われず、温度測定は行われない。 アルゴリズムは、作業条件に依存するパラメータをチューニングすることなく、オフラインで明確に指定されている。 提案手法は, 温度変動が大きい, 遅延分布が異なる, 伝送路の非対称性のレベルに頑健であることが判明した。

The paper addresses state estimation for clock synchronization in the presence of factors affecting the quality of synchronization. Examples are temperature variations and delay asymmetry. These working conditions make synchronization a challenging problem in many wireless environments, such as Wireless Sensor Networks or WiFi. Dynamic state estimation is investigated as it is essential to overcome non-stationary noises. The two-way timing message exchange synchronization protocol has been taken as a reference. No a-priori assumptions are made on the stochastic environments and no temperature measurement is executed. The algorithms are unequivocally specified offline, without the need of tuning some parameters in dependence of the working conditions. The presented approach reveals to be robust to a large set of temperature variations, different delay distributions and levels of asymmetry in the transmission path.
翻訳日:2022-12-08 16:58:48 公開日:2022-12-06
# 幾何学的深層学習を用いた教師付きトラクトグラムフィルタリング

Supervised Tractogram Filtering using Geometric Deep Learning ( http://arxiv.org/abs/2212.03300v1 )

ライセンス: Link先を確認
Pietro Astolfi, Ruben Verhagen, Laurent Petit, Emanuele Olivetti, Silvio Sarubbo, Jonathan Masci, Davide Boscaini, Paolo Avesani(参考訳) トラクトグラムは脳白質の仮想的な表現である。 数百万の仮想繊維から構成され、白色物質軸索経路を近似する3Dポリラインとしてコード化されている。 現在までに、トラクトグラムは最も正確な白黒物質表現であり、前外科的計画や神経可塑性、脳障害、脳ネットワークの調査などに用いられている。 しかし, トラクトグラム繊維の大部分は解剖学的に妥当ではなく, 追跡術の工芸品と考えられることはよく知られている。 そこでverifyberでは,完全教師付き学習手法を用いて,このような非可愛らしい繊維をフィルタリングする問題に取り組んでいる。 信号再構成や脳トポロジーの正則化に基づく他のアプローチとは異なり,既存の白質の解剖学的知識を用いて手法を指導する。 解剖学の原則に従ってアノテートされたトラクトグラムを用いて、我々のモデルであるVerifyberを訓練し、繊維を解剖学的に可塑性または非楽観的と分類する。 提案したVerifyberモデルは, 繊維配向に不変でありながら, 可変サイズの繊維を扱える幾何学的深層学習法である。 本モデルでは,各ファイバーを点のグラフと考え,提案する系列エッジ畳み込みによって連続点間のエッジの特徴を学習することで,基礎となる解剖学的性質を捉えることができる。 12GBのGPUでは、1Mファイバーのトラクグラムをフィルタリングするのに1分もかからない。 Verifyberの実装とトレーニングされたモデルはhttps://github.com/FBK-NILab/verifyber.comで入手できる。

A tractogram is a virtual representation of the brain white matter. It is composed of millions of virtual fibers, encoded as 3D polylines, which approximate the white matter axonal pathways. To date, tractograms are the most accurate white matter representation and thus are used for tasks like presurgical planning and investigations of neuroplasticity, brain disorders, or brain networks. However, it is a well-known issue that a large portion of tractogram fibers is not anatomically plausible and can be considered artifacts of the tracking procedure. With Verifyber, we tackle the problem of filtering out such non-plausible fibers using a novel fully-supervised learning approach. Differently from other approaches based on signal reconstruction and/or brain topology regularization, we guide our method with the existing anatomical knowledge of the white matter. Using tractograms annotated according to anatomical principles, we train our model, Verifyber, to classify fibers as either anatomically plausible or non-plausible. The proposed Verifyber model is an original Geometric Deep Learning method that can deal with variable size fibers, while being invariant to fiber orientation. Our model considers each fiber as a graph of points, and by learning features of the edges between consecutive points via the proposed sequence Edge Convolution, it can capture the underlying anatomical properties. The output filtering results highly accurate and robust across an extensive set of experiments, and fast; with a 12GB GPU, filtering a tractogram of 1M fibers requires less than a minute. Verifyber implementation and trained models are available at https://github.com/FBK-NILab/verifyber.
翻訳日:2022-12-08 16:50:55 公開日:2022-12-06
# 時系列における教師なし異常検出:最先端手法の広範な評価と解析

Unsupervised Anomaly Detection in Time-series: An Extensive Evaluation and Analysis of State-of-the-art Methods ( http://arxiv.org/abs/2212.03637v1 )

ライセンス: Link先を確認
Nesryne Mejri, Laura Lopez-Fuentes, Kankana Roy, Pavel Chernakov, Enjie Ghorbel and Djamila Aouada(参考訳) 時系列における教師なし異常検出は文献で広く研究されている。 多くのアプリケーション分野におけるこのトピックの関連性にもかかわらず、最近の最先端技術の完全かつ広範囲な評価はいまだに欠けている。 既存の教師なし時系列異常検出手法を厳密に比較する試みはほとんど行われていない。 しかし、通常、標準的なパフォーマンス指標、すなわち精度、リコール、f1-scoreのみが考慮される。 したがって、それらの実践的妥当性を評価するための基本的な側面は無視される。 本稿では,近年の時系列における教師なし異常検出手法の試作と詳細な評価手法を提案する。 標準的なパフォーマンス指標にのみ依存するのではなく、さらに重要なメトリクスとプロトコルが考慮される。 特に、(1)時系列に特化したより精巧なパフォーマンスメトリクス、(2)モデルサイズとモデルの安定性の研究、(3)異常タイプに関するテストされたアプローチの分析、(4)すべての実験で明確かつユニークなプロトコルが提供されている。 全体として、この広範な分析は、最先端の時系列異常検出の成熟度を評価し、現実の環境下での適用性に関する洞察を与え、コミュニティにより完全な評価プロトコルを提供することを目的としている。

Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
翻訳日:2022-12-08 16:42:16 公開日:2022-12-06
# 部分展開による拡張多目的A*

Enhanced Multi-Objective A* with Partial Expansion ( http://arxiv.org/abs/2212.03712v1 )

ライセンス: Link先を確認
Valmiki Kothare, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset(参考訳) グラフ上の多目的短経路問題(英語版)は、複数の目的を最適化しながら開始頂点から目的地頂点への経路の集合を決定する。 一般に、全ての目的を同時に最適化できる単一の解経路は存在しないので、問題はいわゆるパレート最適解の集合を見つけようとする。 この問題に対処するため、複数の多目的a*(moa*)アルゴリズムが最近開発され、品質保証付きで素早く解を計算できるようになった。 しかし、これらのMOA*アルゴリズムは、特にグラフの分岐係数(すなわち、任意の頂点の隣人の数)が大きい場合、高いメモリ使用率に悩まされることが多い。 この作業は,MOA*の高メモリ消費を,実行時にほとんど増加せずに削減することを目的としている。 本稿では,まず単一目的語から多目的語への「部分展開(partial expansion, PE)」の概念を拡張し,その上で,この新しいPE手法を最近の実行時効率的なMOA*アルゴリズムであるEMOA*と融合する。 さらに、PE-EMOA*は、ユーザが定義したハイパーパラメータをチューニングすることで、実行時とメモリ効率のバランスをとることができる。

The Multi-Objective Shortest Path Problem, typically posed on a graph, determines a set of paths from a start vertex to a destination vertex while optimizing multiple objectives. In general, there does not exist a single solution path that can simultaneously optimize all the objectives and the problem thus seeks to find a set of so-called Pareto-optimal solutions. To address this problem, several Multi-Objective A* (MOA*) algorithms were recently developed to quickly compute solutions with quality guarantees. However, these MOA* algorithms often suffer from high memory usage, especially when the branching factor (i.e., the number of neighbors of any vertex) of the graph is large. This work thus aims at reducing the high memory consumption of MOA* with little increase in the runtime. In this paper, we first extend the notion of "partial expansion" (PE) from single-objective to multi-objective and then fuse this new PE technique with EMOA*, a recent runtime efficient MOA* algorithm. Furthermore, the resulting algorithm PE-EMOA* can balance between runtime and memory efficiency by tuning a user-defined hyper-parameter.
翻訳日:2022-12-08 16:41:03 公開日:2022-12-06
# 階層型vaeによる正準因子推定による確率的形状完了

Probabilistic Shape Completion by Estimating Canonical Factors with Hierarchical VAE ( http://arxiv.org/abs/2212.03370v1 )

ライセンス: Link先を確認
Wen Jiang, Kostas Daniilidis(参考訳) そこで本研究では,点雲の部分観測から3次元形状完成法を提案する。 既存のメソッドはグローバルな潜在コードで動作し、モデルの表現性を制限するか、高い計算量を持つ局所的な特徴を自己回帰的に推定する。 代わりに,この問題を対象の特徴量に対するテンソル補完問題として定式化することにより,単一のフィードフォワードネットワークで局所特徴フィールド全体を推定する。 局所特徴量の冗長性のため、このテンソル補完問題は、特徴量の標準因子を推定するためにさらに減少することができる。 MLPが小さい階層的変分オートエンコーダ(VAE)を用いて、全特徴量の正準因子を確率的に推定する。 提案手法の有効性を, 定量的, 質的に比較することにより検証した。 さらなるアブレーション研究は、可能な形状のマルチモーダル分布を捉えるために階層的アーキテクチャを採用する必要性も示している。

We propose a novel method for 3D shape completion from a partial observation of a point cloud. Existing methods either operate on a global latent code, which limits the expressiveness of their model, or autoregressively estimate the local features, which is highly computationally extensive. Instead, our method estimates the entire local feature field by a single feedforward network by formulating this problem as a tensor completion problem on the feature volume of the object. Due to the redundancy of local feature volumes, this tensor completion problem can be further reduced to estimating the canonical factors of the feature volume. A hierarchical variational autoencoder (VAE) with tiny MLPs is used to probabilistically estimate the canonical factors of the complete feature volume. The effectiveness of the proposed method is validated by comparing it with the state-of-the-art method quantitatively and qualitatively. Further ablation studies also show the need to adopt a hierarchical architecture to capture the multimodal distribution of possible shapes.
翻訳日:2022-12-08 16:17:39 公開日:2022-12-06
# 光フロー拡散によるニューラルセルビデオ合成

Neural Cell Video Synthesis via Optical-Flow Diffusion ( http://arxiv.org/abs/2212.03250v1 )

ライセンス: Link先を確認
Manuel Serna-Aguilera, Khoa Luu, Nathaniel Harris, Min Zou(参考訳) バイオメディカルイメージングの世界は、少量のデータを扱うことで悪名高く、コンピュータビジョンとディープラーニングの世界における最先端の取り組みに不満を呈している。 大規模なデータセットでは、自然画像分布から見るのがより簡単になります。 これは、培養中の神経細胞の顕微鏡映像と同じである。 この問題は、何日も文化の育成・維持が困難であり、材料や機器の入手が困難であることから、いくつかの課題を提起している。 本研究では,映像の合成によるデータ不足問題を解決する方法について検討する。 そこで本研究では,映像拡散モデルの最近の成果を活かし,トレーニングデータセットからセルの映像を合成する。 次に,モデルが持つ強みと一貫した欠点を分析し,可能な限り高品質な映像生成を指導する。 そこで本研究では,映像フレームの経時変化や各画素の経時変化の文脈がより深くなるように,デノライゼーション機能の改良と動き情報の追加(dense optical flow)を提案する。

The biomedical imaging world is notorious for working with small amounts of data, frustrating state-of-the-art efforts in the computer vision and deep learning worlds. With large datasets, it is easier to make progress we have seen from the natural image distribution. It is the same with microscopy videos of neuron cells moving in a culture. This problem presents several challenges as it can be difficult to grow and maintain the culture for days, and it is expensive to acquire the materials and equipment. In this work, we explore how to alleviate this data scarcity problem by synthesizing the videos. We, therefore, take the recent work of the video diffusion model to synthesize videos of cells from our training dataset. We then analyze the model's strengths and consistent shortcomings to guide us on improving video generation to be as high-quality as possible. To improve on such a task, we propose modifying the denoising function and adding motion information (dense optical flow) so that the model has more context regarding how video frames transition over time and how each pixel changes over time.
翻訳日:2022-12-08 16:06:59 公開日:2022-12-06
# NeRDi: 一般画像として言語誘導拡散を用いた単一視点NeRF合成

NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors ( http://arxiv.org/abs/2212.03267v1 )

ライセンス: Link先を確認
Congyue Deng, Chiyu "Max'' Jiang, Charles R. Qi, Xinchen Yan, Yin Zhou, Leonidas Guibas, Dragomir Anguelov(参考訳) 2dから3dへの再構築は不適切な問題であるが、人類は長年にわたって発展してきた3d世界の知識のためにこの問題をうまく解決できる。 この観測により,2次元拡散モデルからの一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。 画像条件付き3次元生成問題として単一ビュー再構成を定式化し,任意のビューレンダリングにおける拡散損失を最小化し,入力-ビュー制約下で予め訓練された画像拡散モデルを用いてnrf表現を最適化する。 市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。 これは、シングルビュー入力画像の意味的特徴と視覚的特徴に基づいて、一般的なイメージを絞り込むため、本質的にはマルチビューコンテンツコヒーレンスを改善するのに役立つ。 さらに,NeRFの基底となる3次元形状を正規化するために,推定深度マップに基づく幾何損失を導入する。 DTU MVSデータセットを用いた実験結果から,本手法は既存の手法と比較して,高品質な新規ビューを合成可能であることが示された。 In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。

2D-to-3D reconstruction is an ill-posed problem, yet humans are good at solving this problem due to their prior knowledge of the 3D world developed over years. Driven by this observation, we propose NeRDi, a single-view NeRF synthesis framework with general image priors from 2D diffusion models. Formulating single-view reconstruction as an image-conditioned 3D generation problem, we optimize the NeRF representations by minimizing a diffusion loss on its arbitrary view renderings with a pretrained image diffusion model under the input-view constraint. We leverage off-the-shelf vision-language models and introduce a two-section language guidance as conditioning inputs to the diffusion model. This is essentially helpful for improving multiview content coherence as it narrows down the general image prior conditioned on the semantic and visual features of the single-view input image. Additionally, we introduce a geometric loss based on estimated depth maps to regularize the underlying 3D geometry of the NeRF. Experimental results on the DTU MVS dataset show that our method can synthesize novel views with higher quality even compared to existing methods trained on this dataset. We also demonstrate our generalizability in zero-shot NeRF synthesis for in-the-wild images.
翻訳日:2022-12-08 16:06:39 公開日:2022-12-06
# ABN:多段変形可能な画像登録のための反ブラルニューラルネットワーク

ABN: Anti-Blur Neural Networks for Multi-Stage Deformable Image Registration ( http://arxiv.org/abs/2212.03277v1 )

ライセンス: Link先を確認
Yao Su, Xin Dai, Lifang He, Xiangnan Kong(参考訳) 変形可能な画像登録、すなわち非線形変換によって複数の画像を1つの座標系にアライメントするタスクは、神経画像データに不可欠な前処理ステップとなる。 変形可能な画像登録に関する最近の研究は、主に多段階アライメント法による登録精度の向上に重点を置いている。 従来の多段登録手法では、画素/ボクセル値が前段で生成された画像から繰り返し補間されるため、ソース画像をぼかすことがしばしばある。 しかし,画像登録時のシャープネスなどの画質維持は医療データ解析に不可欠である。 本稿では,マルチステージ画像登録のための新しい解である anti-blur network (abn) を提案する。 具体的には、短期登録ネットワークと長期記憶ネットワークのペアを用いて、各段階での非線形変形を学習し、短期登録ネットワークは、登録精度を漸進的に向上する方法を学習し、長期記憶ネットワークは、以前のすべての変形と組み合わせて、補間を生画像上で直接実行し、画像のシャープネスを維持する。 自然画像データセットと医用画像データセットの広範な実験により、ABNはシャープさを維持しながら正確に画像を登録できることを示した。 我々のコードとデータはhttps://github.com/anonymous3214/ABNで確認できる。

Deformable image registration, i.e., the task of aligning multiple images into one coordinate system by non-linear transformation, serves as an essential preprocessing step for neuroimaging data. Recent research on deformable image registration is mainly focused on improving the registration accuracy using multi-stage alignment methods, where the source image is repeatedly deformed in stages by a same neural network until it is well-aligned with the target image. Conventional methods for multi-stage registration can often blur the source image as the pixel/voxel values are repeatedly interpolated from the image generated by the previous stage. However, maintaining image quality such as sharpness during image registration is crucial to medical data analysis. In this paper, we study the problem of anti-blur deformable image registration and propose a novel solution, called Anti-Blur Network (ABN), for multi-stage image registration. Specifically, we use a pair of short-term registration and long-term memory networks to learn the nonlinear deformations at each stage, where the short-term registration network learns how to improve the registration accuracy incrementally and the long-term memory network combines all the previous deformations to allow an interpolation to perform on the raw image directly and preserve image sharpness. Extensive experiments on both natural and medical image datasets demonstrated that ABN can accurately register images while preserving their sharpness. Our code and data can be found at https://github.com/anonymous3214/ABN
翻訳日:2022-12-08 16:06:19 公開日:2022-12-06
# MobilePTX:限られた訓練例による気胸検出のためのスパース符号化

MobilePTX: Sparse Coding for Pneumothorax Detection Given Limited Training Examples ( http://arxiv.org/abs/2212.03282v1 )

ライセンス: Link先を確認
Darryl Hannan (1), Steven C. Nesbit (1), Ximing Wen (1), Glen Smith (1), Qiao Zhang (1), Alberto Goffi (2), Vincent Chan (2), Michael J. Morris (3), John C. Hunninghake (3), Nicholas E. Villalobos (3), Edward Kim (1), Rosina O. Weber (1) and Christopher J. MacLellan (4) ((1) Drexel University, (2) University of Toronto, (3) Brooke Army Medical Center, (4) Georgia Institute of Technology)(参考訳) pocus (point-of-care ultrasound) は、患者のベッドサイドにおける臨床医による超音波検査である。 これらの画像の解釈には高度な専門知識が必要であり、緊急時に利用できない可能性がある。 本稿では,患者に気胸の有無を診断し,医療従事者を支援する分類器を開発することによりPOCUSを支援する。 タスクを複数のステップに分解し、yolov4を使ってビデオの関連領域を抽出し、ビデオの特徴を表す3dスパースコーディングモデルを作成した。 正のトレーニングビデオを取得することの難しさから, 正の15例, 負の32例の小さな分類器を訓練した。 この制限に対処するため,我々はSMEの知識を利用して仮説空間を制限し,データ収集のコストを削減した。 2つの肺超音波データセットを用いて,本モデルが気胸同定における中小企業と同等の性能を発揮することを示す。 そして、ipad proで全システムを4秒未満で動作させ、iphone 13 proで8秒未満で動作させるiosアプリを開発しました。

Point-of-Care Ultrasound (POCUS) refers to clinician-performed and interpreted ultrasonography at the patient's bedside. Interpreting these images requires a high level of expertise, which may not be available during emergencies. In this paper, we support POCUS by developing classifiers that can aid medical professionals by diagnosing whether or not a patient has pneumothorax. We decomposed the task into multiple steps, using YOLOv4 to extract relevant regions of the video and a 3D sparse coding model to represent video features. Given the difficulty in acquiring positive training videos, we trained a small-data classifier with a maximum of 15 positive and 32 negative examples. To counteract this limitation, we leveraged subject matter expert (SME) knowledge to limit the hypothesis space, thus reducing the cost of data collection. We present results using two lung ultrasound datasets and demonstrate that our model is capable of achieving performance on par with SMEs in pneumothorax identification. We then developed an iOS application that runs our full system in less than 4 seconds on an iPad Pro, and less than 8 seconds on an iPhone 13 Pro, labeling key regions in the lung sonogram to provide interpretable diagnoses.
翻訳日:2022-12-08 16:05:50 公開日:2022-12-06
# ERNet:ニューロイメージングデータの教師なし収集と登録

ERNet: Unsupervised Collective Extraction and Registration in Neuroimaging Data ( http://arxiv.org/abs/2212.03306v1 )

ライセンス: Link先を確認
Yao Su, Zhentian Qian, Lifang He, Xiangnan Kong(参考訳) 脳の抽出と登録は、mriスキャン(すなわち抽出ステップ)から脳領域を抽出し、ターゲットの脳画像(すなわち登録ステップ)と整合させることを目標とする、神経画像データ解析における重要な前処理ステップである。 従来の研究は主に、管理された設定下で別々に抽出と登録を行う方法の開発に重点を置いている。 これらの手法の性能は、専門家による誤り訂正のためのトレーニングサンプルと視覚検査の量に大きく依存する。 しかし、多くの医学研究において、高次元神経画像(例えば3D MRI)におけるボクセルレベルのラベルの収集や手作業による品質管理は非常に高価で時間を要する。 さらに、脳の抽出と登録は、神経画像データに非常に関連するタスクであり、総合的に解決されるべきである。 本稿では,神経画像データにおける教師なし集団抽出と登録の問題について検討する。 本稿では,ERNet(Extraction-Registration Network)と呼ばれる統合されたエンドツーエンドフレームワークを提案し,抽出タスクと登録タスクを協調的に最適化し,それら間のフィードバックを可能にする。 具体的には,一対の多段抽出・登録モジュールを用いて抽出マスクと変換を学習し,抽出ネットワークが抽出精度を段階的に向上し,登録ネットワークが抽出画像が対象画像に適切に整列するまで連続的に整列する。 実世界のデータセットにおける実験結果から,提案手法は,神経画像データの抽出および登録作業の効率を効果的に向上できることが示された。 私たちのコードとデータはhttps://github.com/ERNetERNet/ERNetで確認できます。

Brain extraction and registration are important preprocessing steps in neuroimaging data analysis, where the goal is to extract the brain regions from MRI scans (i.e., extraction step) and align them with a target brain image (i.e., registration step). Conventional research mainly focuses on developing methods for the extraction and registration tasks separately under supervised settings. The performance of these methods highly depends on the amount of training samples and visual inspections performed by experts for error correction. However, in many medical studies, collecting voxel-level labels and conducting manual quality control in high-dimensional neuroimages (e.g., 3D MRI) are very expensive and time-consuming. Moreover, brain extraction and registration are highly related tasks in neuroimaging data and should be solved collectively. In this paper, we study the problem of unsupervised collective extraction and registration in neuroimaging data. We propose a unified end-to-end framework, called ERNet (Extraction-Registration Network), to jointly optimize the extraction and registration tasks, allowing feedback between them. Specifically, we use a pair of multi-stage extraction and registration modules to learn the extraction mask and transformation, where the extraction network improves the extraction accuracy incrementally and the registration network successively warps the extracted image until it is well-aligned with the target image. Experiment results on real-world datasets show that our proposed method can effectively improve the performance on extraction and registration tasks in neuroimaging data. Our code and data can be found at https://github.com/ERNetERNet/ERNet
翻訳日:2022-12-08 16:05:30 公開日:2022-12-06
# Giga-SSL: ギガピクセル画像のための自己監督型学習

Giga-SSL: Self-Supervised Learning for Gigapixel Images ( http://arxiv.org/abs/2212.03273v1 )

ライセンス: Link先を確認
Tristan Lazard, Marvin Lerousseau, Etienne Decenci\`ere, Thomas Walter(参考訳) 全スライド画像(WSI)は、医療現場で診断と治療のために定期的に準備された染色組織スライドの顕微鏡画像である。 WSIは非常に大きく(ギガピクセルサイズ)、複雑で(数百万セルまで)複雑です。 現在の最先端(SoTA)アプローチでは、WSIはそれらをタイルに分類し、事前訓練されたネットワークでエンコードし、特定の下流タスクのトレーニングにMILを適用している。 しかし、注釈付きデータセットはしばしば小さく、通常数百から数千のwsiであり、過剰フィッティングやパフォーマンスの低いモデルを引き起こす可能性がある。 逆に、注釈のないwsiの数は増え続けており、データセットは数万(間もなく数百万)のイメージが利用できる。 自己教師付き学習(SSL)による適切なタイル表現の特定には,これらのアノテーションのないデータを使用することが提案されているが,MILアーキテクチャの一部がタイルレベルのSSL事前トレーニング中にトレーニングされていないため,下流分類タスクは依然として完全な監視を必要とする。 本稿では,強力なスライド表現を推論するアノテーションを使わずに,多数のWSIを活用するためのスライドレベルSSLの戦略を提案する。 この手法をがん研究で最も広く使われているデータリソースであるThe Cancer-Genome Atlas(16 TB画像データ)に適用することにより、予測力を失うことなくデータセットを23MBに縮小することができる。 最後に、小さなデータセット(例えば50のスライド)でこれらの表現で分類器を訓練することで、下流タスク全体の平均で6.3aucポイントのパフォーマンスが向上するのを観察した。

Whole slide images (WSI) are microscopy images of stained tissue slides routinely prepared for diagnosis and treatment selection in medical practice. WSI are very large (gigapixel size) and complex (made of up to millions of cells). The current state-of-the-art (SoTA) approach to classify WSI subdivides them into tiles, encodes them by pre-trained networks and applies Multiple Instance Learning (MIL) to train for specific downstream tasks. However, annotated datasets are often small, typically a few hundred to a few thousand WSI, which may cause overfitting and underperforming models. Conversely, the number of unannotated WSI is ever increasing, with datasets of tens of thousands (soon to be millions) of images available. While it has been previously proposed to use these unannotated data to identify suitable tile representations by self-supervised learning (SSL), downstream classification tasks still require full supervision because parts of the MIL architecture is not trained during tile level SSL pre-training. Here, we propose a strategy of slide level SSL to leverage the large number of WSI without annotations to infer powerful slide representations. Applying our method to The Cancer-Genome Atlas, one of the most widely used data resources in cancer research (16 TB image data), we are able to downsize the dataset to 23 MB without any loss in predictive power: we show that a linear classifier trained on top of these embeddings maintains or improves previous SoTA performances on various benchmark WSI classification tasks. Finally, we observe that training a classifier on these representations with tiny datasets (e.g. 50 slides) improved performances over SoTA by an average of +6.3 AUC points over all downstream tasks.
翻訳日:2022-12-08 15:50:15 公開日:2022-12-06
# 自己指導型学習における事前学習エンコーダの安全性向上とプライバシ保護型学習支援

Pre-trained Encoders in Self-Supervised Learning Improve Secure and Privacy-preserving Supervised Learning ( http://arxiv.org/abs/2212.03334v1 )

ライセンス: Link先を確認
Hongbin Liu, Wenjie Qu, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) 教師あり学習における分類器には、様々なセキュリティやプライバシーの問題がある。 1)セキュリティ側のデータ中毒攻撃、バックドア攻撃、悪意のある例 2) プライバシ側のトレーニングデータに対する推論攻撃と, 忘れられる権利。 これらの問題に対処するために、正式な保証付き安全でプライバシー保護の学習アルゴリズムが提案されている。 しかし、精度の低下、小さな認証されたセキュリティ保証、そして/または非効率といった様々な制限に悩まされている。 自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。 事前訓練されたエンコーダを特徴抽出器として与えると、教師付き学習は少量のラベル付きトレーニングデータを用いて、単純で正確な分類器を訓練することができる。 本研究では,事前学習したエンコーダが,セキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための,最初の系統的,原則的測定研究を行う。 我々の重要な発見は、事前訓練されたエンコーダが大幅に改善することである。 1)最先端のセキュア学習アルゴリズム(袋詰めおよびkn)のデータ中毒およびバックドア攻撃に対する認証セキュリティ保証と無攻撃の精度の両立 2)無攻撃下での正確性を犠牲にすることなく,敵例に対するランダム化平滑化の認定セキュリティ保証。 3)個人別分類器の精度、及び 4) 正確なマシンアンラーニングの精度及び/又は効率。

Classifiers in supervised learning have various security and privacy issues, e.g., 1) data poisoning attacks, backdoor attacks, and adversarial examples on the security side as well as 2) inference attacks and the right to be forgotten for the training data on the privacy side. Various secure and privacy-preserving supervised learning algorithms with formal guarantees have been proposed to address these issues. However, they suffer from various limitations such as accuracy loss, small certified security guarantees, and/or inefficiency. Self-supervised learning is an emerging technique to pre-train encoders using unlabeled data. Given a pre-trained encoder as a feature extractor, supervised learning can train a simple yet accurate classifier using a small amount of labeled training data. In this work, we perform the first systematic, principled measurement study to understand whether and when a pre-trained encoder can address the limitations of secure or privacy-preserving supervised learning algorithms. Our key findings are that a pre-trained encoder substantially improves 1) both accuracy under no attacks and certified security guarantees against data poisoning and backdoor attacks of state-of-the-art secure learning algorithms (i.e., bagging and KNN), 2) certified security guarantees of randomized smoothing against adversarial examples without sacrificing its accuracy under no attacks, 3) accuracy of differentially private classifiers, and 4) accuracy and/or efficiency of exact machine unlearning.
翻訳日:2022-12-08 15:49:47 公開日:2022-12-06
# 反事実推論: 言語モデルは因果理解のために世界知識を必要とするか?

Counterfactual reasoning: Do language models need world knowledge for causal understanding? ( http://arxiv.org/abs/2212.03278v1 )

ライセンス: Link先を確認
Jiaxuan Li, Lang Yu and Allyson Ettinger(参考訳) 現在の事前学習型言語モデルは下流タスクにおいて顕著な改善を実現しているが、実世界の理解に基づくより体系的な論理的推論と統計的相関の影響を区別することは困難である。 本稿では,これらの要因を,言語モデルに仮説的命題に基づく異常な結果の予測を強制する対実的条件の活用によって区別する。 本稿では,心理言語学的実験から得られた一連のテストと,大規模に制御されたデータセットを導入し,多種多様な訓練済み言語モデルからの偽りの予測について検討する。 私たちは、モデルが反事実的なシナリオで現実世界の知識を一貫してオーバーライドすることができ、より強固なベースラインの世界知識の場合、この効果はより強固であることが分かりました。 反事実の言語ニュアンスに関する知識をテストするために世界知識と語彙手がかりの両方の効果を緩和すると、gpt-3のみがこれらのニュアンスに対する感受性を示すことが分かるが、この感受性は語彙連想因子によって非自明に影響を受ける。

Current pre-trained language models have enabled remarkable improvements in downstream tasks, but it remains difficult to distinguish effects of statistical correlation from more systematic logical reasoning grounded on understanding of the real world. In this paper we tease these factors apart by leveraging counterfactual conditionals, which force language models to predict unusual consequences based on hypothetical propositions. We introduce a set of tests drawn from psycholinguistic experiments, as well as larger-scale controlled datasets, to probe counterfactual predictions from a variety of popular pre-trained language models. We find that models are consistently able to override real-world knowledge in counterfactual scenarios, and that this effect is more robust in case of stronger baseline world knowledge -- however, we also find that for most models this effect appears largely to be driven by simple lexical cues. When we mitigate effects of both world knowledge and lexical cues to test knowledge of linguistic nuances of counterfactuals, we find that only GPT-3 shows sensitivity to these nuances, though this sensitivity is also non-trivially impacted by lexical associative factors.
翻訳日:2022-12-08 15:48:27 公開日:2022-12-06
# l\'{e}vyアルファ安定確率系のドリフト同定

Drift Identification for L\'{e}vy alpha-Stable Stochastic Systems ( http://arxiv.org/abs/2212.03317v1 )

ライセンス: Link先を確認
Harish S. Bhat(参考訳) 本稿では,L\'{e}vy $\alpha$-stable ノイズによって駆動される確率微分方程式(SDE)の時系列観測を行い,SDEのドリフト場を推定する。 区間$[1,2)$ で$\alpha$ の場合、ノイズは重く、遷移密度や物理空間での確率を計算する方法の計算が困難になる。 本稿では,時間依存特性関数,すなわち時間依存密度のフーリエ変換に着目したフーリエ空間アプローチを提案する。 フーリエ級数を用いて未知のドリフト場をパラメータ化することにより,予測関数と経験関数の2乗誤差からなる損失を定式化する。 この損失を随伴法で計算した勾配で最小化する。 種々の一次元および二次元問題に対して,本手法が基礎真理場と質的および/又は定量的に一致してドリフト場を学習できることを実証する。

This paper focuses on a stochastic system identification problem: given time series observations of a stochastic differential equation (SDE) driven by L\'{e}vy $\alpha$-stable noise, estimate the SDE's drift field. For $\alpha$ in the interval $[1,2)$, the noise is heavy-tailed, leading to computational difficulties for methods that compute transition densities and/or likelihoods in physical space. We propose a Fourier space approach that centers on computing time-dependent characteristic functions, i.e., Fourier transforms of time-dependent densities. Parameterizing the unknown drift field using Fourier series, we formulate a loss consisting of the squared error between predicted and empirical characteristic functions. We minimize this loss with gradients computed via the adjoint method. For a variety of one- and two-dimensional problems, we demonstrate that this method is capable of learning drift fields in qualitative and/or quantitative agreement with ground truth fields.
翻訳日:2022-12-08 15:41:27 公開日:2022-12-06
# monte carlo estimation of scoreとoracle access to target densityを用いたスコアベースサンプリング手法の提案

Proposal of a Score Based Approach to Sampling Using Monte Carlo Estimation of Score and Oracle Access to Target Density ( http://arxiv.org/abs/2212.03325v1 )

ライセンス: Link先を確認
Curtis McDonald and Andrew Barron(参考訳) サンプリングに対するスコアベースのアプローチは、初期サンプルのプールを与えられたターゲット密度から新しいサンプルを生成する生成アルゴリズムとして成功している。 この作業では、ターゲット密度から最初のサンプルがなければ、oracleにログの確率へのアクセスを命令する代わりに$0^{th}$と$1^{st}$である。 このような問題はベイズ後方サンプリングや非凸関数の近似最小化で生じる。 この知識のみを用いて,確率変数の特定の期待値として経験的にスコアを推定するモンテカルロ法を提案する。 この推定器を使用して、後方流sdeの離散バージョンを実行し、ターゲット密度からサンプルを生成することができる。 このアプローチは、ターゲット密度からの初期サンプルのプールに依存しない利点があり、スコアを推定するためにニューラルネットワークや他のブラックボックスモデルに依存しない。

Score based approaches to sampling have shown much success as a generative algorithm to produce new samples from a target density given a pool of initial samples. In this work, we consider if we have no initial samples from the target density, but rather $0^{th}$ and $1^{st}$ order oracle access to the log likelihood. Such problems may arise in Bayesian posterior sampling, or in approximate minimization of non-convex functions. Using this knowledge alone, we propose a Monte Carlo method to estimate the score empirically as a particular expectation of a random variable. Using this estimator, we can then run a discrete version of the backward flow SDE to produce samples from the target density. This approach has the benefit of not relying on a pool of initial samples from the target density, and it does not rely on a neural network or other black box model to estimate the score.
翻訳日:2022-12-08 15:41:07 公開日:2022-12-06
# 会話推薦システムにおける意図認識

Intent Recognition in Conversational Recommender Systems ( http://arxiv.org/abs/2212.03721v1 )

ライセンス: Link先を確認
Sahar Moradizeyveh(参考訳) どんな組織でも製品やサービス、プロセスを改善する必要があります。 この文脈では、顧客と関わり、彼らの旅を理解することが不可欠です。 組織は、コールセンタからチャットボットや仮想エージェントに至るまで、さまざまな技術と技術を活用して顧客エンゲージメントを支援しています。 近年,機械学習(ML)と自然言語処理(NLP)を用いて大量の顧客フィードバックやエンゲージメントデータを分析している。 目標は、顧客をコンテキストで理解し、さまざまなチャネルで意味のある回答を提供することです。 Conversational Artificial Intelligence (AI) と Recommender Systems (RS) の進歩にもかかわらず、顧客ジャーニーにおける顧客の質問の背後にある意図を理解することは依然として困難である。 本稿では,この課題に対処するため,チャットボットベースのcrsにおいて,会話型推薦システム(crs)における最近の研究を概観し,分析する。 会話中の入力発話をコンテキスト化するパイプラインを導入する。 次に、コンテキスト化された入力と学習モデルをリンクしてインテント認識をサポートするリバース機能エンジニアリングを活用するための次のステップを取ります。 異なるMLモデルに基づいて性能評価を行うため、情報探索者と回答提供者間の質問応答のラベル付き対話データセット(MSDialogue)を用いて、トランスフォーマーベースモデルを用いて提案手法の評価を行う。

Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
翻訳日:2022-12-08 15:31:48 公開日:2022-12-06
# 初回, 次回公開: 本質的動機づけにおける後探索のメリット

First Go, then Post-Explore: the Benefits of Post-Exploration in Intrinsic Motivation ( http://arxiv.org/abs/2212.03251v1 )

ライセンス: Link先を確認
Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat(参考訳) Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。 Go-Exploreの重要な洞察は、調査に成功するには、エージェントが最初に興味深い状態("Go")に戻る必要があり、次に未知の地形("Explore")を探索する必要があることである。 目的が「爆発後」に到達した後にこのような探索を行う。 本稿では,Go-Exploreの論文では示されていない,汎用的な目標探索プロセス(IMGEP)フレームワークにおける探索後のアブレーションについて述べる。 個別のナビゲーションタスクと連続制御タスクの両方において、表と深のRL設定の両方で同じアルゴリズムでオン/オフすることで、探索後の孤立した可能性について検討する。 様々なMiniGridおよびMujoco環境の実験では、探索後、IMGEPエージェントがより多様な状態に到達し、パフォーマンスを高めることができる。 簡単に言うと、RLの研究者は、効果的で、メソッドに依存し、実装が容易であるため、IMGEPでの探索を可能とすべきである。

Go-Explore achieved breakthrough performance on challenging reinforcement learning (RL) tasks with sparse rewards. The key insight of Go-Explore was that successful exploration requires an agent to first return to an interesting state ('Go'), and only then explore into unknown terrain ('Explore'). We refer to such exploration after a goal is reached as 'post-exploration'. In this paper, we present a clear ablation study of post-exploration in a general intrinsically motivated goal exploration process (IMGEP) framework, that the Go-Explore paper did not show. We study the isolated potential of post-exploration, by turning it on and off within the same algorithm under both tabular and deep RL settings on both discrete navigation and continuous control tasks. Experiments on a range of MiniGrid and Mujoco environments show that post-exploration indeed helps IMGEP agents reach more diverse states and boosts their performance. In short, our work suggests that RL researchers should consider to use post-exploration in IMGEP when possible since it is effective, method-agnostic and easy to implement.
翻訳日:2022-12-08 15:31:02 公開日:2022-12-06
# 強化学習した確率的意思決定によるタンパク質の側鎖パッキング配置の解法

Solving the Side-Chain Packing Arrangement of Proteins from Reinforcement Learned Stochastic Decision Making ( http://arxiv.org/abs/2212.03320v1 )

ライセンス: Link先を確認
Chandrajit Bajaj and Conrad Li and Minh Nguyen(参考訳) タンパク質構造予測は計算分子生物学における根本的な問題である。 この課題を解決するために、ab-initioやthreadingといった古典的なアルゴリズムや多くの学習方法が提案されている。 しかし、ほとんどの強化学習法は状態-作用対を離散オブジェクトとしてモデル化する傾向がある。 本稿では,PMP(Pongryagin maximum principle)の確率的パラメトリケートハミルトン版をベースとして,連続的な環境下での強化学習(RL)フレームワークを開発し,側鎖パッキングとタンパク質の折り畳み問題を解決する。 特別の場合、我々の定式化は、最適折りたたみ軌跡をランゲヴィン力学の明示的な利用を用いて訓練する以前の作業に還元することができる。 最適連続確率ハミルトン力学の折り畳み経路は、分子エネルギーと力場の異なるモデルを用いて導出することができる。 我々のRL実装では、ソフトアクター批判手法を採用していますが、A2C、A3C、PPOに基づく他のRLトレーニングを置き換えることができます。

Protein structure prediction is a fundamental problem in computational molecular biology. Classical algorithms such as ab-initio or threading as well as many learning methods have been proposed to solve this challenging problem. However, most reinforcement learning methods tend to model the state-action pairs as discrete objects. In this paper, we develop a reinforcement learning (RL) framework in a continuous setting and based on a stochastic parametrized Hamiltonian version of the Pontryagin maximum principle (PMP) to solve the side-chain packing and protein-folding problem. For special cases our formulation can be reduced to previous work where the optimal folding trajectories are trained using an explicit use of Langevin dynamics. Optimal continuous stochastic Hamiltonian dynamics folding pathways can be derived with use of different models of molecular energetics and force fields. In our RL implementation we adopt a soft actor-critic methodology however we can replace this other RL training based on A2C, A3C or PPO.
翻訳日:2022-12-08 15:30:42 公開日:2022-12-06
# 対人RLのためのFew-Shot Preference Learning

Few-Shot Preference Learning for Human-in-the-Loop RL ( http://arxiv.org/abs/2212.03363v1 )

ライセンス: Link先を確認
Joey Hejna, Dorsa Sadigh(参考訳) 強化学習(RL)はロボット工学においてより一般的なアプローチとなっているが、複雑なタスクに対する十分な情報的報酬関数を設計することは、人間の意図と政策の搾取を捉えることができないために非常に困難であることが証明されている。 優先度に基づくRLアルゴリズムは、人間のフィードバックから直接報酬関数を学習することで、これらの課題を克服しようとしている。 残念なことに、事前の作業では、人間が答えるには不合理な数のクエリを必要とするか、最も情報性の高いクエリの活用を保証するために報酬関数のクラスを過度に制限する必要がある。 クエリ選択に焦点をあてたほとんどの研究とは対照的に、報奨関数の学習に必要なデータ量は、逆のアプローチをとる: \emph{expanding} マルチタスク学習のより柔軟なレンズを通して、ループ内のRLを見ることによって、利用可能なデータのプールを見ることができる。 メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。 実証的に,メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$\times$に削減し,実際のフランカパンダロボット上での手法の有効性を実証する。 さらに,クエリ複雑さの低減により,実際のユーザからロボットポリシーをトレーニングすることができる。 結果とコードのビデオはhttps://sites.google.com/view/few-shot-preference-rl/homeで見ることができる。

While reinforcement learning (RL) has become a more popular approach for robotics, designing sufficiently informative reward functions for complex tasks has proven to be extremely difficult due their inability to capture human intent and policy exploitation. Preference based RL algorithms seek to overcome these challenges by directly learning reward functions from human feedback. Unfortunately, prior work either requires an unreasonable number of queries implausible for any human to answer or overly restricts the class of reward functions to guarantee the elicitation of the most informative queries, resulting in models that are insufficiently expressive for realistic robotics tasks. Contrary to most works that focus on query selection to \emph{minimize} the amount of data required for learning reward functions, we take an opposite approach: \emph{expanding} the pool of available data by viewing human-in-the-loop RL through the more flexible lens of multi-task learning. Motivated by the success of meta-learning, we pre-train preference models on prior task data and quickly adapt them for new tasks using only a handful of queries. Empirically, we reduce the amount of online feedback needed to train manipulation policies in Meta-World by 20$\times$, and demonstrate the effectiveness of our method on a real Franka Panda Robot. Moreover, this reduction in query-complexity allows us to train robot policies from actual human users. Videos of our results and code can be found at https://sites.google.com/view/few-shot-preference-rl/home.
翻訳日:2022-12-08 15:30:24 公開日:2022-12-06
# 政策整形によるUAV制御のための強化学習

Reinforcement Learning for UAV control with Policy and Reward Shaping ( http://arxiv.org/abs/2212.03828v1 )

ライセンス: Link先を確認
Cristian Mill\'an-Arias, Ruben Contreras, Francisco Cruz and Bruno Fernandes(参考訳) 近年、無人航空機(UAV)関連の技術がこの地域の知識を拡大し、ソリューションを必要とする新たな問題や課題が表面化している。 さらに、この技術は、通常、人が行うプロセスの自動化を可能にするため、産業分野では非常に需要がある。 これらの車両の自動化は、さまざまな機械学習戦略を適用して、文献で論じられている。 強化学習(rl)は、自律エージェントのトレーニングに頻繁に使用される自動化フレームワークである。 RLは、エージェントが与えられたタスクを解決するために環境と対話する機械学習パラダイムである。 しかし、自律的な学習は時間がかかり、計算コストがかかり、複雑なシナリオでは実用的ではない。 インタラクティブ強化学習は、外部トレーナーがタスクを学習している間にエージェントにアドバイスを提供することができる。 本研究では,報酬形成技術と政策形成技術を用いて,ドローンを同時に制御するRLエージェントを指導することを試みた。 訓練には2つのシミュレートシナリオが提案され、1つは障害物なし、1つは障害物付きであった。 また,各手法の影響についても検討した。 その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。 それでも、エージェントは、訓練中の実行時間が短く、分散も少ない。

In recent years, unmanned aerial vehicle (UAV) related technology has expanded knowledge in the area, bringing to light new problems and challenges that require solutions. Furthermore, because the technology allows processes usually carried out by people to be automated, it is in great demand in industrial sectors. The automation of these vehicles has been addressed in the literature, applying different machine learning strategies. Reinforcement learning (RL) is an automation framework that is frequently used to train autonomous agents. RL is a machine learning paradigm wherein an agent interacts with an environment to solve a given task. However, learning autonomously can be time consuming, computationally expensive, and may not be practical in highly-complex scenarios. Interactive reinforcement learning allows an external trainer to provide advice to an agent while it is learning a task. In this study, we set out to teach an RL agent to control a drone using reward-shaping and policy-shaping techniques simultaneously. Two simulated scenarios were proposed for the training; one without obstacles and one with obstacles. We also studied the influence of each technique. The results show that an agent trained simultaneously with both techniques obtains a lower reward than an agent trained using only a policy-based approach. Nevertheless, the agent achieves lower execution times and less dispersion during training.
翻訳日:2022-12-08 15:29:25 公開日:2022-12-06
# 意味的セグメンテーションのための意味的拡張グローバル推論

Semantically Enhanced Global Reasoning for Semantic Segmentation ( http://arxiv.org/abs/2212.03338v1 )

ライセンス: Link先を確認
Mir Rayat Imtiaz Hossain, Leonid Sigal, James J. Little(参考訳) ピクセルレベルのタスク(例えばセグメンテーション)の最近の進歩は、局所的な特徴を高めることができる集約された領域ベースの表現間の長距離相互作用の利点を示している。 しかし、そのようなピクセルから地域への関連や、しばしば注意の形式をとる結果表現は、シーンの基本的な意味構造(例えば、個々のオブジェクトとそれらの相互作用)をモデル化することはできない。 この作業では、この制限に対処するための一歩を踏み出します。 具体的には,画像特徴を潜在領域表現に投影し,トランスフォーマを使用してグローバル推論を行い,文脈的かつシーン一貫性のある表現を生成し,元のピクセルレベル特徴と融合するアーキテクチャを提案する。 我々の設計では、活性化領域が空間的に不整合であり、そのような領域の結合が連結対象セグメントに対応することを保証することにより、潜在領域が意味論的に意味のある概念を表現することができる。 結果として生じるセマンティックグローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、セマンティックセグメンテーションフレームワークやバックボーンと組み合わせることができる。 SGRとDeepLabV3を組み合わせることで,最先端技術と競合するセマンティックセマンティックセマンティクスのパフォーマンスが向上すると同時に,よりセマンティクス的に解釈可能な多種多様なリージョン表現が実現され,検出やインスタンスセマンティクスへの効果的な転送が可能となった。 さらに、オブジェクトクラスとインスタンスレベルで表現のセマンティクスを測定することができる新しいメトリックを提案する。

Recent advances in pixel-level tasks (e.g., segmentation) illustrate the benefit of long-range interactions between aggregated region-based representations that can enhance local features. However, such pixel-to-region associations and the resulting representation, which often take the form of attention, cannot model the underlying semantic structure of the scene (e.g., individual objects and, by extension, their interactions). In this work, we take a step toward addressing this limitation. Specifically, we propose an architecture where we learn to project image features into latent region representations and perform global reasoning across them, using a transformer, to produce contextualized and scene-consistent representations that are then fused with original pixel-level features. Our design enables the latent regions to represent semantically meaningful concepts, by ensuring that activated regions are spatially disjoint and unions of such regions correspond to connected object segments. The resulting semantic global reasoning (SGR) is end-to-end trainable and can be combined with any semantic segmentation framework and backbone. Combining SGR with DeepLabV3 results in a semantic segmentation performance that is competitive to the state-of-the-art, while resulting in more semantically interpretable and diverse region representations, which we show can effectively transfer to detection and instance segmentation. Further, we propose a new metric that allows us to measure the semantics of representations at both the object class and instance level.
翻訳日:2022-12-08 15:21:25 公開日:2022-12-06
# 潜在空間マッピングによるドメイン翻訳

Domain Translation via Latent Space Mapping ( http://arxiv.org/abs/2212.03361v1 )

ライセンス: Link先を確認
Tsiry Mayet and Simon Bernard and Clement Chatelain and Romain Herault(参考訳) 本稿では,マルチドメイン翻訳の問題について検討する。 1 つの要素 $a$ のドメイン $a$ が与えられたとき,対応する $b$ サンプルを別のドメイン $b$ で生成し,その逆も行う。 複数のドメインにおける監督を得るのは面倒な作業です。また、監督がペア$(a,b)\sim a\times b$として利用可能で、a\sim a$または$b\sim b$しか利用できない場合に、この翻訳をあるドメインから別のドメインへ学ぶことを提案します。 我々は、各領域から潜在空間を学習するために、多様体の仮定を利用するラテント空間マッピング(\model)と呼ばれる新しい統一フレームワークを導入する。 既存のアプローチと異なり,2つのドメイン間の依存関係を学習することにより,利用可能なドメインを用いて各潜在空間をさらに規則化する。 アプローチを3つのタスクで評価し 一 画像翻訳による合成データセット 二 医用画像の意味セグメンテーションの現実世界の課題 三 顔の目印検出の現実世界の業務

In this paper, we investigate the problem of multi-domain translation: given an element $a$ of domain $A$, we would like to generate a corresponding $b$ sample in another domain $B$, and vice versa. Acquiring supervision in multiple domains can be a tedious task, also we propose to learn this translation from one domain to another when supervision is available as a pair $(a,b)\sim A\times B$ and leveraging possible unpaired data when only $a\sim A$ or only $b\sim B$ is available. We introduce a new unified framework called Latent Space Mapping (\model) that exploits the manifold assumption in order to learn, from each domain, a latent space. Unlike existing approaches, we propose to further regularize each latent space using available domains by learning each dependency between pairs of domains. We evaluate our approach in three tasks performing i) synthetic dataset with image translation, ii) real-world task of semantic segmentation for medical images, and iii) real-world task of facial landmark detection.
翻訳日:2022-12-08 15:20:57 公開日:2022-12-06
# 強化学習のための自己予測学習の理解

Understanding Self-Predictive Learning for Reinforcement Learning ( http://arxiv.org/abs/2212.03319v1 )

ライセンス: Link先を確認
Yunhao Tang, Zhaohan Daniel Guo, Pierre Harvey Richemond, Bernardo \'Avila Pires, Yash Chandak, R\'emi Munos, Mark Rowland, Mohammad Gheshlaghi Azar, Charline Le Lan, Clare Lyle, Andr\'as Gy\"orgy, Shantanu Thakoor, Will Dabney, Bilal Piot, Daniele Calandriello, Michal Valko(参考訳) 本研究では,自己予測学習の学習ダイナミクスを学習し,予測誤差を最小化して表現を学習するアルゴリズムのファミリーである強化学習について検討する。 最近の経験的成功にもかかわらず、そのようなアルゴリズムには明らかな欠陥がある: 自明な表現(定数など)は予測誤差を最小化するが、そのような解に収束することは明らかに望ましくない。 私たちの中心となる洞察は、最適化ダイナミクスの注意深い設計は意味のある表現を学ぶのに不可欠であるということです。 我々は,予測器の高速化と表現の半段階的な更新が,表現の崩壊を防止する上で重要であることを見出した。 そして、理想化された設定において、自己予測学習のダイナミクスが状態遷移行列上でスペクトル分解を行い、遷移のダイナミクスに関する情報を効果的に取得することを示す。 理論的知見に基づいて,2つの表現を同時に学習する新しい自己予測アルゴリズムである双方向自己予測学習を提案する。 提案する理論的洞察のロバスト性について,多数の小規模実験で検証し,大規模実験による新しい表現学習アルゴリズムの可能性を実証した。

We study the learning dynamics of self-predictive learning for reinforcement learning, a family of algorithms that learn representations by minimizing the prediction error of their own future latent representations. Despite its recent empirical success, such algorithms have an apparent defect: trivial representations (such as constants) minimize the prediction error, yet it is obviously undesirable to converge to such solutions. Our central insight is that careful designs of the optimization dynamics are critical to learning meaningful representations. We identify that a faster paced optimization of the predictor and semi-gradient updates on the representation, are crucial to preventing the representation collapse. Then in an idealized setup, we show self-predictive learning dynamics carries out spectral decomposition on the state transition matrix, effectively capturing information of the transition dynamics. Building on the theoretical insights, we propose bidirectional self-predictive learning, a novel self-predictive algorithm that learns two representations simultaneously. We examine the robustness of our theoretical insights with a number of small-scale experiments and showcase the promise of the novel representation learning algorithm with large-scale experiments.
翻訳日:2022-12-08 15:13:19 公開日:2022-12-06
# 説明可能なデータコラボレーションによる分散機械学習の透明性の実現

Achieving Transparency in Distributed Machine Learning with Explainable Data Collaboration ( http://arxiv.org/abs/2212.03373v1 )

ライセンス: Link先を確認
Anna Bogdanova, Akira Imakura, Tetsuya Sakurai, Tomoya Fujii, Teppei Sakamoto, Hiroyuki Abe(参考訳) さまざまな業界で意思決定支援に使用される機械学習モデルの透明性は、倫理的利用の確保に不可欠である。 そのため、SHAP(SHapley Additive exPlanations)のような機能属性手法は、顧客や開発者にブラックボックス機械学習モデルの予測を説明するために広く用いられている。 しかしながら、並列的なトレンドは、データにアクセスせずに、他のデータホルダーと共同で機械学習モデルをトレーニングすることです。 このようなモデルは、水平または垂直に分割されたデータに基づいてトレーニングされており、説明可能なAIには、背景データのバイアスのあるビューや特徴空間の部分的なビューを持つ可能性があるため、課題がある。 その結果、分散機械学習のさまざまな参加者から得られた説明は、製品に対する信頼を損なうことなく、互いに一致しない可能性がある。 本稿では,プライバシ保護分散機械学習におけるモデルに依存しない付加的特徴属性アルゴリズム(KernelSHAP)とデータ協調手法に基づく説明可能なデータ協調フレームワークを提案する。 特に、データコラボレーションにおける説明可能性の異なるシナリオに対する3つのアルゴリズムを提示し、オープンアクセスデータセットの実験との整合性を検証する。 その結果,分散機械学習のユーザ間では,特徴属性の相違が有意な(少なくとも1.75倍の)低下を示した。

Transparency of Machine Learning models used for decision support in various industries becomes essential for ensuring their ethical use. To that end, feature attribution methods such as SHAP (SHapley Additive exPlanations) are widely used to explain the predictions of black-box machine learning models to customers and developers. However, a parallel trend has been to train machine learning models in collaboration with other data holders without accessing their data. Such models, trained over horizontally or vertically partitioned data, present a challenge for explainable AI because the explaining party may have a biased view of background data or a partial view of the feature space. As a result, explanations obtained from different participants of distributed machine learning might not be consistent with one another, undermining trust in the product. This paper presents an Explainable Data Collaboration Framework based on a model-agnostic additive feature attribution algorithm (KernelSHAP) and Data Collaboration method of privacy-preserving distributed machine learning. In particular, we present three algorithms for different scenarios of explainability in Data Collaboration and verify their consistency with experiments on open-access datasets. Our results demonstrated a significant (by at least a factor of 1.75) decrease in feature attribution discrepancies among the users of distributed machine learning.
翻訳日:2022-12-08 15:12:59 公開日:2022-12-06
# KATSum:知識を意識した抽象テキスト要約

KATSum: Knowledge-aware Abstractive Text Summarization ( http://arxiv.org/abs/2212.03371v1 )

ライセンス: Link先を確認
Guan Wang, Weihua Li, Edmund Lai, Jianhua Jiang(参考訳) テキスト要約はNLP下流タスクの一つとして認識されており,近年広く研究されている。 ニュース記事やソーシャル記事、ビデオなど、インターネットから情報を素早く知覚する人を助けることができる。 既存の研究の多くは、より良い出力を生み出すために要約モデルの開発を試みている。 しかし、ほとんどの既存モデルの出現制限は、不誠実さや事実的誤りを含む出現する。 本稿では,標準seq2seqモデルの拡張にナレッジグラフが提供する利点を活用して,ナレッジアウェア抽象テキスト要約と呼ばれる新しいモデルを提案する。 それに加えて、Knowledge Graph三つ子をソーステキストから抽出し、キーワードに関係情報を提供し、一貫性と事実的にエラーのない要約を生成する。 実世界のデータセットを用いて広範な実験を行う。 その結果,提案フレームワークは知識グラフからの情報を有効に活用し,要約の事実的誤りを著しく低減できることがわかった。

Text Summarization is recognised as one of the NLP downstream tasks and it has been extensively investigated in recent years. It can assist people with perceiving the information rapidly from the Internet, including news articles, social posts, videos, etc. Most existing research works attempt to develop summarization models to produce a better output. However, advent limitations of most existing models emerge, including unfaithfulness and factual errors. In this paper, we propose a novel model, named as Knowledge-aware Abstractive Text Summarization, which leverages the advantages offered by Knowledge Graph to enhance the standard Seq2Seq model. On top of that, the Knowledge Graph triplets are extracted from the source text and utilised to provide keywords with relational information, producing coherent and factually errorless summaries. We conduct extensive experiments by using real-world data sets. The results reveal that the proposed framework can effectively utilise the information from Knowledge Graph and significantly reduce the factual errors in the summary.
翻訳日:2022-12-08 15:06:07 公開日:2022-12-06
# HADAS:エッジパフォーマンススケーリングのためのハードウェア対応動的ニューラルネットワーク検索

HADAS: Hardware-Aware Dynamic Neural Architecture Search for Edge Performance Scaling ( http://arxiv.org/abs/2212.03354v1 )

ライセンス: Link先を確認
Halima Bouzidi, Mohanad Odema, Hamza Ouarnoughi, Mohammad Abdullah Al Faruque, Smail Niar(参考訳) 動的ニューラルネットワーク(DyNN)は、計算効率を保ちながらリソース制約されたエッジデバイス上でのインテリジェンスを実現するための有効な技術となっている。 多くの場合、DyNNの実装は、基礎となるバックボーンアーキテクチャが設計段階で開発されているため、下限の最適化が可能である。 (i)早期退社等の動的コンピューティング機能、 (II) 基盤となるハードウェア、例えば動的電圧および周波数スケーリング(DVFS)の資源効率特性。 HADASは,性能と資源効率を最大化するために,バックボーン,早期終了機能,DVFS設定を協調的に最適化した,DyNNアーキテクチャを実現する新しいハードウェア対応動的ニューラルネットワーク検索フレームワークである。 CIFAR-100データセットと様々なエッジコンピューティングプラットフォームを用いた実験では、HADASのダイナミックモデルが従来の動的モデルと比較して最大57%のエネルギー効率向上を実現し、所望の精度スコアを維持した。 私たちのコードはhttps://github.com/HalimaBouzidi/HADASで利用可能です。

Dynamic neural networks (DyNNs) have become viable techniques to enable intelligence on resource-constrained edge devices while maintaining computational efficiency. In many cases, the implementation of DyNNs can be sub-optimal due to its underlying backbone architecture being developed at the design stage independent of both: (i) the dynamic computing features, e.g. early exiting, and (ii) the resource efficiency features of the underlying hardware, e.g., dynamic voltage and frequency scaling (DVFS). Addressing this, we present HADAS, a novel Hardware-Aware Dynamic Neural Architecture Search framework that realizes DyNN architectures whose backbone, early exiting features, and DVFS settings have been jointly optimized to maximize performance and resource efficiency. Our experiments using the CIFAR-100 dataset and a diverse set of edge computing platforms have seen HADAS dynamic models achieve up to 57% energy efficiency gains compared to the conventional dynamic ones while maintaining the desired level of accuracy scores. Our code is available at https://github.com/HalimaBouzidi/HADAS
翻訳日:2022-12-08 15:05:53 公開日:2022-12-06
# ビデオ学習者のための微調整CLIPモデル

Fine-tuned CLIP Models are Efficient Video Learners ( http://arxiv.org/abs/2212.03640v1 )

ライセンス: Link先を確認
Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan(参考訳) 画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 ビデオの同様のスケールでのトレーニングは不可能であるため、近年のアプローチでは、画像ベースのCLIPをビデオドメインに効果的に転送することに重点を置いている。 この追求では、細心の注意を要する時間情報とフレーム間の関係を学ぶために新しいパラメトリックモジュールが追加される。 さらに、結果モデルがビデオで学習されると、与えられたタスクの分散と一般化の側面の欠如に過剰にフィットする傾向があります。 画像レベルのクリップ表現をビデオに効果的に転送するには、どうすればよいのか? そこで本研究では,映像から映像へのドメイン間ギャップを埋めるために,簡易なビデオ微調整クリップ(vifi-clip)ベースラインが一般的に十分であることを示す。 定性解析により,クリップ画像エンコーダからのフレームレベルの処理が,vifi-clip内の時間的手がかりを暗黙的にモデル化するのに有効であることを示す。 このような微調整は、モデルがシーンダイナミクス、オブジェクトの移動、オブジェクト間の関係に集中するのに役立ちます。 完全な微調整が不可能な低データ体制では、まずファインチューニングを使用してドメインギャップをブリッジし、次に言語と視覚のプロンプトを学習してCLIP表現を適応する'ブリッジとプロンプト'アプローチを提案する。 ゼロショット・ベース・ツー・ノーベル一般化・少数ショット・完全教師付き設定を5つのビデオベンチマークで評価した。 私たちのコードはhttps://github.com/muzairkhattak/ViFi-CLIPで利用可能です。

Large-scale multi-modal training with image-text pairs imparts strong generalization to CLIP model. Since training on a similar scale for videos is infeasible, recent approaches focus on the effective transfer of image-based CLIP to the video domain. In this pursuit, new parametric modules are added to learn temporal information and inter-frame relationships which require meticulous design efforts. Furthermore, when the resulting models are learned on videos, they tend to overfit on the given task distribution and lack in generalization aspect. This begs the following question: How to effectively transfer image-level CLIP representations to videos? In this work, we show that a simple Video Fine-tuned CLIP (ViFi-CLIP) baseline is generally sufficient to bridge the domain gap from images to videos. Our qualitative analysis illustrates that the frame-level processing from CLIP image-encoder followed by feature pooling and similarity matching with corresponding text embeddings helps in implicitly modeling the temporal cues within ViFi-CLIP. Such fine-tuning helps the model to focus on scene dynamics, moving objects and inter-object relationships. For low-data regimes where full fine-tuning is not viable, we propose a `bridge and prompt' approach that first uses fine-tuning to bridge the domain gap and then learns prompts on language and vision side to adapt CLIP representations. We extensively evaluate this simple yet strong baseline on zero-shot, base-to-novel generalization, few-shot and fully supervised settings across five video benchmarks. Our code is available at https://github.com/muzairkhattak/ViFi-CLIP.
翻訳日:2022-12-08 15:03:23 公開日:2022-12-06
# Diffusion-SDF:Voxelized Diffusionによるテキスト・ツー・シェイプ

Diffusion-SDF: Text-to-Shape via Voxelized Diffusion ( http://arxiv.org/abs/2212.03293v1 )

ライセンス: Link先を確認
Muheng Li, Yueqi Duan, Jie Zhou, Jiwen Lu(参考訳) 3d仮想モデリング技術への産業的注目が高まり、特定の条件(テキストなど)に基づいた新たな3dコンテンツの生成がホットな問題となっている。 本稿では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。 従来のアプローチでは、3Dデータ表現と形状生成の両方に柔軟性が欠けており、与えられたテキスト記述に応じて高度に多様化された3D形状を生成することができない。 これを解決するために,Voxelized DiffusionモデルとともにSDFオートエンコーダを提案し,3次元形状のvoxelized signed distance field (SDF) の表現を学習・生成する。 具体的には,標準的なU-Netアーキテクチャ内にローカルなネットワークを組み込む新しいUinU-Netアーキテクチャを設計し,パッチ非依存のSDF表現を再構築する。 我々はこのアプローチを,テキストコンディショニングによる形状の補完や操作を含む,さらにテキストから形状へのタスクに拡張する。 実験の結果, 拡散sdfは, テキスト記述によく適合する高品質かつ高度に多様化した3次元形状を生成できることがわかった。 拡散SDFは従来の最先端のテキスト・ツー・シェイプ・アプローチと比較して優位性を示している。

With the rising industrial attention to 3D virtual modeling technology, generating novel 3D content based on specified conditions (e.g. text) has become a hot issue. In this paper, we propose a new generative 3D modeling framework called Diffusion-SDF for the challenging task of text-to-shape synthesis. Previous approaches lack flexibility in both 3D data representation and shape generation, thereby failing to generate highly diversified 3D shapes conforming to the given text descriptions. To address this, we propose a SDF autoencoder together with the Voxelized Diffusion model to learn and generate representations for voxelized signed distance fields (SDFs) of 3D shapes. Specifically, we design a novel UinU-Net architecture that implants a local-focused inner network inside the standard U-Net architecture, which enables better reconstruction of patch-independent SDF representations. We extend our approach to further text-to-shape tasks including text-conditioned shape completion and manipulation. Experimental results show that Diffusion-SDF is capable of generating both high-quality and highly diversified 3D shapes that conform well to the given text descriptions. Diffusion-SDF has demonstrated its superiority compared to previous state-of-the-art text-to-shape approaches.
翻訳日:2022-12-08 14:55:53 公開日:2022-12-06
# 屋内農業における植物成長をモデルとしたシミュレーション環境

A Learned Simulation Environment to Model Plant Growth in Indoor Farming ( http://arxiv.org/abs/2212.03155v1 )

ライセンス: Link先を確認
J. Amacker, T. Kleiven, M. Grigore, P. Albrecht, and C. Horn(参考訳) 精密農業における環境パラメータの変化が植物生育に及ぼす影響を定量化するシミュレータを開発した。 本手法は,植物画像の処理と深層畳み込みニューラルネットワーク(cnn),成長曲線モデリング,機械学習を組み合わせたものである。 その結果,環境変数に基づく成長率予測が可能となり,多用途強化学習エージェントの開発への扉を開くことができた。

We developed a simulator to quantify the effect of changes in environmental parameters on plant growth in precision farming. Our approach combines the processing of plant images with deep convolutional neural networks (CNN), growth curve modeling, and machine learning. As a result, our system is able to predict growth rates based on environmental variables, which opens the door for the development of versatile reinforcement learning agents.
翻訳日:2022-12-07 18:16:19 公開日:2022-12-06
# 中性原子量子プロセッサの金融リスク管理

Financial Risk Management on a Neutral Atom Quantum Processor ( http://arxiv.org/abs/2212.03223v1 )

ライセンス: Link先を確認
Lucas Leclerc, Luis Ortiz-Guitierrez, Sebastian Grijalva, Boris Albrecht, Julia R. K. Cline, Vincent E. Elfving, Adrien Signoles, Lo\"ic Henriet, Gianni Del Bimbo, Usman Ayub Sheikh, Maitree Shah, Luc Andrea, Faysal Ishtiaq, Andoni Duarte, Samuel Mugel, Irene Caceres, Michel Kurek, Roman Orus, Achraf Seddik, Oumaima Hammammi, Hacene Isselnane, Didier M'tamon(参考訳) 金融業界で収集された大規模なデータセットを扱う機械学習モデルは、実行に高価なブラックボックスになることが多い。 量子コンピューティングのパラダイムは、従来のアルゴリズムと組み合わせることで、競争力があり、より速く、より解釈可能なモデルを提供する新しい最適化手法を提案する。 本研究では,金融リスク管理分野において,信用格付けダウングレード予測のための量子エンハンスド機械学習ソリューションを提案する。 我々はこの解法を,60量子ビットまでの中性原子量子処理ユニットに実装し,実時間データセットに実装する。 我々は,最先端のランダムフォレストベンチマークに対して,より優れた解釈性と同等のトレーニング時間を実現する一方で,競争力の高い性能を報告している。 テンソルネットワークを用いた数値シミュレーションにより,提案手法の短期的検証における性能向上について検討する。

Machine Learning models capable of handling the large datasets collected in the financial world can often become black boxes expensive to run. The quantum computing paradigm suggests new optimization techniques, that combined with classical algorithms, may deliver competitive, faster and more interpretable models. In this work we propose a quantum-enhanced machine learning solution for the prediction of credit rating downgrades, also known as fallen-angels forecasting in the financial risk management field. We implement this solution on a neutral atom Quantum Processing Unit with up to 60 qubits on a real-life dataset. We report competitive performances against the state-of-the-art Random Forest benchmark whilst our model achieves better interpretability and comparable training times. We examine how to improve performance in the near-term validating our ideas with Tensor Networks-based numerical simulations.
翻訳日:2022-12-07 18:16:13 公開日:2022-12-06
# ISAACS:安全のためのソフト・アドベラル・アクター・クリティカル

ISAACS: Iterative Soft Adversarial Actor-Critic for Safety ( http://arxiv.org/abs/2212.03228v1 )

ライセンス: Link先を確認
Kai-Chieh Hsu, Duy Phuong Nguyen, Jaime Fern\'andez Fisac(参考訳) 非制御環境におけるロボットの展開は、不規則な地形や風条件など、これまで見つからなかったシナリオの下でのロバストな運用を必要とする。 残念ながら、ロバストな最適制御理論からの厳密な安全フレームワークは高次元の非線形力学に乏しいが、よりトラクタブルな"ディープ"手法によって計算される制御ポリシーには保証がなく、不確実な動作条件にはほとんど堅牢性を示す傾向にある。 本研究は,ゲーム理論の安全性解析と対向強化学習を組み合わせることで,境界モデリング誤差を考慮したロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを提案する。 ソフトアクター批判スキームの後に、設計者の不確実性によって許容されるモデルエラーとトレーニング・ツー・デプロイの不一致の最悪のケースの実現を誘発することを目的とした、敵対的「混乱」エージェントと、安全を追求するフォールバックポリシーが共同で訓練される。 学習された制御ポリシーは本質的に安全を保証しないが、前方到達性ロールアウトに基づく堅牢な安全性保証を備えたリアルタイム安全フィルタ(またはシールド)を構築するために使用される。 このシールドは、安全非依存の制御ポリシーと組み合わせて使用することができ、安全を損なう可能性のあるタスク駆動のアクションを予測できる。 5dレースカーシミュレータにおける学習に基づく安全アプローチを評価し,学習した安全ポリシーと数値的に得られた最適解を比較し,提案する安全シールドのロバストな安全性保証を,最悪のモデルの不一致に対して実証的に検証した。

The deployment of robots in uncontrolled environments requires them to operate robustly under previously unseen scenarios, like irregular terrain and wind conditions. Unfortunately, while rigorous safety frameworks from robust optimal control theory scale poorly to high-dimensional nonlinear dynamics, control policies computed by more tractable "deep" methods lack guarantees and tend to exhibit little robustness to uncertain operating conditions. This work introduces a novel approach enabling scalable synthesis of robust safety-preserving controllers for robotic systems with general nonlinear dynamics subject to bounded modeling error by combining game-theoretic safety analysis with adversarial reinforcement learning in simulation. Following a soft actor-critic scheme, a safety-seeking fallback policy is co-trained with an adversarial "disturbance" agent that aims to invoke the worst-case realization of model error and training-to-deployment discrepancy allowed by the designer's uncertainty. While the learned control policy does not intrinsically guarantee safety, it is used to construct a real-time safety filter (or shield) with robust safety guarantees based on forward reachability rollouts. This shield can be used in conjunction with a safety-agnostic control policy, precluding any task-driven actions that could result in loss of safety. We evaluate our learning-based safety approach in a 5D race car simulator, compare the learned safety policy to the numerically obtained optimal solution, and empirically validate the robust safety guarantee of our proposed safety shield against worst-case model discrepancy.
翻訳日:2022-12-07 18:15:59 公開日:2022-12-06
# Mixer: Image Mixupを用いたDNN透かし

Mixer: DNN Watermarking using Image Mixup ( http://arxiv.org/abs/2212.02814v1 )

ライセンス: Link先を確認
Kassem Kallas and Teddy Furon(参考訳) 展開前にDNNモデルの知的財産権を保護することが重要である。 DNNはメインタスクとウォーターマーキングタスクの2つの主要なタスクを実行する必要がある。 本稿では,これら2つのタスク間の強い結び付きを確立するために,軽量で信頼性が高くセキュアなdnn透かしを提案する。 ウォーターマークタスクをトリガーするサンプルは、トレーニングまたはテストサンプルからイメージミックスアップを使用して生成される。 これは、トレーニング時にモデルに透かしを埋め込むのに使われるサンプルに限らないトリガーの無限大が存在することを意味する。 異なるデータセットに対する画像分類モデルに関する広範囲な実験と、それらを様々な攻撃に晒すことは、提案されたウォーターマーキングが適切なレベルのセキュリティと堅牢性を提供することを示している。

It is crucial to protect the intellectual property rights of DNN models prior to their deployment. The DNN should perform two main tasks: its primary task and watermarking task. This paper proposes a lightweight, reliable, and secure DNN watermarking that attempts to establish strong ties between these two tasks. The samples triggering the watermarking task are generated using image Mixup either from training or testing samples. This means that there is an infinity of triggers not limited to the samples used to embed the watermark in the model at training. The extensive experiments on image classification models for different datasets as well as exposing them to a variety of attacks, show that the proposed watermarking provides protection with an adequate level of security and robustness.
翻訳日:2022-12-07 18:12:56 公開日:2022-12-06
# 連続学習の統計力学--変動原理と平均場ポテンシャル

Statistical mechanics of continual learning: variational principle and mean-field potential ( http://arxiv.org/abs/2212.02846v1 )

ライセンス: Link先を確認
Chan Li and Zhenyue Huang and Wenxuan Zou and Haiping Huang(参考訳) 人工知能への障害は、異なる性質の複数のタスクの継続的な学習によって設定される。 近年、機械学習と神経科学のアングルの両方から様々なヒューリスティックなトリックが提案されているが、それらは統一された理論基盤を欠いている。 本稿では,重み付き単層および多層ニューラルネットワークにおける連続学習に着目した。 そこで, ニューラルネットワークは, 勾配が定義する離散重み空間ではなく, フィールド空間で訓練され, さらに, 重みの不確かさが自然に組み込まれ, タスク間のシナプス資源を調節する, 変分ベイズ学習環境を提案する。 物理学的な観点からは、変分連続学習をフランツ・パリシ熱力学ポテンシャルフレームワークに翻訳し、そこでは以前のタスク知識が事前および参照としても作用する。 したがって, 学習性能を平均場次数パラメータを用いて解析し, その予測は確率勾配降下法による数値実験と一致する。 提案する原理的フレームワークは弾性重み強化にもつながり,神経科学はメタ塑性に触発され,深層ネットワークを用いた実世界のマルチタスク学習に理論に基づく手法を提供する。

An obstacle to artificial general intelligence is set by the continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on the continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural network is trained in a field-space, rather than the gradient-ill-defined discrete-weight space, and furthermore, the weight uncertainty is naturally incorporated, and modulates the synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into the Franz-Parisi thermodynamic potential framework, where the previous task knowledge acts as a prior and a reference as well. Therefore, the learning performance can be analytically studied with mean-field order parameters, whose predictions coincide with the numerical experiments using stochastic gradient descent methods. Our proposed principled frameworks also connect to elastic weight consolidation, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
翻訳日:2022-12-07 18:12:44 公開日:2022-12-06
# ニューラルネットワークの説明可能性に関する時系列的アプローチとリスク管理とフラッド検出への応用

A Time Series Approach to Explainability for Neural Nets with Applications to Risk-Management and Fraud Detection ( http://arxiv.org/abs/2212.02906v1 )

ライセンス: Link先を確認
Marc Wildi and Branka Hadji Misheva(参考訳) 人工知能は、テクノロジー駆動のアプリケーション分野における最大の革命の1つになっている。 金融分野では、大きな市場革新の機会がたくさんあるが、aiシステムの広範な採用は、私たちのアウトプットに対する信頼に大きく依存している。 技術に対する信頼は、予測の背後にある根拠を理解することによって実現される。 この目的のために、eXplainable AIの概念が登場し、ある決定に複雑なモデルがどのように到達したかをユーザに説明しようとする一連のテクニックが導入された。 断面データの場合、古典的なXAIアプローチはモデルの内部動作に関する貴重な洞察をもたらすが、これらの手法は概して依存構造や非定常性の存在下での長手データ(時系列)にうまく対応できない。 本稿では,データの自然時間順序を保存・活用する深層学習手法のための新しいxai手法を提案する。

Artificial intelligence is creating one of the biggest revolution across technology driven application fields. For the finance sector, it offers many opportunities for significant market innovation and yet broad adoption of AI systems heavily relies on our trust in their outputs. Trust in technology is enabled by understanding the rationale behind the predictions made. To this end, the concept of eXplainable AI emerged introducing a suite of techniques attempting to explain to users how complex models arrived at a certain decision. For cross-sectional data classical XAI approaches can lead to valuable insights about the models' inner workings, but these techniques generally cannot cope well with longitudinal data (time series) in the presence of dependence structure and non-stationarity. We here propose a novel XAI technique for deep learning methods which preserves and exploits the natural time ordering of the data.
翻訳日:2022-12-07 18:12:22 公開日:2022-12-06
# 柔軟ロボットのための非線形モデル予測制御の安全模倣学習

Safe Imitation Learning of Nonlinear Model Predictive Control for Flexible Robots ( http://arxiv.org/abs/2212.02941v1 )

ライセンス: Link先を確認
Shamil Mamedov, Rudolf Reiter, Moritz Diehl, Jan Swevers(参考訳) 柔軟なロボットは、安全な人間とロボットのコラボレーションと負荷対質量比の増加という業界の大きな問題を克服する可能性がある。 しかし、振動と高次元状態空間は柔軟ロボットの制御を複雑にする。 本研究では, 柔軟ロボットの非線形モデル予測制御(NMPC)を, 剛有限要素法を用いてモデル化した。 NMPCはシミュレーションでよく機能するが、計算の複雑さは実際の展開を妨げている。 機能近似器としてニューラルネットワークを用いたNMPCの模倣学習は、わずかな性能損失とより重大な安全保証の損失を犠牲にして、コントローラの計算時間を大幅に改善できることを示す。 我々は,より単純なnmpcとして定式化した安全フィルタを用いて安全保証を回復する。 シミュレーションされた3自由度フレキシブルロボットマニピュレータの実験では、提案された安全近似NMPCコントローラの平均計算時間は3.6msであり、元のNMPCは11.8msである。

Flexible robots may overcome the industry's major problems: safe human-robot collaboration and increased load-to-mass ratio. However, oscillations and high dimensional state space complicate the control of flexible robots. This work investigates nonlinear model predictive control (NMPC) of flexible robots -- for simultaneous planning and control -- modeled via the rigid finite element method. Although NMPC performs well in simulation, computational complexity prevents its deployment in practice. We show that imitation learning of NMPC with neural networks as function approximator can massively improve the computation time of the controller at the cost of slight performance loss and, more critically, loss of safety guarantees. We leverage a safety filter formulated as a simpler NMPC to recover safety guarantees. Experiments on a simulated three degrees of freedom flexible robot manipulator demonstrate that the average computational time of the proposed safe approximate NMPC controller is 3.6 ms while of the original NMPC is 11.8 ms. Fast and safe approximate NMPC might facilitate the industry's adoption of flexible robots and new solutions for similar problems, e.g., deformable object manipulation and soft robot control.
翻訳日:2022-12-07 18:12:06 公開日:2022-12-06
# FretNet:polyphonic Guitar Tablature Transcriptionのための連続価値ピッチパターンストリーム

FretNet: Continuous-Valued Pitch Contour Streaming for Polyphonic Guitar Tablature Transcription ( http://arxiv.org/abs/2212.03023v1 )

ライセンス: Link先を確認
Frank Cwitkowitz, Toni Hirvonen, Anssi Klapuri(参考訳) 近年,音声から音符の様々な属性を推定するAMT(Automatic Music Transcription)の課題が注目されている。 同時に、MPE(Multi-Pitch Estimation)という関連するタスクは、たとえ暗黙的にさえも、ほとんど全てのATTアプローチにおいて、難しいが必要なコンポーネントであり続けている。 AMTの文脈では、ピッチ情報は典型的には西洋音楽の音階の音階に量子化される。 より一般的な文脈でも、MPEシステムは典型的にある程度の量子化を伴うピッチ予測を生成する。 AMT(Guitar Tablature Transcription, GTT)の特定の応用においては、連続的に評価されたピッチの輪郭を推定することがより意味がある。 ギター・タブラチュアは様々な演奏技法を表現できる能力を持ち、いくつかはピッチ変調を含む。 AMTの現代的アプローチはピッチ変調に十分対応せず、より多くのモデル複雑さを犠牲にして量子化を減らしている。 本稿では,連続的に値付けられたピッチの輪郭を推定し,その弦や起源のフレットに応じてグループ化するGTTの定式化について述べる。 提案手法は, MPEの分解能を著しく向上し, ベースラインモデルと競合するタブレート推定結果が得られることを示した。

In recent years, the task of Automatic Music Transcription (AMT), whereby various attributes of music notes are estimated from audio, has received increasing attention. At the same time, the related task of Multi-Pitch Estimation (MPE) remains a challenging but necessary component of almost all AMT approaches, even if only implicitly. In the context of AMT, pitch information is typically quantized to the nominal pitches of the Western music scale. Even in more general contexts, MPE systems typically produce pitch predictions with some degree of quantization. In certain applications of AMT, such as Guitar Tablature Transcription (GTT), it is more meaningful to estimate continuous-valued pitch contours. Guitar tablature has the capacity to represent various playing techniques, some of which involve pitch modulation. Contemporary approaches to AMT do not adequately address pitch modulation, and offer only less quantization at the expense of more model complexity. In this paper, we present a GTT formulation that estimates continuous-valued pitch contours, grouping them according to their string and fret of origin. We demonstrate that for this task, the proposed method significantly improves the resolution of MPE and simultaneously yields tablature estimation results competitive with baseline models.
翻訳日:2022-12-07 18:11:49 公開日:2022-12-06
# シストリックアレイを用いたハードウェアアクセラレーターのDNNオペレータ自動チューニングフレームワークへの統合

Integration of a systolic array based hardware accelerator into a DNN operator auto-tuning framework ( http://arxiv.org/abs/2212.03034v1 )

ライセンス: Link先を確認
F. N. Peccia, O. Bringmann(参考訳) カスタムアクセラレータと組み合わせた異種SoCへのニューラルネットワークのデプロイは、これらのシステムに提供されるエンドツーエンドソフトウェアツールが欠如しているため、難しい作業である。 さらに、アクセル開発者が典型的なテンソル操作のために提供している、すでに利用可能な低レベルのスケジュールとマッピング戦略は、必ずしも特定のユースケースごとに最適なものとは限らない。 そのため、特定のハードウェア構成上で生成されたコードのパフォーマンスを自動的にテストするフレームワークが特に興味深い。 本稿では,コード生成フレームワークであるtvmとsystolic arrayベースのアクセラレータであるgemminiの統合について述べる。 general Matrix Multiply (GEMM) テンソル操作をGemminiにオフロードする一般的なスケジュールについて詳述し、AutoTVMチューニングプロセスを実行することでその適合性を検証した。 生成したコードは、Xilinx ZCU102FPGA上で100MHzクロックで46ギガオペレーション/秒(GOP)のピークスループットを実現する。 さらに、この統合によって生成されたコードは、gemmini開発者が実際のワークロードで提供するデフォルトのハンドチューニングされたスケジュールを超えることができた。

The deployment of neural networks on heterogeneous SoCs coupled with custom accelerators is a challenging task because of the lack of end-to-end software tools provided for these systems. Moreover, the already available low level schedules and mapping strategies provided by the accelerator developers for typical tensor operations are not necessarily the best possible ones for each particular use case. This is why frameworks which automatically test the performance of the generated code on a specific hardware configuration are of special interest. In this work, the integration between the code generation framework TVM and the systolic array-based accelerator Gemmini is presented. A generic schedule to offload the GEneral Matrix Multiply (GEMM) tensor operation onto Gemmini is detailed, and its suitability is tested by executing the AutoTVM tuning process on it. Our generated code achieves a peak throughput of 46 giga-operations per second (GOPs) under a 100 MHz clock on a Xilinx ZCU102 FPGA, outperforming previous work. Furthermore, the code generated by this integration was able to surpass the default hand-tuned schedules provided by the Gemmini developers in real-world workloads.
翻訳日:2022-12-07 18:11:25 公開日:2022-12-06
# ストラグラー-弾力性差分型分散型学習

Straggler-Resilient Differentially-Private Decentralized Learning ( http://arxiv.org/abs/2212.03080v1 )

ライセンス: Link先を確認
Yauhen Yakimenka, Chung-Wei Weng, Hsuan-Yin Lin, Eirik Rosnes, and J\"org Kliewer(参考訳) ユーザデータのプライバシを保ちながら,論理リング上の分散学習におけるストラグラー問題を考える。 特に,Cyffers と Bellet による分散化により,最近提案された差分プライバシー(DP)増幅フレームワークを拡張して,計算処理と通信遅延の両面でのトレーニング遅延を包含する。 収束速度とDPレベルの両方の分析結果は、スキップスキーム(タイムアウト後にストラグラーを無視する)と、トレーニングが続く前に各ノードが終了するのを待つベースラインスキームの両方に対して導出される。 スキップスキームのタイムアウトによってパラメータ化された、トレーニング全体のレイテンシ、精度、プライバシのトレードオフを特定し、実世界のデータセットでロジスティック回帰を実証的に検証する。

We consider the straggler problem in decentralized learning over a logical ring while preserving user data privacy. Especially, we extend the recently proposed framework of differential privacy (DP) amplification by decentralization by Cyffers and Bellet to include overall training latency--comprising both computation and communication latency. Analytical results on both the convergence speed and the DP level are derived for both a skipping scheme (which ignores the stragglers after a timeout) and a baseline scheme that waits for each node to finish before the training continues. A trade-off between overall training latency, accuracy, and privacy, parameterized by the timeout of the skipping scheme, is identified and empirically validated for logistic regression on a real-world dataset.
翻訳日:2022-12-07 18:11:07 公開日:2022-12-06
# 部分微分方程式の深層学習法と関連するパラメータ同定問題

Deep Learning Methods for Partial Differential Equations and Related Parameter Identification Problems ( http://arxiv.org/abs/2212.03130v1 )

ライセンス: Link先を確認
Derick Nganyu Tanyu, Jianfeng Ning, Tom Freudenberg, Nick Heilenk\"otter, Andreas Rademacher, Uwe Iben, and Peter Maass(参考訳) 近年、深層学習(深層学習)の概念を数学でより深く理解することを目指す深層学習(深層学習)のための数学の成長を目の当たりにしており、深層学習アルゴリズムが数学の問題を解くために使われる数学のための強固な深層学習(深層学習)の方法を模索している。 後者は、深層学習が科学計算の問題に適用される科学的機械学習の分野を普及させた。 特に、偏微分方程式(pdes)の特定のクラスを解決するために、ますます多くのニューラルネットワークアーキテクチャが開発されている。 このような手法は、pdesに固有の特性を利用し、従来のフィードフォワードニューラルネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワークよりもpdesをうまく解決する。 本研究は, パラメトリックPDEが科学・工学におけるほとんどの自然・物理的プロセスのモデル化に広く利用されている数学的モデリングの領域において大きな影響を与え, それらの手法を概観し, パラメトリック研究や, 関連する逆問題にも拡張するものである。 我々は、産業応用におけるそれらの関連性を等しく示そうとしている。

Recent years have witnessed a growth in mathematics for deep learning--which seeks a deeper understanding of the concepts of deep learning with mathematics, and explores how to make it more robust--and deep learning for mathematics, where deep learning algorithms are used to solve problems in mathematics. The latter has popularised the field of scientific machine learning where deep learning is applied to problems in scientific computing. Specifically, more and more neural network architectures have been developed to solve specific classes of partial differential equations (PDEs). Such methods exploit properties that are inherent to PDEs and thus solve the PDEs better than classical feed-forward neural networks, recurrent neural networks, and convolutional neural networks. This has had a great impact in the area of mathematical modeling where parametric PDEs are widely used to model most natural and physical processes arising in science and engineering, In this work, we review such methods and extend them for parametric studies as well as for solving the related inverse problems. We equally proceed to show their relevance in some industrial applications.
翻訳日:2022-12-07 18:10:19 公開日:2022-12-06
# codexがhackerrankをハック: 暗記問題とコード合成評価のためのフレームワーク

Codex Hacks HackerRank: Memorization Issues and a Framework for Code Synthesis Evaluation ( http://arxiv.org/abs/2212.02684v1 )

ライセンス: Link先を確認
Anjan Karmakar, Julian Aron Prenner, Marco D'Ambros, Romain Robbes(参考訳) Codexモデルは、自然言語の問題記述からコードを合成する素晴らしい能力を示している。 しかし、未知の障害モードや隠れバイアスを明らかにするためには、このような大規模モデルは、複数の多様な評価研究に体系的に従わなければならない。 本研究では,人気のある競合プログラミングポータルであるHackerRankから115のPython問題文をセットとして,Codexモデルのコード合成機能を評価する。 評価の結果,codexはpythonに習熟しており,ゼロショット設定では96%,数ショット設定では100%の問題を解決していることがわかった。 しかし、Codexは、我々の評価に基づいて暗記コードを生成する明確な兆候を示す。 特にこのようなモデルの採用と使用は、コードの記述方法や生成方法に直接影響を与える可能性があるため、これは非常に危険です。 このことを念頭に置いて,ソースコードの大規模モデルに関連する重要なリスクを議論し,強調する。 最後に,突然変異に基づく問題文のバリエーションを用いたコード合成評価フレームワークを提案する。

The Codex model has demonstrated extraordinary competence in synthesizing code from natural language problem descriptions. However, in order to reveal unknown failure modes and hidden biases, such large-scale models must be systematically subjected to multiple and diverse evaluation studies. In this work, we evaluate the code synthesis capabilities of the Codex model based on a set of 115 Python problem statements from a popular competitive programming portal: HackerRank. Our evaluation shows that Codex is indeed proficient in Python, solving 96% of the problems in a zero-shot setting, and 100% of the problems in a few-shot setting. However, Codex exhibits clear signs of generating memorized code based on our evaluation. This is alarming, especially since the adoption and use of such models could directly impact how code is written and produced in the foreseeable future. With this in mind, we further discuss and highlight some of the prominent risks associated with large-scale models of source code. Finally, we propose a framework for code-synthesis evaluation using variations of problem statements based on mutations.
翻訳日:2022-12-07 18:04:01 公開日:2022-12-06
# 2段VAEによる分子特性の向上

Improving Molecule Properties Through 2-Stage VAE ( http://arxiv.org/abs/2212.02750v1 )

ライセンス: Link先を確認
Chenghui Zhou, Barnabas Poczos(参考訳) 変異オートエンコーダ(VAE)は医薬品発見の一般的な方法であり、その性能を改善するために多くのアーキテクチャやパイプラインが提案されていた。 しかし、VAEモデルは、高次元の周囲空間に埋め込まれた低次元多様体上にデータが配置され、それらがそれぞれのアプリケーションに異なる形で現れるとき、多様体の回復不良のような欠陥に悩まされる。 薬物発見におけるその影響は、幾らか未発見である。 本稿では,第2段のVAEが第1段の潜伏空間上でトレーニングされる2段のVAEを用いて,多様体回復を改善することにより,VAEとトレーニングデータセットによるデータの類似性を改善する方法について検討する。 我々は,chemblデータセットとポリマーデータセットを用いて,このアプローチを実験的に評価した。 両方のデータセットにおいて、2段階のVAE法は、既存の方法から特性統計を大幅に改善することができる。

Variational autoencoder (VAE) is a popular method for drug discovery and there had been a great deal of architectures and pipelines proposed to improve its performance. But the VAE model itself suffers from deficiencies such as poor manifold recovery when data lie on low-dimensional manifold embedded in higher dimensional ambient space and they manifest themselves in each applications differently. The consequences of it in drug discovery is somewhat under-explored. In this paper, we study how to improve the similarity of the data generated via VAE and the training dataset by improving manifold recovery via a 2-stage VAE where the second stage VAE is trained on the latent space of the first one. We experimentally evaluated our approach using the ChEMBL dataset as well as a polymer datasets. In both dataset, the 2-stage VAE method is able to improve the property statistics significantly from a pre-existing method.
翻訳日:2022-12-07 18:03:46 公開日:2022-12-06
# 畳み込みニューラルネットワークによるナノ材料の学際的発見

Interdisciplinary Discovery of Nanomaterials Based on Convolutional Neural Networks ( http://arxiv.org/abs/2212.02805v1 )

ライセンス: Link先を確認
Tong Xie and Yuwei Wan and Weijian Li and Qingyuan Linghu and Shaozhou Wang and Yalun Cai and Han Liu and Chunyu Kit and Clara Grazian and Bram Hoex(参考訳) 材料科学文献には、最新かつ包括的な材料科学知識が含まれている。 しかし、その内容は非構造的で多様であり、材料設計と合成に十分な情報を提供することで大きなギャップが生じる。 この目的のために,畳み込みニューラルネットワーク(cnn)に基づく自然言語処理(nlp)とコンピュータビジョン(cv)技術を用いて,エネルギー関連出版物におけるナノマテリアルと合成手法に関する貴重な実験的情報の発見を行った。 最初のシステムであるtextmasterでは,テキストから意見を抽出して課題と機会に分類し,それぞれ94%と92%の精度を実現しています。 第2のシステムであるGraphMasterは、98.3\%の分類精度と4.3%のデータ抽出平均平方誤差を持つ出版物から表や数字を抽出する。 以上の結果から, 合成洞察の評価と詳細な参考文献を用いた事例分析により, 特定の用途に適合する材料の適合性を評価することができた。 この研究は、CNNによるナノマテリアル研究を加速するための幅広い展望を提供する科学文献から、鉱業に関する新たな知見を提供する。

The material science literature contains up-to-date and comprehensive scientific knowledge of materials. However, their content is unstructured and diverse, resulting in a significant gap in providing sufficient information for material design and synthesis. To this end, we used natural language processing (NLP) and computer vision (CV) techniques based on convolutional neural networks (CNN) to discover valuable experimental-based information about nanomaterials and synthesis methods in energy-material-related publications. Our first system, TextMaster, extracts opinions from texts and classifies them into challenges and opportunities, achieving 94% and 92% accuracy, respectively. Our second system, GraphMaster, realizes data extraction of tables and figures from publications with 98.3\% classification accuracy and 4.3% data extraction mean square error. Our results show that these systems could assess the suitability of materials for a certain application by evaluation of synthesis insights and case analysis with detailed references. This work offers a fresh perspective on mining knowledge from scientific literature, providing a wide swatch to accelerate nanomaterial research through CNN.
翻訳日:2022-12-07 18:03:30 公開日:2022-12-06
# balpa:非スムース最適化のためのバランス付き原始双対アルゴリズムと分散最適化への応用

BALPA: A Balanced Primal-Dual Algorithm for Nonsmooth Optimization with Application to Distributed Optimization ( http://arxiv.org/abs/2212.02835v1 )

ライセンス: Link先を確認
Luyao Guo, Jinde Cao, Xinli Shi, Shaofu Yang(参考訳) 本稿では、損失関数が滑らかな項と線形写像からなる非滑らかな項からなるような等式制約を持つ合成最適化問題に対して、BALPAと呼ばれる新しい原始二元近位分割アルゴリズム(PD-PSA)を提案する。 BALPAでは、二重更新は時間変化の二次関数の近点として設計されており、これは原始的および二重更新の実装のバランスを保ち、古典的なPD-PSAの近接誘導特性を保持する。 さらに、この均衡により、線形写像のユークリッドノルムや等式制約写像が大きい複合最適化問題に対する古典的なpd-psasの非効率性が排除される。 したがって、BALPAは単純な構造と古典的なPD-PSAの実装の利点を継承するだけでなく、これらのノルムが大きくなると高速収束を保証する。 さらに,BALPA(S-BALPA)の確率的バージョンを提案し,BALPAを分散最適化に適用し,新しい分散最適化アルゴリズムを提案する。 さらに,BALPAとS-BALPAの総合収束解析を行った。 最後に,提案アルゴリズムの効率性を示す数値実験を行った。

In this paper, we propose a novel primal-dual proximal splitting algorithm (PD-PSA), named BALPA, for the composite optimization problem with equality constraints, where the loss function consists of a smooth term and a nonsmooth term composed with a linear mapping. In BALPA, the dual update is designed as a proximal point for a time-varying quadratic function, which balances the implementation of primal and dual update and retains the proximity-induced feature of classic PD-PSAs. In addition, by this balance, BALPA eliminates the inefficiency of classic PD-PSAs for composite optimization problems in which the Euclidean norm of the linear mapping or the equality constraint mapping is large. Therefore, BALPA not only inherits the advantages of simple structure and easy implementation of classic PD-PSAs but also ensures a fast convergence when these norms are large. Moreover, we propose a stochastic version of BALPA (S-BALPA) and apply the developed BALPA to distributed optimization to devise a new distributed optimization algorithm. Furthermore, a comprehensive convergence analysis for BALPA and S-BALPA is conducted, respectively. Finally, numerical experiments demonstrate the efficiency of the proposed algorithms.
翻訳日:2022-12-07 18:03:12 公開日:2022-12-06
# トラジェクティブフローマップ:大規模都市ネットワークにおける集積交通流の時間的進化解析へのグラフベースアプローチ

Trajectory Flow Map: Graph-based Approach to Analysing Temporal Evolution of Aggregated Traffic Flows in Large-scale Urban Networks ( http://arxiv.org/abs/2212.02927v1 )

ライセンス: Link先を確認
Jiwon Kim, Kai Zheng, Jonathan Corcoran, Sanghyung Ahn, and Marty Papamanolis(参考訳) 本稿では,都市全体の交通動態の可視化とキャラクタリゼーションを可能にする,時空間軌道データ表現のためのグラフベース手法を提案する。 センサー、モバイル、IoT(Internet of Things)技術の進歩により、車両や乗客の軌道は大規模に収集され、交通パターンや旅行者行動に関する重要な洞察源になりつつある。 本研究では,大規模都市ネットワークにおける交通動態をよりよく理解するために,個々のトラジェクトリデータを時間とともに進化するグラフ列(動的グラフや時間進化グラフ)に変換するトラジェクトリベースのネットワークトラフィック解析手法を開発し,集約されたトラフィックフローのコンパクトかつ情報的グラフ表現の観点からネットワーク全体のトラフィックパターンを分析する。 まず、各トラジェクタ内のデータポイントの空間分布に基づいて、ネットワーク全体をセルに分割し、セルは集約されたトラフィックフローを計測できる空間領域を表す。 次に、動く物体の動的流れを時間発展グラフとして表し、領域はグラフ頂点であり、その間の流れは重み付けされた有向エッジとして扱われる。 固定された頂点集合が与えられると、エッジは、所定の時間ウィンドウにおける2つの領域間のトラフィックフローの存在に応じて、各時間ステップで挿入または削除される。 動的グラフが構築されると、グラフマイニングアルゴリズムを用いて時間の変化点を検出する。これはグラフが全体構造に大きな変化を示す時間点を表し、そのため、一日を通して都市全体の移動パターンの変化点に対応する(ピークとオフピークの間のグローバルな遷移点など)。

This paper proposes a graph-based approach to representing spatio-temporal trajectory data that allows an effective visualization and characterization of city-wide traffic dynamics. With the advance of sensor, mobile, and Internet of Things (IoT) technologies, vehicle and passenger trajectories are being increasingly collected on a massive scale and are becoming a critical source of insight into traffic pattern and traveller behaviour. To leverage such trajectory data to better understand traffic dynamics in a large-scale urban network, this study develops a trajectory-based network traffic analysis method that converts individual trajectory data into a sequence of graphs that evolve over time (known as dynamic graphs or time-evolving graphs) and analyses network-wide traffic patterns in terms of a compact and informative graph-representation of aggregated traffic flows. First, we partition the entire network into a set of cells based on the spatial distribution of data points in individual trajectories, where the cells represent spatial regions between which aggregated traffic flows can be measured. Next, dynamic flows of moving objects are represented as a time-evolving graph, where regions are graph vertices and flows between them are treated as weighted directed edges. Given a fixed set of vertices, edges can be inserted or removed at every time step depending on the presence of traffic flows between two regions at a given time window. Once a dynamic graph is built, we apply graph mining algorithms to detect change-points in time, which represent time points where the graph exhibits significant changes in its overall structure and, thus, correspond to change-points in city-wide mobility pattern throughout the day (e.g., global transition points between peak and off-peak periods).
翻訳日:2022-12-07 18:02:50 公開日:2022-12-06
# 深層学習セグメンテーションを用いた透明砂の安定試料中の粒子運動の評価

Evaluation of particle motions in stabilized specimens of transparent sand using deep learning segmentation ( http://arxiv.org/abs/2212.02939v1 )

ライセンス: Link先を確認
David Marx, Krishna Kumar and Jorge Zornberg(参考訳) ジオグリッドシミュレーションで安定化した透明砂上での粒子の回転と変位を3軸試験で測定した。 cellpose u-netモデルはもともと生物細胞をセグメンテーションするために開発されたもので、融合した石英粒子のイメージをセグメンテーションするように訓練された。 説明可能なaiの分野のスコアカムメトリックは、セルポッセの融解石英の粒子セグメントへの応用を検証するために用いられた。 これらのセグメンテーション粒子はフーリエ形状記述子で特徴づけられ、画像にわたって追跡された。 単調三軸試験における粒子の変位はデジタル画像相関(DIC)の変位場と相関した。 DICとは対照的に、新しい手法では個々の粒子の回転を測定することもできる。 粒子回転の測定は異なる試料間で繰り返し可能であることが判明した。 測定された粒子変位と回転に基づいて, 粒子運動と不動粒子運動の状態境界線を所定の試験で同定することができた。 確率運動のゾーンのサイズは、安定化包有物の有効性を定量化するために用いられた。 繰り返し負荷試験の結果, ハニカム包有物は粒子の変位と回転を減少させることで試料を安定化させた。

Individual particle rotation and displacement were measured in triaxial tests on transparent sand stabilized with geogrid simulants. The Cellpose U-Net model, originally developed to segment biological cells, was trained to segment images of fused quartz particles. The Score-CAM metric from the field of Explainable AI was used to validate the application of Cellpose to segment particles of fused quartz. These segmented particles were characterized in terms of Fourier shape descriptors and tracked across images. The measured particle displacements in the monotonic triaxial tests correlated with displacement fields from Digital Image Correlation (DIC). In contrast to DIC, the new technique also allows for the measurement of individual particle rotation. The particle rotation measurements were found to be repeatable across different specimens. A state boundary line between probable and improbable particle motions could be identified for a given test based on the measured particle displacements and rotations. The size of the zone of probable motions was used to quantify the effectiveness of the stabilizing inclusions. The results of repeated load tests revealed that the honeycomb inclusions used stabilized the specimens by reducing both particle displacements and rotations.
翻訳日:2022-12-07 18:02:19 公開日:2022-12-06
# 完全畳み込み回路を用いた心組織伝導率の推定

Estimating Cardiac Tissue Conductivity from Electrograms with Fully Convolutional Networks ( http://arxiv.org/abs/2212.03012v1 )

ライセンス: Link先を確認
Konstantinos Ntagiantas (1), Eduardo Pignatelli (1), Nicholas S. Peters (2), Chris D. Cantwell (3), Rasheda A.Chowdhury (2), Anil A. Bharath (1) ((1) Department of Bioengineering, Imperial College London, (2) National Heart and Lung Institute, Imperial College London, (3) Department of Aeronautics, Imperial College London)(参考訳) 心房細動(atrial fibrillation, aaf)は房房における電気的活動の解離を特徴とし、線維化(scar)または機能的細胞リモデリングの領域の存在によって持続することが知られている。 したがって, afの効果的な治療には, 心筋の有効導電率と異常伝播部位の同定が不可欠である。 組織導電率の空間分布は同時取得された接触電図(EGM)の配列から直接推定できると仮定する。 ランダムな傷跡分布と現象論的心モデルを用いて模擬心AP伝播のデータセットを生成し,フィールド上の様々な位置で接触電図を算出する。 修正されたu-netアーキテクチャに基づくディープニューラルネットワークを訓練し、傷跡の位置を推定し、jaccardインデックスが91ドルである組織の導電率を定量化する。 導電率分布がモデルに入力される基底真理の正確な表現であることを確認するために、ウェーブレットに基づくサーロゲートテスト解析を適用する。 基底真理と予測の間の根平均二乗誤差(RMSE)は、基底真理と代理標本の間のRMSEよりも著しく小さい(p_{val}=0.007$)。

Atrial Fibrillation (AF) is characterized by disorganised electrical activity in the atria and is known to be sustained by the presence of regions of fibrosis (scars) or functional cellular remodeling, both of which may lead to areas of slow conduction. Estimating the effective conductivity of the myocardium and identifying regions of abnormal propagation is therefore crucial for the effective treatment of AF. We hypothesise that the spatial distribution of tissue conductivity can be directly inferred from an array of concurrently acquired contact electrograms (EGMs). We generate a dataset of simulated cardiac AP propagation using randomised scar distributions and a phenomenological cardiac model and calculate contact electrograms at various positions on the field. A deep neural network, based on a modified U-net architecture, is trained to estimate the location of the scar and quantify conductivity of the tissue with a Jaccard index of $91$%. We adapt a wavelet-based surrogate testing analysis to confirm that the inferred conductivity distribution is an accurate representation of the ground truth input to the model. We find that the root mean square error (RMSE) between the ground truth and our predictions is significantly smaller ($p_{val}=0.007$) than the RMSE between the ground truth and surrogate samples.
翻訳日:2022-12-07 18:02:02 公開日:2022-12-06
# 光センサ技術によるARガラスのエネルギー効率向上に向けて

Towards Energy Efficient Mobile Eye Tracking for AR Glasses through Optical Sensor Technology ( http://arxiv.org/abs/2212.03189v1 )

ライセンス: Link先を確認
Johannes Meyer(参考訳) スマートフォンやスマートウォッチが登場して以来、ARメガネはウェアラブル分野における次のブレークスルーと見なされている。 スマートフォンからスマートウォッチへの移行は主に既存のディスプレイ技術に基づいているが、ARメガネのディスプレイ技術は技術的な課題を呈している。 retinaプロジェクタのような多くのディスプレイ技術は、ユーザの瞳位置に基づくディスプレイの継続的な適応制御に基づいている。 さらに、ヘッドマウントシステムでは、ユーザに対して没入感のあるエクスペリエンスを提供するために、確立されたインタラクション概念の適応と拡張が必要である。 視線追跡は、ARメガネが最適化されたディスプレイ技術と視線に基づくインタラクションのコンセプトを通じてブレークスルーを達成するのを助ける重要な技術だ。 VOGのような利用可能な視線追跡技術は、特に消費電力、堅牢性、可積分性に関するARメガネの要件を満たしていない。 これらの制限をさらに克服し、ARメガネの移動眼球追跡を前進させるため、この論文ではレーザーベースの新しい目球追跡センサー技術が研究されている。 この論文は、ARメガネのエネルギー効率の高い移動眼球追跡に向けた科学的進歩に寄与している。

After the introduction of smartphones and smartwatches, AR glasses are considered the next breakthrough in the field of wearables. While the transition from smartphones to smartwatches was based mainly on established display technologies, the display technology of AR glasses presents a technological challenge. Many display technologies, such as retina projectors, are based on continuous adaptive control of the display based on the user's pupil position. Furthermore, head-mounted systems require an adaptation and extension of established interaction concepts to provide the user with an immersive experience. Eye-tracking is a crucial technology to help AR glasses achieve a breakthrough through optimized display technology and gaze-based interaction concepts. Available eye-tracking technologies, such as VOG, do not meet the requirements of AR glasses, especially regarding power consumption, robustness, and integrability. To further overcome these limitations and push mobile eye-tracking for AR glasses forward, novel laser-based eye-tracking sensor technologies are researched in this thesis. The thesis contributes to a significant scientific advancement towards energy-efficient mobile eye-tracking for AR glasses.
翻訳日:2022-12-07 18:01:36 公開日:2022-12-06
# カスケードlstmネットワークを用いた新しい深層強化学習型自動株式取引システム

A Novel Deep Reinforcement Learning Based Automated Stock Trading System Using Cascaded LSTM Networks ( http://arxiv.org/abs/2212.02721v1 )

ライセンス: Link先を確認
Jie Zou, Jiashu Lou, Baohua Wang, Sixue Liu(参考訳) 深層強化学習(DRL)アルゴリズムを用いて、より多くの株式取引戦略が構築されているが、ゲームコミュニティで広く使われているDRL手法は、信号対雑音比と不均一性の低い財務データに直接適応できないため、パフォーマンス上の欠点に悩まされている。 本稿では,まずLSTMを用いて日次データから時系列特徴を抽出し,次に抽出した特徴をトレーニングエージェントに供給し,強化学習における戦略関数もトレーニングにLSTMを使用する,DRLベースの株式取引システムを提案する。 米国市場におけるDJIと中国株式市場におけるSSE50の実験から、当社のモデルは累積リターンとシャープ比で従来のベースラインモデルよりも優れており、この優位性は、合併市場である中国株式市場においてより重要である。 提案手法は,自動株式取引システムを構築する上で有望な方法であることを示す。

More and more stock trading strategies are constructed using deep reinforcement learning (DRL) algorithms, but DRL methods originally widely used in the gaming community are not directly adaptable to financial data with low signal-to-noise ratios and unevenness, and thus suffer from performance shortcomings. In this paper, to capture the hidden information, we propose a DRL based stock trading system using cascaded LSTM, which first uses LSTM to extract the time-series features from stock daily data, and then the features extracted are fed to the agent for training, while the strategy functions in reinforcement learning also use another LSTM for training. Experiments in DJI in the US market and SSE50 in the Chinese stock market show that our model outperforms previous baseline models in terms of cumulative returns and Sharp ratio, and this advantage is more significant in the Chinese stock market, a merging market. It indicates that our proposed method is a promising way to build a automated stock trading system.
翻訳日:2022-12-07 17:55:11 公開日:2022-12-06
# swarm-to-swarmエンゲージメント問題に対するスケーラブルな計画学習フレームワークの開発

Scalable Planning and Learning Framework Development for Swarm-to-Swarm Engagement Problems ( http://arxiv.org/abs/2212.02909v1 )

ライセンス: Link先を確認
Umut Demir, A. Sadik Satir, Gulay Goktas Sever, Cansu Yikilmaz, Nazim Kemal Ure(参考訳) 近年、誘導・航法・制御フレームワーク・スワーミング用アルゴリズムの開発が注目されている。 そうは言っても、swarmのアロケーション/トラジェクタを計画するためのアルゴリズムは、主に未熟な問題である。 小規模シナリオは微分ゲーム理論のツールで対処できるが、既存のアプローチでは大規模マルチエージェント追跡回避(pe)シナリオではスケールできない。 本研究では,大規模スワムエンゲージメント問題に対する強化学習(RL)に基づくフレームワークを,多数の独立したマルチエージェント追従回避ゲームに分解する。 有限時間キャプチャが一定の条件下で保証される様々なマルチエージェントPEシナリオをシミュレートする。 算出されたPE統計は、RLアルゴリズムを用いて制御されたSwarmユニットを割り当て、敵のSwarmユニットを最大効率で除去する高レベルアロケーション層に対する報酬信号として提供される。 我々は大規模なSwarm-to-Swarmエンゲージメントシミュレーションにおけるアプローチを検証する。

Development of guidance, navigation and control frameworks/algorithms for swarms attracted significant attention in recent years. That being said, algorithms for planning swarm allocations/trajectories for engaging with enemy swarms is largely an understudied problem. Although small-scale scenarios can be addressed with tools from differential game theory, existing approaches fail to scale for large-scale multi-agent pursuit evasion (PE) scenarios. In this work, we propose a reinforcement learning (RL) based framework to decompose to large-scale swarm engagement problems into a number of independent multi-agent pursuit-evasion games. We simulate a variety of multi-agent PE scenarios, where finite time capture is guaranteed under certain conditions. The calculated PE statistics are provided as a reward signal to the high level allocation layer, which uses an RL algorithm to allocate controlled swarm units to eliminate enemy swarm units with maximum efficiency. We verify our approach in large-scale swarm-to-swarm engagement simulations.
翻訳日:2022-12-07 17:54:54 公開日:2022-12-06
# チューニングフリー手法によるロバスト凸複クラスタリング

Robust convex biclustering with a tuning-free method ( http://arxiv.org/abs/2212.03122v1 )

ライセンス: Link先を確認
Yifan Chen, Chunyin Lei, Chuan-Quan Li, and Haiqiang Ma(参考訳) バイクラスタ化は遺伝子情報分析、テキストマイニング、レコメンデーションシステムなど様々な分野において、サンプルと特徴の局所相関を効果的に発見することにより広く利用されている。 しかし、重み付きデータに直面すると、多くのビクラスタリングアルゴリズムが崩壊する。 本稿では,ハマーロスを用いた凸複クラスタリングアルゴリズムの頑健なバージョンを提案する。 しかし、新しく導入されたロバスト化パラメータは、最適パラメータの選択に余計な負担をもたらす。 そこで本研究では,最適ロバスト化パラメータを高効率で自動選択するチューニングフリー手法を提案する。 シミュレーション実験により,重音に遭遇する場合の従来手法よりも,提案手法の優れた性能を示す。 実生活のバイオメディカル応用も紹介する。 RパッケージRcvxBiclustrはhttps://github.com/YifanChen3/RcvxBiclustrで入手できる。

Biclustering is widely used in different kinds of fields including gene information analysis, text mining, and recommendation system by effectively discovering the local correlation between samples and features. However, many biclustering algorithms will collapse when facing heavy-tailed data. In this paper, we propose a robust version of convex biclustering algorithm with Huber loss. Yet, the newly introduced robustification parameter brings an extra burden to selecting the optimal parameters. Therefore, we propose a tuning-free method for automatically selecting the optimal robustification parameter with high efficiency. The simulation study demonstrates the more fabulous performance of our proposed method than traditional biclustering methods when encountering heavy-tailed noise. A real-life biomedical application is also presented. The R package RcvxBiclustr is available at https://github.com/YifanChen3/RcvxBiclustr.
翻訳日:2022-12-07 17:54:17 公開日:2022-12-06
# リアルタイム応用のための動的視覚トランスフォーマー推論の実現と高速化

Enabling and Accelerating Dynamic Vision Transformer Inference for Real-Time Applications ( http://arxiv.org/abs/2212.02687v1 )

ライセンス: Link先を確認
Kavya Sreedhar, Jason Clemons, Rangharajan Venkatesan, Stephen W. Keckler, and Mark Horowitz(参考訳) コンピュータビジョンタスクのための最先端のディープラーニングモデルの多くは、トランスフォーマーアーキテクチャに基づいている。 このようなモデルは計算コストが高く、通常は配置シナリオを満たすように静的に設定される。 しかし、リアルタイムアプリケーションでは、すべての推論で利用可能なリソースは、最先端のモデルが使用するものよりも大きく、小さくなり得る。 動的モデルを使用してモデルの実行を適応し、リアルタイムのアプリケーションリソース制約を満たすことができます。 従来の動的処理は,精度を維持しつつ,CNNやBERTなどの初期変圧器モデルに焦点を合わせながら,より複雑な入力画像に対して資源利用を最小化してきたが,我々は,入力画像とは独立に,システムの動的リソース制約を満たすように視覚変換器を適用する。 初期のトランスフォーマーモデルとは異なり、最近の最先端の視覚トランスフォーマーは畳み込み層に大きく依存している。 事前学習されたモデルは、畳み込み層や自己アテンション層で計算をスキップするのにかなり耐性があることを示し、追加のトレーニングなしで動的リアルタイム推論のための低オーバーヘッドシステムを作成することができる。 最後に、これらのダイナミックビジョントランスフォーマーに最適化された加速器を5nm技術で開発する。 PE配列は2.26mm$^2$で、セマンティックセグメンテーションのための最先端トランスフォーマーベースのモデルのためのNVIDIA TITAN V GPUより17倍高速である。

Many state-of-the-art deep learning models for computer vision tasks are based on the transformer architecture. Such models can be computationally expensive and are typically statically set to meet the deployment scenario. However, in real-time applications, the resources available for every inference can vary considerably and be smaller than what state-of-the-art models use. We can use dynamic models to adapt the model execution to meet real-time application resource constraints. While prior dynamic work has primarily minimized resource utilization for less complex input images while maintaining accuracy and focused on CNNs and early transformer models such as BERT, we adapt vision transformers to meet system dynamic resource constraints, independent of the input image. We find that unlike early transformer models, recent state-of-the-art vision transformers heavily rely on convolution layers. We show that pretrained models are fairly resilient to skipping computation in the convolution and self-attention layers, enabling us to create a low-overhead system for dynamic real-time inference without additional training. Finally, we create a optimized accelerator for these dynamic vision transformers in a 5nm technology. The PE array occupies 2.26mm$^2$ and is 17 times faster than a NVIDIA TITAN V GPU for state-of-the-art transformer-based models for semantic segmentation.
翻訳日:2022-12-07 17:45:23 公開日:2022-12-06
# 360画像と点雲間の注意強調型クロスモーダル局在

Attention-Enhanced Cross-modal Localization Between 360 Images and Point Clouds ( http://arxiv.org/abs/2212.02757v1 )

ライセンス: Link先を確認
Zhipeng Zhao, Huai Yu, Chenwei Lyv, Wen Yang, Sebastian Scherer(参考訳) 視覚的ローカライゼーションは、特にGNSSの精度が信頼できない場合に、インテリジェントロボットや自律運転において重要な役割を果たす。 近年、ライダーマップにおけるカメラのローカライゼーションは、低コストと照明や天候変化に対する潜在的な堅牢性によって、ますます注目を集めている。 しかし、一般的に使われているピンホールカメラは視野が狭いため、全方位LiDARデータと比較して限られた情報が得られる。 この制限を克服するために,360度等角像の情報を点雲に関連付けることに着目し,高次元特徴空間における類似性を確立することにより,エンドツーエンド学習可能なネットワークを提案する。 注意機構に触発されてネットワークを最適化し,画像とポイントクラウドを比較するための高度機能を実現する。 我々は,kitti-360データセットに基づいて,360等角形画像と対応する点雲を含む複数のシーケンスを構築し,広範な実験を行う。 その結果,本手法の有効性が示された。

Visual localization plays an important role for intelligent robots and autonomous driving, especially when the accuracy of GNSS is unreliable. Recently, camera localization in LiDAR maps has attracted more and more attention for its low cost and potential robustness to illumination and weather changes. However, the commonly used pinhole camera has a narrow Field-of-View, thus leading to limited information compared with the omni-directional LiDAR data. To overcome this limitation, we focus on correlating the information of 360 equirectangular images to point clouds, proposing an end-to-end learnable network to conduct cross-modal visual localization by establishing similarity in high-dimensional feature space. Inspired by the attention mechanism, we optimize the network to capture the salient feature for comparing images and point clouds. We construct several sequences containing 360 equirectangular images and corresponding point clouds based on the KITTI-360 dataset and conduct extensive experiments. The results demonstrate the effectiveness of our approach.
翻訳日:2022-12-07 17:45:01 公開日:2022-12-06
# submanifold sparse convolutional networkを用いたct画像の自動分割

Automated Segmentation of Computed Tomography Images with Submanifold Sparse Convolutional Networks ( http://arxiv.org/abs/2212.02854v1 )

ライセンス: Link先を確認
Sa\'ul Alonso-Monsalve, Leigh H. Whitehead, Adam Aurisano and Lorena Escudero Sanchez(参考訳) 定量的ながん画像解析は、非常に専門的で時間を要するタスクである腫瘍の正確な線引きに依存している。 このため, 医用画像における腫瘍の自動分離法は近年広く開発され, CTは最も人気のある画像モダリティの1つである。 しかし、典型的なスキャンでは大量の3dボクセルは、ボリューム全体を従来のハードウェアで一度に分析することは禁じられている。 この問題を克服するために、従来の畳み込みニューラルネットワークを用いた医用イメージングでは、ダウンサンプリングやリサンプリングのプロセスが一般的に実装されている。 本稿では,入力画像のスパース化と,ダウンサンプリングの代替としてスパース畳み込み畳み込みネットワークを導入する新しい手法を提案する。 概念実証として,本手法を腎癌患者のCT画像に適用し,従来の方法と競合する腎臓と腫瘍の分画成績(約84.6%Dice類似度係数)を得るとともに,計算時間(2~3分)の大幅な改善を実現した。

Quantitative cancer image analysis relies on the accurate delineation of tumours, a very specialised and time-consuming task. For this reason, methods for automated segmentation of tumours in medical imaging have been extensively developed in recent years, being Computed Tomography one of the most popular imaging modalities explored. However, the large amount of 3D voxels in a typical scan is prohibitive for the entire volume to be analysed at once in conventional hardware. To overcome this issue, the processes of downsampling and/or resampling are generally implemented when using traditional convolutional neural networks in medical imaging. In this paper, we propose a new methodology that introduces a process of sparsification of the input images and submanifold sparse convolutional networks as an alternative to downsampling. As a proof of concept, we applied this new methodology to Computed Tomography images of renal cancer patients, obtaining performances of segmentations of kidneys and tumours competitive with previous methods (~84.6% Dice similarity coefficient), while achieving a significant improvement in computation time (2-3 min per training epoch).
翻訳日:2022-12-07 17:44:40 公開日:2022-12-06
# TCM眼科診断における改善U2Netに基づく新しいアイセグメンテーション法

A new eye segmentation method based on improved U2Net in TCM eye diagnosis ( http://arxiv.org/abs/2212.02989v1 )

ライセンス: Link先を確認
Peng Hong(参考訳) For the diagnosis of Chinese medicine, tongue segmentation has reached a fairly mature point, but it has little application in the eye diagnosis of Chinese medicine.First, this time we propose Res-UNet based on the architecture of the U2Net network, and use the Data Enhancement Toolkit based on small datasets, Finally, the feature blocks after noise reduction are fused with the high-level features.Finally, the number of network parameters and inference time are used as evaluation indicators to evaluate the model. 同時に、Miou、Precision、Recall、F1-Score、FLOPSを用いて異なるアイデータセグメンテーションフレームを比較した。 人々を納得させるために、UBIVISを引用する。 V1 public dataset this time, in which Miou reaches 97.8%, S-measure reaches 97.7%, F1-Score reaches 99.09% and for 320*320 RGB input images, the total parameter volume is 167.83 MB,Due to the excessive number of parameters, we experimented with a small-scale U2Net combined with a Res module with a parameter volume of 4.63 MB, which is similar to U2Net in related indicators, which verifies the effectiveness of our structure.which achieves the best segmentation effect in all the comparison networks and lays a foundation for the application of subsequent visual apparatus recognition symptoms.

For the diagnosis of Chinese medicine, tongue segmentation has reached a fairly mature point, but it has little application in the eye diagnosis of Chinese medicine.First, this time we propose Res-UNet based on the architecture of the U2Net network, and use the Data Enhancement Toolkit based on small datasets, Finally, the feature blocks after noise reduction are fused with the high-level features.Finally, the number of network parameters and inference time are used as evaluation indicators to evaluate the model. At the same time, different eye data segmentation frames were compared using Miou, Precision, Recall, F1-Score and FLOPS. To convince people, we cite the UBIVIS. V1 public dataset this time, in which Miou reaches 97.8%, S-measure reaches 97.7%, F1-Score reaches 99.09% and for 320*320 RGB input images, the total parameter volume is 167.83 MB,Due to the excessive number of parameters, we experimented with a small-scale U2Net combined with a Res module with a parameter volume of 4.63 MB, which is similar to U2Net in related indicators, which verifies the effectiveness of our structure.which achieves the best segmentation effect in all the comparison networks and lays a foundation for the application of subsequent visual apparatus recognition symptoms.
翻訳日:2022-12-07 17:44:08 公開日:2022-12-06
# 点源ローカライズのための近法

Proximal methods for point source localisation ( http://arxiv.org/abs/2212.02991v1 )

ライセンス: Link先を確認
Tuomo Valkonen(参考訳) 点源ローカライゼーションは一般に測度上のラッソ型問題としてモデル化される。 しかしながら、ラドン測度の空間のような非ヒルベルト空間における最適化方法は、ヒルベルト空間よりもはるかに少ない。 点源ローカライズのためのほとんどの数値アルゴリズムは、アドホック収束理論を開発するFrank-Wolfe条件勾配法に基づいている。 我々は,測度空間への近型手法の拡張を開発する。 これには前方後方分割、慣性バージョン、原始二重近位分割が含まれる。 それらの収束証明は標準パターンに従う。 数値的有効性を示す。

Point source localisation is generally modelled as a Lasso-type problem on measures. However, optimisation methods in non-Hilbert spaces, such as the space of Radon measures, are much less developed than in Hilbert spaces. Most numerical algorithms for point source localisation are based on the Frank-Wolfe conditional gradient method, for which ad hoc convergence theory is developed. We develop extensions of proximal-type methods to spaces of measures. This includes forward-backward splitting, its inertial version, and primal-dual proximal splitting. Their convergence proofs follow standard patterns. We demonstrate their numerical efficacy.
翻訳日:2022-12-07 17:43:53 公開日:2022-12-06
# 高ダイナミックレンジイメージングのためのスーパービジョン画像分割

Supervised Image Segmentation for High Dynamic Range Imaging ( http://arxiv.org/abs/2212.03002v1 )

ライセンス: Link先を確認
Ali Reza Omrani, Davide Moroni(参考訳) 通常のカメラや携帯電話は限られた光度を捉えることができる。 したがって、品質面では、そのようなデバイスから生成された画像のほとんどは現実世界と似ていない。 暗すぎるか明るいかのどちらかで、詳細は完全には見えません。 ハイダイナミックレンジ(HDR)イメージング(High Dynamic Range)と呼ばれる様々な手法を用いてこの問題に対処することができる。 彼らの目標は、より詳細な画像を作ることである。 しかし、残念ながら、Multi-Exposure画像からHDR画像を生成するほとんどの方法は、異なる露光を組み合わせる方法のみに集中しており、各画像の最良の詳細を選択することに集中していない。 そこで本研究では,画像分割の助けを借りて,各画像の最も目に見える領域を抽出する。 手動しきい値と大津しきい値の2つの基礎的真理生成法を考察し,これらの領域を訓練するためにニューラルネットワークを用いた。 最後に、ニューラルネットワークが画像の可視部分を許容的に分割できることが示される。

Regular cameras and cell phones are able to capture limited luminosity. Thus, in terms of quality, most of the produced images from such devices are not similar to the real world. They are overly dark or too bright, and the details are not perfectly visible. Various methods, which fall under the name of High Dynamic Range (HDR) Imaging, can be utilised to cope with this problem. Their objective is to produce an image with more details. However, unfortunately, most methods for generating an HDR image from Multi-Exposure images only concentrate on how to combine different exposures and do not have any focus on choosing the best details of each image. Therefore, it is strived in this research to extract the most visible areas of each image with the help of image segmentation. Two methods of producing the Ground Truth were considered, as manual threshold and Otsu threshold, and a neural network will be used to train segment these areas. Finally, it will be shown that the neural network is able to segment the visible parts of pictures acceptably.
翻訳日:2022-12-07 17:43:44 公開日:2022-12-06
# ADIR:画像再構成のための適応拡散

ADIR: Adaptive Diffusion for Image Reconstruction ( http://arxiv.org/abs/2212.03221v1 )

ライセンス: Link先を確認
Shady Abu-Hussein, Tom Tirer, and Raja Giryes(参考訳) 近年,ノイズ拡散モデルが優れた画像生成性能を示している。 これらのモデルが捉えた自然画像の情報は、その劣化した観察からクリーンなイメージを復元する多くの画像再構成アプリケーションに有用である。 本研究では,拡散モデルによる事前学習を,観測結果との一致を維持しつつ活用する条件付きサンプリング手法を提案する。 次に,事前学習した拡散分別ネットワークを入力に適応させる新しい手法と組み合わせる。 1つは劣化した画像のみを使用し、もう1つは劣化した画像の「熱レスト隣人」である画像を用いて実行し、もう1つは市販のビジュアル言語モデルを用いて多様なデータセットから検索する。 提案手法を評価するため, 現状の拡散モデルである安定拡散とガイド拡散の2つの実験を行った。 画像再構成のための適応拡散 (ADIR) 手法は,超解像,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善を実現する。

In recent years, denoising diffusion models have demonstrated outstanding image generation performance. The information on natural images captured by these models is useful for many image reconstruction applications, where the task is to restore a clean image from its degraded observations. In this work, we propose a conditional sampling scheme that exploits the prior learned by diffusion models while retaining agreement with the observations. We then combine it with a novel approach for adapting pretrained diffusion denoising networks to their input. We examine two adaption strategies: the first uses only the degraded image, while the second, which we advocate, is performed using images that are ``nearest neighbors'' of the degraded image, retrieved from a diverse dataset using an off-the-shelf visual-language model. To evaluate our method, we test it on two state-of-the-art publicly available diffusion models, Stable Diffusion and Guided Diffusion. We show that our proposed `adaptive diffusion for image reconstruction' (ADIR) approach achieves a significant improvement in the super-resolution, deblurring, and text-based editing tasks.
翻訳日:2022-12-07 17:43:20 公開日:2022-12-06
# EHRデータのマルチモーダル学習における臨床ノートの重要性について

On the Importance of Clinical Notes in Multi-modal Learning for EHR Data ( http://arxiv.org/abs/2212.03044v1 )

ライセンス: Link先を確認
Severin Husmann, Hugo Y\`eche, Gunnar R\"atsch, Rita Kuznetsova(参考訳) 深層学習モデル行動を理解することは、医療コミュニティにおける機械学習に基づく意思決定支援システムを受け入れる上で重要である。 これまでの研究では、電子健康記録(EHR)データと臨床ノートを併用することで、集中治療室(ICU)における患者モニタリングの予測性能が向上した。 本稿では,これらの改善の根本原因について考察する。 EHRデータと臨床ノートを組み合わせる際には,基本的な注意モデルに依存しながら,現状のEHRデータモデルよりもパフォーマンスが大幅に向上することを確認した。 次に、臨床医のメモよりも、患者の状態に関するより広い文脈を含むメモのサブセットから、改善がほとんど生じることを示す分析を行う。 このような知見は、部分記述型データよりも、部分記述型データによる深層学習モデルの方が、この分野におけるデータ中心のアプローチを動機付けている、と我々は信じている。

Understanding deep learning model behavior is critical to accepting machine learning-based decision support systems in the medical community. Previous research has shown that jointly using clinical notes with electronic health record (EHR) data improved predictive performance for patient monitoring in the intensive care unit (ICU). In this work, we explore the underlying reasons for these improvements. While relying on a basic attention-based model to allow for interpretability, we first confirm that performance significantly improves over state-of-the-art EHR data models when combining EHR data and clinical notes. We then provide an analysis showing improvements arise almost exclusively from a subset of notes containing broader context on patient state rather than clinician notes. We believe such findings highlight deep learning models for EHR data to be more limited by partially-descriptive data than by modeling choice, motivating a more data-centric approach in the field.
翻訳日:2022-12-07 17:36:51 公開日:2022-12-06
# Q-Pensieve:Q-Snapshotのメモリ共有による多目的RLのサンプル効率向上

Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots ( http://arxiv.org/abs/2212.03117v1 )

ライセンス: Link先を確認
Wei Hung, Bo-Kai Huang, Ping-Chun Hsieh, Xi Liu(参考訳) 多目的強化学習(morl:multi-objective reinforcement learning)は、目的よりも異なる選好の学習制御ポリシーの汎用的な枠組みとして機能する。 しかしながら、既存のmorlメソッドは、paretoフロントを見つけるために明示的な検索の複数のパスに依存するため、サンプル効率が低く、ポリシー間の粗い知識共有のために共有ポリシーネットワークを利用する。 MORLのサンプル効率を高めるために,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,政策更新方向を共同で決定し,政策レベルでのデータ共有を可能にする政策改善スキームである。 本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。 この概念を実証するために,学習したQ-ネットワークを過去の繰り返しから保存し,実践的なアクタ批判的実装に到達させるQリプレイバッファ手法を提案する。 広範囲な実験とアブレーション研究を通じて,提案アルゴリズムはより少ないサンプルで様々なmorlベンチマークタスクにおいて,ベンチマークモール法を上回ることができることを実証した。

Many real-world continuous control problems are in the dilemma of weighing the pros and cons, multi-objective reinforcement learning (MORL) serves as a generic framework of learning control policies for different preferences over objectives. However, the existing MORL methods either rely on multiple passes of explicit search for finding the Pareto front and therefore are not sample-efficient, or utilizes a shared policy network for coarse knowledge sharing among policies. To boost the sample efficiency of MORL, we propose Q-Pensieve, a policy improvement scheme that stores a collection of Q-snapshots to jointly determine the policy update direction and thereby enables data sharing at the policy level. We show that Q-Pensieve can be naturally integrated with soft policy iteration with convergence guarantee. To substantiate this concept, we propose the technique of Q replay buffer, which stores the learned Q-networks from the past iterations, and arrive at a practical actor-critic implementation. Through extensive experiments and an ablation study, we demonstrate that with much fewer samples, the proposed algorithm can outperform the benchmark MORL methods on a variety of MORL benchmark tasks.
翻訳日:2022-12-07 17:36:35 公開日:2022-12-06
# 逆強化学習における誤特定

Misspecification in Inverse Reinforcement Learning ( http://arxiv.org/abs/2212.03201v1 )

ライセンス: Link先を確認
Joar Skalse, Alessandro Abate(参考訳) 逆強化学習(IRL)の目的は、ポリシー$\pi$から報酬関数$R$を推論することである。 これを行うには、$\pi$と$R$の関係のモデルが必要です。 現在の文献では、最も一般的なモデルは最適性、ボルツマン合理性、因果エントロピー最大化である。 IRLの主な動機の1つは、人間の行動から人間の嗜好を推測することである。 しかしながら、人間の嗜好と人間の行動の関係は、現在IRLで使われているどのモデルよりもはるかに複雑である。 これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。 本稿では,異なるirlモデルが不特定化に対していかに頑健であるかを数学的に解析し,そのモデルが報酬関数 $r$ に関する誤った推論につながる前に,各標準モデルとデモストラクタポリシーがどのように異なるかを正確に答える。 また、IRLの誤特定を推論するためのフレームワークと、新しいIRLモデルの誤特定堅牢性を容易に導き出すためのフォーマルなツールも導入する。

The aim of Inverse Reinforcement Learning (IRL) is to infer a reward function $R$ from a policy $\pi$. To do this, we need a model of how $\pi$ relates to $R$. In the current literature, the most common models are optimality, Boltzmann rationality, and causal entropy maximisation. One of the primary motivations behind IRL is to infer human preferences from human behaviour. However, the true relationship between human preferences and human behaviour is much more complex than any of the models currently used in IRL. This means that they are misspecified, which raises the worry that they might lead to unsound inferences if applied to real-world data. In this paper, we provide a mathematical analysis of how robust different IRL models are to misspecification, and answer precisely how the demonstrator policy may differ from each of the standard models before that model leads to faulty inferences about the reward function $R$. We also introduce a framework for reasoning about misspecification in IRL, together with formal tools that can be used to easily derive the misspecification robustness of new IRL models.
翻訳日:2022-12-07 17:36:12 公開日:2022-12-06
# ブラックマーケットアカウント検出のための自己教師付きグラフ表現学習

Self-supervised Graph Representation Learning for Black Market Account Detection ( http://arxiv.org/abs/2212.02679v1 )

ライセンス: Link先を確認
Zequan Xu, Lianyun Li, Hui Li, Qihang Sun, Shaofeng Hu, Rongrong Ji(参考訳) 近年,多目的メッセージングモバイルアプリ(MMMA)が普及している。 MMMAは詐欺師を惹きつけ、一部のサイバー犯罪者はブラックマーケットアカウント(BMA)を通じて詐欺を支援している。 詐欺師と比較すると、bmasは直接詐欺に関与しておらず、検出が難しい。 本稿では,10億人以上のユーザを持つ代表的MMMAであるWeChatで使用されているBMA検出システムSGRLについて述べる。 BMA検出のためのグラフニューラルネットワークとグラフ自己教師学習をSGRLで調整する。 SGRLのワークフローは、構造情報、ノード属性情報および利用可能な人間の知識を利用する事前学習フェーズと、軽量な検出フェーズを含む。 オフライン実験では、sgrlはオフライン評価で最先端の手法を16.06%-58.17%上回っている。 我々は、オンライン環境にSGRLをデプロイし、数十億規模のWeChatグラフ上のBMAを検出する。 結論として、SGRLはラベル依存を緩和し、目に見えないデータによく一般化し、WeChatのBMAを効果的に検出できる。

Nowadays, Multi-purpose Messaging Mobile App (MMMA) has become increasingly prevalent. MMMAs attract fraudsters and some cybercriminals provide support for frauds via black market accounts (BMAs). Compared to fraudsters, BMAs are not directly involved in frauds and are more difficult to detect. This paper illustrates our BMA detection system SGRL (Self-supervised Graph Representation Learning) used in WeChat, a representative MMMA with over a billion users. We tailor Graph Neural Network and Graph Self-supervised Learning in SGRL for BMA detection. The workflow of SGRL contains a pretraining phase that utilizes structural information, node attribute information and available human knowledge, and a lightweight detection phase. In offline experiments, SGRL outperforms state-of-the-art methods by 16.06%-58.17% on offline evaluation measures. We deploy SGRL in the online environment to detect BMAs on the billion-scale WeChat graph, and it exceeds the alternative by 7.27% on the online evaluation measure. In conclusion, SGRL can alleviate label reliance, generalize well to unseen data, and effectively detect BMAs in WeChat.
翻訳日:2022-12-07 17:35:54 公開日:2022-12-06
# 会員推論攻撃の識別性について

On the Discredibility of Membership Inference Attacks ( http://arxiv.org/abs/2212.02701v1 )

ライセンス: Link先を確認
Shahbaz Rezaei and Xin Liu(参考訳) 機械学習モデルの広範な適用により、センシティブなデータでトレーニングされたモデルの潜在的なデータ漏洩を研究することが重要になっている。 近年、サンプルがトレーニングセットの一部であったかどうかを判定する様々なメンバーシップ推論(MI)攻撃が提案されている。 第一世代のMI攻撃は、実際は効果がないことが証明されているが、いくつかの最近の研究では、偽陽性率の低い正の正の正の正の正の値を達成する実用的なMI攻撃が提案されている。 問題は、これらの攻撃が実際に確実に使用できるかどうかだ。 本研究は, 受験者が訓練中に不正に機密データを使用したことを判断・判断するために, 監査人(調査者)が使用する会員推論攻撃の実践的応用を示すものである。 次に,MI攻撃が破滅的に失敗する裁判官にデータセット(潜在的に無制限なサンプル数)を提供できることを示す。 したがって、監査人は監査人の信頼性に異議を唱え、訴訟を棄却することができる。 さらに重要なことに、監査人はmi攻撃について何も知る必要がなく、クエリアクセスも必要ありません。 言い換えれば、文学におけるSOTA MI攻撃はすべて、同じ問題に悩まされている。 総合的な実験的評価により,我々のアルゴリズムは,審査員が主張する10倍から数千倍の偽陽性率を増大させることができることを示す。 最後に、我々のアルゴリズムが持つ意味は、認識可能性を超えていると論じる: 現在のメンバーシップ推論攻撃は、記憶されたサブポピュレーションを識別できるが、トレーニング中にどのサブポピュレーションが使われているかを確実に特定することはできない。

With the wide-spread application of machine learning models, it has become critical to study the potential data leakage of models trained on sensitive data. Recently, various membership inference (MI) attacks are proposed that determines if a sample was part of the training set or not. Although the first generation of MI attacks has been proven to be ineffective in practice, a few recent studies proposed practical MI attacks that achieve reasonable true positive rate at low false positive rate. The question is whether these attacks can be reliably used in practice. We showcase a practical application of membership inference attacks where it is used by an auditor (investigator) to prove to a judge/jury that an auditee unlawfully used sensitive data during training. Then, we show that the auditee can provide a dataset (with potentially unlimited number of samples) to a judge where MI attacks catastrophically fail. Hence, the auditee challenges the credibility of the auditor and can get the case dismissed. More importantly, we show that the auditee does not need to know anything about the MI attack neither a query access to it. In other words, all currently SOTA MI attacks in literature suffer from the same issue. Through comprehensive experimental evaluation, we show that our algorithms can increase the false positive rate from ten to thousands times larger than what auditor claim to the judge. Lastly, we argue that the implication of our algorithms is beyond discredibility: Current membership inference attacks can identify the memorized subpopulations, but they cannot reliably identify which exact sample in the subpopulation was used during training.
翻訳日:2022-12-07 17:35:36 公開日:2022-12-06
# SignNet:Metric Embedded Learningを用いたシングルチャネルサイン生成

SignNet: Single Channel Sign Generation using Metric Embedded Learning ( http://arxiv.org/abs/2212.02848v1 )

ライセンス: Link先を確認
Tejaswini Ananthanarayana and Lipisha Chaudhary and Ifeoma Nwogu(参考訳) 真の解釈エージェントは手話を理解し、テキストに翻訳するだけでなく、テキストを理解し、記号に翻訳する。 現在までの手話翻訳におけるAIの仕事の多くは、主に記号からテキストへの翻訳に焦点を当てている。 後者の目的に向けて,視覚記号の類似性(および類似性)を利用したテキスト対符号翻訳モデルであるsignnetを提案する。 このモジュールは、text-to-sign(t2s)とsign-to-text(s2t)を含むデュアルラーニング2つのタスクプロセスの一部に過ぎない。 現在、シングルチャネルアーキテクチャとしてSignNetを実装しており、T2Sタスクの出力を連続的なデュアルラーニングフレームワークでS2Tに入力することができる。 単一のチャンネルによって、私たちは単一のモダリティを指し、体は関節をポーズします。 本研究では,新しい計量埋め込み学習プロセスを用いたT2SタスクであるSignNetを提案する。 また、類似性テストの兆候の正および負の例を選択する方法についても述べる。 本分析から,BLEUスコアを用いた評価では,メトリクス埋め込み学習モデルの方が従来の損失モデルよりも有意に優れた結果が得られた。 ポーズに関する課題において、signnetは最先端(sota)と並んで、人気のrwth phoenix-weather-2014tベンチマークデータセットでテストした際、bleu 1 - bleu 4スコア(bleu 1: 31->39; ~26%改善、bleu 4: 10.43->11.84; ~14\%改善)で注目すべき拡張を示すことによって、ポーズするテキストのタスクでそれらを上回らせた。

A true interpreting agent not only understands sign language and translates to text, but also understands text and translates to signs. Much of the AI work in sign language translation to date has focused mainly on translating from signs to text. Towards the latter goal, we propose a text-to-sign translation model, SignNet, which exploits the notion of similarity (and dissimilarity) of visual signs in translating. This module presented is only one part of a dual-learning two task process involving text-to-sign (T2S) as well as sign-to-text (S2T). We currently implement SignNet as a single channel architecture so that the output of the T2S task can be fed into S2T in a continuous dual learning framework. By single channel, we refer to a single modality, the body pose joints. In this work, we present SignNet, a T2S task using a novel metric embedding learning process, to preserve the distances between sign embeddings relative to their dissimilarity. We also describe how to choose positive and negative examples of signs for similarity testing. From our analysis, we observe that metric embedding learning-based model perform significantly better than the other models with traditional losses, when evaluated using BLEU scores. In the task of gloss to pose, SignNet performed as well as its state-of-the-art (SoTA) counterparts and outperformed them in the task of text to pose, by showing noteworthy enhancements in BLEU 1 - BLEU 4 scores (BLEU 1: 31->39; ~26% improvement and BLEU 4: 10.43->11.84; ~14\% improvement) when tested on the popular RWTH PHOENIX-Weather-2014T benchmark dataset
翻訳日:2022-12-07 17:35:11 公開日:2022-12-06
# 観測データとランダムデータを用いた構造因果モデルにおける境界反事実推論への学習

Learning to Bound Counterfactual Inference in Structural Causal Models from Observational and Randomised Data ( http://arxiv.org/abs/2212.02932v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and David Huber and Rafael Caba\~nas(参考訳) 本稿では,複数の観察・介入研究から得られたデータを統合することで,最終的には構造因果モデルにおける反事実を計算できる問題に対処する。 私たちは、以前のemベースのアルゴリズムを単一の研究から複数の研究へと拡張する全体的なデータに対する可能性のキャラクタリゼーションを導出する。 新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。 このベースでは、反事実的な結果に区間近似を与え、同定可能な場合の点に崩壊する。 このアルゴリズムは非常に一般的なもので、離散変数を持つ半マルコフモデルで動作し、任意の反事実を計算できる。 さらに、問題が実現可能かどうかを自動的に判断する(パラメータ領域は空でない)。 体系的な数値実験はアルゴリズムの有効性と精度を示し、不特定性のある場合には不均一なデータを統合する利点を示唆している。

We address the problem of integrating data from multiple observational and interventional studies to eventually compute counterfactuals in structural causal models. We derive a likelihood characterisation for the overall data that leads us to extend a previous EM-based algorithm from the case of a single study to that of multiple ones. The new algorithm learns to approximate the (unidentifiability) region of model parameters from such mixed data sources. On this basis, it delivers interval approximations to counterfactual results, which collapse to points in the identifiable case. The algorithm is very general, it works on semi-Markovian models with discrete variables and can compute any counterfactual. Moreover, it automatically determines if a problem is feasible (the parameter region being nonempty), which is a necessary step not to yield incorrect results. Systematic numerical experiments show the effectiveness and accuracy of the algorithm, while hinting at the benefits of integrating heterogeneous data to get informative bounds in case of unidentifiability.
翻訳日:2022-12-07 17:34:36 公開日:2022-12-06
# 学習制御ポリシーを用いた移動目標のアクティブ分類

Active Classification of Moving Targets with Learned Control Policies ( http://arxiv.org/abs/2212.03068v1 )

ライセンス: Link先を確認
\'Alvaro Serra-G\'omez (1), Eduardo Montijano (2), Wendelin B\"ohmer (3), Javier Alonso-Mora (1) ((1) Department of Cognitive Robotics, Delft University of Technology, (2) Department of Informatics and Systems Engineering, Universidad de Zaragoza, (3) Department of Software Technology, Delft University of Technology)(参考訳) 本稿では,複数の移動目標を分類するために,ドローンが意味情報を収集しなければならない問題を考える。 特に,‘black-box’分類器(ディープラーニングニューラルネットワークなど)を用いて情報を抽出した場合に,ドローンを情報的視点,位置,方向へと移動させる制御入力を計算することの課題に対処する。 これらのアルゴリズムは通常、視点と関連する出力の間の分析的関係が欠如しており、情報収集スキームでの使用を妨げている。 このギャップを埋めるために,本研究は,ドローンの移動,方向,咬合について推論しながら,できるだけ多くの非分類対象から証拠を取得することを好む次の視点として,強化学習(rl)によって訓練された,新たな注意に基づくアーキテクチャを提案する。 そして、実際のダイナミクスを考慮した低レベルのmpcコントローラを使用して、ドローンを望ましい視点に移動させる。 このアプローチは,さまざまなベースラインを上回るだけでなく,トレーニング中に見つからないシナリオにも適用可能であることを示す。 さらに,ネットワークが多数のターゲットにスケールし,ターゲットの異なる移動ダイナミクスによく一般化することを示す。

In this paper, we consider the problem where a drone has to collect semantic information to classify multiple moving targets. In particular, we address the challenge of computing control inputs that move the drone to informative viewpoints, position and orientation, when the information is extracted using a ``black-box'' classifier, e.g., a deep learning neural network. These algorithms typically lack of analytical relationships between the viewpoints and their associated outputs, preventing their use in information-gathering schemes. To fill this gap, we propose a novel attention-based architecture, trained via Reinforcement Learning (RL), that outputs the next viewpoint for the drone favoring the acquisition of evidence from as many unclassified targets as possible while reasoning about their movement, orientation, and occlusions. Then, we use a low-level MPC controller to move the drone to the desired viewpoint taking into account its actual dynamics. We show that our approach not only outperforms a variety of baselines but also generalizes to scenarios unseen during training. Additionally, we show that the network scales to large numbers of targets and generalizes well to different movement dynamics of the targets.
翻訳日:2022-12-07 17:34:20 公開日:2022-12-06
# 平均場ランゲヴィンダイナミクスのためのカオスの一様時間伝搬

Uniform-in-Time Propagation of Chaos for Mean Field Langevin Dynamics ( http://arxiv.org/abs/2212.03050v1 )

ライセンス: Link先を確認
Fan Chen and Zhenjie Ren and Songbo Wang(参考訳) 対流平均場電位を用いた平均場ランジュバンダイナミクスに対するカオスの均一な時間的伝播について検討した。 wasserstein-$2$距離と相対エントロピーの収束が確立される。 文献に共通する制約である小さな平均場相互作用や変位凸性を持つために平均場電位関数は必要としない。 特に,2層ニューラルネットワークの学習における雑音勾配降下アルゴリズムの効率性について検討する。

We study the uniform-in-time propagation of chaos for mean field Langevin dynamics with convex mean field potenital. Convergences in both Wasserstein-$2$ distance and relative entropy are established. We do not require the mean field potenital functional to bear either small mean field interaction or displacement convexity, which are common constraints in the literature. In particular, it allows us to study the efficiency of the noisy gradient descent algorithm for training two-layer neural networks.
翻訳日:2022-12-07 17:33:54 公開日:2022-12-06
# 文書レベル抽象要約

Document-Level Abstractive Summarization ( http://arxiv.org/abs/2212.03013v1 )

ライセンス: Link先を確認
Gon\c{c}alo Raposo and Afonso Raposo and Ana Sofia Carmo(参考訳) 自動テキスト要約のタスクは、キー情報と全体的な意味を保ちながら、簡潔で簡潔なテキスト要約を生成する。 文書レベルの要約に対する最近のアプローチは、トランスフォーマーアーキテクチャに基づいたモデルを使用することで、近年大幅に改善されている。 しかし、二次記憶とシーケンス長に関する時間の複雑さは、文書レベルの要約に必要となるような、特に長いシーケンスで使用するのに非常に費用がかかる。 本研究は,非常に長いテキストの自動要約を改善するために,トランスフォーマー技術がいかに効率的に利用できるかを検討することで,文書レベルの要約の問題に対処する。 特に、いくつかの科学論文とそれに対応する抽象資料からなるarXivデータセットを、この研究のベースラインとして使用します。 そこで本研究では,より小さなチャンクを処理することにより,全文書の要約作成コストを削減できるアーキテクチャに基づく検索エンハンスド手法を提案する。 結果はベースラインを下回っていたが、より効率的なメモリ消費と真実性が示唆された。

The task of automatic text summarization produces a concise and fluent text summary while preserving key information and overall meaning. Recent approaches to document-level summarization have seen significant improvements in recent years by using models based on the Transformer architecture. However, the quadratic memory and time complexities with respect to the sequence length make them very expensive to use, especially with long sequences, as required by document-level summarization. Our work addresses the problem of document-level summarization by studying how efficient Transformer techniques can be used to improve the automatic summarization of very long texts. In particular, we will use the arXiv dataset, consisting of several scientific papers and the corresponding abstracts, as baselines for this work. Then, we propose a novel retrieval-enhanced approach based on the architecture which reduces the cost of generating a summary of the entire document by processing smaller chunks. The results were below the baselines but suggest a more efficient memory a consumption and truthfulness.
翻訳日:2022-12-07 17:27:49 公開日:2022-12-06
# バイナリ問題の集合に対するautomlアルゴリズムのベンチマーク

Benchmarking AutoML algorithms on a collection of binary problems ( http://arxiv.org/abs/2212.02704v1 )

ライセンス: Link先を確認
Pedro Henrique Ribeiro, Patryk Orzechowski, Joost Wagenaar, and Jason H. Moore(参考訳) 機械学習(AutoML)アルゴリズムは、さまざまな問題やデータセットに適応する高いパフォーマンスと柔軟性のために人気が高まっている。 AutoMLアルゴリズムの数が増加するにつれて、どの問題に最も適するかを判断する作業が増加します。 したがって、AutoMLアルゴリズムを互いに区別できるような、複雑で困難なベンチマークを使用することが不可欠である。 本稿では,Tree-based Pipeline Optimization Tool (TPOT), Auto-Sklearn, Auto-Sklearn 2, H2O AutoMLの4種類のAutoMLアルゴリズムの性能を比較した。 汎用機械学習アルゴリズムの性能の長所と短所を強調するために設計された生成関数から派生した多種多様な合成データセットであるdigen(diversative and generative ml benchmark)を使用する。 automlは、すべてのデータセットでうまく機能するパイプラインを識別できることを確認しました。 ほとんどのAutoMLアルゴリズムは改善の余地がほとんどないが、一部のデータセットに対して高いパフォーマンスのソリューションを見つける場合、他のアルゴリズムよりも一貫性が高かった。

Automated machine learning (AutoML) algorithms have grown in popularity due to their high performance and flexibility to adapt to different problems and data sets. With the increasing number of AutoML algorithms, deciding which would best suit a given problem becomes increasingly more work. Therefore, it is essential to use complex and challenging benchmarks which would be able to differentiate the AutoML algorithms from each other. This paper compares the performance of four different AutoML algorithms: Tree-based Pipeline Optimization Tool (TPOT), Auto-Sklearn, Auto-Sklearn 2, and H2O AutoML. We use the Diverse and Generative ML benchmark (DIGEN), a diverse set of synthetic datasets derived from generative functions designed to highlight the strengths and weaknesses of the performance of common machine learning algorithms. We confirm that AutoML can identify pipelines that perform well on all included datasets. Most AutoML algorithms performed similarly without much room for improvement; however, some were more consistent than others at finding high-performing solutions for some datasets.
翻訳日:2022-12-07 17:26:43 公開日:2022-12-06
# 有害な共変量シフトに対する学習に基づく仮説テスト

A Learning Based Hypothesis Test for Harmful Covariate Shift ( http://arxiv.org/abs/2212.02742v1 )

ライセンス: Link先を確認
Tom Ginsberg, Zhongyuan Liang, and Rahul G. Krishnan(参考訳) テスト時に共変量シフトを迅速かつ正確に識別する能力は、ハイリスクなドメインにデプロイされた安全な機械学習システムの重要かつしばしば見過ごされるコンポーネントである。 分散テスト例で予測をすべきでないことを検出する方法は存在するが、トレーニングとテスト時間の分散レベルの違いを特定することは、モデルがデプロイ設定から削除され、再トレーニングされるタイミングを決定するのに役立つ。 本研究では,有害な共変量シフト(HCS)を,予測モデルの一般化を弱める可能性のある分布の変化として定義する。 HCSの検出には、トレーニングデータとテストデータに一致しないように訓練された分類器のアンサンブル間の不一致を用いる。 我々は,このアンサンブルを訓練する損失関数を導出し,この不一致率とエントロピーがHCSの強力な識別統計値を表すことを示す。 実験により,多種多様な高次元データセット上で,統計的確度で有害な共変量シフトを検出する能力を示す。 多数のドメインとモダリティにまたがって,既存の手法と比較して,特に観測されたサンプル数が少ない場合,最先端の性能を示す。

The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
翻訳日:2022-12-07 17:26:25 公開日:2022-12-06
# k-変量時系列はkワードに値する:長期多変量時系列予測のためのバニラトランスアーキテクチャの進化

A K-variate Time Series Is Worth K Words: Evolution of the Vanilla Transformer Architecture for Long-term Multivariate Time Series Forecasting ( http://arxiv.org/abs/2212.02789v1 )

ライセンス: Link先を確認
Zanwei Zhou, Ruizhe Zhong, Chen Yang, Yan Wang, Xiaokang Yang, Wei Shen(参考訳) 多変量時系列予測(MTSF)は多くの実世界のアプリケーションにおいて基本的な問題である。 近年,Transformer は MTSF のデファクト・ソリューションとなっている。 しかし、1つの前方操作を除いて、既存のMTSFトランスフォーマーアーキテクチャの基本構成はほとんど慎重に検証されなかった。 本研究では,MTSFトランスフォーマーアーキテクチャにおける現在のトークン化戦略が,トランスフォーマーのトークン均一性誘導バイアスを無視していることを指摘した。 したがって、バニラmtsfトランスフォーマーは時系列の詳細を捉えるのに苦労し、性能が劣る。 この観測に基づいて,バニラMTSF変圧器の基本構造について一連の進化を行った。 我々はデコーダの構造や埋め込みとともに、欠陥のあるトークン化戦略を変える。 驚いたことに、進化した単純なトランスアーキテクチャは非常に効果的であり、バニラMTSFトランスの過密現象を回避し、より詳細に正確な予測を行い、またMTSF用によく設計された最先端のトランスよりも大幅に優れている。

Multivariate time series forecasting (MTSF) is a fundamental problem in numerous real-world applications. Recently, Transformer has become the de facto solution for MTSF, especially for the long-term cases. However, except for the one forward operation, the basic configurations in existing MTSF Transformer architectures were barely carefully verified. In this study, we point out that the current tokenization strategy in MTSF Transformer architectures ignores the token uniformity inductive bias of Transformers. Therefore, the vanilla MTSF transformer struggles to capture details in time series and presents inferior performance. Based on this observation, we make a series of evolution on the basic architecture of the vanilla MTSF transformer. We vary the flawed tokenization strategy, along with the decoder structure and embeddings. Surprisingly, the evolved simple transformer architecture is highly effective, which successfully avoids the over-smoothing phenomena in the vanilla MTSF transformer, achieves a more detailed and accurate prediction, and even substantially outperforms the state-of-the-art Transformers that are well-designed for MTSF.
翻訳日:2022-12-07 17:26:04 公開日:2022-12-06
# 反復グラフ再構成によるデータインプテーション

Data Imputation with Iterative Graph Reconstruction ( http://arxiv.org/abs/2212.02810v1 )

ライセンス: Link先を確認
Jiajun Zhong, Weiwei Ye, Ning Gui(参考訳) 効果的なデータインプテーションは、 ``plain" 表データから豊富な潜伏 ``structure" 発見機能を要求する。 グラフニューラルネットワークに基づくデータインプテーションソリューションの最近の進歩は、表データを直接2部グラフとして翻訳することで、その強力な構造学習の可能性を示している。 しかし、サンプル間の関係が欠如しているため、これらの解は全てのサンプルを等しく扱い、1つの重要な観察と矛盾する。 そこで,本論文では,すべてのサンプルを等しく扱う代わりに,サンプル間の異なる関係を表現するために,「友達ネットワーク」という概念を導入する。 データ欠落した正確な友人ネットワークを生成するために、インプテーション学習中の友人ネットワーク最適化を可能にするために、エンドツーエンドの友人ネットワーク再構築ソリューションが設計されている。 最適化されたフレンドネットワークの表現は、区別されたメッセージパッシングを伴うデータ計算プロセスをさらに最適化するために使用される。 8つのベンチマークデータセットの実験結果によると、IGRMは9つの基準線と9.04%低い平均絶対誤差を39.13%下回っている。

Effective data imputation demands rich latent ``structure" discovery capabilities from ``plain" tabular data. Recent advances in graph neural networks-based data imputation solutions show their strong structure learning potential by directly translating tabular data as bipartite graphs. However, due to a lack of relations between samples, those solutions treat all samples equally which is against one important observation: ``similar sample should give more information about missing values." This paper presents a novel Iterative graph Generation and Reconstruction framework for Missing data imputation(IGRM). Instead of treating all samples equally, we introduce the concept: ``friend networks" to represent different relations among samples. To generate an accurate friend network with missing data, an end-to-end friend network reconstruction solution is designed to allow for continuous friend network optimization during imputation learning. The representation of the optimized friend network, in turn, is used to further optimize the data imputation process with differentiated message passing. Experiment results on eight benchmark datasets show that IGRM yields 39.13% lower mean absolute error compared with nine baselines and 9.04% lower than the second-best.
翻訳日:2022-12-07 17:25:43 公開日:2022-12-06
# RBF-MGN:物理インフォームドグラフニューラルネットワークを用いた時空間PDEのソルビング

RBF-MGN:Solving spatiotemporal PDEs with Physics-informed Graph Neural Network ( http://arxiv.org/abs/2212.02861v1 )

ライセンス: Link先を確認
Zixue Xiang, Wei Peng, Wen Yao(参考訳) 近年,偏微分方程式(PDE)の解法として,物理情報ニューラルネットワーク(PINN)が注目されている。 ほとんどの完全連結ネットワークベースPINNは、収束が遅く、境界の強制が難しい損失関数を構築するために自動微分を使用する。 さらに、畳み込みニューラルネットワーク(CNN)ベースのPINNは、トレーニング効率を大幅に改善するが、CNNは非構造化メッシュによる不規則なジオメトリを扱うのが困難である。 そこで我々は,グラフニューラルネットワーク(GNN)と放射基底関数有限差(RBF-FD)に基づく新しいフレームワークを提案する。 物理インフォームドラーニングにGNNを導入し、非構造化メッシュによる不規則領域の処理を改善する。 RBF-FDはモデルトレーニングを導くために微分方程式の高精度差分形式を構築するために用いられる。 最後に不規則領域上のポアソン方程式と波動方程式の数値実験を行う。 提案アルゴリズムの一般化可能性,精度,効率性を,異なるPDEパラメータ,収集点数,RBFの種類によって説明する。

Physics-informed neural networks (PINNs) have lately received significant attention as a representative deep learning-based technique for solving partial differential equations (PDEs). Most fully connected network-based PINNs use automatic differentiation to construct loss functions that suffer from slow convergence and difficult boundary enforcement. In addition, although convolutional neural network (CNN)-based PINNs can significantly improve training efficiency, CNNs have difficulty in dealing with irregular geometries with unstructured meshes. Therefore, we propose a novel framework based on graph neural networks (GNNs) and radial basis function finite difference (RBF-FD). We introduce GNNs into physics-informed learning to better handle irregular domains with unstructured meshes. RBF-FD is used to construct a high-precision difference format of the differential equations to guide model training. Finally, we perform numerical experiments on Poisson and wave equations on irregular domains. We illustrate the generalizability, accuracy, and efficiency of the proposed algorithms on different PDE parameters, numbers of collection points, and several types of RBFs.
翻訳日:2022-12-07 17:25:26 公開日:2022-12-06
# イグドラジル森林:高速で拡張可能な森林図書館

Yggdrasil Decision Forests: A Fast and Extensible Decision Forests Library ( http://arxiv.org/abs/2212.02934v1 )

ライセンス: Link先を確認
Mathieu Guillame-Bert, Sebastian Bruch, Richard Stotz, Jan Pfeifer(参考訳) Yggdrasil Decision Forestsは、C++で実装され、C++、コマンドラインインターフェース、Python(TensorFlow Decision Forestsという名称で)、JavaScript、Goで利用可能な、研究と運用の両方をターゲットにした、決定森林モデルのトレーニング、サービス、解釈のためのライブラリである。 このライブラリは、使用の単純さ、使用の安全性、モジュール化と高レベルの抽象化、他の機械学習ライブラリとの統合という、機械学習ライブラリとフレームワークに適用可能な4つの設計原則のセットに従って、2018年から組織的に開発されている。 本稿では,これらの原則を詳述し,図書館設計の指針として利用した方法について述べる。 次に、古典的な機械学習問題に対する私たちのライブラリの使用を紹介します。 最後に,本ライブラリを関連するソリューションと比較したベンチマークを報告する。

Yggdrasil Decision Forests is a library for the training, serving and interpretation of decision forest models, targeted both at research and production work, implemented in C++, and available in C++, command line interface, Python (under the name TensorFlow Decision Forests), JavaScript, and Go. The library has been developed organically since 2018 following a set of four design principles applicable to machine learning libraries and frameworks: simplicity of use, safety of use, modularity and high-level abstraction, and integration with other machine learning libraries. In this paper, we describe those principles in detail and present how they have been used to guide the design of the library. We then showcase the use of our library on a set of classical machine learning problems. Finally, we report a benchmark comparing our library to related solutions.
翻訳日:2022-12-07 17:25:07 公開日:2022-12-06
# フレームワイズ行動表現のための自己教師付き弱教師付きコントラスト学習

Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations ( http://arxiv.org/abs/2212.03125v1 )

ライセンス: Link先を確認
Minghao Chen, Renbo Tu, Chenxi Huang, Yuqi Lin, Boxi Wu, Deng Cai(参考訳) アクション表現学習に関する以前の研究は、短いビデオクリップのグローバル表現に焦点を当てていた。 対照的に、ビデオアライメントのような多くの実践的応用は、長いビデオの集中的な表現を学習することを強く要求している。 本稿では,特に長編ビデオにおいて,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するコントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。 具体的には,畳み込みとトランスフォーマーを組み合わせることで,時間的文脈と時間的文脈の両方を考慮した,単純かつ効果的なビデオエンコーダを提案する。 近年の自己教師型学習の進歩に触発されて,2種類の時空間データを拡張して得られた2つの関連見解に新たなシーケンスコントラスト損失(SCL)を提案する。 ひとつは、二つの拡張ビューのシーケンス類似性と、タイムスタンプ距離のガウス分布の間のKL分割を最小化することにより、埋め込み空間を最適化する自己教師バージョンである。 もう1つは、動的タイムラッピング(dtw)によるビデオレベルのラベルを使用して、ビデオ間でより多くのサンプルペアを構築する弱い教師付きバージョンである。 FineGym, PennAction, Pouring のデータセットによる実験により,我々の手法は,下流のきめ細かい動作分類とより高速な推論において,最先端の手法よりも大きなマージンで優れていることが示された。 驚くべきことに、以前の作品のようなペアビデオのトレーニングがなければ、私たちの自己監督バージョンは、ビデオアライメントやきめ細かいフレーム検索タスクにおいて、優れたパフォーマンスを示しています。

Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.
翻訳日:2022-12-07 17:19:25 公開日:2022-12-06
# FacT:視覚変換器の軽量適応のための因子調整

FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer ( http://arxiv.org/abs/2212.03145v1 )

ライセンス: Link先を確認
Shibo Jie, Zhi-Hong Deng(参考訳) 最近の研究は、パラメータ効率を向上させるために少数のパラメータを更新することで、事前訓練された視覚変換器(ViT)に適応する可能性を探っている。 現在のpetl手法では、パラメータのわずか0.5%をチューニングすることで、vitは完全な微調整よりも優れたパフォーマンスで下流タスクに適応できることが示されている。 本稿では,実世界のアプリケーションにおける極端なストレージ制約を満たすため,PETLの効率をさらに向上することを目的とする。 この目的のために,各vitの重みを1つの3次元テンソルにテンソル化し,その重みを軽量な因子に分解する,重みを格納するテンソル化分解フレームワークを提案する。 微調整プロセスでは、FacT(Facter-Tuning)と呼ばれる要素のみを更新、保存する必要がある。 VTAB-1Kベンチマークでは,提案手法は5倍のパラメータ効率を有しつつ,最先端PETL法であるNOAHと同等に動作する。 また、トレーニング可能なパラメータは8K(ViTのパラメータの0.01%)しか使用していないが、完全な微調整やVPTやBitFitといったPETLメソッドよりも優れています。 少数の設定では、FacTは最も少ないパラメータを使ってPETLベースラインを全て破り、低データのレシエーションにおいてその強みを示す。

Recent work has explored the potential to adapt a pre-trained vision transformer (ViT) by updating only a few parameters so as to improve storage efficiency, called parameter-efficient transfer learning (PETL). Current PETL methods have shown that by tuning only 0.5% of the parameters, ViT can be adapted to downstream tasks with even better performance than full fine-tuning. In this paper, we aim to further promote the efficiency of PETL to meet the extreme storage constraint in real-world applications. To this end, we propose a tensorization-decomposition framework to store the weight increments, in which the weights of each ViT are tensorized into a single 3D tensor, and their increments are then decomposed into lightweight factors. In the fine-tuning process, only the factors need to be updated and stored, termed Factor-Tuning (FacT). On VTAB-1K benchmark, our method performs on par with NOAH, the state-of-the-art PETL method, while being 5x more parameter-efficient. We also present a tiny version that only uses 8K (0.01% of ViT's parameters) trainable parameters but outperforms full fine-tuning and many other PETL methods such as VPT and BitFit. In few-shot settings, FacT also beats all PETL baselines using the fewest parameters, demonstrating its strong capability in the low-data regime.
翻訳日:2022-12-07 17:18:59 公開日:2022-12-06
# 画像合成のためのベクトル量子化トケナイザの目的の再考

Rethinking the Objectives of Vector-Quantized Tokenizers for Image Synthesis ( http://arxiv.org/abs/2212.03185v1 )

ライセンス: Link先を確認
Yuchao Gu, Xintao Wang, Yixiao Ge, Ying Shan, Xiaohu Qie, Mike Zheng Shou(参考訳) ベクトル量子化(VQベース)生成モデルは通常、2つの基本成分、すなわちVQトークン化器と生成変換器から構成される。 先行研究は、vqトークン化器の再構成精度の向上に重点を置いているが、再構成の改善が生成トランスの生成能力にどのように影響するかをほとんど検証していない。 本稿では,vqトークン化器の再構成精度の向上が必ずしも世代を改善しないことを示す。 代わりに、vqトークンライザ内のセマンティック機能を圧縮する学習は、テクスチャや構造をキャプチャする生成トランスフォーマーの能力を大幅に向上させる。 そこで,画像合成のためのvqトークン化器の2つの競合する目的を強調する。 より詳細な保存を追求する以前の研究とは違い,2つの学習段階を持つセマンティック・量子化GAN(Semantic-Quantized GAN)を提案する。 第1フェーズでは、より優れた意味圧縮のための意味強調知覚損失を提案する。 第2フェーズでは、エンコーダとコードブックを修正しながら、デコーダの強化と微調整を行い、より詳細な保存を実現する。 提案したSeQ-GANは、VQベースの生成モデルを大幅に改善し、無条件画像生成と条件画像生成の両方においてGANおよび拡散モデルを上回る。 我々のSeQ-GAN(364M)は6.25のFrechet Inception Distance(FID)と256x256 ImageNet生成の140.9のInception Score(IS)を達成し、VIT-VQGAN(714M)よりも大幅に改善され11.2FIDと97.2ISが得られる。

Vector-Quantized (VQ-based) generative models usually consist of two basic components, i.e., VQ tokenizers and generative transformers. Prior research focuses on improving the reconstruction fidelity of VQ tokenizers but rarely examines how the improvement in reconstruction affects the generation ability of generative transformers. In this paper, we surprisingly find that improving the reconstruction fidelity of VQ tokenizers does not necessarily improve the generation. Instead, learning to compress semantic features within VQ tokenizers significantly improves generative transformers' ability to capture textures and structures. We thus highlight two competing objectives of VQ tokenizers for image synthesis: semantic compression and details preservation. Different from previous work that only pursues better details preservation, we propose Semantic-Quantized GAN (SeQ-GAN) with two learning phases to balance the two objectives. In the first phase, we propose a semantic-enhanced perceptual loss for better semantic compression. In the second phase, we fix the encoder and codebook, but enhance and finetune the decoder to achieve better details preservation. The proposed SeQ-GAN greatly improves VQ-based generative models and surpasses the GAN and Diffusion Models on both unconditional and conditional image generation. Our SeQ-GAN (364M) achieves Frechet Inception Distance (FID) of 6.25 and Inception Score (IS) of 140.9 on 256x256 ImageNet generation, a remarkable improvement over VIT-VQGAN (714M), which obtains 11.2 FID and 97.2 IS.
翻訳日:2022-12-07 17:18:12 公開日:2022-12-06
# InternVideo: 生成的および差別的学習による一般ビデオ財団モデル

InternVideo: General Video Foundation Models via Generative and Discriminative Learning ( http://arxiv.org/abs/2212.03191v1 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hongjie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu, Yali Wang, Limin Wang, Yu Qiao(参考訳) 基礎モデルは最近、コンピュータビジョンにおける様々な下流タスクにおいて優れたパフォーマンスを示している。 しかし、既存の視覚基盤モデルの多くは、ダイナミックで複雑なビデオレベルの理解タスクに限られる画像レベルの事前学習と適応にのみ焦点をあてている。 このギャップを埋めるために,生成的および判別的自己教師付きビデオ学習を活用し,一般のビデオ基盤モデルであるinternvideoを提案する。 特に、InternVideoは、マスク付きビデオモデリングとビデオ言語コントラスト学習を事前学習対象として効率的に探索し、これらの2つの補完フレームワークのビデオ表現を学習可能な方法で選択的にコーディネートし、様々なビデオアプリケーションを強化する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを達成する。 特に,提案手法は,Kinetics-400とSomething V2ベンチマークでそれぞれ91.1%と77.2%のTop-1精度が得られる。 これらの結果は、ビデオ理解のためのInternVideoの汎用性を示すものだ。 コードはhttps://github.com/OpenGVLab/InternVideoで公開される。

The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
翻訳日:2022-12-07 17:17:38 公開日:2022-12-06
# ビデオvits再考: 画像とビデオ学習のための疎ビデオチューブ

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning ( http://arxiv.org/abs/2212.03229v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Weicheng Kuo and Anelia Angelova(参考訳) 本稿では,vitエンコーダを効率的な映像モデルに変換し,画像入力と映像入力の両方をシームレスに処理できる簡易な手法を提案する。 入力をわずかにサンプリングすることで、モデルは両方の入力からトレーニングと推論を行うことができる。 モデルは容易にスケーラブルで、完全な微調整を必要とせず、大規模で事前訓練されたViTに適応することができる。 モデルはSOTAの結果を達成し、コードはオープンソース化される。

We present a simple approach which can turn a ViT encoder into an efficient video model, which can seamlessly work with both image and video inputs. By sparsely sampling the inputs, the model is able to do training and inference from both inputs. The model is easily scalable and can be adapted to large-scale pre-trained ViTs without requiring full finetuning. The model achieves SOTA results and the code will be open-sourced.
翻訳日:2022-12-07 17:17:15 公開日:2022-12-06
# マルチビュー登録による自己教師付き対応推定

Self-Supervised Correspondence Estimation via Multiview Registration ( http://arxiv.org/abs/2212.03236v1 )

ライセンス: Link先を確認
Mohamed El Banani, Ignacio Rocco, David Novotny, Andrea Vedaldi, Natalia Neverova, Justin Johnson, Benjamin Graham(参考訳) ビデオは、視覚学習に必要な時空間一貫性を提供する。 近年,この信号を用いたフレームペア間の対応推定手法が提案されている。 しかし、近接フレームペアのみに依存することによって、これらのアプローチは、遠方の重なり合うフレーム間のよりリッチな長距離一貫性を欠いている。 そこで本研究では,短いRGB-Dビデオシーケンスにおけるマルチビュー一貫性から学習する対応推定のための自己教師型アプローチを提案する。 本手法は,ペアワイズ対応推定と登録と新しいse(3)変換同期アルゴリズムを組み合わせたものである。 我々の重要な洞察は、自己監督型マルチビュー登録により、より長い時間枠での対応が得られ、サンプルペアの多様性と難易度が増大するということである。 室内シーンにおける対応推定とrgb-d ポイントクラウド登録の手法を評価し,教師あり手法と対等に実施することを見いだした。

Video provides us with the spatio-temporal consistency needed for visual learning. Recent approaches have utilized this signal to learn correspondence estimation from close-by frame pairs. However, by only relying on close-by frame pairs, those approaches miss out on the richer long-range consistency between distant overlapping frames. To address this, we propose a self-supervised approach for correspondence estimation that learns from multiview consistency in short RGB-D video sequences. Our approach combines pairwise correspondence estimation and registration with a novel SE(3) transformation synchronization algorithm. Our key insight is that self-supervised multiview registration allows us to obtain correspondences over longer time frames; increasing both the diversity and difficulty of sampled pairs. We evaluate our approach on indoor scenes for correspondence estimation and RGB-D pointcloud registration and find that we perform on-par with supervised approaches.
翻訳日:2022-12-07 17:17:09 公開日:2022-12-06
# RANA: 楽しい人工神経アバター

RANA: Relightable Articulated Neural Avatars ( http://arxiv.org/abs/2212.03237v1 )

ライセンス: Link先を確認
Umar Iqbal, Akin Caliskan, Koki Nagano, Sameh Khamis, Pavlo Molchanov, Jan Kautz(参考訳) 我々は、任意の視点、身体のポーズ、照明の下での人間のフォトリアリスティックな合成のための、快活で明瞭な神経アバターranaを提案する。 アバターを作り、照明環境について何の知識も持たないよう、人の短いビデオクリップだけを必要とします。 モノクラーRGBビデオの幾何学、テクスチャ、照明環境を両立させながら、人間をモデル化する新しい枠組みを提案する。 まず、smpl+dモデルフィッティングによって人物の粗い形状とテクスチャを推定し、次に、フォトリアリスティックな画像生成のための明瞭なニューラルネットワーク表現を学習する。 RANAはまず、対象物ポーズ中の人物の正常およびアルベドマップを生成し、次いで球面調和照明を用いて目標照明環境における陰影画像を生成する。 また, 合成画像を用いたRANAの事前訓練を行い, 形状とテクスチャの絡み合いが良くなり, 新規なボディポーズの堅牢性も向上することを示した。 最後に, 提案手法の性能を定量的に評価するために, 新たなフォトリアリスティック合成データセットrelighting humanを提案する。

We propose RANA, a relightable and articulated neural avatar for the photorealistic synthesis of humans under arbitrary viewpoints, body poses, and lighting. We only require a short video clip of the person to create the avatar and assume no knowledge about the lighting environment. We present a novel framework to model humans while disentangling their geometry, texture, and also lighting environment from monocular RGB videos. To simplify this otherwise ill-posed task we first estimate the coarse geometry and texture of the person via SMPL+D model fitting and then learn an articulated neural representation for photorealistic image generation. RANA first generates the normal and albedo maps of the person in any given target body pose and then uses spherical harmonics lighting to generate the shaded image in the target lighting environment. We also propose to pretrain RANA using synthetic images and demonstrate that it leads to better disentanglement between geometry and texture while also improving robustness to novel body poses. Finally, we also present a new photorealistic synthetic dataset, Relighting Humans, to quantitatively evaluate the performance of the proposed approach.
翻訳日:2022-12-07 17:16:55 公開日:2022-12-06
# 単一画像カメラ校正のための視点場

Perspective Fields for Single Image Camera Calibration ( http://arxiv.org/abs/2212.03239v1 )

ライセンス: Link先を確認
Linyi Jin, Jianming Zhang, Yannick Hold-Geoffroy, Oliver Wang, Kevin Matzen, Matthew Sticha, David F. Fouhey(参考訳) 幾何カメラのキャリブレーションは、画像の視点を理解するためにしばしば必要となる。 画像の局所的視点特性をモデル化する表現として視点場を提案する。 パースペクティブフィールドは、カメラビューに関する画素ごとの情報を含み、アップベクトルと緯度値としてパラメータ化される。 この表現はカメラモデルについて最小限の仮定をしており、クロッピング、ワーピング、回転といった一般的な画像編集操作に不変または同変であるため、多くの利点がある。 また、より解釈可能で、人間の知覚と一致している。 我々は、視点場を予測するためにニューラルネットワークを訓練し、予測された視点場をキャリブレーションパラメータに容易に変換できる。 本手法は,カメラキャリブレーション方式と比較して,様々なシナリオにおいてロバスト性を示し,画像合成への応用例を示す。

Geometric camera calibration is often required for applications that understand the perspective of the image. We propose perspective fields as a representation that models the local perspective properties of an image. Perspective Fields contain per-pixel information about the camera view, parameterized as an up vector and a latitude value. This representation has a number of advantages as it makes minimal assumptions about the camera model and is invariant or equivariant to common image editing operations like cropping, warping, and rotation. It is also more interpretable and aligned with human perception. We train a neural network to predict Perspective Fields and the predicted Perspective Fields can be converted to calibration parameters easily. We demonstrate the robustness of our approach under various scenarios compared with camera calibration-based methods and show example applications in image compositing.
翻訳日:2022-12-07 17:16:35 公開日:2022-12-06
# CySecBERT:サイバーセキュリティドメインのためのドメイン適応言語モデル

CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain ( http://arxiv.org/abs/2212.02974v1 )

ライセンス: Link先を確認
Markus Bayer, Philipp Kuehn, Ramin Shanehsaz, Christian Reuter(参考訳) サイバーセキュリティの分野は急速に進化している。 攻撃はより先進的になり、より大きく、システムはより複雑になっているため、専門家は過去、現在、そして最も良い場合において、次の脅威について知らせる必要がある。 これは手動では対処できないため、サイバーセキュリティの専門家は機械学習技術に頼る必要がある。 texutualドメインでは、bertのような事前学習された言語モデルが、さらなる微調整のための優れたベースラインを提供することで有用であることが示されている。 しかし、ドメイン知識とサイバーセキュリティの一般的な言語モデルにおける多くの技術的用語により、テキスト情報の要点を見逃す可能性があるため、良いことよりも有害である。 そのため、我々は高品質なデータセットを作成し、自然言語を扱うサイバーセキュリティシステムの基本的なビルディングブロックとして機能するサイバーセキュリティドメインに特化された言語モデルを提示します。 このモデルは、SuperGLUEベンチマークの一般的なタスクと同様に、15の異なるドメイン依存の外在的タスクと内在的タスクに基づく他のモデルと比較される。 一方,内在的なタスクの結果から,本モデルは他のモデルと比較して単語の内部表現空間が改善されることが示された。 一方、シーケンスタグ付けと分類からなるドメイン依存タスクは、他のタスクとは対照的に、特定のアプリケーションシナリオにおいてモデルが最も優れていることを示している。 さらに,これまでに訓練されたドメインに依存しない知識をモデルで検索できるので,破滅的な忘れ作業に対する我々のアプローチを示す。 使用済みデータセットとトレーニングされたモデルが一般公開される

The field of cybersecurity is evolving fast. Experts need to be informed about past, current and - in the best case - upcoming threats, because attacks are becoming more advanced, targets bigger and systems more complex. As this cannot be addressed manually, cybersecurity experts need to rely on machine learning techniques. In the texutual domain, pre-trained language models like BERT have shown to be helpful, by providing a good baseline for further fine-tuning. However, due to the domain-knowledge and many technical terms in cybersecurity general language models might miss the gist of textual information, hence doing more harm than good. For this reason, we create a high-quality dataset and present a language model specifically tailored to the cybersecurity domain, which can serve as a basic building block for cybersecurity systems that deal with natural language. The model is compared with other models based on 15 different domain-dependent extrinsic and intrinsic tasks as well as general tasks from the SuperGLUE benchmark. On the one hand, the results of the intrinsic tasks show that our model improves the internal representation space of words compared to the other models. On the other hand, the extrinsic, domain-dependent tasks, consisting of sequence tagging and classification, show that the model is best in specific application scenarios, in contrast to the others. Furthermore, we show that our approach against catastrophic forgetting works, as the model is able to retrieve the previously trained domain-independent knowledge. The used dataset and trained model are made publicly available
翻訳日:2022-12-07 17:16:21 公開日:2022-12-06
# sdm:大孔画像インパインティングのための空間拡散モデル

SDM: Spatial Diffusion Model for Large Hole Image Inpainting ( http://arxiv.org/abs/2212.02963v1 )

ライセンス: Link先を確認
Wenbo Li, Xin Yu, Kun Zhou, Yibing Song, Zhe Lin, Jiaya Jia(参考訳) generative adversarial networks (gans) は画像インペインティングで大きな成功を収めているが、大きな欠落領域に取り組むのはまだ困難である。 対照的に、自己回帰や偏微分拡散モデルのような反復的アルゴリズムは、十分な効果を得るために巨大な計算資源で展開する必要がある。 それぞれの制約を克服するために,数回繰り返して画像全体に情報的画素を徐々に提供し,推論効率を大幅に向上させる空間拡散モデル(SDM)を提案する。 また,提案手法は,分散確率モデリングと空間拡散スキームにより,高品質な大孔完成を実現する。 複数のベンチマークにおいて,新たな最先端性能を実現する。 コードはhttps://github.com/fenglinglwb/SDMで公開されている。

Generative adversarial networks (GANs) have made great success in image inpainting yet still have difficulties tackling large missing regions. In contrast, iterative algorithms, such as autoregressive and denoising diffusion models, have to be deployed with massive computing resources for decent effect. To overcome the respective limitations, we present a novel spatial diffusion model (SDM) that uses a few iterations to gradually deliver informative pixels to the entire image, largely enhancing the inference efficiency. Also, thanks to the proposed decoupled probabilistic modeling and spatial diffusion scheme, our method achieves high-quality large-hole completion. On multiple benchmarks, we achieve new state-of-the-art performance. Code is released at https://github.com/fenglinglwb/SDM.
翻訳日:2022-12-07 17:09:58 公開日:2022-12-06
# 時空間シフトにロバストな分類器における領域一般化戦略

Domain Generalization Strategy to Train Classifiers Robust to Spatial-Temporal Shift ( http://arxiv.org/abs/2212.02968v1 )

ライセンス: Link先を確認
Minseok Seo, Doyi Kim, Seungheon Shin, Eunbin Kim, Sewoong Ahn, Yeji Choi,(参考訳) 深層学習に基づく天気予報モデルは近年大きく進歩している。 しかし、深層学習に基づくデータ駆動モデルは、空間的時間的シフトに弱いため、現実世界のアプリケーションに適用することは困難である。 気象予報タスクは、そのモデルが局所性と季節性に過度に適合する場合、特に時空間シフトに影響を受けやすい。 本稿では,気象予測モデルを時空間シフトに頑健にするためのトレーニング戦略を提案する。 まず,ハイパーパラメータと既存のトレーニング戦略の強化がモデルの時空間変動堅牢性に及ぼす影響を解析した。 次に,解析結果とテスト時間拡張に基づくハイパーパラメータと拡張の最適組み合わせを提案する。 w4c22転送データセットですべての実験を行い、最初の性能を達成した。

Deep learning-based weather prediction models have advanced significantly in recent years. However, data-driven models based on deep learning are difficult to apply to real-world applications because they are vulnerable to spatial-temporal shifts. A weather prediction task is especially susceptible to spatial-temporal shifts when the model is overfitted to locality and seasonality. In this paper, we propose a training strategy to make the weather prediction model robust to spatial-temporal shifts. We first analyze the effect of hyperparameters and augmentations of the existing training strategy on the spatial-temporal shift robustness of the model. Next, we propose an optimal combination of hyperparameters and augmentation based on the analysis results and a test-time augmentation. We performed all experiments on the W4C22 Transfer dataset and achieved the 1st performance.
翻訳日:2022-12-07 17:09:45 公開日:2022-12-06
# Open World DETR: Transformer を用いた Open World Object Detection

Open World DETR: Transformer based Open World Object Detection ( http://arxiv.org/abs/2212.02969v1 )

ライセンス: Link先を確認
Na Dong, Yongqiang Zhang, Mingli Ding, Gim Hee Lee(参考訳) open world object detectionは、トレーニングデータのオブジェクトクラスに存在しないオブジェクトを、明示的な監督なしに未知のオブジェクトとして検出することを目的としている。 さらに、未知のオブジェクトの正確なクラスは、対応する未知のオブジェクトのアノテーションが漸進的に与えられるとき、以前の既知のクラスを壊滅的に忘れずに識別しなければならない。 本稿では,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。 最初の段階では、現在のアノテーション付きデータ上にモデルを事前トレーニングして、現在の既知のクラスからオブジェクトを検出するとともに、予測を前景クラスやバックグラウンドクラスに分類するための追加のバイナリ分類器を同時にトレーニングする。 これによりモデルは、後のプロセスで未知のクラスの検出を容易にする、バイアスのない特徴表現を構築するのに役立つ。 第2段階では、モデルのクラス固有のコンポーネントを多視点自己ラベル戦略と一貫性制約で微調整する。 さらに,知識蒸留や模範的な再生を用いて,未知のクラスのアノテーションが段階的に利用可能になると,破滅的な忘れを和らげる。 PASCAL VOCとMS-COCOの実験結果から,提案手法は,他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れていた。

Open world object detection aims at detecting objects that are absent in the object classes of the training data as unknown objects without explicit supervision. Furthermore, the exact classes of the unknown objects must be identified without catastrophic forgetting of the previous known classes when the corresponding annotations of unknown objects are given incrementally. In this paper, we propose a two-stage training approach named Open World DETR for open world object detection based on Deformable DETR. In the first stage, we pre-train a model on the current annotated data to detect objects from the current known classes, and concurrently train an additional binary classifier to classify predictions into foreground or background classes. This helps the model to build an unbiased feature representations that can facilitate the detection of unknown classes in subsequent process. In the second stage, we fine-tune the class-specific components of the model with a multi-view self-labeling strategy and a consistency constraint. Furthermore, we alleviate catastrophic forgetting when the annotations of the unknown classes becomes available incrementally by using knowledge distillation and exemplar replay. Experimental results on PASCAL VOC and MS-COCO show that our proposed method outperforms other state-of-the-art open world object detection methods by a large margin.
翻訳日:2022-12-07 17:09:36 公開日:2022-12-06
# オンラインマルチオブジェクトトラッキングのための機能統合を備えたスパースメッセージパッシングネットワーク

Sparse Message Passing Network with Feature Integration for Online Multiple Object Tracking ( http://arxiv.org/abs/2212.02992v1 )

ライセンス: Link先を確認
Bisheng Wang, Horst Possegger, Horst Bischof, Guo Cao(参考訳) 既存のMultiple Object Tracking(MOT)メソッドは、パフォーマンスを追跡するために複雑なアーキテクチャを設計する。 しかし、入力情報の適切な組織がなければ、追跡を堅牢に行うことができず、頻繁なアイデンティティスイッチに悩まされる。 本稿では,これらの制約に対処するための2つの新しい手法と,シンプルなオンラインメッセージパッシングネットワーク(MPN)を提案する。 まず、グラフノードとエッジ埋め込みの異なる統合方法を検討し、IoU(Intersection over Union)ガイド付き関数を提案し、長期追跡を改善し、アイデンティティスイッチを処理する。 第2に,より難しいサンプルにトレーニングを集中させるスパルサーグラフを構築するための階層的サンプリング戦略を提案する。 これらの2つのコントリビューションを持つ単純なオンラインMPNは、多くの最先端手法よりも優れた性能を発揮することを示す実験結果が得られた。 また,提案手法は一般化が容易であり,プライベート検出に基づく手法の結果も改善できる。

Existing Multiple Object Tracking (MOT) methods design complex architectures for better tracking performance. However, without a proper organization of input information, they still fail to perform tracking robustly and suffer from frequent identity switches. In this paper, we propose two novel methods together with a simple online Message Passing Network (MPN) to address these limitations. First, we explore different integration methods for the graph node and edge embeddings and put forward a new IoU (Intersection over Union) guided function, which improves long term tracking and handles identity switches. Second, we introduce a hierarchical sampling strategy to construct sparser graphs which allows to focus the training on more difficult samples. Experimental results demonstrate that a simple online MPN with these two contributions can perform better than many state-of-the-art methods. In addition, our association method generalizes well and can also improve the results of private detection based methods.
翻訳日:2022-12-07 17:09:15 公開日:2022-12-06
# 合成的視点による弱教師付き視線推定

Weakly-Supervised Gaze Estimation from Synthetic Views ( http://arxiv.org/abs/2212.02997v1 )

ライセンス: Link先を確認
Evangelos Ververas, Polydefkis Gkagkos, Jiankang Deng, Jia Guo, Michail Christos Doukas, Stefanos Zafeiriou(参考訳) 3次元視線推定は、入力画像と視線ベクトルまたはその球面座標の直接マッピングを学ぶために最もよく取り組まれる。 近年, 顔, 体, 手のポーズ推定は, 少数のポーズパラメータから高密度な3次元座標への学習対象の修正による効果が示されている。 本研究では,この観測を応用し,3次元眼網の回帰として3次元視線推定に取り組むことを提案する。 我々は、既存の視線データセットに剛性のある3次元眼球テンプレートを組み込むことで、両眼で広く利用可能な顔画像を利用することで、一般化を改善することを提案する。 そこで本研究では,任意の顔画像からロバストな視線擬似ラベルを抽出し,その効果のバランスをとるための多視点監視フレームワークを設計するための自動パイプラインを提案する。 実験では,データセット間視線推定における最新技術と比較して30%改善し,訓練に基礎的真理データが得られない場合と7%改善した。 私たちはプロジェクトをhttps://github.com/vagver/dense3deyesで公開しています。

3D gaze estimation is most often tackled as learning a direct mapping between input images and the gaze vector or its spherical coordinates. Recently, it has been shown that pose estimation of the face, body and hands benefits from revising the learning target from few pose parameters to dense 3D coordinates. In this work, we leverage this observation and propose to tackle 3D gaze estimation as regression of 3D eye meshes. We overcome the absence of compatible ground truth by fitting a rigid 3D eyeball template on existing gaze datasets and propose to improve generalization by making use of widely available in-the-wild face images. To this end, we propose an automatic pipeline to retrieve robust gaze pseudo-labels from arbitrary face images and design a multi-view supervision framework to balance their effect during training. In our experiments, our method achieves improvement of 30% compared to state-of-the-art in cross-dataset gaze estimation, when no ground truth data are available for training, and 7% when they are. We make our project publicly available at https://github.com/Vagver/dense3Deyes.
翻訳日:2022-12-07 17:09:00 公開日:2022-12-06
# GD-MAE: LiDARポイントクラウド上でのMAE事前学習のための生成デコーダ

GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds ( http://arxiv.org/abs/2212.03010v1 )

ライセンス: Link先を確認
Honghui Yang and Tong He and Jiaheng Liu and Hua Chen and Boxi Wu and Binbin Lin and Xiaofei He and Wanli Ouyang(参考訳) Masked Autoencoders (MAE) が画像やビデオなどの視覚タスクの開発において著しく進歩しているにもかかわらず、大規模な3Dポイント雲におけるMAEの探索は、不規則性のため、依然として困難である。 従来の3D MAEフレームワークとは対照的に、複雑なデコーダを設計して、維持領域からマスキング情報を推測するか、高度なマスキング戦略を採用するか、より単純なパラダイムを提案する。 中心となる考え方は、MAE (GD-MAE) に \textbf{G}enerative \textbf{D}ecoder を適用し、周囲のコンテキストを自動的にマージして、階層的な融合方式でマスクされた幾何学的知識を復元することである。 そこで本手法では,デコーダのヒューリスティックな設計を導入せず,様々なマスキング戦略を探索する柔軟性を享受できる。 対応する部分のレイテンシは,従来の方法に比べて低く,パフォーマンスも向上している。 提案手法の有効性を,Waymo,KITTI,ONCEなどの大規模ベンチマークで実証した。 下流検出タスクの一貫性の向上は、強い堅牢性と一般化能力を示している。 我々の手法は最先端の結果を明らかにするだけでなく、Waymoデータセット上のラベル付きデータのtextbf{20\%}でも同等の精度が得られる。 コードは \url{https://github.com/Nightmare-n/GD-MAE} でリリースされる。

Despite the tremendous progress of Masked Autoencoders (MAE) in developing vision tasks such as image and video, exploring MAE in large-scale 3D point clouds remains challenging due to the inherent irregularity. In contrast to previous 3D MAE frameworks, which either design a complex decoder to infer masked information from maintained regions or adopt sophisticated masking strategies, we instead propose a much simpler paradigm. The core idea is to apply a \textbf{G}enerative \textbf{D}ecoder for MAE (GD-MAE) to automatically merges the surrounding context to restore the masked geometric knowledge in a hierarchical fusion manner. In doing so, our approach is free from introducing the heuristic design of decoders and enjoys the flexibility of exploring various masking strategies. The corresponding part costs less than \textbf{12\%} latency compared with conventional methods, while achieving better performance. We demonstrate the efficacy of the proposed method on several large-scale benchmarks: Waymo, KITTI, and ONCE. Consistent improvement on downstream detection tasks illustrates strong robustness and generalization capability. Not only our method reveals state-of-the-art results, but remarkably, we achieve comparable accuracy even with \textbf{20\%} of the labeled data on the Waymo dataset. The code will be released at \url{https://github.com/Nightmare-n/GD-MAE}.
翻訳日:2022-12-07 17:08:40 公開日:2022-12-06
# 低木断面の顕微鏡画像における木の輪のインスタンスセグメンテーションの繰り返し次境界検出

Iterative Next Boundary Detection for Instance Segmentation of Tree Rings in Microscopy Images of Shrub Cross Sections ( http://arxiv.org/abs/2212.03022v1 )

ライセンス: Link先を確認
Alexander Gillert, Giulia Resente, Alba Anadon-Rosell, Martin Wilmking, Uwe Freiherr von Lukas(参考訳) 我々は,低木断面の顕微鏡画像における木輪検出の問題を分析する。 これは、オブジェクトの同心円環形状や、既存のメソッドが十分に機能しないという高い精度の要求など、いくつかの特異性を持つインスタンスセグメンテーションタスクの特別なケースと見なすことができる。 本稿では,INBD(Iterative Next boundary Detection)と呼ばれる新しい反復法を提案する。 直感的に自然成長方向をモデル化し、低木断面の中心から始まり、各繰り返しステップにおける次のリング境界を検出する。 我々の実験では、INBDはジェネリックインスタンスセグメンテーション法よりも優れた性能を示し、時間順の概念を組み込んだ唯一の方法である。 データセットとソースコードはhttp://github.com/alexander-g/INBD.comで公開されています。

We analyze the problem of detecting tree rings in microscopy images of shrub cross sections. This can be regarded as a special case of the instance segmentation task with several particularities such as the concentric circular ring shape of the objects and high precision requirements due to which existing methods don't perform sufficiently well. We propose a new iterative method which we term Iterative Next Boundary Detection (INBD). It intuitively models the natural growth direction, starting from the center of the shrub cross section and detecting the next ring boundary in each iteration step. In our experiments, INBD shows superior performance to generic instance segmentation methods and is the only one with a built-in notion of chronological order. Our dataset and source code are available at http://github.com/alexander-g/INBD.
翻訳日:2022-12-07 17:08:12 公開日:2022-12-06
# AbHE: あらゆる注意に基づくホログラフィー推定

AbHE: All Attention-based Homography Estimation ( http://arxiv.org/abs/2212.03029v1 )

ライセンス: Link先を確認
Mingxiao Huo, Zhihao Zhang, Xianqiang Yang(参考訳) ホログラフィー推定は、画像アライメントのための多視点画像から変換を得るための基本的なコンピュータビジョンタスクである。 教師なし学習ホモグラフィ推定は、特徴抽出と変換行列回帰のための畳み込みニューラルネットワークを訓練する。 最先端のホモグラフィ法は畳み込みニューラルネットワークに基づいているが、高レベルの視覚タスクにおいて優位性を示すトランスフォーマーに焦点を当てた研究はほとんどない。 本稿では,局所的な特徴に対する畳み込みニューラルネットワークとグローバルな特徴のためのトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。 さらに,特徴マップ内のマッチング特徴を粗く検索するためにクロス非局所層を導入し,ホモグラフィ回帰段階において相関ボリュームのチャネルに対して注意層を導入することにより,弱い相関特徴点を除外できる。 実験により,自由度8自由度(dofs)ホモグラフィにおいて,本手法が最先端法を過大評価することを示した。

Homography estimation is a basic computer vision task, which aims to obtain the transformation from multi-view images for image alignment. Unsupervised learning homography estimation trains a convolution neural network for feature extraction and transformation matrix regression. While the state-of-the-art homography method is based on convolution neural networks, few work focuses on transformer which shows superiority in high-level vision tasks. In this paper, we propose a strong-baseline model based on the Swin Transformer, which combines convolution neural network for local features and transformer module for global features. Moreover, a cross non-local layer is introduced to search the matched features within the feature maps coarsely.In the homography regression stage, we adopts an attention layer for the channels of correlation volume, which can drop out some weak correlation feature points. The experiment shows that in 8 Degree-of-Freedoms(DOFs) homography estimation our methods overperform the state-of-the-art method.
翻訳日:2022-12-07 17:07:58 公開日:2022-12-06
# IncepFormer: セマンティックセグメンテーションのためのピラミッドプール付き効率的なインセプショントランス

IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation ( http://arxiv.org/abs/2212.03035v1 )

ライセンス: Link先を確認
Lihua Fu, Haoyue Tian, Xiangping Bryce Zhai, Pan Gao, Xiaojiang Peng(参考訳) セマンティックセグメンテーションは通常、グローバルコンテキスト、詳細なローカライゼーション情報、マルチスケール機能などの恩恵を受ける。 このような側面でTransformerベースのセグメンタを前進させるため,IncepFormerと呼ばれるシンプルなセグメンテーションアーキテクチャを提案する。 incepformerには以下の2つの重要な貢献がある。 まず,グローバルコンテキストと細かな局所化を同時に行う新しいピラミッド構造トランスフォーマエンコーダを導入する。 これらの特徴は連結され、最終ピクセル当たりの予測のために畳み込み層に入力される。 第二に、incepformerはインセプションのようなアーキテクチャと奥行き方向の畳み込み、そして各セルフアテンション層に軽量フィードフォワードモジュールを統合し、リッチな局所的マルチスケールオブジェクトの特徴を効率的に得る。 5つのベンチマークの大規模な実験により、IncepFormerは精度と速度の両面で最先端の手法よりも優れていることが示された。 1) inepformer-s は ade20k 上で 47.7% の miou を達成し,既存の最良メソッドを 1% で上回っています。 2) CeepFormer-Bは最終的に39.6Mパラメータを持つCityscapesデータセットで82.0% mIoUを達成した。 コードはgithub.com/shendu0321/incepformer。

Semantic segmentation usually benefits from global contexts, fine localisation information, multi-scale features, etc. To advance Transformer-based segmenters with these aspects, we present a simple yet powerful semantic segmentation architecture, termed as IncepFormer. IncepFormer has two critical contributions as following. First, it introduces a novel pyramid structured Transformer encoder which harvests global context and fine localisation features simultaneously. These features are concatenated and fed into a convolution layer for final per-pixel prediction. Second, IncepFormer integrates an Inception-like architecture with depth-wise convolutions, and a light-weight feed-forward module in each self-attention layer, efficiently obtaining rich local multi-scale object features. Extensive experiments on five benchmarks show that our IncepFormer is superior to state-of-the-art methods in both accuracy and speed, e.g., 1) our IncepFormer-S achieves 47.7% mIoU on ADE20K which outperforms the existing best method by 1% while only costs half parameters and fewer FLOPs. 2) Our IncepFormer-B finally achieves 82.0% mIoU on Cityscapes dataset with 39.6M parameters. Code is available:github.com/shendu0321/IncepFormer.
翻訳日:2022-12-07 17:07:42 公開日:2022-12-06
# グラフ階層による短時間・長期追跡の統一

Unifying Short and Long-Term Tracking with Graph Hierarchies ( http://arxiv.org/abs/2212.03038v1 )

ライセンス: Link先を確認
Orcun Cetintas, Guillem Bras\'o, Laura Leal-Taix\'e(参考訳) 長いビデオ上でオブジェクトを追跡することは、非閉塞オブジェクトの短期関連から、閉鎖されたオブジェクトの長期関連まで、さまざまな問題を解決することを意味する。 これらの2つのタスクに取り組むメソッドは、しばしば特定のシナリオのために結合せず、作成される。そして、トップパフォーマンスアプローチは、しばしばテクニックの混合であり、汎用性を欠いたエンジニアリングに富んだソリューションをもたらす。 本研究では,ハイブリッドアプローチの必要性に疑問を呈し,統一かつスケーラブルなマルチオブジェクトトラッカーであるSUSHIを導入する。 我々のアプローチは、長いクリップをサブクリップの階層に分割することで処理し、高いスケーラビリティを実現する。 私たちはグラフニューラルネットワークを利用して階層のすべてのレベルを処理します。 その結果,4つの多様なデータセット上での最先端技術に対する大幅な改善が得られた。 私たちのコードとモデルは利用可能になります。

Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models will be made available.
翻訳日:2022-12-07 17:07:20 公開日:2022-12-06
# 脳腫瘍分類のための特徴抽出と非線形svmを用いたハイブリッドモデル

Hybrid Model using Feature Extraction and Non-linear SVM for Brain Tumor Classification ( http://arxiv.org/abs/2212.02794v1 )

ライセンス: Link先を確認
Lalita Mishra, Shekhar Verma, Shirshu Varma(参考訳) 脳腫瘍をMRI(MRI)から正確に分類し、患者の時間的治療に欠かせない。 本稿では,VGGと非線形SVM(Soft and Hard)を併用して,グリオーマ,下垂体,腫瘍,非腫瘍の脳腫瘍を分類するハイブリッドモデルを提案する。 VGG-SVMモデルは2つのクラスの2つの異なるデータセットに対して訓練される。 VGGモデルは、PyTorch pythonライブラリを介して訓練され、腫瘍分類の最も高い検査精度を得る。 第1ステップでは画像の正規化と再サイズを行い,第2ステップではVGGモデルの変種による特徴抽出を行う。 第3段階は非線形SVM(ソフトとハード)を用いて脳腫瘍を分類した。 VGG19を用いて、第1データセットの98.18%、第2データセットの99.78%の精度を得た。 非線形SVMの分類精度は、線形およびrbfカーネルで95.50%と97.98%、D1のRBFカーネルで97.95%、D2のRBFカーネルで96.75%と98.60%、D2のRBFカーネルで98.38%である。 その結果, ハイブリッドVGG-SVMモデル, 特にSVMを用いたVGG 19は, 既存の技術より優れ, 精度が高いことがわかった。

It is essential to classify brain tumors from magnetic resonance imaging (MRI) accurately for better and timely treatment of the patients. In this paper, we propose a hybrid model, using VGG along with Nonlinear-SVM (Soft and Hard) to classify the brain tumors: glioma and pituitary and tumorous and non-tumorous. The VGG-SVM model is trained for two different datasets of two classes; thus, we perform binary classification. The VGG models are trained via the PyTorch python library to obtain the highest testing accuracy of tumor classification. The method is threefold, in the first step, we normalize and resize the images, and the second step consists of feature extraction through variants of the VGG model. The third step classified brain tumors using non-linear SVM (soft and hard). We have obtained 98.18% accuracy for the first dataset and 99.78% for the second dataset using VGG19. The classification accuracies for non-linear SVM are 95.50% and 97.98% with linear and rbf kernel and 97.95% for soft SVM with RBF kernel with D1, and 96.75% and 98.60% with linear and RBF kernel and 98.38% for soft SVM with RBF kernel with D2. Results indicate that the hybrid VGG-SVM model, especially VGG 19 with SVM, is able to outperform existing techniques and achieve high accuracy.
翻訳日:2022-12-07 17:01:26 公開日:2022-12-06
# DiffuPose:拡散確率モデルによる単眼的3次元人物位置推定

DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion Probabilistic Model ( http://arxiv.org/abs/2212.02796v1 )

ライセンス: Link先を確認
Jeongjun Choi, Dongseok Shim, H. Jin Kim(参考訳) 2Dキーポイント検出器の開発により、2D-to-3Dアップリフトアプローチによる単眼的3次元ポーズ推定(HPE)は目覚ましい改善を遂げた。 しかし, 単眼の3d hpeは, 内在的な奥行きあいまいさと咬合性のため, 難しい問題である。 この問題に対処するため、過去の多くの研究は時間的情報を利用してそのような困難を緩和した。 しかし、フレームシーケンスがアクセスできない現実世界のアプリケーションも数多く存在する。 本稿では,1つの2次元キーポイント検出から3次元ポーズを再構成することに焦点を当てる。 時間的情報を活用するのではなく、同一の2Dキーポイントにマッピング可能な複数の3Dポーズ候補を生成することにより、深さの曖昧さを軽減する。 市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。 従来の分節u-netをグラフ畳み込みネットワークに置き換えることでヒト関節間の相関を考慮し,さらなる性能向上を実現する。 本手法は広く採用されているhuman3.6mおよびhumaneva-iデータセットを用いて評価する。 提案手法の有効性を証明するための総合的な実験を行い,本モデルが最先端のマルチハイポテーシス3D HPE法より優れていることを確認した。

Thanks to the development of 2D keypoint detectors, monocular 3D human pose estimation (HPE) via 2D-to-3D uplifting approaches have achieved remarkable improvements. Still, monocular 3D HPE is a challenging problem due to the inherent depth ambiguities and occlusions. To handle this problem, many previous works exploit temporal information to mitigate such difficulties. However, there are many real-world applications where frame sequences are not accessible. This paper focuses on reconstructing a 3D pose from a single 2D keypoint detection. Rather than exploiting temporal information, we alleviate the depth ambiguity by generating multiple 3D pose candidates which can be mapped to an identical 2D keypoint. We build a novel diffusion-based framework to effectively sample diverse 3D poses from an off-the-shelf 2D detector. By considering the correlation between human joints by replacing the conventional denoising U-Net with graph convolutional network, our approach accomplishes further performance improvements. We evaluate our method on the widely adopted Human3.6M and HumanEva-I datasets. Comprehensive experiments are conducted to prove the efficacy of the proposed method, and they confirm that our model outperforms state-of-the-art multi-hypothesis 3D HPE methods.
翻訳日:2022-12-07 17:01:01 公開日:2022-12-06
# MUS-CDB:空中物体検出におけるアクティブアノテーションのためのクラス分散バランス付き混合不確かさサンプリング

MUS-CDB: Mixed Uncertainty Sampling with Class Distribution Balancing for Active Annotation in Aerial Object Detection ( http://arxiv.org/abs/2212.02804v1 )

ライセンス: Link先を確認
Dong Liang and Jing-Wei Zhang and Ying-Peng Tang and Sheng-Jun Hang(参考訳) 最近の航空物体検出モデルは、大量のラベル付き訓練データに依存しており、密集した物体を持つ大きな空中シーンでは、望ましくない手動ラベリングコストを必要とする。 アクティブラーニングは、情報的および代表的未ラベルサンプルを選択的にクエリすることで、データラベリングコストの低減に有効である。 しかし,既存のアクティブラーニング手法は,主にクラスバランスの設定と画像に基づく一般的な物体検出タスクのクエリが特徴であり,空域における長い尾のクラス分布や密集した小物体による空中物体検出のシナリオには適用できない。 本稿では,コスト効率の高い空中物体検出のための新しい能動学習手法を提案する。 具体的には、冗長で近視的なクエリを控えるために、オブジェクトの選択において、オブジェクトレベルとイメージレベルのインフォメーションの両方が考慮される。 また、モデルトレーニングにおけるロングテールクラス分散問題を軽減するためにマイノリティオブジェクトを好むために、使いやすいクラスバランス基準が組み込まれている。 問い合わせ情報を完全に活用するために,未発見画像領域における潜伏知識をマイニングするためのトレーニング損失を更に考案する。 提案手法の有効性を検証するため,DOTA-v1.0およびDOTA-v2.0ベンチマークを用いて実験を行った。 その結果,ラベリングコストの75%以上を削減でき,ベースラインや最先端のアクティブオブジェクト検出法と同等の性能が得られることがわかった。 コードはhttps://github.com/ZJW700/MUS-CDBで入手できる。

Recent aerial object detection models rely on a large amount of labeled training data, which requires unaffordable manual labeling costs in large aerial scenes with dense objects. Active learning is effective in reducing the data labeling cost by selectively querying the informative and representative unlabelled samples. However, existing active learning methods are mainly with class-balanced setting and image-based querying for generic object detection tasks, which are less applicable to aerial object detection scenario due to the long-tailed class distribution and dense small objects in aerial scenes. In this paper, we propose a novel active learning method for cost-effective aerial object detection. Specifically, both object-level and image-level informativeness are considered in the object selection to refrain from redundant and myopic querying. Besides, an easy-to-use class-balancing criterion is incorporated to favor the minority objects to alleviate the long-tailed class distribution problem in model training. To fully utilize the queried information, we further devise a training loss to mine the latent knowledge in the undiscovered image regions. Extensive experiments are conducted on the DOTA-v1.0 and DOTA-v2.0 benchmarks to validate the effectiveness of the proposed method. The results show that it can save more than 75% of the labeling cost to reach the same performance compared to the baselines and state-of-the-art active object detection methods. Code is available at https://github.com/ZJW700/MUS-CDB
翻訳日:2022-12-07 17:00:43 公開日:2022-12-06
# 小物体検出のための高度なYOLOv3法

An advanced YOLOv3 method for small object detection ( http://arxiv.org/abs/2212.02809v1 )

ライセンス: Link先を確認
Baokai Liu, Fengjie He, Shiqiang Du, Jiacheng Li, Wenjie Liu(参考訳) 近年、オブジェクト検出は、非常に大きな性能向上を達成しているが、小さなオブジェクトの検出結果はまだ十分ではない。 本研究は, 拡張畳み込みを用いた機能融合と拡張畳み込みに基づく戦略を提案し, この問題に対処するために, 様々なスケールで特徴写像の受容領域を広げる。 一方、より大きな物体の検出精度を向上させることができる。 一方,小型オブジェクトに対してよりコンテキスト情報を提供し,小型オブジェクトの検出精度の向上に有効である。 特徴マップ内のノイズをフィルタリングして小オブジェクトの浅い意味情報を取得し、多スケール融合特徴モジュールとアテンション機構を用いて、より小さなオブジェクトの特徴情報を保存する。 これらの浅い特徴情報と深い意味情報の融合は、小さな物体検出のためによりリッチな特徴マップを生成することができる。 実験により, 従来のYOLOv3ネットワークよりも, 小物体や隠蔽物体の検出精度が高いことがわかった。 さらに,MS COCO2017 テストセット上での微小物体検出における平均平均精度を 32.8 % とする。 640*640入力の場合、PASCAL VOC2012データセット上の88.76\% mAPを持つ。

In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
翻訳日:2022-12-07 17:00:18 公開日:2022-12-06
# クラスインクリメンタルセマンティックセグメンテーションのための証拠深層学習

Evidential Deep Learning for Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2212.02863v1 )

ライセンス: Link先を確認
Karl Holmquist, Lena Klas\'en, Michael Felsberg(参考訳) クラス増分学習(Class-Incremental Learning)は、以前トレーニングされたニューラルネットワークを新しいクラスに拡張することを目的とした機械学習の課題である。 これは、システムが元のトレーニングデータが利用できないにもかかわらず、新しいオブジェクトを分類できる場合に特に便利である。 セマンティクスのセグメンテーション問題は分類よりもあまり注目されていないが、前と将来のターゲットクラスが単一のインクリメントのイメージにラベル付けされないため、異なる問題と課題をもたらす。 この場合、背景、過去、将来のクラスは相関しており、背景シフトが存在する。 本稿では,ラベルなしクラスをモデル化する方法の問題に対処し,将来的非相関クラスの多彩な特徴クラスタリングを回避する。 我々は,授業の証拠をディリクレ分布としてモデル化するために,エビデンシャル・ディープ・ラーニング(Evidential Deep Learning)を提案する。 本手法は,ディリクレ分布の期待値と推定の不確かさに対応する未知のクラス(背景)確率によって計算される,別個のフォアグラウンドクラス確率に問題を分解する。 我々の新しい定式化において、背景確率は暗黙的にモデル化され、オブジェクトとしてラベル付けされていないピクセルに対して高い背景スコアを出力することを強制することによる特徴空間クラスタリングを避ける。 インクリメンタルパスカルvocとade20kベンチマークの実験では、特にインクリメント数が増加する新しいクラスを繰り返し学習する場合において、この手法は最先端の手法よりも優れていることが示されている。

Class-Incremental Learning is a challenging problem in machine learning that aims to extend previously trained neural networks with new classes. This is especially useful if the system is able to classify new objects despite the original training data being unavailable. While the semantic segmentation problem has received less attention than classification, it poses distinct problems and challenges since previous and future target classes can be unlabeled in the images of a single increment. In this case, the background, past and future classes are correlated and there exist a background-shift. In this paper, we address the problem of how to model unlabeled classes while avoiding spurious feature clustering of future uncorrelated classes. We propose to use Evidential Deep Learning to model the evidence of the classes as a Dirichlet distribution. Our method factorizes the problem into a separate foreground class probability, calculated by the expected value of the Dirichlet distribution, and an unknown class (background) probability corresponding to the uncertainty of the estimate. In our novel formulation, the background probability is implicitly modeled, avoiding the feature space clustering that comes from forcing the model to output a high background score for pixels that are not labeled as objects. Experiments on the incremental Pascal VOC, and ADE20k benchmarks show that our method is superior to state-of-the-art, especially when repeatedly learning new classes with increasing number of increments.
翻訳日:2022-12-07 17:00:02 公開日:2022-12-06
# 興味のセグメンテーションのビデオオブジェクト

Video Object of Interest Segmentation ( http://arxiv.org/abs/2212.02871v1 )

ライセンス: Link先を確認
Siyuan Zhou and Chunru Zhan and Biao Wang and Tiezheng Ge and Yuning Jiang and Li Niu(参考訳) 本稿では,新たなコンピュータビジョンタスクであるvideo object of interest segmentation(vois)を提案する。 対象画像と対象画像が与えられた場合,対象画像に関連する映像中のすべてのオブジェクトを同時にセグメンテーションして追跡することが目的である。 この問題は、従来のビデオオブジェクトセグメンテーションタスクと、ユーザが関心を持っているコンテンツを示す追加のイメージを組み合わせる。 既存のデータセットは、この新しいタスクに完全に適合しないので、特に、2418対のターゲット画像とインスタンスレベルのアノテーションを備えたライブビデオを含む、LiveVideosと呼ばれる大規模なデータセットを構築します。 さらに,本課題に対するトランスフォーマーに基づく手法を提案する。 swin transformerを再検討し、ビデオと画像の機能を融合するデュアルパス構造を設計する。 次に、トランスデコーダを用いて、融合した特徴からセグメンテーションと追跡のためのオブジェクト提案を生成する。 LiveVideosデータセットの大規模な実験により,提案手法の優位性を示した。

In this work, we present a new computer vision task named video object of interest segmentation (VOIS). Given a video and a target image of interest, our objective is to simultaneously segment and track all objects in the video that are relevant to the target image. This problem combines the traditional video object segmentation task with an additional image indicating the content that users are concerned with. Since no existing dataset is perfectly suitable for this new task, we specifically construct a large-scale dataset called LiveVideos, which contains 2418 pairs of target images and live videos with instance-level annotations. In addition, we propose a transformer-based method for this task. We revisit Swin Transformer and design a dual-path structure to fuse video and image features. Then, a transformer decoder is employed to generate object proposals for segmentation and tracking from the fused features. Extensive experiments on LiveVideos dataset show the superiority of our proposed method.
翻訳日:2022-12-07 16:59:34 公開日:2022-12-06
# 時間動的ビデオグラフにおけるマルチタスクエッジ予測

Multi-Task Edge Prediction in Temporally-Dynamic Video Graphs ( http://arxiv.org/abs/2212.02875v1 )

ライセンス: Link先を確認
Osman \"Ulger, Julian Wiederer, Mohsen Ghafoorian, Vasileios Belagiannis, Pascal Mettes(参考訳) グラフニューラルネットワークは効率的なノード表現を学習し、ノード、リンク、グラフレベルの推論を可能にする。 従来のグラフネットワークはノード間の静的な関係を仮定するが、ビデオ内のエンティティ間の関係は時間とともに進化し、ノードは動的に入出する。 このような時間動的グラフでは、核となる問題は時空間エッジの将来の状態を推測するものであり、これは複数の種類の関係を構成することができる。 この問題に対処するために,複数種類の関係に対して時間動的エッジを予測するグラフネットワークMTD-GNNを提案する。 動的ノード表現を学習するための分解時空間グラフアテンション層を提案し、同時に複数の関係をモデル化するマルチタスクエッジ予測損失を示す。 提案アーキテクチャは、オブジェクト検出と時空間リンクを通じてビデオから得られるシーングラフ上で動作する。 actiongenome と clevrer の実験的評価は、時間-動的グラフネットワークにおける多重関係のモデリングが、既存の静的および時空間グラフニューラルネットワークや最先端の述語分類法よりも優れており、相互に有益であることを示している。

Graph neural networks have shown to learn effective node representations, enabling node-, link-, and graph-level inference. Conventional graph networks assume static relations between nodes, while relations between entities in a video often evolve over time, with nodes entering and exiting dynamically. In such temporally-dynamic graphs, a core problem is inferring the future state of spatio-temporal edges, which can constitute multiple types of relations. To address this problem, we propose MTD-GNN, a graph network for predicting temporally-dynamic edges for multiple types of relations. We propose a factorized spatio-temporal graph attention layer to learn dynamic node representations and present a multi-task edge prediction loss that models multiple relations simultaneously. The proposed architecture operates on top of scene graphs that we obtain from videos through object detection and spatio-temporal linking. Experimental evaluations on ActionGenome and CLEVRER show that modeling multiple relations in our temporally-dynamic graph network can be mutually beneficial, outperforming existing static and spatio-temporal graph neural networks, as well as state-of-the-art predicate classification methods.
翻訳日:2022-12-07 16:59:22 公開日:2022-12-06
# G-MSM: グラフベース親和性優先条件による教師なしマルチ形状マッチング

G-MSM: Unsupervised Multi-Shape Matching with Graph-based Affinity Priors ( http://arxiv.org/abs/2212.02910v1 )

ライセンス: Link先を確認
Marvin Eisenberger, Aysim Toker, Laura Leal-Taix\'e, Daniel Cremers(参考訳) G-MSM (Graph-based Multi-Shape Matching) は,非剛体形状対応のための教師なし学習手法である。 入力ポーズの集合を無順序なサンプル集合として扱うのではなく、基礎となる形状データ多様体を明示的にモデル化する。 そこで本研究では,与えられたトレーニング形状の集合に対して,自己教師付きでアフィニティグラフを構築する適応型多形マッチングアーキテクチャを提案する。 鍵となる考え方は、下層の形状グラフの最も短い経路に沿って地図を伝播することによって、仮定的対対応を組み合わせることである。 学習中, 最適経路とペアワイズマッチングのサイクル一貫性を強制し, モデルがトポロジー認識型を学習できるようにする。 テンプレートベースのマッチング(スターグラフ)や学習可能なランキング・ソート(tspグラフ)といった,さまざまなシェープグラフのクラスを調査して,特定の設定を回復します。 最後に,近年の形状対応ベンチマークにおいて,トポロジカルノイズを伴う実世界の3dスキャンメッシュやクラス間ペアの挑戦など,最先端のパフォーマンスを示す。

We present G-MSM (Graph-based Multi-Shape Matching), a novel unsupervised learning approach for non-rigid shape correspondence. Rather than treating a collection of input poses as an unordered set of samples, we explicitly model the underlying shape data manifold. To this end, we propose an adaptive multi-shape matching architecture that constructs an affinity graph on a given set of training shapes in a self-supervised manner. The key idea is to combine putative, pairwise correspondences by propagating maps along shortest paths in the underlying shape graph. During training, we enforce cycle-consistency between such optimal paths and the pairwise matches which enables our model to learn topology-aware shape priors. We explore different classes of shape graphs and recover specific settings, like template-based matching (star graph) or learnable ranking/sorting (TSP graph), as special cases in our framework. Finally, we demonstrate state-of-the-art performance on several recent shape correspondence benchmarks, including real-world 3D scan meshes with topological noise and challenging inter-class pairs.
翻訳日:2022-12-07 16:59:01 公開日:2022-12-06
# M-VADER:マルチモーダル文脈での拡散モデル

M-VADER: A Model for Diffusion with Multimodal Context ( http://arxiv.org/abs/2212.02936v1 )

ライセンス: Link先を確認
Samuel Weinbach, Marco Bellagente, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Bj\"orn Deiseroth, Koen Oostermeijer, Hannah Teufel, Andres Felipe Cruz-Salinas(参考訳) 画像とテキストの任意の組み合わせを用いて出力を指定できる画像生成用拡散モデル(DM) M-VADERを紹介する。 M-VADERは、画像とテキストの組み合わせと複数の画像の組み合わせを用いて、指定された画像を生成することができることを示す。 従来,テキストプロンプトを用いて出力画像を指定することが可能なdm画像生成アルゴリズムが数多く導入されてきた。 これらのモデルの成功に着想を得て、人間が最も重要な視覚コンテキストの要素を記述するために既に言語が開発されたという考えに導かれ、視覚言語モデルと密接に関連した埋め込みモデルを導入する。 具体的には、自己回帰視覚言語モデルMAGMAの成分と意味探索のために微調整されたバイアスを組み合わせた13億のパラメータマルチモーダルデコーダである埋め込みモデルS-MAGMAを紹介する。

We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.
翻訳日:2022-12-07 16:58:40 公開日:2022-12-06
# 時空間アグリゲーションネットワークを用いた天気予報用簡易ベースライン

Simple Baseline for Weather Forecasting Using Spatiotemporal Context Aggregation Network ( http://arxiv.org/abs/2212.02952v1 )

ライセンス: Link先を確認
Minseok Seo, Doyi Kim, Seungheon Shin, Eunbin Kim, Sewoong Ahn, Yeji Choi,(参考訳) 伝統的な天気予報はドメインの専門知識と計算集約的な数値シミュレーションシステムに依存している。 近年,データ駆動型手法が開発され,深層学習に基づく天気予報が注目されている。 深層学習に基づく天気予報は、CNN、RNN、Transformerを用いた様々なバックボーン研究から、補助的な入力を伴う気象観測データセットを使用したトレーニング戦略まで、驚くべき進歩を遂げている。 これらの進歩は天気予報の分野に寄与しているが、深層学習モデルの多くの要素や複雑な構造は、物理的な解釈に達するのを妨げている。 本稿では、W4C22の5つのベンチマークのうち4つの部分で最先端を達成できる時空間アグリゲーションネットワーク(SIANet)を備えたSImpleベースラインを提案する。 このシンプルで効率的な構造は、マルチモデルアンサンブルや微調整を使わずに、衛星画像とcnnだけをエンドツーエンドで使用する。 SIANetのこの単純さは、ディープラーニングを用いて天気予報に容易に適用可能な、ソリッドベースラインとして利用することができる。

Traditional weather forecasting relies on domain expertise and computationally intensive numerical simulation systems. Recently, with the development of a data-driven approach, weather forecasting based on deep learning has been receiving attention. Deep learning-based weather forecasting has made stunning progress, from various backbone studies using CNN, RNN, and Transformer to training strategies using weather observations datasets with auxiliary inputs. All of this progress has contributed to the field of weather forecasting; however, many elements and complex structures of deep learning models prevent us from reaching physical interpretations. This paper proposes a SImple baseline with a spatiotemporal context Aggregation Network (SIANet) that achieved state-of-the-art in 4 parts of 5 benchmarks of W4C22. This simple but efficient structure uses only satellite images and CNNs in an end-to-end fashion without using a multi-model ensemble or fine-tuning. This simplicity of SIANet can be used as a solid baseline that can be easily applied in weather forecasting using deep learning.
翻訳日:2022-12-07 16:58:27 公開日:2022-12-06
# オブジェクト指向コントラスト学習と回帰不確かさを用いた半教師対象検出

Semi-Supervised Object Detection with Object-wise Contrastive Learning and Regression Uncertainty ( http://arxiv.org/abs/2212.02747v1 )

ライセンス: Link先を確認
Honggyu Choi, Zhixiang Chen, Xuepeng Shi, Tae-Kyun Kim(参考訳) semi-supervised object detection (ssod) は、余分なラベルのないデータを活用することで検出性能を向上させることを目的としている。 教師用フレームワークはssodに有望であることが示されており、教師ネットワークは学生ネットワークのトレーニングを支援するためにラベルなしデータの擬似ラベルを生成する。 擬似ラベルはノイズが多いため、擬似ラベルをフィルタリングすることはそのようなフレームワークの可能性を活用する上で重要である。 既存のサブオプティカル手法と異なり,教師・教師の枠組みにおける分類と回帰ヘッドに対する2段階擬似ラベルフィルタリングを提案する。 分類ヘッドに対して、OCL(Object-wise Contrastive Learning)は、未ラベルデータを利用したオブジェクト表現学習を正規化し、分類スコアの識別性を高めて擬似ラベルフィルタリングを改善する。 これは、同じクラスのオブジェクトをまとめて、異なるクラスからオブジェクトをプッシュするように設計されています。 回帰ヘッドに対しては,ラベルフィルタリング対象の局所化の不確かさを学習するために,rupl(regression-uncertainty-guided pseudo-labeling)を提案する。 学生ネットワークは、分類および回帰ヘッドのための擬似ラベルを共同フィルタリングすることにより、教師ネットワークからオブジェクト検出タスクのためのより良い指導を受ける。 パスカルVOCおよびMS-COCOデータセットの実験結果から,提案手法が既存手法と比較して競争性能に優れていることを示す。

Semi-supervised object detection (SSOD) aims to boost detection performance by leveraging extra unlabeled data. The teacher-student framework has been shown to be promising for SSOD, in which a teacher network generates pseudo-labels for unlabeled data to assist the training of a student network. Since the pseudo-labels are noisy, filtering the pseudo-labels is crucial to exploit the potential of such framework. Unlike existing suboptimal methods, we propose a two-step pseudo-label filtering for the classification and regression heads in a teacher-student framework. For the classification head, OCL (Object-wise Contrastive Learning) regularizes the object representation learning that utilizes unlabeled data to improve pseudo-label filtering by enhancing the discriminativeness of the classification score. This is designed to pull together objects in the same class and push away objects from different classes. For the regression head, we further propose RUPL (Regression-Uncertainty-guided Pseudo-Labeling) to learn the aleatoric uncertainty of object localization for label filtering. By jointly filtering the pseudo-labels for the classification and regression heads, the student network receives better guidance from the teacher network for object detection task. Experimental results on Pascal VOC and MS-COCO datasets demonstrate the superiority of our proposed method with competitive performance compared to existing methods.
翻訳日:2022-12-07 16:52:04 公開日:2022-12-06
# ファサードセグメンテーション構築のためのハイパースペクトルとRGBデータセット

A Hyperspectral and RGB Dataset for Building Facade Segmentation ( http://arxiv.org/abs/2212.02749v1 )

ライセンス: Link先を確認
Nariman Habili, Ernest Kwan, Weihao Li, Christfried Webers, Jeremy Oorloff, Mohammad Ali Armin, Lars Petersson(参考訳) ハイパースペクトルイメージング(HSI)は詳細なスペクトル情報を提供し、多くの現実世界のアプリケーションで利用されてきた。 本研究は,現場の異なる建築材料を分類することを目的とした,光産業環境におけるファサード構築のためのHSIデータセットを紹介する。 このデータセットはLight Industrial Building HSI(LIB-HSI)データセットと呼ばれる。 このデータセットは9つのカテゴリと44のクラスから構成される。 本研究では,rgbおよびハイパースペクトル画像を用いた深層学習に基づく意味セグメンテーションアルゴリズムを調査し,木材,れんが,コンクリートなどの各種建築材料を分類した。

Hyperspectral Imaging (HSI) provides detailed spectral information and has been utilised in many real-world applications. This work introduces an HSI dataset of building facades in a light industry environment with the aim of classifying different building materials in a scene. The dataset is called the Light Industrial Building HSI (LIB-HSI) dataset. This dataset consists of nine categories and 44 classes. In this study, we investigated deep learning based semantic segmentation algorithms on RGB and hyperspectral images to classify various building materials, such as timber, brick and concrete.
翻訳日:2022-12-07 16:51:43 公開日:2022-12-06
# ニューラルパラメトリックヘッドモデルの学習

Learning Neural Parametric Head Models ( http://arxiv.org/abs/2212.02761v1 )

ライセンス: Link先を確認
Simon Giebenhain, Tobias Kirschstein, Markos Georgopoulos, Martin R\"unz, Lourdes Agapito, Matthias Nie{\ss}ner(参考訳) ハイブリッド・ニューラル・フィールドに基づく完全ヒト頭部のための新しい3次元モーファブルモデルを提案する。 私たちのモデルの中核は、同一性と表現を分離する神経パラメトリック表現(neural parametric representation)です。 この目的のために、私たちは、人物のアイデンティティを符号付き距離場(sdf)として標準空間に捉え、神経変形場で表情をモデル化する。 さらに,顔のアンカーポイントを中心とした局所フィールドのアンサンブルを導入することで,高忠実度局所詳細を実現する。 一般化を容易にするために,124の異なるidから2200以上のヘッドスキャンを新たに取得したデータセットを,独自のハイエンド3dスキャンセットアップでトレーニングする。 我々のデータセットは、幾何の質と完全性の両方において、同等の既存のデータセットをはるかに上回り、1スキャンあたり3.5Mのメッシュ面を平均化しています。 最後に, 提案手法は, 適合誤差や復元品質において, 最先端の手法よりも優れていることを示す。

We propose a novel 3D morphable model for complete human heads based on hybrid neural fields. At the core of our model lies a neural parametric representation which disentangles identity and expressions in disjoint latent spaces. To this end, we capture a person's identity in a canonical space as a signed distance field (SDF), and model facial expressions with a neural deformation field. In addition, our representation achieves high-fidelity local detail by introducing an ensemble of local fields centered around facial anchor points. To facilitate generalization, we train our model on a newly-captured dataset of over 2200 head scans from 124 different identities using a custom high-end 3D scanning setup. Our dataset significantly exceeds comparable existing datasets, both with respect to quality and completeness of geometry, averaging around 3.5M mesh faces per scan. Finally, we demonstrate that our approach outperforms state-of-the-art methods by a significant margin in terms of fitting error and reconstruction quality.
翻訳日:2022-12-07 16:51:34 公開日:2022-12-06
# プログレッシブ同値制約を用いた半教師付き深大ベースラインホモグラフィ推定

Semi-supervised Deep Large-baseline Homography Estimation with Progressive Equivalence Constraint ( http://arxiv.org/abs/2212.02763v1 )

ライセンス: Link先を確認
Hai Jiang, Haipeng Li, Yuhang Lu, Songchen Han, and Shuaicheng Liu(参考訳) ホモグラフィ推定は、低画像オーバーレイと限られた受容場のため、大ベースラインの場合、誤りである。 そこで本研究では,大ベースラインホモグラフィを複数の中間ホモグラフィに変換し,これらの中間項目を累積的に乗算することで初期ホモグラフィを再構築する手法を提案する。 一方,教師付き目的と教師なし目的の2つの構成要素からなる半教師付きホモグラフィの同一性損失が導入された。 第1の教師なし損失は中間ホモグラフィーを最適化するために作用し、第2の教師なし損失は、測光損失なしで大きなベースラインのホモグラフィーを推定するのに役立っている。 そこで本研究では,本手法を検証するために,規則的かつ困難な場面をカバーする大規模データセットを提案する。 実験により,本手法は,小規模なベースラインシーンにおける競合性能を維持しつつ,大規模ベースラインシーンにおける最先端のパフォーマンスを実現することを示す。 コードとデータセットはhttps://github.com/megvii-research/lbhomoで入手できる。

Homography estimation is erroneous in the case of large-baseline due to the low image overlay and limited receptive field. To address it, we propose a progressive estimation strategy by converting large-baseline homography into multiple intermediate ones, cumulatively multiplying these intermediate items can reconstruct the initial homography. Meanwhile, a semi-supervised homography identity loss, which consists of two components: a supervised objective and an unsupervised objective, is introduced. The first supervised loss is acting to optimize intermediate homographies, while the second unsupervised one helps to estimate a large-baseline homography without photometric losses. To validate our method, we propose a large-scale dataset that covers regular and challenging scenes. Experiments show that our method achieves state-of-the-art performance in large-baseline scenes while keeping competitive performance in small-baseline scenes. Code and dataset are available at https://github.com/megvii-research/LBHomo.
翻訳日:2022-12-07 16:51:19 公開日:2022-12-06
# Pixel2ISDF:多視点・多目的画像からの人体モデルに基づく暗証信号場

Pixel2ISDF: Implicit Signed Distance Fields based Human Body Model from Multi-view and Multi-pose Images ( http://arxiv.org/abs/2212.02765v1 )

ライセンス: Link先を確認
Jianchuan Chen, Wentao Yi, Tiantian Wang, Xing Li, Liqian Ma, Yangyu Fan, Huchuan Lu(参考訳) 本報告では,複数の視点と人間のポーズを入力として,標準空間における衣服の復元に焦点をあてる。 これを実現するために,正準空間におけるsmplxモデルの幾何学的前置法を用いて,幾何学再構成のための暗黙表現を学習する。 そこで,本研究では,メッシュとメッシュ間のトポロジーが整合しているという観測に基づいて,複数の入力画像を用いて,メッシュ上の潜在コードを学習し,その潜在コードを正準空間のメッシュに割り当てる手法を提案する。 具体的には,SMPLXメッシュ上の各頂点の特徴ベクトルを抽出するために,まず正規および幾何学的ネットワークを利用する。 通常の地図は2次元画像と比較して見えない画像をより一般化するために採用されている。 次に、複数の画像からポーズメッシュ上の各頂点の特徴をMLPで統合する。 潜在コードとして機能する統合機能は、標準空間のSMPLXメッシュに固定される。 最後に、各3D点の潜時コードを抽出し、SDFを計算する。 本研究は,WCPA MVP-Human Body Challengeにおいて,人体形状を復元する作業を行い,第3の成果を得た。

In this report, we focus on reconstructing clothed humans in the canonical space given multiple views and poses of a human as the input. To achieve this, we utilize the geometric prior of the SMPLX model in the canonical space to learn the implicit representation for geometry reconstruction. Based on the observation that the topology between the posed mesh and the mesh in the canonical space are consistent, we propose to learn latent codes on the posed mesh by leveraging multiple input images and then assign the latent codes to the mesh in the canonical space. Specifically, we first leverage normal and geometry networks to extract the feature vector for each vertex on the SMPLX mesh. Normal maps are adopted for better generalization to unseen images compared to 2D images. Then, features for each vertex on the posed mesh from multiple images are integrated by MLPs. The integrated features acting as the latent code are anchored to the SMPLX mesh in the canonical space. Finally, latent code for each 3D point is extracted and utilized to calculate the SDF. Our work for reconstructing the human shape on canonical pose achieves 3rd performance on WCPA MVP-Human Body Challenge.
翻訳日:2022-12-07 16:51:00 公開日:2022-12-06
# Ref-NPR:参照ベース非フォトリアリスティック放射場

Ref-NPR: Reference-Based Non-Photorealistic Radiance Fields ( http://arxiv.org/abs/2212.02766v1 )

ライセンス: Link先を確認
Yuechen Zhang, Zexin He, Jinbo Xing, Xufeng Yao, Jiaya Jia(参考訳) 既存の3dシーンスタイライゼーション手法では、テクスチャや色をスタイルとして表現するために任意のスタイル参照を用いる。 Ref-NPR(Reference-based Non-Photorealistic Radiance Fields)を提案する。 輝度場を利用して3dシーンをスタイライゼーションし、単一のスタイライゼーションされた2dビューを基準とした制御可能なシーンスタイライゼーション方法である。 そこで本研究では,スタイライズド・リファレンス・ビューに基づく被写体登録プロセスを提案し,新たな視点で擬似線監督を得るとともに,コンテンツ画像における意味対応を利用して知覚的に類似したスタイルで没入領域を満たす。 これらの操作を組み合わせることで、Ref-NPRは非フォトリアリスティックかつ連続した新規なビューシーケンスを単一の参照で生成する。 実験の結果,Ref-NPRは視覚的品質と意味的対応の両面で,他のシーンや映像のスタイリング手法よりも優れていた。 コードとデータは公開される予定だ。

Existing 3D scene stylization methods employ an arbitrary style reference to transfer textures and colors as styles without establishing meaningful semantic correspondences. We present Reference-Based Non-Photorealistic Radiance Fields, i.e., Ref-NPR. It is a controllable scene stylization method utilizing radiance fields to stylize a 3D scene, with a single stylized 2D view taken as reference. To achieve decent results, we propose a ray registration process based on the stylized reference view to obtain pseudo-ray supervision in novel views, and exploit the semantic correspondence in content images to fill occluded regions with perceptually similar styles. Combining these operations, Ref-NPR generates non-photorealistic and continuous novel view sequences with a single reference while obtaining reasonable stylization in occluded regions. Experiments show that Ref-NPR significantly outperforms other scene and video stylization methods in terms of both visual quality and semantic correspondence. Code and data will be made publicly available.
翻訳日:2022-12-07 16:50:42 公開日:2022-12-06
# csq:biレベル連続スパルシフィケーションを用いた混合精度量子化スキーム

CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level Continuous Sparsification ( http://arxiv.org/abs/2212.02770v1 )

ライセンス: Link先を確認
Lirui Xiao, Huanrui Yang, Zhen Dong, Kurt Keutzer, Li Du, Shanghang Zhang(参考訳) 混合精度量子化はディープニューラルネットワーク(dnn)に広く適用されており、一様量子化に比べて効率と精度のトレードオフが著しく向上している。 一方、各層の正確な精度を決定することは依然として困難である。 トレーニング中のビットレベル正則化とプルーニングに基づく動的精密調整の以前の試みは、ノイズの勾配と不安定な収束に苦しむ。 本研究では,安定度を向上した混合精度量子化スキームのビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。 CSQは、各層の量子化精度を決定する際に、量子化重みのビット値とビット選択の両方に対して、二段階の漸進的なスペーシングでビットレベルの混合精度トレーニングプロセスを安定化させる。 連続スペーシフィケーションスキームは、最終的に正確な量子化モデルを達成しつつ、勾配近似なしで完全に微分可能なトレーニングを可能にし、総モデルサイズの予算を考慮した正規化により、所望の大きさの混合精度量子化スキームに対する各層の精度の動的成長とプルーニングを可能にする。 大規模な実験により、CSQは従来の複数のモデルやデータセットの手法よりも効率と精度のトレードオフが優れていることが示された。

Mixed-precision quantization has been widely applied on deep neural networks (DNNs) as it leads to significantly better efficiency-accuracy tradeoffs compared to uniform quantization. Meanwhile, determining the exact precision of each layer remains challenging. Previous attempts on bit-level regularization and pruning-based dynamic precision adjustment during training suffer from noisy gradients and unstable convergence. In this work, we propose Continuous Sparsification Quantization (CSQ), a bit-level training method to search for mixed-precision quantization schemes with improved stability. CSQ stabilizes the bit-level mixed-precision training process with a bi-level gradual continuous sparsification on both the bit values of the quantized weights and the bit selection in determining the quantization precision of each layer. The continuous sparsification scheme enables fully-differentiable training without gradient approximation while achieving an exact quantized model in the end.A budget-aware regularization of total model size enables the dynamic growth and pruning of each layer's precision towards a mixed-precision quantization scheme of the desired size. Extensive experiments show CSQ achieves better efficiency-accuracy tradeoff than previous methods on multiple models and datasets.
翻訳日:2022-12-07 16:50:22 公開日:2022-12-06
# DiffusionInst: インスタンス分割のための拡散モデル

DiffusionInst: Diffusion Model for Instance Segmentation ( http://arxiv.org/abs/2212.02773v1 )

ライセンス: Link先を確認
Zhangxuan Gu and Haoxing Chen and Zhuoer Xu and Jun Lan and Changhua Meng and Weiqiang Wang(参考訳) 近年、拡散フレームワークは従来の最先端画像生成モデルと同等の性能を達成している。 研究者は、その強力なノイズから画像へのデノイジングパイプラインのために、識別タスクでその変種に興味を持っている。 本稿では,インスタンスをインスタンス認識フィルタとして表現し,ノイズからフィルタへの分節化プロセスとしてインスタンスセグメンテーションを定式化する新しいフレームワークであるdiffenceinstを提案する。 このモデルは、RPNからの誘導バイアスを伴わずにノイズの多い基底を逆転するように訓練されている。 推論中、ランダムに生成されたフィルタを入力として取り出し、1ステップまたは複数ステップでマスクを出力する。 COCOとLVISの大規模な実験結果から、DiffusionInstは既存のインスタンスセグメンテーションモデルと比較して競争性能が向上することが示された。 私たちの仕事はシンプルで効果的なベースラインとして機能し、差別的タスクに挑戦するためにより効率的な拡散フレームワークを設計するきっかけになることを期待しています。 私たちのコードはhttps://github.com/chenhaoxing/diffusioninstで利用可能です。

Recently, diffusion frameworks have achieved comparable performance with previous state-of-the-art image generation models. Researchers are curious about its variants in discriminative tasks because of its powerful noise-to-image denoising pipeline. This paper proposes DiffusionInst, a novel framework that represents instances as instance-aware filters and formulates instance segmentation as a noise-to-filter denoising process. The model is trained to reverse the noisy groundtruth without any inductive bias from RPN. During inference, it takes a randomly generated filter as input and outputs mask in one-step or multi-step denoising. Extensive experimental results on COCO and LVIS show that DiffusionInst achieves competitive performance compared to existing instance segmentation models. We hope our work could serve as a simple yet effective baseline, which could inspire designing more efficient diffusion frameworks for challenging discriminative tasks. Our code is available in https://github.com/chenhaoxing/DiffusionInst.
翻訳日:2022-12-07 16:50:00 公開日:2022-12-06
# コンピュータビジョンモデルの適応的テスト

Adaptive Testing of Computer Vision Models ( http://arxiv.org/abs/2212.02774v1 )

ライセンス: Link先を確認
Irena Gao and Gabriel Ilharco and Scott Lundberg and Marco Tulio Ribeiro(参考訳) ビジョンモデルは共通の意味的特徴(まれなオブジェクトや珍しいシーンなど)を共有するデータ群で体系的に失敗することが多いが、これらの障害モードを特定することは難しい。 AdaVisionは、ユーザがコヒーレントな障害モードを特定し、修正するのに役立つビジョンモデルをテストするインタラクティブなプロセスである。 コヒーレントグループの自然言語記述を与えられたAdaVisionは、LAION-5BからCLIPで関連画像を取得する。 ユーザは少量のデータにモデル正しさをラベル付けし、連続した検索ラウンドからハイエラー領域へのヒルクライムに使用され、グループ定義を洗練する。 グループが飽和すると、AdaVisionはGPT-3を使用して、ユーザが探索する新しいグループ記述を提案する。 我々は,AdaVisionのユーザスタディにおいて,最先端の分類,オブジェクト検出,画像キャプションモデルに重大なバグが見つかった場合の有用性と汎用性を実証する。 これらのユーザ検出群は、自動エラークラスタリング法で表されるものよりも2~3倍高い障害率を持つ。 最後に、AdaVisionで見つかった例の微調整は、発見されていない例で評価されたバグを、配信中の精度を低下させることなく修正すると同時に、配信外のデータセットのパフォーマンスも改善する。

Vision models often fail systematically on groups of data that share common semantic characteristics (e.g., rare objects or unusual scenes), but identifying these failure modes is a challenge. We introduce AdaVision, an interactive process for testing vision models which helps users identify and fix coherent failure modes. Given a natural language description of a coherent group, AdaVision retrieves relevant images from LAION-5B with CLIP. The user then labels a small amount of data for model correctness, which is used in successive retrieval rounds to hill-climb towards high-error regions, refining the group definition. Once a group is saturated, AdaVision uses GPT-3 to suggest new group descriptions for the user to explore. We demonstrate the usefulness and generality of AdaVision in user studies, where users find major bugs in state-of-the-art classification, object detection, and image captioning models. These user-discovered groups have failure rates 2-3x higher than those surfaced by automatic error clustering methods. Finally, finetuning on examples found with AdaVision fixes the discovered bugs when evaluated on unseen examples, without degrading in-distribution accuracy, and while also improving performance on out-of-distribution datasets.
翻訳日:2022-12-07 16:49:44 公開日:2022-12-06
# リカレントトランスを用いたイベントベース単眼深度推定

Event-based Monocular Dense Depth Estimation with Recurrent Transformers ( http://arxiv.org/abs/2212.02791v1 )

ライセンス: Link先を確認
Xu Liu, Jianing Li, Xiaopeng Fan, Yonghong Tian(参考訳) 高時間分解能と高ダイナミックレンジを提供するイベントカメラは、単眼深度推定における共通の課題(動きのぼかしや低光度など)に対処する新しい視点をもたらした。 しかし,非同期イベントからの疎空間情報や豊富な時間的手がかりを効果的に活用する方法は,いまだに困難な課題である。 そこで本研究では,連続イベントストリームを処理するための再帰的機構を備えた最初の純粋変圧器であるEReFormerを用いたイベントベース単分子深度推定器を提案する。 技術的には、空間モデリングにおいて、CNN法よりもグローバルな文脈情報モデリング機能を有する、空間トランスフォーマー融合モジュールを備えた新しいトランスフォーマーベースのエンコーダデコーダが提示される。 時間的モデリングのために、トランスフォーマーに再帰的メカニズムを導入するゲートリカレントビジョントランスフォーマーユニットを設計し、高価なgpuメモリコストを軽減しながら時間的モデリング能力を改善した。 実験の結果,ereformerは,合成データと実世界のデータセットの両方において最先端の手法よりも優れていることがわかった。 私たちの研究は、イベントベースのビジョンコミュニティで素晴らしいトランスフォーマーを開発するためのさらなる研究を惹きつけることを願っています。 当社のオープンソースコードは補足資料で確認できます。

Event cameras, offering high temporal resolutions and high dynamic ranges, have brought a new perspective to address common challenges (e.g., motion blur and low light) in monocular depth estimation. However, how to effectively exploit the sparse spatial information and rich temporal cues from asynchronous events remains a challenging endeavor. To this end, we propose a novel event-based monocular depth estimator with recurrent transformers, namely EReFormer, which is the first pure transformer with a recursive mechanism to process continuous event streams. Technically, for spatial modeling, a novel transformer-based encoder-decoder with a spatial transformer fusion module is presented, having better global context information modeling capabilities than CNN-based methods. For temporal modeling, we design a gate recurrent vision transformer unit that introduces a recursive mechanism into transformers, improving temporal modeling capabilities while alleviating the expensive GPU memory cost. The experimental results show that our EReFormer outperforms state-of-the-art methods by a margin on both synthetic and real-world datasets. We hope that our work will attract further research to develop stunning transformers in the event-based vision community. Our open-source code can be found in the supplemental material.
翻訳日:2022-12-07 16:49:23 公開日:2022-12-06
# ZeroKBC: ゼロショット知識ベースコンプリートのための総合ベンチマーク

ZeroKBC: A Comprehensive Benchmark for Zero-Shot Knowledge Base Completion ( http://arxiv.org/abs/2212.03091v1 )

ライセンス: Link先を確認
Pei Chen, Wenlin Yao, Hongming Zhang, Xiaoman Pan, Dian Yu, Dong Yu, and Jianshu Chen(参考訳) knowledge base completion (kbc) は知識グラフの欠落リンクを予測することを目的としている。 従来のKBCタスクとアプローチは主に、トレーニングセットにすべてのテストエンティティと関係が現れる設定に焦点を当てています。 しかし、ゼロショットKBC設定については限定的な研究がなされており、絶えず増加する知識ベースに現れる未知のエンティティや関係を扱う必要がある。 本研究では,ゼロショットKBCの様々なシナリオを体系的に検討し,これらのシナリオを多種多様な知識ソースを用いて包括的ベンチマークであるZeroKBCを開発する。 系統的な解析により,ゼロショットKBC設定の欠如が判明した。 実験の結果,従来のKBCシステムでは,このベンチマークでは満足な性能が得られなかった。 ZeroKBCの解法におけるこれらのシステムの強みと弱みを解析することにより、いくつかの重要な観測結果と将来的な方向性を示す。

Knowledge base completion (KBC) aims to predict the missing links in knowledge graphs. Previous KBC tasks and approaches mainly focus on the setting where all test entities and relations have appeared in the training set. However, there has been limited research on the zero-shot KBC settings, where we need to deal with unseen entities and relations that emerge in a constantly growing knowledge base. In this work, we systematically examine different possible scenarios of zero-shot KBC and develop a comprehensive benchmark, ZeroKBC, that covers these scenarios with diverse types of knowledge sources. Our systematic analysis reveals several missing yet important zero-shot KBC settings. Experimental results show that canonical and state-of-the-art KBC systems cannot achieve satisfactory performance on this challenging benchmark. By analyzing the strength and weaknesses of these systems on solving ZeroKBC, we further present several important observations and promising future directions.
翻訳日:2022-12-07 16:43:45 公開日:2022-12-06
# LawngNLI: 短期から長期までのドメイン内一般化と含意に基づく検索のための長期ベンチマーク

LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from Short to Long Contexts and for Implication-Based Retrieval ( http://arxiv.org/abs/2212.03222v1 )

ライセンス: Link先を確認
William Bruno, Dan Roth(参考訳) 自然言語推論は文レベルを超えて文脈を研究する傾向がある。 重要な応用分野は法である:過去の事件は、新しい状況に適用する方法を予見しないことが多い。 本稿では,米国における法的意見から構築したLongNLIについて,高い精度で自動ラベルで紹介する。 敷地は長く多様である。 実験は2つのユースケースを示す。 第一に、lawngnliは短いコンテキストから長いコンテキストへのドメイン内一般化をベンチマークできる。 大規模な長期的NLIデータセットが実際に構築される必要があるかどうかは、いまだ不明である。 マルチグラニュラ性がなければ、ベンチマークでは、長い前提における微調整の欠如と、短いデータセットと長いデータセット間のドメインシフトを区別できない。 対照的に、私たちの長く短い前提は同じ例とドメインを共有しています。 過去のNLIデータセットと/または短い前提を使用して微調整されたモデルは、長い前提でのトップパフォーマンスに欠けています。 ですから、少なくとも特定のドメイン(例えば私たちのもの)には、大規模な長期データセットが必要です。 第二に、lawngnliは含意に基づく検索のベンチマークを行うことができる。 クエリは、ターゲット文書によって複雑または矛盾しており、ユーザーは議論と証拠の間を移動できる。 先行検索モデルは、LongNLI由来の検索タスクで合理的にゼロショットを実行する。 我々は、LongNLIの修正や過去のNLIデータセットを用いて、語彙重なりやクロスエンコーダを微調整するなど、再ランク付けのための異なるシステムを比較する。 LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。

Natural language inference has trended toward studying contexts beyond the sentence level. An important application area is law: past cases often do not foretell how they apply to new situations and implications must be inferred. This paper introduces LawngNLI, constructed from U.S. legal opinions with automatic labels with high human-validated accuracy. Premises are long and multigranular. Experiments show two use cases. First, LawngNLI can benchmark for in-domain generalization from short to long contexts. It has remained unclear if large-scale long-premise NLI datasets actually need to be constructed: near-top performance on long premises could be achievable by fine-tuning using short premises. Without multigranularity, benchmarks cannot distinguish lack of fine-tuning on long premises versus domain shift between short and long datasets. In contrast, our long and short premises share the same examples and domain. Models fine-tuned using several past NLI datasets and/or our short premises fall short of top performance on our long premises. So for at least certain domains (such as ours), large-scale long-premise datasets are needed. Second, LawngNLI can benchmark for implication-based retrieval. Queries are entailed or contradicted by target documents, allowing users to move between arguments and evidence. Leading retrieval models perform reasonably zero shot on a LawngNLI-derived retrieval task. We compare different systems for re-ranking, including lexical overlap and cross-encoders fine-tuned using a modified LawngNLI or past NLI datasets. LawngNLI can train and test systems for implication-based case retrieval and argumentation.
翻訳日:2022-12-07 16:43:31 公開日:2022-12-06
# state adversarial multi-agent reinforcement learningのソリューションは何でしょう?

What is the Solution for State Adversarial Multi-Agent Reinforcement Learning? ( http://arxiv.org/abs/2212.02705v1 )

ライセンス: Link先を確認
Songyang Han, Sanbao Su, Sihong He, Shuo Han, Haizhao Yang, Fei Miao(参考訳) エージェントのポリシーが真の状態に基づいていると仮定して,MARL(Multi-Agent Reinforcement Learning)手法が開発されている。 最近の研究は、報酬、移行確率、その他のパートナーの政策の不確実性の下で、MARLの堅牢性を改善している。 しかし、実世界のマルチエージェントシステムでは、状態推定はセンサ測定ノイズや逆境によっても乱される可能性がある。 真の状態情報のみを訓練したエージェントのポリシーは、実行中に逆境状態の摂動に直面した場合に最適なソリューションから逸脱する。 逆境状態摂動下でのMARLの研究は限られている。 そこで本研究では,MARL の基本特性を状態不確実性下で研究する最初の試みとして,SAMG (State-Adversarial Markov Game) を提案する。 最適エージェントポリシーとロバストなナッシュ均衡が常にSAMGに対して存在するとは限らないことを証明している。 その代わりに,提案するsamgの解法であるロバスト・エージェント・ポリシーを敵対的状態摂動の下で定義し,エージェントは最悪の場合の期待状態値を最大化しようとする。 次に,勾配降下法に基づくロバストなmarlアルゴリズムを設計し,marlエージェントのロバストポリシを学習する。 提案手法は,既存の文献のベースラインに対するエージェントの報酬を減少させ,一方,本アルゴリズムは状態摂動でベースラインを上回り,状態の不確実性下でのmarlポリシーの頑健性を大幅に改善することを示す。

Various types of Multi-Agent Reinforcement Learning (MARL) methods have been developed, assuming that agents' policies are based on true states. Recent works have improved the robustness of MARL under uncertainties from the reward, transition probability, or other partners' policies. However, in real-world multi-agent systems, state estimations may be perturbed by sensor measurement noise or even adversaries. Agents' policies trained with only true state information will deviate from optimal solutions when facing adversarial state perturbations during execution. MARL under adversarial state perturbations has limited study. Hence, in this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to study the fundamental properties of MARL under state uncertainties. We prove that the optimal agent policy and the robust Nash equilibrium do not always exist for an SAMG. Instead, we define the solution concept, robust agent policy, of the proposed SAMG under adversarial state perturbations, where agents want to maximize the worst-case expected state value. We then design a gradient descent ascent-based robust MARL algorithm to learn the robust policies for the MARL agents. Our experiments show that adversarial state perturbations decrease agents' rewards for several baselines from the existing literature, while our algorithm outperforms baselines with state perturbations and significantly improves the robustness of the MARL policies under state uncertainties.
翻訳日:2022-12-07 16:43:09 公開日:2022-12-06
# 一般化計画のための階層的終了解析

Hierarchical Termination Analysis for Generalized Planning ( http://arxiv.org/abs/2212.02823v1 )

ライセンス: Link先を確認
Siddharth Srivastava(参考訳) 本稿では,潜在的に有用な汎用計画の解析と同定のための新しいアプローチを提案する。 一般化計画の終了と到達可能性に関する特性を評価するアルゴリズム的プロセスとともに,新しい概念的枠組みを提案する。 提案フレームワークは、任意の一般化計画の終了のための階層的解析を行う新しいアルゴリズムにおいて、一般化計画をより小さな構成要素に分解するグラフ解析に基づく古典的な結果に基づいている。 新しいフレームワークの理論的解析は、提示されたアルゴリズムの健全性を確立し、既存のアプローチを超えた方法を示す。 分析の結果,この新しい手法は既存手法よりもはるかに大きな汎用計画の終了を効果的に特定できることがわかった。

This paper presents a new approach for analyzing and identifying potentially useful generalized plans. It presents a new conceptual framework along with an algorithmic process for assessing termination and reachability related properties of generalized plans. The presented framework builds upon classic results on the analysis of graphs to decompose generalized plans into smaller components in a novel algorithm for conducting a hierarchical analysis for termination of arbitrary generalized plans. Theoretical analysis of the new framework establishes soundness of the presented algorithms and shows how it goes beyond existing approaches; empirical analysis illustrates the scope of this approach. Our analysis shows that this new approach can effectively identify termination for a significantly larger class of generalized plans than was possible using existing methods.
翻訳日:2022-12-07 16:42:44 公開日:2022-12-06
# 難解なモデルカウントインスタンスの生成と予測

Generation and Prediction of Difficult Model Counting Instances ( http://arxiv.org/abs/2212.02893v1 )

ライセンス: Link先を確認
Guillaume Escamocher, Barry O'Sullivan(参考訳) 小さくて難しいモデルカウントインスタンスを作成する方法を提案する。 私たちのジェネレータは非常にパラメータ化可能で、生成するインスタンスの変数の数とそれらの節の数、各節のリテラルの数はすべて任意の値に設定できます。 当社のインスタンスは,モデルカウントの競争において,他の難しいモデルカウントのインスタンスに対して,最先端のモデルカウンタでテストされています。 競合の最小の未解決例は、変数の数と節数の両方で、我々のものだった。 また、変数の数を修正し、節数を変更する際には、ランダムなインスタンスとジェネレータによって構築されたインスタンスの両方で困難を極める。 これらの結果を用いて,インスタンスのカウントが最も難しいパラメータ値を予測する。

We present a way to create small yet difficult model counting instances. Our generator is highly parameterizable: the number of variables of the instances it produces, as well as their number of clauses and the number of literals in each clause, can all be set to any value. Our instances have been tested on state of the art model counters, against other difficult model counting instances, in the Model Counting Competition. The smallest unsolved instances of the competition, both in terms of number of variables and number of clauses, were ours. We also observe a peak of difficulty when fixing the number of variables and varying the number of clauses, in both random instances and instances built by our generator. Using these results, we predict the parameter values for which the hardest to count instances will occur.
翻訳日:2022-12-07 16:42:25 公開日:2022-12-06
# State Space Closure: 強化学習による無限のオンラインレベル生成の再考

State Space Closure: Revisiting Endless Online Level Generation via Reinforcement Learning ( http://arxiv.org/abs/2212.02951v1 )

ライセンス: Link先を確認
Ziqi Wang, Tianye Shu, Jialin Liu(参考訳) 本稿では,EDRLが繰り返しパターンを生成する傾向にあるという観察から,最近提案されたEDRLフレームワークを用いて,無限のオンラインレベル生成を再考する。 この現象にインスパイアされた状態空間閉包の概念は、無限水平オンライン生成過程に現れる任意の状態が有限の地平線で見つかることを意味する。 理論解析により、状態空間の閉包は多様性に関する懸念を生じさせるが、EDRLはコンテンツ品質の劣化を伴わずに無限水平シナリオに一般化される。 さらに,EDRLが生成するコンテンツの品質と多様性を,広く使用されているSuper Mario Bros.ベンチマークの実証的研究により検証した。 実験の結果,現在のedrlアプローチでは,ゲームレベルを多様に生成する能力は状態空間の閉鎖によって制限されているが,トレーニングの地平線よりも長い場合の報酬劣化に苦しむことはない。 EDRLによるオンラインの多様かつ高品質なコンテンツ作成における今後の課題は、状態空間閉鎖の前提における多様性の問題に対処すべきである、と我々は論じている。

In this paper we revisit endless online level generation with the recently proposed experience-driven procedural content generation via reinforcement learning (EDRL) framework, from an observation that EDRL tends to generate recurrent patterns. Inspired by this phenomenon, we formulate a notion of state space closure, which means that any state that may appear in an infinite-horizon online generation process can be found in a finite horizon. Through theoretical analysis we find that though state space closure arises a concern about diversity, it makes the EDRL trained on a finite-horizon generalised to the infinite-horizon scenario without deterioration of content quality. Moreover, we verify the quality and diversity of contents generated by EDRL via empirical studies on the widely used Super Mario Bros. benchmark. Experimental results reveal that the current EDRL approach's ability of generating diverse game levels is limited due to the state space closure, whereas it does not suffer from reward deterioration given a horizon longer than the one of training. Concluding our findings and analysis, we argue that future works in generating online diverse and high-quality contents via EDRL should address the issue of diversity on the premise of state space closure which ensures the quality.
翻訳日:2022-12-07 16:42:02 公開日:2022-12-06
# 弱者: 高度化・無意味な不均衡下でのプルーニング支援医療画像の像定位

Attend Who is Weak: Pruning-assisted Medical Image Localization under Sophisticated and Implicit Imbalances ( http://arxiv.org/abs/2212.02675v1 )

ライセンス: Link先を確認
Ajay Jaiswal, Tianlong Chen, Justin F. Rousseau, Yifan Peng, Ying Ding, Zhangyang Wang(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像理解タスクにおいて、急速に \textit{de facto} 選択となっている。 しかし、dnnは画像分類のクラス不均衡に弱いことで悪名高い。 さらに,このような不均衡は,病理の局在化などのより高度なタスクにおいて,高度に複雑で暗黙的な存在形態を持つ可能性があるため,このような不均衡を増幅することができることを指摘する。 例えば、異なる病理学は、異なるサイズや色(背景)、異なる基盤となる人口分布、そして一般的には、訓練データの微調整されたバランスの取れた分布であっても認識するのは難しいレベルを持つことができる。 本稿では, \textit{supervised, semi-supervised, weakly-supervised} 設定の訓練中に, \textit{hard-to-learn} (htl) トレーニングサンプルの自動的かつ適応的に同定し,それを明示的に参加させることで病理組織局在を改善することを提案する。 我々の主なインスピレーションは、深層分類モデルがサンプルを記憶し難いこと、そしてそれらがネットワークプルーニング \cite{hooker2019compressed} によって効果的に露出すること、そして、そのような観察を初めて分類を超えて拡張すること、である。 また,複雑な人口分布の不均衡をとらえるhtls能力を示す興味深い人口統計解析を行う。 htlsに注意を払い,複数のトレーニング環境での皮膚病変局所化課題を広範囲に検討した結果,ローカライズ性能は$\sim$2-3\%向上した。

Deep neural networks (DNNs) have rapidly become a \textit{de facto} choice for medical image understanding tasks. However, DNNs are notoriously fragile to the class imbalance in image classification. We further point out that such imbalance fragility can be amplified when it comes to more sophisticated tasks such as pathology localization, as imbalances in such problems can have highly complex and often implicit forms of presence. For example, different pathology can have different sizes or colors (w.r.t.the background), different underlying demographic distributions, and in general different difficulty levels to recognize, even in a meticulously curated balanced distribution of training data. In this paper, we propose to use pruning to automatically and adaptively identify \textit{hard-to-learn} (HTL) training samples, and improve pathology localization by attending them explicitly, during training in \textit{supervised, semi-supervised, and weakly-supervised} settings. Our main inspiration is drawn from the recent finding that deep classification models have difficult-to-memorize samples and those may be effectively exposed through network pruning \cite{hooker2019compressed} - and we extend such observation beyond classification for the first time. We also present an interesting demographic analysis which illustrates HTLs ability to capture complex demographic imbalances. Our extensive experiments on the Skin Lesion Localization task in multiple training settings by paying additional attention to HTLs show significant improvement of localization performance by $\sim$2-3\%.
翻訳日:2022-12-07 16:40:43 公開日:2022-12-06
# LUNA: 数値プラグインと事前学習によるトランスフォーマーの数値拡張による言語理解

LUNA: Language Understanding with Number Augmentations on Transformers via Number Plugins and Pre-training ( http://arxiv.org/abs/2212.02691v1 )

ライセンス: Link先を確認
Hongwei Han, Jialiang Xu, Mengyu Zhou, Yijia Shao, Shi Han, Dongmei Zhang(参考訳) トランスフォーマーはNLPタスクで広く使われている。 しかし、トランスフォーマーを利用して言語を理解する現在のアプローチは、ひとつ弱点を露呈している。 いくつかのシナリオでは、特にテーブルのような半構造化データでは、数値が頻繁に発生する。 しかし、トランスフォーマーベースの言語モデルを持つリッチナンバータスクへの現在のアプローチは、数値をサブワードトークンに分割するなど、数値情報の一部を放棄または失くしている。 本稿では,変換器を用いた言語モデルの数値推論と計算能力を向上させるLUNAフレームワークを提案する。 NumTokとNumBedの数値プラグインでは、LUNAは各数値全体をモデル入力として表現する。 回帰損失やモデル蒸留を含む事前学習では、LUNAは数と語彙の埋め込みの間のギャップを埋める。 私たちの知る限りでは、Number Pluginsを使用して言語モデルに数値機能を明示的に注入する最初の作業です。 玩具タスクにおける玩具モデルの評価に加えて,3種類の下流タスク(TATQA,TabFact,CrediTrans)に対して,大規模トランスフォーマーモデル(RoBERTa,BERT,TabBERT)上でLUNAを評価し,LUNAにより言語モデルの性能が常に改善されていることを観察する。 また、TAT-QA(EM: 50.15 -> 59.58)の公式ベースラインを改善し、CrediTrans(F1 = 86.17)でのSOTA性能を達成する。

Transformers are widely used in NLP tasks. However, current approaches to leveraging transformers to understand language expose one weak spot: Number understanding. In some scenarios, numbers frequently occur, especially in semi-structured data like tables. But current approaches to rich-number tasks with transformer-based language models abandon or lose some of the numeracy information - e.g., breaking numbers into sub-word tokens - which leads to many number-related errors. In this paper, we propose the LUNA framework which improves the numerical reasoning and calculation capabilities of transformer-based language models. With the number plugin of NumTok and NumBed, LUNA represents each number as a whole to model input. With number pre-training, including regression loss and model distillation, LUNA bridges the gap between number and vocabulary embeddings. To the best of our knowledge, this is the first work that explicitly injects numeracy capability into language models using Number Plugins. Besides evaluating toy models on toy tasks, we evaluate LUNA on three large-scale transformer models (RoBERTa, BERT, TabBERT) over three different downstream tasks (TATQA, TabFact, CrediTrans), and observe the performances of language models are constantly improved by LUNA. The augmented models also improve the official baseline of TAT-QA (EM: 50.15 -> 59.58) and achieve SOTA performance on CrediTrans (F1 = 86.17).
翻訳日:2022-12-07 16:33:22 公開日:2022-12-06
# 対話におけるノイズの発生源と対処方法

Sources of Noise in Dialogue and How to Deal with Them ( http://arxiv.org/abs/2212.02745v1 )

ライセンス: Link先を確認
Derek Chen, Zhou Yu(参考訳) トレーニング対話システムは、しばしば騒がしいトレーニング例や予期せぬユーザ入力を扱う。 それらの頻度にもかかわらず、現在、対話ノイズの正確な調査がなく、各ノイズタイプがタスクパフォーマンスに与える影響を明確に把握していない。 本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。 さらに、様々なレベルのノイズや種類のノイズを受けるとき、異なるモデルがどのように振る舞うかを示す一連の実験を行った。 この結果から,既存の復号化アルゴリズムが扱う誤りのラベル付けには極めて堅牢であるが,性能は対話特有のノイズに悩まされていることが明らかとなった。 これらの観察に基づいて,対話的設定に特化したデータクリーニングアルゴリズムを設計し,対象対話に対する概念実証として適用する。

Training dialogue systems often entails dealing with noisy training examples and unexpected user inputs. Despite their prevalence, there currently lacks an accurate survey of dialogue noise, nor is there a clear sense of the impact of each noise type on task performance. This paper addresses this gap by first constructing a taxonomy of noise encountered by dialogue systems. In addition, we run a series of experiments to show how different models behave when subjected to varying levels of noise and types of noise. Our results reveal that models are quite robust to label errors commonly tackled by existing denoising algorithms, but that performance suffers from dialogue-specific noise. Driven by these observations, we design a data cleaning algorithm specialized for conversational settings and apply it as a proof-of-concept for targeted dialogue denoising.
翻訳日:2022-12-07 16:32:54 公開日:2022-12-06
# 電子カルテノートからのエビテーション状態の自動同定

Automated Identification of Eviction Status from Electronic Health Record Notes ( http://arxiv.org/abs/2212.02762v1 )

ライセンス: Link先を確認
Zonghai Yao and Jack Tsai and Weisong Liu and David A. Levy and Emily Druhl and Joel I Reisman and Hong Yu(参考訳) 目的:退院は、失業、ホームレス、長期的貧困、精神的な健康問題につながる一連のネガティブな出来事に関与している。 本研究では,電子健康記録(EHR)ノートから放射発生とその属性を自動的に検出する自然言語処理システムを開発した。 資料と方法:我々は退役軍人健康管理局の5000 ehrノートに退院ステータスを付記した。 我々は、BioBERTやBio_ClinicalBERTのような微調整済み言語モデルなど、他の最先端のモデルよりも大幅に優れていることを示す、社会的および行動決定因子のリップル効果に基づく知識注入(KIRESH)と呼ばれる新しいモデルを開発した。 さらに, エヴィクションの存在と周期予測の2つのサブタスク間の本質的接続を用いて, モデル性能をさらに向上させるプロンプトを設計した。 最後に,kiresh-prompt法における温度スケーリングに基づくキャリブレーションを用いて,不均衡データセットから発生する過信問題を回避する。 結果: kiresh-prompt は 0.6273 (presence) と 0.7115 ( period) のマクロf1 を達成し, 微調整bio_clinicalbert モデルでは 0.5382 (presence) と 0.67167 ( period) を大きく上回った。 結論と今後の課題:KIRESH-Promptは退行ステータス分類を大幅に改善した。 今後の研究で、モデルフレームワークの他のアプリケーションへの一般化性を評価する。

Objective: Evictions are involved in a cascade of negative events that can lead to unemployment, homelessness, long-term poverty, and mental health problems. In this study, we developed a natural language processing system to automatically detect eviction incidences and their attributes from electronic health record (EHR) notes. Materials and Methods: We annotated eviction status in 5000 EHR notes from the Veterans Health Administration. We developed a novel model, called Knowledge Injection based on Ripple Effects of Social and Behavioral Determinants of Health (KIRESH), that has shown to substantially outperform other state-of-the-art models such as fine-tuning pre-trained language models like BioBERT and Bio_ClinicalBERT. Moreover, we designed a prompt to further improve the model performance by using the intrinsic connection between the two sub-tasks of eviction presence and period prediction. Finally, we used the Temperature Scaling-based Calibration on our KIRESH-Prompt method to avoid over-confidence issues arising from the imbalance dataset. Results: KIRESH-Prompt achieved a Macro-F1 of 0.6273 (presence) and 0.7115 (period), which was significantly higher than 0.5382 (presence) and 0.67167 (period) for just fine-tuning Bio_ClinicalBERT model. Conclusion and Future Work: KIRESH-Prompt has substantially improved eviction status classification. In future work, we will evaluate the generalizability of the model framework to other applications.
翻訳日:2022-12-07 16:32:39 公開日:2022-12-06
# 知識蒸留による多言語ニューラルマシン翻訳の生涯学習

Life-long Learning for Multilingual Neural Machine Translation with Knowledge Distillation ( http://arxiv.org/abs/2212.02800v1 )

ライセンス: Link先を確認
Yang Zhao, Junnan Zhu, Lu Xiang, Jiajun Zhang, Yu Zhou, Feifei Zhai, and Chengqing Zong(参考訳) MNMT(Multilingual Neural Machine Translation)の一般的なシナリオは、各翻訳タスクが逐次的に到着し、以前のタスクのトレーニングデータが利用できないことである。 このシナリオでは、現在の手法は破滅的な忘れること(cf)に苦しむ。 CFを緩和するために,知識蒸留に基づく生涯学習手法を検討する。 具体的には,一対一のシナリオにおいて,新モデル(学生)が旧モデル(教師)と新タスクから多言語出力を共同学習する多言語蒸留法を提案する。 多くの場合, 直接蒸留は極端部分蒸留問題に直面しており, 擬似入力蒸留と逆教師蒸留という2つの異なる手法を提案する。 12の翻訳タスクに関する実験結果から,提案手法は従来の知識をより強化し,CFを著しく緩和できることが示された。

A common scenario of Multilingual Neural Machine Translation (MNMT) is that each translation task arrives in a sequential manner, and the training data of previous tasks is unavailable. In this scenario, the current methods suffer heavily from catastrophic forgetting (CF). To alleviate the CF, we investigate knowledge distillation based life-long learning methods. Specifically, in one-tomany scenario, we propose a multilingual distillation method to make the new model (student) jointly learn multilingual output from old model (teacher) and new task. In many-to one scenario, we find that direct distillation faces the extreme partial distillation problem, and we propose two different methods to address it: pseudo input distillation and reverse teacher distillation. The experimental results on twelve translation tasks show that the proposed methods can better consolidate the previous knowledge and sharply alleviate the CF.
翻訳日:2022-12-07 16:32:11 公開日:2022-12-06
# DiSTRICT: Retriever Driven In-Context Tuningによる対話状態追跡

DiSTRICT: Dialogue State Tracking with Retriever Driven In-Context Tuning ( http://arxiv.org/abs/2212.02851v1 )

ライセンス: Link先を確認
Praveen Venkateswaran, Evelyn Duesterwald, Vatche Isahagian(参考訳) タスク指向会話システムの主要なコンポーネントである対話状態追跡(DST)は、進行中の対話において予め定義されたスロットの値を決定することによって、ユーザの意図を表現する。 既存のアプローチでは、手作りのテンプレートと追加のスロット情報を使って微調整を行い、大きな事前学習言語モデルと対話コンテキストからスロット値を抽出する。 効果的なプロンプトを設計するには、重要な手作業とドメイン知識が必要であり、新しいドメインとタスクへのこれらのアプローチの一般化可能性を制限する。 本研究では,手作りのテンプレートを使わずにモデルを微調整するために,与えられた対話に対して高度に関連するトレーニング例を取得するdstのための,汎用的なインコンテキストチューニング手法である districtを提案する。 MultiWOZベンチマークデータセットによる実験によると、DiSTRICTは、はるかに小さなモデルを使用して、さまざまなゼロショットおよび少数ショット設定における既存のアプローチよりも優れており、リソースの可用性が制限された実世界のデプロイメントにおいて重要なアドバンテージを提供する。

Dialogue State Tracking (DST), a key component of task-oriented conversation systems, represents user intentions by determining the values of pre-defined slots in an ongoing dialogue. Existing approaches use hand-crafted templates and additional slot information to fine-tune and prompt large pre-trained language models and elicit slot values from the dialogue context. Significant manual effort and domain knowledge is required to design effective prompts, limiting the generalizability of these approaches to new domains and tasks. In this work, we propose DiSTRICT, a generalizable in-context tuning approach for DST that retrieves highly relevant training examples for a given dialogue to fine-tune the model without any hand-crafted templates. Experiments with the MultiWOZ benchmark datasets show that DiSTRICT outperforms existing approaches in various zero-shot and few-shot settings using a much smaller model, thereby providing an important advantage for real-world deployments that often have limited resource availability.
翻訳日:2022-12-07 16:31:58 公開日:2022-12-06
# ジョブ推薦のためのテンプレートベースのリクルートメール生成

Template-based Recruitment Email Generation For Job Recommendation ( http://arxiv.org/abs/2212.02885v1 )

ライセンス: Link先を確認
Qiuchi Li, Christina Lioma(参考訳) テキスト生成は長い間、NLPで人気のある研究トピックであった。 しかし,採用者から候補者への求人メール作成作業は,研究コミュニティからはほとんど注目されていない。 本研究の目的は,ジョブレコメンデーションのための自動メール生成のトピックを定義し,課題を特定し,デンマークのジョブのためのベースラインテンプレートベースのソリューションを提供することである。 ヒトの専門家による評価は,本手法が有効であることを示している。 我々は、この課題をよりよく解決するために、今後の研究の方向性について議論する。

Text generation has long been a popular research topic in NLP. However, the task of generating recruitment emails from recruiters to candidates in the job recommendation scenario has received little attention by the research community. This work aims at defining the topic of automatic email generation for job recommendation, identifying the challenges, and providing a baseline template-based solution for Danish jobs. Evaluation by human experts shows that our method is effective. We wrap up by discussing the future research directions for better solving this task.
翻訳日:2022-12-07 16:31:41 公開日:2022-12-06
# 感情条件付き創造ダイアログ生成

Emotion Conditioned Creative Dialog Generation ( http://arxiv.org/abs/2212.02907v1 )

ライセンス: Link先を確認
Khalid Alnajjar and Mika H\"am\"al\"ainen(参考訳) 本稿では,怒り,嫌悪感,恐怖,幸福,痛み,悲しみ,驚きという感情の1つに基づいて,創造的な対話応答を生成するためのダイアルGPTモデルを提案する。 我々のモデルは、入力文と所望の感情ラベルを与えられた文脈適応応答を生成することができる。 我々のモデルは、所望の感情を0.6の精度で表現できる。 最高の行動感情は中立性、恐怖、嫌悪である。 表現された感情の強さを測定すると、怒り、恐怖、嫌悪感がモデルによって最も強く表現されることが分かる。

We present a DialGPT based model for generating creative dialog responses that are conditioned based on one of the following emotions: anger, disgust, fear, happiness, pain, sadness and surprise. Our model is capable of producing a contextually apt response given an input sentence and a desired emotion label. Our model is capable of expressing the desired emotion with an accuracy of 0.6. The best performing emotions are neutral, fear and disgust. When measuring the strength of the expressed emotion, we find that anger, fear and disgust are expressed in the most strong fashion by the model.
翻訳日:2022-12-07 16:31:32 公開日:2022-12-06
# RoBERTaとGPT-2による現代フランス語詩の生成

Modern French Poetry Generation with RoBERTa and GPT-2 ( http://arxiv.org/abs/2212.02911v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen, Khalid Alnajjar, Thierry Poibeau(参考訳) 我々はフランス語で現代詩生成のための新しいニューラルモデルを提案する。 このモデルは、詩生成タスク用に微調整された2つの事前学習されたニューラルモデルで構成されている。 モデルのエンコーダはRoBERTaベースであり、デコーダはGPT-2ベースである。 これにより、RoBERTaの優れた自然言語理解性能とGPT-2の優れた自然言語生成性能の恩恵を受けることができる。 評価の結果,モデルがフランス語詩をうまく作ることができることがわかった。 5ポイントの尺度では、出力詩の典型性と感情性に対して人間の判断によって最低スコア3.57が与えられ、最高スコア3.79が理解に与えられた。

We present a novel neural model for modern poetry generation in French. The model consists of two pretrained neural models that are fine-tuned for the poem generation task. The encoder of the model is a RoBERTa based one while the decoder is based on GPT-2. This way the model can benefit from the superior natural language understanding performance of RoBERTa and the good natural language generation performance of GPT-2. Our evaluation shows that the model can create French poetry successfully. On a 5 point scale, the lowest score of 3.57 was given by human judges to typicality and emotionality of the output poetry while the best score of 3.79 was given to understandability.
翻訳日:2022-12-07 16:31:22 公開日:2022-12-06
# 因果感情を伴うナレッジブリッジ因果相互作用ネットワーク

Knowledge-Bridged Causal Interaction Network for Causal Emotion Entailment ( http://arxiv.org/abs/2212.02995v1 )

ライセンス: Link先を確認
Weixiang Zhao, Yanyan Zhao, Zhuojun Li, Bing Qin(参考訳) Causal Emotion Entailmentは、会話における非ニュートラル感情によるターゲット発話の原因となる因果発話を特定することを目的としている。 これまでの作品は、会話の文脈の理解と感情の原因の正確な推論に限られていた。 そこで本研究では,コモンセンス・ナレッジ(CSK)を3つのブリッジとして活用したKBCIN(Knowledge-Bridged Causal Interaction Network)を提案する。 具体的には、会話毎に会話グラフを構築し、イベント中心のCSKを意味レベルブリッジ(S-bridge)として活用し、CSK拡張グラフアテンションモジュールを介して会話コンテキストにおける深い発話間依存関係をキャプチャする。 さらに、社会的相互作用cskは感情レベルのブリッジ(eブリッジ)と行動レベルのブリッジ(aブリッジ)として機能し、候補発話とターゲットの発話を結びつける。 実験の結果,ほとんどのベースラインモデルよりも優れた性能が得られた。 ソースコードはhttps://github.com/circle-hit/KBCINで公開されています。

Causal Emotion Entailment aims to identify causal utterances that are responsible for the target utterance with a non-neutral emotion in conversations. Previous works are limited in thorough understanding of the conversational context and accurate reasoning of the emotion cause. To this end, we propose Knowledge-Bridged Causal Interaction Network (KBCIN) with commonsense knowledge (CSK) leveraged as three bridges. Specifically, we construct a conversational graph for each conversation and leverage the event-centered CSK as the semantics-level bridge (S-bridge) to capture the deep inter-utterance dependencies in the conversational context via the CSK-Enhanced Graph Attention module. Moreover, social-interaction CSK serves as emotion-level bridge (E-bridge) and action-level bridge (A-bridge) to connect candidate utterances with the target one, which provides explicit causal clues for the Emotional Interaction module and Actional Interaction module to reason the target emotion. Experimental results show that our model achieves better performance over most baseline models. Our source code is publicly available at https://github.com/circle-hit/KBCIN.
翻訳日:2022-12-07 16:31:11 公開日:2022-12-06
# 深層学習を用いた医用画像解析のための信頼できるフレームワーク

A Trustworthy Framework for Medical Image Analysis with Deep Learning ( http://arxiv.org/abs/2212.02764v1 )

ライセンス: Link先を確認
Kai Ma, Siyuan He, Pengcheng Xi, Ashkan Ebadi, St\'ephane Tremblay, Alexander Wong(参考訳) コンピュータビジョンと機械学習は、コンピュータ支援診断においてますます重要な役割を担っているが、深層学習の医療画像への応用は、データ可用性とデータ不均衡の課題があり、医療画像のモデルが信頼できるものに構築されていることは特に重要である。 そこで我々は,モジュラーデザインを採用し,自己教師付き事前学習を活用し,新しい代理損失関数を利用する,医用画像解析のための信頼できるディープラーニングフレームワークTRUDLMIAを提案する。 実験的評価は、フレームワークから生成されたモデルは信頼性とパフォーマンスの両方が高いことを示している。 新型コロナウイルスなどの公衆衛生危機への対応に深層学習の活用を推進していくため、研究者や臨床医を支援することが期待されている。

Computer vision and machine learning are playing an increasingly important role in computer-assisted diagnosis; however, the application of deep learning to medical imaging has challenges in data availability and data imbalance, and it is especially important that models for medical imaging are built to be trustworthy. Therefore, we propose TRUDLMIA, a trustworthy deep learning framework for medical image analysis, which adopts a modular design, leverages self-supervised pre-training, and utilizes a novel surrogate loss function. Experimental evaluations indicate that models generated from the framework are both trustworthy and high-performing. It is anticipated that the framework will support researchers and clinicians in advancing the use of deep learning for dealing with public health crises including COVID-19.
翻訳日:2022-12-07 16:25:20 公開日:2022-12-06
# 統一ヒト運動合成のための事前学習拡散モデル

Pretrained Diffusion Models for Unified Human Motion Synthesis ( http://arxiv.org/abs/2212.02837v1 )

ライセンス: Link先を確認
Jianxin Ma, Shuai Bai, Chang Zhou(参考訳) 人間の動きの生成的モデリングは、コンピュータアニメーション、仮想現実、ロボット工学に広く応用されている。 従来のアプローチでは、異なるモーション合成タスクのための別々のモデルを開発し、通常、各設定で利用可能な不足したデータを過度に満たさないために、小さなサイズのモデルを使用する。 単一統一モデルの開発が実現可能かどうかは、まだ疑問の余地がある。 1)複数の課題から学んだスキルを組み合わせることで、新しいスキルの獲得に寄与し、 2) 複数のデータソースを組み合わせることで、過度に適合することなくモデル容量を増やすのに役立つ。 統一は困難です なぜなら 1) 様々な制御信号と, 種々の粒度を目標とする。 2) 動作データセットは、異なる骨格とデフォルトポーズを用いることができる。 本稿では,統合運動合成のためのフレームワークであるMoFusionを提案する。 mofusionはトランスフォーマーバックボーンを使用してクロスアテンションによる多様な制御信号の包含を容易にし、そのバックボーンを拡散モデルとして事前訓練し、体部の動き完了から全身運動生成まで多次元合成をサポートする。 学習可能なアダプタを使用して、事前トレーニングで使用されるデフォルトのスケルトンと微調整データの違いに対応する。 実験の結果,事前学習はモデルサイズを過度に満たさずに拡大する上で不可欠であり,複数の制御信号のテキスト・モーション・コンプリートやゼロショット・ミキシングなど,様々なタスクにおけるmofusionの可能性を示すことができた。 プロジェクトページ: \url{https://ofa-sys.github.io/mofusion/}

Generative modeling of human motion has broad applications in computer animation, virtual reality, and robotics. Conventional approaches develop separate models for different motion synthesis tasks, and typically use a model of a small size to avoid overfitting the scarce data available in each setting. It remains an open question whether developing a single unified model is feasible, which may 1) benefit the acquirement of novel skills by combining skills learned from multiple tasks, and 2) help in increasing the model capacity without overfitting by combining multiple data sources. Unification is challenging because 1) it involves diverse control signals as well as targets of varying granularity, and 2) motion datasets may use different skeletons and default poses. In this paper, we present MoFusion, a framework for unified motion synthesis. MoFusion employs a Transformer backbone to ease the inclusion of diverse control signals via cross attention, and pretrains the backbone as a diffusion model to support multi-granularity synthesis ranging from motion completion of a body part to whole-body motion generation. It uses a learnable adapter to accommodate the differences between the default skeletons used by the pretraining and the fine-tuning data. Empirical results show that pretraining is vital for scaling the model size without overfitting, and demonstrate MoFusion's potential in various tasks, e.g., text-to-motion, motion completion, and zero-shot mixing of multiple control signals. Project page: \url{https://ofa-sys.github.io/MoFusion/}.
翻訳日:2022-12-07 16:25:07 公開日:2022-12-06
# モデルベース深層強化学習による電圧制御戦略の効率的な学習

Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning ( http://arxiv.org/abs/2212.02715v1 )

ライセンス: Link先を確認
Ramij R. Hossain, Tianzhixi Yin, Yan Du, Renke Huang, Jie Tan, Wenhao Yu, Yuan Liu, Qiuhua Huang(参考訳) 本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。 近年の進歩は、モデルフリーのDRLベースの電力系統の手法において有望な結果を示しているが、モデルフリーの手法はサンプル効率の低下とトレーニング時間に悩まされている。 DRLエージェントは、実環境と対話しながら試行錯誤法を介して最適なポリシーを学習する。 また,DRLエージェントと現実世界の電力網との直接的相互作用を最小化することが望ましい。 さらに、最先端のDRLベースのポリシーは、動的シミュレーションが計算集約的な物理ベースのグリッドシミュレータを用いてトレーニングされ、トレーニング効率が低下する。 本稿では,実世界のパワーグリッドや物理ベースのシミュレーションではなく,ディープニューラルネットワーク(dnn)ベースの動的サロゲートモデルがポリシ学習フレームワークで活用され,プロセスの高速化とサンプル化が実現する,新たなモデルベースdrlフレームワークを提案する。 しかし、大規模電力系統の複雑なシステムダイナミクスのため、モデルベースDRLの安定化は困難である。 我々はこれらの問題を解決するために模倣学習を取り入れ、政策学習、報酬形成、多段階の代理損失を暖かく始める。 最後に,IEEE 300-busテストシステムに適用したアプリケーションに対して,97.5%のサンプル効率と87.7%のトレーニング効率を実現した。

This article proposes a model-based deep reinforcement learning (DRL) method to design emergency control strategies for short-term voltage stability problems in power systems. Recent advances show promising results in model-free DRL-based methods for power systems, but model-free methods suffer from poor sample efficiency and training time, both critical for making state-of-the-art DRL algorithms practically applicable. DRL-agent learns an optimal policy via a trial-and-error method while interacting with the real-world environment. And it is desirable to minimize the direct interaction of the DRL agent with the real-world power grid due to its safety-critical nature. Additionally, state-of-the-art DRL-based policies are mostly trained using a physics-based grid simulator where dynamic simulation is computationally intensive, lowering the training efficiency. We propose a novel model-based-DRL framework where a deep neural network (DNN)-based dynamic surrogate model, instead of a real-world power-grid or physics-based simulation, is utilized with the policy learning framework, making the process faster and sample efficient. However, stabilizing model-based DRL is challenging because of the complex system dynamics of large-scale power systems. We solved these issues by incorporating imitation learning to have a warm start in policy learning, reward-shaping, and multi-step surrogate loss. Finally, we achieved 97.5% sample efficiency and 87.7% training efficiency for an application to the IEEE 300-bus test system.
翻訳日:2022-12-07 16:23:22 公開日:2022-12-06
# 歩き方:行動の多重性を考慮した一般化のための調整ロボット制御

Walk These Ways: Tuning Robot Control for Generalization with Multiplicity of Behavior ( http://arxiv.org/abs/2212.03238v1 )

ライセンス: Link先を確認
Gabriel B Margolis and Pulkit Agrawal(参考訳) 学習されたロコモーションポリシは、トレーニング中に経験したようなさまざまな環境に迅速に適応するが、分散テスト環境で失敗すると、迅速なチューニングのメカニズムが欠如する。 これは、新しいタスクで良いパフォーマンスを達成するために、ゆっくりと反復的な報酬サイクルと環境再設計を必要とします。 代替案として,学習課題を異なる方法で解決し,行動の多重性(mob)をもたらすロコモーション戦略の構造化ファミリーをエンコードする単一ポリシーの学習を提案する。 異なる戦略は異なる一般化であり、新しいタスクや環境のためにリアルタイムで選択でき、時間のかかるリトレーニングの必要性を回避できる。 我々は、高速で堅牢なオープンソースのMoBロコモーションコントローラ、Walk These Waysをリリースし、さまざまな足引き、姿勢、スピードで様々な歩行を実行し、しゃがみ込み、ホッピング、高速ランニング、階段のトラバース、シューブへのブレーキ、リズムダンスなど、さまざまな下流タスクをアンロックします。 ビデオとコードリリース: https://gmargo11.github.io/walk-these-ways/

Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
翻訳日:2022-12-07 16:22:58 公開日:2022-12-06
# 相対的一般化のためのカリキュラム学習

Curriculum Learning for Relative Overgeneralization ( http://arxiv.org/abs/2212.02733v1 )

ライセンス: Link先を確認
Lin Shi and Bei Peng(参考訳) マルチエージェント強化学習(MARL)では、VDNやQMIXのような多くの一般的な手法が、協調作業における最適関節動作の効用が準最適関節動作の効用より低い場合に生じる、相対的過一般化(RO)として知られる重要なマルチエージェントの病態に影響を受けやすい。 ROはエージェントを局所的な最適状態に陥れさせるか、あるいは特定の時間内でエージェント間の重要な調整を必要とするタスクを解くのに失敗する。 QPLEXやWQMIXのような最近の値ベースのMARLアルゴリズムは、ROをある程度克服することができる。 しかし, 実験結果から, 強力なROを示す協調作業の解決に失敗する可能性が示唆された。 本研究では,相対的オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。 強力なroを示す目標課題を解決するため、curoではまず対象課題の報酬関数を微調整し、学習エージェントの現在の能力に合わせて調整されたソースタスクを生成し、まずこれらのソースタスクでエージェントを訓練する。 そこで我々は,あるタスクで得られた知識を,バッファ転送と値関数変換を組み合わせた新しい伝達学習手法を用いて,目的タスクのより効率的な探索を可能にする。 QMIXに適用すると、CUROは深刻なRO問題を克服し、性能を著しく向上し、StarCraft IIマイクロマネジメントベンチマークを含む様々な協調型マルチエージェントタスクに最先端の結果をもたらすことが示される。

In multi-agent reinforcement learning (MARL), many popular methods, such as VDN and QMIX, are susceptible to a critical multi-agent pathology known as relative overgeneralization (RO), which arises when the optimal joint action's utility falls below that of a sub-optimal joint action in cooperative tasks. RO can cause the agents to get stuck into local optima or fail to solve tasks that require significant coordination between agents within a given timestep. Recent value-based MARL algorithms such as QPLEX and WQMIX can overcome RO to some extent. However, our experimental results show that they can still fail to solve cooperative tasks that exhibit strong RO. In this work, we propose a novel approach called curriculum learning for relative overgeneralization (CURO) to better overcome RO. To solve a target task that exhibits strong RO, in CURO, we first fine-tune the reward function of the target task to generate source tasks that are tailored to the current ability of the learning agent and train the agent on these source tasks first. Then, to effectively transfer the knowledge acquired in one task to the next, we use a novel transfer learning method that combines value function transfer with buffer transfer, which enables more efficient exploration in the target task. We demonstrate that, when applied to QMIX, CURO overcomes severe RO problem and significantly improves performance, yielding state-of-the-art results in a variety of cooperative multi-agent tasks, including the challenging StarCraft II micromanagement benchmarks.
翻訳日:2022-12-07 16:16:47 公開日:2022-12-06
# 制御障壁関数による安全逆強化学習

Safe Inverse Reinforcement Learning via Control Barrier Function ( http://arxiv.org/abs/2212.02753v1 )

ライセンス: Link先を確認
Yue Yang, Letian Chen, Matthew Gombolay(参考訳) 実演からの学習(lfd)は、非ロボット主義者のエンドユーザが所望のスキルを実演することができ、ロボットが関連するデータから効率的に学習できるため、ロボットが強化学習(rl)によってそのスキルを学ぶための報奨機能を人間に設計するよりも、ロボットが新しいタスクを実行するための強力な方法である。 現代のLfD技術では、例えば逆強化学習(Inverse Reinforcement Learning、IRL)のように安全上の問題が生じるが、LfDにおける安全な学習はほとんど注目されていない。 アジャイルロボットの文脈では、ロボットと環境の衝突、ロボットと人間の衝突、ロボットの損傷の可能性により、特に安全が不可欠である。 本稿では、制御バリア機能(CBF)を活用してIRLポリシーの安全性を高める安全IRLフレームワークCBFIRLを提案する。 CBFIRLの中核となる考え方は、CBF要求にインスパイアされた損失関数とIRL法の目的を結びつけることである。 実験では,2Dレースカードメインの難易度2レベルに対する$\sim15\%$と$\sim20\%$の改善,および3Dドローンドメインに対する$\sim 50\%$の改善であるCBFのないIRLメソッドと比較して,我々のフレームワークがより安全であることを示す。

Learning from Demonstration (LfD) is a powerful method for enabling robots to perform novel tasks as it is often more tractable for a non-roboticist end-user to demonstrate the desired skill and for the robot to efficiently learn from the associated data than for a human to engineer a reward function for the robot to learn the skill via reinforcement learning (RL). Safety issues arise in modern LfD techniques, e.g., Inverse Reinforcement Learning (IRL), just as they do for RL; yet, safe learning in LfD has received little attention. In the context of agile robots, safety is especially vital due to the possibility of robot-environment collision, robot-human collision, and damage to the robot. In this paper, we propose a safe IRL framework, CBFIRL, that leverages the Control Barrier Function (CBF) to enhance the safety of the IRL policy. The core idea of CBFIRL is to combine a loss function inspired by CBF requirements with the objective in an IRL method, both of which are jointly optimized via gradient descent. In the experiments, we show our framework performs safer compared to IRL methods without CBF, that is $\sim15\%$ and $\sim20\%$ improvement for two levels of difficulty of a 2D racecar domain and $\sim 50\%$ improvement for a 3D drone domain.
翻訳日:2022-12-07 16:16:18 公開日:2022-12-06
# PrefRec: 長期ユーザエンゲージメント強化のための参照ベースのレコメンダシステム

PrefRec: Preference-based Recommender Systems for Reinforcing Long-term User Engagement ( http://arxiv.org/abs/2212.02779v1 )

ライセンス: Link先を確認
Wanqi Xue, Qingpeng Cai, Zhenghai Xue, Shuo Sun, Shuchang Liu, Dong Zheng, Peng Jiang, Bo An(参考訳) 現在のレコメンダシステムの進歩は、即時エンゲージメントの最適化に著しく成功している。 しかしながら、より望ましいパフォーマンス指標である長期的なユーザエンゲージメントは、改善が難しいままです。 一方、近年の強化学習(RL)アルゴリズムは、様々な長期目標最適化タスクにおいて有効性を示している。 このため、RLは長期ユーザーエンゲージメントを最適化するための有望なフレームワークとして広く考えられている。 有望なアプローチであるにもかかわらず、rlの応用はよく設計された報酬に大きく依存しているが、長期ユーザーエンゲージメントに関連する報酬の設計は極めて困難である。 この問題を軽減するために,RLレコメンダシステムは,明示的に定義された報酬ではなく,ユーザの過去の行動に対する嗜好から学習することができる新しいパラダイム,Preference-based Recommender System(PrefRec)を提案する。 このような好みは、専門家の知識を必要としないため、クラウドソーシングのような技術を通じて簡単にアクセスできます。 prefrecでは、複雑な報酬エンジニアリングを避けながら、長期目標の最適化にrlの利点を完全に活用できます。 PrefRecは好みを使って報酬関数をエンドツーエンドで自動的にトレーニングする。 報酬関数は、レコメンデーションポリシーをトレーニングするための学習信号を生成するために使用される。 さらに,付加価値関数,期待回帰および報奨モデルを用いたPrefRecの効率的な最適化手法を設計し,性能向上を図る。 様々な長期ユーザエンゲージメント最適化タスクにおいて,大規模な実験を行う。 その結果、PrefRecはすべてのタスクにおいて従来の最先端メソッドよりも大幅に優れていた。

Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
翻訳日:2022-12-07 16:15:50 公開日:2022-12-06
# Myerson値を用いた協調型マルチエージェントシステムのポストホックな説明のための個人属性のより効率的な計算と政策貢献に向けて

Towards a more efficient computation of individual attribute and policy contribution for post-hoc explanation of cooperative multi-agent systems using Myerson values ( http://arxiv.org/abs/2212.03041v1 )

ライセンス: Link先を確認
Giorgio Angelotti and Natalia D\'iaz-Rodr\'iguez(参考訳) チームにおけるエージェントの世界的な重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって金と同じくらい価値がある。 しかし、協調的なタスクでは、個人のパフォーマンスをチーム全体の1つから分離するのは難しいため、この情報を取得するのは簡単ではありません。 また,エージェントの役割と個人的属性との関係は必ずしも明確ではない。 本研究は、エージェントポリシーと属性の両方の寄与を研究するために、Shapley解析の応用を考え、それらを等しく基礎づける。 計算複雑性はnpハードであり、転送可能な多目的連立ゲームにおける参加者数に指数関数的にスケールするため、ゲームルールに関するaプライオリ知識を活用し、グラフ上の参加者間の関係を制約する。 そこで我々は,マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。 システムのシミュレータが利用可能だと仮定すると、グラフ構造は動的プログラミングを利用してより高速に重要度を評価することができる。 提案手法を,Deep Reinforcement Learningを通じて得られたハードコードポリシとポリシーの両方をデプロイする実例実証環境で検証する。 提案されたパラダイムは、shapleyの値を自明に計算するよりも計算の要求が少なく、チーム内のエージェントの重要性だけでなく、ポリシーを最大限に展開するために必要な属性にも大きな洞察を与えてくれます。

A quantitative assessment of the global importance of an agent in a team is as valuable as gold for strategists, decision-makers, and sports coaches. Yet, retrieving this information is not trivial since in a cooperative task it is hard to isolate the performance of an individual from the one of the whole team. Moreover, it is not always clear the relationship between the role of an agent and his personal attributes. In this work we conceive an application of the Shapley analysis for studying the contribution of both agent policies and attributes, putting them on equal footing. Since the computational complexity is NP-hard and scales exponentially with the number of participants in a transferable utility coalitional game, we resort to exploiting a-priori knowledge about the rules of the game to constrain the relations between the participants over a graph. We hence propose a method to determine a Hierarchical Knowledge Graph of agents' policies and features in a Multi-Agent System. Assuming a simulator of the system is available, the graph structure allows to exploit dynamic programming to assess the importances in a much faster way. We test the proposed approach in a proof-of-case environment deploying both hardcoded policies and policies obtained via Deep Reinforcement Learning. The proposed paradigm is less computationally demanding than trivially computing the Shapley values and provides great insight not only into the importance of an agent in a team but also into the attributes needed to deploy the policy at its best.
翻訳日:2022-12-07 16:15:01 公開日:2022-12-06
# 統計的推論としての説明可能性

Explainability as statistical inference ( http://arxiv.org/abs/2212.03131v1 )

ライセンス: Link先を確認
Hugo Henri Joseph Senetaire, Damien Garreau, Jes Frellsen, Pierre-Alexandre Mattei(参考訳) 近年、様々なモデル説明アプローチが提案されており、いずれも非常に異なる理論とヒューリスティックによって導かれている。 本稿では,統計的推論問題として新しい経路と解釈可能性を提案する。 本稿では,解釈可能な予測を生成するために設計された一般の深部確率モデルを提案する。 モデルパラメータは最大確率で学習でき、この方法は任意の予測器ネットワークアーキテクチャと任意の種類の予測問題に適用することができる。 本手法は,ニューラルネットワークをセレクタとして使用し,推論時の解釈を高速に行う無形解釈モデルの一例である。 いくつかの一般的な解釈可能性法は、一般モデルに対する正規化極大確率の特別な場合であることが示されている。 そこで本稿では,特徴重要度マップの評価を可能にする,真理選択に基づく新しいデータセットを提案する。 これらのデータセットを用いて、複数の命令を用いることでより合理的な解釈が得られることを示す。

A wide variety of model explanation approaches have been proposed in recent years, all guided by very different rationales and heuristics. In this paper, we take a new route and cast interpretability as a statistical inference problem. We propose a general deep probabilistic model designed to produce interpretable predictions. The model parameters can be learned via maximum likelihood, and the method can be adapted to any predictor network architecture and any type of prediction problem. Our method is a case of amortized interpretability models, where a neural network is used as a selector to allow for fast interpretation at inference time. Several popular interpretability methods are shown to be particular cases of regularised maximum likelihood for our general model. We propose new datasets with ground truth selection which allow for the evaluation of the features importance map. Using these datasets, we show experimentally that using multiple imputation provides more reasonable interpretations.
翻訳日:2022-12-07 16:14:36 公開日:2022-12-06
# 地動クラスタリングと選択のための教師なし機械学習手法

An Unsupervised Machine Learning Approach for Ground Motion Clustering and Selection ( http://arxiv.org/abs/2212.03188v1 )

ライセンス: Link先を確認
R. Bailey Bond, Pu Ren, Jerome F. Hajjar, and Hao Sun(参考訳) シーケンスデータのクラスタリング分析は、応用科学における機械学習の急速な成長に助けられて、エンジニアリング設計における多くの応用に引き続き取り組んでいる。 本稿では,地震動記録(潜時特徴)の特徴を抽出し,地震動のクラスタリングと選択を支援する教師なし機械学習アルゴリズムを提案する。 この文脈では、潜伏特徴は、ニューラルネットワークオートエンコーダの非線形関係を通じて学習される低次元機械によるスペクトル特性である。 クラスタリングは潜在機能上で実行可能で、大きな接地運動スイートから代表的なアルテタイパルサブグループを選択するのに使用される。 効率的な地動選択の目的は、その構造が生前に確率的に経験することを示す記録を選択することである。 この手法を検証するために, 合成スペクトルデータセットとフィールド記録地動記録からのスペクトルを含む3つの例を提示する。 地動スペクトルの深層埋め込みクラスタリングは、地動のばらばらなスペクトル内容を表現する特性を利用して、静的特徴抽出の結果を改善する。

Clustering analysis of sequence data continues to address many applications in engineering design, aided with the rapid growth of machine learning in applied science. This paper presents an unsupervised machine learning algorithm to extract defining characteristics of earthquake ground-motion records, also called latent features, to aid in ground-motion clustering and selection. In this context, a latent feature is a low dimensional machine-discovered spectral characteristic learned through nonlinear relationships of a neural network autoencoder. Clustering can be performed on the latent features and used to select a representative archetypal subgroup from a large ground-motion suite. The objective of efficient ground-motion selection is to choose records representative of what the structure will probabilistically experience in its lifetime. Three examples are presented to validate this approach, including a synthetic spectral dataset and spectra from field recorded ground-motion records. Deep embedding clustering of ground motion spectra improves on the results of static feature extraction, utilizing characteristics that represent the sparse spectral content of ground motions.
翻訳日:2022-12-07 16:13:52 公開日:2022-12-06
# 有限サムミニマックス問題に対する分散確率勾配降下上昇法

Decentralized Stochastic Gradient Descent Ascent for Finite-Sum Minimax Problems ( http://arxiv.org/abs/2212.02724v1 )

ライセンス: Link先を確認
Hongchang Gao(参考訳) ミニマックス最適化問題は、多くの機械学習モデルに広く応用されているため、近年注目されている。 ミニマックス最適化問題を解決するために,様々な確率最適化手法が提案されている。 しかし、その多くはトレーニングデータを複数のワーカーに分散する分散設定を無視している。 本稿では,有限サムミニマックス最適化問題に対する分散確率的勾配降下上昇法を開発した。 特に,分散縮小勾配を用いることで,非凸強凹ミニマックス最適化問題に対する通信複雑性を$o(\frac{\sqrt{n}\kappa^3}{(1-\lambda)^2\epsilon^2}) と$o(\frac{\kappa^3}{(1-\lambda)^2\epsilon^2}) を得ることができる。 私たちが知る限り、この種の問題に対してそのような理論的複雑性を達成するのは、私たちの仕事が初めてです。 最後に,本手法を最大化問題の最適化に応用し,本手法の有効性を実験的に検証した。

Minimax optimization problems have attracted significant attention in recent years due to their widespread application in numerous machine learning models. To solve the minimax optimization problem, a wide variety of stochastic optimization methods have been proposed. However, most of them ignore the distributed setting where the training data is distributed on multiple workers. In this paper, we developed a novel decentralized stochastic gradient descent ascent method for the finite-sum minimax optimization problem. In particular, by employing the variance-reduced gradient, our method can achieve $O(\frac{\sqrt{n}\kappa^3}{(1-\lambda)^2\epsilon^2})$ sample complexity and $O(\frac{\kappa^3}{(1-\lambda)^2\epsilon^2})$ communication complexity for the nonconvex-strongly-concave minimax optimization problem. As far as we know, our work is the first one to achieve such theoretical complexities for this kind of problem. At last, we apply our method to optimize the AUC maximization problem and the experimental results confirm the effectiveness of our method.
翻訳日:2022-12-07 16:13:35 公開日:2022-12-06
# 近似フォルスター変換に対する強多項式アルゴリズムとその半空間学習への応用

A Strongly Polynomial Algorithm for Approximate Forster Transforms and its Application to Halfspace Learning ( http://arxiv.org/abs/2212.03008v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Christos Tzamos and Daniel M. Kane(参考訳) forster変換はデータセットを"em radial isotropic position}"に置きながら、その本質的な性質を保ちながら正規化する手法である。 forster変換は、コンピュータ科学と機能分析にまたがる様々な設定において重要な役割を果たしてきた。 以前の研究は、フォルスター変換を計算するための多項式時間アルゴリズムを弱に与えていた。 我々の主な結果は、与えられたデータセットの近似 forster 変換を計算する最初の {\em strong polynomial time} アルゴリズムであり、そのような変換は存在しないことを証明します。 強い多項式フォースターアルゴリズムを利用して、ハーフスペースの分布自由なPAC学習のための最初の強多項式時間アルゴリズムを得る。 この学習結果は、ハーフスペースのPAC学習が線形プログラミングと同等であるため、驚くべきものである。 学習アプローチは,ランダム分類雑音とマスアート雑音の存在下で,強多項式半空間学習者を与えるように拡張する。

The Forster transform is a method of regularizing a dataset by placing it in {\em radial isotropic position} while maintaining some of its essential properties. Forster transforms have played a key role in a diverse range of settings spanning computer science and functional analysis. Prior work had given {\em weakly} polynomial time algorithms for computing Forster transforms, when they exist. Our main result is the first {\em strongly polynomial time} algorithm to compute an approximate Forster transform of a given dataset or certify that no such transformation exists. By leveraging our strongly polynomial Forster algorithm, we obtain the first strongly polynomial time algorithm for {\em distribution-free} PAC learning of halfspaces. This learning result is surprising because {\em proper} PAC learning of halfspaces is {\em equivalent} to linear programming. Our learning approach extends to give a strongly polynomial halfspace learner in the presence of random classification noise and, more generally, Massart noise.
翻訳日:2022-12-07 16:13:15 公開日:2022-12-06
# 知識蒸留改善のための異なる学習スタイルの活用

Leveraging Different Learning Styles for Improved Knowledge Distillation ( http://arxiv.org/abs/2212.02931v1 )

ライセンス: Link先を確認
Usma Niyaz and Deepti R. Bathula(参考訳) 学習スタイルとは、個人が新しい知識を得るために採用する訓練機構の一種である。 VARKモデルによって示唆されるように、人間は情報を取得し、効果的に処理するための視覚、聴覚などの学習の好みが異なる。 この概念に触発されて,我々は知識蒸留(kd)と相互学習(ml)の文脈における混合情報共有とモデル圧縮の考え方を探求した。 従来の知識を全てのネットワークと共有する手法とは異なり、学習プロセスを強化するために、異なる情報形式を持つ個々のネットワークを訓練することを提案する。 我々はKDとMLのフレームワークを1つの教師と2つの学生ネットワークで構成し、予測と特徴マップの形式で情報を共有または交換する。 ベンチマーク分類とセグメンテーションデータセットを用いた包括的実験により,15%の圧縮により,多様な知識を訓練したネットワークのアンサンブル性能が,従来の手法よりも定量的かつ質的に優れていることが示された。

Learning style refers to a type of training mechanism adopted by an individual to gain new knowledge. As suggested by the VARK model, humans have different learning preferences like visual, auditory, etc., for acquiring and effectively processing information. Inspired by this concept, our work explores the idea of mixed information sharing with model compression in the context of Knowledge Distillation (KD) and Mutual Learning (ML). Unlike conventional techniques that share the same type of knowledge with all networks, we propose to train individual networks with different forms of information to enhance the learning process. We formulate a combined KD and ML framework with one teacher and two student networks that share or exchange information in the form of predictions and feature maps. Our comprehensive experiments with benchmark classification and segmentation datasets demonstrate that with 15% compression, the ensemble performance of networks trained with diverse forms of knowledge outperforms the conventional techniques both quantitatively and qualitatively.
翻訳日:2022-12-07 16:07:31 公開日:2022-12-06
# P{\O}DA: プロンプト駆動ゼロショットドメイン適応

P{\O}DA: Prompt-driven Zero-shot Domain Adaptation ( http://arxiv.org/abs/2212.03241v1 )

ライセンス: Link先を確認
Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick P\'erez, Raoul de Charette(参考訳) ドメイン適応はコンピュータビジョンにおいて大きく研究されてきたが、それでも列車の時間にターゲット画像にアクセスする必要がある。 本稿では,対象ドメインの一般的なテキスト記述,すなわちプロンプトのみを使用して,ソースドメインでトレーニングされたモデルを適応させる,'prompt-driven zero-shot domain adaptation'というタスクを提案する。 まず、訓練済みのコントラッシブ・ビジョン言語モデル(CLIP)を利用して、ソース機能のアフィン変換を最適化し、ターゲットのテキスト埋め込みに近づき、コンテンツやセマンティクスを保存します。 第2に,セマンティクスセグメンテーションのためのゼロショット領域適応を実現するために,拡張機能を使用できることを示す。 実験の結果,本手法は,CLIPをベースとした複数のデータセットの転送ベースラインよりも優れていることがわかった。 当社のプロンプト駆動アプローチは,一部のデータセットに対して,ワンショットの教師なしドメイン適応よりも優れています。 コードはhttps://github.com/astra-vision/podaで入手できる。

Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some conditions, especially for long-tail samples. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, bringing them closer to target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. The code is available at https://github.com/astra-vision/PODA.
翻訳日:2022-12-07 16:07:00 公開日:2022-12-06
# 雑音アノテーションを用いたロバストポイントクラウドセグメンテーション

Robust Point Cloud Segmentation with Noisy Annotations ( http://arxiv.org/abs/2212.03242v1 )

ライセンス: Link先を確認
Shuquan Ye and Dongdong Chen and Songfang Han and Jing Liao(参考訳) ポイントクラウドセグメンテーションは3Dの基本的なタスクである。 近年の深層ネットワークによるポイントクラウドセグメンテーションの進展にもかかわらず、クリーンラベルの仮定に基づく現在の学習方法はノイズのあるラベルで失敗する可能性がある。 しかし、実際のデータセットでは、クラスラベルはしばしばインスタンスレベルとバウンダリレベルで誤ってラベル付けされる。 本稿では,pnal(point noise-adaptive learning)フレームワークを提案することにより,インスタンスレベルのラベルノイズを解決する。 画像タスクにおけるノイズロバスト手法と比較すると,提案手法はノイズレートブラインドであり,ポイントクラウド特有の空間的変動に対処できる。 具体的には,各点の履歴予測から信頼ラベルを得るためのポイントワイズ信頼選択を提案する。 クラスタ単位のラベル補正を投票戦略で提案し, 隣接相関を考慮し, 最適なラベルを生成する。 また,境界レベルのラベルノイズに対処するため,プログレッシブな境界ラベルクリーニング戦略を持つ「PNAL境界」も提案する。 大規模な実験は、合成と実世界のノイズデータセットの両方でその効果を示す。 60\%の対称ノイズと高レベル境界ノイズであっても、我々のフレームワークはベースラインを著しく上回り、完全にクリーンなデータで訓練された上限に匹敵する。 さらに,実世界のデータセットscannetv2を厳密な実験のためにクリーニングした。 私たちのコードとデータはhttps://github.com/pleaseconnectwifi/pnalで入手できます。

Point cloud segmentation is a fundamental task in 3D. Despite recent progress on point cloud segmentation with the power of deep networks, current learning methods based on the clean label assumptions may fail with noisy labels. Yet, class labels are often mislabeled at both instance-level and boundary-level in real-world datasets. In this work, we take the lead in solving the instance-level label noise by proposing a Point Noise-Adaptive Learning (PNAL) framework. Compared to noise-robust methods on image tasks, our framework is noise-rate blind, to cope with the spatially variant noise rate specific to point clouds. Specifically, we propose a point-wise confidence selection to obtain reliable labels from the historical predictions of each point. A cluster-wise label correction is proposed with a voting strategy to generate the best possible label by considering the neighbor correlations. To handle boundary-level label noise, we also propose a variant ``PNAL-boundary " with a progressive boundary label cleaning strategy. Extensive experiments demonstrate its effectiveness on both synthetic and real-world noisy datasets. Even with $60\%$ symmetric noise and high-level boundary noise, our framework significantly outperforms its baselines, and is comparable to the upper bound trained on completely clean data. Moreover, we cleaned the popular real-world dataset ScanNetV2 for rigorous experiment. Our code and data is available at https://github.com/pleaseconnectwifi/PNAL.
翻訳日:2022-12-07 16:06:41 公開日:2022-12-06
# UniGeo: 数学的表現の修正による幾何学論理推論の統合

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression ( http://arxiv.org/abs/2212.02746v1 )

ライセンス: Link先を確認
Jiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen, Xiaodan Liang(参考訳) 幾何問題解決は、深層モデルの高レベルマルチモーダル推論能力を評価するためのよく知られたテストベッドである。 ほとんどの既存の作品では、計算と証明という2つの主要な幾何学問題は通常2つの特定のタスクとして扱われ、複数の数学タスクで推論能力を統合するために深いモデルを妨げる。 しかし、本質的にこれら2つのタスクは、同様の問題表現と重複した数学知識を持ち、両方のタスクにおいて深いモデルの理解と推論能力を向上させることができる。 そこで我々は,4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。 それぞれの証明問題は、理由と数学的表現を持つ多段階証明で注釈付けされる。 証明は、計算問題に対する注釈付きプログラムシーケンスと同一のフォーマットを共有する証明シーケンスとして容易に再構成できる。 また,多タスク幾何トランスフォーマ(geoformer)という統一型多タスク幾何トランスフォーマフレームワークも提案し,逐次生成という形で計算と証明を同時に行うことで,定式化によって両タスクとも推論能力を向上させることができることを示した。 さらに,問題解における数式予測を目的とし,ジオフォーマモデルの改良を目的とした数式事前学習法(mep)を提案する。 UniGeoの実験により,提案したGeoformerは,タスク固有モデルNGSの計算精度を5.6%以上と3.2%以上で上回り,最先端の性能が得られることを示した。

Geometry problem solving is a well-recognized testbed for evaluating the high-level multi-modal reasoning capability of deep models. In most existing works, two main geometry problems: calculation and proving, are usually treated as two specific tasks, hindering a deep model to unify its reasoning capability on multiple math tasks. However, in essence, these two tasks have similar problem representations and overlapped math knowledge which can improve the understanding and reasoning ability of a deep model on both two tasks. Therefore, we construct a large-scale Unified Geometry problem benchmark, UniGeo, which contains 4,998 calculation problems and 9,543 proving problems. Each proving problem is annotated with a multi-step proof with reasons and mathematical expressions. The proof can be easily reformulated as a proving sequence that shares the same formats with the annotated program sequence for calculation problems. Naturally, we also present a unified multi-task Geometric Transformer framework, Geoformer, to tackle calculation and proving problems simultaneously in the form of sequence generation, which finally shows the reasoning ability can be improved on both two tasks by unifying formulation. Furthermore, we propose a Mathematical Expression Pretraining (MEP) method that aims to predict the mathematical expressions in the problem solution, thus improving the Geoformer model. Experiments on the UniGeo demonstrate that our proposed Geoformer obtains state-of-the-art performance by outperforming task-specific model NGS with over 5.6% and 3.2% accuracies on calculation and proving problems, respectively.
翻訳日:2022-12-07 15:57:52 公開日:2022-12-06
# クラスプロトタイプを用いたフェデレーション学習におけるデータ不均一性への取り組み

Tackling Data Heterogeneity in Federated Learning with Class Prototypes ( http://arxiv.org/abs/2212.02758v1 )

ライセンス: Link先を確認
Yutong Dai, Zeyuan Chen, Junnan Li, Shelby Heinecke, Lichao Sun, Ran Xu(参考訳) 連邦学習(FL)設定におけるクライアント間のデータの異質性は広く認められている課題である。 これに対し、パーソナライズド・フェデレーション・ラーニング(PFL)は、クライアントのタスクのローカルモデルをキュレートするフレームワークとして登場した。 PFLでは、グローバルモデル(一般化のための)がローカルモデルに通知し、ローカルモデル(パーソナライズのための)がグローバルモデルを更新するために集約される。 重要な観察は、局所モデルの一般化能力を向上させることができれば、グローバルモデルの一般化を改善し、より良いパーソナライズされたモデルを構築することができるということである。 本研究では,分類設定において見過ごされたデータの不均一性であるクラス不均衡について考察する。 クラスプロトタイプの統一性とセマンティクスを組み合わせることにより,個人化と一般化の両面において,局所モデルの性能を向上させる新しい手法であるFedNHを提案する。 FedNHは当初、潜伏空間でクラスプロトタイプを均一に配布し、クラスセマンティクスをクラスプロトタイプにスムーズに注入した。 クラスセマンティクスを注入して局所モデルを改善することで,プロトタイプの崩壊に対処できることを示す。 クロスデバイス設定下で、一般的な分類データセットで広範な実験が行われた。 その結果,本手法の有効性と安定性が示唆された。

Data heterogeneity across clients in federated learning (FL) settings is a widely acknowledged challenge. In response, personalized federated learning (PFL) emerged as a framework to curate local models for clients' tasks. In PFL, a common strategy is to develop local and global models jointly - the global model (for generalization) informs the local models, and the local models (for personalization) are aggregated to update the global model. A key observation is that if we can improve the generalization ability of local models, then we can improve the generalization of global models, which in turn builds better personalized models. In this work, we consider class imbalance, an overlooked type of data heterogeneity, in the classification setting. We propose FedNH, a novel method that improves the local models' performance for both personalization and generalization by combining the uniformity and semantics of class prototypes. FedNH initially distributes class prototypes uniformly in the latent space and smoothly infuses the class semantics into class prototypes. We show that imposing uniformity helps to combat prototype collapse while infusing class semantics improves local models. Extensive experiments were conducted on popular classification datasets under the cross-device setting. Our results demonstrate the effectiveness and stability of our method over recent works.
翻訳日:2022-12-07 15:57:28 公開日:2022-12-06
# QEBVerif:ニューラルネットワークの量子化誤差境界検証

QEBVerif: Quantization Error Bound Verification of Neural Networks ( http://arxiv.org/abs/2212.02781v1 )

ライセンス: Link先を確認
Yedi Zhang and Fu Song and Jun Sun(参考訳) ディープニューラルネットワーク(DNN)は、多くの課題を解決する上で素晴らしいパフォーマンスを示しているが、計算能力とストレージスペースの需要のため、リソース制限されたデバイスに限定されている。 量子化は、DNNの重みやアクティベーションテンソルを低ビット幅の固定点数に量子化することでこの問題に対処する最も有望な手法の1つである。 量子化は、小さな精度の損失をもたらすことが実証的に示されているが、特にqnn(quantized neural network)が安全クリティカルなアプリケーションに配置されている場合に、それに対する正式な保証が欠けている。 既存の検証手法の大半は、個々のニューラルネットワーク(DNNまたはQNN)にのみフォーカスする。 DNN間の量子化エラーを検証するための有望な試みは行われているが、完全ではなく、さらに重要なのは、完全に量子化されたニューラルネットワークをサポートしていないことだ。 このギャップを埋めるため,本研究では,重みと活性化テンソルの両方を量子化する量子化誤差境界検証法(qebverif)を提案する。 QEBVerifは、微分到達可能性解析(DRA)と混合整数線形プログラミング(MILP)に基づく検証方法の2つの分析からなる。 DRAは、DNNとその量子化対応層間の差分解析を行い、タイトな量子化誤差間隔を効率的に計算する。 エラーバウンダリの証明に失敗した場合、検証問題をオフ・ザ・シェルフ・ソルバによって解決できる同等のmilp問題に符号化する。 したがって、QEBVerifは健全で完全で、間違いなく効率的である。 ツールにQEBVerifを実装し、その有効性と効率を示す広範な実験を行う。

While deep neural networks (DNNs) have demonstrated impressive performance in solving many challenging tasks, they are limited to resource-constrained devices owing to their demand for computation power and storage space. Quantization is one of the most promising techniques to address this issue by quantizing the weights and/or activation tensors of a DNN into lower bit-width fixed-point numbers. While quantization has been empirically shown to introduce minor accuracy loss, it lacks formal guarantees on that, especially when the resulting quantized neural networks (QNNs) are deployed in safety-critical applications. A majority of existing verification methods focus exclusively on individual neural networks, either DNNs or QNNs. While promising attempts have been made to verify the quantization error bound between DNNs and their quantized counterparts, they are not complete and more importantly do not support fully quantified neural networks, namely, only weights are quantized. To fill this gap, in this work, we propose a quantization error bound verification method (QEBVerif), where both weights and activation tensors are quantized. QEBVerif consists of two analyses: a differential reachability analysis (DRA) and a mixed-integer linear programming (MILP) based verification method. DRA performs difference analysis between the DNN and its quantized counterpart layer-by-layer to efficiently compute a tight quantization error interval. If it fails to prove the error bound, then we encode the verification problem into an equivalent MILP problem which can be solved by off-the-shelf solvers. Thus, QEBVerif is sound, complete, and arguably efficient. We implement QEBVerif in a tool and conduct extensive experiments, showing its effectiveness and efficiency.
翻訳日:2022-12-07 15:57:11 公開日:2022-12-06
# 確率的エネルギー予測のための拡散確率モデル

Denoising diffusion probabilistic models for probabilistic energy forecasting ( http://arxiv.org/abs/2212.02977v1 )

ライセンス: Link先を確認
Esteban Hernandez, Jonathan Dumas(参考訳) シナリオに基づく確率的予測は、再生可能エネルギーの不安定な性質に対処する意思決定者のための重要なツールとなっている。 本稿では,拡散確率モデルに基づくディープラーニング生成手法を提案する。 これは、最近コンピュータビジョンコミュニティで印象的な結果を実証した潜在変数モデルのクラスである。 しかし、私たちの知る限りでは、電力システムアプリケーションにおける新しい課題に直面する上で重要な、負荷、PV、風力の時系列の高品質なサンプルを生成できることは、まだ実証されていない。 そこで本研究では,グローバルエネルギー予測コンペティション2014のオープンデータを用いたエネルギー予測モデルの最初の実装を提案する。 その結果、この手法は他の最先端のディープラーニング生成モデル – 生成的逆数ネットワーク、変分オートエンコーダ、正規化フロー – と競合することを示した。

Scenario-based probabilistic forecasts have become a vital tool to equip decision-makers to address the uncertain nature of renewable energies. This paper presents a recent promising deep learning generative approach: denoising diffusion probabilistic models. It is a class of latent variable models that have recently demonstrated impressive results in the computer vision community. However, to the best of our knowledge, there has yet to be a demonstration that they can generate high-quality samples of load, PV, or wind power time series that are crucial to face the new challenges in power systems applications. Thus, we propose the first implementation of this model for energy forecasting using the open data of the Global Energy Forecasting Competition 2014. The results demonstrate that this approach is competitive with other state-of-the-art deep learning generative models: generative adversarial networks, variational autoencoders, and normalizing flows.
翻訳日:2022-12-07 15:56:42 公開日:2022-12-06
# 信頼できない情報源を用いたデータから学ぶ深層ニューラルネットワークの損失適応可塑性

Loss Adapted Plasticity in Deep Neural Networks to Learn from Data with Unreliable Sources ( http://arxiv.org/abs/2212.02895v1 )

ライセンス: Link先を確認
Alexander Capstick, Francesca Palermo, Payam Barnaghi(参考訳) データが複数のソースからストリーミングされている場合、従来のトレーニング手法では、各ソースに対して同じレベルの信頼性を仮定するモデルの重みを更新することが多い。 多くのアプリケーションでは、ソースはさまざまなレベルのノイズや腐敗を持ち、堅牢なディープラーニングモデルの学習に悪影響を及ぼす可能性がある。 重要な問題は、個々のソースのデータやラベルの品質がトレーニング中に利用できないことが多く、時間とともに変化する可能性があることだ。 この問題に対する我々の解決策は、ソースからのデータをトレーニングしながら犯した間違いを考慮し、これを利用して各ソースに対する認識されたデータ品質を作成することです。 本稿では,任意の勾配降下オプティマイザに適用可能な,直進的かつ斬新な手法を示す: より広いデータセット内のデータソースの認識信頼性の関数として,モデル重みを更新する。 アルゴリズムは与えられたモデルの可塑性を制御し、個々のデータソースからの損失履歴に基づいて更新を重み付けする。 本研究では,信頼性のあるデータソースと信頼性の低いデータソースを混合してトレーニングした場合のモデル性能を著しく向上させ,信頼性の高いデータソース上でモデルがトレーニングされた場合のパフォーマンスを維持できることを示す。 この作業の実験を再現し、読者自身のモデルでアルゴリズムを実装するコードはすべて利用可能である。

When data is streaming from multiple sources, conventional training methods update model weights often assuming the same level of reliability for each source; that is: a model does not consider data quality of each source during training. In many applications, sources can have varied levels of noise or corruption that has negative effects on the learning of a robust deep learning model. A key issue is that the quality of data or labels for individual sources is often not available during training and could vary over time. Our solution to this problem is to consider the mistakes made while training on data originating from sources and utilise this to create a perceived data quality for each source. This paper demonstrates a straight-forward and novel technique that can be applied to any gradient descent optimiser: Update model weights as a function of the perceived reliability of data sources within a wider data set. The algorithm controls the plasticity of a given model to weight updates based on the history of losses from individual data sources. We show that applying this technique can significantly improve model performance when trained on a mixture of reliable and unreliable data sources, and maintain performance when models are trained on data sources that are all considered reliable. All code to reproduce this work's experiments and implement the algorithm in the reader's own models is made available.
翻訳日:2022-12-07 15:56:11 公開日:2022-12-06
# 画像キャプションのための意味条件拡散ネットワーク

Semantic-Conditional Diffusion Networks for Image Captioning ( http://arxiv.org/abs/2212.03099v1 )

ライセンス: Link先を確認
Jianjie Luo and Yehao Li and Yingwei Pan and Ting Yao and Jianlin Feng and Hongyang Chao and Tao Mei(参考訳) テキスト対画像生成の最近の進歩は、強力な生成モデルとして機能する拡散モデルの増加を目撃している。 それでも、そのような潜伏変数モデルを利用して個々の単語間の依存を捉え、画像キャプションにおける複雑な視覚言語アライメントを追求することは容易ではない。 本稿では,トランスフォーマーをベースとしたエンコーダデコーダの学習における根深い慣習を破り,画像キャプションに適した新しい拡散モデル,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。 技術的には、各入力画像に対して、まずクロスモーダル検索モデルを用いて意味のある文を検索し、包括的意味情報を伝達する。 リッチなセマンティクスは、拡散過程において出力文を生成する拡散変換器の学習を誘導する前に意味的と見なされる。 SCD-Netでは、複数の拡散トランスフォーマー構造を積み重ねて、視覚言語的アライメントと言語的コヒーレンスをケースケード的に向上させる。 さらに,拡散過程の安定化を図るため,SCD-Netの学習を標準自己回帰変換モデルの知識で導くために,新たな自己臨界シーケンストレーニング戦略を考案した。 cocoデータセットの広範な実験は、挑戦的画像キャプションタスクにおける拡散モデルの利用の可能性を示している。 ソースコードは \url{https://github.com/yehli/xmodaler/tree/master/configs/image_caption/scdnet} で入手できる。

Recent advances on text-to-image generation have witnessed the rise of diffusion models which act as powerful generative models. Nevertheless, it is not trivial to exploit such latent variable models to capture the dependency among discrete words and meanwhile pursue complex visual-language alignment in image captioning. In this paper, we break the deeply rooted conventions in learning Transformer-based encoder-decoder, and propose a new diffusion model based paradigm tailored for image captioning, namely Semantic-Conditional Diffusion Networks (SCD-Net). Technically, for each input image, we first search the semantically relevant sentences via cross-modal retrieval model to convey the comprehensive semantic information. The rich semantics are further regarded as semantic prior to trigger the learning of Diffusion Transformer, which produces the output sentence in a diffusion process. In SCD-Net, multiple Diffusion Transformer structures are stacked to progressively strengthen the output sentence with better visional-language alignment and linguistical coherence in a cascaded manner. Furthermore, to stabilize the diffusion process, a new self-critical sequence training strategy is designed to guide the learning of SCD-Net with the knowledge of a standard autoregressive Transformer model. Extensive experiments on COCO dataset demonstrate the promising potential of using diffusion models in the challenging image captioning task. Source code is available at \url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/scdnet}.
翻訳日:2022-12-07 15:55:50 公開日:2022-12-06
# Dist-PU:ラベル分布から見たポジティブな学習

Dist-PU: Positive-Unlabeled Learning from a Label Distribution Perspective ( http://arxiv.org/abs/2212.02801v1 )

ライセンス: Link先を確認
Yunrui Zhao, Qianqian Xu, Yangbangyan Jiang, Peisong Wen, and Qingming Huang(参考訳) Positive-Unlabeled (PU) 学習は、いくつかのラベル付き正の例からバイナリ分類器を学習しようとする。 通常の半教師付き学習と比較すると、既知の負のラベルがないため、このタスクはずっと難しい。 既存のコストセンシティブな手法は最先端のパフォーマンスを達成しているが、ラベルのないデータを負のサンプルとして分類するリスクを明示的に最小化し、その結果、分類器の負の予測好みが生まれる可能性がある。 この問題を軽減するために,本稿では,PU学習のラベル分布の観点から検討する。 未ラベルデータのラベル分布が、クラス事前が分かっているときに固定されることに気付き、モデルの学習監督として自然に使用できる。 そこで本研究では,予測されたラベル分布と地中ラベル分布とのラベル分布の一貫性を追求する。 さらに,ラベルなしデータに対するラベル分布一貫性の自明な解を避けるため,エントロピー最小化とミックスアップ正規化を採用し,一致確認バイアスを緩和する。 https://github.com/Ray-rui/Dist-PU-Positive-Unlabeled-Learning-from-a-Label-Distribution-Perspective 。

Positive-Unlabeled (PU) learning tries to learn binary classifiers from a few labeled positive examples with many unlabeled ones. Compared with ordinary semi-supervised learning, this task is much more challenging due to the absence of any known negative labels. While existing cost-sensitive-based methods have achieved state-of-the-art performances, they explicitly minimize the risk of classifying unlabeled data as negative samples, which might result in a negative-prediction preference of the classifier. To alleviate this issue, we resort to a label distribution perspective for PU learning in this paper. Noticing that the label distribution of unlabeled data is fixed when the class prior is known, it can be naturally used as learning supervision for the model. Motivated by this, we propose to pursue the label distribution consistency between predicted and ground-truth label distributions, which is formulated by aligning their expectations. Moreover, we further adopt the entropy minimization and Mixup regularization to avoid the trivial solution of the label distribution consistency on unlabeled data and mitigate the consequent confirmation bias. Experiments on three benchmark datasets validate the effectiveness of the proposed method.Code available at: https://github.com/Ray-rui/Dist-PU-Positive-Unlabeled-Learning-from-a-Label-Distribution-Perspective .
翻訳日:2022-12-07 15:55:10 公開日:2022-12-06
# 時空間2.5D点としての物体

Objects as Spatio-Temporal 2.5D points ( http://arxiv.org/abs/2212.02755v1 )

ライセンス: Link先を確認
Paridhi Singh, Gaurav Singh and Arun Kumar(参考訳) 映像中の物体やトラックの正確な鳥の視線(BEV)位置を決定することは、物体の相互作用マッピングやシナリオ抽出など様々な知覚タスクに不可欠であるが、それを達成するために必要な監督レベルは、調達が極めて困難である。 ネットワークの単一フィードフォワードパスにおける2次元物体検出とシーンの深度予測を共同で学習することにより,物体の3次元位置を推定する軽量で弱い教師付き手法を提案する。 提案手法は,中心点をベースとした単発物体検出器 \cite{zhou2019objects} を拡張し,各オブジェクトを時空間的にBEVポイントとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。 このアプローチでは、簡単に利用可能な2Dオブジェクトの監視とLiDARポイントクラウド(トレーニング時にのみ使用される)を活用して、単一のネットワークを共同でトレーニングすることで、シーン全体の深さとともに2Dオブジェクトの検出を予測し、BEVのポイントとして時空間的にオブジェクトトラックをモデル化する。 提案手法は,最近のSOTA手法 [1, 38] と比較して計算効率が$\sim$10x以上で,KITTI追跡ベンチマークでは同等の精度を実現している。

Determining accurate bird's eye view (BEV) positions of objects and tracks in a scene is vital for various perception tasks including object interactions mapping, scenario extraction etc., however, the level of supervision required to accomplish that is extremely challenging to procure. We propose a light-weight, weakly supervised method to estimate 3D position of objects by jointly learning to regress the 2D object detections and scene's depth prediction in a single feed-forward pass of a network. Our proposed method extends a center-point based single-shot object detector \cite{zhou2019objects}, and introduces a novel object representation where each object is modeled as a BEV point spatio-temporally, without the need of any 3D or BEV annotations for training and LiDAR data at query time. The approach leverages readily available 2D object supervision along with LiDAR point clouds (used only during training) to jointly train a single network, that learns to predict 2D object detection alongside the whole scene's depth, to spatio-temporally model object tracks as points in BEV. The proposed method is computationally over $\sim$10x efficient compared to recent SOTA approaches [1, 38] while achieving comparable accuracies on KITTI tracking benchmark.
翻訳日:2022-12-07 15:49:28 公開日:2022-12-06
# セマンティックセグメンテーションのためのUnion-set Multi-source Model Adaptation

Union-set Multi-source Model Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2212.02785v1 )

ライセンス: Link先を確認
Zongyao Li, Ren Togo, Takahiro Ogawa, Miki haseyama(参考訳) 本稿では,セマンティックセグメンテーションのためのマルチソースモデル適応問題の一般化版を解く。 モデル適応は、ソースドメインのデータではなく、事前訓練されたモデルへのアクセスを必要とする新しいドメイン適応問題として提案される。 モデル適応の一般的なマルチソース設定は、各ソースドメインが対象ドメインと共通のラベル空間を共有することを厳密に仮定する。 緩和として、各ソースドメインのラベル空間を対象ドメインのサブセットとし、ソースドメインのラベル空間の結合をターゲットドメインのラベル空間と同等にする必要がある。 そこで本研究では,多元多元モデル適応という新しい設定のために,モデル不変特徴学習という新しい学習戦略を提案する。 提案手法の優位性を示すため,様々な適応設定で広範囲な実験を行った。 コードはhttps://github.com/lzy7976/union-set-model-adaptationで入手できる。

This paper solves a generalized version of the problem of multi-source model adaptation for semantic segmentation. Model adaptation is proposed as a new domain adaptation problem which requires access to a pre-trained model instead of data for the source domain. A general multi-source setting of model adaptation assumes strictly that each source domain shares a common label space with the target domain. As a relaxation, we allow the label space of each source domain to be a subset of that of the target domain and require the union of the source-domain label spaces to be equal to the target-domain label space. For the new setting named union-set multi-source model adaptation, we propose a method with a novel learning strategy named model-invariant feature learning, which takes full advantage of the diverse characteristics of the source-domain models, thereby improving the generalization in the target domain. We conduct extensive experiments in various adaptation settings to show the superiority of our method. The code is available at https://github.com/lzy7976/union-set-model-adaptation.
翻訳日:2022-12-07 15:49:06 公開日:2022-12-06
# flowface: セマンティックフロー誘導型シェイプアウェアフェイススワップ

FlowFace: Semantic Flow-guided Shape-aware Face Swapping ( http://arxiv.org/abs/2212.02797v1 )

ライセンス: Link先を確認
Hao Zeng, Wei Zhang, Changjie Fan, Tangjie Lv, Suzhen Wang, Zhimeng Zhang, Bowen Ma, Lincheng Li, Yu Ding, Xin Yu(参考訳) 本稿では,形状認識型顔スワッピングのための意味的フロー誘導二段階フレームワーク,flowfaceを提案する。 元の顔の特徴を転送するが顔の輪郭を無視する従来の方法とは異なり、FlowFaceはどちらもターゲットの顔に転送できるため、よりリアルな顔交換が可能になる。 具体的には、フローフェイスはフェイスリシェーピングネットワークとフェイススワッピングネットワークで構成されています。 顔再構成ネットワークは、ソース面とターゲット面との形状輪郭差に対処する。 まず、ソースとターゲットの顔の間のセマンティックフロー(すなわち、顔形状の違い)を推定し、次に、推定されたセマンティックフローでターゲットの顔形状を明示的に警告する。 再構成後、顔交換ネットワークは、元の顔の同一性を示す内面特徴を生成する。 顔マスキングオートエンコーダ(mae)を用いて,顔のソースと対象の顔の両方から顔の特徴を抽出する。 アイデンティティ情報を保存するためにアイデンティティ埋め込みを使った従来の手法とは対照的に,エンコーダが抽出した特徴は顔の外観やアイデンティティ情報をよりよく捉えることができる。 そこで,本研究では,顔の特徴を対象の顔属性と適応的に融合させるクロスアテンション融合モジュールを開発した。 広汎な定量および定性的実験は、私たちのFlowFaceが最先端を著しく上回ることを示した。

In this work, we propose a semantic flow-guided two-stage framework for shape-aware face swapping, namely FlowFace. Unlike most previous methods that focus on transferring the source inner facial features but neglect facial contours, our FlowFace can transfer both of them to a target face, thus leading to more realistic face swapping. Concretely, our FlowFace consists of a face reshaping network and a face swapping network. The face reshaping network addresses the shape outline differences between the source and target faces. It first estimates a semantic flow (i.e., face shape differences) between the source and the target face, and then explicitly warps the target face shape with the estimated semantic flow. After reshaping, the face swapping network generates inner facial features that exhibit the identity of the source face. We employ a pre-trained face masked autoencoder (MAE) to extract facial features from both the source face and the target face. In contrast to previous methods that use identity embedding to preserve identity information, the features extracted by our encoder can better capture facial appearances and identity information. Then, we develop a cross-attention fusion module to adaptively fuse inner facial features from the source face with the target facial attributes, thus leading to better identity preservation. Extensive quantitative and qualitative experiments on in-the-wild faces demonstrate that our FlowFace outperforms the state-of-the-art significantly.
翻訳日:2022-12-07 15:48:48 公開日:2022-12-06
# SSDA3D:ポイントクラウドからの3Dオブジェクト検出のための半教師付きドメイン適応

SSDA3D: Semi-supervised Domain Adaptation for 3D Object Detection from Point Cloud ( http://arxiv.org/abs/2212.02845v1 )

ライセンス: Link先を確認
Yan Wang, Junbo Yin, Wei Li, Pascal Frossard, Ruigang Yang, Jianbing Shen(参考訳) LiDARベースの3Dオブジェクト検出は、先進的な自動運転システムにおいて必須のタスクである。 優れた3D検出器によって顕著な検出結果が得られたが、異なるLiDAR構成、異なる都市、気象条件など、目に見えない領域に直面すると大きな性能劣化に悩まされる。 主流のアプローチは、教師なしドメイン適応(UDA)技術を活用することでこれらの課題を解決する傾向がある。 しかし、これらのUDAソリューションは、例えばWaymo (64-beam) から nuScenes (32-beam) への厳しいドメインシフトがある場合、不満足な3D検出結果をもたらす。 そこで本研究では,少数のラベル付きターゲットデータしか利用できない3次元オブジェクト検出(SSDA3D)のための,新しい半教師付きドメイン適応手法を提案する。 特に、SSDA3Dはドメイン間適応段階とドメイン内一般化段階を含む。 第1段階では、ドメイン間のポイントクラウド分散を効率的に調整するために、ドメイン間ポイントカットミックスモジュールが提示される。 Point-CutMixは中間領域の混合サンプルを生成し、ドメイン不変の知識を学ぶことを奨励する。 そして、第2段階において、未ラベル対象集合のより優れた一般化のためのモデルをさらに強化する。 これは、疑似ラベル分布を本質的に規則化する半教師付き学習において、ドメイン内の点混合を探索することで達成される。 waymoからnuscenesへの実験では、10%のラベル付きターゲットデータでsssa3dが100%のターゲットラベルで完全な教師付きoracleモデルを上回ることが示されました。 私たちのコードはhttps://github.com/yinjunbo/ssda3dで利用可能です。

LiDAR-based 3D object detection is an indispensable task in advanced autonomous driving systems. Though impressive detection results have been achieved by superior 3D detectors, they suffer from significant performance degeneration when facing unseen domains, such as different LiDAR configurations, different cities, and weather conditions. The mainstream approaches tend to solve these challenges by leveraging unsupervised domain adaptation (UDA) techniques. However, these UDA solutions just yield unsatisfactory 3D detection results when there is a severe domain shift, e.g., from Waymo (64-beam) to nuScenes (32-beam). To address this, we present a novel Semi-Supervised Domain Adaptation method for 3D object detection (SSDA3D), where only a few labeled target data is available, yet can significantly improve the adaptation performance. In particular, our SSDA3D includes an Inter-domain Adaptation stage and an Intra-domain Generalization stage. In the first stage, an Inter-domain Point-CutMix module is presented to efficiently align the point cloud distribution across domains. The Point-CutMix generates mixed samples of an intermediate domain, thus encouraging to learn domain-invariant knowledge. Then, in the second stage, we further enhance the model for better generalization on the unlabeled target set. This is achieved by exploring Intra-domain Point-MixUp in semi-supervised learning, which essentially regularizes the pseudo label distribution. Experiments from Waymo to nuScenes show that, with only 10% labeled target data, our SSDA3D can surpass the fully-supervised oracle model with 100% target label. Our code is available at https://github.com/yinjunbo/SSDA3D.
翻訳日:2022-12-07 15:48:24 公開日:2022-12-06
# 文書画像中の内容のテーブル抽出のためのマルチモーダルツリーデコーダ

Multimodal Tree Decoder for Table of Contents Extraction in Document Images ( http://arxiv.org/abs/2212.02896v1 )

ライセンス: Link先を確認
Pengfei Hu, Zhenrong Zhang, Jianshu Zhang, Jun Du, Jiajia Wu(参考訳) コンテンツ表(toc)抽出は、文書の理解や情報検索に広く使用できる内容の概要をよりよく理解するために、文書の異なるレベルの見出しを抽出することを目的としている。 既存の作品では、しばしば手作りの特徴とあらかじめ定義された規則に基づく関数を使用して、方向を検出し、方向の間の階層的関係を解決する。 ディープラーニングに基づくベンチマークと研究は、いずれもまだ限られている。 そこで本稿では,まず,学術論文の650件の資料とコンテンツラベルのイメージサンプルを含む,標準データセットであるHierDocを紹介する。 そして,ToC のマルチモーダルツリーデコーダ (MTD) を HierDoc のベンチマークとして用いた新しいエンドツーエンドモデルを提案する。 MTDモデルは、主にエンコーダ、分類器、デコーダの3つの部分で構成されている。 エンコーダは、文書の各エンティティに対する視覚、テキスト、レイアウト情報の多モードな特徴を融合する。 そして、分類器は、先頭エンティティを認識して選択する。 次に、配向エンティティ間の階層的関係を解析するために、木構造デコーダを設計する。 評価には, 樹枝距離類似度(TEDS)とF1-Measureの両方を用いる。 最後に、我々のMTDアプローチでは、平均TEDSは87.2%、平均F1-Measureは88.1%である。 コードとデータセットは、https://github.com/Pengfei-Hu/MTD.comでリリースされる。

Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.
翻訳日:2022-12-07 15:47:55 公開日:2022-12-06
# 3次元u-netとアースフォーマーを用いた衛星データによる超解像確率的降雨予測

Super-resolution Probabilistic Rain Prediction from Satellite Data Using 3D U-Nets and EarthFormers ( http://arxiv.org/abs/2212.02998v1 )

ライセンス: Link先を確認
Yang Li, Haiyu Dong, Zuliang Fang, Jonathan Weyn, Pete Luferenko(参考訳) 正確でタイムリーな雨予報は意思決定に不可欠であり、また課題でもある。 本論文では,マルチバンド衛星画像に基づく8時間の確率的降雨予測のための3D U-Nets と EarthFormers を用いて,Weather4cast 2022 NeurIPS コンペで第2位を獲得したソリューションを提案する。 入力衛星画像の空間的コンテキスト効果は深く検討され、最適なコンテキスト範囲が発見されている。 不均衡な降雨分布に基づいて,損失関数の異なる複数のモデルを訓練した。 モデル性能をさらに向上するため,最終確率的降雨予測にはマルチモデルアンサンブルとしきい値最適化が用いられた。 その結果, 最適空間コンテキスト, 複合損失関数, マルチモデルアンサンブル, しきい値最適化が, いずれもモデストモデルゲインを提供することを示した。 降雨予測に対する各衛星帯の影響を分析するために置換試験を行い,降雨予測には雲上相 (8.7 um) と雲上高 (10.8 um, 13.4 um) の衛星帯が最適であることを示した。 ソースコードはhttps://github.com/bugsuse/weather4cast-2022-stage2で入手できる。

Accurate and timely rain prediction is crucial for decision making and is also a challenging task. This paper presents a solution which won the 2 nd prize in the Weather4cast 2022 NeurIPS competition using 3D U-Nets and EarthFormers for 8-hour probabilistic rain prediction based on multi-band satellite images. The spatial context effect of the input satellite image has been deeply explored and optimal context range has been found. Based on the imbalanced rain distribution, we trained multiple models with different loss functions. To further improve the model performance, multi-model ensemble and threshold optimization were used to produce the final probabilistic rain prediction. Experiment results and leaderboard scores demonstrate that optimal spatial context, combined loss function, multi-model ensemble, and threshold optimization all provide modest model gain. A permutation test was used to analyze the effect of each satellite band on rain prediction, and results show that satellite bands signifying cloudtop phase (8.7 um) and cloud-top height (10.8 and 13.4 um) are the best predictors for rain prediction. The source code is available at https://github.com/bugsuse/weather4cast-2022-stage2.
翻訳日:2022-12-07 15:47:31 公開日:2022-12-06
# アウトオブディストリビューション一般化のためのスタイル転送によるフロントドア調整

Front-door Adjustment via Style Transfer for Out-of-distribution Generalisation ( http://arxiv.org/abs/2212.03063v1 )

ライセンス: Link先を確認
Toan Nguyen, Kien Do, Duc Thanh Nguyen, Bao Duong, Thin Nguyen(参考訳) out-of-distribution (ood) 一般化は、ソースドメインから学習した知識を十分に一般化したモデルの構築を目的としている。 しかし、現在の画像分類モデルは、モデルトレーニングから学習した統計的に突発的な相関関係のため、OOD設定ではよく機能しない。 因果グラフを用いてOOD画像分類におけるデータ生成過程を定式化する。 このグラフでは、統計的学習における画像Xを与えられたラベルYの予測P(Y|X)が、因果効果P(Y|do(X))と、相反する特徴(例えば背景)に起因する刺激効果の両方によって形成されることを示す。 突発的特徴は領域不変であるため、予測 P(Y|X) は見えない領域で不安定となる。 本稿では,共同設立者のフロントドア調整によるスプリアス効果を軽減することを提案する。 本手法では,画像のラベルを決定するのに不可欠なセマンティックな特徴としてメディエータ変数を仮定する。 画像生成におけるスタイル転送の能力に触発されて,様々な生成画像と媒介変数の組み合わせをフロントドア式で解釈し,推定する新しいアルゴリズムを提案する。 ベンチマークデータセットの広範な実験結果から,本手法の有効性を確認した。

Out-of-distribution (OOD) generalisation aims to build a model that can well generalise its learnt knowledge from source domains to an unseen target domain. However, current image classification models often perform poorly in the OOD setting due to statistically spurious correlations learning from model training. From causality-based perspective, we formulate the data generation process in OOD image classification using a causal graph. On this graph, we show that prediction P(Y|X) of a label Y given an image X in statistical learning is formed by both causal effect P(Y|do(X)) and spurious effects caused by confounding features (e.g., background). Since the spurious features are domain-variant, the prediction P(Y|X) becomes unstable on unseen domains. In this paper, we propose to mitigate the spurious effect of confounders using front-door adjustment. In our method, the mediator variable is hypothesized as semantic features that are essential to determine a label for an image. Inspired by capability of style transfer in image generation, we interpret the combination of the mediator variable with different generated images in the front-door formula and propose novel algorithms to estimate it. Extensive experimental results on widely used benchmark datasets verify the effectiveness of our method.
翻訳日:2022-12-07 15:47:07 公開日:2022-12-06
# 光イメージングにおける最も可能性の高い回復に向けて

Towards A Most Probable Recovery in Optical Imaging ( http://arxiv.org/abs/2212.03235v1 )

ライセンス: Link先を確認
Nadav Torem and Roi Ronen and Yoav Y. Schechner and Michael Elad(参考訳) 光は複雑な値のフィールドです。 フィールドの強度と位相は、イメージされたオブジェクトによって影響を受ける。 しかし、撮像センサは実数値非負の強度のみを測定する。 これにより、測定値と未知の撮像対象との非線形関係が生まれる。 さらに、ポアソニアン分布光子ノイズによりセンサの読み出しが破損する。 本研究では,変数のa-posteriori確率を最大化するノイズ測定を行い,最も可能性の高い物体(またはクリア画像)を求める。 したがって、アニールしたランゲヴィンダイナミクスを一般化し、位相回復やポアソン(光子)脱ノイズを含む光学画像の基本課題に取り組む。 我々は,画像化対象の明示的な復元ではなく,事前の近似勾配として,ディープニューラルネットワークを活用する。 実実験により得られた経験データについて結果を示す。 さらにシミュレーションの結果を示す。

Light is a complex-valued field. The intensity and phase of the field are affected by imaged objects. However, imaging sensors measure only real-valued non-negative intensities. This results in a nonlinear relation between the measurements and the unknown imaged objects. Moreover, the sensor readouts are corrupted by Poissonian-distributed photon noise. In this work, we seek the most probable object (or clear image), given noisy measurements, that is, maximizing the a-posteriori probability of the sought variables. Hence, we generalize annealed Langevin dynamics, tackling fundamental challenges in optical imaging, including phase recovery and Poisson (photon) denoising. We leverage deep neural networks, not for explicit recovery of the imaged object, but as an approximate gradient for a prior term. We show results on empirical data, acquired by a real experiment. We further show results of simulations.
翻訳日:2022-12-07 15:46:43 公開日:2022-12-06
# 人間互換自動車を目指して:感情遷移モデルを用いた自動走行における非言語チューリングテストの検討

Towards human-compatible autonomous car: A study of non-verbal Turing test in automated driving with affective transition modelling ( http://arxiv.org/abs/2212.02908v1 )

ライセンス: Link先を確認
Zhaoning Li, Qiaoli Jiang, Zhengming Wu, Anqi Liu, Haiyan Wu, Miner Huang, Kai Huang, and Yixuan Ku(参考訳) 人間がハンズフリーの道を進むとき、自動運転車は不可欠だ。 既存の文献では、人間のように運転すれば自動運転車の受容が増加すると強調されているが、スパースリサーチは、現在の自動運転車の人間的類似性を調べるために乗客の席の観点から自然主義的な経験を提供する。 本研究は、69人の参加者のフィードバックに基づいて、AIドライバーが乗客のための人間ライクな乗車体験を作成できるかどうかを実路シナリオで検証した。 我々は、自動走行のためのノンバーバルチューリングテストの乗車体験ベースのバージョンを設計した。 参加者は、人間かAIドライバーが運転する自動運転車に乗って乗客となり、ドライバーが人間なのかAIなのかを判断した。 aiドライバーは、乗客が偶然にaiドライバーを検知したため、テストに合格できなかった。 対照的に、人間の運転者が車を運転したとき、乗客の判断は偶然だった。 実験では、人間の乗客が人間性をいかに受け入れるかについても検討した。 レーウィンのフィールド理論に基づいて,信号検出理論と事前学習言語モデルを組み合わせて,乗客の人間性評価行動を予測する計算モデルを開発した。 実験前のベースライン感情とそれに対応するポストステージ感情との情緒的遷移をモデルの信号強度として用いた。 その結果、乗客の人間性の記述は、より感情的な移行によって増加することが判明した。 本研究は、自律運転の今後の方向性となる乗客の人間性記述における情緒変化の重要な役割を示唆する。

Autonomous cars are indispensable when humans go further down the hands-free route. Although existing literature highlights that the acceptance of the autonomous car will increase if it drives in a human-like manner, sparse research offers the naturalistic experience from a passenger's seat perspective to examine the human likeness of current autonomous cars. The present study tested whether the AI driver could create a human-like ride experience for passengers based on 69 participants' feedback in a real-road scenario. We designed a ride experience-based version of the non-verbal Turing test for automated driving. Participants rode in autonomous cars (driven by either human or AI drivers) as a passenger and judged whether the driver was human or AI. The AI driver failed to pass our test because passengers detected the AI driver above chance. In contrast, when the human driver drove the car, the passengers' judgement was around chance. We further investigated how human passengers ascribe humanness in our test. Based on Lewin's field theory, we advanced a computational model combining signal detection theory with pre-trained language models to predict passengers' humanness rating behaviour. We employed affective transition between pre-study baseline emotions and corresponding post-stage emotions as the signal strength of our model. Results showed that the passengers' ascription of humanness would increase with the greater affective transition. Our study suggested an important role of affective transition in passengers' ascription of humanness, which might become a future direction for autonomous driving.
翻訳日:2022-12-07 15:46:31 公開日:2022-12-06
# ビジュアルクエリチューニング:パラメータとメモリ効率の学習における中間表現の効果的な利用に向けて

Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning ( http://arxiv.org/abs/2212.03220v1 )

ライセンス: Link先を確認
Cheng-Hao Tu, Zheda Mai, Wei-Lun Chao(参考訳) 事前トレーニングされたモデルの中間機能は、モデルバックボーンが凍結されている場合でも、下流タスクの正確な予測に役立っていることが示されている。 重要な課題は、これらの中間機能をどのように活用するかだ。 視覚変換器の中間的特徴を集約するシンプルな手法として視覚クエリチューニング(VQT)を提案する。 学習可能な ``query'' トークンを各レイヤに導入することで、VQT は Transformers の内部動作を活用して、各レイヤの ``summarize' の豊富な中間機能を実現し、下流タスクの予測ヘッドをトレーニングすることができる。 vqtは中間機能をそのまま維持し、それらを組み合わせることのみを学習するので、他の多くのパラメータ効率の良い微調整アプローチと比較して、トレーニングでのメモリ効率が向上する。 このことは、転移学習におけるVQTとそれらのアプローチの相補的な役割を示唆している。 実証的には、VQTはトランスファーラーニングの中間機能を利用する最先端のアプローチを一貫して上回り、多くの場合、完全な微調整よりも優れている。 特徴に適応するパラメータ効率のアプローチと比較して、VQTはメモリ制約下ではるかに高い精度を達成する。 最も重要な点として、VQTはこれらのアプローチと互換性があり、さらに高い精度を達成することができる。

Intermediate features of a pre-trained model have been shown informative for making accurate predictions on downstream tasks, even if the model backbone is kept frozen. The key challenge is how to utilize these intermediate features given their gigantic amount. We propose visual query tuning (VQT), a simple yet effective approach to aggregate intermediate features of Vision Transformers. Through introducing a handful of learnable ``query'' tokens to each layer, VQT leverages the inner workings of Transformers to ``summarize'' rich intermediate features of each layer, which can then be used to train the prediction heads of downstream tasks. As VQT keeps the intermediate features intact and only learns to combine them, it enjoys memory efficiency in training, compared to many other parameter-efficient fine-tuning approaches that learn to adapt features and need back-propagation through the entire backbone. This also suggests the complementary role between VQT and those approaches in transfer learning. Empirically, VQT consistently surpasses the state-of-the-art approach that utilizes intermediate features for transfer learning and outperforms full fine-tuning in many cases. Compared to parameter-efficient approaches that adapt features, VQT achieves much higher accuracy under memory constraints. Most importantly, VQT is compatible with these approaches to attain even higher accuracy, making it a simple add-on to further boost transfer learning.
翻訳日:2022-12-07 15:39:37 公開日:2022-12-06
# PRISM:空間世界モデルにおける確率的リアルタイム推論

PRISM: Probabilistic Real-Time Inference in Spatial World Models ( http://arxiv.org/abs/2212.02988v1 )

ライセンス: Link先を確認
Atanas Mirchev, Baris Kayalibay, Ahmed Agha, Patrick van der Smagt, Daniel Cremers, Justin Bayer(参考訳) エージェント動作と視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリング手法であるPRISMを紹介する。 以前のアプローチでは、マップとエージェントの状態の不確実性推定が欠如していたり、リアルタイムに動作しなかったり、密度の高いシーン表現を持っていなかったり、エージェントのダイナミクスをモデル化しなかったりしている。 私たちのソリューションはこれらのすべての側面を調整します。 まず、微分可能レンダリングと6-DoFダイナミックスを組み合わせた事前定義された状態空間モデルから始める。 このモデルにおける確率的推論は同時局所化とマッピング(slam)に相当し、難解である。 ベイズ推定に対する一連の近似を用いて確率写像と状態推定に到達する。 我々は,確立された手法とクローズドフォーム更新を活用し,精度を保ち,リアルタイム機能を実現する。 提案手法は10Hzのリアルタイムで動作し, 高速UAVとハンドヘルドカメラエージェント(Blackbird, EuRoC, TUM-RGBD)を備えた小型・中型屋内環境における最先端SLAMと同等の精度である。

We introduce PRISM, a method for real-time filtering in a probabilistic generative model of agent motion and visual perception. Previous approaches either lack uncertainty estimates for the map and agent state, do not run in real-time, do not have a dense scene representation or do not model agent dynamics. Our solution reconciles all of these aspects. We start from a predefined state-space model which combines differentiable rendering and 6-DoF dynamics. Probabilistic inference in this model amounts to simultaneous localisation and mapping (SLAM) and is intractable. We use a series of approximations to Bayesian inference to arrive at probabilistic map and state estimates. We take advantage of well-established methods and closed-form updates, preserving accuracy and enabling real-time capability. The proposed solution runs at 10Hz real-time and is similarly accurate to state-of-the-art SLAM in small to medium-sized indoor environments, with high-speed UAV and handheld camera agents (Blackbird, EuRoC and TUM-RGBD).
翻訳日:2022-12-07 15:38:57 公開日:2022-12-06
# コントラスト翻訳記憶を用いたニューラルマシン翻訳

Neural Machine Translation with Contrastive Translation Memories ( http://arxiv.org/abs/2212.03140v1 )

ライセンス: Link先を確認
Xin Cheng, Shen Gao, Lemao Liu, Dongyan Zhao, Rui Yan(参考訳) Retrieval-augmented Neural Machine Translationモデルは多くの翻訳シナリオで成功している。 相互に類似するが冗長な翻訳メモリ~(TMs)を利用する従来の作品と異なり,3相の最大情報ゲインを個別に比較しながら,原文と直感的に類似した翻訳メモリをモデル化する新たな検索拡張NMTを提案する。 まず,tm検索フェーズにおいて,類似の翻訳文の冗長性と不均一性を回避するために,コントラスト検索アルゴリズムを採用する。 第二に、記憶符号化の段階において、各TMの局所的コンテキストと全TMのグローバル的コンテキストの両方を収集する新しい階層的グループ注意モジュールを提案する。 最後に、学習段階において、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。 実験の結果、ベンチマークデータセットの強力なベースラインよりも改善が得られた。

Retrieval-augmented Neural Machine Translation models have been successful in many translation scenarios. Different from previous works that make use of mutually similar but redundant translation memories~(TMs), we propose a new retrieval-augmented NMT to model contrastively retrieved translation memories that are holistically similar to the source sentence while individually contrastive to each other providing maximal information gains in three phases. First, in TM retrieval phase, we adopt a contrastive retrieval algorithm to avoid redundancy and uninformativeness of similar translation pieces. Second, in memory encoding stage, given a set of TMs we propose a novel Hierarchical Group Attention module to gather both local context of each TM and global context of the whole TM set. Finally, in training phase, a Multi-TM contrastive learning objective is introduced to learn salient feature of each TM with respect to target sentence. Experimental results show that our framework obtains improvements over strong baselines on the benchmark datasets.
翻訳日:2022-12-07 15:38:20 公開日:2022-12-06
# 強化学習のボトルネックを緩和した識別的画像キャプションへの切り替え

Switching to Discriminative Image Captioning by Relieving a Bottleneck of Reinforcement Learning ( http://arxiv.org/abs/2212.03230v1 )

ライセンス: Link先を確認
Ukyo Honda, Taro Watanabe, Yuji Matsumoto(参考訳) 識別性は画像キャプションの望ましい特徴である:キャプションは入力画像の特徴的詳細を記述する必要がある。 しかし、強化学習(rl)で訓練された最近のハイパフォーマンスキャプションモデルは、他の様々な基準でのハイパフォーマンスにもかかわらず、過度に汎用的なキャプションを生成する傾向がある。 まず, 予期せぬ低判別性の原因について検討し, 出力語を高周波語に限定することで, rlが深く根ざした副作用を持つことを示す。 限定語彙は、モデルがその語彙を超えた詳細を記述することが困難であるため、識別のボトルネックとなる。 そして,このボトルネックの同定に基づいて,低頻度の単語生成を促すタスクとして,識別的画像キャプションを劇的に再キャストする。 長い尾の分類とデバイアス化の手法を用いて, パラメータの一部に単一エピック微調整のみを施した識別性認識モデルに, オフザシェルフRLモデルを簡単に切り替える手法を提案する。 大規模な実験により,本手法は市販のRLモデルの識別性を著しく向上させ,計算コストをはるかに小さくした従来の識別性認識手法よりも優れていた。 詳細な分析と人格評価は,字幕全体の品質を犠牲にすることなく識別性を高めることを検証した。

Discriminativeness is a desirable feature of image captions: captions should describe the characteristic details of input images. However, recent high-performing captioning models, which are trained with reinforcement learning (RL), tend to generate overly generic captions despite their high performance in various other criteria. First, we investigate the cause of the unexpectedly low discriminativeness and show that RL has a deeply rooted side effect of limiting the output words to high-frequency words. The limited vocabulary is a severe bottleneck for discriminativeness as it is difficult for a model to describe the details beyond its vocabulary. Then, based on this identification of the bottleneck, we drastically recast discriminative image captioning as a much simpler task of encouraging low-frequency word generation. Hinted by long-tail classification and debiasing methods, we propose methods that easily switch off-the-shelf RL models to discriminativeness-aware models with only a single-epoch fine-tuning on the part of the parameters. Extensive experiments demonstrate that our methods significantly enhance the discriminativeness of off-the-shelf RL models and even outperform previous discriminativeness-aware methods with much smaller computational costs. Detailed analysis and human evaluation also verify that our methods boost the discriminativeness without sacrificing the overall quality of captions.
翻訳日:2022-12-07 15:38:02 公開日:2022-12-06
# t5ベースのエンコーダ・デコーダソフトプロンプトチューニングによるテキスト生成制御とaiにおける生成テキストの有用性の分析

Controlled Text Generation using T5 based Encoder-Decoder Soft Prompt Tuning and Analysis of the Utility of Generated Text in AI ( http://arxiv.org/abs/2212.02924v1 )

ライセンス: Link先を確認
Damith Chamalke Senadeera, Julia Ive(参考訳) 制御されたテキスト生成は、自然言語処理の分野で非常に重要なタスクである。 この課題を達成するために,t5モデルにおいて,エンコーダとデコーダの両方のレベルでソフトプロンプトを併用する新しいソフトプロンプトチューニング法を主に導入し,制御テキスト生成におけるt5モデルのデコーダに関連する追加ソフトプロンプトの振る舞いとしての性能を検証した。 さらに,この拡張ソフトトリガーT5モデルの出力をデコーダレベルで操る可能性についても検討し,AIタスクで適切にラベル付けされたデータを生成する手法が欠如していることから,合成テキストで訓練された分類器の解釈可能性分析によるAIモデルの訓練など,AI関連タスクで使用される生成されたテキストの有用性について分析する。 Through the performed in-depth intrinsic and extrinsic evaluations of this generation model along with the artificially generated data, we found that this model produced better results compared to the T5 model with a single soft prompt at encoder level and the sentiment classifier trained using this artificially generated data can produce comparable classification results to the results of a classifier trained with real labelled data and also the classifier decision is interpretable with respect to the input text content.

Controlled text generation is a very important task in the arena of natural language processing due to its promising applications. In order to achieve this task we mainly introduce the novel soft prompt tuning method of using soft prompts at both encoder and decoder levels together in a T5 model and investigate the performance as the behaviour of an additional soft prompt related to the decoder of a T5 model in controlled text generation remained unexplored. Then we also investigate the feasibility of steering the output of this extended soft prompted T5 model at decoder level and finally analyse the utility of generated text to be used in AI related tasks such as training AI models with an interpretability analysis of the classifier trained with synthetic text, as there is a lack of proper analysis of methodologies in generating properly labelled data to be utilized in AI tasks. Through the performed in-depth intrinsic and extrinsic evaluations of this generation model along with the artificially generated data, we found that this model produced better results compared to the T5 model with a single soft prompt at encoder level and the sentiment classifier trained using this artificially generated data can produce comparable classification results to the results of a classifier trained with real labelled data and also the classifier decision is interpretable with respect to the input text content.
翻訳日:2022-12-07 15:37:39 公開日:2022-12-06
# ヘブライ語ニュースにおけるスタイル伝達と分類

Style transfer and classification in hebrew news items ( http://arxiv.org/abs/2212.03019v1 )

ライセンス: Link先を確認
Nir Weingarten(参考訳) ヘブライ語は形態素豊かな言語であり、単純な言語よりもモデリングが難しい。 一般的なトランスフォーマーや特にbertのような最近の開発は、他の非mrl言語に及ばず、sota結果に達するヘブライのモデルへの道を開いた。 オンラインアーカイブから収集したニュース記事に対して,スタイル転送,テキスト生成,分類を行う分野における最先端について検討する。 さらに、我々の集団意識を養うニュースポータルは、分析と追跡によって私たちの社会や談話に関する洞察が明らかになる可能性があるため、研究にとって興味深いコーパスである。

Hebrew is a Morphological rich language, making its modeling harder than simpler language. Recent developments such as Transformers in general and Bert in particular opened a path for Hebrew models that reach SOTA results, not falling short from other non-MRL languages. We explore the cutting edge in this field performing style transfer, text generation and classification over news articles collected from online archives. Furthermore, the news portals that feed our collective consciousness are an interesting corpus to study, as their analysis and tracing might reveal insights about our society and discourse.
翻訳日:2022-12-07 15:37:17 公開日:2022-12-06
# 非教師なしドメイン適応のための意味認識型メッセージブロードキャスト

Semantic-aware Message Broadcasting for Efficient Unsupervised Domain Adaptation ( http://arxiv.org/abs/2212.02739v1 )

ライセンス: Link先を確認
Xin Li, Cuiling Lan, Guoqiang Wei, Zhibo Chen(参考訳) ビジョントランスは、豊富なビジョンタスクにおいて大きな可能性を示した。 しかし、テスト中に分布シフトが発生した場合(すなわち、分配外データ)、必然的に一般化能力の低下に苦しむ。 この問題を軽減するために,非教師付きドメイン適応(UDA)のためのより情報的で柔軟な特徴アライメントを実現する,セマンティック・アウェア・メッセージ・ブロードキャスティング(SAMB)を提案する。 特に、視覚変換器の注目モジュールについて検討し、一つのグローバルクラストークンを用いたアライメント空間には十分な柔軟性がないことに気付き、同じ方法で全ての画像トークンと情報をやり取りするが、異なる領域のリッチなセマンティクスを無視する。 本稿では,semantic-aware adaptive message broadcastingの実現により,アライメント機能の豊かさを向上させることを目的とする。 特に,すべての画像トークンからグローバル情報を集約するノードとして学習されたグループトークンのグループを導入するが,異なるグループトークンは異なる意味領域へのメッセージブロードキャストに適応的に集中するよう推奨する。 このように、メッセージブロードキャストはグループトークンに対して、効果的なドメインアライメントのためのより情報的で多様な情報を学ぶことを奨励します。 さらに,敵対的特徴アライメント(ADA)と擬似ラベルに基づく自己学習(PST)がUDAに与える影響を系統的に検討した。 ADAとPSTの協力による2段階の簡単なトレーニング戦略により、視覚変換器の適応性をさらに向上できることがわかった。 DomainNet、OfficeHome、VisDA-2017に関する大規模な実験は、UDAの手法の有効性を実証している。

Vision transformer has demonstrated great potential in abundant vision tasks. However, it also inevitably suffers from poor generalization capability when the distribution shift occurs in testing (i.e., out-of-distribution data). To mitigate this issue, we propose a novel method, Semantic-aware Message Broadcasting (SAMB), which enables more informative and flexible feature alignment for unsupervised domain adaptation (UDA). Particularly, we study the attention module in the vision transformer and notice that the alignment space using one global class token lacks enough flexibility, where it interacts information with all image tokens in the same manner but ignores the rich semantics of different regions. In this paper, we aim to improve the richness of the alignment features by enabling semantic-aware adaptive message broadcasting. Particularly, we introduce a group of learned group tokens as nodes to aggregate the global information from all image tokens, but encourage different group tokens to adaptively focus on the message broadcasting to different semantic regions. In this way, our message broadcasting encourages the group tokens to learn more informative and diverse information for effective domain alignment. Moreover, we systematically study the effects of adversarial-based feature alignment (ADA) and pseudo-label based self-training (PST) on UDA. We find that one simple two-stage training strategy with the cooperation of ADA and PST can further improve the adaptation capability of the vision transformer. Extensive experiments on DomainNet, OfficeHome, and VisDA-2017 demonstrate the effectiveness of our methods for UDA.
翻訳日:2022-12-07 15:37:06 公開日:2022-12-06
# 抽象要約における幻覚緩和のためのビーム探索の改善

Improved Beam Search for Hallucination Mitigation in Abstractive Summarization ( http://arxiv.org/abs/2212.02712v1 )

ライセンス: Link先を確認
Arvind Krishna Sridhar, Erik Visser(参考訳) 大きな事前訓練された言語モデルの進歩は、幻覚を伴う要約を含む条件付き言語生成タスクのパフォーマンスを著しく改善した。 幻覚を低減するため、ビーム探索の改善やファクトチェッカーを後処理ステップとして用いる方法が提案されている。 本稿では,要約生成における幻覚の検出と防止を目的とした自然言語推論(NLI)の指標について検討する。 本研究では, 入力コンテキストと要約モデル生成ビーム間の包含確率スコアを算定し, NLIを用いたビーム再分類機構を提案する。 さらに,バニラビームサーチの有効性を比較するために,多様性指標を導入した。 提案アルゴリズムは,XSumおよびCNN/DMデータセット上でバニラビームデコーディングを著しく上回っている。

Advancement in large pretrained language models has significantly improved their performance for conditional language generation tasks including summarization albeit with hallucinations. To reduce hallucinations, conventional methods proposed improving beam search or using a fact checker as a postprocessing step. In this paper, we investigate the use of the Natural Language Inference (NLI) entailment metric to detect and prevent hallucinations in summary generation. We propose an NLI-assisted beam re-ranking mechanism by computing entailment probability scores between the input context and summarization model-generated beams during saliency-enhanced greedy decoding. Moreover, a diversity metric is introduced to compare its effectiveness against vanilla beam search. Our proposed algorithm significantly outperforms vanilla beam decoding on XSum and CNN/DM datasets.
翻訳日:2022-12-07 15:30:53 公開日:2022-12-06
# soda: がん研究のための健康の社会的決定要因を抽出するための自然言語処理パッケージ

SODA: A Natural Language Processing Package to Extract Social Determinants of Health for Cancer Studies ( http://arxiv.org/abs/2212.03000v1 )

ライセンス: Link先を確認
Zehao Yu, Xi Yang, Chong Dang, Prakash Adekkanattu, Braja Gopal Patra, Yifan Peng, Jyotishman Pathak, Debbie L. Wilson, Ching-Yuan Chang, Wei-Hsuan Lo-Ciganic, Thomas J. George, William R. Hogan, Yi Guo, Jiang Bian, Yonghui Wu(参考訳) 目的: がん患者に対する社会的決定因子(SDoH)を抽出するための事前学習型トランスフォーマーモデルを用いて, オープンソース自然言語処理(NLP)パッケージであるSODA(Social DeterminAnts)を開発し, 新しい疾患領域(オピオイド使用)へのSODAの一般化可能性を検討すること, がん集団を用いたSDoHの抽出率を評価することを目的とする。 方法:sdoh分類と属性を同定し,一般がんコホートからの臨床ノートを用いたsdohコーパスを開発した。 SDoHを抽出するために4つのトランスフォーマーベースNLPモデルを比較し,オピオイドを処方した患者のコホートとNLPモデルの一般化性を検討した。 乳癌(n=7,971),肺(n=11,804),大腸癌(n=6,240)コホートから19種類のSDoHを抽出した。 結果と結論: SDoHの19カテゴリから13,193のSDoH概念/属性の注釈を付した629名のがん患者のコーパスを作成した。 変換器(BERT)モデルによる双方向エンコーダ表現は,SDoH概念抽出において0.9216,0.9441,属性をSDoH概念にリンクする0.9617,0.9626の厳密/高信頼F1スコアを達成した。 オピオイド患者からの新しいアノテーションを用いてNLPモデルを微調整し、厳密/高信頼F1スコアを0.8172/0.8502から0.8312/0.8679に改善した。 19種類のSDoHの抽出率は, がん患者の70%から10個のSDoHを抽出できるが, 9個のSDoHは低抽出率(がん患者の70%)であった。 事前トレーニングされたトランスフォーマーモデルを備えたSODAパッケージはhttps://github.com/uf-hobiinformatics-lab/SDoH_SODAで公開されている。

Objective: We aim to develop an open-source natural language processing (NLP) package, SODA (i.e., SOcial DeterminAnts), with pre-trained transformer models to extract social determinants of health (SDoH) for cancer patients, examine the generalizability of SODA to a new disease domain (i.e., opioid use), and evaluate the extraction rate of SDoH using cancer populations. Methods: We identified SDoH categories and attributes and developed an SDoH corpus using clinical notes from a general cancer cohort. We compared four transformer-based NLP models to extract SDoH, examined the generalizability of NLP models to a cohort of patients prescribed with opioids, and explored customization strategies to improve performance. We applied the best NLP model to extract 19 categories of SDoH from the breast (n=7,971), lung (n=11,804), and colorectal cancer (n=6,240) cohorts. Results and Conclusion: We developed a corpus of 629 cancer patients notes with annotations of 13,193 SDoH concepts/attributes from 19 categories of SDoH. The Bidirectional Encoder Representations from Transformers (BERT) model achieved the best strict/lenient F1 scores of 0.9216 and 0.9441 for SDoH concept extraction, 0.9617 and 0.9626 for linking attributes to SDoH concepts. Fine-tuning the NLP models using new annotations from opioid use patients improved the strict/lenient F1 scores from 0.8172/0.8502 to 0.8312/0.8679. The extraction rates among 19 categories of SDoH varied greatly, where 10 SDoH could be extracted from >70% of cancer patients, but 9 SDoH had a low extraction rate (<70% of cancer patients). The SODA package with pre-trained transformer models is publicly available at https://github.com/uf-hobiinformatics-lab/SDoH_SODA.
翻訳日:2022-12-07 15:30:35 公開日:2022-12-06
# ペアデータによる2つの系列の結合分布の学習

Learning the joint distribution of two sequences using little or no paired data ( http://arxiv.org/abs/2212.03232v1 )

ライセンス: Link先を確認
Soroosh Mariooryad, Matt Shannon, Siyuan Ma, Tom Bagby, David Kao, Daisy Stanton, Eric Battenberg, RJ Skerry-Ryan(参考訳) 本稿では,テキストと音声の2つのシーケンスのノイズチャネル生成モデルを提案する。 実データ設定下での厳密なモデルの難解性に対処するために,変分推論近似を提案する。 この変分モデルをカテゴリデータで学習するために,wake-sleepアルゴリズムと接続したklエンコーダ損失法を提案する。 データ分布の特定の条件下では, 余剰サンプルのみを観測することで, 連関分布や条件分布の同定が可能であり, アーキテクチャ設計の指針となる, どのような条件独立仮定が達成されるのかを議論する。 実験の結果、ペアデータ(5分)が少量であっても、大量の非ペアデータがある場合、2つのモダリティ(グラフと音素)を関連付けるには十分であることが示され、低データリソース環境におけるseq2seqモデルにこの原則に基づくアプローチを採用する道筋が開かれた。

We present a noisy channel generative model of two sequences, for example text and speech, which enables uncovering the association between the two modalities when limited paired data is available. To address the intractability of the exact model under a realistic data setup, we propose a variational inference approximation. To train this variational model with categorical data, we propose a KL encoder loss approach which has connections to the wake-sleep algorithm. Identifying the joint or conditional distributions by only observing unpaired samples from the marginals is only possible under certain conditions in the data distribution and we discuss under what type of conditional independence assumptions that might be achieved, which guides the architecture designs. Experimental results show that even tiny amount of paired data (5 minutes) is sufficient to learn to relate the two modalities (graphemes and phonemes here) when a massive amount of unpaired data is available, paving the path to adopting this principled approach for all seq2seq models in low data resource regimes.
翻訳日:2022-12-07 15:29:55 公開日:2022-12-06
# オブジェクト認識を超えて: オブジェクト概念学習のための新しいベンチマーク

Beyond Object Recognition: A New Benchmark towards Object Concept Learning ( http://arxiv.org/abs/2212.02710v1 )

ライセンス: Link先を確認
Yong-Lu Li, Yue Xu, Xinyu Xu, Xiaohan Mao, Yuan Yao, Siqi Liu, Cewu Lu(参考訳) オブジェクトを理解することは人工知能の中心的な構成要素であり、特に具体化されたAIのためのものである。 オブジェクト認識はディープラーニングで優れているが、現在のマシンは、オブジェクトが持つ属性やオブジェクトで何ができるかといった、高度な知識を学ぶのに苦労している。 本稿では,オブジェクト理解の包含性を高めるための挑戦的オブジェクト概念学習(ocl)タスクを提案する。 マシンは、オブジェクトアフォーアンスを推論し、同時に理由を与える必要がある: オブジェクトがアフォーアンスを持つ属性は何か。 OCLをサポートするために,3段階のオブジェクト概念(カテゴリ,属性,アベイランス)と3段階の因果関係を含む,多彩な注釈付き知識ベースを構築した。 OCLの因果構造を解析することにより,OCRN(Object Concept Reasoning Network)のベースラインを提示する。 因果関係に従う3つのレベルを推測するために因果的介入と概念のインスタンス化を利用する。 実験では、OCRNは因果関係をうまく追従しながらオブジェクトの知識を効果的に推論する。 私たちのデータとコードはhttps://mvig-rhos.com/ocl.org/で利用可能です。

Understanding objects is a central building block of artificial intelligence, especially for embodied AI. Even though object recognition excels with deep learning, current machines still struggle to learn higher-level knowledge, e.g., what attributes an object has, and what can we do with an object. In this work, we propose a challenging Object Concept Learning (OCL) task to push the envelope of object understanding. It requires machines to reason out object affordances and simultaneously give the reason: what attributes make an object possesses these affordances. To support OCL, we build a densely annotated knowledge base including extensive labels for three levels of object concept (category, attribute, affordance), and the causal relations of three levels. By analyzing the causal structure of OCL, we present a baseline, Object Concept Reasoning Network (OCRN). It leverages causal intervention and concept instantiation to infer the three levels following their causal relations. In experiments, OCRN effectively infers the object knowledge while following the causalities well. Our data and code are available at https://mvig-rhos.com/ocl.
翻訳日:2022-12-07 15:28:44 公開日:2022-12-06
# Diffusion Video Autoencoders: Disentangled Video Encodingによる一時的な顔ビデオ編集に向けて

Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding ( http://arxiv.org/abs/2212.02802v1 )

ライセンス: Link先を確認
Gyeongman Kim, Hajin Shim, Hyunsu Kim, Yunjey Choi, Junho Kim, Eunho Yang(参考訳) 最近の顔画像編集手法の印象的な性能に触発されて、これらの手法を顔映像編集タスクに拡張するための研究が自然に提案されている。 ここでの大きな課題の1つは、編集されたフレーム間の時間的一貫性である。 そこで本研究では,拡散オートエンコーダをベースとした新しい顔映像編集フレームワークを提案する。 このモデリングにより、時間的に不変な特徴を所望の方向に向けて単純に操作することで、ビデオの編集が可能になる。 我々のモデルのもう一つのユニークな強みは、モデルが拡散モデルに基づいているため、再構築と編集の能力を同時に満たすことができ、既存のganベースの手法とは異なり、野生の動画(例えば、occluded face)のコーナリングケースに頑健であるということです。

Inspired by the impressive performance of recent face image editing methods, several studies have been naturally proposed to extend these methods to the face video editing task. One of the main challenges here is temporal consistency among edited frames, which is still unresolved. To this end, we propose a novel face video editing framework based on diffusion autoencoders that can successfully extract the decomposed features - for the first time as a face video editing model - of identity and motion from a given video. This modeling allows us to edit the video by simply manipulating the temporally invariant feature to the desired direction for the consistency. Another unique strength of our model is that, since our model is based on diffusion models, it can satisfy both reconstruction and edit capabilities at the same time, and is robust to corner cases in wild face videos (e.g. occluded faces) unlike the existing GAN-based methods.
翻訳日:2022-12-07 15:28:26 公開日:2022-12-06
# VISEM-Tracking:ヒト精子追跡データセット

VISEM-Tracking: Human Spermatozoa Tracking Dataset ( http://arxiv.org/abs/2212.02842v1 )

ライセンス: Link先を確認
Vajira Thambawita, Steven A. Hicks, Andrea M. Stor{\aa}s, Thu Nguyen, Jorunn M. Andersen, Oliwia Witczak, Trine B. Haugen, Hugo L. Hammer, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 精子を手動で分析することは、多くの速く動く精子が原因で生物学者にとって大きな課題である。 そのため、コンピュータ支援精子分析(CASA)が普及している。 それにもかかわらず、精度と信頼性を向上させるために、教師付き機械学習アプローチのトレーニングにはより多くのデータが必要である。 本研究では,20種類の精子のビデオ記録を手作業でアノテートしたバウンディングボックス座標と,領域の専門家によって分析された精子特性を組み込んだvisem-trackingというデータセットを提供する。 VISEM-Trackingは、以前公開されたVISEMデータセットの拡張である。 注釈付きデータに加えて,データへのアクセスと分析が容易なラベル付きビデオクリップを提供する。 本稿では,VISEM-Trackingデータセットに基づいて学習したYOLOv5深層学習モデルを用いて,基礎的な精子検出性能を示す。 その結果、データセットは複雑なディープラーニングモデルのトレーニングと精子の分析に使用できる。 データセットはhttps://zenodo.org/record/7293726で公開されている。

Manually analyzing spermatozoa is a tremendous task for biologists due to the many fast-moving spermatozoa, causing inconsistencies in the quality of the assessments. Therefore, computer-assisted sperm analysis (CASA) has become a popular solution. Despite this, more data is needed to train supervised machine learning approaches in order to improve accuracy and reliability. In this regard, we provide a dataset called VISEM-Tracking with 20 video recordings of 30s of spermatozoa with manually annotated bounding-box coordinates and a set of sperm characteristics analyzed by experts in the domain. VISEM-Tracking is an extension of the previously published VISEM dataset. In addition to the annotated data, we provide unlabeled video clips for easy-to-use access and analysis of the data. As part of this paper, we present baseline sperm detection performances using the YOLOv5 deep learning model trained on the VISEM-Tracking dataset. As a result, the dataset can be used to train complex deep-learning models to analyze spermatozoa. The dataset is publicly available at https://zenodo.org/record/7293726.
翻訳日:2022-12-07 15:28:09 公開日:2022-12-06
# GAS-Net: フォントのための生成アーチストスタイルニューラルネットワーク

GAS-Net: Generative Artistic Style Neural Networks for Fonts ( http://arxiv.org/abs/2212.02886v1 )

ライセンス: Link先を確認
Haoyang He, Xin Jin, Angela Chen(参考訳) 新しいフォントの生成は、特に中国語のような大量の文字を持つ言語において、時間と労力を消費する。 さまざまなディープラーニングモデルが、そのスタイルのいくつかの参照文字で新しいフォントを効率的に生成できることを実証している。 このプロジェクトの目的は、AGIS-Netに基づく数発のクロスランガルフォントジェネレータを開発し、上記の性能指標を改善することである。 我々のアプローチにはエンコーダと損失関数の再設計が含まれる。 提案手法は,複数の言語とデータセットで検証する。

Generating new fonts is a time-consuming and labor-intensive, especially in a language with a huge amount of characters like Chinese. Various deep learning models have demonstrated the ability to efficiently generate new fonts with a few reference characters of that style. This project aims to develop a few-shot cross-lingual font generator based on AGIS-Net and improve the performance metrics mentioned. Our approaches include redesigning the encoder and the loss function. We will validate our method on multiple languages and datasets mentioned.
翻訳日:2022-12-07 15:27:49 公開日:2022-12-06
# sasformer:sparsely annotated semantic segmentationのためのトランスフォーマー

SASFormer: Transformers for Sparsely Annotated Semantic Segmentation ( http://arxiv.org/abs/2212.02019v2 )

ライセンス: Link先を確認
Hui Su, Yue Ye, Wei Hua, Lechao Cheng, Mingli Song(参考訳) 近年,スパースアノテーションに基づくセマンティックセグメンテーションが進歩している。 画像内の各オブジェクトの一部だけをラベル付けし、残りはラベルなしで残します。 既存のアプローチのほとんどは時間がかかり、多段階のトレーニング戦略を必要とすることが多い。 そこで本研究では,SASFormerと呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティクスフレームワークを提案する。 具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。 また,相関結果の特徴とネットワーク予測の一貫性を確保するために,親和性損失も導入する。 広範な実験により,提案手法が既存手法よりも優れ,最先端性能を実現することを示した。 ソースコードは \url{https://github.com/su-hui-zz/SASFormer} で入手できる。

Semantic segmentation based on sparse annotation has advanced in recent years. It labels only part of each object in the image, leaving the remainder unlabeled. Most of the existing approaches are time-consuming and often necessitate a multi-stage training strategy. In this work, we propose a simple yet effective sparse annotated semantic segmentation framework based on segformer, dubbed SASFormer, that achieves remarkable performance. Specifically, the framework first generates hierarchical patch attention maps, which are then multiplied by the network predictions to produce correlated regions separated by valid labels. Besides, we also introduce the affinity loss to ensure consistency between the features of correlation results and network predictions. Extensive experiments showcase that our proposed approach is superior to existing methods and achieves cutting-edge performance. The source code is available at \url{https://github.com/su-hui-zz/SASFormer}.
翻訳日:2022-12-07 13:19:27 公開日:2022-12-06
# R2FD2:Repeatable Feature DetectorとRotation-invariant Feature Descriptorによるマルチモーダルリモートセンシング画像の高速かつロバストなマッチング

R2FD2: Fast and Robust Matching of Multimodal Remote Sensing Image via Repeatable Feature Detector and Rotation-invariant Feature Descriptor ( http://arxiv.org/abs/2212.02277v2 )

ライセンス: Link先を確認
Bai Zhu, Chao Yang, Jinkun Dai, Jianwei Fan, Yuanxin Ye(参考訳) マルチモーダル画像間の特徴対応を自動的に識別することは、放射線と幾何学の両方で大きな違いがあるため、大きな課題に直面している。 これらの問題に対処するために,放射差と回転差に頑健な特徴マッチング法(R2FD2)を提案する。 我々のR2FD2は、繰り返し可能な特徴検出器と回転不変の特徴記述器からなる2つの重要なコントリビューションで行われる。 第1段階では、マルチチャネル自己相関戦略とログガボウェーブレットを組み合わせた特徴検出のために、マルチチャネル自己相関(malg)と呼ばれる繰り返し可能な特徴検出器が提示され、高い繰り返し可能性と均一分布を有する関心点(ips)を検出する。 第2段階では、log-gabor(rmlg)の回転不変最大インデックスマップ(英語版)と呼ばれる回転不変特徴記述子(英語版)が構築される。 支配方向を高速に割り当てる過程で、回転不変な最大指数写像 (RMIM) が回転変形に対処するために構築される。 次に,RMLGは,回転不変RMIMをDAISYの空間的構成に組み込んで,より識別的な特徴表現を表現し,RMLGの放射・回転分散に対する抵抗性を向上させる。実験結果から,提案したR2FD2は5つの最先端特徴マッチング法より優れ,適応性と普遍性に優れた優位性を有することが示された。 さらに,我々のR2FD2は,2画素以内のマッチングの精度を実現し,他の最先端手法と比較して,マッチング効率に大きな利点がある。

Automatically identifying feature correspondences between multimodal images is facing enormous challenges because of the significant differences both in radiation and geometry. To address these problems, we propose a novel feature matching method (named R2FD2) that is robust to radiation and rotation differences. Our R2FD2 is conducted in two critical contributions, consisting of a repeatable feature detector and a rotation-invariant feature descriptor. In the first stage, a repeatable feature detector called the Multi-channel Auto-correlation of the Log-Gabor (MALG) is presented for feature detection, which combines the multi-channel auto-correlation strategy with the Log-Gabor wavelets to detect interest points (IPs) with high repeatability and uniform distribution. In the second stage, a rotation-invariant feature descriptor is constructed, named the Rotation-invariant Maximum index map of the Log-Gabor (RMLG), which consists of two components: fast assignment of dominant orientation and construction of feature representation. In the process of fast assignment of dominant orientation, a Rotation-invariant Maximum Index Map (RMIM) is built to address rotation deformations. Then, the proposed RMLG incorporates the rotation-invariant RMIM with the spatial configuration of DAISY to depict a more discriminative feature representation, which improves RMLG's resistance to radiation and rotation variances.Experimental results show that the proposed R2FD2 outperforms five state-of-the-art feature matching methods, and has superior advantages in adaptability and universality. Moreover, our R2FD2 achieves the accuracy of matching within two pixels and has a great advantage in matching efficiency over other state-of-the-art methods.
翻訳日:2022-12-07 13:19:13 公開日:2022-12-06
# D-TensoRF:動的シーンのためのテンソル放射場

D-TensoRF: Tensorial Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2212.02375v2 )

ライセンス: Link先を確認
Hankyu Jang, Daeyoung Kim(参考訳) ニューラルレイディアンス場(NeRF)は3次元シーンの再構成に期待できるアプローチとして注目されている。 NeRFが出現すると、運動やトポロジカルな変化を含むダイナミックなシーンをモデル化する研究が行われた。 しかし、そのほとんどは追加の変形ネットワークを使用し、トレーニングとレンダリングの速度を遅くする。 テンソRF(Tensorial Radiance Field)は, モデルサイズがコンパクトな静的シーンの高速かつ高品質な再構成の可能性を示している。 本稿では,動的シーンのためのテンソル放射場であるD-TensoRFについて述べる。 動的シーンの放射場を5次元テンソルと考える。 5Dテンソルは、各軸がX、Y、Z、時間に対応し、要素ごとに1Dのマルチチャネル特徴を有する4Dグリッドを表す。 テンソRFと同様に、格子をランク1ベクトル成分(CP分解)またはローランク行列成分(MM分解)に分解する。 また、スムーズな正規化を使用して、異なる時間(時間的依存)における特徴間の関係を反映しています。 我々はモデルを分析するために広範囲な評価を行う。 CP分解とMM分解を併用したD-TensoRFは,3次元動的シーンモデリングにおける最先端手法と比較して,訓練時間とメモリフットプリントが著しく低く,定量的かつ質的に競合するレンダリング結果が得られることを示す。

Neural radiance field (NeRF) attracts attention as a promising approach to reconstructing the 3D scene. As NeRF emerges, subsequent studies have been conducted to model dynamic scenes, which include motions or topological changes. However, most of them use an additional deformation network, slowing down the training and rendering speed. Tensorial radiance field (TensoRF) recently shows its potential for fast, high-quality reconstruction of static scenes with compact model size. In this paper, we present D-TensoRF, a tensorial radiance field for dynamic scenes, enabling novel view synthesis at a specific time. We consider the radiance field of a dynamic scene as a 5D tensor. The 5D tensor represents a 4D grid in which each axis corresponds to X, Y, Z, and time and has 1D multi-channel features per element. Similar to TensoRF, we decompose the grid either into rank-one vector components (CP decomposition) or low-rank matrix components (newly proposed MM decomposition). We also use smoothing regularization to reflect the relationship between features at different times (temporal dependency). We conduct extensive evaluations to analyze our models. We show that D-TensoRF with CP decomposition and MM decomposition both have short training times and significantly low memory footprints with quantitatively and qualitatively competitive rendering results in comparison to the state-of-the-art methods in 3D dynamic scene modeling.
翻訳日:2022-12-07 13:18:40 公開日:2022-12-06
# VeriX: ディープニューラルネットワークの検証可能な説明可能性を目指して

VeriX: Towards Verified Explainability of Deep Neural Networks ( http://arxiv.org/abs/2212.01051v2 )

ライセンス: Link先を確認
Min Wu, Haoze Wu, Clark Barrett(参考訳) 安全クリティカルなアプリケーションにおける機械学習モデルの検証可能な説明可能性への第一歩であるverixを提案する。 特に、我々の音と最適説明は、有界摂動に対する予測不変性を保証することができる。 制約解法と特徴感度ランキングを利用してこれらの説明を効率的に計算する。 画像認識ベンチマークのアプローチと、自律航空機タクシーの現実シナリオを評価した。

We present VeriX, a first step towards verified explainability of machine learning models in safety-critical applications. Specifically, our sound and optimal explanations can guarantee prediction invariance against bounded perturbations. We utilise constraint solving techniques together with feature sensitivity ranking to efficiently compute these explanations. We evaluate our approach on image recognition benchmarks and a real-world scenario of autonomous aircraft taxiing.
翻訳日:2022-12-07 13:18:14 公開日:2022-12-06
# DIONYSUSを用いた低データ化学データセットにおける確率モデルの校正と一般化可能性

Calibration and generalizability of probabilistic models on low-data chemical datasets with DIONYSUS ( http://arxiv.org/abs/2212.01574v2 )

ライセンス: Link先を確認
Gary Tom, Riley J. Hickman, Aniket Zinzuwadia, Afshan Mohajeri, Benjamin Sanchez-Lengeling, Alan Aspuru-Guzik(参考訳) 大規模なデータセットを利用するディープラーニングモデルは、しばしば分子特性のモデリングの最先端である。 データセットがより小さい(<2000分子)場合、ディープラーニングアプローチが正しいモデリングツールであることは明らかではない。 本研究では,小型ケミカルデータセットを用いた確率的機械学習モデルのキャリブレーションと一般化可能性に関する詳細な研究を行う。 異なる分子表現とモデルを用いて、様々なタスク(バイナリ、レグレッション)とデータセットにおける予測と不確実性の品質を分析する。 また,(1)ベイズ最適化による分子設計,(2)クラスター分割による分散データの推定,という2つのシミュレーション実験を行った。 我々は、新しい化学実験でよく見られるシナリオである小さな化学データセットのモデリングのために、モデルと特徴の選択に関する実践的な洞察を提供する。 私たちは分析結果をdionysusリポジトリにパッケージしました。dionysusは、新しいデータセットの再現性と拡張を支援するためにオープンソースです。

Deep learning models that leverage large datasets are often the state of the art for modelling molecular properties. When the datasets are smaller (< 2000 molecules), it is not clear that deep learning approaches are the right modelling tool. In this work we perform an extensive study of the calibration and generalizability of probabilistic machine learning models on small chemical datasets. Using different molecular representations and models, we analyse the quality of their predictions and uncertainties in a variety of tasks (binary, regression) and datasets. We also introduce two simulated experiments that evaluate their performance: (1) Bayesian optimization guided molecular design, (2) inference on out-of-distribution data via ablated cluster splits. We offer practical insights into model and feature choice for modelling small chemical datasets, a common scenario in new chemical experiments. We have packaged our analysis into the DIONYSUS repository, which is open sourced to aid in reproducibility and extension to new datasets.
翻訳日:2022-12-07 13:18:09 公開日:2022-12-06
# 統計的深層学習による極端地中海山火事の要因と時空間的傾向

Insights into the drivers and spatio-temporal trends of extreme Mediterranean wildfires with statistical deep-learning ( http://arxiv.org/abs/2212.01796v2 )

ライセンス: Link先を確認
Jordan Richards, Rapha\"el Huser, Emanuele Bevacqua, Jakob Zscheischler(参考訳) 極度の山火事は、地中海盆地を含む国々における人命と生物多様性の破壊の重要な原因であり続けている。 近年の山火事(すなわち発生と拡散)の動向から、山火事は気候変動の影響を強く受けている可能性が示唆されている。 適切なリスク軽減を図るためには, 地球温暖化が火災活動に与える影響を理解するため, 極端な山火事の主な要因を特定し, 時空間的傾向を評価することが不可欠である。 この目的のために,2001年から2020年にかけて,ヨーロッパと地中海流域のほぼ全域で発生した森林火災による毎月の火災地域を分析し,東ヨーロッパ,アルジェリア,イタリア,ポルトガルにおける火災活動の高まりを確認した。 我々は,気象条件,土地被覆利用,地形を記述する高次元予測器セットを用いて,極端に質的回帰モデルを構築した。 予測変数と山火事の複雑な関係をモデル化するために,水蒸気圧不足(vpd),気温,干ばつが山火事活動に及ぼす影響を分離できるハイブリッド統計ディープラーニングフレームワークを用いた。 以上の結果から,vpd,気温,干ばつが野火の発生に大きく影響するのに対し,vpdのみが極端に野火の拡散に影響を及ぼすことが明らかとなった。 さらに,近い将来の森林火災活動に対する気候変動の影響に関する知見を得るため,その観測された傾向に従ってvddと気温を摂動させ,地球温暖化が空間的に不均一な森林火災活動の変化をもたらす可能性を示唆する。

Extreme wildfires continue to be a significant cause of human death and biodiversity destruction within countries that encompass the Mediterranean Basin. Recent worrying trends in wildfire activity (i.e., occurrence and spread) suggest that wildfires are likely to be highly impacted by climate change. In order to facilitate appropriate risk mitigation, it is imperative to identify the main drivers of extreme wildfires and assess their spatio-temporal trends, with a view to understanding the impacts of global warming on fire activity. To this end, we analyse the monthly burnt area due to wildfires over a region encompassing most of Europe and the Mediterranean Basin from 2001 to 2020, and identify high fire activity during this period in eastern Europe, Algeria, Italy and Portugal. We build an extreme quantile regression model with a high-dimensional predictor set describing meteorological conditions, land cover usage, and orography, for the domain. To model the complex relationships between the predictor variables and wildfires, we make use of a hybrid statistical deep-learning framework that allows us to disentangle the effects of vapour-pressure deficit (VPD), air temperature, and drought on wildfire activity. Our results highlight that whilst VPD, air temperature, and drought significantly affect wildfire occurrence, only VPD affects extreme wildfire spread. Furthermore, to gain insights into the effect of climate change on wildfire activity in the near future, we perturb VPD and temperature according to their observed trends and find evidence that global warming may lead to spatially non-uniform changes in wildfire activity.
翻訳日:2022-12-07 13:17:55 公開日:2022-12-06
# 制約付き線形逆問題に対する高速アルゴリズム

Fast Algorithm for Constrained Linear Inverse Problems ( http://arxiv.org/abs/2212.01068v3 )

ライセンス: Link先を確認
Mohammed Rayyan Sheriff, Floor Fenne Redel, Peyman Mohajerin Esfahani(参考訳) 制約付き線形逆問題 (LIP) を考えると、ある原子ノルム($\ell_1 $ や核ノルムなど)は二次的制約の対象として最小化される。 通常、そのようなコスト関数は微分不可能であり、実際に存在する高速な最適化手法には適用できない。 凸正則性を改善した制約付きLIPの2つの等価な再構成を提案する。 (i)滑らかな凸最小化問題、及び (ii) 強い凸 min-max 問題。 これらの問題は、o \big( \frac{1}{k^2} \big) $理論収束保証を提供する既存の加速度に基づく凸最適化法を適用することで解決できる。 しかし、これらの改定の効用を完全に活用するために、LIPの改定を解決するために最適化されたFast Linear Inverse Problem Solver (FLIPS) と呼ばれる新しいアルゴリズムも提供する。 画像処理タスクで発生するスパース符号化問題に対してFLIPSの性能を示す。 この設定では、FLIPSはシャンブル・ポックとC-SALSAのアルゴリズムよりも一貫して優れており、文献上では最も優れた手法である。

We consider the constrained Linear Inverse Problem (LIP), where a certain atomic norm (like the $\ell_1 $ and the Nuclear norm) is minimized subject to a quadratic constraint. Typically, such cost functions are non-differentiable which makes them not amenable to the fast optimization methods existing in practice. We propose two equivalent reformulations of the constrained LIP with improved convex regularity: (i) a smooth convex minimization problem, and (ii) a strongly convex min-max problem. These problems could be solved by applying existing acceleration based convex optimization methods which provide better $ O \big( \frac{1}{k^2} \big) $ theoretical convergence guarantee. However, to fully exploit the utility of these reformulations, we also provide a novel algorithm, to which we refer as the Fast Linear Inverse Problem Solver (FLIPS), that is tailored to solve the reformulation of the LIP. We demonstrate the performance of FLIPS on the sparse coding problem arising in image processing tasks. In this setting, we observe that FLIPS consistently outperforms the Chambolle-Pock and C-SALSA algorithms--two of the current best methods in the literature.
翻訳日:2022-12-07 13:17:26 公開日:2022-12-06
# Baggingは最適なPAC学習者である

Bagging is an Optimal PAC Learner ( http://arxiv.org/abs/2212.02264v2 )

ライセンス: Link先を確認
Kasper Green Larsen(参考訳) 実現可能な環境でのPAC学習の最適サンプル複雑性の決定は、数十年にわたって学習理論の中心的な問題であった。 最後に、Hanneke (2016) によるセミナルな研究は、証明可能な最適なサンプル複雑性を持つアルゴリズムを与えた。 彼のアルゴリズムは、トレーニングデータの慎重に構造化されたサブサンプリングに基づいており、各サブサンプルでトレーニングされた仮説の過半数を返却する。 非常にエキサイティングな理論的な結果であるが、訓練データのサブサンプルの多項式数(各線形サイズ)を構成するため、非効率性のために実際にはあまり影響を与えていない。 本稿では,Breiman (1996)による実用的,古典的ヒューリスティック・バッグング(ブートストラップ・アグリゲーション)が,実際はPAC学習者として最適であることを示す。 バグングはhannekeのアルゴリズムを20年ほど前に発表し、ほとんどの学部の機械学習コースで教えられている。 さらに,最適性を得るためにはサブサンプルの対数しか必要としないことを示す。

Determining the optimal sample complexity of PAC learning in the realizable setting was a central open problem in learning theory for decades. Finally, the seminal work by Hanneke (2016) gave an algorithm with a provably optimal sample complexity. His algorithm is based on a careful and structured sub-sampling of the training data and then returning a majority vote among hypotheses trained on each of the sub-samples. While being a very exciting theoretical result, it has not had much impact in practice, in part due to inefficiency, since it constructs a polynomial number of sub-samples of the training data, each of linear size. In this work, we prove the surprising result that the practical and classic heuristic bagging (a.k.a. bootstrap aggregation), due to Breiman (1996), is in fact also an optimal PAC learner. Bagging pre-dates Hanneke's algorithm by twenty years and is taught in most undergraduate machine learning courses. Moreover, we show that it only requires a logarithmic number of sub-samples to reach optimality.
翻訳日:2022-12-07 13:17:08 公開日:2022-12-06
# Trusted Research Environmentsの安全な機械学習モデルリリース:AI-SDCパッケージ

Safe machine learning model release from Trusted Research Environments: The AI-SDC package ( http://arxiv.org/abs/2212.01233v2 )

ライセンス: Link先を確認
Jim Smith, Richard J. Preen, Andrew McCarthy, Alba Crespi-Boixader, James Liley and Simon Rogers(参考訳) 我々は、公開前に機密データに基づいてトレーニングされた機械学習(ML)モデルの統計開示制御(SDC)を容易にするために、オープンソースのPythonツールの統合スイートであるAI-SDCを紹介する。 AIとSDCの組み合わせ (i)訓練体制による開示の脆弱性を評価することにより、一般的なMLモデルを拡張してアンテホットなSDCを提供するSafeModelパッケージ。 二 訓練後の様々なシミュレート攻撃を通じて、モデルの経験的開示リスクを厳格に評価することにより、後発sdcを提供する攻撃パッケージ。 AI-SDCのコードとドキュメントはMITライセンスでhttps://github.com/AI-SDC/AI-SDCで入手できる。

We present AI-SDC, an integrated suite of open source Python tools to facilitate Statistical Disclosure Control (SDC) of Machine Learning (ML) models trained on confidential data prior to public release. AI-SDC combines (i) a SafeModel package that extends commonly used ML models to provide ante-hoc SDC by assessing the vulnerability of disclosure posed by the training regime; and (ii) an Attacks package that provides post-hoc SDC by rigorously assessing the empirical disclosure risk of a model through a variety of simulated attacks after training. The AI-SDC code and documentation are available under an MIT license at https://github.com/AI-SDC/AI-SDC.
翻訳日:2022-12-07 13:16:50 公開日:2022-12-06
# タスク指向対話におけるインテント誘導による発話埋め込みとクラスタリング手法の解析

Analysis of Utterance Embeddings and Clustering Methods Related to Intent Induction for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.02021v2 )

ライセンス: Link先を確認
Jeiyoon Park, Yoonna Jang, Chanhee Lee, Heuiseok Lim(参考訳) 本稿では,タスク指向ダイアログスキーマの設計における非教師なしアプローチについて検討する。各ダイアログターンにインテントラベルを割り当てる(インテントクラスタリング)とともに,インテントクラスタリング手法(インテント誘導)に基づいたインテントセットを生成する。 意図の自動誘導には,(1)インテントラベリングのためのクラスタリングアルゴリズム,(2)ユーザ発話の埋め込み空間の2つの因果関係を仮定する。 既存の市販クラスタリングモデルとDSTC11評価に基づく埋め込みを比較した。 広範な実験により,インテント誘導タスクにおける発話埋め込みとクラスタリング方法の選択が非常に注意すべき2つの大きな注意点が付け加えられた。 また,Agglomerative clusteringによる事前学習したMiniLMは,NMI,ARI,F1,精度,インテント誘導タスクにおけるサンプルカバレッジを著しく向上させることを示した。 再実装のためのソースコードはgithubで入手できる。

This paper investigates unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that we sholud add two huge caveat that selection of utterance embedding and clustering method in intent induction task should be very careful. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source code for reimplementation will be available at Github.
翻訳日:2022-12-07 13:09:14 公開日:2022-12-06
# 注文は望ましくない - 動的ディープグラフ畳み込みネットワークによるパーソナリティ検出

Orders Are Unwanted: Dynamic Deep Graph Convolutional Network for Personality Detection ( http://arxiv.org/abs/2212.01515v2 )

ライセンス: Link先を確認
Tao Yang, Jinghao Deng, Xiaojun Quan, Qifan Wang(参考訳) オンライン投稿に基づくパーソナリティ特性の予測は,ソーシャルネットワーク分析など多くの分野で重要な課題となっている。 このタスクの課題の1つは、さまざまな投稿から情報をユーザ毎のプロフィールにまとめることである。 以前の多くのソリューションは、ポストを長いドキュメントにまとめ、シーケンシャルまたは階層的なモデルで文書をエンコードするだけであったが、ポストに不整合な順序を導入し、それがモデルを誤解させる可能性がある。 本稿では,この制限を克服するための動的ディープグラフ畳み込みネットワーク(D-DGCN)を提案する。 具体的には、決定論的構造の代わりに動的マルチホップ構造を採用し、DGCNモジュールと組み合わせてポスト間の接続を自動的に学習する学習・接続方式を設計する。 ポストエンコーダ、ラーニング・トゥ・コネクション、DGCNのモジュールはエンドツーエンドで共同で訓練される。 KaggleとPandoraのデータセットの実験結果は、D-DGCNの最先端ベースラインよりも優れたパフォーマンスを示している。 私たちのコードはhttps://github.com/djz233/d-dgcnで利用可能です。

Predicting personality traits based on online posts has emerged as an important task in many fields such as social network analysis. One of the challenges of this task is assembling information from various posts into an overall profile for each user. While many previous solutions simply concatenate the posts into a long document and then encode the document by sequential or hierarchical models, they introduce unwarranted orders for the posts, which may mislead the models. In this paper, we propose a dynamic deep graph convolutional network (D-DGCN) to overcome the above limitation. Specifically, we design a learn-to-connect approach that adopts a dynamic multi-hop structure instead of a deterministic structure, and combine it with a DGCN module to automatically learn the connections between posts. The modules of post encoder, learn-to-connect, and DGCN are jointly trained in an end-to-end manner. Experimental results on the Kaggle and Pandora datasets show the superior performance of D-DGCN to state-of-the-art baselines. Our code is available at https://github.com/djz233/D-DGCN.
翻訳日:2022-12-07 13:08:55 公開日:2022-12-06
# シーンの可塑性の予測

Prediction of Scene Plausibility ( http://arxiv.org/abs/2212.01470v2 )

ライセンス: Link先を確認
Or Nachmias, Ohad Fried and Ariel Shamir(参考訳) 2D画像から3D世界を理解するには、シーン内のオブジェクトの検出とセグメンテーション以上のものが必要になる。 また、シーン要素の構造と配置の解釈も含んでいる。 このような理解は、しばしば物理的世界とその限界を認識することや、どのように類似した場面が配置されているかに関する事前知識に根ざしている。 本研究では,ニューラルネットワーク(あるいは他の)シーン理解アルゴリズムに対して,新たな課題を提起する。 プラウサビリティは、物理的性質と機能的配置と典型的な配置の両方で定義できる。 したがって,実世界においてある場面に遭遇する確率として,可能性を定義する。 可視・可視の両方のシーンを含む合成画像のデータセットを構築し、可視性を認識し理解するタスクにおいて、様々な視覚モデルの成功をテストする。

Understanding the 3D world from 2D images involves more than detection and segmentation of the objects within the scene. It also includes the interpretation of the structure and arrangement of the scene elements. Such understanding is often rooted in recognizing the physical world and its limitations, and in prior knowledge as to how similar typical scenes are arranged. In this research we pose a new challenge for neural network (or other) scene understanding algorithms - can they distinguish between plausible and implausible scenes? Plausibility can be defined both in terms of physical properties and in terms of functional and typical arrangements. Hence, we define plausibility as the probability of encountering a given scene in the real physical world. We build a dataset of synthetic images containing both plausible and implausible scenes, and test the success of various vision models in the task of recognizing and understanding plausibility.
翻訳日:2022-12-07 13:08:36 公開日:2022-12-06