このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221209となっている論文です。

PDF登録状況(公開日: 20221209)

TitleAuthorsAbstract論文公表日・翻訳日
# 地中エネルギー推定におけるスペクトルギャップの重要性

Importance of the spectral gap in estimating ground-state energies ( http://arxiv.org/abs/2007.11582v2 )

ライセンス: Link先を確認
Abhinav Deshpande, Alexey V. Gorshkov, and Bill Fefferman(参考訳) 量子ハミルトン複雑性の分野は、量子多体物理学と計算複雑性理論の交わりにあり、どちらも深い意味を持つ。 研究の主な対象は局所ハミルトニアン問題であり、これは局所ハミルトニアンの基底状態エネルギーの推定に関係しており、クラス np の量子汎化であるクラス qma に対して完備である。 この分野における大きな課題は、より物理的に自然なパラメーターのレジームにおける局所ハミルトニアン問題の複雑性を理解することである。 多体物理学における任意のハミルトニアン基底空間を理解する重要なパラメータの1つはスペクトルギャップであり、これは最小の2つの固有値の差である。 量子多体物理学において重要であるが、局所ハミルトニアンの複雑性におけるスペクトルギャップが果たす役割はよく理解されていない。 本研究は, 基底状態エネルギーを逆指数的精度で推定する正確な状態を考えることによって, この問題を進展させるものである。 基底状態エネルギーの計算は量子化学や量子多体物理学において重要である。 逆指数精度の設定において、局所ハミルトニアンの複雑性が QMA から PSPACE へ拡大されるという驚くべき結果がある。 この複雑さの増大の背景にある理由を明らかにする。 具体的には,スペクトルギャップが指数関数的に小さい場合にのみ,高精度ケースの完全複雑性が生じることを示す。 この結果を示すために開発された証明手法により, 局所ハミルトンの基底状態の表現可能性や回路の複雑度, 量子証人の特異性理論, 量子証人のポストセレクション存在下での増幅技術など, 重要な意味を明らかにすることができた。

The field of quantum Hamiltonian complexity lies at the intersection of quantum many-body physics and computational complexity theory, with deep implications to both fields. The main object of study is the LocalHamiltonian problem, which is concerned with estimating the ground-state energy of a local Hamiltonian and is complete for the class QMA, a quantum generalization of the class NP. A major challenge in the field is to understand the complexity of the LocalHamiltonian problem in more physically natural parameter regimes. One crucial parameter in understanding the ground space of any Hamiltonian in many-body physics is the spectral gap, which is the difference between the smallest two eigenvalues. Despite its importance in quantum many-body physics, the role played by the spectral gap in the complexity of the LocalHamiltonian is less well-understood. In this work, we make progress on this question by considering the precise regime, in which one estimates the ground-state energy to within inverse exponential precision. Computing ground-state energies precisely is a task that is important for quantum chemistry and quantum many-body physics. In the setting of inverse-exponential precision, there is a surprising result that the complexity of LocalHamiltonian is magnified from QMA to PSPACE, the class of problems solvable in polynomial space. We clarify the reason behind this boost in complexity. Specifically, we show that the full complexity of the high precision case only comes about when the spectral gap is exponentially small. As a consequence of the proof techniques developed to show our results, we uncover important implications for the representability and circuit complexity of ground states of local Hamiltonians, the theory of uniqueness of quantum witnesses, and techniques for the amplification of quantum witnesses in the presence of postselection.
翻訳日:2023-05-08 18:28:56 公開日:2022-12-09
# 直交状態符号化に基づく量子鍵分布

Quantum key distribution based on orthogonal state encoding ( http://arxiv.org/abs/2107.01964v6 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(QKD)は、量子情報理論において最も重要な領域の一つである。 約40年間、かなりのQKDスキームが開発された。 初期のqkdプロトコルのセキュリティは、異なるベース、すなわち非orthogonal state encodingの切り替えに依存する。 最も有名な例はbb84プロトコルである。 その後、直交状態エンコーディングのための他の技術が開発された。 このようなプロトコルの例としては、GVプロトコルやオーダーアレンジメントプロトコルがある。 本稿では直交状態符号化に基づく2つのQKDプロトコルを提案する。 そのうちの1つは順序調整のテクニックを採用する必要はなく、もう1つは必要である。 それらの分析を行い,量子ビットと古典ビットの両方の消費を考慮した場合,高い効率性を示す。 さらに, 最大絡み合い状態の利用は従来よりも小さくなり, 測定効率が向上する可能性が示唆された。 また、テスト状態メソッドを適用することで、ノイズの多いチャネルで実装するためのプロトコルを変更する。

Quantum key distribution(QKD) is one of the most significant areas in quantum information theory. For nearly four decades, substantial QKD schemes are developed. In early years, the security of QKD protocols is depend on switching different bases, namely based on non-orthogonal state encoding. The most famous example is the BB84 protocol. Later, other techniques were developed for orthogonal state encoding. Examples of such protocols include the GV protocol and order-rearrangement protocols. In this paper, we present two QKD protocols based on orthogonal state encoding. One of them does not need to employ order-rearrangement techniques while the other needs to. We provide analyses for them, demonstrating that they are highly efficient when considering consumptions of both qubits and classical bits. Furthermore, the employment of maximally entangled states could be less than previous ones and so the measurement efficiency could be increased. We also modify the protocols for implementing in noisy channels by applying the testing state method.
翻訳日:2023-03-23 09:08:09 公開日:2022-12-09
# 長距離結合を有する大Nハイブリッドブラウン回路の絡み合い相

Entanglement Phases in large-N hybrid Brownian circuits with long-range couplings ( http://arxiv.org/abs/2109.00013v3 )

ライセンス: Link先を確認
Subhayan Sahu, Shao-Kai Jian, Gregory Bentsen, Brian Swingle(参考訳) 本研究では,長大なパワーロー相互作用を持つ量子ビットおよびフェルミオン上の大規模n$ハイブリッド量子回路の解法モデルを開発し,エンタングルメント位相図への解析的アクセスと,そのダイナミクスによって生じる多体絡み込み非平衡状態の誤差補正特性を提供する。 1次元では、長距離結合は$\alpha>3/2$とは無関係であり、$\alpha$はパワーロー指数であり、これらのモデルは体積と面積ローのエンタングルド相の間の従来の測定誘起相転移を示す。 1/2<\alpha<3/2$ では、長距離カップリングが関連し、測定誘起相転移の非自明な動的指数となる。 さらに興味深いことに、$\alpha<1$の場合、エンタングルメントパターンは、領域ルールとボリュームルールの両方の位相のサブボリューム補正を受け取り、このフェーズが$l^{2-2\alpha}$となる量子エラー訂正コードを実現することを示している。 エンタングルメント位相図は相互作用する量子ビットとフェルミオンハイブリッドブラウン回路の両方で同じであるが、長距離自由フェルミオン回路は2つの異なるフラクタルエンタングル位相を持つ異なる位相図を示す。

We develop solvable models of large-$N$ hybrid quantum circuits on qubits and fermions with long-range power-law interactions and continuous local monitoring, which provide analytical access to the entanglement phase diagram and error-correcting properties of many-body entangled non-equilibrium states generated by such dynamics. In one dimension, the long-range coupling is irrelevant for $\alpha>3/2$, where $\alpha$ is the power-law exponent, and the models exhibit a conventional measurement-induced phase transition between volume- and area-law entangled phases. For $1/2<\alpha<3/2$ the long-range coupling becomes relevant, leading to a nontrivial dynamical exponent at the measurement-induced phase transition. More interestingly, for $\alpha<1$ the entanglement pattern receives a sub-volume correction for both area-law and volume-law phases, indicating that the phase realizes a quantum error correcting code whose code distance scales as $L^{2-2\alpha}$. While the entanglement phase diagram is the same for both the interacting qubit and fermionic hybrid Brownian circuits, we find that long-range free-fermionic circuits exhibit a distinct phase diagram with two different fractal entangled phases.
翻訳日:2023-03-16 16:00:38 公開日:2022-12-09
# 離散可変表現における強楕円偏光レーザー場の水素原子

Hydrogen Atom in Strong Elliptically Polarized Laser Fields within Discrete-Variable Representation ( http://arxiv.org/abs/2111.06588v2 )

ライセンス: Link先を確認
S. Shadmehri and V. S. Melezhik(参考訳) 非直積離散変数表現(npDVR)は、非可分角変数を持つ時間依存シュリンガー方程式に対して開発され、楕円偏光強レーザー場の水素原子に適用される。 2D npDVRは、単位球のポポフとレベデフの2D角格子上に直交する球面調和上に構成されている。 このアプローチにより、はじめは基底状態の水素原子が、最大で$i=10^{14}$ w/{cm}$^2$、波長が$\lambda=800$ nmの楕円偏極レーザー場においてダイナミックスを調査した。 レーザー場のこれらのパラメータと楕円性の変化範囲について、原子の総励起および電離収率を計算した。 本手法の収束解析により, 計算結果の精度は, 3次元時間依存シュリンガー方程式の角部を近似する2D npDVRの高効率性のため, この問題に関連する他の著者の最近の研究の精度を著しく上回っていることがわかった。 また, 全励起収率の計算において, 遷移確率を水素原子の束縛状態へ無限に和算する新しい簡単な方法を提案し, 従来法との比較によりその精度を証明した。 その結果, 強いレーザー場における原子動力学研究における2次元npDVRの可能性が示唆された。

The nondirect product discrete variable representation (npDVR) is developed for the time-dependent Schr\"odinger equation with nonseparable angular variables and is applied to a hydrogen atom in elliptically polarized strong laser fields. The 2D npDVR is constructed on spherical harmonics orthogonalized on the 2D angular grids of the Popov and Lebedev 2D cubatures for the unit sphere. With this approach we have investigated the dynamics of a hydrogen atom initially in its ground state in elliptically polarized laser fields with the intensity up to $I=10^{14}$ W/{cm}$^2$ and wavelength of $\lambda=800$ nm. For these parameters of the laser field and the entire range of ellipticity variation, we have calculated the total excitation and ionization yields of the atom. The performed analysis of the method convergence shows that the achieved accuracy of our calculations significantly exceeds the accuracy of recent works of other authors relevant to the problem, due to the high efficiency of the 2D npDVR in approximating the angular part of the 3D time-dependent Schr\"odinger equation. We also propose a new simple procedure for infinite summation of the transition probabilities to the bound states of the hydrogen atom in calculating the total excitation yield and prove its accuracy by comparison with conventional methods. The obtained results show the potential prospects of the 2D npDVR for investigating atomic dynamics in stronger laser fields.
翻訳日:2023-03-08 07:59:06 公開日:2022-12-09
# 量子計測による時空の幾何学

The geometry of spacetime from quantum measurements ( http://arxiv.org/abs/2111.12724v3 )

ライセンス: Link先を確認
T. Rick Perche and Eduardo Mart\'in-Mart\'inez(参考訳) 量子場に結合した量子粒子検出器の局所的な測定から時空の幾何を復元できる設定を提供する。 具体的には,検出器の計測値から場の相関関数を回復する方法を示す。 そして、測定結果から不変な時空区間を復元することができ、したがって時空距離の概念を再構築することができる。 これは、量子粒子検出器が一般相対性理論の古典的「規則」や「時計」を置き換えることができる実験的なアクセス可能なデバイスであることを示唆している。

We provide a setup by which one can recover the geometry of spacetime from local measurements of quantum particle detectors coupled to a quantum field. Concretely, we show how one can recover the field's correlation function from measurements on the detectors. Then, we are able to recover the invariant spacetime interval from the measurement outcomes, and hence reconstruct a notion of spacetime metric. This suggest that quantum particle detectors are the experimentally accessible devices that could replace the classical 'rulers' and 'clocks' of general relativity.
翻訳日:2023-03-06 23:48:12 公開日:2022-12-09
# フシミ駆動による原子核多体輸送

Atomtronic Many-Body Transport using Husimi Driving ( http://arxiv.org/abs/2112.12408v3 )

ライセンス: Link先を確認
B. J. Mommers, A. Pritchard, T. A. Bell, R. N. Kohn Jr., S. E. Olson, M. Baker, M. W. J. Bromley(参考訳) 正確な解析解を持つ量子システムは稀であり、多体系の励起自由輸送法の実現に挑戦する。 フシミの1953年の線形駆動型高調波発振器の扱いは重要な例外であり、空間的に翻訳されるが、それ以外は駆動によって摂動されないウェーブパックを記述する。 本研究では,光・磁気トラッピングされたBose-Einstein凝縮体を共振および外共振線形磁気駆動電位下で相互作用する多体系へのフシミ溶液の応用を実験的に実証する。 観測された質量中心運動は理論と一致し、転位した凝縮体の最小励起を示す。 72倍の速度で移動を実証し,新しいフシミ駆動型トラップ周波数測定を行った。 実験結果に基づく将来の応用として、原子干渉法と、フシミ駆動による1体・少数体・多体系の拡張輸送・精密制御法を提案する。

Quantum systems with exact analytic solutions are rare - challenging the realisation of excitation-free transport methods for many-body systems. Husimi's 1953 treatment of linearly driven harmonic oscillators constitutes an important exception, describing a wavepacket which is spatially translated but otherwise unperturbed by the driving. In this work, we experimentally demonstrate the application of Husimi's solution to an interacting many-body system, namely optically- and magnetically-trapped Bose-Einstein condensates subject to resonant and off-resonant linear magnetic driving potentials. The observed centre-of-mass motion is consistent with theory and shows minimal excitation of the displaced condensate - a highly desirable property of any condensate manipulation technique. We demonstrate transport 72 times faster than adiabatic rates, and a novel Husimi driving-based trap frequency measurement. We finally propose future applications based on our experimental results: an atom interferometry scheme, and methods for extended transport and precision control of one-body, few-body, and many-body systems via Husimi driving.
翻訳日:2023-03-03 18:08:10 公開日:2022-12-09
# 高調波発生における絡み合いと測定の理論

Theory of entanglement and measurement in high harmonic generation ( http://arxiv.org/abs/2203.04354v3 )

ライセンス: Link先を確認
Philipp Stammer(参考訳) 量子情報科学と強いレーザー物質相互作用は、明らかに無関係な2つの分野である。 本稿では、原子の高調波発生のための測定プロトコルの量子力学的記述を提供することにより、強いレーザー駆動プロセスに量子情報理論の概念を導入する。 これにより、光の量子状態工学のための新しいプロトコルを考案することができる。 個々の光学場モードにおける条件付け実験を明示的に評価し、コヒーレント状態に対する対応する量子演算を提供する。 関連する正の作用素値測度を求め、高次元の絡み合い状態の生成のための測定の量子論と、アト秒時間スケールで制御可能な非古典的特徴を持つコヒーレント状態重ね合わせを与える。 これにより、量子情報処理のための新しい量子技術プラットフォームとして、強いレーザー駆動プロセスが使用される。

Quantum information science and intense laser matter interaction are two apparently unrelated fields. Here, we introduce the notion of quantum information theory to intense laser driven processes by providing the quantum mechanical description of measurement protocols for high harmonic generation in atoms. This allows to conceive new protocols for quantum state engineering of light. We explicitly evaluate conditioning experiments on individual optical field modes, and provide the corresponding quantum operation for coherent states. The associated positive operator-valued measures are obtained, and give rise to the quantum theory of measurement for the generation of high dimensional entangled states, and coherent state superposition with controllable non-classical features on the attosecond timescale. This establish the use of intense laser driven processes as a novel quantum technology platform for quantum information processing.
翻訳日:2023-02-22 19:46:13 公開日:2022-12-09
# 大規模言語モデルを用いたCS学習教材の自動生成

Automatically Generating CS Learning Materials with Large Language Models ( http://arxiv.org/abs/2212.05113v1 )

ライセンス: Link先を確認
Stephen MacNeil, Andrew Tran, Juho Leinonen, Paul Denny, Joanne Kim, Arto Hellas, Seth Bernstein, Sami Sarsa(参考訳) GPT-3やCodexといったLLM(Large Language Models)の最近のブレークスルーにより、ソフトウェア開発者が自然言語プロンプトに基づいてコードを生成することが可能になる。 コンピュータサイエンス教育の中で、研究者は注意深いプロンプトを使ってllmがコード説明やプログラミング課題を生成する可能性を探っている。 これらの進歩は、インストラクタが学習教材を拡大するのを助けながら、新しい方法でコードと対話できるかもしれない。 しかし、LLMは学術的完全性、カリキュラム設計、ソフトウェア工学のキャリアに新たな意味を導入している。 このワークショップでは、LLMが教育と研究に統合されるかどうかを参加者が評価する上で、LLMの能力を示す。 LLMが私たちの分野に与える影響を検討するため、ブレインストーミングにも参加します。

Recent breakthroughs in Large Language Models (LLMs), such as GPT-3 and Codex, now enable software developers to generate code based on a natural language prompt. Within computer science education, researchers are exploring the potential for LLMs to generate code explanations and programming assignments using carefully crafted prompts. These advances may enable students to interact with code in new ways while helping instructors scale their learning materials. However, LLMs also introduce new implications for academic integrity, curriculum design, and software engineering careers. This workshop will demonstrate the capabilities of LLMs to help attendees evaluate whether and how LLMs might be integrated into their pedagogy and research. We will also engage attendees in brainstorming to consider how LLMs will impact our field.
翻訳日:2023-02-19 12:55:58 公開日:2022-12-09
# BigScience:多言語大言語モデルの社会構築における事例研究

BigScience: A Case Study in the Social Construction of a Multilingual Large Language Model ( http://arxiv.org/abs/2212.04960v1 )

ライセンス: Link先を確認
Christopher Akiki and Giada Pistilli and Margot Mieskes and Matthias Gall\'e and Thomas Wolf and Suzana Ili\'c and Yacine Jernite(参考訳) BigScience Workshopは、1年半にわたる学際的な研究を経て、これまでで最大の多言語モデルの1つであるBLOOMのトレーニングに使用された1.6TBのマルチリンガルデータセットであるROTSを開発した。 技術的な成果やアーティファクトに加えて、大規模なモデルやデータセット、分析に関する複数の分野のコラボレーションが促進された。 この結果、倫理から法律、データガバナンス、モデリングの選択、分散トレーニングまで幅広い研究論文が出版された。 本稿では,bigscienceの共同研究の側面に注目し,大規模参加型研究の課題を振り返って,参加者の多様性とプロジェクト成功に必要な課題について考察する。 私たちの主な目標は、この経験から学んだ教訓、よりよいことをできたこと、うまくやったことを共有することです。 このような社会的アプローチが科学的研究に与える影響が、その発端となった技術的成果に大きく及んでいることを示す。

The BigScience Workshop was a value-driven initiative that spanned one and half years of interdisciplinary research and culminated in the creation of ROOTS, a 1.6TB multilingual dataset that was used to train BLOOM, one of the largest multilingual language models to date. In addition to the technical outcomes and artifacts, the workshop fostered multidisciplinary collaborations around large models, datasets, and their analysis. This in turn led to a wide range of research publications spanning topics from ethics to law, data governance, modeling choices and distributed training. This paper focuses on the collaborative research aspects of BigScience and takes a step back to look at the challenges of large-scale participatory research, with respect to participant diversity and the tasks required to successfully carry out such a project. Our main goal is to share the lessons we learned from this experience, what we could have done better and what we did well. We show how the impact of such a social approach to scientific research goes well beyond the technical artifacts that were the basis of its inception.
翻訳日:2023-02-19 12:55:06 公開日:2022-12-09
# 超伝導量子ビット鎖の耐雑音性エッジモード

Noise-resilient Edge Modes on a Chain of Superconducting Qubits ( http://arxiv.org/abs/2204.11372v2 )

ライセンス: Link先を確認
Xiao Mi, Michael Sonner, Murphy Yuezhen Niu, Kenneth W. Lee, Brooks Foxen, Rajeev Acharya, Igor Aleiner, Trond I. Andersen, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Ryan Babbush, Dave Bacon, Joseph C. Bardin, Joao Basso, Andreas Bengtsson, Gina Bortoli, Alexandre Bourassa, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Brian Burkett, Nicholas Bushnell, Zijun Chen, Benjamin Chiaro, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Dripto M. Debroy, Sean Demura, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Lara Faoro, Edward Farhi, Reza Fatemi, Leslie Flores, Ebrahim Forati, Austin G. Fowler, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Alejandro Grajales Dau, Jonathan A. Gross, Steve Habegger, Matthew P. Harrigan, Jeremy Hilton, Markus Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William J. Huggins, Lev B. Ioffe, Sergei V. Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Dvir Kafri, Kostyantyn Kechedzhi, Tanuj Khattar, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, J. M. Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Joonho Lee, Lily Laws, Wayne Liu, Aditya Locharla, Erik Lucero, Orion Martin, Jarrod R. McClean, Matt McEwen, Bernardo Meurer Costa, Kevin C. Miao, Masoud Mohseni, Shirin Montazeri, Alexis Morvan, Emily Mount, Wojciech Mruczkiewicz, Ofer Naaman, Matthew Neeley, Charles Neill, Michael Newman, Thomas E. O'Brien, Alex Opremcak, Andre Petukhov, Rebecca Potter, Chris Quintana, Nicholas C. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Christopher Schuster, Michael J. Shearn, Vladimir Shvarts, Doug Strain, Yuan Su, Marco Szalay, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff-Heidweiller, Theodore White, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Hartmut Neven, Sergio Boixo, Anthony Megrant, Yu Chen, Julian Kelly, Vadim Smelyanskiy, Dmitry A. Abanin, Pedram Roushan(参考訳) 量子系の固有対称性は、それ以外は脆弱な状態を保護することができる。 このような保護を活用するには、制御不能な環境相互作用に対する堅牢性をテストする必要がある。 47個の超伝導量子ビットを用いて,非局所マヨラナエッジモード(MEM)と$\mathbb{Z}_2$パリティ対称性を示す一次元キックドイジングモデルを実装した。 注目すべきことに、MEMsと重なり合う任意のマルチキュービットパウリ作用素は、そのサイズや構成に関係なく、単一キュービット緩和速度に匹敵する一様の遅延時間減衰率を示す。 この特徴により,MEMの指数的局所化空間プロファイルを正確に再構築することができる。 さらに、MEMは予熱機構により特定の対称性を破るノイズに対して弾力性があることが判明した。 本研究は,固体環境におけるノイズと対称性保護エッジモードの複雑な相互作用を解明する。

Inherent symmetry of a quantum system may protect its otherwise fragile states. Leveraging such protection requires testing its robustness against uncontrolled environmental interactions. Using 47 superconducting qubits, we implement the one-dimensional kicked Ising model which exhibits non-local Majorana edge modes (MEMs) with $\mathbb{Z}_2$ parity symmetry. Remarkably, we find that any multi-qubit Pauli operator overlapping with the MEMs exhibits a uniform late-time decay rate comparable to single-qubit relaxation rates, irrespective of its size or composition. This characteristic allows us to accurately reconstruct the exponentially localized spatial profiles of the MEMs. Furthermore, the MEMs are found to be resilient against certain symmetry-breaking noise owing to a prethermalization mechanism. Our work elucidates the complex interplay between noise and symmetry-protected edge modes in a solid-state environment.
翻訳日:2023-02-15 20:16:36 公開日:2022-12-09
# 量子場理論におけるロバートソンの不等式によって保証される因果性と相補性の一貫性

Consistency between causality and complementarity guaranteed by the Robertson inequality in quantum field theory ( http://arxiv.org/abs/2206.02506v2 )

ライセンス: Link先を確認
Yuuki Sugiyama, Akira Matsumura, and Kazuhiro Yamamoto(参考訳) 重力が量子化されるべきかどうかについては長年議論されてきた。 最近、[sci. rep. 6, 22777 (2016), proc. natl. acad. sci. us.s.a. 106, 3035 (2009)]の著者らは、質量/荷電体の量子重ね合わせを伴うゲダンケン実験とベレンキアなどにおける因果性と相補性の矛盾について論じた。 [植物:rev. d 98, 126009 (2018), int. j. mod. phys. d 28 1943001 (2019)] 重力・電磁気場の量子放射と真空揺らぎを必要とすることにより、不整合を解消した。 それらの研究によって刺激され、量子場理論に従って2つの物理的性質、因果性と相補性の間の一貫性を再分析する。 この分析では、[Sci. Rep. 6, 22777 (2016), Proc. Natl. Acad. U.S.A. 106, 3035 (2009), Phys. Rev. D 98, 126009 (2018); Int. J. Mod. Phys. D 28 1943001 (2019)]にインスパイアされたゲダンケンの実験について考察する。 まず、光子場の遅延伝播によって因果性が満足されることを観察する。 次に、可視性と経路情報の不等式を導入することにより、光子場の量子放射と真空変動が相補性を保証することを示す。 さらに、光子場に付随するロバートソンの不等式は、ゲダンケン実験における因果関係と相補関係の整合性をもたらす。 最後に、同様の機能が重力の量子場に現れることに言及する。

It has long been debated whether gravity should be quantized or not. Recently, the authors in [Sci. Rep. 6, 22777 (2016); Proc. Natl. Acad. Sci. U.S.A. 106, 3035 (2009)] discussed the inconsistency between causality and complementarity in a Gedankenexperiment involving the quantum superposition of massive/ charged bodies, and Belenchia et al. [Phys. Rev. D 98, 126009 (2018); Int. J. Mod. Phys. D 28, 1943001 (2019)] resolved the inconsistency by requiring the quantum radiation and vacuum fluctuations of gravitational/electromagnetic field. Stimulated by their works, we reanalyze the consistency between the two physical properties, causality and complementarity, according to the quantum field theory. In this analysis, we consider a Gedankenexperiment inspired by [Sci. Rep. 6, 22777 (2016); Proc. Natl. Acad. Sci. U.S.A. 106, 3035 (2009); Phys. Rev. D 98, 126009 (2018); Int. J. Mod. Phys. D 28, 1943001 (2019)], in which two charged particles coupled with a photon field are in a superposition of two trajectories. First, we observe that causality is satisfied by the retarded propagation of the photon field. Next, by introducing an inequality between visibility and which-path information, we show that the quantum radiation and vacuum fluctuations of the photon field ensure complementarity. We further find that the Robertson inequality associated with the photon field leads to the consistency between causality and complementarity in our Gedankenexperiment. Finally, we mention that a similar feature appears in the quantum field of gravity.
翻訳日:2023-02-10 09:43:07 公開日:2022-12-09
# 定駆動場を用いたイジングからのフロケエンジニアリングハイゼンベルクの量子シミュレーション

Floquet Engineering Heisenberg from Ising Using Constant Drive Fields for Quantum Simulation ( http://arxiv.org/abs/2207.09438v3 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Hersh Singh, Martin J. Savage, Pavel Lougovski(参考訳) 離散時間間隔で大きな駆動場を持つイジングモデルの時間進化は、逆場強度の先頭の順序で有効なXXZ-ハイゼンベルクモデルによって再現される。 ドライブ場の特定の向きについて、xxx-ハイゼンベルクモデルのダイナミクスを再現する。 これらの近似等価性は、イジングモデルにおける動的位相遷移によって設定された臨界駆動場強度より上において有効であり、イジングモデルに従って量子ビットをネイティブに進化させる量子デバイスによりより複雑なシステムをシミュレートできると期待されている。

The time-evolution of an Ising model with large driving fields over discrete time intervals is shown to be reproduced by an effective XXZ-Heisenberg model at leading order in the inverse field strength. For specific orientations of the drive field, the dynamics of the XXX-Heisenberg model is reproduced. These approximate equivalences, valid above a critical driving field strength set by dynamical phase transitions in the Ising model, are expected to enable quantum devices that natively evolve qubits according to the Ising model to simulate more complex systems.
翻訳日:2023-02-04 12:50:42 公開日:2022-12-09
# トランスフォーマー量子状態:量子多体問題のための多目的モデル

Transformer Quantum State: A Multi-Purpose Model for Quantum Many-Body Problems ( http://arxiv.org/abs/2208.01758v3 )

ライセンス: Link先を確認
Yuan-Hang Zhang, Massimiliano Di Ventra(参考訳) トランスフォーマーに基づく大規模言語モデルの進歩に触発されて,量子多体問題に対する汎用機械学習モデルであるtransformer quantum state (tqs)を提案する。 ハミルトニアン/タスク特定モデルとは対照的に、tqsは位相図全体を生成し、実験的な測定でフィールド強度を予測し、これまで見たことのない新しいシステムにその知識を移すことができる。 特定のタスクでtqsを微調整すると、計算コストが小さく正確な結果が得られる。 設計上は、TQSは容易に新しいタスクに適応できるため、様々な挑戦的な量子問題に対する汎用モデルに向けられる。

Inspired by the advancements in large language models based on transformers, we introduce the transformer quantum state (TQS), a versatile machine learning model for quantum many-body problems. In sharp contrast to Hamiltonian/task specific models, TQS can generate the entire phase diagram, predict field strengths with experimental measurements, and transfer such knowledge to new systems it has never seen before, all within a single model. With specific tasks, fine-tuning the TQS produces accurate results with small computational cost. Versatile by design, TQS can be easily adapted to new tasks, thereby pointing towards a general-purpose model for various challenging quantum problems.
翻訳日:2023-02-02 14:10:06 公開日:2022-12-09
# 3+1D位相相におけるCodimension-2欠陥と高対称性

Codimension-2 defects and higher symmetries in (3+1)D topological phases ( http://arxiv.org/abs/2208.07367v2 )

ライセンス: Link先を確認
Maissam Barkeshli, Yu-An Chen, Sheng-Jie Huang, Ryohei Kobayashi, Nathanan Tantivasadakarn, and Guanyu Zhu(参考訳) 3+1)D のトポロジカル位相はコメンジョン-1, 2, 3 の非自明なトポロジカルな欠陥の幅広いクラスを包含し、そこでよく知られた点電荷とフラックスループは特別な場合である。 これらの欠陥の完全な代数構造はより高い圏を定義し、創発的な高対称性と見なすことができる。 これは、物質相の分類とトポロジカル量子誤り訂正符号におけるフォールトトレラント論理演算の両方において重要な役割を果たす。 本稿では,このような高次元欠陥の異なる視点からいくつかの例を考察する。 主に、ツイストリングと呼ばれる可逆余次元2の位相的欠陥のクラスを研究する。 我々は、低次元の可逆位相、層構造、凝縮欠陥をゲージする観点から、ツイスト弦に対する多くの一般的な構成を提供する。 フェルミオン電荷を持つ$\mathbb{Z}_2$ゲージ理論の文脈において、ボゾン電荷を持つ$\mathbb{Z}_2 \times \mathbb{Z}_2$ゲージ理論や、二面体(D_n$)および交代(A_6$)群に基づく非アベリア離散ゲージ理論において、いくつかの特別な例を研究する。 ねじれ弦とアーベル束ループの交叉は、位相次数の基底となる3つの群対称性の一部を特徴づける$h^4$コホモロジークラスを定義するアーベル点電荷を導く。 3群対称性の背景ゲージ場を含む方程式は、様々なケースで明確に記述されている。 また、非アベリア束ループ(非可逆高対称性の一部を定義する)と相互作用するツイストの例、非可逆余次元2欠陥の例、余次元1欠陥と余次元2欠陥の相互作用の例についても検討する。 また、3+1)D $A_6$ゲージ理論における幾何学的、完全な位相的、ねじれ弦の例も見つかる。

(3+1)D topological phases of matter can host a broad class of non-trivial topological defects of codimension-1, 2, and 3, of which the well-known point charges and flux loops are special cases. The complete algebraic structure of these defects defines a higher category, and can be viewed as an emergent higher symmetry. This plays a crucial role both in the classification of phases of matter and the possible fault-tolerant logical operations in topological quantum error correcting codes. In this paper, we study several examples of such higher codimension defects from distinct perspectives. We mainly study a class of invertible codimension-2 topological defects, which we refer to as twist strings. We provide a number of general constructions for twist strings, in terms of gauging lower dimensional invertible phases, layer constructions, and condensation defects. We study some special examples in the context of $\mathbb{Z}_2$ gauge theory with fermionic charges, in $\mathbb{Z}_2 \times \mathbb{Z}_2$ gauge theory with bosonic charges, and also in non-Abelian discrete gauge theories based on dihedral ($D_n$) and alternating ($A_6$) groups. The intersection between twist strings and Abelian flux loops sources Abelian point charges, which defines an $H^4$ cohomology class that characterizes part of an underlying 3-group symmetry of the topological order. The equations involving background gauge fields for the 3-group symmetry have been explicitly written down for various cases. We also study examples of twist strings interacting with non-Abelian flux loops (defining part of a non-invertible higher symmetry), examples of non-invertible codimension-2 defects, and examples of interplay of codimension-2 defects with codimension-1 defects. We also find an example of geometric, not fully topological, twist strings in (3+1)D $A_6$ gauge theory.
翻訳日:2023-01-31 01:29:36 公開日:2022-12-09
# 量子回路のためのアルゴリズム固有グラフ状態のコンパイル

Compilation of algorithm-specific graph states for quantum circuits ( http://arxiv.org/abs/2209.07345v3 )

ライセンス: Link先を確認
Madhav Krishnan Vijayan, Alexandru Paler, Jason Gavriel, Casey R. Myers, Peter P. Rohde, Simon J. Devitt(参考訳) 本稿では、cirqやq#といった高レベル言語で記述された量子回路からアルゴリズム固有のグラフ状態を生成する量子回路コンパイラを提案する。 計算は、このグラフの状態上の一連の非ポーリ測定を用いて実装できる。 標準的な格子クラスタ状態から始めるのではなく、グラフ状態を直接コンパイルし、計算の過程で準備することで、関連するリソースコストをよりよく理解し、実際の量子デバイス上での無駄なPauli測定を排除できます。 このアルゴリズム固有のグラフ状態へのアクセスは、同じ量子回路を実装するために、局所等価なグラフ状態上の最適化を可能にする。 ここで提示されたコンパイラーは、測定ベースの量子コンピューティング、NISQデバイス、フォールトトレラント実装のための論理レベルのコンパイルにおける準備ができた。

We present a quantum circuit compiler that prepares an algorithm-specific graph state from quantum circuits described in high level languages, such as Cirq and Q#. The computation can then be implemented using a series of non-Pauli measurements on this graph state. By compiling the graph state directly instead of starting with a standard lattice cluster state and preparing it over the course of the computation, we are able to better understand the resource costs involved and eliminate wasteful Pauli measurements on the actual quantum device. Access to this algorithm-specific graph state also allows for optimisation over locally equivalent graph states to implement the same quantum circuit. The compiler presented here finds ready application in measurement based quantum computing, NISQ devices and logical level compilation for fault tolereant implementations.
翻訳日:2023-01-26 12:07:53 公開日:2022-12-09
# 多項式による下限のユニタリ特性検定

Unitary property testing lower bounds by polynomials ( http://arxiv.org/abs/2210.05885v2 )

ライセンス: Link先を確認
Adrian She, Henry Yuen(参考訳) 我々は、量子アルゴリズムがブラックボックスユニタリへのクエリアクセスを付与され、ある特性を満たすかどうかを判断するユニタリプロパティテストについて研究する。 標準的な量子クエリ複雑性モデル(ユニタリがバイナリ文字列をエンコードする)を特別なケースとして含むことに加えて、このモデルは古典的な類似点を持たない「本質的に量子的な」問題を含む。 これらの問題のクエリ複雑性を特徴づけるには、新しいアルゴリズム技術と低いバウンドメソッドが必要である。 我々の主な貢献はユニタリプロパティテスト問題に対する一般化多項式法である。 不変理論との接続を利用して、ユニタリの繰り返し時間の決定、マークされた部分空間の次元の近似、マークされた状態の絡み合いエントロピーの近似などの問題に対する下界を求める。 我々はまた,量子複雑性理論における長年の疑問である$\mathsf{qma}$と$\mathsf{qma(2)}$とのoracle分離に対する,ユニタリプロパティテストに基づくアプローチも提示する。

We study unitary property testing, where a quantum algorithm is given query access to a black-box unitary and has to decide whether it satisfies some property. In addition to containing the standard quantum query complexity model (where the unitary encodes a binary string) as a special case, this model contains "inherently quantum" problems that have no classical analogue. Characterizing the query complexity of these problems requires new algorithmic techniques and lower bound methods. Our main contribution is a generalized polynomial method for unitary property testing problems. By leveraging connections with invariant theory, we apply this method to obtain lower bounds on problems such as determining recurrence times of unitaries, approximating the dimension of a marked subspace, and approximating the entanglement entropy of a marked state. We also present a unitary property testing-based approach towards an oracle separation between $\mathsf{QMA}$ and $\mathsf{QMA(2)}$, a long standing question in quantum complexity theory.
翻訳日:2023-01-22 19:48:25 公開日:2022-12-09
# 自由干渉理論における周期的因果構造と時空との整合性

Compatibility of Cyclic Causal Structures with Spacetime in General Theories with Free Interventions ( http://arxiv.org/abs/2211.03593v2 )

ライセンス: Link先を確認
Maarten Grothus(参考訳) イベントを関連付け、順序付けすることで、因果関係は世界の重要な特徴となります。 一方、エージェントの情報処理能力の観点から定義される因果関係の情報理論的概念があり、一方、時空に関連する因果関係の相対論的概念が存在する。 本稿では,これらの概念を接続するためのPRA, 106, 032204 (2022) とPRL, 129, 110401 (2022) で, V. Vilasini と R. Colbeck が導入したフレームワークを改善した。 まず、高次(HO)の概念が関係に影響を及ぼす情報理論の観点から、周期的・微調整的・非古典的因果的影響の存在下でのシグナリングの一般化モデルを提案する。 HOの新たな性質は関係に影響を与え、因果構造を推測するために応用する。 次に、HOの集合から因果ループを検出する完全で建設的な方法が関係に影響を及ぼすことを示す。 第2部では,情報理論的因果構造の部分的に順序付けられた時空への埋め込みについて検討する。 我々は,無符号(相対論的未来外)の原理だけでは排除できない操作的に検出可能なループのクラスを除外するために,時空埋め込みの安定性条件を提案する。 次に、d \geq 2$空間次元を持つミンコフスキー時空に持つと仮定する新しい順序論的性質を提案する。 これは、(1+1)-ミンコフスキー時空とは対照的に、高次元では、無符号原理はこのループのクラスを除外するのに十分であることを意味する。 最後に,シグナリング関係の欠如に関する知識を通じて因果推論を可能にする関係を導入し,それを新しい時空の順序論的特徴に関連付ける。

By relating and ordering events, causality constitutes a pivotal feature of our world. On the one hand, there are information-theoretic notions of causality defined in terms of the information processing ability of agents and on the other hand, there are relativistic notions of causality tied to a spacetime. In this thesis, we improve upon a framework introduced by V. Vilasini and R. Colbeck in PRA, 106, 032204 (2022) and PRL, 129, 110401 (2022) for connecting these notions, where the possibility of operationally detectable causal loops embedded in (1+1)-Minkowski spacetime without superluminal signalling was demonstrated. In the first part, we take the information-theoretic point of view, where the concept of higher-order (HO) affects relations was proposed to generically model signalling in the presence of cyclic, fine-tuned and non-classical causal influences. We establish new properties of HO affects relations and apply them to infer causal structures. We then demonstrate a complete and constructive way to detect causal loops from a set of HO affects relations. In the second part, we study the embedding of information-theoretic causal structures into partially ordered spacetimes. We propose stability conditions on the spacetime embedding to rule out a class of operationally detectable loops that cannot be ruled out by the principle of no-signalling (outside the relativistic future) alone. We then propose novel order-theoretic properties that we conjecture to hold in Minkowski spacetime with $d \geq 2$ spatial dimensions. This would imply that in contrast to (1+1)-Minkowski spacetime, in higher dimensions, the no-signalling principle is indeed sufficient for ruling out this class of loops. Finally, we introduce a relation which allows for causal inference through knowledge about the absence of signalling relations and we relate it to novel order-theoretic features of spacetime.
翻訳日:2023-01-20 01:53:06 公開日:2022-12-09
# 超低温双極子分子を用いた量子シミュレータの精度:連続体と格子記述の定量的比較

Accuracy of quantum simulators with ultracold dipolar molecules: a quantitative comparison between continuum and lattice descriptions ( http://arxiv.org/abs/2211.09821v2 )

ライセンス: Link先を確認
Michael Hughes, Axel U. J. Lode, Dieter Jaksch, and Paolo Molignini(参考訳) 超低温磁性原子と双極子分子の制御と操作の急速な進歩により、強い相互作用を持つ双極子-双極子相互作用(DDI)と高密度の格子モデルの量子シミュレーションは現在実験範囲内にある。 この急速な発展は、そのような状態における量子シミュレーションの妥当性に関する問題を引き起こす。 本研究では,光格子中の双極子粒子の1次元気体の連続体記述と,それが量子的にシミュレートする単一バンドBose-Hubbard格子モデルとの完全な定量的比較を行った。 エネルギーと密度分布を比較し、連続体と格子多体波動関数の直接重なりを計算することにより、強いDDIと高い密度のレジームでは、連続体システムは所望の格子モデルを再現できないことを示す。 2バンドハバードモデルは連続体記述と格子記述の差を減らすために必要となるが、密度分布の偏差は依然として残っている。 本研究は、低帯域記述以上の物理を生成する上での強いDDIの役割を解明し、短期双極子量子シミュレータの校正の指針を提供する。

With rapid progress in control and manipulation of ultracold magnetic atoms and dipolar molecules, the quantum simulation of lattice models with strongly interacting dipole-dipole interactions (DDI) and high densities is now within experimental reach. This rapid development raises the issue about the validity of quantum simulation in such regimes. In this study, we address this question by performing a full quantitative comparison between the continuum description of a one-dimensional gas of dipolar bosons in an optical lattice, and the single-band Bose-Hubbard lattice model that it quantum simulates. By comparing energies and density distributions, and by calculating direct overlaps between the continuum and lattice many-body wavefunctions, we demonstrate that in regimes of strong DDI and high densities the continuum system fails to recreate the desired lattice model. Two-band Hubbard models become necessary to reduce the discrepancy observed between continuum and lattice descriptions, but appreciable deviations in the density profile still remain. Our study elucidates the role of strong DDI in generating physics beyond lowest-band descriptions and should offer a guideline for the calibration of near-term dipolar quantum simulators.
翻訳日:2023-01-19 06:31:36 公開日:2022-12-09
# フォン・ノイマン方程式を用いたFrschとSegr\`eによる多段階Stern$\unicode{x2013}$Gerlach実験の量子力学モデリング

Quantum mechanical modeling of the multi-stage Stern$\unicode{x2013}$Gerlach experiment by Frisch and Segr\`e using the von Neumann equation ( http://arxiv.org/abs/2210.11553v2 )

ライセンス: Link先を確認
S. S\"uleyman Kahraman, Kelvin Titimbo, Zhe He, Jung-Tsung Shen, Lihong V. Wang(参考訳) Frisch と Segr\``e が行ったマルチステージ Stern$\unicode{x2013}$Gerlach 実験は、Majorana の量子力学を用いて解析的にモデル化され、Rabi によって修正された。 しかし、理論的な予測は実験的な観測とよく一致しない。 ここでは、スピンの時間発展の超微細構造相互作用を含むフォン・ノイマン方程式を用いて、標準量子力学モデルを数値的に解く。 この結果は、Majorana、Rabi、およびco-quantum dynamicsと呼ばれる別のモデルによる実験的な観測と予測と比較される。 これまでのところ、自由パラメータを使用しない標準量子力学モデルによる決定係数は、まだゼロ以下である。 一致を改善する非標準変種を議論するために検討する。

The multi-stage Stern$\unicode{x2013}$Gerlach experiment conducted by Frisch and Segr\`e has been modeled analytically using quantum mechanics by Majorana and revised by Rabi by including the hyperfine interaction. However, the theoretical predictions do not match the experimental observation well. Here, we numerically solve the standard quantum mechanical model, via the von Neumann equation, that includes the hyperfine interaction for the time evolution of the spin. The outcome is compared with the experimental observation and the predictions by Majorana, Rabi, and an alternative model called co-quantum dynamics. Thus far, the coefficients of determination from the standard quantum mechanical model, which does not use free parameters, are still below zero. Non-standard variants that improve the match are explored for discussion.
翻訳日:2023-01-18 19:53:28 公開日:2022-12-09
# 組み込みシステムのための資源効率のよいニューラルネットワーク

Resource-Efficient Neural Networks for Embedded Systems ( http://arxiv.org/abs/2001.03048v2 )

ライセンス: Link先を確認
Wolfgang Roth, G\"unther Schindler, Bernhard Klein, Robert Peharz, Sebastian Tschiatschek, Holger Fr\"oning, Franz Pernkopf, Zoubin Ghahramani(参考訳) 機械学習は伝統的にリソース集約的なタスクだが、組み込みシステム、自律ナビゲーション、モノのインターネットのビジョンは、リソース効率のよいアプローチへの関心を高めている。 これらのアプローチは、計算とエネルギーの観点から、パフォーマンスとリソース消費の間で慎重に選択されたトレードオフを目指している。 このようなアプローチの開発は、現在の機械学習研究における大きな課題のひとつであり、ほぼ無制限のコンピューティングリソースを持つ科学環境から日々のアプリケーションへの機械学習技術のスムーズな移行を保証するための鍵である。 本稿では,これらの実世界の要求を円滑にするための機械学習技術の現状について概観する。 特に、過去10年で主要な機械学習モデルであるディープニューラルネットワーク(DNN)に焦点を当てています。 我々は、主に3つの非ミューチュアルなカテゴリーに分けられる膨大な文献の概要を概観する。 (i)量子化されたニューラルネットワーク (ii)ネットワークの刈り込み、 (iii)構造効率。 これらの技術は、トレーニング中や後処理として適用することができ、メモリフットプリント、推論速度、エネルギー効率の面で計算要求を減らすために広く利用されている。 また、DNN用組み込みハードウェアのさまざまな概念や、機械学習技術との互換性、エネルギーと遅延低減の可能性についても簡単に議論する。 我々は,cpu,gpu,fpgaなどのリソースに制約のある組込みシステムに対して,圧縮技術(量子化,プルーニング)を用いて,よく知られたベンチマークデータセットに関する実験を行った。 その結果,資源効率と予測性能の良好なトレードオフを見出すことの難しさが明らかになった。

While machine learning is traditionally a resource intensive task, embedded systems, autonomous navigation, and the vision of the Internet of Things fuel the interest in resource-efficient approaches. These approaches aim for a carefully chosen trade-off between performance and resource consumption in terms of computation and energy. The development of such approaches is among the major challenges in current machine learning research and key to ensure a smooth transition of machine learning technology from a scientific environment with virtually unlimited computing resources into everyday's applications. In this article, we provide an overview of the current state of the art of machine learning techniques facilitating these real-world requirements. In particular, we focus on deep neural networks (DNNs), the predominant machine learning models of the past decade. We give a comprehensive overview of the vast literature that can be mainly split into three non-mutually exclusive categories: (i) quantized neural networks, (ii) network pruning, and (iii) structural efficiency. These techniques can be applied during training or as post-processing, and they are widely used to reduce the computational demands in terms of memory footprint, inference speed, and energy efficiency. We also briefly discuss different concepts of embedded hardware for DNNs and their compatibility with machine learning techniques as well as potential for energy and latency reduction. We substantiate our discussion with experiments on well-known benchmark datasets using compression techniques (quantization, pruning) for a set of resource-constrained embedded systems, such as CPUs, GPUs and FPGAs. The obtained results highlight the difficulty of finding good trade-offs between resource efficiency and predictive performance.
翻訳日:2023-01-13 20:15:38 公開日:2022-12-09
# 核融合エネルギー科学応用のための量子コンピューティング

Quantum Computing for Fusion Energy Science Applications ( http://arxiv.org/abs/2212.05054v1 )

ライセンス: Link先を確認
I. Joseph, Y. Shi, M. D. Porter, A. R. Castelli, V. I. Geyko, F. R. Graziani, S. B. Libby, J. L. DuBois(参考訳) 本論文は、核融合エネルギー科学応用のための現在の量子コンピューティング能力を探求し拡張する最近の研究のレビューである。 理想的な量子力学とオープンな量子力学、普遍的な量子計算、量子アルゴリズムに関する簡単なチュートリアルから始める。 そこで, 量子コンピュータを用いて線形力学と非線形力学の両方をより詳細にシミュレートする。 量子コンピュータは量子状態上で線形演算を効率的に行うことができるため、非線形微分方程式を記述するのに汎用的に必要とされる非線形演算を行うことは困難である。 本研究では, コープマン進化作用素, ペロン・フロベニウス進化作用素, クープマン・ヴォン・ノイマン進化作用素(KvN)との接続を明示的に導出することにより, 線形系に非線形系を埋め込む際の従来の結果を拡張する。 また、koopman と carleman の埋め込みアプローチとの関係を明示的に導出します。 KvN フレームワークのカールマン埋め込みに関連する複素解析的セッティングへの拡張と、複素解析的再生核 Hilbert 空間の異なる選択がヒルベルト空間計量の選択に依存するという証明は付録でカバーされている。 最後に、現在の量子ハードウェアプラットフォームにおけるアルゴリズムの最近の量子ハードウェア実装のレビューを行い、ハミルトンシミュレーションによっていつか加速されるかもしれないと結論付けた。 非線形プラズマ力学において重要な量子マップと波動-波動相互作用のシミュレーションによる波動-粒子相互作用の玩具モデルのシミュレーションについて議論する。

This is a review of recent research exploring and extending present-day quantum computing capabilities for fusion energy science applications. We begin with a brief tutorial on both ideal and open quantum dynamics, universal quantum computation, and quantum algorithms. Then, we explore the topic of using quantum computers to simulate both linear and nonlinear dynamics in greater detail. Because quantum computers can only efficiently perform linear operations on the quantum state, it is challenging to perform nonlinear operations that are generically required to describe the nonlinear differential equations of interest. In this work, we extend previous results on embedding nonlinear systems within linear systems by explicitly deriving the connection between the Koopman evolution operator, the Perron-Frobenius evolution operator, and the Koopman-von Neumann evolution (KvN) operator. We also explicitly derive the connection between the Koopman and Carleman approaches to embedding. Extension of the KvN framework to the complex-analytic setting relevant to Carleman embedding, and the proof that different choices of complex analytic reproducing kernel Hilbert spaces depend on the choice of Hilbert space metric are covered in the appendices. Finally, we conclude with a review of recent quantum hardware implementations of algorithms on present-day quantum hardware platforms that may one day be accelerated through Hamiltonian simulation. We discuss the simulation of toy models of wave-particle interactions through the simulation of quantum maps and of wave-wave interactions important in nonlinear plasma dynamics.
翻訳日:2023-01-09 19:10:17 公開日:2022-12-09
# 量子グラフにおけるBardeen-Cooper-Schrieffer相互作用について

On the Bardeen-Cooper-Schrieffer interaction in quantum graphs ( http://arxiv.org/abs/2212.04992v1 )

ライセンス: Link先を確認
Francesco Romeo(参考訳) 本稿では、多体物理学と量子グラフ上の粒子閉じ込めの間の非自明な相互作用を研究できるBardeen-Cooper-Schrieffer相互作用の実空間版を紹介する。 2体問題を考えると、2粒子波動関数は積分微分型schr\"{o}dinger方程式の解であることが分かる。 2体固有プロブレムの解は、特異なネットワークトポロジーを持つ量子グラフにおいて安定性が向上した2粒子境界状態の存在を示す。 拡張効果は多体効果に対して頑健であり、多体問題に対するリチャードソンの厳密な解法を用いて研究できることを示した。 これらの結果は、効果的なペアリング相互作用が特異な接続性を持つ量子グラフにおいて強化されることを示唆している。 ジョセフソン接合配列の実験的エビデンスも、本研究で記述された顕微鏡機構に関連して議論されている。

We introduce a real-space version of the Bardeen-Cooper-Schrieffer interaction allowing the investigation of the non-trivial interplay between many-body physics and particles confinement on a quantum graph. When the two-body problem is considered, we find that the two-particle wavefunction is solution of an integro-differential Schr\"{o}dinger equation. The solution of the two-body eigenproblem shows the presence of a two-particle bound state whose stability is enhanced in quantum graphs with peculiar network topology. We demonstrate that the enhancement effect is robust against many-body effects, which can be studied by means of the Richardson exact solution of the many-body problem. These findings suggest that the effective pairing interaction can be enhanced in quantum graphs with peculiar connectivity. Experimental evidences in Josephson junctions arrays are also discussed in connection with the microscopic mechanism described in the present work.
翻訳日:2023-01-09 19:08:52 公開日:2022-12-09
# 変形した中心対称ネットワークにおける輸送

Transport in deformed centrosymmetric networks ( http://arxiv.org/abs/2212.04682v1 )

ライセンス: Link先を確認
Adway Kumar Das and Anandamohan Ghosh(参考訳) 遠心対称性は、量子ワイヤから光合成ネットワークまで様々な複雑なシステムにおける完全状態移動(pst)を仲介する。 ランダム行列のDeformed Centrosymmetric Ensemble (DCE) を導入し、$H(\lambda) \equiv H_+ + \lambda H_-$, where $H_+$ is centrosymmetric、$H_-$ is skew-centrosymmetricとする。 H_\pm$の相対的な強度は、制御パラメータのシステムサイズスケーリングを$\lambda = N^{-\frac{\gamma}{2}}$に促す。 2つの量、$\mathcal{P}$ と $\mathcal{C}$ をそれぞれ量子化し、$\gamma_\text{P}\equiv 1$ と $\gamma_\text{C}\equiv -1$ で2階位相遷移を示す。 さらに、DCE は $\gamma_\text{E} \equiv 0$ でエルゴード遷移をとる。 したがって、DCEにおける中心対称性の程度を正確に制御した上で、複素ネットワークの輸送特性に対する$\gamma$の表示について検討する。 そのようなランダムネットワークは、$H(\lambda)$の固有ベクトルを用いて構築でき、最大転送忠実度$F_T$は、セントロ対称性の次数$\mathcal{P}$と等価であることを示す。

Centrosymmetry often mediates Perfect State Transfer (PST) in various complex systems ranging from quantum wires to photosynthetic networks. We introduce the Deformed Centrosymmetric Ensemble (DCE) of random matrices, $H(\lambda) \equiv H_+ + \lambda H_-$, where $H_+$ is centrosymmetric while $H_-$ is skew-centrosymmetric. The relative strength of the $H_\pm$ prompts the system size scaling of the control parameter as $\lambda = N^{-\frac{\gamma}{2}}$. We propose two quantities, $\mathcal{P}$ and $\mathcal{C}$, quantifying centro- and skewcentro-symmetry, respectively, exhibiting second order phase transitions at $\gamma_\text{P}\equiv 1$ and $\gamma_\text{C}\equiv -1$. In addition, DCE posses an ergodic transition at $\gamma_\text{E} \equiv 0$. Thus equipped with a precise control of the extent of centrosymmetry in DCE, we study the manifestation of $\gamma$ on the transport properties of complex networks. We propose that such random networks can be constructed using the eigenvectors of $H(\lambda)$ and establish that the maximum transfer fidelity, $F_T$, is equivalent to the degree of centrosymmetry, $\mathcal{P}$.
翻訳日:2023-01-09 19:00:45 公開日:2022-12-09
# ツイストロニクスのプライマー:質量を持たないディラック・フェルミオンのツイスト二層グラフェンにおけるmoir\'eパターンとフラットバンドへの旅

A primer on Twistronics: Massless Dirac Fermion's journey to Moir\'e patterns and Flat bands in Twisted Bilayer Graphene ( http://arxiv.org/abs/2212.04801v1 )

ライセンス: Link先を確認
Deepanshu Aggarwal, Rohit Narula, and Sankalpa Ghosh ( Dept. of Physics, IIT Delhi)(参考訳) マジック角度ツイストした二層グラフェンの強相関位相の最近の発見は、グラフェンの強相関物理学の新しい領域を開拓した。 これは、質量を持たないディラックフェルミオンの1つの物理に対する関心が支配的なグラフェン研究の初期とは大きく異なる。 本論文は、単粒子物理学支配体制から強相関物理学のフラットバンドレジームまで、ワンダーマテリアルグラフェンの旅の自己完結した理論的視点を提供する。 凝縮物質系におけるディラック点の起源から、この道路に沿って、グラフェンの分散関係におけるフェルミ速度とヴァンホーブ特異点に対する超格子の影響を考察し、グラフェン-ヘキサゴナルホウ素-窒化物やツイスト二層グラフェンのようなファンデルウォールのヘテロ構造におけるモイルイエパターンを自然に研究する方法について考察する。 その後、マジック角における二層グラフェンの平面バンドの起源を詳細に論じる。 この方向のいくつかの顕著な理論的な研究を 詳細に分析することで 理論的な記述は、関連する実験作品と接続することで、適切な場所でインターセプトされる。 最後のセクションでは、このレビューではカバーされていないが、このプライマーの助けを借りてアプローチできるツイスト二層グラフェンの分野のトピックのリストも提供しています。

The recent discovery of the strongly correlated phases in magic angle twisted bilayer graphene heralded a new area of investigation into the strongly-correlation physics in graphene. This is remarkably different from the initial period of graphene research which was dominated by interest in one body physics of massless Dirac fermions. This pedagogical review article provides a self-contained theoretical perspective of the journey of the wonder material graphene from its single-particle physics dominated regime to the flat band regime of strong-correlation physics. Starting from the origin of Dirac points in condensed matter systems, along this road, this review discusses the effect of superlattice on the Fermi velocity and Van Hove singularities in the dispersion relation of the graphene, and how it naturally leads to investigation into Moir\'e pattern in Van der Wall's heterostructure such as graphene-hexagonal boron-nitride and twisted bilayer graphene. Subsequently It discusses in detail the origin of flat bands in twisted bilayer graphene at the magic angles. by analysing in detail a number of prominent theoretical works in this direction. The theoretical description is intercepted at appropriate places by connecting it with the relevant experimental works. In a final section we also provide a list of the topics in the field of twisted bilayer graphene that are not covered in this review, but can be approached with the help of this primer.
翻訳日:2023-01-09 19:00:16 公開日:2022-12-09
# 誘電体球との光相互作用の量子理論:3次元基底冷却に向けて

Quantum Theory of Light Interaction with a Dielectric Sphere: Towards 3D Ground-State Cooling ( http://arxiv.org/abs/2212.04838v1 )

ライセンス: Link先を確認
Patrick Maurer, Carlos Gonzalez-Ballestero, and Oriol Romero-Isart(参考訳) 量子電磁界と相互作用する浮揚誘電体球の運動量子力学を点-双極子近似を超えて理論的に解析する。 この目的のために、ストークスやアンチストークス過程を含む光子と質量中心フォノンの基本的な結合と任意の屈折率と大きさの誘電体球面の結合率を記述するハミルトン式を導出する。 次に、レーザ再コイル加熱率と情報放射パターン(質量移動の中心に関する情報を伝達する散乱光の角分布)を導出し、ランニングまたは定在波構成のいずれかにおいて集束レーザビームの存在下で効率的に評価する方法を示す。 この情報は、点双極子近似を超える光学浮揚誘電体球体のアクティブフィードバック冷却を実装するために重要である。 その結果、光学的検出とアクティブフィードバックを同時に行うことで、マイクロメーター系における誘電体球の3次元中心運動を同時に冷却できる実験可能な構成とパラメータ状態が予測された。 重心基底状態に冷却できる誘電体粒子の質量をスケールアップすることは、大規模で量子力学をテストすることだけでなく、光学的浮遊センサーを用いて新しい物理学(例えばダークマター)を探索する実験にも関係している。

We theoretically analyze the motional quantum dynamics of a levitated dielectric sphere interacting with the quantum electromagnetic field beyond the point-dipole approximation. To this end, we derive a Hamiltonian describing the fundamental coupling between photons and center-of-mass phonons, including Stokes and anti-Stokes processes, and the coupling rates for a dielectric sphere of arbitrary refractive index and size. We then derive the laser recoil heating rates and the information radiation patterns (the angular distribution of the scattered light that carries information about the center-of-mass motion) and show how to evaluate them efficiently in the presence of a focused laser beam, either in a running or a standing-wave configuration. This information is crucial to implement active feedback cooling of optically levitated dielectric spheres beyond the point-dipole approximation. Our results predict several experimentally feasible configurations and parameter regimes where optical detection and active feedback can simultaneously cool to the ground state the three-dimensional center-of-mass motion of dielectric spheres in the micrometer regime. Scaling up the mass of the dielectric particles that can be cooled to the center-of-mass ground state is not only relevant for testing quantum mechanics at large scales but also for current experimental efforts that search for new physics (e.g. dark matter) using optically levitated sensors.
翻訳日:2023-01-09 18:59:48 公開日:2022-12-09
# 非単位性による位相共変チャネル性能の向上

Enhancing phase-covariant channel performance with non-unitality ( http://arxiv.org/abs/2212.04876v1 )

ライセンス: Link先を確認
Katarzyna Siudzi\'nska and Micha{\l} Studzi\'nski(参考訳) 位相共変チャネルの量子通信特性は、その非一様度に依存する。 特に、純状態と最大出力純度に対する最小および最大チャネル忠実度の分析式を導出する。 次に、非ユニタリ性の尺度を導入し、量子チャネルの古典的混合を考慮し、ユニタリ写像と極大非ユニタリ写像の操作方法を示す。 最後に、最大忠実度と最大出力純度が非一意性によって増加することを証明し、いくつかの例を示す。 興味深いことに、非ユニタリティーは量子エンタングルメントを延長し、その再生につながる。

We analyze quantum communication properties of phase-covariant channels depending on their degree of non-unitality. In particular, we derive analytical formulas for minimal and maximal channel fidelity on pure states and maximal output purity. Next, we introduce a measure of non-unitality and show how to manipulate between unital and maximally non-unital maps by considering classical mixtures of quantum channels. Finally, we prove that maximal fidelity and maximal output purity increase with non-unitality and present several examples. Interestingly, non-unitality can also prolong quantum entanglement and lead to its rebirth.
翻訳日:2023-01-09 18:59:26 公開日:2022-12-09
# 熱原子中のフロッケ超放射格子

Floquet superradiance lattices in thermal atoms ( http://arxiv.org/abs/2212.04898v1 )

ライセンス: Link先を確認
Xingqi Xu, Jiefei Wang, Jianhao Dai, Ruosong Mao, Han Cai, Shi-Yao Zhu, and Da-Wei Wang(参考訳) フロッケ変調は、量子ガスのコヒーレント制御のための光学格子、特に人工ゲージ場を合成し、トポロジカルな問題をシミュレートするために広く用いられている。 しかし、そのような変調は超低温原子の量子力学のシグナルを圧倒する加熱を誘導する。 ここでは, この熱運動はノイズ源ではなく, フロッケ変調超格子における新しい制御ノブを提供し, 原子群励起状態の運動量空間タイト結合格子である。 ドップラーシフトとフロッケ変調は、周波数と運動量次元の格子の任意の方向に沿って有効力を与える。 熱原子中の超放射格子の単一輸送スペクトルから動的局在、動的非局在化、キラルエッジ電流を同時に観測することができる。 我々の研究は、室温原子中のフロケトポロジカルな問題をシミュレートし、フォトニックデバイスへの応用を促進する方法である。

Floquet modulation has been widely used in optical lattices for coherent control of quantum gases, in particular for synthesizing artificial gauge fields and simulating topological matters. However, such modulation induces heating which can overwhelm the signal of quantum dynamics in ultracold atoms. Here we report that the thermal motion, instead of being a noise source, provides a new control knob in Floquet-modulated superradiance lattices, which are momentum-space tight-binding lattices of collectively excited states of atoms. The Doppler shifts combined with Floquet modulation provide effective forces along arbitrary directions in a lattice in frequency and momentum dimensions. Dynamic localization, dynamic delocalization and chiral edge currents can be simultaneously observed from a single transport spectrum of superradiance lattices in thermal atoms. Our work paves a way for simulating Floquet topological matters in room-temperature atoms and facilitates their applications in photonic devices.
翻訳日:2023-01-09 18:59:18 公開日:2022-12-09
# ポテンシャル関数の適応近似を用いたschr\"odinger dynamicsのディジタル量子シミュレーション

Digital quantum simulation of Schr\"odinger dynamics using adaptive approximations of potential functions ( http://arxiv.org/abs/2212.04942v1 )

ライセンス: Link先を確認
Tenzan Araki, James Stokes, Shravan Veerapaneni(参考訳) 位置ベースにおける連続変数量子系のデジタル量子シミュレーション(DQS)は、ポテンシャルエネルギー関数によって生成される時間進化作用素を近似する対角ユニタリの効率的な実装を必要とする。 本研究では,一様あるいは適応的に選択された部分領域を持つ多項式によって近似可能なポテンシャル関数に適した効率的な実装を提供する。 近似の精度の固定化のために,アダプティブグリッドは,少数のアシラリー量子ビットを導入するコストでゲート数を大幅に削減できることを示す。 物理的動機付けと人工設計の両方のポテンシャル関数を用いた回路構成を実証し,それらの高次元への一般化について考察する。

Digital quantum simulation (DQS) of continuous-variable quantum systems in the position basis requires efficient implementation of diagonal unitaries approximating the time evolution operator generated by the potential energy function. In this work, we provide efficient implementations suitable for potential functions approximable by piecewise polynomials, with either uniform or adaptively chosen subdomains. For a fixed precision of approximation, we show how adaptive grids can significantly reduce the total gate count at the cost of introducing a small number of ancillary qubits. We demonstrate the circuit construction with both physically motivated and artificially designed potential functions, and discuss their generalizations to higher dimensions.
翻訳日:2023-01-09 18:58:31 公開日:2022-12-09
# 量子物質の相互作用とトポロジー:補助場アプローチと一般化SSHモデル

Interactions and Topology in Quantum Matter: Auxiliary Field Approach & Generalized SSH Models ( http://arxiv.org/abs/2212.05038v1 )

ライセンス: Link先を確認
Patrick J. Wong(参考訳) この論文で提示される一連のプロジェクトは、強い相関関係と物質の位相相の交点にある。 これらのプロジェクトの1つは、DMFT-NRG を用いて正確に解決された局所クーロン相互作用によるSSHモデルの無限次元一般化の処理である。 この溶液で観察されるのは、状態の非相互作用密度のパワーロー増強とモット遷移である。 この計算は、相互作用するトポロジカル絶縁体の0温度での強い相関状態における正確な解である。 第2のプロジェクトは、強相関系の非相互作用補助モデルを定式化する手法の開発を含む。 これらの補助モデルは、元の強い相関モデルの全力学を捉えることができるが、ヒルベルト空間で定義される完全に相互作用しない自由度しか持たない。 マヨラナ分解による非線形正準変換を用いた単純な相互作用系に対して解析的にマッピングを行うことで議論の動機付けを行う。 相互作用する量子不純物モデルの非自明なクラスに対して、補助写像は正確な対角化を用いた有限サイズ系に対して数値的に確立され、かつ、NRGを用いた熱力学的極限における不純物モデルに対してゼロ温度と有限温度の両方で数値的に確立される。 補助システムは一般化されたSSHモデルの形式を採り、それらのモデルのトポロジ的特性を継承する。 これらの一般化されたSSHモデルも形式化され、新しいシステムとして独自の権利で研究される。 最後に,この手法をハバードモデルにおけるモット遷移の研究に適用する。 補助系の観点からは、モット遷移は位相的位相遷移として理解することができ、これは位相的領域壁の形成と解離として現れる。

Presented in this thesis are a set of projects which lie at the intersection between strong correlations and topological phases of matter. The first of these projects is a treatment of an infinite dimensional generalization of the SSH model with local Coulomb interactions which is solved exactly using DMFT-NRG. Observed in the solution is power-law augmentation of the non-interacting density of states, as well as a Mott transition. This calculation represents an exact solution to an interacting topological insulator in the strongly correlated regime at zero temperature. The second set of projects involves the development of methods for formulating non-interacting auxiliary models for strongly correlated systems. These auxiliary models are able to capture the full dynamics of the original strongly correlated model, but with only completely non-interacting degrees of freedom, defined in an enlarged Hilbert space. We motivate the discussion by performing the mapping analytically for simple interacting systems using non-linear canonical transformations via a Majorana decomposition. For the nontrivial class of interacting quantum impurity models, the auxiliary mapping is established numerically exactly for finite-size systems using exact diagonalization, and for impurity models in the thermodynamic limit using NRG, both at zero and finite temperature. We find that the auxiliary systems take the form of generalized SSH models, which inherit the topological characteristics of those models. These generalized SSH models are also formalized and investigated in their own right as novel systems. Finally, we apply this methodology to study the Mott transition in the Hubbard model. In terms of the auxiliary system, we find that the Mott transition can be understood as a topological phase transition, which manifests as the formation and dissociation of topological domain walls.
翻訳日:2023-01-09 18:58:22 公開日:2022-12-09
# 雑音ハイブリッド量子回路におけるユニバーサルkpzスケーリング

Universal KPZ scaling in noisy hybrid quantum circuits ( http://arxiv.org/abs/2212.03901v2 )

ライセンス: Link先を確認
Shuo Liu, Ming-Rui Li, Shi-Xin Zhang, Shao-Kai Jian, Hong Yao(参考訳) 測定誘起相転移(MIPT)は、絡み合い構造の豊富な現象論と量子情報処理との関係から注目されている。 物理系は環境と不可避に結合しているため、MIPTを用いてシステムを分析する際に量子ノイズを考慮する必要がある。 本報告では,各サイトで動作する量子チャネルのリセットによる量子ノイズがmiptに$q$の確率で与える影響について検討する。 クリフォード回路の数値計算結果から,量子ノイズはエンタングルメント特性を定性的に変化させることができることを示した。 量子ノイズによる ‘area law'' フェーズでは、エンタングルメントは新たな$q^{-1/3}$のパワーロースケーリングを示す。 さらに, 量子モデルの古典統計モデルへの解析的マッピングを用いて, 「領域法則」の絡み合いがノイズ駆動対称性破砕場の結果であり, ランダム環境における実効長スケール $l_{\rm{eff}} \sim q^{-1}$ を有する有向高分子のカルダル-パリシ-zhang (kpz) ゆらぎの結果, $q^{-1/3}$ スケーリングが理解可能であることを示す。

Measurement-induced phase transitions (MIPT) have attracted increasing attention due to the rich phenomenology of entanglement structures and their relation with quantum information processing. Since physical systems are unavoidably coupled to environment, quantum noise needs be considered in analyzing a system with MIPT, which may qualitatively modify or even destroy certain entanglement structure of the system. In this Letter, we investigate the effect of quantum noise modeled by reset quantum channel acting on each site with probability $q$ on MIPT. Based on the numerical results from the Clifford circuits, we show that the quantum noise can qualitatively change the entanglement properties - the entanglement obeys ``area law'' instead of ``volume law'' with projective measurement rate $p<p_{c}$. In the quantum noise induced ``area law'' phase, the entanglement exhibits a novel $q^{-1/3}$ power-law scaling. Using an analytic mapping of the quantum model to a classical statistical model, we further show that the ``area law'' entanglement is the consequence of the noise-driven symmetry-breaking field and the $q^{-1/3}$ scaling can be understood as the result of Kardar-Parisi-Zhang (KPZ) fluctuations of the directed polymer with an effective length scale $L_{\rm{eff}} \sim q^{-1}$ in a random environment.
翻訳日:2023-01-09 18:51:54 公開日:2022-12-09
# 完全かつ高速テンソルネットワーク収縮による量子超越実験の検証

Validating quantum-supremacy experiments with exact and fast tensor network contraction ( http://arxiv.org/abs/2212.04749v1 )

ライセンス: Link先を確認
Yong Liu, Yaojian Chen, Chu Guo, Jiawei Song, Xinmin Shi, Lin Gan, Wenzhao Wu, Wei Wu, Haohuan Fu, Xin Liu, Dexun Chen, Guangwen Yang, Jiangang Gao(参考訳) Google Sycamore [Nature \textbf{574}, 505 (2019)]のような量子超越性を宣言する量子回路は、信頼できる結果参照を構築する際にパラドックスを発生させる。 従来のコンピュータでのシミュレーションは信頼できる検証を提供する唯一の方法に思えるが、必要な実行時間は指数関数的に増大する計算の複雑さを伴う。 量子超越回路を50ドル以上の量子ビットで検証する方法を見出すために,現在のスーパーコンピュータの ``classical advantage' (von neumannマシン固有の ``store-and-compute" 動作モード) を活用し,中間結果の最適な再利用とプロセス全体のメモリオーバーヘッドの最小化によるランダム量子回路の非相関振幅を計算するシミュレーション手法を提案する。 このような再利用戦略は、サブリニアパターンへの振幅数に対する計算コストの原単位の線形スケーリングを削減し、より多くの振幅に対してより削減する。 新世代のサンウェイ・スーパーコンピュータ上でのこの手法の最適化実装に基づいて、実験により生成されたビットストリングに対して300万の正確な振幅を計算し、推定値0.224\%$と密接に一致する0.191\%$のXEBフィデリティを得ることにより、Sycamoreを直接検証する。 我々の計算は41,932,800ドルコアまでスケールし、持続的な単精度性能は84.8ドルPflopsで、これは8.5ドル日以内に達成される。 提案手法は, 量子多体問題, 統計問題, および, テンソルのかなりの部分を占める多くのテンソルネットワークを契約する必要がある組合せ最適化問題を解く上で, はるかに大きな影響を与える。

The quantum circuits that declare quantum supremacy, such as Google Sycamore [Nature \textbf{574}, 505 (2019)], raises a paradox in building reliable result references. While simulation on traditional computers seems the sole way to provide reliable verification, the required run time is doomed with an exponentially-increasing compute complexity. To find a way to validate current ``quantum-supremacy" circuits with more than $50$ qubits, we propose a simulation method that exploits the ``classical advantage" (the inherent ``store-and-compute" operation mode of von Neumann machines) of current supercomputers, and computes uncorrelated amplitudes of a random quantum circuit with an optimal reuse of the intermediate results and a minimal memory overhead throughout the process. Such a reuse strategy reduces the original linear scaling of the total compute cost against the number of amplitudes to a sublinear pattern, with greater reduction for more amplitudes. Based on a well-optimized implementation of this method on a new-generation Sunway supercomputer, we directly verify Sycamore by computing three million exact amplitudes for the experimentally generated bitstrings, obtaining an XEB fidelity of $0.191\%$ which closely matches the estimated value of $0.224\%$. Our computation scales up to $41,932,800$ cores with a sustained single-precision performance of $84.8$ Pflops, which is accomplished within $8.5$ days. Our method has a far-reaching impact in solving quantum many-body problems, statistical problems as well as combinatorial optimization problems where one often needs to contract many tensor networks which share a significant portion of tensors in common.
翻訳日:2023-01-09 18:25:30 公開日:2022-12-09
# 境界散逸横場イジングモデルの厳密解:リウヴィリアスペクトルの構造と動的双対性

Exact Solution of boundary-dissipated transverse field Ising model: structure of Liouvillian spectrum and dynamical duality ( http://arxiv.org/abs/2212.04785v1 )

ライセンス: Link先を確認
Zhen-Yu Zheng, Xueliang Wang, Shu Chen(参考訳) リンドブラッド・マスター方程式によって記述された境界散逸横場イジングモデルを研究し、パラメータ空間全体のリウビリアンスペクトルを正確に解く。 パリティ制約の下で虚数境界ポテンシャルを持つSu-Schrieffer-Heegerモデルにリウヴィリアンをマッピングすることにより、ラピダリティスペクトルを解析的に解き、パリティ制約条件で厳密にリウヴィリアンスペクトルを構成する。 以上の結果から,Louvilianスペクトルは4つの異なる構造を示し,それぞれ異なるセグメント数で特徴付けられることがわかった。 急速スペクトルの性質を解析することにより、異なるスペクトル構造間の位相境界を解析的に決定し、弱および強散逸領域における双対関係を満たすリウヴィリアギャップを証明できる。 さらに, 動的双対性の存在, すなわち, 長期緩和ダイナミクスは, 双対関係が真である限り, 弱く強い散逸領域において, ほとんど同じ動的挙動を示す。

We study the boundary-dissipated transverse field Ising model described by a Lindblad Master equation and exactly solve its Liouvillian spectrum in the whole parameter space. By mapping the Liouvillian into a Su-Schrieffer-Heeger model with imaginary boundary potentials under a parity constraint, we solve the rapidity spectrum analytically and thus construct the Liouvillian spectrum strictly with a parity constraint condition. Our results demonstrate that the Liouvillian spectrum displays four different structures, which are characterized by different numbers of segments. By analyzing the properties of rapidity spectrum, we can determine the phase boundaries between different spectrum structures analytically and prove the Liouvillian gap fulfilling a duality relation in the weak and strong dissipation region. Furthermore, we unveil the existence of a dynamical duality, i.e., the long-time relaxation dynamics exhibits almost the same dynamical behavior in the weak and strong dissipation region as long as the duality relation holds true.
翻訳日:2023-01-09 18:24:54 公開日:2022-12-09
# 電気制御円ブラッググレーティングにおける量子ドットを用いたファイバピグテール量子光源の高性能設計

High-performance designs for fiber-pigtailed quantum-light sources based on quantum dots in electrically-controlled circular Bragg gratings ( http://arxiv.org/abs/2212.04883v1 )

ライセンス: Link先を確認
Lucas Rickert, Fridtjof Betz, Matthias Plock, Sven Burger, and Tobias Heindel(参考訳) 本報告では,930nmの波長帯および通信用Oバンド,Cバンドの動作に電気的制御を施した直接繊維結合型ハイブリッドブラッググレーティング(CBG)について数値解析を行った。 本研究では,ベイズ最適化手法と組み合わせたサロゲートモデルを用いて,製造耐性のロバスト性を考慮したデバイス性能の数値最適化を行う。 提案した高性能設計は、hCBGと誘電体平面化と透明接触材料を組み合わせて、86%の直接繊維結合効率(NA 0.8への93%の効率)を実現し、Purcell Factors >20を示す。 特に、提案されたテレコムレンジの設計は堅牢で、(82.2\pm4.1)^{+2.2}_{-5.5}$%と期待平均パーセル係数が(23.2\pm2.3)^{+3.2}_{-3.0}$以上の繊維効率を維持できる。 最大パーセルエンハンスメントの波長は、偏差により最も影響を受ける性能パラメータであることが証明された。 最後に, 量子ドットのスタークチューニングに適した電界強度が同定された設計において到達可能であることを示す。

We present a numerical investigation of directly fiber-coupled hybrid circular Bragg gratings (CBGs) featuring electrical control for operation in the application relevant wavelength regimes around 930 nm as well as the telecom O- and C-band. We use a surrogate model combined with a Bayesian optimization approach to perform numerical optimization of the device performance which takes into account robustness with respect to fabrication tolerances. The proposed high-performance designs combine hCBGs with a dielectric planarization and a transparent contact material, enabling >86% direct fiber coupling efficiency (up to >93% efficiency into NA 0.8) while exhibiting Purcell Factors >20. Especially the proposed designs for the telecom range prove robust and can sustain expected fiber efficiencies of more than $(82.2\pm4.1)^{+2.2}_{-5.5}$% and expected average Purcell Factors of up to $(23.2\pm2.3)^{+3.2}_{-3.0}$ assuming conservative fabrication accuracies. The wavelength of maximum Purcell enhancement proves to be the most affected performance parameter by the deviations. Finally, we show that electrical field strengths suitable for Stark-tuning of an embedded quantum dot can be reached in the identified designs.
翻訳日:2023-01-09 18:24:17 公開日:2022-12-09
# quboにおける経路問題のモデル化と配車への応用

Modeling routing problems in QUBO with application to ride-hailing ( http://arxiv.org/abs/2212.04894v1 )

ライセンス: Link先を確認
Michele Cattelan and Sheir Yarkoni(参考訳) 多くの新興商用サービスは、コスト削減を目的とした共通利用のためのリソースの共有やプールに基づいている。 デリバリー、モビリティ、トランスポート・アズ・ア・サービスといったビジネスは、世界中の多くの地域で標準になっています。 しかし、これらの問題の多くはNPハードであることは知られており、モデリングと解法はどちらも難題である。 ここでは、複数の顧客が車両内の共有車両からオンデマンドのピックアップとドロップオフを要求できる、ライドプール問題(RPP)という、そのようなルーティング問題に注目します。 コンビネーション最適化タスクは、小規模のフレキシブルバスルートのように、限定された車両セットを使用して顧客の要求を最適にプールすることである。 本研究では,二次的非拘束型二分最適化(qubo)プログラムを提案し,メタヒューリスティックスを用いたrppの効率的な定式化手法,特に新しい量子最適化アルゴリズムを提案する。

Many emerging commercial services are based on the sharing or pooling of resources for common use with the aim of reducing costs. Businesses such as delivery-, mobility-, or transport-as-a-service have become standard in many parts of the world, fulfilling on-demand requests for customers in live settings. However, it is known that many of these problems are NP-hard, and therefore both modeling and solving them accurately is a challenge. Here we focus on one such routing problem, the Ride Pooling Problem (RPP), where multiple customers can request on-demand pickups and drop-offs from shared vehicles within a fleet. The combinatorial optimization task is to optimally pool customer requests using the limited set of vehicles, akin to a small-scale flexible bus route. In this work, we propose a quadratic unconstrained binary optimization (QUBO) program and introduce efficient formulation methods for the RPP to be solved using metaheuristics, and specifically emerging quantum optimization algorithms.
翻訳日:2023-01-09 18:23:47 公開日:2022-12-09
# 基底状態冷却CaO$^{+}$およびCa$^{+}$トラップイオン鎖の断熱的に制御された運動状態

Adiabatically controlled motional states of a ground-state cooled CaO$^{+}$ and Ca$^{+}$ trapped ion chain ( http://arxiv.org/abs/2212.05105v1 )

ライセンス: Link先を確認
Lu Qi, Evan C. Reed and Kenneth R. Brown(参考訳) 捕捉された分子イオンの外部自由度の制御は、分光、基本定数の精密測定、量子情報技術への有望な応用の前提条件である。 ここでは, カルシウムイオンを共分散した共振側バンド冷却による一酸化カルシウムイオンの軸運動モードの地中冷却を実証する。 また, イオン鎖の軸方向外相モードのフォノン状態は, モード周波数が断熱的に昇降している間に維持されることを示した。 運動モード周波数の断熱的傾斜は、提案された分子双極子-フォノン相互作用を探索するための前提条件である。

Control of the external degree of freedom of trapped molecular ions is a prerequisite for their promising applications to spectroscopy, precision measurements of fundamental constants, and quantum information technology. Here, we demonstrate near ground-state cooling of the axial motional modes of a calcium mono-oxide ion via sympathetic sideband cooling with a co-trapped calcium ion. We also show that the phonon state of the axial out-of-phase mode of the ion chain is maintained while the mode frequency is adiabatically ramped up and down. The adiabatic ramping of the motional mode frequency is a prerequisite for searching for the proposed molecular dipole-phonon interaction.
翻訳日:2023-01-09 18:23:15 公開日:2022-12-09
# 格子ゲージ理論の量子シミュレーションにおける指数ボリュームスケーリングの克服

Overcoming exponential volume scaling in quantum simulations of lattice gauge theories ( http://arxiv.org/abs/2212.04619v1 )

ライセンス: Link先を確認
Christopher F. Kane, Dorota M. Grabowska, Benjamin Nachman and Christian W. Bauer(参考訳) 古典的コンピュータを用いた量子場理論のリアルタイム進化には、格子サイトの数と指数関数的にスケールするリソースが必要である。 基本的に異なる計算戦略のため、量子コンピュータは原理上これらの力学の詳細な研究を第一原理から行うことができる。 このような計算を行う前に、使用する量子アルゴリズムが体積に指数関数的にスケールするコストを持たないことを保証することが重要である。 本論文では, 2+1次元のコンパクト u(1) ゲージ理論の, ゲージ冗長性のない定式化という, 興味深いテストケースを提案する。 量子回路へのナイーブな実装は、体積と指数関数的にスケールするゲートカウントを持つ。 ハミルトンの非局所性を低減する演算子を再定義することにより、この指数スケーリングを破る方法について論じる。 テストケースとして1つの理論のみを研究するが、指数ゲートスケーリングは高次元の非アベリア理論を含む他のゲージ理論の定式化のために持続する可能性がある。

Real-time evolution of quantum field theories using classical computers requires resources that scale exponentially with the number of lattice sites. Because of a fundamentally different computational strategy, quantum computers can in principle be used to perform detailed studies of these dynamics from first principles. Before performing such calculations, it is important to ensure that the quantum algorithms used do not have a cost that scales exponentially with the volume. In these proceedings, we present an interesting test case: a formulation of a compact U(1) gauge theory in 2+1 dimensions free of gauge redundancies. A naive implementation onto a quantum circuit has a gate count that scales exponentially with the volume. We discuss how to break this exponential scaling by performing an operator redefinition that reduces the non-locality of the Hamiltonian. While we study only one theory as a test case, it is possible that the exponential gate scaling will persist for formulations of other gauge theories, including non-Abelian theories in higher dimensions.
翻訳日:2023-01-09 18:14:25 公開日:2022-12-09
# 相関分光法による10^{-18}$レベルでのLu$^+$クロック比較

$^{176}$Lu$^+$ clock comparison at the $10^{-18}$ level via correlation spectroscopy ( http://arxiv.org/abs/2212.04652v1 )

ライセンス: Link先を確認
Zhang Zhiqiang, Kyle J. Arnold, and Rattakorn Kaewuam, and M. D. Barrett(参考訳) 相関スペクトルを用いた2つの$^{176}$Lu$^+$周波数基準の一致を実験的に実証した。 異なる磁場の比較から、2次ゼーマン係数は 4.89264(88)\,\mathrm{Hz/mT^2}$ となり、0.1\,mT の典型的操作場の比較において、2.5\times 10^{-20}$ となる。 その後の0.1\,mTでの両系との比較では、$(-2.0\pm(3.7)_\mathrm{stat}\pm(0.9)_\mathrm{sys})\times10^{-18}$の分数周波数差を示す。

We experimentally demonstrate agreement between two $^{176}$Lu$^+$ frequency references using correlation spectroscopy. From a comparison at different magnetic fields, we obtain a quadratic Zeeman coefficient of $-4.89264(88)\,\mathrm{Hz/mT^2}$, which gives a corresponding fractional frequency uncertainty contribution of just $2.5\times 10^{-20}$ for comparisons at typical operating fields of 0.1\,mT. A subsequent comparison with both systems at 0.1\,mT, demonstrates a fractional frequency difference of $(-2.0\pm(3.7)_\mathrm{stat}\pm(0.9)_\mathrm{sys})\times10^{-18}$, where `stat' and `sys' indicate statistical and systematic uncertainty, respectively.
翻訳日:2023-01-09 18:14:02 公開日:2022-12-09
# アナログ量子シミュレータにおける量子アドバンテージと誤差の安定性

Quantum advantage and stability to errors in analogue quantum simulators ( http://arxiv.org/abs/2212.04924v1 )

ライセンス: Link先を確認
Rahul Trivedi, Adrian Franco Rubio, J. Ignacio Cirac(参考訳) いくつかの量子ハードウェアプラットフォームは完全なフォールトトレラント量子計算を実行できないが、多体問題に対処するためのアナログ量子シミュレータとして動作する。 しかし、エラーがあるため、これらのデバイスが従来のコンピュータに対してどの程度の利点を提供できるかは明らかではない。 本研究では,多体系の物理特性を平衡と動作力学の両方で計算するために,雑音型アナログ量子シミュレータの利用を検討する。 まず,広範な誤差に対する安定性のシステムサイズ独立な概念を定式化し,ガウスフェルミオンモデルおよび制限されたスピン系のクラスについて証明した。 注目すべきことに、ガウスフェルミオンモデルでは、長距離相関を持つゼロ温度における臨界(ギャップレス)モデルの安定性を示す。 さらに, この安定性は, 定常誤差率の存在下で, 明示的な誤差補正を伴わずに多体模型の熱力学的限界を計算する問題に対して, 量子的な利点をもたらす可能性がある。

Several quantum hardware platforms, while being unable to perform fully fault-tolerant quantum computation, can still be operated as analogue quantum simulators for addressing many-body problems. However, due to the presence of errors, it is not clear to what extent those devices can provide us with an advantage with respect to classical computers. In this work we consider the use of noisy analogue quantum simulators for computing physically relevant properties of many-body systems both in equilibrium and undergoing dynamics. We first formulate a system-size independent notion of stability against extensive errors, which we prove for Gaussian fermion models, as well as for a restricted class of spin systems. Remarkably, for the Gaussian fermion models, our analysis shows the stability of critical (gapless) models at zero temperature which have long-range correlations. Furthermore, we analyze how this stability may lead to a quantum advantage, for the problem of computing the thermodynamic limits of many-body models, in the presence of a constant error rate and without any explicit error correction.
翻訳日:2023-01-09 17:31:51 公開日:2022-12-09
# 言語モデルに触発された量子状態トモグラフィ

Quantum State Tomography Inspired by Language Modeling ( http://arxiv.org/abs/2212.04940v1 )

ライセンス: Link先を確認
Lu Zhong and Chu Guo and Xiaoting Wang(参考訳) 量子状態トモグラフィーは未知の量子状態を完全に特徴づける基本的なツールである。 量子ハードウェアのサイズが大きくなるにつれて、量子状態の標準トモグラフィーは、その指数関数的に増加する複雑さのために、ますます困難になる。 本研究では,未知の量子状態が未知の言語として扱われ,量子状態の相関がこの言語特有の意味情報として解釈され,測定結果が単に言語から生成されたテキストインスタンスであるような言語モデリングタスクとして,状態トモグラフィーを考慮し,スケーラブルな解を提案する。 言語モデルからカスタマイズされたトランスフォーマモデルに基づき,本手法は最先端の手法よりも少ないサンプルを用いて,原型的および混合量子状態を正確に再現できることを実証する。 さらに重要なことは、未知の状態ごとにモデルをトレーニングする必要がある既存のニューラルネットワーク手法と比較して、類似した状態のクラスを同時に再構築することができることである。

Quantum state tomography is an elementary tool to fully characterize an unknown quantum state. As the quantum hardware scales up in size, the standard quantum state tomography becomes increasingly challenging due to its exponentially growing complexity. In this work, we propose a scalable solution by considering state tomography as a language modeling task, where the unknown quantum state is treated as an unknown language, the correlation of the quantum state is interpreted as the semantic information specific to this language, and the measurement outcomes are simply the text instances generated from the language. Based on a customized transformer model from language modeling, we demonstrate that our method can accurately reconstruct prototypical pure and mixed quantum states using less samples than state-of-the-art methods. More importantly, our method can reconstruct a class of similar states simultaneously, in comparison with the existing neural network methods that need to train a model for each unknown state.
翻訳日:2023-01-09 17:31:36 公開日:2022-12-09
# マルコフ性および非マルコフ性による量子力学の識別

Distinguishing quantum dynamics via Markovianity and Non-Markovianity ( http://arxiv.org/abs/2212.04982v1 )

ライセンス: Link先を確認
Yi Zuo, Qinghong Yang, and Banggui Liu(参考訳) 様々な量子力学を研究するためには、異なる量子力学を検出し区別する効果的な方法を開発することが重要である。 共通の非分解アプローチは、補助系(ancilla)を標的系に結合し、ancillaのみを測定することである。 これにより、ターゲットシステムは、アンシラの環境となる。 したがって、ターゲットシステムの異なる量子力学は、異なる環境特性に対応する。 本研究では,異なる種類の量子力学,すなわち局所化,非局在化,デファスメントダイナミクスを提示するxxスピン鎖を解析的に研究し,マルコビアン性と非マルコビアン性(非マルコビアン性)の接続を構築する。 XX 鎖に結合した qubit に対して、投影法により qubit の還元密度行列を導出した。 さらに、XX連鎖に雑音が導入されたとき、オープンシステム間相互作用図(ディラック間相互作用図の修正)を導入して投影法を一般化した。 量子ビットの還元密度行列を解析的および数値的に計算することにより,境界効果が考慮されない場合,非局在化(局所化)鎖はマルコフ型(非マルコフ型)浴に対応し,浴としてノイズを強調する鎖の特徴は強調強度に依存することがわかった。 3種類の量子力学は、量子ビットのみを測定することで区別することができる。

To study various quantum dynamics, it is important to develop effective methods to detect and distinguish different quantum dynamics. A common non-demolition approach is to couple an auxiliary system (ancilla) to the target system, and to measure the ancilla only. By doing so, the target system becomes an environment for the ancilla. Thus, different quantum dynamics of target systems will correspond to different environment properties. Here, we analytically study XX spin chains presenting different kinds of quantum dynamics, namely localized, delocalized, and dephasing dynamics, and build connections between Markovianity and non-Markovianity - the two most common properties of an environment. For a qubit coupled to the XX chain, we derived the reduced density matrix of the qubit through the projection method. Furthermore, when dephasing noise was introduced to the XX chain, we generalized the projection method by introducing an open-system interaction picture - a modification of the Dirac interaction picture. By calculating the reduced density matrix for the qubit analytically and numerically, we found that the delocalized (localized) chain corresponds to the Markovian (non-Markovian) bath when boundary effects are not considered, and the feature of the chain with dephasing noise as a bath is dependent on the dephasing strength. The three kinds of quantum dynamics can be distinguished by measuring the qubit only.
翻訳日:2023-01-09 17:31:12 公開日:2022-12-09
# テンソルネットワークデコーダを用いたパウリ雑音に対する量子符号化のための低深さランダムクリフォード回路

Low-depth random Clifford circuits for quantum coding against Pauli noise using a tensor-network decoder ( http://arxiv.org/abs/2212.05071v1 )

ライセンス: Link先を確認
Andrew S. Darmawan, Yoshifumi Nakata, Shiro Tamiya, Hayata Yamasaki(参考訳) 最近の研究 (M. J. Gullans et al., Physical Review X, 11(3):031066 (2021)] は、ランダムなクリフォード符号化回路によって定義された量子誤り訂正符号は、1つの空間次元(1D)に埋め込まれた$n$ qubits上のランダムな回路が対数深さ$d=\mathcal{O}(\log{n})$を持つ場合でも、誤りを補正する非ゼロ符号化率が得られることを示した。 しかし、これは単純な消去ノイズモデルでのみ実証された。 本研究では,従来のパウリ雑音モデルに対して,この所望の特性が実際に成り立つことを明らかにする。 具体的には、回路の深さが様々な強さのノイズを非分極化するために1dで$d=\mathcal{o}(\log n)$に制限された場合でも、$d=\mathcal{o}(n)$-depth random encoding回路で達成されることで知られているハッシュバウンド、すなわちハッシュバウンドが達成できることを数値的に証明する。 この解析は1Dで$$\log$-depth符号化回路を効率的に動作させるテンソルネットワーク最大形復号アルゴリズムの開発によって可能となった。

Recent work [M. J. Gullans et al., Physical Review X, 11(3):031066 (2021)] has shown that quantum error correcting codes defined by random Clifford encoding circuits can achieve a non-zero encoding rate in correcting errors even if the random circuits on $n$ qubits, embedded in one spatial dimension (1D), have a logarithmic depth $d=\mathcal{O}(\log{n})$. However, this was demonstrated only for a simple erasure noise model. In this work, we discover that this desired property indeed holds for the conventional Pauli noise model. Specifically, we numerically demonstrate that the hashing bound, i.e., a rate known to be achieved with $d=\mathcal{O}(n)$-depth random encoding circuits, can be attained even when the circuit depth is restricted to $d=\mathcal{O}(\log n)$ in 1D for depolarizing noise of various strengths. This analysis is made possible with our development of a tensor-network maximum-likelihood decoding algorithm that works efficiently for $\log$-depth encoding circuits in 1D.
翻訳日:2023-01-09 17:30:09 公開日:2022-12-09
# 超伝導量子ビットにおける測定誘起状態遷移:回転波近似内

Measurement-Induced State Transitions in a Superconducting Qubit: Within the Rotating Wave Approximation ( http://arxiv.org/abs/2212.05097v1 )

ライセンス: Link先を確認
Mostafa Khezri, Alex Opremcak, Zijun Chen, Andreas Bengtsson, Theodore White, Ofer Naaman, Rajeev Acharya, Kyle Anderson, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Joseph C. Bardin, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Juan Campero, Ben Chiaro, Roberto Collins, Alexander L. Crook, Ben Curtin, Sean Demura, Andrew Dunsworth, Catherine Erickson, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Brooks Foxen, Gonzalo Garcia, William Giang, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Michael C. Hamilton, Sean D. Harrington, Paula Heu, Jeremy Hilton, Markus R. Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, Justin Iveland, Evan Jeffrey, Julian Kelly, Seon Kim, Paul V. Klimov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Lily Laws, Kenny Lee, Brian J. Lester, Alexander T. Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Steven Martin, Matt McEwen, Anthony Megrant, Xiao Mi, Kevin C. Miao, Shirin Montazeri, Alexis Morvan, Matthew Neeley, Charles Neill, Ani Nersisyan, Jiun How Ng, Anthony Nguyen, Murray Nguyen, Rebecca Potter, Chris Quintana, Charles Rocque, Pedram Roushan, Kannan Sankaragomathi, Kevin J. Satzinger, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Jindra Skruzny, W. Clarke Smith, George Sterling, Marco Szalay, Douglas Thor, Alfredo Torres, Bryan W. K. Woo, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Ningfeng Zhu, Nicholas Zobrist, Daniel Sank, Alexander Korotkov, Yu Chen, Vadim Smelyanskiy(参考訳) 超伝導量子ビットは通常、共振器が量子ビットに結合され、周波数が量子ビット状態に依存する分散読み出しスキームを用いる。 共振器を駆動して測定を行い、送信された共振器フィールドが共振器周波数および量子ビット状態に関する情報を得る。 理想的には、任意に強い共振器駆動を用いて、最短時間で目標信号と雑音の比を達成できる。 しかし、実験により、平均共振器光子数が一定の閾値を超えると、量子ビットはその計算部分空間から励起され、これは測定誘起状態遷移と呼ばれる。 これらの遷移は読み出しフィリティを低下させ、例えば誤り訂正においてキュービットのさらなる操作を妨げるリークを構成する。 ここでは、共振器周波数がキュービット周波数よりも低い状態において、量子ビット周波数、平均光子数、および量子状態への依存性を実験的に測定することにより、これらの遷移について検討する。 繰り返し測定された場合, 雑音挙動を示す結合量子共振器システムにおいて, レベル間の共振遷移のシグネチャを観測する。 我々は、回転波近似に基づいて、これらの遷移の半古典モデルを提供し、それを用いて、実験における状態遷移の開始を予測する。 以上の結果から, トランスモンは状態遷移後のコサイン電位の頂点付近のレベルに励起され, より高いトランスモン準位の電荷分散が観測された状態遷移のノイズ挙動を説明することが示唆された。 さらに、これらの高いエネルギーレベルの占有は、高速な量子ビットリセットにとって大きな課題となる。

Superconducting qubits typically use a dispersive readout scheme, where a resonator is coupled to a qubit such that its frequency is qubit-state dependent. Measurement is performed by driving the resonator, where the transmitted resonator field yields information about the resonator frequency and thus the qubit state. Ideally, we could use arbitrarily strong resonator drives to achieve a target signal-to-noise ratio in the shortest possible time. However, experiments have shown that when the average resonator photon number exceeds a certain threshold, the qubit is excited out of its computational subspace, which we refer to as a measurement-induced state transition. These transitions degrade readout fidelity, and constitute leakage which precludes further operation of the qubit in, for example, error correction. Here we study these transitions using a transmon qubit by experimentally measuring their dependence on qubit frequency, average photon number, and qubit state, in the regime where the resonator frequency is lower than the qubit frequency. We observe signatures of resonant transitions between levels in the coupled qubit-resonator system that exhibit noisy behavior when measured repeatedly in time. We provide a semi-classical model of these transitions based on the rotating wave approximation and use it to predict the onset of state transitions in our experiments. Our results suggest the transmon is excited to levels near the top of its cosine potential following a state transition, where the charge dispersion of higher transmon levels explains the observed noisy behavior of state transitions. Moreover, occupation in these higher energy levels poses a major challenge for fast qubit reset.
翻訳日:2023-01-09 17:29:37 公開日:2022-12-09
# 駆動散逸Kerr共振器における損失と非線形性の合同量子推定

Joint quantum estimation of loss and nonlinearity in driven-dissipative Kerr resonators ( http://arxiv.org/abs/2212.05117v1 )

ライセンス: Link先を確認
Muhammad Asjad, Berihu Teklu, and Matteo G. A. Paris(参考訳) 損失の存在下でのコヒーレント駆動非線形カー共振器のマルチパラメータ量子推定に対処する。 特に、興味のあるパラメータが損失率と非線形結合である現実的状況について考察し、一方、コヒーレント駆動の振幅は既知の外部調整可能である。 その結果,このモデルが漸近的に古典的であること,すなわちuulmann曲率が消失し,量子起源のノイズを伴わずに2つのパラメータを共同で推定できることがわかった。 また,量子フィッシャー情報(qfi)によって定量化された精度に対する究極のバウンドは,両パラメータの相互作用時間と駆動振幅とともに増加することがわかった。 最後に,2次検出の性能について検討し,両パラメータに対してフィッシャー情報が時間的に振動し,対応するQFIに繰り返し接近することを示す。

We address multiparameter quantum estimation for coherently driven nonlinear Kerr resonators in the presence of loss. In particular, we consider the realistic situation in which the parameters of interest are the loss rate and the nonlinear coupling, whereas the amplitude of the coherent driving is known and externally tunable. Our results show that this driven-dissipative model is asymptotically classical, i.e. the Uhlmann curvature vanishes, and the two parameters may be jointly estimated without any additional noise of quantum origin. We also find that the ultimate bound to precision, as quantified by the quantum Fisher information (QFI), increases with the interaction time and the driving amplitude for both parameters. Finally, we investigate the performance of quadrature detection, and show that for both parameters the Fisher information oscillates in time, repeatedly approaching the corresponding QFI.
翻訳日:2023-01-09 17:29:11 公開日:2022-12-09
# 単一モード動作制約下におけるボソニック量子インタフェースのキャラクタリゼーションと最適化

Characterization and optimized engineering of bosonic quantum interfaces under single-mode operational constraints ( http://arxiv.org/abs/2212.05134v1 )

ライセンス: Link先を確認
Pak-Tik Fong, Sheung Chi Poon, Hoi-Kwan Lau(参考訳) 量子情報処理の無数の実装において、2つのボソニックモード間の量子インターフェースを制御することが不可欠である。 しかし、物理的な制限のため、ほとんどのプラットフォームで完全な制御性が達成されることはまれである。 本研究では,単モード操作のみが可能な最も悲観的な制約の下で,線形2モードインタフェースを完全に特徴付ける。 任意の単一モード操作を両モードに適用できる場合、全てのインタフェースは不変伝達強度によって特徴づけられることが分かる。 一方, スクイージングが1つのモードに制限されているという現実的な状況では, 許容可能な制御下で不変な2つの追加量, 既約スクイージングと既約せん断を発見した。 この特性を用いて,複数の固定コンポーネントインターフェースをカスケードすることで任意のインターフェースを設計できる体系的戦略を開発した。 制限を絞ることなく、プロトコルは最適であり、少なくとも3つのコンポーネントインターフェースが必要です。 スクイーズ制約の下では、我々のプロトコルはカスケードのラウンドを2つ以上使わずに追加の不変量も設計できるように拡張できる。 また,アクティブ補助モードとのインタフェースにより,スクイーズ制限に取り組むためのリモートスクイーズスキームを提案する。

Controlling the quantum interface between two bosonic modes is essential in countless implementations of quantum information processing. However, full controllability is rarely achieved in most platforms due to specific physical limitations. In this work, we completely characterize the linear two-mode interfaces under the most pessimistic restriction that only single-mode operation is available. When arbitrary single-mode operations can be applied to both modes, we find that every interface can be characterized by an invariant transmission strength. On the other hand, in the practical situation that squeezing is restricted in one of the modes, we discover two additional quantities, irreducible squeezing and irreducible shearing, that are invariant under the allowable controls. By using this characterization, we develop systematic strategies to engineer an arbitrary interface through cascading multiple fixed component interfaces. Without squeezing restriction, our protocol is optimal and requires at most three component interfaces. Under the squeezing constraint, our protocol can be extended to engineer also the additional invariants by using no more than two more rounds of cascade. We also propose the remote squeezing scheme to tackle the squeezing restriction through interfacing with an active auxiliary mode.
翻訳日:2023-01-09 17:28:55 公開日:2022-12-09
# 双極子-双極子相互作用による散逸キャビティ中の2つのV型原子の絡み合いの保護

Protecting Entanglement of Two V-type Atoms in Dissipative Cavity by Dipole-Dipole Interaction ( http://arxiv.org/abs/2212.04650v1 )

ライセンス: Link先を確認
Jia Wang and Dan Long and Qilin Wang and Hong-Mei Zou and Chenya Liu and Qianqian Ma(参考訳) 本研究では,2つのV型原子が共振性単一モードキャビティと相互作用し,外部環境と結合する結合系について検討する。 まず, 散逸キャビティのハミルトニアンを対角化するために, 定理ファノに従って新たな生成および消滅作用素の集合を導入する。 そして、時間依存シュロディンガー方程式を解くことにより、このモデルの解析解を得る。 また, 共振器-環境結合, SGIパラメータ, 初期状態, 両原子間の双極子-双極子相互作用が絡み合いのダイナミクスに与える影響についても詳細に検討した。 その結果、sgiパラメータが増加すると、エンタングルメントは初期最大エンタングル状態においてより早く崩壊するが、初期部分エンタングル状態では遅くなることが示された。 初期積状態の場合、SGIパラメータが大きいほど、より絡み合いが生じます。 強結合はある程度は絡み合いを保護できるが、双極子-双極子相互作用は絡み合いを著しく保護することができる。 さらに、双極子-双極子相互作用は、エンタングルメントを非常に効果的に生成するだけでなく、初期部分エンタングルドおよび生成物状態のエンタングルメントに対する {\theta} の規制効果を高めることができる。

In this work, we study a coupled system of two V-type atoms interacting with a dissipative single-mode cavity, which couples with an external environment. Firstly, in order to diagonalize Hamiltonian of dissipative cavity, we introduce a set of new creation and annihilation operators according to theorem Fano. Then, we obtain the analytical solution of this model by solving the time dependent Schrodinger equation. We also discuss in detail the influences of the cavity-environment coupling, the SGI parameter, the initial state and the dipole-dipole interaction between the two atoms on entanglement dynamics. The results show that, with the SGI parameter increasing, the entanglement will decay quicker for the initially maximal entangled state but it will decay slower for the initially partial entangled state. For the initially product state, the larger the SGI parameter, the more entanglement will be generated. The strong coupling can protect entanglement to some extent, but the dipole-dipole interaction can significantly protect entanglement. Moreover, the dipole-dipole interaction can not only generate entanglement very effectively, but also enhance the regulation effect of {\theta} on entanglement for the initially partial entangled and product states.
翻訳日:2023-01-09 17:22:18 公開日:2022-12-09
# 原子間力顕微鏡による近接場光子の走査による量子センシング

Quantum Sensing with Scanning Near-Field Optical Photons Scattered by an Atomic-Force Microscope Tip ( http://arxiv.org/abs/2212.04678v1 )

ライセンス: Link先を確認
Soheil Khajavi, Zahra Shaterzadeh-Yazdi, Ali Eghrari, Mohammad Neshat(参考訳) 散乱走査近接場光学顕微鏡(s-SNOM)は、アブベ回折限界を克服し、分光画像における空間分解能を大幅に向上させる有望な技術として知られている。 s-SNOMは原子間力顕微鏡(AFM)の先端を光学電磁場(EM)に露光し、先端は試料に非常に近いため、入射ビームは近接場状態内にあり、非線形挙動を示す。 我々は、入射場を量子化されたEM場、すなわち光子で置き換えることを提案し、電気双極子近似、画像理論、摂動理論を用いて提案する系の量子モデルを提案する。 AFM先端から散乱した光子の量子状態は, 先端下にある誘電体材料の誘電率に関する情報を含む提案モデルから抽出される。 試料の誘電率は分光学的セットアップによって抽出できる。 提案手法は高分解能の量子イメージングや量子分光に利用できる。

Scattering scanning near-field optical microscopy (s-SNOM) is known as a promising technique for overcoming Abbe diffraction limit and substantially enhancing the spatial resolution in spectroscopic imaging. The s-SNOM works by exposing an atomic force microscope (AFM) tip to an optical electromagnetic (EM) field, while the tip is so close to a sample that the incident beam lies within the near-field regime and displays nonlinear behaviour. We suggest replacing the incident field by quantized EM fields, i.e. photons, and propose a quantum model for the suggested system, by employing electric-dipole approximation, image theory, and perturbation theory. Quantum state of scattered photons from the AFM tip is extracted from the proposed model, which contain information about electrical permittivity of the dielectric material beneath the tip. The permittivity of the sample can be extracted through spectroscopic setups. Our proposed scheme can be used for quantum imaging or quantum spectroscopy with high resolution.
翻訳日:2023-01-09 17:21:54 公開日:2022-12-09
# ベルの不等式の実験的検討:Alain Aspectによる一手記

Experimental tests of Bell's inequalities: A first-hand account by Alain Aspect ( http://arxiv.org/abs/2212.04737v1 )

ライセンス: Link先を確認
William D. Phillips and Jean Dalibard(参考訳) 2022年10月04日、スウェーデン王立科学アカデミーは2022年のノーベル物理学賞をアラン・アスペクト、ジョン・クロージャー、アントン・ツァイリンガーに「絡み合った光子の実験、ベルの不等式違反の確立、量子情報科学の先駆者」に授与したと発表した。 以下は2022年の夏にビル・フィリップスとジャン・ダリバードによって行われたアラン・アスペクトのインタビューであり、ノーベル賞の発表の少し前に完成した。 テーマは基本的にノーベル賞が授与されたことである。

On 04 October 2022, the Royal Swedish Academy of Sciences announced that the Nobel Prize for Physics of 2022 was awarded jointly to Alain Aspect, John Clauser, and Anton Zeilinger "for experiments with entangled photons, establishing the violation of Bell inequalities and pioneering quantum information science". What follows is an interview of Alain Aspect, conducted by Bill Phillips and Jean Dalibard, during the summer of 2022, and completed not long before the announcement of the Nobel Prize. The subject matter is essentially that for which the Nobel Prize was awarded.
翻訳日:2023-01-09 17:21:36 公開日:2022-12-09
# 衛星による量子鍵分布の現実的脅威モデル

Realistic Threat Models for Satellite-Based Quantum Key Distribution ( http://arxiv.org/abs/2212.04807v1 )

ライセンス: Link先を確認
Masoud Ghalaii and Sima Bahrani and Carlo Liorni and Federico Grasselli and Hermann Kampermann and Lewis Wooltorton and Rupesh Kumar and Stefano Pirandola and Timothy P. Spiller and Alexander Ling and Bruno Huttner and Mohsen Razavi(参考訳) 制限された盗聴シナリオ下での衛星による量子鍵分布(qkd)のセキュリティ対策について述べる。 特に、盗聴器であるイヴがアリスやボブの受信局によって送信された信号に限られている場合を考える。 この制限は、alice/bobとeveの間の損失チャネルによってモデル化される。 このような損失チャネルのアーティファクトは、eveではアクセスできないが、必ずしもユーザによって特徴付けられるものではないバイパスチャネルを持つ可能性がある。 これはQKDのセキュリティを分析する興味深いシナリオを生み出します。 本稿では、バイパスチャネルの存在下での鍵レートの一般的な境界を求め、直接および逆整合を伴うガウス符号化を用いた連続可変QKDプロトコルに適用する。 上述したEveの制限がシステム性能を大幅に改善できるような運用体制を見いだす。 また、bb84ファミリー内のいくつかのプロトコルのカスタマイズされた境界を開発し、特定のレジームにおいて、弱いコヒーレントパルスを持つbb84の単純なプロトコルでさえ、高チャネル損失で正の鍵レートを提供できることを示した。 この場合、イブ上の制限により、アリスは理想イブの下で最適な値よりも大きな強度の信号を送ることができ、効果的チャネル損失を効果的に低減できる。 これらの場合、Eveに届かない送信信号の一部が、達成可能なキーレートを指定する際には、非自明な役割を果たす。 我々の研究は、宇宙で動く量子通信システムのための新しいセキュリティフレームワークを開放する。

The security of prepare-and-measure satellite-based quantum key distribution (QKD), under restricted eavesdropping scenarios, is addressed. We particularly consider cases where the eavesdropper, Eve, has limited access to the transmitted signal by Alice, and/or Bob's receiver station. This restriction is modeled by lossy channels between Alice/Bob and Eve, where the transmissivity of such channels can, in principle, be bounded by monitoring techniques. An artefact of such lossy channels is the possibility of having bypass channels, those which are not accessible to Eve, but may not necessarily be characterized by the users either. This creates interesting, {\it unexplored}, scenarios for analyzing QKD security. In this paper, we obtain generic bounds on the key rate in the presence of bypass channels and apply them to continuous-variable QKD protocols with Gaussian encoding with direct and reverse reconciliation. We find regimes of operation in which the above restrictions on Eve can considerably improve system performance. We also develop customised bounds for several protocols in the BB84 family and show that, in certain regimes, even the simple protocol of BB84 with weak coherent pulses is able to offer positive key rates at high channel losses, which would otherwise be impossible under an unrestricted Eve. In this case the limitation on Eve would allow Alice to send signals with larger intensities than the optimal value under an ideal Eve, which effectively reduces the effective channel loss. In all these cases, the part of the transmitted signal that does not reach Eve can play a non-trivial role in specifying the achievable key rate. Our work opens up new security frameworks for spaceborne quantum communications systems.
翻訳日:2023-01-09 17:21:24 公開日:2022-12-09
# 量子ビットアレイにおける制御可能性のグラフテスト:最小外部制御数を決定する体系的方法

Graph test of controllability in qubit arrays: A systematic way to determine the minimum number of external controls ( http://arxiv.org/abs/2212.04828v1 )

ライセンス: Link先を確認
Fernando Gago-Encinas, Monika Leibscher, and Christiane P. Koch(参考訳) 量子処理ユニットに所望の量子論理ゲートを実装する能力は、量子ビットの進化操作制御性と同値である。 逆に、制御可能性解析は、普遍量子コンピューティングに必要な外部制御と量子ビット結合の数を最小化するために用いられる。 しかし、動的リー代数を構成する標準可制御性解析は、比較的少数の量子ビットに対して既に非現実的である。 ここでは、ハミルトニアンのグラフ表現に基づいて、結合された量子ビットの配列の可制御性を決定する方法を示す。 我々は、完全な計算フレームワークを提供し、ibmq_quitoアーキテクチャにインスパイアされた5つのキュービットの配列を例示する。 複雑な量子ビット結合では制御数を5から1に減らし、標準量子ビット結合では2に減らすことができる。

The ability to implement any desired quantum logic gate on a quantum processing unit is equivalent to evolution-operator controllability of the qubits. Conversely, controllability analysis can be used to minimize the resources, i.e., the number of external controls and qubit-qubit couplings, required for universal quantum computing. Standard controllability analysis, consisting in the construction of the dynamical Lie algebra, is, however, impractical already for a comparatively small number of qubits. Here, we show how to leverage an alternative approach, based on a graph representation of the Hamiltonian, to determine controllability of arrays of coupled qubits. We provide a complete computational framework and exemplify it for arrays of five qubits, inspired by the ibmq_quito architecture. We find that the number of controls can be reduced from five to one for complex qubit-qubit couplings and to two for standard qubit-qubit couplings.
翻訳日:2023-01-09 17:20:58 公開日:2022-12-09
# 動的デカップリングにおける連続的問合せによる測定精度の向上

Enhanced measurement precision with continuous interrogation during dynamical decoupling ( http://arxiv.org/abs/2212.04829v1 )

ライセンス: Link先を確認
Jun Zhang, Peng Du, Lei Jing, Peng Xu, Li You, Wenxian Zhang(参考訳) 動的デカップリング(DD)は通常、直流測定では効果がない。 単純な実装では、DDはノイズを抑えながらDC信号も無効にする。 本研究は,多くのDDサイクル上で連続的にDC信号を問うことができる位相リレー法(PRM)を提案する。 原子スピノルBose-Einstein凝縮体を用いた弱い直流磁場の測定に応用した場合の有効性を述べる。 標準量子限界(sql)またはハイゼンベルク極限(hl)に接近する感度は、それぞれ10,000原子のコヒーレントスピン状態(css)またはスクイーズスピン状態(sss)に対して可能であり、周囲実験室レベルのノイズはddによって抑制される。 本研究は,直流計測に対するddの限界を緩和するための実用的なアプローチを提供し,量子センシングや量子情報処理研究におけるコヒーレンスを活用するための他の応用を期待する。

Dynamical decoupling (DD) is normally ineffective when applied to DC measurement. In its straightforward implementation, DD nulls out DC signal as well while suppressing noise. This work proposes a phase relay method (PRM) that is capable of continuously interrogating the DC signal over many DD cycles. We illustrate its efficacy when applied to measurement of a weak DC magnetic field with an atomic spinor Bose-Einstein condensate. Sensitivities approaching standard quantum limit (SQL) or Heisenberg limit (HL) are potentially realizable for a coherent spin state (CSS) or a squeezed spin state (SSS) of 10,000 atoms respectively, while ambient laboratory level noise is suppressed by DD. Our work offers a practical approach to mitigate the limitations of DD to DC measurement and will like find other applications for resorting coherence in quantum sensing and quantum information processing research.
翻訳日:2023-01-09 17:20:41 公開日:2022-12-09
# 測定に基づく損失許容度を最適化するグラフ符号

Optimising graph codes for measurement-based loss tolerance ( http://arxiv.org/abs/2212.04834v1 )

ライセンス: Link先を確認
Tom J. Bell, Love A. Pettersson, Stefano Paesani(参考訳) グラフ符号は、支配的なノイズ機構である量子ビットロスに対する重大な保護を提供するため、フォトニック量子技術において重要な役割を果たす。 そこで我々は,任意のグラフ符号に対するキュービット損失と計算誤差に対する測定に基づく耐性の解析と最適化手法を開発した。 これらのツールを使用して、最大12キュービットの最適化コードと漸近的に大きなモジュラ構造を識別する。 本稿では,量子通信のための新しい全フォトニック量子リピータ状態と,フォールトトレラント量子コンピューティングのための強固な核融合に基づくスキームについて述べる。

Graph codes play an important role in photonic quantum technologies as they provide significant protection against qubit loss, a dominant noise mechanism. Here, we develop methods to analyse and optimise measurement-based tolerance to qubit loss and computational errors for arbitrary graph codes. Using these tools we identify optimised codes with up to 12 qubits and asymptotically-large modular constructions. The developed methods enable significant benefits for various photonic quantum technologies, as we illustrate with novel all-photonic quantum repeater states for quantum communication and high-threshold fusion-based schemes for fault-tolerant quantum computing.
翻訳日:2023-01-09 17:20:24 公開日:2022-12-09
# 重ね合わせのない量子絡み合い

Quantum entanglement without superposition ( http://arxiv.org/abs/2212.04857v1 )

ライセンス: Link先を確認
Hans Christian \"Ottinger(参考訳) 重ね合わせ状態は量子力学における多くのパラドックスの起源である。 密度行列に対するフォン・ノイマン方程式を解いて、量子力学の重ね合わせのない定式化を開発する。 確率的量子ジャンプは、決定論的シュリンガー方程式の連続性とは対照的に、このアプローチの重要な特徴である。 量子絡み合いの発生方法を説明する。 重ね合わせのない定式化の結果は、量子力学の新しい視点を提供する。

Superposition states are at the origin of many paradoxes in quantum mechanics. By unraveling the von Neumann equation for density matrices, we develop a superposition-free formulation of quantum mechanics. Stochastic quantum jumps are a key feature of this approach, in blatant contrast with the continuity of the deterministic Schr\"odinger equation. We explain how quantum entanglement arises. Our superposition-free formulation results offers a new perspective on quantum mechanics.
翻訳日:2023-01-09 17:20:11 公開日:2022-12-09
# 分類と平滑度解析による自動神経リハビリテーションの簡易化

Easing Automatic Neurorehabilitation via Classification and Smoothness Analysis ( http://arxiv.org/abs/2212.14797v1 )

ライセンス: Link先を確認
Asma Bensalah, Alicia Forn\'es, Cristina Carmona-Duarte, and Josep Llad\'os(参考訳) 全患者に標準的な脳卒中リハビリテーション計画がないため, 回復期における術後患者の運動の質を評価することが不可欠である。 実際、それは基本的に患者の機能的自立とリハビリテーションセッションの進行に依存する。 この課題に取り組み,よりアジャイルなニューロリハビリテーションを実現するために,我々は,浅いディープラーニングアーキテクチャを用いて患者の動きを認識し,ジェルク測度と関連する尺度を用いて運動品質を測定することから始まる自動評価パイプラインを提案する。 この研究の特筆すべき点は、Fugl-Meyerからインスパイアされた動きを、脳卒中患者によく見られる上肢臨床脳卒中評価尺度として表現するため、使用されるデータセットが臨床的に関連していることである。 その結果,各症例のリハビリテーションセッションにおける患者の進行状況に関する結論を得るとともに,滑らかさの観点から健常者と患者の動きのコントラストを検出することが可能であった。

Assessing the quality of movements for post-stroke patients during the rehabilitation phase is vital given that there is no standard stroke rehabilitation plan for all the patients. In fact, it depends basically on the patient's functional independence and its progress along the rehabilitation sessions. To tackle this challenge and make neurorehabilitation more agile, we propose an automatic assessment pipeline that starts by recognizing patients' movements by means of a shallow deep learning architecture, then measuring the movement quality using jerk measure and related measures. A particularity of this work is that the dataset used is clinically relevant, since it represents movements inspired from Fugl-Meyer a well common upper-limb clinical stroke assessment scale for stroke patients. We show that it is possible to detect the contrast between healthy and patients movements in terms of smoothness, besides achieving conclusions about the patients' progress during the rehabilitation sessions that correspond to the clinicians' findings about each case.
翻訳日:2023-01-09 16:27:29 公開日:2022-12-09
# マルチプレイヤーナッシュ平衡のための高速完全アルゴリズム

Fast Complete Algorithm for Multiplayer Nash Equilibrium ( http://arxiv.org/abs/2002.04734v9 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) 本稿では,多人数汎用ゲームにおけるnash均衡を計算するための新しい完全アルゴリズムについて述べる。 このアルゴリズムは,いくつかのゲームクラスにおいて,先行する最速の完全アルゴリズムよりもかなり高速に動作し,その実行時が最高の不完全アルゴリズムよりも優れていることを実証する。

We describe a new complete algorithm for computing Nash equilibrium in multiplayer general-sum games, based on a quadratically-constrained feasibility program formulation. We demonstrate that the algorithm runs significantly faster than the prior fastest complete algorithm on several game classes previously studied and that its runtimes even outperform the best incomplete algorithms.
翻訳日:2023-01-02 02:49:45 公開日:2022-12-09
# インドの選挙のためのAIによるVVPATカウンタ

An AI-Powered VVPAT Counter for Elections in India ( http://arxiv.org/abs/2212.11124v1 )

ライセンス: Link先を確認
Prasath Murugesan, Shamshu Dharwez Saganvali(参考訳) インド選挙委員会は2019年以来、Voter Verified Paper Audit Trailを導入している。 このメカニズムは、投票時に有権者の信頼度を高めた。 しかしながら、EVMからの政党レベルの数に対するVVPATの物理的検証は、選挙区ごとの5(ランダムに選択された)マシンでのみ行われる。 物理的な検証を行うのに必要な時間は、すべての選挙区で100%のマシンでこのアクティビティをスケールする際のボトルネックとなる。 我々は、画像処理と機械学習アルゴリズムを利用した自動カウンタを提案し、プロセスの高速化とこの問題に対処した。

The Election Commission of India has introduced Voter Verified Paper Audit Trail since 2019. This mechanism has increased voter confidence at the time of casting the votes. However, physical verification of the VVPATs against the party level counts from the EVMs is done only in 5 (randomly selected) machines per constituency. The time required to conduct physical verification becomes a bottleneck in scaling this activity for 100% of machines in all constituencies. We proposed an automated counter powered by image processing and machine learning algorithms to speed up the process and address this issue.
翻訳日:2022-12-25 03:03:29 公開日:2022-12-09
# Moto: 中国語テキスト分類のための複数要素による埋め込みの強化

Moto: Enhancing Embedding with Multiple Joint Factors for Chinese Text Classification ( http://arxiv.org/abs/2212.08105v1 )

ライセンス: Link先を確認
Xunzhu Tang and Rujie Zhu and Tiezhu Sun and Shi Wang(参考訳) 近年,言語表現技術はテキスト分類において大きな成果を上げている。 しかし、既存の表現モデルは英語の資料用に特別に設計されており、この2つの言語に大きな違いがあるため、中国語では失敗する可能性がある。 実際には、中国語のテキスト分類処理を単一レベルで行う方法はほとんどない。 しかし、特殊なヒエログリフィクスとして、漢字のラディカルはセマンティックキャリアとして優れている。 さらに、Pinyin符号はトーンの意味を持ち、Wubi はストローク構造情報である \textit{etc} を反映する。 残念なことに、以前の研究ではこれらの4つの因子の有用な部分を蒸留し、それらを融合させる効果的な方法を見つけられなかった。 本稿では,Moto: Enhancing Embedding with \textbf{M}ultiple J\textbf{o}int Fac\textbf{to}rsを提案する。 具体的には、上述の4レベル情報をより効果的に融合することにより、有用な部品を蒸留するための注意機構を設計する。 我々は4つの一般的なタスクを広範囲に実験する。 その結果、中国のニュースタイトルではSOTA 0.8316(F_1$-score, 2.11\%改善)、ふだんコーパスでは96.38(1.24\%改善)、THUCNewsでは0.9633(3.26\%改善)を達成した。

Recently, language representation techniques have achieved great performances in text classification. However, most existing representation models are specifically designed for English materials, which may fail in Chinese because of the huge difference between these two languages. Actually, few existing methods for Chinese text classification process texts at a single level. However, as a special kind of hieroglyphics, radicals of Chinese characters are good semantic carriers. In addition, Pinyin codes carry the semantic of tones, and Wubi reflects the stroke structure information, \textit{etc}. Unfortunately, previous researches neglected to find an effective way to distill the useful parts of these four factors and to fuse them. In our works, we propose a novel model called Moto: Enhancing Embedding with \textbf{M}ultiple J\textbf{o}int Fac\textbf{to}rs. Specifically, we design an attention mechanism to distill the useful parts by fusing the four-level information above more effectively. We conduct extensive experiments on four popular tasks. The empirical results show that our Moto achieves SOTA 0.8316 ($F_1$-score, 2.11\% improvement) on Chinese news titles, 96.38 (1.24\% improvement) on Fudan Corpus and 0.9633 (3.26\% improvement) on THUCNews.
翻訳日:2022-12-25 03:03:22 公開日:2022-12-09
# フォトニックニューラルネットワークのデュアルアダプティブトレーニング

Dual adaptive training of photonic neural networks ( http://arxiv.org/abs/2212.06141v1 )

ライセンス: Link先を確認
Ziyang Zheng, Zhengyang Duan, Hang Chen, Rui Yang, Sheng Gao, Haiou Zhang, Hongkai Xiong, Xing Lin(参考訳) フォトニックニューラルネットワーク(PNN)は、電子の代わりに光子を用いて計算し、低レイテンシ、高エネルギー効率、高並列性を特徴とする驚くべきアナログ人工知能(AI)アクセラレータである。 しかし、既存のトレーニング手法では、大規模PNNにおける体系的エラーの広範な蓄積に対処できないため、物理的システムにおけるモデル性能は大幅に低下する。 本稿では、PNNモデルが実質的な系統的エラーに適応し、デプロイメント中にその性能を維持できるデュアル適応トレーニング(DAT)を提案する。 タスク類似性協調最適化による系統的誤り予測ネットワークの導入により、pnn数値モデルと物理システムとの高類似度マッピングと、デュアルバックプロパゲーショントレーニング中の高精度勾配計算を実現する。 画像分類における拡散型PNNと干渉型PNNを用いてDATの有効性を検証した。 datは大規模なpnnの訓練に成功し、エラーフリーシステムと同等のモデルの分類精度を維持した。 その結果,最先端のIn situトレーニングアプローチよりも優れた性能を示した。 DATは、高度なアーキテクチャを実現するために大規模なPNNを構築するための重要なサポートを提供し、アナログコンピューティングエラーのある他のタイプのAIシステムに一般化することができる。

Photonic neural network (PNN) is a remarkable analog artificial intelligence (AI) accelerator that computes with photons instead of electrons to feature low latency, high energy efficiency, and high parallelism. However, the existing training approaches cannot address the extensive accumulation of systematic errors in large-scale PNNs, resulting in a significant decrease in model performance in physical systems. Here, we propose dual adaptive training (DAT) that allows the PNN model to adapt to substantial systematic errors and preserves its performance during the deployment. By introducing the systematic error prediction networks with task-similarity joint optimization, DAT achieves the high similarity mapping between the PNN numerical models and physical systems and high-accurate gradient calculations during the dual backpropagation training. We validated the effectiveness of DAT by using diffractive PNNs and interference-based PNNs on image classification tasks. DAT successfully trained large-scale PNNs under major systematic errors and preserved the model classification accuracies comparable to error-free systems. The results further demonstrated its superior performance over the state-of-the-art in situ training approaches. DAT provides critical support for constructing large-scale PNNs to achieve advanced architectures and can be generalized to other types of AI systems with analog computing errors.
翻訳日:2022-12-14 14:11:35 公開日:2022-12-09
# 生成予測を用いた長距離時系列予測の改善に向けて

Towards Better Long-range Time Series Forecasting using Generative Forecasting ( http://arxiv.org/abs/2212.06142v1 )

ライセンス: Link先を確認
Shiyu Liu, Rohan Ghosh, Mehul Motani(参考訳) 通常、長距離時系列予測は、直接予測と反復予測の2つの既存の予測戦略の1つに基づいており、前者が低バイアス、高分散予測、後者が低分散、高バイアス予測をもたらす。 本稿では,今後数ステップにわたって合成データを生成し,生成および観測データに基づいて長距離予測を行う生成予測(genf)と呼ばれる新しい予測戦略を提案する。 我々は、GenFが予測のばらつきとバイアスのバランスをより良くし、予測誤差をはるかに小さくすることができることを理論的に証明する。 我々は3つのコンポーネントを通してGenFを実装します。 (i)CWGAN-TSと呼ばれる合成時系列データ生成のための新しい条件付きWasserstein Generative Adversarial Network(GAN)ベースのジェネレータ。 (ii) 生成データと観測データの両方を用いて長距離予測を行う変圧器に基づく予測器。 3) CWGAN-TSと変圧器に基づく予測器の両方のトレーニングを改善するための情報理論クラスタリングアルゴリズム。 5つの公開データセットの実験結果は、GenFが最先端のベンチマークと古典的なアプローチの多様性を大きく上回っていることを示している。 具体的には、5%から11%の予測性能(絶対誤差)が向上し、15%から50%のパラメータがベンチマークと比較して低下した。 最後に、我々は、GenFを構成するコンポーネントのさらなる探索および実証のためにアブレーション研究を行う。

Long-range time series forecasting is usually based on one of two existing forecasting strategies: Direct Forecasting and Iterative Forecasting, where the former provides low bias, high variance forecasts and the latter leads to low variance, high bias forecasts. In this paper, we propose a new forecasting strategy called Generative Forecasting (GenF), which generates synthetic data for the next few time steps and then makes long-range forecasts based on generated and observed data. We theoretically prove that GenF is able to better balance the forecasting variance and bias, leading to a much smaller forecasting error. We implement GenF via three components: (i) a novel conditional Wasserstein Generative Adversarial Network (GAN) based generator for synthetic time series data generation, called CWGAN-TS. (ii) a transformer based predictor, which makes long-range predictions using both generated and observed data. (iii) an information theoretic clustering algorithm to improve the training of both the CWGAN-TS and the transformer based predictor. The experimental results on five public datasets demonstrate that GenF significantly outperforms a diverse range of state-of-the-art benchmarks and classical approaches. Specifically, we find a 5% - 11% improvement in predictive performance (mean absolute error) while having a 15% - 50% reduction in parameters compared to the benchmarks. Lastly, we conduct an ablation study to further explore and demonstrate the effectiveness of the components comprising GenF.
翻訳日:2022-12-14 13:45:44 公開日:2022-12-09
# 特異性を高めた相互情報に基づく特徴選択の改善

Improving Mutual Information based Feature Selection by Boosting Unique Relevance ( http://arxiv.org/abs/2212.06143v1 )

ライセンス: Link先を確認
Shiyu Liu, Mehul Motani(参考訳) 相互情報(MI)ベースの特徴選択は、MIを使用して各特徴を評価し、最終的に関連する特徴サブセットをショートリスト化し、高次元データセットに関連する問題に対処する。 特徴選択におけるMIの有効性にもかかわらず、多くの最先端アルゴリズムは特徴のユニークな関連性(UR)を無視しており、非無視数の冗長特徴を含む最適選択特徴サブセットに到達している。 問題の核心は、これらのMIBFSアルゴリズムが、URを明示的に対象としていない最小冗長性(MRwMR)による最大関連性(Maximize Relevance with Minimum Redundancy)の基準に従うことである。 これにより, MRwMR-BURという新たな基準が生まれ, 独自の関連性(BUR)を高めることを目的として, 既存の基準を補強するモチベーションが得られた。 課題に応じてMRwMR-BURはMRwMR-BUR-KSGとMRwMR-BUR-CLFと呼ばれる2つの変種を持つ。 MRwMR-BUR-KSGは、近辺のKSG推定器 (KSG estimator) と呼ばれるアプローチを用いてURを推定する。 (i)分類性能。 (ii)特徴解釈性。 (iii)分類器の一般化。 MRwMR-BUR-CLFは、分類器に基づくアプローチによりURを推定する。 URを異なる分類器に適応させ、MRwMR-BURの分類性能指向タスクの競争性をさらに向上させる。 MRwMR-BUR-KSGとMRwMR-BUR-CLFの両方の性能は、6つの公開データセットと3つの人気のある分類器を用いて検証した。 具体的には、MRwMRと比較して、提案されたMRwMR-BUR-KSGは、アルゴリズムの複雑さを増大させることなく、選択される機能を25%から30%削減して、テスト精度を2% - 3%改善する。 MRwMR-BUR-CLFは、さらに分類性能を3.8%-5.5%向上させ(MRwMRと比較して)、3つの人気のある分類器依存特徴選択法より優れている。

Mutual Information (MI) based feature selection makes use of MI to evaluate each feature and eventually shortlists a relevant feature subset, in order to address issues associated with high-dimensional datasets. Despite the effectiveness of MI in feature selection, we notice that many state-of-the-art algorithms disregard the so-called unique relevance (UR) of features, and arrive at a suboptimal selected feature subset which contains a non-negligible number of redundant features. We point out that the heart of the problem is that all these MIBFS algorithms follow the criterion of Maximize Relevance with Minimum Redundancy (MRwMR), which does not explicitly target UR. This motivates us to augment the existing criterion with the objective of boosting unique relevance (BUR), leading to a new criterion called MRwMR-BUR. Depending on the task being addressed, MRwMR-BUR has two variants, termed MRwMR-BUR-KSG and MRwMR-BUR-CLF, which estimate UR differently. MRwMR-BUR-KSG estimates UR via a nearest-neighbor based approach called the KSG estimator and is designed for three major tasks: (i) Classification Performance. (ii) Feature Interpretability. (iii) Classifier Generalization. MRwMR-BUR-CLF estimates UR via a classifier based approach. It adapts UR to different classifiers, further improving the competitiveness of MRwMR-BUR for classification performance oriented tasks. The performance of both MRwMR-BUR-KSG and MRwMR-BUR-CLF is validated via experiments using six public datasets and three popular classifiers. Specifically, as compared to MRwMR, the proposed MRwMR-BUR-KSG improves the test accuracy by 2% - 3% with 25% - 30% fewer features being selected, without increasing the algorithm complexity. MRwMR-BUR-CLF further improves the classification performance by 3.8%- 5.5% (relative to MRwMR), and it also outperforms three popular classifier dependent feature selection methods.
翻訳日:2022-12-14 13:45:19 公開日:2022-12-09
# ディープニューラルネットワークの反復プラニングのための学習速度の最適化

Optimizing Learning Rate Schedules for Iterative Pruning of Deep Neural Networks ( http://arxiv.org/abs/2212.06144v1 )

ライセンス: Link先を確認
Shiyu Liu, Rohan Ghosh, John Tan Chong Min, Mehul Motani(参考訳) ネットワークプルーニングにおける学習率(LR)スケジュールの重要性は、最近のいくつかの研究で指摘されている。 例として、Frankle and Carbin (2019)は、LRウォームアップスケジュールを適用しなければ、優勝チケット(すなわち、精度の低いサブネットワーク)を見つけることができないことを強調し、Renda, Frankle and Carbin (2020)は、各プルーニングサイクルの終了時にLRを初期状態に戻すことでパフォーマンスが向上することを示した。 本稿では、まずLRスケジュールの驚くべき影響を理論的に正当化することで、さらに一歩前進する。 次に、S字型改良学習率最適化のためのSILOと呼ばれるネットワークプルーニングのためのLRスケジュールを提案する。 既存の最先端(SOTA)LRスケジュールに対するSILOの利点は2つある。 (i)SILOは理論的モチベーションが強く、プルーニング中にLRを動的に調整し、一般化を改善する。 具体的には、SILOはS字形のLR上界(max_lr)を増加させる。 これにより、imagenetやcifar-10/100といった一般的なデータセット上での、さまざまなタイプのネットワーク(視覚トランスフォーマー、resnetなど)での広範な実験で2%4%改善されている。 (二)強い理論的動機に加えて、SILOは、グリッドサーチによるmax_lrの最適値を徹底的に探索するOracleとのマッチングという意味で経験的に最適である。 silo は oracle の最適化したインターバル内にある max_lr の値を精度良く調整できるため,複雑さが著しく低い oracle と性能が競合することが分かりました。

The importance of learning rate (LR) schedules on network pruning has been observed in a few recent works. As an example, Frankle and Carbin (2019) highlighted that winning tickets (i.e., accuracy preserving subnetworks) can not be found without applying a LR warmup schedule and Renda, Frankle and Carbin (2020) demonstrated that rewinding the LR to its initial state at the end of each pruning cycle improves performance. In this paper, we go one step further by first providing a theoretical justification for the surprising effect of LR schedules. Next, we propose a LR schedule for network pruning called SILO, which stands for S-shaped Improved Learning rate Optimization. The advantages of SILO over existing state-of-the-art (SOTA) LR schedules are two-fold: (i) SILO has a strong theoretical motivation and dynamically adjusts the LR during pruning to improve generalization. Specifically, SILO increases the LR upper bound (max_lr) in an S-shape. This leads to an improvement of 2% - 4% in extensive experiments with various types of networks (e.g., Vision Transformers, ResNet) on popular datasets such as ImageNet, CIFAR-10/100. (ii) In addition to the strong theoretical motivation, SILO is empirically optimal in the sense of matching an Oracle, which exhaustively searches for the optimal value of max_lr via grid search. We find that SILO is able to precisely adjust the value of max_lr to be within the Oracle optimized interval, resulting in performance competitive with the Oracle with significantly lower complexity.
翻訳日:2022-12-14 13:44:36 公開日:2022-12-09
# Matrix Profile XXVII: 時系列比較のための新しい距離測定器

Matrix Profile XXVII: A Novel Distance Measure for Comparing Long Time Series ( http://arxiv.org/abs/2212.06146v1 )

ライセンス: Link先を確認
Audrey Der, Chin-Chia Michael Yeh, Renjie Wu, Junpeng Wang, Yan Zheng, Zhongfang Zhuang, Liang Wang, Wei Zhang, Eamonn Keogh(参考訳) 最も有用なデータマイニングプリミティブは距離測定である。 効果的な距離測定により、分類、クラスタリング、異常検出、セグメンテーション等を行うことができる。 単一事象の時系列ユークリッド距離と動的時間ゆがみ距離は極めて効果的であることが知られている。 しかし、周期的挙動を含む時系列の場合、そのような比較の意味的意味は明らかになっていない。 例えば、2日間でアスリートのトレーニングルーチンからのテレメトリは非常に似ています。 2日目はプッシュアップやスクワットの順序を変えたり、プルアップの繰り返しを加えたり、ダンベルカールを完全に省略したりできる。 これらの小さな変更は、既存の時系列距離測定を破ることになる。 この問題に対処するためにいくつかのバッグ・オブ・フェイルズ法が提案されているが、多くの場合、類似性はこれらの長い時系列内の部分列の形状に密接に結びついていると論じる。 この場合、要約的な特徴は識別能力に欠ける。 本稿では,パターン表現比較(Pattern Representation Comparison in Series)の略であるPRCISを紹介する。 PRCISは長い時系列の距離測定であり、辞書で時系列を要約する能力の最近の進歩を生かしている。 さまざまなタスクやデータセットに対する私たちのアイデアの有用性を実演します。

The most useful data mining primitives are distance measures. With an effective distance measure, it is possible to perform classification, clustering, anomaly detection, segmentation, etc. For single-event time series Euclidean Distance and Dynamic Time Warping distance are known to be extremely effective. However, for time series containing cyclical behaviors, the semantic meaningfulness of such comparisons is less clear. For example, on two separate days the telemetry from an athlete workout routine might be very similar. The second day may change the order in of performing push-ups and squats, adding repetitions of pull-ups, or completely omitting dumbbell curls. Any of these minor changes would defeat existing time series distance measures. Some bag-of-features methods have been proposed to address this problem, but we argue that in many cases, similarity is intimately tied to the shapes of subsequences within these longer time series. In such cases, summative features will lack discrimination ability. In this work we introduce PRCIS, which stands for Pattern Representation Comparison in Series. PRCIS is a distance measure for long time series, which exploits recent progress in our ability to summarize time series with dictionaries. We will demonstrate the utility of our ideas on diverse tasks and datasets.
翻訳日:2022-12-14 13:44:08 公開日:2022-12-09
# チューリングの誤認

The Turing Deception ( http://arxiv.org/abs/2212.06721v1 )

ライセンス: Link先を確認
David Noever, Matt Ciolino(参考訳) 本研究では、従来のチューリングテストを再検討し、ChatGPTのような最近の大規模言語モデルと比較し、人間レベルの理解と魅力的なテキスト生成を再現する能力について述べる。 2つの課題 - 要約と質問応答 - はchatgptに対して、単一のテキストエントリからオリジナルコンテンツ(98-99%)を生成するように促す。 人間の裁判官を騙す機械の問題は、「どうやってそれを証明したのか? オリジナルの貢献は、その可読性、統計的明瞭さ、エンゲージメント、デリバリ、全体的な品質を評価する上で、チャットボットの書き方を理解するためのメートル法と単純な文法セットである。 チューリングの原文のスコアはマシンが生成した出力より少なくとも14%低いが、アルゴリズムがチューリングの真に独創的な思考("lovelace 2.0"テスト)のヒントを示すかどうかという疑問は、今のところまだ解決されていない。

This research revisits the classic Turing test and compares recent large language models such as ChatGPT for their abilities to reproduce human-level comprehension and compelling text generation. Two task challenges -- summarization, and question answering -- prompt ChatGPT to produce original content (98-99%) from a single text entry and also sequential questions originally posed by Turing in 1950. The question of a machine fooling a human judge recedes in this work relative to the question of "how would one prove it?" The original contribution of the work presents a metric and simple grammatical set for understanding the writing mechanics of chatbots in evaluating their readability and statistical clarity, engagement, delivery, and overall quality. While Turing's original prose scores at least 14% below the machine-generated output, the question of whether an algorithm displays hints of Turing's truly original thoughts (the "Lovelace 2.0" test) remains unanswered and potentially unanswerable for now.
翻訳日:2022-12-14 13:16:45 公開日:2022-12-09
# AP: De-Sparsifying Pruned Neural Networksのための選択的活性化

AP: Selective Activation for De-sparsifying Pruned Neural Networks ( http://arxiv.org/abs/2212.06145v1 )

ライセンス: Link先を確認
Shiyu Liu, Rohan Ghosh, Dylan Tan, Mehul Motani(参考訳) relu(recurtified linear unit)は、ニューラルネットワークにおいて非常に成功したアクティベーション機能であり、ネットワークがスパース表現を容易に得ることができる。 しかし, ネットワークプルーニングにおいては, 動的デッドニューロン速度 (DNR) という用語で定量化するReLUが導入した空間性は, ネットワークプルーニングにとって有益ではないことがわかった。 興味深いことに、ネットワークが切断されるほど、動的DNRが最適化中に小さくなる。 これにより,切断ネットワークの動的DNRを明示的に低減する手法,すなわちネットワークを分離する手法を提案する。 我々はこの手法を Activating-while-Pruning (AP) と呼ぶ。 重みの重要性を評価できないため,APはスタンドアローンの手法として機能しない。 代わりに、既存のプルーニング手法と連動して動作し、動的DNRを減らすためにノードの選択的アクティベーションによってパフォーマンスを向上させることを目指している。 人気ネットワーク(例えばResNet, VGG)を2つの古典的および3つの最先端プルーニング手法を用いて広範な実験を行う。 公開データセット(例えば、CIFAR-10/100)の実験結果は、APが既存のプルーニングメソッドとうまく機能し、パフォーマンスを3% - 4%改善することを示唆している。 大規模データセット(イメージネットなど)や最先端ネットワーク(ビジョントランスフォーマーなど)では、APが非対応であるのに対して、2% - 3%の改善が観察される。 最後に,AP成分の有効性を検討するためにアブレーション試験を行った。

The rectified linear unit (ReLU) is a highly successful activation function in neural networks as it allows networks to easily obtain sparse representations, which reduces overfitting in overparameterized networks. However, in network pruning, we find that the sparsity introduced by ReLU, which we quantify by a term called dynamic dead neuron rate (DNR), is not beneficial for the pruned network. Interestingly, the more the network is pruned, the smaller the dynamic DNR becomes during optimization. This motivates us to propose a method to explicitly reduce the dynamic DNR for the pruned network, i.e., de-sparsify the network. We refer to our method as Activating-while-Pruning (AP). We note that AP does not function as a stand-alone method, as it does not evaluate the importance of weights. Instead, it works in tandem with existing pruning methods and aims to improve their performance by selective activation of nodes to reduce the dynamic DNR. We conduct extensive experiments using popular networks (e.g., ResNet, VGG) via two classical and three state-of-the-art pruning methods. The experimental results on public datasets (e.g., CIFAR-10/100) suggest that AP works well with existing pruning methods and improves the performance by 3% - 4%. For larger scale datasets (e.g., ImageNet) and state-of-the-art networks (e.g., vision transformer), we observe an improvement of 2% - 3% with AP as opposed to without. Lastly, we conduct an ablation study to examine the effectiveness of the components comprising AP.
翻訳日:2022-12-14 13:15:43 公開日:2022-12-09
# 高エネルギー物理におけるFAIRAIモデル

FAIR AI Models in High Energy Physics ( http://arxiv.org/abs/2212.05081v1 )

ライセンス: Link先を確認
Javier Duarte and Haoyang Li and Avik Roy and Ruike Zhu and E. A. Huerta and Daniel Diaz and Philip Harris and Raghav Kansal and Daniel S. Katz and Ishaan H. Kavoori and Volodymyr V. Kindratenko and Farouk Mokhtar and Mark S. Neubauer and Sang Eon Park and Melissa Quinnan and Roger Rusack and Zhizhen Zhao(参考訳) findable, access, interoperable, and reusable (fair) データ原則は、科学的発見を促進する目的でデータの共有方法を検証、評価、改善するためのフレームワークを提供している。 これらの原則をソフトウェアや他のデジタル製品の研究に一般化する努力がなされている。 人工知能(AI)モデル -- 明示的にプログラムされるのではなく、データに基づいてトレーニングされたアルゴリズム -- は、AIが科学と工学の領域を変革するペースが続いているため、この目標にとって重要なものだ。 本稿では、AIモデルに対するFAIR原則の実践的定義を提案し、これらの原則の遵守を促進するFAIRAIプロジェクトテンプレートを作成する。 実験高エネルギー物理学の具体例を用いて,ヒッグス粒子を底クォークに崩壊させるグラフニューラルネットワークを用いて,これらの原理の実装方法を示す。 我々は、これらのFAIR AIモデルの堅牢性とハードウェアアーキテクチャとソフトウェアフレームワーク間のポータビリティについて検討し、FAIRデータセットとAIモデルの相互作用を研究することによって、AI予測の解釈可能性に関する新たな知見を報告する。 FAIR AIモデルを公開することで、これらの研究は信頼性と自動化されたAI駆動科学発見への道を開いた。

The findable, accessible, interoperable, and reusable (FAIR) data principles have provided a framework for examining, evaluating, and improving how we share data with the aim of facilitating scientific discovery. Efforts have been made to generalize these principles to research software and other digital products. Artificial intelligence (AI) models -- algorithms that have been trained on data rather than explicitly programmed -- are an important target for this because of the ever-increasing pace with which AI is transforming scientific and engineering domains. In this paper, we propose a practical definition of FAIR principles for AI models and create a FAIR AI project template that promotes adherence to these principles. We demonstrate how to implement these principles using a concrete example from experimental high energy physics: a graph neural network for identifying Higgs bosons decaying to bottom quarks. We study the robustness of these FAIR AI models and their portability across hardware architectures and software frameworks, and report new insights on the interpretability of AI predictions by studying the interplay between FAIR datasets and AI models. Enabled by publishing FAIR AI models, these studies pave the way toward reliable and automated AI-driven scientific discovery.
翻訳日:2022-12-13 18:34:41 公開日:2022-12-09
# 局所制御による布操作用振動触手

Visuotactile Affordances for Cloth Manipulation with Local Control ( http://arxiv.org/abs/2212.05108v1 )

ライセンス: Link先を確認
Neha Sunil, Shaoxiong Wang, Yu She, Edward Adelson, and Alberto Rodriguez(参考訳) 現実世界の衣服は、しばしばクランプ、自己隠蔽、あるいはそれ自体に折り畳まれ、コーナーなどの重要な領域が直接把握できないため、操作が困難になる。 本研究では,視覚的および触覚的知覚を利用して,縁をつかんで布を広げるシステムを提案する。 そうすることで、ロボットは隣接する2つの角を掴むことができ、折りたたみや吊り下げなどの操作が可能になる。 このシステムの構成要素として,エッジが把握されているか否かを分類し,エッジのポーズを推定する触覚知覚ネットワークを開発した。 エッジ分類ネットワークを用いて,90%の成功率でエッジを把握可能な自在なエッジ把握アフォーダンスネットワークを監督する。 エッジを掴むと、触覚的なポーズ推定/制御をリアルタイムで、ロボットが布に沿って隣の角にスライドできることを実証する。 ビデオはhttp://nehasunil.com/visuotactile/visuotactile.htmlを参照。

Cloth in the real world is often crumpled, self-occluded, or folded in on itself such that key regions, such as corners, are not directly graspable, making manipulation difficult. We propose a system that leverages visual and tactile perception to unfold the cloth via grasping and sliding on edges. By doing so, the robot is able to grasp two adjacent corners, enabling subsequent manipulation tasks like folding or hanging. As components of this system, we develop tactile perception networks that classify whether an edge is grasped and estimate the pose of the edge. We use the edge classification network to supervise a visuotactile edge grasp affordance network that can grasp edges with a 90% success rate. Once an edge is grasped, we demonstrate that the robot can slide along the cloth to the adjacent corner using tactile pose estimation/control in real time. See http://nehasunil.com/visuotactile/visuotactile.html for videos.
翻訳日:2022-12-13 18:34:22 公開日:2022-12-09
# エンドツーエンドセルフスーパービジョンによるオブジェクトゴールナビゲーション

Object Goal Navigation with End-to-End Self-Supervision ( http://arxiv.org/abs/2212.05923v1 )

ライセンス: Link先を確認
So Yeon Min, Yao-Hung Hubert Tsai, Wei Ding, Ali Farhadi, Ruslan Salakhutdinov, Yonatan Bisk, Jian Zhang(参考訳) 家庭のロボットは、ユーザがまず自分の家にあるものすべてに注釈を付けることなく、ターゲットの場所にナビゲートできる。 このオブジェクトナビゲーション課題に対する現在のアプローチは、実際のロボットをテストせず、高価なセマンティックラベル付き3Dメッシュに依存している。 本研究の目的は, 子どもと同じように, 探索を通して, 世界の自己監督モデルを構築するエージェントである。 本稿では,3次元オブジェクトのセマンティックセグメンテーションモデルを学習するために探索を活用し,その表現を用いて,自己ラベル付き3次元メッシュから純粋にオブジェクトナビゲーションポリシーを学習する,エンドツーエンドの自己管理型エボダイドエージェントを提案する。 重要な洞察は、エンボディエージェントが位置一貫性を監視信号として活用し、異なるビュー/アングルから画像を収集し、コントラスト学習を適用してセマンティックセグメンテーションモデルを微調整する。 実験では,我々のフレームワークは他の自制ベースラインよりも優れた性能を示し,シミュレーションと実家への展開の両方において,教師付きベースラインと競合する。

A household robot should be able to navigate to target locations without requiring users to first annotate everything in their home. Current approaches to this object navigation challenge do not test on real robots and rely on expensive semantically labeled 3D meshes. In this work, our aim is an agent that builds self-supervised models of the world via exploration, the same as a child might. We propose an end-to-end self-supervised embodied agent that leverages exploration to train a semantic segmentation model of 3D objects, and uses those representations to learn an object navigation policy purely from self-labeled 3D meshes. The key insight is that embodied agents can leverage location consistency as a supervision signal - collecting images from different views/angles and applying contrastive learning to fine-tune a semantic segmentation model. In our experiments, we observe that our framework performs better than other self-supervised baselines and competitively with supervised baselines, in both simulation and when deployed in real houses.
翻訳日:2022-12-13 18:15:02 公開日:2022-12-09
# 複合非凸最適化のためのばらつき低減を伴う周期ブロック座標ダイス

Cyclic Block Coordinate Descent With Variance Reduction for Composite Nonconvex Optimization ( http://arxiv.org/abs/2212.05088v1 )

ライセンス: Link先を確認
Xufeng Cai, Chaobing Song, Stephen J. Wright, Jelena Diakonikolas(参考訳) 非凸最適化は、ブロックワイド構造が一般的に遭遇する多くの機械学習問題の解決の中心である。 本研究では,非漸近勾配ノルム保証を伴う非凸最適化問題に対する循環ブロック座標法を提案する。 我々の収束解析は,最近の巡回ブロック座標法の発展に触発された,マハラノビスノルムに対する勾配リプシッツ条件に基づいている。 決定論的設定では、収束保証は(全階勾配降下の保証と一致するが、勾配リプシッツ定数は w.r.t.~マハラノビスノルムで定義される。 確率的条件下では、再帰的分散低減法を用いて、解法あたりのコストを削減し、現在の最適確率的完全次法における算術演算の複雑さに一致させる。 さらに、目的関数に対してpolyak-{\L}ojasiewicz (P{\L})条件が成立すると、より高速で線形収束が証明される。 我々の知識を最大限に活用するために、循環ブロック座標法に対する分散還元収束保証を初めて提供する。 実験結果は,ディープニューラルネットの学習における分散低減型循環スキームの有効性を示す。

Nonconvex optimization is central in solving many machine learning problems, in which block-wise structure is commonly encountered. In this work, we propose cyclic block coordinate methods for nonconvex optimization problems with non-asymptotic gradient norm guarantees. Our convergence analysis is based on a gradient Lipschitz condition with respect to a Mahalanobis norm, inspired by a recent progress on cyclic block coordinate methods. In deterministic settings, our convergence guarantee matches the guarantee of (full-gradient) gradient descent, but with the gradient Lipschitz constant being defined w.r.t.~the Mahalanobis norm. In stochastic settings, we use recursive variance reduction to decrease the per-iteration cost and match the arithmetic operation complexity of current optimal stochastic full-gradient methods, with a unified analysis for both finite-sum and infinite-sum cases. We further prove the faster, linear convergence of our methods when a Polyak-{\L}ojasiewicz (P{\L}) condition holds for the objective function. To the best of our knowledge, our work is the first to provide variance-reduced convergence guarantees for a cyclic block coordinate method. Our experimental results demonstrate the efficacy of the proposed variance-reduced cyclic scheme in training deep neural nets.
翻訳日:2022-12-13 18:08:02 公開日:2022-12-09
# Finger-NestNet:Deep Nested Residual Networkを用いたスマートフォン上での解釈可能な指紋認証

Finger-NestNet: Interpretable Fingerphoto Verification on Smartphone using Deep Nested Residual Network ( http://arxiv.org/abs/2212.05884v1 )

ライセンス: Link先を確認
Raghavendra Ramachandra and Hailin Li(参考訳) スマートフォンで撮影した指紋画像は、複数のアプリケーションを有効にした個人を検証するためにうまく使われている。 本研究は、ネストした残差ブロックFinger-NestNetを用いた指紋認証の新しいアルゴリズムを提案する。 提案したFinger-NestNetアーキテクチャは、3つの連続した畳み込みブロックと一連のネストされた残差ブロックで設計され、信頼性の高い指紋認証を実現する。 また,本手法の信頼性検証性能に寄与する指紋バイオメトリックスにおける臨界領域に光を放つ4種類の可視化技術を用いて,提案手法の解釈可能性を示す。 iphone6sを使って52のユニークなデータから収集された196個のユニークな指からなる、フィンガーフォトデータセットで広範な実験が行われた。 実験の結果,EER = 1.15%の6種類の既存手法と比較して,提案手法の検証精度が向上した。

Fingerphoto images captured using a smartphone are successfully used to verify the individuals that have enabled several applications. This work presents a novel algorithm for fingerphoto verification using a nested residual block: Finger-NestNet. The proposed Finger-NestNet architecture is designed with three consecutive convolution blocks followed by a series of nested residual blocks to achieve reliable fingerphoto verification. This paper also presents the interpretability of the proposed method using four different visualization techniques that can shed light on the critical regions in the fingerphoto biometrics that can contribute to the reliable verification performance of the proposed method. Extensive experiments are performed on the fingerphoto dataset comprised of 196 unique fingers collected from 52 unique data subjects using an iPhone6S. Experimental results indicate the improved verification of the proposed method compared to six different existing methods with EER = 1.15%.
翻訳日:2022-12-13 17:57:48 公開日:2022-12-09
# 音響マスクオートエンコーダ

Audiovisual Masked Autoencoders ( http://arxiv.org/abs/2212.05922v1 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab(参考訳) 映像にすでに存在する映像情報を利用して自己教師付き表現学習を向上できるか? そこで本稿では,自然言語や画像理解における類似手法の成功を動機として,マスク付き自動符号化フレームワークにおける事前学習アーキテクチャと目的について検討する。 我々は,vggsound と audioset の最先端技術に勝って,視聴覚下分類タスクにおいて大幅な改善を実現できることを示す。 さらに,1つのオーディオビジュアルプリトレーニングモデルを用いて,複数のユニモーダルダウンストリームタスクに対して,オーディオビジュアルプリトレーニングスキームを活用できる。 さらに,表現の転送性を実証し,このデータセットを事前にトレーニングすることなく,エピックキッチンで最先端のオーディオビジュアル結果を得る。

Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset.
翻訳日:2022-12-13 17:57:18 公開日:2022-12-09
# マルチスペクトル衛星画像を用いたシカゴの樹木被覆とキャノピー高さの推定

Estimating Chicago's tree cover and canopy height using multi-spectral satellite imagery ( http://arxiv.org/abs/2212.05061v1 )

ライセンス: Link先を確認
John Francis and Stephen Law(参考訳) 都市の樹木のキャノピーに関する情報は、気候変動を緩和し、生活の質を向上させるのに基本である [1] [2] である。 都市の樹木植林活動は、都市の樹冠の水平と垂直の寸法に関する最新のデータ不足に直面している。 本研究では,lidarデータを地上データとして活用し,マルチタスク機械学習モデルを訓練し,シカゴを事例として,マルチソースマルチスペクトル衛星画像を用いた都市部の樹木被覆とキャノピー高さの信頼性の高い推定を行うパイプラインを提案する。

Information on urban tree canopies is fundamental to mitigating climate change [1] as well as improving quality of life [2]. Urban tree planting initiatives face a lack of up-to-date data about the horizontal and vertical dimensions of the tree canopy in cities. We present a pipeline that utilizes LiDAR data as ground-truth and then trains a multi-task machine learning model to generate reliable estimates of tree cover and canopy height in urban areas using multi-source multi-spectral satellite imagery for the case study of Chicago.
翻訳日:2022-12-13 17:50:37 公開日:2022-12-09
# メラノーマ分類におけるモルサイズ除去

Eliminating Mole Size in Melanoma Classification ( http://arxiv.org/abs/2212.05116v1 )

ライセンス: Link先を確認
Nick DiSanto, Gavin Harding, Ethan Martinez, Benjamin Sanders(参考訳) 皮膚がんの分類は、長年にわたって人気があり貴重なディープラーニングアプリケーションであったが、テスト画像が取られる状況についてはほとんど考慮されていない。 従来のメラノーマ分類器は、テスト環境がトレーニングされた構造化イメージに類似しているという仮定に依存している。 本論文は, 皮膚科における重要な特徴であるモグラの大きさは, 自動メラノーマ検出における赤いニシンであると主張し, この概念に反論する。 悪性黒色腫は良性黒色腫より一貫して大きいが、画像が文脈的に拡大できない場合には信頼性が低く有害である。 この実装は、不正確なパラメータへの過剰フィットを防ぐためにトレーニング機能としてのサイズをなくすカスタムモデルを構築している。 さらに、メラノーマ検出アプリケーションの実世界の使用をシミュレートするためにランダム回転とコントラスト増強を行う。 mole分類器の一般化能力の最も重要な特徴を実証するために、様々な種類のデータ拡張形式を持つカスタムモデルが実装されている。 これらの実装は、そのようなアプリケーションを利用する場合、ユーザの予測不能が重要であることを示している。 このプロセスではデータ損失と偏りのある結論が不可欠であるため、手動でデータ修正を行う際に必要となる注意が必要である。 さらに,皮膚科と深層学習のコミュニティにおいて,モルサイズ不整合とその意義について論じた。

While skin cancer classification has been a popular and valuable deep learning application for years, there has been little consideration of the context in which testing images are taken. Traditional melanoma classifiers rely on the assumption that their testing environments are analogous to the structured images on which they are trained. This paper combats this notion, arguing that mole size, a vital attribute in professional dermatology, is a red herring in automated melanoma detection. Although malignant melanomas are consistently larger than benign melanomas, this distinction proves unreliable and harmful when images cannot be contextually scaled. This implementation builds a custom model that eliminates size as a training feature to prevent overfitting to incorrect parameters. Additionally, random rotation and contrast augmentations are performed to simulate the real-world use of melanoma detection applications. Several custom models with varying forms of data augmentation are implemented to demonstrate the most significant features of the generalization abilities of mole classifiers. These implementations show that user unpredictability is crucial when utilizing such applications. The caution required when manually modifying data is acknowledged, as data loss and biased conclusions are necessary considerations in this process. Additionally, mole size inconsistency and its significance are discussed in both the dermatology and deep learning communities.
翻訳日:2022-12-13 17:50:26 公開日:2022-12-09
# 3次元分類の地域的特徴

Local Neighborhood Features for 3D Classification ( http://arxiv.org/abs/2212.05140v1 )

ライセンス: Link先を確認
Shivanand Venkanna Sheshappanavar and Chandra Kambhamettu(参考訳) ディープラーニングモデルの訓練戦略の進歩により、ポイントクラウド分類法の訓練は大幅に改善されている。 例えば、PointNet++に著名なトレーニングテクニックとInvResNetレイヤを採用するPointNeXtは、現実世界のScanObjectNNデータセットで7%以上の改善を実現している。 しかし、これらのモデルのほとんどは、ネットワーク層に供給する前に計算された近傍点の特徴を無視しながら、高次元空間にマッピングされた近傍点の点座標特徴を用いる。 本稿では,pointnextモデルを再検討し,近接点特徴の利用と有効性について検討する。 我々はModelNet40(合成)、ScanObjectNN(実世界)、そして最近の大規模で現実世界の食料品データセットである3DGrocery100でPointNeXtをトレーニングし評価する。 さらに,分類精度を向上させるために,pointnextの上位2つのチェックポイントを平均する重み付けの新たな推論戦略を提案する。 上記のアイデアとともに、実世界のデータセット、scanobjectnn(最も難しい変種)、3dgrocery100のapple10、果物、野菜、パッケージのサブセットを含むpointnextモデルで、それぞれ0.5%、1%、4.8%、3.4%、および1.6%の全体的な精度を得る。 また、ModelNet40の精度も0.2%向上しました。

With advances in deep learning model training strategies, the training of Point cloud classification methods is significantly improving. For example, PointNeXt, which adopts prominent training techniques and InvResNet layers into PointNet++, achieves over 7% improvement on the real-world ScanObjectNN dataset. However, most of these models use point coordinates features of neighborhood points mapped to higher dimensional space while ignoring the neighborhood point features computed before feeding to the network layers. In this paper, we revisit the PointNeXt model to study the usage and benefit of such neighborhood point features. We train and evaluate PointNeXt on ModelNet40 (synthetic), ScanObjectNN (real-world), and a recent large-scale, real-world grocery dataset, i.e., 3DGrocery100. In addition, we provide an additional inference strategy of weight averaging the top two checkpoints of PointNeXt to improve classification accuracy. Together with the abovementioned ideas, we gain 0.5%, 1%, 4.8%, 3.4%, and 1.6% overall accuracy on the PointNeXt model with real-world datasets, ScanObjectNN (hardest variant), 3DGrocery100's Apple10, Fruits, Vegetables, and Packages subsets, respectively. We also achieve a comparable 0.2% accuracy gain on ModelNet40.
翻訳日:2022-12-13 17:50:06 公開日:2022-12-09
# 脳卒中患者の上肢自動運動評価に向けて

Towards Stroke Patients' Upper-limb Automatic Motor Assessment Using Smartwatches ( http://arxiv.org/abs/2212.05062v1 )

ライセンス: Link先を確認
Asma Bensalah, Jialuo Chen, Alicia Forn\'es, Cristina Carmona-Duarte, Josep Llad\'os, and Miguel A.Ferrer(参考訳) リハビリテーションシナリオにおける身体状態の評価は,HAR(Human Activity Recognition)とキネマティック解析法が関係しているため,難しい問題である。 さらに,リハビリテーションシナリオの難易度が向上し,実際の使用例にかなり近いものとなった。 特に,スマートウォッチを用いた脳卒中患者の上肢評価パイプラインの設計が目的である。 評価パイプラインの第1部であるため、HARタスクに重点を置いています。 本研究の目的は,Fugl-Meyerアセスメント尺度にインスパイアされた4つの重要な動きを自動的に検出し,認識することである。 アプリケーションプロトコルとデータセットに加えて,2つの検出法と分類基準法を提案する。 提案するフレームワーク,データセット,ベースラインの結果が,この研究分野の育成に役立つと信じている。

Assessing the physical condition in rehabilitation scenarios is a challenging problem, since it involves Human Activity Recognition (HAR) and kinematic analysis methods. In addition, the difficulties increase in unconstrained rehabilitation scenarios, which are much closer to the real use cases. In particular, our aim is to design an upper-limb assessment pipeline for stroke patients using smartwatches. We focus on the HAR task, as it is the first part of the assessing pipeline. Our main target is to automatically detect and recognize four key movements inspired by the Fugl-Meyer assessment scale, which are performed in both constrained and unconstrained scenarios. In addition to the application protocol and dataset, we propose two detection and classification baseline methods. We believe that the proposed framework, dataset and baseline results will serve to foster this research field.
翻訳日:2022-12-13 17:42:27 公開日:2022-12-09
# RPM3Dプロジェクト:遠隔患者モニタリングのための3Dキネマティクス

The RPM3D project: 3D Kinematics for Remote Patient Monitoring ( http://arxiv.org/abs/2212.05063v1 )

ライセンス: Link先を確認
Alicia Forn\'es, Asma Bensalah, Cristina Carmona-Duarte, Jialuo Chen, Miguel A. Ferrer, Andreas Fischer, Josep Llad\'os, Cristina Mart\'in, Eloy Opisso, R\'ejean Plamondon, Anna Scius-Bertrand, and Josep Maria Tormos(参考訳) 本研究は,スマートウォッチを用いた3次元動作解析に基づく遠隔患者のモニタリングの実現可能性について検討する。 我々は、急速人間の運動の運動論的理論に基づく分析を行う。 我々はGuttmann Institute5 (neurorehabilitation hospital) の脳卒中リハビリテーションの実際のケースシナリオで本研究を検証し,有望な結果を示した。 私たちの仕事は、遠隔医療アプリケーション、医療効率の改善、医療コストの削減に大きな影響を与える可能性があります。 今後のステップには、より臨床的な検証、マルチモーダル分析アーキテクチャ(センサー、画像、オーディオなどからのデータの解析)の開発、他の神経変性疾患を監視するための我々の技術の適用の探索などが含まれる。

This project explores the feasibility of remote patient monitoring based on the analysis of 3D movements captured with smartwatches. We base our analysis on the Kinematic Theory of Rapid Human Movement. We have validated our research in a real case scenario for stroke rehabilitation at the Guttmann Institute5 (neurorehabilitation hospital), showing promising results. Our work could have a great impact in remote healthcare applications, improving the medical efficiency and reducing the healthcare costs. Future steps include more clinical validation, developing multi-modal analysis architectures (analysing data from sensors, images, audio, etc.), and exploring the application of our technology to monitor other neurodegenerative diseases.
翻訳日:2022-12-13 17:42:12 公開日:2022-12-09
# メタデータを用いたリンク可能な学習オブジェクトの共有と分類のための分類アシスタント

Sharing Linkable Learning Objects with the use of Metadata and a Taxonomy Assistant for Categorization ( http://arxiv.org/abs/2212.05947v1 )

ライセンス: Link先を確認
Valentina Franzoni, Sergio Tasso, Simonetta Pallottelli, Damiano Perri(参考訳) 本研究では、Moodledataモジュールの機能を再設計し、リンク可能なオブジェクトフォーマットで、MoodleやG-Lorepといったeラーニングコンテンツプラットフォーム間で学習オブジェクトを共有する。 学習用Drupalベースのコンテンツ管理システムG-Lorepのeラーニングコースの内容と、そのコンテキストにおける再利用と分類を支援するメタデータを組み込んだオブジェクトを設計する。 このような人工知能環境では、リンク可能な学習オブジェクトの交換は学習システム間の対話に利用でき、特に、高度な自動分類のための既存の分類アシスタントを強化するための意味的または構造的類似性対策を用いて情報を得ることができる。

In this work, a re-design of the Moodledata module functionalities is presented to share learning objects between e-learning content platforms, e.g., Moodle and G-Lorep, in a linkable object format. The e-learning courses content of the Drupal-based Content Management System G-Lorep for academic learning is exchanged designing an object incorporating metadata to support the reuse and the classification in its context. In such an Artificial Intelligence environment, the exchange of Linkable Learning Objects can be used for dialogue between Learning Systems to obtain information, especially with the use of semantic or structural similarity measures to enhance the existent Taxonomy Assistant for advanced automated classification.
翻訳日:2022-12-13 17:40:30 公開日:2022-12-09
# ノード選択可能な多視点グラフ畳み込みネットワーク

Multi-view Graph Convolutional Networks with Differentiable Node Selection ( http://arxiv.org/abs/2212.05124v1 )

ライセンス: Link先を確認
Zhaoliang Chen, Lele Fu, Shunxin Xiao, Shiping Wang, Claudia Plant, Wenzhong Guo(参考訳) 相補的およびコンセンサス情報を含むマルチビューデータは、マルチビュー機能の無傷な統合を利用して表現学習を容易にする。 現実世界のほとんどのオブジェクトは基盤となる接続を持っているため、異種グラフとしてマルチビューデータを整理することは、異なるオブジェクト間で潜在情報を抽出するのに有用である。 本稿では,近傍ノードの情報収集能力の強大さから,グラフ畳み込みネットワーク (gcn) を適用し,gcnの分野において未検討のままである多視点データから発生する不均一グラフデータに対処する。 ネットワークトポロジの品質を改善し,グラフ融合によって生じる雑音の干渉を軽減するため,グラフ畳み込み処理の前にソート処理を行う方法がある。 これらのGCNベースの手法は、一般に、予め定義された信頼値に従ってトップkノードを選択するなど、頂点ごとに最も自信のある近傍ノードをソートし、選択する。 それにもかかわらず、これは微分不能なソート演算子と柔軟性のないグラフ埋め込み学習のために問題であり、これはブロックされた勾配計算と望ましくないパフォーマンスをもたらす可能性がある。 これらの問題に対処するために,適応的なグラフ融合層,グラフ学習モジュール,および微分可能なノード選択スキーマで構成されるMGCN-DNSを用いた多視点グラフ畳み込みネットワーク(Multi-view Graph Convolutional Network)を提案する。 MGCN-DNSは、マルチチャネルグラフ構造データを入力として受け入れ、微分可能なニューラルネットワークを通じてより堅牢なグラフ融合を学ぶことを目指している。 提案手法の有効性は,多視点半教師付き分類タスクにおける最先端手法と厳密な比較によって検証される。

Multi-view data containing complementary and consensus information can facilitate representation learning by exploiting the intact integration of multi-view features. Because most objects in real world often have underlying connections, organizing multi-view data as heterogeneous graphs is beneficial to extracting latent information among different objects. Due to the powerful capability to gather information of neighborhood nodes, in this paper, we apply Graph Convolutional Network (GCN) to cope with heterogeneous-graph data originating from multi-view data, which is still under-explored in the field of GCN. In order to improve the quality of network topology and alleviate the interference of noises yielded by graph fusion, some methods undertake sorting operations before the graph convolution procedure. These GCN-based methods generally sort and select the most confident neighborhood nodes for each vertex, such as picking the top-k nodes according to pre-defined confidence values. Nonetheless, this is problematic due to the non-differentiable sorting operators and inflexible graph embedding learning, which may result in blocked gradient computations and undesired performance. To cope with these issues, we propose a joint framework dubbed Multi-view Graph Convolutional Network with Differentiable Node Selection (MGCN-DNS), which is constituted of an adaptive graph fusion layer, a graph learning module and a differentiable node selection schema. MGCN-DNS accepts multi-channel graph-structural data as inputs and aims to learn more robust graph fusion through a differentiable neural network. The effectiveness of the proposed method is verified by rigorous comparisons with considerable state-of-the-art approaches in terms of multi-view semi-supervised classification tasks.
翻訳日:2022-12-13 17:14:20 公開日:2022-12-09
# clip-tsa: 弱教師付きビデオ異常検出のためのクリップ支援時間的セルフアテンション

CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection ( http://arxiv.org/abs/2212.05136v1 )

ライセンス: Link先を確認
Hyekang Kevin Joo, Khoa Vo, Kashu Yamazaki, Ngan Le(参考訳) ビデオ異常検出(VAD: Video Anomaly Detection) - 労働集約性による弱い監督によるマルチインスタンス学習問題として一般的に定式化されている - は、ビデオ監視において、異常のフレームを非トリミングビデオにローカライズする必要があるという課題である。 本稿ではまず,従来のC3DやI3Dとは異なり,CLIPの視覚的特徴をViTで符号化し,その特徴を効果的に抽出する手法を提案する。 次に,時間的依存関係と短距離依存関係をモデル化し,提案した時間的自己意識(TSA)を利用して関心の断片を列挙する。 実験の結果,提案したCLIP-TSA法は,VAD問題(UCF-CrimeとShanghaiTech Campus)における2つの一般的なベンチマークデータセットに対して,既存のSOTA法よりも高い性能を示した。 ソースコードは受理次第公開される予定だ。

Video anomaly detection (VAD) -- commonly formulated as a multiple-instance learning problem in a weakly-supervised manner due to its labor-intensive nature -- is a challenging problem in video surveillance where the frames of anomaly need to be localized in an untrimmed video. In this paper, we first propose to utilize the ViT-encoded visual features from CLIP, in contrast with the conventional C3D or I3D features in the domain, to efficiently extract discriminative representations in the novel technique. We then model long- and short-range temporal dependencies and nominate the snippets of interest by leveraging our proposed Temporal Self-Attention (TSA). The ablation study conducted on each component confirms its effectiveness in the problem, and the extensive experiments show that our proposed CLIP-TSA outperforms the existing state-of-the-art (SOTA) methods by a large margin on two commonly-used benchmark datasets in the VAD problem (UCF-Crime and ShanghaiTech Campus). The source code will be made publicly available upon acceptance.
翻訳日:2022-12-13 16:22:09 公開日:2022-12-09
# 時変量子チャネルをシミュレートするプログラマブル量子コンピュータのオンライン凸最適化

Online Convex Optimization of Programmable Quantum Computers to Simulate Time-Varying Quantum Channels ( http://arxiv.org/abs/2212.05145v1 )

ライセンス: Link先を確認
Hari Hara Suthan Chittoor, Osvaldo Simeone, Leonardo Banchi, Stefano Pirandola(参考訳) 量子チャネルのシミュレーションは、一般的な(トレース保存)量子演算を定義するため、量子コンピューティングの基本的なプリミティブである。 任意の量子チャネルを有限次元プログラマブル量子プロセッサで正確にシミュレートすることはできないため、最適近似シミュレーション手法を開発することが重要である。 本稿では,シミュレーション対象のチャネルが時間とともに異なるという難易度の設定について検討する。 本研究では,オンライン凸最適化手法である行列指数勾配降下法 (megd) の利用を提案し, 時間内にsublinear regret を実現することを解析的に示す。 実験により,プログラム可能な汎用テレポーテーションプロセッサを用いて,時間変化抑制チャネルの主結果を検証する。

Simulating quantum channels is a fundamental primitive in quantum computing, since quantum channels define general (trace-preserving) quantum operations. An arbitrary quantum channel cannot be exactly simulated using a finite-dimensional programmable quantum processor, making it important to develop optimal approximate simulation techniques. In this paper, we study the challenging setting in which the channel to be simulated varies adversarially with time. We propose the use of matrix exponentiated gradient descent (MEGD), an online convex optimization method, and analytically show that it achieves a sublinear regret in time. Through experiments, we validate the main results for time-varying dephasing channels using a programmable generalized teleportation processor.
翻訳日:2022-12-13 16:03:36 公開日:2022-12-09
# コンテンツプランニングによるプラグアンドプレイレシピ生成

Plug-and-Play Recipe Generation with Content Planning ( http://arxiv.org/abs/2212.05093v1 )

ライセンス: Link先を確認
Yinhong Liu, Yixuan Su, Ehsan Shareghi and Nigel Collier(参考訳) 最近の事前学習された言語モデルは、フルーエントで現実的な自然言語テキストを生成する有望な能力を示している。 しかし、グローバルコンテンツプランニングによる多文テキストの生成は、長年にわたる研究課題である。 制御されたテキスト生成に対する現在のアプローチは、通常単一の既知の制御属性を条件として、この問題にほとんど対処できない。 本研究では,生成されたテキストのグローバルコンテンツプランを明示的にモデル化する低コストかつ効果的なフレームワークを提案する。 具体的には、自然言語系列とグローバルコンテンツ計画の合同分布をプラグ・アンド・プレイ方式で最適化する。 定評のある recipe1m+ ベンチマークで広範な実験を行った。 自動評価と人的評価は、我々のモデルがレシピ生成タスクにおける最先端のパフォーマンスを達成することを検証する

Recent pre-trained language models have shown promising capabilities in generating fluent and realistic natural language text. However, generating multi-sentence text with global content planning has been a long-existing research question. Current approaches for controlled text generation can hardly address this issue, as they usually condition on single known control attributes. In this study, we propose a low-cost yet effective framework which explicitly models the global content plan of the generated text. Specifically, it optimizes the joint distribution of the natural language sequence and the global content plan in a plug-and-play manner. We conduct extensive experiments on the well-established Recipe1M+ benchmark. Both automatic and human evaluations verify that our model achieves the state-of-the-art performance on the task of recipe generation
翻訳日:2022-12-13 16:02:41 公開日:2022-12-09
# リカレントニューラルネットワークをモジュールに分解して再利用性と置換性を実現する

Decomposing a Recurrent Neural Network into Modules for Enabling Reusability and Replacement ( http://arxiv.org/abs/2212.05970v1 )

ライセンス: Link先を確認
Sayem Mohammad Imtiaz, Fraol Batole, Astha Singh, Rangeet Pan, Breno Dantas Cruz, Hridesh Rajan(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)は、言語間の翻訳をトレーニングして、モデルをスクラッチから再トレーニングすることなく、新たな自然言語をサポートするように拡張できるか? 故障行動に関連する部分を置き換えることにより、RNNの故障行動を修正することができるか? 完全結合型ニューラルネットワーク(fcnn)と畳み込み型ニューラルネットワーク(cnn)をモジュールに分解する最近の研究は、従来のseでは標準だがディープラーニングモデルでは異種である深層モデルの設計の価値を示している。 しかし、先行研究は画像に基づく多クラス分類の問題に焦点を当てており、RNNには適用できない。 (a)異なる層構造 (b)ループ構造、 (c)異なる種類の入出力アーキテクチャ、及び (d)非線形およびロジスティックなアクティベーション関数の使用。 本稿では,rnnをモジュールに分解する最初の手法を提案する。 我々は,Vanilla,LSTM,GRUなどさまざまな種類のRNNを研究している。 さらに,このようなRNNモジュールを再利用し,様々なシナリオで置き換える方法について述べる。 我々は,5つの標準データセット(Math QA, Brown Corpus, Wiki-toxicity, Clinc OOS, Tatoeba)と4つのモデル変種に対するアプローチを評価した。 訓練されたモデルを分解するコストは少ない(正確: -0.6%、bleuスコア: +0.10%)。 また、分解されたモジュールは再トレーニングすることなく再利用および置き換えが可能である。

Can we take a recurrent neural network (RNN) trained to translate between languages and augment it to support a new natural language without retraining the model from scratch? Can we fix the faulty behavior of the RNN by replacing portions associated with the faulty behavior? Recent works on decomposing a fully connected neural network (FCNN) and convolutional neural network (CNN) into modules have shown the value of engineering deep models in this manner, which is standard in traditional SE but foreign for deep learning models. However, prior works focus on the image-based multiclass classification problems and cannot be applied to RNN due to (a) different layer structures, (b) loop structures, (c) different types of input-output architectures, and (d) usage of both nonlinear and logistic activation functions. In this work, we propose the first approach to decompose an RNN into modules. We study different types of RNNs, i.e., Vanilla, LSTM, and GRU. Further, we show how such RNN modules can be reused and replaced in various scenarios. We evaluate our approach against 5 canonical datasets (i.e., Math QA, Brown Corpus, Wiki-toxicity, Clinc OOS, and Tatoeba) and 4 model variants for each dataset. We found that decomposing a trained model has a small cost (Accuracy: -0.6%, BLEU score: +0.10%). Also, the decomposed modules can be reused and replaced without needing to retrain.
翻訳日:2022-12-13 15:46:17 公開日:2022-12-09
# 正の外部性を有するネットワークレストレストバンド

Networked Restless Bandits with Positive Externalities ( http://arxiv.org/abs/2212.05144v1 )

ライセンス: Link先を確認
Christine Herlihy, John P. Dickerson(参考訳) restless multi-armed banditsは予算に制約されたリソース割り当てタスクのモデル化によく使われ、リソースの受領と好ましい状態遷移の確率の増加に関連付けられる。 以前の作業では、個々のアームはリソースを直接受け取る場合にのみ有効であると仮定している。 しかし、多くの割り当てタスクはコミュニティ内で発生し、隣人がリソースを受け取ったときに腕が部分的な利益を得られるような、ポジティブな外部性によって特徴づけられる。 そこで,本研究では,腕がレストで,有向グラフに埋め込まれた,新しい多腕バンディットセットであるネットワークレスレスバンディットを紹介する。 次に,制約付き報酬最大化動作ベクトルを各時間ステップで効率的に構築できる,グラフ認識型,ウィットルインデックスに基づくヒューリスティックアルゴリズムgretaを提案する。 実験の結果、Gretaはハイパーパラメータ値とグラフトポロジーの範囲で比較ポリシーを上回ります。

Restless multi-armed bandits are often used to model budget-constrained resource allocation tasks where receipt of the resource is associated with an increased probability of a favorable state transition. Prior work assumes that individual arms only benefit if they receive the resource directly. However, many allocation tasks occur within communities and can be characterized by positive externalities that allow arms to derive partial benefit when their neighbor(s) receive the resource. We thus introduce networked restless bandits, a novel multi-armed bandit setting in which arms are both restless and embedded within a directed graph. We then present Greta, a graph-aware, Whittle index-based heuristic algorithm that can be used to efficiently construct a constrained reward-maximizing action vector at each timestep. Our empirical results demonstrate that Greta outperforms comparison policies across a range of hyperparameter values and graph topologies.
翻訳日:2022-12-13 15:44:52 公開日:2022-12-09
# 半教師付き連続学習のためのソフト近接学習フレームワーク

A soft nearest-neighbor framework for continual semi-supervised learning ( http://arxiv.org/abs/2212.05102v1 )

ライセンス: Link先を確認
Zhiqi Kang, Enrico Fini, Moin Nabi, Elisa Ricci, Karteek Alahari(参考訳) 重要な進歩にもかかわらず、最先端の連続学習アプローチのパフォーマンスは、完全にラベル付けされたデータの非現実的なシナリオにかかっている。 本稿では,この課題に取り組み,すべてのデータサンプルがラベル付けされていないような半教師付き学習のための手法を提案する。 このシナリオの根本的な問題は、ラベルなしデータの表現を忘れるモデルとラベル付きデータのオーバーフィットである。 隣り合う分類器の力を利用して特徴空間を非線形に分割し、現在のタスクの強い表現を学習し、過去のタスクから関連する情報を抽出する。 実験により,本手法は従来の手法よりも大きなマージンで優れた性能を示し,連続的な半教師付き学習パラダイムに基づく手法の強い現状を立証する。 例えば、CIFAR100では、少なくとも30分の1の監督(アノテーションの0.8%対25%)を使用する場合でさえ、他の数を上回っています。

Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
翻訳日:2022-12-13 15:36:18 公開日:2022-12-09
# データの測定

Measuring Data ( http://arxiv.org/abs/2212.05129v1 )

ライセンス: Link先を確認
Margaret Mitchell and Alexandra Sasha Luccioni and Nathan Lambert and Marissa Gerchick and Angelina McMillan-Major and Ezinwanne Ozoani and Nazneen Rajani and Tristan Thrush and Yacine Jernite and Douwe Kiela(参考訳) 機械学習データとデータセットの合成を定量的に特徴付けるために,データ計測のタスクを識別する。 オブジェクトの高さ、幅、ボリュームと同様に、データ測定は、比較をサポートする共通の次元に沿ってデータの異なる属性を定量化する。 私たちはこれらの作業のいくつかを、特にコンピュータビジョンと言語の分野で一緒に行い、それをもとに、責任あるai開発の重要な要素としてデータを測定する動機づけとなるように構築します。 機械学習(ML)データを特定の目標に向けて体系的に構築し分析し、現代のMLシステムが何を学習するかをよりよく制御する上で、データアシストを測定する。 結論として,今後の研究の多くの道筋,データ測定の限界,研究と実践におけるこれらの測定アプローチの活用方法について論じた。

We identify the task of measuring data to quantitatively characterize the composition of machine learning data and datasets. Similar to an object's height, width, and volume, data measurements quantify different attributes of data along common dimensions that support comparison. Several lines of research have proposed what we refer to as measurements, with differing terminology; we bring some of this work together, particularly in fields of computer vision and language, and build from it to motivate measuring data as a critical component of responsible AI development. Measuring data aids in systematically building and analyzing machine learning (ML) data towards specific goals and gaining better control of what modern ML systems will learn. We conclude with a discussion of the many avenues of future work, the limitations of data measurements, and how to leverage these measurement approaches in research and practice.
翻訳日:2022-12-13 15:16:48 公開日:2022-12-09
# ソーシャルメディアを用いたマルチタスク学習による健康状態の検出

Multi-task Learning for Personal Health Mention Detection on Social Media ( http://arxiv.org/abs/2212.05147v1 )

ライセンス: Link先を確認
Olanrewaju Tahir Aduragba, Jialin Yu and Alexandra I. Cristea(参考訳) ソーシャルメディア上の個人の健康診断は、既存の健康監視システムを補完するために不可欠である。 しかし、大規模に健康上の言及を検知するためのデータアノテートは難しい課題である。 本研究は,マルチタスク学習フレームワークを用いて,関連するタスクから利用可能な注釈データを活用することで,ソーシャルメディアテキストに記述された個人的健康体験の検出において,メインタスクのパフォーマンスを向上させる。 具体的には,感情検出を補助タスクとして,対象タスクに感情情報を組み込むことに重点を置いている。 提案手法は, 最先端のベースラインと比較して, 幅広い個人的健康情報検出タスクを著しく改善する。

Detecting personal health mentions on social media is essential to complement existing health surveillance systems. However, annotating data for detecting health mentions at a large scale is a challenging task. This research employs a multitask learning framework to leverage available annotated data from a related task to improve the performance on the main task to detect personal health experiences mentioned in social media texts. Specifically, we focus on incorporating emotional information into our target task by using emotion detection as an auxiliary task. Our approach significantly improves a wide range of personal health mention detection tasks compared to a strong state-of-the-art baseline.
翻訳日:2022-12-13 14:59:47 公開日:2022-12-09
# All-in-One: 動的電力管理を備えたエッジデバイスのための高代表的DNNプルーニングフレームワーク

All-in-One: A Highly Representative DNN Pruning Framework for Edge Devices with Dynamic Power Management ( http://arxiv.org/abs/2212.05122v1 )

ライセンス: Link先を確認
Yifan Gong, Zheng Zhan, Pu Zhao, Yushu Wu, Chao Wu, Caiwen Ding, Weiwen Jiang, Minghai Qin, Yanzhi Wang(参考訳) エッジデバイスにディープニューラルネットワーク(DNN)をデプロイする際、ハードウェアリソースの制限に多くの研究活動が費やされている。 しかし,動的電力管理の影響にはほとんど注意が払われていない。 エッジデバイスは通常、バッテリーによるエネルギーの予算(サーバやワークステーションでのほとんど無制限のエネルギーサポートではなく)しか持たないため、その動的電力管理は広く使われているダイナミック電圧と周波数スケーリング(DVFS)技術のように実行頻度を変化させることが多い。 これにより、特に計算集約型DNNモデルでは、非常に不安定な推論速度のパフォーマンスが向上し、ユーザエクスペリエンスやハードウェアリソースの浪費を損なう可能性がある。 まず、この問題を特定し、次にDVFSを用いた動的電力管理を扱うための高代表的プルーニングフレームワークAll-in-Oneを提案する。 このフレームワークは、1組のモデルウェイトとソフトマスク(無視可能なストレージの他の補助パラメータとともに)のみを使用して、様々なプラニング比の複数のモデルを表現することができる。 特定の実行周波数(および電圧)に対する対応するプルーニング比にモデルを再設定することで、様々な実行周波数における速度性能の差を可能な限り小さく抑えながら、安定した推論速度を実現できる。 実験により, 異なるプルーニング比の複数のモデルに対して高い精度を実現するだけでなく, 各種周波数における推論遅延のばらつきを低減し, 1つのモデルと1つのソフトマスクのメモリ消費を最小限に抑えた。

During the deployment of deep neural networks (DNNs) on edge devices, many research efforts are devoted to the limited hardware resource. However, little attention is paid to the influence of dynamic power management. As edge devices typically only have a budget of energy with batteries (rather than almost unlimited energy support on servers or workstations), their dynamic power management often changes the execution frequency as in the widely-used dynamic voltage and frequency scaling (DVFS) technique. This leads to highly unstable inference speed performance, especially for computation-intensive DNN models, which can harm user experience and waste hardware resources. We firstly identify this problem and then propose All-in-One, a highly representative pruning framework to work with dynamic power management using DVFS. The framework can use only one set of model weights and soft masks (together with other auxiliary parameters of negligible storage) to represent multiple models of various pruning ratios. By re-configuring the model to the corresponding pruning ratio for a specific execution frequency (and voltage), we are able to achieve stable inference speed, i.e., keeping the difference in speed performance under various execution frequencies as small as possible. Our experiments demonstrate that our method not only achieves high accuracy for multiple models of different pruning ratios, but also reduces their variance of inference latency for various frequencies, with minimal memory consumption of only one model and one soft mask.
翻訳日:2022-12-13 14:50:43 公開日:2022-12-09
# DRIP:ニューラルフィードバックループの後方到達性解析のためのポリトープを用いたドメインリファインメントイテレーション

DRIP: Domain Refinement Iteration with Polytopes for Backward Reachability Analysis of Neural Feedback Loops ( http://arxiv.org/abs/2212.04646v1 )

ライセンス: Link先を確認
Michael Everett, Rudy Bunel, Shayegan Omidshafiei(参考訳) データ駆動制御技術の安全性保証は依然として大きな問題である。 本研究では,ニューラルネットワーク(NN)ポリシによって制御されるシステムに対して,衝突回避保証を提供するフレームワークとしての後方到達性を検討する。 nnは一般に可逆的ではないため、既存の手法ではnnを緩和するための領域を保守的に仮定しており、それによってシステムの障害(すなわちバックプロジェクション(bp)集合)へと導く一連の状態のゆるい近似が引き起こされる。 この問題に対処するために,緩和領域上の洗練されたループを持つアルゴリズムであるDRIPを導入する。 さらに,ポリトープの閉形式表現を直接取得してBP集合を従来よりも厳密にバインドできるようにする定式化を導入し,線形プログラムの解法と超矩形を用いた。 さらに、この研究はポリトープドメインを扱うためにNN緩和アルゴリズムを拡張し、BP集合上の境界をさらに厳しくする。 DRIPは、学習NN障害物回避ポリシーによって制御される地上ロボットを含む制御システムの数値実験で実証される。

Safety certification of data-driven control techniques remains a major open problem. This work investigates backward reachability as a framework for providing collision avoidance guarantees for systems controlled by neural network (NN) policies. Because NNs are typically not invertible, existing methods conservatively assume a domain over which to relax the NN, which causes loose over-approximations of the set of states that could lead the system into the obstacle (i.e., backprojection (BP) sets). To address this issue, we introduce DRIP, an algorithm with a refinement loop on the relaxation domain, which substantially tightens the BP set bounds. Furthermore, we introduce a formulation that enables directly obtaining closed-form representations of polytopes to bound the BP sets tighter than prior work, which required solving linear programs and using hyper-rectangles. Furthermore, this work extends the NN relaxation algorithm to handle polytope domains, which further tightens the bounds on BP sets. DRIP is demonstrated in numerical experiments on control systems, including a ground robot controlled by a learned NN obstacle avoidance policy.
翻訳日:2022-12-12 16:25:26 公開日:2022-12-09
# 進化方程式の長期予測のための移動学習強化DeepONet

Transfer Learning Enhanced DeepONet for Long-Time Prediction of Evolution Equations ( http://arxiv.org/abs/2212.04663v1 )

ライセンス: Link先を確認
Wuzhe Xu, Yulong Lu and Li Wang(参考訳) deep operator network (deeponet) は偏微分方程式の解演算子の学習を含む様々な学習タスクで大きな成功を収めている。 特に、有限時間軸における進化方程式を予測するための効率的なアプローチを提供する。 それでも、バニラのDeepONetは長期予測の安定性低下の問題に悩まされている。 本稿では,deeponet の安定性向上を支援する "em transfer-learning" を提案する。 私たちのアイデアは、転送学習を使用して、異なる時間フレームで学習したプロパゲータのサロゲートとして、DeepONetsを逐次更新することです。 進化するDeepONetsは、進化方程式の様々な複雑さをよりよく追跡できるが、演算子のネットワークのごく一部を効率的に訓練することでのみ更新する必要がある。 系統的な実験により,提案手法はDeepONetの長期精度を向上すると同時に,類似の計算コストを維持しつつ,トレーニングセットのサンプルサイズを大幅に削減することを示した。

Deep operator network (DeepONet) has demonstrated great success in various learning tasks, including learning solution operators of partial differential equations. In particular, it provides an efficient approach to predict the evolution equations in a finite time horizon. Nevertheless, the vanilla DeepONet suffers from the issue of stability degradation in the long-time prediction. This paper proposes a {\em transfer-learning} aided DeepONet to enhance the stability. Our idea is to use transfer learning to sequentially update the DeepONets as the surrogates for propagators learned in different time frames. The evolving DeepONets can better track the varying complexities of the evolution equations, while only need to be updated by efficient training of a tiny fraction of the operator networks. Through systematic experiments, we show that the proposed method not only improves the long-time accuracy of DeepONet while maintaining similar computational cost but also substantially reduces the sample size of the training set.
翻訳日:2022-12-12 16:25:06 公開日:2022-12-09
# 機械学習による鳥の鳥の分類

Machine Learning-based Classification of Birds through Birdsong ( http://arxiv.org/abs/2212.04684v1 )

ライセンス: Link先を確認
Yueying Chang and Richard O. Sinnott(参考訳) 音声認識と分類は、人間の音声認識、音楽認識、オーディオタグ付けなど多くのタスクや応用に使われている。 本稿では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfcc) を様々な機械学習モデルと組み合わせて,鳥の鳴き声の公開音声ファイルから(オーストラリア語)鳥を識別する。 本稿では,データ処理と拡張に使用される手法を示し,機械学習モデルの様々な状態の比較を行う。 調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。 鳥152種からなるより困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる

Audio sound recognition and classification is used for many tasks and applications including human voice recognition, music recognition and audio tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in combination with a range of machine learning models to identify (Australian) birds from publicly available audio files of their birdsong. We present approaches used for data processing and augmentation and compare the results of various state of the art machine learning models. We achieve an overall accuracy of 91% for the top-5 birds from the 30 selected as the case study. Applying the models to more challenging and diverse audio files comprising 152 bird species, we achieve an accuracy of 58%
翻訳日:2022-12-12 16:24:50 公開日:2022-12-09
# フィールドプログラマブルゲートアレイを用いたコヒーレント光伝送システムにおけるニューラルネットワークに基づく等化器の実装

Implementing Neural Network-Based Equalizers in a Coherent Optical Transmission System Using Field-Programmable Gate Arrays ( http://arxiv.org/abs/2212.04703v1 )

ライセンス: Link先を確認
Pedro J. Freire, Sasipim Srivallapanondh, Michael Anderson, Bernhard Spinnler, Thomas Bex, Tobias A. Eriksson, Antonio Napoli, Wolfgang Schairer, Nelson Costa, Michaela Blott, Sergei K. Turitsyn, Jaroslaw E. Prilepsky(参考訳) 本研究では,コヒーレント光伝送システムにおける非線形補償のためのリカレントおよびフィードフォワードニューラルネットワーク(nn)ベースのイコライザのオフラインfpga実現を実証する。 まず,Python ライブラリからFPGA チップの合成と実装へのモデル変換を示す実化パイプラインを提案する。 次に,非線形アクティベーション関数のハードウェア実装における主な選択肢について述べる。 主な結果は、性能比較、アクティベーション関数の実装方法の分析、ハードウェアの複雑さに関するレポートの3つに分けられる。 Q-factorの性能は、畳み込みNN(biLSTM + CNN)等化器、CNN等化器、標準1-StpSディジタルバックプロパゲーション(DBP)と結合して、LEAFの17x70kmの34GBdでシングルチャネル双極化(SC-DP)16QAMのシミュレーションと実験の伝播を示す。 ビLSTM+CNN等化器は、実験データセットの色分散補償ベースラインと比較してDBPと1.7dBのQ-factor利得と同じような結果を与える。 その後、Taylorシリーズ、断片線形、ルックアップテーブル(LUT)近似を用いてNNの活性化関数の近似を行う際に、Q-factorとハードウェア利用の影響を評価する。 また、余分なトレーニングで近似誤差を緩和する方法を示し、LUT近似の勾配問題に関する洞察を提供する。 最後に,400Gスループットを実現するためのハードウェア実装の複雑さを評価するため,FPGAにおいて,近似アクティベーション関数を持つ固定点NNベースの等化器を開発し実装した。

In this work, we demonstrate the offline FPGA realization of both recurrent and feedforward neural network (NN)-based equalizers for nonlinearity compensation in coherent optical transmission systems. First, we present a realization pipeline showing the conversion of the models from Python libraries to the FPGA chip synthesis and implementation. Then, we review the main alternatives for the hardware implementation of nonlinear activation functions. The main results are divided into three parts: a performance comparison, an analysis of how activation functions are implemented, and a report on the complexity of the hardware. The performance in Q-factor is presented for the cases of bidirectional long-short-term memory coupled with convolutional NN (biLSTM + CNN) equalizer, CNN equalizer, and standard 1-StpS digital back-propagation (DBP) for the simulation and experiment propagation of a single channel dual-polarization (SC-DP) 16QAM at 34 GBd along 17x70km of LEAF. The biLSTM+CNN equalizer provides a similar result to DBP and a 1.7 dB Q-factor gain compared with the chromatic dispersion compensation baseline in the experimental dataset. After that, we assess the Q-factor and the impact of hardware utilization when approximating the activation functions of NN using Taylor series, piecewise linear, and look-up table (LUT) approximations. We also show how to mitigate the approximation errors with extra training and provide some insights into possible gradient problems in the LUT approximation. Finally, to evaluate the complexity of hardware implementation to achieve 400G throughput, fixed-point NN-based equalizers with approximated activation functions are developed and implemented in an FPGA.
翻訳日:2022-12-12 16:24:40 公開日:2022-12-09
# 複素ガウス混合モデルを用いた深部音声強調の不確かさ推定

Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models ( http://arxiv.org/abs/2212.04831v1 )

ライセンス: Link先を確認
Huajian Fang and Timo Gerkmann(参考訳) 単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。 そこで本研究では,ニューラルネットワークによる音声強調におけるクリーン音声推定に関する不確実性を定量化する。 予測の不確実性は、典型的にはアレタリック不確実性とてんかん不確実性に分類される。 前者はデータに固有の不確実性を示し、後者はモデルの不確実性に対応する。 頑健なクリーン音声推定と効率的な予測不確実性定量化を目的として,統計複素ガウス混合モデル(CGMM)を深層音声強調フレームワークに統合することを提案する。 具体的には、条件付き確率密度を用いて入力と出力の依存関係を確率的にモデル化し、複数の複合ガウス成分の混合としてモデル化されたクリーン音声の完全後部分布に雑音入力をマッピングするようにニューラルネットワークを訓練する。 異なるデータセットに対する実験結果から,提案アルゴリズムは予測の不確かさを効果的に把握し,強力な統計モデルと深層学習を組み合わせることにより,優れた音声強調性能が得られることが示された。

Single-channel deep speech enhancement approaches often estimate a single multiplicative mask to extract clean speech without a measure of its accuracy. Instead, in this work, we propose to quantify the uncertainty associated with clean speech estimates in neural network-based speech enhancement. Predictive uncertainty is typically categorized into aleatoric uncertainty and epistemic uncertainty. The former accounts for the inherent uncertainty in data and the latter corresponds to the model uncertainty. Aiming for robust clean speech estimation and efficient predictive uncertainty quantification, we propose to integrate statistical complex Gaussian mixture models (CGMMs) into a deep speech enhancement framework. More specifically, we model the dependency between input and output stochastically by means of a conditional probability density and train a neural network to map the noisy input to the full posterior distribution of clean speech, modeled as a mixture of multiple complex Gaussian components. Experimental results on different datasets show that the proposed algorithm effectively captures predictive uncertainty and that combining powerful statistical models and deep learning also delivers a superior speech enhancement performance.
翻訳日:2022-12-12 16:24:07 公開日:2022-12-09
# ナノマグネティックデバイスを用いた物理貯留層計算の展望

A perspective on physical reservoir computing with nanomagnetic devices ( http://arxiv.org/abs/2212.04851v1 )

ライセンス: Link先を確認
Dan A Allwood, Matthew O A Ellis, David Griffin, Thomas J Hayward, Luca Manneschi, Mohammad F KH Musameh, Simon O'Keefe, Susan Stepney, Charles Swindells, Martin A Trefzer, Eleni Vasilaki, Guru Venkat, Ian Vidamour, and Chester Wringe(参考訳) ニューラルネットワークは人工知能の領域に革命をもたらし、ほぼすべての科学分野や産業にトランスフォーメーション応用を導入した。 しかし、この成功は高い価格で実現され、先進モデルの訓練に必要なエネルギーは持続不可能である。 この問題に対処する有望な方法の1つは、アルゴリズムの要求を直接サポートする低エネルギーのニューロモルフィックハードウェアを開発することである。 スピントロニクスデバイスの本質的な非ボラティリティ、非線形性、記憶は、ニューロモルフィックデバイスの候補となる。 本稿では,非線形性とメモリ特性を提供するため,スピントロニクスデバイスを用いた計算に適した単純な学習アルゴリズムを備えたリカレントネットワークであるリカレント・コンピューティング・パラダイムに注目した。 我々は神経形態スピントロンデバイスを開発する技術と手法をレビューし、そのようなデバイスが広く使われるようになる前に対処すべき重要なオープン課題をまとめる。

Neural networks have revolutionized the area of artificial intelligence and introduced transformative applications to almost every scientific field and industry. However, this success comes at a great price; the energy requirements for training advanced models are unsustainable. One promising way to address this pressing issue is by developing low-energy neuromorphic hardware that directly supports the algorithm's requirements. The intrinsic non-volatility, non-linearity, and memory of spintronic devices make them appealing candidates for neuromorphic devices. Here we focus on the reservoir computing paradigm, a recurrent network with a simple training algorithm suitable for computation with spintronic devices since they can provide the properties of non-linearity and memory. We review technologies and methods for developing neuromorphic spintronic devices and conclude with critical open issues to address before such devices become widely used.
翻訳日:2022-12-12 16:23:46 公開日:2022-12-09
# 高速散乱メディアのための学習型ボーンシリーズ

A Learned Born Series for Highly-Scattering Media ( http://arxiv.org/abs/2212.04948v1 )

ライセンス: Link先を確認
Antonio Stanziola, Simon Arridge, Ben T. Cox, Bradley E. Treeby(参考訳) 波動方程式の解法として、収束ボルン級数から導かれる学習ボルン級数(英語版)(lbs)と呼ばれる新しい方法が提示されるが、その成分は訓練によって見出される。 lbsは計算の複雑さを保ちつつ、高コントラスト散乱の存在下で同じ数の反復で収束するボルン級数よりもかなり正確であることが示されている。 LBSは、少数のイテレーションで大域的な圧力場の合理的な予測を生成でき、学習されたイテレーションの数によってエラーは減少する。

A new method for solving the wave equation is presented, called the learned Born series (LBS), which is derived from a convergent Born Series but its components are found through training. The LBS is shown to be significantly more accurate than the convergent Born series for the same number of iterations, in the presence of high contrast scatterers, while maintaining a comparable computational complexity. The LBS is able to generate a reasonable prediction of the global pressure field with a small number of iterations, and the errors decrease with the number of learned iterations.
翻訳日:2022-12-12 16:23:11 公開日:2022-12-09
# 不安定な公式定理の再検討

The unstable formula theorem revisited ( http://arxiv.org/abs/2212.05050v1 )

ライセンス: Link先を確認
Maryanthe Malliaris, Shay Moran(参考訳) 我々はまず、モデル理論者が安定と呼ぶリトルストーンクラスが新しい統計モデルにおいて学習可能性を特徴付けることを証明した:この新しい設定の学習者は、一様有界なリビジョンの後に、確率 1 でゼロを測る同じ仮説を出力する。 これは文学におけるある種のギャップを埋め、モデル理論における型の定義可能性に類似して、リトルストーンクラスを学習モデルの範囲で特徴づける近似定理のステージを設定する。 次に、学習環境においてシェラの有名な(そしておそらくは事前の)不安定な数式定理の完全な類似を、アルゴリズム的議論が無限の代わりとなるように与える。

We first prove that Littlestone classes, those which model theorists call stable, characterize learnability in a new statistical model: a learner in this new setting outputs the same hypothesis, up to measure zero, with probability one, after a uniformly bounded number of revisions. This fills a certain gap in the literature, and sets the stage for an approximation theorem characterizing Littlestone classes in terms of a range of learning models, by analogy to definability of types in model theory. We then give a complete analogue of Shelah's celebrated (and perhaps a priori untranslatable) Unstable Formula Theorem in the learning setting, with algorithmic arguments taking the place of the infinite.
翻訳日:2022-12-12 16:22:40 公開日:2022-12-09
# グラフ間の知識伝達の強化

Augmenting Knowledge Transfer across Graphs ( http://arxiv.org/abs/2212.04725v1 )

ライセンス: Link先を確認
Yuzhen Mao, Jianhui Sun, Dawei Zhou(参考訳) リソース豊富なソースグラフとリソースを対象とするグラフを考えると、グラフにまたがる知識を効果的に転送し、優れた一般化性能を確保するには、どうすればよいのか? 多くのハイインパクトドメイン(例えば脳ネットワークや分子グラフ)では、データの収集と注釈は極めて高価で時間がかかるため、ドメイン適応はラベル不足を緩和するための魅力的な選択肢となる。 これを踏まえて、最先端の手法は、ドメインの不一致を最小限に抑えるドメイン不変グラフ表現の導出に焦点を当てている。 しかし近年,グラフ構造が異なったり,ラベル分布が変化したりするなど,小さな領域の不一致が必ずしも優れた一般化性能を保証するとは限らないことが示されている。 本稿では,グラフ間の知識伝達を促進する汎用学習フレームワークであるtransnetを提案する。 特に、異なる粒度で様々なグラフ信号(例えば、ノード属性、エッジ、サブグラフ)を自然に定式化できるトリニティ信号という新しい概念を導入する。 そこで我々はさらに,トリニティ信号混合方式とともに,ドメインの差分を最小化し,グラフ間の知識伝達を増大させる領域統一モジュールを提案する。 最後に、総合的な実証結果から、TranNETは7つのベンチマークデータセットで既存のアプローチをかなり上回っている。

Given a resource-rich source graph and a resource-scarce target graph, how can we effectively transfer knowledge across graphs and ensure a good generalization performance? In many high-impact domains (e.g., brain networks and molecular graphs), collecting and annotating data is prohibitively expensive and time-consuming, which makes domain adaptation an attractive option to alleviate the label scarcity issue. In light of this, the state-of-the-art methods focus on deriving domain-invariant graph representation that minimizes the domain discrepancy. However, it has recently been shown that a small domain discrepancy loss may not always guarantee a good generalization performance, especially in the presence of disparate graph structures and label distribution shifts. In this paper, we present TRANSNET, a generic learning framework for augmenting knowledge transfer across graphs. In particular, we introduce a novel notion named trinity signal that can naturally formulate various graph signals at different granularity (e.g., node attributes, edges, and subgraphs). With that, we further propose a domain unification module together with a trinity-signal mixup scheme to jointly minimize the domain discrepancy and augment the knowledge transfer across graphs. Finally, comprehensive empirical results show that TRANSNET outperforms all existing approaches on seven benchmark datasets by a significant margin.
翻訳日:2022-12-12 16:16:28 公開日:2022-12-09
# 機械学習フレームワーク:医療施設における競争的知性とキードライバーの市場シェア傾向の同定

Machine Learning Framework: Competitive Intelligence and Key Drivers Identification of Market Share Trends Among Healthcare Facilities ( http://arxiv.org/abs/2212.04810v1 )

ライセンス: Link先を確認
Anudeep Appe, Bhanu Poluparthi, Lakshmi Kasivajjula, Udai Mv, Sobha Bagadi, Punya Modi, Aditya Singh, Hemanth Gunupudi(参考訳) 医療戦略策定におけるデータ駆動決定の必要性は急速に増加している。 医療提供者施設や病院(ここからは施設と呼ぶ)に影響を与える要因を特定するための信頼性の高いフレームワークが重要視されている。 このパイロット研究の目的は、ストラテジストが医療サービスの品質向上に影響を及ぼす施設の市場シェアを改善するために重要な決定を策定することを支援する、データ駆動機械学習(data driven machine learning) - 回帰フレームワークの開発である。 米国(米国)のヘルスケアビジネスが研究対象に選ばれ、ワシントン州の主要施設60施設にまたがるデータと、約3年間の歴史的データについて検討されている。 現在の分析において、市場シェアは、潜在的な競争相手の施設群間の合計の出会いに対する施設の出会いの割合として表される。 本研究は,市場シェアを評価・予測するための,競争相手識別と回帰アプローチの2段階的アプローチを提案する。 マーケットシェアに影響を与える機能の相対的重要性を定量化するために、モデル非依存技術であるSHAPを利用する。 提案手法は,既存分析における競合相手のプールを同定し,DAG(Directed Acyclic Graphs)と特徴レベルのワードベクトルを開発し,施設レベルで重要な連結成分を評価する。 この技術は、経験的手法のバイアスを最小限に抑えるデータ駆動によって堅牢である。 施設間の競争相手を特定したポストは、市場シェアを予測するための回帰モデルを開発した。 施設レベルでの特徴の相対的定量化のために、shap a をモデル非依存の説明器として組み込んだ。 これは、市場シェアに影響を与える各施設の属性を特定しランク付けするのに役立った。

The necessity of data driven decisions in healthcare strategy formulation is rapidly increasing. A reliable framework which helps identify factors impacting a Healthcare Provider Facility or a Hospital (from here on termed as Facility) Market Share is of key importance. This pilot study aims at developing a data driven Machine Learning - Regression framework which aids strategists in formulating key decisions to improve the Facilitys Market Share which in turn impacts in improving the quality of healthcare services. The US (United States) healthcare business is chosen for the study; and the data spanning across 60 key Facilities in Washington State and about 3 years of historical data is considered. In the current analysis Market Share is termed as the ratio of facility encounters to the total encounters among the group of potential competitor facilities. The current study proposes a novel two-pronged approach of competitor identification and regression approach to evaluate and predict market share, respectively. Leveraged model agnostic technique, SHAP, to quantify the relative importance of features impacting the market share. The proposed method to identify pool of competitors in current analysis, develops Directed Acyclic Graphs (DAGs), feature level word vectors and evaluates the key connected components at facility level. This technique is robust since its data driven which minimizes the bias from empirical techniques. Post identifying the set of competitors among facilities, developed Regression model to predict the Market share. For relative quantification of features at a facility level, incorporated SHAP a model agnostic explainer. This helped to identify and rank the attributes at each facility which impacts the market share.
翻訳日:2022-12-12 16:16:06 公開日:2022-12-09
# ProductGraphSleepNet: 注意時間アグリゲーションを用いた製品時空間グラフ学習による睡眠の安定

ProductGraphSleepNet: Sleep Staging using Product Spatio-Temporal Graph Learning with Attentive Temporal Aggregation ( http://arxiv.org/abs/2212.04881v1 )

ライセンス: Link先を確認
Aref Einizade, Samaneh Nasiri, Sepideh Hajipour Sardouie, Gari Clifford(参考訳) 睡眠段階の分類は、睡眠生理学の理解と診断において重要な役割を果たす。 睡眠段階のスコアリングは、時間と主観的な手順のエキスパートによる視覚検査に大きく依存する。 近年、ディープラーニングニューラルネットワークのアプローチを活用して、一般化された自動睡眠ステージングを開発し、固有のイントラオブジェクト間の変動、データセット間の不均一性、異なる記録環境によって引き起こされる可能性のある分布の変化を考慮に入れている。 しかし、これらのネットワークは脳領域間の接続を無視し、時間的に隣接する睡眠時間の間の連続的な接続を無視する。 これらの問題に対処するため,ProductGraphSleepNetと呼ばれる適応的な製品グラフ学習グラフ畳み込みネットワークを提案し,双方向ゲート再帰ユニットと修正グラフ注意ネットワークを併用して,睡眠ステージ遷移の注意ダイナミクスを捉える。 モントリオール・アーカイブ・オブ・スリープ・スタディ (MASS) SS3 とスリープEDF (SleepEDF) は、それぞれ62名と20名の健康な被験者のフルナイト・ポリソノグラフィー・レコードを収録しており、それぞれのデータベース上で、最先端(Accuracy: 0.867;0.838, F1スコア: 0.818;0.774, Kappa: 0.802;0.775)に匹敵するパフォーマンスを示している。 さらに重要なことに、提案されたネットワークにより、臨床医は睡眠ステージの学習された接続グラフを理解し、解釈することができる。

The classification of sleep stages plays a crucial role in understanding and diagnosing sleep pathophysiology. Sleep stage scoring relies heavily on visual inspection by an expert that is time consuming and subjective procedure. Recently, deep learning neural network approaches have been leveraged to develop a generalized automated sleep staging and account for shifts in distributions that may be caused by inherent inter/intra-subject variability, heterogeneity across datasets, and different recording environments. However, these networks ignore the connections among brain regions, and disregard the sequential connections between temporally adjacent sleep epochs. To address these issues, this work proposes an adaptive product graph learning-based graph convolutional network, named ProductGraphSleepNet, for learning joint spatio-temporal graphs along with a bidirectional gated recurrent unit and a modified graph attention network to capture the attentive dynamics of sleep stage transitions. Evaluation on two public databases: the Montreal Archive of Sleep Studies (MASS) SS3; and the SleepEDF, which contain full night polysomnography recordings of 62 and 20 healthy subjects, respectively, demonstrates performance comparable to the state-of-the-art (Accuracy: 0.867;0.838, F1-score: 0.818;0.774 and Kappa: 0.802;0.775, on each database respectively). More importantly, the proposed network makes it possible for clinicians to comprehend and interpret the learned connectivity graphs for sleep stages.
翻訳日:2022-12-12 16:15:42 公開日:2022-12-09
# 形状の予測 -リーマン法-

Predicting Shape Development: a Riemannian Method ( http://arxiv.org/abs/2212.04740v1 )

ライセンス: Link先を確認
Do\u{g}a T\"urkseven and Islem Rekik and Christoph von Tycowicz and Martin Hanik(参考訳) 単一のベースラインから解剖学的形状の将来的な発展を予測することは、解決が難しい問題である。 曲がった形状空間で取り組まなければならないという研究結果が示されており、例えば、病気に関連する形状の変化は、しばしば非線形特性を露呈する。 そこで我々は,リーマン形状空間の全体形状を符号化する新しい予測法を提案する。 次に、縦断的トレーニングデータの統計的階層的モデリングに基づく単純な予測手法を学ぶ。 これは完全に自動であり、パラメータリッチな最先端の手法とは対照的に際立っている。 アルツハイマー病下での右海馬の形状の将来の発達を予測するために応用されると、深層学習支援型よりも優れ、最先端に匹敵する結果が得られる。

Predicting the future development of an anatomical shape from a single baseline is an important but difficult problem to solve. Research has shown that it should be tackled in curved shape spaces, as (e.g., disease-related) shape changes frequently expose nonlinear characteristics. We thus propose a novel prediction method that encodes the whole shape in a Riemannian shape space. It then learns a simple prediction technique that is founded on statistical hierarchical modelling of longitudinal training data. It is fully automatic, which makes it stand out in contrast to parameter-rich state-of-the-art methods. When applied to predict the future development of the shape of right hippocampi under Alzheimer's disease, it outperforms deep learning supported variants and achieves results on par with state-of-the-art.
翻訳日:2022-12-12 16:14:03 公開日:2022-12-09
# LoopDraw: 形状合成と編集のためのループベース自己回帰モデル

LoopDraw: a Loop-Based Autoregressive Model for Shape Synthesis and Editing ( http://arxiv.org/abs/2212.04981v1 )

ライセンス: Link先を確認
Nam Anh Dinh, Haochen Wang, Greg Shakhnarovich, Rana Hanocka(参考訳) 点雲、メッシュ、暗黙の関数、ボクセルなど多くの選択肢がある幾何学の確立された普遍的な3d表現は存在しない。 本稿では,断面閉ループの列を用いた形状表現のための,新しい説得力のある代替手法を提案する。 すべての平面を横断するループは、自己回帰的な形状合成と編集に活用する組織階層を形成します。 ループは基礎となる形状の非局所的な記述であり、単純なループ操作(シフトなど)は幾何学に大きな構造的変化をもたらす。 これは点雲の点や三角形メッシュの三角形のような局所原始的な操作とは対照的である。 さらに、ループは直感的で自然なプリミティブであり、計算とユーザの両方で形状の分析と編集を行うことができることを実証する。

There is no settled universal 3D representation for geometry with many alternatives such as point clouds, meshes, implicit functions, and voxels to name a few. In this work, we present a new, compelling alternative for representing shapes using a sequence of cross-sectional closed loops. The loops across all planes form an organizational hierarchy which we leverage for autoregressive shape synthesis and editing. Loops are a non-local description of the underlying shape, as simple loop manipulations (such as shifts) result in significant structural changes to the geometry. This is in contrast to manipulating local primitives such as points in a point cloud or a triangle in a triangle mesh. We further demonstrate that loops are intuitive and natural primitive for analyzing and editing shapes, both computationally and for users.
翻訳日:2022-12-12 16:07:40 公開日:2022-12-09
# 顔生成における一対多対応の記憶

Memories are One-to-Many Mapping Alleviators in Talking Face Generation ( http://arxiv.org/abs/2212.05005v1 )

ライセンス: Link先を確認
Anni Tang, Tianyu He, Xu Tan, Jun Ling, Runnan Li, Sheng Zhao, Li Song, Jiang Bian(参考訳) 対話顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。 入力音声から出力映像への1対1マッピング(例えば、1つの音声コンテンツが複数の可視性を持つ)の性質から、以前の作品のように決定論的なマッピングを学ぶことはトレーニングのあいまいさをもたらし、その結果は劣る。 この1対多マッピングは、部分的には2段階のフレームワーク(すなわち、音声対表現モデルとニューラルレンダリングモデル)によって緩和されるが、十分な情報(感情、しわなど)が得られないので、まだ不十分である。 本稿では,不足している情報を暗黙記憶で補完するmemfaceと,それぞれ2段階の感覚に従う明示記憶を提案する。 より具体的には、暗黙記憶は、音声表現共有空間における高レベルセマンティクスを捉えるのに、暗黙記憶は、ピクセルレベルの詳細を合成するために、ニューラルレンダリングモデルで使用される。 実験の結果,提案するmemfaceは,複数のシナリオにまたがる最先端の成果を一貫して,かつ著しく上回ることがわかった。

Talking face generation aims at generating photo-realistic video portraits of a target person driven by input audio. Due to its nature of one-to-many mapping from the input audio to the output video (e.g., one speech content may have multiple feasible visual appearances), learning a deterministic mapping like previous works brings ambiguity during training, and thus causes inferior visual results. Although this one-to-many mapping could be alleviated in part by a two-stage framework (i.e., an audio-to-expression model followed by a neural-rendering model), it is still insufficient since the prediction is produced without enough information (e.g., emotions, wrinkles, etc.). In this paper, we propose MemFace to complement the missing information with an implicit memory and an explicit memory that follow the sense of the two stages respectively. More specifically, the implicit memory is employed in the audio-to-expression model to capture high-level semantics in the audio-expression shared space, while the explicit memory is employed in the neural-rendering model to help synthesize pixel-level details. Our experimental results show that our proposed MemFace surpasses all the state-of-the-art results across multiple scenarios consistently and significantly.
翻訳日:2022-12-12 16:07:26 公開日:2022-12-09
# 階層的自己回帰ネットワークによる一階相転移のシミュレーション

Simulating first-order phase transition with hierarchical autoregressive networks ( http://arxiv.org/abs/2212.04955v1 )

ライセンス: Link先を確認
Piotr Bia{\l}as, Paulina Czarnota, Piotr Korcyl, Tomasz Stebel(参考訳) 階層型自己回帰ニューラルネットワーク(han)ネットワークサンプリングアルゴリズムを2次元$q$-state pottsモデルに適用し,相転移に関するシミュレーションを$q=12$で実施する。 我々は,1次相転移近傍におけるアプローチの性能を定量化し,wolffクラスタアルゴリズムと比較する。 統計学的不確実性が同様の数値的努力にかかわる限り、大きな改善が見られる。 大規模ニューラルネットワークを効率的にトレーニングするために,事前学習技術を導入する。 これにより、より小さなシステムサイズを使用してニューラルネットワークをトレーニングし、より大きなシステムサイズのための開始設定として使用することが可能になる。 これは階層的アプローチの再帰的構築によって可能になります。 この結果は,双モード分布を示すシステムに対する階層的手法の性能の実証となる。 さらに, 相転移近傍の自由エネルギーとエントロピーを推定し, 前者が10^{-7}$, 後者が10^6$構成の統計に基づいて10^{-3}$の統計的不確実性を示した。

We apply the Hierarchical Autoregressive Neural (HAN) network sampling algorithm to the two-dimensional $Q$-state Potts model and perform simulations around the phase transition at $Q=12$. We quantify the performance of the approach in the vicinity of the first-order phase transition and compare it with that of the Wolff cluster algorithm. We find a significant improvement as far as the statistical uncertainty is concerned at a similar numerical effort. In order to efficiently train large neural networks we introduce the technique of pre-training. It allows to train some neural networks using smaller system sizes and then employing them as starting configurations for larger system sizes. This is possible due to the recursive construction of our hierarchical approach. Our results serve as a demonstration of the performance of the hierarchical approach for systems exhibiting bimodal distributions. Additionally, we provide estimates of the free energy and entropy in the vicinity of the phase transition with statistical uncertainties of the order of $10^{-7}$ for the former and $10^{-3}$ for the latter based on a statistics of $10^6$ configurations.
翻訳日:2022-12-12 16:07:03 公開日:2022-12-09
# ロバストネスは統計的推定にプライバシーをもたらす

Robustness Implies Privacy in Statistical Estimation ( http://arxiv.org/abs/2212.05015v1 )

ライセンス: Link先を確認
Samuel B. Hopkins, Gautam Kamath, Mahbod Majid, Shyam Narayanan(参考訳) 高次元アルゴリズム統計学における対向的堅牢性と差分プライバシーの関係について検討する。 提案手法は, サンプルの複雑さ, 精度, プライバシのトレードオフが最適であるプライベートな推定器を, 平均および共分散推定を含む多種多様な高次元パラメータ推定問題に対して生成できる, プライバシから堅牢性への最初のブラックボックス削減を実現する。 この還元は、いくつかの重要な特別な場合において多項式時間で実装できることを示す。 特に,2乗和法に基づく高次元ガウス平均・共分散に対する近似多項式時間ロバスト推定器を用いて,これらの問題に対する最初の多項式時間プライベート推定器を設計した。 我々のアルゴリズムは、反対に破損したサンプルの一定数に対して堅牢である。

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
翻訳日:2022-12-12 16:06:45 公開日:2022-12-09
# 機械学習を用いたロボット位置決めのためのグリッド型センサフロアプラットフォーム

A Grid-based Sensor Floor Platform for Robot Localization using Machine Learning ( http://arxiv.org/abs/2212.04721v1 )

ライセンス: Link先を確認
Anas Gouda, Danny Heinrich, Mirco H\"unnefeld, Irfan Fachrudin Priyanta, Christopher Reining, Moritz Roidl(参考訳) 無線センサネットワーク(wsn)アプリケーションは倉庫監視システムのトレンドを再構築し、膨大な数のロジスティックエンティティをリアルタイムに追跡し発見する。 タスクをサポートするため、従来の無線周波数(rf)ベースのローカライズアプローチ(三角測量や三角測量など)では、ノイズのある倉庫環境でのマルチパスフェードや信号損失が問題となる。 本稿では,センサフロアと呼ばれるグリッドベースの新しいWSNプラットフォームを用いた機械学習手法について検討する。 Sensor Floorは、ロジスティック研究ホールの床に設置された345個のノードで構成され、デュアルバンドRFと慣性測定ユニット(IMU)センサーを備えている。 私たちのゴールは、すべてのロジスティックなエンティティをローカライズすることであり、この研究にはモバイルロボットを使用します。 我々は、受信信号強度指標(RSSI)とIMU値の分散センシングをデータセットとして、Viconシステムからの位置追跡を基礎として記録する。 非同期収集データはランダムフォレストと畳み込みニューラルネットワーク(cnn)を用いて事前処理され、訓練される。 正規化を伴うcnnモデルは, 位置推定精度で15cmのランダム林を上回っている。 さらに、CNNアーキテクチャは、倉庫のシナリオに応じて柔軟に設定できる。 センサーフロアのハードウェア、ソフトウェア、cnnアーキテクチャは、https://github.com/flw-tudo/sensorfloorでオープンソースである。

Wireless Sensor Network (WSN) applications reshape the trend of warehouse monitoring systems allowing them to track and locate massive numbers of logistic entities in real-time. To support the tasks, classic Radio Frequency (RF)-based localization approaches (e.g. triangulation and trilateration) confront challenges due to multi-path fading and signal loss in noisy warehouse environment. In this paper, we investigate machine learning methods using a new grid-based WSN platform called Sensor Floor that can overcome the issues. Sensor Floor consists of 345 nodes installed across the floor of our logistic research hall with dual-band RF and Inertial Measurement Unit (IMU) sensors. Our goal is to localize all logistic entities, for this study we use a mobile robot. We record distributed sensing measurements of Received Signal Strength Indicator (RSSI) and IMU values as the dataset and position tracking from Vicon system as the ground truth. The asynchronous collected data is pre-processed and trained using Random Forest and Convolutional Neural Network (CNN). The CNN model with regularization outperforms the Random Forest in terms of localization accuracy with aproximate 15 cm. Moreover, the CNN architecture can be configured flexibly depending on the scenario in the warehouse. The hardware, software and the CNN architecture of the Sensor Floor are open-source under https://github.com/FLW-TUDO/sensorfloor.
翻訳日:2022-12-12 16:04:52 公開日:2022-12-09
# 入力ロスランドスケープ解析と正規化によるロバストオーバーフィッティングの理解と圧縮

Understanding and Combating Robust Overfitting via Input Loss Landscape Analysis and Regularization ( http://arxiv.org/abs/2212.04985v1 )

ライセンス: Link先を確認
Lin Li, Michael Spratling(参考訳) adversarial trainingは、ディープニューラルネットワークの敵攻撃に対する堅牢性を改善するために広く使われている。 しかし、敵対的な訓練は過度に当てはまる傾向にあり、原因は明確ではない。 この研究は、入力のロスランドスケープを解析することで、オーバーフィッティングの基盤となるメカニズムに光を当てる。 従来のトレーニング,特にクリーン損失の最小化による頑健なオーバーフィッティング結果が,損失勾配の正規化によって緩和できることがわかった。 また, 逆行訓練の勾配正規化効果が, ロスランドスケープ曲率の増加により弱まることから, 逆行訓練中に強固な過剰フィッティングが重くなることが判明した。 強靭な一般化を改善するために,対向方向に沿った重み付きロジット変動をペナル化することにより,損失景観を円滑にする新たな正規化器を提案する。 提案手法は, 従来の手法と比較して, 強靭性および効率性を著しく低減する。 コードはhttps://github.com/TreeLLi/Combating-RO-AdvLCで入手できる。

Adversarial training is widely used to improve the robustness of deep neural networks to adversarial attack. However, adversarial training is prone to overfitting, and the cause is far from clear. This work sheds light on the mechanisms underlying overfitting through analyzing the loss landscape w.r.t. the input. We find that robust overfitting results from standard training, specifically the minimization of the clean loss, and can be mitigated by regularization of the loss gradients. Moreover, we find that robust overfitting turns severer during adversarial training partially because the gradient regularization effect of adversarial training becomes weaker due to the increase in the loss landscapes curvature. To improve robust generalization, we propose a new regularizer to smooth the loss landscape by penalizing the weighted logits variation along the adversarial direction. Our method significantly mitigates robust overfitting and achieves the highest robustness and efficiency compared to similar previous methods. Code is available at https://github.com/TreeLLi/Combating-RO-AdvLC.
翻訳日:2022-12-12 15:59:25 公開日:2022-12-09
# テンソル回帰による分解性スパーステンソル

Decomposable Sparse Tensor on Tensor Regression ( http://arxiv.org/abs/2212.05024v1 )

ライセンス: Link先を確認
Haiyi Mao, Jason Xiaotian Dou(参考訳) ほとんどの正規化テンソル回帰研究は、スカラー応答を持つテンソル予測器やテンソル応答に対するベクトル予測器に焦点を当てている。 テンソル回帰における疎低階テンソルを考えると、予測子 $\mathcal{x}$ と応答 $\mathcal{y}$ はどちらも高次元テンソルである。 単位ランクテンソル上の一般の内積または縮小積が標準内積および外積に分解できることを証明すれば、問題は単にテンソルからスカラー回帰へ、次にテンソル分解へと変換できる。 そこで本研究では,契約部と生成部から構成されるステージワイド探索に基づく高速解を提案する。 本手法は, 構造情報を効果的に取り入れることで, 精度, 予測者選択の面で現在の手法を実現できることを示す。

Most regularized tensor regression research focuses on tensors predictors with scalars responses or vectors predictors to tensors responses. We consider the sparse low rank tensor on tensor regression where predictors $\mathcal{X}$ and responses $\mathcal{Y}$ are both high-dimensional tensors. By demonstrating that the general inner product or the contracted product on a unit rank tensor can be decomposed into standard inner products and outer products, the problem can be simply transformed into a tensor to scalar regression followed by a tensor decomposition. So we propose a fast solution based on stagewise search composed by contraction part and generation part which are optimized alternatively. We successfully demonstrate our method can out perform current methods in terms of accuracy, predictors selection by effectively incorporating the structural information.
翻訳日:2022-12-12 15:59:07 公開日:2022-12-09
# ディープニューラルネットワークの高速化のための学習に基づくパフォーマンスモデリングに向けて

Towards a learning-based performance modeling for accelerating Deep Neural Networks ( http://arxiv.org/abs/2212.05031v1 )

ライセンス: Link先を確認
Damiano Perri, Paolo Sylos Labini, Osvaldo Gervasi, Sergio Tasso, Flavio Vella(参考訳) ディープラーニングのような新興アプリケーションは、しばしばデータ駆動であるので、オートチューナーに基づく従来のアプローチは、実際に使用される幅広い入力に対して、パフォーマンスが良くない。 本稿では,畳み込みニューラルネットワーク(cnns)を最適化するために,機械学習に基づく予測モデルの検討を開始する。 ユースケースとして、異なる数値精度で畳み込み演算子の3つの異なる実装を提供するARM Compute Libraryに焦点を当てる。 ベンチマークの照合から始まり、決定木とベイズ分類器によって学習されたモデルを構築し、検証する。 MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。

Emerging applications such as Deep Learning are often data-driven, thus traditional approaches based on auto-tuners are not performance effective across the wide range of inputs used in practice. In the present paper, we start an investigation of predictive models based on machine learning techniques in order to optimize Convolution Neural Networks (CNNs). As a use-case, we focus on the ARM Compute Library which provides three different implementations of the convolution operator at different numeric precision. Starting from a collation of benchmarks, we build and validate models learned by Decision Tree and naive Bayesian classifier. Preliminary experiments on Midgard-based ARM Mali GPU show that our predictive model outperforms all the convolution operators manually selected by the library.
翻訳日:2022-12-12 15:58:54 公開日:2022-12-09
# ゲートキーパーAIとデータの規制:DMA、GDPRなどの下での透明性、アクセス、公正性

Regulating Gatekeeper AI and Data: Transparency, Access, and Fairness under the DMA, the GDPR, and beyond ( http://arxiv.org/abs/2212.04997v1 )

ライセンス: Link先を確認
Philipp Hacker, Johann Cordes and Janina Rochon(参考訳) 人工知能は、ビジネスや行政の文脈での利用が増えているだけでなく、EUが取り組みを先導し、その規制の競争も進行中である。 しかし、既存の文献とは対照的に、この記事では、デジタル経済におけるAIアプリケーションに対する最も広範囲で効果的なEUのルールは、提案されたAI法には含まれないが、デジタル市場法(Digital Markets Act)に規定されている。 我々は、開示要件、AIトレーニングデータの規制、アクセスルール、公正なランキングの制度の4つの主要な領域にわたる、AIモデルとその基盤となるデータに対するDMAおよび関連するEUの行動の影響を分析する。 論文は、公正性は、DMAの意味では、これまでAIと法律の交点における奨学金が主に焦点を当ててきた、伝統的に保護された非差別法のカテゴリーを越えていることを示している。 むしろ、競争法と知的財産法から知られているFRAND基準に基づいて、公正なランク付けに関するDMA規定を解釈し、洗練する。 さらに,cjeu法学に基づいて,従来の非差別法と競争法の両方における非差別概念の一貫性のある解釈を見いだせることを示す。 最後のパートでは、DMA以降における透明性、アクセス、公平性の包括的なフレームワークに関する具体的な提案をスケッチしている。

Artificial intelligence is not only increasingly used in business and administration contexts, but a race for its regulation is also underway, with the EU spearheading the efforts. Contrary to existing literature, this article suggests, however, that the most far-reaching and effective EU rules for AI applications in the digital economy will not be contained in the proposed AI Act - but have just been enacted in the Digital Markets Act. We analyze the impact of the DMA and related EU acts on AI models and their underlying data across four key areas: disclosure requirements; the regulation of AI training data; access rules; and the regime for fair rankings. The paper demonstrates that fairness, in the sense of the DMA, goes beyond traditionally protected categories of non-discrimination law on which scholarship at the intersection of AI and law has so far largely focused on. Rather, we draw on competition law and the FRAND criteria known from intellectual property law to interpret and refine the DMA provisions on fair rankings. Moreover, we show how, based on CJEU jurisprudence, a coherent interpretation of the concept of non-discrimination in both traditional non-discrimination and competition law may be found. The final part sketches specific proposals for a comprehensive framework of transparency, access, and fairness under the DMA and beyond.
翻訳日:2022-12-12 15:58:41 公開日:2022-12-09
# 急進的コミュニティの禁止に伴うオンライン移行決定の理解

Understanding Online Migration Decisions Following the Banning of Radical Communities ( http://arxiv.org/abs/2212.04765v1 )

ライセンス: Link先を確認
Giuseppe Russo and Manoel Horta Ribeiro and Giona Casiraghi and Luca Verginer(参考訳) 急進的なオンラインコミュニティと暴力的なオフシュートが急増し、社会的な懸念が高まっている。 しかし、こうしたコミュニティを主流のプラットフォームから排除するという現在の慣行は、意図しない結果をもたらしている: (i) メンバーが移住するフリンジプラットフォームにおけるさらなる過激化、および (ii) 有害コンテンツの流出が主流プラットフォームへの回帰である。 ここで,r/the\_donaldとr/fatpeoplehateの2つの禁止サブredditに関する大規模な観察研究において,recroラジカル化フレームワークに関連する要因がユーザの移行決定にどのように関係しているかを検討する。 具体的には、これらの要因が、fringeプラットフォームに投稿するユーザーの決定にどのように影響するかを、メインストリームプラットフォームに投稿し続けるかどうかを定量化する。 以上の結果から,ユーザ行動に関わる個人レベルの要因は,fringeプラットフォームへの投稿決定と関連していることが示唆された。 社会レベルの要因である急進的なコミュニティとのつながりは、両方のプラットフォームで共存する傾向にのみ影響する。 総じて、コミュニティ禁止の意図しない結果の移動と継続の決定により、エビデンスに基づくモデレーション政策の道を開いた。

The proliferation of radical online communities and their violent offshoots has sparked great societal concern. However, the current practice of banning such communities from mainstream platforms has unintended consequences: (I) the further radicalization of their members in fringe platforms where they migrate; and (ii) the spillover of harmful content from fringe back onto mainstream platforms. Here, in a large observational study on two banned subreddits, r/The\_Donald and r/fatpeoplehate, we examine how factors associated with the RECRO radicalization framework relate to users' migration decisions. Specifically, we quantify how these factors affect users' decisions to post on fringe platforms and, for those who do, whether they continue posting on the mainstream platform. Our results show that individual-level factors, those relating to the behavior of users, are associated with the decision to post on the fringe platform. Whereas social-level factors, users' connection with the radical community, only affect the propensity to be coactive on both platforms. Overall, our findings pave the way for evidence-based moderation policies, as the decisions to migrate and remain coactive amplify unintended consequences of community bans.
翻訳日:2022-12-12 15:58:16 公開日:2022-12-09
# 判断,ローカライズ,編集:テキスト・画像生成のためのビジュアル・コモンセンスのモラルを保証する

Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation ( http://arxiv.org/abs/2212.03507v2 )

ライセンス: Link先を確認
Seongbeom Park, Suhong Moon, Jinkyu Kim(参考訳) テキスト・ツー・イメージ生成手法は高解像度で高品質な画像を生成するが、これらの手法はコモンセンス道徳の観点から不適切な内容を含む不道徳な画像を生成するべきではない。 従来のアプローチはこれらの倫理的懸念を無視することが多く、既存の解決策は不道徳な画像生成を避けるために限られている。 本稿では,合成画像の不道徳性を自動判定し,これらの画像を道徳的代替物として扱うことを目的とする。 この目的のために,(1)モデルが与えられた画像の視覚的コモンセンス不道徳性を認識し,(2)画像を不道徳にする不道徳な属性(およびテクスト的)を局所化し強調する,(3)不道徳なイメージを道徳的に適格な代替物として操作する,という3つのプリミティブを持つモデルを構築した。 現状の安定拡散テキスト画像生成モデルを用いて実験を行い、倫理的画像操作の有効性を示す。 人間の研究では、道徳的に満足なイメージを不道徳なイメージから生成できることが確認されました。 我々の実装は、テキストから画像への生成モデルのための新しい安全性チェッカーとして広く使用されるように、出版と同時に公開される予定だ。

Text-to-image generation methods produce high-resolution and high-quality images, but these methods should not produce immoral images that may contain inappropriate content from the commonsense morality perspective. Conventional approaches often neglect these ethical concerns, and existing solutions are limited in avoiding immoral image generation. In this paper, we aim to automatically judge the immorality of synthesized images and manipulate these images into a moral alternative. To this end, we build a model that has the three main primitives: (1) our model recognizes the visual commonsense immorality of a given image, (2) our model localizes or highlights immoral visual (and textual) attributes that make the image immoral, and (3) our model manipulates a given immoral image into a morally-qualifying alternative. We experiment with the state-of-the-art Stable Diffusion text-to-image generation model and show the effectiveness of our ethical image manipulation. Our human study confirms that ours is indeed able to generate morally-satisfying images from immoral ones. Our implementation will be publicly available upon publication to be widely used as a new safety checker for text-to-image generation models.
翻訳日:2022-12-12 15:57:54 公開日:2022-12-09
# Ego-Head Pose推定によるEgo-Body Pose推定

Ego-Body Pose Estimation via Ego-Head Pose Estimation ( http://arxiv.org/abs/2212.04636v1 )

ライセンス: Link先を確認
Jiaman Li, C. Karen Liu, Jiajun Wu(参考訳) エゴセントリックなビデオシーケンスから3Dの人間の動きを推定することは、人間の行動理解とVR/ARの応用に不可欠である。 しかし,ユーザの頭部に設置した前面カメラでは身体を観察できないことが多いため,自発的映像と人間の動作のマッピングを生かして学ぶことは困難である。 さらに、大規模な高品質なデータセットをペア化されたエゴセントリックなビデオと3D人間のモーションで収集するには、正確なモーションキャプチャー装置が必要である。 そこで本研究では,エゴ・ヘッド・ポーズ・アセスメント(Ego-Head Pose Estimation, EgoEgo)を用いたエゴ・ボディ・ポーズ・アセスメント(Ego-Body Pose Estimation, Ego-Head Pose Estimation, EgoEgo)を提案する。 EgoEgoはまずSLAMと学習アプローチを統合して正確な頭部の動きを推定する。 そして、推定した頭部のポーズを入力とし、条件拡散を利用して複数の可塑性全体運動を生成する。 この頭と体のポーズの不連続は、ペアのエゴセントリックビデオと3dヒューマンモーションでデータセットをトレーニングする必要をなくし、大規模なエゴセントリックビデオデータセットとモーションキャプチャデータセットを別々に活用することを可能にします。 さらに,システマティック・ベンチマークのための合成データセットであるAMASS-Replica-Ego-Syn(ARES)を開発した。 ARESと実データの両方において、私たちのEgoEgoモデルは最先端のモデルよりも大幅にパフォーマンスが向上します。

Estimating 3D human motion from an egocentric video sequence is critical to human behavior understanding and applications in VR/AR. However, naively learning a mapping between egocentric videos and human motions is challenging, because the user's body is often unobserved by the front-facing camera placed on the head of the user. In addition, collecting large-scale, high-quality datasets with paired egocentric videos and 3D human motions requires accurate motion capture devices, which often limit the variety of scenes in the videos to lab-like environments. To eliminate the need for paired egocentric video and human motions, we propose a new method, Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo), that decomposes the problem into two stages, connected by the head motion as an intermediate representation. EgoEgo first integrates SLAM and a learning approach to estimate accurate head motion. Then, taking the estimated head pose as input, it leverages conditional diffusion to generate multiple plausible full-body motions. This disentanglement of head and body pose eliminates the need for training datasets with paired egocentric videos and 3D human motion, enabling us to leverage large-scale egocentric video datasets and motion capture datasets separately. Moreover, for systematic benchmarking, we develop a synthetic dataset, AMASS-Replica-Ego-Syn (ARES), with paired egocentric videos and human motion. On both ARES and real data, our EgoEgo model performs significantly better than the state-of-the-art.
翻訳日:2022-12-12 15:56:57 公開日:2022-12-09
# ノイズ2コントラスト:マルチコントラスト融合により、自己監督型トモグラフィー画像デノイングが可能に

Noise2Contrast: Multi-Contrast Fusion Enables Self-Supervised Tomographic Image Denoising ( http://arxiv.org/abs/2212.04832v1 )

ライセンス: Link先を確認
Fabian Wagner, Mareike Thies, Laura Pfaff, Noah Maul, Sabrina Pechmann, Mingxuan Gu, Jonas Utz, Oliver Aust, Daniela Weidner, Georgiana Neag, Stefan Uderhardt, Jang-Hwan Choi, Andreas Maier(参考訳) 自己教師付き画像デノイジング技術は、地中ノイズのないデータを必要とせずにデノイジングモデルのトレーニングを可能にする便利な手法として登場した。 既存の手法では、近隣のトモグラフィースライスからの類似した画像の複数のノイズ認識から計算される損失メトリクスを最適化する。 しかし、これらのアプローチは、MRIやデュアルエネルギーCTのような医療画像モダリティで日常的に取得される複数のコントラストを利用することができない。 本研究では,複数の画像コントラストからの情報を組み合わせて,自己教師型学習手法であるNoss2Contrastを提案する。 我々は、異なる画像コントラストの独立ノイズ実現を利用して自己教師付き損失を導出するために、ドメイン転送演算子と同期させる。 脳MRIデータでは4.7-11.0%/4.8-7.3%(PSNR/SSIM)、ノイズベースラインでは2重エネルギーCTX線顕微鏡データでは43.6-50.5%/57.1-77.1%(PSNR/SSIM)を達成している。 実測値の異なるデータセットに対する実験は、ノイズ2コントラストトレーニングが他のマルチコントラストイメージングモードに一般化していることを示している。

Self-supervised image denoising techniques emerged as convenient methods that allow training denoising models without requiring ground-truth noise-free data. Existing methods usually optimize loss metrics that are calculated from multiple noisy realizations of similar images, e.g., from neighboring tomographic slices. However, those approaches fail to utilize the multiple contrasts that are routinely acquired in medical imaging modalities like MRI or dual-energy CT. In this work, we propose the new self-supervised training scheme Noise2Contrast that combines information from multiple measured image contrasts to train a denoising model. We stack denoising with domain-transfer operators to utilize the independent noise realizations of different image contrasts to derive a self-supervised loss. The trained denoising operator achieves convincing quantitative and qualitative results, outperforming state-of-the-art self-supervised methods by 4.7-11.0%/4.8-7.3% (PSNR/SSIM) on brain MRI data and by 43.6-50.5%/57.1-77.1% (PSNR/SSIM) on dual-energy CT X-ray microscopy data with respect to the noisy baseline. Our experiments on different real measured data sets indicate that Noise2Contrast training generalizes to other multi-contrast imaging modalities.
翻訳日:2022-12-12 15:56:26 公開日:2022-12-09
# PACMAN:低リソース環境におけるパルスオキシメータディジット検出と読み出しのためのフレームワーク

PACMAN: a framework for pulse oximeter digit detection and reading in a low-resource setting ( http://arxiv.org/abs/2212.04964v1 )

ライセンス: Link先を確認
Chiraphat Boonnag, Wanumaidah Saengmolee, Narongrid Seesawad, Amrest Chinkamol, Saendee Rattanasomrerk, Kanyakorn Veerakanjana, Kamonwan Thanontip, Warissara Limpornchitwilai, Piyalitt Ittichaiwong, and Theerawit Wilaiprasitporn(参考訳) 新型コロナウイルス(covid-19)のパンデミックに照らして、患者は毎日の酸素飽和度(spo2)と脈拍数(pr)を健康モニタリングシステムに手動入力することが求められました。 オプティカルキャラクタ認識(OCR)を用いて捕獲画像から生理的価値を検出することを試みた。 しかし、この技術は高コストでしか利用できない。 そこで本研究では,低リソース深層学習型コンピュータビジョンを用いたPACMAN(Pandemic Accelerated Human-Machine Collaboration)という新しいフレームワークを提案する。 我々は、パルスオキシメータディスプレイから取得した画像にデジタル認識を行う商用OCRツールを含む最先端の物体検出アルゴリズム(YOLOv4、YOLOv5、YOLOR)を比較した。 すべての画像は、様々な品質とアライメントを持つクラウドソースのデータ収集から導出された。 YOLOv5は、すべてのデータセット、特に正確に向き付けされたイメージデータセットにおいて、与えられたモデル比較に対する最高のパフォーマンスモデルでした。 さらに,Digitalsオートオリエンテーションアルゴリズムを用いてモデル性能を改善し,クラスタリングアルゴリズムを用いてSpO2とPR値の抽出を行った。 実装によるyolov5の精度は約81.0-89.5%で、追加実装なしでは向上した。 そこで本研究では,実世界のデータセットにおける数字の検出と読み出しを行うpacmanフレームワークの完成を強調する。 この枠組みは現在,全国の病院で使用されている患者モニタリングシステムに統合されている。

In light of the COVID-19 pandemic, patients were required to manually input their daily oxygen saturation (SpO2) and pulse rate (PR) values into a health monitoring system-unfortunately, such a process trend to be an error in typing. Several studies attempted to detect the physiological value from the captured image using optical character recognition (OCR). However, the technology has limited availability with high cost. Thus, this study aimed to propose a novel framework called PACMAN (Pandemic Accelerated Human-Machine Collaboration) with a low-resource deep learning-based computer vision. We compared state-of-the-art object detection algorithms (scaled YOLOv4, YOLOv5, and YOLOR), including the commercial OCR tools for digit recognition on the captured images from pulse oximeter display. All images were derived from crowdsourced data collection with varying quality and alignment. YOLOv5 was the best-performing model against the given model comparison across all datasets, notably the correctly orientated image dataset. We further improved the model performance with the digits auto-orientation algorithm and applied a clustering algorithm to extract SpO2 and PR values. The accuracy performance of YOLOv5 with the implementations was approximately 81.0-89.5%, which was enhanced compared to without any additional implementation. Accordingly, this study highlighted the completion of PACMAN framework to detect and read digits in real-world datasets. The proposed framework has been currently integrated into the patient monitoring system utilized by hospitals nationwide.
翻訳日:2022-12-12 15:55:44 公開日:2022-12-09
# 視覚変換器による空間非定常性の緩和

Mitigation of Spatial Nonstationarity with Vision Transformers ( http://arxiv.org/abs/2212.04633v1 )

ライセンス: Link先を確認
Lei Liu, Javier E. Santos, Ma\v{s}a Prodanovi\'c, and Michael J. Pyrcz(参考訳) 特徴の統計分布の場所分散である空間的非定常性は多くの自然環境においてユビキタスである。 例えば、地質貯留層では、岩石マトリクスのポーシティは、機械的圧縮傾向により垂直に変化し、鉱床の勾配は堆積や濃度の過程によって変化し、水文学の降水量は大気と地形の相互作用によって変化し、金属の結晶構造は差分冷却により変化する。 従来の統計モデリングのワークフローは、静止性の仮定に頼り、測地的推論のための空間的特徴をモデル化することができる。 しかし、これは非定常空間データを扱う場合の現実的な仮定ではなく、傾向や残留分解、二次的特徴との共役、静止部分領域上の空間分割と独立モデリングなど、様々な非定常空間モデリングワークフローを動機付けている。 深層学習技術の出現により、空間関係をモデリングするための新しいワークフローが実現された。 しかし,地理空間的文脈における空間的非定常性と深層学習の緩和に関する実証的ベストプラクティスと一般ガイダンスが存在する。 本研究では,2種類の測地空間非定常性が深層学習モデル予測性能に及ぼす影響を実証し,自己注意モデル(ビジョン・トランスフォーマー)を用いてその影響を緩和することを提案する。 本研究では,畳み込みニューラルネットワークなどの代替深層学習手法の性能を上回って,相対誤差が10%以下の非定常性軽減のための視覚トランスフォーマーの有用性を実証する。 地理空間的非定常性の存在下での大規模空間的関係をモデル化するセルフ・アテンション・ネットワークの能力を示すことにより,ベストプラクティスを確立する。

Spatial nonstationarity, the location variance of features' statistical distributions, is ubiquitous in many natural settings. For example, in geological reservoirs rock matrix porosity varies vertically due to geomechanical compaction trends, in mineral deposits grades vary due to sedimentation and concentration processes, in hydrology rainfall varies due to the atmosphere and topography interactions, and in metallurgy crystalline structures vary due to differential cooling. Conventional geostatistical modeling workflows rely on the assumption of stationarity to be able to model spatial features for the geostatistical inference. Nevertheless, this is often not a realistic assumption when dealing with nonstationary spatial data and this has motivated a variety of nonstationary spatial modeling workflows such as trend and residual decomposition, cosimulation with secondary features, and spatial segmentation and independent modeling over stationary subdomains. The advent of deep learning technologies has enabled new workflows for modeling spatial relationships. However, there is a paucity of demonstrated best practice and general guidance on mitigation of spatial nonstationarity with deep learning in the geospatial context. We demonstrate the impact of two common types of geostatistical spatial nonstationarity on deep learning model prediction performance and propose the mitigation of such impacts using self-attention (vision transformer) models. We demonstrate the utility of vision transformers for the mitigation of nonstationarity with relative errors as low as 10%, exceeding the performance of alternative deep learning methods such as convolutional neural networks. We establish best practice by demonstrating the ability of self-attention networks for modeling large-scale spatial relationships in the presence of commonly observed geospatial nonstationarity.
翻訳日:2022-12-12 15:49:28 公開日:2022-12-09
# 予測符号化によるロバストグラフ表現学習

Robust Graph Representation Learning via Predictive Coding ( http://arxiv.org/abs/2212.04656v1 )

ライセンス: Link先を確認
Billy Byiringiro, Tommaso Salvatori, Thomas Lukasiewicz(参考訳) 予測コーディングは、当初は脳内の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。 そのような特性の1つは、遺伝的なクレジット割り当て規則のおかげで頑健な表現を学習できる生成モデルの自然な能力であり、シナプス重みを更新する前に神経活動がソリューションに収束できる。 グラフニューラルネットワークもメッセージパッシングモデルであり、最近、機械学習のさまざまなタイプのタスクにおいて顕著な結果を示し、構造化されたデータに対する技術間パフォーマンスを提供する。 しかし、それらは認識不能な敵攻撃に対して脆弱であり、分布外一般化には適さない。 本研究では、一般的なグラフニューラルネットワークアーキテクチャと同じ構造を持つモデルを構築することでこの問題に対処するが、予測符号化のメッセージパス規則に依存している。 実験により,提案したモデルが実験対象であることを示す。 (i)インダクティブタスクとトランスダクティブタスクの両方におけるパフォーマンスの点で標準に匹敵する。 (ii)より校正が良く、 (三)複数種類の敵攻撃に対して強固である。

Predictive coding is a message-passing framework initially developed to model information processing in the brain, and now also topic of research in machine learning due to some interesting properties. One of such properties is the natural ability of generative models to learn robust representations thanks to their peculiar credit assignment rule, that allows neural activities to converge to a solution before updating the synaptic weights. Graph neural networks are also message-passing models, which have recently shown outstanding results in diverse types of tasks in machine learning, providing interdisciplinary state-of-the-art performance on structured data. However, they are vulnerable to imperceptible adversarial attacks, and unfit for out-of-distribution generalization. In this work, we address this by building models that have the same structure of popular graph neural network architectures, but rely on the message-passing rule of predictive coding. Through an extensive set of experiments, we show that the proposed models are (i) comparable to standard ones in terms of performance in both inductive and transductive tasks, (ii) better calibrated, and (iii) robust against multiple kinds of adversarial attacks.
翻訳日:2022-12-12 15:49:01 公開日:2022-12-09
# PDEのための非等間隔フーリエニューラルソルバー

Non-equispaced Fourier Neural Solvers for PDEs ( http://arxiv.org/abs/2212.04689v1 )

ライセンス: Link先を確認
Haitao Lin, Lirong Wu, Yongjie Xu, Yufei Huang, Siyuan Li, Guojiang Zhao, Stan Z, Li Cari(参考訳) 偏微分方程式の解法は難しい。 近年提案されたニューラルレゾリューション不変モデルは、その有効性と効率性にもかかわらず、通常は等間隔の空間的データ点を必要とする。 しかし、空間領域のサンプリングは、現実のシステムでは必然的に非等価であり、適用性を制限する。 本稿では、再サンプリングされた同値点とフーリエニューラル演算子の変種を成分として適応補間した非等価フーリエPDEソルバー(\textsc{NFS})を提案する。 複雑なPDEの実験結果は、精度と効率の利点を示している。 空間的に等価なベンチマーク手法と比較すると、maeは42.85\%$の改善で優れた性能を達成し、精度の小さな損失で非等価なデータを処理できる。 さらに,我々の知る限りでは,非等間隔シナリオにおける乱流のモデル化を成功させるメッシュ不変推論能力を備えたMLベースの最初の手法であり,未確認空間点における誤差の小さな偏差がある。

Solving partial differential equations is difficult. Recently proposed neural resolution-invariant models, despite their effectiveness and efficiency, usually require equispaced spatial points of data. However, sampling in spatial domain is sometimes inevitably non-equispaced in real-world systems, limiting their applicability. In this paper, we propose a Non-equispaced Fourier PDE Solver (\textsc{NFS}) with adaptive interpolation on resampled equispaced points and a variant of Fourier Neural Operators as its components. Experimental results on complex PDEs demonstrate its advantages in accuracy and efficiency. Compared with the spatially-equispaced benchmark methods, it achieves superior performance with $42.85\%$ improvements on MAE, and is able to handle non-equispaced data with a tiny loss of accuracy. Besides, to our best knowledge, \textsc{NFS} is the first ML-based method with mesh invariant inference ability to successfully model turbulent flows in non-equispaced scenarios, with a minor deviation of the error on unseen spatial points.
翻訳日:2022-12-12 15:48:45 公開日:2022-12-09
# 非金属パイプ用プラットフォームは認識に欠陥がある。 設計と実装

The Platform for non-metallic pipes defects recognition. Design and Implementation ( http://arxiv.org/abs/2212.04706v1 )

ライセンス: Link先を確認
Fabio Cacciatori and Sergei Nikolaev and Dmitrii Grigorev(参考訳) 本稿では,非金属パイプの表面欠陥検査におけるフィールドオペレータ支援のためのプロトタイプソフトウェアとハードウェアプラットフォームについて述べる。 検査は「スマート」ヘルメットデバイスと他のモバイルデバイスを用いて、同じ表面でリアルタイムで生成されたビデオ撮影欠陥によって行われる。 本研究は, 検査材料の内部応力の存在による回折効果に起因する反射光のカラーイリデンスとして現れる欠陥の検出と認識に焦点をあてたものである。 このプラットフォームは、オフラインモードでデバイス上で直接予備分析を行うことができ、ネットワークへの接続が確立されると、受信したデータをサーバに送信して後処理を行い、前段で検出されなかった可能性のある欠陥に関する情報を抽出する。 本稿では,プラットフォームの設計段階,形式的記述,実装の詳細について述べる。 また、作業の結果の欠陥や例を認識するために使用されるモデルの説明も提供する。

This paper describes a prototype software and hardware platform to provide support to field operators during the inspection of surface defects of non-metallic pipes. Inspection is carried out by video filming defects created on the same surface in real-time using a "smart" helmet device and other mobile devices. The work focuses on the detection and recognition of the defects which appears as colored iridescence of reflected light caused by the diffraction effect arising from the presence of internal stresses in the inspected material. The platform allows you to carry out preliminary analysis directly on the device in offline mode, and, if a connection to the network is established, the received data is transmitted to the server for post-processing to extract information about possible defects that were not detected at the previous stage. The paper presents a description of the stages of design, formal description, and implementation details of the platform. It also provides descriptions of the models used to recognize defects and examples of the result of the work.
翻訳日:2022-12-12 15:48:23 公開日:2022-12-09
# AuE-IPA:AUエンゲージメントに基づく乳幼児痛評価法

AuE-IPA: An AU Engagement Based Infant Pain Assessment Method ( http://arxiv.org/abs/2212.04764v1 )

ライセンス: Link先を確認
Mingze Sun, Haoxiang Wang, Wei Yao, Jiawang Liu(参考訳) 近年の研究では、幼児期の痛みは、心理的問題、脳損傷の可能性、成人期の痛み感受性など、幼児の発達に大きな影響を与えることが示されている。 しかし, 専門医の欠如, 幼児の痛み経験を言葉で表現できないという事実から, 幼児の痛みを評価することは困難である。 既存の乳幼児の痛み評価システムは、乳幼児の表情と成人の表情の違いを無視する成人の方法を直接適用している。 一方で、顔動作符号化システムの研究が進むにつれて、アクションユニット(aus)の使用は、表情認識と痛み評価の新たな可能性を開く。 そこで本研究では,AuE-IPA法を用いて乳児の痛みを評価する手法を提案する。 第一に、幼児の痛みに対するAUの関与レベルを、エンドツーエンドの痛み評価モデルのクラスアクティベーションマップを分析して明らかにする。 次に, 乳幼児痛の自動評価を行うための回帰モデルにおいて, トップエンジメントAUの強度を利用する。 提案されたモデルは、youtube immunization dataset、youtube blood test dataset、icopevid datasetでトレーニングおよび実験されている。 実験の結果,AuE-IPA法は幼児に適応し,エンドツーエンド評価モデルや古典PSPI測定値よりも高い一般化能力を有することがわかった。

Recent studies have found that pain in infancy has a significant impact on infant development, including psychological problems, possible brain injury, and pain sensitivity in adulthood. However, due to the lack of specialists and the fact that infants are unable to express verbally their experience of pain, it is difficult to assess infant pain. Most existing infant pain assessment systems directly apply adult methods to infants ignoring the differences between infant expressions and adult expressions. Meanwhile, as the study of facial action coding system continues to advance, the use of action units (AUs) opens up new possibilities for expression recognition and pain assessment. In this paper, a novel AuE-IPA method is proposed for assessing infant pain by leveraging different engagement levels of AUs. First, different engagement levels of AUs in infant pain are revealed, by analyzing the class activation map of an end-to-end pain assessment model. The intensities of top-engaged AUs are then used in a regression model for achieving automatic infant pain assessment. The model proposed is trained and experimented on YouTube Immunization dataset, YouTube Blood Test dataset, and iCOPEVid dataset. The experimental results show that our AuE-IPA method is more applicable to infants and possesses stronger generalization ability than end-to-end assessment model and the classic PSPI metric.
翻訳日:2022-12-12 15:48:08 公開日:2022-12-09
# 説明可能なAIを用いたメリット注文の原理を超えた電気価格の理解

Understanding electricity prices beyond the merit order principle using explainable AI ( http://arxiv.org/abs/2212.04805v1 )

ライセンス: Link先を確認
Julius Trebbien, Leonardo Rydin Gorj\~ao, Aaron Praktiknjo, Benjamin Sch\"afer, Dirk Witthaut(参考訳) 自由市場における電力価格は、電力の供給と需要によって決まるが、これは時間によって大きく異なる様々な外部の影響によって引き起こされる。 完全競争においては、配電可能な発電所が残負荷を満たすための限界費用の順に市場に参入すること、すなわち負荷と再生可能発電の差をいう。 多くの市場モデルは電力価格を予測するためにこの原則を実装しているが、通常は特定の仮定と単純化を必要とする。 本稿では,ドイツのデイ・アヘッド市場における価格の説明可能な機械学習モデルについて述べる。 我々のモデルは価格のポスト分析のために設計されており、様々な外的特徴に基づいている。 Shapley Additive exPlanation(SHAP)の値を使うことで、異なる機能の役割を切り離し、経験的データからそれらの重要性を定量化できます。 風力、風力、発電は予想通り重要であるが、風力は太陽エネルギーよりも強い価格に影響しているように見える。 燃料価格も高く評価され、SHAP相互作用分析によって明らかになった他の特徴との強い相互作用を含む非自明な依存を示す。 大世代のランプは、原子力発電所とリグライト工場の柔軟性が制限されているため、価格の上昇と強い特徴相互作用と相関している。 また,データから直接定量的な洞察を提供することにより,モデル開発にも貢献した。

Electricity prices in liberalized markets are determined by the supply and demand for electric power, which are in turn driven by various external influences that vary strongly in time. In perfect competition, the merit order principle describes that dispatchable power plants enter the market in the order of their marginal costs to meet the residual load, i.e. the difference of load and renewable generation. Many market models implement this principle to predict electricity prices but typically require certain assumptions and simplifications. In this article, we present an explainable machine learning model for the prices on the German day-ahead market, which substantially outperforms a benchmark model based on the merit order principle. Our model is designed for the ex-post analysis of prices and thus builds on various external features. Using Shapley Additive exPlanation (SHAP) values, we can disentangle the role of the different features and quantify their importance from empiric data. Load, wind and solar generation are most important, as expected, but wind power appears to affect prices stronger than solar power does. Fuel prices also rank highly and show nontrivial dependencies, including strong interactions with other features revealed by a SHAP interaction analysis. Large generation ramps are correlated with high prices, again with strong feature interactions, due to the limited flexibility of nuclear and lignite plants. Our results further contribute to model development by providing quantitative insights directly from data.
翻訳日:2022-12-12 15:47:47 公開日:2022-12-09
# ガウス過程を用いた情報理論安全な探索

Information-Theoretic Safe Exploration with Gaussian Processes ( http://arxiv.org/abs/2212.04914v1 )

ライセンス: Link先を確認
Alessandro G. Bottero, Carlos E. Luis, Julia Vinogradska, Felix Berkenkamp, Jan Peters(参考訳) 我々は,未知の(安全でない)制約に違反するパラメータを評価できないような逐次的意思決定タスクを考える。 一般的なアプローチは、未知の制約に先立ってガウス過程を配置し、高い確率で安全な領域にのみ評価を行うことである。 現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。 さらに、制約に関する規則性仮定を利用する方法は、追加の臨界ハイパーパラメータをもたらす。 本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。 我々のアプローチは自然に連続領域に適用でき、追加のハイパーパラメータを必要としない。 提案手法を理論的に解析し,安全性制約に高い確率で違反しないことを示すとともに,任意の精度で制約を学習することで検討する。 実証的な評価により、データ効率とスケーラビリティが向上した。

We consider a sequential decision making task where we are not allowed to evaluate parameters that violate an a priori unknown (safety) constraint. A common approach is to place a Gaussian process prior on the unknown constraint and allow evaluations only in regions that are safe with high probability. Most current methods rely on a discretization of the domain and cannot be directly extended to the continuous case. Moreover, the way in which they exploit regularity assumptions about the constraint introduces an additional critical hyperparameter. In this paper, we propose an information-theoretic safe exploration criterion that directly exploits the GP posterior to identify the most informative safe parameters to evaluate. Our approach is naturally applicable to continuous domains and does not require additional hyperparameters. We theoretically analyze the method and show that we do not violate the safety constraint with high probability and that we explore by learning about the constraint up to arbitrary precision. Empirical evaluations demonstrate improved data-efficiency and scalability.
翻訳日:2022-12-12 15:47:25 公開日:2022-12-09
# 論理的推論ネットワークによる高次補完勧告に向けて

Towards High-Order Complementary Recommendation via Logical Reasoning Network ( http://arxiv.org/abs/2212.04966v1 )

ライセンス: Link先を確認
Longfeng Wu, Yao Zhou, Dawei Zhou(参考訳) 補完的なレコメンデーションは、買い物旅行で頻繁に商品を見つける過程を早めるため、電子商取引の注目を集めている。 したがって、この相補関係を反映できる積表現の学習は、現代の推薦システムにおいて中心的な役割を果たす。 本研究では,製品間の様々な変換(投影,交差点,否定)を効果的に学習する論理的推論ネットワークLOGIRECを提案する。 LOGIRECは製品間の非対称的な補完関係を捉え、より包括的で有意義な補完関係が製品のクエリセットで学習されるような高次のレコメンデーションにシームレスに拡張することができる。 最後に,より汎用的な製品表現の学習に最適化されたハイブリッドネットワークを提案する。 低次と高次の両方の推奨シナリオの下で、ランキングに基づく様々な指標を用いて、複数の公開現実世界データセットに対するLOGIRECの有効性を実証する。

Complementary recommendation gains increasing attention in e-commerce since it expedites the process of finding frequently-bought-with products for users in their shopping journey. Therefore, learning the product representation that can reflect this complementary relationship plays a central role in modern recommender systems. In this work, we propose a logical reasoning network, LOGIREC, to effectively learn embeddings of products as well as various transformations (projection, intersection, negation) between them. LOGIREC is capable of capturing the asymmetric complementary relationship between products and seamlessly extending to high-order recommendations where more comprehensive and meaningful complementary relationship is learned for a query set of products. Finally, we further propose a hybrid network that is jointly optimized for learning a more generic product representation. We demonstrate the effectiveness of our LOGIREC on multiple public real-world datasets in terms of various ranking-based metrics under both low-order and high-order recommendation scenarios.
翻訳日:2022-12-12 15:47:11 公開日:2022-12-09
# PDE-LEARN: 深層学習を用いた雑音データから部分微分方程式の探索

PDE-LEARN: Using Deep Learning to Discover Partial Differential Equations from Noisy, Limited Data ( http://arxiv.org/abs/2212.04971v1 )

ライセンス: Link先を確認
Robert Stephany, Christopher Earls(参考訳) 本稿では,PDE-LEARNを提案する。このPDE-LEARNは,物理系の雑音的,限定的な測定結果から直接偏微分方程式(PDE)を識別できる新しいPDE発見アルゴリズムである。 PDE-LEARNは、システム応答関数を近似するためにRational Neural Network, $U$と、システム応答関数が満足する隠されたPDEを特徴づけるために、スパースでトレーニング可能なベクトル, $\xi$を使用する。 本手法では,(1)システム応答関数を近似する損失関数を用いて,(2)$u$ が$\xi$ を特徴とする隠れた pde を満たすという事実をカプセル化し,(3) 反復的に重み付けされた最小二乗のアイデアを用いて$\xi$ のスパース性を促進する。 さらに、PDE-LEARNは複数のデータセットから同時に学習し、複数の実験の結果を組み込むことができる。 このアプローチは、現実的な科学的データから直接PDEを発見する頑健なアルゴリズムをもたらす。 PDE-LEARNは雑音や限られた測定値から複数のPDEを同定し,有効性を示す。

In this paper, we introduce PDE-LEARN, a novel PDE discovery algorithm that can identify governing partial differential equations (PDEs) directly from noisy, limited measurements of a physical system of interest. PDE-LEARN uses a Rational Neural Network, $U$, to approximate the system response function and a sparse, trainable vector, $\xi$, to characterize the hidden PDE that the system response function satisfies. Our approach couples the training of $U$ and $\xi$ using a loss function that (1) makes $U$ approximate the system response function, (2) encapsulates the fact that $U$ satisfies a hidden PDE that $\xi$ characterizes, and (3) promotes sparsity in $\xi$ using ideas from iteratively reweighted least-squares. Further, PDE-LEARN can simultaneously learn from several data sets, allowing it to incorporate results from multiple experiments. This approach yields a robust algorithm to discover PDEs directly from realistic scientific data. We demonstrate the efficacy of PDE-LEARN by identifying several PDEs from noisy and limited measurements.
翻訳日:2022-12-12 15:46:54 公開日:2022-12-09
# 対向重み摂動はグラフニューラルネットワークの一般化を改善する

Adversarial Weight Perturbation Improves Generalization in Graph Neural Network ( http://arxiv.org/abs/2212.04983v1 )

ライセンス: Link先を確認
Yihan Wu and Aleksandar Bojchevski and Heng Huang(参考訳) 多くの理論的および実証的な証拠は、平坦な局所ミニマが一般化を改善する傾向があることを示している。 対向重み摂動(Adversarial Weight Perturbation, AWP)は、そのようなミニマを効率的に効果的に見つける技術である。 awpでは、モデルパラメータの有界なワーストケース摂動による損失を最小にすることで、周囲に小さな損失を持つローカルミニマを好む。 AWPの利点、より一般的には平坦性と一般化の間の接続は、画像などのddデータに対して広く研究されている。 本稿では,この現象をグラフデータに対して広範囲に研究する。 その過程で、まず非I.d.ノード分類タスクの一般化を導出する。 そこで我々は,既存のAWPのすべての定式化において,失効する段階的な問題を特定し,この問題を緩和するための新しい重み付きトレンシ付きAWP(WT-AWP)を提案する。 WT-AWPによるグラフニューラルネットワークの正規化は、多くの異なるグラフ学習タスクやモデルにおける自然および堅牢な一般化を一貫して改善することを示す。

A lot of theoretical and empirical evidence shows that the flatter local minima tend to improve generalization. Adversarial Weight Perturbation (AWP) is an emerging technique to efficiently and effectively find such minima. In AWP we minimize the loss w.r.t. a bounded worst-case perturbation of the model parameters thereby favoring local minima with a small loss in a neighborhood around them. The benefits of AWP, and more generally the connections between flatness and generalization, have been extensively studied for i.i.d. data such as images. In this paper, we extensively study this phenomenon for graph data. Along the way, we first derive a generalization bound for non-i.i.d. node classification tasks. Then we identify a vanishing-gradient issue with all existing formulations of AWP and we propose a new Weighted Truncated AWP (WT-AWP) to alleviate this issue. We show that regularizing graph neural networks with WT-AWP consistently improves both natural and robust generalization across many different graph learning tasks and models.
翻訳日:2022-12-12 15:46:33 公開日:2022-12-09
# VindLU: 効果的なビデオとランゲージの事前トレーニング

VindLU: A Recipe for Effective Video-and-Language Pretraining ( http://arxiv.org/abs/2212.05051v1 )

ライセンス: Link先を確認
Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius(参考訳) 近年ではビデオ・アンド・ランゲージ(VidL)の理解が著しく進歩している。 しかし、現代のほとんどのVidLアプローチは複雑で特殊なモデルアーキテクチャと高度な事前訓練プロトコルを使用しており、これらのフレームワークの再現性、分析、比較を困難にしている。 そこで本研究では,新たなVidLモデルを提案する代わりに,VidLモデル設計において最も重要な要素を解明する実験を行った。 私たちが調査する要因は (i)時空間建築設計 (ii)マルチモーダル融合スキーム (iii)事前訓練の目的 (iv)事前訓練データの選択 (v)プリトレーニング及び微調整プロトコル、及び (vi)データセットとモデルスケーリング。 実験の結果, 時間的モデリング, テキスト間融合, マスキングモデリング目標, 画像と映像の合同学習など, 最も重要な設計要素が得られた。 これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。 我々のレシピを用いてトレーニングした最終モデルは、外部のCLIP事前学習に頼ることなく、VidLタスクの最先端結果と同等かそれ以上の精度で達成できる。 特にテキスト・ビデオ検索タスクでは,DiDeMoが61.2%,ActivityNetが55.0%,現在のSOTAが7.8%,そして6.1%を上回っている。 さらに,本モデルでは,ActivityNet-QA,MSRVTT-QA,MSRVTT-MC,TVQAの映像質問結果も取得した。 私たちのコードと事前訓練されたモデルは、https://github.com/klauscc/VindLU.comで公開されています。

The last several years have witnessed remarkable progress in video-and-language (VidL) understanding. However, most modern VidL approaches use complex and specialized model architectures and sophisticated pretraining protocols, making the reproducibility, analysis and comparisons of these frameworks difficult. Hence, instead of proposing yet another new VidL model, this paper conducts a thorough empirical study demystifying the most important factors in the VidL model design. Among the factors that we investigate are (i) the spatiotemporal architecture design, (ii) the multimodal fusion schemes, (iii) the pretraining objectives, (iv) the choice of pretraining data, (v) pretraining and finetuning protocols, and (vi) dataset and model scaling. Our empirical study reveals that the most important design factors include: temporal modeling, video-to-text multimodal fusion, masked modeling objectives, and joint training on images and videos. Using these empirical insights, we then develop a step-by-step recipe, dubbed VindLU, for effective VidL pretraining. Our final model trained using our recipe achieves comparable or better than state-of-the-art results on several VidL tasks without relying on external CLIP pretraining. In particular, on the text-to-video retrieval task, our approach obtains 61.2% on DiDeMo, and 55.0% on ActivityNet, outperforming current SOTA by 7.8% and 6.1% respectively. Furthermore, our model also obtains state-of-the-art video question-answering results on ActivityNet-QA, MSRVTT-QA, MSRVTT-MC and TVQA. Our code and pretrained models are publicly available at: https://github.com/klauscc/VindLU.
翻訳日:2022-12-12 15:40:48 公開日:2022-12-09
# 深部変分逆散乱

Deep Variational Inverse Scattering ( http://arxiv.org/abs/2212.04309v2 )

ライセンス: Link先を確認
AmirEhsan Khorashadizadeh, Ali Aghababaei, Tin Vla\v{s}i\'c, Hieu Nguyen, Ivan Dokmani\'c(参考訳) 逆媒体散乱解法は一般に、関連する不確実性の尺度なしで単一の解を再構成する。 これは、古典的な反復型解法と、新しいディープラーニング手法の両方に当てはまる。 しかし、不正確さとノイズは、この単一の見積もりを不正確または誤解を招く可能性がある。 条件付き正規化フローのような深層ネットワークは逆問題における後方のサンプルに使用できるが、しばしば低品質のサンプルと不確実性の推定をもたらす。 本稿では,条件付き正規化フローに基づくベイズ的U-NetであるU-Flowを提案し,高品質な後部サンプルを生成し,物理的に意味のある不確実性を推定する。 提案手法は, 点推定においてU-Netに匹敵する性能を有しつつ, 後部サンプル品質の観点から, 最近の正規化フローを著しく上回ることを示す。

Inverse medium scattering solvers generally reconstruct a single solution without an associated measure of uncertainty. This is true both for the classical iterative solvers and for the emerging deep learning methods. But ill-posedness and noise can make this single estimate inaccurate or misleading. While deep networks such as conditional normalizing flows can be used to sample posteriors in inverse problems, they often yield low-quality samples and uncertainty estimates. In this paper, we propose U-Flow, a Bayesian U-Net based on conditional normalizing flows, which generates high-quality posterior samples and estimates physically-meaningful uncertainty. We show that the proposed model significantly outperforms the recent normalizing flows in terms of posterior sample quality while having comparable performance with the U-Net in point estimation.
翻訳日:2022-12-12 15:40:22 公開日:2022-12-09
# トレーニングデータの影響分析と推定:調査

Training Data Influence Analysis and Estimation: A Survey ( http://arxiv.org/abs/2212.04612v1 )

ライセンス: Link先を確認
Zayd Hammoudeh, Daniel Lowd(参考訳) 良いモデルには良いトレーニングデータが必要です。 過剰パラメータの深層モデルでは、トレーニングデータとモデル予測の間の因果関係はますます不透明で理解されていない。 影響分析は、各トレーニングインスタンスが最終モデルを変更する量を定量化することで、トレーニングの基盤となるインタラクションを部分的に否定する。 トレーニングデータの影響を正確に測定することは、最悪の場合、確実に難しいことであり、これは、真の影響を近似するだけの影響推定器の開発と使用につながった。 本稿では,トレーニングデータの影響分析と推定に関する総合的な調査を行う。 我々はまず、さまざまな、直交する場所で、トレーニングデータの影響の定義を形式化することから始める。 それぞれの手法を詳細に説明し,それらの前提,漸近的複雑度,全体的な強みと弱さを比較した。 最後に, 影響分析を実践上, 理論上, 経験的にも有用にするための今後の研究指針を提案する。 影響分析に関する最新のリソースのリストはhttps://github.com/ZaydH/influence_analysis_papersで公開されている。

Good models require good training data. For overparameterized deep models, the causal relationship between training data and model predictions is increasingly opaque and poorly understood. Influence analysis partially demystifies training's underlying interactions by quantifying the amount each training instance alters the final model. Measuring the training data's influence exactly can be provably hard in the worst case; this has led to the development and use of influence estimators, which only approximate the true influence. This paper provides the first comprehensive survey of training data influence analysis and estimation. We begin by formalizing the various, and in places orthogonal, definitions of training data influence. We then organize state-of-the-art influence analysis methods into a taxonomy; we describe each of these methods in detail and compare their underlying assumptions, asymptotic complexities, and overall strengths and weaknesses. Finally, we propose future research directions to make influence analysis more useful in practice as well as more theoretically and empirically sound. A curated, up-to-date list of resources related to influence analysis is available at https://github.com/ZaydH/influence_analysis_papers.
翻訳日:2022-12-12 15:38:45 公開日:2022-12-09
# バイオインスパイア学習はバックプロップより優れているか? バイオラーニングとバックプロップの比較

Is Bio-Inspired Learning Better than Backprop? Benchmarking Bio Learning vs. Backprop ( http://arxiv.org/abs/2212.04614v1 )

ライセンス: Link先を確認
Manas Gupta, Sarthak Ketanbhai Modi, Hang Zhang, Joon Hei Lee, Joo Hwee Lim(参考訳) 近年,バックプロパゲーション(bp)が生物学的に有望ではないことから,バイオインスパイアされた学習が普及している。 BPよりも生物学的に妥当な多くのアルゴリズムが文献で提案されている。 しかし、BPの生物学的不確実性を克服する以外に、バイオインスパイアされたアルゴリズムを使用する強い動機が欠けている。 本研究では,BP と複数のバイオインスパイアされたアルゴリズムを総合的に比較し,バイオラーニングが生物的妥当性だけでなく,BP に付加的なメリットをもたらすかどうかを問う。 我々は,部分的なトレーニングデータのみへのアクセス,トレーニング回数の制約,ニューラルネットワークパラメータのスパース化,入力サンプルへのノイズの追加など,さまざまな設計選択の下でバイオアルゴリズムをテストする。 これらの実験により, BP に対するバイオアルゴリズムの2つの重要な利点が明らかとなった。 まず、トレーニングデータセット全体が提供されない場合、バイオアルゴリズムはBPよりもはるかに優れている。 5つのBio-algorithmのうち4つは、トレーニングデータセットの20%しか利用できない場合、BPを最大5%精度で上回った。 第二に、完全なデータセットが利用可能である場合でも、バイオアルゴリズムはより早く学習し、BPよりもはるかに少ないトレーニングエポックにおいて安定した精度に収束する。 特にヘビー学習は、bpが要求する約100エポックに対して、わずか5エポックで学習することができる。 これらの知見は、生物学的な可能性だけでなく、バイオラーニングを活用するための実践的な理由を示し、バイオラーニングの今後の研究のための興味深い新しい方向性を示唆する。

Bio-inspired learning has been gaining popularity recently given that Backpropagation (BP) is not considered biologically plausible. Many algorithms have been proposed in the literature which are all more biologically plausible than BP. However, apart from overcoming the biological implausibility of BP, a strong motivation for using Bio-inspired algorithms remains lacking. In this study, we undertake a holistic comparison of BP vs. multiple Bio-inspired algorithms to answer the question of whether Bio-learning offers additional benefits over BP, rather than just biological plausibility. We test Bio-algorithms under different design choices such as access to only partial training data, resource constraints in terms of the number of training epochs, sparsification of the neural network parameters and addition of noise to input samples. Through these experiments, we notably find two key advantages of Bio-algorithms over BP. Firstly, Bio-algorithms perform much better than BP when the entire training dataset is not supplied. Four of the five Bio-algorithms tested outperform BP by upto 5% accuracy when only 20% of the training dataset is available. Secondly, even when the full dataset is available, Bio-algorithms learn much quicker and converge to a stable accuracy in far lesser training epochs than BP. Hebbian learning, specifically, is able to learn in just 5 epochs compared to around 100 epochs required by BP. These insights present practical reasons for utilising Bio-learning rather than just its biological plausibility and also point towards interesting new directions for future work on Bio-learning.
翻訳日:2022-12-12 15:38:29 公開日:2022-12-09
# ホック後説明は未知の偽相関の検出に有効ではないかもしれない

Post hoc Explanations may be Ineffective for Detecting Unknown Spurious Correlation ( http://arxiv.org/abs/2212.04629v1 )

ライセンス: Link先を確認
Julius Adebayo, Michael Muelly, Hal Abelson, Been Kim(参考訳) 学習データにおけるスプリアス信号に依存したモデルの検出には, 特徴帰属, 概念活性化, 訓練点ランキングの3種類のポストホックモデル説明が有効であるかを検討する。 具体的には,提案手法のユーザに対して,検出対象の刺激信号が未知であるシナリオをテスト時に検討する。 半合成データセットと予め特定されたスプリアスアーティファクトを併用して,これらのスプリアストレーニング信号に確実に依存するモデルを得る経験的方法論を設計した。 次に,様々な条件下でのスプリアス信号検出のための説明手法の信頼性を評価する指標群を提案する。 特に背景のぼやけのような非可視的アーティファクトに対して,テスト時に突発的アーティファクトが不明な場合には,ポストホックな説明方法が有効でないことが判明した。 さらに,説明対象のモデルがスプリアスアーティファクトに依存しない場合でも,スプリアス信号への依存性を誤認識する恐れがあることがわかった。 この発見は、モデルがスプリアス信号に依存することを検出するために、実践者の手によってこれらのアプローチの有用性に疑問を投げかける。

We investigate whether three types of post hoc model explanations--feature attribution, concept activation, and training point ranking--are effective for detecting a model's reliance on spurious signals in the training data. Specifically, we consider the scenario where the spurious signal to be detected is unknown, at test-time, to the user of the explanation method. We design an empirical methodology that uses semi-synthetic datasets along with pre-specified spurious artifacts to obtain models that verifiably rely on these spurious training signals. We then provide a suite of metrics that assess an explanation method's reliability for spurious signal detection under various conditions. We find that the post hoc explanation methods tested are ineffective when the spurious artifact is unknown at test-time especially for non-visible artifacts like a background blur. Further, we find that feature attribution methods are susceptible to erroneously indicating dependence on spurious signals even when the model being explained does not rely on spurious artifacts. This finding casts doubt on the utility of these approaches, in the hands of a practitioner, for detecting a model's reliance on spurious signals.
翻訳日:2022-12-12 15:38:03 公開日:2022-12-09
# スパースデータを用いた記号微分演算子発見へのpinnアプローチ

A PINN Approach to Symbolic Differential Operator Discovery with Sparse Data ( http://arxiv.org/abs/2212.04630v1 )

ライセンス: Link先を確認
Lena Podina, Brydon Eastman, Mohammad Kohandel(参考訳) 微分方程式が支配する系からの豊富な実験データを与えると、深層学習技術を用いて基礎となる微分作用素を構築することができる。 本研究では,実験データが少ない状況において微分作用素の記号的発見を行う。 機械学習におけるこの小さなデータ構造は、我々のアルゴリズムに基礎となるダイナミクスに関する事前情報を提供することで、抽出可能である。 物理学Informed Neural Networks (PINN) は、この体制において非常に成功している(初期状態の測定を非常に少ない単点または全PDEソリューションを用いて、ODEソリューション全体を再構築する)。 微分方程式における未知の隠れ項の表現を学習するニューラルネットワークを追加することで,pinnアプローチを修正した。 このアルゴリズムは微分方程式に対する代理解と隠れた項のブラックボックス表現の両方を与える。 これらの隠れた用語のニューラルネットワークは、ai feynmanのような記号回帰技術を使って記号方程式に変換することができる。 これらのニューラルネットワークの収束を達成するために、我々は、初期状態と、後から得られた(合成)実験データの両方の(ノイズ)測定をアルゴリズムに提供する。 ODEとPDEの双方でノイズデータの測定値が極めて少ない場合でも,このアプローチの強い性能を示す。

Given ample experimental data from a system governed by differential equations, it is possible to use deep learning techniques to construct the underlying differential operators. In this work we perform symbolic discovery of differential operators in a situation where there is sparse experimental data. This small data regime in machine learning can be made tractable by providing our algorithms with prior information about the underlying dynamics. Physics Informed Neural Networks (PINNs) have been very successful in this regime (reconstructing entire ODE solutions using only a single point or entire PDE solutions with very few measurements of the initial condition). We modify the PINN approach by adding a neural network that learns a representation of unknown hidden terms in the differential equation. The algorithm yields both a surrogate solution to the differential equation and a black-box representation of the hidden terms. These hidden term neural networks can then be converted into symbolic equations using symbolic regression techniques like AI Feynman. In order to achieve convergence of these neural networks, we provide our algorithms with (noisy) measurements of both the initial condition as well as (synthetic) experimental data obtained at later times. We demonstrate strong performance of this approach even when provided with very few measurements of noisy data in both the ODE and PDE regime.
翻訳日:2022-12-12 15:37:40 公開日:2022-12-09
# whac-a-mole dilemma: 近道は複数あり、1つの緩和が他の人を増幅する

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others ( http://arxiv.org/abs/2212.04825v1 )

ライセンス: Link先を確認
Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim(参考訳) 機械学習モデルはショートカット(一般化できない意図しない決定ルール)を学ぶことができ、モデルの信頼性を損なう。 これまでの研究は、トレーニングデータに1つのショートカットしか存在しないという厳しい仮定の下でこの問題に対処してきた。 現実世界の画像は、背景からテクスチャまで、複数の視覚的な手がかりを持つ。 ビジョンシステムの信頼性向上の鍵は、既存の手法が複数のショートカットを克服できるか、あるいはwwac-a-moleゲームで苦労するかを理解することである。 この欠点に対処するため、我々は2つのベンチマークを提案する。 1)都市自動車,スプリアスキューを精密に制御したデータセット,及び 2) 透かしのためのImageNetに基づく評価セットであるImageNet-Wは,現代の視覚モデルにほとんど影響を与えている。 テクスチャや背景とともに、ImageNet-Wは自然画像のトレーニングから生まれる複数のショートカットを研究できます。 トレーニングセット、アーキテクチャ、監督に関係なく、大規模な基盤モデルを含むコンピュータビジョンモデルは、複数のショートカットが存在すると苦労する。 Whac-A-Moleジレンマでショートカットと戦うために明示的に設計された方法でさえも苦戦している。 この課題に対処するために,Whac-A-Mole 動作を伴わずに複数のショートカットを緩和する簡便な手法であるLast Layer Ensembleを提案する。 本研究は,視覚システムの信頼性向上に不可欠な課題として,マルチショートカット緩和を提案する。 データセットとコードは、https://github.com/facebookresearch/whac-a-mole.gitである。

Machine learning models have been found to learn shortcuts -- unintended decision rules that are unable to generalize -- undermining models' reliability. Previous works address this problem under the tenuous assumption that only a single shortcut exists in the training data. Real-world images are rife with multiple visual cues from background to texture. Key to advancing the reliability of vision systems is understanding whether existing methods can overcome multiple shortcuts or struggle in a Whac-A-Mole game, i.e., where mitigating one shortcut amplifies reliance on others. To address this shortcoming, we propose two benchmarks: 1) UrbanCars, a dataset with precisely controlled spurious cues, and 2) ImageNet-W, an evaluation set based on ImageNet for watermark, a shortcut we discovered affects nearly every modern vision model. Along with texture and background, ImageNet-W allows us to study multiple shortcuts emerging from training on natural images. We find computer vision models, including large foundation models -- regardless of training set, architecture, and supervision -- struggle when multiple shortcuts are present. Even methods explicitly designed to combat shortcuts struggle in a Whac-A-Mole dilemma. To tackle this challenge, we propose Last Layer Ensemble, a simple-yet-effective method to mitigate multiple shortcuts without Whac-A-Mole behavior. Our results surface multi-shortcut mitigation as an overlooked challenge critical to advancing the reliability of vision systems. The datasets and code are released: https://github.com/facebookresearch/Whac-A-Mole.git.
翻訳日:2022-12-12 15:31:53 公開日:2022-12-09
# Frugal Reinforcement を用いたアクティブラーニング

Frugal Reinforcement-based Active Learning ( http://arxiv.org/abs/2212.04868v1 )

ライセンス: Link先を確認
Sebastien Deschamps and Hichem Sahbi(参考訳) 既存の学習モデル、特にディープニューラルネットワークのほとんどは、手ラベルが高価で時間を要する大きなデータセットに依存しています。 現在のトレンドは、これらのモデルの学習を粗末にし、ラベル付きデータの大規模な収集に依存しないようにすることだ。 既存のソリューションの中で、deep active learningは現在大きな関心を集めており、可能な限り少数のラベル付きサンプルを使用してディープネットワークをトレーニングすることを目的としている。 しかし、アクティブラーニングの成功は、トレーニングモデルにおけるこれらのサンプルの重要性に大きく依存している。 本稿では,ラベル効率向上のための新しい能動的学習手法を考案する。 提案手法は,多様性,表現性,不確かさを混合した制約対象関数を最小化する。 提案手法は確率的であり、決定関数を学習する際のサンプルの関連性の確率(すなわち、いかに重要か)を解がモデル化する単一目的関数にこれらの基準を統一する。 また,強化学習に基づく新しい重み付け機構を導入し,特定のステートレスなq-learningモデルを用いて,各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。 Object-DOTAを含む静止画像分類データを用いて行った大規模な実験は、ランダム、不確実性、平坦性を含むいくつかのベースラインと他の作業の有効性を示した。

Most of the existing learning models, particularly deep neural networks, are reliant on large datasets whose hand-labeling is expensive and time demanding. A current trend is to make the learning of these models frugal and less dependent on large collections of labeled data. Among the existing solutions, deep active learning is currently witnessing a major interest and its purpose is to train deep networks using as few labeled samples as possible. However, the success of active learning is highly dependent on how critical are these samples when training models. In this paper, we devise a novel active learning approach for label-efficient training. The proposed method is iterative and aims at minimizing a constrained objective function that mixes diversity, representativity and uncertainty criteria. The proposed approach is probabilistic and unifies all these criteria in a single objective function whose solution models the probability of relevance of samples (i.e., how critical) when learning a decision function. We also introduce a novel weighting mechanism based on reinforcement learning, which adaptively balances these criteria at each training iteration, using a particular stateless Q-learning model. Extensive experiments conducted on staple image classification data, including Object-DOTA, show the effectiveness of our proposed model w.r.t. several baselines including random, uncertainty and flat as well as other work.
翻訳日:2022-12-12 15:31:14 公開日:2022-12-09
# rcdt: トランスフォーマによるリレーショナルリモートセンシング変化検出

RCDT: Relational Remote Sensing Change Detection with Transformer ( http://arxiv.org/abs/2212.04869v1 )

ライセンス: Link先を確認
Kaixuan Lu and Xiao Huang(参考訳) 深層学習に基づく変化検出手法は,画像からリッチな特徴を得ることで,幅広い評価を受けている。 しかし、既存のAIベースのCD手法は、主に3つの機能強化モジュール(セマンティックエンハンスメント、注意機構、対応エンハンスメント)に依存している。 これらのモジュールの積み重ねは、非常に複雑なモデルを生み出す。 これら3つのモジュールを単純なパイプラインに統合するために,リレーショナル・チェンジ検出用トランスフォーマ(RCDT)を導入する。 提案したRCDTは3つの主要コンポーネントから構成されており,両時間的特徴を得るためのウェイトシェアリングのSamese Backbone,両時間的関係を認識するためのオフセットクロスアテンションを実装したRelational Cross Attention Module (RCAM),高精細制約で最終的な洗練された予測を実現するためのFeatures Constrain Module (FCM) から構成されている。 4つの公開データセットに対する大規模な実験により,提案したRCDTは,他の競合手法と比較して優れた変化検出性能を示した。 本研究の理論的,方法論的,実験的知識は,クロスアテンション機構を含む将来の変化検出に有効であることが期待される。

Deep learning based change detection methods have received wide attentoion, thanks to their strong capability in obtaining rich features from images. However, existing AI-based CD methods largely rely on three functionality-enhancing modules, i.e., semantic enhancement, attention mechanisms, and correspondence enhancement. The stacking of these modules leads to great model complexity. To unify these three modules into a simple pipeline, we introduce Relational Change Detection Transformer (RCDT), a novel and simple framework for remote sensing change detection tasks. The proposed RCDT consists of three major components, a weight-sharing Siamese Backbone to obtain bi-temporal features, a Relational Cross Attention Module (RCAM) that implements offset cross attention to obtain bi-temporal relation-aware features, and a Features Constrain Module (FCM) to achieve the final refined predictions with high-resolution constraints. Extensive experiments on four different publically available datasets suggest that our proposed RCDT exhibits superior change detection performance compared with other competing methods. The therotical, methodogical, and experimental knowledge of this study is expected to benefit future change detection efforts that involve the cross attention mechanism.
翻訳日:2022-12-12 15:30:51 公開日:2022-12-09
# 視覚認識のための2^l$サブモデルの共同学習

Co-training $2^L$ Submodels for Visual Recognition ( http://arxiv.org/abs/2212.04884v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Maxime Oquab, Piotr Bojanowski, Jakob Verbeek, Herv\'e J\'egou(参考訳) 本稿では,コトレーニング,自己蒸留,確率深度に関連する正規化手法であるサブモデルコトレーニングを紹介する。 トレーニングすべきニューラルネットワークが与えられた場合、各サンプルに対して、暗黙的に2つの変更されたネットワークである ``submodels'' を確率的な深さでインスタンス化する。 各ネットワークは、一方のホットラベルが提供する通常の損失を補完する損失を提供することで、他方のソフトな教師として機能する。 われわれのアプローチはcosubと呼ばれ、1組の重みを使い、事前訓練された外部モデルや時間平均化を伴わない。 画像分類やセマンティクスセグメンテーションなどの認識タスクにおいて,サブモデル協調学習がバックボーンのトレーニングに有効であることを示す。 私たちのアプローチは、RegNet、ViT、PiT、XCiT、Swin、ConvNextなど、複数のアーキテクチャと互換性があります。 トレーニング戦略は、その結果を同等の設定で改善します。 例えば、ImageNet-21kでcosubで事前訓練されたViT-Bは87.4%のトップ-1ccを得る。 imagenet-valの@448です。

We introduce submodel co-training, a regularization method related to co-training, self-distillation and stochastic depth. Given a neural network to be trained, for each sample we implicitly instantiate two altered networks, ``submodels'', with stochastic depth: we activate only a subset of the layers. Each network serves as a soft teacher to the other, by providing a loss that complements the regular loss provided by the one-hot label. Our approach, dubbed cosub, uses a single set of weights, and does not involve a pre-trained external model or temporal averaging. Experimentally, we show that submodel co-training is effective to train backbones for recognition tasks such as image classification and semantic segmentation. Our approach is compatible with multiple architectures, including RegNet, ViT, PiT, XCiT, Swin and ConvNext. Our training strategy improves their results in comparable settings. For instance, a ViT-B pretrained with cosub on ImageNet-21k obtains 87.4% top-1 acc. @448 on ImageNet-val.
翻訳日:2022-12-12 15:30:26 公開日:2022-12-09
# 5千の方法でバラを見る

Seeing a Rose in Five Thousand Ways ( http://arxiv.org/abs/2212.04965v1 )

ライセンス: Link先を確認
Yunzhi Zhang, Shangzhe Wu, Noah Snavely, Jiajun Wu(参考訳) 視覚的に、バラとは何か? バラは、その対象カテゴリーに特有の幾何学、テクスチャ、素材の分布を含む、その内在性を含む。 これらの固有の性質を知ることで、異なる大きさと形状のバラを異なるポーズで、異なる照明条件下でレンダリングすることができる。 本研究では,花束の写真など,一つの画像からそのような物体の内在を捉えることを学習する生成モデルを構築する。 このようなイメージには、オブジェクトタイプの複数のインスタンスが含まれている。 これらの例は全て同じ内在性を持つが、内在性内のばらつきとポーズや照明などの外部要因の違いの組み合わせによって異なるように見える。 実験により,我々のモデルは,単一のインターネットイメージから,多種多様なオブジェクトに対して,オブジェクト内在性(幾何学,テクスチャ,素材の分布)をうまく学習できることが確認された。 本手法は,固有画像分解,形状と画像生成,ビュー合成,ライティングなど,複数の下流タスクにおいて優れた結果が得られる。

What is a rose, visually? A rose comprises its intrinsics, including the distribution of geometry, texture, and material specific to its object category. With knowledge of these intrinsic properties, we may render roses of different sizes and shapes, in different poses, and under different lighting conditions. In this work, we build a generative model that learns to capture such object intrinsics from a single image, such as a photo of a bouquet. Such an image includes multiple instances of an object type. These instances all share the same intrinsics, but appear different due to a combination of variance within these intrinsics and differences in extrinsic factors, such as pose and illumination. Experiments show that our model successfully learns object intrinsics (distribution of geometry, texture, and material) for a wide range of objects, each from a single Internet image. Our method achieves superior results on multiple downstream tasks, including intrinsic image decomposition, shape and image generation, view synthesis, and relighting.
翻訳日:2022-12-12 15:30:08 公開日:2022-12-09
# SupeRVol:逆ボリュームレンダリングにおける超解像形状と反射率推定

SupeRVol: Super-Resolution Shape and Reflectance Estimation in Inverse Volume Rendering ( http://arxiv.org/abs/2212.04968v1 )

ライセンス: Link先を確認
Mohammed Brahimi, Bjoern Haefner, Tarun Yenamandra, Bastian Goldluecke and Daniel Cremers(参考訳) 超高解像度のカラー画像から3次元形状と材料パラメータを復元できるsupervolと呼ばれるエンドツーエンドの逆レンダリングパイプラインを提案する。 この目的のために,両方向反射率分布関数 (BRDF) と符号付き距離関数 (SDF) を多層パーセプトロンで表現する。 表面形状と反射特性の両方を得るため、反射率と照明を分離できる物理ベースの照明モデルを用いて、微分可能なボリュームレンダラに戻す。 この物理モデルは、カメラの点展開機能の影響を考慮に入れ、超高解像度の品質の形状と材料の再構成を可能にする。 実験による検証により,SupeRVolが逆レンダリング品質の面で技術性能の状態を達成できることが確認された。 個々の入力画像よりもシャープな再構成を生成し、低解像度画像からの3Dモデリングに最適である。

We propose an end-to-end inverse rendering pipeline called SupeRVol that allows us to recover 3D shape and material parameters from a set of color images in a super-resolution manner. To this end, we represent both the bidirectional reflectance distribution function (BRDF) and the signed distance function (SDF) by multi-layer perceptrons. In order to obtain both the surface shape and its reflectance properties, we revert to a differentiable volume renderer with a physically based illumination model that allows us to decouple reflectance and lighting. This physical model takes into account the effect of the camera's point spread function thereby enabling a reconstruction of shape and material in a super-resolution quality. Experimental validation confirms that SupeRVol achieves state of the art performance in terms of inverse rendering quality. It generates reconstructions that are sharper than the individual input images, making this method ideally suited for 3D modeling from low-resolution imagery.
翻訳日:2022-12-12 15:29:51 公開日:2022-12-09
# Augmentation Matters: 半教師付きセマンティックセマンティックセグメンテーションへのシンプル-yet-Effective Approach

Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2212.04976v1 )

ライセンス: Link先を確認
Zhen Zhao, Lihe Yang, Sifan Long, Jimin Pi, Luping Zhou, Jingdong Wang(参考訳) 半教師付きセマンティックセグメンテーション(SSS)の最近の研究は急速に進展している。 その有望な性能にもかかわらず、現在の最先端の手法は、より多くのネットワークコンポーネントと追加のトレーニング手順を導入するコストで、ますます複雑な設計を行う傾向がある。 そこで本研究では,SSSの性能向上を目的としたデータ摂動に着目した,シンプルでクリーンなアプローチであるAugSegを提案する。 我々は,これらの手法を教師付き学習から直接適用するのではなく,半教師付きシナリオに適応するために,様々なデータ拡張を調整すべきであると主張している。 具体的には,連続空間から一様に歪み強度をサンプリングし,ランダムな数のデータ変換を選択できる簡易なインテンシティに基づく拡張法を採用する。 異なるラベルなしサンプルに対するモデルの推定信頼度に基づいて,ラベルなしサンプルを適応的に補強するためにラベル付き情報をランダムに注入する。 ベルとホイッスルがなければ、単純なAugSegは、異なるパーティションプロトコルの下でSSSベンチマーク上で、新しい最先端のパフォーマンスを容易に達成できます。

Recent studies on semi-supervised semantic segmentation (SSS) have seen fast progress. Despite their promising performance, current state-of-the-art methods tend to increasingly complex designs at the cost of introducing more network components and additional training procedures. Differently, in this work, we follow a standard teacher-student framework and propose AugSeg, a simple and clean approach that focuses mainly on data perturbations to boost the SSS performance. We argue that various data augmentations should be adjusted to better adapt to the semi-supervised scenarios instead of directly applying these techniques from supervised learning. Specifically, we adopt a simplified intensity-based augmentation that selects a random number of data transformations with uniformly sampling distortion strengths from a continuous space. Based on the estimated confidence of the model on different unlabeled samples, we also randomly inject labelled information to augment the unlabeled samples in an adaptive manner. Without bells and whistles, our simple AugSeg can readily achieve new state-of-the-art performance on SSS benchmarks under different partition protocols.
翻訳日:2022-12-12 15:29:36 公開日:2022-12-09
# patch aligned contrastive learningを用いたオープン語彙意味セグメンテーション

Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning ( http://arxiv.org/abs/2212.04994v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim(参考訳) 本稿では,視覚エンコーダのパッチトークンとテキストエンコーダのclsトークンとのアライメントをトレーニングすることを目的とした,クリップのコントラスト損失に対する修正互換性機能であるpatch aligned contrastive learning (pacl)を提案する。 このようなアライメントにより、モデルは与えられたテキスト入力に対応する画像の領域を特定し、トレーニング中にセグメンテーションアノテーションを必要とせずにオープン語彙セグメンテーションのタスクにシームレスに転送することができる。 PACLで事前学習したCLIPエンコーダを使用して、Pascal VOC、Pascal Context、COCO Stuff、ADE20Kの4つのセグメンテーションベンチマークで、オープン語彙ゼロショットセグメンテーションのタスクに最先端を設定できる。 さらに、PACLは画像レベルの予測にも適用可能であることを示し、CLIPのバックボーンで使用すると、12の画像分類データセットに対して、CLIPと比較してゼロショット分類精度が全般的に向上することを示した。

We introduce Patch Aligned Contrastive Learning (PACL), a modified compatibility function for CLIP's contrastive loss, intending to train an alignment between the patch tokens of the vision encoder and the CLS token of the text encoder. With such an alignment, a model can identify regions of an image corresponding to a given text input, and therefore transfer seamlessly to the task of open vocabulary semantic segmentation without requiring any segmentation annotations during training. Using pre-trained CLIP encoders with PACL, we are able to set the state-of-the-art on the task of open vocabulary zero-shot segmentation on 4 different segmentation benchmarks: Pascal VOC, Pascal Context, COCO Stuff and ADE20K. Furthermore, we show that PACL is also applicable to image-level predictions and when used with a CLIP backbone, provides a general improvement in zero-shot classification accuracy compared to CLIP, across a suite of 12 image classification datasets.
翻訳日:2022-12-12 15:29:18 公開日:2022-12-09
# SmartBrush: 拡散モデルによるテキストと形状ガイドオブジェクトの塗布

SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model ( http://arxiv.org/abs/2212.05034v1 )

ライセンス: Link先を確認
Shaoan Xie, Zhifei Zhang, Zhe Lin, Tobias Hinz and Kun Zhang(参考訳) 総称イメージ・インペインティングは、周囲の情報を借りて腐敗した画像を完成することを目的としている。 対照的に、マルチモーダルのインペインティングは、インペインテッドコンテンツに対するより柔軟で有用なコントロールを提供する。例えば、テキストプロンプトは、よりリッチな属性を持つオブジェクトを記述するために使用され、マスクは、欠落した領域としてのみ考慮されるのではなく、インペインテッドオブジェクトの形状を制限するために使用できる。 テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。 dalle-2やstable diffusionのような以前の作業ではテキストガイドによる非認識が可能だが、形状指導はサポートせず、生成されたオブジェクトを取り巻く背景テクスチャを変更する傾向がある。 本モデルでは,テキストと形状のガイダンスと精度制御を併用する。 背景をよりよく保存するために,オブジェクトマスク予測による拡散U-netの拡大による新しいトレーニングとサンプリング戦略を提案する。 最後に,テキストから画像へのインペインティングを共同でトレーニングし,より多くのトレーニングデータを活用するマルチタスクトレーニング戦略を提案する。 我々は、視覚品質、マスク制御性、背景保存性の観点から、我々のモデルが全てのベースラインを上回っていることを示す広範な実験を行う。

Generic image inpainting aims to complete a corrupted image by borrowing surrounding information, which barely generates novel content. By contrast, multi-modal inpainting provides more flexible and useful controls on the inpainted content, \eg, a text prompt can be used to describe an object with richer attributes, and a mask can be used to constrain the shape of the inpainted object rather than being only considered as a missing area. We propose a new diffusion-based model named SmartBrush for completing a missing region with an object using both text and shape-guidance. While previous work such as DALLE-2 and Stable Diffusion can do text-guided inapinting they do not support shape guidance and tend to modify background texture surrounding the generated object. Our model incorporates both text and shape guidance with precision control. To preserve the background better, we propose a novel training and sampling strategy by augmenting the diffusion U-net with object-mask prediction. Lastly, we introduce a multi-task training strategy by jointly training inpainting with text-to-image generation to leverage more training data. We conduct extensive experiments showing that our model outperforms all baselines in terms of visual quality, mask controllability, and background preservation.
翻訳日:2022-12-12 15:28:56 公開日:2022-12-09
# シャドウ拡散: シャドウ除去のための拡散モデルに先立つ劣化

ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow Removal ( http://arxiv.org/abs/2212.04711v1 )

ライセンス: Link先を確認
Lanqing Guo, Chong Wang, Wenhan Yang, Siyu Huang, Yufei Wang, Hanspeter Pfister, Bihan Wen(参考訳) 近年の深層学習法は画像の影除去において有望な成果を上げている。 しかし, 画像の復元は, 埋没前の劣化の欠如, モデリング能力の欠如など, 不満足な境界アーチファクトに悩まされている。 本研究は,画像と劣化前処理の両方を統合し,シャドウ除去を効果的に行う統一拡散フレームワークを提案することで,これらの課題に対処した。 そこで我々はまず,ShandowDiffusionと呼ばれる新しい非回転拡散モデルを構築するための影分解モデルを提案する。 画像復元のための新たな強固なベースラインとして機能する、劣化前と拡散前の両方で所望の出力を段階的に精錬することで、シャドー除去におけるモデルの能力を大幅に向上させる。 さらに、シャドウ拡散は拡散生成装置の補助タスクとして推定シャドウマスクを段階的に洗練し、より正確でロバストなシャドウフリー画像を生成する。 本手法の有効性を検証するために, ISTD, ISTD+, SRDの3つの一般的な公開データセットについて広範な実験を行った。 現状の手法と比較して,SRDデータセット上でのPSNRは31.69dBから34.73dBへと大幅に向上した。

Recent deep learning methods have achieved promising results in image shadow removal. However, their restored images still suffer from unsatisfactory boundary artifacts, due to the lack of degradation prior embedding and the deficiency in modeling capacity. Our work addresses these issues by proposing a unified diffusion framework that integrates both the image and degradation priors for highly effective shadow removal. In detail, we first propose a shadow degradation model, which inspires us to build a novel unrolling diffusion model, dubbed ShandowDiffusion. It remarkably improves the model's capacity in shadow removal via progressively refining the desired output with both degradation prior and diffusive generative prior, which by nature can serve as a new strong baseline for image restoration. Furthermore, ShadowDiffusion progressively refines the estimated shadow mask as an auxiliary task of the diffusion generator, which leads to more accurate and robust shadow-free image generation. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to validate our method's effectiveness. Compared to the state-of-the-art methods, our model achieves a significant improvement in terms of PSNR, increasing from 31.69dB to 34.73dB over SRD dataset.
翻訳日:2022-12-12 15:22:59 公開日:2022-12-09
# リレーショナル・アダプティブ・特徴補正学習による人物再同定

Occluded Person Re-Identification via Relational Adaptive Feature Correction Learning ( http://arxiv.org/abs/2212.04712v1 )

ライセンス: Link先を確認
Minjung Kim, MyeongAh Cho, Heansung Lee, Suhwan Cho, Sangyoun Lee(参考訳) 複数のカメラが捉えた画像中の被写体再識別(Re-ID)は、特に混雑したシーンでは歩行者や物体に隠蔽されているため困難である。 包括的人物Re-IDの間に行われるプロセスに加えて、隠蔽された人物Re-IDは障害物の除去と部分的に見える身体部分の検出を含む。 既存のほとんどの手法では、ネットワークを擬似ラベルとして利用しており、エラーを起こしやすい。 そこで本研究では,リレーショナル・ウェイト・ラーニングによって特徴を補正し,外部ネットワークを用いずに多様で代表的な特徴量を得る新しいオクルージョン補正ネットワーク(ocnet)を提案する。 また,歩行者のオクルージョンシナリオに対する直感的な解決策を提供するため,センター機能の簡単な概念を提案する。 さらに,グローバル特徴とパート特徴の異なる部分に着目した分離損失(sl)の考え方を提案する。 我々は,隠蔽および包括的Re-IDタスクのための5つの挑戦的ベンチマークデータセットについて広範な実験を行った。

Occluded person re-identification (Re-ID) in images captured by multiple cameras is challenging because the target person is occluded by pedestrians or objects, especially in crowded scenes. In addition to the processes performed during holistic person Re-ID, occluded person Re-ID involves the removal of obstacles and the detection of partially visible body parts. Most existing methods utilize the off-the-shelf pose or parsing networks as pseudo labels, which are prone to error. To address these issues, we propose a novel Occlusion Correction Network (OCNet) that corrects features through relational-weight learning and obtains diverse and representative features without using external networks. In addition, we present a simple concept of a center feature in order to provide an intuitive solution to pedestrian occlusion scenarios. Furthermore, we suggest the idea of Separation Loss (SL) for focusing on different parts between global features and part features. We conduct extensive experiments on five challenging benchmark datasets for occluded and holistic Re-ID tasks to demonstrate that our method achieves superior performance to state-of-the-art methods especially on occluded scene.
翻訳日:2022-12-12 15:22:35 公開日:2022-12-09
# 視覚障害者のためのSLAM: 調査

SLAM for Visually Impaired People: A Survey ( http://arxiv.org/abs/2212.04745v1 )

ライセンス: Link先を確認
Marziyeh Bamdad, Davide Scaramuzza, Alireza Darvishy(参考訳) 近年,視覚障害者と視覚障害者のための補助技術が開発され,自律的かつ安全にナビゲートする能力が向上している。 同時に、同時ローカライゼーションとマッピング(slam)の技術は、アシスト技術の開発において十分に堅牢で効率的なものとなった。 本稿では、まず、VIBの人々が経験とニーズを理解するために匿名調査を行った結果について報告する。 次に,slamに基づく支援技術に関する文献レビューを行う。 提案手法を議論し,その長所と短所を示す。 最後に、この領域における将来の機会と課題を提示します。

In recent decades, several assistive technologies for visually impaired and blind (VIB) people have been developed to improve their ability to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in the development of assistive technologies. In this paper, we first report the results of an anonymous survey conducted with VIB people to understand their experience and needs; we focus on digital assistive technologies that help them with indoor and outdoor navigation. Then, we present a literature review of assistive technologies based on SLAM. We discuss proposed approaches and indicate their pros and cons. We conclude by presenting future opportunities and challenges in this domain.
翻訳日:2022-12-12 15:22:09 公開日:2022-12-09
# スケルトンに基づく行動認識における時空間依存性の活用

Leveraging Spatio-Temporal Dependency for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2212.04761v1 )

ライセンス: Link先を確認
Jungho Lee, Minhyeok Lee, Suhwan Cho, Sungmin Woo, and Sangyoun Lee(参考訳) スケルトンに基づく行動認識は、人体のコンパクトな骨格構造のため、かなりの注目を集めている。 近年,グラフ畳み込みネットワーク (gcns) と畳み込みニューラルネットワーク (cnns) を用いて,空間的特徴と時間的特徴をそれぞれ抽出する手法が注目されている。 ヒト骨格の空間的および時間的依存関係は調査されているが、時空間依存性はまれである。 本稿では,人間の骨格の時空間依存性を効果的に活用するためのフレーム間曲線ネットワーク(IFC-Net)を提案する。 提案するネットワークは2つの新しい要素からなる。 1) フレーム間曲線(IFC)モジュール,及び 2)拡張グラフ畳み込み(d-gc)。 IFCモジュールは、隣接する各フレーム間の有意なノード接続を特定し、同定されたノード接続に基づいて時空間曲線を生成することにより、時空間受容場を増加させる。 D-GCにより、ネットワークは空間領域に特に焦点をあてる大きな空間受容場を持つことができる。 D-GCの核はグラフの与えられた隣接行列から計算され、拡張されたCNNと似た形で大きな受容場を反映する。 我々のIFC-Netはこれらの2つのモジュールを組み合わせて,NTU-RGB+D 60,NTU-RGB+D 120,Northwestern-UCLAの3つのスケルトンベースの動作認識ベンチマークで最先端のパフォーマンスを実現している。

Skeleton-based action recognition has attracted considerable attention due to its compact skeletal structure of the human body. Many recent methods have achieved remarkable performance using graph convolutional networks (GCNs) and convolutional neural networks (CNNs), which extract spatial and temporal features, respectively. Although spatial and temporal dependencies in the human skeleton have been explored, spatio-temporal dependency is rarely considered. In this paper, we propose the Inter-Frame Curve Network (IFC-Net) to effectively leverage the spatio-temporal dependency of the human skeleton. Our proposed network consists of two novel elements: 1) The Inter-Frame Curve (IFC) module; and 2) Dilated Graph Convolution (D-GC). The IFC module increases the spatio-temporal receptive field by identifying meaningful node connections between every adjacent frame and generating spatio-temporal curves based on the identified node connections. The D-GC allows the network to have a large spatial receptive field, which specifically focuses on the spatial domain. The kernels of D-GC are computed from the given adjacency matrices of the graph and reflect large receptive field in a way similar to the dilated CNNs. Our IFC-Net combines these two modules and achieves state-of-the-art performance on three skeleton-based action recognition benchmarks: NTU-RGB+D 60, NTU-RGB+D 120, and Northwestern-UCLA.
翻訳日:2022-12-12 15:21:59 公開日:2022-12-09
# YOLOv4を用いた産業環境における画像ベース火災検知

Image-Based Fire Detection in Industrial Environments with YOLOv4 ( http://arxiv.org/abs/2212.04786v1 )

ライセンス: Link先を確認
Otto Zell, Joel P{\aa}lsson, Kevin Hernandez-Diaz, Fernando Alonso-Fernandez, Felix Nilsson(参考訳) 火災は破壊的な力を持ち、破壊的な規模で周囲に影響を及ぼす。 損傷を最小限に抑える最善の方法は、成長する前にできるだけ早く火災を検出することである。 そこで本研究では,aiが火災を検知し認識し,画像ストリーム上の物体検出による検出時間を短縮する可能性を検討する。 物体検出は過去6年間でスピードと精度を飛躍させ、リアルタイム検出を可能にした。 そこで我々は, YOLOv4オブジェクト検出器をベースとした複数のモデルのトレーニングと評価に使用されてきた複数の公開情報源から, 適切なデータを収集, ラベル付けした。 協力する産業パートナーによって推進される我々の焦点は、高い天井を特徴とする産業倉庫環境でのシステムの実装である。 この設定における従来の煙探知器の欠点は、煙が十分な高さに達する必要があることである。 この研究で得られたAIモデルは、これらの検出器をかなりの時間で上回り、火災の影響を最小化するための貴重な予測を提供することができた。

Fires have destructive power when they break out and affect their surroundings on a devastatingly large scale. The best way to minimize their damage is to detect the fire as quickly as possible before it has a chance to grow. Accordingly, this work looks into the potential of AI to detect and recognize fires and reduce detection time using object detection on an image stream. Object detection has made giant leaps in speed and accuracy over the last six years, making real-time detection feasible. To our end, we collected and labeled appropriate data from several public sources, which have been used to train and evaluate several models based on the popular YOLOv4 object detector. Our focus, driven by a collaborating industrial partner, is to implement our system in an industrial warehouse setting, which is characterized by high ceilings. A drawback of traditional smoke detectors in this setup is that the smoke has to rise to a sufficient height. The AI models brought forward in this research managed to outperform these detectors by a significant amount of time, providing precious anticipation that could help to minimize the effects of fires further.
翻訳日:2022-12-12 15:21:33 公開日:2022-12-09
# 産業応用におけるオブジェクト分類のための合成データ

Synthetic Data for Object Classification in Industrial Applications ( http://arxiv.org/abs/2212.04790v1 )

ライセンス: Link先を確認
August Baaz, Yonan Yonan, Kevin Hernandez-Diaz, Fernando Alonso-Fernandez, Felix Nilsson(参考訳) マシンラーニングの最大の課題のひとつは、データ収集だ。 モデルがどのように振る舞うかを決定するため、トレーニングデータは重要な部分です。 オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも可能ではなく、非常に時間がかかり、面倒である。 そこで本研究では,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。 我々は、実データと合成データを組み合わせて、オブジェクト分類エンジンを訓練する。これは、分類器による決定に対する信頼性を高めるために有益であることを示す戦略であり、しばしば産業設備において重要なものである。 実データと合成データを組み合わせるために、我々はまず大量の合成データに基づいて分類器を訓練し、次いで実画像で微調整する。 もう1つの重要な結果は、微調整に必要な実画像の量はそれほど高くなく、1クラスにつき12または24枚の画像で最高精度に達することである。 これにより、大量の実データを取得する必要が大幅に削減される。

One of the biggest challenges in machine learning is data collection. Training data is an important part since it determines how the model will behave. In object classification, capturing a large number of images per object and in different conditions is not always possible and can be very time-consuming and tedious. Accordingly, this work explores the creation of artificial images using a game engine to cope with limited data in the training dataset. We combine real and synthetic data to train the object classification engine, a strategy that has shown to be beneficial to increase confidence in the decisions made by the classifier, which is often critical in industrial setups. To combine real and synthetic data, we first train the classifier on a massive amount of synthetic data, and then we fine-tune it on real images. Another important result is that the amount of real images needed for fine-tuning is not very high, reaching top accuracy with just 12 or 24 images per class. This substantially reduces the requirements of capturing a great amount of real data.
翻訳日:2022-12-12 15:21:15 公開日:2022-12-09
# 産業労働者の保護具・安全具の視覚的検出

Visual Detection of Personal Protective Equipment and Safety Gear on Industry Workers ( http://arxiv.org/abs/2212.04794v1 )

ライセンス: Link先を確認
Jonathan Karlsson, Fredrik Strand, Josef Bigun, Fernando Alonso-Fernandez, Kevin Hernandez-Diaz, Felix Nilsson(参考訳) 職場での怪我は今日の社会では安全装置が適切に装備されていないために一般的である。 適切な装備員のみを認めるシステムは、作業条件を改善するために作成することができる。 この目的は、PPE(Personal Protective Equipment)の使用を検知するカメラを用いて、労働者の安全を改善するシステムを開発することである。 そこで我々は, YOLOv4オブジェクト検出器をベースとした複数のモデルのトレーニングと評価に使用されている複数の公開情報源から, 適切なデータを収集, ラベル付けした。 我々の焦点は、協力する産業パートナーによって推進され、労働者が制限された地域へのアクセスを得るために自らを提示しなければならないエントリーコントロールポイントに我々のシステムを実装することである。 顔認識と組み合わせることで、適切な装備を身に着けている認定された人だけがアクセスを許可される。 この研究の目新しさは、クラスを5つのオブジェクト(ハードハット、安全ベスト、安全グローブ、安全メガネ、聴覚保護)に増やすことである。 開発されたAIモデルは、私たちが運用する協調環境(それぞれ99/89%のmAP)において、3mと5mの距離で優れた検出精度を提供する。 いくつかの物体の小さなサイズや、身体部分による潜在的な閉塞は、精度に有害な潜在的な要因として同定され、PPE検出を施す前に、データの増大と身体の収穫によって対処された。

Workplace injuries are common in today's society due to a lack of adequately worn safety equipment. A system that only admits appropriately equipped personnel can be created to improve working conditions. The goal is thus to develop a system that will improve workers' safety using a camera that will detect the usage of Personal Protective Equipment (PPE). To this end, we collected and labeled appropriate data from several public sources, which have been used to train and evaluate several models based on the popular YOLOv4 object detector. Our focus, driven by a collaborating industrial partner, is to implement our system into an entry control point where workers must present themselves to obtain access to a restricted area. Combined with facial identity recognition, the system would ensure that only authorized people wearing appropriate equipment are granted access. A novelty of this work is that we increase the number of classes to five objects (hardhat, safety vest, safety gloves, safety glasses, and hearing protection), whereas most existing works only focus on one or two classes, usually hardhats or vests. The AI model developed provides good detection accuracy at a distance of 3 and 5 meters in the collaborative environment where we aim at operating (mAP of 99/89%, respectively). The small size of some objects or the potential occlusion by body parts have been identified as potential factors that are detrimental to accuracy, which we have counteracted via data augmentation and cropping of the body before applying PPE detection.
翻訳日:2022-12-12 15:20:59 公開日:2022-12-09
# cepha29: 自動脳波ランドマーク検出チャレンジ2023

CEPHA29: Automatic Cephalometric Landmark Detection Challenge 2023 ( http://arxiv.org/abs/2212.04808v1 )

ライセンス: Link先を確認
Muhammad Anwaar Khalid, Kanwal Zulfiqar, Ulfat Bashir, Areeba Shaheen, Rida Iqbal, Zarnab Rizwan, Ghina Rizwan, Muhammad Moazam Fraz(参考訳) 定量的脳計測分析は、現代の矯正治療において最も広く用いられている臨床および研究ツールである。 脳波ランドマークの正確な位置決定は解剖学的異常の定量化と分類を可能にするが、これらのランドマークをマークする従来の手作業は非常に退屈な作業である。 自動頭蓋計測による目印検出システムの開発は、常に行われているが、矯正治療には不十分である。 基本的な理由は、これらのデータセットでトレーニング用に提供される画像だけでなく、公開されているデータセットの量は、aiモデルがうまく機能しないためである。 形態計測解析のための堅牢なAIソリューションの開発を容易にするため, IEEE International Symposium on Biomedical Imaging (ISBI 2023) と共同で, CEPHA29 Automatic Cephalometric Landmark Detection Challengeを開催する。 この文脈では、1000個の頭部X線画像からなる、最も広く公開されているデータセットを提供する。 我々は、私たちの挑戦が、自動頭脳計測のランドマーク識別の研究と革新を先導するだけでなく、この分野の新しい時代の始まりを示唆することを期待している。

Quantitative cephalometric analysis is the most widely used clinical and research tool in modern orthodontics. Accurate localization of cephalometric landmarks enables the quantification and classification of anatomical abnormalities, however, the traditional manual way of marking these landmarks is a very tedious job. Endeavours have constantly been made to develop automated cephalometric landmark detection systems but they are inadequate for orthodontic applications. The fundamental reason for this is that the amount of publicly available datasets as well as the images provided for training in these datasets are insufficient for an AI model to perform well. To facilitate the development of robust AI solutions for morphometric analysis, we organise the CEPHA29 Automatic Cephalometric Landmark Detection Challenge in conjunction with IEEE International Symposium on Biomedical Imaging (ISBI 2023). In this context, we provide the largest known publicly available dataset, consisting of 1000 cephalometric X-ray images. We hope that our challenge will not only derive forward research and innovation in automatic cephalometric landmark identification but will also signal the beginning of a new era in the discipline.
翻訳日:2022-12-12 15:20:33 公開日:2022-12-09
# ジャンプから速度を推定するコンピュータビジョン法

A Computer Vision Method for Estimating Velocity from Jumps ( http://arxiv.org/abs/2212.04665v1 )

ライセンス: Link先を確認
Soumyadip Roy, Chaitanya Roygaga, Nathaniel Blanchard, Aparna Bharati(参考訳) 選手は通常、トレーニングの進捗を評価するためにフィットネス評価を受ける。 通常、これらの評価は、フォースプレートのような特殊装備を使用する訓練された専門家を必要とする。 評価のために、選手はドロップアンドスクワットジャンプを行い、速度、飛行時間、安定化までの時間といった重要な変数を計測して、いくつか挙げる。 しかし、アマチュアアスリートは、これらの評価を提供する専門家や機器にアクセスできないかもしれない。 本稿では,ビデオ記録を用いた鍵変数推定の可能性について検討する。 ジャンプ速度は,他のキー変数と強く相関し,姿勢や下肢の能力を決定する上で重要であるため,出発点として注目する。 平均R値が0.71(SD = 0.06)であることから,各選手の速度は高い精度で推定できることがわかった。

Athletes routinely undergo fitness evaluations to evaluate their training progress. Typically, these evaluations require a trained professional who utilizes specialized equipment like force plates. For the assessment, athletes perform drop and squat jumps, and key variables are measured, e.g. velocity, flight time, and time to stabilization, to name a few. However, amateur athletes may not have access to professionals or equipment that can provide these assessments. Here, we investigate the feasibility of estimating key variables using video recordings. We focus on jump velocity as a starting point because it is highly correlated with other key variables and is important for determining posture and lower-limb capacity. We find that velocity can be estimated with a high degree of precision across a range of athletes, with an average R-value of 0.71 (SD = 0.06).
翻訳日:2022-12-12 15:13:51 公開日:2022-12-09
# ニューラルボリューム超解法

Neural Volume Super-Resolution ( http://arxiv.org/abs/2212.04666v1 )

ライセンス: Link先を確認
Yuval Bahat, Yuxuan Zhang, Hendrik Sommerhoff, Andreas Kolb and Felix Heide(参考訳) ニューラルボリューム表現は3次元シーンにおける放射場モデルとして広く採用されている。 これらの表現は完全に暗黙的あるいはハイブリッドな関数であり、シーン内の瞬時ボリュームの放射能の近似値であり、通常、シーンのマルチビューキャプチャから学習される。 低解像度で撮影されたシーンに対応する高解像度の映像をレンダリングするニューラルボリューム超解像の新しい課題について検討する。 そこで本研究では,シーンの体積表現を直接操作する超解像ネットワークを提案する。 このアプローチは、ボリューム領域における操作の利点、すなわち、異なる視野方向における一貫した超解像を保証する能力を利用することができる。 本手法を実現するために,複数の2次元特徴平面に係わる新たな3次元表現を考案する。 これにより,2次元特徴平面上に2次元畳み込みネットワークを適用することで,3次元シーン表現の超解像が可能になる。 提案手法は,様々な3次元シーンにおいて定量的かつ定性的にマルチビューに一貫性のあるビューを超解き,既存手法よりも大きなアドバンテージを示している。

Neural volumetric representations have become a widely adopted model for radiance fields in 3D scenes. These representations are fully implicit or hybrid function approximators of the instantaneous volumetric radiance in a scene, which are typically learned from multi-view captures of the scene. We investigate the new task of neural volume super-resolution - rendering high-resolution views corresponding to a scene captured at low resolution. To this end, we propose a neural super-resolution network that operates directly on the volumetric representation of the scene. This approach allows us to exploit an advantage of operating in the volumetric domain, namely the ability to guarantee consistent super-resolution across different viewing directions. To realize our method, we devise a novel 3D representation that hinges on multiple 2D feature planes. This allows us to super-resolve the 3D scene representation by applying 2D convolutional networks on the 2D feature planes. We validate the proposed method's capability of super-resolving multi-view consistent views both quantitatively and qualitatively on a diverse set of unseen 3D scenes, demonstrating a significant advantage over existing approaches.
翻訳日:2022-12-12 15:13:39 公開日:2022-12-09
# 3次元屋内点雲のための合成-実領域一般化意味セグメンテーション

Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor Point Clouds ( http://arxiv.org/abs/2212.04668v1 )

ライセンス: Link先を確認
Yuyang Zhao, Na Zhao, Gim Hee Lee(参考訳) 3次元屋内シーンにおけるセマンティックセグメンテーションは,大規模アノテートデータの監督の下で顕著な性能を発揮する。 しかし、以前の研究は、トレーニングデータとテストデータが同じ分布であると仮定しており、分散シーンで評価すると性能が低下する可能性がある。 本稿では,アノテーションのコストと性能劣化を軽減するために,合成から実領域への一般化設定を提案する。 特に、合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。 これらの問題に対処するため、まず、ソースデータのレイアウトを多様化するクラスタリングインスタンスミックス(cinmix)拡張手法を提案する。 さらに,ソースデータの点パターンを補強し,拡張された点パターンによって拡大されたクラス内分散を改善するために非パラメトリックマルチプロトタイプを導入する。 マルチプロトタイプはクラス内分散をモデル化し、トレーニングと推論の両方の段階でグローバル分類器を修正できる。 CINMixとMulti-prototypeの両方が分散ギャップを狭め、現実世界のデータセットの一般化能力を向上できることを示した。

Semantic segmentation in 3D indoor scenes has achieved remarkable performance under the supervision of large-scale annotated data. However, previous works rely on the assumption that the training and testing data are of the same distribution, which may suffer from performance degradation when evaluated on the out-of-distribution scenes. To alleviate the annotation cost and the performance degradation, this paper introduces the synthetic-to-real domain generalization setting to this task. Specifically, the domain gap between synthetic and real-world point cloud data mainly lies in the different layouts and point patterns. To address these problems, we first propose a clustering instance mix (CINMix) augmentation technique to diversify the layouts of the source data. In addition, we augment the point patterns of the source data and introduce non-parametric multi-prototypes to ameliorate the intra-class variance enlarged by the augmented point patterns. The multi-prototypes can model the intra-class variance and rectify the global classifier in both training and inference stages. Experiments on the synthetic-to-real benchmark demonstrate that both CINMix and multi-prototypes can narrow the distribution gap and thus improve the generalization ability on real-world datasets.
翻訳日:2022-12-12 15:13:20 公開日:2022-12-09
# MSI:Few-Shotセグメンテーションのためのサポートセット情報の最大化

MSI: Maximize Support-Set Information for Few-Shot Segmentation ( http://arxiv.org/abs/2212.04673v1 )

ライセンス: Link先を確認
Seonghyeon Moon, Samuel S. Sohn, Honglu Zhou, Sejong Yoon, Vladimir Pavlovic, Muhammad Haris Khan, Mubbasir Kapadia(参考訳) FSS(Few-shot segmentation)~ターゲットクラスを少数のラベル付きイメージ(Setをサポートする)でセグメント化する。 対象クラスに関連する情報を抽出するために、FSSベースラインを最良に実行するための支配的なアプローチは、サポートマスクを使用して背景特徴を除去する。 我々は,このサポートマスクが,fssの課題である小目標や不正確な目標境界などにおいて,情報のボトルネックとなっていることを確認した。 そこで本研究では,2つの相補的特徴源を利用して,超相関マップを生成することで,サポートセット情報を最大化する手法を提案する。 提案手法の有効性を最近の3つのFSSベースラインにインスタンス化することで検証する。 FSSベンチマークによる実験結果から,提案手法は目に見えるマージンによって連続的に性能を向上し,より高速な収束を可能にすることが示された。 私たちのコードとモデルは公開されます。

FSS(Few-shot segmentation)~aims to segment a target class with a small number of labeled images (support Set). To extract information relevant to target class, a dominant approach in best performing FSS baselines removes background features using support mask. We observe that this support mask presents an information bottleneck in several challenging FSS cases e.g., for small targets and/or inaccurate target boundaries. To this end, we present a novel method (MSI), which maximizes the support-set information by exploiting two complementary source of features in generating super correlation maps. We validate the effectiveness of our approach by instantiating it into three recent and strong FSS baselines. Experimental results on several publicly available FSS benchmarks show that our proposed method consistently improves the performance by visible margins and allows faster convergence. Our codes and models will be publicly released.
翻訳日:2022-12-12 15:13:00 公開日:2022-12-09
# semanticbevfusion: 3dオブジェクト検出のためのunified bird's-eye view表現におけるlidarカメラ融合の再検討

SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection ( http://arxiv.org/abs/2212.04675v1 )

ライセンス: Link先を確認
Qi Jiang, Hao Sun, Xi Zhang(参考訳) LiDARとカメラは、自動運転における3Dオブジェクト検出に不可欠な2つのセンサーである。 LiDARは正確な3D幾何学情報を提供し、カメラは色で豊かなテクスチャを提供する。 これら2つの補完センサーを融合させる人気は高まっているが、3D LiDARポイントクラウドを2Dカメラ画像で効果的に融合する方法には課題がある。 近年の手法では、lidarポイントクラウドに視点ビューのカメラ機能や、bev表現のマルチモダリティ機能を統一したbird's-eye view(bev)レベルの融合に焦点をあてている。 本稿では,これらの融合戦略を再考し,それらの情報損失と幾何学的特徴および意味的特徴に与える影響を分析する。 本稿では,3次元物体検出のためのモダリティ毎の強度を維持しつつ,LiDAR特徴を統一されたBEV表現に深く融合させるセマンティックBEVFusionを提案する。 提案手法は,大規模なnuScenesデータセット上での最先端性能を実現する。 コードは公開される予定だ。

LiDAR and camera are two essential sensors for 3D object detection in autonomous driving. LiDAR provides accurate and reliable 3D geometry information while the camera provides rich texture with color. Despite the increasing popularity of fusing these two complementary sensors, the challenge remains in how to effectively fuse 3D LiDAR point cloud with 2D camera images. Recent methods focus on point-level fusion which paints the LiDAR point cloud with camera features in the perspective view or bird's-eye view (BEV)-level fusion which unifies multi-modality features in the BEV representation. In this paper, we rethink these previous fusion strategies and analyze their information loss and influences on geometric and semantic features. We present SemanticBEVFusion to deeply fuse camera features with LiDAR features in a unified BEV representation while maintaining per-modality strengths for 3D object detection. Our method achieves state-of-the-art performance on the large-scale nuScenes dataset, especially for challenging distant objects. The code will be made publicly available.
翻訳日:2022-12-12 15:12:44 公開日:2022-12-09
# 動きと文脈対応音声・視覚条件付き映像予測

Motion and Context-Aware Audio-Visual Conditioned Video Prediction ( http://arxiv.org/abs/2212.04679v1 )

ライセンス: Link先を確認
Yating Xu, Gim Hee Lee(参考訳) 既存の音声視覚条件付きビデオ予測の最先端手法では、マルチモーダル確率ネットワークとフレームエンコーダからオーディオ視覚フレームの潜時符号を用いて次の視覚フレームを予測する。 しかし、高次元画像空間のため、潜在コードから次の視覚フレームに対するピクセル当たりの強度の直接推定は極めて困難である。 そこで本研究では,視覚条件付き映像予測を動作・外観モデルに分離することを提案する。 第1部は、所定のオーディオ映像クリップから運動情報を光学的フローとして学習するマルチモーダルモーション推定モジュールである。 第2の部分は、予測された光フローを使用して、現在の視覚的フレームを次の視覚的フレームにワープし、所定のオーディオ視覚的コンテキストに基づいて洗練する、コンテキスト対応リファインメントモジュールである。 実験の結果,提案手法は既存のベンチマークで競合する結果が得られることがわかった。

Existing state-of-the-art method for audio-visual conditioned video prediction uses the latent codes of the audio-visual frames from a multimodal stochastic network and a frame encoder to predict the next visual frame. However, a direct inference of per-pixel intensity for the next visual frame from the latent codes is extremely challenging because of the high-dimensional image space. To this end, we propose to decouple the audio-visual conditioned video prediction into motion and appearance modeling. The first part is the multimodal motion estimation module that learns motion information as optical flow from the given audio-visual clip. The second part is the context-aware refinement module that uses the predicted optical flow to warp the current visual frame into the next visual frame and refines it base on the given audio-visual context. Experimental results show that our method achieves competitive results on existing benchmarks.
翻訳日:2022-12-12 15:12:23 公開日:2022-12-09
# AugNet: 微分関数による動的テスト時間拡張

AugNet: Dynamic Test-Time Augmentation via Differentiable Functions ( http://arxiv.org/abs/2212.04681v1 )

ライセンス: Link先を確認
Shohei Enomoto, Monikka Roslianna Busto, Takeharu Eda(参考訳) 分散シフトは現実世界で頻繁に発生し、ディープラーニングシステムの精度を低下させるため、実用的な応用には堅牢性の向上が不可欠である。 頑健性を改善するために,認識モデルを再訓練することなく,認識に優しい画像を生成する画像強調手法を提案する。 本稿では,微分可能なデータ拡張技術に基づき,多数の拡張画像からブレンド画像を生成し,分散シフト時の認識精度を向上させる新しい画像拡張手法であるaugnetを提案する。 標準的なデータ拡張に加えて、AugNetはディープニューラルネットワークベースの画像変換を組み込むことで、堅牢性をさらに向上する。 AugNetは微分可能な関数で構成されているため、AugNetは認識モデルの分類損失を直接訓練することができる。 AugNetは、Vision TransformerやMLP-Mixerなど、さまざまな分類モデルを用いて、広く使われている画像認識データセットで評価されている。 AugNetは、クリーンな画像の分類精度をほとんど低下させることなく、ロバスト性を改善する。 さらに, augnetを用いた分布シフトの解釈と, その解釈に基づく再訓練がロバスト性を大幅に改善することを示す。

Distribution shifts, which often occur in the real world, degrade the accuracy of deep learning systems, and thus improving robustness is essential for practical applications. To improve robustness, we study an image enhancement method that generates recognition-friendly images without retraining the recognition model. We propose a novel image enhancement method, AugNet, which is based on differentiable data augmentation techniques and generates a blended image from many augmented images to improve the recognition accuracy under distribution shifts. In addition to standard data augmentations, AugNet can also incorporate deep neural network-based image transformation, which further improves the robustness. Because AugNet is composed of differentiable functions, AugNet can be directly trained with the classification loss of the recognition model. AugNet is evaluated on widely used image recognition datasets using various classification models, including Vision Transformer and MLP-Mixer. AugNet improves the robustness with almost no reduction in classification accuracy for clean images, which is a better result than the existing methods. Furthermore, we show that interpretation of distribution shifts using AugNet and retraining based on that interpretation can greatly improve robustness.
翻訳日:2022-12-12 15:12:08 公開日:2022-12-09
# Tencent AVS:マルチモーダルシーンセグメンテーションのためのホロスティック広告ビデオデータセット

Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene Segmentation ( http://arxiv.org/abs/2212.04700v1 )

ライセンス: Link先を確認
Jie Jiang, Zhimin Li, Jiangfeng Xiong, Rongwei Quan, Qinglin Lu, Wei Liu(参考訳) 近年,時間的ビデオのセグメンテーションと分類が公開ベンチマークによって大きく進歩している。 しかし、こうした研究は主に人間の行動に焦点を当てており、全体論的な視点でビデオを記述することは出来なかった。 さらに、以前の研究は視覚情報に多くの注意を払う傾向があるが、ビデオのマルチモーダルな性質を無視している。 このギャップを埋めるために、Tencent `Ads Video Segmentation'~(TAVS)データセットを広告ドメイン内に構築し、マルチモーダルビデオ分析を新しいレベルにエスカレートする。 TAVSは、3つの独立した視点からの動画を「表現形式」、「場所」、そして「スタイル」として記述し、ビデオ、オーディオ、テキストなどの豊富なマルチモーダル情報を含んでいる。 TAVSは、総合的な時間的ビデオセグメンテーションのセグメンテーションのセグメンテーションにおいて階層的に構成され、複数ラベルの分類には3つのレベルがある(例: 'place' - `working place' - `office')。 したがって、TAVSは、そのマルチモーダル情報、カテゴリの全体像、階層的な粒度により、従来の時間分割データセットと区別される。 12,000のビデオ、82のクラス、33,900のセグメント、121,100のショット、168,500のラベルがある。 TAVSと合わせて,マルチラベルクラス予測と組み合わせた,強力なマルチモーダルビデオセグメンテーションベースラインも提示する。 提案手法と既存の代表手法を総合的に評価し,データセットTAVSの重要な課題を明らかにする。

Temporal video segmentation and classification have been advanced greatly by public benchmarks in recent years. However, such research still mainly focuses on human actions, failing to describe videos in a holistic view. In addition, previous research tends to pay much attention to visual information yet ignores the multi-modal nature of videos. To fill this gap, we construct the Tencent `Ads Video Segmentation'~(TAVS) dataset in the ads domain to escalate multi-modal video analysis to a new level. TAVS describes videos from three independent perspectives as `presentation form', `place', and `style', and contains rich multi-modal information such as video, audio, and text. TAVS is organized hierarchically in semantic aspects for comprehensive temporal video segmentation with three levels of categories for multi-label classification, e.g., `place' - `working place' - `office'. Therefore, TAVS is distinguished from previous temporal segmentation datasets due to its multi-modal information, holistic view of categories, and hierarchical granularities. It includes 12,000 videos, 82 classes, 33,900 segments, 121,100 shots, and 168,500 labels. Accompanied with TAVS, we also present a strong multi-modal video segmentation baseline coupled with multi-label class prediction. Extensive experiments are conducted to evaluate our proposed method as well as existing representative methods to reveal key challenges of our dataset TAVS.
翻訳日:2022-12-12 15:11:49 公開日:2022-12-09
# 4K-NeRF:超高分解能高忠実神経放射場

4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions ( http://arxiv.org/abs/2212.04701v1 )

ライセンス: Link先を確認
Zhongshu Wang, Lingzhi Li, Zhen Shen, Li Shen, Liefeng Bo(参考訳) 本稿では,4K-NeRFという,超高分解能の難易度シナリオにおける高忠実度ビューの合成を,ニューラルラジアンス場(NeRF)の方法論に基づく,新規で効果的なフレームワークを提案する。 通常、NeRFベースの手法のレンダリング手順は、トレーニングフェーズと推論フェーズの両方で、光線(またはピクセル)が独立に扱われる画素ワイドな方法に依存しており、特に非常に高解像度に持ち上げる際に、微妙な詳細を記述することの表現能力を制限する。 位置認識型局所コンテキストの利点を生かした高周波詳細化のための光相関の探索により,この問題に対処する。 特に、ビュー一貫性エンコーダを用いて、低解像度空間における幾何学的情報を効果的にモデル化し、ビュー一貫性デコーダを通して細部を復元する。 パッチベースサンプリングによる共同学習により,知覚指向正則化からピクセルワイズ損失への監督がさらに促進される。 最新のNeRF法と定量的に比較したところ、4K超高分解能シナリオにおける最先端の視覚的品質を実現することで、高頻度の細部を維持するためのレンダリング品質を大幅に向上できることがわかった。 コード提供: \url{https://github.com/frozoul/4K-NeRF}

In this paper, we present a novel and effective framework, named 4K-NeRF, to pursue high fidelity view synthesis on the challenging scenarios of ultra high resolutions, building on the methodology of neural radiance fields (NeRF). The rendering procedure of NeRF-based methods typically relies on a pixel wise manner in which rays (or pixels) are treated independently on both training and inference phases, limiting its representational ability on describing subtle details especially when lifting to a extremely high resolution. We address the issue by better exploring ray correlation for enhancing high-frequency details benefiting from the use of geometry-aware local context. Particularly, we use the view-consistent encoder to model geometric information effectively in a lower resolution space and recover fine details through the view-consistent decoder, conditioned on ray features and depths estimated by the encoder. Joint training with patch-based sampling further facilitates our method incorporating the supervision from perception oriented regularization beyond pixel wise loss. Quantitative and qualitative comparisons with modern NeRF methods demonstrate that our method can significantly boost rendering quality for retaining high-frequency details, achieving the state-of-the-art visual quality on 4K ultra-high-resolution scenario. Code Available at \url{https://github.com/frozoul/4K-NeRF}
翻訳日:2022-12-12 15:11:22 公開日:2022-12-09
# DIP:微分可能な相互反射型物理ベースの逆レンダリング

DIP: Differentiable Interreflection-aware Physics-based Inverse Rendering ( http://arxiv.org/abs/2212.04705v1 )

ライセンス: Link先を確認
Youming Deng, Xueting Li, Sifei Liu, Ming-Hsuan Yang(参考訳) 本稿では,複数視点のRGB画像からシーンの照明,幾何学,材料を学習する物理ベースの逆レンダリング手法を提案する。 シーンの照明をモデル化するために、既存の逆レンダリングは間接照明を完全に無視するか、粗い近似によってモデル化し、シーンの準最適照明、幾何学、物質予測に繋がる。 そこで本研究では,各表面点の入射光を相互反射に基づいて明示的に追跡する物理ベースの照明モデルを提案し,効率的なニューラルネットワークを用いて各入射光を推定する。 さらに、ライプニッツ積分則を用いて、ある種類の環境光、すなわち接点光によって引き起こされる照明モデルにおける非微分可能性を解決する。 その結果、提案した相互反射型照明モデルは、幾何学や材料推定とともにエンドツーエンドで学習することができる。 副産物として、我々の物理ベースの逆レンダリングモデルは、フレキシブルでリアルな素材編集やリライティングを容易にする。 合成および実世界の両方のデータセットに対する大規模な実験により、提案手法は、新規なビュー合成および逆レンダリングに関する既存の逆レンダリング手法に対して好適に機能することを示した。

We present a physics-based inverse rendering method that learns the illumination, geometry, and materials of a scene from posed multi-view RGB images. To model the illumination of a scene, existing inverse rendering works either completely ignore the indirect illumination or model it by coarse approximations, leading to sub-optimal illumination, geometry, and material prediction of the scene. In this work, we propose a physics-based illumination model that explicitly traces the incoming indirect lights at each surface point based on interreflection, followed by estimating each identified indirect light through an efficient neural network. Furthermore, we utilize the Leibniz's integral rule to resolve non-differentiability in the proposed illumination model caused by one type of environment light -- the tangent lights. As a result, the proposed interreflection-aware illumination model can be learned end-to-end together with geometry and materials estimation. As a side product, our physics-based inverse rendering model also facilitates flexible and realistic material editing as well as relighting. Extensive experiments on both synthetic and real-world datasets demonstrate that the proposed method performs favorably against existing inverse rendering methods on novel view synthesis and inverse rendering.
翻訳日:2022-12-12 15:10:58 公開日:2022-12-09
# HieNet: 自動ICD符号化のための双方向階層フレームワーク

HieNet: Bidirectional Hierarchy Framework for Automated ICD Coding ( http://arxiv.org/abs/2212.04891v1 )

ライセンス: Link先を確認
Shi Wang and Daniel Tang and Luchen Zhang and Huilin Li and Ding Han(参考訳) International Classification of Diseases (ICD) は、医学記録の分類コードである。 国際疾病分類符号を各医療記録に割り当てる自動ICD符号化は、その効率性とエラー発生回避のために近年広く利用されている。 しかし、異質性、ラベルの不均衡、icd符号間の複雑な関係といった課題は残る。 本研究では,その課題に対処する新しい双方向階層フレームワーク(HieNet)を提案する。 具体的には、コードのコリレーションをキャプチャするパーソナライズされたPageRankルーチンと、コードの階層的表現をキャプチャする双方向階層パスエンコーダと、予測のセマンティック検索空間を狭めるプログレッシブ予測手法を提案する。 提案手法を2つの広く利用されているデータセットで検証する。 2つの権威ある公開データセットの実験結果から,提案手法は最先端の性能を大きなマージンで向上させることを示した。

International Classification of Diseases (ICD) is a set of classification codes for medical records. Automated ICD coding, which assigns unique International Classification of Diseases codes with each medical record, is widely used recently for its efficiency and error-prone avoidance. However, there are challenges that remain such as heterogeneity, label unbalance, and complex relationships between ICD codes. In this work, we proposed a novel Bidirectional Hierarchy Framework(HieNet) to address the challenges. Specifically, a personalized PageRank routine is developed to capture the co-relation of codes, a bidirectional hierarchy passage encoder to capture the codes' hierarchical representations, and a progressive predicting method is then proposed to narrow down the semantic searching space of prediction. We validate our method on two widely used datasets. Experimental results on two authoritative public datasets demonstrate that our proposed method boosts state-of-the-art performance by a large margin.
翻訳日:2022-12-12 15:04:27 公開日:2022-12-09
# Frozen CLIP Model - 効率的なポイントクラウドバックボーン

Frozen CLIP Model is An Efficient Point Cloud Backbone ( http://arxiv.org/abs/2212.04098v2 )

ライセンス: Link先を確認
Xiaoshui Huang, Sheng Li, Wentao Qu, Tong He, Yifan Zuo, Wanli Ouyang(参考訳) プレトレーニングファインタニングのパラダイムは、高品質な表現能力と事前トレーニングされたモデルの転送性のため、NLPおよび2次元画像フィールドで大きな成功を収めている。 しかし,3dポイントクラウド領域では,トレーニングデータに制限があり,ポイントクラウドの収集にコストがかかるため,事前学習は困難である。 本稿では,凍ったCLIPモデルを用いて,高品質なクラウドモデルを直接訓練するための,効率的かつ効率的なポイントクラウド学習ツールであるEPCLを紹介する。 我々のEPCLは、2D-3Dデータなしで2D特徴とポイントクラウド特徴を意味的に整合させることで、2Dと3Dのモダリティを接続します。 具体的には、入力ポイントクラウドを一連のトークンに分割し、凍ったCLIPモデルに直接供給してポイントクラウド表現を学習する。 さらに、2d画像と3dポイントクラウドの間のギャップを狭めるタスクトークンを設計した。 3次元検出,セマンティックセグメンテーション,分類,少数ショット学習に関する総合的な実験により,2次元CLIPモデルは効率的なポイントクラウドバックボーンとなり,本手法は実世界および合成下流の両方のタスクにおいて最先端の精度を実現する。 コードは利用可能だ。

The pretraining-finetuning paradigm has demonstrated great success in NLP and 2D image fields because of the high-quality representation ability and transferability of their pretrained models. However, pretraining such a strong model is difficult in the 3D point cloud field since the training data is limited and point cloud collection is expensive. This paper introduces Efficient Point Cloud Learning (EPCL), an effective and efficient point cloud learner for directly training high-quality point cloud models with a frozen CLIP model. Our EPCL connects the 2D and 3D modalities by semantically aligning the 2D features and point cloud features without paired 2D-3D data. Specifically, the input point cloud is divided into a sequence of tokens and directly fed into the frozen CLIP model to learn point cloud representation. Furthermore, we design a task token to narrow the gap between 2D images and 3D point clouds. Comprehensive experiments on 3D detection, semantic segmentation, classification and few-shot learning demonstrate that the 2D CLIP model can be an efficient point cloud backbone and our method achieves state-of-the-art accuracy on both real-world and synthetic downstream tasks. Code will be available.
翻訳日:2022-12-12 15:04:10 公開日:2022-12-09
# 拡散誘導型画像生成器の領域適応

Diffusion Guided Domain Adaptation of Image Generators ( http://arxiv.org/abs/2212.04473v2 )

ライセンス: Link先を確認
Kunpeng Song, Ligong Han, Bingchen Liu, Dimitris Metaxas, Ahmed Elgammal(参考訳) テキストから画像への拡散モデルは、ganジェネレータを他のドメインに適用するためのトレーニング目的として使用できるか? 本稿では,分類器フリーガイダンスを批評家として活用し,大規模テキスト・画像拡散モデルから知識を抽出できることを示す。 ジェネレータは、ターゲットドメインの基底サンプルにアクセスせずに、テキストプロンプトで示す新しいドメインに効率的に移行できる。 本手法の有効性と制御性は,広範な実験により実証する。 CLIPの損失を最小限に抑えるために訓練されていないが、我々のモデルはCLIPスコアを同等に高く、短いプロンプトの前の作業よりもFIDを著しく低くし、長いプロンプトと複雑なプロンプトのベースラインを質的に定量的に上回る。 提案手法は,テキスト駆動画像生成領域適応のための大規模事前学習拡散モデルと蒸留サンプリングを組み込んだ最初の試みであり,従来以上の品質を提供する。 さらに、3DスタイルベースのジェネレータやDreamBoothガイダンスにも取り組みます。

Can a text-to-image diffusion model be used as a training objective for adapting a GAN generator to another domain? In this paper, we show that the classifier-free guidance can be leveraged as a critic and enable generators to distill knowledge from large-scale text-to-image diffusion models. Generators can be efficiently shifted into new domains indicated by text prompts without access to groundtruth samples from target domains. We demonstrate the effectiveness and controllability of our method through extensive experiments. Although not trained to minimize CLIP loss, our model achieves equally high CLIP scores and significantly lower FID than prior work on short prompts, and outperforms the baseline qualitatively and quantitatively on long and complicated prompts. To our best knowledge, the proposed method is the first attempt at incorporating large-scale pre-trained diffusion models and distillation sampling for text-driven image generator domain adaptation and gives a quality previously beyond possible. Moreover, we extend our work to 3D-aware style-based generators and DreamBooth guidance.
翻訳日:2022-12-12 15:03:47 公開日:2022-12-09
# フレキシブルベクトルに基づく回転表現を用いたカテゴリーレベル6次元物体ポーズ推定

Category-Level 6D Object Pose Estimation with Flexible Vector-Based Rotation Representation ( http://arxiv.org/abs/2212.04632v1 )

ライセンス: Link先を確認
Wei Chen, Xi Jia, Zhongqun Zhang, Hyung Jin Chang, Linlin Shen and Ales Leonardis(参考訳) 本稿では,RGB-D画像からのカテゴリレベルの6次元ポーズとサイズ推定のための,新しい3次元グラフ畳み込みに基づくパイプラインを提案する。 提案手法は,効率的な3次元データ拡張とベクトルベースデカップリング回転表現を利用する。 具体的には,まず3次元グラフ畳み込みを用いた向き対応オートエンコーダを設計する。 学習された潜在機能は、3Dグラフ畳み込みのシフトとスケール不変性のおかげで、点シフトや大きさに敏感である。 次に, ローテーション情報を潜在特徴から効率的に復号化するために, 2つのデコーダを用いた新しいフレキシブルベクターベースデコンポーザブルなローテーション表現を設計し, 相補的にローテーション情報にアクセスする。 提案された回転表現には2つの大きな利点がある。 1) 回転推定を容易にする特徴を分離すること。 2) ベクトルのフレキシブルな長さと回転角は, 特定のポーズ推定タスクに対してより適切なベクトル表現を求めることができる。 最後に,パイプラインの一般化能力を高めるための3次元変形機構を提案する。 大規模な実験により,提案したパイプラインは,カテゴリーレベルのタスクで最先端のパフォーマンスを達成することが示された。 さらに,提案した回転表現は,他の回転表現よりもポーズ推定タスクに適していることを示した。

In this paper, we propose a novel 3D graph convolution based pipeline for category-level 6D pose and size estimation from monocular RGB-D images. The proposed method leverages an efficient 3D data augmentation and a novel vector-based decoupled rotation representation. Specifically, we first design an orientation-aware autoencoder with 3D graph convolution for latent feature learning. The learned latent feature is insensitive to point shift and size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode the rotation information from the latent feature, we design a novel flexible vector-based decomposable rotation representation that employs two decoders to complementarily access the rotation information. The proposed rotation representation has two major advantages: 1) decoupled characteristic that makes the rotation estimation easier; 2) flexible length and rotated angle of the vectors allow us to find a more suitable vector representation for specific pose estimation task. Finally, we propose a 3D deformation mechanism to increase the generalization ability of the pipeline. Extensive experiments show that the proposed pipeline achieves state-of-the-art performance on category-level tasks. Further, the experiments demonstrate that the proposed rotation representation is more suitable for the pose estimation tasks than other rotation representations.
翻訳日:2022-12-12 15:03:07 公開日:2022-12-09
# FLAG3D: 言語指導を伴う3次元フィットネスアクティビティデータセット

FLAG3D: A 3D Fitness Activity Dataset with Language Instruction ( http://arxiv.org/abs/2212.04638v1 )

ライセンス: Link先を確認
Yansong Tang, Jinpeng Liu, Aoyang Liu, Bin Yang, Wenxun Dai, Yongming Rao, Jiwen Lu, Jie Zhou, Xiu Li(参考訳) 世界中の人気が続き、フィットネスアクティビティ分析はコンピュータビジョンにおける新たな研究テーマとなっている。 最近、様々な新しいタスクやアルゴリズムが提案されているが、高品質データ、きめ細かいラベル、多様な環境に関わるデータリソースの飢えが増えている。 本稿では,60カテゴリの180Kシーケンスを含む言語命令付き大規模3DフィットネスアクティビティデータセットFLAG3Dを提案する。 FLAG3Dには以下の3つの側面がある。 1) 複雑な活動と大きな動きを扱うため, 高度MoCapシステムから捉えた高精度で高密度な3Dポーズ。 2)特定の活動の実施方法を記述するための詳細かつ専門的な言語指導 3) 高精細なMoCapシステム,レンダリングソフトウェア,自然環境におけるコスト効率のよいスマートフォンからの多用途ビデオリソース。 広範囲にわたる実験と詳細な分析により、FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導されたヒューマンアクション生成など、さまざまな課題に対して大きな研究価値をもたらすことが示されている。 データセットとソースコードはhttps://andytang15.github.io/flag3dで公開される予定だ。

With the continuously thriving popularity around the world, fitness activity analytic has become an emerging research topic in computer vision. While a variety of new tasks and algorithms have been proposed recently, there are growing hunger for data resources involved in high-quality data, fine-grained labels, and diverse environments. In this paper, we present FLAG3D, a large-scale 3D fitness activity dataset with language instruction containing 180K sequences of 60 categories. FLAG3D features the following three aspects: 1) accurate and dense 3D human pose captured from advanced MoCap system to handle the complex activity and large movement, 2) detailed and professional language instruction to describe how to perform a specific activity, 3) versatile video resources from a high-tech MoCap system, rendering software, and cost-effective smartphones in natural environments. Extensive experiments and in-depth analysis show that FLAG3D contributes great research value for various challenges, such as cross-domain human action recognition, dynamic human mesh recovery, and language-guided human action generation. Our dataset and source code will be publicly available at https://andytang15.github.io/FLAG3D.
翻訳日:2022-12-12 15:02:50 公開日:2022-12-09
# MIMOが必要なのは、ビデオ予測のための強力なマルチインマルチアウトベースライン

MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction ( http://arxiv.org/abs/2212.04655v1 )

ライセンス: Link先を確認
Shuliang Ning, Mengcheng Lan, Yanran Li, Chaofeng Chen, Qian Chen, Xunlai Chen, Xiaoguang Han, Shuguang Cui(参考訳) ビデオ予測に対する既存のアプローチの主流は、現在のフレームを入力として、次のフレームを再帰的に予測するシングルインシングルアウト(SISO)アーキテクチャに基づくモデルを構築している。 この方法では、長期的な未来を推定しようとすると、パフォーマンスが悪化することが多いため、予測モデルの実用性が制限される。 あるいは、全ての将来のフレームを1ショットで出力するマルチインマルチアウト(mimo)アーキテクチャは、自然に再帰的な手法を破り、エラーの蓄積を防ぐ。 しかし、映像予測のためのMIMOモデルはほとんど提案されておらず、日時により性能が劣るだけである。 この領域におけるmimoモデルの真の強みはよく分かっておらず、ほとんど未調査である。 そこで我々は,シンプルなMIMOアーキテクチャがどこまで進めるかを徹底的に活用するために,包括的な調査を行う。 意外なことに、我々の経験的研究は、単純なMIMOモデルが、予想よりもはるかに大きなマージンを持つ最先端の作業、特に長期エラーの蓄積に優れた性能を発揮することを明らかにした。 多数の方法と設計を探索した後,ローカルな時空間ブロックを持つ純粋なトランスフォーマーを拡張したMIMOアーキテクチャと,MIMO-VPと呼ばれる新しいマルチ出力デコーダを提案し,ビデオ予測における新しい標準を確立する。 我々は、MNIST、Human3.6M、Weather、KITTIの4つの非常に競争性の高いベンチマークでモデルを評価した。 広範な実験により,我々のモデルが優れた性能向上率ですべてのベンチマークで1位を獲得し,効率,量,品質といったあらゆる面で最高のsisoモデルを超えていることが示された。 我々は,ビデオ予測タスクの今後の研究を促進するために,我々のモデルは新たなベースラインとして機能すると考えている。 コードはリリースされます。

The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
翻訳日:2022-12-12 15:02:32 公開日:2022-12-09
# マルチモーダル医用画像融合のための注意型マルチスケール特徴学習ネットワーク

An Attention-based Multi-Scale Feature Learning Network for Multimodal Medical Image Fusion ( http://arxiv.org/abs/2212.04661v1 )

ライセンス: Link先を確認
Meng Zhou, Xiaolan Xu, Yuxuan Zhang(参考訳) 医療画像は臨床応用において重要な役割を果たす。 マルチモーダル医療画像は、医師が診断する患者についての豊富な情報を提供する。 画像融合技術は、マルチモーダル画像からの補完情報を単一の画像に合成することができる。 この技術は、放射線学者が異なる画像の切り替えを防ぎ、診断過程において多くの時間を節約します。 本稿では,医用画像融合タスクのためのDilated Residual Attention Networkを提案する。 我々のネットワークは、マルチスケールの深いセマンティックな特徴を抽出できる。 さらに,ソフトマックス重みとマトリックス核規範に基づくソフトマックス重み付き戦略と呼ばれる新しい固定核融合戦略を提案する。 提案したネットワークと融合戦略は,4つの一般的な融合指標の参照画像融合法と比較して,最先端の性能を上回っている。

Medical images play an important role in clinical applications. Multimodal medical images could provide rich information about patients for physicians to diagnose. The image fusion technique is able to synthesize complementary information from multimodal images into a single image. This technique will prevent radiologists switch back and forth between different images and save lots of time in the diagnostic process. In this paper, we introduce a novel Dilated Residual Attention Network for the medical image fusion task. Our network is capable to extract multi-scale deep semantic features. Furthermore, we propose a novel fixed fusion strategy termed Softmax-based weighted strategy based on the Softmax weights and matrix nuclear norm. Extensive experiments show our proposed network and fusion strategy exceed the state-of-the-art performance compared with reference image fusion methods on four commonly used fusion metrics.
翻訳日:2022-12-12 15:02:00 公開日:2022-12-09
# SE(3)-等価な動脈壁の血行動態推定のためのメッシュニューラルネットワーク

Mesh Neural Networks for SE(3)-Equivariant Hemodynamics Estimation on the Artery Wall ( http://arxiv.org/abs/2212.05023v1 )

ライセンス: Link先を確認
Julian Suk, Pim de Haan, Phillip Lippe, Christoph Brune, Jelmer M. Wolterink(参考訳) 計算流体力学(CFD)は、患者固有の心血管疾患の診断と予後に有用であるが、その高い計算要求は実際は導入を妨げている。 個々の患者の血流を推定する機械学習手法は、これらの制限を克服するためにCFDシミュレーションを加速または置き換える可能性がある。 本研究では,三次元動脈モデルの壁面におけるベクトル値量の推定について検討する。 三角面メッシュ上で直接動作し、トレーニングデータを効率的に利用するエンドツーエンドse(3)等価ニューラルネットワークにおいて、グループ同値グラフ畳み込みを採用する。 冠状動脈の大規模データセットを用いて実験を行い, 壁面せん断応力(WSS)を7.6%の近似誤差で推定し, 平均絶対誤差(NMAE)は0.4%, CFDより2桁高速であることを確認した。 さらに, 本手法は, 種々の流入境界条件を条件に, 心臓循環の過渡的, ベクトル値のWSSを正確に予測できるほど強力であることを示す。 これらの結果は,血行動態ベクトルとスカラー場の個人化予測において,CFDのプラグイン代替として提案手法の可能性を示している。

Computational fluid dynamics (CFD) is a valuable asset for patient-specific cardiovascular-disease diagnosis and prognosis, but its high computational demands hamper its adoption in practice. Machine-learning methods that estimate blood flow in individual patients could accelerate or replace CFD simulation to overcome these limitations. In this work, we consider the estimation of vector-valued quantities on the wall of three-dimensional geometric artery models. We employ group-equivariant graph convolution in an end-to-end SE(3)-equivariant neural network that operates directly on triangular surface meshes and makes efficient use of training data. We run experiments on a large dataset of synthetic coronary arteries and find that our method estimates directional wall shear stress (WSS) with an approximation error of 7.6% and normalised mean absolute error (NMAE) of 0.4% while up to two orders of magnitude faster than CFD. Furthermore, we show that our method is powerful enough to accurately predict transient, vector-valued WSS over the cardiac cycle while conditioned on a range of different inflow boundary conditions. These results demonstrate the potential of our proposed method as a plugin replacement for CFD in the personalised prediction of hemodynamic vector and scalar fields.
翻訳日:2022-12-12 14:56:13 公開日:2022-12-09
# コントラスト微調整によるスクリプトイベント予測のための生成手法

A Generative Approach for Script Event Prediction via Contrastive Fine-tuning ( http://arxiv.org/abs/2212.03496v3 )

ライセンス: Link先を確認
Fangqi Zhu, Jun Gao, Changlong Yu, Wei Wang, Chen Xu, Xin Mu, Min Yang, Ruifeng Xu(参考訳) スクリプトイベント予測は、コンテキストによって次のイベントを予測することを目的としている。 これはイベント間の相関を推測する能力を必要とする。 近年の研究では、事前訓練された言語モデルを用いて、外部知識~(談話関係など)を組み込むことにより、事象相関推論の改善が試みられている。 有望な結果が得られたが、いくつかの課題はまだ残っている。 まず、現在の作業で採用されている事前学習された言語モデルは、イベントレベルの知識を無視し、イベント間の相関をうまく捉えることができない。 第二に、談話マーカーを持つイベント間の明示的な相関のみを捉えることができ、多くの暗黙の相関を捉えることができないため、談話関係とイベント間の相関のモデル化は制限される。 そこで本研究では,事前学習された言語モデルにイベント中心の事前学習目標を微調整し,生成パラダイム内で次の事象を予測する新しい生成手法を提案する。 具体的には,まず,事前学習した言語モデルにイベントレベルの知識を注入する学習目的として,新たなイベントレベルの空白インフィルング戦略を導入し,生成モデルの微調整のための確率に基づくコントラスト損失を設計する。 追加の予測層を使う代わりに、生成モデルによって生成されたシーケンスの確率を用いて予測を行う。 われわれのアプローチは、外部の知識を使わずに、ソフトな方法でイベント間の相関関係をモデル化する。 確率に基づく予測は、予測を行うために追加のネットワークを使用する必要をなくし、イベント内の各単語をスコア付けするため、幾分解釈可能である。 MCNC(Multi-choice narrative cloze)タスクの実験結果から,本手法は他の最先端のベースラインよりも優れた結果が得られることが示された。 私たちのコードはhttps://github.com/zhufq00/mcncで利用可能です。

Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at https://github.com/zhufq00/mcnc.
翻訳日:2022-12-12 14:55:52 公開日:2022-12-09
# clozingからcomprehendingへ - トレーニング済み言語モデルからトレーニング済みマシンリーダへ

From Clozing to Comprehending: Retrofitting Pre-trained Language Model to Pre-trained Machine Reader ( http://arxiv.org/abs/2212.04755v1 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Wenxuan Zhang, Meng Zhou, Lidong Bing, Wai Lam, Luo Si(参考訳) ラベル付きデータを取得せずに,事前学習言語モデル(PLM)を機械読解(MRC)モデルに適合させる新しい手法である事前学習機械読取(PMR)を提案する。 PMRは、既存のPLMのモデル事前学習と下流微調整の相違を解消することができ、様々な抽出タスクに対処するための統一的な解決器を提供する。 そこで我々は,ウィキペディアハイパーリンクの助けを借りて,多量の汎用的かつ高品質なMRCスタイルのトレーニングデータを構築し,MRCスタイルの事前学習プロセスをガイドするWikiアンカー抽出タスクを設計する。 概念的には単純ではあるが、PMRは抽出質問回答や名前付きエンティティ認識などのタスクの抽出に特に有効であり、特に低リソース設定下では、従来のアプローチよりも大幅に改善されている。 さらに, MRC定式化における抽出課題の特別事例として, PMRは, 分類過程を説明するために, 高品質な論理式を抽出し, 予測可能性を高めることができる。

We present Pre-trained Machine Reader (PMR), a novel method to retrofit Pre-trained Language Models (PLMs) into Machine Reading Comprehension (MRC) models without acquiring labeled data. PMR is capable of resolving the discrepancy between model pre-training and downstream fine-tuning of existing PLMs, and provides a unified solver for tackling various extraction tasks. To achieve this, we construct a large volume of general-purpose and high-quality MRC-style training data with the help of Wikipedia hyperlinks and design a Wiki Anchor Extraction task to guide the MRC-style pre-training process. Although conceptually simple, PMR is particularly effective in solving extraction tasks including Extractive Question Answering and Named Entity Recognition, where it shows tremendous improvements over previous approaches especially under low-resource settings. Moreover, viewing sequence classification task as a special case of extraction task in our MRC formulation, PMR is even capable to extract high-quality rationales to explain the classification process, providing more explainability of the predictions.
翻訳日:2022-12-12 14:54:54 公開日:2022-12-09
# CKG:コンテキストと知識グラフに基づく動的表現

CKG: Dynamic Representation Based on Context and Knowledge Graph ( http://arxiv.org/abs/2212.04909v1 )

ライセンス: Link先を確認
Xunzhu Tang and Tiezhu Sun and Rujie Zhu and Shi Wang(参考訳) 近年,大規模コーパスで事前学習したニューラルネットワーク表現モデルは,豊富な共起情報を取り込み,下流タスクで微調整することで,パフォーマンスを向上させることができる。 その結果、彼らは様々な言語タスクにおいて最先端の結果を得た。 しかし、外部知識グラフ(KG)には、類似、反対、その他の可能な意味など、他の重要な意味情報が存在する。 kgsのエンティティは、言語文の正しい意味的意味を高めるのに使用できると主張する。 本稿では,新しい手法である ckg: 動的表現法である \textbf{c}ontext と \textbf{k}nowledge \textbf{g}raph を提案する。 一方、ckgは大きなコーパスの豊富な意味情報を抽出することができる。 一方、大規模なコーパスにおける共起や、KGにおける類似エンティティのような外部情報などの内部情報をフル活用することができる。 我々は、QQP、MRPC、SST-5、SQuAD、CoNLL 2003、SNLIを含む幅広いタスクについて広範な実験を行った。 その結果、CKG は SAN (84.4), ELMo (85.8), BERT$_{Base}$ (88.5) と比較して SQuAD 上で SOTA 89.2 を達成することがわかった。

Recently, neural language representation models pre-trained on large corpus can capture rich co-occurrence information and be fine-tuned in downstream tasks to improve the performance. As a result, they have achieved state-of-the-art results in a large range of language tasks. However, there exists other valuable semantic information such as similar, opposite, or other possible meanings in external knowledge graphs (KGs). We argue that entities in KGs could be used to enhance the correct semantic meaning of language sentences. In this paper, we propose a new method CKG: Dynamic Representation Based on \textbf{C}ontext and \textbf{K}nowledge \textbf{G}raph. On the one side, CKG can extract rich semantic information of large corpus. On the other side, it can make full use of inside information such as co-occurrence in large corpus and outside information such as similar entities in KGs. We conduct extensive experiments on a wide range of tasks, including QQP, MRPC, SST-5, SQuAD, CoNLL 2003, and SNLI. The experiment results show that CKG achieves SOTA 89.2 on SQuAD compared with SAN (84.4), ELMo (85.8), and BERT$_{Base}$ (88.5).
翻訳日:2022-12-12 14:54:34 公開日:2022-12-09
# 非凸多目的最適化のための分岐とメタヒューリスティックのハイブリッド化

The Hybridization of Branch and Bound with Metaheuristics for Nonconvex Multiobjective Optimization ( http://arxiv.org/abs/2212.04624v1 )

ライセンス: Link先を確認
Wei-tian Wu and Xin-min Yang(参考訳) 非凸多目的最適化のために,分岐法と有界法と多目的進化アルゴリズムを組み合わせたハイブリッドフレームワークを提案する。 このハイブリダイゼーションは2つの最適化戦略の相補的な特性を利用する。 多目的進化アルゴリズムは、分岐および束縛手順の間、厳密な下限と上限を誘導することを目的としている。 この方法で導かれるような厳密な境界は、解決しなければならない部分問題の数を減らすことができる。 分岐法と境界法はフレームワークのグローバル収束を保証し,多目的進化アルゴリズムの探索能力を向上させる。 多目的進化アルゴリズムとしてNSGA-IIとMOEA/D-DEを考慮したハイブリッドフレームワークの実装について述べる。 数値実験により、分岐・境界法と多目的進化アルゴリズムの相乗効果からハイブリッドアルゴリズムを検証できる。

A hybrid framework combining the branch and bound method with multiobjective evolutionary algorithms is proposed for nonconvex multiobjective optimization. The hybridization exploits the complementary character of the two optimization strategies. A multiobjective evolutionary algorithm is intended for inducing tight lower and upper bounds during the branch and bound procedure. Tight bounds such as the ones derived in this way can reduce the number of subproblems that have to be solved. The branch and bound method guarantees the global convergence of the framework and improves the search capability of the multiobjective evolutionary algorithm. An implementation of the hybrid framework considering NSGA-II and MOEA/D-DE as multiobjective evolutionary algorithms is presented. Numerical experiments verify the hybrid algorithms benefit from synergy of the branch and bound method and multiobjective evolutionary algorithms.
翻訳日:2022-12-12 14:54:12 公開日:2022-12-09
# 忘れ去られた有機ニューロモルフィック・デバイス・ネットワークを思い出させる

Reminding Forgetful Organic Neuromorphic Device Networks ( http://arxiv.org/abs/2212.04747v1 )

ライセンス: Link先を確認
Daniel Felder, Katerina Muche, John Linkhorst, Matthias Wessling(参考訳) 有機ニューロモルフィックデバイスネットワークは、ニューラルネットワークアルゴリズムを加速し、マイクロ流体系や生体組織と直接統合することができる。 生体適合性導電性高分子PEDOT:PSSを用いた提案装置は高いスイッチング速度と低エネルギー要求を示した。 しかし、電気化学系として寄生電気化学反応によって自己放電する傾向がある。 したがって、ネットワークのシナプスは、時間とともに訓練された伝導状態を忘れる。 この研究は、単一デバイス高解像度電荷輸送モデルを統合し、ニューロモルフィックデバイスネットワークをシミュレートし、自己放電がネットワーク性能に与える影響を分析する。 単層9画素画像分類ネットワークのシミュレーションでは,自己放電がトレーニング効率に与える影響は認められなかった。 そして、自己放電中にネットワークの重量が著しく変動しても、その予測は10時間以上も100%正確である。 一方、円関数近似のための多層ネットワークは、最終平均二乗誤差損失0.4で20分以上劣化することが示されている。 本稿では,シナプスの現在の状態,最後のリマインダからの時間,および重みドリフトのマップに基づいて,定期的にネットワークをリマインダする手法を提案する。 本手法は,検証シミュレーションにより得られたマップを用いて,最悪の場合であっても有効損失を0.1以下に抑えることができることを示す。 最後に、このネットワークのトレーニングは自己放電の影響を受けながら、良好な分類が得られている。 電気化学的有機ニューロモルフィックデバイスは、より大きなデバイスネットワークに統合されていない。 本研究は,非理想的条件下での挙動を予測し,寄生性自己放電による最悪の影響を緩和し,有機ニューロモルフィックハードウェア上で高速かつ効率的なニューラルネットワークを実現するための道を開く。

Organic neuromorphic device networks can accelerate neural network algorithms and directly integrate with microfluidic systems or living tissues. Proposed devices based on the bio-compatible conductive polymer PEDOT:PSS have shown high switching speeds and low energy demand. However, as electrochemical systems, they are prone to self-discharge through parasitic electrochemical reactions. Therefore, the network's synapses forget their trained conductance states over time. This work integrates single-device high-resolution charge transport models to simulate neuromorphic device networks and analyze the impact of self-discharge on network performance. Simulation of a single-layer nine-pixel image classification network reveals no significant impact of self-discharge on training efficiency. And, even though the network's weights drift significantly during self-discharge, its predictions remain 100\% accurate for over ten hours. On the other hand, a multi-layer network for the approximation of the circle function is shown to degrade significantly over twenty minutes with a final mean-squared-error loss of 0.4. We propose to counter the effect by periodically reminding the network based on a map between a synapse's current state, the time since the last reminder, and the weight drift. We show that this method with a map obtained through validated simulations can reduce the effective loss to below 0.1 even with worst-case assumptions. Finally, while the training of this network is affected by self-discharge, a good classification is still obtained. Electrochemical organic neuromorphic devices have not been integrated into larger device networks. This work predicts their behavior under nonideal conditions, mitigates the worst-case effects of parasitic self-discharge, and opens the path toward implementing fast and efficient neural networks on organic neuromorphic hardware.
翻訳日:2022-12-12 14:54:01 公開日:2022-12-09
# 暗号sボックスにおけるboomerang一様性の進化について

On the Evolution of Boomerang Uniformity in Cryptographic S-boxes ( http://arxiv.org/abs/2212.04789v1 )

ライセンス: Link先を確認
Marko Djurasevic, Domagoj Jakobovic, Luca Mariot, Sihem Mesnager, Stjepan Picek(参考訳) Sボックスは暗号アルゴリズムが様々な攻撃に対して耐性を持つのに役立つ重要なプリミティブである。 特定の攻撃に対するレジリエンスは、sボックスの特定の特性と接続でき、プロパティ値が良くなればなるほど、アルゴリズムがより安全になる。 そのような特性の1つの例はブーメラン均一性(boomerang uniformity)と呼ばれ、ブーメラン攻撃に対して弾力性を持つ。 よいブーメラン均一性を持つSボックスを構築する方法は必ずしも明確ではない。 優れたブーメラン均一性をもたらす代数的技法があるが、その結果はまだ稀である。 本研究では,boomerang の均一性に優れた値を持つ s-box の進化について考察する。 3つの異なるエンコーディングと5つのSボックスサイズを考える。 サイズが4\times 4$と5\times 5$の場合、最適解が得られる。 6\times 6$の場合、非APN関数に対して最適なブーメラン均一性が得られる。 より大きなサイズでは、この問題は非常に難しい(よく研究された問題であると考えられるような、微分均一性の進化よりも難しい)。

S-boxes are an important primitive that help cryptographic algorithms to be resilient against various attacks. The resilience against specific attacks can be connected with a certain property of an S-box, and the better the property value, the more secure the algorithm. One example of such a property is called boomerang uniformity, which helps to be resilient against boomerang attacks. How to construct S-boxes with good boomerang uniformity is not always clear. There are algebraic techniques that can result in good boomerang uniformity, but the results are still rare. In this work, we explore the evolution of S-boxes with good values of boomerang uniformity. We consider three different encodings and five S-box sizes. For sizes $4\times 4$ and $5\times 5$, we manage to obtain optimal solutions. For $6\times 6$, we obtain optimal boomerang uniformity for the non-APN function. For larger sizes, the results indicate the problem to be very difficult (even more difficult than evolving differential uniformity, which can be considered a well-researched problem).
翻訳日:2022-12-12 14:53:35 公開日:2022-12-09
# 水質管理のための鉱業説明可能な予測特性

Mining Explainable Predictive Features for Water Quality Management ( http://arxiv.org/abs/2212.04419v2 )

ライセンス: Link先を確認
Conor Muldoon, Levent G\"org\"u, John J. O'Sullivan, Wim G. Meijer, Gregory M. P. O'Hare(参考訳) 水質管理のプロセスでは、位置や気象変化のタプルのような特徴と、細菌のレベルのような水質の変数の間の関係を識別し、解釈することが、介入を行うべき領域の洞察と特定の鍵となる。 水質に影響を及ぼす現象の場所や種類を探索するプロセスが必要であり、品質がどのように影響され、どの要因が最も関連しているかを説明する必要がある。 本稿ではこれらの問題に対処する。 空間領域上の様々な変数を表現し、モデルや推論のトレーニングに使用される特徴量のためのデータ収集プロセスを開発した。 モデルとシャプリー値を用いて特徴量の性能解析を行う。 共有値は協調ゲーム理論に起源を持ち、機械学習の結果の解釈を助けるために使用できる。 ダブリン大運河流域のいくつかの機械学習アルゴリズムと水質データを用いて評価を行う。

With water quality management processes, identifying and interpreting relationships between features, such as location and weather variable tuples, and water quality variables, such as levels of bacteria, is key to gaining insights and identifying areas where interventions should be made. There is a need for a search process to identify the locations and types of phenomena that are influencing water quality and a need to explain how the quality is being affected and which factors are most relevant. This paper addresses both of these issues. A process is developed for collecting data for features that represent a variety of variables over a spatial region and which are used for training models and inference. An analysis of the performance of the features is undertaken using the models and Shapley values. Shapley values originated in cooperative game theory and can be used to aid in the interpretation of machine learning results. Evaluations are performed using several machine learning algorithms and water quality data from the Dublin Grand Canal basin.
翻訳日:2022-12-12 14:53:18 公開日:2022-12-09
# クロス密度カーネル関数:ランダムプロセスの統計的依存性を定量化するための新しいフレームワーク

The Cross Density Kernel Function: A Novel Framework to Quantify Statistical Dependence for Random Processes ( http://arxiv.org/abs/2212.04631v1 )

ライセンス: Link先を確認
Bo Hu and Jose C. Principe(参考訳) 本稿では,Alfred R'enyiにインスパイアされた機能的方法論を用いた,統計的依存の多変量定義を提案する。 連続的確率過程の条件密度間の再帰的双方向統計マッピングにより、その統計的依存性を推定し、新しい対称および自己随伴クロス密度カーネルを定義する。 したがって、カーネル固有スペクトルは、新しい多変量統計依存尺度として提案され、定式化は、現在の方法よりもデータ生成モデルに関する仮定が少ない。 この測度は実現から推定することもできる。 関数最大相関アルゴリズム (FMCA) を2つの多変量ニューラルネットワークを用いた学習アーキテクチャに適用した。 FMCA最適解は、クロス密度カーネルの固有スペクトルを推定する平衡点である。 合成データと中規模の画像データセットによる予備的な結果が理論を裏付ける。 クロス密度カーネルを適用するための4つの異なる戦略を徹底的に議論し、方法論の汎用性と安定性を示し、教師付き学習を超越する。 2つのランダムプロセスがそれぞれ高次元実世界画像と白色一様ノイズである場合、そのアルゴリズムは、訓練セットに特定の入力が存在することを保証する因子コード、すなわち、特徴学習にとって非常に重要であることを学習する。

This paper proposes a novel multivariate definition of statistical dependence using a functional methodology inspired by Alfred R\'enyi. We define a new symmetric and self-adjoint cross density kernel through a recursive bidirectional statistical mapping between conditional densities of continuous random processes, which estimates their statistical dependence. Therefore, the kernel eigenspectrum is proposed as a new multivariate statistical dependence measure, and the formulation requires fewer assumptions about the data generation model than current methods. The measure can also be estimated from realizations. The proposed functional maximum correlation algorithm (FMCA) is applied to a learning architecture with two multivariate neural networks. The FMCA optimal solution is an equilibrium point that estimates the eigenspectrum of the cross density kernel. Preliminary results with synthetic data and medium size image datasets corroborate the theory. Four different strategies of applying the cross density kernel are thoroughly discussed and implemented to show the versatility and stability of the methodology, and it transcends supervised learning. When two random processes are high-dimensional real-world images and white uniform noise, respectively, the algorithm learns a factorial code i.e., the occurrence of a code guarantees that a certain input in the training set was present, which is quite important for feature learning.
翻訳日:2022-12-12 14:48:09 公開日:2022-12-09
# PATO:スケーラブルロボットデータ収集のためのポリシー支援遠隔操作

PATO: Policy Assisted TeleOperation for Scalable Robot Data Collection ( http://arxiv.org/abs/2212.04708v1 )

ライセンス: Link先を確認
Shivin Dass, Karl Pertsch, Hejia Zhang, Youngwoon Lee, Joseph J. Lim, Stefanos Nikolaidis(参考訳) 大規模データは、自然言語処理とコンピュータビジョン研究の最近の進歩で示されているように、機械学習の重要な要素である。 しかし、大規模なロボットデータの収集は、各オペレーターが一度に1つのロボットしか制御できないため、はるかに高価で遅い。 本稿では,このコストのかかるデータ収集プロセスを効率的かつスケーラブルにするために,学習された支援ポリシーを用いてデモ収集プロセスの一部を自動化するシステムであるPATO(Policy Assisted TeleOperation)を提案する。 PATOはデータ収集における反復的な動作を自律的に実行し、どのサブタスクや動作を実行するかが不確実な場合にのみ人間の入力を要求する。 我々は,実際のロボットとシミュレーションロボットの両方を用いて遠隔操作ユーザ研究を行い,データ収集効率を向上しつつ,人間の心的負担を軽減できることを実証した。 さらに、単一のオペレータが複数のロボットを並列に制御できるので、スケーラブルなロボットデータ収集への第一歩となる。 コードとビデオの結果はhttps://clvrai.com/patoを参照。

Large-scale data is an essential component of machine learning as demonstrated in recent advances in natural language processing and computer vision research. However, collecting large-scale robotic data is much more expensive and slower as each operator can control only a single robot at a time. To make this costly data collection process efficient and scalable, we propose Policy Assisted TeleOperation (PATO), a system which automates part of the demonstration collection process using a learned assistive policy. PATO autonomously executes repetitive behaviors in data collection and asks for human input only when it is uncertain about which subtask or behavior to execute. We conduct teleoperation user studies both with a real robot and a simulated robot fleet and demonstrate that our assisted teleoperation system reduces human operators' mental load while improving data collection efficiency. Further, it enables a single operator to control multiple robots in parallel, which is a first step towards scalable robotic data collection. For code and video results, see https://clvrai.com/pato
翻訳日:2022-12-12 14:47:48 公開日:2022-12-09
# TargetCall:プリベースコールフィルタによるベースコールにおけるムダ計算の排除

TargetCall: Eliminating the Wasted Computation in Basecalling via Pre-Basecalling Filtering ( http://arxiv.org/abs/2212.04953v1 )

ライセンス: Link先を確認
Meryem Banu Cavlak, Gagandeep Singh, Mohammed Alser, Can Firtina, Jo\"el Lindegger, Mohammad Sadrosadati, Nika Mansouri Ghiasi, Can Alkan, Onur Mutlu(参考訳) 塩基呼び出しは、ナノホールシークエンサーの生信号がヌクレオチド配列に変換されるナノホールシークエンシング解析において不可欠なステップである。 最先端のbasecallerは複雑なディープラーニングモデルを使用して高いbasecalling精度を実現している。 これにより、塩基呼び出しは非効率でメモリ不足になり、ゲノム解析パイプライン全体のボトルネックとなる。 しかし、多くのアプリケーションでは、リードの大部分は関心のある参照ゲノム(すなわち標的参照)と一致せず、ゲノムパイプラインの後のステップで破棄され、ベースコール計算を浪費する。 そこで本研究では,この問題を解決するために,最初の高速かつ広く適用可能なプリベースコールフィルタであるtargetcallを提案する。 TargetCallのキーとなるアイデアは、ベースコールの前にターゲット参照(すなわち、オフターゲット読み取り)にマッチしない読み込みを破棄することである。 targetcallは、2つの主要なコンポーネントで構成されている:(1)lightcall、騒がしい読み取りを生成する軽量ニューラルネットワークベースコール、(2)これらの騒がしい読み込みをターゲット参照にマッチさせてオンターゲットまたはオフターゲットとしてラベル付けする類似性チェック。 ターゲットコールは、ベースコールの前にすべてのオフターゲット読み込みをフィルタリングし、ノイズのある読み出しをオンターゲットとしてラベル付けされた生信号のみに高い精度だが遅いベースコールを行う。 実データとシミュレーションデータの両方を用いた徹底的な実験結果から 1) 高感度(98.88%)を維持しながら、最先端のベースコール器のエンドツーエンドのベースコール性能を3.31倍向上させる。 2)下流解析における高精度性を維持する。 3) ターゲット外読み取りの94.71%を正確にフィルタリングし、 4) 従来の作業よりも性能,感度,汎用性が向上する。 TargetCall は https://github.com/CMU-SAFARI/TargetCall でオープンソース公開しています。

Basecalling is an essential step in nanopore sequencing analysis where the raw signals of nanopore sequencers are converted into nucleotide sequences, i.e., reads. State-of-the-art basecallers employ complex deep learning models to achieve high basecalling accuracy. This makes basecalling computationally-inefficient and memory-hungry; bottlenecking the entire genome analysis pipeline. However, for many applications, the majority of reads do no match the reference genome of interest (i.e., target reference) and thus are discarded in later steps in the genomics pipeline, wasting the basecalling computation. To overcome this issue, we propose TargetCall, the first fast and widely-applicable pre-basecalling filter to eliminate the wasted computation in basecalling. TargetCall's key idea is to discard reads that will not match the target reference (i.e., off-target reads) prior to basecalling. TargetCall consists of two main components: (1) LightCall, a lightweight neural network basecaller that produces noisy reads; and (2) Similarity Check, which labels each of these noisy reads as on-target or off-target by matching them to the target reference. TargetCall filters out all off-target reads before basecalling; and the highly-accurate but slow basecalling is performed only on the raw signals whose noisy reads are labeled as on-target. Our thorough experimental evaluations using both real and simulated data show that TargetCall 1) improves the end-to-end basecalling performance of the state-of-the-art basecaller by 3.31x while maintaining high (98.88%) sensitivity in keeping on-target reads, 2) maintains high accuracy in downstream analysis, 3) precisely filters out up to 94.71% of off-target reads, and 4) achieves better performance, sensitivity, and generality compared to prior works. We freely open-source TargetCall at https://github.com/CMU-SAFARI/TargetCall.
翻訳日:2022-12-12 14:47:07 公開日:2022-12-09
# 分散メモリシステムにおけるスケーラブルグラフ畳み込みネットワークトレーニング

Scalable Graph Convolutional Network Training on Distributed-Memory Systems ( http://arxiv.org/abs/2212.05009v1 )

ライセンス: Link先を確認
Gunduz Vehbi Demirci, Aparajita Haldar, Hakan Ferhatosmanoglu(参考訳) グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。 グラフの大規模データサイズとその頂点機能は、スケーラブルなトレーニングアルゴリズムと分散メモリシステムを必要とする。 グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。 本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。 本ソリューションでは,プロセッサ間で大きな隣接行列と頂点特徴行列を分割する。 我々は,グラフの頂点分割を利用して,プロセッサ間のノンブロッキングなポイント・ツー・ポイント通信操作を用いてスケーラビリティを向上させる。 さらに並列化のオーバーヘッドを最小限に抑えるため,フルバッチ学習のためのハイパーグラフ分割モデルに基づくスパース行列分割方式を提案する。 また,ミニバッチ訓練において期待通信量をエンコードする確率的ハイパーグラフモデルを提案する。 通信コストを正確にエンコードしない標準グラフ分割モデルに対して,これまでGCNトレーニングで探索されていなかったハイパーグラフモデルの利点を示す。 実世界のグラフデータセットで行った実験は、提案アルゴリズムが代替ソリューションよりもかなりのスピードアップを達成することを示した。 通信コストの最適化は、多くのプロセッサで高いスケーラビリティでさらに顕著になる。 パフォーマンス上のメリットは、数十億のグラフだけでなく、より深いgcnにも保存される。

Graph Convolutional Networks (GCNs) are extensively utilized for deep learning on graphs. The large data sizes of graphs and their vertex features make scalable training algorithms and distributed memory systems necessary. Since the convolution operation on graphs induces irregular memory access patterns, designing a memory- and communication-efficient parallel algorithm for GCN training poses unique challenges. We propose a highly parallel training algorithm that scales to large processor counts. In our solution, the large adjacency and vertex-feature matrices are partitioned among processors. We exploit the vertex-partitioning of the graph to use non-blocking point-to-point communication operations between processors for better scalability. To further minimize the parallelization overheads, we introduce a sparse matrix partitioning scheme based on a hypergraph partitioning model for full-batch training. We also propose a novel stochastic hypergraph model to encode the expected communication volume in mini-batch training. We show the merits of the hypergraph model, previously unexplored for GCN training, over the standard graph partitioning model which does not accurately encode the communication costs. Experiments performed on real-world graph datasets demonstrate that the proposed algorithms achieve considerable speedups over alternative solutions. The optimizations achieved on communication costs become even more pronounced at high scalability with many processors. The performance benefits are preserved in deeper GCNs having more layers as well as on billion-scale graphs.
翻訳日:2022-12-12 14:46:38 公開日:2022-12-09
# 結合線形制約を持つ非滑らかな非凸ミニマックス問題に対する原始双対交互近勾配アルゴリズム

Primal Dual Alternating Proximal Gradient Algorithms for Nonsmooth Nonconvex Minimax Problems with Coupled Linear Constraints ( http://arxiv.org/abs/2212.04672v1 )

ライセンス: Link先を確認
Huiling Zhang, Junlin Wang, Zi Xu, Yu-Hong Dai(参考訳) 非凸ミニマックス問題は近年、機械学習、信号処理など多くの分野で注目されている。 本稿では,非滑らかな非凸強凸および非凸線形ミニマックス問題を解くためのpdapg(primal dual alternating proximal gradient)アルゴリズムとpdpg-l(primal dual proximal gradient)アルゴリズムを提案する。 2つのアルゴリズムの対応する反復複雑性は、それぞれ$\mathcal{O}\left( \varepsilon ^{-2} \right)$と$\mathcal{O}\left( \varepsilon ^{-3} \right)$であると証明される。 我々の知る限り、これらはミニマックス問題の2つのクラスを解くために、反復複雑性を保証する最初の2つのアルゴリズムである。

Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal dual alternating proximal gradient (PDAPG) algorithm and a primal dual proximal gradient (PDPG-L) algorithm for solving nonsmooth nonconvex-strongly concave and nonconvex-linear minimax problems with coupled linear constraints, respectively. The corresponding iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ and $\mathcal{O}\left( \varepsilon ^{-3} \right)$ to reach an $\varepsilon$-stationary point, respectively. To our knowledge, they are the first two algorithms with iteration complexity guarantee for solving the two classes of minimax problems.
翻訳日:2022-12-12 14:46:00 公開日:2022-12-09
# 介入による気候変動のロバスト検出と帰属

Robust detection and attribution of climate change under interventions ( http://arxiv.org/abs/2212.04905v1 )

ライセンス: Link先を確認
Enik\H{o} Sz\'ekely, Sebastian Sippel, Nicolai Meinshausen, Guillaume Obozinski, Reto Knutti(参考訳) フィンガープリントは、気候変動の検出と帰属(d&a)において重要な道具であり、観察の変化が内的気候変動(検出)と異なるか、観察された変化が特定の外部ドライバ(帰属)に割り当てられるかを決定するのに用いられる。 本研究では,教師付き学習に基づく直接的D&Aアプローチを提案し,ターゲット以外の気候要因に対する適切な介入の下で頑健な予測につながる指紋を抽出する。 この手法は因果推論にインスパイアされた分布論的統計的学習法であり,検討した介入下での摂動データに対してよく外挿する。 予測の残差は、外因性変数との非相関性または平均独立性のいずれかを達成し、ロバスト性を保証する。 我々は、D&Aを、同じ統計モデルに依存しながら異なるターゲットとテスト統計を使用する統一仮説テストフレームワークとして定義する。 実験では,まず,太陽の強制力に対する強い介入下での温度空間パターンからco2の強制力がロバストに予測できることを示した。 第2に, 温室効果ガスとエアロゾルに寄与し, エアロゾルとCO2強制力の介入から保護されている。 本研究は,関連する介入に対するロバスト性制約の導入が,気候変動の検出と帰属に有益であることを示す。

Fingerprints are key tools in climate change detection and attribution (D&A) that are used to determine whether changes in observations are different from internal climate variability (detection), and whether observed changes can be assigned to specific external drivers (attribution). We propose a direct D&A approach based on supervised learning to extract fingerprints that lead to robust predictions under relevant interventions on exogenous variables, i.e., climate drivers other than the target. We employ anchor regression, a distributionally-robust statistical learning method inspired by causal inference that extrapolates well to perturbed data under the interventions considered. The residuals from the prediction achieve either uncorrelatedness or mean independence with the exogenous variables, thus guaranteeing robustness. We define D&A as a unified hypothesis testing framework that relies on the same statistical model but uses different targets and test statistics. In the experiments, we first show that the CO2 forcing can be robustly predicted from temperature spatial patterns under strong interventions on the solar forcing. Second, we illustrate attribution to the greenhouse gases and aerosols while protecting against interventions on the aerosols and CO2 forcing, respectively. Our study shows that incorporating robustness constraints against relevant interventions may significantly benefit detection and attribution of climate change.
翻訳日:2022-12-12 14:45:42 公開日:2022-12-09
# 胸部X線画像からの肺分画のためのUNetベースパイプライン

UNet Based Pipeline for Lung Segmentation from Chest X-Ray Images ( http://arxiv.org/abs/2212.04617v1 )

ライセンス: Link先を確認
Shashank Shekhar, Ritika Nandi, H Srikanth Kamath(参考訳) バイオメディカル画像のセグメンテーションは、人工知能によって広範囲に自動化された分野の1つだ。 これにより、精査と診断のプロセスを迅速化するために正確な技術が広く採用され、完成までに数日を要した。 本稿では,胸部x線画像から肺を分割するエンドツーエンドパイプラインを提案し,日本放射線技術学会(jsrt)データセット上でニューラルネットワークモデルをトレーニングし,unetを用いて各種肺疾患の初期スクリーニングの処理を高速化する。 開発されたパイプラインは、x線画像を入力として提供するだけで医療センターで容易に使用できる。 モデルは前処理を行い、最終出力としてセグメント化されたイメージを提供する。 これにより、手作業が大幅に削減され、資源に制約のある場所でのアクセシビリティが向上することが期待されている。

Biomedical image segmentation is one of the fastest growing fields which has seen extensive automation through the use of Artificial Intelligence. This has enabled widespread adoption of accurate techniques to expedite the screening and diagnostic processes which would otherwise take several days to finalize. In this paper, we present an end-to-end pipeline to segment lungs from chest X-ray images, training the neural network model on the Japanese Society of Radiological Technology (JSRT) dataset, using UNet to enable faster processing of initial screening for various lung disorders. The pipeline developed can be readily used by medical centers with just the provision of X-Ray images as input. The model will perform the preprocessing, and provide a segmented image as the final output. It is expected that this will drastically reduce the manual effort involved and lead to greater accessibility in resource-constrained locations.
翻訳日:2022-12-12 14:45:14 公開日:2022-12-09
# コントラストキャピタからのゼロショット転送によるビデオテキストモデリング

Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners ( http://arxiv.org/abs/2212.04979v1 )

ライセンス: Link先を確認
Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu(参考訳) 本研究は,オープンボキャブラリなビデオ分類,テキスト間検索,ビデオキャプション,ビデオ質問応答などのタスクのための基礎的ビデオテキストモデルを確立するための効率的なアプローチを検討する。 本研究では,事前学習された画像テキストコントラストキャプションモデル(coca)を再利用し,最小限のトレーニングでビデオテキストタスクに適応するvideococaを提案する。 従来,様々なフレーム融合モジュール(例えば,クロスフレーム・アテンション・レイヤやパーセプラー・リサンプラー)で画像テキストモデルを適応させ,ビデオテキストデータに修正アーキテクチャを微調整してきたが,画像テキストのCoCa設計における生成的アテンション・プーリングとコントラスト的アテンション・プール・レイヤは,すぐに「フラット化フレーム埋め込み」に適応し,多くのビデオテキストタスクに対して強力なゼロショット転送ベースラインが得られることがわかった。 具体的には、予め訓練された画像テキストCoCaの凍結画像エンコーダは、各ビデオフレームを入力として、全 \(T\) ビデオフレームに対してフレーム毎に \(N\) トークン埋め込みを生成する。 n \times t\)トークン埋め込みを凍結ビデオ表現の長いシーケンスとしてフラットにし、cocaの生成的注意プールとコントラスト的注意プールを上に適用する。 プール層を含むモデル重みは、イメージテキストcocaプリトレーニングモデルから直接ロードされる。 VideoCoCaのゼロショット転送ベースラインは、Kineetics 400/600/700, UCF101, HMDB51, Charadesのゼロショットビデオ分類と、MSR-VTTとActivityNet Captionsのゼロショットテキスト・ツー・ビデオ検索をすでに実現している。 また,ビデオCoCa上での軽量なファインタニングについても検討し,ビデオ質問応答(iVQA, MSRVTT-QA, MSVD-QA)とビデオキャプション(MSR-VTT, ActivityNet, Youcook2)について強い結果を得た。 我々のアプローチは、将来の研究のためのシンプルで効果的なビデオテキストベースラインを確立する。

This work explores an efficient approach to establish a foundational video-text model for tasks including open-vocabulary video classification, text-to-video retrieval, video captioning and video question-answering. We present VideoCoCa that reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules (for example, cross-frame attention layer or perceiver resampler) and finetune the modified architecture on video-text data, we surprisingly find that the generative attentional pooling and contrastive attentional pooling layers in the image-text CoCa design are instantly adaptable to ``flattened frame embeddings'', yielding a strong zero-shot transfer baseline for many video-text tasks. Specifically, the frozen image encoder of a pretrained image-text CoCa takes each video frame as inputs and generates \(N\) token embeddings per frame for totally \(T\) video frames. We flatten \(N \times T\) token embeddings as a long sequence of frozen video representation and apply CoCa's generative attentional pooling and contrastive attentional pooling on top. All model weights including pooling layers are directly loaded from an image-text CoCa pretrained model. Without any video or video-text data, VideoCoCa's zero-shot transfer baseline already achieves state-of-the-art results on zero-shot video classification on Kinetics 400/600/700, UCF101, HMDB51, and Charades, as well as zero-shot text-to-video retrieval on MSR-VTT and ActivityNet Captions. We also explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering (iVQA, MSRVTT-QA, MSVD-QA) and video captioning (MSR-VTT, ActivityNet, Youcook2). Our approach establishes a simple and effective video-text baseline for future research.
翻訳日:2022-12-12 14:45:00 公開日:2022-12-09
# 異種病理データセットにおける自己監督学習のベンチマーク

Benchmarking Self-Supervised Learning on Diverse Pathology Datasets ( http://arxiv.org/abs/2212.04690v1 )

ライセンス: Link先を確認
Mingu Kang, Heon Song, Seonwook Park, Donggeun Yoo, S\'ergio Pereira(参考訳) 計算病理学は人間の命を救う可能性があるが、モデルは空腹であり、病理画像は注釈を付けるのに非常に高価である。 自己教師付き学習はラベルのないデータを活用する効果的な方法であり、その病理学への応用は下流のタスクに大きな恩恵をもたらす可能性がある。 しかし、SSLメソッドを比較して、病理学に適応する方法を議論する原則的な研究は存在しない。 このニーズに対処するため,我々はこれまで,病理画像データに対するssl事前トレーニングに関する最大規模の調査を行った。 本研究は,下流タスクの4つの代表的SSL手法を用いて行った。 病理学における大規模ドメインアライメント前トレーニングは,リニアや微調整評価などの標準ssl設定や低ラベルレジームにおいて,イメージネット前トレーニングを一貫して上回っている。 さらに,実証実験により性能向上につながる一連のドメイン固有手法を提案する。 最後に,核インスタンスセグメンテーションの課題に対してSSLを初めて適用し,多様な設定下での大規模かつ一貫したパフォーマンス向上を示す。

Computational pathology can lead to saving human lives, but models are annotation hungry and pathology images are notoriously expensive to annotate. Self-supervised learning has shown to be an effective method for utilizing unlabeled data, and its application to pathology could greatly benefit its downstream tasks. Yet, there are no principled studies that compare SSL methods and discuss how to adapt them for pathology. To address this need, we execute the largest-scale study of SSL pre-training on pathology image data, to date. Our study is conducted using 4 representative SSL methods on diverse downstream tasks. We establish that large-scale domain-aligned pre-training in pathology consistently out-performs ImageNet pre-training in standard SSL settings such as linear and fine-tuning evaluations, as well as in low-label regimes. Moreover, we propose a set of domain-specific techniques that we experimentally show leads to a performance boost. Lastly, for the first time, we apply SSL to the challenging task of nuclei instance segmentation and show large and consistent performance improvements under diverse settings.
翻訳日:2022-12-12 14:38:33 公開日:2022-12-09
# Genie: 量子化のデータを見せてください

Genie: Show Me the Data for Quantization ( http://arxiv.org/abs/2212.04780v1 )

ライセンス: Link先を確認
Yongkweon Jeon, Chungman Lee, Ho-young Kim(参考訳) ゼロショット量子化は、プライバシに関連するコストや問題など、さまざまな理由からデータがアクセスできない場合に、軽量なディープニューラルネットワークを開発する上で有望なアプローチである。 FP32事前学習モデルの学習パラメータ(統計)を利用することで、ゼロショット量子化スキームは学習パラメータ($\mu$と$\sigma$)と中間アクティベーションの分布の最小化による合成データの生成に焦点を当てる。 その後、事前学習されたモデル (\textit{teacher}) から量子化モデル (\textit{student}) への知識を蒸留し、量子化モデルは合成データセットで最適化される。 一般にゼロショット量子化は、データセットの合成とモデルの定量化の2つの主要な要素を含む。 しかし、これまでのゼロショット量子化は、タスク固有の損失と長期最適化を必要とする量子化対応トレーニング手法の文脈で主に議論されてきた。 そこで本稿では,30分から数時間で高品質な量子化ネットワークを生成できるゼロショット量子化のための学習後量子化方式を提案する。 さらに,トレーニング後の量子化に適したデータを生成する \genie~というフレームワークを提案する。 \genieによって合成されたデータにより、実際のデータセットを使わずに高品質な量子化モデルを作成できる。 また,学習後の量子化アルゴリズムを提案し,量子化モデルの性能を向上させる。 これらを組み合わせることで、ゼロショットと少数ショットの量子化のギャップを埋めることができ、既存のアプローチと比べて量子化性能を著しく改善することができる。 言い換えれば、ユニークな最先端ゼロショット量子化アプローチを得ることができる。

Zero-shot quantization is a promising approach for developing lightweight deep neural networks when data is inaccessible owing to various reasons, including cost and issues related to privacy. By utilizing the learned parameters (statistics) of FP32-pre-trained models, zero-shot quantization schemes focus on generating synthetic data by minimizing the distance between the learned parameters ($\mu$ and $\sigma$) and distributions of intermediate activations. Subsequently, they distill knowledge from the pre-trained model (\textit{teacher}) to the quantized model (\textit{student}) such that the quantized model can be optimized with the synthetic dataset. In general, zero-shot quantization comprises two major elements: synthesizing datasets and quantizing models. However, thus far, zero-shot quantization has primarily been discussed in the context of quantization-aware training methods, which require task-specific losses and long-term optimization as much as retraining. We thus introduce a post-training quantization scheme for zero-shot quantization that produces high-quality quantized networks within a few hours on even half an hour. Furthermore, we propose a framework called \genie~that generates data suited for post-training quantization. With the data synthesized by \genie, we can produce high-quality quantized models without real datasets, which is comparable to few-shot quantization. We also propose a post-training quantization algorithm to enhance the performance of quantized models. By combining them, we can bridge the gap between zero-shot and few-shot quantization while significantly improving the quantization performance compared to that of existing approaches. In other words, we can obtain a unique state-of-the-art zero-shot quantization approach.
翻訳日:2022-12-12 14:38:14 公開日:2022-12-09
# 誤差整合不確実性最適化による信頼性の高いマルチモーダル軌道予測

Reliable Multimodal Trajectory Prediction via Error Aligned Uncertainty Optimization ( http://arxiv.org/abs/2212.04812v1 )

ライセンス: Link先を確認
Neslihan Kose, Ranganath Krishnan, Akash Dhamasia, Omesh Tickoo, Michael Paulitsch(参考訳) ディープニューラルネットワークにおける信頼性の高い不確実性定量化は、信頼できる意思決定のための自動運転のような安全クリティカルなアプリケーションにおいて非常に重要である。 不確実性推定の質を評価することは困難であり、不確実性推定の根拠は得られない。 理想的には、よく校正されたモデルでは、不確実性推定はモデルエラーと完全に相関するべきである。 本稿では,モデル誤差に整合した品質不確実性推定を導出するための,新しい誤差整合不確実性最適化手法を提案する。 提案手法は連続的構造予測および回帰タスクを対象とし,実世界の分布変化を含む大規模車両運動予測タスクを含む複数のデータセットで評価する。 本研究では, 平均変位誤差を1.69%, 4.69%, モデル誤差との不確実性相関を17.22%, 19.13%改善し, ピアソン相関係数の定量化を行った。

Reliable uncertainty quantification in deep neural networks is very crucial in safety-critical applications such as automated driving for trustworthy and informed decision-making. Assessing the quality of uncertainty estimates is challenging as ground truth for uncertainty estimates is not available. Ideally, in a well-calibrated model, uncertainty estimates should perfectly correlate with model error. We propose a novel error aligned uncertainty optimization method and introduce a trainable loss function to guide the models to yield good quality uncertainty estimates aligning with the model error. Our approach targets continuous structured prediction and regression tasks, and is evaluated on multiple datasets including a large-scale vehicle motion prediction task involving real-world distributional shifts. We demonstrate that our method improves average displacement error by 1.69% and 4.69%, and the uncertainty correlation with model error by 17.22% and 19.13% as quantified by Pearson correlation coefficient on two state-of-the-art baselines.
翻訳日:2022-12-12 14:37:46 公開日:2022-12-09
# Spurious Features Everywhere -- ImageNetにおける有害なSpurious Featuresの大規模検出

Spurious Features Everywhere -- Large-Scale Detection of Harmful Spurious Features in ImageNet ( http://arxiv.org/abs/2212.04871v1 )

ライセンス: Link先を確認
Yannic Neuhaus, Maximilian Augustin, Valentyn Boreiko, Matthias Hein(参考訳) ディープラーニング分類器のベンチマーク性能は、デプロイされたモデルの性能の信頼性の高い予測器ではない。 特に、画像分類器がトレーニングデータの急激な特徴を拾った場合、予測は予期せぬ方法で失敗する可能性がある。 本稿では,ImageNetのような大規模データセットにおいて,突発的特徴を体系的に識別するフレームワークを開発する。 それは私たちの神経PCAコンポーネントとその可視化に基づいています。 画像分類器のスプリアス機能に関する以前の研究は、しばしばおもちゃの設定で動作し、高価なピクセル単位でアノテーションを必要とする。 対照的に、クラスに有害な刺激的特徴が存在することが、そのクラスの予測を引き起こすのに十分であるかどうかを確認することで、結果を検証する。 我々は,新しいデータセット「spurious imagenet」を導入し,既存の分類器がスプリアス機能にどの程度依存しているかをチェックする。

Benchmark performance of deep learning classifiers alone is not a reliable predictor for the performance of a deployed model. In particular, if the image classifier has picked up spurious features in the training data, its predictions can fail in unexpected ways. In this paper, we develop a framework that allows us to systematically identify spurious features in large datasets like ImageNet. It is based on our neural PCA components and their visualization. Previous work on spurious features of image classifiers often operates in toy settings or requires costly pixel-wise annotations. In contrast, we validate our results by checking that presence of the harmful spurious feature of a class is sufficient to trigger the prediction of that class. We introduce a novel dataset "Spurious ImageNet" and check how much existing classifiers rely on spurious features.
翻訳日:2022-12-12 14:37:29 公開日:2022-12-09
# 多次元サービス品質スコアリングシステム

Multidimensional Service Quality Scoring System ( http://arxiv.org/abs/2212.04611v1 )

ライセンス: Link先を確認
Shiyang Lai(参考訳) 本論文は,本論文で言及・採用されているホストサービス品質の定量化手法である多次元サービス品質スコアシステム(msqs)を紹介することを目的としている。 MSQはエンドツーエンドの実装ではなく、基本的にData CollectionとPreprocessing、Objects Recognition and Grouping、AspectベースのService Scoringという3つのパイプラインで構成されています。 上記の研究を事例として、MSQの技術的な詳細をこの記事で説明する。

This supplementary paper aims to introduce the Multidimensional Service Quality Scoring System (MSQs), a review-based method for quantifying host service quality mentioned and employed in the paper Exit and transition: Exploring the survival status of Airbnb listings in a time of professionalization. MSQs is not an end-to-end implementation and is essentially composed of three pipelines, namely Data Collection and Preprocessing, Objects Recognition and Grouping, and Aspect-based Service Scoring. Using the study mentioned above as a case, the technical details of MSQs are explained in this article.
翻訳日:2022-12-12 14:37:15 公開日:2022-12-09
# 単一画像からのヒト上半身の身体的可塑性アニメーション

Physically Plausible Animation of Human Upper Body from a Single Image ( http://arxiv.org/abs/2212.04741v1 )

ライセンス: Link先を確認
Ziyuan Huang, Zhengping Zhou, Yung-Yu Chuang, Jiajun Wu, C. Karen Liu(参考訳) 制御可能,動的応答性,フォトリアリスティックな人間のアニメーションを生成する新しい手法を提案する。 人物の画像が与えられた場合、ユーザは様々な場所に手をドラッグするなど、画像空間でのインタラクションを利用して物理的に妥当な上半身アニメーション(puba)を生成できる。 本研究では、3D動作(関節トルク)で条件付けられた次の2D状態(すなわち画像上のキーポイント)を予測する動的モデルをトレーニングするために強化学習問題を定式化し、目的を達成するために最適な動作を出力する方針を定式化する。 動的モデルは3dシミュレーションの表現力と2dビデオの視覚的リアリズムを活用する。 PUBAは、強制摂動に応答しながらタスク目標を達成する2Dキーポイントシーケンスを生成する。 キーポイントのシーケンスは、ポーズから画像へのジェネレータによって変換され、最終的なフォトリアリスティックなビデオを生成する。

We present a new method for generating controllable, dynamically responsive, and photorealistic human animations. Given an image of a person, our system allows the user to generate Physically plausible Upper Body Animation (PUBA) using interaction in the image space, such as dragging their hand to various locations. We formulate a reinforcement learning problem to train a dynamic model that predicts the person's next 2D state (i.e., keypoints on the image) conditioned on a 3D action (i.e., joint torque), and a policy that outputs optimal actions to control the person to achieve desired goals. The dynamic model leverages the expressiveness of 3D simulation and the visual realism of 2D videos. PUBA generates 2D keypoint sequences that achieve task goals while being responsive to forceful perturbation. The sequences of keypoints are then translated by a pose-to-image generator to produce the final photorealistic video.
翻訳日:2022-12-12 14:37:05 公開日:2022-12-09
# コンテクスト爆発による変圧器のマスクリップ同期予測

Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers ( http://arxiv.org/abs/2212.04970v1 )

ライセンス: Link先を確認
Yasheng Sun, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Zhibin Hong, Jingtuo Liu, Errui Ding, Jingdong Wang, Ziwei Liu, Hideki Koike(参考訳) 従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。 しかし、そのほとんどは顔領域全体を変形または生成し、非現実的な結果をもたらす。 本研究では,対象者の口形状のみを変更するという定式化について検討する。 これはオリジナルの画像の大部分をマスクし、オーディオと参照フレームの助けを借りてシームレスに塗り付ける必要がある。 この目的のために,マスクした口の形状を予測して,写真品質の正確なリップシンクを生成するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。 我々の重要な洞察は、微妙に設計されたトランスフォーマーで、オーディオと視覚のモーダルで提供される望ましいコンテキスト情報を活用することである。 具体的には,畳み込みとトランスフォーマーのハイブリッドバックボーンを提案し,マスク部品を充填するための注意に基づく融合戦略を設計する。 マスクされていない領域と参照フレームのテクスチャ情報に均一に出席する。 そして、セマンティックオーディオ情報が自己注意計算の強化に関与する。 さらに、オーディオインジェクションを備えたリファインメントネットワークは、画像とリップシンクの両方の品質が向上する。 広範な実験により,本モデルが任意の被験者に対して高忠実度なリップ同期結果を生成することを検証した。

Previous studies have explored generating accurately lip-synced talking faces for arbitrary targets given audio conditions. However, most of them deform or generate the whole facial area, leading to non-realistic results. In this work, we delve into the formulation of altering only the mouth shapes of the target person. This requires masking a large percentage of the original image and seamlessly inpainting it with the aid of audio and reference frames. To this end, we propose the Audio-Visual Context-Aware Transformer (AV-CAT) framework, which produces accurate lip-sync with photo-realistic quality by predicting the masked mouth shapes. Our key insight is to exploit desired contextual information provided in audio and visual modalities thoroughly with delicately designed Transformers. Specifically, we propose a convolution-Transformer hybrid backbone and design an attention-based fusion strategy for filling the masked parts. It uniformly attends to the textural information on the unmasked regions and the reference frame. Then the semantic audio information is involved in enhancing the self-attention computation. Additionally, a refinement network with audio injection improves both image and lip-sync quality. Extensive experiments validate that our model can generate high-fidelity lip-synced results for arbitrary subjects.
翻訳日:2022-12-12 14:36:26 公開日:2022-12-09
# 部分放電サイクリングデータを用いた実時間liイオン電池状態推定用デジタル双生児

Digital Twin for Real-time Li-ion Battery State of Health Estimation with Partially Discharged Cycling Data ( http://arxiv.org/abs/2212.04622v1 )

ライセンス: Link先を確認
Yan Qin, Anushiya Arunan, Chau Yuen(参考訳) 実用上の安全性と信頼性のかなり高い要件を満たすため、劣化性能と密接な関係にあるリチウムイオン電池(libs)の健全性評価(soh)が、様々な電子機器の幅広い応用で広く研究されている。 ディジタルツインを用いた従来のSOH推定手法は、利用可能な最大容量を観測するために、フル充電/放電サイクルの完了を必要とするエンド・オブ・サイクル推定である。 しかし, 部分放電データを用いた動的動作条件下では, LIBの正確なリアルタイムSOH推定は不可能である。 この研究ギャップを埋めるために、我々は、バッテリーのSOHをオンザフライで検知し、物理的なバッテリーモデルを更新する能力を得るために、デジタルツインフレームワークを作成した。 提案したディジタルツイン溶液は, 完全放電を必要としないリアルタイムSOH推定が可能な3つのコア成分からなる。 まず, 変動学習サイクルデータを扱うために, エネルギー差を考慮したサイクリング同期を提案し, サイクリングデータを同じデータ構造に整合させる。 次に, 異なるトレーニングサンプリング時間の時間的重要度を調べるために, 重要でないサンプルの影響を除外し, サイクル上の劣化挙動をキャプチャするデータエンコードを用いて, タイムアテンションsoh推定モデルを開発した。 最後に、オンライン実装において、完全放電サイクルを必要とせずにリアルタイムなSOH推定を実現するために、類似性分析に基づくデータ再構成が進められている。 提案手法は,広く利用されているベンチマークで行った一連の結果を通じて,現在進行中のサイクルにおけるサンプリング時間において,1%未満の誤差でリアルタイムなSOH推定を行う。

To meet the fairly high safety and reliability requirements in practice, the state of health (SOH) estimation of Lithium-ion batteries (LIBs), which has a close relationship with the degradation performance, has been extensively studied with the widespread applications of various electronics. The conventional SOH estimation approaches with digital twin are end-of-cycle estimation that require the completion of a full charge/discharge cycle to observe the maximum available capacity. However, under dynamic operating conditions with partially discharged data, it is impossible to sense accurate real-time SOH estimation for LIBs. To bridge this research gap, we put forward a digital twin framework to gain the capability of sensing the battery's SOH on the fly, updating the physical battery model. The proposed digital twin solution consists of three core components to enable real-time SOH estimation without requiring a complete discharge. First, to handle the variable training cycling data, the energy discrepancy-aware cycling synchronization is proposed to align cycling data with guaranteeing the same data structure. Second, to explore the temporal importance of different training sampling times, a time-attention SOH estimation model is developed with data encoding to capture the degradation behavior over cycles, excluding adverse influences of unimportant samples. Finally, for online implementation, a similarity analysis-based data reconstruction has been put forward to provide real-time SOH estimation without requiring a full discharge cycle. Through a series of results conducted on a widely used benchmark, the proposed method yields the real-time SOH estimation with errors less than 1% for most sampling times in ongoing cycles.
翻訳日:2022-12-12 14:35:45 公開日:2022-12-09
# 交通事故予測のための強化学習

Reinforcement Learning for Predicting Traffic Accidents ( http://arxiv.org/abs/2212.04677v1 )

ライセンス: Link先を確認
Injoon Cho, Praveen Kumar Rajendran, Taeyoung Kim, and Dongsoo Har(参考訳) 自動運転の需要が増加するにつれて、安全を確保することが最優先される。 近年,運転安全のための深層学習手法による早期事故予測が注目されている。 このタスクでは、初期の事故予測とドライバーの見た目のポイント予測が決定され、ダッシュカムビデオが入力となる。 本稿では,この事故予測プラットフォームにおいて,二重アクターと正規化批評家(DARC)手法を初めて活用することを提案する。 我々は現在,事故予測に適した連続的行動空間における最先端強化学習(rl)モデルであるdarcからインスピレーションを得た。 その結果,DARCを用いることで,従来の手法に比べて精度が向上し,平均で5倍早く予測できることがわかった。 その結果,RLに基づく問題定式化は自動運転の安全性を著しく向上させる可能性が示唆された。

As the demand for autonomous driving increases, it is paramount to ensure safety. Early accident prediction using deep learning methods for driving safety has recently gained much attention. In this task, early accident prediction and a point prediction of where the drivers should look are determined, with the dashcam video as input. We propose to exploit the double actors and regularized critics (DARC) method, for the first time, on this accident forecasting platform. We derive inspiration from DARC since it is currently a state-of-the-art reinforcement learning (RL) model on continuous action space suitable for accident anticipation. Results show that by utilizing DARC, we can make predictions 5\% earlier on average while improving in multiple metrics of precision compared to existing methods. The results imply that using our RL-based problem formulation could significantly increase the safety of autonomous driving.
翻訳日:2022-12-12 14:28:41 公開日:2022-12-09
# 不特定人間モデルに対する逆推定の感度について

On the Sensitivity of Reward Inference to Misspecified Human Models ( http://arxiv.org/abs/2212.04717v1 )

ライセンス: Link先を確認
Joey Hong and Kush Bhatia and Anca Dragan(参考訳) 人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。 しかし、それを行うには、人間の行動のモデルに依存する。 認知科学、神経科学、行動経済学の何十年もの研究の後、正確な人間のモデルを得ることは、オープンな研究課題である。 これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか? 一方で、モデル内の小さなエラーが推論の破滅的なエラーに繋がる場合、報酬学習のフレームワーク全体が不公平に思えます。 一方、モデルが改善されれば、報酬の正確さも向上するという保証が得られます。 我々はこの問題を理論的にも経験的にも研究する。 残念なことに、予想された報酬で任意に大きなエラーを引き起こす行動の小さな敵バイアスを構築することは可能である。 しかし、おそらくもっと重要なことは、報酬推論エラーが人間のモデルにおける誤差で線形に境界づけられるという合理的な仮定を特定できるということです。 最後に、シミュレーションおよび人的データを用いて、離散的かつ連続的な制御タスクにおける理論的洞察を検証する。

Inferring reward functions from human behavior is at the center of value alignment - aligning AI objectives with what we, humans, actually want. But doing so relies on models of how humans behave given their objectives. After decades of research in cognitive science, neuroscience, and behavioral economics, obtaining accurate human models remains an open research topic. This begs the question: how accurate do these models need to be in order for the reward inference to be accurate? On the one hand, if small errors in the model can lead to catastrophic error in inference, the entire framework of reward learning seems ill-fated, as we will never have perfect models of human behavior. On the other hand, if as our models improve, we can have a guarantee that reward accuracy also improves, this would show the benefit of more work on the modeling side. We study this question both theoretically and empirically. We do show that it is unfortunately possible to construct small adversarial biases in behavior that lead to arbitrarily large errors in the inferred reward. However, and arguably more importantly, we are also able to identify reasonable assumptions under which the reward inference error can be bounded linearly in the error in the human model. Finally, we verify our theoretical insights in discrete and continuous control tasks with simulated and human data.
翻訳日:2022-12-12 14:28:29 公開日:2022-12-09
# バンディットフィードバックによるマルチタスクオフポリシー学習

Multi-Task Off-Policy Learning from Bandit Feedback ( http://arxiv.org/abs/2212.04720v1 )

ライセンス: Link先を確認
Joey Hong and Branislav Kveton and Sumeet Katariya and Manzil Zaheer and Mohammad Ghavamzadeh(参考訳) 推薦システムやランク付け学習といった多くの実践的応用には、複数の類似したタスクの解決が含まれる。 例えば、類似の映画嗜好を持つユーザーの推薦ポリシーを学ぶことで、ユーザーは映画を微妙にランク付けすることができる。 このようなタスクは階層構造にまとめることができ、同様のタスクは共有構造を通じて関連付けられる。 本研究では,ログ付きバンディットフィードバックから階層型グラフィカルモデルにおいて,文脈的オフポリシー最適化としてこの問題を定式化する。 そこで本研究では,階層モデルのパラメータを推定し,それに対して悲観的に行動する階層的オフポリシー最適化アルゴリズム(hieropo)を提案する。 線形ガウスモデルでHierOPOをインスタンス化し、効率的な実装と分析を提供する。 学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。 また,政策を実証的に評価する。 我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。

Many practical applications, such as recommender systems and learning to rank, involve solving multiple similar tasks. One example is learning of recommendation policies for users with similar movie preferences, where the users may still rank the individual movies slightly differently. Such tasks can be organized in a hierarchy, where similar tasks are related through a shared structure. In this work, we formulate this problem as a contextual off-policy optimization in a hierarchical graphical model from logged bandit feedback. To solve the problem, we propose a hierarchical off-policy optimization algorithm (HierOPO), which estimates the parameters of the hierarchical model and then acts pessimistically with respect to them. We instantiate HierOPO in linear Gaussian models, for which we also provide an efficient implementation and analysis. We prove per-task bounds on the suboptimality of the learned policies, which show a clear improvement over not using the hierarchical model. We also evaluate the policies empirically. Our theoretical and empirical results show a clear advantage of using the hierarchy over solving each task independently.
翻訳日:2022-12-12 14:28:08 公開日:2022-12-09
# 間隔データと分布データの閉パターンマイニング

Closed pattern mining of interval data and distributional data ( http://arxiv.org/abs/2212.04849v1 )

ライセンス: Link先を確認
Henry Soldano, Guillaume Santini, Stella Zevio(参考訳) パターンマイニングのためのパターン言語と、間隔データと分布データの学習について論じる。 まず、交差に基づく制約のペアや包摂に基づく制約のペア、あるいはその両方に依存するパターン言語を紹介します。 本稿では,これらの間隔パターンの符号化をアイテムセットとして検討し,クローズドアイテムセットのマイニングと形式的概念分析プログラムの利用を可能にした。 我々はこれらの言語をクラスタリングと教師付き学習タスクで実験する。 次に,分散データへのアプローチを拡張する方法を示す。

We discuss pattern languages for closed pattern mining and learning of interval data and distributional data. We first introduce pattern languages relying on pairs of intersection-based constraints or pairs of inclusion based constraints, or both, applied to intervals. We discuss the encoding of such interval patterns as itemsets thus allowing to use closed itemsets mining and formal concept analysis programs. We experiment these languages on clustering and supervised learning tasks. Then we show how to extend the approach to address distributional data.
翻訳日:2022-12-12 14:27:53 公開日:2022-12-09
# 高次元における因果構造の深層学習

Deep Learning of Causal Structures in High Dimensions ( http://arxiv.org/abs/2212.04866v1 )

ライセンス: Link先を確認
Kai Lagemann, Christian Lagemann, Bernd Taschler, Sach Mukherjee(参考訳) 近年、因果関係と機械学習の交差が急速に進展している。 高次元データを含む科学的応用、特にバイオメディシンに動機づけられ、経験的データと事前因果知識の組み合わせから変数間の因果関係を学ぶためのディープニューラルアーキテクチャを提案する。 畳み込みニューラルネットワークとグラフニューラルネットワークを因果リスクフレームワークに組み合わせることで、柔軟でスケーラブルなアプローチを実現します。 実験結果には線形および非線形シミュレーション(基礎となる因果構造が知られ、直接比較できる)や、モデルが高次元の分子データに適用される実例や、全く見えない検証実験と比較された結果が含まれる。 これらの結果は,数千の変数にまたがる大規模問題における因果ネットワークの学習に深層学習手法を用いた場合の可能性を示す。

Recent years have seen rapid progress at the intersection between causality and machine learning. Motivated by scientific applications involving high-dimensional data, in particular in biomedicine, we propose a deep neural architecture for learning causal relationships between variables from a combination of empirical data and prior causal knowledge. We combine convolutional and graph neural networks within a causal risk framework to provide a flexible and scalable approach. Empirical results include linear and nonlinear simulations (where the underlying causal structures are known and can be directly compared against), as well as a real biological example where the models are applied to high-dimensional molecular data and their output compared against entirely unseen validation experiments. These results demonstrate the feasibility of using deep learning approaches to learn causal networks in large-scale problems spanning thousands of variables.
翻訳日:2022-12-12 14:27:46 公開日:2022-12-09
# リカレントグラフニューラルネットワークを用いたグラフアルゴリズムの学習

Learning Graph Algorithms With Recurrent Graph Neural Networks ( http://arxiv.org/abs/2212.04934v1 )

ライセンス: Link先を確認
Florian Gr\"otschla, Jo\"el Mathys, Roger Wattenhofer(参考訳) 古典グラフアルゴリズムは、完全な形式化と抽象化が可能な組合せ問題に対してうまく機能する。 アルゴリズムが導出されると、任意のサイズのインスタンスに一般化される。 しかし、現実世界の複雑な構造や相互作用を扱うアルゴリズムを開発することは困難である。 アルゴリズムを指定するのではなく、グラフ構造化データから学習することができる。 グラフニューラルネットワーク(GNN)は本質的にグラフ構造に取り組む能力があるが、それらをうまく一般化するのに苦労し、より大きなインスタンスで学ぶことは難しい。 スケールするために私たちは、より小さなグラフに端から端まで単純なグラフの問題を学習し、さらに大きなインスタンスに外挿できる、リカレントなアーキテクチャ設計にフォーカスしています。 本研究の主な貢献として,GNNのスケールアップに要する3つのテクニックを同定した。 利用することで (i)接続をスキップする。 (ii)状態の正規化、及び (三)エッジ畳み込みにより、GNNを外挿に導くことができる。 これにより、小さなグラフをトレーニングし、推論中に同じモデルをもっと大きなグラフに適用することができます。 さらに、アルゴリズムデータセット上でGNNの補間能力を実証的に検証する。

Classical graph algorithms work well for combinatorial problems that can be thoroughly formalized and abstracted. Once the algorithm is derived, it generalizes to instances of any size. However, developing an algorithm that handles complex structures and interactions in the real world can be challenging. Rather than specifying the algorithm, we can try to learn it from the graph-structured data. Graph Neural Networks (GNNs) are inherently capable of working on graph structures; however, they struggle to generalize well, and learning on larger instances is challenging. In order to scale, we focus on a recurrent architecture design that can learn simple graph problems end to end on smaller graphs and then extrapolate to larger instances. As our main contribution, we identify three essential techniques for recurrent GNNs to scale. By using (i) skip connections, (ii) state regularization, and (iii) edge convolutions, we can guide GNNs toward extrapolation. This allows us to train on small graphs and apply the same model to much larger graphs during inference. Moreover, we empirically validate the extrapolation capabilities of our GNNs on algorithmic datasets.
翻訳日:2022-12-12 14:27:31 公開日:2022-12-09
# 分布的処理効果をテストするための二重ロバストなカーネル統計

Doubly Robust Kernel Statistics for Testing Distributional Treatment Effects Even Under One Sided Overlap ( http://arxiv.org/abs/2212.04922v1 )

ライセンス: Link先を確認
Jake Fawkes, Robert Hu, Robin J. Evans, Dino Sejdinovic(参考訳) 因果推論が広まるにつれて、因果効果をテストするための優れたツールを持つことの重要性が増す。 本研究は, 治療とコントロールの分布の違いを表わす因果効果テストの問題に焦点をあてる。 本稿では,従来導入されていたCounterfactual Mean Embedding framework (\textsc{CfME})を考慮し,カーネルメソッドを因果関係に適用する作業を構築した。 我々は、半パラメトリック理論を活用することにより、前者よりも理論的性質のよい \emph{Doubly Robust Counterfactual Mean Embedding} (\textsc{DR-CfME}) を提案する。 この結果から,治療効果の2倍ロバストな推定値に基づく分布効果の新しいカーネルベーステスト統計法を提案する。 本研究は, 従来の作業の直接的な改善である2つのテスト統計と, 処理アームの支持が制御アームのサブセットである場合でも適用可能な2つのテスト統計について提案する。 シミュレーションおよび実世界のデータに対する本手法の有効性を実証するとともに,非政治的評価にも応用する。

As causal inference becomes more widespread the importance of having good tools to test for causal effects increases. In this work we focus on the problem of testing for causal effects that manifest in a difference in distribution for treatment and control. We build on work applying kernel methods to causality, considering the previously introduced Counterfactual Mean Embedding framework (\textsc{CfME}). We improve on this by proposing the \emph{Doubly Robust Counterfactual Mean Embedding} (\textsc{DR-CfME}), which has better theoretical properties than its predecessor by leveraging semiparametric theory. This leads us to propose new kernel based test statistics for distributional effects which are based upon doubly robust estimators of treatment effects. We propose two test statistics, one which is a direct improvement on previous work and one which can be applied even when the support of the treatment arm is a subset of that of the control arm. We demonstrate the validity of our methods on simulated and real-world data, as well as giving an application in off-policy evaluation.
翻訳日:2022-12-12 14:26:55 公開日:2022-12-09
# ソーシャルメディア上での健康言及分類タスクに感情を組み込む

Incorporating Emotions into Health Mention Classification Task on Social Media ( http://arxiv.org/abs/2212.05039v1 )

ライセンス: Link先を確認
Olanrewaju Tahir Aduragba, Jialin Yu and Alexandra I. Cristea(参考訳) health mention classification (hmc) タスクは、テキスト中の健康関連概念の言及を識別し分類するプロセスである。 これは、ソーシャルメディア投稿を通じて病気の拡散を識別し追跡するのに有用である。 しかし、これは非自明な仕事です。 本稿では,感情情報の利用がこの課題により改善される可能性を示唆する最近の研究について述べる。 本研究は,情緒的特徴を取り入れた健康基準分類の枠組みである。 HMCのタスクに感情を組み込むための中間タスク微調整手法(シンプル)と多機能融合手法(特殊)の2つの手法を提案する。 我々は,twitterから3つ,redditから1つ,ソーシャルメディアソースから2つ,ソーシャルメディアプラットフォームから5つのhmc関連データセットについて評価した。 大規模な実験により,HMCタスクにおける統計的に有意な性能向上が得られた。 多機能融合手法を用いることで,全データセットのbertベースラインに対して,f1スコアが少なくとも3%向上した。 また、負の感情のみを考慮すると、HMCタスクのパフォーマンスに悪影響を及ぼさないことを示す。 さらに,本研究の結果から,HMCデータセットがドメイン固有の微調整に利用できない場合,感情的知識を取り入れたHMCモデルを効果的に活用できることが示唆された。 私たちのモデルのソースコードはhttps://github.com/tahirlanre/emotion_phmで無料で利用できます。

The health mention classification (HMC) task is the process of identifying and classifying mentions of health-related concepts in text. This can be useful for identifying and tracking the spread of diseases through social media posts. However, this is a non-trivial task. Here we build on recent studies suggesting that using emotional information may improve upon this task. Our study results in a framework for health mention classification that incorporates affective features. We present two methods, an intermediate task fine-tuning approach (implicit) and a multi-feature fusion approach (explicit) to incorporate emotions into our target task of HMC. We evaluated our approach on 5 HMC-related datasets from different social media platforms including three from Twitter, one from Reddit and another from a combination of social media sources. Extensive experiments demonstrate that our approach results in statistically significant performance gains on HMC tasks. By using the multi-feature fusion approach, we achieve at least a 3% improvement in F1 score over BERT baselines across all datasets. We also show that considering only negative emotions does not significantly affect performance on the HMC task. Additionally, our results indicate that HMC models infused with emotional knowledge are an effective alternative, especially when other HMC datasets are unavailable for domain-specific fine-tuning. The source code for our models is freely available at https://github.com/tahirlanre/Emotion_PHM.
翻訳日:2022-12-12 14:21:15 公開日:2022-12-09
# 大規模点雲に対する弱教師付きセマンティックセグメンテーション

Weakly Supervised Semantic Segmentation for Large-Scale Point Cloud ( http://arxiv.org/abs/2212.04744v1 )

ライセンス: Link先を確認
Yachao Zhang, Zonghao Li, Yuan Xie, Yanyun Qu, Cuihua Li, Tao Mei(参考訳) 大規模なポイントクラウドセマンティックセグメンテーションのための既存の方法は、高価な、退屈でエラーを起こしやすい手動のポイントワイドアノテーションを必要とする。 直感的には、弱教師付きトレーニングはラベリングのコストを削減する直接的な解決策である。 しかし、弱教師付き大規模クラウドセマンティックセグメンテーションでは、必然的にネットワークの非効率な学習につながるアノテーションが少ない。 上記の問題を解決するために,2つのコンポーネントを含む効果的な弱教師付き手法を提案する。 まず,学習した事前知識を大量の無ラベル点クラウドから弱い教師付きネットワークに転送するための自己教師付き学習を用いて,プリテキストタスクである \textit{i,,} 点クラウドカラー化を構築する。 これにより、異種タスクからの誘導により、弱教師付きネットワークの表現能力を向上させることができる。 また、ラベル付きデータの擬似ラベルを生成するために、ラベル付きデータの分類信頼度を測定するために、生成したクラスプロトタイプの助けを借りてスパースラベル伝搬機構を提案する。 本手法は,屋内および屋外を含む異なるシナリオの大規模ポイントクラウドデータセット上で評価する。 実験結果は、既存の弱教師付きおよび同等の結果に対して、完全に教師付きメソッドに匹敵する大きな利益を示している。

Existing methods for large-scale point cloud semantic segmentation require expensive, tedious and error-prone manual point-wise annotations. Intuitively, weakly supervised training is a direct solution to reduce the cost of labeling. However, for weakly supervised large-scale point cloud semantic segmentation, too few annotations will inevitably lead to ineffective learning of network. We propose an effective weakly supervised method containing two components to solve the above problem. Firstly, we construct a pretext task, \textit{i.e.,} point cloud colorization, with a self-supervised learning to transfer the learned prior knowledge from a large amount of unlabeled point cloud to a weakly supervised network. In this way, the representation capability of the weakly supervised network can be improved by the guidance from a heterogeneous task. Besides, to generate pseudo label for unlabeled data, a sparse label propagation mechanism is proposed with the help of generated class prototypes, which is used to measure the classification confidence of unlabeled point. Our method is evaluated on large-scale point cloud datasets with different scenarios including indoor and outdoor. The experimental results show the large gain against existing weakly supervised and comparable results to fully supervised methods\footnote{Code based on mindspore: https://github.com/dmcv-ecnu/MindSpore\_ModelZoo/tree/main/WS3\_MindSpore}.
翻訳日:2022-12-12 14:20:01 公開日:2022-12-09
# 感情・年齢・民族性に基づく音楽推薦システム

Music Recommendation System based on Emotion, Age and Ethnicity ( http://arxiv.org/abs/2212.04782v1 )

ライセンス: Link先を確認
Ramiz Mammadli, Huma Bilgin, and Ali Can Karaca(参考訳) 本研究では, FER-2013 と `Age, Gender, and Ethnicity (Face Data) CSV' のデータセットを用いて, 感情, 年齢, 民族性に基づく音楽推薦システムを開発した。 このような目的のために広く使われているCNNアーキテクチャは、モデルのトレーニングに応用されている。 プロジェクトのトレーニングエンドに適切なレイヤをいくつか追加した後、プロジェクト内のディープラーニング側で3つのモデル(感情、民族、年齢)をトレーニングします。 これらのモデルのトレーニングステップの後、Webアプリケーション側の分類器として使用される。 インターフェースを経由したユーザのスナップショットがモデルに送信され、ムード、年齢、民族的起源を予測する。 これらの分類器によれば、Spotify APIから抽出したさまざまなプレイリストがユーザに提案され、音楽選択のための機能的でユーザフレンドリな雰囲気を確立する。 その後、ユーザーは好きなプレイリストを選択し、そのリンクをフォローして聞くことができる。

A Music Recommendation System based on Emotion, Age, and Ethnicity is developed in this study, using FER-2013 and ``Age, Gender, and Ethnicity (Face Data) CSV'' datasets. The CNN architecture, which is extensively used for this kind of purpose has been applied to the training of the models. After adding several appropriate layers to the training end of the project, in total, 3 separate models are trained in the Deep Learning side of the project: Emotion, Ethnicity, and Age. After the training step of these models, they are used as classifiers on the web application side. The snapshot of the user taken through the interface is sent to the models to predict their mood, age, and ethnic origin. According to these classifiers, various kinds of playlists pulled from Spotify API are proposed to the user in order to establish a functional and user-friendly atmosphere for the music selection. Afterward, the user can choose the playlist they want and listen to it by following the given link.
翻訳日:2022-12-12 14:19:28 公開日:2022-12-09
# PIVOT: 連続学習のためのプロンプト

PIVOT: Prompting for Video Continual Learning ( http://arxiv.org/abs/2212.04842v1 )

ライセンス: Link先を確認
Andr\'es Villa, Juan Le\'on Alc\'azar, Motasem Alfarra, Kumail Alhamoud, Julio Hurtado, Fabian Caba Heilbron, Alvaro Soto, Bernard Ghanem(参考訳) 現代の機械学習パイプラインは、データ可用性、ストレージクォータ、プライバシ規制、高価なアノテーションプロセスによって制限されている。 これらの制約により、アノテーションセットの成長を訓練した大規模モデルを維持するのが困難か不可能になる。 継続的学習はこの問題に直接アプローチし、ニューラルネットワークが新しい(見当たらない)クラスの関連するパターンを効果的に学習する手法を考案するという最終的な目標を掲げている。 本稿では,ビデオデータの連続学習の問題に対処する。 PIVOTは、画像領域から事前学習されたモデルにおける広範な知識を活用し、トレーニング可能なパラメータの数と関連する忘れを減らし、新しい手法である。 従来の方法とは異なり、forsはドメイン内事前トレーニングなしに継続的学習のためのプロンプトメカニズムを効果的に利用する最初のアプローチである。 実験の結果,PIVOTは20タスクのActivityNetセットアップにおいて27%向上した。

Modern machine learning pipelines are limited due to data availability, storage quotas, privacy regulations, and expensive annotation processes. These constraints make it difficult or impossible to maintain a large-scale model trained on growing annotation sets. Continual learning directly approaches this problem, with the ultimate goal of devising methods where a neural network effectively learns relevant patterns for new (unseen) classes without significantly altering its performance on previously learned ones. In this paper, we address the problem of continual learning for video data. We introduce PIVOT, a novel method that leverages the extensive knowledge in pre-trained models from the image domain, thereby reducing the number of trainable parameters and the associated forgetting. Unlike previous methods, ours is the first approach that effectively uses prompting mechanisms for continual learning without any in-domain pre-training. Our experiments show that PIVOT improves state-of-the-art methods by a significant 27% on the 20-task ActivityNet setup.
翻訳日:2022-12-12 14:19:12 公開日:2022-12-09
# ファウショット行動認識のためのマルチモーダルプロトタイプ強化ネットワーク

Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition ( http://arxiv.org/abs/2212.04873v1 )

ライセンス: Link先を確認
Xinzhe Ni, Hao Wen, Yong Liu, Yatai Ji, Yujiu Yang(参考訳) 最小ショット動作認識の現在の手法は、主にprotonetに続くメトリック学習フレームワークに当てはまる。 しかし、彼らは代表プロトタイプの効果を無視するか、あるいはマルチモーダル情報でプロトタイプを強化するのに失敗する。 本研究では,2つのモーダルフローを含むプロトタイプを強化するために,ラベルテキストの意味情報をマルチモーダル情報として利用する新しいMORNを提案する。 CLIPビジュアルエンコーダはビジュアルフローに導入され、ビジュアルプロトタイプはテンポラルリレーショナルクロストランスフォーマー(TRX)モジュールによって計算される。 テキストフローにフリーズされたCLIPテキストエンコーダを導入し、テキスト機能を強化するためにセマンティック拡張モジュールを使用する。 膨らませた後、テキストプロトタイプを得る。 最終的なマルチモーダルプロトタイプは、マルチモーダルプロトタイプ拡張モジュールによって計算される。 さらに、プロトタイプの品質を評価するための評価指標は存在しない。 我々の知る限り、我々はまずプロトタイプ類似度差(PRIDE)と呼ばれるプロトタイプ評価指標を提案し、異なるカテゴリの識別においてプロトタイプの性能を評価するのに使用される。 4つの一般的なデータセットについて広範な実験を行う。 MORNはHMDB51, UCF101, Kinetics, SSv2で最先端の結果を得る。 MORNはPRIDEでも良好に動作し,PRIDEと精度の相関について検討する。

Current methods for few-shot action recognition mainly fall into the metric learning framework following ProtoNet. However, they either ignore the effect of representative prototypes or fail to enhance the prototypes with multimodal information adequately. In this work, we propose a novel Multimodal Prototype-Enhanced Network (MORN) to use the semantic information of label texts as multimodal information to enhance prototypes, including two modality flows. A CLIP visual encoder is introduced in the visual flow, and visual prototypes are computed by the Temporal-Relational CrossTransformer (TRX) module. A frozen CLIP text encoder is introduced in the text flow, and a semantic-enhanced module is used to enhance text features. After inflating, text prototypes are obtained. The final multimodal prototypes are then computed by a multimodal prototype-enhanced module. Besides, there exist no evaluation metrics to evaluate the quality of prototypes. To the best of our knowledge, we are the first to propose a prototype evaluation metric called Prototype Similarity Difference (PRIDE), which is used to evaluate the performance of prototypes in discriminating different categories. We conduct extensive experiments on four popular datasets. MORN achieves state-of-the-art results on HMDB51, UCF101, Kinetics and SSv2. MORN also performs well on PRIDE, and we explore the correlation between PRIDE and accuracy.
翻訳日:2022-12-12 14:18:57 公開日:2022-12-09
# ランダム勾配しきい値による突発的塩分誘導混合法

Expeditious Saliency-guided Mix-up through Random Gradient Thresholding ( http://arxiv.org/abs/2212.04875v1 )

ライセンス: Link先を確認
Minh-Long Luu and Zeyi Huang and Eric P. Xing and Yong Jae Lee and Haohan Wang(参考訳) 混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。 長年にわたり、研究コミュニティはミックスアップ手法を2つの方向に拡張し、サリエンシ誘導の手順を改善するために広範囲に努力してきたが、任意の経路に最小限の焦点をあて、ランダム化領域は未探索のままである。 本稿では,各方向の優越性に着想を得て,二つの経路の合流点に位置する新しい手法を提案する。 ランダムさとサリエンシ利用の最良の要素を組み合わせることで、我々の手法はスピード、単純さ、正確さのバランスをとる。 我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。 我々は、その一般化、弱教師付きオブジェクトの局所化、校正、敵攻撃に対する堅牢性を示す。 最後に,より優れた意思決定プロトコルが存在するかという問題に対処するため,分類器の性能に基づいて混合ポリシーを決定する強化学習エージェントを訓練し,人間設計の目的への依存を軽減し,ハイパーパラメータチューニングを行う。 さらに広範囲な実験により、エージェントは最先端のレベルで実行可能であることが示され、完全な自動混合の基礎が築かれた。 私たちのコードは[https://github.com/minhlong94/random-mixup]でリリースされる。

Mix-up training approaches have proven to be effective in improving the generalization ability of Deep Neural Networks. Over the years, the research community expands mix-up methods into two directions, with extensive efforts to improve saliency-guided procedures but minimal focus on the arbitrary path, leaving the randomization domain unexplored. In this paper, inspired by the superior qualities of each direction over one another, we introduce a novel method that lies at the junction of the two routes. By combining the best elements of randomness and saliency utilization, our method balances speed, simplicity, and accuracy. We name our method R-Mix following the concept of "Random Mix-up". We demonstrate its effectiveness in generalization, weakly supervised object localization, calibration, and robustness to adversarial attacks. Finally, in order to address the question of whether there exists a better decision protocol, we train a Reinforcement Learning agent that decides the mix-up policies based on the classifier's performance, reducing dependency on human-designed objectives and hyperparameter tuning. Extensive experiments further show that the agent is capable of performing at the cutting-edge level, laying the foundation for a fully automatic mix-up. Our code is released at [https://github.com/minhlong94/Random-Mixup].
翻訳日:2022-12-12 14:18:37 公開日:2022-12-09
# 選択的アムネシア:トロイの木馬機械学習モデルにおけるバックドア効果の効率的・高忠実・ブラインド抑制について

Selective Amnesia: On Efficient, High-Fidelity and Blind Suppression of Backdoor Effects in Trojaned Machine Learning Models ( http://arxiv.org/abs/2212.04687v1 )

ライセンス: Link先を確認
Rui Zhu, Di Tang, Siyuan Tang, XiaoFeng Wang, Haixu Tang(参考訳) 本稿では,バックドアモデルにおいて「選択的健忘」を誘発する単純かつ驚くほど効果的な手法を提案する。 SEAMと呼ばれる我々のアプローチは、連続学習における長年の課題である破滅的忘れ(CF)の問題にインスパイアされている。 我々の考えは、ランダムにラベル付けされたクリーンデータ上で与えられたDNNモデルをトレーニングし、モデル上でCFを誘導し、プライマリタスクとバックドアタスクの両方を突然忘れ、ランダム化されたモデルを正しくラベル付けされたクリーンデータ上で再トレーニングすることで、プライマリタスクを回復することである。 本研究では,非学習過程を連続学習としてモデル化してSEAMを解析し,さらにCFの測定にNeural Tangent Kernelを用いてDNNを近似した。 提案手法は, 入出力がない場合, 未知のバックドア上のCFを最大化し, ネットワーク内の特徴抽出を有効にすることで, 初期タスクの迅速な復元を可能にする。 さらに,SEAMを画像処理と自然言語処理の両方のタスクで評価し,データ汚染とトレーニング操作攻撃の両方において,一般的な画像データセットでトレーニングされた何千ものモデル,あるいはTrojAIコンペティションによって提供されたモデルについて検討した。 実験の結果、SEAMは最先端の未学習技術よりも優れており、数分間(MNISTデータセットを用いてスクラッチからモデルをトレーニングするより約30倍速い)で高い忠実性(プライマリタスクの精度とバックドアの精度のギャップを計測する)を達成でき、少量のクリーンデータ(TrojAIモデルのトレーニングデータの0.1%)しかありません。

In this paper, we present a simple yet surprisingly effective technique to induce "selective amnesia" on a backdoored model. Our approach, called SEAM, has been inspired by the problem of catastrophic forgetting (CF), a long standing issue in continual learning. Our idea is to retrain a given DNN model on randomly labeled clean data, to induce a CF on the model, leading to a sudden forget on both primary and backdoor tasks; then we recover the primary task by retraining the randomized model on correctly labeled clean data. We analyzed SEAM by modeling the unlearning process as continual learning and further approximating a DNN using Neural Tangent Kernel for measuring CF. Our analysis shows that our random-labeling approach actually maximizes the CF on an unknown backdoor in the absence of triggered inputs, and also preserves some feature extraction in the network to enable a fast revival of the primary task. We further evaluated SEAM on both image processing and Natural Language Processing tasks, under both data contamination and training manipulation attacks, over thousands of models either trained on popular image datasets or provided by the TrojAI competition. Our experiments show that SEAM vastly outperforms the state-of-the-art unlearning techniques, achieving a high Fidelity (measuring the gap between the accuracy of the primary task and that of the backdoor) within a few minutes (about 30 times faster than training a model from scratch using the MNIST dataset), with only a small amount of clean data (0.1% of training data for TrojAI models).
翻訳日:2022-12-12 14:11:58 公開日:2022-12-09
# Generative Adversarial Networks を用いたアルバムカバーアート画像生成

Album cover art image generation with Generative Adversarial Networks ( http://arxiv.org/abs/2212.04844v1 )

ライセンス: Link先を確認
Felipe Perez Stoppa, Ester Vida\~na-Vila, Joan Navarro(参考訳) GAN(Generative Adversarial Networks)は2014年にGoodfellowによって導入され、それ以来、生成人工知能モデルの構築に人気がある。 しかし、そのようなネットワークの欠点は、長いトレーニング時間、ハイパーパラメータチューニングに対する感度、いくつかのタイプの損失と最適化機能、モード崩壊などの困難さなど、多岐にわたる。 GANの現在の用途には、フォトリアリスティックな人間の顔、動物、オブジェクトの生成が含まれる。 しかし,既存のモデルを用いて学習することで,GANの芸術的能力をより詳しく探求したかった。 この論文は、ニューラルネットワークの基本をカバーし、GANの特定の側面まで、最小限の複雑さから最も多くまで、既存のモデルの実験と修正と共に機能する。 この目的は、GAN(特にStyleGAN2)がアルバムアートカバーを作成できるかどうか、ジャンル別に調整できるかどうかを確認することである。 これは、アートであるStyleGAN2の状況を含む3つの既存のGANアーキテクチャに初めて慣れることによって試みられた。 StyleGAN2コードは、80Kアルバムのカバーイメージを含むデータセットでモデルをトレーニングするために使用され、その後、キュレートされたイメージを選択してスタイルを混ぜることで、イメージをスタイル化するために使用された。

Generative Adversarial Networks (GANs) were introduced by Goodfellow in 2014, and since then have become popular for constructing generative artificial intelligence models. However, the drawbacks of such networks are numerous, like their longer training times, their sensitivity to hyperparameter tuning, several types of loss and optimization functions and other difficulties like mode collapse. Current applications of GANs include generating photo-realistic human faces, animals and objects. However, I wanted to explore the artistic ability of GANs in more detail, by using existing models and learning from them. This dissertation covers the basics of neural networks and works its way up to the particular aspects of GANs, together with experimentation and modification of existing available models, from least complex to most. The intention is to see if state of the art GANs (specifically StyleGAN2) can generate album art covers and if it is possible to tailor them by genre. This was attempted by first familiarizing myself with 3 existing GANs architectures, including the state of the art StyleGAN2. The StyleGAN2 code was used to train a model with a dataset containing 80K album cover images, then used to style images by picking curated images and mixing their styles.
翻訳日:2022-12-12 14:11:22 公開日:2022-12-09
# OmniHorizon:合成全方位データを用いた室内深度と正規推定

OmniHorizon: In-the-Wild Outdoors Depth and Normal Estimation from Synthetic Omnidirectional Dataset ( http://arxiv.org/abs/2212.05040v1 )

ライセンス: Link先を確認
Jay Bhanushali, Praneeth Chakravarthula, Manivannan Muniyandi(参考訳) 周囲のシーンを理解することは、自律運転やナビゲーションなど、いくつかのアプリケーションにとって不可欠である。 実世界の画像データをピクセルごとのラベルで取得することは難しいが、既存の正確な合成画像データセットは主に照明とシーンの参加者を固定した屋内空間に焦点を当てている。 本研究では, 建物, 街路, 多様な植生からなる広い屋内および屋外空間からなる24,335個の全方位ビューを有する総合データセットであるomnihorizonを紹介する。 当社のデータセットには、照明、一日の設定の異なる時間、歩行者、車など、動的シーンコンポーネントも含まれています。 さらに,本データセットを用いた3次元シーン深度と正規推定のための,学習した合成ドメイン間クロスドメイン推論手法を実証した。 そこで本研究では,UNetとBottleneck TransformerをベースとしたアーキテクチャであるUBotNetを提案する。 UBotNetは,スキップ接続によるU-Netなどの既存ネットワークと比較して,奥行き精度(4.6%)と正常推定(5.75%)を大幅に向上することを示す。 最後に,実世界画像の奥行きと正規推定を実世界データセットに純粋にトレーニングしたubotnetを用いて実証し,提案するデータセットとシーン理解のためのネットワークの期待を示す。

Understanding the ambient scene is imperative for several applications such as autonomous driving and navigation. While obtaining real-world image data with per-pixel labels is challenging, existing accurate synthetic image datasets primarily focus on indoor spaces with fixed lighting and scene participants, thereby severely limiting their application to outdoor scenarios. In this work we introduce OmniHorizon, a synthetic dataset with 24,335 omnidirectional views comprising of a broad range of indoor and outdoor spaces consisting of buildings, streets, and diverse vegetation. Our dataset also accounts for dynamic scene components including lighting, different times of a day settings, pedestrians, and vehicles. Furthermore, we also demonstrate a learned synthetic-to-real cross-domain inference method for in-the-wild 3D scene depth and normal estimation method using our dataset. To this end, we propose UBotNet, an architecture based on a UNet and a Bottleneck Transformer, to estimate scene-consistent normals. We show that UBotNet achieves significantly improved depth accuracy (4.6%) and normal estimation (5.75%) compared to several existing networks such as U-Net with skip-connections. Finally, we demonstrate in-the-wild depth and normal estimation on real-world images with UBotNet trained purely on our OmniHorizon dataset, showing the promise of proposed dataset and network for scene understanding.
翻訳日:2022-12-12 14:10:59 公開日:2022-12-09
# トレーニングニューラルネットワークと実脳における創発的計算

Emergent Computations in Trained Artificial Neural Networks and Real Brains ( http://arxiv.org/abs/2212.04938v1 )

ライセンス: Link先を確認
Nestor Parga, Luis Serrano-Fernandez, Joan Falco-Roget(参考訳) シナプス可塑性により、皮質回路は新しいタスクを学習し、変化する環境に適応することができる。 皮質回路はどのように可塑性を用いて意思決定や作業記憶などの機能を取得するのか? ニューロンは複雑な方法で接続され、リカレントニューラルネットワークを形成し、学習は接続の強度を変化させる。 さらに、ニューロンは短い離散電気信号を発する。 ここでは、神経科学研究所で動物を訓練するために使われたタスクや、トレーニングされたネットワークにどのように計算が現れるかについて説明する。 驚くべきことに、人工ネットワークと実際の脳は、同様の計算戦略を利用することができる。

Synaptic plasticity allows cortical circuits to learn new tasks and to adapt to changing environments. How do cortical circuits use plasticity to acquire functions such as decision-making or working memory? Neurons are connected in complex ways, forming recurrent neural networks, and learning modifies the strength of their connections. Moreover, neurons communicate emitting brief discrete electric signals. Here we describe how to train recurrent neural networks in tasks like those used to train animals in neuroscience laboratories, and how computations emerge in the trained networks. Surprisingly, artificial networks and real brains can use similar computational strategies.
翻訳日:2022-12-12 14:10:30 公開日:2022-12-09
# 構造化知識強化によるオープンワールドストーリー生成:包括的調査

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey ( http://arxiv.org/abs/2212.04634v1 )

ライセンス: Link先を確認
Yuxin Wang, Jieru Lin, Zhiwei Yu, Wei Hu, B\"orje F. Karlsson(参考訳) ストーリーテリングと物語は人間体験の基本であり、社会と文化の関わりに絡み合っている。 そのため、研究者は長い間、物語を自動生成できるシステムを作ろうとしてきた。 近年,ディープラーニングと大量のデータリソースを活用して,自動ストーリ生成が大きな進歩を見せている。 しかし、生成したストーリーのグローバルコヒーレンスの必要性など、かなりの課題は、生成モデルが人間のナレーターと同じストーリーテリング能力に達することを妨げている。 これらの課題に対処するために、構造的知識を生成プロセスに注入しようとする研究は、構造的知識強化ストーリージェネレーションと呼ばれる。 外部知識の導入は、ストーリーイベント間の論理的一貫性を高め、より良い知識基盤化を達成し、ストーリーにおける過剰な一般化と反復問題を緩和することができる。 この調査は、この研究分野の最新かつ包括的なレビューを提供する。 (i)既存の手法がいかに構造化された知識をストーリー生成に組み込むかに関する体系的分類法を提示する。 (二)ストーリーコーパス、構造化知識データセット、評価指標をまとめる。 (3)知識強化ストーリー生成の課題を多次元的に把握し,将来的な研究の方向性に光を当てる。

Storytelling and narrative are fundamental to human experience, intertwined with our social and cultural engagement. As such, researchers have long attempted to create systems that can generate stories automatically. In recent years, powered by deep learning and massive data resources, automatic story generation has shown significant advances. However, considerable challenges, like the need for global coherence in generated stories, still hamper generative models from reaching the same storytelling ability as human narrators. To tackle these challenges, many studies seek to inject structured knowledge into the generation process, which is referred to as structure knowledge-enhanced story generation. Incorporating external knowledge can enhance the logical coherence among story events, achieve better knowledge grounding, and alleviate over-generalization and repetition problems in stories. This survey provides the latest and comprehensive review of this research field: (i) we present a systematical taxonomy regarding how existing methods integrate structured knowledge into story generation; (ii) we summarize involved story corpora, structured knowledge datasets, and evaluation metrics; (iii) we give multidimensional insights into the challenges of knowledge-enhanced story generation and cast light on promising directions for future study.
翻訳日:2022-12-12 14:10:20 公開日:2022-12-09
# マルチソースソーシャルメディアプラットフォームにおける感性分析の比較検討

Comparative Study of Sentiment Analysis for Multi-Sourced Social Media Platforms ( http://arxiv.org/abs/2212.04688v1 )

ライセンス: Link先を確認
Keshav Kapur, Rajitha Harikrishnan(参考訳) 現在の世界で急速に成長している技術のおかげで、毎秒に大量のデータが生成される。 この研究領域は、ソーシャルメディア投稿の人々の感情や意見を判断しようとするものである。 私たちが使用したデータセットは、twitterやredditなど、さまざまなソーシャルネットワークサイトのコメントセクションのマルチソースデータセットでした。 自然言語処理技術を用いて得られたデータセットの感情分析を行った。 本稿では,レキシコンベース,機械学習,ディープラーニングの手法を用いた比較分析を行う。 この研究で使用される機械学習アルゴリズムは、Naive Bayes、この研究で使用されるLexiconベースのアプローチはTextBlob、この研究で使用されるディープラーニングアルゴリズムはLSTMである。

There is a vast amount of data generated every second due to the rapidly growing technology in the current world. This area of research attempts to determine the feelings or opinions of people on social media posts. The dataset we used was a multi-source dataset from the comment section of various social networking sites like Twitter, Reddit, etc. Natural Language Processing Techniques were employed to perform sentiment analysis on the obtained dataset. In this paper, we provide a comparative analysis using techniques of lexicon-based, machine learning and deep learning approaches. The Machine Learning algorithm used in this work is Naive Bayes, the Lexicon-based approach used in this work is TextBlob, and the deep-learning algorithm used in this work is LSTM.
翻訳日:2022-12-12 14:10:02 公開日:2022-12-09
# TRBLLmaker -- Lyrics Linesメーカー間のトランスフォーマー読み取り

TRBLLmaker -- Transformer Reads Between Lyrics Lines maker ( http://arxiv.org/abs/2212.04917v1 )

ライセンス: Link先を確認
Mor Ventura and Michael Toker(参考訳) 私たちにとっても、歌の意味を理解することは困難です。 このプロジェクトの一環として,歌の意味を生み出す過程について検討する。 テキストからテキストへのモデルが広く使われているにもかかわらず、同様の目的を達成する試みはほとんど行われていない。 歌は主に感情分析の文脈で研究されている。 これはテキスト中の意見や感情を識別し、肯定的あるいは否定的評価を行い、これらの評価を利用して音楽レコメンデーションを行う。 本稿では,歌の複数の行に対して暗黙的な意味を与える生成モデルを提案する。 我々のモデルはデコーダトランスフォーマーアーキテクチャ GPT-2 を用いており、入力は歌の歌詞である。 さらに,このアーキテクチャの性能を,T5モデルのエンコーダ・デコーダ・トランスフォーマーアーキテクチャと比較した。 また,アーティスト名や曲名などの追加情報を付加するオプションとして,さまざまなプロンプトタイプの効果についても検討した。 さらに,トレーニングパラメータの異なる異なる復号法をテストし,ルージュを用いて評価した。 データセットを構築するために、私たちは'genious' apiを使って、曲の歌詞とその説明、および豊富なメタデータを取得することができました。

Even for us, it can be challenging to comprehend the meaning of songs. As part of this project, we explore the process of generating the meaning of songs. Despite the widespread use of text-to-text models, few attempts have been made to achieve a similar objective. Songs are primarily studied in the context of sentiment analysis. This involves identifying opinions and emotions in texts, evaluating them as positive or negative, and utilizing these evaluations to make music recommendations. In this paper, we present a generative model that offers implicit meanings for several lines of a song. Our model uses a decoder Transformer architecture GPT-2, where the input is the lyrics of a song. Furthermore, we compared the performance of this architecture with that of the encoder-decoder Transformer architecture of the T5 model. We also examined the effect of different prompt types with the option of appending additional information, such as the name of the artist and the title of the song. Moreover, we tested different decoding methods with different training parameters and evaluated our results using ROUGE. In order to build our dataset, we utilized the 'Genious' API, which allowed us to acquire the lyrics of songs and their explanations, as well as their rich metadata.
翻訳日:2022-12-12 14:09:52 公開日:2022-12-09
# LADIS:3次元形状編集のための言語歪み

LADIS: Language Disentanglement for 3D Shape Editing ( http://arxiv.org/abs/2212.05011v1 )

ライセンス: Link先を確認
Ian Huang, Panos Achlioptas, Tianyi Zhang, Sergey Tulyakov, Minhyuk Sung, Leonidas Guibas(参考訳) 自然言語相互作用は、3d形状設計の民主化に有望な方向である。 しかし,既存のテキスト駆動型3次元形状編集手法では,非結合で局所的な3次元形状の編集が困難である。 我々は,3次元幾何学における基底言語における不連続な潜在表現を学習することでこの問題に対処した。 そこで本研究では,新しいネットワークアーキテクチャ,乱れ損失,新しい編集手順を含む補完的ツールセットを提案する。 さらに,編集の局所性を測定するために,パートワイズ編集精度と呼ばれる新しい指標を定義した。 本手法は,既存のSOTA手法を編集局所性で20%,言語基準精度で最大6.6%向上することを示した。 我々の研究は、言語表現を単に切り離すことで、下流の3D形状の編集が、たとえモデルが明示的な部分ベースの監督を与えられていなくても、より局所的なものになることを示唆している。

Natural language interaction is a promising direction for democratizing 3D shape design. However, existing methods for text-driven 3D shape editing face challenges in producing decoupled, local edits to 3D shapes. We address this problem by learning disentangled latent representations that ground language in 3D geometry. To this end, we propose a complementary tool set including a novel network architecture, a disentanglement loss, and a new editing procedure. Additionally, to measure edit locality, we define a new metric that we call part-wise edit precision. We show that our method outperforms existing SOTA methods by 20% in terms of edit locality, and up to 6.6% in terms of language reference resolution accuracy. Our work suggests that by solely disentangling language representations, downstream 3D shape editing can become more local to relevant parts, even if the model was never given explicit part-based supervision.
翻訳日:2022-12-12 14:09:34 公開日:2022-12-09
# 合成テキスト・画像合成のための自由構造拡散誘導

Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis ( http://arxiv.org/abs/2212.05032v1 )

ライセンス: Link先を確認
Weixi Feng, Xuehai He, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, Xin Eric Wang, William Yang Wang(参考訳) 大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。 高品質で創造的な画像を生成する能力があるにもかかわらず、属性結合と合成能力は依然として大きな問題であり、特に複数のオブジェクトを巻き込む場合である。 本稿では,t2iモデルの合成スキル,特に属性バインディングの精度向上と画像合成の改善について述べる。 これを実現するために,拡散型T2Iモデルにおいて,言語構造と拡散誘導処理を相互注意層を操作可能な特性に基づいて組み込む。 我々は、クロスアテンション層におけるキーと値が、オブジェクトのレイアウトやコンテンツに関連する強力な意味を持っていることを観察する。 したがって、言語的洞察に基づいてクロス・アテンション表現を操作することにより、生成画像の合成意味論を良好に保存することができる。 sota t2iモデルであるstable diffusionをベースに構築されており、構造化クロスアテンション設計は効率的であり、追加のトレーニングサンプルを必要としない。 質的,定量的な結果において,より優れた構成スキルを達成し,ユーザ比較研究において5~8%の優位性をもたらす。 最後に,不正確な画像合成の潜在的な原因を明らかにするために詳細な解析を行い,生成過程における相互注意層の特性を正当化する。

Large-scale diffusion models have achieved state-of-the-art results on text-to-image synthesis (T2I) tasks. Despite their ability to generate high-quality yet creative images, we observe that attribution-binding and compositional capabilities are still considered major challenging issues, especially when involving multiple objects. In this work, we improve the compositional skills of T2I models, specifically more accurate attribute binding and better image compositions. To do this, we incorporate linguistic structures with the diffusion guidance process based on the controllable properties of manipulating cross-attention layers in diffusion-based T2I models. We observe that keys and values in cross-attention layers have strong semantic meanings associated with object layouts and content. Therefore, we can better preserve the compositional semantics in the generated image by manipulating the cross-attention representations based on linguistic insights. Built upon Stable Diffusion, a SOTA T2I model, our structured cross-attention design is efficient that requires no additional training samples. We achieve better compositional skills in qualitative and quantitative results, leading to a 5-8% advantage in head-to-head user comparison studies. Lastly, we conduct an in-depth analysis to reveal potential causes of incorrect image compositions and justify the properties of cross-attention layers in the generation process.
翻訳日:2022-12-12 14:09:18 公開日:2022-12-09
# 低リソースエンティティ認識のためのauc最大化

AUC Maximization for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2212.04800v1 )

ライセンス: Link先を確認
Ngoc Dang Nguyen, Wei Tan, Wray Buntine, Richard Beare, Changyou Chen and Lan Du(参考訳) 名前付きエンティティ認識 (NER) における現在の研究は、クロスエントロピー (CE) または条件付きランダムフィールド (CRF) を、基礎となるNERモデルの最適化に用いている。 NER問題に対するこれらの伝統的な目的関数は、データ分散のバランスが取れ、十分なアノテートトレーニング例が存在する場合、一般的に適切なパフォーマンスをもたらす。 しかし、NERは本質的に不均衡なタグ付け問題であるため、低リソース設定下でのモデル性能は、これらの標準目的関数を使用すると損なわれる可能性がある。 ROC曲線(AUC)の最大化による領域の最近の進歩に基づき,AUCスコアの最大化によるNERモデルの最適化を提案する。 AUCスコアを最大化する2つのバイナリ分類器を組み合わせることで、低リソースNER設定下で従来の損失関数に対する大幅な性能向上が達成されることを示す。 また,低リソースかつ高不均衡なデータ分散設定下で,本手法の利点を実証するための広範な実験を行った。 私たちの知る限りでは、これがNER設定にAUCの最大化をもたらす最初の仕事です。 さらに,本手法は異なる種類のNER埋め込み,モデル,ドメインに依存しないことを示す。 この作業を複製するコードは、リクエストに応じて提供される。

Current work in named entity recognition (NER) uses either cross entropy (CE) or conditional random fields (CRF) as the objective/loss functions to optimize the underlying NER model. Both of these traditional objective functions for the NER problem generally produce adequate performance when the data distribution is balanced and there are sufficient annotated training examples. But since NER is inherently an imbalanced tagging problem, the model performance under the low-resource settings could suffer using these standard objective functions. Based on recent advances in area under the ROC curve (AUC) maximization, we propose to optimize the NER model by maximizing the AUC score. We give evidence that by simply combining two binary-classifiers that maximize the AUC score, significant performance improvement over traditional loss functions is achieved under low-resource NER settings. We also conduct extensive experiments to demonstrate the advantages of our method under the low-resource and highly-imbalanced data distribution settings. To the best of our knowledge, this is the first work that brings AUC maximization to the NER setting. Furthermore, we show that our method is agnostic to different types of NER embeddings, models and domains. The code to replicate this work will be provided upon request.
翻訳日:2022-12-12 14:08:58 公開日:2022-12-09
# byol/simsiamにおける予測ネットワークとストップグレードによる暗黙的分散正規化

Predictor networks and stop-grads provide implicit variance regularization in BYOL/SimSiam ( http://arxiv.org/abs/2212.04858v1 )

ライセンス: Link先を確認
Manu Srinath Halvagal, Axel Laborieux, Friedemann Zenke(参考訳) 自己教師付き学習(ssl)は、同じ入力の拡張バージョンに不変なネットワークをトレーニングすることで、ラベルのないデータから有用な表現を学習する。 非競合的手法は、ネットワーク出力の共分散行列を直接正規化するか、あるいは非対称な損失アーキテクチャによって崩壊を避ける。 ここでは、DirectPred上に構築することで、これらの2つの見解を和解する理論的な枠組みを構築します。 線形ネットワークにおける表現学習ダイナミクスの解析式を導出する。 解が分離する埋め込み共分散行列の固有空間でそれらを表現することにより、暗黙的分散正規化をもたらすメカニズムと条件を明らかにする。 これらの知見は、固有値の寄与を等しくし、学習をより堅牢にする新しい等方的損失関数を定式化することができる。 最後に,cifar-10 と stl-10 で訓練された非線形ネットワークを用いて実験を行った。

Self-supervised learning (SSL) learns useful representations from unlabelled data by training networks to be invariant to pairs of augmented versions of the same input. Non-contrastive methods avoid collapse either by directly regularizing the covariance matrix of network outputs or through asymmetric loss architectures, two seemingly unrelated approaches. Here, by building on DirectPred, we lay out a theoretical framework that reconciles these two views. We derive analytical expressions for the representational learning dynamics in linear networks. By expressing them in the eigenspace of the embedding covariance matrix, where the solutions decouple, we reveal the mechanism and conditions that provide implicit variance regularization. These insights allow us to formulate a new isotropic loss function that equalizes eigenvalue contribution and renders learning more robust. Finally, we show empirically that our findings translate to nonlinear networks trained on CIFAR-10 and STL-10.
翻訳日:2022-12-12 14:02:47 公開日:2022-12-09
# 近代ホップフィールドネットワークから出現するボルツマンマシン群における注意

Attention in a family of Boltzmann machines emerging from modern Hopfield networks ( http://arxiv.org/abs/2212.04692v1 )

ライセンス: Link先を確認
Toshihiro Ota, Ryo Karakida(参考訳) ホップフィールドネットワークとボルツマンマシン(BM)は基本的なエネルギーベースニューラルネットワークモデルである。 最近のホップフィールドネットワークの研究はエネルギー関数のクラスを広げ、アテンションモジュールを含む一般ホップフィールドネットワークの統一的な視点をもたらした。 この書簡では、関連するエネルギー関数を用いた現代のホップフィールドネットワークのbm対応を考察し、訓練可能性の観点からそれらのサルエント特性について考察する。 特に、注意モジュールに対応するエネルギー関数は、注目BM(AttnBM)と呼ばれる新しいBMを自然に導入する。 我々は,attnbmが特別な場合に対して可搬的確率関数と勾配を持ち,訓練が容易であることを検証した。 さらに,AttnBMといくつかの単一層モデル,すなわちガウス・ベルヌーリ限定BMとソフトマックスユニットによる自動エンコーダの隠蔽接続を明らかにする。 また、他のエネルギー関数によって導入されたbmsについても検討し、特に、密結合記憶モデルのエネルギー関数が指数関数系ハーモニウムに属するbmsを与えることを観察する。

Hopfield networks and Boltzmann machines (BMs) are fundamental energy-based neural network models. Recent studies on modern Hopfield networks have broaden the class of energy functions and led to a unified perspective on general Hopfield networks including an attention module. In this letter, we consider the BM counterparts of modern Hopfield networks using the associated energy functions, and study their salient properties from a trainability perspective. In particular, the energy function corresponding to the attention module naturally introduces a novel BM, which we refer to as attentional BM (AttnBM). We verify that AttnBM has a tractable likelihood function and gradient for a special case and is easy to train. Moreover, we reveal the hidden connections between AttnBM and some single-layer models, namely the Gaussian--Bernoulli restricted BM and denoising autoencoder with softmax units. We also investigate BMs introduced by other energy functions, and in particular, observe that the energy function of dense associative memory models gives BMs belonging to Exponential Family Harmoniums.
翻訳日:2022-12-12 14:02:32 公開日:2022-12-09
# MED-SE: 医療エンティティ定義に基づく文埋め込み

MED-SE: Medical Entity Definition-based Sentence Embedding ( http://arxiv.org/abs/2212.04734v1 )

ライセンス: Link先を確認
Hyeonbin Hwang, Haanju Yoo, Yera Choi(参考訳) 本稿では,医学的実体の定義を活用し,臨床用テキストのための教師なしコントラスト学習フレームワークmed-seを提案する。 そこで本研究では, 臨床意味的テキスト類似性(sts)設定における複数の文埋め込み手法の広範囲な解析を行う。 私たちが設計したエンティティ中心の環境では、MED-SEは性能が大幅に向上し、SimCSEを含む既存の教師なし手法では性能が劣化している。 本実験は, 一般ドメインと臨床ドメインの本質的な相違を解明し, 実体中心のコントラスト的アプローチが, このギャップを埋め, 臨床文章の表現性の向上につながることを示唆している。

We propose Medical Entity Definition-based Sentence Embedding (MED-SE), a novel unsupervised contrastive learning framework designed for clinical texts, which exploits the definitions of medical entities. To this end, we conduct an extensive analysis of multiple sentence embedding techniques in clinical semantic textual similarity (STS) settings. In the entity-centric setting that we have designed, MED-SE achieves significantly better performance, while the existing unsupervised methods including SimCSE show degraded performance. Our experiments elucidate the inherent discrepancies between the general- and clinical-domain texts, and suggest that entity-centric contrastive approaches may help bridge this gap and lead to a better representation of clinical sentences.
翻訳日:2022-12-12 14:01:51 公開日:2022-12-09
# MOPRD: 複数分野のオープンピアレビューデータセット

MOPRD: A multidisciplinary open peer review dataset ( http://arxiv.org/abs/2212.04972v1 )

ライセンス: Link先を確認
Jialiang Lin, Jiaxin Song, Zhangping Zhou, Yidong Chen, Xiaodong Shi(参考訳) オープン・ピア・レビューは学術出版物で増加傾向にある。 ピアレビューデータへの公開アクセスは、学術コミュニティと出版コミュニティの両方にとって有益である。 また、レビューコメント生成の研究や、学術論文の自動レビューの実現にも貢献している。 しかしながら、既存のピアレビューデータセットのほとんどは、ピアレビュープロセス全体をカバーするデータを提供していません。 これとは別に、それらのデータはコンピュータ科学の分野から収集されるため、十分に多様化していない。 現在入手可能なピアレビューデータセットの2つの欠点は、関連する研究の機会を増やすために対処する必要がある。 この問題への対応として,多分野のオープンピアレビューデータセットであるmoprdを構築した。 このデータセットは、紙のメタデータ、複数のバージョン原稿、レビューコメント、メタレビュー、著者の反論書簡、編集決定からなる。 さらに,moprdに基づくモジュール型ガイドレビューコメント生成手法も設計した。 実験の結果,自動測定と人的評価の両面から,提案手法が優れた性能を示すことがわかった。 また、メタレビュー生成、編集決定予測、著者属性生成、サイエントメトリック分析など、MOPRDの潜在的な応用についても検討する。 MOPRDは、ピアレビュー関連の研究やその他の応用におけるさらなる研究の強い支持である。

Open peer review is a growing trend in academic publications. Public access to peer review data can benefit both the academic and publishing communities. It also serves as a great support to studies on review comment generation and further to the realization of automated scholarly paper review. However, most of the existing peer review datasets do not provide data that cover the whole peer review process. Apart from this, their data are not diversified enough as they are mainly collected from the field of computer science. These two drawbacks of the currently available peer review datasets need to be addressed to unlock more opportunities for related studies. In response to this problem, we construct MOPRD, a multidisciplinary open peer review dataset. This dataset consists of paper metadata, multiple version manuscripts, review comments, meta-reviews, author's rebuttal letters, and editorial decisions. Moreover, we design a modular guided review comment generation method based on MOPRD. Experiments show that our method delivers better performance indicated by both automatic metrics and human evaluation. We also explore other potential applications of MOPRD, including meta-review generation, editorial decision prediction, author rebuttal generation, and scientometric analysis. MOPRD is a strong endorsement for further studies in peer review-related research and other applications.
翻訳日:2022-12-12 14:01:37 公開日:2022-12-09
# 準最適微分自己強化学習

Near-Optimal Differentially Private Reinforcement Learning ( http://arxiv.org/abs/2212.04680v1 )

ライセンス: Link先を確認
Dan Qiao, Yu-Xiang Wang(参考訳) パーソナライズされたヘルスケアや他の機密データを含むアプリケーションによって動機づけられ、ディファレンシャルプライバシ(dp)制約付き強化学習におけるオンライン探索を研究した。 この問題の既存の研究は、JDP(Joint differential privacy)とLDP(Local differential privacy)の下では、非回帰学習が可能であることを証明したが、最適な後悔を伴うアルゴリズムは提供しなかった。 このギャップを埋めるために、$\epsilon> s^{1.5}a^{0.5} h^2/\sqrt{t}$ の全ての選択について、非プライベート学習の情報理論下限に一致する$\sqrt{o}(\sqrt{sah^2t}+s^2ah^3/\epsilon)$ の後悔を持つ$\epsilon$-jdpアルゴリズムを設計する。 上記の例では、$s$, $a$ は状態とアクションの数を表し、$h$ は計画の地平線を表し、$t$ はステップの数を表す。 私たちの知る限りでは、これは$t\rightarrow \infty$という漸近的に \emph{privacy for free} を達成する最初のプライベートrlアルゴリズムである。 我々の技術には、ベルンシュタインタイプの探査ボーナスをプライベートにリリースすることや、訪問統計を公表する方法の改善が含まれています。 同様の手法は、LPPのケースに対してわずかに改善された後悔を意味する。

Motivated by personalized healthcare and other applications involving sensitive data, we study online exploration in reinforcement learning with differential privacy (DP) constraints. Existing work on this problem established that no-regret learning is possible under joint differential privacy (JDP) and local differential privacy (LDP) but did not provide an algorithm with optimal regret. We close this gap for the JDP case by designing an $\epsilon$-JDP algorithm with a regret of $\widetilde{O}(\sqrt{SAH^2T}+S^2AH^3/\epsilon)$ which matches the information-theoretic lower bound of non-private learning for all choices of $\epsilon> S^{1.5}A^{0.5} H^2/\sqrt{T}$. In the above, $S$, $A$ denote the number of states and actions, $H$ denotes the planning horizon, and $T$ is the number of steps. To the best of our knowledge, this is the first private RL algorithm that achieves \emph{privacy for free} asymptotically as $T\rightarrow \infty$. Our techniques -- which could be of independent interest -- include privately releasing Bernstein-type exploration bonuses and an improved method for releasing visitation statistics. The same techniques also imply a slightly improved regret bound for the LDP case.
翻訳日:2022-12-12 14:01:20 公開日:2022-12-09
# Sparse Upcycling:Dense CheckpointsからのMixture-of-Expertsのトレーニング

Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints ( http://arxiv.org/abs/2212.05055v1 )

ライセンス: Link先を確認
Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp, Carlos Riquelme Ruiz, Basil Mustafa, Joshua Ainslie, Yi Tay, Mostafa Dehghani, Neil Houlsby(参考訳) 大規模深層ニューラルネットワークのコンバージェンスへのトレーニングは、非常に高価である。 結果として、しばしば人気で密度の高いモデルのごく一部しか、異なるコンテキストやタスクで再利用されない。 モデルサイズを計算コストから切り離そうとする疎活性化モデルが、高密度モデルに代わる魅力的な選択肢になりつつある。 品質と計算コストの面では効率が良いが、スパースモデルは大規模システムではスクラッチからトレーニングするためにデータ不足であり、コストがかかる。 本研究では,密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより,サンクトレーニングコストを再利用するためのスパースアップサイクリングを提案する。 本研究は,Sparsely upcycled T5 Base, Large, and XL language model, and Vision Transformer Base, Large model が,初期密集事前学習費用の約50%しか使用せず,SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていたことを示す。 アップサイクルモデルは、初期の高密度事前学習計算予算の100%をスクラッチからトレーニングしたスパースモデルよりも優れています。

Training large, deep neural networks to convergence can be prohibitively expensive. As a result, often only a small selection of popular, dense models are reused across different contexts and tasks. Increasingly, sparsely activated models, which seek to decouple model size from computation costs, are becoming an attractive alternative to dense models. Although more efficient in terms of quality and computation cost, sparse models remain data-hungry and costly to train from scratch in the large scale regime. In this work, we propose sparse upcycling -- a simple way to reuse sunk training costs by initializing a sparsely activated Mixture-of-Experts model from a dense checkpoint. We show that sparsely upcycled T5 Base, Large, and XL language models and Vision Transformer Base and Large models, respectively, significantly outperform their dense counterparts on SuperGLUE and ImageNet, using only ~50% of the initial dense pretraining sunk cost. The upcycled models also outperform sparse models trained from scratch on 100% of the initial dense pretraining computation budget.
翻訳日:2022-12-12 14:00:54 公開日:2022-12-09
# 下流物体検出における領域シフトに対するロバスト性を高めるコントラストビュー設計手法

Contrastive View Design Strategies to Enhance Robustness to Domain Shifts in Downstream Object Detection ( http://arxiv.org/abs/2212.04613v1 )

ライセンス: Link先を確認
Kyle Buettner, Adriana Kovashka(参考訳) コントラスト学習は、オブジェクト検出のための競合事前学習方法として登場した。 この進歩にもかかわらず、ドメインシフトに直面した際、対照的に事前訓練された検出器の堅牢性について最小限の調査が行われた。 このギャップに対処するために、コントラスト学習とドメイン外オブジェクト検出の実証的研究を行い、コントラスト視点設計がロバスト性に与える影響について検討する。 特に,検出指向型プリテキストタスクインスタンスローカライゼーション(insloc)のケーススタディを行い,ルックスシフトおよびコンテキストシフトシナリオにおけるビューの強化と堅牢性向上のための戦略を提案する。 これらの戦略の中で、使用率の変更、IoU制約の追加、塩分濃度に基づくオブジェクトの事前統合など、収穫方法の変更を提案する。 また,poisson ブレンディング,テクスチャ平滑化,弾性変形などの近距離補正の追加についても検討した。 これらの戦略を抽象的、天候的、コンテキスト的な領域シフトでベンチマークし、単一のオブジェクトとマルチオブジェクトのイメージデータセットで事前トレーニングする上で、それらを組み合わせるための堅牢な方法を示します。 全体として、我々の結果と洞察は、対照的な学習における視点の選択を通じて、堅牢性を確保する方法を示している。

Contrastive learning has emerged as a competitive pretraining method for object detection. Despite this progress, there has been minimal investigation into the robustness of contrastively pretrained detectors when faced with domain shifts. To address this gap, we conduct an empirical study of contrastive learning and out-of-domain object detection, studying how contrastive view design affects robustness. In particular, we perform a case study of the detection-focused pretext task Instance Localization (InsLoc) and propose strategies to augment views and enhance robustness in appearance-shifted and context-shifted scenarios. Amongst these strategies, we propose changes to cropping such as altering the percentage used, adding IoU constraints, and integrating saliency based object priors. We also explore the addition of shortcut-reducing augmentations such as Poisson blending, texture flattening, and elastic deformation. We benchmark these strategies on abstract, weather, and context domain shifts and illustrate robust ways to combine them, in both pretraining on single-object and multi-object image datasets. Overall, our results and insights show how to ensure robustness through the choice of views in contrastive learning.
翻訳日:2022-12-12 14:00:13 公開日:2022-12-09