このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220720となっている論文です。

PDF登録状況(公開日: 20220720)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子コンピューティングのための鉄道再スケジュールの二次および高次非拘束二元最適化

Quadratic and Higher-Order Unconstrained Binary Optimization of Railway Rescheduling for Quantum Computing ( http://arxiv.org/abs/2107.03234v5 )

ライセンス: Link先を確認
Krzysztof Domino, Akash Kundu, \"Ozlem Salehi, Krzysztof Krawiec(参考訳) 鉄道交通の混乱の結果が乗客の体験や満足度に影響するため、適切なルート変更や再スケジュールが必要となる。 これらの問題は、交通特性の多くの制限からNPハードであることが知られている。 近年の量子技術の発展により、量子アニールはそのような最適化問題を解決する代替手法となっている。 量子アニールを使用するには、QUBO(四進二進最適化)やHOBO(高次二進二進最適化)で符号化し、QUBOとして再キャストする必要がある。 本稿では,鉄道交通管理における問題の再スケジュールのためのquboとhobo表現について紹介する。 この新しいアプローチは、単線線だけでなく、複線、複線、および線路とスイッチからなる駅も考慮に入れている。 我々は、列車間のヘッドウェイの最小化、駅滞在の最小化、線路の占有状況、車両の循環状況について考察する。 さらに、リルーティングを含むハイブリッド量子古典手順も提示される。 D-Wave Quantum Processing Unit と D-Wave Hybridsolvr のコンセプト実装の実証実験を行った。

As consequences of disruptions in railway traffic affect passenger experience/satisfaction, appropriate rerouting and/or rescheduling is necessary. These problems are known to be NP-hard, given the numerous restrictions of traffic nature. With the recent advances in quantum technologies, quantum annealing has become an alternative method to solve such optimization problems. To use quantum annealing, the problem needs to be encoded in QUBO (quadratic unconstrained binary optimization) or HOBO (higher-order binary optimization) formulation that can be recast as a QUBO. This paper introduces QUBO and HOBO representations for rescheduling problems of railway traffic management; the latter is a new approach up to our knowledge. This new approach takes into account not only the single-track lines but also the double- and multi-track lines, as well as stations composed of tracks and switches. We consider the conditions of minimal headway between trains, minimal stay on stations, track occupation, and rolling stock circulation. Furthermore, a hybrid quantum-classical procedure is presented that includes rerouting. We demonstrate the proof of concept implementation on the D-Wave Quantum Processing Unit and D-Wave hybrid solver.
翻訳日:2023-03-23 04:24:52 公開日:2022-07-20
# スピン軌道結合超低温フェルミオンにおけるQi-Wu-Zhangモデルの実現

Realization of Qi-Wu-Zhang model in spin-orbit-coupled ultracold fermions ( http://arxiv.org/abs/2109.08885v2 )

ライセンス: Link先を確認
Ming-Cheng Liang, Yu-Dong Wei, Long Zhang, Xu-Jie Wang, Han Zhang, Wen-Wei Wang, Wei Qi, Xiong-Jun Liu, Xibo Zhang(参考訳) 2次元スピン軌道(SO)結合を持つ超低温フェルミオンにおける量子異常ホール位相のQi-Wu-Zhangモデルを実験的に実現した。 バンド反転面と呼ばれる準モーメント部分空間上での共振スピンフリップを最小限の加熱で行うポンププローブクエンチ測定の新しいプロトコルを開発した。 このプロトコルでは、フェルミオン系における最初のディラック型2次元SOカップリングを実証し、2光子の変形に伴うバンド反転面の変化を観察し、非自明なバンドトポロジーを検出する。 非自明なバンドトポロジーは、ゆっくりと原子を光学ラマン格子に積み込み、スピンテクスチャを測定することでも観察される。 以上の結果から,SO結合型超低温フェルミオンとの相関効果を含む新しいトポロジカル物理を研究するためのプラットフォームとして,最小のSO結合型量子異常ホールモデルの実現の確証が得られた。

Based on the optical Raman lattice technique, we experimentally realize the Qi-Wu-Zhang model for quantum anomalous Hall phase in ultracold fermions with two-dimensional (2D) spin-orbit (SO) coupling. We develop a novel protocol of pump-probe quench measurement to probe, with minimal heating, the resonant spin flipping on particular quasi-momentum subspace called band-inversion surfaces. With this protocol we demonstrate the first Dirac-type 2D SO coupling in a fermionic system, and detect non-trivial band topology by observing the change of band-inversion surfaces as the two-photon detuning varies. The non-trivial band topology is also observed by slowly loading the atoms into optical Raman lattices and measuring the spin textures. Our results show solid evidence for the realization of the minimal SO-coupled quantum anomalous Hall model, which can provide a feasible platform to investigate novel topological physics including the correlation effects with SO-coupled ultracold fermions.
翻訳日:2023-03-14 09:12:42 公開日:2022-07-20
# 反転あるいは回転対称性下における変換対称性のないリーブ・シュルツ・マティス定理の幾何学的アプローチ

Geometric approach to Lieb-Schultz-Mattis theorem without translation symmetry under inversion or rotation symmetry ( http://arxiv.org/abs/2110.08819v2 )

ライセンス: Link先を確認
Yuan Yao and Akira Furusaki(参考訳) 離散スピン回転対称性と格子反転あるいは回転対称性を持つ量子多体系に対する幾何学的=リーブ=シュルツ=マティスの定理を提案する。 $(d-1)$-次元平面上の対称性ツイストの下では、任意の$d$次元逆対称スピン系は、逆対称点に半整数スピンを持つとき、二重退化スペクトルを持つ。 また、回転中心に射影表現を持つ任意の回転対称一般化スピンモデルが対称性ツイストの下で同様の縮退性を持つことを示す。 これらの退化は、「積状態と滑らかに連結された一意な対称なガッピング基底状態」が、格子変換対称性が課されることなく一般化された反転・回転リーブ・シュルツ・マティス定理(英語版)によって、元の不動系では禁止されていることを暗示している。 翻訳を伴うリーブ=シュルツ=マティスの伝統的な定理も提案された枠組みに適合する。

We propose a geometric {approach to Lieb-Schultz-Mattis theorem for} quantum many-body systems with discrete spin-rotation symmetries and lattice inversion or rotation symmetry, but without translation symmetry assumed. Under symmetry-twisting on a $(d-1)$-dimensional plane, we find that any $d$-dimensional inversion-symmetric spin system possesses a doubly degenerate spectrum when it hosts a half-integer spin at the inversion-symmetric point. We also show that any rotation-symmetric generalized spin model with a projective representation at the rotation center has a similar degeneracy under symmetry-twisting. We argue that these degeneracies imply that {a unique symmetric gapped ground state that is smoothly connected to product states} is forbidden in the original untwisted systems -- generalized inversional/rotational Lieb-Schultz-Mattis theorems without lattice translation symmetry imposed. The traditional Lieb-Schultz-Mattis theorems with translations also fit in the proposed framework.
翻訳日:2023-03-11 06:14:25 公開日:2022-07-20
# twitter big data as a resource for exoskeleton research: 約14万ツイートと100の研究質問からなる大規模データセット

Twitter Big Data as a Resource for Exoskeleton Research: A Large-Scale Dataset of about 140,000 Tweets and 100 Research Questions ( http://arxiv.org/abs/2111.04476v4 )

ライセンス: Link先を確認
Nirmalya Thakur(参考訳) エクソスケルトン技術は、様々な応用と、生活支援、軍事、医療、消防、産業4.0における多様なユースケースにより、近年急速に進歩している。 エクソスケルトン市場は今後2年以内に現在の価値の何倍も上昇すると予想されている。 したがって、外骨格に関する会話のビッグデータが利用可能な外骨格に対して、ユーザの関心、見解、意見、視点、態度、受け入れ、フィードバック、エンゲージメント、購買行動、満足度といった度合いと傾向を研究することが重要である。 今日の生活におけるインターネット・オブ・オールズ(Internet of Everything)のスタイルは、ソーシャルメディアプラットフォームに特化して、これまで以上に多くの時間をインターネットで過ごしたことが特徴であり、関連するソーシャルメディアの会話をマイニングすることで、そのようなデータセットの開発の可能性を持っている。 このようなソーシャルメディアプラットフォームであるTwitterは、あらゆる年齢層で人気があり、会話パラダイムに見られるトピックには、エキソスケトンのような新興技術が含まれている。 この研究課題に対処するため、この研究はこの分野に2つの科学的貢献をもたらしている。 まず、2017年5月21日から2022年5月21日までの5年間に投稿された、Exoskeletonsに関する約14万のツイートのオープンアクセスデータセットを示す。 次に, ビッグデータ, 自然言語処理, 情報検索, データマイニング, パターン認識, 人工知能の分野における最近の研究成果を総合的に概観し, 研究, 革新, 発見の促進のために, 研究者に対して, このデータセットに基づいて研究, 分析, 評価, アイデア化, 調査を行うための総計100の研究課題を提示する。

The exoskeleton technology has been rapidly advancing in the recent past due to its multitude of applications and diverse use-cases in assisted living, military, healthcare, firefighting, and industry 4.0. The exoskeleton market is projected to increase by multiple times of its current value within the next two years. Therefore, it is crucial to study the degree and trends of user interest, views, opinions, perspectives, attitudes, acceptance, feedback, engagement, buying behavior, and satisfaction, towards exoskeletons, for which the availability of Big Data of conversations about exoskeletons is necessary. The Internet of Everything style of today's living, characterized by people spending more time on the internet than ever before, with a specific focus on social media platforms, holds the potential for the development of such a dataset by the mining of relevant social media conversations. Twitter, one such social media platform, is highly popular amongst all age groups, where the topics found in the conversation paradigms include emerging technologies such as exoskeletons. To address this research challenge, this work makes two scientific contributions to this field. First, it presents an open-access dataset of about 140,000 tweets about exoskeletons that were posted in a 5-year period from May 21, 2017, to May 21, 2022. Second, based on a comprehensive review of the recent works in the fields of Big Data, Natural Language Processing, Information Retrieval, Data Mining, Pattern Recognition, and Artificial Intelligence that may be applied to relevant Twitter data for advancing research, innovation, and discovery in the field of exoskeleton research, a total of 100 Research Questions are presented for researchers to study, analyze, evaluate, ideate, and investigate based on this dataset.
翻訳日:2023-03-09 04:15:22 公開日:2022-07-20
# 光の量子状態を用いて網膜ネットワークを探査する

Using quantum states of light to probe the retinal network ( http://arxiv.org/abs/2111.03285v5 )

ライセンス: Link先を確認
Ali Pedram, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu, Iannis K. Kominis(参考訳) 視覚感覚の活性化に必要な光子の最小数は1世紀以上にわたって研究の対象となっている。 棒細胞が数個の光子を感知する能力は、人間の視覚と神経系の基本的な能力を理解し、フォトニクスに基づく新しい視覚技術を作り出すことにつながる。 我々は、単純なニューラルネットワークを用いてモデル化された網膜を調べるために、異なる光の量子状態の基本的な計測能力を調べる。 光のフォック、コヒーレント、熱状態によるロッドセルの刺激と、ガングリオン細胞によって生成される信号のクラー・ラオ下界(crlb)およびフィッシャー情報行列の算出を様々な条件で行い、最小誤差楕円体量を決定する。 得られた楕円体体積を比較して、網膜ネットワークを探索するための異なる光状態のメトロジー性能を判定する。 その結果, 熱状態は最大の誤差楕円体積を発生し, したがって最悪の気象特性を示し, フォック状態は全てのパラメータに対して最高の性能を示すことがわかった。 この利点は、他の層がネットワークに追加されたり、光学損失が計算で考慮されたとしても持続する。

The minimum number of photons necessary for activating the sense of vision has been a topic of research for over a century. The ability of rod cells to sense a few photons has implications for understanding the fundamental capabilities of the human visual and nervous system and creating new vision technologies based on photonics. We investigate the fundamental metrological capabilities of different quantum states of light to probe the retina, which is modeled using a simple neural network. Stimulating the rod cells by Fock, coherent and thermal states of light, and calculating the Cramer-Rao lower bound (CRLB) and Fisher information matrix for the signal produced by the ganglion cells in various conditions, we determine the volume of minimum error ellipsoid. Comparing the resulting ellipsoid volumes, we determine the metrological performance of different states of light for probing the retinal network. The results indicate that the thermal state yields the largest error ellipsoid volume and hence the worst metrological performance, and the Fock state yields the best performance for all parameters. This advantage persists even if another layer is added to the network or optical losses are considered in the calculations.
翻訳日:2023-03-09 02:27:08 公開日:2022-07-20
# Rydberg原子配列を用いた量子貯水池計算

Quantum reservoir computing using arrays of Rydberg atoms ( http://arxiv.org/abs/2111.10956v4 )

ライセンス: Link先を確認
Rodrigo Araiza Bravo, Khadijeh Najafi, Xun Gao, and Susanne F. Yelin(参考訳) 量子コンピューティングは、機械学習に計算上の利点を提供する。 しかし、ノイズの多い中間スケール量子(NISQ)デバイスは、量子機械学習(QML)の利点を実現するためにエンジニアリング上の課題を引き起こす。 近年,NISQデバイスのハードウェア限界を回避する手段として,脳の耐雑音力学に触発された一連のQML計算モデルが出現している。 本稿では、脳内の神経回路のよく知られたモデルであるリカレントニューラルネットワーク(RNN)の量子バージョンを紹介する。 我々の量子RNN(qRNN)は、相互作用するスピン-1/2粒子のアンサンブルの自然ハミルトン力学を計算の手段として利用する。 ハミルトニアンが対角的な極限において、qRNNは古典版の力学を回復する。 この限界を超えて、我々はqRNNの量子力学が量子計算機能を提供し、計算に役立てることができることを観察する。 そこで我々は,Rydberg原子の配列に基づくqRNNの研究を行い,このプラットフォームの重要な特徴である,原子間相互作用や量子多体傷などを活用することで,マルチタスク,意思決定,長期記憶などの認知的タスクの学習を再現可能であることを示す。

Quantum computing promises to provide machine learning with computational advantages. However, noisy intermediate-scale quantum (NISQ) devices pose engineering challenges to realizing quantum machine learning (QML) advantages. Recently, a series of QML computational models inspired by the noise-tolerant dynamics on the brain have emerged as a means to circumvent the hardware limitations of NISQ devices. In this article, we introduce a quantum version of a recurrent neural network (RNN), a well-known model for neural circuits in the brain. Our quantum RNN (qRNN) makes use of the natural Hamiltonian dynamics of an ensemble of interacting spin-1/2 particles as a means for computation. In the limit where the Hamiltonian is diagonal, the qRNN recovers the dynamics of the classical version. Beyond this limit, we observe that the quantum dynamics of the qRNN provide it quantum computational features that can aid it in computation. To this end, we study a qRNN based on arrays of Rydberg atoms, and show that the qRNN is indeed capable of replicating the learning of several cognitive tasks such as multitasking, decision making, and long-term memory by taking advantage of several key features of this platform such as interatomic species interactions, and quantum many-body scars.
翻訳日:2023-03-07 04:39:30 公開日:2022-07-20
# 量子コンピューティングにおけるQAOA回路の一構成法

A Structured Method for Compilation of QAOA Circuits in Quantum Computing ( http://arxiv.org/abs/2112.06143v4 )

ライセンス: Link先を確認
Yuwei Jin, Jason Luo, Lucent Fong, Yanhao Chen, Ari B. Hayes, Chi Zhang, Fei Hua, Eddy Z. Zhang(参考訳) 量子近似最適化アルゴリズム(Quantum Approximation Optimization Algorithm, QAOA)は、組合せ最適化問題の解法である。 QAOAアルゴリズムの量子回路における重要な特徴の1つは、通勤する2量子ビット演算子からなることである。 2ビットゲートを並べ替える柔軟性により、コンパイラ最適化により、より深い深さ、ゲート数、忠実度で回路を生成することができる。 しかし、これはまた、コンパイルで露呈される追加の自由のために重大な課題を課す。 以前の研究では、(1)性能保証、(2)スケーラビリティ、(3)スケーラブルなハードウェアにおける規則性の認識が欠けている。 多次元量子アーキテクチャ上の任意のコンパイルQAOA回路に対して線形深さを保証する構造的手法を提案する。 また、我々の手法がGoogle SycamoreやIBM Non-linearアーキテクチャ上で、スケーラブルかつ線形時間でどのように動作するかを実証する。 全体として、最大1024キュービットの回路を10秒でコンパイルでき、深さ3.8倍のスピードアップ、ゲート数17%の削減、回路ESPの18倍の改善が可能である。

Quantum Approximation Optimization Algorithm (QAOA) is a highly advocated variational algorithm for solving the combinatorial optimization problem. One critical feature in the quantum circuit of QAOA algorithm is that it consists of two-qubit operators that commute. The flexibility in reordering the two-qubit gates allows compiler optimizations to generate circuits with better depths, gate count, and fidelity. However, it also imposes significant challenges due to additional freedom exposed in the compilation. Prior studies lack the following: (1) Performance guarantee, (2) Scalability, and (3) Awareness of regularity in scalable hardware. We propose a structured method that ensures linear depth for any compiled QAOA circuit on multi-dimensional quantum architectures. We also demonstrate how our method runs on Google Sycamore and IBM Non-linear architectures in a scalable manner and in linear time. Overall, we can compile a circuit with up to 1024 qubits in 10 seconds with a 3.8X speedup in depth, 17% reduction in gate count, and 18X improvement for circuit ESP.
翻訳日:2023-03-04 18:47:32 公開日:2022-07-20
# ベル不等式を一般化するアベニュー

Avenues to generalising Bell inequalities ( http://arxiv.org/abs/2202.06606v3 )

ライセンス: Link先を確認
Marcin Karczewski, Giovanni Scala, Antonio Mandarino, Ana Bel\'en Sainz, and Marek \.Zukowski(参考訳) すべてのベルの不等式の集合を特徴付けることは、特に難しい作業である。 ベル相関の不等式を現場あたり2つの双調測定値(任意の数の当事者)で解くための洞察に富んだ方法がrefsで与えられた。 [Phys. A 64, 010102(R) (2001)][Phys. A 64, 032112 (2001)] 複素値相関関数を用いることで、そのアプローチをより広い種類のベルシナリオに一般化し、2つ以上のマルチカム計測から選択することができる。 その結果得られるベルの不等式は必ずしも厳密ではないが、その係数は直感的に理解可能な構造であり、単純な干渉実験においてベル非古典性を検出する能力を数値的に検証することでその有用性を調べる。 さらに, cglmp不等式における類似の構造を相関式で表現することで, 3 つの当事者に一般化できることを示す。

Characterizing the set of all Bell inequalities is a notably hard task. An insightful method of solving it in case of Bell correlation inequalities for scenarios with two dichotomic measurements per site - for arbitrary number of parties - was given in Refs. [Phys. Rev. A 64, 010102(R) (2001)] and [Phys. Rev. A 64, 032112 (2001)]. Using complex-valued correlation functions, we generalize their approach to a broader class of Bell scenarios, in which the parties may choose from more than 2 multi-outcome measurements. Although the resulting families of Bell inequalities are not always tight, their coefficients have an intuitively understandable structure.We probe their usefulness by numerically testing their ability to detect Bell nonclassicality in simple interferometric experiments. Moreover, we identify a similar structure in the CGLMP inequality expressed in a correlation-based form, which allows us to generalise it to three parties.
翻訳日:2023-02-25 21:14:29 公開日:2022-07-20
# 信頼できないリレーを持つガウス量子ネットワークのエンドツーエンドセキュリティ

Composable end-to-end security of Gaussian quantum networks with untrusted relays ( http://arxiv.org/abs/2203.11969v3 )

ライセンス: Link先を確認
Masoud Ghalaii and Panagiotis Papanastasiou and Stefano Pirandola(参考訳) ガウスネットワークはネットワーク情報理論の基本的な対象である。 ここで、多くの送信者と受信者は物理的に動機づけられたガウスのチャネルによって接続され、一方ガウスの中継のような補助ガウスのコンポーネントは含まれている。 古典ガウスネットワークの理論的バックボーンはよく確立されているが、量子アナログはまだ未熟である。 ここでは、一般に信頼できないノードを持つ任意のガウス量子ネットワーク(量子ネットワーク)の有限サイズ状態における構成可能なセキュリティに取り組む。 本稿では,リモートエンドユーザが共有するデータのみに基づくパラメータ推定手法を提案する。 同一の量子リンクの連鎖を例にとると、我々はさらに研究を実証する。 さらに,量子増幅器を介するチェーンの鍵レートが,実用的なブロックサイズで基本的なリピータレス限界を理想的に上回ることができることを見出した。 しかし、この目的は、新しいネットワーク/チェーン設計への道のりに事実上疑問を呈している。

Gaussian networks are fundamental objects in network information theory. Here many senders and receivers are connected by physically motivated Gaussian channels while auxiliary Gaussian components, such as Gaussian relays, are entailed. Whilst the theoretical backbone of classical Gaussian networks is well established, the quantum analogue is yet immature. Here, we theoretically tackle composable security of arbitrary Gaussian quantum networks (quantum networks), with generally untrusted nodes, in the finite-size regime. We put forward a general methodology for parameter estimation, which is only based on the data shared by the remote end-users. Taking a chain of identical quantum links as an example, we further demonstrate our study. Additionally, we find that the key rate of a quantum amplifier-assisted chain can ideally beat the fundamental repeaterless limit with practical block sizes. However, this objective is practically questioned leading the way to new network/chain designs.
翻訳日:2023-02-21 02:50:38 公開日:2022-07-20
# 免疫記録のためのグローバルブロックチェーンのスケーラビリティ解析

Scalability Analysis of a Global Blockchain For Immunization Records ( http://arxiv.org/abs/2207.10212v1 )

ライセンス: Link先を確認
Jorge Medina, Roberto Rojas-Cessa, Ziqian Dong, Vatcharapan Umpaichitra(参考訳) 新型コロナウイルス(COVID-19)のパンデミックを抑えるため、予防接種は引き続き実施されているが、その検証は多くの社会的活動や旅行に個人を再導入するための要件となっている。 ブロックチェーン技術は、多くの政治的に結びついた地域で予防接種記録とその検証を管理するために広く提案されている。 しかし、新型コロナウイルスの感染率が高いことから、世界的な予防接種キャンペーンが求められている。 したがって、予防接種管理のためのブロックチェーンは、そのようなキャンペーンをサポートするためにスケールアップし、異なる国の要求に適応する必要がある。 予防接種記録へのアクセスと不変性のバランスをとるブロックチェーンフレームワークの提案は数多くあるが、そのスケーラビリティ、重要な機能はまだ解決されていない。 本稿では,免疫情報システムのグローバル相互運用性を活用する,スケーラブルで協調的なグローバル免疫情報ブロックチェーンベースシステム(GEOS)を提案する。 GEOSをモデル化し、その要件、特徴、運用について説明する。 我々はGEOSにおける国内外のコンセンサスプロセスとブロックチェーンの相互運用性によって引き起こされる通信と遅延を分析する。 このようなコミュニケーションは、世界的な相互運用と検証のための電子予防接種記録へのアクセスを可能にする上で重要である。 GEOSは、そのスケーラビリティの例として、COVID-19の世界的な予防接種率に確実に対応していることを示す。

While vaccinations continue to be rolled out to curb the ongoing COVID-19 pandemic, their verification is becoming a requirement for the re-incorporation of individuals into many social activities or travel. Blockchain technology has been widely proposed to manage vaccination records and their verification in many politically-bound regions. However, the high contagiousness of COVID-19 calls for a global vaccination campaign. Therefore, a blockchain for vaccination management must scale up to support such a campaign and be adaptable to the requirements of different countries. While there have been many proposals of blockchain frameworks that balance the access and immutability of vaccination records, their scalability, a critical feature, has not yet been addressed. In this paper, we propose a scalable and cooperative Global Immunization Information Blockchain-based System (GEOS) that leverages the global interoperability of immunization information systems. We model GEOS and describe its requirements, features, and operation. We analyze the communications and the delays incurred by the national and international consensus processes and blockchain interoperability in GEOS. Such communications are pivotal in enabling global-scale interoperability and access to electronic vaccination records for verification. We show that GEOS ably keeps up with the global vaccination rates of COVID-19 as an example of its scalability.
翻訳日:2023-02-19 10:00:27 公開日:2022-07-20
# 米国の連絡先追跡アプリのセキュリティとプライバシ分析

A Security & Privacy Analysis of US-based Contact Tracing Apps ( http://arxiv.org/abs/2207.08978v2 )

ライセンス: Link先を確認
Joydeep Mitra(参考訳) 新型コロナウイルスの感染拡大に伴い、各国政府は接触追跡(CT)アプリの開発と展開を世界中で計画している。 しかし専門家たちは、これらのアプリを使用する長期的なプライバシーとセキュリティに関する懸念を提起した。 その結果、プライバシー保護のためのCTアプリを設計するためのいくつかの提案がなされた。 この目的のために、googleとappleはgoogle/apple exposure notification(gaen)フレームワークを開発し、公衆衛生当局がプライバシーを保護できるctアプリを開発するのを支援した。 アメリカ合衆国では、26の州がGAENフレームワークを使用してCTアプリを開発した。 本稿では,米国におけるGAENアプリの評価を実証的に行う。 1) それらが有する特権 2) アプリが規定されたプライバシーポリシーに従えば, 3) プライバシーを侵害するために悪用できる既知の脆弱性がある場合。 結果は、すべてのアプリがプライバシーポリシーに違反し、既知の脆弱性がいくつか含まれていることを示している。

With the onset of COVID-19, governments worldwide planned to develop and deploy contact tracing (CT) apps to help speed up the contact tracing process. However, experts raised concerns about the long-term privacy and security implications of using these apps. Consequently, several proposals were made to design privacy-preserving CT apps. To this end, Google and Apple developed the Google/Apple Exposure Notification (GAEN) framework to help public health authorities develop privacy-preserving CT apps. In the United States, 26 states used the GAEN framework to develop their CT apps. In this paper, we empirically evaluate the US-based GAEN apps to determine 1) the privileges they have, 2) if the apps comply with their defined privacy policies, and 3) if they contain known vulnerabilities that can be exploited to compromise privacy. The results show that all apps violate their stated privacy policy and contain several known vulnerabilities.
翻訳日:2023-02-19 09:56:44 公開日:2022-07-20
# 欠陥のあるイジングモデルにおける絡み合いエントロピーと負性

Entanglement entropy and negativity in the Ising model with defects ( http://arxiv.org/abs/2204.03601v3 )

ライセンス: Link先を確認
David Rogerson, Frank Pollmann, Ananda Roy(参考訳) 二次元共形場理論(CFT)の欠陥は、それらの特性の符号を含む。 本研究では,密度行列正規化群(DMRG)法を用いて,Ising CFTにおけるエネルギーと双対性欠陥の存在下でのサブシステムの絡み合いエントロピー(EE)と絡み合い負性(EN)を計算する。 双対性欠陥の脳は、局所化および非局在化ゼロエネルギーモードの存在により、エネルギー欠陥と根本的に異なる特徴を示すことを示す。 特に興味深いのは、最近自由フェルミオン計算を用いて得られたEEの非自明な「有限サイズ補正」である。 これらの補正は、サブシステムのサイズが全体のシステムサイズと比較可能であり、1次元量子クリティカルシステムの通常の対数スケーリング特性から逸脱するときに生じる。 開境界条件と無限境界条件の行列積状態を用いて、熱力学極限における有限サブシステムサイズに対するゼロモード寄与の消失を数値的に示す。 以上の結果は,最近の自由フェルミオン計算をさらに支持するが,ツイストされたトーラス分割関数に基づく以前の解析場理論計算とは明らかに矛盾する。 その後、欠陥によって分離された2つの非結合サブシステム間のEN(log-EN)の対数を計算する。 log-ENはサブシステムの分離に伴って対数的にスケールすることを示す。 しかし、この対数スケーリングの係数は、EEの類似計算から得られるものとは異なる、連続的に変化する有効中心電荷をもたらす。 欠陥は、log-enのスケールのサブリーディング期間に指紋を残している。 さらに、log-ENはEEと同様の「有限サイズ補正」を受け取り、その特徴的な対数スケーリングから逸脱する。

Defects in two-dimensional conformal field theories (CFTs) contain signatures of their characteristics. In this work, we compute the entanglement entropy (EE) and the entanglement negativity (EN) of subsystems in the presence of energy and duality defects in the Ising CFT using the density matrix renormalization group (DMRG) technique. We show that the EE for the duality defect exhibits fundamentally different characteristics compared to the energy defect due to the existence of localized and delocalized zero energy modes. Of special interest is the nontrivial `finite-size correction' in the EE obtained recently using free fermion computations. These corrections arise when the subsystem size is appreciable compared to the total system size and lead to a deviation from the usual logarithmic scaling characteristic of one-dimensional quantum-critical systems. Using matrix product states with open and infinite boundary conditions, we numerically demonstrate the disappearance of the zero mode contribution for finite subsystem sizes in the thermodynamic limit. Our results provide further support to the recent free fermion computations, but clearly contradict earlier analytical field theory calculations based on twisted torus partition functions. Subsequently, we compute the logarithm of the EN (log-EN) between two disjoint subsystems separated by a defect. We show that the log-EN scales logarithmically with the separation of the subsystems. However, the coefficient of this logarithmic scaling yields a continuously-varying effective central charge that is different from that obtained from analogous computations of the EE. The defects leave their fingerprints in the subleading term of the scaling of the log-EN. Furthermore, the log-EN receives similar `finite size corrections' like the EE which leads to deviations from its characteristic logarithmic scaling.
翻訳日:2023-02-17 23:46:16 公開日:2022-07-20
# 二部量子系における有界絡み合い状態に対する効率的な絡み合い目撃作用素の探索

Search for an efficient entanglement witness operator for bound entangled states in bipartite quantum systems ( http://arxiv.org/abs/2204.06193v2 )

ライセンス: Link先を確認
Shruti Aggarwal, Satyabrata Adhikari(参考訳) 絡み合い検出問題は量子情報理論における重要な問題の一つである。 ガーヴィットは、この問題がNP完全であることを示し、従って、全ての絡み合った状態を検出するのに1つの基準だけでは不十分である可能性がある。 部分的転位基準、再配置基準などの強力な絡み合い検出基準があるが、実験でうまく実装することはできないかもしれない。 この状況は、証人オペレーターメソッドの構築により、絡み合いが検出された場合、回避できる。 本研究では,証人演算子を構築するために解析的アプローチをとる。 そこで我々はまず,部分的転置と再配置操作を用いた線形写像を構築した。 次に、写像が正の写像を表す写像のパラメータに関するいくつかの条件を見つける。 さらに、この写像に対応するchoi行列を構築し、それが完全正でないことを示した。 次に,choi行列の関数と同一性行列の線形結合に基づき,npte と ppte の両方を検出できる絡み合い証人作用素を構築する。 最後に, 従来よく知られた分離性基準で検出されていなかった2部境界絡み状態の検出により, その効率を実証する。 また,Sarbickiらによって提案された相関テンソル(CT)に基づく3つの強力な絡み合い検出基準,すなわちdV基準,CCNR基準,分離性基準と比較した。 目撃者のオペレーターは これらの基準よりも 絡み合った状態を検出する

Entanglement detection problem is one of the important problem in quantum information theory. Gurvit showed that this problem is NP complete and thus this may be the possible reason that only one criterion is not sufficient to detect all entangled states. There are some powerful entanglement detection criterion such as partial transposition criterion, realignment criterion but it may not be possible to implement them successfully in the experiment. This situation can be avoided if the entanglement is detected through the construction of witness operator method. In this work, we take an analytical approach to construct a witness operator. To achieve this task, we first construct a linear map using partial transposition and realignment operation. Then we find some conditions on the parameters of the map for which the map represent a positive map. Further, we have constructed a Choi matrix corresponding to the map and have shown that it is not completely positive. We then construct an entanglement witness operator, which is based on the linear combination of the function of Choi matrix and the identity matrix and it can detect both NPTES and PPTES. Finally, we prove its efficiency by detecting several bipartite bound entangled states which were previously undetected by some well-known separability criteria. We also compared the detection power of our witness operator with three well-known powerful entanglement detection criteria, namely, dV criterion, CCNR criterion and the separability criteria based on correlation tensor (CT) proposed by Sarbicki et. al. and find that our witness operator detect more entangled states than these criterion.
翻訳日:2023-02-17 03:01:42 公開日:2022-07-20
# 真多成分エンタングルメントの熱力学的シグネチャ

Thermodynamic Signatures of Genuinely Multipartite Entanglement ( http://arxiv.org/abs/2205.05290v2 )

ライセンス: Link先を確認
Samgeeth Puliyil, Manik Banik, Mir Alimuddin(参考訳) 2成分の絡み合いの理論は熱力学と非常に類似している。 この手紙では、この接続を多部量子系に拡張し、絡み合いは異なる形で現れ、真の絡み合いは最もエキゾチックなものである。 本稿では,多粒子交絡状態における真性の署名を捉える熱力学量を提案する。 エントロピーの代わりに、これらの量はエネルギー(特に量子電池に格納できる大域的および局所的な抽出可能な仕事(エルゴトロピー)の違い)の観点から定義される。 これらの量の一部は真さの忠実な測度として十分であり、ある程度は真に絡み合った状態の異なるクラスを区別する。 これらの尺度の特性の精査とともに、既存の他の真正な尺度と比較し、より良い意味でその目的に役立てることができると論じる。 さらに,本手法の汎用性は,多成分系における絡み合いの質的に異なる表現を特徴付ける,k$-nonseparabilityのシグネチャを捉えたエルゴトロピーの適切な関数を定義することを可能にする。

Theory of bipartite entanglement shares profound similarities with thermodynamics. In this letter we extend this connection to multipartite quantum systems where entanglement appears in different forms with genuine entanglement being the most exotic one. We propose thermodynamic quantities that capture signature of genuineness in multipartite entangled states. Instead of entropy, these quantities are defined in terms of energy -- particularly the difference between global and local extractable works (ergotropies) that can be stored in quantum batteries. Some of these quantities suffice as faithful measures of genuineness and to some extent distinguish different classes of genuinely entangled states. Along with scrutinizing properties of these measures we compare them with the other existing genuine measures, and argue that they can serve the purpose in a better sense. Furthermore, generality of our approach allows to define suitable functions of ergotropies capturing the signature of $k$-nonseparability that characterizes qualitatively different manifestations of entanglement in multipartite systems.
翻訳日:2023-02-13 12:44:46 公開日:2022-07-20
# 組合せnltsの構成

A construction of Combinatorial NLTS ( http://arxiv.org/abs/2206.02741v2 )

ライセンス: Link先を確認
Anurag Anshu and Nikolas P. Breuckmann(参考訳) フリードマンとヘイスティングスの nlts (no low-energy trivial state) 予想は、(量子回路の深さで測定された複雑性を持つ)高複雑性のすべての低エネルギー状態を持つハミルトンの族が存在することを仮定している。 ここでは、組合せ NLTS と呼ばれるより弱いバージョンを証明し、量子回路の下限が局所項の(小さい)定数数に反する状態に対して示される。 これは、以前のNLETSの結果を一般化する(Eldar and Harrow [2017]; Nirkhe, Vazirani and Yuen (2018])。 我々の構成はテンソルネットワークと拡張符号を組み合わせることで得られる(Sipser and Spielman [1996] )。 ハミルトニアンは、フェルナンデス=ゴンザレスらの 'Uncle Hamiltonian' にインスパイアされた摂動テンソルネットワークの親ハミルトニアンである。 アル [2015]. したがって、ほとんどの先行研究で考慮された量子cssコードハミルトニアンから逸脱する。

The NLTS (No Low-Energy Trivial State) conjecture of Freedman and Hastings [2014] posits that there exist families of Hamiltonians with all low energy states of high complexity (with complexity measured by the quantum circuit depth preparing the state). Here, we prove a weaker version called the combinatorial NLTS, where a quantum circuit lower bound is shown against states that violate a (small) constant fraction of local terms. This generalizes the prior NLETS results (Eldar and Harrow [2017]; Nirkhe, Vazirani and Yuen [2018]). Our construction is obtained by combining tensor networks with expander codes (Sipser and Spielman [1996]). The Hamiltonian is the parent Hamiltonian of a perturbed tensor network, inspired by the `uncle Hamiltonian' of Fernandez-Gonzalez et. al. [2015]. Thus, we deviate from the quantum CSS code Hamiltonians considered in most prior works.
翻訳日:2023-02-10 09:34:47 公開日:2022-07-20
# 良い量子符号からのNLTSハミルトニアン

NLTS Hamiltonians from good quantum codes ( http://arxiv.org/abs/2206.13228v2 )

ライセンス: Link先を確認
Anurag Anshu, Nikolas P. Breuckmann, Chinmay Nirkhe(参考訳) フリードマンとヘイスティングの nlts (no low-energy trivial state) 予想 (2014) は、非自明な複雑さのすべての低エネルギー状態(量子回路の深さによって測定される複雑性)を持つハミルトニアンの族が存在することを仮定している。 我々は、最近発見された定数レートおよび線形距離QLDPC符号の族がNLTS局所ハミルトニアンに対応することを示すことによって、この予想を証明する。

The NLTS (No Low-Energy Trivial State) conjecture of Freedman and Hastings [2014] posits that there exist families of Hamiltonians with all low energy states of non-trivial complexity (with complexity measured by the quantum circuit depth preparing the state). We prove this conjecture by showing that the recently discovered families of constant-rate and linear-distance QLDPC codes correspond to NLTS local Hamiltonians.
翻訳日:2023-02-07 21:27:46 公開日:2022-07-20
# 空間の種

Species of spaces ( http://arxiv.org/abs/2206.14603v2 )

ライセンス: Link先を確認
Thierry Paul (LJLL)(参考訳) 量子系の古典的極限は、そのようなシステムの量子化の過程の基礎となる古典的概念とは異なる空間の概念をもたらすことが示されている。 アクセントは非可換性の痕跡、量子力学のエンブレマ的特徴の目撃者が、非可換幾何学の枠組みにおいてプランク定数が消えるときに残る状況に置かれる。 複素正準変換、スピン統計学、位相量子場理論、長い時間半古典近似、基礎となるカオス力学は、古典的予測不能性と量子不確定論の比較/融合と共に考慮される。

Classical limits of quantum systems are shown to lead to different conceptions of spaces different from the classical one underlying the process of quantization of such systems. The accent is put in situations where traces of noncommutativity, witness of an emblematic feature of quantum mechanise remains when the Planck constant vanishes, in the framework of noncommutative geometry. Complex canonical transformations, spin-statistics, topological quantum fields theory, long time semiclassical approximation and underlying chaotic dynamics are considered, together with a comparison/fusion of classical unpredictability with quantum indeterminism.
翻訳日:2023-02-07 09:55:49 公開日:2022-07-20
# 対数量子時間結晶

Logarithmic quantum time crystal ( http://arxiv.org/abs/2206.14979v2 )

ライセンス: Link先を確認
Haipeng Xue, Lingchii Kong, Biao Wu(参考訳) 熱力学的限界において基底状態が準退化し無限退化する時間非依存多ボソン系について検討する。 これらの準退化基底状態のうち、時間とともに進化する量子状態、すなわちT~logNの粒子の数に対数的に比例する周期を構築する。 このような状態のボーソン系は、熱力学的極限の基底状態に近づく量子時間結晶である。 全粒子数Nに対する周期の対数依存性は、非常に多数の粒子を持つ系でも実験的に観測可能である。 実験的な提案も考えられる。

We investigate a time-independent many-boson system, whose ground states are quasi-degenerate and become infinitely degenerate in the thermodynamic limit. Out of these quasi-degenerate ground states we construct a quantum state that evolves in time with a period that is logarithmically proportional to the number of particles, that is, T~logN. This boson system in such a state is a quantum time crystal as it approaches the ground state in the thermodynamic limit. The logarithmic dependence of its period on the total particle number N makes it observable experimentally even for systems with very large number of particles. Possible experimental proposals are discussed.
翻訳日:2023-02-07 04:57:36 公開日:2022-07-20
# 表面符号論理量子ビットのスケーリングによる量子誤差の抑制

Suppressing quantum errors by scaling a surface code logical qubit ( http://arxiv.org/abs/2207.06431v2 )

ライセンス: Link先を確認
Rajeev Acharya, Igor Aleiner, Richard Allen, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Ryan Babbush, Dave Bacon, Joseph C. Bardin, Joao Basso, Andreas Bengtsson, Sergio Boixo, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Yu Chen, Zijun Chen, Ben Chiaro, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Dripto M. Debroy, Alexander Del Toro Barba, Sean Demura, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Lara Faoro, Edward Farhi, Reza Fatemi, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Alejandro Grajales Dau, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Oscar Higgott, Jeremy Hilton, Markus Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William J. Huggins, Lev B. Ioffe, Sergei V. Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Pavol Juhas, Dvir Kafri, Kostyantyn Kechedzhi, Julian Kelly, Tanuj Khattar, Mostafa Khezri, M\'aria Kieferov\'a, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Lily Laws, Joonho Lee, Kenny Lee, Brian J. Lester, Alexander Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Fionn D. Malone, Jeffrey Marshall, Orion Martin, Jarrod R. McClean, Trevor Mccourt, Matt McEwen, Anthony Megrant, Bernardo Meurer Costa, Xiao Mi, Kevin C. Miao, Masoud Mohseni, Shirin Montazeri, Alexis Morvan, Emily Mount, Wojciech Mruczkiewicz, Ofer Naaman, Matthew Neeley, Charles Neill, Ani Nersisyan, Hartmut Neven, Michael Newman, Jiun How Ng, Anthony Nguyen, Murray Nguyen, Murphy Yuezhen Niu, Thomas E. O'Brien, Alex Opremcak, John Platt, Andre Petukhov, Rebecca Potter, Leonid P. Pryadko, Chris Quintana, Pedram Roushan, Nicholas C. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Jindra Skruzny, Vadim Smelyanskiy, W. Clarke Smith, George Sterling, Doug Strain, Marco Szalay, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Theodore White, Cheng Xing, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu(参考訳) 現実的な量子コンピューティングは、物理量子ビットで達成可能なよりもはるかに低い誤差率を必要とする。 量子誤り訂正は、多くの物理量子ビット内で論理量子ビットを符号化することでアルゴリズム的に関連するエラー率への経路を提供する。 しかし、より多くの量子ビットを導入することでエラーソースの数も増加するため、コードサイズの増加とともに論理的性能が向上するためには、エラーの密度が十分に低くなければならない。 本稿では,複数のコードサイズにまたがる論理的な量子ビット性能の測定を報告し,量子ビット数の増加による追加誤差を克服するのに十分な性能を有することを実証する。 距離5の表面符号の論理量子ビットは、25サイクル以上の論理誤差確率と2.914\%\pm 0.016\%$($3.028\%\pm 0.023\%$)の論理誤差の両面において、平均で3の論理量子ビットのアンサンブルをわずかに上回る。 低確率誤差源の損傷を調べるため、我々は距離25の繰り返しコードを実行し、1つの高エネルギーイベント(1.6\times10^{-7}$)によって設定されたラウンドフロア当たりの論理誤差を1.7\times10^{-6}$で観測する。 実験を正確にモデル化することができ、このモデルから将来のシステムにおける最大の課題を浮き彫りにするエラー予算を抽出することができます。 これらの結果は、量子誤差補正が量子ビット数を増加させ、計算に必要な論理誤差率に達する道筋を照らして性能を向上させる最初の実験である。

Practical quantum computing will require error rates that are well below what is achievable with physical qubits. Quantum error correction offers a path to algorithmically-relevant error rates by encoding logical qubits within many physical qubits, where increasing the number of physical qubits enhances protection against physical errors. However, introducing more qubits also increases the number of error sources, so the density of errors must be sufficiently low in order for logical performance to improve with increasing code size. Here, we report the measurement of logical qubit performance scaling across multiple code sizes, and demonstrate that our system of superconducting qubits has sufficient performance to overcome the additional errors from increasing qubit number. We find our distance-5 surface code logical qubit modestly outperforms an ensemble of distance-3 logical qubits on average, both in terms of logical error probability over 25 cycles and logical error per cycle ($2.914\%\pm 0.016\%$ compared to $3.028\%\pm 0.023\%$). To investigate damaging, low-probability error sources, we run a distance-25 repetition code and observe a $1.7\times10^{-6}$ logical error per round floor set by a single high-energy event ($1.6\times10^{-7}$ when excluding this event). We are able to accurately model our experiment, and from this model we can extract error budgets that highlight the biggest challenges for future systems. These results mark the first experimental demonstration where quantum error correction begins to improve performance with increasing qubit number, illuminating the path to reaching the logical error rates required for computation.
翻訳日:2023-02-05 06:50:56 公開日:2022-07-20
# 量子グリッド状態とハイブリッドグラフ

Quantum Grid States and Hybrid Graphs ( http://arxiv.org/abs/2207.09826v1 )

ライセンス: Link先を確認
Biswash Ghimire, Thomas Wagner, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) 符号付きラプラシア行列と重み付きハイブリッドグラフを用いて、グラフを格子状態として解釈する追加の方法を提案する。 ハイブリッドグラフは最も一般的な解釈を提供する。 グリッド状態の絡み合い特性を特徴付ける既存のグラフィカルな手法をこれらの解釈に適用する。 これらの追加の格子状態のクラスは、有界絡みを含むリッチな絡み合い特性を示す。 さらに,モジュール方式で束縛された状態を構築するためのグラフィカルな手法を導入する。 また、グリッド状態モデルをハイパーグラフに拡張する。 一方、我々の研究は、グリッド状態モデルで混合量子状態のファミリーを構築する可能性を開きます。 一方で、グラフ理論の観点から絡み合い問題を調べるための道具としても機能する。

Using the signed laplacian matrix, and weighted and hybrid graphs, we present additional ways to interpret graphs as grid states. Hybrid graphs offer the most general interpretation. Existing graphical methods that characterize entanglement properties of grid states are adapted to these interpretations. These additional classes of grid states are shown to exhibit rich entanglement properties, including bound entanglement. Further, we introduce graphical techniques to construct bound entangled states in a modular fashion. We also extend the grid states model to hypergraphs. Our work, on one hand, opens up possibilities for constructing additional families of mixed quantum states in the grid state model. On the other hand, it can serve as an instrument for investigating entanglement problems from a graph theory perspective.
翻訳日:2023-02-04 08:12:03 公開日:2022-07-20
# 協調運転課題における潜在特性の学習

Learning Latent Traits for Simulated Cooperative Driving Tasks ( http://arxiv.org/abs/2207.09619v1 )

ライセンス: Link先を確認
Jonathan A. DeCastro, Deepak Gopinath, Guy Rosman, Emily Sumner, Shabnam Hakimi, Simon Stent(参考訳) 複雑な状況において、人間とaiシステムの効果的な連携戦略を構築するには、個人の好みと行動を理解する必要がある。 以前は、この問題はケース固有あるいはデータ非依存の方法で扱われてきた。 本稿では,ドライバ群を模擬したデータに基づいて,人間の行動や嗜好の観点で,コンパクトな潜在表現を捉えることができる枠組みを構築する。 私たちのフレームワークは、特定のドライバに適したインタラクションポリシを展開するために、人口内のサンプルから個々の好みやタイプに関する知識を最大限活用しています。 次に,一形態の注意をそらした運転行動をモデル化する軽量シミュレーション環境hmiway-envを構築し,異なる運転者タイプと列車の介入ポリシーのデータを生成する。 最終的にこの環境を利用して、ドライバーを識別する能力と介入ポリシーの有効性を定量化する。

To construct effective teaming strategies between humans and AI systems in complex, risky situations requires an understanding of individual preferences and behaviors of humans. Previously this problem has been treated in case-specific or data-agnostic ways. In this paper, we build a framework capable of capturing a compact latent representation of the human in terms of their behavior and preferences based on data from a simulated population of drivers. Our framework leverages, to the extent available, knowledge of individual preferences and types from samples within the population to deploy interaction policies appropriate for specific drivers. We then build a lightweight simulation environment, HMIway-env, for modelling one form of distracted driving behavior, and use it to generate data for different driver types and train intervention policies. We finally use this environment to quantify both the ability to discriminate drivers and the effectiveness of intervention policies.
翻訳日:2023-02-04 08:11:34 公開日:2022-07-20
# 因果的非分離性と時空間関係との関連性

Causal nonseparability and its implications for spatiotemporal relations ( http://arxiv.org/abs/2207.09973v1 )

ライセンス: Link先を確認
Laurie Letertre(参考訳) 量子非分離性は量子力学の中心的な特徴であり、重要な哲学的疑問を提起する。 興味深いことに、プロセス行列形式(英語版)(PMF)と呼ばれる量子力学の特定の理論的発展は、因果非分離性と呼ばれる別の種類の非分離性を持つ。 PMFは、量子状態の概念の一般化であり、時空間位置の優先順位を定めることなく、複数のパーティにわたる量子イベント間の量子的相関を表現する。 重要なことに、PMFは量子イベント間の大域因果構造を仮定しないので、不定因果構造を持つ因果非分離量子プロセスの存在を可能にする。 この研究は因果的非分離性の哲学的意義、特に時空間的関係の概念を研究することを目的としている。 予備的な議論は、量子と因果非分離性の間の公式な関係を研究する。 量子過程は密度行列の一般化と見なすことができるが、2つの概念の区別は量子的および因果的非分離性の間に大きな違いをもたらす。 そこから、解釈の枠組みによって因果的非分離性は時空間関係のある種の不確定性を示すことが示される。 すなわち、現実主義の文脈では、時空間関係はエピステマティックまたはメタ物理的に不確定である。 最後に、標準的および因果的非分離性の不一致にもかかわらず、空間的関係に対する同様の影響は、標準量子力学の文脈で既に守られていると論じる。 この研究は、時空の概念に対する量子的特徴の影響について、潜在的に非常に実りある探求を浮き彫りにしている。

Quantum nonseparability is a central feature of quantum mechanics, and raises important philosophical questions. Interestingly, a particular theoretical development of quantum mechanics, called the process matrix formalism (PMF), features another kind of nonseparability, called causal nonseparability. The PMF appeals to the notion of quantum process, which is a generalisation of the concept of quantum state allowing to represent quantum-like correlations between quantum events over multiple parties without specifying a priori their spatiotemporal locations. Crucially, since the PMF makes no assumption about the global causal structure between quantum events, it allows for the existence of causally nonseparable quantum processes having an indefinite causal structure. This work aims at investigating the philosophical implications of causal nonseparability, especially for the notion of spatiotemporal relations. A preliminary discussion will study the formal connection between quantum and causal nonseparability. It will be emphasised that, although quantum processes can be seen as a generalisation of density matrices, the conceptual distinction between the two notions yields significant differences between quantum and causal nonseparability. From there, it will be shown that, depending on the interpretative framework, causal nonseparability suggests some kind of indeterminacy of spatiotemporal relations. Namely, within a realist context, spatiotemporal relations can be epistemically or metaphysically indeterminate. Finally, it will be argued that, in spite of the disanalogies between standard and causal nonseparability, similar implications for spatial relations can already be defended in the context of standard quantum mechanics. This work highlights the potentially very fruitful explorations of the implications of quantum features on the conception of spacetime.
翻訳日:2023-02-04 08:08:27 公開日:2022-07-20
# 量子リピータを用いた鍵分布の深層強化学習

Deep reinforcement learning for key distribution based on quantum repeaters ( http://arxiv.org/abs/2207.09930v1 )

ライセンス: Link先を確認
Simon Daniel Rei{\ss} and Peter van Loock(参考訳) 本研究では,量子記憶の通信距離とコヒーレンス時間という広いパラメータ空間において,量子リピータに基づく鍵分布の秘密鍵速度を調べる。 このタスクの最初のステップとして、量子リピータによる絡み合った量子状態の分布をモデル化するマルコフ決定プロセスを開発した。 このモデルに基づき、幅広いパラメータのメモリ保存時間を制限したナイーブ制御下で秘密鍵レートを決定するために、シミュレーションが実装されている。 マルチセグメント量子リピータチェーンにおける量子状態の進化の複雑さは、メモリ記憶時間制限(いわゆるメモリカットオフ)の最適解を探索するために深層強化学習を使用する動機付けとなる。 この研究における新しい貢献は、量子リピータの状態に動的に適応する非常に一般的なカットオフ戦略を探ることである。 このアプローチの実装は、特に4セグメント量子リピータに焦点をあて、その妥当性の証明を、ナイーブ戦略を上回る模範的な解を見つけることによって達成する。

This work examines secret key rates of key distribution based on quantum repeaters in a broad parameter space of the communication distance and coherence time of the quantum memories. As the first step in this task, a Markov decision process modeling the distribution of entangled quantum states via quantum repeaters is developed. Based on this model, a simulation is implemented, which is employed to determine secret key rates under naively controlled, limited memory storage times for a wide range of parameters. The complexity of the quantum state evolution in a multiple-segment quantum repeater chain motivates the use of deep reinforcement learning to search for optimal solutions for the memory storage time limits - the so-called memory cut-offs. The novel contribution in this work is to explore very general cut-off strategies which dynamically adapt to the state of the quantum repeater. An implementation of this approach is presented, with a particular focus on four-segment quantum repeaters, achieving proof of concept of its validity by finding exemplary solutions that outperform the naive strategies.
翻訳日:2023-02-04 08:08:00 公開日:2022-07-20
# 有限フーリエ変換と射影2-設計

The finite Fourier Transform and projective 2-designs ( http://arxiv.org/abs/2207.09922v1 )

ライセンス: Link先を確認
Gerhard Zauner(参考訳) 有限フーリエ変換の固有ベクトル分解を定義する方法はいくつかあるが、これはある意味で特異であり、量子調和振動子の固有状態によく似ている。 1986年にバリアンとイツィクソンによって与えられた素数次元 d = 3 (mod 4) に対する解は再訪される。 この固有ベクトル基底にワイル・ハイゼンベルク行列を適用することにより、射影2-設計が生成される。

There are several approaches to define an eigenvector decomposition of the finite Fourier Transform, which is in some sense unique, and at best resembles the eigenstates of the quantum harmonic oscillator. A solution given by Balian and Itzykson in 1986 for prime dimensions d = 3 (mod 4) is revisited. It is shown, that by applying the Weyl-Heisenberg matrices to this eigenvector basis, a projective 2-design is generated.
翻訳日:2023-02-04 08:07:46 公開日:2022-07-20
# 半導体スピンと識別不能光子との高速絡み合い

High-rate entanglement between a semiconductor spin and indistinguishable photons ( http://arxiv.org/abs/2207.09881v1 )

ライセンス: Link先を確認
N. Coste, D. Fioretto, N. Belabas, S. C. Wein, P. Hilaire, R. Frantzeskakis, M. Gundin, B. Goes, N. Somaschi, M. Morassi, A. Lema\^itre,1 I. Sagnes, A. Harouri, S. E. Economou, A. Auffeves, O. Krebs, L. Lanco and P. Senellart(参考訳) フォトニックグラフ状態、複数の光子が相互に絡み合う量子光状態は、光学量子技術の鍵となる資源である。 それらは特に、誤差補正測定に基づく光学量子コンピューティングと全光学量子ネットワークのコアである。 離散変数フレームワークでは、これらのアプリケーションはノードが識別不能な光子を持つクラスタ状態の高効率生成を必要とする。 このようなフォトニッククラスター状態は、1つの光子源と確率的量子ゲートで生成できるが、効率とスケーラビリティは困難である。 スピン光子絡み合いは線形クラスター状態を生成するために決定論的に提案されている。 最初の実験は、高い光子不連続性を達成する半導体スピンと、最近は高い収集効率と記録長を持つ原子系によって行われた。 本稿では、1つの半導体スピンと2つの識別不能光子からなる3つの粒子クラスター状態の効率的な生成について報告する。 光キャビティに挿入された半導体量子ドットを効率よく光子収集に利用し、高識別性のために電気的に制御する。 粒子の絡み合いは80 %, 63 %であり, 光子識別性は88%であった。 スピン-光子とスピン-光子-光子の絡み合い速度は、それぞれ前の状態の3桁と2桁を超える。 資源効率のよい単純な実験構成で制御されるモノリシックな固体デバイスであるシステムと実験スキームは、将来のスケーラブルなアプリケーションに非常に有望である。

Photonic graph states, quantum light states where multiple photons are mutually entangled, are key resources for optical quantum technologies. They are notably at the core of error-corrected measurement-based optical quantum computing and all-optical quantum networks. In the discrete variable framework, these applications require high efficiency generation of cluster-states whose nodes are indistinguishable photons. Such photonic cluster states can be generated with heralded single photon sources and probabilistic quantum gates, yet with challenging efficiency and scalability. Spin-photon entanglement has been proposed to deterministically generate linear cluster states. First demonstrations have been obtained with semiconductor spins achieving high photon indistinguishablity, and most recently with atomic systems at high collection efficiency and record length. Here we report on the efficient generation of three partite cluster states made of one semiconductor spin and two indistinguishable photons. We harness a semiconductor quantum dot inserted in an optical cavity for efficient photon collection and electrically controlled for high indistinguishability. We demonstrate two and three particle entanglement with fidelities of 80 % and 63 % respectively, with photon indistinguishability of 88%. The spin-photon and spin-photon-photon entanglement rates exceed by three and two orders of magnitude respectively the previous state of the art. Our system and experimental scheme, a monolithic solid-state device controlled with a resource efficient simple experimental configuration, are very promising for future scalable applications.
翻訳日:2023-02-04 08:07:23 公開日:2022-07-20
# 光による散乱を支配する基本定数の直接的アクセシビリティ

Direct accessibility of the fundamental constants governing light-by-light scattering ( http://arxiv.org/abs/2207.09866v1 )

ライセンス: Link先を確認
Felix Karbstein, Daniel Ullmann, Elena A. Mosman, and Matt Zepf(参考訳) 量子場理論は真空を予測し、強い電磁界に対する非線形応答を示す。 この基本的欲求は実験的に困難であり、まだ実験室ではテストされていない。 本稿では,光沢x線プローブと高強度ポンプレーザーの衝突により発生する量子真空信号の精密測定のための実験装置の概念と詳細な理論的解析について述べる。 信号は、入射X線プローブに平行かつ垂直に偏光された成分を特徴とする。 概念実証は, 非線形真空応答の垂直偏光成分の検出を容易にするだけでなく, 並列偏光成分を初めて実験的に利用できるようにするため, 背景を多数のオーダーで効率的に抑制できることを示す。 注目すべきは、強いX線プローブからの信号の角分離は、ポンプの揺らぎやアライメントジッタの存在下であっても精度の測定を可能にすることである。 これにより、光対光散乱を管理する低エネルギー定数に直接アクセスできる。

Quantum field theory predicts the vacuum to exhibit a non-linear response to strong electromagnetic fields. This fundamental tenet has remained experimentally challenging and is yet to be tested in the laboratory. We present proof of concept and detailed theoretical analysis of an experimental setup for precision measurements of the quantum vacuum signal generated by the collision of a brilliant x-ray probe with a high-intensity pump laser. The signal features components polarised parallel and perpendicularly to the incident x-ray probe. Our proof-of-concept measurements show that the background can be efficiently suppressed by many orders of magnitude which should not only facilitate a detection of the perpendicularly polarised component of non-linear vacuum response, but even make the parallel polarised component experimentally accessible for the first time. Remarkably, the angular separation of the signal from the intense x-ray probe enables precision measurements even in presence of pump fluctuations and alignment jitter. This provides direct access to the low-energy constants governing light-by-light scattering.
翻訳日:2023-02-04 08:07:01 公開日:2022-07-20
# 行列積状態と自己整合平均場理論を組み合わせた3次元ハバード系の過渡超伝導

Transient superconductivity in three-dimensional Hubbard systems by combining matrix product states and self-consistent mean-field theory ( http://arxiv.org/abs/2207.09841v1 )

ライセンス: Link先を確認
Svenja Marten, Gunnar Bollmark, Thomas K\"ohler, Salvatore R. Manmana, Adrian Kantian(参考訳) 行列生成状態 (mps) と平均場 (mf) を組み合わせることで, 弱結合と並列に配列された1次元(1次元)鎖からなる3次元拡張ハバード系の実時間発展をモデル化する。 このアプローチにより、以前の数値的アプローチよりもはるかに長いリアルタイム領域において、相関フェルミオンのより大きな3dシステムを扱うことができる。 本手法は, 電荷密度波 (CDW) 位相から超伝導 (SC) 状態へとパラメータを調整し, 過渡的非平衡SCの形成を解明するためのものである。 アンザッツでは、自己整合時間依存型MFスキームの入力として、連鎖に対するMPS解を用いる。 このようにして、3D問題は有効1Dハミルトニアンにマッピングされ、MPSを効率的に利用して時間進化を行い、BCSの順序パラメータを時間の関数として測定することができる。 以上の結果から, 純粋に1次元系の超伝導が過渡的に形成されることを示す。

We combine matrix-product state (MPS) and Mean-Field (MF) methods to model the real-time evolution of a three-dimensional (3D) extended Hubbard system formed from one-dimensional (1D) chains arrayed in parallel with weak coupling in-between them. This approach allows us to treat much larger 3D systems of correlated fermions out-of-equilibrium over a much more extended real-time domain than previous numerical approaches. We deploy this technique to study the evolution of the system as its parameters are tuned from a charge-density wave (CDW) phase into the superconducting (SC) regime, which allows us to investigate the formation of transient non-equilibrium SC. In our ansatz, we use MPS solutions for chains as input for a self-consistent time-dependent MF scheme. In this way, the 3D problem is mapped onto an effective 1D Hamiltonian that allows us to use the MPS efficiently to perform the time evolution, and to measure the BCS order parameter as a function of time. Our results confirm previous findings for purely 1D systems that for such a scenario superconductivity forms in a transient state.
翻訳日:2023-02-04 08:06:48 公開日:2022-07-20
# 音響フロッケ系におけるpi/2モードの観測

Observation of pi/2 modes in an acoustic Floquet system ( http://arxiv.org/abs/2207.09831v1 )

ライセンス: Link先を確認
Zheyu Cheng, Raditya Weda Bomantara, Haoran Xue, Weiwei Zhu, Jiangbin Gong, and Baile Zhang(参考訳) 過去数十年間、物質のトポロジカルな段階は研究の活発な領域として残されてきた。 周期駆動は、このようなエキゾチックな位相を豊かにするための強力なツールとして知られ、静的アナログを持たない様々な現象を引き起こす。 そのような現象の1つは、$pi/2$モード、すなわち、駆動周波数の4分の1に固定された位相境界状態の出現である。 後者は相互作用の存在下でのフロッケパラフェルミオンの形成に繋がる可能性があり、これはマヨラナ粒子よりも計算能力が高いことが知られている。 本研究では,2乗根を周期的に駆動するSu-Schrieffer-Heegerモデルの音響導波管アレイにおける$\pi/2$モードのシグネチャを実験的に検証する。 これは、初期限定励起の4T$- periodicity(T$は運転期間)プロファイルを確認し、理論上は$\pi/2$モードの喫煙銃の証拠であることを示す。 我々の発見は、量子システムにおける技術的応用のための$\pi/2$モードのさらなる研究を動機付けるものと期待されている。

Topological phases of matter have remained an active area of research in the last few decades. Periodic driving is known to be a powerful tool for enriching such exotic phases, which leads to various phenomena with no static analogs. One such phenomenon is the emergence of the elusive $pi/2$ modes, i.e., a type of topological boundary state pinned at a quarter of the driving frequency. The latter may lead to the formation of Floquet parafermions in the presence of interaction, which is known to support more computational power than Majorana particles. In this work, we experimentally verify the signature of $\pi/2$ modes in an acoustic waveguide array, which is designed to simulate a square-root periodically driven Su-Schrieffer-Heeger model. This is accomplished by confirming the $4T$-periodicity ($T$ being the driving period) profile of an initial-boundary excitation, which we also show theoretically to be the smoking gun evidence of $\pi/2$ modes. Our findings are expected to motivate further studies of $\pi/2$ modes in quantum systems for potential technological applications.
翻訳日:2023-02-04 08:06:30 公開日:2022-07-20
# qfitter - 有効場理論に適用可能な量子フィッティングフレームワーク

QFitter -- A Quantum Fitting Framework Applied to Effective Field Theories ( http://arxiv.org/abs/2207.10088v1 )

ライセンス: Link先を確認
Juan Carlos Criado, Roman Kogler, Michael Spannowsky(参考訳) 実効場理論(EFT)のウィルソン係数の値を制限する実験データの使用は、局所ミニマを含むかもしれない$\chi^2$関数を最小化する。 古典的な最適化アルゴリズムは、これらの最小値に閉じ込められ、大域的最小値の決定が妨げられる。 量子アニーリングフレームワークは、この制限を克服し、凸でない関数のグローバル最小値を確実に見つける可能性を秘めている。 EFT適合性を実現する量子アニール法QFitterを提案する。 最先端の量子アニールを用いて、QFitterが2次寄与を含む少なくとも8つの係数の集合に適合できることを示す。 必要なキュービット数を変更することなく、任意の数のオブザーバブルを含めることができる。 我々は、$\chi^2$ が非凸である例を示し、qfitter がその古典的代替品よりもより正確に大域的最小値を見つけることができることを示す。

The use of experimental data to constrain the values of the Wilson coefficients of an Effective Field Theory (EFT) involves minimising a $\chi^2$ function that may contain local minima. Classical optimisation algorithms can become trapped in these minima, preventing the determination of the global minimum. The quantum annealing framework has the potential to overcome this limitation and reliably find the global minimum of non-convex functions. We present QFitter, a quantum annealing method to perform EFT fits. Using a state-of-the-art quantum annealer, we show with concrete examples that QFitter can be used to fit sets of at least eight coefficients, including their quadratic contributions. An arbitrary number of observables can be included without changing the required number of qubits. We provide an example in which $\chi^2$ is non-convex and show that QFitter can find the global minimum more accurately than its classical alternatives.
翻訳日:2023-02-04 08:01:23 公開日:2022-07-20
# 2次元非局所ポテンシャルのクラスに対する転移行列の存在

Existence of the transfer matrix for a class of nonlocal potentials in two dimensions ( http://arxiv.org/abs/2207.10054v1 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) エバネッセント波(Evanescent wave)は、相互作用のない空間の領域で崩壊または指数関数的に成長する波である。 schr\"odinger方程式で定義されるポテンシャル散乱では、局所ポテンシャル $v$ に対して $(-\nabla^2+v)\psi=k^2\psi$ であり、それらは 1 より大きい次元で発生し、v$ の細部に関係なく存在する。 エバネッセント波の散乱過程への寄与を無視する近似は、あるエネルギー依存の非局所ポテンシャル $\hat{\mathscr{V}}_k$ に $v$ を置き換えることに対応する。 本研究では,非自己随伴・非有界・非定常ハミルトニアン作用素を持つ量子系の力学と散乱データが関係する2次元の非hat{\mathscr{v}}_k$に対する定常散乱の動的定式化を提案する。 このシステムの進化演算子は、ポテンシャルの散乱特性に関する情報を含む1次元の定常散乱の伝達行列の二次元アナログを決定する。 v$ のより一般的な条件の下で、進化作用素のダイソン級数展開の強い収束を確立し、$\hat{\mathscr{V}}_k$ に対して $\mathbb{C}^2\otimes L^2(-k,k)$ で作用する密定義作用素として転移行列の存在を証明する。

Evanescent waves are waves that decay or grow exponentially in regions of the space void of interaction. In potential scattering defined by the Schr\"odinger equation, $(-\nabla^2+v)\psi=k^2\psi$ for a local potential $v$, they arise in dimensions greater than one and are present regardless of the details of $v$. The approximation in which one ignores the contributions of the evanescent waves to the scattering process corresponds to replacing $v$ with a certain energy-dependent nonlocal potential $\hat{\mathscr{V}}_k$. We present a dynamical formulation of the stationary scattering for $\hat{\mathscr{V}}_k$ in two dimensions, where the scattering data are related to the dynamics of a quantum system having a non-self-adjoint, unbounded, and nonstationary Hamiltonian operator. The evolution operator for this system determines a two-dimensional analog of the transfer matrix of stationary scattering in one dimension which contains the information about the scattering properties of the potential. Under rather general conditions on $v$, we establish the strong convergence of the Dyson series expansion of the evolution operator and prove the existence of the transfer matrix for $\hat{\mathscr{V}}_k$ as a densely-defined operator acting in $\mathbb{C}^2\otimes L^2(-k,k)$.
翻訳日:2023-02-04 08:00:34 公開日:2022-07-20
# 古典的メタマテリアルと相互作用超伝導体間のトポロジー

Topology shared between classical metamaterials and interacting superconductors ( http://arxiv.org/abs/2207.10045v1 )

ライセンス: Link先を確認
Po-Wei Lo, Chao-Ming Jian, and Michael J Lawler(参考訳) 超対称性は、剛性行列と非相互作用量子ハミルトニアンによって記述されるメタマテリアルの正規モードの間の線形レベルで研究されている。 古典と量子の接続は、各問題に関わる行列を通してなされた。 近年, poincar\'e-hopf index を用いて位相指標を定義することにより, 非線形力学系の挙動に関する知見が得られた。 数学的類似性から、このトポロジカル指数は古典力学から超対称量子論にアプローチする方法を示していることが判明した。 この数学的類似性を用いて、金属や超伝導体のフォノンと結合した電子のような等静力学的メタマテリアルと超対称量子システムとの間の位相的接続を確立する。 まず、ゼロエネルギー構成の最小数をカウントする等静力学系に対して$Q_{net}$を定義する。 次に、非調和フォノンと相互作用する金属または超伝導体を記述する超対称ハミルトニアンを記述する。 このハミルトニアンはウィッテン指数を持ち、ボソニック状態とフェルミオン零エネルギー状態の平衡を捉える位相不変量である。 この2つのシステムを、非常に一般的な条件下で$q_{net}=w$を示すことによって接続することができる。 その結果、(1)古典的メタマテリアルは相互作用する量子系のトポロジーを超対称性の助けを借りて研究することができ、(2)フォノンの非調和性とマヨアナフェルミオンとフォノンのカップリングの微調整により、古典的力学系と同じトポロジーを持つ超対称量子システムを実現することができる。

Supersymmetry has been studied at a linear level between normal modes of metamaterials described by rigidity matrices and non-interacting quantum Hamiltonians. The connection between classical and quantum was made through the matrices involved in each problem. Recently, insight into the behavior of nonlinear mechanical systems was found by defining topological indices via the Poincar\'e-Hopf index. It turns out, because of the mathematical similarity, this topological index shows a way to approach supersymmetric quantum theory from classical mechanics. Using this mathematical similarity, we establish a topological connection between isostatic mechanical metamaterials and supersymmetric quantum systems, such as electrons coupled to phonons in metals and superconductors. Firstly, we define $Q_{net}$ for an isostatic mechanical system that counts the minimum number of zero-energy configurations. Secondly, we write a supersymmetric Hamiltonian that describes a metal or a superconductor interacting with anharmonic phonons. This Hamiltonian has a Witten index, a topological invariant that captures the balance of bosonic and fermionic zero-energy states. We are able to connect these two systems by showing that $Q_{net}=W$ under very general conditions. Our result shows that (1) classical metamaterials can be used to study the topology of interacting quantum systems with aid of supersymmetry, and (2) with fine-tuning between anharmonicity of phonons and couplings among Majorana fermions and phonons, it is possible to realize such a supersymmetric quantum system that shares the same topology as classical mechanical systems.
翻訳日:2023-02-04 07:59:53 公開日:2022-07-20
# 2成分分解アルゴリズムとオープン量子システムシミュレーション

Two-Unitary Decomposition Algorithm and Open Quantum System Simulation ( http://arxiv.org/abs/2207.10007v1 )

ライセンス: Link先を確認
Nishchay Suri, Joseph Barreto, Stuart Hadfield, Nathan Wiebe, Filip Wudarski, Jeffrey Marshall(参考訳) 非単体進化に続く量子システムの現実的な相互作用を記述する一般的な量子プロセスのシミュレーションは、単体ゲートを直接実装する従来の量子コンピュータでは難しい。 szのような有望な手法で複雑度を分析する。 -非ユニタリ作用素の確率的実現により開系をシミュレートできるユニタリの動的拡張と線形結合は、エンコーディングと状態準備の両方に複数の呼び出しを必要とする。 量子特異値変換アルゴリズムを用いて,非零特異値が$a=(u_1+u_2)/2$であるような,d$次元作用素 $a$ を分解する量子二元分解 (tud) アルゴリズムを提案し,その時間的オーバーヘッドが$\mathcal{o}(d^3)$である古典的コストの特異値分解 (svd) を回避した。 2つのユニタリは決定論的に実装できるため、それぞれの状態準備オラクルへの単一の呼び出しのみが必要になる。 符号化オラクルへの呼び出しは、測定の許容誤差を犠牲にして大幅に削減することができる。 TUD法は、非ユニタリ作用素を2つのユニタリとして実装することができるため、線形代数や量子機械学習にも応用できる。

Simulating general quantum processes that describe realistic interactions of quantum systems following a non-unitary evolution is challenging for conventional quantum computers that directly implement unitary gates. We analyze complexities for promising methods such as the Sz.-Nagy dilation and linear combination of unitaries that can simulate open systems by the probabilistic realization of non-unitary operators, requiring multiple calls to both the encoding and state preparation oracles. We propose a quantum two-unitary decomposition (TUD) algorithm to decompose a $d$-dimensional operator $A$ with non-zero singular values as $A=(U_1+U_2)/2$ using the quantum singular value transformation algorithm, avoiding classically expensive singular value decomposition (SVD) with an $\mathcal{O}(d^3)$ overhead in time. The two unitaries can be deterministically implemented, thus requiring only a single call to the state preparation oracle for each. The calls to the encoding oracle can also be reduced significantly at the expense of an acceptable error in measurements. Since the TUD method can be used to implement non-unitary operators as only two unitaries, it also has potential applications in linear algebra and quantum machine learning.
翻訳日:2023-02-04 07:58:36 公開日:2022-07-20
# ディッキン状態形成用短絡回路

Short-Depth Circuits for Dicke State Preparation ( http://arxiv.org/abs/2207.09998v1 )

ライセンス: Link先を確認
Andreas B\"artschi and Stephan Eidenbenz(参考訳) 我々はDicke状態 |Dn,k> を決定的に準備するために短深さ回路を提案し、これはハミングウェイト k で全ての n-量子基底状態の等振幅重ね合わせである。 ディッケ状態は、様々な応用を持つ絡み合った量子状態の重要なクラスであり、物理系における実験的な創造の歴史がある。 一方で、現実的な量子コンピューティングハードウェアコネクティビティに対するdicke状態準備のための効率的なスケーラブルな量子回路については、あまり知られていない。 ここでは、Dicke状態 |Dn,k> のための準備回路を示す。 (i)全接続(現在のイオントラップ装置など)のためのO(k log(n/k))の深さ。 (ii)o(k sqrt(n/k)) = o(sqrt(nk) の深さ omega(sqrt(n/s)) x o(sqrt(ns)) と s<=k(例えば現在の超伝導量子デバイス)とのグリッド接続のための深さ。 どちらのアプローチも O(kn) の総ゲート数を持ち、アンシラ量子ビットは不要であり、全ての非零振幅が最大 k のハミング重みを持つ状態に対応する対称純粋状態の準備と圧縮の両方に一般化する。 そこで本研究では,任意のk(計算理論のFundamentals of Computation Theory 2019)に対する線形近接近傍接続と,k=1(先進量子技術2019)に対する全接続における深さO(log n)とを有する従来の最先端技術回路の改良と拡張を行った。

We present short-depth circuits to deterministically prepare any Dicke state |Dn,k>, which is the equal-amplitude superposition of all n-qubit computational basis states with Hamming Weight k. Dicke states are an important class of entangled quantum states with a large variety of applications, and a long history of experimental creation in physical systems. On the other hand, not much is known regarding efficient scalable quantum circuits for Dicke state preparation on realistic quantum computing hardware connectivities. Here we present preparation circuits for Dicke states |Dn,k> with (i) a depth of O(k log(n/k)) for All-to-All connectivity (such as on current ion trap devices); (ii) a depth of O(k sqrt(n/k)) = O(sqrt(nk) for Grid connectivity on grids of size Omega(sqrt(n/s)) x O(sqrt(ns)) with s<=k (such as on current superconducting qubit devices). Both approaches have a total gate count of O(kn), need no ancilla qubits, and generalize to both the preparation and compression of symmetric pure states in which all non-zero amplitudes correspond to states with Hamming weight at most k. Thus our work significantly improves and expands previous state-of-the art circuits which had depth O(n) on a Linear Nearest Neighbor connectivity for arbitrary k (Fundamentals of Computation Theory 2019) and depth O(log n) on All-to-All connectivity for k=1 (Advanced Quantum Technologies 2019).
翻訳日:2023-02-04 07:58:14 公開日:2022-07-20
# ヘビー的学習規則は分散分散データにおける次元の呪いを避けることができるか?

Can a Hebbian-like learning rule be avoiding the curse of dimensionality in sparse distributed data? ( http://arxiv.org/abs/2208.12564v1 )

ライセンス: Link先を確認
Maria Os\'orio, Lu\'is Sa-Couto, Andreas Wichert(参考訳) 一般に、脳は分散表現をスパースするのに似たものを使っていると仮定される。 しかし、これらの表現は高次元であり、「次元の呪い」による従来の機械学習モデルの分類性能に影響する。 大量のラベル付きデータがあるタスクでは、Deep Networksは多くのレイヤと非ヘビーンのバックプロパゲーションアルゴリズムでこの問題を解決しているようだ。 しかし脳は、少数の層でこの問題を解決することができるようだ。 本研究では,ヘビアン学習を用いてこれを仮定する。 実際、制限ボルツマンマシンのヘビアン様学習規則は入力パターンを非対称に学習する。 ゼロでない値の間の相関を学習し、入力次元の大部分を表す零点を無視する。 ゼロを無視することで「次元の呪い」の問題を回避できる。 仮説を検証するために、いくつかのスパースデータセットを生成し、制限ボルツマンマシン分類器の性能をバックプロップ学習ネットワークと比較した。 これらの符号を用いた実験では、制約付きボルツマンマシンが優れた一般化性能を示す一方で、バックプロパゲーションアルゴリズムでトレーニングされたニューラルネットワークはトレーニングデータを過度に最適化する。

It is generally assumed that the brain uses something akin to sparse distributed representations. These representations, however, are high-dimensional and consequently they affect classification performance of traditional Machine Learning models due to "the curse of dimensionality". In tasks for which there is a vast amount of labeled data, Deep Networks seem to solve this issue with many layers and a non-Hebbian backpropagation algorithm. The brain, however, seems to be able to solve the problem with few layers. In this work, we hypothesize that this happens by using Hebbian learning. Actually, the Hebbian-like learning rule of Restricted Boltzmann Machines learns the input patterns asymmetrically. It exclusively learns the correlation between non-zero values and ignores the zeros, which represent the vast majority of the input dimensionality. By ignoring the zeros "the curse of dimensionality" problem can be avoided. To test our hypothesis, we generated several sparse datasets and compared the performance of a Restricted Boltzmann Machine classifier with some Backprop-trained networks. The experiments using these codes confirm our initial intuition as the Restricted Boltzmann Machine shows a good generalization performance, while the Neural Networks trained with the backpropagation algorithm overfit the training data.
翻訳日:2023-02-04 07:51:31 公開日:2022-07-20
# SARS-CoV-2 Omicron Variantに関するつぶやきの探索的研究:感性分析、言語解釈、ソース追跡、型分類、埋め込みURL検出からの検討

An Exploratory Study of Tweets about the SARS-CoV-2 Omicron Variant: Insights from Sentiment Analysis, Language Interpretation, Source Tracking, Type Classification, and Embedded URL Detection ( http://arxiv.org/abs/2208.10252v1 )

ライセンス: Link先を確認
Nirmalya Thakur and Chia Y. Han(参考訳) 本稿では、新型コロナウイルス(covid-19)のパンデミックに関する情報、ニュース、ビュー、意見、意見、フィードバック、および経験の共有に関連するtwitterのビッグデータを継続的に生成することに関する探索的な研究の成果について述べる。 Omicronの亜種に関する合計12028のツイートが研究され、分析されたツイートの特徴には感情、言語、ソース、タイプ、埋め込みURLが含まれる。 この研究の成果は多様体である。 まず、感情分析の結果、50.5%のツイートが中立的な感情を持っていることがわかった。 その他の感情(悪い、良い、悪い、大きい)は、それぞれ15.6%、14.0%、12.5%、そして7.5%であった。 第2に、言語解釈の結果、ツイートの65.9%が英語で投稿された。 その後、スペイン語、フランス語、イタリア語、その他の言語が続いた。 第三に、ソース追跡の結果から、android版twitterのツイートの35.2%が関連していることがわかった。 続いてtwitterのウェブアプリ、iphone用twitter、ipad用twitter、その他の情報源が続いた。 第4に、リツイートのタイプを調べると、リツイートの60.8%がツイートであり、その後にそれぞれ19.8%と19.4%のツイートがツイートされた。 第5に、組み込みURL分析では、ツイートに埋め込まれた最も一般的なドメインはtwitter.comで、その後biorxiv.org、 nature.com、その他のドメインが続いた。 最後に、この分野で同様の研究を支援するために、2021年11月24日に初めて検出されたSARS-CoV-2 omicron変異体に関する50万以上のツイートを含むTwitterデータセットを開発した。

This paper presents the findings of an exploratory study on the continuously generating Big Data on Twitter related to the sharing of information, news, views, opinions, ideas, feedback, and experiences about the COVID-19 pandemic, with a specific focus on the Omicron variant, which is the globally dominant variant of SARS-CoV-2 at this time. A total of 12028 tweets about the Omicron variant were studied, and the specific characteristics of tweets that were analyzed include - sentiment, language, source, type, and embedded URLs. The findings of this study are manifold. First, from sentiment analysis, it was observed that 50.5% of tweets had a neutral emotion. The other emotions - bad, good, terrible, and great were found in 15.6%, 14.0%, 12.5%, and 7.5% of the tweets, respectively. Second, the findings of language interpretation showed that 65.9% of the tweets were posted in English. It was followed by Spanish, French, Italian, and other languages. Third, the findings from source tracking showed that Twitter for Android was associated with 35.2% of tweets. It was followed by Twitter Web App, Twitter for iPhone, Twitter for iPad, and other sources. Fourth, studying the type of tweets revealed that retweets accounted for 60.8% of the tweets, it was followed by original tweets and replies that accounted for 19.8% and 19.4% of the tweets, respectively. Fifth, in terms of embedded URL analysis, the most common domain embedded in the tweets was found to be twitter.com, which was followed by biorxiv.org, nature.com, and other domains. Finally, to support similar research in this field, we have developed a Twitter dataset that comprises more than 500,000 tweets about the SARS-CoV-2 omicron variant since the first detected case of this variant on November 24, 2021.
翻訳日:2023-02-04 07:51:11 公開日:2022-07-20
# 現在のcovid-19 omicron波におけるオンライン学習に関するtwitterチャットの大規模データセット

A Large-Scale Dataset of Twitter Chatter about Online Learning during the Current COVID-19 Omicron Wave ( http://arxiv.org/abs/2208.07810v1 )

ライセンス: Link先を確認
Nirmalya Thakur(参考訳) このcovid-19 omicron変種は、covid-19の最も免疫を回避できる変種であると言われているが、世界中で新型コロナウイルスの感染が急増している。 これにより、世界中の様々な地域の学校、大学、大学がオンライン学習に移行することになった。 その結果、Twitterなどのソーシャルメディアプラットフォームでは、ツイート形式でオンライン学習に関連する会話が増加している。 このようなツイートをマイニングしてデータセットを開発することは、omicron変種による新型コロナウイルス(covid-19)の流行の中で、関心、見解、意見、展望、態度、オンライン学習に対するフィードバックなどの分析に関連する、さまざまなアプリケーションやユースケースのためのデータリソースとして機能することができる。 そこで本研究では,2021年11月に初めて検出されたcovid-19 omicron変異体以来,世界各国のオンライン学習に関する大規模なオープンアクセス型twitterデータセットを提案する。 このデータセットは、Twitterのコンテンツ再配布に関するプライバシーポリシー、開発者合意、ガイドライン、および科学データ管理のためのFAIR原則(適合性、アクセシビリティ、相互運用性、再利用性)に準拠している。 この論文はまた、ビッグデータ、データマイニング、自然言語処理、およびそれらの関連分野における潜在的な応用について、このOmicron波中のオンライン学習に特に焦点をあて、このデータセットを用いて研究、調査、調査を行うことができる。

The COVID-19 Omicron variant, reported to be the most immune evasive variant of COVID-19, is resulting in a surge of COVID-19 cases globally. This has caused schools, colleges, and universities in different parts of the world to transition to online learning. As a result, social media platforms such as Twitter are seeing an increase in conversations related to online learning in the form of tweets. Mining such tweets to develop a dataset can serve as a data resource for different applications and use-cases related to the analysis of interest, views, opinions, perspectives, attitudes, and feedback towards online learning during the current surge of COVID-19 cases caused by the Omicron variant. Therefore, this work presents a large-scale open-access Twitter dataset of conversations about online learning from different parts of the world since the first detected case of the COVID-19 Omicron variant in November 2021. The dataset is compliant with the privacy policy, developer agreement, and guidelines for content redistribution of Twitter, as well as with the FAIR principles (Findability, Accessibility, Interoperability, and Reusability) principles for scientific data management. The paper also briefly outlines some potential applications in the fields of Big Data, Data Mining, Natural Language Processing, and their related disciplines, with a specific focus on online learning during this Omicron wave that may be studied, explored, and investigated by using this dataset.
翻訳日:2023-02-04 07:50:33 公開日:2022-07-20
# エミッタに結合した非線形フォトニック波ガイドにおけるポラロン-エミッタハイブリッド状態によるアンパンプラビ振動

Undamped Rabi oscillations due to polaron-emitter hybrid states in non-linear photonic wave guide coupled to emitters ( http://arxiv.org/abs/2207.10207v1 )

ライセンス: Link先を確認
J. Talukdar and D. Blume(参考訳) 2光子結合状態をサポートする構造ウェーブガイドと結合した2つの非相互作用2レベルエミッタの集団ダイナミクスについて検討した。 2光子結合状態のエネルギーバンドと共鳴するように2つのエミッタのエネルギーをチューニングし、システムが分数個数と本質的にアンパンされたラビ振動を示すパラメータレジームを同定する。 単一エミッター力学の類似性を持たないラビ振動は、エミッタ-光子結合によって誘導される集合ポラロン様フォトニック状態の存在に起因する。 完全なダイナミクスは二状態モデルによって再現され、フォトニックポラロンは、エミッタ分離に依存するrabi結合周波数を介して ||e,e,\text{vac} \rangle$(励起状態における2つのエミッタと空のウェーブガイド)状態と相互作用する。 本研究では,エミッタ-光子カップリングが2光子結合状態と波長可変非マルコフダイナミクス間の全運動量空間相互作用につながり,導波路に結合したエミッタアレイの新たな方向を開くことを実証する。

The collective dynamics of two non-interacting two-level emitters, which are coupled to a structured wave guide that supports two-photon bound states, is investigated. Tuning the energy of the two emitters such that they are in resonance with the two-photon bound state energy band, we identify parameter regimes where the system displays fractional populations and essentially undamped Rabi oscillations. The Rabi oscillations, which have no analog in the single-emitter dynamics, are attributed to the existence of a collective polaron-like photonic state that is induced by the emitter-photon coupling. The full dynamics is reproduced by a two-state model, in which the photonic polaron interacts with the state $|e,e,\text{vac} \rangle$ (two emitters in their excited state and empty wave guide) through a Rabi coupling frequency that depends on the emitter separation. Our work demonstrates that emitter-photon coupling can lead to an all-to-all momentum space interaction between two-photon bound states and tunable non-Markovian dynamics, opening up a new direction for emitter arrays coupled to a waveguide.
翻訳日:2023-02-04 07:49:57 公開日:2022-07-20
# カー様非線形性を有する浴に結合した2つのエミッタ:指数的減衰、分数集団、ラビ振動

Two emitters coupled to a bath with Kerr-like non-linearity: Exponential decay, fractional populations, and Rabi oscillations ( http://arxiv.org/abs/2207.10203v1 )

ライセンス: Link先を確認
J. Talukdar and D. Blume(参考訳) 1次元非線形導波路に弱結合する2つの非相互作用性2レベルエミッタを考える。 カーのような非線形性のため、ウェーブガイドは散乱連続体に加えて2体結合状態も支持すると考えられる。 このように、ウェーブガイドは非自明なモード構造を持つ浴槽をモデル化する。 時間依存schr\"odinger方程式の解法として、2つのエミッタの放射ダイナミックス(当初は励起状態)が示される。 2エミッタエネルギーが2体結合状態の1つと共鳴するようにエミッタ周波数を変化させることにより、指数的減衰から分数集団、ラビ振動に至る放射ダイナミクスが観測される。 このデチューニングとともに、2つのエミッタの分離に対する依存性について検討する。 近似的なヒルベルト空間の定式化は、有効エミッタ分離と運動量依存相互作用を生じさせ、基礎となる物理メカニズムを解明し、1次元の波動ガイドに非線形性が含まれていない場合に欠如する特徴を示す道筋を与える。 理論的な知見は,多くの実験プラットフォームに適用され,その予測は最先端技術で検証できる。 さらに、弱結合のschr\"odinger方程式に基づく結果は、マスター方程式法の開発に重要な指針を与える。

We consider two non-interacting two-level emitters that are coupled weakly to a one-dimensional non-linear wave guide. Due to the Kerr-like non-linearity, the wave guide considered supports -- in addition to the scattering continuum -- a two-body bound state. As such, the wave guide models a bath with non-trivial mode structure. Solving the time-dependent Schr\"odinger equation, the radiation dynamics of the two emitters, initially prepared in their excited states, is presented. Changing the emitter frequency such that the two-emitter energy is in resonance with one of the two-body bound states, radiation dynamics ranging from exponential decay to fractional populations to Rabi oscillations is observed. Along with the detuning, the dependence on the separation of the two emitters is investigated. Approximate reduced Hilbert space formulations, which result in effective emitter-separation and momentum dependent interactions, elucidate the underlying physical mechanisms and provide an avenue to showcase the features that would be absent if the one-dimensional wave guide did not contain a non-linearity. Our theoretical findings apply to a number of experimental platforms and the predictions can be tested with state-of-the-art technology. In addition, the weak-coupling Schr\"odinger equation based results provide critical guidance for the development of master equation approaches.
翻訳日:2023-02-04 07:49:30 公開日:2022-07-20
# 量子制限ミリ波と光変換

Quantum-limited millimeter wave to optical transduction ( http://arxiv.org/abs/2207.10121v1 )

ライセンス: Link先を確認
Aishwarya Kumar, Aziza Suleymanzade, Mark Stone, Lavanya Taneja, Alexander Anferov, David I. Schuster, and Jonathan Simon(参考訳) 量子情報の長距離伝送は、コンピューティングとセキュア通信の両方のための分散量子情報プロセッサの中心的な要素である。 超伝導/固体量子プロセッサ間の伝送は、個々のマイクロ波光子の光子への変換を必要とする。 トランスダクションへの現在のアプローチでは、電気領域と光領域の固体リンクが採用されており、高い変換効率と帯域幅に要求される強い古典ポンプによって付加される熱ノイズに直面する。 ニュートラル原子は、基底状態の光学光子と、リドベルク状態のマイクロ波/ミリ波光子とを強く結合する、魅力的な代替トランスデューサである。 しかし、どちらの種類の光子にも原子が強く結合し、熱雑音を最小限に抑える低温環境では、まだ達成されていない。 ここでは、$^{85}$Rb原子をトランスデューサとして用いたミリ波(ミリ波)光子の光子への量子制限変換を実演する。 極低温(5ドルk円)環境において、原子のアンサンブルを第1の3次元超伝導共振器と振動抑制光学キャビティとを同時に結合させることにより、これを実現する。 内部変換効率は58(11)%$、変換帯域幅は360(20)$ khz、熱雑音は0.6$ photonsとパラメータフリー理論で測定した。 この手法の拡張により、ミリ波とマイクロ波の両方でほぼ均一効率の変換が可能となる。 より広義には、この最先端のプラットフォームはハイブリッドmm波/光量子科学の新しい分野を開き、強い非局所的な相互作用を伴う量子シミュレーション/計算と、メロジカルまたは計算学的に有用な絡み合った状態の効率的な生成のための強い結合状態の深い操作が期待できる。

Long distance transmission of quantum information is a central ingredient of distributed quantum information processors for both computing and secure communication. Transmission between superconducting/solid-state quantum processors necessitates transduction of individual microwave photons to optical photons. Current approaches to transduction employ solid state links between electrical and optical domains, facing challenges from the thermal noise added by the strong classical pumps required for high conversion efficiency and bandwidth. Neutral atoms are an attractive alternative transducer: they couple strongly to optical photons in their ground states, and to microwave/millimeter-wave photons in their Rydberg states. Nonetheless, strong coupling of atoms to both types of photons, in a cryogenic environment to minimize thermal noise, has yet to be achieved. Here we demonstrate quantum-limited transduction of millimeter-wave (mmwave) photons into optical photons using cold $^{85}$Rb atoms as the transducer. We achieve this by coupling an ensemble of atoms simultaneously to a first-of-its-kind, optically accessible three-dimensional superconducting resonator, and a vibration suppressed optical cavity, in a cryogenic ($5$ K) environment. We measure an internal conversion efficiency of $58(11)\%$, a conversion bandwidth of $360(20)$ kHz and added thermal noise of $0.6$ photons, in agreement with a parameter-free theory. Extensions to this technique will allow near-unity efficiency transduction in both the mmwave and microwave regimes. More broadly, this state-of-the-art platform opens a new field of hybrid mmwave/optical quantum science, with prospects for operation deep in the strong coupling regime for efficient generation of metrologically or computationally useful entangled states and quantum simulation/computation with strong nonlocal interactions.
翻訳日:2023-02-04 07:49:04 公開日:2022-07-20
# 測定に基づく量子計算のゲージ理論

The Gauge Theory of Measurement-Based Quantum Computation ( http://arxiv.org/abs/2207.10098v1 )

ライセンス: Link先を確認
Gabriel Wong, Robert Raussendorf, Bartlomiej Czech(参考訳) 測定に基づく量子計算(mbqc)は、ユニタリゲートの代わりに局所的な測定を用いる量子計算のモデルである。 ここでは、mbqc手続きがゲージ理論の基礎となる基礎を持つことを述べる。 この観点はMBQCのグローバルな側面の理論的基盤を提供する。 ゲージ対称性は、異なる局所参照フレームで同じMBQC計算を定式化する自由を反映している。 MBQCとゲージ理論の主な概念は次のとおりである。 i) MBQCの計算出力はゲージ場のホロノミーである。 (II) 量子測度の本質的ランダム性を補正する測度基底の適応はゲージ変換によってもたらされる。 MBQCのゲージ理論は、MBQCの資源である対称性保護トポロジカル秩序状態(SPT)の絡み合い構造を特徴づける役割も果たす。 我々の枠組みは、凝縮物質と高エネルギー理論のより広い文脈でMBQCを定めている。

Measurement-Based Quantum Computation (MBQC) is a model of quantum computation, which uses local measurements instead of unitary gates. Here we explain that the MBQC procedure has a fundamental basis in an underlying gauge theory. This perspective provides a theoretical foundation for global aspects of MBQC. The gauge symmetry reflects the freedom of formulating the same MBQC computation in different local reference frames. The main identifications between MBQC and gauge theory concepts are: (i) the computational output of MBQC is a holonomy of the gauge field, (ii) the adaption of measurement basis that remedies the inherent randomness of quantum measurements is effected by gauge transformations. The gauge theory of MBQC also plays a role in characterizing the entanglement structure of symmetry-protected topologically (SPT) ordered states, which are resources for MBQC. Our framework situates MBQC in a broader context of condensed matter and high energy theory.
翻訳日:2023-02-04 07:48:11 公開日:2022-07-20
# 局所ハミルトニアン問題の複雑化:改良されたパラメータと励起状態への拡張

Complexity of the Guided Local Hamiltonian Problem: Improved Parameters and Extension to Excited States ( http://arxiv.org/abs/2207.10097v1 )

ライセンス: Link先を確認
Chris Cade, Marten Folkertsma, Jordi Weggemans(参考訳) Recently it was shown that the so-called guided local Hamiltonian problem -estimating the smallest eigenvalue of a $k$-local Hamiltonian when provided with a description of a quantum state ('guiding state') that is guaranteed to have substantial overlap with the true groundstate -- is BQP-complete for $k \geq 6$ when the required precision is inverse polynomial in the system size $n$, and remains hard even when the overlap of the guiding state with the groundstate is close to a constant $\left(\frac12\Omega\left(\frac{1}{\mathop{poly}(n)}\right)\right)$. 我々はこの結果を3つの方法で改善する:BQP完全であることを示す。 i)ハミルトニアンは2-局所である。 二 誘導状態と目標固有状態の重複は、1-\Omega\left(\frac{1}{\mathop{poly}(n)}\right)$、及び 三 基底状態だけではなく、励起状態のエネルギーを推定することに関心があるとき。 興味深いことに iii)それを最初に示すことでのみ可能とすること ii) 保持。

Recently it was shown that the so-called guided local Hamiltonian problem -- estimating the smallest eigenvalue of a $k$-local Hamiltonian when provided with a description of a quantum state ('guiding state') that is guaranteed to have substantial overlap with the true groundstate -- is BQP-complete for $k \geq 6$ when the required precision is inverse polynomial in the system size $n$, and remains hard even when the overlap of the guiding state with the groundstate is close to a constant $\left(\frac12 - \Omega\left(\frac{1}{\mathop{poly}(n)}\right)\right)$. We improve upon this result in three ways: by showing that it remains BQP-complete when i) the Hamiltonian is 2-local, ii) the overlap between the guiding state and target eigenstate is as large as $1 - \Omega\left(\frac{1}{\mathop{poly}(n)}\right)$, and iii) when one is interested in estimating energies of excited states, rather than just the groundstate. Interestingly, iii) is only made possible by first showing that ii) holds.
翻訳日:2023-02-04 07:47:56 公開日:2022-07-20
# 自動音声認識における半教師あり学習の限界を押し上げる

Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition ( http://arxiv.org/abs/2010.10504v2 )

ライセンス: Link先を確認
Yu Zhang, James Qin, Daniel S. Park, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Quoc V. Le and Yonghui Wu(参考訳) 我々は、Libri-Lightデータセットのラベルなし音声を利用して、LibriSpeechの最先端結果を得るために、半教師付き学習の最近の発展を自動音声認識に活用する。 より正確には、wav2vec 2.0事前学習を用いて、巨大なConformerモデルを用いてSpecAugmentを用いてノイズの多い学生訓練を行う。 これにより、現在最先端のwers 1.7%/3.3%に対して、librispeechテスト/テストセットで1.4%/2.6%のワードエラーレート(wers)を実現できる。

We employ a combination of recent developments in semi-supervised learning for automatic speech recognition to obtain state-of-the-art results on LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More precisely, we carry out noisy student training with SpecAugment using giant Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.
翻訳日:2022-10-05 08:05:25 公開日:2022-07-20
# ソーシャルメディアデータを用いたトランスジェンダーコミュニティ感性分析 : 自然言語処理アプローチ

Transgender Community Sentiment Analysis from Social Media Data: A Natural Language Processing Approach ( http://arxiv.org/abs/2010.13062v2 )

ライセンス: Link先を確認
Yuqiao Liu, Yudan Wang, Ying Zhao and Zhixiang Li(参考訳) トランスジェンダーのコミュニティは、一般人口と比べて精神的な健康状態が大きく異なる。 トランスジェンダーの人々が投稿したソーシャルメディアデータの解釈は、これらのセクシャルマイノリティグループの感情をよりよく理解し、早期介入を適用するのに役立つかもしれない。 本研究では,トランスジェンダーが投稿した300のソーシャルメディアコメントを,否定的,肯定的,中立的な感情に分類する。 5つの機械学習アルゴリズムと2つのディープニューラルネットワークを用いて、注釈データに基づく感情分析分類器を構築する。 その結果、アノテーションは3つのクラスで0.8以上の高いcohen's kappaスコアで信頼できることがわかった。 lstmモデルは 0.85 以上の精度と 0.876 の auc の最適性能をもたらす。 次のステップでは、より大規模な注釈付きデータセット上での高度な自然言語処理アルゴリズムの使用にフォーカスします。

Transgender community is experiencing a huge disparity in mental health conditions compared with the general population. Interpreting the social medial data posted by transgender people may help us understand the sentiments of these sexual minority groups better and apply early interventions. In this study, we manually categorize 300 social media comments posted by transgender people to the sentiment of negative, positive, and neutral. 5 machine learning algorithms and 2 deep neural networks are adopted to build sentiment analysis classifiers based on the annotated data. Results show that our annotations are reliable with a high Cohen's Kappa score over 0.8 across all three classes. LSTM model yields an optimal performance of accuracy over 0.85 and AUC of 0.876. Our next step will focus on using advanced natural language processing algorithms on a larger annotated dataset.
翻訳日:2022-10-03 04:39:59 公開日:2022-07-20
# 教師なし医用画像セグメンテーションのためのコントラスト登録

Contrastive Registration for Unsupervised Medical Image Segmentation ( http://arxiv.org/abs/2011.08894v3 )

ライセンス: Link先を確認
Lihao Liu, Angelica I Aviles-Rivero, Carola-Bibiane Sch\"onlieb(参考訳) 医療画像のセグメンテーションは、いくつかの診断プロセスの第一段階として機能するため、臨床的使用には不可欠である。 監督技術を用いて大きな成功が報告されている一方で、大きくて表現力に富んだラベル付き集合を想定している。 これは、アノテーションが高価で時間がかかり、人間のバイアスに固有の医療領域において強い仮定です。 この問題に対処するために、文献では教師なしの技術が提案されているが、変換パターンの学習が困難であるため、まだ未解決の問題である。 そこで本研究では,教師なし医用画像分割のための新しいCNNベースのコントラスト登録アーキテクチャに,新たな最適化モデルを提案する。 このアプローチの核心は,画像レベルの登録と特徴レベルを対比学習機構から活用し,登録に基づくセグメンテーションを行うことである。 まず,教師なし医用画像セグメンテーションの登録を通して画像から画像への変換パターンをキャプチャするアーキテクチャを提案する。 第2に,登録アーキテクチャに対比学習機構を組み込んで,特徴レベルでのネットワークの識別能力を高める。 提案手法は,既存の教師なし技術の主な欠点を軽減できることを示す。 数値的および視覚的な実験により,本手法が2つの主要な医用画像データセットにおける最先端の教師なしセグメンテーション法を実質的に上回っていることを実証した。

Medical image segmentation is a relevant task as it serves as the first step for several diagnosis processes, thus it is indispensable in clinical usage. Whilst major success has been reported using supervised techniques, they assume a large and well-representative labelled set. This is a strong assumption in the medical domain where annotations are expensive, time-consuming, and inherent to human bias. To address this problem, unsupervised techniques have been proposed in the literature yet it is still an open problem due to the difficulty of learning any transformation pattern. In this work, we present a novel optimisation model framed into a new CNN-based contrastive registration architecture for unsupervised medical image segmentation. The core of our approach is to exploit image-level registration and feature-level from a contrastive learning mechanism, to perform registration-based segmentation. Firstly, we propose an architecture to capture the image-to-image transformation pattern via registration for unsupervised medical image segmentation. Secondly, we embed a contrastive learning mechanism into the registration architecture to enhance the discriminating capacity of the network in the feature-level. We show that our proposed technique mitigates the major drawbacks of existing unsupervised techniques. We demonstrate, through numerical and visual experiments, that our technique substantially outperforms the current state-of-the-art unsupervised segmentation methods on two major medical image datasets.
翻訳日:2022-09-24 17:05:58 公開日:2022-07-20
# 造影スペクトルマンモグラフィにおける病変検出

Lesion detection in contrast enhanced spectral mammography ( http://arxiv.org/abs/2207.09692v1 )

ライセンス: Link先を確認
Cl\'ement Jailin (GE Healthcare), Pablo Milioni (GE Healthcare), Zhijin Li (GE Healthcare), R\u{a}zvan Iordache (GE Healthcare), Serge Muller (GE Healthcare)(参考訳) 背景 & 目的: 乳房画像解析のためのニューラルネットワークモデルの近年の出現は、コンピュータ支援診断における画期的な進歩である。 このアプローチは、大規模なデータベースへのアクセスが複雑であるContrast Enhanced Spectral Mammography (CESM)ではまだ開発されていない。 本研究は,CESMリコンビネート画像に対する深層学習に基づくコンピュータ支援診断の開発を提案する。 材料 \&方法: 様々な病院および異なる取得システムから生検陽性病変を有する大規模なCESM診断データセットを収集した。 注釈付きデータは、トレーニングの患者レベル(55%)、バリデーション(15%)、および最先端検出アーキテクチャを備えたディープニューラルネットワークのテスト(30%)で分割された。 自由受信機動作特性(FROC)を用いて検出モデルの評価を行った。 1)全病変 2)生検病変、及び 3)悪性病変。 ROC曲線を用いて乳癌の分類を行った。 測定値は最終的に臨床結果と比較された。 結果: 悪性病変の検出には, 感度が高く (se>0.95) , 画像当たりの偽陽性率は 0.61 であった。 悪性腫瘍の分類では、このモデルが臨床CESM診断結果の範囲でAUC(Area Under the Curve)に到達した。 結論:本CADはCESM画像の病変検出と分類モデルの最初の開発である。 大規模なデータセットに基づいて訓練され、生検決定の管理を助け、放射線医が臨床治療を修正する複雑な病変を検出するのに役立つ可能性がある。

Background \& purpose: The recent emergence of neural networks models for the analysis of breast images has been a breakthrough in computer aided diagnostic. This approach was not yet developed in Contrast Enhanced Spectral Mammography (CESM) where access to large databases is complex. This work proposes a deep-learning-based Computer Aided Diagnostic development for CESM recombined images able to detect lesions and classify cases. Material \& methods: A large CESM diagnostic dataset with biopsy-proven lesions was collected from various hospitals and different acquisition systems. The annotated data were split on a patient level for the training (55%), validation (15%) and test (30%) of a deep neural network with a state-of-the-art detection architecture. Free Receiver Operating Characteristic (FROC) was used to evaluate the model for the detection of 1) all lesions, 2) biopsied lesions and 3) malignant lesions. ROC curve was used to evaluate breast cancer classification. The metrics were finally compared to clinical results. Results: For the evaluation of the malignant lesion detection, at high sensitivity (Se>0.95), the false positive rate was at 0.61 per image. For the classification of malignant cases, the model reached an Area Under the Curve (AUC) in the range of clinical CESM diagnostic results. Conclusion: This CAD is the first development of a lesion detection and classification model for CESM images. Trained on a large dataset, it has the potential to be used for helping the management of biopsy decision and for helping the radiologist detecting complex lesions that could modify the clinical treatment.
翻訳日:2022-08-07 14:35:34 公開日:2022-07-20
# 音声対画像生成のためのクロスモーダルコントラスト表現学習

Cross-Modal Contrastive Representation Learning for Audio-to-Image Generation ( http://arxiv.org/abs/2207.12121v1 )

ライセンス: Link先を確認
HaeChun Chung, JooYong Shim, Jong-Kook Kim(参考訳) 特定の情報に対する複数のモダリティは、その情報に対する様々な視点を提供し、情報の理解を改善することができる。 したがって、既存のデータと異なるモダリティのデータを生成して理解を深めることが重要かもしれない。 本稿では,音声から有用な特徴を抽出し,生成フェーズで使用するために,クロスモーダル音声対画像生成問題を調査し,クロスモーダルコントラスト表現学習(cmcrl)を提案する。 実験の結果,CMCRLは過去の研究よりも画像の品質を向上させることがわかった。

Multiple modalities for certain information provide a variety of perspectives on that information, which can improve the understanding of the information. Thus, it may be crucial to generate data of different modality from the existing data to enhance the understanding. In this paper, we investigate the cross-modal audio-to-image generation problem and propose Cross-Modal Contrastive Representation Learning (CMCRL) to extract useful features from audios and use it in the generation phase. Experimental results show that CMCRL enhances quality of images generated than previous research.
翻訳日:2022-08-07 14:33:46 公開日:2022-07-20
# 信号-信号-信号変換による心臓運動からの呼吸信号推定の学習

Learning to estimate a surrogate respiratory signal from cardiac motion by signal-to-signal translation ( http://arxiv.org/abs/2208.01034v1 )

ライセンス: Link先を確認
Akshay Iyer, Clifford Lindsay, Hendrik Pretorius, Michael King(参考訳) 本研究では,リバインドされたリストモードSPECT画像から発生するノイズのある動作信号を,外部モーショントラッキングシステム(EMT)から見られるような高品質な代理信号に変換するニューラルネットワークベースの手法を開発した。 この合成サロゲートは、EMTサロゲート信号のために開発された既存の動作補正手法の入力として使用される。 提案手法では,ノイズのある内部動作を外部のサーロゲートに変換するために,ニューラルネットワークの2つのファミリーをテストする。 1)完全接続ネットワーク及び 2)畳み込みニューラルネットワーク。 本データセットは,心動を推定した心血流SPECT(心電図)と,市販のVicon Motion Tracking System (GT: EMT signal) を用いて取得した呼吸補助運動信号とを併用して作成した。 予測サロゲートとEMT信号間の平均Rスコアは0.76であった。 我々の目標は、EMTを必要とせず、SPECTからの呼吸運動補正のためのニューラルネットワークの最適化をガイドする基盤を構築することである。

In this work, we develop a neural network-based method to convert a noisy motion signal generated from segmenting rebinned list-mode cardiac SPECT images, to that of a high-quality surrogate signal, such as those seen from external motion tracking systems (EMTs). This synthetic surrogate will be used as input to our pre-existing motion correction technique developed for EMT surrogate signals. In our method, we test two families of neural networks to translate noisy internal motion to external surrogate: 1) fully connected networks and 2) convolutional neural networks. Our dataset consists of cardiac perfusion SPECT acquisitions for which cardiac motion was estimated (input: center-of-count-mass - COM signals) in conjunction with a respiratory surrogate motion signal acquired using a commercial Vicon Motion Tracking System (GT: EMT signals). We obtained an average R-score of 0.76 between the predicted surrogate and the EMT signal. Our goal is to lay a foundation to guide the optimization of neural networks for respiratory motion correction from SPECT without the need for an EMT.
翻訳日:2022-08-07 14:28:41 公開日:2022-07-20
# 低消費電力ウェアラブルモノのインターネットシステムにおけるリアルタイムてんかん発作検出の多対一知識蒸留

Many-to-One Knowledge Distillation of Real-Time Epileptic Seizure Detection for Low-Power Wearable Internet of Things Systems ( http://arxiv.org/abs/2208.00885v1 )

ライセンス: Link先を確認
Saleh Baghersalimi, Alireza Amirshahi, Farnaz Forooghifar, Tomas Teijeiro, Amir Aminifar, David Atienza(参考訳) 低消費電力のウェアラブルIoT(Internet of Things)システムを日常的な健康モニタリングに統合することは、現在進行中の課題である。 最近のウェアラブルの計算能力の進歩により、複数のバイオシグナーを活用し、ディープニューラルネットワーク(dnn)のような高性能アルゴリズムを使用することで、複雑なシナリオをターゲットにすることができる。 しかし、アルゴリズムのパフォーマンスと限られたリソースを持つIoTプラットフォームの低電力要件との間にはトレードオフがある。 さらに、物理的に大きくてマルチバイオシグナールベースのウェアラブルは、患者に大きな不快をもたらす。 したがって、日常的にIoTデバイスを継続的に使用するためには、消費電力と不快感を減らす必要がある。 これらの課題を克服するために,てんかん発作検出の文脈において,iotウェアラブルシステムにおける単一生体信号処理を対象とした多対一のナレッジ蒸留手法を提案する。 まず、高度に正確なマルチバイオサインDNNを取得し、次に、元のマルチバイオサインDNNに匹敵する精度を達成するIoTシステムのための単一バイオサインDNNソリューションを開発するために、我々のアプローチを適用する。 実生活シナリオへのアプローチの実用性を評価するため,kendryte k210やraspberry pi zeroといった最先端エッジコンピューティングプラットフォーム上で,総合的なシミュレーション実験を行った。

Integrating low-power wearable Internet of Things (IoT) systems into routine health monitoring is an ongoing challenge. Recent advances in the computation capabilities of wearables make it possible to target complex scenarios by exploiting multiple biosignals and using high-performance algorithms, such as Deep Neural Networks (DNNs). There is, however, a trade-off between performance of the algorithms and the low-power requirements of IoT platforms with limited resources. Besides, physically larger and multi-biosignal-based wearables bring significant discomfort to the patients. Consequently, reducing power consumption and discomfort is necessary for patients to use IoT devices continuously during everyday life. To overcome these challenges, in the context of epileptic seizure detection, we propose a many-to-one signals knowledge distillation approach targeting single-biosignal processing in IoT wearable systems. The starting point is to get a highly-accurate multi-biosignal DNN, then apply our approach to develop a single-biosignal DNN solution for IoT systems that achieves an accuracy comparable to the original multi-biosignal DNN. To assess the practicality of our approach to real-life scenarios, we perform a comprehensive simulation experiment analysis on several state-of-the-art edge computing platforms, such as Kendryte K210 and Raspberry Pi Zero.
翻訳日:2022-08-07 14:27:56 公開日:2022-07-20
# AutoDiCE: エッジにおける完全に自動化された分散CNN推論

AutoDiCE: Fully Automated Distributed CNN Inference at the Edge ( http://arxiv.org/abs/2207.12113v1 )

ライセンス: Link先を確認
Xiaotian Guo and Andy D.Pimentel and Todor Stefanov(参考訳) 畳み込みニューラルネットワーク(CNN)に基づくディープラーニングアプローチは、画像分類や音声認識を含む幅広い応用領域で広く利用され、非常に成功している。 トレーニング済みのCNN、すなわちモデル推論の実行については、今日ではクラウドからエッジへの移行を目撃しています。 残念なことに、エッジデバイスに大規模な計算およびメモリ集約型cnnをデプロイおよび推論することは、通常、電力予算と計算/メモリリソースが限られているため、難しい。 この課題に対処する1つのアプローチは、CNNを適切に分割し、それぞれのCNNパーティションを別々のエッジデバイス上で実行することで、複数のエッジデバイスで利用可能なリソースをすべて活用して、大規模なCNNをデプロイおよび実行することである。 大規模なCNNを複数のエッジデバイスで配布、デプロイ、実行することは望ましいアプローチであるが、現在、トレーニング済みのCNNモデルをCNNパーティショニング仕様とともに取り、Edgeでの分散CNN推論を促進するために複数のエッジデバイス上でのCNNモデルの分割とデプロイを完全に自動化する設計およびプログラミングフレームワークは存在しない。 そこで本稿では,CNNモデルのサブモデルへの自動分割と,複数の,おそらく異種であるエッジデバイス上でのこれらのサブモデルの分散的かつ協調的な実行のためのコード生成を実現するための,AutoDiCEという新しいフレームワークを提案する。 実験の結果、AutoDiCEは、エッジデバイス当たりのエネルギー消費とメモリ使用量の削減による分散CNN推論を実現し、システム全体のスループットを同時に改善できることがわかった。

Deep Learning approaches based on Convolutional Neural Networks (CNNs) are extensively utilized and very successful in a wide range of application areas, including image classification and speech recognition. For the execution of trained CNNs, i.e. model inference, we nowadays witness a shift from the Cloud to the Edge. Unfortunately, deploying and inferring large, compute and memory intensive CNNs on edge devices is challenging because these devices typically have limited power budgets and compute/memory resources. One approach to address this challenge is to leverage all available resources across multiple edge devices to deploy and execute a large CNN by properly partitioning the CNN and running each CNN partition on a separate edge device. Although such distribution, deployment, and execution of large CNNs on multiple edge devices is a desirable and beneficial approach, there currently does not exist a design and programming framework that takes a trained CNN model, together with a CNN partitioning specification, and fully automates the CNN model splitting and deployment on multiple edge devices to facilitate distributed CNN inference at the Edge. Therefore, in this paper, we propose a novel framework, called AutoDiCE, for automated splitting of a CNN model into a set of sub-models and automated code generation for distributed and collaborative execution of these sub-models on multiple, possibly heterogeneous, edge devices, while supporting the exploitation of parallelism among and within the edge devices. Our experimental results show that AutoDiCE can deliver distributed CNN inference with reduced energy consumption and memory usage per edge device, and improved overall system throughput at the same time.
翻訳日:2022-07-31 14:21:32 公開日:2022-07-20
# 変圧器を用いた行動品質評価

Action Quality Assessment using Transformers ( http://arxiv.org/abs/2207.12318v1 )

ライセンス: Link先を確認
Abhay Iyer, Mohammad Alali, Hemanth Bodala, Sunit Vaidya(参考訳) アクション品質アセスメント(AQA)は、ビデオベースのアプリケーションにおいて、フレームごとのスコアのばらつきによって難しい課題である。 既存の方法は畳み込みに基づくアプローチによってこの問題に対処するが、長距離依存関係を効果的にキャプチャする限界に悩む。 近年のトランスフォーマーの進歩により,従来の畳み込み型アーキテクチャの代替となるものと考えられる。 具体的には、トランスフォーマーベースのモデルは、長距離依存関係を効果的にキャプチャし、計算を並列化し、ダイビングビデオのより広い受容場を提供することで、AQAの課題を解決できるだろうか? 提案手法の有効性を実証するため, 総合実験を行い, 競合するスピアマン相関スコア0.9317を達成した。 さらに、モデルの性能に対するハイパーパラメータの影響を調査し、AQAにおけるトランスフォーマーを活用するための新しいパスを舗装する。

Action quality assessment (AQA) is an active research problem in video-based applications that is a challenging task due to the score variance per frame. Existing methods address this problem via convolutional-based approaches but suffer from its limitation of effectively capturing long-range dependencies. With the recent advancements in Transformers, we show that they are a suitable alternative to the conventional convolutional-based architectures. Specifically, can transformer-based models solve the task of AQA by effectively capturing long-range dependencies, parallelizing computation, and providing a wider receptive field for diving videos? To demonstrate the effectiveness of our proposed architectures, we conducted comprehensive experiments and achieved a competitive Spearman correlation score of 0.9317. Additionally, we explore the hyperparameters effect on the model's performance and pave a new path for exploiting Transformers in AQA.
翻訳日:2022-07-31 14:14:17 公開日:2022-07-20
# 制限データモデルにおける一般化保証の改善

Improved Generalization Guarantees in Restricted Data Models ( http://arxiv.org/abs/2207.10668v1 )

ライセンス: Link先を確認
Elbert Du and Cynthia Dwork(参考訳) ディファレンシャル・プライバシは、適応的、あるいは探索的、データ分析によって引き起こされる妥当性の脅威から保護されることが知られている。アナリストが反対に、基礎となる人口に対する利子量の真の価値から逸脱した統計的な推定値を探したとしても、なおさらだ。 この保護のコストは、差分プライバシーによって生じる精度損失である。 本研究では, 遺伝学文献における標準モデルに着想を得て, 個体が属性の列で表されるデータモデルと, 遠方の属性が弱く相関している特性について考察する。 この仮定では、データの異なる部分におけるプライバシー予算の「再利用」が可能であり、オーバーフィッティングのリスクを増大させることなく、精度を大幅に向上できることを示す。

Differential privacy is known to protect against threats to validity incurred due to adaptive, or exploratory, data analysis -- even when the analyst adversarially searches for a statistical estimate that diverges from the true value of the quantity of interest on the underlying population. The cost of this protection is the accuracy loss incurred by differential privacy. In this work, inspired by standard models in the genomics literature, we consider data models in which individuals are represented by a sequence of attributes with the property that where distant attributes are only weakly correlated. We show that, under this assumption, it is possible to "re-use" privacy budget on different portions of the data, significantly improving accuracy without increasing the risk of overfitting.
翻訳日:2022-07-25 13:50:55 公開日:2022-07-20
# 2022ストータリングサブチャレンジを用いたエンドツーエンド・自己教師付き学習

End-to-End and Self-Supervised Learning for ComParE 2022 Stuttering Sub-Challenge ( http://arxiv.org/abs/2207.10817v1 )

ライセンス: Link先を確認
Shakeel Ahmad Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni(参考訳) 本稿では,ACM Multimedia 2022 ComParE Challengeに参加するために,自己指導型で訓練されたエンドツーエンド・音声埋め込みシステムについて述べる。 特に,プリトレーニングされたwav2vec2.0モデルからの埋め込みを,ksofデータセット上のsd(stuttering detection)に活用する。 埋め込み抽出後,SDのいくつかの手法をベンチマークした。 提案した自己教師型SDシステムは, 検証とテストセットにおいてそれぞれ36.9%, 41.0%のUARを達成し, 検証セットは31.32%, テストセットは1.49%と最良(DeepSpectrum)チャレンジベースライン(CBL)よりも高い。 さらに,メル周波数ケプストラム係数 (MFCC) との結合層埋め込みは,それぞれCBL上での検証およびテストセットにおいて,UARを33.81%,5.45%向上させることを示した。 最後に、wav2vec2.0の全層にわたる合計情報は、検証とテストセットにおいてそれぞれ45.91%と5.69%の相対マージンでcblを上回っていることを実証する。 大辞典:計算パラ言語学

In this paper, we present end-to-end and speech embedding based systems trained in a self-supervised fashion to participate in the ACM Multimedia 2022 ComParE Challenge, specifically the stuttering sub-challenge. In particular, we exploit the embeddings from the pre-trained Wav2Vec2.0 model for stuttering detection (SD) on the KSoF dataset. After embedding extraction, we benchmark with several methods for SD. Our proposed self-supervised based SD system achieves a UAR of 36.9% and 41.0% on validation and test sets respectively, which is 31.32% (validation set) and 1.49% (test set) higher than the best (DeepSpectrum) challenge baseline (CBL). Moreover, we show that concatenating layer embeddings with Mel-frequency cepstral coefficients (MFCCs) features further improves the UAR of 33.81% and 5.45% on validation and test sets respectively over the CBL. Finally, we demonstrate that the summing information across all the layers of Wav2Vec2.0 surpasses the CBL by a relative margin of 45.91% and 5.69% on validation and test sets respectively. Grand-challenge: Computational Paralinguistics ChallengE
翻訳日:2022-07-25 13:49:18 公開日:2022-07-20
# クラウドにおけるバッチ確率ビンパッキング問題を解決する - 確率的最適化アプローチ

Solving the Batch Stochastic Bin Packing Problem in Cloud: A Chance-constrained Optimization Approach ( http://arxiv.org/abs/2207.11122v1 )

ライセンス: Link先を確認
Jie Yan, Yunlei Lu, Liting Chen, Si Qin, Yixin Fang, Qingwei Lin, Thomas Moscibroda, Saravan Rajmohan and Dongmei Zhang(参考訳) 本稿では,コンテナをマシンにスケジューリングするファーストパーティクラウドにおける重要なリソース割り当て問題について検討する。 サービスには数十のサービスがあり、各サービスは動的リソース使用量で一組の均一なコンテナを実行する。 この問題はSBPP(Stochastic Bin Packing Problem)として自然に定式化できる。 しかしながら、従来のSBPP研究は、空の機械の場合、すなわち使用機械の数を最小化する目的が、空でない機械とのより一般的な現実に対して十分に定義されていないことに焦点を当てることが多い。 本稿は,このギャップを埋めることを目的とする。 まず, 最大使用資源を確率で測定し, 空機と空機と空機の両方に一貫性があることを証明し, sbppを偶然の制約下で再構成する, 新たな客観的指標, ucac(compact capacity at confidence)を定義した。 第2に,生成的アプローチでコンテナリソースの利用分布をモデル化することにより,実世界のアプリケーションのトレースデータによって検証されるgaussianを用いてucacを近似できることを明らかにする。 第3に,等価なカットストック変種と2つのヒューリスティックスに基づく解法であるucac best fit,bi-level heuristicsを解くことで,正確な解法を提案する。 我々は,これらの解法を,合成データセットと実アプリケーショントレースの両方で実験的に評価し,従来のSBPP最適解法と比較して,リソース違反の少ない使用機数を最小化する手法の利点を実証した。

This paper investigates a critical resource allocation problem in the first party cloud: scheduling containers to machines. There are tens of services and each service runs a set of homogeneous containers with dynamic resource usage; containers of a service are scheduled daily in a batch fashion. This problem can be naturally formulated as Stochastic Bin Packing Problem (SBPP). However, traditional SBPP research often focuses on cases of empty machines, whose objective, i.e., to minimize the number of used machines, is not well-defined for the more common reality with nonempty machines. This paper aims to close this gap. First, we define a new objective metric, Used Capacity at Confidence (UCaC), which measures the maximum used resources at a probability and is proved to be consistent for both empty and nonempty machines, and reformulate the SBPP under chance constraints. Second, by modeling the container resource usage distribution in a generative approach, we reveal that UCaC can be approximated with Gaussian, which is verified by trace data of real-world applications. Third, we propose an exact solver by solving the equivalent cutting stock variant as well as two heuristics-based solvers -- UCaC best fit, bi-level heuristics. We experimentally evaluate these solvers on both synthetic datasets and real application traces, demonstrating our methodology's advantage over traditional SBPP optimal solver minimizing the number of used machines, with a low rate of resource violations.
翻訳日:2022-07-25 13:31:57 公開日:2022-07-20
# DLインナーシティ駆動回廊検出器のためのシステム駆動型地中真実自動生成法

A System-driven Automatic Ground Truth Generation Method for DL Inner-City Driving Corridor Detectors ( http://arxiv.org/abs/2207.11234v1 )

ライセンス: Link先を確認
Jona Ruthardt (Robert Bosch GmbH) and Thomas Michalke (Robert Bosch GmbH)(参考訳) データ駆動認識アプローチは、自動運転システムにおいて確立されている。 多くの分野では超人的なパフォーマンスが達成される。 予測と計画のアプローチとは異なり、主に教師付き学習アルゴリズムが知覚領域に使用される。 したがって、大きな課題は、地上真実データの効率的な生成である。 知覚モジュールはセンサーの近くに位置するため、通常は高帯域幅の生のセンサーデータで動作します。 そのため、グランド・トゥルート・ラベルの生成は、通常、大きな手動作業を引き起こすため、ラベルそのものに高いコストがかかり、必要な品質管理が必要となる。 そこで本研究では,150倍以上の作業労力を削減し,乾燥可能なego廊下における意味セグメンテーションの自動ラベリング手法を提案する。 提案する総括的アプローチは、自動データループで使用することができ、依存する知覚モジュールを継続的に改善することができる。

Data-driven perception approaches are well-established in automated driving systems. In many fields even super-human performance is reached. Unlike prediction and planning approaches, mainly supervised learning algorithms are used for the perception domain. Therefore, a major remaining challenge is the efficient generation of ground truth data. As perception modules are positioned close to the sensor, they typically run on raw sensor data of high bandwidth. Due to that, the generation of ground truth labels typically causes a significant manual effort, which leads to high costs for the labelling itself and the necessary quality control. In this contribution, we propose an automatic labeling approach for semantic segmentation of the drivable ego corridor that reduces the manual effort by a factor of 150 and more. The proposed holistic approach could be used in an automated data loop, allowing a continuous improvement of the depending perception modules.
翻訳日:2022-07-25 12:43:45 公開日:2022-07-20
# ドローンによる点検画像を用いた風車翼面のひび割れの同定

Learning to identify cracks on wind turbine blade surfaces using drone-based inspection images ( http://arxiv.org/abs/2207.11186v1 )

ライセンス: Link先を確認
Akshay Iyer, Linh Nguyen, Shweta Khushu(参考訳) 風力エネルギーはパリ協定の目標を達成するための主要な方法の1つと期待されているが、その運用・保守コスト(o&m)の効果的な管理に大きく依存している。 ブレード故障は全O&Mコストの3分の1を占めるため、ブレード損傷、特に亀裂の正確な検出は、持続的な運用とコスト削減に非常に重要である。 伝統的に、損傷検査は完全に手動のプロセスであり、主観的、エラーを起こしやすく、時間がかかる。 したがって,本研究では,損傷検査プロセスにおいて,より客観性やスケーラビリティ,再現性を高めて,より少ない亀裂を見逃すことができる。 ドローンによる検査によって収集された、ブレード損傷の大規模なデータセットに基づいてトレーニングされたディープラーニングモデルを構築し、き裂を正しく検出する。 私たちのモデルは、すでに生産されており、0.96のリコールで100万以上のダメージを処理しています。 また,クラスアクティベーションマップを用いたモデルの解釈可能性にも注目して,モデルの動作を覗き見する。 このモデルは、人間の専門家より優れているだけでなく、特定のトリッキーなケースでも優れている。 そこで本研究では, ひび割れなどのブレード故障によるO&Mコストを削減し, 風力エネルギー導入の促進を図る。

Wind energy is expected to be one of the leading ways to achieve the goals of the Paris Agreement but it in turn heavily depends on effective management of its operations and maintenance (O&M) costs. Blade failures account for one-third of all O&M costs thus making accurate detection of blade damages, especially cracks, very important for sustained operations and cost savings. Traditionally, damage inspection has been a completely manual process thus making it subjective, error-prone, and time-consuming. Hence in this work, we bring more objectivity, scalability, and repeatability in our damage inspection process, using deep learning, to miss fewer cracks. We build a deep learning model trained on a large dataset of blade damages, collected by our drone-based inspection, to correctly detect cracks. Our model is already in production and has processed more than a million damages with a recall of 0.96. We also focus on model interpretability using class activation maps to get a peek into the model workings. The model not only performs as good as human experts but also better in certain tricky cases. Thus, in this work, we aim to increase wind energy adoption by decreasing one of its major hurdles - the O\&M costs resulting from missing blade failures like cracks.
翻訳日:2022-07-25 12:26:36 公開日:2022-07-20
# AudioScopeV2:オープンドメインオンスクリーン音の校正のためのオーディオ・ビジュアルアテンションアーキテクチャ

AudioScopeV2: Audio-Visual Attention Architectures for Calibrated Open-Domain On-Screen Sound Separation ( http://arxiv.org/abs/2207.10141v1 )

ライセンス: Link先を確認
Efthymios Tzinis, Scott Wisdom, Tal Remez, John R. Hershey(参考訳) そこで本研究では,音声の分離を学習し,実写映像を視聴することで映像上のオブジェクトと関連付けることのできる,最先端のユニバーサルオーディオ・ビジュアル・オン・スクリーン音声分離システムであるaudioscopev2を紹介する。 本研究では,空間的注意の粗さの解消,音声分離モデルの収束性の低さ,訓練および評価データの多様性の制限,スクリーン上の音の保存とオフスクリーン音の抑制とのトレードオフを考慮できないことなど,従来の音声-視覚的音分離の限界について述べる。 これらの問題に対するソリューションを提供しています。 提案するクロスモーダル・セルフアテンションネットワークアーキテクチャは、時間とともに細かな解像度でオーディオ-視覚的依存関係をキャプチャし、多くのパフォーマンスを犠牲にすることなく、より長いビデオにスケールできる効率的な分離可能な変種も提案する。 また,音声のみの分離モデルの事前学習により,結果が大幅に向上することがわかった。 訓練と評価のために,実写ビデオ(yfcc100m)の大規模データベースから,画面上の音声に対する新たな人間的アノテーションを収集した。 この新しいデータセットは、より多様で難しい。 最後に,画面上再構成とオフスクリーン抑圧の正確な調整を可能にするキャリブレーション手法を提案する。 実験の結果,計算量が少ない従来の方法に比べて,画面上での分離性能が大幅に向上した。

We introduce AudioScopeV2, a state-of-the-art universal audio-visual on-screen sound separation system which is capable of learning to separate sounds and associate them with on-screen objects by looking at in-the-wild videos. We identify several limitations of previous work on audio-visual on-screen sound separation, including the coarse resolution of spatio-temporal attention, poor convergence of the audio separation model, limited variety in training and evaluation data, and failure to account for the trade off between preservation of on-screen sounds and suppression of off-screen sounds. We provide solutions to all of these issues. Our proposed cross-modal and self-attention network architectures capture audio-visual dependencies at a finer resolution over time, and we also propose efficient separable variants that are capable of scaling to longer videos without sacrificing much performance. We also find that pre-training the separation model only on audio greatly improves results. For training and evaluation, we collected new human annotations of onscreen sounds from a large database of in-the-wild videos (YFCC100M). This new dataset is more diverse and challenging. Finally, we propose a calibration procedure that allows exact tuning of on-screen reconstruction versus off-screen suppression, which greatly simplifies comparing performance between models with different operating points. Overall, our experimental results show marked improvements in on-screen separation performance under much more general conditions than previous methods with minimal additional computational complexity.
翻訳日:2022-07-22 13:48:59 公開日:2022-07-20
# 未特定モデルを学ぶ

Learning Underspecified Models ( http://arxiv.org/abs/2207.10140v1 )

ライセンス: Link先を確認
In-Koo Cho and Jonathan Libgober(参考訳) 本稿では,環境の真の仕様を知りながら,最適な動作を学べるかどうかを検討する。 我々は、市場需要の未特定モデルで独占を担っているが、市場の結果を観察できる実験室として最適な価格問題を選択する。 モデル仕様が完全かつ均一に固定された従来の学習モデルとは対照的に、モノポリスはデータから要求曲線の仕様とパラメータを学習しなければならない。 機械学習の文献(Shalev-Shwartz と Ben-David (2014))に従って,データに基づいて最適な価格を予測するアルゴリズムとして学習力学を定式化する。 PAC学習性に着想を得て,本アルゴリズムは,真の仕様の一部と整合したモデルのクラスに対して,妥当なデータ量で正確な予測をしなければならないことを要求して,学習可能性の新しい概念を開発する。 さらに, モノポリスは, PAC-guaranteeing the optimal solution (1986) を対象とする最小数のパラメータを持つアルゴリズムを求めることにより, アルゴリズムのペイオフと複雑性コストに対して, 語彙的優先性を持つと仮定する(Rubinstein (1986))。 本研究では, リプシッツ連続限界収益曲線を厳密に減少させた需要曲線に対して, 実需要曲線が線形でない場合でも, 最適アルゴリズムは勾配と線形需要曲線のインターセプトを再帰的に推定することを示した。 モノポリスは計算コストを抑えるために不特定モデルを選択し、不特定需要曲線の集合に対して真の最適決定を均一に学習する。

This paper examines whether one can learn to play an optimal action while only knowing part of true specification of the environment. We choose the optimal pricing problem as our laboratory, where the monopolist is endowed with an underspecified model of the market demand, but can observe market outcomes. In contrast to conventional learning models where the model specification is complete and exogenously fixed, the monopolist has to learn the specification and the parameters of the demand curve from the data. We formulate the learning dynamics as an algorithm that forecast the optimal price based on the data, following the machine learning literature (Shalev-Shwartz and Ben-David (2014)). Inspired by PAC learnability, we develop a new notion of learnability by requiring that the algorithm must produce an accurate forecast with a reasonable amount of data uniformly over the class of models consistent with the part of the true specification. In addition, we assume that the monopolist has a lexicographic preference over the payoff and the complexity cost of the algorithm, seeking an algorithm with a minimum number of parameters subject to PAC-guaranteeing the optimal solution (Rubinstein (1986)). We show that for the set of demand curves with strictly decreasing uniformly Lipschitz continuous marginal revenue curve, the optimal algorithm recursively estimates the slope and the intercept of the linear demand curve, even if the actual demand curve is not linear. The monopolist chooses a misspecified model to save computational cost, while learning the true optimal decision uniformly over the set of underspecified demand curves.
翻訳日:2022-07-22 13:48:16 公開日:2022-07-20
# 畳み込みニューラルネットワークによる水中音響の直接位置推定:データ駆動アプローチ

Direct Localization in Underwater Acoustics via Convolutional Neural Networks: A Data-Driven Approach ( http://arxiv.org/abs/2207.10222v1 )

ライセンス: Link先を確認
Amir Weiss, Toros Arikan and Gregory W. Wornell(参考訳) 直接ローカライゼーション(DLOC)法は、観測データを用いて1ステップの手順でソースを未知の位置にローカライズするが、通常は間接的な2ステップ(例えば、到着の時間差)よりも優れている。 しかし、水中音響DLOC法は環境に関する事前の知識を必要とし、計算コストがかかるため遅い。 そこで本研究では,データ駆動型DLOC法を初めて提案する。 古典的かつ同時代の最適モデルベースDLOCソリューションにインスパイアされ、畳み込みニューラルネットワーク(CNN)の機能を活用して、全体論的CNNベースのソリューションを考案する。 提案手法は,機械学習のより広範な文脈において,個別に関心を抱く,特異的に調整された入力構造,アーキテクチャ,損失関数,プログレッシブトレーニング手順を含む。 我々は,本手法が魅力的な代替品よりも優れており,オラクル最適モデルベースソリューションの性能と漸近的に一致していることを示す。

Direct localization (DLOC) methods, which use the observed data to localize a source at an unknown position in a one-step procedure, generally outperform their indirect two-step counterparts (e.g., using time-difference of arrivals). However, underwater acoustic DLOC methods require prior knowledge of the environment, and are computationally costly, hence slow. We propose, what is to the best of our knowledge, the first data-driven DLOC method. Inspired by classical and contemporary optimal model-based DLOC solutions, and leveraging the capabilities of convolutional neural networks (CNNs), we devise a holistic CNN-based solution. Our method includes a specifically-tailored input structure, architecture, loss function, and a progressive training procedure, which are of independent interest in the broader context of machine learning. We demonstrate that our method outperforms attractive alternatives, and asymptotically matches the performance of an oracle optimal model-based solution.
翻訳日:2022-07-22 13:47:47 公開日:2022-07-20
# 測定輸送によるミニマックス密度推定について

On minimax density estimation via measure transport ( http://arxiv.org/abs/2207.10231v1 )

ライセンス: Link先を確認
Sven Wang, Youssef Marzouk(参考訳) 測定輸送に基づく非パラメトリック密度推定器のHelingerとそれに関連する距離の収束特性について検討する。 これらの推定器は、選択された基準分布の輸送地図におけるプッシュフォワードとして興味を表わし、地図は最大極大目標(同様に、経験的クルバック・リーバー損失を最小化する)またはそのペナル化バージョンを介して選択される。 我々は、M推定の手法と輸送ベース密度表現の解析的性質を組み合わせることで、一般のペナル化測度輸送推定器の濃度不等式を確立する。 次に、三角結び目ローゼンブラット(kr)輸送の場合には、この理論の意義を実演し、そのような推定器のペナルティ化バージョンと非ペナルティ化バージョンの両方が、h\"older class of densities上で最小の最適収束率を達成することを示す。 具体的には, 有界H\" 型球に対する不給算非パラメトリック最大推定と, 特定のソボレフペンタリゼーション推定器, サーブウェーブレット推定器の最適値を確立する。

We study the convergence properties, in Hellinger and related distances, of nonparametric density estimators based on measure transport. These estimators represent the measure of interest as the pushforward of a chosen reference distribution under a transport map, where the map is chosen via a maximum likelihood objective (equivalently, minimizing an empirical Kullback-Leibler loss) or a penalized version thereof. We establish concentration inequalities for a general class of penalized measure transport estimators, by combining techniques from M-estimation with analytical properties of the transport-based density representation. We then demonstrate the implications of our theory for the case of triangular Knothe-Rosenblatt (KR) transports on the $d$-dimensional unit cube, and show that both penalized and unpenalized versions of such estimators achieve minimax optimal convergence rates over H\"older classes of densities. Specifically, we establish optimal rates for unpenalized nonparametric maximum likelihood estimation over bounded H\"older-type balls, and then for certain Sobolev-penalized estimators and sieved wavelet estimators.
翻訳日:2022-07-22 13:44:33 公開日:2022-07-20
# 動的リンク予測のより良い評価に向けて

Towards Better Evaluation for Dynamic Link Prediction ( http://arxiv.org/abs/2207.10128v1 )

ライセンス: Link先を確認
Farimah Poursafaei, Shenyang Huang, Kellin Pelrine, Reihaneh Rabbany(参考訳) 静的グラフからの学習は近年成功しているが、その頻度にもかかわらず、時間進化グラフからの学習は依然として困難である。 我々は,実世界の考察を反映し,異なる手法の長所と短所をよく比較できる動的グラフに特有のリンク予測のための新しい厳密な評価手順を設計する。 特に,エッジの繰り返しパターンを時間とともに理解するために,2つの可視化手法を考案する。 彼らは、後続のステップで多くのエッジが再発生することを示した。 そこで我々は,EdgeBankという純粋な記憶ベースラインを提案する。 現在の評価設定で使用される負のエッジが簡単であることもあって、複数の設定で驚くほど高いパフォーマンスを実現しています。 そこで本研究では,より頑健性が向上し,実世界のアプリケーションと適合性が向上する,より難解な2つの負のサンプリング戦略を提案する。 最後に、現在のベンチマークに欠けているさまざまなドメインセットからの5つの新しい動的グラフデータセットを導入し、将来の研究に新しい挑戦と機会を提供する。

There has been recent success in learning from static graphs, but despite their prevalence, learning from time-evolving graphs remains challenging. We design new, more stringent evaluation procedures for link prediction specific to dynamic graphs, which reflect real-world considerations and can better compare different methods' strengths and weaknesses. In particular, we create two visualization techniques to understand the recurring patterns of edges over time. They show that many edges reoccur at later time steps. Therefore, we propose a pure memorization baseline called EdgeBank. It achieves surprisingly strong performance across multiple settings, partly due to the easy negative edges used in the current evaluation setting. Hence, we introduce two more challenging negative sampling strategies that improve robustness and can better match real-world applications. Lastly, we introduce five new dynamic graph datasets from a diverse set of domains missing from current benchmarks, providing new challenges and opportunities for future research.
翻訳日:2022-07-22 13:43:46 公開日:2022-07-20
# Digraphwave:方向グラフ上の拡散による構造ノード埋め込みのスケーラブル抽出

Digraphwave: Scalable Extraction of Structural Node Embeddings via Diffusion on Directed Graphs ( http://arxiv.org/abs/2207.10149v1 )

ライセンス: Link先を確認
Ciwan Ceylan, Kambiz Ghoorchian and Danica Kragic(参考訳) 構造ノードの埋め込み、グラフ内の各ノードのローカル接続情報をキャプチャするベクトルは、データマイニングや機械学習、例えばネットワークアライメントやノード分類、クラスタリング、異常検出に多くの応用がある。 例えば、トランザクショングラフ、通信ネットワーク、ソーシャルネットワークなどの有向グラフの分析には、組込み抽出法のスケーラビリティと同様に、構造ノード埋め込みにおける方向情報をキャプチャする能力が非常に望ましい。 既存の手法の多くは無向グラフに対してのみ設計されている。 そこで我々は,有向グラフ上の構造ノード埋め込みを抽出するスケーラブルなアルゴリズムである digraphwave を提案する。 Digraphwaveの埋め込みは圧縮拡散パターンシグネチャで構成されており、識別能力を高めるために2回拡張されている。 拡散初期化ノードの局所近傍に含まれる熱の下限を証明し、理論的に正当化された拡散時間スケール値を確立し、埋め込み次元と近傍分解能指定器との2つの解釈容易な超パラメータしか残さない。 実験では,2つの埋め込み拡張,すなわちトランスポジションとアグリゲーションが,自己同型アイデンティティを分類するためのマクロF1スコアを著しく増加させ,Digraphwaveは他のすべての構造的埋め込みベースラインよりも優れていた。 さらに、Digraphwaveは、実際のグラフデータセット上のすべてのベースラインのパフォーマンスを上回り、ネットワークアライメントタスクにおいて特に大きなパフォーマンス向上を示すと同時に、数百万のノードとエッジを持つグラフに対してスケーラブルで、以前の拡散パターンベースのメソッドよりも最大30倍高速で、メモリ消費のごく一部で実行されています。

Structural node embeddings, vectors capturing local connectivity information for each node in a graph, have many applications in data mining and machine learning, e.g., network alignment and node classification, clustering and anomaly detection. For the analysis of directed graphs, e.g., transactions graphs, communication networks and social networks, the capability to capture directional information in the structural node embeddings is highly desirable, as is scalability of the embedding extraction method. Most existing methods are nevertheless only designed for undirected graph. Therefore, we present Digraphwave -- a scalable algorithm for extracting structural node embeddings on directed graphs. The Digraphwave embeddings consist of compressed diffusion pattern signatures, which are twice enhanced to increase their discriminate capacity. By proving a lower bound on the heat contained in the local vicinity of a diffusion initialization node, theoretically justified diffusion timescale values are established, and Digraphwave is left with only two easy-to-interpret hyperparameters: the embedding dimension and a neighbourhood resolution specifier. In our experiments, the two embedding enhancements, named transposition and aggregation, are shown to lead to a significant increase in macro F1 score for classifying automorphic identities, with Digraphwave outperforming all other structural embedding baselines. Moreover, Digraphwave either outperforms or matches the performance of all baselines on real graph datasets, displaying a particularly large performance gain in a network alignment task, while also being scalable to graphs with millions of nodes and edges, running up to 30x faster than a previous diffusion pattern based method and with a fraction of the memory consumption.
翻訳日:2022-07-22 13:43:32 公開日:2022-07-20
# 列生成による制約付き規範木

Constrained Prescriptive Trees via Column Generation ( http://arxiv.org/abs/2207.10163v1 )

ライセンス: Link先を確認
Shivaram Subramanian, Wei Sun, Youssef Drissi, Markus Ettl(参考訳) 利用可能なデータが豊富にあるため、多くの企業はインフォームドな意思決定を支援するデータ駆動の規範的分析を実装しようとしている。 これらの規範的なポリシーは、運用上の制約を満たし、ルールの衝突を積極的に排除する必要があります。 また、それらがシンプルで解釈可能であることも望ましいため、検証や実装が容易である。 文献からの既存のアプローチは、解釈可能なポリシーを生成するために規範的決定木の変種を構築することに集中している。 しかし、既存のどのメソッドも制約を処理できない。 本稿では,制約付き規範的政策生成問題を解決するスケーラブルな手法を提案する。 本稿では、列生成による最適ポリシーを効率的に識別する新しいパスベース混合整数プログラム(MIP)について紹介する。 生成されたポリシーは、より短いルールのためにバイナリスプリットツリーよりも解釈可能で情報に富んだマルチウェイスプリットツリーとして表現できる。 提案手法の有効性を,合成データと実データの両方に対して広範な実験により実証する。

With the abundance of available data, many enterprises seek to implement data-driven prescriptive analytics to help them make informed decisions. These prescriptive policies need to satisfy operational constraints, and proactively eliminate rule conflicts, both of which are ubiquitous in practice. It is also desirable for them to be simple and interpretable, so they can be easily verified and implemented. Existing approaches from the literature center around constructing variants of prescriptive decision trees to generate interpretable policies. However, none of the existing methods are able to handle constraints. In this paper, we propose a scalable method that solves the constrained prescriptive policy generation problem. We introduce a novel path-based mixed-integer program (MIP) formulation which identifies a (near) optimal policy efficiently via column generation. The policy generated can be represented as a multiway-split tree which is more interpretable and informative than a binary-split tree due to its shorter rules. We demonstrate the efficacy of our method with extensive experiments on both synthetic and real datasets.
翻訳日:2022-07-22 13:43:02 公開日:2022-07-20
# Hydra: ハイブリッドサーバのパワーモデル

Hydra: Hybrid Server Power Model ( http://arxiv.org/abs/2207.10217v1 )

ライセンス: Link先を確認
Nigel Bernard, Hoa Nguyen, Aman Chandan, Savyasachi Jagdeeshan, Namdev Prabhugaonkar, Rutuja Shah, Hyeran Jeon(参考訳) 大量のデータと計算を必要とするビッグデータワークロードが複雑化する中、データセンターは毎日膨大な電力を消費する。 データセンターの電力消費量を最小化するために、いくつかの研究は、ジョブスケジューリングに使用できる電力モデルを開発した。 ソフトウェアとハードウェアの不均一性の増加により、すべてのサーバ条件に最適な電力モデルが存在しないことがわかりました。 複雑な機械学習モデルには、それ自体がパフォーマンスと電力のオーバーヘッドを伴っているため、頻繁に使用するのは望ましくない。 コンテナ化されたワークロードの実行を考えるパワーモデルはありません。 本稿では,予測精度と性能オーバーヘッドの両方を考慮したハイブリッドサーバパワーモデルhydraを提案する。 hydraは、与えられたサーバ条件に対して最適な電力モデルを動的に選択する。 最先端のソリューションと比較して、hydraはヘテロジニアスサーバ上のすべての計算強度レベルを上回っている。

With the growing complexity of big data workloads that require abundant data and computation, data centers consume a tremendous amount of power daily. In an effort to minimize data center power consumption, several studies developed power models that can be used for job scheduling either reducing the number of active servers or balancing workloads across servers at their peak energy efficiency points. Due to increasing software and hardware heterogeneity, we observed that there is no single power model that works the best for all server conditions. Some complicated machine learning models themselves incur performance and power overheads and hence it is not desirable to use them frequently. There are no power models that consider containerized workload execution. In this paper, we propose a hybrid server power model, Hydra, that considers both prediction accuracy and performance overhead. Hydra dynamically chooses the best power model for the given server conditions. Compared with state-of-the-art solutions, Hydra outperforms across all compute-intensity levels on heterogeneous servers.
翻訳日:2022-07-22 13:42:45 公開日:2022-07-20
# スリム化可能な量子フェデレート学習

Slimmable Quantum Federated Learning ( http://arxiv.org/abs/2207.10221v1 )

ライセンス: Link先を確認
Won Joon Yun, Jae Pyoung Kim, Soyi Jung, Jihong Park, Mehdi Bennis, and Joongheon Kim(参考訳) 量子連合学習(QFL)は近年注目を集めており、量子ニューラルネットワーク(QNN)を連合学習(FL)に統合している。 本稿では,従来の静的QFL法とは対照的に,時変通信チャネルや計算エネルギー制限に対処可能な動的QFLフレームワークであるスリムブルQFL(SlimQFL)を提案する。 これは、その角度パラメータと極パラメータを個別にトレーニングし、動的に活用できるQNNのユニークな性質を活用することで実現される。 シミュレーションの結果、slimqflはバニラqflよりも高い分類精度を達成し、特にチャネル状態の悪い状況下では平均的に高い。

Quantum federated learning (QFL) has recently received increasing attention, where quantum neural networks (QNNs) are integrated into federated learning (FL). In contrast to the existing static QFL methods, we propose slimmable QFL (SlimQFL) in this article, which is a dynamic QFL framework that can cope with time-varying communication channels and computing energy limitations. This is made viable by leveraging the unique nature of a QNN where its angle parameters and pole parameters can be separately trained and dynamically exploited. Simulation results corroborate that SlimQFL achieves higher classification accuracy than Vanilla QFL, particularly under poor channel conditions on average.
翻訳日:2022-07-22 13:42:31 公開日:2022-07-20
# ADMMによる効果的なコミュニケーションによるプライバシー保護型垂直的フェデレーション学習の改善

Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM ( http://arxiv.org/abs/2207.10226v1 )

ライセンス: Link先を確認
Chulin Xie, Pin-Yu Chen, Ce Zhang, Bo Li(参考訳) フェデレーション学習(fl)は、トレーニングデータをローカルに保持しながら、分散デバイスが共有モデルを共同でトレーニングすることを可能にする。 各クライアントが部分的なデータサンプルを持つ水平FL(HFL)設定とは異なり、各クライアントが部分的な特徴を収集できる垂直FL(VFL)は近年、集中的な研究努力を集めている。 本稿では,現在最先端のVFLフレームワークが直面している課題として,(1)学習した特徴の埋め込みを直接的に評価し,各局所的な特徴セットのユニークな特性を失う可能性があること,(2)サーバが各トレーニングステップでクライアントとグラデーションを通信する必要があること,そしてプライバシー予算の急速な消費につながる通信コストの増大,の2つを挙げる。 本稿では、これらの課題に対処し、複数のリニアヘッド(VIM)フレームワークを用いた効率的なVFLを提案し、各ヘッドが各クライアントの別々のコントリビューションを考慮に入れ、ローカルクライアントに対応する。 さらに,各ステップで複数のローカル更新を可能とすることで通信コストを低減し,差分プライバシー下でのより良い性能を実現するための,ADMM(Alternating Direction Method of Multipliers)ベースの手法を提案する。 モデル分割を伴うVFLや,モデル分割を伴わないさまざまな設定について検討する。 どちらの設定でも、フレームワークの差分プライバシーメカニズムを慎重に分析します。 さらに,本フレームワークの副産物として,学習した線形ヘッドの重み付けが,ローカルクライアントの重要性を反映していることを示す。 実世界の4つのデータセットにおいて、VIMは最先端のデータベースと比較して、はるかに高い性能と高速な収束を実現していることを示す。 また、ローカルクライアントの重要性を明確に評価し、VIMがクライアントレベルの説明やクライアントの妄想といった機能を実現することを示す。

Federated learning (FL) enables distributed devices to jointly train a shared model while keeping the training data local. Different from the horizontal FL (HFL) setting where each client has partial data samples, vertical FL (VFL), which allows each client to collect partial features, has attracted intensive research efforts recently. In this paper, we identified two challenges that state-of-the-art VFL frameworks are facing: (1) some works directly average the learned feature embeddings and therefore might lose the unique properties of each local feature set; (2) server needs to communicate gradients with the clients for each training step, incurring high communication cost that leads to rapid consumption of privacy budgets. In this paper, we aim to address the above challenges and propose an efficient VFL with multiple linear heads (VIM) framework, where each head corresponds to local clients by taking the separate contribution of each client into account. In addition, we propose an Alternating Direction Method of Multipliers (ADMM)-based method to solve our optimization problem, which reduces the communication cost by allowing multiple local updates in each step, and thus leads to better performance under differential privacy. We consider various settings including VFL with model splitting and without model splitting. For both settings, we carefully analyze the differential privacy mechanism for our framework. Moreover, we show that a byproduct of our framework is that the weights of learned linear heads reflect the importance of local clients. We conduct extensive evaluations and show that on four real-world datasets, VIM achieves significantly higher performance and faster convergence compared with state-of-the-arts. We also explicitly evaluate the importance of local clients and show that VIM enables functionalities such as client-level explanation and client denoising.
翻訳日:2022-07-22 13:42:17 公開日:2022-07-20
# Kantian Ethicsの自動化 - 忠実な実装

Automated Kantian Ethics: A Faithful Implementation ( http://arxiv.org/abs/2207.10152v1 )

ライセンス: Link先を確認
Lavanya Singh(参考訳) 医療、警察、運転といった文脈で人工知能が力と独立性を高めるのに、AIは道徳的なジレンマに直面しているが、それを解決するためのツールが欠けている。 規制当局、哲学者、コンピュータ科学者による非倫理的人工知能の危険性に関する警告は、自動倫理、すなわち倫理的推論を実行する機械の開発への関心を喚起した。 しかし、自動化倫理の先行研究は哲学文学にはほとんど関わらない。 哲学者たちは何世紀にもわたって道徳的ジレンマを論じてきたので、自動化された倫理は哲学文学に頼れば最もニュアンスで一貫性があり信頼性がある。 本稿では,カント哲学の伝統に忠実なカント倫理の自動実施について述べる。 私は、dyadic deontic logicにおけるカントの圏論的インペラティブを定式化し、この形式化をイザベル定理証明器で実装し、私の実装がカンティアン・エティックの期待する性質とどのように調和するかを評価するためのテストフレームワークを開発した。 私のシステムは、哲学的に成熟した倫理的AIエージェントへの初期のステップであり、哲学文学に根ざしているため、複雑な倫理的ジレンマにおいてニュアンスな判断を下すことができる。 私はインタラクティブな定理証明器を使うので、システムの判断は説明がつきます。

As we grant artificial intelligence increasing power and independence in contexts like healthcare, policing, and driving, AI faces moral dilemmas but lacks the tools to solve them. Warnings from regulators, philosophers, and computer scientists about the dangers of unethical artificial intelligence have spurred interest in automated ethics-i.e., the development of machines that can perform ethical reasoning. However, prior work in automated ethics rarely engages with philosophical literature. Philosophers have spent centuries debating moral dilemmas so automated ethics will be most nuanced, consistent, and reliable when it draws on philosophical literature. In this paper, I present an implementation of automated Kantian ethics that is faithful to the Kantian philosophical tradition. I formalize Kant's categorical imperative in Dyadic Deontic Logic, implement this formalization in the Isabelle theorem prover, and develop a testing framework to evaluate how well my implementation coheres with expected properties of Kantian ethic. My system is an early step towards philosophically mature ethical AI agents and it can make nuanced judgements in complex ethical dilemmas because it is grounded in philosophical literature. Because I use an interactive theorem prover, my system's judgements are explainable.
翻訳日:2022-07-22 13:31:58 公開日:2022-07-20
# 視覚的知識追跡

Visual Knowledge Tracing ( http://arxiv.org/abs/2207.10157v1 )

ライセンス: Link先を確認
Neehar Kondapaneni (1), Pietro Perona (1), Oisin Mac Aodha (2) ((1) Caltech, (2) University of Edinburgh)(参考訳) 放射線科医は腫瘍を認識することを学び、バードウォッチャーは類似種を区別することを学び、群集労働者は自動運転のようなアプリケーションのための貴重なデータに注釈をつける方法を学ぶ。 人間が学習すると、脳は抽出した視覚機能を更新し、最終的に最終的な分類決定を知らせる。 本研究では,視覚分類課題に挑戦しながら,人間の学習者の分類行動の進化を追跡する新たな課題を提案する。 本研究では,学習者の視覚特徴を共同で抽出し,活用する分類関数の予測を行うモデルを提案する。 異なる視覚知識追跡手法の性能を評価するために,実際の人間学習者から挑戦的な3つのデータセットを収集した。 その結果,本モデルでは3つの難解な医用画像と種識別課題において,人間学習者の分類行動を予測することができた。

Each year, thousands of people learn new visual categorization tasks -- radiologists learn to recognize tumors, birdwatchers learn to distinguish similar species, and crowd workers learn how to annotate valuable data for applications like autonomous driving. As humans learn, their brain updates the visual features it extracts and attend to, which ultimately informs their final classification decisions. In this work, we propose a novel task of tracing the evolving classification behavior of human learners as they engage in challenging visual classification tasks. We propose models that jointly extract the visual features used by learners as well as predicting the classification functions they utilize. We collect three challenging new datasets from real human learners in order to evaluate the performance of different visual knowledge tracing methods. Our results show that our recurrent models are able to predict the classification behavior of human learners on three challenging medical image and species identification tasks.
翻訳日:2022-07-22 13:30:36 公開日:2022-07-20
# ホテル50KとホテルIDの見直し

Revisiting Hotels-50K and Hotel-ID ( http://arxiv.org/abs/2207.10200v1 )

ライセンス: Link先を確認
Aarash Feizi, Arantxa Casanova, Adriana Romero-Soriano, Reihaneh Rabbany(参考訳) 本稿では,最近のホテル認識データセットであるHotels50KとHotel-IDの改訂版を提案する。 改訂されたバージョンは、意図した現実世界のアプリケーション、すなわち人身売買に対抗するために、様々なレベルの評価設定を提供する。 現実のシナリオには、現在のデータセットにキャプチャされていないホテルやロケーションが含まれるため、クラスが本当に目に見えないような評価設定を検討することが重要です。 我々は,複数の最先端画像検索モデルを用いてこの設定をテストし,期待通り,評価が実世界の未認識設定に近づくにつれて,モデルの性能が低下することを示す。 ベストパフォーマンスモデルのランキングは、異なる評価設定で変更され、提案された再訪データセットの使用をさらに動機付ける。

In this paper, we propose revisited versions for two recent hotel recognition datasets: Hotels50K and Hotel-ID. The revisited versions provide evaluation setups with different levels of difficulty to better align with the intended real-world application, i.e. countering human trafficking. Real-world scenarios involve hotels and locations that are not captured in the current data sets, therefore it is important to consider evaluation settings where classes are truly unseen. We test this setup using multiple state-of-the-art image retrieval models and show that as expected, the models' performances decrease as the evaluation gets closer to the real-world unseen settings. The rankings of the best performing models also change across the different evaluation settings, which further motivates using the proposed revisited datasets.
翻訳日:2022-07-22 13:30:20 公開日:2022-07-20
# mixed-precision inference quantization: 推論速度の高速化,ストレージ要件の低減,損失の低減に向けて

Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss ( http://arxiv.org/abs/2207.10083v1 )

ライセンス: Link先を確認
Daning Cheng, Wenguang Chen(参考訳) 計算ノイズに対するモデルのレジリエンスに基づくモデル量子化は、モデルを圧縮し、計算速度を改善するために重要である。 既存の量子化技術は、経験と「微調整」スキルに大きく依存している。 ほとんどの例では、量子化モデルは完全な精度モデルよりも大きな損失がある。 本研究は,完全精度モデルよりも損失の少ない混合精度量子化モデルを得るための手法を提供する。 さらに、解析により、推論過程を通して、損失関数は、主に層入力のノイズの影響を受けていることが示された。 特に、大量のアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。 また,量子化によるネットワークの性能向上も困難である。

Based on the model's resilience to computational noise, model quantization is important for compressing models and improving computing speed. Existing quantization techniques rely heavily on experience and "fine-tuning" skills. In the majority of instances, the quantization model has a larger loss than a full precision model. This study provides a methodology for acquiring a mixed-precise quantization model with a lower loss than the full precision model. In addition, the analysis demonstrates that, throughout the inference process, the loss function is mostly affected by the noise of the layer inputs. In particular, we will demonstrate that neural networks with massive identity mappings are resistant to the quantization method. It is also difficult to improve the performance of these networks using quantization.
翻訳日:2022-07-22 13:25:43 公開日:2022-07-20
# 現代統計学入門

An Introduction to Modern Statistical Learning ( http://arxiv.org/abs/2207.10185v1 )

ライセンス: Link先を確認
Joseph G. Makin(参考訳) この研究は、GMMやHMMのような古典的なモデルから、VAEや拡散モデルのような現代的なニューラルネットワークに至るまで、統計学習の統一的な導入を目指している。 今日では、これやその新しい機械学習アルゴリズムを分離して説明するインターネットリソースが数多く存在するが、それらはこれらのアルゴリズムを互いに接続したり、統計モデル上の古典文学と結びつけたり(そしてそう簡単にはできない)、現代のアルゴリズムが出現した。 また、この資料に慣れ親しんだ人々(例えばこれらのポストの著者)には不都合な1つの表記体系が欠落しており、初心者の参入に重大な障壁を生じさせている。 同様に、私は様々なモデルを可能な限り推論と学習のための単一のフレームワークに統一することを目指してきました。 もちろん、いくつかの背景は必要です。 私は読者が基本的な多変量計算、確率と統計学、線形代数に精通していると仮定した。 この本の目的は明らかに完全性ではなく、基本から過去10年間の非常に強力な新モデルまで、多かれ少なかれ直線的な道をたどることである。 その目標は、ビショップの‘emph{Pattern Recognition and Machine Learning}’(現在15歳)のような包括的なテキストを補完し、置き換えることである。

This work in progress aims to provide a unified introduction to statistical learning, building up slowly from classical models like the GMM and HMM to modern neural networks like the VAE and diffusion models. There are today many internet resources that explain this or that new machine-learning algorithm in isolation, but they do not (and cannot, in so brief a space) connect these algorithms with each other or with the classical literature on statistical models, out of which the modern algorithms emerged. Also conspicuously lacking is a single notational system which, although unfazing to those already familiar with the material (like the authors of these posts), raises a significant barrier to the novice's entry. Likewise, I have aimed to assimilate the various models, wherever possible, to a single framework for inference and learning, showing how (and why) to change one model into another with minimal alteration (some of them novel, others from the literature). Some background is of course necessary. I have assumed the reader is familiar with basic multivariable calculus, probability and statistics, and linear algebra. The goal of this book is certainly not completeness, but rather to draw a more or less straight-line path from the basics to the extremely powerful new models of the last decade. The goal then is to complement, not replace, such comprehensive texts as Bishop's \emph{Pattern Recognition and Machine Learning}, which is now 15 years old.
翻訳日:2022-07-22 13:25:32 公開日:2022-07-20
# The Game of Hidden Rules: 機械学習の新しいベンチマークチャレンジ

The Game of Hidden Rules: A New Kind of Benchmark Challenge for Machine Learning ( http://arxiv.org/abs/2207.10218v1 )

ライセンス: Link先を確認
Eric Pulick, Shubham Bharti, Yiding Chen, Vladimir Menkov, Yonatan Mintz, Paul Kantor, Vicki M. Bier(参考訳) 機械学習(ML)が社会に強く織り込まれているため、責任を負うならば、MLの強みや限界を適切に特徴づけることが不可欠である。 ボードゲームやビデオゲームなどの既存のMLのベンチマーク環境は、進捗のベンチマークを適切に定義しているが、構成タスクはしばしば複雑であり、タスク特性がマシン学習者の全体的な困難にどのように寄与するかはよく分かっていない。 同様に、タスク特性が難易度にどう影響するかの体系的な評価がないため、異なるベンチマーク環境におけるパフォーマンス間の有意義な関連を引き出すのは難しい。 機械学習の課題を幅広く抱える新しいベンチマーク環境を導入し,タスク要素が実践的困難にどのように影響するかを正確に検証する。 このツールは、学習タスクを「ボードクリーニングゲーム」("board-clearing game")と呼び、ゲーム・オブ・ハイデン・ルール(GOHR)と呼ぶ。 環境は、表現型ルール言語と、ローカルにインストール可能なキャプチャ型サーバ環境とを含む。 我々は,ルール学習タスクのベンチマークを提案し,ルールの学習に関心のある研究者のために,パフォーマンスリーダボードをサポートする計画を立てる。 GOHRはタスクの細かい制御された修正を可能にすることで既存の環境を補完し、実験者は与えられた学習タスクの各面が任意のMLアルゴリズムの実践的困難にどのように貢献するかをよりよく理解することができる。

As machine learning (ML) is more tightly woven into society, it is imperative that we better characterize ML's strengths and limitations if we are to employ it responsibly. Existing benchmark environments for ML, such as board and video games, offer well-defined benchmarks for progress, but constituent tasks are often complex, and it is frequently unclear how task characteristics contribute to overall difficulty for the machine learner. Likewise, without a systematic assessment of how task characteristics influence difficulty, it is challenging to draw meaningful connections between performance in different benchmark environments. We introduce a novel benchmark environment that offers an enormous range of ML challenges and enables precise examination of how task elements influence practical difficulty. The tool frames learning tasks as a "board-clearing game," which we call the Game of Hidden Rules (GOHR). The environment comprises an expressive rule language and a captive server environment that can be installed locally. We propose a set of benchmark rule-learning tasks and plan to support a performance leader-board for researchers interested in attempting to learn our rules. GOHR complements existing environments by allowing fine, controlled modifications to tasks, enabling experimenters to better understand how each facet of a given learning task contributes to its practical difficulty for an arbitrary ML algorithm.
翻訳日:2022-07-22 13:25:06 公開日:2022-07-20
# ドメインシフトによる長周期カテゴリー分布の対応

Tackling Long-Tailed Category Distribution Under Domain Shifts ( http://arxiv.org/abs/2207.10150v1 )

ライセンス: Link先を確認
Xiao Gu, Yao Guo, Zeju Li, Jianing Qiu, Qi Dou, Yuxuan Liu, Benny Lo, Guang-Zhong Yang(参考訳) 機械学習モデルは現実世界のアプリケーションでうまく機能しない 1)訓練データセットのカテゴリー分布P(Y)は,長期分布に悩まされる。 2)テストデータは、異なる条件分布P(X|Y)から引き出される。 既存のアプローチでは両方の問題が存在するシナリオを処理できないが、現実のアプリケーションでは一般的である。 本研究では,ドメインシフトの下での長い尾の分類問題について考察した。 本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。 さらに,これら3ブロックを統合したメタラーニングフレームワークを導入し,未知のターゲットドメインにおけるドメインの一般化を改善した。 AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。 本手法を2つのデータセット上で評価し,提案手法が最先端のロングテール/ドメイン一般化手法と組み合わせよりも優れた性能が得られることを示す。 ソースコードとデータセットは、私たちのプロジェクトページhttps://xiaogu.site/ltdsにあります。

Machine learning models fail to perform well on real-world applications when 1) the category distribution P(Y) of the training dataset suffers from long-tailed distribution and 2) the test data is drawn from different conditional distributions P(X|Y). Existing approaches cannot handle the scenario where both issues exist, which however is common for real-world applications. In this study, we took a step forward and looked into the problem of long-tailed classification under domain shifts. We designed three novel core functional blocks including Distribution Calibrated Classification Loss, Visual-Semantic Mapping and Semantic-Similarity Guided Augmentation. Furthermore, we adopted a meta-learning framework which integrates these three blocks to improve domain generalization on unseen target domains. Two new datasets were proposed for this problem, named AWA2-LTS and ImageNet-LTS. We evaluated our method on the two datasets and extensive experimental results demonstrate that our proposed method can achieve superior performance over state-of-the-art long-tailed/domain generalization approaches and the combinations. Source codes and datasets can be found at our project page https://xiaogu.site/LTDS.
翻訳日:2022-07-22 12:51:31 公開日:2022-07-20
# スマートシティ・アプリケーションにおける低オーバヘッド画像圧縮が視覚群数性能に及ぼす影響の解析

Analysis of the Effect of Low-Overhead Lossy Image Compression on the Performance of Visual Crowd Counting for Smart City Applications ( http://arxiv.org/abs/2207.10155v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, B{\l}a\.zej Leporowski, Lukas Esterle and Alexandros Iosifidis(参考訳) スマートシティ全体でカメラが捉えた画像やビデオフレームは、ネットワークを介してサーバに送信され、さまざまなタスクのためにディープニューラルネットワークによって処理される。 生画像の伝送、すなわち圧縮が不要な場合、高い帯域幅が必要であり、混雑問題や送信遅延につながる可能性がある。 画像圧縮技術の使用により画像の品質が低下し、精度が低下する。 本稿では,低オーバヘッド損失画像圧縮法が視覚的群集カウントの精度に与える影響を分析し,帯域幅削減と得られた精度とのトレードオフを測定する。

Images and video frames captured by cameras placed throughout smart cities are often transmitted over the network to a server to be processed by deep neural networks for various tasks. Transmission of raw images, i.e., without any form of compression, requires high bandwidth and can lead to congestion issues and delays in transmission. The use of lossy image compression techniques can reduce the quality of the images, leading to accuracy degradation. In this paper, we analyze the effect of applying low-overhead lossy image compression methods on the accuracy of visual crowd counting, and measure the trade-off between bandwidth reduction and the obtained accuracy.
翻訳日:2022-07-22 12:51:13 公開日:2022-07-20
# GOCA:自己監督型ビデオ表現学習のためのオンラインクラスタアサインメント

GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2207.10158v1 )

ライセンス: Link先を確認
Huseyin Coskun and Alireza Zareian and Joshua L. Moore and Federico Tombari, Chen Wang(参考訳) クラスタリングは教師なし学習におけるユビキタスなツールです。 既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。 これは、画像ベースのセルフスーパービジョンではうまく機能するが、背景に焦点を合わせるのではなく、動きを理解する必要があるビデオではうまくいかないことが多い。 光学フローをRGBの補完情報として用いることで、この問題を軽減できる。 しかし,この2つの視点のナイーブな組み合わせは有意義な成果をもたらすものではない。 本稿では,二つの視点を結合する原理的手法を提案する。 具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新たなクラスタリング戦略を提案する。 このアイデアは、両方のビューに類似したクラスタ構造を強制し、生成されたクラスタは、各ビューから来るセマンティックに抽象的で堅牢でノイズの多い入力になる。 さらに,クラスタベースの自己教師型学習手法に共通する機能崩壊問題に対処する新たな正規化戦略を提案する。 映像検索や行動認識など,下流タスクにおける学習した表現の有効性を広範囲に評価した。 具体的には,ビデオ検索ではUCFで7%,ビデオ検索ではHMDBで4%,動画分類ではHMDBで5%,動画分類ではHMDBで6%の成績を示した。

Clustering is a ubiquitous tool in unsupervised learning. Most of the existing self-supervised representation learning methods typically cluster samples based on visually dominant features. While this works well for image-based self-supervision, it often fails for videos, which require understanding motion rather than focusing on background. Using optical flow as complementary information to RGB can alleviate this problem. However, we observe that a naive combination of the two views does not provide meaningful gains. In this paper, we propose a principled way to combine two views. Specifically, we propose a novel clustering strategy where we use the initial cluster assignment of each view as prior to guide the final cluster assignment of the other view. This idea will enforce similar cluster structures for both views, and the formed clusters will be semantically abstract and robust to noisy inputs coming from each individual view. Additionally, we propose a novel regularization strategy to address the feature collapse problem, which is common in cluster-based self-supervised learning methods. Our extensive evaluation shows the effectiveness of our learned representations on downstream tasks, e.g., video retrieval and action recognition. Specifically, we outperform the state of the art by 7% on UCF and 4% on HMDB for video retrieval, and 5% on UCF and 6% on HMDB for video classification
翻訳日:2022-07-22 12:51:01 公開日:2022-07-20
# 分離型時空間Jigsawパズルによるビデオ異常検出

Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw Puzzles ( http://arxiv.org/abs/2207.10172v1 )

ライセンス: Link先を確認
Guodong Wang, Yunhong Wang, Jie Qin, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。 近年の自己教師型学習の進歩に触発された本論文は,多ラベルきめ細かな分類問題である時空間ジグソーパズル(spatio-temporal jigsaw puzzles)を直感的に解くことで,VADに対処する。 この方法は既存の作品よりもいくつかの利点がある。 1) 時空間ジグソーパズルは、空間的及び時間的次元で分離され、高度に識別的な外観及び動きの特徴をそれぞれ捉える。 2) ネットワークが正常事象と異常事象の微妙な時差を区別できるように, 様々な難易度をカバーする豊富なジグソーパズルを提供するために, 完全置換を用いる。 3)プリテキストタスクは、事前学習されたモデルに頼らず、エンドツーエンドで取り組まれる。 提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。 特に上海工科大学キャンパスでは,再建法や予測法よりも大きなマージンで優れている。

Video Anomaly Detection (VAD) is an important topic in computer vision. Motivated by the recent advances in self-supervised learning, this paper addresses VAD by solving an intuitive yet challenging pretext task, i.e., spatio-temporal jigsaw puzzles, which is cast as a multi-label fine-grained classification problem. Our method exhibits several advantages over existing works: 1) the spatio-temporal jigsaw puzzles are decoupled in terms of spatial and temporal dimensions, responsible for capturing highly discriminative appearance and motion features, respectively; 2) full permutations are used to provide abundant jigsaw puzzles covering various difficulty levels, allowing the network to distinguish subtle spatio-temporal differences between normal and abnormal events; and 3) the pretext task is tackled in an end-to-end manner without relying on any pre-trained models. Our method outperforms state-of-the-art counterparts on three public benchmarks. Especially on ShanghaiTech Campus, the result is superior to reconstruction and prediction-based methods by a large margin.
翻訳日:2022-07-22 12:50:40 公開日:2022-07-20
# 非拘束顔認識のための制御可能・誘導型顔合成

Controllable and Guided Face Synthesis for Unconstrained Face Recognition ( http://arxiv.org/abs/2207.10180v1 )

ライセンス: Link先を確認
Feng Liu, Minchul Kim, Anil Jain, and Xiaoming Liu(参考訳) 顔認識(FR)では大きな進歩があったが、半制約のトレーニングデータセットと制約のないテストシナリオとのドメインギャップのため、制約のない環境でのFRは依然として困難である。 この問題に対処するために,スタイル潜在空間におけるターゲットデータセットの分布を模倣できる制御可能な顔合成モデル(CFSM)を提案する。 CFSMは、多様性と合成の度合いを正確に制御し、スタイル潜在空間の直交基底を持つ線型部分空間を学習する。 さらに、事前学習された合成モデルをFRモデルで導くことができ、その結果、FRモデルトレーニングにおいてより有益な画像が得られる。 さらに、ターゲットデータセットの分布は、顔データセット間の分布類似度を測定するために使用できる学習直交基底によって特徴づけられる。 提案手法は,IJB-B,IJB-C,TinyFace,IJB-S (+5.76% Rank1) などの非制約ベンチマークにおいて,大幅な性能向上をもたらす。

Although significant advances have been made in face recognition (FR), FR in unconstrained environments remains challenging due to the domain gap between the semi-constrained training datasets and unconstrained testing scenarios. To address this problem, we propose a controllable face synthesis model (CFSM) that can mimic the distribution of target datasets in a style latent space. CFSM learns a linear subspace with orthogonal bases in the style latent space with precise control over the diversity and degree of synthesis. Furthermore, the pre-trained synthesis model can be guided by the FR model, making the resulting images more beneficial for FR model training. Besides, target dataset distributions are characterized by the learned orthogonal bases, which can be utilized to measure the distributional similarity among face datasets. Our approach yields significant performance gains on unconstrained benchmarks, such as IJB-B, IJB-C, TinyFace and IJB-S (+5.76% Rank1).
翻訳日:2022-07-22 12:50:21 公開日:2022-07-20
# 2D GANは、教師なしのシングルビュー3Dレコンストラクション

2D GANs Meet Unsupervised Single-view 3D Reconstruction ( http://arxiv.org/abs/2207.10183v1 )

ライセンス: Link先を確認
Feng Liu, Xiaoming Liu(参考訳) 最近の研究により、事前訓練されたganに基づく制御可能な画像生成は、幅広いコンピュータビジョンタスクに役立つことが示されている。 しかし、3Dビジョンタスクにはあまり注意が向けられていない。 そこで本研究では,GAN生成した多視点画像から2次元の監督を生かし,汎用オブジェクトの単一ビュー再構成を行う,新しい画像条件のニューラル暗黙フィールドを提案する。 まず,新しいオフラインスタイルガン型生成器を提示し,視点をフルに制御した再現可能な擬似画像を生成する。 そこで我々は,物体マスクと粗ポーズ初期化を用いた擬似画像から3次元幾何を学習するために,ニューラル暗黙関数と微分可能なレンダラーを用いることを提案する。 疑似画像における不確かさ領域の負の効果を補正し,再構成性能の向上につながる不確実性マップを予測するための新しい不確実性モジュールを導入する。 本手法の有効性は,汎用オブジェクトのsingle-view 3dリコンストラクション結果により実証された。

Recent research has shown that controllable image generation based on pre-trained GANs can benefit a wide range of computer vision tasks. However, less attention has been devoted to 3D vision tasks. In light of this, we propose a novel image-conditioned neural implicit field, which can leverage 2D supervisions from GAN-generated multi-view images and perform the single-view reconstruction of generic objects. Firstly, a novel offline StyleGAN-based generator is presented to generate plausible pseudo images with full control over the viewpoint. Then, we propose to utilize a neural implicit function, along with a differentiable renderer to learn 3D geometry from pseudo images with object masks and rough pose initializations. To further detect the unreliable supervisions, we introduce a novel uncertainty module to predict uncertainty maps, which remedy the negative effect of uncertain regions in pseudo images, leading to a better reconstruction performance. The effectiveness of our approach is demonstrated through superior single-view 3D reconstruction results of generic objects.
翻訳日:2022-07-22 12:50:03 公開日:2022-07-20
# ABAW4チャレンジにおける顔影響認識のためのハイブリッドCNN変換器モデル

Hybrid CNN-Transformer Model For Facial Affect Recognition In the ABAW4 Challenge ( http://arxiv.org/abs/2207.10201v1 )

ライセンス: Link先を確認
Lingfeng Wang, Haocheng Li, Chunyin Liu(参考訳) 本稿では,第4回ABAW(Affective Behavior Analysis)コンペティションについて述べる。 マルチタスクラーニング(mtl)と合成データ(lsd)タスクからの学習のためのハイブリッドcnn-transformerモデルを提案する。 検証データセットにおける実験結果は,提案手法がベースラインモデルよりも優れた性能を達成していることを示す。

This paper describes our submission to the fourth Affective Behavior Analysis (ABAW) competition. We proposed a hybrid CNN-Transformer model for the Multi-Task-Learning (MTL) and Learning from Synthetic Data (LSD) task. Experimental results on validation dataset shows that our method achieves better performance than baseline model, which verifies that the effectiveness of proposed network.
翻訳日:2022-07-22 12:49:44 公開日:2022-07-20
# 瞬間的に精密で微妙なイベントをビデオで見る

Spotting Temporally Precise, Fine-Grained Events in Video ( http://arxiv.org/abs/2207.10213v1 )

ライセンス: Link先を確認
James Hong, Haotian Zhang, Micha\"el Gharbi, Matthew Fisher, Kayvon Fatahalian(参考訳) 本稿では,映像中の時間的正確できめ細かな出来事(時間的出来事の正確な瞬間を検出する)を特定するタスクを紹介する。 正確なスポッティングでは、モデルがアクションのフルタイムスケールについてグローバルに推論し、そのアクション中にイベントを識別する微妙なフレーム・ツー・フレームの外観と動きの違いを局所的に識別する必要がある。 意外なことに、アクション検出やセグメンテーションといった従来のビデオ理解タスクに対する最高のソリューションは、両方の要件を同時に満たさない。 提案するE2E-Spotは,高精度なスポッティング作業でよく機能し,単一のGPU上で高速にトレーニングできる,コンパクトなエンドツーエンドモデルである。 E2E-Spotは,映像の動作検出,セグメンテーション,スポッティングによる文献の正確なスポッティング処理により,最近のベースラインを著しく上回っている。 最後に,いくつかのスポーツアクションデータセットに新しいアノテーションとスプリットを提供し,これらのデータセットを正確なスポッティングに関する今後の作業に適したものにします。

We introduce the task of spotting temporally precise, fine-grained events in video (detecting the precise moment in time events occur). Precise spotting requires models to reason globally about the full-time scale of actions and locally to identify subtle frame-to-frame appearance and motion differences that identify events during these actions. Surprisingly, we find that top performing solutions to prior video understanding tasks such as action detection and segmentation do not simultaneously meet both requirements. In response, we propose E2E-Spot, a compact, end-to-end model that performs well on the precise spotting task and can be trained quickly on a single GPU. We demonstrate that E2E-Spot significantly outperforms recent baselines adapted from the video action detection, segmentation, and spotting literature to the precise spotting task. Finally, we contribute new annotations and splits to several fine-grained sports action datasets to make these datasets suitable for future work on precise spotting.
翻訳日:2022-07-22 12:49:35 公開日:2022-07-20
# MeshMAE: 3Dメッシュデータ分析のためのマスク付きオートエンコーダ

MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis ( http://arxiv.org/abs/2207.10228v1 )

ライセンス: Link先を確認
Yaqian Liang, Shanshan Zhao, Baosheng Yu, Jing Zhang, and Fazhi He(参考訳) 近年、自己教師付き事前トレーニングでは、画像や3Dポイントのクラウドデータなど、さまざまなデータモダリティを扱うビジョントランスフォーマーが進歩している。 本稿では,トランスフォーマーに基づく3次元メッシュデータ解析のための学習パラダイムについて検討する。 新しいモダリティにトランスフォーマーアーキテクチャを適用するのは一般的ではないため、まずビジョントランスフォーマーを3dメッシュデータ処理、すなわちメッシュトランスフォーマーに適用する。 具体的には、メッシュを複数の重複しないローカルパッチに分割し、それぞれが同じ数の顔を持ち、各パッチの中心点の3d位置を使用して位置埋め込みを形成する。 MAEにインスパイアされた私たちは、Transformerベースの構造を持つ3Dメッシュデータの事前トレーニングが、下流の3Dメッシュ分析タスクにどのような効果があるかを調査した。 まず最初に、メッシュのパッチをランダムにマスクし、破損したメッシュをメッシュトランスフォーマーに供給します。 そして、マスキングパッチの情報を再構成することにより、メッシュデータの識別表現を学習することができる。 そこで我々は,メッシュ解析タスク,すなわち分類とセグメンテーションにおいて,最先端あるいは同等のパフォーマンスを得られるMeshMAE法を命名した。 また,本手法における鍵設計の有効性を示すため,包括的アブレーション研究も行った。

Recently, self-supervised pre-training has advanced Vision Transformers on various tasks w.r.t. different data modalities, e.g., image and 3D point cloud data. In this paper, we explore this learning paradigm for 3D mesh data analysis based on Transformers. Since applying Transformer architectures to new modalities is usually non-trivial, we first adapt Vision Transformer to 3D mesh data processing, i.e., Mesh Transformer. In specific, we divide a mesh into several non-overlapping local patches with each containing the same number of faces and use the 3D position of each patch's center point to form positional embeddings. Inspired by MAE, we explore how pre-training on 3D mesh data with the Transformer-based structure benefits downstream 3D mesh analysis tasks. We first randomly mask some patches of the mesh and feed the corrupted mesh into Mesh Transformers. Then, through reconstructing the information of masked patches, the network is capable of learning discriminative representations for mesh data. Therefore, we name our method MeshMAE, which can yield state-of-the-art or comparable performance on mesh analysis tasks, i.e., classification and segmentation. In addition, we also conduct comprehensive ablation studies to show the effectiveness of key designs in our method.
翻訳日:2022-07-22 12:49:17 公開日:2022-07-20
# 逐次意思決定者に対する不正攻撃とその対策

Illusionary Attacks on Sequential Decision Makers and Countermeasures ( http://arxiv.org/abs/2207.10170v1 )

ライセンス: Link先を確認
Tim Franzmeyer, Jo\~ao F. Henriques, Jakob N. Foerster, Philip H.S. Torr, Adel Bibi, Christian Schroeder de Witt(参考訳) 現実世界に展開する自律的な知的エージェントは、感覚入力に対する敵対的な攻撃に対して堅牢でなければならない。 強化学習における既存の研究は、コンピュータビジョンにおける知覚的不変性の概念を模倣するために導入された最小限のノルム摂動攻撃に焦点を当てている。 本稿では,このような最小限の摂動攻撃が,被害者エージェントの行動と一致しない観察シーケンスの結果として,被害者エージェントによって自覚的に検出できることに注意する。 さらに、物理的なロボットのような多くの現実世界のエージェントは、通常人間の監督下で動作し、そのような摂動攻撃の影響を受けない。 そこで本研究では,被害者エージェントの世界モデルと一致した新たな攻撃形態である錯覚的攻撃に焦点を当てることを提案する。 我々は,この新しい攻撃枠組みを形式的に定義し,様々な条件下でその特性を探索し,エージェントは幻想的攻撃に頑健な現実主義的フィードバックを求める必要があると結論づける。

Autonomous intelligent agents deployed to the real-world need to be robust against adversarial attacks on sensory inputs. Existing work in reinforcement learning focuses on minimum-norm perturbation attacks, which were originally introduced to mimic a notion of perceptual invariance in computer vision. In this paper, we note that such minimum-norm perturbation attacks can be trivially detected by victim agents, as these result in observation sequences that are not consistent with the victim agent's actions. Furthermore, many real-world agents, such as physical robots, commonly operate under human supervisors, which are not susceptible to such perturbation attacks. As a result, we propose to instead focus on illusionary attacks, a novel form of attack that is consistent with the world model of the victim agent. We provide a formal definition of this novel attack framework, explore its characteristics under a variety of conditions, and conclude that agents must seek realism feedback to be robust to illusionary attacks.
翻訳日:2022-07-22 12:44:33 公開日:2022-07-20
# brace:ダンスモーション合成のためのブレイクダンス競技データセット

BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis ( http://arxiv.org/abs/2207.10120v1 )

ライセンス: Link先を確認
Davide Moltisanti, Jinyi Wu, Bo Dai, Chen Change Loy(参考訳) 音響条件付きダンスモーション合成のための生成モデル -ダンスモーションに対する音楽特徴- モデルは通常、人体の明確な知識なしに、動きパターンとオーディオパターンを関連付けるように訓練されている。 このアプローチは、強い音楽-ダンス相関、制御された動きデータ、比較的単純なポーズと動きの仮定に依存している。 これらの特徴はダンス・モーション・シンセサイザーのための既存のすべてのデータセットに見られ、実際に最近の手法で良い結果が得られ、複雑な人間のポーズを示す動的なダンス・シーケンスの集合をコンパイルし、これらの一般的な仮定に挑戦する新しいデータセットを導入する。 我々はアクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。 本誌はRed Bull BC Oneのコンペティションビデオからデータを入手した。 これらのビデオから人間のキーポイントを推定するのは、ダンスの複雑さと複数の移動カメラが記録されるため難しい。 我々は,詳細な推定モデルと手動アノテーションを活用して,高品質なキーポイントシーケンスを低コストで取得するハイブリッドラベリングパイプラインを採用する。 当社の努力は、3時間30分以上の密に注釈されたポーズを含むbraceデータセットを作成しました。 我々は,ブラスに関する最先端手法をテストし,複雑なシーケンスで評価した場合の限界を示した。 我々のデータセットは容易にダンスモーション合成の進歩を育むことができる。 複雑なポーズやスイフトの動きでは、モデルはモダリティと理性の間のマッピングを学ぶこと以上のことを余儀なくされます。

Generative models for audio-conditioned dance motion synthesis map music features to dance movements. Models are trained to associate motion patterns to audio patterns, usually without an explicit knowledge of the human body. This approach relies on a few assumptions: strong music-dance correlation, controlled motion data and relatively simple poses and movements. These characteristics are found in all existing datasets for dance motion synthesis, and indeed recent methods can achieve good results.We introduce a new dataset aiming to challenge these common assumptions, compiling a set of dynamic dance sequences displaying complex human poses. We focus on breakdancing which features acrobatic moves and tangled postures. We source our data from the Red Bull BC One competition videos. Estimating human keypoints from these videos is difficult due to the complexity of the dance, as well as the multiple moving cameras recording setup. We adopt a hybrid labelling pipeline leveraging deep estimation models as well as manual annotations to obtain good quality keypoint sequences at a reduced cost. Our efforts produced the BRACE dataset, which contains over 3 hours and 30 minutes of densely annotated poses. We test state-of-the-art methods on BRACE, showing their limitations when evaluated on complex sequences. Our dataset can readily foster advance in dance motion synthesis. With intricate poses and swift movements, models are forced to go beyond learning a mapping between modalities and reason more effectively about body structure and movements.
翻訳日:2022-07-22 12:43:47 公開日:2022-07-20
# blurからのアニメーション:モーションガイダンスによるマルチモーダルボケ分解

Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance ( http://arxiv.org/abs/2207.10123v1 )

ライセンス: Link先を確認
Zhihang Zhong, Xiao Sun, Zhirong Wu, Yinqiang Zheng, Stephen Lin and Imari Sato(参考訳) 本研究では,1つの動きブル画像から詳細な動きを復元する難題について検討する。 この問題に対する既存の解は、各領域の動きの曖昧さを考慮せずに単一の画像列を推定する。 したがって、結果はマルチモーダルな可能性の平均に収束する傾向にある。 本稿では、このような動きのあいまいさを明確に説明し、複数の可算解を鋭い詳細で生成することができる。 鍵となる考え方は4つの離散的な動き方向のみを持つ2次元光学流れのコンパクトな量子化である動き誘導表現の導入である。 動き誘導を条件として、新しい二段階分解ネットワークを用いて、ぼかし分解を特定の不明瞭な解に導く。 本研究では,人間の入力,隣接映像フレームからの動作情報,映像データセットからの学習など,様々な動作ガイダンスを生成するためのインタフェースをサポートする,ぼかし分解のための統一フレームワークを提案する。 合成データセットと実世界のデータに関する広範囲な実験は、提案手法が従来の手法よりも質的かつ定量的に優れていることを示している。 コードはhttps://github.com/zzh-tech/animation-from-blurで入手できる。

We study the challenging problem of recovering detailed motion from a single motion-blurred image. Existing solutions to this problem estimate a single image sequence without considering the motion ambiguity for each region. Therefore, the results tend to converge to the mean of the multi-modal possibilities. In this paper, we explicitly account for such motion ambiguity, allowing us to generate multiple plausible solutions all in sharp detail. The key idea is to introduce a motion guidance representation, which is a compact quantization of 2D optical flow with only four discrete motion directions. Conditioned on the motion guidance, the blur decomposition is led to a specific, unambiguous solution by using a novel two-stage decomposition network. We propose a unified framework for blur decomposition, which supports various interfaces for generating our motion guidance, including human input, motion information from adjacent video frames, and learning from a video dataset. Extensive experiments on synthesized datasets and real-world data show that the proposed framework is qualitatively and quantitatively superior to previous methods, and also offers the merit of producing physically plausible and diverse solutions. Code is available at https://github.com/zzh-tech/Animation-from-Blur.
翻訳日:2022-07-22 12:43:24 公開日:2022-07-20
# テンポラルアクションセグメンテーションにおけるタイムスタンプスーパービジョンのための一般化とロバストフレームワーク

A Generalized & Robust Framework For Timestamp Supervision in Temporal Action Segmentation ( http://arxiv.org/abs/2207.10137v1 )

ライセンス: Link先を確認
Rahul Rahaman, Dipika Singhania, Alexandre Thiery and Angela Yao(参考訳) 時間的アクションセグメンテーションでは、Timestampの監督はビデオシーケンスごとにわずかにラベル付きフレームを必要とする。 ラベルのないフレームでは、以前の作品はハードラベルの割り当てに依存しており、アノテーションの仮定の微妙な違反によってパフォーマンスは急速に崩壊する。 本稿では,未ラベルフレームのラベルの不確かさを活かし,潜在的なアノテーションの誤りに対処できるような新しい期待最大化手法を提案する。 正確なタイムスタンプアノテーションを用いて、提案手法はSOTA結果を生成し、複数のメトリクスやデータセットの完全な教師付き設定を超えている。 動作セグメントを欠いたタイムスタンプアノテーションに適用した場合,本手法は安定した性能を示す。 提案方式のロバスト性をさらに検証するために,スキップタグ監督の新たな挑戦的アノテーション設定を導入する。 この設定は制約を緩和し、ビデオ内の一定数のランダムフレームのアノテーションを必要とするため、競争力を維持しながらタイムスタンプ監督よりも柔軟である。

In temporal action segmentation, Timestamp supervision requires only a handful of labelled frames per video sequence. For unlabelled frames, previous works rely on assigning hard labels, and performance rapidly collapses under subtle violations of the annotation assumptions. We propose a novel Expectation-Maximization (EM) based approach that leverages the label uncertainty of unlabelled frames and is robust enough to accommodate possible annotation errors. With accurate timestamp annotations, our proposed method produces SOTA results and even exceeds the fully-supervised setup in several metrics and datasets. When applied to timestamp annotations with missing action segments, our method presents stable performance. To further test our formulation's robustness, we introduce the new challenging annotation setup of Skip-tag supervision. This setup relaxes constraints and requires annotations of any fixed number of random frames in a video, making it more flexible than Timestamp supervision while remaining competitive.
翻訳日:2022-07-22 12:43:04 公開日:2022-07-20
# エキスパートによる変形可能なオブジェクト操作の学習

Learning Deformable Object Manipulation from Expert Demonstrations ( http://arxiv.org/abs/2207.10148v1 )

ライセンス: Link先を確認
Gautam Salhotra and I-Chun Arthur Liu and Marcus Dominguez-Kuhne and Gaurav S. Sukhatme(参考訳) 本稿では,状態や画像を入力として変形可能な操作タスクを解決するために,実演法(lfd)法(deformable manipulation from demonstrations,dmfd)を提案する。 提案手法では,3つの異なる方法で実演を行い,オンライン環境探索と専門家の指導による高次元空間探索のトレードオフをバランスさせる。 1次元ロープと2次元布の代表的な操作タスクのセットでdmfdをテストし,それぞれ状態と画像の観察を行った。 本手法は,ステートベースタスクのベースライン性能を最大12.9%,イメージベースのタスクを最大33.44%向上し,ランダム性に対するロバスト性が向上した。 さらに, 2次元布を折り畳むための2つの難解な環境を, 画像に基づく観察を用いて作成し, 性能ベンチマークを設定した。 シミュレーション(〜6%)と比較して,実世界実行時の正規化性能が最小限に低下した実ロボットにDMfDをデプロイする。 ソースコードはgithub.com/uscresl/dmfdにある

We present a novel Learning from Demonstration (LfD) method, Deformable Manipulation from Demonstrations (DMfD), to solve deformable manipulation tasks using states or images as inputs, given expert demonstrations. Our method uses demonstrations in three different ways, and balances the trade-off between exploring the environment online and using guidance from experts to explore high dimensional spaces effectively. We test DMfD on a set of representative manipulation tasks for a 1-dimensional rope and a 2-dimensional cloth from the SoftGym suite of tasks, each with state and image observations. Our method exceeds baseline performance by up to 12.9% for state-based tasks and up to 33.44% on image-based tasks, with comparable or better robustness to randomness. Additionally, we create two challenging environments for folding a 2D cloth using image-based observations, and set a performance benchmark for them. We deploy DMfD on a real robot with a minimal loss in normalized performance during real-world execution compared to simulation (~6%). Source code is on github.com/uscresl/dmfd
翻訳日:2022-07-22 12:40:56 公開日:2022-07-20
# CTおよびコーンビームC-アーム灌流画像におけるTurbolift Learningを用いた肝分画

Liver Segmentation using Turbolift Learning for CT and Cone-beam C-arm Perfusion Imaging ( http://arxiv.org/abs/2207.10167v1 )

ライセンス: Link先を確認
Hana Haselji\'c, Soumick Chatterjee, Robert Frysch, Vojt\v{e}ch Kulvait, Vladimir Semshchikov, Bennet Hensen, Frank Wacker, Inga Br\"usch, Thomas Werncke, Oliver Speck, Andreas N\"urnberger and Georg Rose(参考訳) C-arm cone-beam CT(CBCT)を用いて肝のダイナミック灌流イメージングを改善するため, 時間分離法(TST)を用いたモデルベース再構成を行った。 CT 灌流データから抽出した事前知識を用いて TST を適用するには,CT スキャンから肝臓を正確に区分けする必要がある。 一次およびモデルに基づくCBCTデータの再構成は、パーフュージョンマップの適切な可視化と解釈のためにセグメント化する必要がある。 本研究は, トレーニングCT, CBCT, CBCT TSTの順に, 異なる肝セグメンテーションタスクにおいて, マルチスケール注意UNetの修正版を連続的にトレーニングするターボリフト学習を提案する。 cbct tstによる肝分画の最終課題として,提案手法では6倍および4倍の肝分画実験において 0.874$\pm$0.031 と 0.905$\pm$0.007 の総合diceスコアをそれぞれ達成した。 実験により、ターボリフトはモデル全体の性能を向上させるだけでなく、塞栓材や切断物に由来するアーティファクトに対して頑健であることが判明した。 さらに,詳細な分析により,セグメンテーションタスクの順序を確認した。 本稿では,CT,CBCT,CBCT TSTから肝を分画する可能性を示し,肝疾患の治療評価のための灌流マップの可視化と評価に将来使用可能な限られたトレーニングデータから学ぶ。

Model-based reconstruction employing the time separation technique (TST) was found to improve dynamic perfusion imaging of the liver using C-arm cone-beam computed tomography (CBCT). To apply TST using prior knowledge extracted from CT perfusion data, the liver should be accurately segmented from the CT scans. Reconstructions of primary and model-based CBCT data need to be segmented for proper visualisation and interpretation of perfusion maps. This research proposes Turbolift learning, which trains a modified version of the multi-scale Attention UNet on different liver segmentation tasks serially, following the order of the trainings CT, CBCT, CBCT TST - making the previous trainings act as pre-training stages for the subsequent ones - addressing the problem of limited number of datasets for training. For the final task of liver segmentation from CBCT TST, the proposed method achieved an overall Dice scores of 0.874$\pm$0.031 and 0.905$\pm$0.007 in 6-fold and 4-fold cross-validation experiments, respectively - securing statistically significant improvements over the model, which was trained only for that task. Experiments revealed that Turbolift not only improves the overall performance of the model but also makes it robust against artefacts originating from the embolisation materials and truncation artefacts. Additionally, in-depth analyses confirmed the order of the segmentation tasks. This paper shows the potential of segmenting the liver from CT, CBCT, and CBCT TST, learning from the available limited training data, which can possibly be used in the future for the visualisation and evaluation of the perfusion maps for the treatment evaluation of liver diseases.
翻訳日:2022-07-22 12:39:39 公開日:2022-07-20
# 超高分解能磁気共鳴分光画像のためのフローベースビジュアルクオリティエンハンサー

Flow-based Visual Quality Enhancer for Super-resolution Magnetic Resonance Spectroscopic Imaging ( http://arxiv.org/abs/2207.10181v1 )

ライセンス: Link先を確認
Siyuan Dong, Gilbert Hangel, Eric Z. Chen, Shanhui Sun, Wolfgang Bogner, Georg Widhalm, Chenyu You, John A. Onofrey, Robin de Graaf, James S. Duncan(参考訳) MRSI(MR Resonance Spectroscopic Imaging)は、体内の代謝物の定量化に欠かせないツールであるが、低空間分解能は臨床応用を制限する。 深層学習に基づく超解像法はMRSIの空間分解能を改善するための有望な結果を与えたが、超解像は実験的に取得した高分解能画像と比較してしばしばぼやけている。 画像の視覚品質を改善するために、生成的敵ネットワークで試みられている。 そこで本研究では,学習がより安定かつ解釈可能なフローベースモデルという,他のタイプの生成モデルについて考察する。 具体的には,超高解像度MRSIの視覚的品質を向上させるためのフローベースエンハンサーネットワークを提案する。 従来のフローベースモデルとは違って,我々のエンハンサーネットワークでは,画像モダリティ(MRI)の解剖情報を付加し,学習可能なベース分布を用いる。 また,高い忠実性を維持しつつ,高画質の画像を生成するようネットワークに促すため,ガイドロスとデータ一貫性ロスを課す。 25名の高次グリオーマ患者から取得した1H-MRSIデータセットを用いた実験により,我々のエンハンサーネットワークは対向ネットワークやベースラインフローベース手法よりも優れていることが示された。 また,視覚的品質調整や不確実性推定も可能である。

Magnetic Resonance Spectroscopic Imaging (MRSI) is an essential tool for quantifying metabolites in the body, but the low spatial resolution limits its clinical applications. Deep learning-based super-resolution methods provided promising results for improving the spatial resolution of MRSI, but the super-resolved images are often blurry compared to the experimentally-acquired high-resolution images. Attempts have been made with the generative adversarial networks to improve the image visual quality. In this work, we consider another type of generative model, the flow-based model, of which the training is more stable and interpretable compared to the adversarial networks. Specifically, we propose a flow-based enhancer network to improve the visual quality of super-resolution MRSI. Different from previous flow-based models, our enhancer network incorporates anatomical information from additional image modalities (MRI) and uses a learnable base distribution. In addition, we impose a guide loss and a data-consistency loss to encourage the network to generate images with high visual quality while maintaining high fidelity. Experiments on a 1H-MRSI dataset acquired from 25 high-grade glioma patients indicate that our enhancer network outperforms the adversarial networks and the baseline flow-based methods. Our method also allows visual quality adjustment and uncertainty estimation.
翻訳日:2022-07-22 12:39:07 公開日:2022-07-20
# 潜在判別的決定論的不確かさ

Latent Discriminant deterministic Uncertainty ( http://arxiv.org/abs/2207.10130v1 )

ライセンス: Link先を確認
Gianni Franchi, Xuanlong Yu, Andrei Bursuc, Emanuel Aldea, Severine Dubuisson, David Filliat(参考訳) 深層ニューラルネットワークを実世界の自律システムに適用するには,予測的不確実性推定が不可欠である。 しかし、最も成功したアプローチは計算量が多い。 本研究では、自律運転認識タスクの文脈において、これらの課題に対処しようと試みる。 最近提案された決定論的不確実性法(DUM)は、複雑なコンピュータビジョンタスクへのスケーラビリティが明らかでないため、部分的にしか満たせない。 本研究では、高分解能なセマンティックセグメンテーションのためのスケーラブルで効果的なDUMを推進し、リプシッツ制約を緩和することで、そのようなアーキテクチャの実用性を阻害する。 任意の大きさのトレーニング可能なプロトタイプセット上の識別最大化層を利用することで、識別可能な潜在空間を学習する。 提案手法は,不確実性予測のための最先端技術であるDeep Ensemblesに対する,画像分類,セグメンテーション,単眼深度推定タスクに対する競合的な結果を実現する。 私たちのコードはhttps://github.com/ENSTA-U2IS/LDUで公開されています。

Predictive uncertainty estimation is essential for deploying Deep Neural Networks in real-world autonomous systems. However, most successful approaches are computationally intensive. In this work, we attempt to address these challenges in the context of autonomous driving perception tasks. Recently proposed Deterministic Uncertainty Methods (DUM) can only partially meet such requirements as their scalability to complex computer vision tasks is not obvious. In this work we advance a scalable and effective DUM for high-resolution semantic segmentation, that relaxes the Lipschitz constraint typically hindering practicality of such architectures. We learn a discriminant latent space by leveraging a distinction maximization layer over an arbitrarily-sized set of trainable prototypes. Our approach achieves competitive results over Deep Ensembles, the state-of-the-art for uncertainty prediction, on image classification, segmentation and monocular depth estimation tasks. Our code is available at https://github.com/ENSTA-U2IS/LDU
翻訳日:2022-07-22 12:33:55 公開日:2022-07-20
# 深層学習モデルを用いた小児骨年齢評価

Pediatric Bone Age Assessment using Deep Learning Models ( http://arxiv.org/abs/2207.10169v1 )

ライセンス: Link先を確認
Aravinda Raman, Sameena Pathan, Tanweer Ali(参考訳) 骨年齢アセスメント(BAA)は、骨格年齢と慢性年齢の年齢差を決定する標準的な方法である。 手動のプロセスは複雑で、専門家の専門知識を必要とします。 ここでディープラーニングが活躍します。 本研究では,vgg-16,inceptionv3,xceptionnet,mobilenetなどの事前学習モデルを用いて入力データの骨年齢を測定し,その平均誤差を比較して,どのモデルがベストを予測しているかを評価する。

Bone age assessment (BAA) is a standard method for determining the age difference between skeletal and chronological age. Manual processes are complicated and necessitate the expertise of experts. This is where deep learning comes into play. In this study, pre-trained models like VGG-16, InceptionV3, XceptionNet, and MobileNet are used to assess the bone age of the input data, and their mean average errors are compared and evaluated to see which model predicts the best.
翻訳日:2022-07-22 12:33:37 公開日:2022-07-20
# Bitwidth-Adaptive Quantization-Aware Neural Network Training: A Meta-Learning Approach

Bitwidth-Adaptive Quantization-Aware Neural Network Training: A Meta-Learning Approach ( http://arxiv.org/abs/2207.10188v1 )

ライセンス: Link先を確認
Jiseok Youn, Jaehun Song, Hyung-Sin Kim, Saewoong Bahk(参考訳) 適応ビット幅を持つディープニューラルネットワーク量子化は、リソース予算の異なるさまざまなプラットフォームへのモデル展開の容易さにより、注目を集めている。 本稿では,この目標を達成するためのメタラーニング手法を提案する。 具体的には、メタラーニングタスクを再定義し、ビット幅を組み込むことで、メタラーニングとQATを効果的に組み合わせた、ビット幅適応型量子化学習(QAT)の簡易かつ効果的な方法であるMEBQATを提案する。 プラットフォーム上にデプロイされた後、MEBQATは(meta--trained)モデルを任意のビット幅に量子化し、量子化からあまり精度を落とさずに推論を行うのに役立つ。 さらに、数ショットの学習シナリオでは、MEBQATは、従来の最適化やメトリックベースのメタラーニングを追加することで、任意のビット幅と見えないターゲットクラスにモデルを適応することもできる。 我々は(1)ビット幅適応型量子化シナリオと(2)量子化ビット幅と目的クラスの両方を併用した新しい数ショット学習シナリオの両方をサポートするMEBQATの変種を設計する。 複数のQAT方式の妥当性を実験的に実証した。 既存のビット幅適応型QATとバニラメタラーニングの性能を(ビット幅指定)QATと比較することにより、ビット幅をメタラーニングタスクにマージすることで、より高度なロバスト性が得られることがわかった。

Deep neural network quantization with adaptive bitwidths has gained increasing attention due to the ease of model deployment on various platforms with different resource budgets. In this paper, we propose a meta-learning approach to achieve this goal. Specifically, we propose MEBQAT, a simple yet effective way of bitwidth-adaptive quantization aware training (QAT) where meta-learning is effectively combined with QAT by redefining meta-learning tasks to incorporate bitwidths. After being deployed on a platform, MEBQAT allows the (meta-)trained model to be quantized to any candidate bitwidth then helps to conduct inference without much accuracy drop from quantization. Moreover, with a few-shot learning scenario, MEBQAT can also adapt a model to any bitwidth as well as any unseen target classes by adding conventional optimization or metric-based meta-learning. We design variants of MEBQAT to support both (1) a bitwidth-adaptive quantization scenario and (2) a new few-shot learning scenario where both quantization bitwidths and target classes are jointly adapted. We experimentally demonstrate their validity in multiple QAT schemes. By comparing their performance to (bitwidth-dedicated) QAT, existing bitwidth adaptive QAT and vanilla meta-learning, we find that merging bitwidths into meta-learning tasks achieves a higher level of robustness.
翻訳日:2022-07-22 12:33:26 公開日:2022-07-20
# 3次元物体検出器のロバスト性について

On the Robustness of 3D Object Detectors ( http://arxiv.org/abs/2207.10205v1 )

ライセンス: Link先を確認
Fatima Albreiki, Sultan Abughazal, Jean Lahoud, Rao Anwer, Hisham Cholakkal, and Fahad Khan(参考訳) 近年,3次元データ収集技術や深層学習技術の進歩により,点雲上での3次元オブジェクト検出に大きな進歩が達成されている。 それでも、3Dシーンには多くのバリエーションがあり、センサーの不正確さや前処理時の情報損失の傾向があります。 したがって、これらのバリエーションに対して堅牢な手法を設計することが重要である。 これには、そのようなバリエーションの効果に関する詳細な分析と理解が必要である。 この研究は、一般的なポイントベースの3Dオブジェクト検出器をいくつかのデータ破損に対して分析し、ベンチマークすることを目的としている。 我々の知る限りでは、我々はポイントベースの3Dオブジェクト検出器の頑健さを初めて調査する。 この目的のために、データの追加、削減、変更を伴う腐敗を設計、評価します。 さらに,局所的および大域的な変動に対する異なるモジュールのロバスト性についても検討する。 実験の結果,いくつかの興味深い結果が得られた。 例えば、パッチやオブジェクトレベルでTransformerを統合するメソッドは、ポイントレベルでTransformerを使用する場合と比較して、ロバスト性が向上することを示す。

In recent years, significant progress has been achieved for 3D object detection on point clouds thanks to the advances in 3D data collection and deep learning techniques. Nevertheless, 3D scenes exhibit a lot of variations and are prone to sensor inaccuracies as well as information loss during pre-processing. Thus, it is crucial to design techniques that are robust against these variations. This requires a detailed analysis and understanding of the effect of such variations. This work aims to analyze and benchmark popular point-based 3D object detectors against several data corruptions. To the best of our knowledge, we are the first to investigate the robustness of point-based 3D object detectors. To this end, we design and evaluate corruptions that involve data addition, reduction, and alteration. We further study the robustness of different modules against local and global variations. Our experimental results reveal several intriguing findings. For instance, we show that methods that integrate Transformers at a patch or object level lead to increased robustness, compared to using Transformers at the point level.
翻訳日:2022-07-22 12:33:00 公開日:2022-07-20
# ラベル粒度と物体局在について

On Label Granularity and Object Localization ( http://arxiv.org/abs/2207.10225v1 )

ライセンス: Link先を確認
Elijah Cole, Kimberly Wilber, Grant Van Horn, Xuan Yang, Marco Fornoni, Pietro Perona, Serge Belongie, Andrew Howard, Oisin Mac Aodha(参考訳) weakly supervised object localization (wsol) は、画像レベルのカテゴリラベルのみを使用して、オブジェクトの位置をエンコードする表現を学習することを目的としている。 しかし、多くのオブジェクトは異なる粒度でラベル付けすることができる。 動物か鳥か それとも大きな角のフクロウか? どのイメージレベルラベルを使うべきか? 本稿では,WSOLにおけるラベル粒度の役割について検討する。 この調査を容易にするために、WSOLの新しい大規模きめ細かいベンチマークデータセットであるiNatLoc500を紹介します。 驚くべきことに、適切なトレーニングラベルの粒度を選択することは、最高のWSOLアルゴリズムを選択するよりもはるかに大きなパフォーマンス向上をもたらす。 また,ラベルの粒度変更によってデータ効率が著しく向上することを示す。

Weakly supervised object localization (WSOL) aims to learn representations that encode object location using only image-level category labels. However, many objects can be labeled at different levels of granularity. Is it an animal, a bird, or a great horned owl? Which image-level labels should we use? In this paper we study the role of label granularity in WSOL. To facilitate this investigation we introduce iNatLoc500, a new large-scale fine-grained benchmark dataset for WSOL. Surprisingly, we find that choosing the right training label granularity provides a much larger performance boost than choosing the best WSOL algorithm. We also show that changing the label granularity can significantly improve data efficiency.
翻訳日:2022-07-22 12:32:46 公開日:2022-07-20
# 自己指導型学習で最大化するものは何か?

What Do We Maximize in Self-Supervised Learning? ( http://arxiv.org/abs/2207.10081v1 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv, Randall Balestriero, Yann LeCun(参考訳) 本稿では,自己指導型学習手法,特にVICRegについて検討し,その構築に関する情報理論的理解を提供する。 最初のステップとして、決定論的ネットワークにおいて情報理論量がどのように得られるかを示し、確率的モデルに依存する先行研究の代替となる可能性を示す。 これにより、第1原則とそのデータ分散に関する仮定から、VICRegをどのように(再)発見できるかを実証することができる。 さらに, 仮定の有効性を実証的に実証し, 新たなVICRegの理解を確認した。 最後に、得られた導出と洞察は、他の多くのSSLメソッドに一般化することができ、SSLと転送学習の理論的および実践的な理解のための新たな道を開くことができると信じている。

In this paper, we examine self-supervised learning methods, particularly VICReg, to provide an information-theoretical understanding of their construction. As a first step, we demonstrate how information-theoretic quantities can be obtained for a deterministic network, offering a possible alternative to prior work that relies on stochastic models. This enables us to demonstrate how VICReg can be (re)discovered from first principles and its assumptions about data distribution. Furthermore, we empirically demonstrate the validity of our assumptions, confirming our novel understanding of VICReg. Finally, we believe that the derivation and insights we obtain can be generalized to many other SSL methods, opening new avenues for theoretical and practical understanding of SSL and transfer learning.
翻訳日:2022-07-22 12:27:29 公開日:2022-07-20
# おそらくインスタンス間でElasticNetをチューニングする

Provably tuning the ElasticNet across instances ( http://arxiv.org/abs/2207.10199v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Mikhail Khodak, Dravyansh Sharma, Ameet Talwalkar(参考訳) 正規化理論における重要な未解決の課題は、一般に証明可能な保証を持つElasticNetのような一般的なテクニックの正規化係数を設定することである。 本稿では,複数の問題インスタンスにまたがるリッジ回帰,LASSO,ElasticNetの正規化パラメータの調整の問題について考察する。 代数的境界を持つ断片的有理関数としてチューニングパラメータの関数として損失を特徴付けるElasticNetの新たな構造的結果を得る。 これを正規化損失関数の構造的複雑性に限定し、統計的設定において弾性ネット回帰係数をチューニングするための一般化保証を示す。 また,オンライン学習環境において,最適なパラメータ対に対して平均的な後悔が消失する傾向がみられた。 我々はさらに、Rook、LASSO、ElasticNetによって正規化された回帰適合のしきい値から得られる分類アルゴリズムのチューニングに結果を拡張した。 本研究は,データ分布に対する強い仮定を回避した,この重要な問題に対する一般学習理論の保証である。 さらに,我々の保証は,検証と人気情報基準の両目的に当てはまる。

An important unresolved challenge in the theory of regularization is to set the regularization coefficients of popular techniques like the ElasticNet with general provable guarantees. We consider the problem of tuning the regularization parameters of Ridge regression, LASSO, and the ElasticNet across multiple problem instances, a setting that encompasses both cross-validation and multi-task hyperparameter optimization. We obtain a novel structural result for the ElasticNet which characterizes the loss as a function of the tuning parameters as a piecewise-rational function with algebraic boundaries. We use this to bound the structural complexity of the regularized loss functions and show generalization guarantees for tuning the ElasticNet regression coefficients in the statistical setting. We also consider the more challenging online learning setting, where we show vanishing average expected regret relative to the optimal parameter pair. We further extend our results to tuning classification algorithms obtained by thresholding regression fits regularized by Ridge, LASSO, or ElasticNet. Our results are the first general learning-theoretic guarantees for this important class of problems that avoid strong assumptions on the data distribution. Furthermore, our guarantees hold for both validation and popular information criterion objectives.
翻訳日:2022-07-22 12:26:05 公開日:2022-07-20
# 非言語的手がかりを用いた対面協調型人間-人間間インタラクション分析

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey ( http://arxiv.org/abs/2207.10574v1 )

ライセンス: Link先を確認
Cigdem Beyan and Alessandro Vinciarelli and Alessio Del Bue(参考訳) 本研究は,非言語的手がかりの自動分析を目的とした最近の取り組み(2010年以降)の体系的レビューである。 非言語的手がかりに焦点をあてる主な理由は、これらは社会的、心理的現象の物理的、機械的検出可能な痕跡である。 したがって、非言語的手がかりの検出と理解は、少なくともある程度は、社会的、心理的な現象を検出し、理解することを意味する。 内容は以下の3つに分類される。 イ 指導力、支配力、性格特性等の社会的特性をモデル化すること。 ロ 社会的役割認識及び社会的関係の検出及び c) 集団結束、共感、ラップポート等の観点からの相互作用ダイナミクスの分析 我々は、相互作用者が常に人間である同一位置の相互作用を標的としている。 この調査は、フリースタンディングインタラクション、ミーティング、屋内と屋外のソーシャル交換、ディヤドの会話、群衆のダイナミクスなど、さまざまな設定とシナリオをカバーしている。 各調査では,非言語的手がかり分析,すなわちデータ,センシングアプローチ,計算手法の3つの要素について検討した。 目標は、過去10年の主な進歩を強調し、既存の制限を指摘し、今後の方向性を概説することである。

This work presents a systematic review of recent efforts (since 2010) aimed at automatic analysis of nonverbal cues displayed in face-to-face co-located human-human social interactions. The main reason for focusing on nonverbal cues is that these are the physical, machine detectable traces of social and psychological phenomena. Therefore, detecting and understanding nonverbal cues means, at least to a certain extent, to detect and understand social and psychological phenomena. The covered topics are categorized into three as: a) modeling social traits, such as leadership, dominance, personality traits, b) social role recognition and social relations detection and c) interaction dynamics analysis in terms of group cohesion, empathy, rapport and so forth. We target the co-located interactions, in which the interactants are always humans. The survey covers a wide spectrum of settings and scenarios, including free-standing interactions, meetings, indoor and outdoor social exchanges, dyadic conversations, and crowd dynamics. For each of them, the survey considers the three main elements of nonverbal cues analysis, namely data, sensing approaches and computational methodologies. The goal is to highlight the main advances of the last decade, to point out existing limitations, and to outline future directions.
翻訳日:2022-07-22 12:21:58 公開日:2022-07-20
# World Robot Challenge 2020 - パートナーロボット: 移動マニピュレータによるルームタイピングのためのデータ駆動アプローチ

World Robot Challenge 2020 -- Partner Robot: A Data-Driven Approach for Room Tidying with Mobile Manipulator ( http://arxiv.org/abs/2207.10106v1 )

ライセンス: Link先を確認
Tatsuya Matsushima, Yuki Noguchi, Jumpei Arima, Toshiki Aoki, Yuki Okita, Yuya Ikeda, Koki Ishimoto, Shohei Taniguchi, Yuki Yamashita, Shoichi Seto, Shixiang Shane Gu, Yusuke Iwasawa, Yutaka Matsuo(参考訳) Tidying up a household environment using a mobile manipulator poses various challenges in robotics, such as adaptation to large real-world environmental variations, and safe and robust deployment in the presence of humans.The Partner Robot Challenge in World Robot Challenge (WRC) 2020, a global competition held in September 2021, benchmarked tidying tasks in the real home environments, and importantly, tested for full system performances.For this challenge, we developed an entire household service robot system, which leverages a data-driven approach to adapt to numerous edge cases that occur during the execution, instead of classical manual pre-programmed solutions.In this paper, we describe the core ingredients of the proposed robot system, including visual recognition, object manipulation, and motion planning. 我々のロボットシステムは、家庭環境における移動操作のためのデータ駆動型ロボットシステムの有効性と可能性を検証し、第2位を獲得した。

Tidying up a household environment using a mobile manipulator poses various challenges in robotics, such as adaptation to large real-world environmental variations, and safe and robust deployment in the presence of humans.The Partner Robot Challenge in World Robot Challenge (WRC) 2020, a global competition held in September 2021, benchmarked tidying tasks in the real home environments, and importantly, tested for full system performances.For this challenge, we developed an entire household service robot system, which leverages a data-driven approach to adapt to numerous edge cases that occur during the execution, instead of classical manual pre-programmed solutions.In this paper, we describe the core ingredients of the proposed robot system, including visual recognition, object manipulation, and motion planning. Our robot system won the second prize, verifying the effectiveness and potential of data-driven robot systems for mobile manipulation in home environments.
翻訳日:2022-07-22 12:21:26 公開日:2022-07-20
# 対象性・属性・カテゴリー学習を用いたシーン認識

Scene Recognition with Objectness, Attribute and Category Learning ( http://arxiv.org/abs/2207.10174v1 )

ライセンス: Link先を確認
Ji Zhang, Jean-Paul Ainam, Li-hui Zhao, Wenai Song, and Xin Wang(参考訳) シーン分類は、困難な研究課題として確立されている。 個々のオブジェクトのイメージと比較すると、シーンイメージはずっと意味的に複雑で抽象的である。 彼らの違いは、主に認識の粒度のレベルにある。 しかし,物体画像から得られる知識は,シーンの正確な認識に利用できるため,画像認識はシーン認識の優れたパフォーマンスの鍵となる。 既存のシーン認識手法は、シーンのカテゴリラベルのみを考慮に入れている。 しかし, 詳細なローカル記述を含む文脈情報も, シーン認識モデルをより識別しやすくする上で有益であることがわかった。 本稿では,オブジェクトに符号化された属性とカテゴリラベル情報を用いて,シーン認識を改善することを目的とする。 属性とカテゴリラベルの相補性に基づいて,カテゴリ埋め込みを学習し,同時にシーン属性を予測するマルチタスク属性・シーン認識(MASR)ネットワークを提案する。 属性取得とオブジェクトアノテーションは面倒で時間のかかるタスクです。 人間の介入を著しく減らした部分教師付きアノテーション戦略を提案することで,この問題に対処する。 この戦略は現実世界のシナリオに対してよりコスト効率の良いソリューションを提供し、アノテーションの労力を大幅に削減する。 さらに,対象が検出したスコアの重要度を考慮した属性予測の再重み付けを行った。 提案手法では,4つの大規模データセットに対して属性ラベルを効率的にアノテートし,シーンと属性認識の相互効果を体系的に検証する。 実験の結果,masrはより識別的な表現を習得し,最先端手法と比較して競争力のある認識性能を実現することが示された。

Scene classification has established itself as a challenging research problem. Compared to images of individual objects, scene images could be much more semantically complex and abstract. Their difference mainly lies in the level of granularity of recognition. Yet, image recognition serves as a key pillar for the good performance of scene recognition as the knowledge attained from object images can be used for accurate recognition of scenes. The existing scene recognition methods only take the category label of the scene into consideration. However, we find that the contextual information that contains detailed local descriptions are also beneficial in allowing the scene recognition model to be more discriminative. In this paper, we aim to improve scene recognition using attribute and category label information encoded in objects. Based on the complementarity of attribute and category labels, we propose a Multi-task Attribute-Scene Recognition (MASR) network which learns a category embedding and at the same time predicts scene attributes. Attribute acquisition and object annotation are tedious and time consuming tasks. We tackle the problem by proposing a partially supervised annotation strategy in which human intervention is significantly reduced. The strategy provides a much more cost-effective solution to real world scenarios, and requires considerably less annotation efforts. Moreover, we re-weight the attribute predictions considering the level of importance indicated by the object detected scores. Using the proposed method, we efficiently annotate attribute labels for four large-scale datasets, and systematically investigate how scene and attribute recognition benefit from each other. The experimental results demonstrate that MASR learns a more discriminative representation and achieves competitive recognition performance compared to the state-of-the-art methods
翻訳日:2022-07-22 12:20:16 公開日:2022-07-20
# 資源拘束型移動ロボットのモデル圧縮

Model Compression for Resource-Constrained Mobile Robots ( http://arxiv.org/abs/2207.10082v1 )

ライセンス: Link先を確認
Timotheos Souroulla (Ericsson Research AI), Alberto Hata (Ericsson Research AI), Ahmad Terra (Ericsson Research AI), \"Ozer \"Ozkahraman (KTH, Royal Institute of Technology), Rafia Inam (Ericsson Research AI)(参考訳) 複雑な機械学習モデルを実行するために必要な制約付きコンピューティングリソースを持つモバイルロボットの数は、過去10年間で増加している。 一般的にこれらのロボットは、複雑な計算タスクを実行するために、無線通信を通じてアクセス可能なエッジインフラストラクチャに依存している。 しかし、エッジは使用不能になり、その結果、ロボット上でのタスクの実行が義務付けられる。 本研究は,事前学習したコンピュータビジョンモデルの複雑性とパラメータ数を削減し,ロボットのタスク実行を可能にすることに焦点を当てている。 これはPruningやKnowledge Distillationといったモデル圧縮技術を用いて実現される。 これらの圧縮技術は理論的および実践的な基礎を持っているが、それらの組み合わせは文献で広く研究されていない。 そこで本研究は, これら2つの圧縮技術を組み合わせる効果について検討する。 この結果から,コンピュータビジョンモデルのパラメータの総数の90%は,モデルの精度を大幅に低下させることなく取り除くことができることがわかった。

The number of mobile robots with constrained computing resources that need to execute complex machine learning models has been increasing during the past decade. Commonly, these robots rely on edge infrastructure accessible over wireless communication to execute heavy computational complex tasks. However, the edge might become unavailable and, consequently, oblige the execution of the tasks on the robot. This work focuses on making it possible to execute the tasks on the robots by reducing the complexity and the total number of parameters of pre-trained computer vision models. This is achieved by using model compression techniques such as Pruning and Knowledge Distillation. These compression techniques have strong theoretical and practical foundations, but their combined usage has not been widely explored in the literature. Therefore, this work especially focuses on investigating the effects of combining these two compression techniques. The results of this work reveal that up to 90% of the total number of parameters of a computer vision model can be removed without any considerable reduction in the model's accuracy.
翻訳日:2022-07-22 12:15:17 公開日:2022-07-20
# オンライン協調記憶による連続的変分オートエンコーダ学習

Continual Variational Autoencoder Learning via Online Cooperative Memorization ( http://arxiv.org/abs/2207.10131v1 )

ライセンス: Link先を確認
Fei Ye and Adrian G. Bors(参考訳) その推論,データ表現,再構成特性により,変分オートエンコーダ (VAE) は連続的な学習分類タスクに成功している。 しかし、CL(Continuous Learning)で学んだクラスやデータベースに対応する仕様で画像を生成する能力は十分に理解されておらず、破滅的な忘れ込みは依然として大きな課題である。 本稿ではまず, CL を動的最適輸送問題として定式化する理論的枠組みを開発することにより, VAE の忘れる挙動を解析する。 このフレームワークは、タスク情報を必要とせずにデータ可能性に近似した境界を証明し、トレーニングプロセス中に事前の知識が失われる方法について説明する。 次に,新しいメモリバッファリング手法であるオンライン協調記憶(ocm)フレームワークを提案する。これは,最近のサンプルを継続的に保存してモデルに未来情報を提供する短期記憶(stm)と,多種多様なサンプルを保存することを目的とした長期記憶(ltm)から構成される。 提案するOCMは,情報多様性選択基準に従ってSTMからLTMへのサンプルの転送を行う。 OCMフレームワークは、動的VAE拡張混合ネットワークと組み合わせて、その性能をさらに向上させる。

Due to their inference, data representation and reconstruction properties, Variational Autoencoders (VAE) have been successfully used in continual learning classification tasks. However, their ability to generate images with specifications corresponding to the classes and databases learned during Continual Learning (CL) is not well understood and catastrophic forgetting remains a significant challenge. In this paper, we firstly analyze the forgetting behaviour of VAEs by developing a new theoretical framework that formulates CL as a dynamic optimal transport problem. This framework proves approximate bounds to the data likelihood without requiring the task information and explains how the prior knowledge is lost during the training process. We then propose a novel memory buffering approach, namely the Online Cooperative Memorization (OCM) framework, which consists of a Short-Term Memory (STM) that continually stores recent samples to provide future information for the model, and a Long-Term Memory (LTM) aiming to preserve a wide diversity of samples. The proposed OCM transfers certain samples from STM to LTM according to the information diversity selection criterion without requiring any supervised signals. The OCM framework is then combined with a dynamic VAE expansion mixture network for further enhancing its performance.
翻訳日:2022-07-22 12:15:04 公開日:2022-07-20
# 構造因果3次元再構成

Structural Causal 3D Reconstruction ( http://arxiv.org/abs/2207.10156v1 )

ライセンス: Link先を確認
Weiyang Liu, Zhen Liu, Liam Paull, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 本稿では,非教師なし3次元オブジェクト再構成の問題点について考察する。 曖昧さと本質的な不備のため、この問題は本質的に解決が困難であり、異なる潜伏因子の解離を達成するためには強い正則化が必要である。 対象関数に明示的な正規化を導入する既存の研究とは異なり、暗黙的な正規化のための異なる空間、すなわち潜在空間の構造を考察する。 具体的には、潜在因子の位相因果順序(すなわち有向非巡回グラフとしての因果依存性を表す)を捉えるために、潜在空間の構造を制限する。 まず,3次元再構成において異なる因果的順序付けが重要であることを示し,タスク依存因果的順序付けを見つけるためのいくつかのアプローチを探る。 我々の実験は、潜在空間構造が暗黙の正則化として機能し、再構成に有益な帰納バイアスをもたらすことを示した。

This paper considers the problem of unsupervised 3D object reconstruction from in-the-wild single-view images. Due to ambiguity and intrinsic ill-posedness, this problem is inherently difficult to solve and therefore requires strong regularization to achieve disentanglement of different latent factors. Unlike existing works that introduce explicit regularizations into objective functions, we look into a different space for implicit regularization -- the structure of latent space. Specifically, we restrict the structure of latent space to capture a topological causal ordering of latent factors (i.e., representing causal dependency as a directed acyclic graph). We first show that different causal orderings matter for 3D reconstruction, and then explore several approaches to find a task-dependent causal factor ordering. Our experiments demonstrate that the latent space structure indeed serves as an implicit regularization and introduces an inductive bias beneficial for reconstruction.
翻訳日:2022-07-22 12:14:43 公開日:2022-07-20
# ロバスト回転探索における半定値最小二乗の緩和の理解に向けて

Towards Understanding The Semidefinite Relaxations of Truncated Least-Squares in Robust Rotation Search ( http://arxiv.org/abs/2207.08350v2 )

ライセンス: Link先を確認
Liangzu Peng and Mahyar Fazlyab and Ren\'e Vidal(参考訳) 回転探索問題は、与えられた点対を最もよく整列する3次元回転を見つけることを目的としている。 回転探索における外れ値に対するロバスト性を誘導するため、先行研究では、非凸最適化問題である最小二乗(TLS)と半定緩和(SDR)をトラクタブルな代替として検討している。 このSDRが理論上、ノイズや外れ値の存在下で厳密であるかどうか、あるいはどちらもほとんど未解明のままである。 我々は,このSDRの密度を特徴付ける条件を導出し,その密度は騒音レベル,TLSの乱れパラメータ,および外れ値分布(ランダムまたはクラスタ化)に依存することを示した。 特に,先行研究の長大な分析とは対照的に,無ノイズかつ非異常なケースのタイトさの簡単な証明を与える。

The rotation search problem aims to find a 3D rotation that best aligns a given number of point pairs. To induce robustness against outliers for rotation search, prior work considers truncated least-squares (TLS), which is a non-convex optimization problem, and its semidefinite relaxation (SDR) as a tractable alternative. Whether this SDR is theoretically tight in the presence of noise, outliers, or both has remained largely unexplored. We derive conditions that characterize the tightness of this SDR, showing that the tightness depends on the noise level, the truncation parameters of TLS, and the outlier distribution (random or clustered). In particular, we give a short proof for the tightness in the noiseless and outlier-free case, as opposed to the lengthy analysis of prior work.
翻訳日:2022-07-22 10:34:57 公開日:2022-07-20
# Singulation-and-Graspingによる自己監督型対話オブジェクトセグメンテーション

Self-Supervised Interactive Object Segmentation Through a Singulation-and-Grasping Approach ( http://arxiv.org/abs/2207.09314v2 )

ライセンス: Link先を確認
Houjian Yu and Changhyun Choi(参考訳) unseenオブジェクトを使ったインスタンスセグメンテーションは、非構造化環境では難しい問題である。 そこで本研究では,新しいオブジェクトと積極的に対話し,各オブジェクトのトレーニングラベルを収集し,さらに微調整することでセグメンテーションモデルの性能を向上させるロボット学習手法を提案する。 singulation-and-grasping(sag)ポリシーはエンドツーエンドの強化学習を通じて訓練される。 物体の粗い山が与えられた場合, 物体の破片を押下・把持する動作を選択し, 視覚的観察と不完全なセグメンテーションの入力として, SaG ポリシーが取る物体に依存しないグルーピングを行う。 課題を3つのサブタスクに分解する:(1) 対象の歌唱サブタスクは、オブジェクトを分離することを目的としており、(2) 衝突のない把持サブタスクの難しさを緩和する空間を創出する。(3) マスク生成サブタスクは、光フローベースのバイナリ分類器と転送学習のための運動後処理を用いて自己ラベルのグランド・真理マスクを得る。 本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。 本システムの対話的セグメンテーションは, 玩具ブロック, YCBオブジェクト, 実世界の新規オブジェクトの平均精度を87.8%, 73.9%, 69.3%で達成し, いくつかのベースラインを上回っている。

Instance segmentation with unseen objects is a challenging problem in unstructured environments. To solve this problem, we propose a robot learning approach to actively interact with novel objects and collect each object's training label for further fine-tuning to improve the segmentation model performance, while avoiding the time-consuming process of manually labeling a dataset. The Singulation-and-Grasping (SaG) policy is trained through end-to-end reinforcement learning. Given a cluttered pile of objects, our approach chooses pushing and grasping motions to break the clutter and conducts object-agnostic grasping for which the SaG policy takes as input the visual observations and imperfect segmentation. We decompose the problem into three subtasks: (1) the object singulation subtask aims to separate the objects from each other, which creates more space that alleviates the difficulty of (2) the collision-free grasping subtask; (3) the mask generation subtask to obtain the self-labeled ground truth masks by using an optical flow-based binary classifier and motion cue post-processing for transfer learning. Our system achieves 70% singulation success rate in simulated cluttered scenes. The interactive segmentation of our system achieves 87.8%, 73.9%, and 69.3% average precision for toy blocks, YCB objects in simulation and real-world novel objects, respectively, which outperforms several baselines.
翻訳日:2022-07-22 10:34:22 公開日:2022-07-20
# 一般化階数1行列センシングのための交代最小化:ランダム初期化からのシャープ予測

Alternating minimization for generalized rank one matrix sensing: Sharp predictions from a random initialization ( http://arxiv.org/abs/2207.09660v1 )

ライセンス: Link先を確認
Kabir Aladin Chandrasekher, Mengqi Lou, Ashwin Pananjady(参考訳) 我々は、ノイズによって非線形に変換され破壊されるランク=1$行列、すなわちランク=1$の測定値を用いてランク=1$行列の因子を推定する問題を考える。 非線形性の2つの原型的選択を考慮し、ランダム初期化から始まったこの非凸最適化問題に対する自然交互更新規則の収束特性について検討する。 高次元問題においても精度の高い決定論的再帰を導出することにより,アルゴリズムの標本分割版に対する鋭い収束保証を示す。 特に、無限サンプルの集団更新は非形式的であり、単一のステップで正確な回復を示唆する一方で、アルゴリズムと決定論的予測はランダムな初期化から幾何的に速く収束する。 我々の鋭く非漸近解析は、非線形性とノイズレベルが収束挙動にどのように影響するかなど、この問題の他の細かな性質も明らかにしている。 技術的レベルでは、各反復が$n$の観測で実行されるときのオーダー$n^{-1/2}$のゆらぎの中で、経験的誤差再帰を決定論的シーケンスで予測できることが示される。 提案手法は,高次元の$M$-estimationに関する文献から得られたLeft-one-outツールを活用し,ランダムな初期化から高次反復アルゴリズムを高速に解析する手段を提供する。

We consider the problem of estimating the factors of a rank-$1$ matrix with i.i.d. Gaussian, rank-$1$ measurements that are nonlinearly transformed and corrupted by noise. Considering two prototypical choices for the nonlinearity, we study the convergence properties of a natural alternating update rule for this nonconvex optimization problem starting from a random initialization. We show sharp convergence guarantees for a sample-split version of the algorithm by deriving a deterministic recursion that is accurate even in high-dimensional problems. Notably, while the infinite-sample population update is uninformative and suggests exact recovery in a single step, the algorithm -- and our deterministic prediction -- converges geometrically fast from a random initialization. Our sharp, non-asymptotic analysis also exposes several other fine-grained properties of this problem, including how the nonlinearity and noise level affect convergence behavior. On a technical level, our results are enabled by showing that the empirical error recursion can be predicted by our deterministic sequence within fluctuations of the order $n^{-1/2}$ when each iteration is run with $n$ observations. Our technique leverages leave-one-out tools originating in the literature on high-dimensional $M$-estimation and provides an avenue for sharply analyzing higher-order iterative algorithms from a random initialization in other high-dimensional optimization problems with random data.
翻訳日:2022-07-21 14:28:30 公開日:2022-07-20
# 畳み込みスパース符号化による教師なしエネルギー分散

Unsupervised energy disaggregation via convolutional sparse coding ( http://arxiv.org/abs/2207.09785v1 )

ライセンス: Link先を確認
Christian Aarset (1) and Andreas Habring (1) and Martin Holler (1) and Mario Mitter (2) ((1) University of Graz, (2) Solgenium OG)(参考訳) 本研究では,スマートメータを備えた民家における非教師なしエネルギー分散手法を提案する。 本手法は, 電力消費を能動的・受動的に分類し, 直接の相互作用なしに住民の活動や存在を報告できることを目的とする。 これは、個人住宅の非侵入的な健康モニタリングのようなアプリケーションの基盤となる。 提案手法は,ipalm(inertial proximal alternating linearized minimization)アルゴリズムを用いて,収束を保証した種々の条件を満たした適切なエネルギー汎関数を最小化するものである。 提案手法の実現可能性を確認するため,半合成テストデータセットに関する実験と,既存の教師付き手法との比較を行った。

In this work, a method for unsupervised energy disaggregation in private households equipped with smart meters is proposed. This method aims to classify power consumption as active or passive, granting the ability to report on the residents' activity and presence without direct interaction. This lays the foundation for applications like non-intrusive health monitoring of private homes. The proposed method is based on minimizing a suitable energy functional, for which the iPALM (inertial proximal alternating linearized minimization) algorithm is employed, demonstrating that various conditions guaranteeing convergence are satisfied. In order to confirm feasibility of the proposed method, experiments on semi-synthetic test data sets and a comparison to existing, supervised methods are provided.
翻訳日:2022-07-21 14:26:57 公開日:2022-07-20
# 確率的電力需要と太陽光発電予測に基づくエンベロープの運用

Operating Envelopes under Probabilistic Electricity Demand and Solar Generation Forecasts ( http://arxiv.org/abs/2207.09818v1 )

ライセンス: Link先を確認
Yu Yi, Gregor Verbic(参考訳) 低電圧ネットワークにおける分散型エネルギー資源の普及が、エンドユーザーを消費者からプロシューマーに転換しつつある。 しかし、小売とネットワークサービス提供の規制的な分離によるスマートメータデータの不完全なロールアウトとパデューシティは、アクティブな流通ネットワーク管理を困難にしている。 さらに、分散ネットワークオペレータは、しばしばリアルタイムのスマートメーターデータにアクセスできないため、さらなる課題が生じる。 より良い解決策がないため、彼らは屋根の屋根のソーラー輸出制限を使い、最適以下の結果をもたらす。 そこで本研究では,不確実性下での公平な運転エンベロープの計算に用いる最適潮流の入力として,家庭の太陽光発電と電力需要を予測するための条件付きジェネレイティブ・コンバーサリー・ネットワーク(cgan)モデルを設計した。

The increasing penetration of distributed energy resources in low-voltage networks is turning end-users from consumers to prosumers. However, the incomplete smart meter rollout and paucity of smart meter data due to the regulatory separation between retail and network service provision make active distribution network management difficult. Furthermore, distribution network operators oftentimes do not have access to real-time smart meter data, which creates an additional challenge. For the lack of better solutions, they use blanket rooftop solar export limits, leading to suboptimal outcomes. To address this, we designed a conditional generative adversarial network (CGAN)-based model to forecast household solar generation and electricity demand, which serves as an input to chance-constrained optimal power flow used to compute fair operating envelopes under uncertainty.
翻訳日:2022-07-21 14:26:45 公開日:2022-07-20
# 深部プレコンディショナーと地震波場処理への応用

Deep Preconditioners and their application to seismic wavefield processing ( http://arxiv.org/abs/2207.09938v1 )

ライセンス: Link先を確認
Matteo Ravasi(参考訳) 地震データ処理は物理駆動逆問題の解に大きく依存している。 好ましくないデータ取得条件(例えば、ソースおよび/または受信者の規則的または不規則な粗いサンプリング)が存在する場合、基礎となる逆問題は非常に不適切となり、適切な解を得るためには事前情報が必要である。 sparsity-promoting inversionは固定ベーシックなスパルシファイズ変換と相まって、実装の単純さと様々な買収シナリオで成功したアプリケーションが証明されたため、多くの処理タスクのgo-toアプローチを表している。 本稿では,複雑な多次元ベクトル空間のコンパクト表現を求めるディープニューラルネットワークの能力を活用して,入力地震データと代表的な潜在多様体との直接マッピングを学習するオートエンコーダネットワークを訓練する。 トレーニングされたデコーダはその後、物理駆動逆問題に対する非線形プレコンディショナーとして使用される。 様々な地震波処理タスクに対して合成およびフィールドデータを提示し, 提案する非線形・学習変換により, 求める解よりも高速に解を収束できることを示した。

Seismic data processing heavily relies on the solution of physics-driven inverse problems. In the presence of unfavourable data acquisition conditions (e.g., regular or irregular coarse sampling of sources and/or receivers), the underlying inverse problem becomes very ill-posed and prior information is required to obtain a satisfactory solution. Sparsity-promoting inversion, coupled with fixed-basis sparsifying transforms, represent the go-to approach for many processing tasks due to its simplicity of implementation and proven successful application in a variety of acquisition scenarios. Leveraging the ability of deep neural networks to find compact representations of complex, multi-dimensional vector spaces, we propose to train an AutoEncoder network to learn a direct mapping between the input seismic data and a representative latent manifold. The trained decoder is subsequently used as a nonlinear preconditioner for the physics-driven inverse problem at hand. Synthetic and field data are presented for a variety of seismic processing tasks and the proposed nonlinear, learned transformations are shown to outperform fixed-basis transforms and convergence faster to the sought solution.
翻訳日:2022-07-21 14:26:31 公開日:2022-07-20
# コーンマッピングの固定点とニューラルネットワークへの応用

Fixed Points of Cone Mapping with the Application to Neural Networks ( http://arxiv.org/abs/2207.09947v1 )

ライセンス: Link先を確認
Grzegorz Gabor and Krzysztof Rykaczewski(参考訳) 関数のスケーラビリティを仮定することなく、コーン写像の固定点の存在条件を導出する。 モノトニック性とスケーラビリティは、干渉マッピングの固定点を探索する文脈において、文献では分離できないことが多い。 アプリケーションでは、そのようなマッピングは非負のニューラルネットワークによって近似される。 しかし、非負のネットワークをトレーニングする過程は、モデルの重みに人工的な制約を与える必要があることが判明した。 しかし、特定の非負データの場合、写像が非負の場合には非負の重みしか持たないと言うことはできない。 そこで我々は,特定の錐体に対するタンジェンシ条件を前提として,一般ニューラルネットワークにおける固定点の存在の問題を検討した。 これは、入力と出力が非負であると仮定しても、重みはゼロ値以下(小さいが)を持つことができるため、物理的な仮定を緩和しない。 このような特性(しばしばニューラルネットワークの重みの解釈可能性に関する論文に見られる)は、ニューラルネットワークに関連するマッピングの単調性やスケーラビリティに関する仮定の弱体化につながる。 私たちの知る限りでは、この現象を研究するのは本論文が初めてです。

We derive conditions for the existence of fixed points of cone mappings without assuming scalability of functions. Monotonicity and scalability are often inseparable in the literature in the context of searching for fixed points of interference mappings. In applications, such mappings are approximated by non-negative neural networks. It turns out, however, that the process of training non-negative networks requires imposing an artificial constraint on the weights of the model. However, in the case of specific non-negative data, it cannot be said that if the mapping is non-negative, it has only non-negative weights. Therefore, we considered the problem of the existence of fixed points for general neural networks, assuming the conditions of tangency conditions with respect to specific cones. This does not relax the physical assumptions, because even assuming that the input and output are to be non-negative, the weights can have (small, but) less than zero values. Such properties (often found in papers on the interpretability of weights of neural networks) lead to the weakening of the assumptions about the monotonicity or scalability of the mapping associated with the neural network. To the best of our knowledge, this paper is the first to study this phenomenon.
翻訳日:2022-07-21 14:26:13 公開日:2022-07-20
# ホークスプロセスに基づく制限順序ブックモデルによる市場形成のための深層強化学習

Deep Reinforcement Learning for Market Making Under a Hawkes Process-Based Limit Order Book Model ( http://arxiv.org/abs/2207.09951v1 )

ライセンス: Link先を確認
Bruno Ga\v{s}perov, Zvonko Kostanj\v{c}ar(参考訳) 最適市場形成の確率的制御問題は、量的金融の中心的な問題の一つである。 本稿では,多変量ホークスプロセスに基づく制限順序ブックシミュレータを用いて,深い強化学習に基づく制御を訓練し,市場形成制御を実現する。 提案手法はモンテカルロのバックテストの利点を活用し、弱い一貫したリミテッドオーダーブックモデルの下での市場形成の研究に寄与する。 その後の深層強化学習コントローラは、複数のマーケットメーキングベンチマークと比較され、その結果、重要な取引コスト下でも、様々なリスク回避指標に対して優れたパフォーマンスを示す。

The stochastic control problem of optimal market making is among the central problems in quantitative finance. In this paper, a deep reinforcement learning-based controller is trained on a weakly consistent, multivariate Hawkes process-based limit order book simulator to obtain market making controls. The proposed approach leverages the advantages of Monte Carlo backtesting and contributes to the line of research on market making under weakly consistent limit order book models. The ensuing deep reinforcement learning controller is compared to multiple market making benchmarks, with the results indicating its superior performance with respect to various risk-reward metrics, even under significant transaction costs.
翻訳日:2022-07-21 14:25:56 公開日:2022-07-20
# NeuralNEB -- ニューラルネットワークは反応経路を素早く見つけることができる

NeuralNEB -- Neural Networks can find Reaction Paths Fast ( http://arxiv.org/abs/2207.09971v1 )

ライセンス: Link先を確認
Mathias Schreiner, Arghya Bhowmik, Tejs Vegge and Ole Winther(参考訳) 機械学習(ML)モデルは、分子動力学研究において有用であるのとは対照的に、反応障壁探索のサロゲートポテンシャルとして成功した。 これは、化学空間の関連する遷移状態領域におけるトレーニングデータの不足に起因する。 現在、小さな分子システム上でMLモデルをトレーニングするためのデータセットは、ほぼ平衡に近い構成を含んでいる。 本稿では, wb97x/6-31g(d)理論における反応経路とその周辺における分子配置の力とエネルギーの9.6億倍の密度汎関数理論(dft)を含むデータセットtransition1xを提案する。 データは、中間計算を節約しながら10k反応でdftを用いたヌッジ弾性バンド(neb)計算を実行して生成された。 我々は,人気のani1xおよびqm9データセット上でtransition1xおよびcross-validate上で,最先端の等価グラフメッセージパッシングニューラルネットワークモデルをトレーニングする。 MLモデルは、人気のあるベンチマークデータセットをトレーニングすることでのみ、遷移状態領域の機能を学習できないことを示す。 transition1xは新しい挑戦的なベンチマークで、平衡構成やリアクティブシステムから遠く離れた、次世代のMLフォースフィールドの開発に向けた重要なステップを提供する。

Machine Learning (ML) models have, in contrast to their usefulness in molecular dynamics studies, had limited success as surrogate potentials for reaction barrier search. It is due to the scarcity of training data in relevant transition state regions of chemical space. Currently, available datasets for training ML models on small molecular systems almost exclusively contain configurations at or near equilibrium. In this work, we present the dataset Transition1x containing 9.6 million Density Functional Theory (DFT) calculations of forces and energies of molecular configurations on and around reaction pathways at the wB97x/6-31G(d) level of theory. The data was generated by running Nudged Elastic Band (NEB) calculations with DFT on 10k reactions while saving intermediate calculations. We train state-of-the-art equivariant graph message-passing neural network models on Transition1x and cross-validate on the popular ANI1x and QM9 datasets. We show that ML models cannot learn features in transition-state regions solely by training on hitherto popular benchmark datasets. Transition1x is a new challenging benchmark that will provide an important step towards developing next-generation ML force fields that also work far away from equilibrium configurations and reactive systems.
翻訳日:2022-07-21 14:25:44 公開日:2022-07-20
# モノのインターネットにおけるユビキタスインテリジェンスのためのエッジコンピューティングにおけるフェデレーションと分割学習:最先端と今後の方向性

Combined Federated and Split Learning in Edge Computing for Ubiquitous Intelligence in Internet of Things: State of the Art and Future Directions ( http://arxiv.org/abs/2207.09611v1 )

ライセンス: Link先を確認
Qiang Duan, Shijing Hu, Ruijun Deng, and Zhihui Lu(参考訳) フェデレートラーニング(FL)とスプリットラーニング(SL)は、IoT(Internet of Things)におけるユビキタスインテリジェンスを大幅に促進する2つの新しいコラボレーティブラーニング手法である。 フェデレーション学習は、プライベートデータを使用してローカルにトレーニングされた機械学習(ML)モデルをグローバルモデルに集約することを可能にする。 分割学習は、学習フレームワークにおいて、mlモデルの異なる部分を異なるワーカーで協調的に訓練することを可能にする。 連合学習と分割学習は、それぞれ独自の利点とそれぞれの制限を持ち、iotにおけるユビキタスな知性に向けて相互補完する可能性がある。 そのため、近年、連合学習と分割学習の組み合わせが活発な研究領域として注目されている。 本稿では,フェデレーション学習と分割学習の最新動向を概観するとともに,これら2つの学習手法をエッジコンピューティングベースのiot環境で組み合わせるための最先端技術に関する調査を行う。 また,この分野における今後の研究の方向性について,新興分野に対する研究コミュニティの関心を一層高めるため,オープンな課題を特定し,議論する。

Federated learning (FL) and split learning (SL) are two emerging collaborative learning methods that may greatly facilitate ubiquitous intelligence in Internet of Things (IoT). Federated learning enables machine learning (ML) models locally trained using private data to be aggregated into a global model. Split learning allows different portions of an ML model to be collaboratively trained on different workers in a learning framework. Federated learning and split learning, each has unique advantages and respective limitations, may complement each other toward ubiquitous intelligence in IoT. Therefore, combination of federated learning and split learning recently became an active research area attracting extensive interest. In this article, we review the latest developments in federated learning and split learning and present a survey on the state-of-the-art technologies for combining these two learning methods in an edge computing-based IoT environment. We also identify some open problems and discuss possible directions for future research in this area with a hope to further arouse the research community's interest in this emerging field.
翻訳日:2022-07-21 14:22:12 公開日:2022-07-20
# feddm: コミュニケーション効率のよい連合学習のための反復分布マッチング

FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2207.09653v1 )

ライセンス: Link先を確認
Yuanhao Xiong, Ruochen Wang, Minhao Cheng, Felix Yu, Cho-Jui Hsieh(参考訳) federated learning~(fl)は最近、プライバシーとコミュニケーションの制約の下で共同トレーニングを実現するという究極の目標をもって、学界や業界から注目を集めている。 既存の反復モデル平均化ベースのflアルゴリズムは、異なるクライアント間での非常に不均衡で非i.i.dデータパーティショニングのため、十分にパーフォーミングされたモデルを得るために多くの通信ラウンドを必要とする。 そこで我々は,複数のローカルサロゲート関数からグローバルなトレーニング目標を構築するためにFedDMを提案する。 具体的には,各クライアントに合成されたデータ集合を構築し,分散マッチングにより,オリジナルデータからのロスランドスケープを局所的にマッチングする。 FedDMは通信ラウンドを減らし、より情報に富んだ、より小さな合成データを送信することで、モデル品質を向上させる。 3つの画像分類データセットについて広範な実験を行い,提案手法が効率とモデル性能の面で他のfl法よりも優れていることを示す。 さらに,FedDMはガウス機構で差分プライバシーを保ち,同一のプライバシー予算の下でより良いモデルを訓練できることを示した。

Federated learning~(FL) has recently attracted increasing attention from academia and industry, with the ultimate goal of achieving collaborative training under privacy and communication constraints. Existing iterative model averaging based FL algorithms require a large number of communication rounds to obtain a well-performed model due to extremely unbalanced and non-i.i.d data partitioning among different clients. Thus, we propose FedDM to build the global training objective from multiple local surrogate functions, which enables the server to gain a more global view of the loss landscape. In detail, we construct synthetic sets of data on each client to locally match the loss landscape from original data through distribution matching. FedDM reduces communication rounds and improves model quality by transmitting more informative and smaller synthesized data compared with unwieldy model weights. We conduct extensive experiments on three image classification datasets, and results show that our method can outperform other FL counterparts in terms of efficiency and model performance. Moreover, we demonstrate that FedDM can be adapted to preserve differential privacy with Gaussian mechanism and train a better model under the same privacy budget.
翻訳日:2022-07-21 14:21:49 公開日:2022-07-20
# クロスサイロフェデレーション学習のためのマルチグラフトポロジ設計

Multigraph Topology Design for Cross-Silo Federated Learning ( http://arxiv.org/abs/2207.09657v1 )

ライセンス: Link先を確認
Binh X. Nguyen, Tuong Do, Hien Nguyen, Vuong Pham, Toan Tran, Erman Tjiputra, Quang Tran, Anh Nguyen(参考訳) クロスサイロフェデレーション学習は、数百の信頼性の高いデータサイロと高速アクセスリンクを使用して、モデルを共同トレーニングする。 このアプローチは連合学習で一般的な設定になる一方で、トレーニング時間を短縮するためのロバストなトポロジの設計は、いまだに未解決の問題である。 本稿では,クロスサイロフェデレート学習のための新しいマルチグラフトポロジーを提案する。 まずオーバーレイグラフを用いてマルチグラフを構築する。 次に、この多重グラフを孤立ノードを持つ異なる単純なグラフに解析する。 分離ノードの存在は、他のノードを待つことなくモデルアグリゲーションを実行可能にするため、トレーニング時間を短縮できる。 さらに,マルチグラフトポロジを用いた新しい分散学習アルゴリズムを提案する。 公開データセットの集中的な実験により,提案手法は最近の最先端のトポロジと比較してトレーニング時間を著しく短縮し,収束の確保とモデルの精度の維持を図っている。

Cross-silo federated learning utilizes a few hundred reliable data silos with high-speed access links to jointly train a model. While this approach becomes a popular setting in federated learning, designing a robust topology to reduce the training time is still an open problem. In this paper, we present a new multigraph topology for cross-silo federated learning. We first construct the multigraph using the overlay graph. We then parse this multigraph into different simple graphs with isolated nodes. The existence of isolated nodes allows us to perform model aggregation without waiting for other nodes, hence reducing the training time. We further propose a new distributed learning algorithm to use with our multigraph topology. The intensive experiments on public datasets show that our proposed method significantly reduces the training time compared with recent state-of-the-art topologies while ensuring convergence and maintaining the model's accuracy.
翻訳日:2022-07-21 14:21:30 公開日:2022-07-20
# ロバストスパース脳活動復号のためのコレントロピーに基づくロジスティック回帰と自動関連決定

Correntropy-Based Logistic Regression with Automatic Relevance Determination for Robust Sparse Brain Activity Decoding ( http://arxiv.org/abs/2207.09693v1 )

ライセンス: Link先を確認
Yuanhao Li, Badong Chen, Yuxi Shi, Natsue Yoshimura, Yasuharu Koike(参考訳) 近年の研究では、スパース分類を用いて、高次元脳活動信号からカテゴリー変数を予測し、人間の意図や精神状態を暴露し、モデルトレーニングプロセスで自動的に関連する特徴を選択する。 しかし、既存のスパース分類モデルでは、脳の記録に固有のノイズによって生じる性能劣化が生じる可能性が高い。 この問題に対処するため,本研究では,新しいロバストでスパースな分類アルゴリズムを提案する。 そこで本研究では,相関性決定に基づくスパース分類モデルに相関性学習フレームワークを導入し,新しい相関性に基づく頑健なスパースロジスティック回帰アルゴリズムを提案する。 提案アルゴリズムの優れた脳活動復号性能を示すために,合成データセット,脳波(eeg)データセット,機能的磁気共鳴イメージング(fmri)データセットを用いて評価を行った。 広範な実験結果から,提案手法は,うるさくて高次元な分類タスクにおいて高い分類精度を達成できるだけでなく,より有用なデコードシナリオを選択できることがわかった。 correntropy learningアプローチと自動関連判定技術を統合することで、ノイズに対するロバスト性が大幅に向上し、より適切なロバストな脳デコードアルゴリズムが実現される。 現実世界の脳活動復号と脳-コンピュータインターフェースにおいて、より強力なアプローチを提供する。

Recent studies have utilized sparse classifications to predict categorical variables from high-dimensional brain activity signals to expose human's intentions and mental states, selecting the relevant features automatically in the model training process. However, existing sparse classification models will likely be prone to the performance degradation which is caused by noise inherent in the brain recordings. To address this issue, we aim to propose a new robust and sparse classification algorithm in this study. To this end, we introduce the correntropy learning framework into the automatic relevance determination based sparse classification model, proposing a new correntropy-based robust sparse logistic regression algorithm. To demonstrate the superior brain activity decoding performance of the proposed algorithm, we evaluate it on a synthetic dataset, an electroencephalogram (EEG) dataset, and a functional magnetic resonance imaging (fMRI) dataset. The extensive experimental results confirm that not only the proposed method can achieve higher classification accuracy in a noisy and high-dimensional classification task, but also it would select those more informative features for the decoding scenarios. Integrating the correntropy learning approach with the automatic relevance determination technique will significantly improve the robustness with respect to the noise, leading to more adequate robust sparse brain decoding algorithm. It provides a more powerful approach in the real-world brain activity decoding and the brain-computer interfaces.
翻訳日:2022-07-21 14:21:17 公開日:2022-07-20
# 大規模無線周波数信号の分類

Large Scale Radio Frequency Signal Classification ( http://arxiv.org/abs/2207.09918v1 )

ライセンス: Link先を確認
Luke Boegner, Manbir Gulati, Garrett Vanhoy, Phillip Vallance, Bradley Comar, Silvija Kokalj-Filipovic, Craig Lennon, Robert D. Miller(参考訳) narrowband radio frequency(rf)信号分類のためのディープラーニングモデルのトレーニングに用いられる既存のデータセットは、実世界のモデル性能を十分に評価するために、信号タイプやチャネル障害の多様性が不十分である。 53種類の信号から合成した500万個のサンプルと専門的に選択された障害からなるSig53データセットを紹介した。 また、このデータセットを生成するのに使用できる信号処理機械学習ツールキットであるtorchsigも紹介する。 TorchSigはビジョンドメインに共通するデータ処理の原則を取り入れており、将来のシグナル機械学習研究のためのオープンソース基盤として機能することを意図している。 sig53データセットを用いた最初の実験は、state of the art (sota) convolutional neural networks (convnets)とtransformersを用いて行われた。 これらの実験により、トランスフォーマーは、視覚領域の結果に反する追加の正規化やConvNetの教師を必要とせずに、ConvNetよりも優れています。 さらなる実験により、torchsigのドメイン固有のデータ拡張によってモデルトレーニングが促進されることが示され、最終的にはモデルパフォーマンスが向上する。 最後にtorchsigは、トレーニング時にオンザフライ合成データ生成をサポートし、事実上無制限のデータセットで大規模トレーニングセッションを可能にする。

Existing datasets used to train deep learning models for narrowband radio frequency (RF) signal classification lack enough diversity in signal types and channel impairments to sufficiently assess model performance in the real world. We introduce the Sig53 dataset consisting of 5 million synthetically-generated samples from 53 different signal classes and expertly chosen impairments. We also introduce TorchSig, a signals processing machine learning toolkit that can be used to generate this dataset. TorchSig incorporates data handling principles that are common to the vision domain, and it is meant to serve as an open-source foundation for future signals machine learning research. Initial experiments using the Sig53 dataset are conducted using state of the art (SoTA) convolutional neural networks (ConvNets) and Transformers. These experiments reveal Transformers outperform ConvNets without the need for additional regularization or a ConvNet teacher, which is contrary to results from the vision domain. Additional experiments demonstrate that TorchSig's domain-specific data augmentations facilitate model training, which ultimately benefits model performance. Finally, TorchSig supports on-the-fly synthetic data creation at training time, thus enabling massive scale training sessions with virtually unlimited datasets.
翻訳日:2022-07-21 14:20:52 公開日:2022-07-20
# 機械学習によるパラメータ空間の探索

Exploration of Parameter Spaces Assisted by Machine Learning ( http://arxiv.org/abs/2207.09959v1 )

ライセンス: Link先を確認
A. Hammad, Myeonghun Park, Raymundo Ramos and Pankaj Saha(参考訳) 機械学習の支援によりパラメータ空間の探索性が向上したサンプリング手順を実装した様々な機能やクラスを紹介する。 問題によって要求される調整が最小限に抑えられることを目標として、不適切なデフォルトの設定に特別注意が払われる。 このルーチンのコレクションは、パラメータ空間上の境界を見つけることから、興味のある領域のサンプルを蓄積することまで、さまざまなタイプの分析に使用できる。 特に,回帰と分類という,異なる機械学習モデルの導入を支援する2つの手法について論じる。 機械学習分類器はパラメータ空間の探索に高い効率性を提供できることを示す。 また,プロセス開始時の緩やかな収束を改善するために,促進技術を導入する。 これらのルーチンの使用は、得られる結果のタイプを示すいくつかの例の助けを借りて、より詳しく説明されている。 また,サンプル取得に使用するコードの例や,計算を他の問題に適用するための調整についての説明も行っています。 測定されたヒッグス・ボソン信号強度と一致する2つのヒッグス・ダブレットモデルのパラメータ空間を探索する際に,これらの手法が与える影響について述べる。 本稿で使用するコードと使用方法の指示は,Web上で公開されている。

We showcase a variety of functions and classes that implement sampling procedures with improved exploration of the parameter space assisted by machine learning. Special attention is paid to setting sane defaults with the objective that adjustments required by different problems remain minimal. This collection of routines can be employed for different types of analysis, from finding bounds on the parameter space to accumulating samples in areas of interest. In particular, we discuss two methods assisted by incorporating different machine learning models: regression and classification. We show that a machine learning classifier can provide higher efficiency for exploring the parameter space. Also, we introduce a boosting technique to improve the slow convergence at the start of the process. The use of these routines is better explained with the help of a few examples that illustrate the type of results one can obtain. We also include examples of the code used to obtain the examples as well as descriptions of the adjustments that can be made to adapt the calculation to other problems. We finalize by showing the impact of these techniques when exploring the parameter space of the two Higgs doublet model that matches the measured Higgs Boson signal strength. The code used for this paper and instructions on how to use it are available on the web.
翻訳日:2022-07-21 14:20:31 公開日:2022-07-20
# ディジタルツインによる産業制御システムの侵入検出

Digital Twin-based Intrusion Detection for Industrial Control Systems ( http://arxiv.org/abs/2207.09999v1 )

ライセンス: Link先を確認
Seba Anna Varghese and Alireza Dehlaghi Ghadim and Ali Balador and Zahra Alimadadi and Panos Papadimitratos(参考訳) ディジタル双子は最近、産業用制御システム(ics)のシミュレーション、最適化、予測保守に多大な関心を寄せている。 近年,産業システムにおけるディジタル双生児による侵入検知の可能性について検討している。 そこで本研究では,産業制御システムのためのディジタルツインベースのセキュリティフレームワークに寄与し,攻撃と防御機構のシミュレーション機能を拡張した。 産業用充填プラントのスタンドアロンのデジタルツインに, コマンドインジェクション, ネットワークデニアル・オブ・サービス(DoS), 計算された計測修正, ナイーブ測定修正の4種類のプロセス認識攻撃シナリオを実装した。 8つの教師付き機械学習アルゴリズムのオフライン評価に基づいて,リアルタイム侵入検出としてスタックドアンサンブル分類器を提案する。 設計された積み重ねモデルは、様々なアルゴリズムの予測を組み合わせることで、F1スコアと精度で従来の手法よりも優れ、ほぼリアルタイム(0.1秒)に侵入を検知し分類することができる。 本研究は,デジタルツインベースのセキュリティフレームワークの実用性とメリットについても論じる。

Digital twins have recently gained significant interest in simulation, optimization, and predictive maintenance of Industrial Control Systems (ICS). Recent studies discuss the possibility of using digital twins for intrusion detection in industrial systems. Accordingly, this study contributes to a digital twin-based security framework for industrial control systems, extending its capabilities for simulation of attacks and defense mechanisms. Four types of process-aware attack scenarios are implemented on a standalone open-source digital twin of an industrial filling plant: command injection, network Denial of Service (DoS), calculated measurement modification, and naive measurement modification. A stacked ensemble classifier is proposed as the real-time intrusion detection, based on the offline evaluation of eight supervised machine learning algorithms. The designed stacked model outperforms previous methods in terms of F1-Score and accuracy, by combining the predictions of various algorithms, while it can detect and classify intrusions in near real-time (0.1 seconds). This study also discusses the practicality and benefits of the proposed digital twin-based security framework.
翻訳日:2022-07-21 14:20:12 公開日:2022-07-20
# MANI-Rank:コンセンサスランキングにおける複数属性とグループ間フェアネス

MANI-Rank: Multiple Attribute and Intersectional Group Fairness for Consensus Ranking ( http://arxiv.org/abs/2207.10020v1 )

ライセンス: Link先を確認
Kathleen Cachel, Elke Rundensteiner, and Lane Harrison(参考訳) 多くのランク付け者の選好を1つのコンセンサスランキングに組み合わせることは、雇用や入場から融資まで、一連の応用に不可欠である。 グループフェアネスは分類のために広範囲に研究されてきたが、ランキングや特にランクアグリゲーションにおけるグループフェアネスは、まだ初期段階にある。 近年の研究では、ランキングを組み合わせるための公正ランクアグリゲーションの概念が導入されたが、候補が1つの二項保護属性を持つ場合、すなわち2つのグループに分かれる場合に限られている。 しかし、性別、人種、国籍など複数の保護された属性を持つ候補者に対して公正な待遇を確保しつつ、すべてのランクの選好を表すコンセンサスランキングを作成する方法は、いまだに未解決の問題である。 この研究において、我々はこのオープンマルチ属性フェアコンセンサスランキング(mfcr)問題を最初に定義し、解決する。 基礎として,MANI-RANKと呼ばれる新規グループフェアネス基準を設計し,個々の保護属性とその交点によって定義されるグループを公平に扱う。 MANI-RANK基準を利用して,MFCR問題に初めて取り組む一連のアルゴリズムを開発する。 多様なコンセンサスシナリオを用いた実験により,mfcr手法は,交叉属性と保護属性の公平性を両立する唯一の手法であると同時に,多数のベースランキングを通じて表現される選好を表現できることを示した。 実世界の学際研究は、MFCR法の有効性を実証し、複数の保護属性とそれらの交点に偏りを緩和する。 これはICDE 2022に掲載される"MANI-Rank: Multiple Attribute and Intersectional Group Fairness for Consensus Ranking"の拡張版である。

Combining the preferences of many rankers into one single consensus ranking is critical for consequential applications from hiring and admissions to lending. While group fairness has been extensively studied for classification, group fairness in rankings and in particular rank aggregation remains in its infancy. Recent work introduced the concept of fair rank aggregation for combining rankings but restricted to the case when candidates have a single binary protected attribute, i.e., they fall into two groups only. Yet it remains an open problem how to create a consensus ranking that represents the preferences of all rankers while ensuring fair treatment for candidates with multiple protected attributes such as gender, race, and nationality. In this work, we are the first to define and solve this open Multi-attribute Fair Consensus Ranking (MFCR) problem. As a foundation, we design novel group fairness criteria for rankings, called MANI-RANK, ensuring fair treatment of groups defined by individual protected attributes and their intersection. Leveraging the MANI-RANK criteria, we develop a series of algorithms that for the first time tackle the MFCR problem. Our experimental study with a rich variety of consensus scenarios demonstrates our MFCR methodology is the only approach to achieve both intersectional and protected attribute fairness while also representing the preferences expressed through many base rankings. Our real-world case study on merit scholarships illustrates the effectiveness of our MFCR methods to mitigate bias across multiple protected attributes and their intersections. This is an extended version of "MANI-Rank: Multiple Attribute and Intersectional Group Fairness for Consensus Ranking", to appear in ICDE 2022.
翻訳日:2022-07-21 14:19:53 公開日:2022-07-20
# 完全スパース3次元物体検出

Fully Sparse 3D Object Detection ( http://arxiv.org/abs/2207.10035v1 )

ライセンス: Link先を確認
Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang(参考訳) LiDARの知覚範囲が大きくなるにつれて、LiDARに基づく3Dオブジェクト検出は、自律運転の長距離認識タスクにおいて支配的なタスクとなる。 主流の3Dオブジェクト検出器は通常、ネットワークバックボーンと予測ヘッドに密度の高い特徴マップを構築する。 しかし、高密度特徴写像の計算コストと空間コストは知覚範囲に2次的であるため、長距離設定にはほとんどスケールアップできない。 高速な長距離LiDARオブジェクト検出を実現するため,フルスパース3Dオブジェクト検出器(FSD)を構築した。 FSDの計算と空間費用は、点数とほぼ線形であり、知覚範囲とは独立である。 fsdは汎用スパースvoxelエンコーダと新しいスパースインスタンス認識(sir)モジュール上に構築されている。 SIRはまずポイントをインスタンスにグループ化し、インスタンスワイドな特徴抽出と予測を適用します。 このようにして、SIRはセンター機能不足の問題を解消し、センターベースまたはアンカーベースの全検出器のための完全なスパースアーキテクチャの設計を妨げる。 さらにsiは、ポイントをインスタンスにグループ化することで、以前のポイントベースメソッドで時間を要する近隣クエリを回避する。 FSDの動作メカニズムを明らかにするため,大規模なWaymo Open Datasetの広範な実験を行い,その性能について報告する。 長距離検出におけるFSDの優位性を示すために、我々は、Waymo Open Dataset(75m$)よりもはるかに大きな知覚範囲(200m$)を持つArgoverse 2 Datasetの実験も行っています。 このような大きな認識範囲において、fsdは最先端のパフォーマンスを達成し、密度の高いコードよりも2.4$\times$高速である。

As the perception range of LiDAR increases, LiDAR-based 3D object detection becomes a dominant task in the long-range perception task of autonomous driving. The mainstream 3D object detectors usually build dense feature maps in the network backbone and prediction head. However, the computational and spatial costs on the dense feature map are quadratic to the perception range, which makes them hardly scale up to the long-range setting. To enable efficient long-range LiDAR-based object detection, we build a fully sparse 3D object detector (FSD). The computational and spatial cost of FSD is roughly linear to the number of points and independent of the perception range. FSD is built upon the general sparse voxel encoder and a novel sparse instance recognition (SIR) module. SIR first groups the points into instances and then applies instance-wise feature extraction and prediction. In this way, SIR resolves the issue of center feature missing, which hinders the design of the fully sparse architecture for all center-based or anchor-based detectors. Moreover, SIR avoids the time-consuming neighbor queries in previous point-based methods by grouping points into instances. We conduct extensive experiments on the large-scale Waymo Open Dataset to reveal the working mechanism of FSD, and state-of-the-art performance is reported. To demonstrate the superiority of FSD in long-range detection, we also conduct experiments on Argoverse 2 Dataset, which has a much larger perception range ($200m$) than Waymo Open Dataset ($75m$). On such a large perception range, FSD achieves state-of-the-art performance and is 2.4$\times$ faster than the dense counterpart.Codes will be released at https://github.com/TuSimple/SST.
翻訳日:2022-07-21 14:16:31 公開日:2022-07-20
# 単一フレーム大気乱流緩和:ベンチマーク研究と物理に触発された新しい変圧器モデル

Single Frame Atmospheric Turbulence Mitigation: A Benchmark Study and A New Physics-Inspired Transformer Model ( http://arxiv.org/abs/2207.10040v1 )

ライセンス: Link先を確認
Zhiyuan Mao and Ajay Jaiswal and Zhangyang Wang and Stanley H. Chan(参考訳) 大気乱流に対する画像復元アルゴリズムは、乱れに起因する歪みが空間的に変化するぼかしや幾何学的歪み、センサノイズの絡み合いであるため、ぼかしやノイズのような従来のものよりも設計が難しいことが知られている。 畳み込みカーネル上に構築された既存のCNNベースの復元手法は、空間的ダイナミックな大気乱流効果に対処するには不十分である。 そこで本稿では, 大気乱流の画像化のための物理インスパイア・トランスフォーマモデルを提案する。 提案ネットワークは, 変圧器ブロックのパワーを利用して動的乱流歪みマップを共同抽出し, 乱流のない画像の復元を行う。 さらに、包括的なデータセットの欠如を認識し、従来の客観的指標(psnrやssimなど)と、テキスト認識精度を用いた新しいタスク駆動メトリクスの両方で評価可能な、新たな現実世界の乱流データセットを2つ収集して提示する。 実際のテストセットと関連するコードの両方が公開される予定だ。

Image restoration algorithms for atmospheric turbulence are known to be much more challenging to design than traditional ones such as blur or noise because the distortion caused by the turbulence is an entanglement of spatially varying blur, geometric distortion, and sensor noise. Existing CNN-based restoration methods built upon convolutional kernels with static weights are insufficient to handle the spatially dynamical atmospheric turbulence effect. To address this problem, in this paper, we propose a physics-inspired transformer model for imaging through atmospheric turbulence. The proposed network utilizes the power of transformer blocks to jointly extract a dynamical turbulence distortion map and restore a turbulence-free image. In addition, recognizing the lack of a comprehensive dataset, we collect and present two new real-world turbulence datasets that allow for evaluation with both classical objective metrics (e.g., PSNR and SSIM) and a new task-driven metric using text recognition accuracy. Both real testing sets and all related code will be made publicly available.
翻訳日:2022-07-21 14:16:03 公開日:2022-07-20
# ロボットチームを用いたタスク割当

Task Allocation using a Team of Robots ( http://arxiv.org/abs/2207.09650v1 )

ライセンス: Link先を確認
Haris Aziz, Arindam Pal, Ali Pourmiri, Fahimeh Ramezani, Brendan Sims(参考訳) ロボットのチームや連合を用いたタスク割り当ては、ロボット工学、コンピュータ科学、運用研究、人工知能において最も重要な問題の1つだ。 近年,マルチロボットタスク割り当て問題における複雑な目的や実現可能性制約の扱いに焦点が当てられている。 これらの方向に重要な研究の進展の例が多数ある。 本稿では、よく研究されている複数のバージョンを一般化したタスク割り当て問題の一般化について述べる。 我々の定式化には、ロボット、タスク、そしてそれらが動作する環境の状態が含まれる。 本稿では,実現可能性制約や目的関数,動的に変化する情報のレベルによって,その問題がどう変化するかを説明する。 さらに、最適化ベースのアプローチや市場ベースのアプローチを含む既存のソリューションアプローチについても論じる。

Task allocation using a team or coalition of robots is one of the most important problems in robotics, computer science, operational research, and artificial intelligence. In recent work, research has focused on handling complex objectives and feasibility constraints amongst other variations of the multi-robot task allocation problem. There are many examples of important research progress in these directions. We present a general formulation of the task allocation problem that generalizes several versions that are well-studied. Our formulation includes the states of robots, tasks, and the surrounding environment in which they operate. We describe how the problem can vary depending on the feasibility constraints, objective functions, and the level of dynamically changing information. In addition, we discuss existing solution approaches for the problem including optimization-based approaches, and market-based approaches.
翻訳日:2022-07-21 14:15:25 公開日:2022-07-20
# 規則に基づくオントロジーの効率的な依存性解析

Efficient Dependency Analysis for Rule-Based Ontologies ( http://arxiv.org/abs/2207.09669v1 )

ライセンス: Link先を確認
Larry Gonz\'alez and Alex Ivliev and Markus Kr\"otzsch and Stephan Mennicke(参考訳) 存在規則オントロジーの静的解析、計算特性に関する有望な洞察、与えられたルールセットの実用的な利用、例えばオントロジーに基づくクエリ応答など、いくつかの種類の依存関係が提案されている。 残念ながら、これらの依存関係はめったに実装されないため、その可能性はほとんど実現されていない。 我々は2種類のルール依存(正の依存と抑制)に注目し、効率的な計算のための最適化アルゴリズムの設計と実装を行う。 10万ルール以上の実世界のオントロジーの実験は、我々のアプローチのスケーラビリティを示しており、既に提案されているいくつかの応用を実践的なケーススタディとして実現することができる。 特に、推論のルールベースのボトムアップアプローチが、実用的オントロジーにおいて冗長性のない「リーン」知識グラフ(いわゆるコア)をいかに保証できるかを分析することができる。

Several types of dependencies have been proposed for the static analysis of existential rule ontologies, promising insights about computational properties and possible practical uses of a given set of rules, e.g., in ontology-based query answering. Unfortunately, these dependencies are rarely implemented, so their potential is hardly realised in practice. We focus on two kinds of rule dependencies -- positive reliances and restraints -- and design and implement optimised algorithms for their efficient computation. Experiments on real-world ontologies of up to more than 100,000 rules show the scalability of our approach, which lets us realise several previously proposed applications as practical case studies. In particular, we can analyse to what extent rule-based bottom-up approaches of reasoning can be guaranteed to yield redundancy-free "lean" knowledge graphs (so-called cores) on practical ontologies.
翻訳日:2022-07-21 14:15:14 公開日:2022-07-20
# サービスとしての重複検出

Duplicate Detection as a Service ( http://arxiv.org/abs/2207.09672v1 )

ライセンス: Link先を確認
Juliette Opdenplatz and Umutcan \c{S}im\c{s}ek and Dieter Fensel(参考訳) 知識グラフの完全性は、それを利用するアプリケーションの性能に関する重要な品質の次元と要素である。 知識の豊かさによって完全性が向上する。 重複検出は知識グラフのインスタンス間のアイデンティティリンクを見つけることを目的としており、知識強化の基本的なサブタスクである。 現在のソリューションでは、ツールの専門的な知識と、それらが適用される知識グラフが必要です。 ユーザーはこの専門知識を持っていないかもしれない。 サービスベースの手法を重複検出タスクに適用し,現状と競争力を持ちながら,近年産業的に採用されている,使い易いノーコードソリューションを提案する。 評価は、頻繁に使用されるテストシナリオに基づいて行われる。

Completeness of a knowledge graph is an important quality dimension and factor on how well an application that makes use of it performs. Completeness can be improved by performing knowledge enrichment. Duplicate detection aims to find identity links between the instances of knowledge graphs and is a fundamental subtask of knowledge enrichment. Current solutions to the problem require expert knowledge of the tool and the knowledge graph they are applied to. Users might not have this expert knowledge. We present our service-based approach to the duplicate detection task that provides an easy-to-use no-code solution that is still competitive with the state-of-the-art and has recently been adopted in an industrial context. The evaluation will be based on several frequently used test scenarios.
翻訳日:2022-07-21 14:14:59 公開日:2022-07-20
# RV4JaCa -- マルチエージェントシステムの実行時検証

RV4JaCa -- Runtime Verification for Multi-Agent Systems ( http://arxiv.org/abs/2207.09708v1 )

ライセンス: Link先を確認
Debora C. Engelmann (PUCRS and UniGe), Angelo Ferrando (UniGe), Alison R. Panisson (UFSC), Davide Ancona (UniGe), Rafael H. Bordini (PUCRS), Viviana Mascardi (UniGe)(参考訳) 本稿では, JaCaMo フレームワークを用いたマルチエージェントシステム (MAS) に対する実行時検証 (RV) 手法を提案する。 私たちの目標は、MASにセキュリティ層を提供することです。 このレイヤは、各エージェントがイベントを認識するために特定の実装を必要とせずに、システム実行中のイベントを制御することができる。 masはハイブリッドインテリジェンスの文脈で使われてきた。 この利用には、ソフトウェアエージェントと人間とのコミュニケーションが必要である。 場合によっては、自然言語の対話を通じてコミュニケーションが行われる。 しかし,このようなコミュニケーションは対話の流れの制御に関わる懸念を生じさせ,エージェントが議論の話題の変化を防ぎ,彼らの推論を損なうおそれがある。 病院のベッドアロケーションにおける意思決定を支援するために,自然言語を介してユーザと通信するMASにおいて,この対話フローを制御するためのモニタの実装を実演する。

This paper presents a Runtime Verification (RV) approach for Multi-Agent Systems (MAS) using the JaCaMo framework. Our objective is to bring a layer of security to the MAS. This layer is capable of controlling events during the execution of the system without needing a specific implementation in the behaviour of each agent to recognise the events. MAS have been used in the context of hybrid intelligence. This use requires communication between software agents and human beings. In some cases, communication takes place via natural language dialogues. However, this kind of communication brings us to a concern related to controlling the flow of dialogue so that agents can prevent any change in the topic of discussion that could impair their reasoning. We demonstrate the implementation of a monitor that aims to control this dialogue flow in a MAS that communicates with the user through natural language to aid decision-making in hospital bed allocation.
翻訳日:2022-07-21 14:14:45 公開日:2022-07-20
# POMDPと生成モデルを用いたロボットのためのプラグプレイタスクレベルオートノミーを目指して

Towards Plug'n Play Task-Level Autonomy for Robotics Using POMDPs and Generative Models ( http://arxiv.org/abs/2207.09713v1 )

ライセンス: Link先を確認
Or Wertheim (Ben-Gurion University of the Negev), Dan R. Suissa (Ben-Gurion University of the Negev), Ronen I. Brafman (Ben-Gurion University of the Negev)(参考訳) ロボットが高い目標を達成するために、エンジニアは通常、これらの目標を達成するためにナビゲーション、オブジェクト検出、操作といった既存の特殊なスキルを適用するスクリプトを書く。 物理的なロボットの動作やセンサーの固有の確率性と、それが持っている限られた情報とをインテリジェントにバランスさせる必要があるため、優れたスクリプトを書くことは難しい。 原則として、AI計画はこの課題に対処し、優れた行動ポリシーを自動生成するために使用することができる。 しかし、これは3つのハードルを乗り越える必要がある。 まず、AIはそれぞれのスキルが世界に与える影響を理解する必要がある。 第2に、スキルとコード内で使用される低レベルの状態変数を理解するための、より抽象的なレベルのギャップを埋める必要があります。 第三に、すべてのコンポーネントを結びつけるには、多くの統合作業が必要です。 ロボットのスキルを、特定のタスクを達成するためにそのスキルをスケジュールし、4つの重要な利点をもたらす作業自律型ロボットコントローラに統合するアプローチについて述べる。 1) 我々のジェネレーティブスキル文書言語(gsdl)は、確率的プログラミング言語のアイデアを使って、コードドキュメントをシンプルで、コンパクトで、より表現豊かにします。 2)表現的抽象マッピング(AM)は,低レベルロボットコードと抽象AI計画モデルとのギャップを埋める。 3) 適切に文書化されたスキルは、追加のプログラミング作業なしにコントローラによって使用することができ、プラグンプレイ体験を提供する。 4)POMDPソルバは,部分観測可能性,確率的挙動,ノイズ感知を適切にバランスしながら,スキル実行をスケジュールする。

To enable robots to achieve high level objectives, engineers typically write scripts that apply existing specialized skills, such as navigation, object detection and manipulation to achieve these goals. Writing good scripts is challenging since they must intelligently balance the inherent stochasticity of a physical robot's actions and sensors, and the limited information it has. In principle, AI planning can be used to address this challenge and generate good behavior policies automatically. But this requires passing three hurdles. First, the AI must understand each skill's impact on the world. Second, we must bridge the gap between the more abstract level at which we understand what a skill does and the low-level state variables used within its code. Third, much integration effort is required to tie together all components. We describe an approach for integrating robot skills into a working autonomous robot controller that schedules its skills to achieve a specified task and carries four key advantages. 1) Our Generative Skill Documentation Language (GSDL) makes code documentation simpler, compact, and more expressive using ideas from probabilistic programming languages. 2) An expressive abstraction mapping (AM) bridges the gap between low-level robot code and the abstract AI planning model. 3) Any properly documented skill can be used by the controller without any additional programming effort, providing a Plug'n Play experience. 4) A POMDP solver schedules skill execution while properly balancing partial observability, stochastic behavior, and noisy sensing.
翻訳日:2022-07-21 14:14:34 公開日:2022-07-20
# 産業用無線センサネットワークにおけるファジィ信頼評価と異常検出を用いたセキュアクラスタリングプロトコル

A Secure Clustering Protocol with Fuzzy Trust Evaluation and Outlier Detection for Industrial Wireless Sensor Networks ( http://arxiv.org/abs/2207.09936v1 )

ライセンス: Link先を確認
Liu Yang, Yinzhi Lu, Simon X. Yang, Tan Guo, Zhifang Liang(参考訳) セキュリティは、IWSN(Industrial Wireless Sensor Networks)の主要な関心事の一つである。 本稿では,クラスタ化iwsnsのセキュリティを保証するため,ファジィ信頼評価と異常検出(scfto)を備えたセキュアなクラスタリングプロトコルを提案する。 まず、オープン無線媒体の伝送不確実性に対処するため、信頼度を推定するためにインターバルタイプ2ファジィ論理コントローラを採用する。 そして、密度に基づく外れ値検出機構を導入して、悪意のあるノードをクラスタヘッドから隔離するために使用される適応信頼しきい値を取得する。 最後に, ファジィをベースとしたクラスタヘッド選別法を提案し, エネルギー節約とセキュリティ保証のバランスを保ち, 正常なセンサノードがクラスタヘッドとなる確率が高くなった。 広範な実験により、セキュアなクラスタリングプロトコルがネットワークを、内部悪質なノードや侵害されたノードからの攻撃から効果的に防御できることを確認します。

Security is one of the major concerns in Industrial Wireless Sensor Networks (IWSNs). To assure the security in clustered IWSNs, this paper presents a secure clustering protocol with fuzzy trust evaluation and outlier detection (SCFTO). Firstly, to deal with the transmission uncertainty in an open wireless medium, an interval type-2 fuzzy logic controller is adopted to estimate the trusts. And then a density based outlier detection mechanism is introduced to acquire an adaptive trust threshold used to isolate the malicious nodes from being cluster heads. Finally, a fuzzy based cluster heads election method is proposed to achieve a balance between energy saving and security assurance, so that a normal sensor node with more residual energy or less confidence on other nodes has higher probability to be the cluster head. Extensive experiments verify that our secure clustering protocol can effectively defend the network against attacks from internal malicious or compromised nodes.
翻訳日:2022-07-21 14:14:08 公開日:2022-07-20
# Diffsound:テキスト音声生成のための離散拡散モデル

Diffsound: Discrete Diffusion Model for Text-to-sound Generation ( http://arxiv.org/abs/2207.09983v1 )

ライセンス: Link先を確認
Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian Zou, and Dong Yu(参考訳) 人間が望む音響効果の生成は重要なトピックである。 しかし、この地域では音の発生に関する研究は少ない。 本研究では,テキストプロンプトに条件付き音声を生成することを検討するとともに,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。 フレームワークはまずデコーダを使用して、テキストエンコーダから抽出されたテキストの特徴をvq-vaeの助けを借りてメルスペクトログラムに転送し、その後、生成されたメルスペクトログラムを波形に変換するためにvocoderを使用する。 我々は、デコーダが生成性能に大きな影響を与えることを見出した。 そこで本研究では,優れたデコーダの設計に注目する。 従来の自己回帰デコーダから始まり、従来の音響生成において最先端の手法として証明されてきた。 しかし、arデコーダは常にメル・スペクトログラムトークンを順に1つずつ予測し、一方向バイアスとエラーの蓄積をもたらす。 また、arデコーダでは、音の持続時間とともに音発生時間が直線的に増加する。 arデコーダの欠点を克服するため,離散拡散モデルに基づく非自己回帰デコーダdiffsoundを提案する。 具体的には、Diffsoundは1ステップで全てのメル-スペクトログラムトークンを予測し、次のステップで予測トークンを洗練し、いくつかのステップで最良の予測結果が得られる。 実験の結果,提案するdiffsoundはarデコーダに比べて優れたテキスト対音声生成結果を生成するだけでなく,mos: 3.56 \textit{v.s} 2.786のような高速な生成速度を示し,arデコーダよりも5倍高速であることがわかった。

Generating sound effects that humans want is an important topic. However, there are few studies in this area for sound generation. In this study, we investigate generating sound conditioned on a text prompt and propose a novel text-to-sound generation framework that consists of a text encoder, a Vector Quantized Variational Autoencoder (VQ-VAE), a decoder, and a vocoder. The framework first uses the decoder to transfer the text features extracted from the text encoder to a mel-spectrogram with the help of VQ-VAE, and then the vocoder is used to transform the generated mel-spectrogram into a waveform. We found that the decoder significantly influences the generation performance. Thus, we focus on designing a good decoder in this study. We begin with the traditional autoregressive decoder, which has been proved as a state-of-the-art method in previous sound generation works. However, the AR decoder always predicts the mel-spectrogram tokens one by one in order, which introduces the unidirectional bias and accumulation of errors problems. Moreover, with the AR decoder, the sound generation time increases linearly with the sound duration. To overcome the shortcomings introduced by AR decoders, we propose a non-autoregressive decoder based on the discrete diffusion model, named Diffsound. Specifically, the Diffsound predicts all of the mel-spectrogram tokens in one step and then refines the predicted tokens in the next step, so the best-predicted results can be obtained after several steps. Our experiments show that our proposed Diffsound not only produces better text-to-sound generation results when compared with the AR decoder but also has a faster generation speed, e.g., MOS: 3.56 \textit{v.s} 2.786, and the generation speed is five times faster than the AR decoder.
翻訳日:2022-07-21 14:13:49 公開日:2022-07-20
# コンテンツ対応ニューラルビデオ配信のための効果的なメタチューニング

Efficient Meta-Tuning for Content-aware Neural Video Delivery ( http://arxiv.org/abs/2207.09691v1 )

ライセンス: Link先を確認
Xiaoqi Li, Jiaming Liu, Shizun Wang, Cheng Lyu, Ming Lu, Yurong Chen, Anbang Yao, Yandong Guo, Shanghang Zhang(参考訳) 近年,Deep Neural Networks (DNN) は帯域幅の削減とインターネットビデオ配信の品質向上に利用されている。 既存の方法は、サーバ上の各ビデオチャンクに対して対応するコンテンツ対応超解像(SR)モデルをトレーニングし、SRモデルとともに低解像度(LR)ビデオチャンクをクライアントにストリームする。 彼らは有望な結果を得たが、ネットワークトレーニングの膨大な計算コストは実用的応用を制限する。 本稿では,計算コストを削減するための効率的なメタチューニング(emt)手法を提案する。 ゼロからトレーニングする代わりに、EMTはメタ学習モデルを入力ビデオの最初の部分に適用する。 以下のチャンクについては、以前の適応モデルの勾配マスキングによって選択された部分パラメータを微調整する。 EMTのさらなる高速化を実現するため,ビデオフレームから最も困難なパッチを抽出する新しいサンプリング手法を提案する。 提案された戦略は非常に効率的で、追加コストは無視できる。 提案手法は計算コストを大幅に削減し,より優れた性能を実現し,実用的な応用にニューラルビデオ配信技術を適用した。 ESPCN, SRCNN, FSRCNN, EDSR-1など, 様々な効率的なSRアーキテクチャに基づく広範な実験を行い, その一般化能力を実証した。 コードは \url{https://github.com/Neural-video-delivery/EMT-Pytorch-ECCV2022} で公開されている。

Recently, Deep Neural Networks (DNNs) are utilized to reduce the bandwidth and improve the quality of Internet video delivery. Existing methods train corresponding content-aware super-resolution (SR) model for each video chunk on the server, and stream low-resolution (LR) video chunks along with SR models to the client. Although they achieve promising results, the huge computational cost of network training limits their practical applications. In this paper, we present a method named Efficient Meta-Tuning (EMT) to reduce the computational cost. Instead of training from scratch, EMT adapts a meta-learned model to the first chunk of the input video. As for the following chunks, it fine-tunes the partial parameters selected by gradient masking of previous adapted model. In order to achieve further speedup for EMT, we propose a novel sampling strategy to extract the most challenging patches from video frames. The proposed strategy is highly efficient and brings negligible additional cost. Our method significantly reduces the computational cost and achieves even better performance, paving the way for applying neural video delivery techniques to practical applications. We conduct extensive experiments based on various efficient SR architectures, including ESPCN, SRCNN, FSRCNN and EDSR-1, demonstrating the generalization ability of our work. The code is released at \url{https://github.com/Neural-video-delivery/EMT-Pytorch-ECCV2022}.
翻訳日:2022-07-21 14:09:28 公開日:2022-07-20
# ラベル特異的アイトラッキングアノテーションを用いた胸部x線分類器の局在制御

Localization supervision of chest x-ray classifiers using label-specific eye-tracking annotation ( http://arxiv.org/abs/2207.09771v1 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Joyce D. Schroeder, Tolga Tasdizen(参考訳) 畳み込みニューラルネットワーク(CNN)は胸部X線(CXR)画像にうまく応用されている。 さらに、注釈付きバウンディングボックスは、局所化異常の観点からCNNの解釈可能性を向上させることが示されている。 しかし、バウンディングボックスを含む比較的小さなCXRデータセットのみが利用可能であり、収集は非常にコストがかかる。 また、放射線科医の診療ワークフローにおいて、眼球追跡(ET)データを非侵襲的に収集することができる。 我々は、CXRレポートを作成してCNNを訓練する際、放射線技師から記録されたETデータを使用する。 etデータからキーワードのディクテーションと関連付けてスニペットを抽出し,そのスニペットを用いて異常の局所化を監督する。 本手法は,画像レベルの分類に影響を与えることなく,モデルの解釈可能性を向上させる。

Convolutional neural networks (CNNs) have been successfully applied to chest x-ray (CXR) images. Moreover, annotated bounding boxes have been shown to improve the interpretability of a CNN in terms of localizing abnormalities. However, only a few relatively small CXR datasets containing bounding boxes are available, and collecting them is very costly. Opportunely, eye-tracking (ET) data can be collected in a non-intrusive way during the clinical workflow of a radiologist. We use ET data recorded from radiologists while dictating CXR reports to train CNNs. We extract snippets from the ET data by associating them with the dictation of keywords and use them to supervise the localization of abnormalities. We show that this method improves a model's interpretability without impacting its image-level classification.
翻訳日:2022-07-21 14:09:06 公開日:2022-07-20
# 地盤認識物体の検出と位置推定のための埋め込み単眼視覚アプローチ

An Embedded Monocular Vision Approach for Ground-Aware Objects Detection and Position Estimation ( http://arxiv.org/abs/2207.09851v1 )

ライセンス: Link先を確認
Jo\~ao G. Melo and Edna Barros(参考訳) RoboCup Small Size League (SSL)では、チームは組み込みセンシング情報のみを使用してSSLフィールド内で基本的なサッカータスクを実行するソリューションを提案することが推奨されている。 そこで本研究では,物体を検知し,サッカー場内の相対位置を推定するための埋め込み単眼視覚手法を提案する。 環境からの事前知識は、物体が地面に置かれていると仮定して活用され、オンボードカメラはその位置をロボットに固定する。 提案手法をNVIDIA Jetson Nanoに実装し,TensorRT最適化による2次元物体検出,ボール,ロボット,目標を最大3.5mの距離で検出するSSD MobileNet v2を適用した。 球の局在評価は、現在使われているsslビジョンシステムより1メートル近い位置を14.37ミリの根平均二乗誤差で上回ることを示している。 また,提案手法は,平均処理速度が30フレーム/秒のリアルタイム性能を実現する。

In the RoboCup Small Size League (SSL), teams are encouraged to propose solutions for executing basic soccer tasks inside the SSL field using only embedded sensing information. Thus, this work proposes an embedded monocular vision approach for detecting objects and estimating relative positions inside the soccer field. Prior knowledge from the environment is exploited by assuming objects lay on the ground, and the onboard camera has its position fixed on the robot. We implemented the proposed method on an NVIDIA Jetson Nano and employed SSD MobileNet v2 for 2D Object Detection with TensorRT optimization, detecting balls, robots, and goals with distances up to 3.5 meters. Ball localization evaluation shows that the proposed solution overcomes the currently used SSL vision system for positions closer than 1 meter to the onboard camera with a Root Mean Square Error of 14.37 millimeters. In addition, the proposed method achieves real-time performance with an average processing speed of 30 frames per second.
翻訳日:2022-07-21 14:08:54 公開日:2022-07-20
# 画像スケーリングによる深部画像品質評価の安定性の評価

Evaluating the Stability of Deep Image Quality Assessment With Respect to Image Scaling ( http://arxiv.org/abs/2207.09856v1 )

ライセンス: Link先を確認
Koki Tsubota, Hiroaki Akutsu and Kiyoharu Aizawa(参考訳) 画像品質評価(IQA)は、画像処理タスク(圧縮など)の基本的な指標である。 完全な参照IQAでは、PSNRやSSIMといった従来のIQAが使用されている。 近年、LPIPSやdisTSといったディープニューラルネットワーク(ディープIQA)に基づくIQAも使用されている。 画像のスケーリングは、前処理としてダウンスケーリングを行うものや、元の画像サイズを使用するものなど、深いIQAでは一貫性がないことが知られている。 本稿では,画像スケールがIQAの性能に影響を及ぼす要因であることを示す。 我々は,同じ5つのデータセット上で4つのディープIQAを総合的に評価し,実験結果から画像スケールがIQA性能に有意な影響を及ぼすことが示された。 その結果、最も適切な画像スケールはデフォルトでも元のサイズでもないことが多く、使用するメソッドやデータセットによって選択が異なります。 安定性を可視化した結果,PieAPPは4つの深いIQAの中で最も安定していることがわかった。

Image quality assessment (IQA) is a fundamental metric for image processing tasks (e.g., compression). With full-reference IQAs, traditional IQAs, such as PSNR and SSIM, have been used. Recently, IQAs based on deep neural networks (deep IQAs), such as LPIPS and DISTS, have also been used. It is known that image scaling is inconsistent among deep IQAs, as some perform down-scaling as pre-processing, whereas others instead use the original image size. In this paper, we show that the image scale is an influential factor that affects deep IQA performance. We comprehensively evaluate four deep IQAs on the same five datasets, and the experimental results show that image scale significantly influences IQA performance. We found that the most appropriate image scale is often neither the default nor the original size, and the choice differs depending on the methods and datasets used. We visualized the stability and found that PieAPP is the most stable among the four deep IQAs.
翻訳日:2022-07-21 14:08:38 公開日:2022-07-20
# テレプレゼンスビデオの品質評価

Telepresence Video Quality Assessment ( http://arxiv.org/abs/2207.09956v1 )

ライセンス: Link先を確認
Zhenqiang Ying and Deepti Ghadiyaram and Alan Bovik(参考訳) ビデオ会議はビデオとオーディオの両方を含んでおり、新型コロナウイルス(covid-19)のパンデミックで何百万人もの人々が在宅勤務や学習を余儀なくされ、インターネットトラフィックが劇的に増加した。 ビデオ会議のグローバルなインターネットトラフィックは、zoom、webex、meetなどを通じてストリーミングされるテレプレゼンストラフィックをモニタし、知覚的に最適化するために、効率的で正確なビデオ品質ツールが必要であるため、劇的に増加している。 しかし、既存のモデルは、マルチモーダルなライブストリーミングテレプレゼンスコンテンツの予測能力に制限がある。 本稿では,テレプレゼンス映像品質評価(TVQA)の課題を,いくつかの方法で解決する。 まず、異なる国から約2kのテレプレゼンス動画を収集し、主観的品質のラベルをクラウドソースすることで、主観的ラベル付きデータの重大さを軽減した。 この新しいリソースを使って、ライブストリーミングのための初めてのオンラインビデオ品質予測フレームワークを作成し、視覚とオーディオの品質予測を計算するために、別々の経路を持つマルチモーダル学習フレームワークを使用しました。 当社のオールインワンモデルは、パッチ、フレーム、クリップ、オーディオビジュアルレベルでの正確な品質予測を提供することができます。 我々のモデルは,既存の品質データベースと新しいTVQAデータベースの両方において,計算コストを大幅に削減して最先端の性能を実現し,モバイルおよび組み込みシステムにとって魅力的なソリューションとなる。

Video conferencing, which includes both video and audio content, has contributed to dramatic increases in Internet traffic, as the COVID-19 pandemic forced millions of people to work and learn from home. Global Internet traffic of video conferencing has dramatically increased Because of this, efficient and accurate video quality tools are needed to monitor and perceptually optimize telepresence traffic streamed via Zoom, Webex, Meet, etc. However, existing models are limited in their prediction capabilities on multi-modal, live streaming telepresence content. Here we address the significant challenges of Telepresence Video Quality Assessment (TVQA) in several ways. First, we mitigated the dearth of subjectively labeled data by collecting ~2k telepresence videos from different countries, on which we crowdsourced ~80k subjective quality labels. Using this new resource, we created a first-of-a-kind online video quality prediction framework for live streaming, using a multi-modal learning framework with separate pathways to compute visual and audio quality predictions. Our all-in-one model is able to provide accurate quality predictions at the patch, frame, clip, and audiovisual levels. Our model achieves state-of-the-art performance on both existing quality databases and our new TVQA database, at a considerably lower computational expense, making it an attractive solution for mobile and embedded systems.
翻訳日:2022-07-21 14:08:22 公開日:2022-07-20
# NeuralBF: ポイントクラウド上のトップダウンインスタンスセグメンテーションのためのニューラルバイラテラルフィルタ

NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds ( http://arxiv.org/abs/2207.09978v1 )

ライセンス: Link先を確認
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi(参考訳) 本稿では,3次元点雲の例示生成手法を提案する。 既存の手法は通常、単一のフィードフォワードステップで提案を直接レグレッションし、不正確な推定に繋がる。 本稿では,これは重要なボトルネックとして機能し,学習カーネルによる繰り返し二元フィルタリングに基づく手法を提案する。 両側フィルタリングの精神に倣って,各点の深い特徴埋め込みと3次元空間におけるそれらの位置を考察する。 提案手法は,特定の興味点のインスタンス提案を生成する際に,大幅な改善をもたらすことを示す。 ScanNetベンチマークでは,トップダウンメソッドのサブカテゴリ間で最高のインスタンスセグメンテーション性能を実現するため,本手法をさらに検証する。

We introduce a method for instance proposal generation for 3D point clouds. Existing techniques typically directly regress proposals in a single feed-forward step, leading to inaccurate estimation. We show that this serves as a critical bottleneck, and propose a method based on iterative bilateral filtering with learned kernels. Following the spirit of bilateral filtering, we consider both the deep feature embeddings of each point, as well as their locations in the 3D space. We show via synthetic experiments that our method brings drastic improvements when generating instance proposals for a given point of interest. We further validate our method on the challenging ScanNet benchmark, achieving the best instance segmentation performance amongst the sub-category of top-down methods.
翻訳日:2022-07-21 14:07:58 公開日:2022-07-20
# E-Graph:拡張性グラフによる剛体回転の最小解法

E-Graph: Minimal Solution for Rigid Rotation with Extensibility Graphs ( http://arxiv.org/abs/2207.10008v1 )

ライセンス: Link先を確認
Yanyan Li and Federico Tombari(参考訳) 相対回転および翻訳推定タスクの最小解は、通常、コビジュアビリティグラフに依存する様々なシナリオで研究されている。 しかし、2つのフレーム間の直接回転関係を重複なく構築する方法はまだオープンな話題であり、解決すれば視覚計測の精度を大幅に向上させることができる。 本稿では,拡張性グラフ (e-graph) と呼ばれる新しいグラフ構造を用いて,重複領域のない2つの画像間の相対回転推定を解くための新しい極小解を提案する。 同一視認性グラフとは違って、方向や平面正規化を含む高レベルなランドマークは、幾何学的に拡張可能なEグラフに格納されます。 e-graph に基づいて、純粋な回転運動を扱うことができ、マンハッタン/アトランタワールド、平面/垂直運動のような仮定を少なくできるため、回転推定問題はより単純でエレガントになる。 最後に,6自由度カメラポーズと高密度3dメッシュモデルを得る全カメラトラッキングおよびマッピングシステムに回転推定戦略を組み込む。 公開ベンチマークによる大規模な実験により,提案手法が最先端の追跡性能を実現することを示す。

Minimal solutions for relative rotation and translation estimation tasks have been explored in different scenarios, typically relying on the so-called co-visibility graph. However, how to build direct rotation relationships between two frames without overlap is still an open topic, which, if solved, could greatly improve the accuracy of visual odometry. In this paper, a new minimal solution is proposed to solve relative rotation estimation between two images without overlapping areas by exploiting a new graph structure, which we call Extensibility Graph (E-Graph). Differently from a co-visibility graph, high-level landmarks, including vanishing directions and plane normals, are stored in our E-Graph, which are geometrically extensible. Based on E-Graph, the rotation estimation problem becomes simpler and more elegant, as it can deal with pure rotational motion and requires fewer assumptions, e.g. Manhattan/Atlanta World, planar/vertical motion. Finally, we embed our rotation estimation strategy into a complete camera tracking and mapping system which obtains 6-DoF camera poses and a dense 3D mesh model. Extensive experiments on public benchmarks demonstrate that the proposed method achieves state-of-the-art tracking performance.
翻訳日:2022-07-21 14:07:46 公開日:2022-07-20
# イベントベース光流れの秘密

Secrets of Event-Based Optical Flow ( http://arxiv.org/abs/2207.10022v1 )

ライセンス: Link先を確認
Shintaro Shiba, Yoshimitsu Aoki, Guillermo Gallego(参考訳) イベントカメラはシーンダイナミクスに反応し、動きを推定する利点を提供する。 近年、画像に基づくディープラーニングの成果に続いて、イベントカメラの光学的フロー推定法が急上昇し、これらの画像ベースの手法とイベントデータを組み合わせた。 しかし、非常に異なる特性を持つため、いくつかの適応(データ変換、損失関数など)が必要である。 コントラスト最大化フレームワークを拡張し,イベントのみから光の流れを推定する手法を開発した。 我々は,目的関数の設計方法,閉塞性を改善するためにイベントをワープする方法,マルチスケールの生イベントとの収束性を改善する方法など,重要な要素について検討する。 これらの重要な要素により,本手法はMVSECベンチマークにおける教師なし手法の中で第1位となり,DSECベンチマークでは競合する。 さらに,本手法は,これらのベンチマークにおいて基底真理フローの問題を露呈し,教師なし学習環境に移行した場合に顕著な結果が得られる。 私たちのコードはhttps://github.com/tub-rip/event_based_optical_flowで利用可能です。

Event cameras respond to scene dynamics and offer advantages to estimate motion. Following recent image-based deep-learning achievements, optical flow estimation methods for event cameras have rushed to combine those image-based methods with event data. However, it requires several adaptations (data conversion, loss function, etc.) as they have very different properties. We develop a principled method to extend the Contrast Maximization framework to estimate optical flow from events alone. We investigate key elements: how to design the objective function to prevent overfitting, how to warp events to deal better with occlusions, and how to improve convergence with multi-scale raw events. With these key elements, our method ranks first among unsupervised methods on the MVSEC benchmark, and is competitive on the DSEC benchmark. Moreover, our method allows us to expose the issues of the ground truth flow in those benchmarks, and produces remarkable results when it is transferred to unsupervised learning settings. Our code is available at https://github.com/tub-rip/event_based_optical_flow
翻訳日:2022-07-21 14:07:25 公開日:2022-07-20
# オブジェクト中心のビデオ表現は転送に有益か?

Is an Object-Centric Video Representation Beneficial for Transfer? ( http://arxiv.org/abs/2207.10075v1 )

ライセンス: Link先を確認
Chuhan Zhang, Ankush Gupta, Andrew Zisserman(参考訳) 本研究の目的は,アクション分類の事前学習タスクとは異なる,新たなタスクへの転送性の向上を目的とした,オブジェクト中心のビデオ表現の学習である。 そこで本稿では,トランスフォーマアーキテクチャに基づく新しいオブジェクト中心ビデオ認識モデルを提案する。 モデルは、ビデオのオブジェクト中心の要約ベクトルの集合を学習し、これらのベクトルを使用して、ビデオクリップの視覚的および時空間的軌跡「モダリティ」を融合する。 また,これらの要約ベクトルの客観性を高めるために,新たなトラジェクトリコントラスト損失を導入する。 somethingSomething-V2, SomethingElse, Action Genome, EpicKitchens という4つのデータセットの実験により、オブジェクト中心モデルは、(1)見えないオブジェクトや見えない環境におけるアクションの分類、(2)新しいクラスへのローショット学習、(3)他の下流タスクへの線形プローブ、(4)標準アクション分類において、以前のビデオ表現(オブジェクト認識とオブジェクト認識の両方)よりも優れていることを示す。

The objective of this work is to learn an object-centric video representation, with the aim of improving transferability to novel tasks, i.e., tasks different from the pre-training task of action classification. To this end, we introduce a new object-centric video recognition model based on a transformer architecture. The model learns a set of object-centric summary vectors for the video, and uses these vectors to fuse the visual and spatio-temporal trajectory `modalities' of the video clip. We also introduce a novel trajectory contrast loss to further enhance objectness in these summary vectors. With experiments on four datasets -- SomethingSomething-V2, SomethingElse, Action Genome and EpicKitchens -- we show that the object-centric model outperforms prior video representations (both object-agnostic and object-aware), when: (1) classifying actions on unseen objects and unseen environments; (2) low-shot learning to novel classes; (3) linear probe to other downstream tasks; as well as (4) for standard action classification.
翻訳日:2022-07-21 14:03:26 公開日:2022-07-20
# 共役擬似ラベルによるテスト時間適応

Test-Time Adaptation via Conjugate Pseudo-labels ( http://arxiv.org/abs/2207.09640v1 )

ライセンス: Link先を確認
Sachin Goyal, Mingjie Sun, Aditi Raghunathan, Zico Kolter(参考訳) テスト時間適応(tta)とは、ニューラルネットワークを分散シフトに適応させ、テスト時に新しいドメインからラベルのないテストサンプルのみにアクセスすることを指す。 事前のtta手法は、テント[wang et al., 2021]におけるモデル予測のエントロピーのような教師なしの目標を最適化するが、正確なtta損失の原因は不明である。 本稿では,TENT のソフトマックスエントロピー (温度スケール版) に類似した関数を,多種多様な関数に対して最大限の TTA 損失をメタラーニングしようとすると,その関数を回復させるという,驚くべき現象を提示することから始める。 しかし、私たちが適応している分類器がクロスエントロピーによって訓練されている場合のみ、二乗損失によって訓練された場合、異なる最高のtta損失が発生する。 この現象を説明するために、トレーニング損失凸共役のレンズを通してTTAを解析する。 自然条件下では、この(教師なし)共役関数は、元の教師付き損失に対する良い局所近似と見なすことができ、実際、メタラーニングによって発見された最良の損失を回復できる。 これは、一般的なクラスの教師付きトレーニング損失関数に対して良いTTA損失を見つけるために使用できる一般的なレシピにつながる。 経験的に、我々のアプローチは幅広いベンチマークで他のベースラインを一貫して支配している。 提案手法は,新規な損失関数を訓練した分類器(例えば最近提案されたPolyLoss)に適用した場合,特に興味がある。 さらに,本手法は,共役擬似ラベル(conjugate pseudolabel)と呼ばれる,非常に特異なソフトラベルを用いて,一種の自己学習と解釈できることを示す。 全体として、テスト時間適応の理解と改善のための幅広いフレームワークを提供する。 コードはhttps://github.com/locuslab/tta_comで入手できる。

Test-time adaptation (TTA) refers to adapting neural networks to distribution shifts, with access to only the unlabeled test samples from the new domain at test-time. Prior TTA methods optimize over unsupervised objectives such as the entropy of model predictions in TENT [Wang et al., 2021], but it is unclear what exactly makes a good TTA loss. In this paper, we start by presenting a surprising phenomenon: if we attempt to meta-learn the best possible TTA loss over a wide class of functions, then we recover a function that is remarkably similar to (a temperature-scaled version of) the softmax-entropy employed by TENT. This only holds, however, if the classifier we are adapting is trained via cross-entropy; if trained via squared loss, a different best TTA loss emerges. To explain this phenomenon, we analyze TTA through the lens of the training losses's convex conjugate. We show that under natural conditions, this (unsupervised) conjugate function can be viewed as a good local approximation to the original supervised loss and indeed, it recovers the best losses found by meta-learning. This leads to a generic recipe that can be used to find a good TTA loss for any given supervised training loss function of a general class. Empirically, our approach consistently dominates other baselines over a wide range of benchmarks. Our approach is particularly of interest when applied to classifiers trained with novel loss functions, e.g., the recently-proposed PolyLoss, where it differs substantially from (and outperforms) an entropy-based loss. Further, we show that our approach can also be interpreted as a kind of self-training using a very specific soft label, which we refer to as the conjugate pseudolabel. Overall, our method provides a broad framework for better understanding and improving test-time adaptation. Code is available at https://github.com/locuslab/tta_conjugate.
翻訳日:2022-07-21 14:02:46 公開日:2022-07-20
# グラディエントブースティング決定木の量子化トレーニング

Quantized Training of Gradient Boosting Decision Trees ( http://arxiv.org/abs/2207.09682v1 )

ライセンス: Link先を確認
Yu Shi, Guolin Ke, Zhuoming Chen, Shuxin Zheng, Tie-Yan Liu(参考訳) 近年では、幅広い機械学習アプリケーションに対して、GBDT(Gradient Boosting Decision Trees)が大きな成功を収めている。 一般に、GBDTのトレーニングアルゴリズムに関するコンセンサスは勾配であり、統計は高精度浮動小数点に基づいて計算される。 本稿では,従来の文献では無視されてきた,GBDTのトレーニングにおける勾配を表すために,何ビットが必要かという,本質的に重要な問題について検討する。 この謎を解決するために、GBDTのトレーニングアルゴリズムにおいて、高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。 驚くべきことに、我々の理論的解析と経験的研究の両方で、性能を損なうことなく勾配の必要な精度が2ビットや3ビットなど非常に低いことが示されている。 低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。 これらの知見は,(1)ヒストグラムにおける勾配統計の計算の高速化,(2)分散トレーニングにおける高精度統計情報の通信コストの圧縮,(3)GBDTトレーニングのための低精度計算をうまく支援するハードウェアアーキテクチャの利用と開発へのインスピレーションなど,GBDTのより効率的なトレーニングの道を開くことができる。 CPU、GPU、分散クラスタをベンチマークし、大規模なデータセット上のSOTA GBDTシステムと比較して、単純な量子化戦略の2$\times$スピードアップを観察し、GBDTの低精度トレーニングの有効性と可能性を実証した。 コードはlightgbmの公式リポジトリにリリースされる予定だ。

Recent years have witnessed significant success in Gradient Boosting Decision Trees (GBDT) for a wide range of machine learning applications. Generally, a consensus about GBDT's training algorithms is gradients and statistics are computed based on high-precision floating points. In this paper, we investigate an essentially important question which has been largely ignored by the previous literature: how many bits are needed for representing gradients in training GBDT? To solve this mystery, we propose to quantize all the high-precision gradients in a very simple yet effective way in the GBDT's training algorithm. Surprisingly, both our theoretical analysis and empirical studies show that the necessary precisions of gradients without hurting any performance can be quite low, e.g., 2 or 3 bits. With low-precision gradients, most arithmetic operations in GBDT training can be replaced by integer operations of 8, 16, or 32 bits. Promisingly, these findings may pave the way for much more efficient training of GBDT from several aspects: (1) speeding up the computation of gradient statistics in histograms; (2) compressing the communication cost of high-precision statistical information during distributed training; (3) the inspiration of utilization and development of hardware architectures which well support low-precision computation for GBDT training. Benchmarked on CPU, GPU, and distributed clusters, we observe up to 2$\times$ speedup of our simple quantization strategy compared with SOTA GBDT systems on extensive datasets, demonstrating the effectiveness and potential of the low-precision training of GBDT. The code will be released to the official repository of LightGBM.
翻訳日:2022-07-21 14:02:12 公開日:2022-07-20
# 非一様拡散モデル

Non-Uniform Diffusion Models ( http://arxiv.org/abs/2207.09786v1 )

ライセンス: Link先を確認
Georgios Batzolis, Jan Stanczuk, Carola-Bibiane Sch\"onlieb, Christian Etmann(参考訳) 拡散モデルは、深層生成モデリングの最も有望なフレームワークの1つである。 本研究では,非一様拡散モデルの可能性について考察する。 非一様拡散は多スケール正規化流のそれと同様の構造を持つ多スケール拡散モデルをもたらすことを示す。 実験により, 実験により, 多スケール拡散モデルでは, 標準一様拡散モデルよりもfidスコアが良好であることが判明した。 さらに重要なのは、128\times 128$の解像度でサンプルを生成することだ。 スピードアップは、より多くのスケールが使用される高解像度でより高いと期待されている。 さらに,非一様拡散は条件付スコア関数の新たな推定子となり,最先端条件付推定量と同等の性能が得られることを示した。 非一様拡散モデルのさらなる研究を容易にするオープンソースライブラリMSDiffを伴って、理論的および実験的研究を行った。

Diffusion models have emerged as one of the most promising frameworks for deep generative modeling. In this work, we explore the potential of non-uniform diffusion models. We show that non-uniform diffusion leads to multi-scale diffusion models which have similar structure to this of multi-scale normalizing flows. We experimentally find that in the same or less training time, the multi-scale diffusion model achieves better FID score than the standard uniform diffusion model. More importantly, it generates samples $4.4$ times faster in $128\times 128$ resolution. The speed-up is expected to be higher in higher resolutions where more scales are used. Moreover, we show that non-uniform diffusion leads to a novel estimator for the conditional score function which achieves on par performance with the state-of-the-art conditional denoising estimator. Our theoretical and experimental findings are accompanied by an open source library MSDiff which can facilitate further research of non-uniform diffusion models.
翻訳日:2022-07-21 14:01:47 公開日:2022-07-20
# UniHPF : ドメイン知識をゼロにするユニバーサルヘルスケア予測フレームワーク

UniHPF : Universal Healthcare Predictive Framework with Zero Domain Knowledge ( http://arxiv.org/abs/2207.09858v1 )

ライセンス: Link先を確認
Kyunghoon Hur, Jungwoo Oh, Junu Kim, Min Jae Lee, Eunbyeol Choi, Jiyoun Kim, Seong-Eun Moon, Young-Hak Kim, Edward Choi(参考訳) 電子医療記録(EHR)が豊富にあるにもかかわらず、その異質性は予測モデルの構築における医療データの利用を制限する。 この課題に対処するために、医療分野の知識を必要とせず、複数の予測タスクに対して最小限の事前処理を行うUniHPF(UniHPF)を提案する。 実験結果から、UniHPF は、異なる EHR システムから任意の形態の医療データを処理できる大規模な EHR モデルを構築することができることが示された。 我々のフレームワークは、転送やプール学習を含むマルチソース学習タスクにおけるベースラインモデルよりも大幅に優れており、一方、単一の医療データセットでトレーニングされた場合と同等の結果を示している。 本研究の有効性を実証するために,様々なデータセット,モデル構造,タスクを用いて広範な実験を行った。 EHRのマルチソース学習のさらなる研究に有用な知見が得られると我々は信じている。

Despite the abundance of Electronic Healthcare Records (EHR), its heterogeneity restricts the utilization of medical data in building predictive models. To address this challenge, we propose Universal Healthcare Predictive Framework (UniHPF), which requires no medical domain knowledge and minimal pre-processing for multiple prediction tasks. Experimental results demonstrate that UniHPF is capable of building large-scale EHR models that can process any form of medical data from distinct EHR systems. Our framework significantly outperforms baseline models in multi-source learning tasks, including transfer and pooled learning, while also showing comparable results when trained on a single medical dataset. To empirically demonstrate the efficacy of our work, we conducted extensive experiments using various datasets, model structures, and tasks. We believe that our findings can provide helpful insights for further research on the multi-source learning of EHRs.
翻訳日:2022-07-21 14:01:34 公開日:2022-07-20
# DataPerf: データ中心AI開発のためのベンチマーク

DataPerf: Benchmarks for Data-Centric AI Development ( http://arxiv.org/abs/2207.10062v1 )

ライセンス: Link先を確認
Mark Mazumder, Colby Banbury, Xiaozhe Yao, Bojan Karla\v{s}, William Gaviria Rojas, Sudnya Diamos, Greg Diamos, Lynn He, Douwe Kiela, David Jurado, David Kanter, Rafael Mosquera, Juan Ciro, Lora Aroyo, Bilge Acun, Sabri Eyuboglu, Amirata Ghorbani, Emmett Goodman, Tariq Kane, Christine R. Kirkpatrick, Tzu-Sheng Kuo, Jonas Mueller, Tristan Thrush, Joaquin Vanschoren, Margaret Warren, Adina Williams, Serena Yeung, Newsha Ardalani, Praveen Paritosh, Ce Zhang, James Zou, Carole-Jean Wu, Cody Coleman, Andrew Ng, Peter Mattson, Vijay Janapa Reddi(参考訳) 機械学習(ML)の研究は一般的にモデルに焦点を当てているが、最も顕著なデータセットは、これらのデータセットの幅、難しさ、忠実さを考慮せずに、日々のMLタスクに採用されている。 データセットの基本的な重要性を無視することは、現実のアプリケーションにおけるデータカスケードや、モデル品質に関するデータセット駆動基準の飽和といった大きな問題を引き起こし、研究の成長を妨げる。 この問題を解決するために,MLデータセットとデータセット処理アルゴリズムを評価するベンチマークパッケージであるDataPerfを提案する。 私たちは、トレーニングセットが同じ問題に対するテストセットを評価するのに役立つ「データラチェット」を可能にすることを意図しています。 このようなフィードバック駆動型戦略は、データ中心のAIの開発を加速する活発なループを生成する。 MLCommons AssociationはDataPerfをメンテナンスする。

Machine learning (ML) research has generally focused on models, while the most prominent datasets have been employed for everyday ML tasks without regard for the breadth, difficulty, and faithfulness of these datasets to the underlying problem. Neglecting the fundamental importance of datasets has caused major problems involving data cascades in real-world applications and saturation of dataset-driven criteria for model quality, hindering research growth. To solve this problem, we present DataPerf, a benchmark package for evaluating ML datasets and dataset-working algorithms. We intend it to enable the "data ratchet," in which training sets will aid in evaluating test sets on the same problems, and vice versa. Such a feedback-driven strategy will generate a virtuous loop that will accelerate development of data-centric AI. The MLCommons Association will maintain DataPerf.
翻訳日:2022-07-21 14:01:18 公開日:2022-07-20
# 不完全な知識と知覚情報を用いた時間計画

Temporal Planning with Incomplete Knowledge and Perceptual Information ( http://arxiv.org/abs/2207.09709v1 )

ライセンス: Link先を確認
Yaniel Carreno (Edinburgh Centre for Robotics), Yvan Petillot (Heriot-Watt University), Ronald P. A. Petrick (Heriot-Watt University)(参考訳) 実世界のアプリケーションでは、不完全な知識、センシング、時間的概念、数値的制約を推論する能力は不可欠である。 いくつかのAIプランナーはこれらの要件のいくつかを扱うことができるが、それらは主に特定のタイプの制約に関する問題に限られている。 本稿では,時間的計画枠組み内での連立計画構築と,数値的制約と不完全知識を考慮したソリューションを組み合わせた新しい計画手法を提案する。 我々は、モデルへの計画型ドメイン定義言語(pddl)の小さな拡張を提案する。 (i)不完全。 (二 未知の命題に対して作用する知識センシング行為、及び 三 非決定論的感覚効果の結果の可能性 また,我々の解法を評価するための新しい計画ドメインも導入し,様々な問題に対して優れた性能を示してきた。

In real-world applications, the ability to reason about incomplete knowledge, sensing, temporal notions, and numeric constraints is vital. While several AI planners are capable of dealing with some of these requirements, they are mostly limited to problems with specific types of constraints. This paper presents a new planning approach that combines contingent plan construction within a temporal planning framework, offering solutions that consider numeric constraints and incomplete knowledge. We propose a small extension to the Planning Domain Definition Language (PDDL) to model (i) incomplete, (ii) knowledge sensing actions that operate over unknown propositions, and (iii) possible outcomes from non-deterministic sensing effects. We also introduce a new set of planning domains to evaluate our solver, which has shown good performance on a variety of problems.
翻訳日:2022-07-21 14:01:02 公開日:2022-07-20
# 自律ロボットのためのメタアーキテクチャの必要性

The Need for a Meta-Architecture for Robot Autonomy ( http://arxiv.org/abs/2207.09712v1 )

ライセンス: Link先を確認
Stalin Mu\~noz Guti\'errez (1), Gerald Steinbauer-Wagner (1) ((1) Autonomous Intelligent Systems Group. Institute of Software Technology. Graz University of Technology. Austria.)(参考訳) ロボットシステムの長期的な自律性は、ハードウェアやソフトウェアの障害、動作上の問題、知識の欠如を自然に処理できる信頼可能なプラットフォームを必要とする。 モデルに基づく信頼性のあるプラットフォームは、ロボットの振る舞いを実装するための正しい構成技術の使用を含む、システム開発中に厳密な方法論を適用する必要がある。 ロボットにおける自律性のレベルが増加するにつれて、システムの信頼性に関する保証を提供するコストも上昇する。 自律ロボットの証明可能な信頼性は、認知機能の統合、知識処理、推論、メタ推論の形式モデルから恩恵を受けることができると我々は主張する。 ここでは,自律型ロボットエージェントの認知アーキテクチャの生成モデルとして,モデルベース工学の原則と認証可能な信頼性,自律コンピューティング,知識対応ロボット工学の原則を取り入れた。

Long-term autonomy of robotic systems implicitly requires dependable platforms that are able to naturally handle hardware and software faults, problems in behaviors, or lack of knowledge. Model-based dependable platforms additionally require the application of rigorous methodologies during the system development, including the use of correct-by-construction techniques to implement robot behaviors. As the level of autonomy in robots increases, so do the cost of offering guarantees about the dependability of the system. Certifiable dependability of autonomous robots, we argue, can benefit from formal models of the integration of several cognitive functions, knowledge processing, reasoning, and meta-reasoning. Here we put forward the case for a generative model of cognitive architectures for autonomous robotic agents that subscribes to the principles of model-based engineering and certifiable dependability, autonomic computing, and knowledge-enabled robotics.
翻訳日:2022-07-21 14:00:50 公開日:2022-07-20
# Pivot言語によるTTS拡張はいつ有効か?

When Is TTS Augmentation Through a Pivot Language Useful? ( http://arxiv.org/abs/2207.09889v1 )

ライセンス: Link先を確認
Nathaniel Robinson, Perez Ogayo, Swetha Gangu, David R. Mortensen, Shinji Watanabe(参考訳) 低リソース言語のための自動音声認識(asr)の開発は、少量の書き起こし音声データによる課題である。 多くの言語では、音声とテキストは別々に利用できるが、音声の書き起こしはできない。 テキストを使用すると、音声はTTS(text-to-speech)システムを介して合成することができる。 しかし、多くの低リソース言語は品質のttsシステムを持っていない。 我々は,高資源ピボット言語のための訓練されたttsシステムを通じて,対象言語からテキストを実行して合成音声を生成する方法を提案する。 我々は,この手法が低リソース環境において最も効果的である時期と方法を検討する。 実験では,数千の合成TSテキスト音声ペアを用いて,実データから最適な結果を得ることができた。 以上の結果から,ピボット言語候補の探索は限界的な改善につながる可能性があり,驚くべきことに,asrの性能はtts品質の上昇によって損なわれる可能性があることが示唆された。 これらの結果の応用により,ASR は 64.5\% と 45.0\% の文字誤り低減率 (CERR) を低リソース言語である Guaran\'i と Suba に対してそれぞれ改善する。

Developing Automatic Speech Recognition (ASR) for low-resource languages is a challenge due to the small amount of transcribed audio data. For many such languages, audio and text are available separately, but not audio with transcriptions. Using text, speech can be synthetically produced via text-to-speech (TTS) systems. However, many low-resource languages do not have quality TTS systems either. We propose an alternative: produce synthetic audio by running text from the target language through a trained TTS system for a higher-resource pivot language. We investigate when and how this technique is most effective in low-resource settings. In our experiments, using several thousand synthetic TTS text-speech pairs and duplicating authentic data to balance yields optimal results. Our findings suggest that searching over a set of candidate pivot languages can lead to marginal improvements and that, surprisingly, ASR performance can by harmed by increases in measured TTS quality. Application of these findings improves ASR by 64.5\% and 45.0\% character error reduction rate (CERR) respectively for two low-resource languages: Guaran\'i and Suba.
翻訳日:2022-07-21 14:00:36 公開日:2022-07-20
# decouplenet:ドメイン適応意味セグメンテーションのための分離ネットワーク

DecoupleNet: Decoupled Network for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2207.09988v1 )

ライセンス: Link先を確認
Xin Lai, Zhuotao Tian, Xiaogang Xu, Yingcong Chen, Shu Liu, Hengshuang Zhao, Liwei Wang, Jiaya Jia(参考訳) セマンティックセグメンテーションにおける教師なしドメイン適応は、高価なピクセル単位のアノテーションへの依存を軽減するために提起されている。 ラベル付きソースドメインデータセットとラベルなしのターゲットドメインイメージを活用して、セグメンテーションネットワークを学習する。 本稿では,既存のドメイン不変学習フレームワークの主な2つの課題を考察する。 1)特徴分布アライメントに気を散らされているため,ネットワークはセグメンテーションタスクに集中できない。 2) ソースドメインデータを適切に設定すると、ターゲットドメインのパフォーマンスが損なわれる。 これらの問題に対処するために、ソースドメインの過度な適合を緩和し、最終的なモデルをセグメント化タスクに集中できるようにするDecoupleNetを提案する。 さらに,自己識別(sd)を展開し,擬似ラベルを用いた識別対象領域の特徴を学習するための補助分類器を導入する。 最後に,疑似ラベルの品質をオンライン方式で文脈的に向上させるオンライン強化セルフトレーニング(oest)を提案する。 実験により,既存の最先端法を上回り,各成分の有効性を広範囲なアブレーションにより検証した。 コードはhttps://github.com/dvlab-research/DecoupleNetで入手できる。

Unsupervised domain adaptation in semantic segmentation has been raised to alleviate the reliance on expensive pixel-wise annotations. It leverages a labeled source domain dataset as well as unlabeled target domain images to learn a segmentation network. In this paper, we observe two main issues of the existing domain-invariant learning framework. (1) Being distracted by the feature distribution alignment, the network cannot focus on the segmentation task. (2) Fitting source domain data well would compromise the target domain performance. To address these issues, we propose DecoupleNet that alleviates source domain overfitting and enables the final model to focus more on the segmentation task. Furthermore, we put forward Self-Discrimination (SD) and introduce an auxiliary classifier to learn more discriminative target domain features with pseudo labels. Finally, we propose Online Enhanced Self-Training (OEST) to contextually enhance the quality of pseudo labels in an online manner. Experiments show our method outperforms existing state-of-the-art methods, and extensive ablation studies verify the effectiveness of each component. Code is available at https://github.com/dvlab-research/DecoupleNet.
翻訳日:2022-07-21 13:57:05 公開日:2022-07-20
# Face Anti-Spoofingのための生成ドメイン適応

Generative Domain Adaptation for Face Anti-Spoofing ( http://arxiv.org/abs/2207.10015v1 )

ライセンス: Link先を確認
Qianyu Zhou, Ke-Yue Zhang, Taiping Yao, Ran Yi, Kekai Sheng, Shouhong Ding, Lizhuang Ma(参考訳) unsupervised domain adaption(uda)に基づいたface anti-spoofing(fas)アプローチは、ターゲットシナリオの有望なパフォーマンスのために注目を集めている。 既存のUDA FASメソッドは、通常、セマンティックな高レベルの機能の分布を整列することで、トレーニングされたモデルをターゲットドメインに適合させる。 しかし、ラベルのない対象ドメインの監督が不十分で、低レベルの機能アライメントが無視されているため、既存のメソッドのパフォーマンスは低下する。 これらの課題に対処するために, 対象データをモデルに直接適合させるUDA FASの新たな視点, すなわち, 画像翻訳により対象データをソースドメインスタイルにスタイリングし, さらに, 適切に訓練されたソースモデルにスタイリングデータを供給する。 提案するジェネレーティブドメイン適応(gda)フレームワークは、注意深く設計された2つの一貫性制約を組み合わせる。 1)ドメイン間神経統計整合性は、ドメイン間ギャップを狭める際にジェネレータを導く。 2)デュアルレベルのセマンティック一貫性は,スタイリング画像のセマンティック品質を保証する。 さらに,対象データ分布をさらに拡張し,一般化と領域内ギャップの低減を図るため,領域内スペクトル混成を提案する。 本手法の最先端手法に対する有効性を示す実験と可視化を行った。

Face anti-spoofing (FAS) approaches based on unsupervised domain adaption (UDA) have drawn growing attention due to promising performances for target scenarios. Most existing UDA FAS methods typically fit the trained models to the target domain via aligning the distribution of semantic high-level features. However, insufficient supervision of unlabeled target domains and neglect of low-level feature alignment degrade the performances of existing methods. To address these issues, we propose a novel perspective of UDA FAS that directly fits the target data to the models, i.e., stylizes the target data to the source-domain style via image translation, and further feeds the stylized data into the well-trained source model for classification. The proposed Generative Domain Adaptation (GDA) framework combines two carefully designed consistency constraints: 1) Inter-domain neural statistic consistency guides the generator in narrowing the inter-domain gap. 2) Dual-level semantic consistency ensures the semantic quality of stylized images. Besides, we propose intra-domain spectrum mixup to further expand target data distributions to ensure generalization and reduce the intra-domain gap. Extensive experiments and visualizations demonstrate the effectiveness of our method against the state-of-the-art methods.
翻訳日:2022-07-21 13:56:45 公開日:2022-07-20
# 教師付き学習のための自己スーパービジョンの調整

Tailoring Self-Supervision for Supervised Learning ( http://arxiv.org/abs/2207.10023v1 )

ライセンス: Link先を確認
WonJun Moon, Ji-Hwan Kim, Jae-Pil Heo(参考訳) 近年,適切な自己スーパービジョンを展開させることが,教師付き学習の性能向上につながることが示唆されている。 しかし、自己スーパービジョンの利点は、前回のプレテキストタスクが教師なし表現学習に特化しているため、完全には活用されていない。 この目的を達成するために,このような補助タスクに3つの望ましい特性を提示することから始める。 まず、タスクはリッチな機能を学ぶためにモデルを導く必要がある。 第二に、自己超越に関わる変換はトレーニング分布を著しく変えるべきではない。 第3に、作業は軽量で汎用的で、先行技術の適用性が高いことが好ましい。 次に,既存のプリテキストタスクがこれらをどのように実現し,教師付き学習のために調整できるかを示すために,局所的回転 (lorot) を予測し,簡単な補助的自己スーパービジョンタスクを提案する。 我々の徹底的な実験は、堅牢性と一般化能力の観点から教師あり学習に適したプレテキストタスクとしてのLoRotの利点を検証した。 私たちのコードはhttps://github.com/wjun0830/Localizable-Rotationで利用可能です。

Recently, it is shown that deploying a proper self-supervision is a prospective way to enhance the performance of supervised learning. Yet, the benefits of self-supervision are not fully exploited as previous pretext tasks are specialized for unsupervised representation learning. To this end, we begin by presenting three desirable properties for such auxiliary tasks to assist the supervised objective. First, the tasks need to guide the model to learn rich features. Second, the transformations involved in the self-supervision should not significantly alter the training distribution. Third, the tasks are preferred to be light and generic for high applicability to prior arts. Subsequently, to show how existing pretext tasks can fulfill these and be tailored for supervised learning, we propose a simple auxiliary self-supervision task, predicting localizable rotation (LoRot). Our exhaustive experiments validate the merits of LoRot as a pretext task tailored for supervised learning in terms of robustness and generalization capability. Our code is available at https://github.com/wjun0830/Localizable-Rotation.
翻訳日:2022-07-21 13:56:27 公開日:2022-07-20
# オープン集合認識のための難易度シミュレータ

Difficulty-Aware Simulator for Open Set Recognition ( http://arxiv.org/abs/2207.10024v1 )

ライセンス: Link先を確認
WonJun Moon, Junho Park, Hyun Seok Seong, Cheol-Ho Cho, Jae-Pil Heo(参考訳) オープンセット認識(OSR)は、未知のインスタンスが推論時に青から現れると仮定する。 OSRの主な課題は、未知のモデルの応答が予測不可能であることである。 さらに、開集合の多様性は、インスタンスの難易度が異なるため、困難になる。 そこで本研究では,現実世界をシミュレートするために,多様な難易度をもつ偽物を生成する新しいフレームワークDIASを提案する。 まず,分類者の視点でGAN(Generative Adversarial Network)のフェイクを調査し,これらが深刻な課題ではないことを考察した。 この結果から,ganが適度に拡散するサンプルについて,難易度基準を定義することができた。 難易度の高い例を生成するために,分類器の動作を模倣した Copycat を導入する。 さらに, 改良したGANとCopycatにより, 中等度, 容易な試料も得られた。 その結果、DIASはAUROCとFスコアの両方のメトリクスで最先端の手法より優れている。 私たちのコードはhttps://github.com/wjun0830/difficulty-aware-simulatorで利用可能です。

Open set recognition (OSR) assumes unknown instances appear out of the blue at the inference time. The main challenge of OSR is that the response of models for unknowns is totally unpredictable. Furthermore, the diversity of open set makes it harder since instances have different difficulty levels. Therefore, we present a novel framework, DIfficulty-Aware Simulator (DIAS), that generates fakes with diverse difficulty levels to simulate the real world. We first investigate fakes from generative adversarial network (GAN) in the classifier's viewpoint and observe that these are not severely challenging. This leads us to define the criteria for difficulty by regarding samples generated with GANs having moderate-difficulty. To produce hard-difficulty examples, we introduce Copycat, imitating the behavior of the classifier. Furthermore, moderate- and easy-difficulty samples are also yielded by our modified GAN and Copycat, respectively. As a result, DIAS outperforms state-of-the-art methods with both metrics of AUROC and F-score. Our code is available at https://github.com/wjun0830/Difficulty-Aware-Simulator.
翻訳日:2022-07-21 13:56:10 公開日:2022-07-20
# 合成データからの学習:マルチタスクネットワークのアンサンブルに基づく表情分類

Learning from Synthetic Data: Facial Expression Classification based on Ensemble of Multi-task Networks ( http://arxiv.org/abs/2207.10025v1 )

ライセンス: Link先を確認
Jae-Yeop Jeong, Yeong-Gi Hong, JiYeon Oh, Sumin Hong, Jin-Woo Jeong, Yuchul Jung(参考訳) 様々な対話型コンピューティングドメインでは,実地での表情が不可欠である。 特に「合成データからの学習」(lsd)は表情認識タスクにおいて重要な話題である。 本稿では,すべての顔情報を共有できる感情と表情学習分枝からなる多タスク学習に基づく表情認識手法を提案し,第4回感情行動分析 in-the-wild (abaw) コンペティションで紹介されたlsdチャレンジの予備結果を提案する。 平均F1スコアは0.71。

Facial expression in-the-wild is essential for various interactive computing domains. Especially, "Learning from Synthetic Data" (LSD) is an important topic in the facial expression recognition task. In this paper, we propose a multi-task learning-based facial expression recognition approach which consists of emotion and appearance learning branches that can share all face information, and present preliminary results for the LSD challenge introduced in the 4th affective behavior analysis in-the-wild (ABAW) competition. Our method achieved the mean F1 score of 0.71.
翻訳日:2022-07-21 13:55:54 公開日:2022-07-20
# 小さなデータセット上での視覚トランスフォーマー改善のための局所性指導

Locality Guidance for Improving Vision Transformers on Tiny Datasets ( http://arxiv.org/abs/2207.10026v1 )

ライセンス: Link先を確認
Kehan Li, Runyi Yu, Zhennan Wang, Li Yuan, Guoli Song, Jie Chen(参考訳) vision transformer (vt) アーキテクチャはコンピュータビジョンのトレンドになりつつあるが、純粋なvtモデルは小さなデータセットでは性能が悪い。 そこで本研究では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。 まず,VTにおける自己認識機構の柔軟性と本質的なグローバル性のため,画像を理解する上で非常に重要である局所的情報を限られたデータで学習することは困難である。 ローカル情報を容易にするために,cnnのローカルからグローバルへの階層構造にインスパイアされた,すでに訓練済みの畳み込みニューラルネットワーク(cnn)の特徴を模倣して,vtsの局所性指導を実現する。 デュアルタスク学習のパラダイムでは,低解像度画像で訓練された軽量cnnによる局所性指導は,vtsの収束を加速し,性能を大幅に向上させるのに十分である。 したがって、我々のローカリティガイダンスアプローチは非常にシンプルで効率的であり、小さなデータセット上でのVTの基本的なパフォーマンス向上手法として機能する。 大規模な実験では、小さなデータセットをスクラッチからトレーニングすることでVTを大幅に改善し、異なる種類のVTやデータセットと互換性があることが示されている。 例えば、提案手法は、小さなデータセット上での様々なVTの性能(例えば、DeiTが13.07%、T2Tが8.98%、PVTが7.85%)を向上し、さらに強力なベースラインPVTv2を1.86%から79.30%向上させ、小さなデータセット上でのVTの可能性を示している。 コードはhttps://github.com/lkhl/tiny-transformersで入手できる。

While the Vision Transformer (VT) architecture is becoming trendy in computer vision, pure VT models perform poorly on tiny datasets. To address this issue, this paper proposes the locality guidance for improving the performance of VTs on tiny datasets. We first analyze that the local information, which is of great importance for understanding images, is hard to be learned with limited data due to the high flexibility and intrinsic globality of the self-attention mechanism in VTs. To facilitate local information, we realize the locality guidance for VTs by imitating the features of an already trained convolutional neural network (CNN), inspired by the built-in local-to-global hierarchy of CNN. Under our dual-task learning paradigm, the locality guidance provided by a lightweight CNN trained on low-resolution images is adequate to accelerate the convergence and improve the performance of VTs to a large extent. Therefore, our locality guidance approach is very simple and efficient, and can serve as a basic performance enhancement method for VTs on tiny datasets. Extensive experiments demonstrate that our method can significantly improve VTs when training from scratch on tiny datasets and is compatible with different kinds of VTs and datasets. For example, our proposed method can boost the performance of various VTs on tiny datasets (e.g., 13.07% for DeiT, 8.98% for T2T and 7.85% for PVT), and enhance even stronger baseline PVTv2 by 1.86% to 79.30%, showing the potential of VTs on tiny datasets. The code is available at https://github.com/lkhl/tiny-transformers.
翻訳日:2022-07-21 13:55:45 公開日:2022-07-20
# MOTCOM: マルチオブジェクト追跡データセット複雑度メトリクス

MOTCOM: The Multi-Object Tracking Dataset Complexity Metric ( http://arxiv.org/abs/2207.10031v1 )

ライセンス: Link先を確認
Malte Pedersen, Joakim Bruslund Haurum, Patrick Dendorfer, Thomas B. Moeslund(参考訳) マルチオブジェクト追跡(MOT)シーケンスの複雑さを記述するための包括的な指標は存在しない。 このメトリクスの欠如は説明可能性を減らし、データセットの比較を複雑にし、トラッカのパフォーマンスに関する会話をリーダーボードの立場に還元する。 この手法は,MOTにおける重要な問題であるオクルージョン,不規則動作,視覚的類似性から着想を得た3つのサブメトリックを組み合わせた,新しいMOTデータセット複雑性メトリクス(MOTCOM)を提案する。 MOTCOMの洞察は、トラッカーのパフォーマンスに関する微妙な議論を開き、あまり知られていないデータセットやサブプロブレムの解決を目的とした新しいコントリビューションが広く認められる可能性がある。 総合的なMOT17, MOT20, MOTSynthデータセット上でMOTCOMを評価し、MOTCOMが従来の密度とトラック数と比較してMOTシーケンスの複雑さを記述するのに優れていることを示す。 プロジェクトページ: https://vap.aau.dk/motcom

There exists no comprehensive metric for describing the complexity of Multi-Object Tracking (MOT) sequences. This lack of metrics decreases explainability, complicates comparison of datasets, and reduces the conversation on tracker performance to a matter of leader board position. As a remedy, we present the novel MOT dataset complexity metric (MOTCOM), which is a combination of three sub-metrics inspired by key problems in MOT: occlusion, erratic motion, and visual similarity. The insights of MOTCOM can open nuanced discussions on tracker performance and may lead to a wider acknowledgement of novel contributions developed for either less known datasets or those aimed at solving sub-problems. We evaluate MOTCOM on the comprehensive MOT17, MOT20, and MOTSynth datasets and show that MOTCOM is far better at describing the complexity of MOT sequences compared to the conventional density and number of tracks. Project page at https://vap.aau.dk/motcom
翻訳日:2022-07-21 13:55:13 公開日:2022-07-20
# 単眼3次元物体検出のための密拘束深さ推定器

Densely Constrained Depth Estimator for Monocular 3D Object Detection ( http://arxiv.org/abs/2207.10047v1 )

ライセンス: Link先を確認
Yingyan Li, Yunchao Chen, Jiawei He, and Zhaoxiang Zhang(参考訳) モノクロ画像から物体の正確な3D位置を推定することは、深さが不足しているため難しい問題である。 これまでの研究では、オブジェクトのキーポイント投影制約を利用して複数の深さ候補を推定することで検出性能が向上した。 しかし,既存の手法では,垂直エッジを投射制約としてのみ深度推定に利用できる。 したがって、これらの手法は少数の射影制約しか使用せず、深さ候補が不十分であり、深さ推定が不正確になる。 本稿では,任意の方向のエッジから高密度な投影制約を利用する手法を提案する。 このように、より多くのプロジェクション制約を採用し、かなりの深さの候補を生成する。 さらに、深度候補をマージするグラフマッチング重み付けモジュールも提示する。 提案手法であるDCD (Densely Constrained Detector) は, KITTI および WOD ベンチマークの最先端性能を実現する。 コードはhttps://github.com/BraveGroup/DCDで公開されている。

Estimating accurate 3D locations of objects from monocular images is a challenging problem because of lacking depth. Previous work shows that utilizing the object's keypoint projection constraints to estimate multiple depth candidates boosts the detection performance. However, the existing methods can only utilize vertical edges as projection constraints for depth estimation. So these methods only use a small number of projection constraints and produce insufficient depth candidates, leading to inaccurate depth estimation. In this paper, we propose a method that utilizes dense projection constraints from edges of any direction. In this way, we employ much more projection constraints and produce considerable depth candidates. Besides, we present a graph matching weighting module to merge the depth candidates. The proposed method DCD (Densely Constrained Detector) achieves state-of-the-art performance on the KITTI and WOD benchmarks. Code is released at https://github.com/BraveGroup/DCD.
翻訳日:2022-07-21 13:54:55 公開日:2022-07-20
# 野生における3次元衣服の再構築

3D Clothed Human Reconstruction in the Wild ( http://arxiv.org/abs/2207.10053v1 )

ライセンス: Link先を確認
Gyeongsik Moon, Hyeongjin Nam, Takaaki Shiratori, Kyoung Mu Lee(参考訳) 3D服の復元には多くの進歩があったが、既存の手法のほとんどは、さまざまな人間のポーズや外観を含む、眼内画像から堅牢な結果を得ることができなかった。 これは主に、トレーニングデータセットとインザワイルドデータセットの間の大きなドメインギャップに起因する。 トレーニングデータセットは通常、GT 3Dスキャンのレンダリング画像を含む合成データセットである。 しかし、そのようなデータセットには単純な人間のポーズが含まれており、実際のアプリ内データセットと比べて自然な画像の出現は少ない。 この問題を解決するために,本研究では,まず3次元布地を用いた人間の再構築フレームワークであるClosWildを提案する。 まず、ドメインギャップに対するロバスト性について、2Dの監視対象であるWildデータセットをトレーニング可能な弱教師付きパイプラインを提案する。 第二に、弱い監督の曖昧さを軽減するために、DensePoseに基づく損失関数を設計する。 提案したClosWildは、最先端の手法よりもはるかに正確で堅牢な結果が得られることを示す。 コードはここにある。 https://github.com/hygenie1228/ClothWild_RELEASE。

Although much progress has been made in 3D clothed human reconstruction, most of the existing methods fail to produce robust results from in-the-wild images, which contain diverse human poses and appearances. This is mainly due to the large domain gap between training datasets and in-the-wild datasets. The training datasets are usually synthetic ones, which contain rendered images from GT 3D scans. However, such datasets contain simple human poses and less natural image appearances compared to those of real in-the-wild datasets, which makes generalization of it to in-the-wild images extremely challenging. To resolve this issue, in this work, we propose ClothWild, a 3D clothed human reconstruction framework that firstly addresses the robustness on in-thewild images. First, for the robustness to the domain gap, we propose a weakly supervised pipeline that is trainable with 2D supervision targets of in-the-wild datasets. Second, we design a DensePose-based loss function to reduce ambiguities of the weak supervision. Extensive empirical tests on several public in-the-wild datasets demonstrate that our proposed ClothWild produces much more accurate and robust results than the state-of-the-art methods. The codes are available in here: https://github.com/hygenie1228/ClothWild_RELEASE.
翻訳日:2022-07-21 13:54:41 公開日:2022-07-20
# GANインバージョンを用いた単眼3次元物体再構成

Monocular 3D Object Reconstruction with GAN Inversion ( http://arxiv.org/abs/2207.10061v1 )

ライセンス: Link先を確認
Junzhe Zhang, Daxuan Ren, Zhongang Cai, Chai Kiat Yeo, Bo Dai, Chen Change Loy(参考訳) モノクロ画像からテクスチャー化された3dメッシュを復元することは、特に3dの真実を欠いたwildオブジェクトの場合、非常に難しい。 本研究では,3次元テクスチャメッシュ合成のために事前訓練された3D GANの生成前を活用して,再構成を改善する新しいフレームワークであるMeshInversionを提案する。 リコンストラクションは、単一の視野観察に基づいて、ターゲットメッシュに最もよく似た3d gan内の潜在空間を探索することによって達成される。 事前学習されたGANはメッシュ幾何学やテクスチャの観点からリッチな3Dセマンティクスをカプセル化しているため、GAN多様体内の探索は自然に再構成の現実性と忠実さを規則化する。 重要なことに、そのような正規化は3d空間で直接適用され、2d空間で観察できないメッシュ部品の重要なガイダンスとなる。 標準ベンチマーク実験により,観測部と観測部の両方で一貫した形状とテクスチャを持つ忠実な3次元再構成が得られた。 さらに、変形可能なオブジェクトの拡張表現など、一般的には見られないメッシュによく一般化する。 コードはhttps://github.com/junzhezhang/mesh-inversionでリリース

Recovering a textured 3D mesh from a monocular image is highly challenging, particularly for in-the-wild objects that lack 3D ground truths. In this work, we present MeshInversion, a novel framework to improve the reconstruction by exploiting the generative prior of a 3D GAN pre-trained for 3D textured mesh synthesis. Reconstruction is achieved by searching for a latent space in the 3D GAN that best resembles the target mesh in accordance with the single view observation. Since the pre-trained GAN encapsulates rich 3D semantics in terms of mesh geometry and texture, searching within the GAN manifold thus naturally regularizes the realness and fidelity of the reconstruction. Importantly, such regularization is directly applied in the 3D space, providing crucial guidance of mesh parts that are unobserved in the 2D space. Experiments on standard benchmarks show that our framework obtains faithful 3D reconstructions with consistent geometry and texture across both observed and unobserved parts. Moreover, it generalizes well to meshes that are less commonly seen, such as the extended articulation of deformable objects. Code is released at https://github.com/junzhezhang/mesh-inversion
翻訳日:2022-07-21 13:54:20 公開日:2022-07-20
# 顔の汎用化のためのエキスパート学習の適応混合

Adaptive Mixture of Experts Learning for Generalizable Face Anti-Spoofing ( http://arxiv.org/abs/2207.09868v1 )

ライセンス: Link先を確認
Qianyu Zhou, Ke-Yue Zhang, Taiping Yao, Ran Yi, Shouhong Ding, Lizhuang Ma(参考訳) 様々な顔提示攻撃が絶え間なく発生し、ドメイン一般化(DG)に基づく顔反偽造(FAS)アプローチが注目されている。 既存のDGベースのFASアプローチは、様々な目に見えない領域を一般化するために、ドメイン不変の特徴を常に捉えている。 しかし、個々のソースドメインの識別特性や、未知覚ドメインの多様なドメイン固有情報を無視しており、訓練されたモデルは様々な未知覚ドメインに適応するには不十分である。 この問題に対処するために,ドメイン固有の情報を活用して,対象ドメインと対象ドメイン間のリンクを適応的に確立し,さらに一般化を改善するための適応混合学習フレームワーク(AMEL)を提案する。 具体的には、ドメイン特化専門家(Domain-Specific Experts, DSE)は、共通のドメイン不変機能の補完として、識別的およびユニークなドメイン特化特徴を調査するために設計されている。 さらに,対象領域に対するドメインの関連性に基づいて,各ソースエキスパートの補完情報を適応的に集約するために,動的エキスパートアグリゲーション(dea)を提案する。 そしてメタ学習と組み合わせることで、これらのモジュールは協調して、目に見えないさまざまなドメインに対して意味のあるドメイン固有の情報を適応的に集約する。 広範な実験と可視化により,最先端の競争相手に対する提案手法の有効性が実証された。

With various face presentation attacks emerging continually, face anti-spoofing (FAS) approaches based on domain generalization (DG) have drawn growing attention. Existing DG-based FAS approaches always capture the domain-invariant features for generalizing on the various unseen domains. However, they neglect individual source domains' discriminative characteristics and diverse domain-specific information of the unseen domains, and the trained model is not sufficient to be adapted to various unseen domains. To address this issue, we propose an Adaptive Mixture of Experts Learning (AMEL) framework, which exploits the domain-specific information to adaptively establish the link among the seen source domains and unseen target domains to further improve the generalization. Concretely, Domain-Specific Experts (DSE) are designed to investigate discriminative and unique domain-specific features as a complement to common domain-invariant features. Moreover, Dynamic Expert Aggregation (DEA) is proposed to adaptively aggregate the complementary information of each source expert based on the domain relevance to the unseen target domain. And combined with meta-learning, these modules work collaboratively to adaptively aggregate meaningful domain-specific information for the various unseen target domains. Extensive experiments and visualizations demonstrate the effectiveness of our method against the state-of-the-art competitors.
翻訳日:2022-07-21 13:50:48 公開日:2022-07-20
# 負のサンプル:再同定のためのハードレンジ弾性損失の活用

Negative Samples are at Large: Leveraging Hard-distance Elastic Loss for Re-identification ( http://arxiv.org/abs/2207.09884v1 )

ライセンス: Link先を確認
Hyungtae Lee, Sungmin Eum, Heesung Kwon(参考訳) 本稿では,モメンタム再同定(Momentum Re-identification, MoReID)フレームワークを提案する。 このフレームワークの設計はmomomentum contrast(moco)に触発され、辞書を使って現在のバッチと過去のバッチを保存し、大量のエンコードされたサンプルを構築する。 現在の正のサンプルで形成されたエンコードされた特徴量と非常に矛盾する過去の正のサンプルを使用することは、あまり効果がないため、moreidは辞書に格納された大量の負のサンプルのみを使用するように設計されている。 しかし、正負のサンプルの集合を表すために1つのサンプルしか使わない広く使われているトリプルト損失を用いてモデルを訓練すると、MoReIDフレームワークが獲得した負のサンプルの増大を効果的に活用することは困難である。 スケールアップした負のサンプルセットを使用する利点を最大化するため,我々は,複数のハードサンプルを用いて多数のサンプルを表現できるハード距離弾性損失(he損失)を新たに導入した。 実験の結果,MoReIDフレームワークが提供する負のサンプルをHe損失にのみフル容量で利用することができ,VeRi-776,Market-1501,VeRi-Wildの3つのre-IDベンチマークにおける最先端の精度を実現することができた。

We present a Momentum Re-identification (MoReID) framework that can leverage a very large number of negative samples in training for general re-identification task. The design of this framework is inspired by Momentum Contrast (MoCo), which uses a dictionary to store current and past batches to build a large set of encoded samples. As we find it less effective to use past positive samples which may be highly inconsistent to the encoded feature property formed with the current positive samples, MoReID is designed to use only a large number of negative samples stored in the dictionary. However, if we train the model using the widely used Triplet loss that uses only one sample to represent a set of positive/negative samples, it is hard to effectively leverage the enlarged set of negative samples acquired by the MoReID framework. To maximize the advantage of using the scaled-up negative sample set, we newly introduce Hard-distance Elastic loss (HE loss), which is capable of using more than one hard sample to represent a large number of samples. Our experiments demonstrate that a large number of negative samples provided by MoReID framework can be utilized at full capacity only with the HE loss, achieving the state-of-the-art accuracy on three re-ID benchmarks, VeRi-776, Market-1501, and VeRi-Wild.
翻訳日:2022-07-21 13:50:29 公開日:2022-07-20
# 生体画像解析におけるラベル付け指示事項

Labeling instructions matter in biomedical image analysis ( http://arxiv.org/abs/2207.09899v1 )

ライセンス: Link先を確認
Tim R\"adsch, Annika Reinke, Vivienn Weru, Minu D. Tizabi, Nicholas Schreck, A. Emre Kavur, B\"unyamin Pekdemir, Tobias Ro{\ss}, Annette Kopp-Schneider, Lena Maier-Hein(参考訳) バイオメディカル画像解析アルゴリズムの検証は、ラベル付け命令が鍵となる参照データセットの高品質アノテーションに依存する。 その重要性にもかかわらず、その最適化はほとんど未調査のままである。 ここでは,ラベリング命令に関する最初の体系的研究とその分野におけるアノテーション品質への影響について述べる。 MICCAI協会に登録された専門的実践や国際コンペティションの総合的な調査を通じて,アノテータの指示のラベル付けに対するニーズと現在の品質と可用性の相違が明らかになった。 専門家4社156名と,情報密度の異なる指示を用いたアマゾン・メカニカル・トルク(MTurk)のクラウドワーカー708名による注釈付き14,040枚の画像の分析から,サンプル画像を含むと,テキストのみの記述に比べてアノテーション性能が著しく向上するのに対し,テキスト記述のみの拡張はそうではないことがわかった。 最後に、プロの注釈家は常にmturkの群集を上回っている。 本研究は,バイオメディカル画像解析における品質基準の必要性に対する意識を高めるものである。

Biomedical image analysis algorithm validation depends on high-quality annotation of reference datasets, for which labeling instructions are key. Despite their importance, their optimization remains largely unexplored. Here, we present the first systematic study of labeling instructions and their impact on annotation quality in the field. Through comprehensive examination of professional practice and international competitions registered at the MICCAI Society, we uncovered a discrepancy between annotators' needs for labeling instructions and their current quality and availability. Based on an analysis of 14,040 images annotated by 156 annotators from four professional companies and 708 Amazon Mechanical Turk (MTurk) crowdworkers using instructions with different information density levels, we further found that including exemplary images significantly boosts annotation performance compared to text-only descriptions, while solely extending text descriptions does not. Finally, professional annotators constantly outperform MTurk crowdworkers. Our study raises awareness for the need of quality standards in biomedical image analysis labeling instructions.
翻訳日:2022-07-21 13:50:04 公開日:2022-07-20
# 幾何学的汎関数のバリエーションに関する一考察

A note on the variation of geometric functionals ( http://arxiv.org/abs/2207.09915v1 )

ライセンス: Link先を確認
Nir Sochen(参考訳) 画像処理とコンピュータビジョンの問題をモデル化・解決するツールとしての微分幾何学と組み合わせた変分計算は、80年代後半から20世紀にかけて導入された。 これらの方向の広範な作品の始まりは、Geodesic Active Contours (GAC)、Beltrami framework、OsherとSethianのレベルセット方法、Charpiatらの作品、ChanとVeseの作品などによって特徴づけられた。 多くの場合、これらの関数の最適化はオイラー・ラグランジュ方程式の計算によって勾配降下法によって行われる。 勾配降下スキームにおける結果のel方程式の直接使用は、非幾何学的、場合によっては非官能的方程式に繋がる。 幾何学的および/またはセンチュアルな方程式を得るためにこれらのel方程式または関数自身を修正するのはコストがかかる。 このノートの目的は、ELを導出する正しい方法と、結果の勾配降下方程式が幾何学的で意味のある勾配降下方程式を示すことである。

Calculus of Variation combined with Differential Geometry as tools of modelling and solving problems in image processing and computer vision were introduced in the late 80's and the 90s of the 20th century. The beginning of an extensive work in these directions was marked by works such as Geodesic Active Contours (GAC), the Beltrami framework, level set method of Osher and Sethian the works of Charpiat et al. and the works by Chan and Vese to name just a few. In many cases the optimization of these functional are done by the gradient descent method via the calculation of the Euler-Lagrange equations. Straightforward use of the resulted EL equations in the gradient descent scheme leads to non-geometric and in some cases non sensical equations. It is costumary to modify these EL equations or even the functional itself in order to obtain geometric and/or sensical equations. The aim of this note is to point to the correct way to derive the EL and the gradient descent equations such that the resulted gradient descent equation is geometric and makes sense.
翻訳日:2022-07-21 13:49:46 公開日:2022-07-20
# Few-shot Skeleton-based Temporal Action Segmentation のための効率的なフレームワーク

An Efficient Framework for Few-shot Skeleton-based Temporal Action Segmentation ( http://arxiv.org/abs/2207.09925v1 )

ライセンス: Link先を確認
Leiyang Xu, Qiang Wang, Xiaotian Lin, Lin Yuan(参考訳) テンポラルアクションセグメンテーション(TAS)は、長いアントリムされたアクションシーケンスのアクションを分類し、特定することを目的としている。 ディープラーニングの成功により、アクションセグメンテーションのための深いモデルが数多く登場している。 しかし、一部のTASは依然として難しい問題である。 本研究では,データ拡張法と改良モデルを含む,数発の骨格型TASの効率的なフレームワークを提案する。 本稿では,動きの補間に基づくデータ拡張手法を提案し,データ不足の問題を解決するとともに,動作シーケンスを合成することでサンプル数を大幅に増加させることができる。 さらに,接続主義時相分類(ctc)層をスケルトンベースtas用に設計されたネットワークに結合し,最適化モデルを得る。 CTCを活用することで、予測と真実の時間的整合性を高め、セグメンテーション結果のセグメンテーションワイドメトリックスを改善することができる。 2つの小規模データセットと1つの大規模データセットを含む、パブリックデータセットとセルフコンストラクテッドデータセットの両方に関する広範囲な実験により、2つの提案手法が、スケルトンベースのtasタスクの性能を向上させる効果を示している。

Temporal action segmentation (TAS) aims to classify and locate actions in the long untrimmed action sequence. With the success of deep learning, many deep models for action segmentation have emerged. However, few-shot TAS is still a challenging problem. This study proposes an efficient framework for the few-shot skeleton-based TAS, including a data augmentation method and an improved model. The data augmentation approach based on motion interpolation is presented here to solve the problem of insufficient data, and can increase the number of samples significantly by synthesizing action sequences. Besides, we concatenate a Connectionist Temporal Classification (CTC) layer with a network designed for skeleton-based TAS to obtain an optimized model. Leveraging CTC can enhance the temporal alignment between prediction and ground truth and further improve the segment-wise metrics of segmentation results. Extensive experiments on both public and self-constructed datasets, including two small-scale datasets and one large-scale dataset, show the effectiveness of two proposed methods in improving the performance of the few-shot skeleton-based TAS task.
翻訳日:2022-07-21 13:49:25 公開日:2022-07-20
# 超高精細画像復調の効率化に向けて

Towards Efficient and Scale-Robust Ultra-High-Definition Image Demoireing ( http://arxiv.org/abs/2207.09935v1 )

ライセンス: Link先を確認
Xin Yu, Peng Dai, Wenbo Li, Lan Ma, Jiajun Shen, Jia Li, Xiaojuan Qi(参考訳) モバイル機器の急速な開発により、現代の携帯電話は4K解像度(超高解像度)の画像を撮影することができる。 しかし、低レベルの視覚では難しい課題である画像復調では、既存の作品が低解像度画像や合成画像で一般的に行われる。 したがって、4K解像度画像に対するこれらの手法の有効性はまだ不明である。 本稿では,超高精細画像に対するモアレパターン除去について検討する。 そこで本研究では,5000個の実世界の4K解像度画像ペアを含む,最初の超高精細復調データセット(UHDM)を提案する。 さらに、4Kモアレ画像を扱うための効率的なベースラインモデルESDNetを提案する。 広範な実験により,最先端メソッドをはるかに軽量ながら,最先端メソッドを圧倒する手法の有効性が示された。 コードとデータセットはhttps://xinyu-andy.github.io/uhdm-pageで入手できる。

With the rapid development of mobile devices, modern widely-used mobile phones typically allow users to capture 4K resolution (i.e., ultra-high-definition) images. However, for image demoireing, a challenging task in low-level vision, existing works are generally carried out on low-resolution or synthetic images. Hence, the effectiveness of these methods on 4K resolution images is still unknown. In this paper, we explore moire pattern removal for ultra-high-definition images. To this end, we propose the first ultra-high-definition demoireing dataset (UHDM), which contains 5,000 real-world 4K resolution image pairs, and conduct a benchmark study on current state-of-the-art methods. Further, we present an efficient baseline model ESDNet for tackling 4K moire images, wherein we build a semantic-aligned scale-aware module to address the scale variation of moire patterns. Extensive experiments manifest the effectiveness of our approach, which outperforms state-of-the-art methods by a large margin while being much more lightweight. Code and dataset are available at https://xinyu-andy.github.io/uhdm-page.
翻訳日:2022-07-21 13:49:04 公開日:2022-07-20
# VirtualPose: 仮想データから汎用的な3次元人文モデルを学ぶ

VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data ( http://arxiv.org/abs/2207.09949v1 )

ライセンス: Link先を確認
Jiajun Su, Chunyu Wang, Xiaoxuan Ma, Wenjun Zeng, and Yizhou Wang(参考訳) モノラルな3Dポーズ推定は、公開データセット上で非常に正確な結果を得たように見えるが、その一般化能力はほとんど見落としている。 本研究では,既存の手法を体系的に評価し,異なるカメラ,人間のポーズ,外観でテストした場合に顕著に大きな誤差が生じることを示す。 この問題に対処するため,本課題に特有の隠れた「フリーランチ」,すなわちトレーニングモデルのための無限個のポーズやカメラを無償で生成する2段階学習フレームワークであるvirtualposeを紹介する。 その目的のために、第1段階は画像を抽象幾何学表現(AGR)に変換し、第2段階はそれらを3Dポーズにマッピングする。 1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。 ペアイメージやベンチマークからの3dポーズを使わずにsotaメソッドを上回り、実用的なアプリケーションへの道を開く。 コードはhttps://github.com/wkom/virtualposeで入手できる。

While monocular 3D pose estimation seems to have achieved very accurate results on the public datasets, their generalization ability is largely overlooked. In this work, we perform a systematic evaluation of the existing methods and find that they get notably larger errors when tested on different cameras, human poses and appearance. To address the problem, we introduce VirtualPose, a two-stage learning framework to exploit the hidden "free lunch" specific to this task, i.e. generating infinite number of poses and cameras for training models at no cost. To that end, the first stage transforms images to abstract geometry representations (AGR), and then the second maps them to 3D poses. It addresses the generalization issue from two aspects: (1) the first stage can be trained on diverse 2D datasets to reduce the risk of over-fitting to limited appearance; (2) the second stage can be trained on diverse AGR synthesized from a large number of virtual cameras and poses. It outperforms the SOTA methods without using any paired images and 3D poses from the benchmarks, which paves the way for practical applications. Code is available at https://github.com/wkom/VirtualPose.
翻訳日:2022-07-21 13:48:46 公開日:2022-07-20
# 双曲幾何学における開集合仮説を用いた数ショットクラスインクリメンタルラーニングの再考

Rethinking Few-Shot Class-Incremental Learning with Open-Set Hypothesis in Hyperbolic Geometry ( http://arxiv.org/abs/2207.09963v1 )

ライセンス: Link先を確認
Yawen Cui, Zitong Yu, Wei Peng, and Li Liu(参考訳) few-shot class-incremental learning (fscil) はラベル付きサンプルから新しいクラスを段階的に学習することを目的としている。 fscilの現在のプロトコルは、一般的なクラスインクリメンタルな学習設定を模倣して構築されているが、異なるデータ構成、すなわち新しいクラスはすべて制限されたデータレジームにあるため、完全には適切ではない。 本稿では,FSCILの構成をオープンセット仮説で再考する。 このモデルにクローズセットとオープンセットの両方の認識の性能を割り当てるために、双曲逆点学習モジュール(hyper-rpl)は双曲型ニューラルネットワークと相反点学習(rpl)に基づいて構築される。 さらに,限定ラベルデータから新たなカテゴリを学習するためには,双曲的メトリック学習(hyper-metric)モジュールを蒸留ベースのフレームワークに組み込んでオーバーフィット問題を緩和し,古い知識の保存と新しい知識の獲得の間のトレードオフ問題をよりうまく処理する。 提案した構成と3つのベンチマークデータセット上のモジュールの総合評価を行い、3つの評価指標の有効性を検証する。

Few-Shot Class-Incremental Learning (FSCIL) aims at incrementally learning novel classes from a few labeled samples by avoiding the overfitting and catastrophic forgetting simultaneously. The current protocol of FSCIL is built by mimicking the general class-incremental learning setting, while it is not totally appropriate due to the different data configuration, i.e., novel classes are all in the limited data regime. In this paper, we rethink the configuration of FSCIL with the open-set hypothesis by reserving the possibility in the first session for incoming categories. To assign better performances on both close-set and open-set recognition to the model, Hyperbolic Reciprocal Point Learning module (Hyper-RPL) is built on Reciprocal Point Learning (RPL) with hyperbolic neural networks. Besides, for learning novel categories from limited labeled data, we incorporate a hyperbolic metric learning (Hyper-Metric) module into the distillation-based framework to alleviate the overfitting issue and better handle the trade-off issue between the preservation of old knowledge and the acquisition of new knowledge. The comprehensive assessments of the proposed configuration and modules on three benchmark datasets are executed to validate the effectiveness concerning three evaluation indicators.
翻訳日:2022-07-21 13:48:26 公開日:2022-07-20
# M2-Net:マルチステージ光検出・除去

M2-Net: Multi-stages Specular Highlight Detection and Removal in Multi-scenes ( http://arxiv.org/abs/2207.09965v1 )

ライセンス: Link先を確認
Zhaoyangfan Huang and Kun Hu and Xingjun Wang(参考訳) 本稿では, 合成画像, 顔画像, 自然画像, テキスト画像など, 複数シーンにおけるハイライト検出・削除のための一様性フレームワークを提案する。 フレームワークは3つの主要コンポーネント、ハイライト機能抽出モジュール、ハイライト粗い除去モジュール、ハイライト精細化モジュールで構成されている。 まず、highlight feature extractorモジュールは、highlight featureとnon-highlight featureを元のhighlight imageと直接分離することができる。 そして、粗いハイライト除去ネットワークを用いてハイライト除去画像を得る。 強調強調除去効果をさらに向上するため、文脈的ハイライト強調機構に基づく精細ハイライト除去モジュールを用いて、精細ハイライト除去画像を得る。 複数の場面における大規模な実験結果から,提案手法はハイライト除去の優れた視覚効果を得られ,いくつかの定量的評価指標で最先端の結果が得られることが示唆された。 提案アルゴリズムは,ビデオハイライト除去において,有望な結果とともに初めて適用された。

In this paper, we propose a novel uniformity framework for highlight detection and removal in multi-scenes, including synthetic images, face images, natural images, and text images. The framework consists of three main components, highlight feature extractor module, highlight coarse removal module, and highlight refine removal module. Firstly, the highlight feature extractor module can directly separate the highlight feature and non-highlight feature from the original highlight image. Then highlight removal image is obtained using a coarse highlight removal network. To further improve the highlight removal effect, the refined highlight removal image is finally obtained using refine highlight removal module based on contextual highlight attention mechanisms. Extensive experimental results in multiple scenes indicate that the proposed framework can obtain excellent visual effects of highlight removal and achieve state-of-the-art results in several quantitative evaluation metrics. Our algorithm is applied for the first time in video highlight removal with promising results.
翻訳日:2022-07-21 13:48:00 公開日:2022-07-20
# 視聴覚ゼロショット学習における時間的・横断的注意

Temporal and cross-modal attention for audio-visual zero-shot learning ( http://arxiv.org/abs/2207.09966v1 )

ライセンス: Link先を確認
Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata(参考訳) ビデオ分類のための音声視覚一般化ゼロショット学習では、テスト時に未確認の新規クラスからサンプルを認識するために、音声情報と視覚情報の関係を理解する必要がある。 ビデオデータ中の音声と視覚データの自然な意味と時間的アライメントを利用して、テスト時に見えないクラスに一般化する強力な表現を学ぶことができる。 本稿では,音声視覚一般化ゼロショット学習のためのマルチモーダル・テンポラルクロスアテンションフレームワーク(\modelname)を提案する。 その入力は、事前訓練されたネットワークから得られる時間的に整列したオーディオと視覚的特徴である。 フレームワークをモダリティ内での自己注意ではなく、時間を越えた相互対応に集中させることで、パフォーマンスが大幅に向上します。 提案フレームワークでは,時間的特徴を取り入れることで,(一般化した)ゼロショット学習の最先端性能が向上することを示す。 すべての結果を再現するためのコードは \url{https://github.com/explainableml/tcaf-gzsl} で入手できる。

Audio-visual generalised zero-shot learning for video classification requires understanding the relations between the audio and visual information in order to be able to recognise samples from novel, previously unseen classes at test time. The natural semantic and temporal alignment between audio and visual data in video data can be exploited to learn powerful representations that generalise to unseen classes at test time. We propose a multi-modal and Temporal Cross-attention Framework (\modelName) for audio-visual generalised zero-shot learning. Its inputs are temporally aligned audio and visual features that are obtained from pre-trained networks. Encouraging the framework to focus on cross-modal correspondence across time instead of self-attention within the modalities boosts the performance significantly. We show that our proposed framework that ingests temporal features yields state-of-the-art performance on the \ucf, \vgg, and \activity benchmarks for (generalised) zero-shot learning. Code for reproducing all results is available at \url{https://github.com/ExplainableML/TCAF-GZSL}.
翻訳日:2022-07-21 13:47:45 公開日:2022-07-20
# テクセルアライメント特徴を用いた乾式容積アバター

Drivable Volumetric Avatars using Texel-Aligned Features ( http://arxiv.org/abs/2207.09774v1 )

ライセンス: Link先を確認
Edoardo Remelli, Timur Bagautdinov, Shunsuke Saito, Tomas Simon, Chenglei Wu, Shih-En Wei, Kaiwen Guo, Zhe Cao, Fabian Prada, Jason Saragih, Yaser Sheikh(参考訳) 光現実的テレプレゼンスは、現実と区別できない動的に合成された外観を実現するために、高忠実なボディモデリングと忠実な運転の両方を必要とする。 本研究では,現実人のフルボディアバターのモデリングと駆動における2つの課題に対処するエンドツーエンドフレームワークを提案する。 一つの課題は、ディテールやダイナミックスに忠実でありながらアバターを運転することであり、ボディポーズのようなグローバルな低次元パラメータ化では捉えられない。 本手法は,実際の運転者がトレーニングコーパスを超えて提示するしわや動きを伴う服を着たアバターの運転を支援する。 既存のグローバルな状態表現や非パラメトリックなスクリーンスペースアプローチとは異なり、私たちは、スケルトンベースのパラメトリックモデルの構造と観察されたスパース画像信号の両方を同時に活用できる、局所化された表現であるテクセル整列機能を導入します。 もうひとつの課題は、時間的に整合したアバターをモデル化することだ。 そこで本研究では,体積原始体の混合を音節オブジェクトに拡張することにより,新しい体積アバター表現を提案する。 明瞭に調音を組み込むことで、我々のアプローチは自然に知覚できないポーズに一般化する。 また,局所的な視点条件付けを導入することで,視点依存的外観の一般化が促進される。 提案したボリューム表現は,高品質なメッシュトラッキングを前提条件として必要とせず,メッシュベースのものに比べて大幅な品質向上を実現している。 実験では, 設計選択を慎重に検討し, 運転シナリオにおける最先端手法を上回って, アプローチの有効性を実証した。

Photorealistic telepresence requires both high-fidelity body modeling and faithful driving to enable dynamically synthesized appearance that is indistinguishable from reality. In this work, we propose an end-to-end framework that addresses two core challenges in modeling and driving full-body avatars of real people. One challenge is driving an avatar while staying faithful to details and dynamics that cannot be captured by a global low-dimensional parameterization such as body pose. Our approach supports driving of clothed avatars with wrinkles and motion that a real driving performer exhibits beyond the training corpus. Unlike existing global state representations or non-parametric screen-space approaches, we introduce texel-aligned features -- a localised representation which can leverage both the structural prior of a skeleton-based parametric model and observed sparse image signals at the same time. Another challenge is modeling a temporally coherent clothed avatar, which typically requires precise surface tracking. To circumvent this, we propose a novel volumetric avatar representation by extending mixtures of volumetric primitives to articulated objects. By explicitly incorporating articulation, our approach naturally generalizes to unseen poses. We also introduce a localized viewpoint conditioning, which leads to a large improvement in generalization of view-dependent appearance. The proposed volumetric representation does not require high-quality mesh tracking as a prerequisite and brings significant quality improvements compared to mesh-based counterparts. In our experiments, we carefully examine our design choices and demonstrate the efficacy of our approach, outperforming the state-of-the-art methods on challenging driving scenarios.
翻訳日:2022-07-21 13:45:09 公開日:2022-07-20
# オープンセットオブジェクト検出のより実践的なシナリオ:カテゴリーレベルで開き、スーパーカテゴリレベルで閉まる

More Practical Scenario of Open-set Object Detection: Open at Category Level and Closed at Super-category Level ( http://arxiv.org/abs/2207.09775v1 )

ライセンス: Link先を確認
Yusuke Hosoya, Masanori Suganuma, Takayuki Okatani(参考訳) オープンセットオブジェクト検出(OSOD)は近年注目されている。 未知のオブジェクトを検出し、既知のオブジェクトを正しく検出/分類する。 オープンセット認識(OSR)に類似した未知のオブジェクトの無限多様を考慮に入れた最近の研究では,OSODのシナリオが根本的な問題となっていることを最初に指摘した。 すなわち、そのような無限の未知のオブジェクトに対して何を検出するか、何を検出するかは決定できない。 この問題は未知のオブジェクト検出におけるメソッドの性能評価に困難をもたらす。 次に,超カテゴリを既知のオブジェクトと共有する未知のオブジェクトのみを扱うosodの新たなシナリオを紹介する。 現実世界のアプリケーションも多くあり、たとえば細粒度オブジェクトの数が増えている。 この新たな設定は上記の問題や評価の難しさから解放されている。 さらに、未知のオブジェクトと未知のオブジェクトの視覚的類似性により、未知のオブジェクトの検出をより現実的なものにする。 実験結果から,標準検出器からのクラス予測の不確実性に基づく簡易な手法が,従来のOSOD法よりも優れていることを示す。

Open-set object detection (OSOD) has recently attracted considerable attention. It is to detect unknown objects while correctly detecting/classifying known objects. We first point out that the scenario of OSOD considered in recent studies, which considers an unlimited variety of unknown objects similar to open-set recognition (OSR), has a fundamental issue. That is, we cannot determine what to detect and what not for such unlimited unknown objects, which is necessary for detection tasks. This issue leads to difficulty with the evaluation of methods' performance on unknown object detection. We then introduce a novel scenario of OSOD, which deals with only unknown objects that share the super-category with known objects. It has many real-world applications, e.g., detecting an increasing number of fine-grained objects. This new setting is free from the above issue and evaluation difficulty. Moreover, it makes detecting unknown objects more realistic owing to the visual similarity between known and unknown objects. We show through experimental results that a simple method based on the uncertainty of class prediction from standard detectors outperforms the current state-of-the-art OSOD methods tested in the previous setting.
翻訳日:2022-07-21 13:44:41 公開日:2022-07-20
# 合成顔表情認識のためのAU-Supervised Convolutional Vision Transformer

AU-Supervised Convolutional Vision Transformers for Synthetic Facial Expression Recognition ( http://arxiv.org/abs/2207.09777v1 )

ライセンス: Link先を確認
Shuyi Mao, Xinpeng Li, Junyao Chen, Xiaojiang Peng(参考訳) 本稿では,ABAW(Affective Behavior Analysis in-the-Wild)コンペティション2022の6つの基本表現分類法について述べる。 合成データ(lsd)タスクからの学習において、表情認識(fer)法は、人工的に生成されたデータから表現の表現を学習し、実データに一般化することを目的としている。 合成データの曖昧さと顔行動単位(AU)の客観性から,AU情報を利用してパフォーマンス向上を行い,次のような貢献を行う。 まず、モデルを合成シナリオに適応させるために、事前訓練された大規模顔認識データから知識を利用する。 第2に,AUや疑似AUラベルを用いた補助データセットを共同でトレーニングすることにより,FERの性能を向上する,AU-Supervised Convolutional Vision Transformers (AU-CVT) と呼ばれる概念的に新しいフレームワークを提案する。 AU-CVTはF1スコアを0.6863$、精度を0.7433$と評価した。 私たちの作業のソースコードはオンラインで公開されている。

The paper describes our proposed methodology for the six basic expression classification track of Affective Behavior Analysis in-the-wild (ABAW) Competition 2022. In Learing from Synthetic Data(LSD) task, facial expression recognition (FER) methods aim to learn the representation of expression from the artificially generated data and generalise to real data. Because of the ambiguous of the synthetic data and the objectivity of the facial Action Unit (AU), we resort to the AU information for performance boosting, and make contributions as follows. First, to adapt the model to synthetic scenarios, we use the knowledge from pre-trained large-scale face recognition data. Second, we propose a conceptually-new framework, termed as AU-Supervised Convolutional Vision Transformers (AU-CVT), which clearly improves the performance of FER by jointly training auxiliary datasets with AU or pseudo AU labels. Our AU-CVT achieved F1 score as $0.6863$, accuracy as $0.7433$ on the validation set. The source code of our work is publicly available online: https://github.com/msy1412/ABAW4
翻訳日:2022-07-21 13:44:23 公開日:2022-07-20
# faceformer: トランスフォーマーによるスケールアウェアブラインドフェイスの復元

FaceFormer: Scale-aware Blind Face Restoration with Transformers ( http://arxiv.org/abs/2207.09790v1 )

ライセンス: Link先を確認
Aijin Li, Gen Li, Lei Sun, Xintao Wang(参考訳) ブラインドフェイスの復元は通常、特に現実世界において様々な規模の顔入力に遭遇する。 しかし、現在の作業のほとんどは特定のスケールフェイスをサポートしており、実際のシナリオにおけるアプリケーションの能力を制限する。 そこで本研究では,顔特徴の復元をスケール認識変換として定式化した新しい顔貌復元フレームワークfaceformerを提案する。 提案するface feature up-sampling(ffup)モジュールは、元のスケールファクタプリエントに基づいて、動的にアップサンプリングフィルタを生成します。 さらに,トランスフォーマーを利用して顔潜伏者の多様性とロバスト性を階層的に抽出する顔特徴埋め込み(ffe)モジュールを提案する。 これにより、顔成分のリアルで対称的な詳細を有する、忠実性と堅牢性が回復した顔が得られる。 総合的な実験により, 提案手法は, 現在の最先端技術よりも, 自然な低品質画像に一般化できることを示した。

Blind face restoration usually encounters with diverse scale face inputs, especially in the real world. However, most of the current works support specific scale faces, which limits its application ability in real-world scenarios. In this work, we propose a novel scale-aware blind face restoration framework, named FaceFormer, which formulates facial feature restoration as scale-aware transformation. The proposed Facial Feature Up-sampling (FFUP) module dynamically generates upsampling filters based on the original scale-factor priors, which facilitate our network to adapt to arbitrary face scales. Moreover, we further propose the facial feature embedding (FFE) module which leverages transformer to hierarchically extract diversity and robustness of facial latent. Thus, our FaceFormer achieves fidelity and robustness restored faces, which possess realistic and symmetrical details of facial components. Extensive experiments demonstrate that our proposed method trained with synthetic dataset generalizes better to a natural low quality images than current state-of-the-arts.
翻訳日:2022-07-21 13:44:04 公開日:2022-07-20
# 自動3次元アノテーションとオブジェクト検出のためのマルチモーダルトランス

Multimodal Transformer for Automatic 3D Annotation and Object Detection ( http://arxiv.org/abs/2207.09805v1 )

ライセンス: Link先を確認
Chang Liu, Xiaoyan Qian, Binxiao Huang, Xiaojuan Qi, Edmund Lam, Siew-Chong Tan, Ngai Wong(参考訳) 3Dオブジェクト検出モデルをトレーニングするためのデータセットが増えているにもかかわらず、LiDARスキャンに3Dボックスをアノテートするためには、大きな人的努力が依然として必要である。 アノテーションを自動化し,様々なカスタマイズデータセットの作成を容易にするために,LiDARスキャンと画像の両方を利用して,弱い2Dバウンディングボックスから正確な3Dボックスアノテーションを生成する,エンドツーエンドマルチモーダルトランス(MTrans)オートラベルラを提案する。 既存のオートラベラーを阻害する広範性問題を緩和するため、MTransは2D画像情報に基づいて新しい3Dポイントを生成してスパース点雲を密度化する。 マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。 実験の結果,mtransが生成ラベルの品質を向上させる効果を検証した。 疎点雲を豊かにすることで,kitti中等度および硬度試料の3d apが,最先端オートラベルに比べて4.48\%,4.03\%向上した。 また、3Dオブジェクト検出の精度を向上させるためにMTransを拡張することもできるため、KITTIのサンプルでは89.45\%のAPが顕著である。 コードは \url{https://github.com/Cliu2/MTrans} にある。

Despite a growing number of datasets being collected for training 3D object detection models, significant human effort is still required to annotate 3D boxes on LiDAR scans. To automate the annotation and facilitate the production of various customized datasets, we propose an end-to-end multimodal transformer (MTrans) autolabeler, which leverages both LiDAR scans and images to generate precise 3D box annotations from weak 2D bounding boxes. To alleviate the pervasive sparsity problem that hinders existing autolabelers, MTrans densifies the sparse point clouds by generating new 3D points based on 2D image information. With a multi-task design, MTrans segments the foreground/background, densifies LiDAR point clouds, and regresses 3D boxes simultaneously. Experimental results verify the effectiveness of the MTrans for improving the quality of the generated labels. By enriching the sparse point clouds, our method achieves 4.48\% and 4.03\% better 3D AP on KITTI moderate and hard samples, respectively, versus the state-of-the-art autolabeler. MTrans can also be extended to improve the accuracy for 3D object detection, resulting in a remarkable 89.45\% AP on KITTI hard samples. Codes are at \url{https://github.com/Cliu2/MTrans}.
翻訳日:2022-07-21 13:43:47 公開日:2022-07-20
# ビデオ編集の解剖:AIによるビデオ編集のためのデータセットとベンチマークスイート

The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing ( http://arxiv.org/abs/2207.09812v1 )

ライセンス: Link先を確認
Dawit Mureja Argaw, Fabian Caba Heilbron, Joon-Young Lee, Markus Woodson, In So Kweon(参考訳) 機械学習はビデオ編集業界を変えつつある。 コンピュータビジョンの最近の進歩は、インテリジェントリフレーミング、ロトスコープ、カラーグレーディング、デジタルメイクアップなどのビデオ編集タスクをレベルアップしている。 しかし、ほとんどのソリューションはビデオ操作とVFXに焦点を当てている。 本研究は、ai支援ビデオ編集の研究を促進するために、ビデオ編集、データセット、ベンチマークの解剖を紹介する。 本ベンチマークスイートでは,映像の自動撮影やビデオ組み立てなど,視覚効果以外の映像編集作業に重点を置いている。 これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。 それぞれのタスクに対して,競争基準法と詳細な分析を行う。 われわれの研究が、AIによるビデオ編集の未発見分野への革新的な研究のきっかけになることを願っている。

Machine learning is transforming the video editing industry. Recent advances in computer vision have leveled-up video editing tasks such as intelligent reframing, rotoscoping, color grading, or applying digital makeups. However, most of the solutions have focused on video manipulation and VFX. This work introduces the Anatomy of Video Editing, a dataset, and benchmark, to foster research in AI-assisted video editing. Our benchmark suite focuses on video editing tasks, beyond visual effects, such as automatic footage organization and assisted video assembling. To enable research on these fronts, we annotate more than 1.5M tags, with relevant concepts to cinematography, from 196176 shots sampled from movie scenes. We establish competitive baseline methods and detailed analyses for each of the tasks. We hope our work sparks innovative research towards underexplored areas of AI-assisted video editing.
翻訳日:2022-07-21 13:43:10 公開日:2022-07-20
# nuwa-infinity:無限視覚合成のための自己回帰的生成

NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis ( http://arxiv.org/abs/2207.09814v1 )

ライセンス: Link先を確認
Chenfei Wu, Jian Liang, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan(参考訳) 本稿では,無限視覚合成のための生成モデルであるNUWA-Infinityについて述べる。 グローバルなパッチレベルの自己回帰モデルはパッチ間の依存関係を考慮し、ローカルなトークンレベルの自己回帰モデルは各パッチ内の視覚トークン間の依存関係を考慮します。 Nearby Context Pool(NCP)は、現在のパッチが生成されるコンテキストとして既に生成されているキャッシュ関連のパッチに導入されたもので、パッチレベルの依存性モデリングを犠牲にすることなく、計算コストを大幅に削減することができる。 任意の方向制御装置(adc)を使用して、異なる視覚合成タスクに適した生成順序を決定し、順序認識位置埋め込みを学習する。 DALL-E、Imagen、Partiと比較すると、NUWA-Infinityは任意のサイズで高解像度の画像を生成でき、長期ビデオ生成もサポートする。 画像や動画もカバーするNUWAと比較して、NUWA-Infinityは解像度と可変サイズ生成の点で優れた視覚合成能力を有している。 GitHubのリンクはhttps://github.com/microsoft/NUWA。 ホームページリンクはhttps://nuwa-infinity.microsoft.com。

In this paper, we present NUWA-Infinity, a generative model for infinite visual synthesis, which is defined as the task of generating arbitrarily-sized high-resolution images or long-duration videos. An autoregressive over autoregressive generation mechanism is proposed to deal with this variable-size generation task, where a global patch-level autoregressive model considers the dependencies between patches, and a local token-level autoregressive model considers dependencies between visual tokens within each patch. A Nearby Context Pool (NCP) is introduced to cache-related patches already generated as the context for the current patch being generated, which can significantly save computation costs without sacrificing patch-level dependency modeling. An Arbitrary Direction Controller (ADC) is used to decide suitable generation orders for different visual synthesis tasks and learn order-aware positional embeddings. Compared to DALL-E, Imagen and Parti, NUWA-Infinity can generate high-resolution images with arbitrary sizes and support long-duration video generation additionally. Compared to NUWA, which also covers images and videos, NUWA-Infinity has superior visual synthesis capabilities in terms of resolution and variable-size generation. The GitHub link is https://github.com/microsoft/NUWA. The homepage link is https://nuwa-infinity.microsoft.com.
翻訳日:2022-07-21 13:42:48 公開日:2022-07-20
# UNIF: 衣服の復元とアニメーションのためのユナイテッド・ニューラルインシシット機能

UNIF: United Neural Implicit Functions for Clothed Human Reconstruction and Animation ( http://arxiv.org/abs/2207.09835v1 )

ライセンス: Link先を確認
Shenhan Qian, Jiale Xu, Ziwei Liu, Liqian Ma, Shenghua Gao(参考訳) 本稿では,生スキャンとスケルトンを入力として,人間の衣服復元とアニメーションのための部分ベース手法である統一暗黙機能(unif)を提案する。 従来のヒト再建法はSMPLの接地部ラベルに依存しており、最小限のヒトに限られている。 対照的に,本手法では,身体運動と身体運動の分離を,部分監督ではなく学習し,衣服を装着した人間や他の関節のある物体に拡張することができる。 骨中心初期化,骨限界損失,およびトレーニングポーズが制限された場合でも安定な部分分割を保証する部分正常損失によって,移動の分割が達成される。 また,余剰表面と部分重なりを抑えるため,SDFは最小周波ロスを生じさせる。 本手法のもう1つのコアは、部品間の接続を維持するために非剛性変形を発生させる近接部分シーミングアルゴリズムである。 このアルゴリズムでは, 逆LBS(線形ブレンドスキン)を用いたニューラル暗黙関数の一般化問題を回避し, 絶対位置ではなく, 点と骨との相対位置による混合重量を定義する手法である「コンペティング・パート」を提案する。 本稿では,CAPEおよびClosSeqデータセット上での人体再構築とアニメーションによる手法の有効性を示す。

We propose united implicit functions (UNIF), a part-based method for clothed human reconstruction and animation with raw scans and skeletons as the input. Previous part-based methods for human reconstruction rely on ground-truth part labels from SMPL and thus are limited to minimal-clothed humans. In contrast, our method learns to separate parts from body motions instead of part supervision, thus can be extended to clothed humans and other articulated objects. Our Partition-from-Motion is achieved by a bone-centered initialization, a bone limit loss, and a section normal loss that ensure stable part division even when the training poses are limited. We also present a minimal perimeter loss for SDF to suppress extra surfaces and part overlapping. Another core of our method is an adjacent part seaming algorithm that produces non-rigid deformations to maintain the connection between parts which significantly relieves the part-based artifacts. Under this algorithm, we further propose "Competing Parts", a method that defines blending weights by the relative position of a point to bones instead of the absolute position, avoiding the generalization problem of neural implicit functions with inverse LBS (linear blend skinning). We demonstrate the effectiveness of our method by clothed human body reconstruction and animation on the CAPE and the ClothSeq datasets.
翻訳日:2022-07-21 13:42:27 公開日:2022-07-20
# EleGANt: メイクアップ転送のための必須かつローカル編集可能なGAN

EleGANt: Exquisite and Locally Editable GAN for Makeup Transfer ( http://arxiv.org/abs/2207.09840v1 )

ライセンス: Link先を確認
Chenyu Yang, Wanrong He, Yingqing Xu, Yang Gao(参考訳) 既存の手法では、メークアップトランスファーは異なる顔領域の色分布を転送し、アイシャドウやブラッシュなどの詳細を無視する。 さらに、事前定義された固定領域内でのみ制御可能な転送を実現する。 本稿では,より柔軟な制御に向けたメイクアップの詳細とステップの移動を強調する。 そこで本稿では, 化粧品の転写のためのGAN (EleGANt) を提案する。 顔の特徴をピラミッド型特徴マップにエンコードし、高周波情報を保存する。 参照からメイクアップの特徴を抽出し、ソースフェイスに適用し、シフト重ね合わせウィンドウ内で注意を向け、計算コストを低減した新しいソーアテンションモジュールを導入する。 さらに、EleGANtは、機能マップの対応する編集によって任意の領域でカスタマイズされたローカル編集を初めて達成した。 大規模な実験により、EleGANtは精巧な詳細でリアルなメイクフェイスを生成し、最先端のパフォーマンスを実現する。 コードはhttps://github.com/chenyu-yang-2000/elegantで入手できる。

Most existing methods view makeup transfer as transferring color distributions of different facial regions and ignore details such as eye shadows and blushes. Besides, they only achieve controllable transfer within predefined fixed regions. This paper emphasizes the transfer of makeup details and steps towards more flexible controls. To this end, we propose Exquisite and locally editable GAN for makeup transfer (EleGANt). It encodes facial attributes into pyramidal feature maps to preserves high-frequency information. It uses attention to extract makeup features from the reference and adapt them to the source face, and we introduce a novel Sow-Attention Module that applies attention within shifted overlapped windows to reduce the computational cost. Moreover, EleGANt is the first to achieve customized local editing within arbitrary areas by corresponding editing on the feature maps. Extensive experiments demonstrate that EleGANt generates realistic makeup faces with exquisite details and achieves state-of-the-art performance. The code is available at https://github.com/Chenyu-Yang-2000/EleGANt.
翻訳日:2022-07-21 13:42:03 公開日:2022-07-20
# 局所カウントモデルに対する離散制約回帰

Discrete-Constrained Regression for Local Counting Models ( http://arxiv.org/abs/2207.09865v1 )

ライセンス: Link先を確認
Haipeng Xiong and Angela Yao(参考訳) 局所数(かんそく、英: local count)は、自然界における連続的な値である。 しかし、最近の最先端手法は、分類タスクとしてのカウントの定式化が回帰よりも優れていることを示している。 慎重に制御された合成データに関する一連の実験を通して、この反直感的な結果は不正確な真実の局所的な数によって引き起こされることを示した。 バイアス付きドットアノテーションや、基底真理数を生成するために使われたガウス核などの要因は、真の局所数からの逸脱をもたらす。 標準的な連続回帰はこれらの誤りに非常に敏感であり、分類と回帰の間のパフォーマンスギャップを説明する。 感度を緩和するため,回帰定式化を連続スケールから離散順序付けに緩和し,新しい離散拘束型回帰(dc)を提案する。 群衆数に当てはまると、dc-regressionは3つの公開ベンチマークで分類と標準回帰の両方よりも正確である。 年齢推定タスクにも同様の利点があり、dc-regressionの全体的な有効性を検証する。

Local counts, or the number of objects in a local area, is a continuous value by nature. Yet recent state-of-the-art methods show that formulating counting as a classification task performs better than regression. Through a series of experiments on carefully controlled synthetic data, we show that this counter-intuitive result is caused by imprecise ground truth local counts. Factors such as biased dot annotations and incorrectly matched Gaussian kernels used to generate ground truth counts introduce deviations from the true local counts. Standard continuous regression is highly sensitive to these errors, explaining the performance gap between classification and regression. To mitigate the sensitivity, we loosen the regression formulation from a continuous scale to a discrete ordering and propose a novel discrete-constrained (DC) regression. Applied to crowd counting, DC-regression is more accurate than both classification and standard regression on three public benchmarks. A similar advantage also holds for the age estimation task, verifying the overall effectiveness of DC-regression.
翻訳日:2022-07-21 13:41:45 公開日:2022-07-20
# BigColor:自然画像に先行した生成色を用いた色付け

BigColor: Colorization using a Generative Color Prior for Natural Images ( http://arxiv.org/abs/2207.09685v1 )

ライセンス: Link先を確認
Geonung Kim, Kyoungkook Kang, Seongtae Kim, Hwayoon Lee, Sehoon Kim, Jonghyun Kim, Seung-Hwan Baek, Sunghyun Cho(参考訳) 現実的で鮮やかな色付けのために、生成的前駆体が最近利用された。 しかし、そのような生成的先行は、その表現空間が限られているため、その複雑な画像に対してしばしば失敗する。 本稿では,複雑な構造を持つ多彩な画像に対して,鮮やかなカラー化を実現する,新しいカラー化手法であるBigColorを提案する。 従来の生成前処理は画像構造と色の両方を合成するために訓練されているが、画像の空間構造から色合成に焦点を当てる前に生成色を学ぶ。 このようにして、生成前の画像構造を合成する負担を軽減し、その表現空間を多様な画像をカバーするように拡張する。 そこで本研究では,空間的に平坦化したbiggan 潜在コードの代わりに空間的特徴マップを用いた biggan インスパイアエンコーダ生成ネットワークを提案する。 提案手法は,単一前方通過における多様な入力に対するロバストなカラー化を可能にし,任意の入力解像度をサポートし,マルチモーダルカラー化結果を提供する。 我々はBigColorが特に複雑な構造を持つ画像において既存の手法よりも優れていることを示す。

For realistic and vivid colorization, generative priors have recently been exploited. However, such generative priors often fail for in-the-wild complex images due to their limited representation space. In this paper, we propose BigColor, a novel colorization approach that provides vivid colorization for diverse in-the-wild images with complex structures. While previous generative priors are trained to synthesize both image structures and colors, we learn a generative color prior to focus on color synthesis given the spatial structure of an image. In this way, we reduce the burden of synthesizing image structures from the generative prior and expand its representation space to cover diverse images. To this end, we propose a BigGAN-inspired encoder-generator network that uses a spatial feature map instead of a spatially-flattened BigGAN latent code, resulting in an enlarged representation space. Our method enables robust colorization for diverse inputs in a single forward pass, supports arbitrary input resolutions, and provides multi-modal colorization results. We demonstrate that BigColor significantly outperforms existing methods especially on in-the-wild images with complex structures.
翻訳日:2022-07-21 13:38:30 公開日:2022-07-20
# 物体合成型ニューラルインプシット表面

Object-Compositional Neural Implicit Surfaces ( http://arxiv.org/abs/2207.09686v1 )

ライセンス: Link先を確認
Qianyi Wu, Xian Liu, Yuedong Chen, Kejie Li, Chuanxia Zheng, Jianfei Cai, Jianmin Zheng(参考訳) ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。 しかし、ほとんどのアプローチは全体的なシーン表現に焦点を合わせながら、内部にある個々のオブジェクトを無視しているため、下流アプリケーションの可能性を制限する。 オブジェクト-構成表現を学習するために、2Dセマンティックマップをトレーニングのキューとして組み込んで、オブジェクト間の差異を理解する。 しかし、オブジェクトの幾何とインスタンスの意味情報の間の強い関係を無視し、個々のインスタンスの不正確なモデリングに繋がる。 本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。 従来のボリュームレンダリングパイプラインの曖昧さを観察し、個々のオブジェクトの符号付き距離関数(sdf)を組み合わせて、明示的な表面制約を行うことでシーンをモデル化する。 異なるインスタンスを区別する鍵は、個々のオブジェクトのSDFとセマンティックラベルの強い関連を再考することである。 特に,意味情報をオブジェクトSDFの関数に変換し,シーンやオブジェクトの統一的かつコンパクトな表現を開発する。 実験結果から,ObjectSDFフレームワークが総合的なオブジェクト構成シーンと個々のインスタンスの両方を表現できることが示唆された。 コードはhttps://qianyiwu.github.io/objectsdf/にある。

The neural implicit representation has shown its effectiveness in novel view synthesis and high-quality 3D reconstruction from multi-view images. However, most approaches focus on holistic scene representation yet ignore individual objects inside it, thus limiting potential downstream applications. In order to learn object-compositional representation, a few works incorporate the 2D semantic map as a cue in training to grasp the difference between objects. But they neglect the strong connections between object geometry and instance semantic information, which leads to inaccurate modeling of individual instance. This paper proposes a novel framework, ObjectSDF, to build an object-compositional neural implicit representation with high fidelity in 3D reconstruction and object representation. Observing the ambiguity of conventional volume rendering pipelines, we model the scene by combining the Signed Distance Functions (SDF) of individual object to exert explicit surface constraint. The key in distinguishing different instances is to revisit the strong association between an individual object's SDF and semantic label. Particularly, we convert the semantic information to a function of object SDF and develop a unified and compact representation for scene and objects. Experimental results show the superiority of ObjectSDF framework in representing both the holistic object-compositional scene and the individual instances. Code can be found at https://qianyiwu.github.io/objectsdf/
翻訳日:2022-07-21 13:38:10 公開日:2022-07-20
# 不確実性による水中画像強調

Uncertainty Inspired Underwater Image Enhancement ( http://arxiv.org/abs/2207.09689v1 )

ライセンス: Link先を確認
Zhenqi Fu, Wu Wang, Yue Huang, Xinghao Ding, Kai-Kuang Ma(参考訳) 深層学習に基づく水中画像強調(UIE)で直面する主な課題は、真実の高品質な画像が利用できないことである。 既存の手法のほとんどは、まず近似参照マップを生成し、その後確実に拡張ネットワークを訓練する。 この種の方法は参照マップの曖昧さを処理できない。 本稿では,分布推定とコンセンサスプロセスにuieを分解する。 劣化した水中画像の強調分布を学習するための新しい確率的ネットワークを提案する。 具体的には,条件付き変分オートエンコーダと適応型インスタンス正規化を組み合わせて拡張分布を構築する。 その後、分布からのサンプルの集合に基づいて決定論的結果を予測するためのコンセンサスプロセスを採用する。 エンハンスメント分布を学習することにより,参照マップのラベル付けで導入されたバイアスにある程度対処することができる。 さらに、コンセンサスプロセスは、堅牢で安定した結果を得るのに役立つ。 提案手法を実世界の水中画像強調データセットを用いて検討した。 実験の結果,提案手法は拡張予測をサンプリングできることが判明した。 一方、コンセンサス推定は最先端のUIE手法と比較して競争性能が向上する。 コードはhttps://github.com/zhenqifu/puie-net。

A main challenge faced in the deep learning-based Underwater Image Enhancement (UIE) is that the ground truth high-quality image is unavailable. Most of the existing methods first generate approximate reference maps and then train an enhancement network with certainty. This kind of method fails to handle the ambiguity of the reference map. In this paper, we resolve UIE into distribution estimation and consensus process. We present a novel probabilistic network to learn the enhancement distribution of degraded underwater images. Specifically, we combine conditional variational autoencoder with adaptive instance normalization to construct the enhancement distribution. After that, we adopt a consensus process to predict a deterministic result based on a set of samples from the distribution. By learning the enhancement distribution, our method can cope with the bias introduced in the reference map labeling to some extent. Additionally, the consensus process is useful to capture a robust and stable result. We examined the proposed method on two widely used real-world underwater image enhancement datasets. Experimental results demonstrate that our approach enables sampling possible enhancement predictions. Meanwhile, the consensus estimate yields competitive performance compared with state-of-the-art UIE methods. Code available at https://github.com/zhenqifu/PUIE-Net.
翻訳日:2022-07-21 13:37:45 公開日:2022-07-20
# 不正確なバウンディングボックスを用いたロバスト物体検出

Robust Object Detection With Inaccurate Bounding Boxes ( http://arxiv.org/abs/2207.09697v1 )

ライセンス: Link先を確認
Chengxin Liu, Kewei Wang, Hao Lu, Zhiguo Cao, and Ziming Zhang(参考訳) 正確な物体検出器を学習するには、しばしば正確なオブジェクトバウンディングボックスを備えた大規模トレーニングデータが必要である。 しかし、そのようなデータのラベル付けは高価で時間を要する。 クラウドソーシングラベリングプロセスとオブジェクトのあいまいさはノイズの多いバウンディングボックスアノテーションを引き起こす可能性があるため、オブジェクト検出器は生成されたトレーニングデータに悩まされる。 本研究では,不正確な境界ボックスを用いた頑健な物体検出器の学習という課題に対処することを目的とする。 分類精度は低いが, 局所化精度が不正確な境界ボックスに大きく影響しているという事実に着想を得て, 局所化結果の修正のためのガイダンス信号として分類を利用する方法を提案する。 具体的には、オブジェクトをインスタンスの袋として扱うことで、オブジェクト認識インスタンス選択とオブジェクト認識インスタンス拡張を特徴とするオブジェクト認識多重インスタンス学習アプローチ(OA-MIL)を導入する。 前者は、不正確なボックスアノテーションを直接使用するのではなく、トレーニングの正確なインスタンスを選択することを目的としている。 後者は、選択のための高品質なインスタンスの生成に焦点を当てている。 合成雑音性データセット(PASCAL VOC, MS-COCO)と実雑音性コムギ頭部データセットの大規模な実験により,OA-MILの有効性が示された。 コードはhttps://github.com/cxliu0/OA-MILで入手できる。

Learning accurate object detectors often requires large-scale training data with precise object bounding boxes. However, labeling such data is expensive and time-consuming. As the crowd-sourcing labeling process and the ambiguities of the objects may raise noisy bounding box annotations, the object detectors will suffer from the degenerated training data. In this work, we aim to address the challenge of learning robust object detectors with inaccurate bounding boxes. Inspired by the fact that localization precision suffers significantly from inaccurate bounding boxes while classification accuracy is less affected, we propose leveraging classification as a guidance signal for refining localization results. Specifically, by treating an object as a bag of instances, we introduce an Object-Aware Multiple Instance Learning approach (OA-MIL), featured with object-aware instance selection and object-aware instance extension. The former aims to select accurate instances for training, instead of directly using inaccurate box annotations. The latter focuses on generating high-quality instances for selection. Extensive experiments on synthetic noisy datasets (i.e., noisy PASCAL VOC and MS-COCO) and a real noisy wheat head dataset demonstrate the effectiveness of our OA-MIL. Code is available at https://github.com/cxliu0/OA-MIL.
翻訳日:2022-07-21 13:37:31 公開日:2022-07-20
# 残留行動予測による視覚模倣学習におけるコピーキャット問題の解法

Resolving Copycat Problems in Visual Imitation Learning via Residual Action Prediction ( http://arxiv.org/abs/2207.09705v1 )

ライセンス: Link先を確認
Chia-Chi Chuang, Donglin Yang, Chuan Wen, Yang Gao(参考訳) 模倣学習は、知的エージェントが専門家のデモンストレーションから複雑なスキルを習得することを可能にする、広く使われているポリシー学習手法である。 模倣学習アルゴリズムへの入力は通常、最新の観測では十分な情報が得られないため、現在の観測と歴史的観測の両方から成り立っている。 これは特に、単一の画像がシーンの1つのビューしか含んでおらず、動き情報やオブジェクトのオクルージョンの欠如に苦しむ画像観察の場合である。 理論的には、模倣学習エージェントに複数の観察を提供することで、パフォーマンスが向上する。 しかし、驚くべきことに、観察履歴からの模倣は、最新の観察の模倣よりも悪くなることがある。 本稿では,ニューラルネットワークの視点における情報の流れから,この現象を説明する。 また,本論文では,この課題に支障を来さない新しい模倣学習ニューラルネットワークアーキテクチャを提案する。 さらに,本手法は高次元画像観測にスケールする。 最後に,このアプローチをcarlaとmujocoという2つのシミュレータ上でベンチマークし,コピーキャット問題を軽減し,既存のソリューションを上回った。

Imitation learning is a widely used policy learning method that enables intelligent agents to acquire complex skills from expert demonstrations. The input to the imitation learning algorithm is usually composed of both the current observation and historical observations since the most recent observation might not contain enough information. This is especially the case with image observations, where a single image only includes one view of the scene, and it suffers from a lack of motion information and object occlusions. In theory, providing multiple observations to the imitation learning agent will lead to better performance. However, surprisingly people find that sometimes imitation from observation histories performs worse than imitation from the most recent observation. In this paper, we explain this phenomenon from the information flow within the neural network perspective. We also propose a novel imitation learning neural network architecture that does not suffer from this issue by design. Furthermore, our method scales to high-dimensional image observations. Finally, we benchmark our approach on two widely used simulators, CARLA and MuJoCo, and it successfully alleviates the copycat problem and surpasses the existing solutions.
翻訳日:2022-07-21 13:37:08 公開日:2022-07-20
# 第4回ABAWチャレンジにおける感情記述子推定のためのマルチタスク学習

Multi-Task Learning for Emotion Descriptors Estimation at the fourth ABAW Challenge ( http://arxiv.org/abs/2207.09716v1 )

ライセンス: Link先を確認
Yanan Chang, Yi Wu, Xiangyu Miao, Jiahe Wang, Shangfei Wang(参考訳) 顔のヴァレンス/覚醒、表情および行動単位は、顔の感情分析における関連するタスクである。 しかし,これらのタスクは,各種の収集条件により,荒野での限られたパフォーマンスしか得られない。 野生動物(ABAW)における情動行動分析に関する第4回コンペティションでは, ヴァレンス/覚醒, 表現, 行動単位ラベルが得られた。 本稿では,3つの関連タスクの性能向上を目的としたマルチタスク学習フレームワークを提案する。 特徴共有とラベル融合はそれらの関係を利用するために使われる。 提供されるトレーニングと検証データについて実験を行う。

Facial valence/arousal, expression and action unit are related tasks in facial affective analysis. However, the tasks only have limited performance in the wild due to the various collected conditions. The 4th competition on affective behavior analysis in the wild (ABAW) provided images with valence/arousal, expression and action unit labels. In this paper, we introduce multi-task learning framework to enhance the performance of three related tasks in the wild. Feature sharing and label fusion are used to utilize their relations. We conduct experiments on the provided training and validating data.
翻訳日:2022-07-21 13:36:50 公開日:2022-07-20
# 教師なしクロスドメイン画像検索のための特徴表現学習

Feature Representation Learning for Unsupervised Cross-domain Image Retrieval ( http://arxiv.org/abs/2207.09721v1 )

ライセンス: Link先を確認
Conghui Hu and Gim Hee Lee(参考訳) 現在のクロスドメイン画像検索手法は優れた性能を実現することができる。 しかし、データ収集とラベリングのコストは、実際のアプリケーションにおける実用的なデプロイに対する難解な障壁を伴います。 本稿では,クラスラベルとペアリングアノテーションがもはやトレーニングの前提条件ではない,教師なしのクロスドメイン画像検索タスクについて検討する。 ドメイン内特徴表現学習とドメイン間アライメントの両方を監視できないため、これは非常に難しいタスクです。 両方の課題を 紹介することで解決します 1)クラス意味認識特徴抽出を支援する新しいクラスタ型コントラスト学習機構 2)外部の監督なしに、領域の不一致を効果的に計測し、最小化する新たな距離損失。 office-homeとdomainnetのデータセットでの実験では、最先端のアプローチよりも優れた画像検索能力が一貫して示されています。 ソースコードはhttps://github.com/conghuihu/UCDIR.comで確認できます。

Current supervised cross-domain image retrieval methods can achieve excellent performance. However, the cost of data collection and labeling imposes an intractable barrier to practical deployment in real applications. In this paper, we investigate the unsupervised cross-domain image retrieval task, where class labels and pairing annotations are no longer a prerequisite for training. This is an extremely challenging task because there is no supervision for both in-domain feature representation learning and cross-domain alignment. We address both challenges by introducing: 1) a new cluster-wise contrastive learning mechanism to help extract class semantic-aware features, and 2) a novel distance-of-distance loss to effectively measure and minimize the domain discrepancy without any external supervision. Experiments on the Office-Home and DomainNet datasets consistently show the superior image retrieval accuracies of our framework over state-of-the-art approaches. Our source code can be found at https://github.com/conghuihu/UCDIR.
翻訳日:2022-07-21 13:36:42 公開日:2022-07-20
# OTPose: 疎ラベルビデオにおけるポス推定のためのOcclusion-Aware Transformer

OTPose: Occlusion-Aware Transformer for Pose Estimation in Sparsely-Labeled Videos ( http://arxiv.org/abs/2207.09725v1 )

ライセンス: Link先を確認
Kyung-Min Jin, Gun-Hee Lee and Seong-Whan Lee(参考訳) ビデオにおけるマルチヒューマンポーズ推定のための多くのアプローチは、深い結果を示しているが、過度な人的労働を伴う密接な注釈付きデータが必要である。 さらに、必然的に推定性能の低下につながる閉塞や動きのぼかしが存在する。 これらの問題に対処するため, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。 まず,本フレームワークは,関節運動の軌跡を示す疎アノテートされたフレームの異なる組み合わせを構成する。 咬合対応ヒートマップを半教師付きタスクとしてエンコードできる咬合注意マスクを提案する。 第2に, 提案する時間エンコーダは, 時間ステップ毎に時間的関係とキーポイント的注意を効果的に集約し, 目標フレームの最終的なポーズ推定精度を高精度に向上させるトランスフォーマアーキテクチャを用いる。 posetrack 2017 と posetrack 2018 のデータセットにおける最先端のポーズ推定結果を達成し,sparsely annotated video data における咬合と動きのぼやきに対するアプローチの頑健性を示す。

Although many approaches for multi-human pose estimation in videos have shown profound results, they require densely annotated data which entails excessive man labor. Furthermore, there exists occlusion and motion blur that inevitably lead to poor estimation performance. To address these problems, we propose a method that leverages an attention mask for occluded joints and encodes temporal dependency between frames using transformers. First, our framework composes different combinations of sparsely annotated frames that denote the track of the overall joint movement. We propose an occlusion attention mask from these combinations that enable encoding occlusion-aware heatmaps as a semi-supervised task. Second, the proposed temporal encoder employs transformer architecture to effectively aggregate the temporal relationship and keypoint-wise attention from each time step and accurately refines the target frame's final pose estimation. We achieve state-of-the-art pose estimation results for PoseTrack2017 and PoseTrack2018 datasets and demonstrate the robustness of our approach to occlusion and motion blur in sparsely annotated video data.
翻訳日:2022-07-21 13:36:30 公開日:2022-07-20
# CrossHuman: 人間の再構築のための多フレーム画像からクロスガイドを学ぶ

CrossHuman: Learning Cross-Guidance from Multi-Frame Images for Human Reconstruction ( http://arxiv.org/abs/2207.09735v1 )

ライセンス: Link先を確認
Liliang Chen, Jiaqi Li, Han Huang, Yandong Guo(参考訳) パラメトリック人間モデルと多フレームRGB画像からクロスガイダンスを学習し,高品質な3次元再構成を実現するクロスヒューマンを提案する。 不可視領域においても幾何学的詳細とテクスチャを復元するため,トラッキングベース法とトラッキングフリー法を組み合わせた復元パイプラインを設計した。 単眼rgb系列が与えられると、パラメトリック人体モデル全体を追跡し、対象フレームに対応する点(ボクセル)をパラメトリック体の動きによって基準フレームに巻き込む。 パラメトリックボディの幾何学的先行とRGBシーケンスから空間的に整列した特徴により、頑健な暗黙の表面が融合する。 さらに、多フレームトランス(MFT)と自己教師型ワープ改質モジュールをフレームワークに統合してパラメトリックボディの要求を緩和し、非常に緩い布に対処する。 先行研究と比較して,視・視両領域の高忠実度な幾何学的詳細とテクスチャを可能とし,推定された不正確なパラメトリックな人体モデルにおいてもヒトの再構築精度を向上させる。 実験により,本手法がSOTA(State-of-the-art)性能を実現することを示す。

We propose CrossHuman, a novel method that learns cross-guidance from parametric human model and multi-frame RGB images to achieve high-quality 3D human reconstruction. To recover geometry details and texture even in invisible regions, we design a reconstruction pipeline combined with tracking-based methods and tracking-free methods. Given a monocular RGB sequence, we track the parametric human model in the whole sequence, the points (voxels) corresponding to the target frame are warped to reference frames by the parametric body motion. Guided by the geometry priors of the parametric body and spatially aligned features from RGB sequence, the robust implicit surface is fused. Moreover, a multi-frame transformer (MFT) and a self-supervised warp refinement module are integrated to the framework to relax the requirements of parametric body and help to deal with very loose cloth. Compared with previous works, our CrossHuman enables high-fidelity geometry details and texture in both visible and invisible regions and improves the accuracy of the human reconstruction even under estimated inaccurate parametric human models. The experiments demonstrate that our method achieves state-of-the-art (SOTA) performance.
翻訳日:2022-07-21 13:36:08 公開日:2022-07-20
# クロスドメイン3次元行動認識のための協調的ドメイン共有とターゲット特化特徴クラスタリング

Collaborating Domain-shared and Target-specific Feature Clustering for Cross-domain 3D Action Recognition ( http://arxiv.org/abs/2207.09767v1 )

ライセンス: Link先を確認
Qinying Liu, Zilei Wang(参考訳) 本研究では,これまでほとんど研究されていないオープンセット設定におけるクロスドメイン3次元動作認識の問題について考察する。 具体的には、異なるスタイルやカテゴリのスケルトンシーケンスを含むソースドメインとターゲットドメインがあり、このラベル付きソースデータとラベルなしのターゲットデータを利用してターゲットデータをクラスタ化することを目的としています。 このような課題に対して、ドメイン共有機能とターゲット特化機能とを協調的にクラスタリングする、CoDTと呼ばれる新しいアプローチを提案する。 codtは2つの平行枝からなる。 ひとつはソースドメインで教師付き学習でドメイン共有機能を学ぶこと、もうひとつはターゲットドメインでコントラスト学習を使用してターゲット固有の機能を学ぶことを目的としている。 特徴をクラスタリングするために,ロバストな擬似ラベル生成と特徴クラスタリングの同時促進を可能にするオンラインクラスタリングアルゴリズムを提案する。 さらに、ドメイン共有特徴とターゲット固有の特徴の相補性を活用するために、2つのブランチ間の対関係一貫性を強制する新しい協調的クラスタリング戦略を提案する。 複数のドメイン間3D行動認識データセットについて広範な実験を行い,本手法の有効性を実証した。

In this work, we consider the problem of cross-domain 3D action recognition in the open-set setting, which has been rarely explored before. Specifically, there is a source domain and a target domain that contain the skeleton sequences with different styles and categories, and our purpose is to cluster the target data by utilizing the labeled source data and unlabeled target data. For such a challenging task, this paper presents a novel approach dubbed CoDT to collaboratively cluster the domain-shared features and target-specific features. CoDT consists of two parallel branches. One branch aims to learn domain-shared features with supervised learning in the source domain, while the other is to learn target-specific features using contrastive learning in the target domain. To cluster the features, we propose an online clustering algorithm that enables simultaneous promotion of robust pseudo label generation and feature clustering. Furthermore, to leverage the complementarity of domain-shared features and target-specific features, we propose a novel collaborative clustering strategy to enforce pair-wise relationship consistency between the two branches. We conduct extensive experiments on multiple cross-domain 3D action recognition datasets, and the results demonstrate the effectiveness of our method.
翻訳日:2022-07-21 13:35:45 公開日:2022-07-20
# 多クラス医用画像分割のためのトポロジカルインタラクションの学習

Learning Topological Interactions for Multi-Class Medical Image Segmentation ( http://arxiv.org/abs/2207.09654v1 )

ライセンス: Link先を確認
Saumya Gupta, Xiaoling Hu, James Kaan, Michael Jin, Mutshipay Mpoy, Katherine Chung, Gagandeep Singh, Mary Saltz, Tahsin Kurc, Joel Saltz, Apostolos Tassiopoulos, Prateek Prasanna, Chao Chen(参考訳) 深層学習法はマルチクラスの医用画像セグメンテーションにおいて優れた性能を発揮している。 しかし、それらは異なるクラス(例えば、封じ込めと排除)間の位相的相互作用をエンコードする能力に制限がある。 これらの制約は自然に生体画像に現れ、セグメンテーションの品質向上に不可欠である。 本稿では,トポロジカル相互作用を深層ニューラルネットワークにエンコードする新しいトポロジカル相互作用モジュールを提案する。 実装は完全に畳み込みベースであり、非常に効率的である。 これにより、制約をエンドツーエンドのトレーニングに取り入れ、ニューラルネットワークの機能表現を強化することができます。 提案手法の有効性は相互作用の種類によって検証される。 また, プロプライエタリおよびパブリックな課題データセット, 2次元および3次元設定, およびCTやUltrasoundなどの様々なモダリティにおいて, この手法の一般化可能性を示す。 コードは、https://github.com/TopoXLab/TopoInteractionで入手できる。

Deep learning methods have achieved impressive performance for multi-class medical image segmentation. However, they are limited in their ability to encode topological interactions among different classes (e.g., containment and exclusion). These constraints naturally arise in biomedical images and can be crucial in improving segmentation quality. In this paper, we introduce a novel topological interaction module to encode the topological interactions into a deep neural network. The implementation is completely convolution-based and thus can be very efficient. This empowers us to incorporate the constraints into end-to-end training and enrich the feature representation of neural networks. The efficacy of the proposed method is validated on different types of interactions. We also demonstrate the generalizability of the method on both proprietary and public challenge datasets, in both 2D and 3D settings, as well as across different modalities such as CT and Ultrasound. Code is available at: https://github.com/TopoXLab/TopoInteraction
翻訳日:2022-07-21 13:31:38 公開日:2022-07-20
# オフセットとバウンディングボックスを用いた1段物体検出器の教師なし領域適応

Unsupervised Domain Adaptation for One-stage Object Detector using Offsets to Bounding Box ( http://arxiv.org/abs/2207.09656v1 )

ライセンス: Link先を確認
Jayeon Yoo, Inseop Chung, Nojun Kwak(参考訳) 既存のドメイン適応オブジェクト検出手法のほとんどは、新しいドメインにモデルを適用するために逆特徴アライメントを利用する。 敵対的特徴のアライメントの最近の進歩は、特徴の分布が対象のカテゴリによって異なるために生じる、アライメントや負の伝達の負の効果を減らすことに努めている。 しかし,アンカーフリーの一段階検出器の特徴を解析した結果,境界ボックスへのオフセットの回帰値やカテゴリによって特徴分布が変化するため,負の移動が生じる可能性があることがわかった。 この問題に対処して領域不変性を得るため,特徴分布のモジュラリティを考慮してオフセット値に条件付き特徴を整列する。 非常に単純で効果的な条件付け手法を用いて,様々な実験環境での最先端性能を実現するoada(offset-aware domain adaptive object detector)を提案する。 さらに, 特異値分解による解析により, 判別可能性と伝達性の両方が向上することがわかった。

Most existing domain adaptive object detection methods exploit adversarial feature alignment to adapt the model to a new domain. Recent advances in adversarial feature alignment strives to reduce the negative effect of alignment, or negative transfer, that occurs because the distribution of features varies depending on the category of objects. However, by analyzing the features of the anchor-free one-stage detector, in this paper, we find that negative transfer may occur because the feature distribution varies depending on the regression value for the offset to the bounding box as well as the category. To obtain domain invariance by addressing this issue, we align the feature conditioned on the offset value, considering the modality of the feature distribution. With a very simple and effective conditioning method, we propose OADA (Offset-Aware Domain Adaptive object detector) that achieves state-of-the-art performances in various experimental settings. In addition, by analyzing through singular value decomposition, we find that our model enhances both discriminability and transferability.
翻訳日:2022-07-21 13:31:22 公開日:2022-07-20
# 野生の焦点から深度を学ぶ

Learning Depth from Focus in the Wild ( http://arxiv.org/abs/2207.09658v1 )

ライセンス: Link先を確認
Changyeon Won and Hae-Gon Jeon(参考訳) より優れた写真撮影のために、スマートフォンを含む最近の商用カメラでは、より多くの光を集めるために大きな開口レンズを採用したり、バーストモードで複数の画像を短時間で撮影したりしている。 これらの興味深い機能は、フォーカス/デフォーカスの深さを調べることにつながります。 本研究では,単一焦点スタックからの畳み込みニューラルネットワークによる深度推定を提案する。 本手法は,3つの特徴を有する関連する最先端作品と異なる。 まず,画像アライメントにおいても深度マップをエンドツーエンドで推定することを可能にする。 第2に,微妙な焦点変化とテクスチャレス領域の曖昧さを軽減するためのシャープな領域検出モジュールを提案する。 第3に,特徴抽出における焦点情報のフローを容易にする効果的なダウンサンプリングモジュールを設計した。 また,提案するネットワークの一般化のために,視野の変化,焦点長,主点などの商業用カメラの特徴を現実的に再現するシミュレータを開発した。 これら3つの特徴を効果的に組み込むことで,我々のネットワークはDDFF 12-Sceneベンチマークにおいて,ほとんどの指標で上位に到達した。 また,本手法が各種オフザシェルフカメラから得られた様々な定量的評価と実世界の画像に対して,最先端の手法と比較して有効であることを示す。 ソースコードはhttps://github.com/wcy199705/dffinthewildで公開しています。

For better photography, most recent commercial cameras including smartphones have either adopted large-aperture lens to collect more light or used a burst mode to take multiple images within short times. These interesting features lead us to examine depth from focus/defocus. In this work, we present a convolutional neural network-based depth estimation from single focal stacks. Our method differs from relevant state-of-the-art works with three unique features. First, our method allows depth maps to be inferred in an end-to-end manner even with image alignment. Second, we propose a sharp region detection module to reduce blur ambiguities in subtle focus changes and weakly texture-less regions. Third, we design an effective downsampling module to ease flows of focal information in feature extractions. In addition, for the generalization of the proposed network, we develop a simulator to realistically reproduce the features of commercial cameras, such as changes in field of view, focal length and principal points. By effectively incorporating these three unique features, our network achieves the top rank in the DDFF 12-Scene benchmark on most metrics. We also demonstrate the effectiveness of the proposed method on various quantitative evaluations and real-world images taken from various off-the-shelf cameras compared with state-of-the-art methods. Our source code is publicly available at https://github.com/wcy199705/DfFintheWild.
翻訳日:2022-07-21 13:31:04 公開日:2022-07-20
# 第4回ABAWチャレンジにおける合成画像からの手動支援表現認識手法

Hand-Assisted Expression Recognition Method from Synthetic Images at the Fourth ABAW Challenge ( http://arxiv.org/abs/2207.09661v1 )

ライセンス: Link先を確認
Xiangyu Miao and Jiahe Wang and Yanan Chang and Yi Wu and Shangfei Wang(参考訳) 合成画像からの学習は,実画像のラベル付けが困難であるため,表情認識タスクにおいて重要な役割を果たす。 第4回Affective Behavior Analysis in-the-Wild Competitionは、Aff-Wild2データセットから生成された合成画像を提供する。 本稿では,合成データと実データとのギャップを低減するために,手動による表現認識手法を提案する。 本手法は表現認識モジュールとハンド予測モジュールの2つの部分からなる。 表情認識モジュールは表現情報を抽出し、ハンド予測モジュールは画像が手を含むかどうかを予測する。 決定モードは2つのモジュールの結果を組み合わせるために使用され、後処理は結果を改善するために使用される。 F1スコアは,本手法の有効性を検証するために用いられる。

Learning from synthetic images plays an important role in facial expression recognition task due to the difficulties of labeling the real images, and it is challenging because of the gap between the synthetic images and real images. The fourth Affective Behavior Analysis in-the-wild Competition raises the challenge and provides the synthetic images generated from Aff-Wild2 dataset. In this paper, we propose a hand-assisted expression recognition method to reduce the gap between the synthetic data and real data. Our method consists of two parts: expression recognition module and hand prediction module. Expression recognition module extracts expression information and hand prediction module predicts whether the image contains hands. Decision mode is used to combine the results of two modules, and post-pruning is used to improve the result. F1 score is used to verify the effectiveness of our method.
翻訳日:2022-07-21 13:30:41 公開日:2022-07-20
# htnet:階層型トランスフォーマーによるアンカーフリー時空間動作定位

HTNet: Anchor-free Temporal Action Localization with Hierarchical Transformers ( http://arxiv.org/abs/2207.09662v1 )

ライセンス: Link先を確認
Tae-Kyung Kang, Gun-Hee Lee, and Seong-Whan Lee(参考訳) 時間的アクションローカライゼーション(TAL)は、ビデオ内のアクションの集合を識別するタスクであり、開始フレームと終了フレームをローカライズし、各アクションインスタンスを分類する。 既存の手法では、事前定義されたアンカーウィンドウやヒューリスティックなボトムアップ境界マッチング戦略を用いてこの問題に対処している。 加えて、主な課題は、グローバルな文脈情報がないため、長距離アクションをキャプチャできないことである。 本稿では,トランスフォーマーアーキテクチャに基づくビデオから<start time, end time, class>三重項のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。 粗い境界の予測の後、我々は背景特徴サンプリング(BFS)モジュールと階層変換器を用いてそれを洗練し、グローバルな文脈情報を集約し、ビデオ内の固有の意味関係を効果的に活用する。 本手法は,2つのTALベンチマークデータセット(THUMOS14とActivityNet 1.3)上で,正確なアクションインスタンスのローカライズと最先端のパフォーマンスを実現する。

Temporal action localization (TAL) is a task of identifying a set of actions in a video, which involves localizing the start and end frames and classifying each action instance. Existing methods have addressed this task by using predefined anchor windows or heuristic bottom-up boundary-matching strategies, which are major bottlenecks in inference time. Additionally, the main challenge is the inability to capture long-range actions due to a lack of global contextual information. In this paper, we present a novel anchor-free framework, referred to as HTNet, which predicts a set of <start time, end time, class> triplets from a video based on a Transformer architecture. After the prediction of coarse boundaries, we refine it through a background feature sampling (BFS) module and hierarchical Transformers, which enables our model to aggregate global contextual information and effectively exploit the inherent semantic relationships in a video. We demonstrate how our method localizes accurate action instances and achieves state-of-the-art performance on two TAL benchmark datasets: THUMOS14 and ActivityNet 1.3.
翻訳日:2022-07-21 13:30:29 公開日:2022-07-20
# 流動性ニューラルフィールド

Streamable Neural Fields ( http://arxiv.org/abs/2207.09663v1 )

ライセンス: Link先を確認
Junwoo Cho, Seungtae Nam, Daniel Rho, Jong Hwan Ko, Eunbyung Park(参考訳) ニューラルフィールドは新しいデータ表現パラダイムとして登場し、様々なシグナル表現で顕著な成功を示している。 ネットワークパラメータに信号を保存するため、モデルパラメータ全体の送受信によるデータ転送は、この新興技術が多くの実用的なシナリオで使用されることを妨げている。 様々な幅の実行可能なサブネットワークからなる単一モデルである,ストリーム可能なニューラルフィールドを提案する。 提案したアーキテクチャおよびトレーニング技術により、単一のネットワークが時間とともにストリーミング可能となり、異なる品質と信号の一部を再構築することができる。 例えば、小さなサブネットワークは滑らかで低周波な信号を生成するが、大きなサブネットワークは細部を表現できる。 実験により,2次元画像,ビデオ,3次元符号付き距離関数など,様々な領域における本手法の有効性が示された。 最後に,パラメータ共有を利用してトレーニングの安定性を向上させる手法を提案する。

Neural fields have emerged as a new data representation paradigm and have shown remarkable success in various signal representations. Since they preserve signals in their network parameters, the data transfer by sending and receiving the entire model parameters prevents this emerging technology from being used in many practical scenarios. We propose streamable neural fields, a single model that consists of executable sub-networks of various widths. The proposed architectural and training techniques enable a single network to be streamable over time and reconstruct different qualities and parts of signals. For example, a smaller sub-network produces smooth and low-frequency signals, while a larger sub-network can represent fine details. Experimental results have shown the effectiveness of our method in various domains, such as 2D images, videos, and 3D signed distance functions. Finally, we demonstrate that our proposed method improves training stability, by exploiting parameter sharing.
翻訳日:2022-07-21 13:30:09 公開日:2022-07-20
# Pseudo-label Guided Cross-Video Pixel Contrast for Robotic surgery Scene Segmentation with Limited Annotations (特集 画像・画像)

Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical Scene Segmentation with Limited Annotations ( http://arxiv.org/abs/2207.09664v1 )

ライセンス: Link先を確認
Yang Yu, Zixu Zhao, Yueming Jin, Guangyong Chen, Qi Dou and Pheng-Ann Heng(参考訳) 手術シーンのセグメンテーションは,ロボット手術における認知支援の促進に不可欠である。 しかし、ピクセル単位で手術用ビデオをフレームバイフレームでアノテートするのは費用がかかり、時間がかかる。 本研究では,ラベル付けの負担を大幅に軽減するため,ロボット手術映像からの半教師付きシーンセグメンテーションについて検討する。 同等なサンプリング条件下での臨床的に適切な注記状況について考察する。 そこで我々は,シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法PGV-CLを提案する。 ラベルのないデータを信頼とグローバルなモデル正規化に効果的に活用し、より差別的な特徴表現を生成する。 具体的には,信頼表現学習のために,擬似ラベルを組み込んでペア選択を指導し,画素コントラストに対してより信頼性の高い表現ペアを得ることを提案する。 さらに、表現学習空間を従来の画像レベルからクロスビデオに拡張し、グローバルセマンティクスを捉え、学習プロセスに利益をもたらすことができる。 本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。 実験結果から,本手法の有効性を実証し,評価基準の異なる最先端の半教師あり手法を一貫して上回り,さらに10.1%のラベル付きEndoVis18の完全教師ありトレーニングを超越した。

Surgical scene segmentation is fundamentally crucial for prompting cognitive assistance in robotic surgery. However, pixel-wise annotating surgical video in a frame-by-frame manner is expensive and time consuming. To greatly reduce the labeling burden, in this work, we study semi-supervised scene segmentation from robotic surgical video, which is practically essential yet rarely explored before. We consider a clinically suitable annotation situation under the equidistant sampling. We then propose PGV-CL, a novel pseudo-label guided cross-video contrast learning method to boost scene segmentation. It effectively leverages unlabeled data for a trusty and global model regularization that produces more discriminative feature representation. Concretely, for trusty representation learning, we propose to incorporate pseudo labels to instruct the pair selection, obtaining more reliable representation pairs for pixel contrast. Moreover, we expand the representation learning space from previous image-level to cross-video, which can capture the global semantics to benefit the learning process. We extensively evaluate our method on a public robotic surgery dataset EndoVis18 and a public cataract dataset CaDIS. Experimental results demonstrate the effectiveness of our method, consistently outperforming the state-of-the-art semi-supervised methods under different labeling ratios, and even surpassing fully supervised training on EndoVis18 with 10.1% labeling.
翻訳日:2022-07-21 13:29:56 公開日:2022-07-20
# ERA:早期行動予測のための専門家検索と会議

ERA: Expert Retrieval and Assembly for Early Action Prediction ( http://arxiv.org/abs/2207.09675v1 )

ライセンス: Link先を確認
Lin Geng Foo, Tianjiao Li, Hossein Rahmani, Qiuhong Ke, Jun Liu(参考訳) 初期アクション予測は、完全に実行される前にアクションのクラスラベルをうまく予測することを目的としている。 これは、異なる行動の開始段階が非常によく似ており、差別に対して微妙な違いしか持たないため、難しい課題である。 本稿では,入力サンプルと他の類似したサンプルを区別するために,識別的微妙な差異を用いた専門家集合の検索と組み立てを行う,新しいエキスパート検索・アセンブリ(era)モジュールを提案する。 初期の行動予測に微妙な違いを効果的に活用するよう、我々は専門家に非常に類似したサンプルを区別するよう促し、それらのサンプルの間に存在する微妙な違いを学習させました。 さらに、専門家の最適化のバランスを保ち、より良いパフォーマンスをもたらす効果的なエキスパート学習率最適化法を設計する。 我々は4つの公開アクションデータセットで era モジュールを評価し,最新性能を実現する。

Early action prediction aims to successfully predict the class label of an action before it is completely performed. This is a challenging task because the beginning stages of different actions can be very similar, with only minor subtle differences for discrimination. In this paper, we propose a novel Expert Retrieval and Assembly (ERA) module that retrieves and assembles a set of experts most specialized at using discriminative subtle differences, to distinguish an input sample from other highly similar samples. To encourage our model to effectively use subtle differences for early action prediction, we push experts to discriminate exclusively between samples that are highly similar, forcing these experts to learn to use subtle differences that exist between those samples. Additionally, we design an effective Expert Learning Rate Optimization method that balances the experts' optimization and leads to better performance. We evaluate our ERA module on four public action datasets and achieve state-of-the-art performance.
翻訳日:2022-07-21 13:29:30 公開日:2022-07-20
# 画像マッチング解析によるディープフェイク検出の説明

Explaining Deepfake Detection by Analysing Image Matching ( http://arxiv.org/abs/2207.09679v1 )

ライセンス: Link先を確認
Shichao Dong, Jin Wang, Jiajun Liang, Haoqiang Fan and Renhe Ji(参考訳) 本稿では,deepfake検出モデルがバイナリラベルに監督された画像のアーティファクト特徴をどのように学習するかを解釈することを目的としている。 この目的のために,画像マッチングの観点からの3つの仮説を提案する。 1. ディープフェイク検出モデルでは, ソース関連やターゲット関連ではなく, アーティファクト関連のような視覚的概念を考慮し, 視覚的概念に基づく実像・実像を示す。 2 バイナリラベルの監督に加えて、深度検出モデルは、トレーニングセット内のFST-Matching(一致したフェイク、ソース、ターゲット画像)を通して、人工物に関連する視覚概念を暗黙的に学習する。 3) 生のトレーニングセットにおけるFST-Matchingを通して学習した人工物の概念はビデオ圧縮に弱い。 実験では、これらの仮説は様々なDNNで検証されている。 さらに、この理解に基づき、圧縮ビデオにおける偽検出性能を高めるために、FSTマッチングディープフェイク検出モデルを提案する。 実験の結果,特に高圧縮ビデオ(c40ビデオなど)では,優れた性能が得られることがわかった。

This paper aims to interpret how deepfake detection models learn artifact features of images when just supervised by binary labels. To this end, three hypotheses from the perspective of image matching are proposed as follows. 1. Deepfake detection models indicate real/fake images based on visual concepts that are neither source-relevant nor target-relevant, that is, considering such visual concepts as artifact-relevant. 2. Besides the supervision of binary labels, deepfake detection models implicitly learn artifact-relevant visual concepts through the FST-Matching (i.e. the matching fake, source, target images) in the training set. 3. Implicitly learned artifact visual concepts through the FST-Matching in the raw training set are vulnerable to video compression. In experiments, the above hypotheses are verified among various DNNs. Furthermore, based on this understanding, we propose the FST-Matching Deepfake Detection Model to boost the performance of forgery detection on compressed videos. Experiment results show that our method achieves great performance, especially on highly-compressed (e.g. c40) videos.
翻訳日:2022-07-21 13:29:14 公開日:2022-07-20
# 深層学習における部分距離相関の可逆的利用について

On the Versatile Uses of Partial Distance Correlation in Deep Learning ( http://arxiv.org/abs/2207.09684v1 )

ライセンス: Link先を確認
Xingjian Zhen, Zihang Meng, Rudrasis Chakraborty, Vikas Singh(参考訳) ニューラルネットワークモデルの機能的振る舞いを比較することは、トレーニング中の1つのネットワークか2つ(あるいはそれ以上のネットワーク)かに関わらず、学習しているもの(とそうでないもの)を理解し、正規化や効率改善のための戦略を特定する上で不可欠なステップである。 視覚トランスフォーマーとcnnを比較するなどの最近の進歩にもかかわらず、特に異なるネットワーク間での関数の体系的な比較は依然として困難であり、層ごとに行われることが多い。 標準相関解析(CCA)のような手法は原則として適用できるが、これまでは広く用いられてきた。 本稿では,異なる次元の特徴空間間の相関を評価するために,距離相関(とその部分的変種)と呼ばれる統計から(広く知られていない)再検討する。 これは、あるディープモデルw.r.t.をコンディショニングすることから、不連続表現を学習すること、また、敵の攻撃に対して直接よりロバストな多様なモデルを最適化することまで、驚くべきアプリケーション群への扉を開く。 実験では,多彩な正規化器(あるいは制約)に多くの利点があることを示唆する。 コードはhttps://github.com/zhenxingjian/Partial_Distance_Correlationにある。

Comparing the functional behavior of neural network models, whether it is a single network over time or two (or more networks) during or post-training, is an essential step in understanding what they are learning (and what they are not), and for identifying strategies for regularization or efficiency improvements. Despite recent progress, e.g., comparing vision transformers to CNNs, systematic comparison of function, especially across different networks, remains difficult and is often carried out layer by layer. Approaches such as canonical correlation analysis (CCA) are applicable in principle, but have been sparingly used so far. In this paper, we revisit a (less widely known) from statistics, called distance correlation (and its partial variant), designed to evaluate correlation between feature spaces of different dimensions. We describe the steps necessary to carry out its deployment for large scale models -- this opens the door to a surprising array of applications ranging from conditioning one deep model w.r.t. another, learning disentangled representations as well as optimizing diverse models that would directly be more robust to adversarial attacks. Our experiments suggest a versatile regularizer (or constraint) with many advantages, which avoids some of the common difficulties one faces in such analyses. Code is at https://github.com/zhenxingjian/Partial_Distance_Correlation.
翻訳日:2022-07-21 13:28:57 公開日:2022-07-20
# AiATrack: トランスフォーマーの視覚的トラッキングに対する注意

AiATrack: Attention in Attention for Transformer Visual Tracking ( http://arxiv.org/abs/2207.09603v1 )

ライセンス: Link先を確認
Shenyuan Gao, Chunluan Zhou, Chao Ma, Xinggang Wang, Junsong Yuan(参考訳) トランスフォーマートラッカーは近年,注目機構が重要な役割を担う,目覚ましい進歩を遂げている。 しかし、注意機構における独立相関計算は、ノイズとあいまいな注意重みを生じさせ、さらなるパフォーマンス向上を阻害する可能性がある。 そこで本研究では,すべての相関ベクトル間のコンセンサスを求めることにより,適切な相関性を高め,誤検出を抑制するaiaモジュールを提案する。 aiaモジュールはセルフアテンションブロックとクロスアテンションブロックの両方に容易に適用でき、機能集約と視覚追跡のための情報伝達が容易になる。 さらに,時間的参照をフル活用するために,効率的な機能再利用とターゲット背景埋め込みを導入することで,AiATrackと呼ばれる合理化トランスフォーマー追跡フレームワークを提案する。 実験の結果,トラッカは6つのトラッキングベンチマークにおいて,リアルタイム速度で動作しながら最先端のパフォーマンスを達成できた。

Transformer trackers have achieved impressive advancements recently, where the attention mechanism plays an important role. However, the independent correlation computation in the attention mechanism could result in noisy and ambiguous attention weights, which inhibits further performance improvement. To address this issue, we propose an attention in attention (AiA) module, which enhances appropriate correlations and suppresses erroneous ones by seeking consensus among all correlation vectors. Our AiA module can be readily applied to both self-attention blocks and cross-attention blocks to facilitate feature aggregation and information propagation for visual tracking. Moreover, we propose a streamlined Transformer tracking framework, dubbed AiATrack, by introducing efficient feature reuse and target-background embeddings to make full use of temporal references. Experiments show that our tracker achieves state-of-the-art performance on six tracking benchmarks while running at a real-time speed.
翻訳日:2022-07-21 13:24:47 公開日:2022-07-20
# 協調的ドメイン適応オブジェクト検出のための爆発的ドメイン転送可能性

Exploiting Domain Transferability for Collaborative Inter-level Domain Adaptive Object Detection ( http://arxiv.org/abs/2207.09613v1 )

ライセンス: Link先を確認
Mirae Do, Seogkyu Jeon, Pilhyeon Lee, Kibeom Hong, Yu-seung Ma, Hyeran Byun(参考訳) オブジェクト検出のためのドメイン適応(DAOD)は、アノテーションなしで対象オブジェクトを検出できるため、最近注目を集めている。 この問題に対処するために、以前の研究は2段階検出器における部分レベル(画像レベル、インスタンスレベル、RPNレベルなど)から抽出した特徴の整合に、対角訓練を通じて焦点を当てていた。 しかしながら、オブジェクト検出パイプラインの個々のレベルは互いに密接に関連しており、このレベル間の関係はまだ検討されていない。 そこで本研究では,マルチスケール認識不確実性注意(mua),転送可能領域提案ネットワーク(trpn),動的インスタンスサンプリング(dis)の3つのコンポーネントを用いた新しいdaodフレームワークを提案する。 これらのモジュールでは、トレーニング中の負の転送効果を低減し、両ドメインの転送可能性と識別性を最大化することを目指している。 最後に,移動可能な情報を利用してオブジェクト検出のためのドメイン不変領域を暗黙的に学習し,ドメイン情報を協調的に活用することで,異なる検出レベル間の相補性を向上する。 アブレーション研究と実験を通じて,本手法の有効性を実証し,提案したモジュールが相乗的手法による性能改善に寄与することを示す。 さらに,本モデルでは,様々なベンチマークで最新の性能を実現する。

Domain adaptation for object detection (DAOD) has recently drawn much attention owing to its capability of detecting target objects without any annotations. To tackle the problem, previous works focus on aligning features extracted from partial levels (e.g., image-level, instance-level, RPN-level) in a two-stage detector via adversarial training. However, individual levels in the object detection pipeline are closely related to each other and this inter-level relation is unconsidered yet. To this end, we introduce a novel framework for DAOD with three proposed components: Multi-scale-aware Uncertainty Attention (MUA), Transferable Region Proposal Network (TRPN), and Dynamic Instance Sampling (DIS). With these modules, we seek to reduce the negative transfer effect during training while maximizing transferability as well as discriminability in both domains. Finally, our framework implicitly learns domain invariant regions for object detection via exploiting the transferable information and enhances the complementarity between different detection levels by collaboratively utilizing their domain information. Through ablation studies and experiments, we show that the proposed modules contribute to the performance improvement in a synergic way, demonstrating the effectiveness of our method. Moreover, our model achieves a new state-of-the-art performance on various benchmarks.
翻訳日:2022-07-21 13:24:32 公開日:2022-07-20
# 概念に基づく説明における見過ごされた要因:データセットの選択、コンセプトサリエンス、人間の能力

Overlooked factors in concept-based explanations: Dataset choice, concept salience, and human capability ( http://arxiv.org/abs/2207.09615v1 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sunnie S. Y. Kim, Ruth Fong and Olga Russakovsky(参考訳) 概念に基づく解釈可能性手法は、事前定義された概念セットを用いた深層ニューラルネットワークモデルの予測を説明することを目的としている。 データセット上でトレーニングされたモデルを評価し、そのデータセットにラベル付けされたビジュアル概念とモデル予測を関連付ける。 その人気にもかかわらず、文学によってよく理解され、表現されていない制限に苦しむ。 本研究では,概念に基づく説明において見過ごされている3つの要因を分析した。 まず、プローブデータセットの選択は、生成された説明に大きな影響を与える。 分析の結果、異なるプローブデータセットが全く異なる説明につながる可能性があり、その説明はプローブデータセットの外部では一般化できないことが示唆された。 第二に、プローブデータセットの概念は、説明の正しさを疑問視しながら、彼らが説明を主張するクラスよりも、より正確で学習しにくいことが多い。 視覚的に健全な概念のみが概念に基づく説明に使用されるべきだと我々は主張する。 最後に、既存の手法では何百、何千もの概念が使われていますが、人間の研究では、32以上の概念のより厳密な上限が示されています。 概念に基づく解釈可能性手法の今後の発展と分析について提案する。 分析とユーザインターフェースのコードは \url{https://github.com/princetonvisualai/overlookedfactors} で確認できます。

Concept-based interpretability methods aim to explain deep neural network model predictions using a predefined set of semantic concepts. These methods evaluate a trained model on a new, "probe" dataset and correlate model predictions with the visual concepts labeled in that dataset. Despite their popularity, they suffer from limitations that are not well-understood and articulated by the literature. In this work, we analyze three commonly overlooked factors in concept-based explanations. First, the choice of the probe dataset has a profound impact on the generated explanations. Our analysis reveals that different probe datasets may lead to very different explanations, and suggests that the explanations are not generalizable outside the probe dataset. Second, we find that concepts in the probe dataset are often less salient and harder to learn than the classes they claim to explain, calling into question the correctness of the explanations. We argue that only visually salient concepts should be used in concept-based explanations. Finally, while existing methods use hundreds or even thousands of concepts, our human studies reveal a much stricter upper bound of 32 concepts or less, beyond which the explanations are much less practically useful. We make suggestions for future development and analysis of concept-based interpretability methods. Code for our analysis and user interface can be found at \url{https://github.com/princetonvisualai/OverlookedFactors}
翻訳日:2022-07-21 13:24:09 公開日:2022-07-20
# 明示的な画像キャプション編集

Explicit Image Caption Editing ( http://arxiv.org/abs/2207.09625v1 )

ライセンス: Link先を確認
Zhen Wang, Long Chen, Wenbo Ma, Guangxing Han, Yulei Niu, Jian Shao, and Jun Xiao(参考訳) 画像と参照キャプションが与えられた場合、画像キャプション編集タスクは、誤修正を訂正し、洗練されたキャプションを生成する。 しかし、既存のキャプション編集作品はすべて暗黙のモデルであり、参照キャプションと明示的な関係なく、洗練されたキャプションを直接生成する。 本稿では,新しいタスクである Explicit Caption Editing (ECE) を紹介する。 ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。 暗黙の編集と比較すると、ECEにはいくつかの利点がある。 1) 説明可能な: 編集パス全体をトレースできる。 2) 編集の効率性: 単語を少しだけ変更するだけでよい。 3)人間に似た:人間が字幕編集を行い、原文構造を保とうとする方法に似ている。 この課題を解決するために,最初のECEモデルであるTIgerを提案する。 Tagger_del、Tagger_add、Inserterの3つのモジュールで構成されている。 具体的には、Tagger_delは各単語を保存すべきか否かを決定し、Tagger_addは新しい単語を追加する場所を決定し、Inserterは追加すべき特定の単語を予測する。 さらにECE研究を促進するために,COCO-EEとFlickr30K-EEという2つの既存のデータセットを再編成し,新たなECEベンチマークを提案する。 2つのベンチマークの大幅な改善は、TIgerの有効性を示している。

Given an image and a reference caption, the image caption editing task aims to correct the misalignment errors and generate a refined caption. However, all existing caption editing works are implicit models, ie, they directly produce the refined captions without explicit connections to the reference captions. In this paper, we introduce a new task: Explicit Caption Editing (ECE). ECE models explicitly generate a sequence of edit operations, and this edit operation sequence can translate the reference caption into a refined one. Compared to the implicit editing, ECE has multiple advantages: 1) Explainable: it can trace the whole editing path. 2) Editing Efficient: it only needs to modify a few words. 3) Human-like: it resembles the way that humans perform caption editing, and tries to keep original sentence structures. To solve this new task, we propose the first ECE model: TIger. TIger is a non-autoregressive transformer-based model, consisting of three modules: Tagger_del, Tagger_add, and Inserter. Specifically, Tagger_del decides whether each word should be preserved or not, Tagger_add decides where to add new words, and Inserter predicts the specific word for adding. To further facilitate ECE research, we propose two new ECE benchmarks by re-organizing two existing datasets, dubbed COCO-EE and Flickr30K-EE, respectively. Extensive ablations on both two benchmarks have demonstrated the effectiveness of TIger.
翻訳日:2022-07-21 13:23:46 公開日:2022-07-20
# ポラリメトリック3次元再構成のための位相角モデル

Perspective Phase Angle Model for Polarimetric 3D Reconstruction ( http://arxiv.org/abs/2207.09629v1 )

ライセンス: Link先を確認
Guangcheng Chen, Li He, Yisheng Guan, Hong Zhang(参考訳) 現在の偏光3次元再構成法は、偏光文学から確立された形状を含む、全て正射影仮定の下で開発されている。 しかし、広い視野で見れば、この仮定は成立せず、この仮定を仮定する手法において重大な再構成誤りをもたらす可能性がある。 この問題に対処するために,視線カメラに適用可能な視線位相角(PPA)モデルを提案する。 正弦波モデルと比較して,提案したPPAモデルは視線投影下での偏光位相角と表面正規度の関係を正確に記述する。 加えて、ppaモデルでは、単視点位相角写像のみから表面正規値の推定が可能であり、いわゆる"pi"曖昧性問題に苦しむことはない。 実データを用いた実験により,PPAモデルの方が視線カメラによる表面正規推定に精度が高いことが示された。

Current polarimetric 3D reconstruction methods, including those in the well-established shape from polarization literature, are all developed under the orthographic projection assumption. In the case of a large field of view, however, this assumption does not hold and may result in significant reconstruction errors in methods that make this assumption. To address this problem, we present the perspective phase angle (PPA) model that is applicable to perspective cameras. Compared with the orthographic model, the proposed PPA model accurately describes the relationship between polarization phase angle and surface normal under perspective projection. In addition, the PPA model makes it possible to estimate surface normals from only one single-view phase angle map and does not suffer from the so-called {\pi}-ambiguity problem. Experiments on real data show that the PPA model is more accurate for surface normal estimation with a perspective camera than the orthographic model.
翻訳日:2022-07-21 13:23:25 公開日:2022-07-20
# HyperNet:ハイパースペクトル変化検出のための自己監督型空間スペクトル特徴理解ネットワーク

HyperNet: Self-Supervised Hyperspectral Spatial-Spectral Feature Understanding Network for Hyperspectral Change Detection ( http://arxiv.org/abs/2207.09634v1 )

ライセンス: Link先を確認
Meiqi Hu, Chen Wu, and Liangpei Zhang(参考訳) 自己教師付き学習の急速な発展は、バーラーニングの特徴表現を大量のラベルのないデータから低くし、リモートセンシング画像の変更検出に関する一連の研究を引き起こした。 自然画像分類からリモートセンシング画像への自己教師あり学習の適応における課題は、2つのタスクの違いから生じる。 学習したパッチレベルの特徴表現は、ピクセルレベルの正確な変化検出には満足していない。 本稿では,高スペクトル変化検出に有効な画素ワイド特徴表現を実現するために,新しい画素レベルの高スペクトル空間スペクトル理解ネットワーク(HyperNet)を提案する。 具体的にはパッチではなく、画像全体をネットワークに供給し、複数の時空間スペクトル特徴をピクセル単位で比較する。 2次元イメージング空間とスペクトル応答次元をハイブリッド方式で処理する代わりに、空間相関と多時間ハイパースペクトル画像(HSIs)の識別スペクトル特性を別々に探索するために、強力な空間-スペクトルアテンションモジュールが提案される。 両時間的HSIの同じ位置にある正のサンプルのみが作成され、スペクトル差不変の特徴を学習するために調整される。 さらに, 共焦点コサインと呼ばれる新しい類似性損失関数を提案し, ネットワークトレーニングを促進するために, ハードサンプルの重みを拡大・強調する不均衡とハードサンプルの比較を行った。 提案したHyperNetの有効性と一般化をテストするために,6つのハイパースペクトルデータセットが採用された。 大規模な実験は、下流のハイパースペクトル変化検出タスクにおける最先端アルゴリズムよりもHyperNetの方が優れていることを示す。

The fast development of self-supervised learning lowers the bar learning feature representation from massive unlabeled data and has triggered a series of research on change detection of remote sensing images. Challenges in adapting self-supervised learning from natural images classification to remote sensing images change detection arise from difference between the two tasks. The learned patch-level feature representations are not satisfying for the pixel-level precise change detection. In this paper, we proposed a novel pixel-level self-supervised hyperspectral spatial-spectral understanding network (HyperNet) to accomplish pixel-wise feature representation for effective hyperspectral change detection. Concretely, not patches but the whole images are fed into the network and the multi-temporal spatial-spectral features are compared pixel by pixel. Instead of processing the two-dimensional imaging space and spectral response dimension in hybrid style, a powerful spatial-spectral attention module is put forward to explore the spatial correlation and discriminative spectral features of multi-temporal hyperspectral images (HSIs), separately. Only the positive samples at the same location of bi-temporal HSIs are created and forced to be aligned, aiming at learning the spectral difference-invariant features. Moreover, a new similarity loss function named focal cosine is proposed to solve the problem of imbalanced easy and hard positive samples comparison, where the weights of those hard samples are enlarged and highlighted to promote the network training. Six hyperspectral datasets have been adopted to test the validity and generalization of proposed HyperNet. The extensive experiments demonstrate the superiority of HyperNet over the state-of-the-art algorithms on downstream hyperspectral change detection tasks.
翻訳日:2022-07-21 13:23:10 公開日:2022-07-20
# ヒト骨格表現学習のための階層的自己監督変換器

Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning ( http://arxiv.org/abs/2207.09644v1 )

ライセンス: Link先を確認
Yuxiao Chen, Long Zhao, Jianbo Yuan, Yu Tian, Zhaoyang Xia, Shijie Geng, Ligong Han, and Dimitris N. Metaxas(参考訳) 完全教師付きヒト骨格配列モデリングの成功にもかかわらず,課題特異的な骨格アノテーションを大規模に取得することは困難であるため,自己教師付き事前学習を用いた骨格配列表現学習は活発な分野である。 近年の研究では、コントラスト学習を用いた映像レベルの時間的・判別的情報の学習に焦点が当てられているが、人間の骨格の階層的空間的・時間的性質は見過ごされている。 ビデオレベルでのこのような表面的監督とは違って,階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前訓練方式を提案し,フレーム,クリップ,ビデオレベルでの空間的,短期的,長期的依存関係を明示的に把握する。 提案手法をHi-TRSで評価するために,動作認識,行動検出,動作予測を含む3つの骨格に基づく下流作業について広範な実験を行った。 教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。 さらに,事前学習段階においてモデルが学習した事前知識が,異なる下流タスクに対して強い伝達能力を持つことを実証する。

Despite the success of fully-supervised human skeleton sequence modeling, utilizing self-supervised pre-training for skeleton sequence representation learning has been an active field because acquiring task-specific skeleton annotations at large scales is difficult. Recent studies focus on learning video-level temporal and discriminative information using contrastive learning, but overlook the hierarchical spatial-temporal nature of human skeletons. Different from such superficial supervision at the video level, we propose a self-supervised hierarchical pre-training scheme incorporated into a hierarchical Transformer-based skeleton sequence encoder (Hi-TRS), to explicitly capture spatial, short-term, and long-term temporal dependencies at frame, clip, and video levels, respectively. To evaluate the proposed self-supervised pre-training scheme with Hi-TRS, we conduct extensive experiments covering three skeleton-based downstream tasks including action recognition, action detection, and motion prediction. Under both supervised and semi-supervised evaluation protocols, our method achieves the state-of-the-art performance. Additionally, we demonstrate that the prior knowledge learned by our model in the pre-training stage has strong transfer capability for different downstream tasks.
翻訳日:2022-07-21 13:22:43 公開日:2022-07-20
# 歴史の認識:局所行動データを用いた軌道予測

Aware of the History: Trajectory Forecasting with the Local Behavior Data ( http://arxiv.org/abs/2207.09646v1 )

ライセンス: Link先を確認
Yiqi Zhong, Zhenyang Ni, Siheng Chen, Ulrich Neumann(参考訳) 以前ある場所を通過した歴史的軌跡は、現在この場所にあるエージェントの将来の軌跡を推測するのに役立つかもしれない。 高精細度地図の指導により軌道予測が大幅に改善されているにもかかわらず、そのような地域の歴史情報を探究した作品はごくわずかである。 本研究では,この情報をトラジェクティブ予測システムのための新しいタイプの入力データとして再導入する。 ローカルな振る舞いデータは、システムが予測の局所性を強調し、静的マップオブジェクトが移動エージェントに与える影響をよりよく理解するのに役立つ。 本稿では,観測された軌跡,HDマップ,および局所行動データから情報を取り出すことにより,予測精度を向上させる新しい局所行動認識(LBA)予測フレームワークを提案する。 また,このような履歴データが不十分,あるいは使用不能である場合には,情報不足の影響を推察するために,知識蒸留ベースのアーキテクチャを採用するローカル・ビヘイビアフリー(lbf)予測フレームワークを採用する。 この2つのフレームワークで既存のメソッドをアップグレードすることで、パフォーマンスが大幅に向上する。 特に、LBAフレームワークは、K=1メトリクスに対して、nuScenesデータセット上のSOTAメソッドのパフォーマンスを少なくとも14%向上させる。

The historical trajectories previously passing through a location may help infer the future trajectory of an agent currently at this location. Despite great improvements in trajectory forecasting with the guidance of high-definition maps, only a few works have explored such local historical information. In this work, we re-introduce this information as a new type of input data for trajectory forecasting systems: the local behavior data, which we conceptualize as a collection of location-specific historical trajectories. Local behavior data helps the systems emphasize the prediction locality and better understand the impact of static map objects on moving agents. We propose a novel local-behavior-aware (LBA) prediction framework that improves forecasting accuracy by fusing information from observed trajectories, HD maps, and local behavior data. Also, where such historical data is insufficient or unavailable, we employ a local-behavior-free (LBF) prediction framework, which adopts a knowledge-distillation-based architecture to infer the impact of missing data. Extensive experiments demonstrate that upgrading existing methods with these two frameworks significantly improves their performances. Especially, the LBA framework boosts the SOTA methods' performance on the nuScenes dataset by at least 14% for the K=1 metrics.
翻訳日:2022-07-21 13:22:23 公開日:2022-07-20
# GenText:デカップリングフォントとテクスチャ操作による教師なしアーティスティックテキスト生成

GenText: Unsupervised Artistic Text Generation via Decoupled Font and Texture Manipulation ( http://arxiv.org/abs/2207.09649v1 )

ライセンス: Link先を確認
Qirui Huang, Bin Fu, Aozhong zhang, Yu Qiao(参考訳) 芸術的テキストの自動生成は,その広範囲な応用により注目を集める話題となっている。 芸術的なテキストは、それぞれコンテンツ、フォント、テクスチャの3つの構成要素に分けられる。 既存の芸術的テキスト生成モデルは、通常、上記の構成要素の1つの側面を操作することに焦点を当てている。 この問題を解決するために,異なるソース画像から対象画像へのフォントやテクスチャスタイルを分離的に移行することで,汎用的な芸術的テクスチャスタイルの転送を実現する新しい手法であるGenTextを提案する。 具体的には,1つの強力なエンコーダネットワークと2つの異なるスタイルジェネレータネットワークを備えた統一プラットフォームに,それぞれスタイラス,デスティル化,フォント転送の3つの異なるステージを組み込んでいる。 デスタイライゼーションステージは、まず、フォント参照画像のフォントスタイルを抽出し、その後、フォント転送ステージは、所望のフォントスタイルでターゲットコンテンツを生成する。 最後に、スタイリングステージは、基準画像のテクスチャスタイルに関して、結果のフォント画像をレンダリングする。 また,ペア芸術的テキスト画像の取得が困難であることを考慮すると,すべてのステージを非ペアデータから効果的に最適化可能な教師なし設定で設計する。 質的・定量的な結果が芸術的テキストベンチマークで得られ,提案モデルの優れた性能を示す。 モデル付きコードは将来的に公開される予定だ。

Automatic artistic text generation is an emerging topic which receives increasing attention due to its wide applications. The artistic text can be divided into three components, content, font, and texture, respectively. Existing artistic text generation models usually focus on manipulating one aspect of the above components, which is a sub-optimal solution for controllable general artistic text generation. To remedy this issue, we propose a novel approach, namely GenText, to achieve general artistic text style transfer by separably migrating the font and texture styles from the different source images to the target images in an unsupervised manner. Specifically, our current work incorporates three different stages, stylization, destylization, and font transfer, respectively, into a unified platform with a single powerful encoder network and two separate style generator networks, one for font transfer, the other for stylization and destylization. The destylization stage first extracts the font style of the font reference image, then the font transfer stage generates the target content with the desired font style. Finally, the stylization stage renders the resulted font image with respect to the texture style in the reference image. Moreover, considering the difficult data acquisition of paired artistic text images, our model is designed under the unsupervised setting, where all stages can be effectively optimized from unpaired data. Qualitative and quantitative results are performed on artistic text benchmarks, which demonstrate the superior performance of our proposed model. The code with models will become publicly available in the future.
翻訳日:2022-07-21 13:22:02 公開日:2022-07-20
# 言語理論とニューラル言語モデルの統合

Integrating Linguistic Theory and Neural Language Models ( http://arxiv.org/abs/2207.09643v1 )

ライセンス: Link先を確認
Bai Li(参考訳) トランスフォーマーベースの言語モデルは、最近多くの自然言語タスクで顕著な結果をもたらしました。 しかし、リーダボードのパフォーマンスは通常、膨大なトレーニングデータを活用することで達成され、明示的な言語知識を神経モデルにエンコードすることはほとんどない。 このことが、現代自然言語処理における言語学の関連性に疑問を呈している。 本論文では,理論言語学とニューラル言語モデルが相互にどのような関係を持つかを示すいくつかのケーススタディについて述べる。 第一に、言語モデルは意味的距離を測定する客観的ツールを提供することによって言語学者にとって有用である。 一方、言語理論は、言語理解の特定の側面について言語モデルを調べるためのフレームワークとデータソースを提供することにより、言語モデリング研究に寄与する。 この論文は、言語モデルにおける構文意味インタフェースの異なる側面を研究する3つの研究に貢献する。 論文の第1部では、単語クラスの柔軟性の問題に言語モデルを適用しました。 mBERTを意味的距離測定の源として用いて, 単語のクラス柔軟性を方向的プロセスとして分析する証拠を提示する。 論文の第2部では,言語モデルの中間層における超越性を測定する手法を提案する。 私の実験では、形態素的異常を含む文は、意味的および常識的異常よりも、言語モデルで早期に副次的に引き起こされることがわかった。 最後に、私の論文の第3部では、言語モデルが議論構造構築の知識を含んでいることを示すために、いくつかの心理言語学の研究を適応させます。 まとめると、私の論文は自然言語処理、言語理論、精神言語学の間の新しい関係を発展させ、言語モデルの解釈の新しい視点を提供する。

Transformer-based language models have recently achieved remarkable results in many natural language tasks. However, performance on leaderboards is generally achieved by leveraging massive amounts of training data, and rarely by encoding explicit linguistic knowledge into neural models. This has led many to question the relevance of linguistics for modern natural language processing. In this dissertation, I present several case studies to illustrate how theoretical linguistics and neural language models are still relevant to each other. First, language models are useful to linguists by providing an objective tool to measure semantic distance, which is difficult to do using traditional methods. On the other hand, linguistic theory contributes to language modelling research by providing frameworks and sources of data to probe our language models for specific aspects of language understanding. This thesis contributes three studies that explore different aspects of the syntax-semantics interface in language models. In the first part of my thesis, I apply language models to the problem of word class flexibility. Using mBERT as a source of semantic distance measurements, I present evidence in favour of analyzing word class flexibility as a directional process. In the second part of my thesis, I propose a method to measure surprisal at intermediate layers of language models. My experiments show that sentences containing morphosyntactic anomalies trigger surprisals earlier in language models than semantic and commonsense anomalies. Finally, in the third part of my thesis, I adapt several psycholinguistic studies to show that language models contain knowledge of argument structure constructions. In summary, my thesis develops new connections between natural language processing, linguistic theory, and psycholinguistics to provide fresh perspectives for the interpretation of language models.
翻訳日:2022-07-21 13:16:50 公開日:2022-07-20
# 置換表現アクティブ推論

Successor Representation Active Inference ( http://arxiv.org/abs/2207.09897v1 )

ライセンス: Link先を確認
Beren Millidge, Christopher L Buckley(参考訳) 最近の研究で、古典的な強化学習アルゴリズム、ベイズフィルタ、ベイズ後方からの価値関数を理解できるアクティブ推論との間の密接な関係が明らかになった。 別の選択肢として、モデルフリーのrlアルゴリズムは後続表現であり、将来の状態占有者の後続行列の観点から値関数を表現する。 本稿では,ベイズフィルタの観点からの後継表現の確率論的解釈を導出し,モデルに基づく計画ではなく後継表現を用いた新しいアクティブ推論エージェントアーキテクチャを設計する。 能動推論の後継表現は計画の地平と計算コストの観点から,現在の能動推論エージェントよりも大きなアドバンテージを持つことを実証する。 さらに,後継表現エージェントが期待自由エネルギーの変種など報酬関数の変更にどのように一般化できるかを実証する。

Recent work has uncovered close links between between classical reinforcement learning algorithms, Bayesian filtering, and Active Inference which lets us understand value functions in terms of Bayesian posteriors. An alternative, but less explored, model-free RL algorithm is the successor representation, which expresses the value function in terms of a successor matrix of expected future state occupancies. In this paper, we derive the probabilistic interpretation of the successor representation in terms of Bayesian filtering and thus design a novel active inference agent architecture utilizing successor representations instead of model-based planning. We demonstrate that active inference successor representations have significant advantages over current active inference agents in terms of planning horizon and computational cost. Moreover, we demonstrate how the successor representation agent can generalize to changing reward functions such as variants of the expected free energy.
翻訳日:2022-07-21 13:16:23 公開日:2022-07-20
# 時間認識知識グラフの一般化フレームワークについて

On a Generalized Framework for Time-Aware Knowledge Graphs ( http://arxiv.org/abs/2207.09964v1 )

ライセンス: Link先を確認
Franz Krause, Tobias Weller, Heiko Paulheim(参考訳) 知識グラフは、人間と機械で解釈可能な方法で半構造化ドメイン知識を管理し標準化するための効果的なツールとして登場した。 グラフベースのドメインアプリケーション、例えば埋め込みやグラフニューラルネットワークでは、現在の研究は、グラフに符号化された情報の時間的な進化を考慮している。 静止知識グラフと静的知識グラフのアルゴリズムとモデルは拡張され、タイムアウェアネスを異なる方法で解釈できる時間アウェアドメインにアクセスできる。 特に、時間関係知識グラフ拡張の目的として、有効期間と事実のトレーサビリティを区別する必要がある。 この文脈では、動的や時間的といった用語や定義は、文学において矛盾または矛盾なく用いられることが多い。 そこで本稿では,時間認識ナレッジグラフ拡張の短期的かつ明確に定義した概要を提供し,この分野における今後の研究を浮き彫りにする。

Knowledge graphs have emerged as an effective tool for managing and standardizing semistructured domain knowledge in a human- and machine-interpretable way. In terms of graph-based domain applications, such as embeddings and graph neural networks, current research is increasingly taking into account the time-related evolution of the information encoded within a graph. Algorithms and models for stationary and static knowledge graphs are extended to make them accessible for time-aware domains, where time-awareness can be interpreted in different ways. In particular, a distinction needs to be made between the validity period and the traceability of facts as objectives of time-related knowledge graph extensions. In this context, terms and definitions such as dynamic and temporal are often used inconsistently or interchangeably in the literature. Therefore, with this paper we aim to provide a short but well-defined overview of time-aware knowledge graph extensions and thus faciliate future research in this field as well.
翻訳日:2022-07-21 13:16:11 公開日:2022-07-20
# 自由エネルギー原理は神経型発達を促進する

The Free Energy Principle drives neuromorphic development ( http://arxiv.org/abs/2207.09734v1 )

ライセンス: Link先を確認
Chris Fields, Karl Friston, James F. Glazebrook, Michael Levin, and Antonino Marcian\`o(参考訳) 自由エネルギー原理の制約の下で、どのような形態学的な自由度や局所的な自由エネルギーの体系も、階層構造の各レベルが入力の粗粒化を行い、その出力を微細化する階層的な計算をサポートするニューロモルフォロジーへと進化していくかを示す。 このような階層構造は、細胞内シグナル伝達経路のアーキテクチャから哺乳類の脳における知覚と行動サイクルの大規模組織に至るまで、生物学を通して起こる。 形式的には、円錐円錐図(CCCD)を量子参照フレームのモデルとして、また、CCCDと位相量子場理論の間の密接な形式的な接続は、トポロジカル量子ニューラルネットワークの完全な量子計算の枠組みにおけるそのような計算の表現を可能にする。

We show how any system with morphological degrees of freedom and locally limited free energy will, under the constraints of the free energy principle, evolve toward a neuromorphic morphology that supports hierarchical computations in which each level of the hierarchy enacts a coarse-graining of its inputs, and dually a fine-graining of its outputs. Such hierarchies occur throughout biology, from the architectures of intracellular signal transduction pathways to the large-scale organization of perception and action cycles in the mammalian brain. Formally, the close formal connections between cone-cocone diagrams (CCCD) as models of quantum reference frames on the one hand, and between CCCDs and topological quantum field theories on the other, allow the representation of such computations in the fully-general quantum-computational framework of topological quantum neural networks.
翻訳日:2022-07-21 13:15:57 公開日:2022-07-20
# 離散計量における内在次元推定

Intrinsic dimension estimation for discrete metrics ( http://arxiv.org/abs/2207.09688v1 )

ライセンス: Link先を確認
Iuri Macocco, Aldo Glielmo, Jacopo Grilli and Alessandro Laio(参考訳) 離散的な特徴を特徴とする実世界データセットは、カテゴリー調査から臨床アンケート、未重み付きネットワークからDNA配列まで、どこにでもある。 しかしながら、最も一般的な教師なし次元還元法は連続空間のために設計されており、離散空間に対するそれらの使用は誤りやバイアスを引き起こす可能性がある。 本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。 ベンチマークデータセット上でその精度を実証し,種鑑定のためのメダゲノミクスデータセットの解析に応用し,驚くほど小さなIDを2。 このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。

Real world-datasets characterized by discrete features are ubiquitous: from categorical surveys to clinical questionnaires, from unweighted networks to DNA sequences. Nevertheless, the most common unsupervised dimensional reduction methods are designed for continuous spaces, and their use for discrete spaces can lead to errors and biases. In this letter we introduce an algorithm to infer the intrinsic dimension (ID) of datasets embedded in discrete spaces. We demonstrate its accuracy on benchmark datasets, and we apply it to analyze a metagenomic dataset for species fingerprinting, finding a surprisingly small ID, of order 2. This suggests that evolutive pressure acts on a low-dimensional manifold despite the high-dimensionality of sequences' space.
翻訳日:2022-07-21 13:10:33 公開日:2022-07-20
# ジャーナル・インパクトファクターとピアレビューの質感とヘルプフルネス:教師付き機械学習による研究

Journal Impact Factor and Peer Review Thoroughness and Helpfulness: A Supervised Machine Learning Study ( http://arxiv.org/abs/2207.09821v1 )

ライセンス: Link先を確認
Anna Severin, Michaela Strinzel, Matthias Egger, Tiago Barros, Alexander Sokolov, Julia Vilstrup Mouatt, Stefan M\"uller(参考訳) ジャーナルインパクトファクタ(JIF)は、しばしばジャーナルの品質と、ジャーナルに提出された論文のピアレビューの品質と等価である。 医学・生命科学雑誌1,644誌に1万件の査読報告を提出し, 査読内容とJIFとの関連性を検討した。 2人の研究者が2000文のランダムなサンプルを手書きした。 次に,187,240文すべてにコンテントカテゴリへの貢献の有無を分類するために,機械学習モデルをトレーニングした。 jifdecilesで定義された10組のジャーナルとピアレビューの内容との間の関係を線形混合効果モデルを用いて検討し,レビュー期間の調整を行った。 JIFは0.21から74.70であった。 ピアレビューの長さは,最下位(中間語数185)からJIF群(387語)に増加した。 異なる内容カテゴリに割り当てられた文の割合は、JIFグループ内でも大きく異なる。 徹底的にみると、「機械と方法」の文は、最も高いJIFグループよりも高いJIF雑誌の方が一般的であった(7.8ポイント、95% CI 4.9から10.7%)。 発表と報告」の傾向は逆の方向に進み、jifの上位の雑誌はそのような内容に重点を置いていない(差異 -8.9%; 95% ci -11.3 対 -6.5%)。 JIF雑誌のレビューでは「提案と解決」への注意が減り、インパクトファクター誌よりも事例が少ないことが示唆された。 いいえ、あるいは他のコンテンツカテゴリで小さな違いだけは明らかでした。 結論として、JIFが高いジャーナルにおけるピアレビューは、使用する方法について議論する上でより徹底的である傾向にあるが、ソリューションの提案や例の提供という点ではあまり役に立たない。 違いはささやかで可変性が高く、jifは個々の原稿の査読の質の悪い予測要因であることを示している。

The journal impact factor (JIF) is often equated with journal quality and the quality of the peer review of the papers submitted to the journal. We examined the association between the content of peer review and JIF by analysing 10,000 peer review reports submitted to 1,644 medical and life sciences journals. Two researchers hand-coded a random sample of 2,000 sentences. We then trained machine learning models to classify all 187,240 sentences as contributing or not contributing to content categories. We examined the association between ten groups of journals defined by JIF deciles and the content of peer reviews using linear mixed-effects models, adjusting for the length of the review. The JIF ranged from 0.21 to 74.70. The length of peer reviews increased from the lowest (median number of words 185) to the JIF group (387 words). The proportion of sentences allocated to different content categories varied widely, even within JIF groups. For thoroughness, sentences on 'Materials and Methods' were more common in the highest JIF journals than in the lowest JIF group (difference of 7.8 percentage points; 95% CI 4.9 to 10.7%). The trend for 'Presentation and Reporting' went in the opposite direction, with the highest JIF journals giving less emphasis to such content (difference -8.9%; 95% CI -11.3 to -6.5%). For helpfulness, reviews for higher JIF journals devoted less attention to 'Suggestion and Solution' and provided fewer Examples than lower impact factor journals. No, or only small differences were evident for other content categories. In conclusion, peer review in journals with higher JIF tends to be more thorough in discussing the methods used but less helpful in terms of suggesting solutions and providing examples. Differences were modest and variability high, indicating that the JIF is a bad predictor for the quality of peer review of an individual manuscript.
翻訳日:2022-07-21 13:10:21 公開日:2022-07-20
# 複数の利害関係者分布における評価と署名の公正性

Measuring and signing fairness as performance under multiple stakeholder distributions ( http://arxiv.org/abs/2207.09960v1 )

ライセンス: Link先を確認
David Lopez-Paz, Diane Bouchacourt, Levent Sagun, Nicolas Usunier(参考訳) 学習機械が人間の生活に関する意思決定に影響を及ぼすにつれて、公平性の分析が重要となる。 しかし、学習システムの公平性を測定するための最良のツールは、数学的一行としてカプセル化された厳格な公平度メトリクスであり、予測タスクに関わる利害関係者に限定的な力を提供し、最適化に過度の圧力をかけると操作が容易である。 この問題を進めるため,我々は,公平度メトリクスの作成から,これらを計算した例の分布のキュレーションへと焦点を移すことを提案する。 特に、フェアネスに関するすべての主張は、すぐに「どの例で、誰によって収集され、誰によって収集されるか」というタグラインに従わなければならないと仮定する。 ドメイン一般化における文献とのつながりを強調することにより,複数のストレステスト(社会的関連性のある例の分布)において,システムが一般化する能力としての公平性を測定することを提案する。 利害関係を反映した例を含む1つまたは複数のストレステストの実施を各ステークホルダに推奨します。 マシンは、予め定義された計量値の不足または超過によって、各応力試験を通過または失敗する。 テスト結果は、すべてのステークホルダーが学習システムを改善する方法についての議論に参加し、文脈に依存して解釈可能なデータに基づいて公平さを柔軟に評価する。 ストレステストのための完全な実装ガイドラインを提供し、このフレームワークの利点と欠点を説明し、システムプロバイダによる予測責任の程度を可能にする暗号スキームを導入する。

As learning machines increase their influence on decisions concerning human lives, analyzing their fairness properties becomes a subject of central importance. Yet, our best tools for measuring the fairness of learning systems are rigid fairness metrics encapsulated as mathematical one-liners, offer limited power to the stakeholders involved in the prediction task, and are easy to manipulate when we exhort excessive pressure to optimize them. To advance these issues, we propose to shift focus from shaping fairness metrics to curating the distributions of examples under which these are computed. In particular, we posit that every claim about fairness should be immediately followed by the tagline "Fair under what examples, and collected by whom?". By highlighting connections to the literature in domain generalization, we propose to measure fairness as the ability of the system to generalize under multiple stress tests -- distributions of examples with social relevance. We encourage each stakeholder to curate one or multiple stress tests containing examples reflecting their (possibly conflicting) interests. The machine passes or fails each stress test by falling short of or exceeding a pre-defined metric value. The test results involve all stakeholders in a discussion about how to improve the learning system, and provide flexible assessments of fairness dependent on context and based on interpretable data. We provide full implementation guidelines for stress testing, illustrate both the benefits and shortcomings of this framework, and introduce a cryptographic scheme to enable a degree of prediction accountability from system providers.
翻訳日:2022-07-21 13:09:49 公開日:2022-07-20
# コンテンツベース音声検索における補助テキストクエリ修飾器の導入

Introducing Auxiliary Text Query-modifier to Content-based Audio Retrieval ( http://arxiv.org/abs/2207.09732v1 )

ライセンス: Link先を確認
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino(参考訳) 公開ウェブサイトで利用可能な音声データの量は急速に増加しており、望ましいデータにアクセスするための効率的なメカニズムが必要である。 本稿では,クエリとターゲットオーディオの違いを記述した補助的なテキスト情報を導入することで,クエリオーディオと似ているが若干異なるターゲットオーディオを検索できるコンテンツベース音声検索手法を提案する。 従来のコンテンツベース音声検索の範囲は、クエリ音声と類似するオーディオに限定されているが、提案手法では、クエリサンプル音声の共有潜在空間への埋め込みに補助テキストクエリ修飾子の埋め込みを追加することで、検索範囲を調整できる。 提案手法を評価するために,2つの異なる音声クリップと差分を記述したテキストからなるデータセットを構築した。 実験の結果,提案手法はベースラインよりも精度良くペアオーディオを検索できることがわかった。 また,提案手法は,音声の差分と対応するテキストが類似した埋め込みベクトルとして表現される共有潜時空間が得られることを示す。

The amount of audio data available on public websites is growing rapidly, and an efficient mechanism for accessing the desired data is necessary. We propose a content-based audio retrieval method that can retrieve a target audio that is similar to but slightly different from the query audio by introducing auxiliary textual information which describes the difference between the query and target audio. While the range of conventional content-based audio retrieval is limited to audio that is similar to the query audio, the proposed method can adjust the retrieval range by adding an embedding of the auxiliary text query-modifier to the embedding of the query sample audio in a shared latent space. To evaluate our method, we built a dataset comprising two different audio clips and the text that describes the difference. The experimental results show that the proposed method retrieves the paired audio more accurately than the baseline. We also confirmed based on visualization that the proposed method obtains the shared latent space in which the audio difference and the corresponding text are represented as similar embedding vectors.
翻訳日:2022-07-21 13:09:24 公開日:2022-07-20
# 教師なし手法による医用画像生成モデルの潜在空間の解釈

Interpreting Latent Spaces of Generative Models for Medical Images using Unsupervised Methods ( http://arxiv.org/abs/2207.09740v1 )

ライセンス: Link先を確認
Julian Sch\"on, Raghavendra Selvan, Jens Petersen(参考訳) generative adversarial networks (gans) や variational autoencoder (vaes) などの生成モデルは、医用画像解析においてますます重要な役割を果たす。 これらのモデルの潜在空間はしばしば、人間の解釈可能な画像変換に対応する意味的に意味のある方向を示す。 しかし, 医用画像の探索は, 監視データを必要とするため, これまで限られていた。 GAN潜在空間における解釈方向の教師なし発見のためのいくつかの手法は、自然画像上で興味深い結果を示している。 本研究は,GANとVAEを胸部CTスキャンで訓練し,非教師的手法を用いて潜在空間の解釈可能な方向を検出することにより,これらの技術を医療画像に適用する可能性を探るものである。 回転や乳房サイズなど,非自明な画像変換に対応する方向が複数存在する。 さらに,2次元データのみを提示しても,生成モデルが3次元構造をキャプチャすることを示す。 その結果,GANの解釈可能な方向を探索するための教師なし手法はVAEに一般化し,医用画像に適用可能であることがわかった。 これにより、医療画像解析におけるこれらの手法を用いた幅広い将来的な研究が開かれる。

Generative models such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs) play an increasingly important role in medical image analysis. The latent spaces of these models often show semantically meaningful directions corresponding to human-interpretable image transformations. However, until now, their exploration for medical images has been limited due to the requirement of supervised data. Several methods for unsupervised discovery of interpretable directions in GAN latent spaces have shown interesting results on natural images. This work explores the potential of applying these techniques on medical images by training a GAN and a VAE on thoracic CT scans and using an unsupervised method to discover interpretable directions in the resulting latent space. We find several directions corresponding to non-trivial image transformations, such as rotation or breast size. Furthermore, the directions show that the generative models capture 3D structure despite being presented only with 2D data. The results show that unsupervised methods to discover interpretable directions in GANs generalize to VAEs and can be applied to medical images. This opens a wide array of future work using these methods in medical image analysis.
翻訳日:2022-07-21 13:08:53 公開日:2022-07-20
# マルチモーダル軌道予測のための歩行者群表現の学習

Learning Pedestrian Group Representations for Multi-modal Trajectory Prediction ( http://arxiv.org/abs/2207.09953v1 )

ライセンス: Link先を確認
Inhwan Bae, Jin-Hwi Park, Hae-Gon Jeon(参考訳) 歩く人のダイナミクスのモデリングは、コンピュータビジョンに対する長年の関心の問題だ。 歩行者追跡予測を含む多くの先行研究は、暗黙的にグループアクションをモデル化するための個々のアクションセットを定義している。 本稿では,混み合った環境での効果的な歩行者追跡予測のための集団群表現を持ち,既存の手法と互換性のあるgp-graphという新しいアーキテクチャを提案する。 GP-Graphのキーとなる考え方は、グラフ表現として個人関係とグループ関係の両方をモデル化することである。 GP-Graphはまず、歩行者を最も可能性の高い行動グループに割り当てることを学ぶ。 この割当て情報を用いて、GP-Graphはグループ内の相互作用とグループ間の相互作用をグラフとして形成し、グループ内の人間関係とグループ間の関係をそれぞれ考慮する。 具体的には、グループ間相互作用において、関連するグループから歩行者グラフエッジをマスクする。 また、複数の歩行者を1つのグラフノードとするグループを表すグループプーリング・アンプール操作を提案する。 最後に、GP-Graphは、両方のグループ相互作用の統合的な特徴から、社会的に受容可能な将来の軌道の確率マップを推論する。 さらに,グループレベルの潜在ベクトルサンプリングを導入し,将来的な軌道の集合に対する集合的推論を確実にする。 アーキテクチャの有効性を検証するために大規模な実験を行い、公開ベンチマークで一貫した性能向上を示す。 コードはhttps://github.com/inhwanbae/GPGraphで公開されている。

Modeling the dynamics of people walking is a problem of long-standing interest in computer vision. Many previous works involving pedestrian trajectory prediction define a particular set of individual actions to implicitly model group actions. In this paper, we present a novel architecture named GP-Graph which has collective group representations for effective pedestrian trajectory prediction in crowded environments, and is compatible with all types of existing approaches. A key idea of GP-Graph is to model both individual-wise and group-wise relations as graph representations. To do this, GP-Graph first learns to assign each pedestrian into the most likely behavior group. Using this assignment information, GP-Graph then forms both intra- and inter-group interactions as graphs, accounting for human-human relations within a group and group-group relations, respectively. To be specific, for the intra-group interaction, we mask pedestrian graph edges out of an associated group. We also propose group pooling&unpooling operations to represent a group with multiple pedestrians as one graph node. Lastly, GP-Graph infers a probability map for socially-acceptable future trajectories from the integrated features of both group interactions. Moreover, we introduce a group-level latent vector sampling to ensure collective inferences over a set of possible future trajectories. Extensive experiments are conducted to validate the effectiveness of our architecture, which demonstrates consistent performance improvements with publicly available benchmarks. Code is publicly available at https://github.com/inhwanbae/GPGraph.
翻訳日:2022-07-21 13:08:35 公開日:2022-07-20
# 代替ネットワークのデバイアスによる未知バイアスの検出と軽減

Discover and Mitigate Unknown Biases with Debiasing Alternate Networks ( http://arxiv.org/abs/2207.10077v1 )

ライセンス: Link先を確認
Zhiheng Li, Anthony Hoogs, Chenliang Xu(参考訳) 深層画像分類器はデータセットからバイアスを学ぶことができる。 バイアスを軽減するために、ほとんどの従来の方法は保護された属性(例えば、年齢、肌のトーン)をフルスーパービジョンとしてラベルする必要がある。 1) ラベルが使用できない場合は,無効である。 2) 未知のバイアス -- 人間が想定しないバイアス -- を緩和することができない。これらの問題を解決するため,我々は,2つのネットワーク - 発見者と分類者 - からなるdebiasing alternative network (debian) を提案する。 交互に訓練することで、発見者は、偏りの注釈なしで、複数の未知の偏りを見つけようとし、分類器は、発見者によって識別された偏りをアンラーニングすることを目指している。 従来の研究は, 偏りを1つの偏りで評価する一方で, マルチカラーMNISTデータセットを作成し, マルチバイアス設定における複数の偏りのベンチマーク精度を改善するとともに, 複数偏りの同定と緩和にDebiANの利点を実証した。 さらに,実世界のデータセットに関する広範な実験を行い,debianの発見者が人間の発見が難しい未知のバイアスを識別できることを示した。 デバイアスに関しては、DebiANは強いバイアス緩和性能を達成する。

Deep image classifiers have been found to learn biases from datasets. To mitigate the biases, most previous methods require labels of protected attributes (e.g., age, skin tone) as full-supervision, which has two limitations: 1) it is infeasible when the labels are unavailable; 2) they are incapable of mitigating unknown biases -- biases that humans do not preconceive. To resolve those problems, we propose Debiasing Alternate Networks (DebiAN), which comprises two networks -- a Discoverer and a Classifier. By training in an alternate manner, the discoverer tries to find multiple unknown biases of the classifier without any annotations of biases, and the classifier aims at unlearning the biases identified by the discoverer. While previous works evaluate debiasing results in terms of a single bias, we create Multi-Color MNIST dataset to better benchmark mitigation of multiple biases in a multi-bias setting, which not only reveals the problems in previous methods but also demonstrates the advantage of DebiAN in identifying and mitigating multiple biases simultaneously. We further conduct extensive experiments on real-world datasets, showing that the discoverer in DebiAN can identify unknown biases that may be hard to be found by humans. Regarding debiasing, DebiAN achieves strong bias mitigation performance.
翻訳日:2022-07-21 13:08:11 公開日:2022-07-20
# 分化剤に基づく疫学

Differentiable Agent-based Epidemiology ( http://arxiv.org/abs/2207.09714v1 )

ライセンス: Link先を確認
Ayush Chopra, Alexander Rodr\'iguez, Jayakumar Subramanian, Balaji Krishnamurthy, B. Aditya Prakash, Ramesh Raskar(参考訳) メカニスティックシミュレータは疫学にとって必要不可欠なツールであり、様々な条件下で複雑な動的感染の挙動を探索し、不確実な環境をナビゲートする。 ODEベースのモデルは、高速なシミュレーションを可能にする主要なパラダイムであり、勾配ベースの最適化に難航するが、集団の均一性に関する仮定を単純化する。 エージェント・ベース・モデル (abms) は、個々の行動や細部との接触相互作用の多様性を表現できる、よりポピュラーな代替パラダイムである。 しかし、従来の ABM フレームワークは微分可能ではなく、スケーラビリティの課題を呈している。 本稿では,ABMの新しいスケーラブルで高速かつ差別化可能な設計であるGradABMを紹介する。 GradABMはコモディティハードウェア上で数秒でシミュレーションを実行し、高速で微分可能な逆シミュレーションを可能にする。 これにより、ディープニューラルネットワークとマージでき、不均一なデータソースをシームレスに統合してキャリブレーション、予測、ポリシー評価を支援することができる。 実際のCOVID-19およびインフルエンザデータセットを用いた広範囲な実験によりGradABMの有効性を実証した。 私たちはこの取り組みがABMとAIコミュニティを緊密に結び付けると楽観的だ。

Mechanistic simulators are an indispensable tool for epidemiology to explore the behavior of complex, dynamic infections under varying conditions and navigate uncertain environments. ODE-based models are the dominant paradigm that enable fast simulations and are tractable to gradient-based optimization, but make simplifying assumptions about population homogeneity. Agent-based models (ABMs) are an increasingly popular alternative paradigm that can represent the heterogeneity of contact interactions with granular detail and agency of individual behavior. However, conventional ABM frameworks are not differentiable and present challenges in scalability; due to which it is non-trivial to connect them to auxiliary data sources easily. In this paper we introduce GradABM which is a new scalable, fast and differentiable design for ABMs. GradABM runs simulations in few seconds on commodity hardware and enables fast forward and differentiable inverse simulations. This makes it amenable to be merged with deep neural networks and seamlessly integrate heterogeneous data sources to help with calibration, forecasting and policy evaluation. We demonstrate the efficacy of GradABM via extensive experiments with real COVID-19 and influenza datasets. We are optimistic this work will bring ABM and AI communities closer together.
翻訳日:2022-07-21 13:07:49 公開日:2022-07-20
# aphmm:高速かつエネルギー効率の高いゲノム解析のためのプロファイル隠れマルコフモデル

ApHMM: Accelerating Profile Hidden Markov Models for Fast and Energy-Efficient Genome Analysis ( http://arxiv.org/abs/2207.09765v1 )

ライセンス: Link先を確認
Can Firtina, Kamlesh Pillai, Gurpreet S. Kalsi, Bharathwaj Suresh, Damla Senol Cali, Jeremie Kim, Taha Shahroodi, Meryem Banu Cavlak, Joel Lindegger, Mohammed Alser, Juan G\'omez Luna, Sreenivas Subramoney, Onur Mutlu(参考訳) プロファイル隠れマルコフモデル(pHMM)は、生物学的配列(例えばDNAやタンパク質配列)の類似性を正確に識別するために多くのバイオインフォマティクスアプリケーションで広く用いられている。 PHMMは、Baum-Welchアルゴリズム(英語版)と呼ばれる一般的で高精度な手法を用いて、これらの類似性を計算する。 しかし、Baum-Welchアルゴリズムは計算コストが高く、既存の研究は固定pHMM設計のためのソフトウェアまたはハードウェアのみのソリューションを提供する。 pHMMに対するBaum-Welchアルゴリズムのすべての主要な非効率性を効率的かつ効果的に解決するために、柔軟で高性能でエネルギー効率のよいハードウェア・ソフトウェア共同設計が必要であることが判明した。 pHMMに対するBaum-Welchアルゴリズムの計算およびエネルギーオーバーヘッドを大幅に削減できる最初のフレキシブルアクセラレーションフレームワークであるApHMMを提案する。 ApHMMはハードウェア・ソフトウェア共同設計を活用してBaum-Welchアルゴリズムの主な非効率性を解決する 1)異なるpHMM設計をサポートするフレキシブルハードウェアを設計する。 2) オンチップメモリにおける予測可能なデータ依存パターンをメモリ化手法で活用する。 3)ハードウェアベースフィルタによる無視可能な計算を迅速に除去し、 4)冗長計算の最小化。 私たちは 1)専用ハードウェアにおけるハードウェア・ソフトウェア最適化 2) GPUのソフトウェア最適化により、pHMMのための初めての柔軟なBaum-Welchアクセラレータを提供する。 ApHMMはBaum-WelchアルゴリズムのCPU、GPU、FPGAの実装と比較して、15.55x-260.03x、1.83x-5.34x、27.97xの大幅な高速化を提供する。 ApHMMは3つの重要なバイオインフォマティクスアプリケーションの最先端CPU実装より優れている。 1)エラー訂正 2)タンパク質ファミリー探索、及び 3) 配列アライメントはそれぞれ1.29x-59.94x、1.03x-1.75x、1.03x-1.95xである。

Profile hidden Markov models (pHMMs) are widely used in many bioinformatics applications to accurately identify similarities between biological sequences (e.g., DNA or protein sequences). PHMMs use a commonly-adopted and highly-accurate method, called the Baum-Welch algorithm, to calculate these similarities. However, the Baum-Welch algorithm is computationally expensive, and existing works provide either software- or hardware-only solutions for a fixed pHMM design. When we analyze the state-of-the-art works, we find that there is a pressing need for a flexible, high-performant, and energy-efficient hardware-software co-design to efficiently and effectively solve all the major inefficiencies in the Baum-Welch algorithm for pHMMs. We propose ApHMM, the first flexible acceleration framework that can significantly reduce computational and energy overheads of the Baum-Welch algorithm for pHMMs. ApHMM leverages hardware-software co-design to solve the major inefficiencies in the Baum-Welch algorithm by 1) designing a flexible hardware to support different pHMMs designs, 2) exploiting the predictable data dependency pattern in an on-chip memory with memoization techniques, 3) quickly eliminating negligible computations with a hardware-based filter, and 4) minimizing the redundant computations. We implement our 1) hardware-software optimizations on a specialized hardware and 2) software optimizations for GPUs to provide the first flexible Baum-Welch accelerator for pHMMs. ApHMM provides significant speedups of 15.55x-260.03x, 1.83x-5.34x, and 27.97x compared to CPU, GPU, and FPGA implementations of the Baum-Welch algorithm, respectively. ApHMM outperforms the state-of-the-art CPU implementations of three important bioinformatics applications, 1) error correction, 2) protein family search, and 3) multiple sequence alignment, by 1.29x-59.94x, 1.03x-1.75x, and 1.03x-1.95x, respectively.
翻訳日:2022-07-21 13:07:30 公開日:2022-07-20
# ExoSGANとExoACGAN: 対向学習アルゴリズムを用いた外惑星検出

ExoSGAN and ExoACGAN: Exoplanet Detection using Adversarial Training Algorithms ( http://arxiv.org/abs/2207.09665v1 )

ライセンス: Link先を確認
Cicy K Agnes, Akthar Naveed V, Anitha Mary M O Chacko(参考訳) 太陽系外惑星の検出は、新しい居住可能な世界の発見への扉を開き、惑星がどのように形成されたかを理解するのに役立ちます。 地球に似た居住可能な惑星を見つけるため、NASAはケプラー宇宙望遠鏡とそれに続くミッションK2を打ち上げた。 観測能力の進歩により、研究に利用可能なフレッシュなデータの範囲が拡大し、手動で処理するのは時間がかかり、難しくなっている。 機械学習とディープラーニング技術は、これらの太陽系外惑星プログラムの現代の機器が生み出す膨大なデータを、経済的かつ偏見のない方法で処理するために、人間の努力を減らすのに大いに役立つ。 しかし、全ての太陽系外惑星を正確に検出し、同時に非太陽系外惑星の誤分類を最小限に抑える必要がある。 本稿では, 半教師付き生成逆数ネットワークと補助分類器生成逆数ネットワークという2種類の生成逆数ネットワークを用いて, K2データ中の遷移系外惑星を検出する。 これらのモデルの使用は、外惑星を持つ恒星の分類に有用である。 どちらの手法も、テストデータに対して、リコールと精度1.00の光曲線を分類することができる。 我々の半教師付き手法はラベル付きデータセットを作成するという面倒な作業を解決するのに有益である。

Exoplanet detection opens the door to the discovery of new habitable worlds and helps us understand how planets were formed. With the objective of finding earth-like habitable planets, NASA launched Kepler space telescope and its follow up mission K2. The advancement of observation capabilities has increased the range of fresh data available for research, and manually handling them is both time-consuming and difficult. Machine learning and deep learning techniques can greatly assist in lowering human efforts to process the vast array of data produced by the modern instruments of these exoplanet programs in an economical and unbiased manner. However, care should be taken to detect all the exoplanets precisely while simultaneously minimizing the misclassification of non-exoplanet stars. In this paper, we utilize two variations of generative adversarial networks, namely semi-supervised generative adversarial networks and auxiliary classifier generative adversarial networks, to detect transiting exoplanets in K2 data. We find that the usage of these models can be helpful for the classification of stars with exoplanets. Both of our techniques are able to categorize the light curves with a recall and precision of 1.00 on the test data. Our semi-supervised technique is beneficial to solve the cumbersome task of creating a labeled dataset.
翻訳日:2022-07-21 13:03:20 公開日:2022-07-20
# 集団・年齢・性別間の心房細動診断のための一般化・ロバストな深層学習アルゴリズム

Generalizable and Robust Deep Learning Algorithm for Atrial Fibrillation Diagnosis Across Ethnicities, Ages and Sexes ( http://arxiv.org/abs/2207.09667v1 )

ライセンス: Link先を確認
Shany Biton, Mohsin Aldhafeeri, Erez Marcusohn, Kenta Tsutsui, Tom Szwagier, Adi Elias, Julien Oster, Jean Marc Sellal, Mahmoud Suleiman, and Joachim A. Behar(参考訳) すべての人のニーズを満たし、医療を民主化する健康革新を推進するためには、さまざまな分散シフトにまたがるディープラーニング(dl)アルゴリズムの一般化性能を評価し、これらのアルゴリズムが堅牢であることを保証する必要がある。 この振り返り研究は、私たちの知る限り、民族、年齢、性別の長期的ビート・ビート・ビート・インターバルからAFイベントを検出するための深層学習(DL)モデルの一般化性能を初めて開発・評価するものである。 連続心電図(ECG)で51,386時間経過した2,147人の大規模な振り返りデータセットを用いて,新たなDLモデルArNet2を開発した。 4つのセンター(米国、イスラエル、日本、中国)の手動アノテーションテストセットで402人の患者を対象に,モデル一般化の評価を行った。 このモデルは、イスラエルのハイファにあるランバム病院ホルタークリニックからの1,730回のホルター記録の振り返りデータセットでさらに検証された。 このモデルは最先端モデルのベンチマークを上回り、民族、年齢、性別でよく一般化された。 男女ともに60歳未満の男女比で高い成績を示し,男女差もみられた。 これらの変異を説明する主な発見は、心房粗動(afl)の頻度が高いグループにおけるパフォーマンスの低下であった。 グループ間でのArNet2の相対的性能に関する知見は,興味あるグループに対して好適なAF検査法の選択に臨床効果をもたらす可能性がある。

To drive health innovation that meets the needs of all and democratize healthcare, there is a need to assess the generalization performance of deep learning (DL) algorithms across various distribution shifts to ensure that these algorithms are robust. This retrospective study is, to the best of our knowledge, the first to develop and assess the generalization performance of a deep learning (DL) model for AF events detection from long term beat-to-beat intervals across ethnicities, ages and sexes. The new recurrent DL model, denoted ArNet2, was developed on a large retrospective dataset of 2,147 patients totaling 51,386 hours of continuous electrocardiogram (ECG). The models generalization was evaluated on manually annotated test sets from four centers (USA, Israel, Japan and China) totaling 402 patients. The model was further validated on a retrospective dataset of 1,730 consecutives Holter recordings from the Rambam Hospital Holter clinic, Haifa, Israel. The model outperformed benchmark state-of-the-art models and generalized well across ethnicities, ages and sexes. Performance was higher for female than male and young adults (less than 60 years old) and showed some differences across ethnicities. The main finding explaining these variations was an impairment in performance in groups with a higher prevalence of atrial flutter (AFL). Our findings on the relative performance of ArNet2 across groups may have clinical implications on the choice of the preferred AF examination method to use relative to the group of interest.
翻訳日:2022-07-21 13:03:00 公開日:2022-07-20
# AIフェアネス:原則から実践へ

AI Fairness: from Principles to Practice ( http://arxiv.org/abs/2207.09833v1 )

ライセンス: Link先を確認
Arash Bateni, Matthew C. Chan, Ray Eitel-Porter(参考訳) 本稿では,人工知能(AI)システムにおける公平性を追求するための様々なアプローチ,手法,技術について要約し,評価する。 これらの尺度のメリットと欠点を調べ、AIのバイアスを定義し、測定し、予防するための実践的なガイドラインを提案する。 特に、AIシステムのバイアスを評価するための単純で一般的な方法に注意し、より洗練された効果的な代替手段を提供する。 この論文は、ハイインパクトAIシステムの様々な利害関係者の間で共通言語を提供することによって、この分野における広範な論争と混乱にも対処する。 aiフェアネスに関わるさまざまなトレードオフを記述し、それらのバランスをとるための実践的な推奨を提供する。 公平目標の費用と利益を評価する技術を提供し、これらの目標の設定における人間の判断の役割を定義する。 本稿は、AI実践者、組織リーダー、政策立案者に対する議論とガイドラインと、さらに技術的なオーディエンスのための追加資料へのリンクを提供する。 実践的な視点から概念、課題、推奨を明確にするために、多くの実世界の例が提供されている。

This paper summarizes and evaluates various approaches, methods, and techniques for pursuing fairness in artificial intelligence (AI) systems. It examines the merits and shortcomings of these measures and proposes practical guidelines for defining, measuring, and preventing bias in AI. In particular, it cautions against some of the simplistic, yet common, methods for evaluating bias in AI systems, and offers more sophisticated and effective alternatives. The paper also addresses widespread controversies and confusions in the field by providing a common language among different stakeholders of high-impact AI systems. It describes various trade-offs involving AI fairness, and provides practical recommendations for balancing them. It offers techniques for evaluating the costs and benefits of fairness targets, and defines the role of human judgment in setting these targets. This paper provides discussions and guidelines for AI practitioners, organization leaders, and policymakers, as well as various links to additional materials for a more technical audience. Numerous real-world examples are provided to clarify the concepts, challenges, and recommendations from a practical perspective.
翻訳日:2022-07-21 13:02:37 公開日:2022-07-20
# ロボット作業における相互強化学習におけるフィードバック周波数の影響の定量化

Quantifying the Effect of Feedback Frequency in Interactive Reinforcement Learning for Robotic Tasks ( http://arxiv.org/abs/2207.09845v1 )

ライセンス: Link先を確認
Daniel Harnack and Julie Pivin-Bachler and Nicol\'as Navarro-Guerrero(参考訳) 強化学習(RL)はロボット制御において広く採用されている。 多くの成功にもかかわらず、1つの大きな問題は、非常に低いデータ効率である。 1つの解決策はインタラクティブなフィードバックであり、RLを大幅に高速化することが示されている。 結果として、多くの異なる戦略が存在するが、これは主に離散グリッドワールドと小規模の最適制御シナリオでテストされている。 文献では、どのフィードバック周波数が最適か、どの時点でフィードバックが最も有益かについてのコンセンサスはない。 これらの相違を解決するために,ロボット作業におけるフィードバック周波数の影響を連続状態と行動空間で分離,定量化する。 この実験は、複雑なロボットマニピュレータアームの逆運動学学習を包含する。 異なる複雑性レベルでは、一見矛盾した報告現象が発生する。 さらに, 理想的なフィードバック周波数は1つも存在しないことが示唆された。 むしろ、エージェントのタスクの習熟度が増加するにつれて、フィードバックの頻度を変更するべきである。

Reinforcement learning (RL) has become widely adopted in robot control. Despite many successes, one major persisting problem can be very low data efficiency. One solution is interactive feedback, which has been shown to speed up RL considerably. As a result, there is an abundance of different strategies, which are, however, primarily tested on discrete grid-world and small scale optimal control scenarios. In the literature, there is no consensus about which feedback frequency is optimal or at which time the feedback is most beneficial. To resolve these discrepancies we isolate and quantify the effect of feedback frequency in robotic tasks with continuous state and action spaces. The experiments encompass inverse kinematics learning for robotic manipulator arms of different complexity. We show that seemingly contradictory reported phenomena occur at different complexity levels. Furthermore, our results suggest that no single ideal feedback frequency exists. Rather that feedback frequency should be changed as the agent's proficiency in the task increases.
翻訳日:2022-07-21 13:02:20 公開日:2022-07-20
# ラグランジアン緩和によるソフト制約車両経路問題の解法

Learning to Solve Soft-Constrained Vehicle Routing Problems with Lagrangian Relaxation ( http://arxiv.org/abs/2207.09860v1 )

ライセンス: Link先を確認
Qiaoyue Tang, Yangzhe Kong, Lemeng Pan, Choonmeng Lee(参考訳) 現実世界のアプリケーションにおける車両ルーティング問題(VRP)は、しばしば様々な制約が伴うため、正確な解法やヒューリスティックな探索手法にさらなる計算課題をもたらす。 近年,サンプルデータからヒューリスティックな動きパターンを学習するアイデアは,ソリューション開発コストの削減にますます期待されている。 しかし、より多くのタイプの制約付きvrpに対処するための学習ベースのアプローチを使うことは依然として課題である。 この難しさは最適解を探しながら制約違反を制御することである。 この課題を解決するために,ラグランジアン緩和手法を導入し,制約付きポリシー最適化を用いてソフト制約付きVRPを解くための強化学習手法を提案する。 本手法は,3種類のVRP,TSPTW(Travelling Salesman Problem with Time Windows),CVRP(Capacitated VRP with Time Windows),CVRPTW(Capacitated VRP with Time Windows)に適用し,提案手法の一般化可能性を示す。 既存のrlベースの手法とオープンソースのヒューリスティックソルバとの比較を行った結果,旅行距離,制約違反,推論速度のバランスが良好であるソリューションを見つけることで,その競合性を示す。

Vehicle Routing Problems (VRPs) in real-world applications often come with various constraints, therefore bring additional computational challenges to exact solution methods or heuristic search approaches. The recent idea to learn heuristic move patterns from sample data has become increasingly promising to reduce solution developing costs. However, using learning-based approaches to address more types of constrained VRP remains a challenge. The difficulty lies in controlling for constraint violations while searching for optimal solutions. To overcome this challenge, we propose a Reinforcement Learning based method to solve soft-constrained VRPs by incorporating the Lagrangian relaxation technique and using constrained policy optimization. We apply the method on three common types of VRPs, the Travelling Salesman Problem with Time Windows (TSPTW), the Capacitated VRP (CVRP) and the Capacitated VRP with Time Windows (CVRPTW), to show the generalizability of the proposed method. After comparing to existing RL-based methods and open-source heuristic solvers, we demonstrate its competitive performance in finding solutions with a good balance in travel distance, constraint violations and inference speed.
翻訳日:2022-07-21 13:02:08 公開日:2022-07-20
# 科学応用のためのグラフニューラルネットワークの動作レベルパフォーマンスベンチマーク

Operation-Level Performance Benchmarking of Graph Neural Networks for Scientific Applications ( http://arxiv.org/abs/2207.09955v1 )

ライセンス: Link先を確認
Ryien Hosseini, Filippo Simini, Venkatram Vishwanath(参考訳) 科学機械学習におけるグラフニューラルネットワーク(GNN)の普及に伴い、そのトレーニングと推論効率はますます重要になっている。 さらに、ディープラーニングの分野全体としては、より広く、より深いネットワーク、そしてこれまではデータサイズが増加する傾向にあり、ハードハードウェアのボトルネックに遭遇することが多い。 新しい専門ハードウェアプラットフォームは、この問題に対するエキサイティングな解決策を提供する。 本稿では,Pytorch Geometric Software フレームワークで実装された科学計算用 GNN に関連する低レベル演算を体系的にプロファイリングし,選択する。 これらはnvidia a100 gpu上でテンソルスパーシティを含む様々な入力値の組み合わせに対して厳格にベンチマークされる。 そして、これらの結果を各操作ごとに分析する。 NVIDIAのシステムでは,1) メモリ非効率性などのボトルネックが,データ空間のみよりも実行コストを優先すること,2) ネイティブなPytorch演算はPytorchと同等以上の競争力を持つこと,3) 入力データ空間の低~中程度のレベルでのPytorch演算,3) 最先端のGNNアーキテクチャの中心となる多くの操作は,空間空間の最適化をほとんど行っていないこと,などが結論付けている。 これらの結果は、特殊なハードウェア上でこれらの操作を開発する人々のベースラインとして機能し、その後の分析によって、これらの操作の将来のソフトウェアやハードウェアベースの最適化や、拡張性のあるGNN全体のパフォーマンスが向上することを期待しています。

As Graph Neural Networks (GNNs) increase in popularity for scientific machine learning, their training and inference efficiency is becoming increasingly critical. Additionally, the deep learning field as a whole is trending towards wider and deeper networks, and ever increasing data sizes, to the point where hard hardware bottlenecks are often encountered. Emerging specialty hardware platforms provide an exciting solution to this problem. In this paper, we systematically profile and select low-level operations pertinent to GNNs for scientific computing implemented in the Pytorch Geometric software framework. These are then rigorously benchmarked on NVIDIA A100 GPUs for several various combinations of input values, including tensor sparsity. We then analyze these results for each operation. At a high level, we conclude that on NVIDIA systems: (1) confounding bottlenecks such as memory inefficiency often dominate runtime costs moreso than data sparsity alone, (2) native Pytorch operations are often as or more competitive than their Pytorch Geometric equivalents, especially at low to moderate levels of input data sparsity, and (3) many operations central to state-of-the-art GNN architectures have little to no optimization for sparsity. We hope that these results serve as a baseline for those developing these operations on specialized hardware and that our subsequent analysis helps to facilitate future software and hardware based optimizations of these operations and thus scalable GNN performance as a whole.
翻訳日:2022-07-21 13:01:46 公開日:2022-07-20
# 限定アノテーションによるアルゴリズムバイアスの緩和

Mitigating Algorithmic Bias with Limited Annotations ( http://arxiv.org/abs/2207.10018v1 )

ライセンス: Link先を確認
Guanchu Wang and Mengnan Du and Ninghao Liu and Na Zou and Xia Hu(参考訳) フェアネスモデリングに関する既存の研究は、すべてのインスタンスに対するセンシティブな属性が完全に利用可能であり、センシティブな情報を取得するコストが高いため、多くの現実世界のアプリケーションでは当てはまらないと一般的に仮定している。 機密属性が公開または利用可能でない場合、バイアスを軽減するためにトレーニングデータのごく一部に手動で注釈を付ける必要がある。 しかし、異なる感度群間の歪分布は、注釈付き部分集合における元のデータセットの歪性を保持し、非最適バイアス緩和につながる。 そこで本研究では,アルゴリズムバイアスの影響を最大限に排除するために,限定的なアノテーションを導くための対話型フレームワークであるactive penalization of discrimination (apod)を提案する。 提案するapodは,限定的なアノテーション予算を効率的に活用するために,識別ペナリゼーションとアクティブインスタンス選択を統合し,アルゴリズムバイアスのバウンドが可能であることが理論的に証明されている。 5つのベンチマークデータセットの評価によると、APODは制限されたアノテーション予算の下で最先端のベースラインメソッドよりも優れており、完全に注釈付きバイアス軽減と同等のパフォーマンスを示している。

Existing work on fairness modeling commonly assumes that sensitive attributes for all instances are fully available, which may not be true in many real-world applications due to the high cost of acquiring sensitive information. When sensitive attributes are not disclosed or available, it is needed to manually annotate a small part of the training data to mitigate bias. However, the skewed distribution across different sensitive groups preserves the skewness of the original dataset in the annotated subset, which leads to non-optimal bias mitigation. To tackle this challenge, we propose Active Penalization Of Discrimination (APOD), an interactive framework to guide the limited annotations towards maximally eliminating the effect of algorithmic bias. The proposed APOD integrates discrimination penalization with active instance selection to efficiently utilize the limited annotation budget, and it is theoretically proved to be capable of bounding the algorithmic bias. According to the evaluation on five benchmark datasets, APOD outperforms the state-of-the-arts baseline methods under the limited annotation budget, and shows comparable performance to fully annotated bias mitigation, which demonstrates that APOD could benefit real-world applications when sensitive information is limited.
翻訳日:2022-07-21 13:01:19 公開日:2022-07-20
# いくつか例から学ぶ:深層学習による網膜画像からの性分類

Learning from few examples: Classifying sex from retinal images via deep learning ( http://arxiv.org/abs/2207.09624v1 )

ライセンス: Link先を確認
Aaron Berk, Gulcenur Ozturan, Parsa Delavari, David Maberley, \"Ozg\"ur Y{\i}lmaz and Ipek Oruc(参考訳) 深層学習は、医療画像、特に自動診断ツールを開発するための畳み込みニューラルネットワーク(cnns)の使用に大きな関心を寄せてきた。 非侵襲的買収により、網膜底イメージングはこのような自動化アプローチに適応できる。 cnnを用いたファンダス画像の解析に関する最近の研究は、トレーニングと検証のために大量のデータへのアクセスに依存している。 しかし、データレジデンシーとデータプライバシの制限は、患者の機密性が義務付けられている医療現場におけるこのアプローチの適用性を損なう。 本稿では,眼底画像から患者の性別を分類する小データセットにおけるdlの性能について,最近まで眼底画像に存在しなかったり,定量化できなかったりする特徴であるdlの性能を示す。 最後の層がバイナリ分類のために修正されたresnet-152モデルを微調整する。 いくつかの実験では、1つのプライベート(DOVS)と1つのパブリック(ODIR)データソースを用いて、小さなデータセットコンテキストのパフォーマンスを評価する。 約2500眼底画像を用いて開発した本モデルは,最大0.72点(95%ci: [0.67, 0.77])のaucスコアを達成した。 これは、以前の文献に比べてデータセットサイズが1000倍近く減少したにもかかわらず、パフォーマンスがたった25%減少することに相当する。 網膜画像からの性分類のような難しいタスクであっても、非常に小さなデータセットでは分類が可能である。 さらに,dovs と odir 間のドメイン適応実験を行い,データキュレーションがトレーニングと一般化性に与える影響を調査し,cnn 分類器の性能を最大化するモデルセンスリングを検討する。

Deep learning has seen tremendous interest in medical imaging, particularly in the use of convolutional neural networks (CNNs) for developing automated diagnostic tools. The facility of its non-invasive acquisition makes retinal fundus imaging amenable to such automated approaches. Recent work in analyzing fundus images using CNNs relies on access to massive data for training and validation - hundreds of thousands of images. However, data residency and data privacy restrictions stymie the applicability of this approach in medical settings where patient confidentiality is a mandate. Here, we showcase results for the performance of DL on small datasets to classify patient sex from fundus images - a trait thought not to be present or quantifiable in fundus images until recently. We fine-tune a Resnet-152 model whose last layer has been modified for binary classification. In several experiments, we assess performance in the small dataset context using one private (DOVS) and one public (ODIR) data source. Our models, developed using approximately 2500 fundus images, achieved test AUC scores of up to 0.72 (95% CI: [0.67, 0.77]). This corresponds to a mere 25% decrease in performance despite a nearly 1000-fold decrease in the dataset size compared to prior work in the literature. Even with a hard task like sex categorization from retinal images, we find that classification is possible with very small datasets. Additionally, we perform domain adaptation experiments between DOVS and ODIR; explore the effect of data curation on training and generalizability; and investigate model ensembling to maximize CNN classifier performance in the context of small development datasets.
翻訳日:2022-07-21 12:57:53 公開日:2022-07-20
# 顔の感情分析 : 合成データとマルチタスク学習の課題から学ぶ

Facial Affect Analysis: Learning from Synthetic Data & Multi-Task Learning Challenges ( http://arxiv.org/abs/2207.09748v1 )

ライセンス: Link先を確認
Siyang Li, Yifan Xu, Huanyu Wu, Dongrui Wu, Yingjie Yin, Jiajiong Cao, Jingting Ding(参考訳) 顔の感情分析は、実験室で制御された状況から野生の状況に移行する上で、依然として困難な課題である。 本稿では,第4回ABAW(Affective Behavior Analysis In-The-Wild)コンペティションにおける2つの課題に対処する新しい枠組みを提案する。 一 マルチタスク学習(MTL)の課題及び課題 二 合成データ(LSD)チャレンジから学ぶこと。 MTLチャレンジでは,特徴ベクトルのアンサンブル戦略を改良したSMM-EmotionNetを採用する。 LSD問題に対して,単一ラベルの問題,不均衡分布,微調整制限,モデルアーキテクチャの選択に対処する各手法を提案する。 実験結果から,提案手法がベースラインよりも高い性能を示した。 コードはhttps://github.com/sylyoung/ABAW4-HUST-ANTで公開されている。

Facial affect analysis remains a challenging task with its setting transitioned from lab-controlled to in-the-wild situations. In this paper, we present novel frameworks to handle the two challenges in the 4th Affective Behavior Analysis In-The-Wild (ABAW) competition: i) Multi-Task-Learning (MTL) Challenge and ii) Learning from Synthetic Data (LSD) Challenge. For MTL challenge, we adopt the SMM-EmotionNet with a better ensemble strategy of feature vectors. For LSD challenge, we propose respective methods to combat the problems of single labels, imbalanced distribution, fine-tuning limitations, and choice of model architectures. Experimental results on the official validation sets from the competition demonstrated that our proposed approaches outperformed baselines by a large margin. The code is available at https://github.com/sylyoung/ABAW4-HUST-ANT.
翻訳日:2022-07-21 12:57:30 公開日:2022-07-20
# 半擬似ラベルと3次元データ拡張を用いた自律走行のための新しいニューラルネットワーク学習法

A Novel Neural Network Training Method for Autonomous Driving Using Semi-Pseudo-Labels and 3D Data Augmentations ( http://arxiv.org/abs/2207.09869v1 )

ライセンス: Link先を確認
Tamas Matuszka, Daniel Kozma(参考訳) 自律運転のための3dオブジェクト検出を行うためにニューラルネットワークをトレーニングするには、多種多様な注釈データが必要である。 しかし、十分な品質と量でトレーニングデータを取得することは高価であり、人やセンサーの制約のため、時には不可能である。 したがって、この制限を克服し、正確な3dオブジェクト検出を可能にするために、現在のトレーニング方法を拡張するための新しいソリューションが必要である。 上記の問題の解法は, 半擬似ラベル法と新しい3次元拡張法を組み合わせたものである。 提案手法の適用性を示すため,3次元物体検出のための畳み込みニューラルネットワークの設計を行った。

Training neural networks to perform 3D object detection for autonomous driving requires a large amount of diverse annotated data. However, obtaining training data with sufficient quality and quantity is expensive and sometimes impossible due to human and sensor constraints. Therefore, a novel solution is needed for extending current training methods to overcome this limitation and enable accurate 3D object detection. Our solution for the above-mentioned problem combines semi-pseudo-labeling and novel 3D augmentations. For demonstrating the applicability of the proposed method, we have designed a convolutional neural network for 3D object detection which can significantly increase the detection range in comparison with the training data distribution.
翻訳日:2022-07-21 12:57:17 公開日:2022-07-20
# x線透視におけるロバストランドマークに基づくステント追跡

Robust Landmark-based Stent Tracking in X-ray Fluoroscopy ( http://arxiv.org/abs/2207.09933v1 )

ライセンス: Link先を確認
Luojie Huang, Yikang Liu, Li Chen, Eric Z Chen, Xiao Chen, and Shanhui Sun(参考訳) 血管形成術(すなわち冠状動脈開放術)の術式では, バルーンやステントなどの装置をX線蛍光法で動脈内に設置し, 拡張する必要がある。 x線照射の限界のため、結果として生じる画像はしばしば騒がしい。 これらのデバイスの正しい配置をチェックするために、一般的に複数のモーション補償フレームが平均されてビューが向上する。 したがって、デバイス追跡はこの目的のために必要となる手順である。 血管形成装置は, 追跡が容易な無線式マーカーを備えるように設計されているが, 血管形成術におけるマーカーサイズや複雑なシーンが小さいため, 現状の方法では満足いく結果が得られない。 本稿では,u-netベースのランドマーク検出,resnetベースのステント提案と特徴抽出,および空間情報と出現特徴の両方を時間的に集約したグラフ畳み込みニューラルネットワーク(gcn)ベースのステントトラッキングという3つの階層モジュールからなる,単一ステント追跡のためのエンドツーエンドのディープラーニングフレームワークを提案する。 実験の結果,最先端のポイントベース追跡モデルと比較して検出精度が有意に向上した。 さらに、その高速な推論速度は臨床要件を満たす。

In clinical procedures of angioplasty (i.e., open clogged coronary arteries), devices such as balloons and stents need to be placed and expanded in arteries under the guidance of X-ray fluoroscopy. Due to the limitation of X-ray dose, the resulting images are often noisy. To check the correct placement of these devices, typically multiple motion-compensated frames are averaged to enhance the view. Therefore, device tracking is a necessary procedure for this purpose. Even though angioplasty devices are designed to have radiopaque markers for the ease of tracking, current methods struggle to deliver satisfactory results due to the small marker size and complex scenes in angioplasty. In this paper, we propose an end-to-end deep learning framework for single stent tracking, which consists of three hierarchical modules: U-Net based landmark detection, ResNet based stent proposal and feature extraction, and graph convolutional neural network (GCN) based stent tracking that temporally aggregates both spatial information and appearance features. The experiments show that our method performs significantly better in detection compared with the state-of-the-art point-based tracking models. In addition, its fast inference speed satisfies clinical requirements.
翻訳日:2022-07-21 12:57:06 公開日:2022-07-20
# クラス依存スコアを用いたドメインシフト時のモデル性能の推定

Estimating Model Performance under Domain Shifts with Class-Specific Confidence Scores ( http://arxiv.org/abs/2207.09957v1 )

ライセンス: Link先を確認
Zeju Li and Konstantinos Kamnitsas and Mobarakol Islam and Chen Chen and Ben Glocker(参考訳) マシンラーニングモデルは通常、トレーニング設定と異なるテスト設定にデプロイされるため、ドメインの変更によってモデルパフォーマンスが低下する可能性がある。 トレーニング済みのモデルが特定のデプロイメント設定のデータ、例えば特定のクリニックのデータに基づいて達成されるパフォーマンスを推定できれば、モデルが安全にデプロイ可能かどうか、あるいはそのパフォーマンスが特定のデータで許容不可能に低下するかを判断できる。 既存のアプローチでは、デプロイメントのドメインからラベルなしのテストデータに対する予測の信頼性に基づいてこれを見積もっている。 信頼度を校正するための手法は,クラス不均衡に起因するバイアスを考慮せず,結果としてクラス単位での正確さを推定できないため,既存の手法ではクラス不均衡データに苦しむことが判明した。 本稿では,不均衡データセットの性能推定の枠組みにおいて,クラス毎の校正を導入する。 具体的には、温度スケーリング(TS)、信頼度差(DoC)、平均閾値信頼度(ATC)など、最先端の信頼度に基づくモデル評価手法のクラス固有の変更を導出する。 また,画像分割におけるDice類似度係数(DSC)を推定する手法も拡張した。 4つの課題について実験を行い,不均衡データセットの推定精度を一貫して向上させる。 本手法は,従来の手法と比較して,自然領域シフト下での分類精度を18\%向上させ,セグメンテーションタスクにおける推定精度を2倍にする。

Machine learning models are typically deployed in a test setting that differs from the training setting, potentially leading to decreased model performance because of domain shift. If we could estimate the performance that a pre-trained model would achieve on data from a specific deployment setting, for example a certain clinic, we could judge whether the model could safely be deployed or if its performance degrades unacceptably on the specific data. Existing approaches estimate this based on the confidence of predictions made on unlabeled test data from the deployment's domain. We find existing methods struggle with data that present class imbalance, because the methods used to calibrate confidence do not account for bias induced by class imbalance, consequently failing to estimate class-wise accuracy. Here, we introduce class-wise calibration within the framework of performance estimation for imbalanced datasets. Specifically, we derive class-specific modifications of state-of-the-art confidence-based model evaluation methods including temperature scaling (TS), difference of confidences (DoC), and average thresholded confidence (ATC). We also extend the methods to estimate Dice similarity coefficient (DSC) in image segmentation. We conduct experiments on four tasks and find the proposed modifications consistently improve the estimation accuracy for imbalanced datasets. Our methods improve accuracy estimation by 18\% in classification under natural domain shifts, and double the estimation accuracy on segmentation tasks, when compared with prior methods.
翻訳日:2022-07-21 12:56:46 公開日:2022-07-20
# 教師なし深層形状マッチング

Unsupervised Deep Multi-Shape Matching ( http://arxiv.org/abs/2207.09610v1 )

ライセンス: Link先を確認
Dongliang Cao, Florian Bernard(参考訳) 3d形状マッチングは、コンピュータビジョンとコンピュータグラフィックスにおける長年の問題である。 深層ニューラルネットワークは形状整合の最先端の結果をもたらすことが示されたが、既存の学習に基づくアプローチは、マルチ形状整合の文脈では限られている。 (i)一対の形状にのみ焦点を合わせ、サイクル不整合に苦しむか、または (ii) 形状の集合の一致に対処するために明示的なテンプレート形状が必要である。 本稿では,明示的なテンプレート形状に依存しないサイクル一貫性のあるマルチマッチングを実現するための,深層多形マッチング手法を提案する。 この目的のために、我々は、強力な関数型マップ正規化と組み合わせた形状対一のマルチマッチング表現を利用して、我々のマルチ形状マッチングニューラルネットワークを完全に教師なしで訓練することができる。 関数写像正則化は訓練期間中にのみ考慮されるが、対応を予測するために関数写像は計算されないため、高速な推論が可能となる。 提案手法は,いくつかの挑戦的なベンチマークデータセットに対して,最先端の結果が得られたことを実証する。

3D shape matching is a long-standing problem in computer vision and computer graphics. While deep neural networks were shown to lead to state-of-the-art results in shape matching, existing learning-based approaches are limited in the context of multi-shape matching: (i) either they focus on matching pairs of shapes only and thus suffer from cycle-inconsistent multi-matchings, or (ii) they require an explicit template shape to address the matching of a collection of shapes. In this paper, we present a novel approach for deep multi-shape matching that ensures cycle-consistent multi-matchings while not depending on an explicit template shape. To this end, we utilise a shape-to-universe multi-matching representation that we combine with powerful functional map regularisation, so that our multi-shape matching neural network can be trained in a fully unsupervised manner. While the functional map regularisation is only considered during training time, functional maps are not computed for predicting correspondences, thereby allowing for fast inference. We demonstrate that our method achieves state-of-the-art results on several challenging benchmark datasets, and, most remarkably, that our unsupervised method even outperforms recent supervised methods.
翻訳日:2022-07-21 12:56:17 公開日:2022-07-20
# DeepIPC:実環境における移動ロボットの深い統合認識と制御

DeepIPC: Deeply Integrated Perception and Control for Mobile Robot in Real Environments ( http://arxiv.org/abs/2207.09934v1 )

ライセンス: Link先を確認
Oskar Natan and Jun Miura(参考訳) 本稿では,移動ロボットを自律的に駆動する際の知覚と制御の両タスクを処理する,エンドツーエンドマルチタスクモデルであるDeepIPCを提案する。 モデルは2つの主要部分、知覚モジュールとコントローラモジュールから構成される。 知覚モジュールは、RGB画像と深度マップを使用してセマンティックセグメンテーションと鳥の目視(BEV)セマンティックマッピングを行い、そのエンコードされた特徴を提供する。 一方、コントローラモジュールは、これらの特徴をGNSS位置の測定と角速度で処理し、遅延する特徴を持つウェイポイントを推定する。 次に、2つの異なるエージェントを使用して、ウェイポイントと潜伏した特徴を一連のナビゲーション制御に翻訳し、ロボットを駆動する。 実環境における様々な条件下で運転記録を予測し,自動走行を行うことにより,モデルの評価を行う。 実験結果に基づき、deepipcは、他のモデルと比較してパラメータが少ない場合でも、最高のドレイバビリティとマルチタスク性能を達成している。

We propose DeepIPC, an end-to-end multi-task model that handles both perception and control tasks in driving a mobile robot autonomously. The model consists of two main parts, perception and controller modules. The perception module takes RGB image and depth map to perform semantic segmentation and bird's eye view (BEV) semantic mapping along with providing their encoded features. Meanwhile, the controller module processes these features with the measurement of GNSS locations and angular speed to estimate waypoints that come with latent features. Then, two different agents are used to translate waypoints and latent features into a set of navigational controls to drive the robot. The model is evaluated by predicting driving records and performing automated driving under various conditions in the real environment. Based on the experimental results, DeepIPC achieves the best drivability and multi-task performance even with fewer parameters compared to the other models.
翻訳日:2022-07-21 12:55:57 公開日:2022-07-20
# データ拡張を用いた逆テキスト正規化の改善

Improving Data Driven Inverse Text Normalization using Data Augmentation ( http://arxiv.org/abs/2207.09674v1 )

ライセンス: Link先を確認
Laxmi Pandey, Debjyoti Paul, Pooja Chitkara, Yutong Pang, Xuedong Zhang, Kjell Schubert, Mark Chou, Shu Liu, Yatharth Saraf(参考訳) 逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。 従来の手作りITNルールは、書き起こしとメンテナンスが複雑である。 一方、ニューラルネットワークアプローチでは、ASRシステム(ドメイン内データ)と同じまたは類似のドメインで、高品質な音声書きペアの例をトレーニングする必要がある。 これらのアプローチにはどちらもコストと複雑なアノテーションが必要です。 本稿では,人間が最小限のアノテーションで,ドメイン外のテキストデータからリッチな数値対を効果的に生成するデータ拡張手法を提案する。 私たちは、我々のデータ拡張技術を用いてトレーニングされたITNモデルが、基数、通貨、分数などのすべての数値面にわたるドメイン内データのみを使用してトレーニングされたITNモデルを、全体的な精度14.44%で一貫して上回っていることを実証的に実証した。

Inverse text normalization (ITN) is used to convert the spoken form output of an automatic speech recognition (ASR) system to a written form. Traditional handcrafted ITN rules can be complex to transcribe and maintain. Meanwhile neural modeling approaches require quality large-scale spoken-written pair examples in the same or similar domain as the ASR system (in-domain data), to train. Both these approaches require costly and complex annotations. In this paper, we present a data augmentation technique that effectively generates rich spoken-written numeric pairs from out-of-domain textual data with minimal human annotation. We empirically demonstrate that ITN model trained using our data augmentation technique consistently outperform ITN model trained using only in-domain data across all numeric surfaces like cardinal, currency, and fraction, by an overall accuracy of 14.44%.
翻訳日:2022-07-21 12:55:17 公開日:2022-07-20
# ボアホール比抵抗測定のための自動機械学習

Automated machine learning for borehole resistivity measurements ( http://arxiv.org/abs/2207.09849v1 )

ライセンス: Link先を確認
M. Shahriari, D. Pardo, S. Kargaran, T. Teijeiro(参考訳) 深層ニューラルネットワーク(dnns)は、近似前方および逆演算子へのボアホール比抵抗測定の反転に対するリアルタイム解を提供する。 非常に大きなDNNを使って演算子を近似することができるが、かなりの訓練時間を必要とする。 さらに、トレーニング後のネットワークの評価には、かなりの量のメモリと処理能力が必要となる。 さらに、モデルに過度に適合するかもしれません。 本研究では, DNNの精度とサイズを考慮したスコアリング関数を提案する。 このスコアリング関数を用いて、DNNアーキテクチャ検索アルゴリズムを用いて、参照ネットワークよりも小さい準最適DNNを得る。 準最適DNNは、元の大きなDNNに匹敵する精度を提供する。

Deep neural networks (DNNs) offer a real-time solution for the inversion of borehole resistivity measurements to approximate forward and inverse operators. It is possible to use extremely large DNNs to approximate the operators, but it demands a considerable training time. Moreover, evaluating the network after training also requires a significant amount of memory and processing power. In addition, we may overfit the model. In this work, we propose a scoring function that accounts for the accuracy and size of the DNNs compared to a reference DNN that provides a good approximation for the operators. Using this scoring function, we use DNN architecture search algorithms to obtain a quasi-optimal DNN smaller than the reference network; hence, it requires less computational effort during training and evaluation. The quasi-optimal DNN delivers comparable accuracy to the original large DNN.
翻訳日:2022-07-21 12:51:18 公開日:2022-07-20
# 予測的オブジェクト中心プロセスモニタリング

Predictive Object-Centric Process Monitoring ( http://arxiv.org/abs/2207.10017v1 )

ライセンス: Link先を確認
Timo Rohrer, Anahita Farhang Ghahfarokhi, Mohamed Behery, Gerhard Lakemeyer, Wil M.P. van der Aalst(参考訳) ビジネスプロセスの自動化とデジタル化により、情報システムで取得された大量のデータが、プロセスの理解を深めたり、ワークフローを改善したり、運用サポートを提供するのに役立つ。 進行中のプロセスに関する予測を行うことで、ボトルネックを特定し、リソースの再配置や、プロセスインスタンスの状態(ケース)に関する洞察を得ることができる。 伝統的に、データはイベントログ形式でシステムから抽出され、オーダー・トゥ・キャッシュ(o2c)プロセスのための注文idのような単一の識別ケース概念を持つ。 しかし、実際のプロセスは、順序、アイテム、パッケージなど、複数のオブジェクトタイプを持つことが多いので、単一のケース概念の使用を強制するフォーマットは、データの基礎的な関係を反映しない。 オブジェクト中心イベントログ(ocel)フォーマットは、この情報を正しくキャプチャするために導入された。 最先端の予測手法は、従来のイベントログにのみ適合している。 本稿では,GAN(Generative Adversarial Networks)アーキテクチャ,LSTM(Long Short-Term Memory)アーキテクチャ,Seq2seq(Sequence to Sequence Model)モデルをOCELに含まれる豊富なデータで拡張可能であることを示す。 OCELのオブジェクトは次のイベントとタイムスタンプを予測するのに役立つ属性を持つことができる。 予測残イベントのシーケンス類似度と平均絶対誤差(MAE)のタイムスタンプでは、選択されたオブジェクト属性がモデルに有用な機能であるかどうかによって、この論文のアプローチは以前の研究と一致またはオーバーする。 さらに、この論文は、ユーザの入力から次のアクティビティのシーケンスを予測するWebインターフェースを提供する。

The automation and digitalization of business processes has resulted in large amounts of data captured in information systems, which can aid businesses in understanding their processes better, improve workflows, or provide operational support. By making predictions about ongoing processes, bottlenecks can be identified and resources reallocated, as well as insights gained into the state of a process instance (case). Traditionally, data is extracted from systems in the form of an event log with a single identifying case notion, such as an order id for an Order to Cash (O2C) process. However, real processes often have multiple object types, for example, order, item, and package, so a format that forces the use of a single case notion does not reflect the underlying relations in the data. The Object-Centric Event Log (OCEL) format was introduced to correctly capture this information. The state-of-the-art predictive methods have been tailored to only traditional event logs. This thesis shows that a prediction method utilizing Generative Adversarial Networks (GAN), Long Short-Term Memory (LSTM) architectures, and Sequence to Sequence models (Seq2seq), can be augmented with the rich data contained in OCEL. Objects in OCEL can have attributes that are useful in predicting the next event and timestamp, such as a priority class attribute for an object type package indicating slower or faster processing. In the metrics of sequence similarity of predicted remaining events and mean absolute error (MAE) of the timestamp, the approach in this thesis matches or exceeds previous research, depending on whether selected object attributes are useful features for the model. Additionally, this thesis provides a web interface to predict the next sequence of activities from user input.
翻訳日:2022-07-21 12:50:43 公開日:2022-07-20
# 識別器重み付きオフライン模倣学習

Discriminator-Weighted Offline Imitation Learning from Suboptimal Demonstrations ( http://arxiv.org/abs/2207.10050v1 )

ライセンス: Link先を確認
Haoran Xu, Xianyuan Zhan, Honglei Yin, Huiling Qin(参考訳) エージェントがオンライン環境の相互作用を増やさずに最適な専門家行動方針を学ぶことを目的としたオフライン模倣学習(il)の問題について検討する。 その代わりに、エージェントは、最適以下の振る舞いから追加のオフラインデータセットを提供する。 この問題に対処する以前の作業では、専門家データがオフラインデータセットの大部分を占めるか、報酬関数を学習し、その後オフライン強化学習(RL)を実行する必要がある。 本稿では,実演が多量の副最適データを含む場合に,報酬学習とオフラインrlトレーニングの追加ステップを伴わずにこの問題に対処することを目的とする。 行動クローニング(BC)に基づいて,専門家と非専門家のデータを識別するための識別器を導入する。 本研究では,両タスクの学習を促進するための協調フレームワークを提案する。このフレームワークに基づき,判別器の出力をbc損失の重みとして用いる新しいilアルゴリズムを設計する。 実験結果から,提案アルゴリズムはベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現することが示された。

We study the problem of offline Imitation Learning (IL) where an agent aims to learn an optimal expert behavior policy without additional online environment interactions. Instead, the agent is provided with a supplementary offline dataset from suboptimal behaviors. Prior works that address this problem either require that expert data occupies the majority proportion of the offline dataset, or need to learn a reward function and perform offline reinforcement learning (RL) afterwards. In this paper, we aim to address the problem without additional steps of reward learning and offline RL training for the case when demonstrations contain a large proportion of suboptimal data. Built upon behavioral cloning (BC), we introduce an additional discriminator to distinguish expert and non-expert data. We propose a cooperation framework to boost the learning of both tasks, Based on this framework, we design a new IL algorithm, where the outputs of discriminator serve as the weights of the BC loss. Experimental results show that our proposed algorithm achieves higher returns and faster training speed compared to baseline algorithms.
翻訳日:2022-07-21 12:50:15 公開日:2022-07-20
# 擬似不変予測器の学習

Learning Counterfactually Invariant Predictors ( http://arxiv.org/abs/2207.09768v1 )

ライセンス: Link先を確認
Francesco Quinzan, Cecilia Casolo, Krikamol Muandet, Niki Kilbertus, Yucen Luo(参考訳) 本研究では,ある共変量の反実的変化の下で不変な予測子を学習する手法を提案する。 この方法は、予測対象が予測対象出力に影響を与えない共変量によって因果的に影響を受ける場合に有用である。 例えば、オブジェクト認識モデルは、オブジェクト自体の位置、向き、スケールに影響される可能性がある。 本稿では,そのような共変量の変化に反実的に不変である予測器を訓練する問題に対処する。 本研究では,条件付きカーネルの平均埋め込みに基づくモデルに依存しない正規化項を提案する。 本手法は, カテゴリー的属性と連続的多変量属性の混合特性を扱うことができる。 合成および実世界のデータに対する実験結果から, 様々な環境下での本手法の有効性が示された。

We propose a method to learn predictors that are invariant under counterfactual changes of certain covariates. This method is useful when the prediction target is causally influenced by covariates that should not affect the predictor output. For instance, an object recognition model may be influenced by position, orientation, or scale of the object itself. We address the problem of training predictors that are explicitly counterfactually invariant to changes of such covariates. We propose a model-agnostic regularization term based on conditional kernel mean embeddings, to enforce counterfactual invariance during training. We prove the soundness of our method, which can handle mixed categorical and continuous multi-variate attributes. Empirical results on synthetic and real-world data demonstrate the efficacy of our method in a variety of settings.
翻訳日:2022-07-21 12:49:17 公開日:2022-07-20
# 線形モデルを用いたストリームベース能動学習

Stream-based active learning with linear models ( http://arxiv.org/abs/2207.09874v1 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 自動データ収集スキームの普及と、センサー技術の進歩により、リアルタイムで監視できるデータの量が増えています。 しかし、高いアノテーションコストと品質検査に必要な時間を考えると、データはラベルのない形で利用できることが多い。 これは、ソフトセンサーと予測モデルの開発におけるアクティブラーニングの利用を促進する。 生産時には、製品情報を得るためにランダムな検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。 レグレッションのためのいくつかのクエリ戦略フレームワークが文献で提案されているが、ほとんどが静的プールベースのシナリオに焦点が当てられている。 そこで本研究では,学習者にインスタンスを順次提供し,品質チェックを実行してラベルを取得するか,あるいはインスタンスを破棄するかを即時に判断する,ストリームベースのシナリオのための新しい戦略を提案する。 このアプローチは最適実験設計理論に触発され、ラベルのないデータポイントの情報性にしきい値を設定することで意思決定プロセスの反復的な側面に取り組む。 提案手法は、数値シミュレーションとテネシー・イーストマン・プロセスシミュレータを用いて評価する。 その結果,提案アルゴリズムが提案する例を選択することにより,予測誤差の高速化が図られた。

The proliferation of automated data collection schemes and the advances in sensorics are increasing the amount of data we are able to monitor in real-time. However, given the high annotation costs and the time required by quality inspections, data is often available in an unlabeled form. This is fostering the use of active learning for the development of soft sensors and predictive models. In production, instead of performing random inspections to obtain product information, labels are collected by evaluating the information content of the unlabeled data. Several query strategy frameworks for regression have been proposed in the literature but most of the focus has been dedicated to the static pool-based scenario. In this work, we propose a new strategy for the stream-based scenario, where instances are sequentially offered to the learner, which must instantaneously decide whether to perform the quality check to obtain the label or discard the instance. The approach is inspired by the optimal experimental design theory and the iterative aspect of the decision-making process is tackled by setting a threshold on the informativeness of the unlabeled data points. The proposed approach is evaluated using numerical simulations and the Tennessee Eastman Process simulator. The results confirm that selecting the examples suggested by the proposed algorithm allows for a faster reduction in the prediction error.
翻訳日:2022-07-21 12:49:03 公開日:2022-07-20
# 圧縮SGDの適応ステップサイズ法

Adaptive Step-Size Methods for Compressed SGD ( http://arxiv.org/abs/2207.10046v1 )

ライセンス: Link先を確認
Adarsh M. Subramaniam, Akshayaa Magesh, Venugopal V. Veeravalli(参考訳) 圧縮確率勾配降下(sgd)アルゴリズムは、フェデレーション機械学習で発生するような分散および分散最適化問題における通信ボトルネックに対処するために最近提案されている。 既存の圧縮されたSGDアルゴリズムは、理論収束を保証するために非適応的なステップサイズ(定数または減少)を使用する。 通常、ステップサイズはデータセットと学習アルゴリズムに微調整され、優れた経験的性能を提供する。 このような微調整は多くの学習シナリオでは実用的でなく、適応的なステップサイズを用いて圧縮sgdを研究することが興味深い。 ニューラルネットワークを非圧縮設定で効率的に訓練するためのsgdの適応ステップサイズ法に関する先行研究に動機づけられ,圧縮sgdの適応ステップサイズ法を開発した。 特に, 圧縮sgdにおける降下ステップのスケーリング手法を導入し, 補間条件下で, かつ, 強い成長条件下で非凸目的に対して, 対流スムースおよび強い凸スムース目標の次数-最適収束率を確立する。 また、シミュレーション例を通して、このスケーリングがなければアルゴリズムが収束しないことを示す。 本稿では,実世界のデータセットを対象とした深層ニューラルネットワークの実験結果を示し,提案アルゴリズムの性能を文献で提案する圧縮sgd法と比較し,cifar-100とcifar-10の圧縮レベルでのresnet-18,resnet-34およびdrknetアーキテクチャの性能改善を実証する。

Compressed Stochastic Gradient Descent (SGD) algorithms have been recently proposed to address the communication bottleneck in distributed and decentralized optimization problems, such as those that arise in federated machine learning. Existing compressed SGD algorithms assume the use of non-adaptive step-sizes(constant or diminishing) to provide theoretical convergence guarantees. Typically, the step-sizes are fine-tuned in practice to the dataset and the learning algorithm to provide good empirical performance. Such fine-tuning might be impractical in many learning scenarios, and it is therefore of interest to study compressed SGD using adaptive step-sizes. Motivated by prior work on adaptive step-size methods for SGD to train neural networks efficiently in the uncompressed setting, we develop an adaptive step-size method for compressed SGD. In particular, we introduce a scaling technique for the descent step in compressed SGD, which we use to establish order-optimal convergence rates for convex-smooth and strong convex-smooth objectives under an interpolation condition and for non-convex objectives under a strong growth condition. We also show through simulation examples that without this scaling, the algorithm can fail to converge. We present experimental results on deep neural networks for real-world datasets, and compare the performance of our proposed algorithm with previously proposed compressed SGD methods in literature, and demonstrate improved performance on ResNet-18, ResNet-34 and DenseNet architectures for CIFAR-100 and CIFAR-10 datasets at various levels of compression.
翻訳日:2022-07-21 12:48:45 公開日:2022-07-20
# 混合型連続遷移型産業噴霧の高精度・ロバスト分類に向けて

Towards Accurate and Robust Classification in Continuously Transitioning Industrial Sprays with Mixup ( http://arxiv.org/abs/2207.09609v1 )

ライセンス: Link先を確認
Hongjiang Li, Huanyi Shui, Alemayehu Admasu, Praveen Narayanan, Devesh Upadhyay(参考訳) ディープニューラルネットワークによる画像分類は、顔認識、医療画像、自動運転といった分野の有望な応用によって、技術的ブレークスルーが急増している。 しかし、エンジン燃料噴射器スプレーやボディペイントスプレーの高速イメージングのような技術的問題において、ディープニューラルネットワークは、適切で多様なデータの可用性に関する根本的な課題に直面している。 通常、トレーニングには数千、あるいは数百のサンプルしか使用できない。 加えて、異なるスプレークラス間の遷移は連続体であり、画像を正確にラベル付けるために高いレベルのドメイン専門知識を必要とする。 本研究では,産業用スプレーにおけるデータ不足とあいまいなクラス境界を体系的に扱う手法としてmixupを用いた。 データの増大は、小さなデータセット上の大規模ニューラルネットワークの過度に適合する問題を一定レベルまで緩和するが、根本的な解決はできないことを示す。 異なるクラスの凸線形補間が、アプリケーション内の異なるクラス間の連続的な遷移と自然にどのように一致するかについて議論する。 実験では、数百のサンプルしか持たない正確でロバストなディープニューラルネットワーク分類器を訓練するための、シンプルで効果的な方法としてmixupを実証する。

Image classification with deep neural networks has seen a surge of technological breakthroughs with promising applications in areas such as face recognition, medical imaging, and autonomous driving. In engineering problems, however, such as high-speed imaging of engine fuel injector sprays or body paint sprays, deep neural networks face a fundamental challenge related to the availability of adequate and diverse data. Typically, only thousands or sometimes even hundreds of samples are available for training. In addition, the transition between different spray classes is a continuum and requires a high level of domain expertise to label the images accurately. In this work, we used Mixup as an approach to systematically deal with the data scarcity and ambiguous class boundaries found in industrial spray applications. We show that data augmentation can mitigate the over-fitting problem of large neural networks on small data sets, to a certain level, but cannot fundamentally resolve the issue. We discuss how a convex linear interpolation of different classes naturally aligns with the continuous transition between different classes in our application. Our experiments demonstrate Mixup as a simple yet effective method to train an accurate and robust deep neural network classifier with only a few hundred samples.
翻訳日:2022-07-21 12:48:13 公開日:2022-07-20
# パターン生成・コントラストネットワークによる非教師付き産業異常検出

Unsupervised Industrial Anomaly Detection via Pattern Generative and Contrastive Networks ( http://arxiv.org/abs/2207.09792v1 )

ライセンス: Link先を確認
Jianfeng Huang, Chenyang Li, Yimin Lin, and Shiguo Lian(参考訳) 工業生産におけるディープラーニングネットワークのトレーニングに十分な欠陥画像を集めるのは難しい。 そのため,既存の産業的異常検出手法では,CNNをベースとした非教師なし検出・ローカライゼーションネットワークが好まれる。 しかし、従来のエンドツーエンドネットワークは、高次元空間における非線形モデルに適合する障壁に苦しむため、新しい信号に異種が存在する場合、これらの手法は常に失敗する。 さらに、通常の画像の特徴を本質的にクラスタリングすることでメモリライブラリを持っているため、テクスチャ変更に対して堅牢ではない。 そこで本研究では,Vision Transformerをベースとした教師なし異常検出ネットワークを提案する。 階層的なタスク学習とヒューマンエクスペリエンスを使用して、その解釈性を高める。 我々のネットワークはパターン生成と比較ネットワークで構成されている。 パターン生成ネットワークは、2つのVITベースのエンコーダモジュールを使用して、2つの連続したイメージパッチの特徴を抽出し、次にVITベースのデコーダモジュールを使用してこれらの機能の人間設計スタイルを学習し、3番目のイメージパッチを予測する。 その後、siameseベースのネットワークを用いて、生成画像パッチとオリジナル画像パッチの類似度を計算する。 最後に,双方向推論戦略により異常局在を洗練する。 公開データセットMVTecデータセットの比較実験により,従来の最先端手法を上回る99.8%のAUCが得られた。 さらに、私たちは独自の皮革と布のデータセットに質的なイラストを与えます。 その結果,本手法の異常検出における精度を強く証明した。

It is hard to collect enough flaw images for training deep learning network in industrial production. Therefore, existing industrial anomaly detection methods prefer to use CNN-based unsupervised detection and localization network to achieve this task. However, these methods always fail when there are varieties happened in new signals since traditional end-to-end networks suffer barriers of fitting nonlinear model in high-dimensional space. Moreover, they have a memory library by clustering the feature of normal images essentially, which cause it is not robust to texture change. To this end, we propose the Vision Transformer based (VIT-based) unsupervised anomaly detection network. It utilizes a hierarchical task learning and human experience to enhance its interpretability. Our network consists of pattern generation and comparison networks. Pattern generation network uses two VIT-based encoder modules to extract the feature of two consecutive image patches, then uses VIT-based decoder module to learn the human designed style of these features and predict the third image patch. After this, we use the Siamese-based network to compute the similarity of the generation image patch and original image patch. Finally, we refine the anomaly localization by the bi-directional inference strategy. Comparison experiments on public dataset MVTec dataset show our method achieves 99.8% AUC, which surpasses previous state-of-the-art methods. In addition, we give a qualitative illustration on our own leather and cloth datasets. The accurate segment results strongly prove the accuracy of our method in anomaly detection.
翻訳日:2022-07-21 12:45:27 公開日:2022-07-20
# EASNet:ステレオマッチングのための弾力性と正確なネットワークアーキテクチャの検索

EASNet: Searching Elastic and Accurate Network Architecture for Stereo Matching ( http://arxiv.org/abs/2207.09796v1 )

ライセンス: Link先を確認
Qiang Wang, Shaohuai Shi, Kaiyong Zhao, Xiaowen Chu(参考訳) 最近の高度な研究は、ステレオマッチングのためのネットワークアーキテクチャの最適化にかなりの労力を費やしているが、高い精度と高速な推論速度は達成できない。 ネットワーク設計における作業負荷を軽減するため、ニューラルネットワークサーチ(NAS)は、画像分類やオブジェクト検出など、さまざまなスパース予測タスクに大きく成功している。 しかし、密集した予測タスク、特にステレオマッチングに関する既存のnas研究は、異なる計算能力を持つデバイスに効率的かつ効果的にデプロイすることはできない。 そこで本研究では,様々な計算能力を有するデバイス上での様々な3dアーキテクチャ設定をサポートする,弾性的かつ正確なステレオマッチング(easnet)ネットワークを訓練することを提案する。 ターゲットデバイス上のデプロイメント遅延の制約を考慮すると、サブネットワークの正確性を維持しながら、追加のトレーニングをすることなく、完全なEASNetからサブネットワークを素早く抽出できる。 EASNetは、モデル精度と推論速度の観点から、Scene FlowとMPI Sintelデータセット上で、最先端の人間設計アーキテクチャとNASベースのアーキテクチャの両方を上回ります。 特に、推論GPU上にデプロイされたEASNetは、100msのScene Flowデータセットで新しいSOTA 0.73 EPEを実現している。

Recent advanced studies have spent considerable human efforts on optimizing network architectures for stereo matching but hardly achieved both high accuracy and fast inference speed. To ease the workload in network design, neural architecture search (NAS) has been applied with great success to various sparse prediction tasks, such as image classification and object detection. However, existing NAS studies on the dense prediction task, especially stereo matching, still cannot be efficiently and effectively deployed on devices of different computing capabilities. To this end, we propose to train an elastic and accurate network for stereo matching (EASNet) that supports various 3D architectural settings on devices with different computing capabilities. Given the deployment latency constraint on the target device, we can quickly extract a sub-network from the full EASNet without additional training while the accuracy of the sub-network can still be maintained. Extensive experiments show that our EASNet outperforms both state-of-the-art human-designed and NAS-based architectures on Scene Flow and MPI Sintel datasets in terms of model accuracy and inference speed. Particularly, deployed on an inference GPU, EASNet achieves a new SOTA 0.73 EPE on the Scene Flow dataset with 100 ms, which is 4.5$\times$ faster than LEAStereo with a better quality model.
翻訳日:2022-07-21 12:45:04 公開日:2022-07-20
# 潜時空間にはすべて存在する:StyleGAN潜時空間探査による属性編集と属性スタイル操作

Everything is There in Latent Space: Attribute Editing and Attribute Style Manipulation by StyleGAN Latent Space Exploration ( http://arxiv.org/abs/2207.09855v1 )

ライセンス: Link先を確認
Rishubh Parihar, Ankit Dhiman, Tejan Karmali and R. Venkatesh Babu(参考訳) 近年,GAN(Generative Adversarial Networks)を用いて,高いリアリズムを持つ制約のない画像生成が可能になった。 しかし、特定の属性セットで画像を生成することは極めて困難である。 最近の手法では、ジェネレータのレイヤに存在する意味階層を利用して、スタイルベースのganモデルを使用して画像編集を行う。 本稿では,遅延空間操作による高制御画像編集を実現するための簡易かつ効果的なフレームワークFLAMEについて述べる。 具体的には、生成した画像のセマンティック属性を制御する潜在空間(事前学習されたスタイルGAN)の線形方向を推定する。 大規模属性ラベル付きデータセットや属性分類器に依存する従来の手法とは対照的に、FLAMEでは、いくつかのキュレートされたイメージペアの最小限の監督を利用して、非絡み合った編集方向を推定している。 FLAMEは、個々の編集とシーケンシャル編集の両方を、アイデンティティを保ちながら、多様な画像に対して高精度に行うことができる。 さらに,眼鏡や髪髪などの属性に対する多様なスタイルを生成するために,属性スタイル操作の新しいタスクを提案する。 まず、同一の同一性を持つ合成画像の集合を符号化し、潜在空間に異なる属性スタイルを持ち、属性スタイルの多様体を推定する。 この多様体から新しい潜在物をサンプリングすると、生成された画像に新しい属性スタイルが現れる。 そこで,本研究では,学習セットに存在するスタイルを超えて,多種多様な属性スタイルを生成できる,新しいサンプリング手法を提案する。 FLAMEは様々な属性スタイルをアンタングルで生成することができる。 本稿では,従来の画像編集手法と比較して,広範に定性的かつ定量的な比較によってFLAMEの優れた性能を示す。 FLAMEはまた、車や教会のような複数のデータセットでうまく一般化する。

Unconstrained Image generation with high realism is now possible using recent Generative Adversarial Networks (GANs). However, it is quite challenging to generate images with a given set of attributes. Recent methods use style-based GAN models to perform image editing by leveraging the semantic hierarchy present in the layers of the generator. We present Few-shot Latent-based Attribute Manipulation and Editing (FLAME), a simple yet effective framework to perform highly controlled image editing by latent space manipulation. Specifically, we estimate linear directions in the latent space (of a pre-trained StyleGAN) that controls semantic attributes in the generated image. In contrast to previous methods that either rely on large-scale attribute labeled datasets or attribute classifiers, FLAME uses minimal supervision of a few curated image pairs to estimate disentangled edit directions. FLAME can perform both individual and sequential edits with high precision on a diverse set of images while preserving identity. Further, we propose a novel task of Attribute Style Manipulation to generate diverse styles for attributes such as eyeglass and hair. We first encode a set of synthetic images of the same identity but having different attribute styles in the latent space to estimate an attribute style manifold. Sampling a new latent from this manifold will result in a new attribute style in the generated image. We propose a novel sampling method to sample latent from the manifold, enabling us to generate a diverse set of attribute styles beyond the styles present in the training set. FLAME can generate diverse attribute styles in a disentangled manner. We illustrate the superior performance of FLAME against previous image editing methods by extensive qualitative and quantitative comparisons. FLAME also generalizes well on multiple datasets such as cars and churches.
翻訳日:2022-07-21 12:44:42 公開日:2022-07-20
# ソース領域から基本視覚因子を一般化したターゲット領域におけるショートカット学習の克服

Overcoming Shortcut Learning in a Target Domain by Generalizing Basic Visual Factors from a Source Domain ( http://arxiv.org/abs/2207.10002v1 )

ライセンス: Link先を確認
Piyapat Saranrittichai, Chaithanya Kumar Mummadi, Claudia Blaiotta, Mauricio Munoz and Volker Fischer(参考訳) ショートカット学習は、下流タスクを解決するために、深層ニューラルネットワークがトレーニングデータセットの急激な相関に過度に依存する場合に発生する。 先行研究は、これがディープラーニングモデルの合成一般化能力を損なうことを示した。 そこで本研究では,非制御対象領域における近道学習を緩和する新しい手法を提案する。 我々のアプローチは、基本的な視覚要素の独立表現の学習を容易にするために特別に設計された追加データセット(ソースドメイン)でトレーニングセットを拡張します。 私たちは、近道の機会と現実世界のターゲットドメインを明示的に制御する合成ターゲットドメインで、私たちのアイデアをベンチマークします。 さらに、ソースドメインとネットワークアーキテクチャの異なる仕様が合成一般化に与える影響について分析する。 私たちのおもな発見は、ソースドメインからのデータを活用することが、近道学習を緩和する効果的な方法であることです。 学習表現のばらつきの異なる要因にまたがる独立性を促進することによって、ネットワークは予測因子のみを考慮し、推論中に潜在的な近道因子を無視することを学ぶことができる。

Shortcut learning occurs when a deep neural network overly relies on spurious correlations in the training dataset in order to solve downstream tasks. Prior works have shown how this impairs the compositional generalization capability of deep learning models. To address this problem, we propose a novel approach to mitigate shortcut learning in uncontrolled target domains. Our approach extends the training set with an additional dataset (the source domain), which is specifically designed to facilitate learning independent representations of basic visual factors. We benchmark our idea on synthetic target domains where we explicitly control shortcut opportunities as well as real-world target domains. Furthermore, we analyze the effect of different specifications of the source domain and the network architecture on compositional generalization. Our main finding is that leveraging data from a source domain is an effective way to mitigate shortcut learning. By promoting independence across different factors of variation in the learned representations, networks can learn to consider only predictive factors and ignore potential shortcut factors during inference.
翻訳日:2022-07-21 12:44:13 公開日:2022-07-20
# Doge Tickets: Lottery Ticketsをプレイすることでドメイン汎用言語モデルを明らかにする

Doge Tickets: Uncovering Domain-general Language Models by Playing Lottery Tickets ( http://arxiv.org/abs/2207.09638v1 )

ライセンス: Link先を確認
Yi Yang, Chen Zhang, Benyou Wang, Dawei Song(参考訳) 過パラメータ化モデル(典型的には事前学習言語モデル(LM))は、学習バイアスが小さいため、表現力に訴えられる。 しかし、LMの膨大な学習能力は、大きな学習ばらつきを引き起こす可能性がある。 パイロットスタディでは、複数のドメインに直面した場合、パラメータの臨界部分がドメイン固有の方法で予期せず振る舞うのに対して、他はドメイン一般の方法で振る舞うのが分かる。 この現象に動機づけられて、ドメイン一般パラメータが元の lm から派生できるドメイン一般 lm の基盤となることを初めて証明した。 ドメイン一般lmを明らかにするために,抽選券(ダッブド・ドージ券)をプレイすることでドメイン一般パラメータを特定することを提案する。 抽選に介入するために,パラメータを分散に関連付けることで,ドメイン不変なパラメータがどのように存在するかを表現した,ドメイン一般スコアを提案する。 包括的な実験はamazon、mnli、onnotesデータセットで行われる。 その結果、dogeチケットは、競合ベースラインと比べ、ドメイン外一般化が改善されたことが判明した。 分析結果はさらに、ドメインジェネラルパラメータの存在とドッグチケットのパフォーマンス一貫性を示唆している。

Over-parameterized models, typically pre-trained language models (LMs), have shown an appealing expressive power due to their small learning bias. However, the huge learning capacity of LMs can also lead to large learning variance. In a pilot study, we find that, when faced with multiple domains, a critical portion of parameters behave unexpectedly in a domain-specific manner while others behave in a domain-general one. Motivated by this phenomenon, we for the first time posit that domain-general parameters can underpin a domain-general LM that can be derived from the original LM. To uncover the domain-general LM, we propose to identify domain-general parameters by playing lottery tickets (dubbed doge tickets). In order to intervene the lottery, we propose a domain-general score, which depicts how domain-invariant a parameter is by associating it with the variance. Comprehensive experiments are conducted on the Amazon, Mnli and OntoNotes datasets. The results show that the doge tickets obtains an improved out-of-domain generalization in comparison with a range of competitive baselines. Analysis results further hint the existence of domain-general parameters and the performance consistency of doge tickets.
翻訳日:2022-07-21 12:43:54 公開日:2022-07-20
# ベクトル量子化変分オートエンコーダを用いたトランスクリプトーム特性の改善による癌治療

Cancer Subtyping by Improved Transcriptomic Features Using Vector Quantized Variational Autoencoder ( http://arxiv.org/abs/2207.09783v1 )

ライセンス: Link先を確認
Zheng Chen, Ziwei Yang, Lingwei Zhu, Guang Shi, Kun Yue, Takashi Matsubara, Shigehiko Kanaya, MD Altaf-Ul-Amin(参考訳) がんサブタイプの定義と分離は、患者のパーソナライズされた治療様式と予後の促進に不可欠である。 サブタイプの定義は、より深い理解の結果、常に再検討されてきた。 この再調整の間、研究者は、サブタイプの固有の特徴を明らかにする直感的な視覚的参照を提供するために、がんデータのクラスタリングに依存することが多い。 クラスタ化されているデータは、下層の生物学的メカニズムと強い相関を持つ転写学のようなオミクスデータであることが多い。 しかしながら、既存の研究は有望な結果を示しているが、オミクスデータに関連する問題(サンプル不足と高次元)に苦しんでいる。 そのため、既存の手法ではデータから有用な特徴を抽出するために非現実的な仮定を課すことが多い。 本稿では,近年の強力な生成モデルであるvector quantized variational autoencoder (vq-vae) を活用して,データ問題に取り組み,入力の再構成に関連する情報のみを保持することで,その後のクラスタリングの質に不可欠な情報的潜在特徴を抽出することを提案する。 VQ-VAEは厳密な仮定を課さないため、その潜在機能は入力のより良い表現であり、メインストリームクラスタリング法で優れたクラスタリング性能を得ることができる。 10の異なるがんからなる複数のデータセットに対する大規模な実験と医療分析により、VQ-VAEクラスタリングの結果は、一般的なサブタイピングシステムよりも大きく、堅牢に予後を改善することができることを示した。

Defining and separating cancer subtypes is essential for facilitating personalized therapy modality and prognosis of patients. The definition of subtypes has been constantly recalibrated as a result of our deepened understanding. During this recalibration, researchers often rely on clustering of cancer data to provide an intuitive visual reference that could reveal the intrinsic characteristics of subtypes. The data being clustered are often omics data such as transcriptomics that have strong correlations to the underlying biological mechanism. However, while existing studies have shown promising results, they suffer from issues associated with omics data: sample scarcity and high dimensionality. As such, existing methods often impose unrealistic assumptions to extract useful features from the data while avoiding overfitting to spurious correlations. In this paper, we propose to leverage a recent strong generative model, Vector Quantized Variational AutoEncoder (VQ-VAE), to tackle the data issues and extract informative latent features that are crucial to the quality of subsequent clustering by retaining only information relevant to reconstructing the input. VQ-VAE does not impose strict assumptions and hence its latent features are better representations of the input, capable of yielding superior clustering performance with any mainstream clustering method. Extensive experiments and medical analysis on multiple datasets comprising 10 distinct cancers demonstrate the VQ-VAE clustering results can significantly and robustly improve prognosis over prevalent subtyping systems.
翻訳日:2022-07-21 12:42:19 公開日:2022-07-20
# GIPSO:3次元LiDARセグメントにおけるオンライン適応のための幾何学的インフォームドプロパゲーション

GIPSO: Geometrically Informed Propagation for Online Adaptation in 3D LiDAR Segmentation ( http://arxiv.org/abs/2207.09763v1 )

ライセンス: Link先を確認
Cristiano Saltori, Evgeny Krivosheev, St\'ephane Lathuili\`ere, Nicu Sebe, Fabio Galasso, Giuseppe Fiameni, Elisa Ricci, Fabio Poiesi(参考訳) 3dポイントクラウドセマンティクスセグメンテーションは、自動運転の基盤である。 文学におけるほとんどのアプローチは重要な側面、すなわち動的シーンを扱う際にドメインシフトを扱う方法を無視している。 これは自動運転車のナビゲーション能力を著しく損なう可能性がある。 本稿では,この研究分野における技術の現状について述べる。 最初のコントリビューションは、ポイントクラウドセグメンテーション、すなわちSource-Free Online Unsupervised Domain Adaptation (SF-OUDA)における新しい未探索シナリオの分析です。 最先端の手法は,事前学習された深層ネットワークモデルを,オンラインの方法で未知のドメインに適応させる能力がかなり限られていることが実験的に示されている。 第2の貢献は、適応的な自己学習と幾何学的特徴の伝播によって、ソースデータやターゲットラベルを必要とせずに、事前学習されたソースモデルをオンラインに適応させるアプローチです。 第3の貢献は、ソースデータが合成され、ターゲットデータが実世界でキャプチャされたポイントクラウドである、難しいセットアップでsf-oudaを研究することです。 我々は、最近のSynLiDARデータセットを合成ソースとして使用し、2つの新しい合成(ソース)データセットを導入し、将来の合成から現実の自律運転研究を刺激する。 我々の実験は、何千もの実世界の点雲に対するセグメンテーションアプローチの有効性を示した。 コードと合成データセットはhttps://github.com/saltoricristiano/gipso-sfoudaで入手できる。

3D point cloud semantic segmentation is fundamental for autonomous driving. Most approaches in the literature neglect an important aspect, i.e., how to deal with domain shift when handling dynamic scenes. This can significantly hinder the navigation capabilities of self-driving vehicles. This paper advances the state of the art in this research field. Our first contribution consists in analysing a new unexplored scenario in point cloud segmentation, namely Source-Free Online Unsupervised Domain Adaptation (SF-OUDA). We experimentally show that state-of-the-art methods have a rather limited ability to adapt pre-trained deep network models to unseen domains in an online manner. Our second contribution is an approach that relies on adaptive self-training and geometric-feature propagation to adapt a pre-trained source model online without requiring either source data or target labels. Our third contribution is to study SF-OUDA in a challenging setup where source data is synthetic and target data is point clouds captured in the real world. We use the recent SynLiDAR dataset as a synthetic source and introduce two new synthetic (source) datasets, which can stimulate future synthetic-to-real autonomous driving research. Our experiments show the effectiveness of our segmentation approach on thousands of real-world point clouds. Code and synthetic datasets are available at https://github.com/saltoricristiano/gipso-sfouda.
翻訳日:2022-07-21 12:39:14 公開日:2022-07-20
# CoSMix: 3次元LiDARセグメンテーションにおけるドメイン適応のための合成セマンティックミックス

CoSMix: Compositional Semantic Mix for Domain Adaptation in 3D LiDAR Segmentation ( http://arxiv.org/abs/2207.09778v1 )

ライセンス: Link先を確認
Cristiano Saltori, Fabio Galasso, Giuseppe Fiameni, Nicu Sebe, Elisa Ricci, Fabio Poiesi(参考訳) 3D LiDARセマンティックセマンティックセグメンテーションは、自動運転に基本である。 様々なセンサや環境に対するモデル一般化を改善するために, ポイントクラウドデータに対するUnsupervised Domain Adaptation (UDA)法が最近提案されている。 画像領域のUDA問題に取り組む研究者は、サンプルミキシングがドメインシフトを緩和することを示した。 本研究では, サンプル混合に基づくポイントクラウドセグメント化のための最初のudaアプローチである, 合成意味混合(cosmix)という, ポイントクラウド uda のためのサンプル混合の新しい手法を提案する。 CoSMixは2分岐対称ネットワークで構成されており、ラベル付き合成データ(ソース)と現実世界の非競合点雲(ターゲット)を同時に処理することができる。 各ブランチは、別のドメインから選択したデータ片を混合し、ソースラベルから派生した意味情報とターゲットの擬似ラベルを使用することで、ひとつのドメイン上で動作する。 我々はCoSMixを2つの大規模データセット上で評価し、最先端の手法よりも大きなマージンで優れていることを示した。 私たちのコードはhttps://github.com/saltoricristiano/cosmix-udaで利用可能です。

3D LiDAR semantic segmentation is fundamental for autonomous driving. Several Unsupervised Domain Adaptation (UDA) methods for point cloud data have been recently proposed to improve model generalization for different sensors and environments. Researchers working on UDA problems in the image domain have shown that sample mixing can mitigate domain shift. We propose a new approach of sample mixing for point cloud UDA, namely Compositional Semantic Mix (CoSMix), the first UDA approach for point cloud segmentation based on sample mixing. CoSMix consists of a two-branch symmetric network that can process labelled synthetic data (source) and real-world unlabelled point clouds (target) concurrently. Each branch operates on one domain by mixing selected pieces of data from the other one, and by using the semantic information derived from source labels and target pseudo-labels. We evaluate CoSMix on two large-scale datasets, showing that it outperforms state-of-the-art methods by a large margin. Our code is available at https://github.com/saltoricristiano/cosmix-uda.
翻訳日:2022-07-21 12:38:50 公開日:2022-07-20
# ViGAT:因子化グラフアテンションネットワークを用いたビデオにおけるボトムアップイベント認識と説明

ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network ( http://arxiv.org/abs/2207.09927v1 )

ライセンス: Link先を確認
Nikolaos Gkalelis, Dimitrios Daskalakis, Vasileios Mezaris(参考訳) 本稿では、視覚変換器(ViT)のバックボーンネットワークとともにオブジェクト検出器を用いてオブジェクトとフレームの特徴を導出するViGATと呼ばれる純アテンションボトムアップ手法と、これらの特徴をビデオにおけるイベント認識と説明のタスクのために処理するヘッドネットワークを提案する。 ViGATヘッドは、オブジェクトやフレーム間の局所的および長期的依存関係を効果的に捉えるために、空間的および時間的次元に沿って分解されたグラフアテンションネットワーク(GAT)ブロックで構成されている。 さらに, 各種GATブロックの隣接行列から導出される重み付きインディグリー(WiD)を用いて, 提案アーキテクチャは, ネットワークの決定を説明する最も健全なオブジェクトやフレームを識別可能であることを示す。 提案手法が3つの大規模公開ビデオデータセット(FCVID, Mini-Kinetics, ActivityNet)に最先端の結果を提供することを示す総合的な評価研究を行った。

In this paper a pure-attention bottom-up approach, called ViGAT, that utilizes an object detector together with a Vision Transformer (ViT) backbone network to derive object and frame features, and a head network to process these features for the task of event recognition and explanation in video, is proposed. The ViGAT head consists of graph attention network (GAT) blocks factorized along the spatial and temporal dimensions in order to capture effectively both local and long-term dependencies between objects or frames. Moreover, using the weighted in-degrees (WiDs) derived from the adjacency matrices at the various GAT blocks, we show that the proposed architecture can identify the most salient objects and frames that explain the decision of the network. A comprehensive evaluation study is performed, demonstrating that the proposed approach provides state-of-the-art results on three large, publicly available video datasets (FCVID, Mini-Kinetics, ActivityNet).
翻訳日:2022-07-21 12:38:30 公開日:2022-07-20
# BYEL : 感情遅滞者のブートストラップ

BYEL : Bootstrap on Your Emotion Latent ( http://arxiv.org/abs/2207.10003v1 )

ライセンス: Link先を確認
Hyungjun Lee, Hwangyu Lim and Sejoon Lim(参考訳) ディープラーニングのトレーニングのためのデータセット構築コストの問題と生成モデルの開発により、合成データによるトレーニングと実データを用いた推論のために、ますます多くの研究が行われている。 ABAWの学習合成データ(Learning Synthetic Data:LSD)データセットを用いて感情認識型自己指導学習を提案する。 我々は、自己教師付き学習としてLSDデータセットに事前学習を行い、同じLSDデータセットを使用して、教師付き学習として感情分類タスクの下流トレーニングを行う。 その結果、ベースライン(0.5)よりも高い結果(0.63)を得た。

According to the problem of dataset construction cost for training in deep learning and the development of generative models, more and more researches are being conducted to train with synthetic data and to inference using real data. We propose emotion aware Self-Supervised Learning using ABAW's Learning Synthetic Data (LSD) dataset. We pre-train our method to LSD dataset as a self-supervised learning and then use the same LSD dataset to do downstream training on the emotion classification task as a supervised learning. As a result, a higher result(0.63) than baseline(0.5) was obtained.
翻訳日:2022-07-21 12:38:11 公開日:2022-07-20
# アーキテクチャを知る前にニューラルネットワークの事前学習

Pretraining a Neural Network before Knowing Its Architecture ( http://arxiv.org/abs/2207.10049v1 )

ライセンス: Link先を確認
Boris Knyazev(参考訳) 大きなニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能になる。 最近リリースされたgraph hypernetwork(ghn)は、100万の小さなimagenetアーキテクチャでこの方法でトレーニングされており、resnet-50のような大きな見えないネットワークのパラメータを予測できる。 予測パラメータを持つネットワークは、ソースタスクのパフォーマンスを失うが、予測パラメータは他のタスクの微調整に有用であることが判明している。 我々は、GHNが訓練された後に発表された新しい強力なアーキテクチャにおいて、同じGHNに基づく微調整が依然として有用であるかどうかを考察する。 ConvNeXtのような最近のアーキテクチャでは、GHNの初期化はResNet-50よりも役に立たないことがわかった。 潜在的な理由の1つは、GHNの訓練に使われたものから新しいアーキテクチャの分布シフトが増加することである。 また,予測パラメータには勾配降下を伴う微調整パラメータの多様性が欠如していることが判明した。 本稿では,ResNet-50とConvNeXtの微調整を改善する前に,予測パラメータに単純な後処理技術を適用することで,この制限を緩和する。

Training large neural networks is possible by training a smaller hypernetwork that predicts parameters for the large ones. A recently released Graph HyperNetwork (GHN) trained this way on one million smaller ImageNet architectures is able to predict parameters for large unseen networks such as ResNet-50. While networks with predicted parameters lose performance on the source task, the predicted parameters have been found useful for fine-tuning on other tasks. We study if fine-tuning based on the same GHN is still useful on novel strong architectures that were published after the GHN had been trained. We found that for recent architectures such as ConvNeXt, GHN initialization becomes less useful than for ResNet-50. One potential reason is the increased distribution shift of novel architectures from those used to train the GHN. We also found that the predicted parameters lack the diversity necessary to successfully fine-tune parameters with gradient descent. We alleviate this limitation by applying simple post-processing techniques to predicted parameters before fine-tuning them on a target task and improve fine-tuning of ResNet-50 and ConvNeXt.
翻訳日:2022-07-21 12:38:02 公開日:2022-07-20
# ハードウェアのトレーニングを可能にする時間的および空間的局所的なスパイクベースバックプロパゲーションアルゴリズム

A Temporally and Spatially Local Spike-based Backpropagation Algorithm to Enable Training in Hardware ( http://arxiv.org/abs/2207.09755v1 )

ライセンス: Link先を確認
Anmol Biswas, Vivek Saraswat, Udayan Ganguly(参考訳) spiking neural networks(snn)は、分類タスクのハードウェア効率のよいアーキテクチャとして登場した。 スパイクベースの符号化のペナルティは、スパイクを使った普遍的なトレーニング機構が欠如していることである。 非スパイキング人工ニューラルネットワーク(ANN)で使用される強力なバックプロパゲーション(BP)技術を採用する試みはいくつかある。 2) ネイティブスパイクベースの学習に向けての大きな進歩は, 段階的前方/後方通過を伴うスパイク時間依存塑性(STDP)を用いた近似バックプロパゲーションの利用である。 しかし、これらのフェーズ間の情報転送は外部メモリと計算アクセスを必要とする。 これはニューロモルフィックなハードウェア実装の課題です。 本稿では,合成ニューロンを用いた確率的SNNベースのバックプロップ(SSNN-BP)アルゴリズムを提案する。 符号付き勾配値はスパイクベース表現の課題であるが、勾配信号を正と負のストリームに分割することでこの問題に取り組む。 複合ニューロンは、確率的スパイクトレインの形で情報を符号化し、バックプロパゲーションウェイト更新を、ハードウェアフレンドリーなResistive Processing Units(RPUs)と互換性のある、時間的および空間的に離散STDP様スパイク同時更新に変換する。 さらに, BP ANNベースラインに十分に長いスパイクトレインでアプローチする。 最後に, ソフトマックスクロスエントロピー損失関数は, 勝者テイクオール(WTA)ルールを強制する抑制的側方接続によって実現可能であることを示す。 我々のSNNは、MNIST、Fashion-MNIST、Extended MNISTデータセット上のANNと同等の性能で優れた一般化を示す。 したがって、SSNN-BPは純粋にスパイクベースのニューロモルフィックハードウェアとのBP互換を可能にする。

Spiking Neural Networks (SNNs) have emerged as a hardware efficient architecture for classification tasks. The penalty of spikes-based encoding has been the lack of a universal training mechanism performed entirely using spikes. There have been several attempts to adopt the powerful backpropagation (BP) technique used in non-spiking artificial neural networks (ANN): (1) SNNs can be trained by externally computed numerical gradients. (2) A major advancement toward native spike-based learning has been the use of approximate Backpropagation using spike-time-dependent plasticity (STDP) with phased forward/backward passes. However, the transfer of information between such phases necessitates external memory and computational access. This is a challenge for neuromorphic hardware implementations. In this paper, we propose a stochastic SNN-based Back-Prop (SSNN-BP) algorithm that utilizes a composite neuron to simultaneously compute the forward pass activations and backward pass gradients explicitly with spikes. Although signed gradient values are a challenge for spike-based representation, we tackle this by splitting the gradient signal into positive and negative streams. The composite neuron encodes information in the form of stochastic spike-trains and converts Backpropagation weight updates into temporally and spatially local discrete STDP-like spike coincidence updates compatible with hardware-friendly Resistive Processing Units (RPUs). Furthermore, our method approaches BP ANN baseline with sufficiently long spike-trains. Finally, we show that softmax cross-entropy loss function can be implemented through inhibitory lateral connections enforcing a Winner Take All (WTA) rule. Our SNN shows excellent generalization through comparable performance to ANNs on the MNIST, Fashion-MNIST and Extended MNIST datasets. Thus, SSNN-BP enables BP compatible with purely spike-based neuromorphic hardware.
翻訳日:2022-07-21 12:37:43 公開日:2022-07-20
# EVHA: ハードウェアテストと保証のための説明可能なビジョンシステム - 概要

EVHA: Explainable Vision System for Hardware Testing and Assurance -- An Overview ( http://arxiv.org/abs/2207.09627v1 )

ライセンス: Link先を確認
Md Mahfuz Al Hasan, Mohammad Tahsin Mostafiz, Thomas An Le, Jake Julia, Nidish Vashistha, Shayan Taheri, and Navid Asadizanjani(参考訳) さまざまなセクターで電子チップの需要が高まっているため、半導体会社は製造プロセスのオフショア化を義務付けられている。 この不必要な問題は、製造したチップのセキュリティと信頼性を高め、ハードウェア攻撃を発生させた。 この場合、半導体サプライチェーン内の異なるエンティティが悪意を持って動作し、デバイスからシステムまで、設計コンピューティング層に対して攻撃を実行することができる。 われわれの攻撃はハードウェアのトロイの木馬で、信頼できない鋳造所でマスクの生成/製造中に挿入される。 トロイの木馬は、デザインセルの追加、削除、または変更によって作られる足跡を残している。 この問題に対処するために,我々は,低コストで正確かつ迅速な設計変更を検出可能な,ハードウェアテストと保証のための説明可能なビジョンシステム(EVHA)を提案する。 本システムへの入力は、試験中の集積回路(IC)から取得した走査型電子顕微鏡(SEM)画像である。 システム出力は、細胞レベルでの設計セルの追加、削除、または変更を通じて、欠陥および/またはハードウェアトロイの木馬のIC状態を決定する。 本稿では,防衛システムの設計,開発,実装,解析について概説する。

Due to the ever-growing demands for electronic chips in different sectors the semiconductor companies have been mandated to offshore their manufacturing processes. This unwanted matter has made security and trustworthiness of their fabricated chips concerning and caused creation of hardware attacks. In this condition, different entities in the semiconductor supply chain can act maliciously and execute an attack on the design computing layers, from devices to systems. Our attack is a hardware Trojan that is inserted during mask generation/fabrication in an untrusted foundry. The Trojan leaves a footprint in the fabricated through addition, deletion, or change of design cells. In order to tackle this problem, we propose Explainable Vision System for Hardware Testing and Assurance (EVHA) in this work that can detect the smallest possible change to a design in a low-cost, accurate, and fast manner. The inputs to this system are Scanning Electron Microscopy (SEM) images acquired from the Integrated Circuits (ICs) under examination. The system output is determination of IC status in terms of having any defect and/or hardware Trojan through addition, deletion, or change in the design cells at the cell-level. This article provides an overview on the design, development, implementation, and analysis of our defense system.
翻訳日:2022-07-21 12:37:14 公開日:2022-07-20
# アクション認識のためのタスク適応型時空間ビデオサンプリング

Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action Recognition ( http://arxiv.org/abs/2207.09759v1 )

ライセンス: Link先を確認
Huabin Liu, Weixian Lv, John See, Weiyao Lin(参考訳) 数発のアクション認識で直面する主な課題は、トレーニングに不十分なビデオデータである。 この問題に対処するため,現在の手法では,入力映像データの処理にほとんど注意が払われずに,機能レベルでのアルゴリズム開発に重点を置いている。 さらに、既存のフレームサンプリング戦略は、時間的および空間的な次元におけるクリティカルアクション情報を省略し、ビデオ利用効率にさらに影響を及ぼす可能性がある。 本稿では,時間選択器 (ts) と空間増幅器 (sa) を用いてタスク固有な時空間フレームサンプリングを実現するため,この課題に対処するために,少人数行動認識のための新しい映像フレームサンプリング器を提案する。 具体的には,ビデオフレームのグローバルな認識を得るために,まずビデオ全体を少ない計算コストでスキャンする。 TSは最も大きく貢献するトップTフレームの選択においてその役割を担っている。 SAは、サリエンシマップのガイダンスで臨界領域を増幅することにより、各フレームの識別情報を強調する。 さらに,タスク適応学習を採用し,対象のエピソードタスクに応じてサンプリング戦略を動的に調整する。 tsとsaの実装は、エンドツーエンドの最適化のために微分可能であり、提案するサンプル装置とほとんどの数少ないアクション認識方法とのシームレスな統合が容易である。 大規模な実験では、長期ビデオを含む様々なベンチマークのパフォーマンスが大幅に向上した。

A primary challenge faced in few-shot action recognition is inadequate video data for training. To address this issue, current methods in this field mainly focus on devising algorithms at the feature level while little attention is paid to processing input video data. Moreover, existing frame sampling strategies may omit critical action information in temporal and spatial dimensions, which further impacts video utilization efficiency. In this paper, we propose a novel video frame sampler for few-shot action recognition to address this issue, where task-specific spatial-temporal frame sampling is achieved via a temporal selector (TS) and a spatial amplifier (SA). Specifically, our sampler first scans the whole video at a small computational cost to obtain a global perception of video frames. The TS plays its role in selecting top-T frames that contribute most significantly and subsequently. The SA emphasizes the discriminative information of each frame by amplifying critical regions with the guidance of saliency maps. We further adopt task-adaptive learning to dynamically adjust the sampling strategy according to the episode task at hand. Both the implementations of TS and SA are differentiable for end-to-end optimization, facilitating seamless integration of our proposed sampler with most few-shot action recognition methods. Extensive experiments show a significant boost in the performances on various benchmarks including long-term videos.
翻訳日:2022-07-21 12:36:38 公開日:2022-07-20
# 無線カプセル内視鏡画像における異常検出のためのメタ特徴学習を用いたハイブリッド畳み込みニューラルネットワーク

A Hybrid Convolutional Neural Network with Meta Feature Learning for Abnormality Detection in Wireless Capsule Endoscopy Images ( http://arxiv.org/abs/2207.09769v1 )

ライセンス: Link先を確認
Samir Jain, Ayan Seal, Aparajita Ojha(参考訳) ワイヤレスカプセル内視鏡は消化管検査における最も先進的な非侵襲的方法の1つである。 無線カプセル内視鏡画像解析において、ポリープ、出血、炎症等の消化管異常を検出するインテリジェントコンピュータ支援診断システムが高能率である。 異常は形状、大きさ、色、テクスチャが大きく異なり、一部は通常の領域と視覚的に類似しているように見える。 これはクラス内変異のためにバイナリ分類器を設計する際の課題となる。 本研究では,様々な畳み込み操作を用いて,無線カプセル内視鏡画像から有意な特徴の豊富なプールを抽出する異常検出のためのハイブリッド畳み込みニューラルネットワークを提案する。 3つの並列畳み込みニューラルネットワークで構成され、それぞれに特徴学習能力がある。 第1のネットワークは奥行き分離可能な畳み込み、第2のネットワークはコサイン正規化畳み込み演算を用いる。 第3のネットワークに新たなメタ特徴抽出機構を導入し、第1および第2のネットワークとその前層から生成された特徴から得られた統計情報からパターンを抽出する。 ネットワークトリオはクラス内分散を効果的に処理し、消化管異常を効率的に検出する。 提案するハイブリッド畳み込みニューラルネットワークモデルは、広く使用されている2つのデータセットでトレーニングされ、テストされる。 実験の結果,kidとkvasir-capsuleデータセットの分類精度が97\%,98\%の6つの最先端手法を上回った。 クロスデータセット評価の結果は,提案モデルの一般化性能も示す。

Wireless Capsule Endoscopy is one of the most advanced non-invasive methods for the examination of gastrointestinal tracts. An intelligent computer-aided diagnostic system for detecting gastrointestinal abnormalities like polyp, bleeding, inflammation, etc. is highly exigent in wireless capsule endoscopy image analysis. Abnormalities greatly differ in their shape, size, color, and texture, and some appear to be visually similar to normal regions. This poses a challenge in designing a binary classifier due to intra-class variations. In this study, a hybrid convolutional neural network is proposed for abnormality detection that extracts a rich pool of meaningful features from wireless capsule endoscopy images using a variety of convolution operations. It consists of three parallel convolutional neural networks, each with a distinctive feature learning capability. The first network utilizes depthwise separable convolution, while the second employs cosine normalized convolution operation. A novel meta-feature extraction mechanism is introduced in the third network, to extract patterns from the statistical information drawn over the features generated from the first and second networks and its own previous layer. The network trio effectively handles intra-class variance and efficiently detects gastrointestinal abnormalities. The proposed hybrid convolutional neural network model is trained and tested on two widely used publicly available datasets. The test results demonstrate that the proposed model outperforms six state-of-the-art methods with 97\% and 98\% classification accuracy on KID and Kvasir-Capsule datasets respectively. Cross dataset evaluation results also demonstrate the generalization performance of the proposed model.
翻訳日:2022-07-21 12:36:15 公開日:2022-07-20
# 量子リスク最小化による確率領域一般化

Probable Domain Generalization via Quantile Risk Minimization ( http://arxiv.org/abs/2207.09944v1 )

ライセンス: Link先を確認
Cian Eastwood, Alexander Robey, Shashank Singh, Julius von K\"ugelgen, Hamed Hassani, George J. Pappas, Bernhard Sch\"olkopf(参考訳) ドメイン一般化 (Domain Generalization, DG) は、複数の関連するディストリビューションやドメインからラベル付きトレーニングデータを活用することにより、目に見えないテスト分布でうまく動作する予測子を求める。 これを達成するために、標準定式化は、可能なすべてのドメインの集合に対して最悪の場合のパフォーマンスを最適化する。 しかし、実際には最悪のケースシフトは極めてありそうにないため、一般的には過度に保守的な解決につながる。 事実、最近の研究では、DGアルゴリズムが平均性能の点で経験的リスク最小化よりも優れていなかった。 本研究では、DGは最悪の問題でも平均的な問題でもなく、確率的な問題でもないと論じる。 そこで我々は,DGの確率的フレームワークを提案し,これを確率的ドメイン一般化(Probable Domain Generalization)と呼ぶ。 これを実現するため、トレーニングドメインとテストドメインを同じメタ分散から引き出すように明示的に関連付け、予測者が高い確率で一般化する必要がある新しい最適化問題、量子リスク最小化(qrm)を提案する。 次に、QRMを証明します。 (i)所望の確率で新しい領域に一般化する予測器を生産し、十分な数の領域とサンプルを付与する。 (ii)一般化の所望の確率が1に近づくと因果予測器を回復する。 実験では,より総合的な質的評価プロトコルを提案するとともに,本アルゴリズムが実データおよび合成データにおいて最先端のベースラインよりも優れていることを示す。

Domain generalization (DG) seeks predictors which perform well on unseen test distributions by leveraging labeled training data from multiple related distributions or domains. To achieve this, the standard formulation optimizes for worst-case performance over the set of all possible domains. However, with worst-case shifts very unlikely in practice, this generally leads to overly-conservative solutions. In fact, a recent study found that no DG algorithm outperformed empirical risk minimization in terms of average performance. In this work, we argue that DG is neither a worst-case problem nor an average-case problem, but rather a probabilistic one. To this end, we propose a probabilistic framework for DG, which we call Probable Domain Generalization, wherein our key idea is that distribution shifts seen during training should inform us of probable shifts at test time. To realize this, we explicitly relate training and test domains as draws from the same underlying meta-distribution, and propose a new optimization problem -- Quantile Risk Minimization (QRM) -- which requires that predictors generalize with high probability. We then prove that QRM: (i) produces predictors that generalize to new domains with a desired probability, given sufficiently many domains and samples; and (ii) recovers the causal predictor as the desired probability of generalization approaches one. In our experiments, we introduce a more holistic quantile-focused evaluation protocol for DG, and show that our algorithms outperform state-of-the-art baselines on real and synthetic data.
翻訳日:2022-07-21 12:33:03 公開日:2022-07-20
# 不連続潜在空間に対する意味的不確かさ区間

Semantic uncertainty intervals for disentangled latent spaces ( http://arxiv.org/abs/2207.10074v1 )

ライセンス: Link先を確認
Swami Sankaranarayanan, Anastasios N. Angelopoulos, Stephen Bates, Yaniv Romano, Phillip Isola(参考訳) コンピュータービジョンにおける意味のある不確実性定量化は、セマンティック情報(例えば、写真の人物の髪の色や路上の車の場所など)の推論を必要とする。 この目的のために、生成モデリングにおける最近のブレークスルーにより、不連続な潜在空間において意味情報を表現することができるが、意味的潜在変数に対する不確実性の提供は依然として困難である。 本研究では、基礎となる生成モデルに対する真の意味的要因を含むことが保証される原理的不確実性区間を提案する。 1) 量子回帰を用いて、潜在空間内の各要素に対するヒューリスティックな不確実性区間を出力する(2) 新たな未知入力に対する潜在性の真の値を含むようにこれらの不確実性を調整する。 これらの調整された間隔の終端はジェネレータを通して伝播し、各意味因子に対する解釈可能な不確実性可視化を生成する。 この手法は画像の超解像や画像補完といった逆問題において意味論的、原則的、インスタンス適応的な不確実性を確実に伝達する。

Meaningful uncertainty quantification in computer vision requires reasoning about semantic information -- say, the hair color of the person in a photo or the location of a car on the street. To this end, recent breakthroughs in generative modeling allow us to represent semantic information in disentangled latent spaces, but providing uncertainties on the semantic latent variables has remained challenging. In this work, we provide principled uncertainty intervals that are guaranteed to contain the true semantic factors for any underlying generative model. The method does the following: (1) it uses quantile regression to output a heuristic uncertainty interval for each element in the latent space (2) calibrates these uncertainties such that they contain the true value of the latent for a new, unseen input. The endpoints of these calibrated intervals can then be propagated through the generator to produce interpretable uncertainty visualizations for each semantic factor. This technique reliably communicates semantically meaningful, principled, and instance-adaptive uncertainty in inverse problems like image super-resolution and image completion.
翻訳日:2022-07-21 12:32:35 公開日:2022-07-20
# GRIT:デュアルビジュアル機能を使った高速で優れた画像キャプション変換器

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features ( http://arxiv.org/abs/2207.09666v1 )

ライセンス: Link先を確認
Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani(参考訳) 画像キャプションの現在の最先端技術では、画像の内容を記述するのに不可欠なオブジェクトレベル情報を提供するため、領域ベースの特徴が採用されている。 しかし、コンテキスト情報の欠如、不正確な検出のリスク、高い計算コストなど、いくつかの問題がある。 最初の2つはグリッドベースの機能の追加で解決できる。 しかし、これらの2つの特徴の抽出と融合の方法は未解決である。 本稿では,2つの視覚的特徴を効果的に活用してより良い字幕を生成する,GRIT(Grid-based Image Casting Transformer)と呼ばれるトランスフォーマーのみのニューラルアーキテクチャを提案する。 GRITは従来のCNNベースの検出器をDETRベースの検出器に置き換え、計算速度が向上した。 さらに、トランスフォーマーのみからなるモノリシックな設計により、モデルのエンドツーエンドなトレーニングが可能になる。 この革新的な設計とデュアルビジュアル機能の統合は、大幅なパフォーマンス改善をもたらす。 複数の画像キャプションベンチマーク実験の結果,gritは従来の手法よりも精度と速度が優れていた。

Current state-of-the-art methods for image captioning employ region-based features, as they provide object-level information that is essential to describe the content of images; they are usually extracted by an object detector such as Faster R-CNN. However, they have several issues, such as lack of contextual information, the risk of inaccurate detection, and the high computational cost. The first two could be resolved by additionally using grid-based features. However, how to extract and fuse these two types of features is uncharted. This paper proposes a Transformer-only neural architecture, dubbed GRIT (Grid- and Region-based Image captioning Transformer), that effectively utilizes the two visual features to generate better captions. GRIT replaces the CNN-based detector employed in previous methods with a DETR-based one, making it computationally faster. Moreover, its monolithic design consisting only of Transformers enables end-to-end training of the model. This innovative design and the integration of the dual visual features bring about significant performance improvement. The experimental results on several image captioning benchmarks show that GRIT outperforms previous methods in inference accuracy and speed.
翻訳日:2022-07-21 12:31:35 公開日:2022-07-20
# ReFACTOR GNNS: メッセージパッシングの観点からの因子化モデルの再検討

REFACTOR GNNS: Revisiting Factorisation-based Models from a Message-Passing Perspective ( http://arxiv.org/abs/2207.09980v1 )

ライセンス: Link先を確認
Yihong Chen, Pushkar Mishra, Luca Franceschi, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel(参考訳) DistMultのようなファクトライゼーションベースのモデル(FM)は、知識グラフ補完(KGC)タスクの持続的な成功を享受し、しばしばグラフニューラルネットワーク(GNN)を上回っている。 しかし、GNNとは異なり、FMはノード機能を組み込むのに苦労し、インダクティブな設定で見えないノードに一般化する。 我々の研究は、ReFACTOR GNNSを提案し、FMとGNNのギャップを埋める。 この新しいアーキテクチャは、かつては相容れないと考えられていた両方のモデリングパラダイムに基づいている。 具体的には、メッセージパッシング形式を用いて、勾配降下手順をメッセージパッシング操作として再構成することにより、FMをGNNとしてキャストする方法を示す。 多数の確立されたKGCベンチマークの中で、我々のREFACTOR GNNSはFMに匹敵するトランスダクティブ性能と最先端のインダクティブ性能を実現し、パラメータの桁数を桁違いに減らした。

Factorisation-based Models (FMs), such as DistMult, have enjoyed enduring success for Knowledge Graph Completion (KGC) tasks, often outperforming Graph Neural Networks (GNNs). However, unlike GNNs, FMs struggle to incorporate node features and to generalise to unseen nodes in inductive settings. Our work bridges the gap between FMs and GNNs by proposing REFACTOR GNNS. This new architecture draws upon both modelling paradigms, which previously were largely thought of as disjoint. Concretely, using a message-passing formalism, we show how FMs can be cast as GNNs by reformulating the gradient descent procedure as message-passing operations, which forms the basis of our REFACTOR GNNS. Across a multitude of well-established KGC benchmarks, our REFACTOR GNNS achieve comparable transductive performance to FMs, and state-of-the-art inductive performance while using an order of magnitude fewer parameters.
翻訳日:2022-07-21 12:31:16 公開日:2022-07-20
# DC-BENCH:データセット凝縮ベンチマーク

DC-BENCH: Dataset Condensation Benchmark ( http://arxiv.org/abs/2207.09639v1 )

ライセンス: Link先を確認
Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh(参考訳) Dataset Condensationは、オリジナルのデータセットにエンコードされたリッチな情報をキャプチャする小さなデータセットの学習を目的とした、新たに登場したテクニックである。 データセットのサイズが大きくなるにつれて、現代の機械学習モデルはますます大きくなり、凝縮法はネットワークトレーニングを加速し、データストレージを減らすための重要な方向となる。 この急速に成長する分野では、多くの方法が提案されているが、異なる凝縮法の評価と比較は簡単ではない。 凝縮データセットの品質は、データ拡張やモデルアーキテクチャなど、エンドパフォーマンスへの多くの重要な寄与要因によって、しばしばシャドーされる。 凝縮法の評価と比較のための体系的な方法の欠如は、既存の技術の理解を妨げるだけでなく、合成データセットの実用化を妨げている。 この作業は、Dataset Condensationに関する最初の大規模標準ベンチマークを提供する。 それは、生成したデータセットのレンズを通して、凝縮法の生成可能性と有効性を包括的に反映する一連の評価からなる。 このベンチマークを活用し,現在の凝縮法を大規模に検討し,今後の展開に新たな可能性を開く洞察に富んだ知見を多数報告する。 評価器、ベースラインメソッド、生成されたデータセットを含むベンチマークライブラリは、将来の研究と応用を促進するためにオープンソース化されている。

Dataset Condensation is a newly emerging technique aiming at learning a tiny dataset that captures the rich information encoded in the original dataset. As the size of datasets contemporary machine learning models rely on becomes increasingly large, condensation methods become a prominent direction for accelerating network training and reducing data storage. Despite numerous methods have been proposed in this rapidly growing field, evaluating and comparing different condensation methods is non-trivial and still remains an open issue. The quality of condensed dataset are often shadowed by many critical contributing factors to the end performance, such as data augmentation and model architectures. The lack of a systematic way to evaluate and compare condensation methods not only hinders our understanding of existing techniques, but also discourages practical usage of the synthesized datasets. This work provides the first large-scale standardized benchmark on Dataset Condensation. It consists of a suite of evaluations to comprehensively reflect the generability and effectiveness of condensation methods through the lens of their generated dataset. Leveraging this benchmark, we conduct a large-scale study of current condensation methods, and report many insightful findings that open up new possibilities for future development. The benchmark library, including evaluators, baseline methods, and generated datasets, is open-sourced to facilitate future research and application.
翻訳日:2022-07-21 12:30:22 公開日:2022-07-20
# 非局所的リカレントニューラルメモリによる学習シーケンス表現

Learning Sequence Representations by Non-local Recurrent Neural Memory ( http://arxiv.org/abs/2207.09710v1 )

ライセンス: Link先を確認
Wenjie Pei, Xin Feng, Canmiao Fu, Qiong Cao, Guangming Lu and Yu-Wing Tai(参考訳) シーケンス表現学習の鍵となる課題は、長期の時間依存を捉えることである。 教師付きシーケンス表現学習の典型的な方法は、時間的依存を捉えるために、繰り返しニューラルネットワーク上に構築されている。 これらの方法の潜在的な制限の1つは、隣り合う時間ステップ間で明示的に一階の情報インタラクションをモデル化することであり、従って非隣接時間ステップ間の高階の相互作用は十分に悪用されない。 時間的情報希釈と勾配消滅により、一階の相互作用によって学習された時間的特徴を長期にわたって維持できないため、長期の時間的依存をモデル化する能力を大幅に制限する。 この制限に対処するため,非局所的な連続表現学習のための非局所リカレント・ニューラルメモリ (NRNM) を提案し,非局所的な操作を自己アテンション機構によって行うことにより,スライディング時記憶ブロック内の全順序の相互作用を学習し,ゲートリカレントな方法でメモリブロック間のグローバルな相互作用をモデル化する。 その結果、我々のモデルは長距離依存を捉えることができる。 さらに,本モデルでは,高次相互作用に含まれる潜在高次特徴を蒸留することができる。 シーケンス分類,ステップワイズシーケンス予測,シーケンス類似性学習など,異なるモダリティにまたがる3種類のシーケンス応用において,nrnmの有効性と一般化を検証する。 我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と好適に比較できる。

The key challenge of sequence representation learning is to capture the long-range temporal dependencies. Typical methods for supervised sequence representation learning are built upon recurrent neural networks to capture temporal dependencies. One potential limitation of these methods is that they only model one-order information interactions explicitly between adjacent time steps in a sequence, hence the high-order interactions between nonadjacent time steps are not fully exploited. It greatly limits the capability of modeling the long-range temporal dependencies since the temporal features learned by one-order interactions cannot be maintained for a long term due to temporal information dilution and gradient vanishing. To tackle this limitation, we propose the Non-local Recurrent Neural Memory (NRNM) for supervised sequence representation learning, which performs non-local operations \MR{by means of self-attention mechanism} to learn full-order interactions within a sliding temporal memory block and models global interactions between memory blocks in a gated recurrent manner. Consequently, our model is able to capture long-range dependencies. Besides, the latent high-level features contained in high-order interactions can be distilled by our model. We validate the effectiveness and generalization of our NRNM on three types of sequence applications across different modalities, including sequence classification, step-wise sequential prediction and sequence similarity learning. Our model compares favorably against other state-of-the-art methods specifically designed for each of these sequence applications.
翻訳日:2022-07-21 12:29:59 公開日:2022-07-20
# サブスペースクラスタリングのためのデータ拡張の再検討

Revisiting data augmentation for subspace clustering ( http://arxiv.org/abs/2207.09728v1 )

ライセンス: Link先を確認
Maryam Abdolali, Nicolas Gillis(参考訳) サブスペースクラスタリング(Subspace clustering)は、複数の低次元のサブスペースの周辺に位置するデータサンプルの集合をクラスタリングする古典的な問題である。 この問題に対する現在の最先端のアプローチは、サンプルを他のサンプルの線形結合として表現する自己表現モデルに基づいている。 しかし、これらのアプローチは、多くのアプリケーションで必ずしもアクセスできない正確な表現のために十分な精度のサンプルを必要とする。 本稿では,この問題に光を当て,各部分空間内のデータ分布が自己表現モデルの成功に重要な役割を果たしていることを論じる。 この問題に取り組むための提案手法は,深層ニューラルネットワークの一般化パワーにおけるデータ拡張の中心的な役割を動機付けるものである。 本研究では,拡張サンプルを拡張辞書として使用する非教師なしおよび半教師なし設定の2つのサブスペースクラスタリングフレームワークを提案し,自己表現表現の品質を向上させる。 本稿では,データサンプルが複数の線形部分空間の結合にあるという事実に基づく,半教師付き問題に対するラベル付きサンプルを用いた自動拡張戦略を提案する。 実験結果から,一般自己表現モデルの性能を著しく向上させるため,データ拡張の有効性が確認された。

Subspace clustering is the classical problem of clustering a collection of data samples that approximately lie around several low-dimensional subspaces. The current state-of-the-art approaches for this problem are based on the self-expressive model which represents the samples as linear combination of other samples. However, these approaches require sufficiently well-spread samples for accurate representation which might not be necessarily accessible in many applications. In this paper, we shed light on this commonly neglected issue and argue that data distribution within each subspace plays a critical role in the success of self-expressive models. Our proposed solution to tackle this issue is motivated by the central role of data augmentation in the generalization power of deep neural networks. We propose two subspace clustering frameworks for both unsupervised and semi-supervised settings that use augmented samples as an enlarged dictionary to improve the quality of the self-expressive representation. We present an automatic augmentation strategy using a few labeled samples for the semi-supervised problem relying on the fact that the data samples lie in the union of multiple linear subspaces. Experimental results confirm the effectiveness of data augmentation, as it significantly improves the performance of general self-expressive models.
翻訳日:2022-07-21 12:29:36 公開日:2022-07-20
# 単段3次元物体検出のためのIoUに基づく最適化の再考

Rethinking IoU-based Optimization for Single-stage 3D Object Detection ( http://arxiv.org/abs/2207.09332v2 )

ライセンス: Link先を確認
Hualian Sheng, Sijia Cai, Na Zhao, Bing Deng, Jianqiang Huang, Xian-Sheng Hua, Min-Jian Zhao, Gim Hee Lee(参考訳) IoU(Intersection-over-Union)に基づく最適化は、最終的なIoU予測距離と損失の整合性を維持するため、単段2次元物体検出器の回帰と分類の両方に広く用いられている。 近年、いくつかの3Dオブジェクト検出手法がIoUベースの最適化を採用しており、2D IoUを直接3D IoUに置き換えている。 しかし、3Dでのこのような直接計算は、複雑な実装と非効率な後方操作のために非常にコストがかかる。 さらに、3D IoUベースの最適化は回転に敏感であるため準最適であり、トレーニング不安定や検出性能の劣化を引き起こす可能性がある。 本稿では,回転分離型IoU(RDIoU)法を提案する。これは回転感度問題を緩和し,トレーニング段階における3D IoUよりも効率的な最適化目標を実現する。 具体的には、回転変数を独立項として分離し、3次元IoUの幾何学を保存することにより、回帰パラメータの複雑な相互作用を単純化する。 RDIoUを回帰と分類の両方に組み込むことで、ネットワークはより正確な境界ボックスを学習し、分類と回帰のミスアライメント問題を同時に克服することが奨励される。 KITTI と Waymo Open Dataset のベンチマーク実験により、我々の RDIoU 法は、単一ステージの3Dオブジェクト検出に大幅な改善をもたらすことが確認された。

Since Intersection-over-Union (IoU) based optimization maintains the consistency of the final IoU prediction metric and losses, it has been widely used in both regression and classification branches of single-stage 2D object detectors. Recently, several 3D object detection methods adopt IoU-based optimization and directly replace the 2D IoU with 3D IoU. However, such a direct computation in 3D is very costly due to the complex implementation and inefficient backward operations. Moreover, 3D IoU-based optimization is sub-optimal as it is sensitive to rotation and thus can cause training instability and detection performance deterioration. In this paper, we propose a novel Rotation-Decoupled IoU (RDIoU) method that can mitigate the rotation-sensitivity issue, and produce more efficient optimization objectives compared with 3D IoU during the training stage. Specifically, our RDIoU simplifies the complex interactions of regression parameters by decoupling the rotation variable as an independent term, yet preserving the geometry of 3D IoU. By incorporating RDIoU into both the regression and classification branches, the network is encouraged to learn more precise bounding boxes and concurrently overcome the misalignment issue between classification and regression. Extensive experiments on the benchmark KITTI and Waymo Open Dataset validate that our RDIoU method can bring substantial improvement for the single-stage 3D object detection.
翻訳日:2022-07-21 10:53:09 公開日:2022-07-20
# FLDetector: 悪意のあるクライアントの検出によるモデル中毒攻撃に対するフェデレーション学習の防御

FLDetector: Defending Federated Learning Against Model Poisoning Attacks via Detecting Malicious Clients ( http://arxiv.org/abs/2207.09209v2 )

ライセンス: Link先を確認
Zaixi Zhang, Xiaoyu Cao, Jinayuan Jia, Neil Zhenqiang Gong(参考訳) フェデレーション学習(fl)はモデル中毒攻撃に対して脆弱であり、悪意のあるクライアントは、操作されたモデル更新をサーバに送信することでグローバルモデルを破壊する。 既存の防御は主にビザンチン・ロバストflメソッドに依存しており、一部のクライアントが悪意を持っていても正確なグローバルモデルを学ぶことを目的としている。 しかし、実際には少数の悪意のあるクライアントにしか抵抗できない。 多数の悪意のあるクライアントによるモデル中毒攻撃を防御する方法は、依然としてオープンな課題である。 私たちのFLDetectorは悪意のあるクライアントを検出してこの問題に対処します。 FLDetectorは、Byzantine-robust FLメソッドが残りのクライアントを使って正確なグローバルモデルを学ぶことができるような、悪意のあるクライアントの大部分を検出し、削除することを目的としている。 私たちのキーとなる観察は、モデル中毒攻撃では、複数のイテレーションでクライアントからモデル更新が一貫性がないことです。 そのため、FLDetectorはモデルの更新一貫性をチェックして悪意のあるクライアントを検出する。 概して、サーバは、Cauchy平均値定理とL-BFGSを用いて、履歴モデル更新に基づいて、各イテレーションにおけるクライアントのモデル更新を予測し、クライアントから受信したモデル更新と予測されたモデル更新が複数のイテレーションで矛盾する場合、クライアントを悪意としてフラグする。 3つのベンチマークデータセットに対する広範な実験により、FLDetectorは複数の最先端モデル中毒攻撃において、悪意のあるクライアントを正確に検出できることが示された。 検出された悪意のあるクライアントを削除した後、既存のByzantine-robust FLメソッドは正確なグローバルモデルを学ぶことができる。

Federated learning (FL) is vulnerable to model poisoning attacks, in which malicious clients corrupt the global model via sending manipulated model updates to the server. Existing defenses mainly rely on Byzantine-robust FL methods, which aim to learn an accurate global model even if some clients are malicious. However, they can only resist a small number of malicious clients in practice. It is still an open challenge how to defend against model poisoning attacks with a large number of malicious clients. Our FLDetector addresses this challenge via detecting malicious clients. FLDetector aims to detect and remove the majority of the malicious clients such that a Byzantine-robust FL method can learn an accurate global model using the remaining clients. Our key observation is that, in model poisoning attacks, the model updates from a client in multiple iterations are inconsistent. Therefore, FLDetector detects malicious clients via checking their model-updates consistency. Roughly speaking, the server predicts a client's model update in each iteration based on its historical model updates using the Cauchy mean value theorem and L-BFGS, and flags a client as malicious if the received model update from the client and the predicted model update are inconsistent in multiple iterations. Our extensive experiments on three benchmark datasets show that FLDetector can accurately detect malicious clients in multiple state-of-the-art model poisoning attacks. After removing the detected malicious clients, existing Byzantine-robust FL methods can learn accurate global models.Our code is available at https://github.com/zaixizhang/FLDetector.
翻訳日:2022-07-21 10:52:45 公開日:2022-07-20
# TransGrasp: 1つのラベル付きインスタンスからのグラフ転送によるオブジェクトのカテゴリのグラフポス推定

TransGrasp: Grasp Pose Estimation of a Category of Objects by Transferring Grasps from Only One Labeled Instance ( http://arxiv.org/abs/2207.07861v2 )

ライセンス: Link先を確認
Hongtao Wen, Jianhang Yan, Wanli Peng, Yi Sun(参考訳) 把持姿勢推定は、ロボットが現実世界と対話する上で重要な課題である。 しかし、既存のメソッドのほとんどは、事前に利用可能な正確な3dオブジェクトモデルや、トレーニングのための大量のgrabアノテーションを必要とする。 これらの問題を回避するために,1つのオブジェクトインスタンスのみをラベル付けすることにより,対象のカテゴリの把持ポーズを予測するカテゴリレベルの把持ポーズ推定手法であるtransgraspを提案する。 具体的には,その形状対応に基づいて対象のカテゴリをまたいだ把持姿勢伝達を行い,把持者の把持姿勢をさらに微調整する把持姿勢改善モジュールを提案する。 実験は, 移動把持ポーズを用いた高品質把持を実現するための手法の有効性を示す。 私たちのコードはhttps://github.com/yanjh97/transgraspで利用可能です。

Grasp pose estimation is an important issue for robots to interact with the real world. However, most of existing methods require exact 3D object models available beforehand or a large amount of grasp annotations for training. To avoid these problems, we propose TransGrasp, a category-level grasp pose estimation method that predicts grasp poses of a category of objects by labeling only one object instance. Specifically, we perform grasp pose transfer across a category of objects based on their shape correspondences and propose a grasp pose refinement module to further fine-tune grasp pose of grippers so as to ensure successful grasps. Experiments demonstrate the effectiveness of our method on achieving high-quality grasps with the transferred grasp poses. Our code is available at https://github.com/yanjh97/TransGrasp.
翻訳日:2022-07-21 10:52:13 公開日:2022-07-20
# ベイズニューラルネットワークを用いた宇宙論におけるロバストシミュレーションに基づく推論

Robust Simulation-Based Inference in Cosmology with Bayesian Neural Networks ( http://arxiv.org/abs/2207.08435v2 )

ライセンス: Link先を確認
Pablo Lemos, Miles Cranmer, Muntazir Abidi, ChangHoon Hahn, Michael Eickenberg, Elena Massara, David Yallup, Shirley Ho(参考訳) シミュレーションベース推論(SBI)は、宇宙調査におけるデータ分析の標準機械学習技術として急速に確立しつつある。 学習モデルによる密度推定の質は継続的に改善されているが、そのような手法の実際のデータへの応用は、トレーニング分布から遠く離れたニューラルネットワークの一般化力に完全に依存している。 科学者によるシミュレーションの不完全さと、可能なパラメータの組み合わせを全て生成する膨大な計算コストのため、宇宙論におけるSBI法はそのような一般化問題に対して脆弱である。 本稿では,両問題の影響について考察し,sbiトレーニングのためのベイズ型ニューラルネットワークフレームワークを用いてバイアスを軽減し,トレーニングセット外の信頼性の高い推論を行う方法を示す。 宇宙生物学へのStochastic Weight Averagingの最初の応用であるcosmoSWAGを導入し、宇宙マイクロ波背景の推測のために訓練されたSBIに適用する。

Simulation-based inference (SBI) is rapidly establishing itself as a standard machine learning technique for analyzing data in cosmological surveys. Despite continual improvements to the quality of density estimation by learned models, applications of such techniques to real data are entirely reliant on the generalization power of neural networks far outside the training distribution, which is mostly unconstrained. Due to the imperfections in scientist-created simulations, and the large computational expense of generating all possible parameter combinations, SBI methods in cosmology are vulnerable to such generalization issues. Here, we discuss the effects of both issues, and show how using a Bayesian neural network framework for training SBI can mitigate biases, and result in more reliable inference outside the training set. We introduce cosmoSWAG, the first application of Stochastic Weight Averaging to cosmology, and apply it to SBI trained for inference on the cosmic microwave background.
翻訳日:2022-07-21 10:51:47 公開日:2022-07-20
# 3次元等変分子グラフプリトレーニング

3D Equivariant Molecular Graph Pretraining ( http://arxiv.org/abs/2207.08824v2 )

ライセンス: Link先を確認
Rui Jiao, Jiaqi Han, Wenbing Huang, Yu Rong, Yang Liu(参考訳) ラベルのない分子表現モデルの事前学習は、様々な応用に不可欠である。 従来の方法では主に2D分子グラフを処理し、2Dタスクのみに焦点を合わせ、事前訓練されたモデルでは3D幾何学を特徴づけることができないため、下流の3Dタスクには欠陥がある。 本研究では, 完全かつ新しい意味での3次元分子プレトレーニングに取り組む。 特に,3次元空間の対称性を満たすメリットを享受する事前学習のバックボーンとして,同変エネルギーベースモデルを採用することを提案する。 次に、力予測のためのノードレベルの事前学習損失を開発し、さらにリーマン・ガウス分布を利用して損失がE(3)不変であることを保証する。 さらに、グラフレベルのノイズスケール予測タスクを利用して、結果のパフォーマンスをさらに向上する。 大規模3DデータセットGEOM-QM9から事前学習したモデルを,MD17とQM9の2つの挑戦的な3Dベンチマークで評価した。 実験結果は,現在のプレトレーニング手法に対する提案手法の有効性を評価し,提案する各コンポーネントの設計の有効性を検証する。

Pretraining molecular representation models without labels is fundamental to various applications. Conventional methods mainly process 2D molecular graphs and focus solely on 2D tasks, making their pretrained models incapable of characterizing 3D geometry and thus defective for downstream 3D tasks. In this work, we tackle 3D molecular pretraining in a complete and novel sense. In particular, we first propose to adopt an equivariant energy-based model as the backbone for pretraining, which enjoys the merit of fulfilling the symmetry of 3D space. Then we develop a node-level pretraining loss for force prediction, where we further exploit the Riemann-Gaussian distribution to ensure the loss to be E(3)-invariant, enabling more robustness. Moreover, a graph-level noise scale prediction task is also leveraged to further promote the eventual performance. We evaluate our model pretrained from a large-scale 3D dataset GEOM-QM9 on two challenging 3D benchmarks: MD17 and QM9. The experimental results support the better efficacy of our method against current state-of-the-art pretraining approaches, and verify the validity of our design for each proposed component.
翻訳日:2022-07-21 10:51:32 公開日:2022-07-20
# データ中心の疫学予測:調査

Data-Centric Epidemic Forecasting: A Survey ( http://arxiv.org/abs/2207.09370v2 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Harshavardhan Kamarthi, Pulak Agarwal, Javen Ho, Mira Patel, Suchet Sapre, B. Aditya Prakash(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、公衆衛生から経済全体に至るまで、複数のドメインにおける意思決定者に対する流行予測の重要性をもたらした。 流行の進行を予測することは、しばしば天気予報と類似しているとして概念化されるが、いくつかの重要な違いがあり、非自明な課題である。 病気の拡散は、人間の行動、病原体力学、天候、環境条件にまたがる複数の要因によって引き起こされる。 研究の関心は、これまで観測できなかったような面を捉えたリッチなデータソースの可用性の増加と、政府の公衆衛生と資金機関の主導によるものだ。 これは特に、AIや機械学習の最近の革新と同様に、従来のデータソースを活用することによって予測能力を向上する可能性を示した、‘データ中心’ソリューションに関する一連の研究の結果である。 この調査は、さまざまなデータ駆動型方法論と実践的な進歩を掘り下げ、それらをナビゲートするための概念的枠組みを紹介します。 まず、疫学上の大量のデータセットと、流行予測に関連する新しいデータストリームを列挙し、症状のオンラインサーベイ、小売商取引、モビリティ、ゲノムデータなど様々な要因を捉えます。 次に、最近のデータ駆動統計・ディープラーニングに基づく手法と、メカニカルモデルのドメイン知識と統計的アプローチの有効性と柔軟性を組み合わせた新しいハイブリッドモデルのクラスに焦点を当てた手法とモデリングパラダイムについて論じる。 また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。 最後に,予測パイプライン全体に見られる課題と課題について紹介する。

The COVID-19 pandemic has brought forth the importance of epidemic forecasting for decision makers in multiple domains, ranging from public health to the economy as a whole. While forecasting epidemic progression is frequently conceptualized as being analogous to weather forecasting, however it has some key differences and remains a non-trivial task. The spread of diseases is subject to multiple confounding factors spanning human behavior, pathogen dynamics, weather and environmental conditions. Research interest has been fueled by the increased availability of rich data sources capturing previously unobservable facets and also due to initiatives from government public health and funding agencies. This has resulted, in particular, in a spate of work on 'data-centered' solutions which have shown potential in enhancing our forecasting capabilities by leveraging non-traditional data sources as well as recent innovations in AI and machine learning. This survey delves into various data-driven methodological and practical advancements and introduces a conceptual framework to navigate through them. First, we enumerate the large number of epidemiological datasets and novel data streams that are relevant to epidemic forecasting, capturing various factors like symptomatic online surveys, retail and commerce, mobility, genomics data and more. Next, we discuss methods and modeling paradigms focusing on the recent data-driven statistical and deep-learning based methods as well as on the novel class of hybrid models that combine domain knowledge of mechanistic models with the effectiveness and flexibility of statistical approaches. We also discuss experiences and challenges that arise in real-world deployment of these forecasting systems including decision-making informed by forecasts. Finally, we highlight some challenges and open problems found across the forecasting pipeline.
翻訳日:2022-07-21 10:51:14 公開日:2022-07-20
# PiC: フレーズ理解と意味検索のためのPhrase-in-Contextデータセット

PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search ( http://arxiv.org/abs/2207.09068v2 )

ライセンス: Link先を確認
Thang M. Pham, Seunghyun Yoon, Trung Bui, Anh Nguyen(参考訳) BERT (Devlin et al., 2018)以来、文脈化された単語の埋め込みの学習はNLPのデファクトスタンダードとなっている。 しかし、文脈化されたフレーズ埋め込みの学習の進歩は、人間の注釈付きフレーズインコンテキストベンチマークの欠如によって妨げられている。 このギャップを埋めるために, 名詞句のデータセットであるPiCを提案し, 文脈的ウィキペディアページと, 句埋め込みの質を評価するのに難易度を増す3つのタスクからなる。 我々のデータセットのトレーニングは、ランキングモデルの精度を向上し、質問回答モデル(QA)を、クエリフレーズとパスが与えられたセマンティックサーチで95%の精度で、ほぼ人間に近い精度に格上げする。 興味深いことに、このような印象的なパフォーマンスは、QAモデルが、実際の文脈に関係なく、フレーズの共通の意味をよりよく捉えることを学習しているためである。 すなわち、私たちのPhrase Sense Disambiguation(PSD)タスクでは、SotAモデルの精度は実質的に(60% EM)低下し、2つの異なる文脈下で同じフレーズの2つの異なる感覚を区別することができない。 3タスクのPiCベンチマークのさらなる結果は、文脈化されたフレーズの埋め込みの学習が、興味深い、オープンな課題であることを示している。

Since BERT (Devlin et al., 2018), learning contextualized word embeddings has been a de-facto standard in NLP. However, the progress of learning contextualized phrase embeddings is hindered by the lack of a human-annotated, phrase-in-context benchmark. To fill this gap, we propose PiC - a dataset of ~28K of noun phrases accompanied by their contextual Wikipedia pages and a suite of three tasks of increasing difficulty for evaluating the quality of phrase embeddings. We find that training on our dataset improves ranking models' accuracy and remarkably pushes Question Answering (QA) models to near-human accuracy which is 95% Exact Match (EM) on semantic search given a query phrase and a passage. Interestingly, we find evidence that such impressive performance is because the QA models learn to better capture the common meaning of a phrase regardless of its actual context. That is, on our Phrase Sense Disambiguation (PSD) task, SotA model accuracy drops substantially (60% EM), failing to differentiate between two different senses of the same phrase under two different contexts. Further results on our 3-task PiC benchmark reveal that learning contextualized phrase embeddings remains an interesting, open challenge.
翻訳日:2022-07-21 10:49:31 公開日:2022-07-20
# スパースワードタスクにおけるメタ強化学習のための学習アクショントランスレータ

Learning Action Translator for Meta Reinforcement Learning on Sparse-Reward Tasks ( http://arxiv.org/abs/2207.09071v2 )

ライセンス: Link先を確認
Yijie Guo, Qiucheng Wu, Honglak Lee(参考訳) meta reinforcement learning(meta-rl)の目的は、一連のトレーニングタスクを同時に解決し、新しいタスクに迅速に適応するポリシーを学ぶことである。 タスク間で共有される共通構造を推測するために、トレーニングタスクから引き出される膨大なデータが必要です。 高度な報酬工学がなければ、長距離作業におけるスパース報酬はメタRLのサンプル効率の問題を悪化させる。 meta-rlのもう一つの課題は、タスク間の難易度の差であり、共有ポリシーの学習を一つの簡単なタスクが支配し、新しいタスクへのポリシー適応を妨げる可能性がある。 本研究は,訓練作業中の行動伝達子を学習する目的関数を導入する。 理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近づき、我々の目的関数(約)が値の差を表わす。 本稿では,アクショントランスレータとコンテキストベースのメタrlアルゴリズムを組み合わせたデータ収集と,メタトレーニング時の探索の効率化を提案する。 提案手法はスパース・リワードタスクにおけるメタRLアルゴリズムのサンプル効率と性能を実証的に改善する。

Meta reinforcement learning (meta-RL) aims to learn a policy solving a set of training tasks simultaneously and quickly adapting to new tasks. It requires massive amounts of data drawn from training tasks to infer the common structure shared among tasks. Without heavy reward engineering, the sparse rewards in long-horizon tasks exacerbate the problem of sample efficiency in meta-RL. Another challenge in meta-RL is the discrepancy of difficulty level among tasks, which might cause one easy task dominating learning of the shared policy and thus preclude policy adaptation to new tasks. This work introduces a novel objective function to learn an action translator among training tasks. We theoretically verify that the value of the transferred policy with the action translator can be close to the value of the source policy and our objective function (approximately) upper bounds the value difference. We propose to combine the action translator with context-based meta-RL algorithms for better data collection and more efficient exploration during meta-training. Our approach empirically improves the sample efficiency and performance of meta-RL algorithms on sparse-reward tasks.
翻訳日:2022-07-21 10:49:08 公開日:2022-07-20
# 牛乳を買うのを忘れないで。食料品のリマインダーロボット

Don't Forget to Buy Milk: Contextually Aware Grocery Reminder Household Robot ( http://arxiv.org/abs/2207.09050v2 )

ライセンス: Link先を確認
Ali Ayub, Chrystopher L. Nehaniv, and Kerstin Dautenhahn(参考訳) 家庭で作業する補助ロボットは、家庭内で支援作業を行うためにアイテムを入手する必要がある。 しかし、これらのアイテムが切れると、アシストロボットはユーザーが行方不明のアイテムを買うことを思い出さなければならない。 本稿では,ロボットがユーザとのインタラクションを通じて,家庭の個人化されたコンテキスト知識を学習できる計算アーキテクチャを提案する。 アーキテクチャは学習した知識を使って、家計から失われたアイテムを長期間にわたって予測することができる。 このアーキテクチャは、最先端の知覚学習アルゴリズム、メモリエンコーディングと学習の認知モデル、家庭から欠落したアイテムを予測する推論モジュール、ユーザと対話するためのグラフィカルユーザインターフェース(GUI)を統合している。 アーキテクチャはfetchモバイルマニピュレータロボットと統合され、複数のコンテキストとオブジェクトを持つ大きな屋内環境で検証される。 実験の結果,ロボットはユーザとのインタラクションを通じて文脈知識を学習することで環境に適応できることがわかった。 このロボットは、学習した知識を使って、数週間にわたって行方不明のアイテムを正確に予測し、知覚的および知覚的エラーに対して堅牢である。

Assistive robots operating in household environments would require items to be available in the house to perform assistive tasks. However, when these items run out, the assistive robot must remind its user to buy the missing items. In this paper, we present a computational architecture that can allow a robot to learn personalized contextual knowledge of a household through interactions with its user. The architecture can then use the learned knowledge to make predictions about missing items from the household over a long period of time. The architecture integrates state-of-the-art perceptual learning algorithms, cognitive models of memory encoding and learning, a reasoning module for predicting missing items from the household, and a graphical user interface (GUI) to interact with the user. The architecture is integrated with the Fetch mobile manipulator robot and validated in a large indoor environment with multiple contexts and objects. Our experimental results show that the robot can adapt to an environment by learning contextual knowledge through interactions with its user. The robot can also use the learned knowledge to correctly predict missing items over multiple weeks and it is robust against sensory and perceptual errors.
翻訳日:2022-07-21 10:48:50 公開日:2022-07-20
# ELECTRAは、ゼロショットの学習者でもある

ELECTRA is a Zero-Shot Learner, Too ( http://arxiv.org/abs/2207.08141v2 )

ライセンス: Link先を確認
Shiwen Ni and Hung-Yu Kao(参考訳) 近年,数発あるいはゼロショットの学習において,新しいパラダイムである"pre-train, prompt, and predict"は,"pre-train, fine-tune"パラダイムと比較して,目覚ましい成果を上げた。 プロンプトベースのgpt-3の成功の後、一連のマスク言語モデル(mlm)ベースのプロンプト学習法(bert、robertaなど)が普及し、広く使われるようになった。 しかし、別の効率的な事前訓練型識別モデルELECTRAは、おそらく無視されている。 本稿では,代用トークン検出(RTD)に基づく高速学習手法を提案することで,ゼロショットシナリオにおける複数のNLPタスクの実現を試みた。 実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。 数値的には,MLM-RoBERTa-largeとMLM-BERT-largeと比較して,RTD-ELECTRA-largeは平均8.4%,13.7%改善している。 特にSST-2タスクでは、RTD-ELECTRA-largeはトレーニングデータなしで驚くべき90.1%の精度を実現している。 全体として、事前学習されたマスク言語モデルと比較して、訓練済みのトークン検出モデルの方がゼロショット学習において優れた性能を発揮する。 ソースコードはhttps://github.com/ nishiwen1214/rtd-electra。

Recently, for few-shot or even zero-shot learning, the new paradigm "pre-train, prompt, and predict" has achieved remarkable achievements compared with the "pre-train, fine-tune" paradigm. After the success of prompt-based GPT-3, a series of masked language model (MLM)-based (e.g., BERT, RoBERTa) prompt learning methods became popular and widely used. However, another efficient pre-trained discriminative model, ELECTRA, has probably been neglected. In this paper, we attempt to accomplish several NLP tasks in the zero-shot scenario using a novel our proposed replaced token detection (RTD)-based prompt learning method. Experimental results show that ELECTRA model based on RTD-prompt learning achieves surprisingly state-of-the-art zero-shot performance. Numerically, compared to MLM-RoBERTa-large and MLM-BERT-large, our RTD-ELECTRA-large has an average of about 8.4% and 13.7% improvement on all 15 tasks. Especially on the SST-2 task, our RTD-ELECTRA-large achieves an astonishing 90.1% accuracy without any training data. Overall, compared to the pre-trained masked language models, the pre-trained replaced token detection model performs better in zero-shot learning. The source code is available at: https://github.com/nishiwen1214/RTD-ELECTRA.
翻訳日:2022-07-21 10:48:31 公開日:2022-07-20
# diffustereo:スパースカメラを用いた拡散型ステレオによる高品質ヒト再建

DiffuStereo: High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras ( http://arxiv.org/abs/2207.08000v2 )

ライセンス: Link先を確認
Ruizhi Shao, Zerong Zheng, Hongwen Zhang, Jingxiang Sun, Yebin Liu(参考訳) 高品質な3次元再構成のためのスパースカメラ(本研究では8台)のみを用いた新しいシステムであるDiffuStereoを提案する。 中心となるのは拡散に基づく新しいステレオモジュールであり、これは拡散モデル(強力な生成モデルの一種)を反復ステレオマッチングネットワークに導入する。 この目的のために,ネットワーク内でのステレオマッチングと深度推定を容易にするために,新しい拡散カーネルと追加のステレオ制約を設計する。 さらに,メモリフットプリントを必要とせず,高解像度(最大4k)入力を処理するマルチレベルステレオネットワークアーキテクチャを提案する。 提案する多層拡散型ステレオネットワークは,人間のスパースカラー画像の集合を考慮し,高精度な深度マップを作成可能とし,効率的なマルチビュー融合戦略により高品質な3次元人体モデルに変換する。 本手法は,高精細度カメラリグに匹敵する品質の人体モデルの自動再構成を可能にし,より軽量なハードウェア構成で実現している。 実験により,本手法は定性的にも定量的にも,最先端の手法よりも高い性能を示した。

We propose DiffuStereo, a novel system using only sparse cameras (8 in this work) for high-quality 3D human reconstruction. At its core is a novel diffusion-based stereo module, which introduces diffusion models, a type of powerful generative models, into the iterative stereo matching network. To this end, we design a new diffusion kernel and additional stereo constraints to facilitate stereo matching and depth estimation in the network. We further present a multi-level stereo network architecture to handle high-resolution (up to 4k) inputs without requiring unaffordable memory footprint. Given a set of sparse-view color images of a human, the proposed multi-level diffusion-based stereo network can produce highly accurate depth maps, which are then converted into a high-quality 3D human model through an efficient multi-view fusion strategy. Overall, our method enables automatic reconstruction of human models with quality on par to high-end dense-view camera rigs, and this is achieved using a much more light-weight hardware setup. Experiments show that our method outperforms state-of-the-art methods by a large margin both qualitatively and quantitatively.
翻訳日:2022-07-21 10:48:07 公開日:2022-07-20
# ExAgt: 交通シナリオの表現学習のためのエキスパートガイド強化

ExAgt: Expert-guided Augmentation for Representation Learning of Traffic Scenarios ( http://arxiv.org/abs/2207.08609v2 )

ライセンス: Link先を確認
Lakshman Balasubramanian, Jonas Wurst, Robin Egolf, Michael Botsch, Wolfgang Utschick and Ke Deng(参考訳) 近年,自己指導型学習手法によって表現学習が進められている。 入力データは2つの歪んだビューに拡張され、エンコーダは歪みに不変な表現(クロスビュー予測)を学ぶ。 拡張は、視覚表現を学ぶために、クロスビューの自己教師付き学習フレームワークの重要なコンポーネントの1つです。 本稿では,人間のアノテーションを使わずに学習表現を改善するために,トラヒックシナリオを補完する専門家知識を含む新しい手法であるexagtを提案する。 エキスパートガイドによる拡張は、インフラストラクチャ、egoとトラフィック参加者とのインタラクション、理想的なセンサーモデルに基づいて、自動化された方法で生成される。 ExAgt法は2つの最先端のクロスビュー予測手法に適用され、学習した表現は分類やクラスタリングといった下流タスクでテストされる。 その結果,ExAgt法は,標準拡張法よりも表現学習が向上し,表現空間の安定性が向上した。 コードはhttps://github.com/lab176344/exagtで入手できる。

Representation learning in recent years has been addressed with self-supervised learning methods. The input data is augmented into two distorted views and an encoder learns the representations that are invariant to distortions -- cross-view prediction. Augmentation is one of the key components in cross-view self-supervised learning frameworks to learn visual representations. This paper presents ExAgt, a novel method to include expert knowledge for augmenting traffic scenarios, to improve the learnt representations without any human annotation. The expert-guided augmentations are generated in an automated fashion based on the infrastructure, the interactions between the EGO and the traffic participants and an ideal sensor model. The ExAgt method is applied in two state-of-the-art cross-view prediction methods and the representations learnt are tested in downstream tasks like classification and clustering. Results show that the ExAgt method improves representation learning compared to using only standard augmentations and it provides a better representation space stability. The code is available at https://github.com/lab176344/ExAgt.
翻訳日:2022-07-21 10:47:48 公開日:2022-07-20
# 分散オブジェクトセグメンテーションのためのインスタンスアウェアオブザーバネットワーク

Instance-Aware Observer Network for Out-of-Distribution Object Segmentation ( http://arxiv.org/abs/2207.08782v2 )

ライセンス: Link先を確認
Victor Besnier, Andrei Bursuc, David Picard, Alexandre Briot(参考訳) Observer Networkの最近の研究は、セマンティックセグメンテーションのためのout-Of-Distribution(OOD)検出に有望な結果を示している。 これらの手法は、画像の興味点、すなわち異常点を正確に特定することが困難である。 この制限は、ピクセルレベルでの微細な予測が難しいためである。 この問題に対処するため、観測者に事例知識を提供する。 我々はインスタンスワイドマスク予測を利用してObsNetのアプローチを拡張する。 我々は、観測者予測をフィルタリングし集約するために、追加のクラスに依存しないオブジェクト検出器を使用する。 最後に、画像の各インスタンスに対するユニークな異常スコアを予測します。 提案手法は,3つのデータセット上の外部分布オブジェクトから分布オブジェクトを正確に分離する。

Recent work on Observer Network has shown promising results on Out-Of-Distribution (OOD) detection for semantic segmentation. These methods have difficulty in precisely locating the point of interest in the image, i.e, the anomaly. This limitation is due to the difficulty of fine-grained prediction at the pixel level. To address this issue, we provide instance knowledge to the observer. We extend the approach of ObsNet by harnessing an instance-wise mask prediction. We use an additional, class agnostic, object detector to filter and aggregate observer predictions. Finally, we predict an unique anomaly score for each instance in the image. We show that our proposed method accurately disentangle in-distribution objects from Out-Of-Distribution objects on three datasets.
翻訳日:2022-07-21 10:47:30 公開日:2022-07-20
# eCDT:同時特徴検出と追跡のためのイベントクラスタリング

eCDT: Event Clustering for Simultaneous Feature Detection and Tracking- ( http://arxiv.org/abs/2207.09108v2 )

ライセンス: Link先を確認
Sumin Hu, Yeeun Kim, Hyungtae Lim, Alex Junho Lee, Hyun Myung(参考訳) 他の標準的なカメラとは対照的に、イベントカメラは、非同期イベントのコレクションとして、世界を完全に異なる方法で解釈する。 イベントカメラのユニークなデータ出力にもかかわらず、多くのイベント特徴検出と追跡アルゴリズムはフレームベースのデータ表現に方向転換することで大きな進歩を示している。 本稿では,イベントクラスタリングに基づく検出・追跡(eCDT)と呼ばれる,特徴の検出と追跡を同時に行う新しいイベントデータフレンドリーな手法を提案する。 提案手法は,k-nn分類器に基づく空間クラスタリングと,隣接する極性イベントをクラスタ化してイベント軌跡を検索するアプリケーション(kcscan)を用いた新しいクラスタリング手法である。ヘッドとテールディスクリプタマッチングプロセスにより,異なる極性に再出現するイベントクラスタを継続的に追跡し,特徴トラックを延長する。 時空間におけるクラスタリングアプローチにより,特徴検出と特徴追跡を同時に行う。 また、eCDTは、元のイベントデータの高時間分解能を損なわない調整可能な時間窓で、任意の周波数で特徴トラックを抽出することができる。 提案手法は, 最先端手法と比較して30%の精度で特徴追跡が可能であり, 誤差もほぼ同じである。

Contrary to other standard cameras, event cameras interpret the world in an entirely different manner; as a collection of asynchronous events. Despite event camera's unique data output, many event feature detection and tracking algorithms have shown significant progress by making detours to frame-based data representations. This paper questions the need to do so and proposes a novel event data-friendly method that achieve simultaneous feature detection and tracking, called event Clustering-based Detection and Tracking (eCDT). Our method employs a novel clustering method, named as k-NN Classifier-based Spatial Clustering and Applications with Noise (KCSCAN), to cluster adjacent polarity events to retrieve event trajectories.With the aid of a Head and Tail Descriptor Matching process, event clusters that reappear in a different polarity are continually tracked, elongating the feature tracks. Thanks to our clustering approach in spatio-temporal space, our method automatically solves feature detection and feature tracking simultaneously. Also, eCDT can extract feature tracks at any frequency with an adjustable time window, which does not corrupt the high temporal resolution of the original event data. Our method achieves 30% better feature tracking ages compared with the state-of-the-art approach while also having a low error approximately equal to it.
翻訳日:2022-07-21 10:47:20 公開日:2022-07-20
# Expert-LaSTS: エキスパート知識による交通シナリオの遅延スペース

Expert-LaSTS: Expert-Knowledge Guided Latent Space for Traffic Scenarios ( http://arxiv.org/abs/2207.09120v2 )

ライセンス: Link先を確認
Jonas Wurst, Lakshman Balasubramanian, Michael Botsch and Wolfgang Utschick(参考訳) 自動運転車のシナリオベーステストには,交通シナリオのクラスタ化と新たなシナリオタイプの検出が必要である。 これらのタスクは、トラフィックシナリオのよい類似度測定または良い表現の恩恵を受けます。 本稿では,トラフィックシナリオの表現学習を支援するエキスパート知識を提案する。 このような潜在空間は、クラスタリングの成功と新しいシナリオタイプ検出に使用される。 expert-knowledgeは、トラフィックシナリオの潜在表現が満たす目標を定義するために使用される。 ネットワークアーキテクチャと損失がこれらの目的からどのように設計され、専門家知識が組み込まれているかを示す。 手動ラベリングを必要としない交通シナリオの自動マイニング戦略が提案されている。 その結果,ベースライン法と比較して性能上の優位性を示した。 また,潜在空間の広範囲な解析を行う。

Clustering traffic scenarios and detecting novel scenario types are required for scenario-based testing of autonomous vehicles. These tasks benefit from either good similarity measures or good representations for the traffic scenarios. In this work, an expert-knowledge aided representation learning for traffic scenarios is presented. The latent space so formed is used for successful clustering and novel scenario type detection. Expert-knowledge is used to define objectives that the latent representations of traffic scenarios shall fulfill. It is presented, how the network architecture and loss is designed from these objectives, thereby incorporating expert-knowledge. An automatic mining strategy for traffic scenarios is presented, such that no manual labeling is required. Results show the performance advantage compared to baseline methods. Additionally, extensive analysis of the latent space is performed.
翻訳日:2022-07-21 10:46:58 公開日:2022-07-20
# 学習をやめないで:CLIPモデルの継続的な学習を目指して

Don't Stop Learning: Towards Continual Learning for the CLIP Model ( http://arxiv.org/abs/2207.09248v2 )

ライセンス: Link先を確認
Yuxuan Ding, Lingqiao Liu, Chunna Tian, Jingyuan Yang, Haoxuan Ding(参考訳) Contrastive Language-Image Pre-Training(CLIP)モデルは、コンピュータビジョンコミュニティで注目を集める大規模な事前訓練モデルである。 巨大な画像テキストトレーニングセットから恩恵を受け、CLIPモデルはゼロショット学習と画像テキストマッチングの優れた能力を学んだ。 対象とする視覚概念におけるCLIPの認識性能を高めるために、追加のトレーニングデータに基づいてクラスを微調整することで、CLIPモデルをさらに更新することが望ましい場合が多い。 アップデートによって、CLIPのゼロショット学習や画像テキストマッチング能力、すなわち破滅的な忘れの問題が損なわれるだろうか? もしそうなら、既存の連続学習アルゴリズムは破滅的な忘れのリスクを軽減できるのだろうか? これらの疑問に答えるために,本研究では,CLIPモデルの継続的学習問題に関する体系的研究を行う。 我々は、微調整更新の影響を測定するための評価プロトコルを構築し、既存の継続学習手法を改良し、CLIPモデルの忘れる問題を緩和する様々な方法を模索する。 本研究は,CLIP継続学習問題の課題を明らかにし,さらなる研究の基盤となる。 さらに,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習アルゴリズムを提案する。

The Contrastive Language-Image Pre-training (CLIP) Model is a recently proposed large-scale pre-train model which attracts increasing attention in the computer vision community. Benefiting from its gigantic image-text training set, the CLIP model has learned outstanding capabilities in zero-shot learning and image-text matching. To boost the recognition performance of CLIP on some target visual concepts, it is often desirable to further update the CLIP model by fine-tuning some classes-of-interest on extra training data. This operation, however, raises an important concern: will the update hurt the zero-shot learning or image-text matching capability of the CLIP, i.e., the catastrophic forgetting issue? If yes, could existing continual learning algorithms be adapted to alleviate the risk of catastrophic forgetting? To answer these questions, this work conducts a systemic study on the continual learning issue of the CLIP model. We construct evaluation protocols to measure the impact of fine-tuning updates and explore different ways to upgrade existing continual learning methods to mitigate the forgetting issue of the CLIP model. Our study reveals the particular challenges of CLIP continual learning problem and lays a foundation for further researches. Moreover, we propose a new algorithm, dubbed Learning without Forgetting via Replayed Vocabulary (VR-LwF), which shows exact effectiveness for alleviating the forgetting issue of the CLIP model.
翻訳日:2022-07-21 10:46:47 公開日:2022-07-20