このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220924となっている論文です。

PDF登録状況(公開日: 20220924)

TitleAuthorsAbstract論文公表日・翻訳日
# スピンクビットデコヒーレンス時間の適用磁場に関する異方性

Anisotropy with respect to the applied magnetic field of spin qubit decoherence times ( http://arxiv.org/abs/2103.05865v3 )

ライセンス: Link先を確認
Yujun Choi and Robert Joynt(参考訳) 電子スピン量子ビットは量子計算の有望なプラットフォームである。 環境騒音は、qubit緩和(T_1$)とdephasing(T_{\phi}$)を制限してコヒーレントな動作を妨げる。 このようなノイズの源は複数あり、そのような音源の空間的位置を検知し、ソースの種類を決定する実験的な手法を考案することが重要である。 本稿では, 印加磁界の方向に関して, $t_1$ および $t_{\phi}$ の異方性が, ノイズのこれらの側面について多くを解明できることを示す。 仮説装置における電荷雑音,エバネッセント波ジョンソン雑音,超微細ノイズの異方性パターンについて検討した。 この技術から最大限の利益を得るためには、かなり良好な特性のサンプルを持つことが必要である。 一般的な異方性パターンが解明される。 我々はSi/SiGe量子ドットデバイスの特定のモデルに対する予測異方性を計算する。

Electron spin qubits are a promising platform for quantum computation. Environmental noise impedes coherent operations by limiting the qubit relaxation ($T_1$) and dephasing ($T_{\phi}$) times. There are multiple sources of such noise, which makes it important to devise experimental techniques that can detect the spatial locations of these sources and determine the type of source. In this paper, we propose that anisotropy in $T_1$ and $T_{\phi}$ with respect to the direction of the applied magnetic field can reveal much about these aspects of the noise. We investigate the anisotropy patterns of charge noise, evanescent-wave Johnson noise, and hyperfine noise in hypothetical devices. It is necessary to have a rather well-characterized sample to get the maximum benefit from this technique. The general anisotropy patterns are elucidated. We calculate the expected anisotropy for a particular model of a Si/SiGe quantum dot device.
翻訳日:2023-04-08 13:51:53 公開日:2022-09-24
# 量子鍵分配プロトコルの測定・デバイス・インデペンデント化

Measurement-Device-Independenization of Quantum Key Distribution Protocols ( http://arxiv.org/abs/2110.01979v8 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(QKD)により、正統なパートナーは、セキュリティが物理法則にのみ依存する秘密鍵を確立することができる。 近年、安全でない測定装置、すなわち計測デバイスに依存しないQKD(MDI-QKD)を用いたQKDの研究が増加している。 MDI-QKDは測定装置に対する全ての攻撃を取り除き、信頼できない第三者を計測に使用することができる。 しかし、従来のMDI-QKDプロトコルの弱点は、ベル測定のような、練習の効率が低い共同測定の必要性である。 一方、すべてのqkdプロトコルが測定デバイス非依存になるのは問題である。 本稿では,MDI-QKDプロトコルをMDI-QKDプロトコルとし,共同計測を必要とせず,弱いコヒーレンスソースで効率的に実装できる「$'measurement-device-independenization'$」方式を提案する。 このプロトコルはディテクターデバイス非依存(ddi)プロトコルに似ているが、トロイの木馬攻撃でも安全である。 これを説明するために、光子数加算(pna)攻撃を調査し、ddi や plug-and-play など以前のプロトコルの抜け穴を閉じるために使用できる $'photon-number-purification'$ と呼ばれるスキームを提案する。

Quantum key distribution(QKD) allows the legitimated partner to establish a secret key whose security only depends on physical laws. Recent years, researches on QKD by employing insecure measurement devices, namely measurement-device-independent QKD (MDI-QKD) are increased. MDI-QKD removes all attacks on measurement devices and thus an untrusted third party can be employed for measuring. However, a weakness of previous MDI-QKD protocols is the need of joint measurements such as Bell measurements whose efficiency is low in practise. On the other hand, can all QKD protocols become measurement-device-independent remains a problem. In this paper, we present a scheme, called $'measurement-device-independenization'$, making prepare-measure QKD protocols become MDI-QKD protocols, which needs not to employ joint measurements and could be efficiently implemented by weak coherence sources. The protocol might look like the detector-device-independent(DDI) protocols but it is also secure under the Trojan horse attack. To illustrate this, we investigate the photon-number-adding(PNA) attack and present a scheme, called $'photon-number-purification'$, which can also be employed to close loopholes for previous protocols such as DDI and plug-and-play ones.
翻訳日:2023-03-12 12:08:43 公開日:2022-09-24
# 光注入攻撃に対する光ファイバー量子鍵分布源の保護

Protecting fiber-optic quantum key distribution sources against light-injection attacks ( http://arxiv.org/abs/2201.06114v2 )

ライセンス: Link先を確認
Anastasiya Ponosova, Daria Ruzhitskaya, Poompong Chaiwongkhot, Vladimir Egorov, Vadim Makarov and Anqi Huang(参考訳) セキュリティには、量子鍵配布システムにおけるよく保護され特徴付けられたソースが必要である。 残念ながら、ソースはトロイの木馬、レーザーシーディング、レーザー損傷攻撃などの光注入攻撃に弱いため、盗聴器はソースユニットをハックするために明るい光を積極的に注入する。 ハッキングレーザーは、レーザー破壊攻撃によって部品の特性を変更したり、トロイの木馬や他の光射出攻撃にも役立つ高出力レーザーである可能性がある。 本稿では,光源出口に付加的な犠牲成分を配置した光注入攻撃に対する対策を提案する。 このコンポーネントは、電源の残りの部分を変更できない安全なレベルまで減衰させながら、高出力の入射光に耐えるか、あるいはラインを壊す永続的な高減衰状態に破壊されなければならない。 既製の光ファイバーアイソレータとサーキュレータは、少なくとも連続波高出力レーザーによる攻撃を受けながら、これらの望ましい特性を持つことを示した。

A well-protected and characterised source in a quantum key distribution system is needed for its security. Unfortunately, the source is vulnerable to light-injection attacks, such as Trojan-horse, laser-seeding, and laser-damage attacks, in which an eavesdropper actively injects bright light to hack the source unit. The hacking laser could be a high-power one that can modify properties of components via the laser-damage attack and also further help the Trojan-horse and other light-injection attacks. Here we propose a countermeasure against the light-injection attacks, consisting of an additional sacrificial component placed at the exit of the source. This component should either withstand high-power incoming light while attenuating it to a safe level that cannot modify the rest of the source, or get destroyed into a permanent high-attenuation state that breaks up the line. We demonstrate experimentally that off-the-shelf fiber-optic isolators and circulators have these desired properties, at least under attack by a continuous-wave high-power laser.
翻訳日:2023-03-01 00:45:49 公開日:2022-09-24
# 基本量子アルゴリズム

Basic Quantum Algorithms ( http://arxiv.org/abs/2201.10574v5 )

ライセンス: Link先を確認
Renato Portugal(参考訳) 量子コンピューティングは急速に進化しており、理論の基礎を再検討し、書き直し、更新せざるを得ない。 基本量子アルゴリズムは、最初の量子アルゴリズムを再考する。 1985年にdeutschが2つのドメインポイントで関数を同時に評価することから始まった。 その後、1992年にDeutschとJozsaはブール関数が定数か平衡かを決定する量子アルゴリズムを作成した。 翌年、ベルンシュタインとヴァジラニは、同じアルゴリズムが線形ブール関数の集合の中の特定のブール関数を見つけるのに使えることを悟った。 1994年、サイモンは関数がどの古典的アルゴリズムよりも指数関数的に速く1対1か2対1かを決定する新しい量子アルゴリズムを発表した。 同年、ショアは整数を分解し離散対数を計算するための2つの新しい量子アルゴリズムを作成し、今日広く使われている暗号法を脅かした。 1995年、KitaevはShorのアルゴリズムの代替バージョンについて記述し、他の多くのアプリケーションで有用であることが証明された。 翌年、グロバーは量子探索アルゴリズムを古典的アルゴリズムよりも2倍高速に作成した。 この研究では、これらの顕著なアルゴリズムはすべて、回路モデルに焦点をあてて詳細に記述されている。

Quantum computing is evolving so quickly that forces us to revisit, rewrite, and update the basis of the theory. Basic Quantum Algorithms revisits the first quantum algorithms. It started in 1985 with Deutsch trying to evaluate a function at two domain points simultaneously. Then, Deutsch and Jozsa created in 1992 a quantum algorithm that determines whether a Boolean function is constant or balanced. In the next year, Bernstein and Vazirani realized that the same algorithm can be used to find a specific Boolean function in the set of linear Boolean functions. In 1994, Simon presented a new quantum algorithm that determines whether a function is one-to-one or two-to-one exponentially faster than any classical algorithm for the same problem. In the same year, Shor created two new quantum algorithms for factoring integers and calculating discrete logarithms, threatening the cryptography methods widely used nowadays. In 1995, Kitaev described an alternative version for Shor's algorithms that proved useful in many other applications. In the following year, Grover created a quantum search algorithm quadratically faster than its classical counterpart. In this work, all those remarkable algorithms are described in detail with a focus on the circuit model.
翻訳日:2023-02-27 22:21:46 公開日:2022-09-24
# xanadu x8プロセッサ上の零相ビームスプリッタの変分量子コンパイル戦略

Strategies for variational quantum compiling of a zero-phase beamsplitter on the Xanadu X8 processor ( http://arxiv.org/abs/2202.01161v2 )

ライセンス: Link先を確認
T. J. Volkoff(参考訳) 連続可変(CV)ユニタリ演算の変分コンパイルの文脈では、Xanadu X8プロセッサのアーキテクチャとパラメータ空間は、実行可能なコンパイル問題の集合と許容コスト関数の両方を制約する。 本稿では,x8プロセッサの制約を満たす実行列要素(すなわち「ゼロ相」ビームスプリッター)を持つ2モード連続可変ビームスプリッタゲートの変分コンパイルに対する忠実なコスト関数の動機付けを行う。 このコスト関数は X8 上で計算される。 プロセッサのノイズにもかかわらず、コスト関数は最適パラメータレジリエンスを示し、したがってこの変動コンパイル問題はx8上で実現可能である。 本論文の目的は,短期CVハードウェア上での原価関数計算の実証を部分的に報告することであり,また,より複雑で大規模な環境でのCV変分コンパイル問題に関係のある方法を提案することである。

In the context of variational compiling of a continuous-variable (CV) unitary operation, the architecture and parameter space of the Xanadu X8 processor constrain both the set of feasible compiling problems and the allowed cost functions. In this paper, we motivate a faithful cost function for variational compiling of a two-mode, continuous-variable beamsplitter gate with real matrix elements (i.e., a "zero-phase" beamsplitter) that complies with the constraints of the X8 processor. This cost function is then computed on the X8. Despite the noise in the processor, we find that the cost function exhibits optimum parameter resilience and, therefore, that this variational compiling problem is feasible on the X8. The intent of the paper is partly to report a proof-of-principle cost function calculation on near-term CV hardware, and partly to present methods that may be relevant for CV variational compiling problems in more complicated, large scale settings.
翻訳日:2023-02-27 01:05:05 公開日:2022-09-24
# 位相的に保証された量子探索をもたらす例外点グラフの設計

Designing exceptional-point-based graphs yielding topologically guaranteed quantum search ( http://arxiv.org/abs/2202.03640v2 )

ライセンス: Link先を確認
Quancheng Liu, David A. Kessler, and Eli Barkai(参考訳) 量子ウォークは量子コンピューティングアルゴリズムの重要なクラスであり、様々なシミュレーションや応用において有望なアプローチを示している。 ここでは、ストロボスコープで監視された量子ウォークとそのその後のグラフを設計する。 非エルミート生存作用素のすべての固有値が、単位力学と測定のバックアクションの混合効果を記述し、系の大きさが例外的な点に対応するように、ウォークを構築する方法を示す。 一般に、結果の探索は任意の初期条件に対して境界時間で成功することが保証され、これは典型的なグラフ上の古典的ランダムウォークや量子ウォークよりも高速である。 次に, この効率的な量子探索が量子化された位相的巻数とどのように関連しているかを示し, この問題と有効質量を持たないディラック粒子との関係をさらに議論する。

Quantum walks underlie an important class of quantum computing algorithms, and represent promising approaches in various simulations and practical applications. Here we design stroboscopically monitored quantum walks and their subsequent graphs that can naturally boost target searches. We show how to construct walks with the property that all the eigenvalues of the non-Hermitian survival operator, describing the mixed effects of unitary dynamics and the back-action of measurement, coalesce to zero, corresponding to an exceptional point whose degree is the size of the system. Generally, the resulting search is guaranteed to succeed in a bounded time for any initial condition, which is faster than classical random walks or quantum walks on typical graphs. We then show how this efficient quantum search is related to a quantized topological winding number and further discuss the connection of the problem to an effective massless Dirac particle.
翻訳日:2023-02-26 09:13:18 公開日:2022-09-24
# 実例における量子(インスパイアされた)アニーリングハードウェアのベンチマーク

Benchmarking Quantum(-inspired) Annealing Hardware on Practical Use Cases ( http://arxiv.org/abs/2203.02325v2 )

ライセンス: Link先を確認
Tian Huang, Jun Xu, Tao Luo, Xiaozhe Gu, Rick Goh, Weng-Fai Wong(参考訳) quantum(-inspired) annealersは、実際に組合せ最適化問題を解決することに有望である。 D-Waveの量子アニールと量子インスパイアされたアニール、すなわち富士通デジタルアニールの様々な応用を実証する広範な研究があるが、これらのプラットフォームを比較する研究はほとんどない。 本稿では,汎用的な科学的問題から複雑な問題まで,実用的な3つの組合せ最適化問題を持つ量子アニーラについて述べる。 問題のサイズが量子(インスパイアされた)コンピュータの容量を超える場合、分解の文脈でそれらを評価する。 実験の結果、両アニーラーは小さいサイズと単純な設定の問題に対して有効であるが、実用サイズと設定の問題に直面すると実用性を失うことが示唆された。 分解法はアニールのスケーラビリティを拡大するが、それでも実用には程遠い。 実験と比較に基づいて、量子(インスパイアされた)アニールの利点と限界、およびこれらの新興コンピューティング技術の実用性とスケーラビリティを改善する研究の方向性について議論する。

Quantum(-inspired) annealers show promise in solving combinatorial optimisation problems in practice. There has been extensive researches demonstrating the utility of D-Wave quantum annealer and quantum-inspired annealer, i.e., Fujitsu Digital Annealer on various applications, but few works are comparing these platforms. In this paper, we benchmark quantum(-inspired) annealers with three combinatorial optimisation problems ranging from generic scientific problems to complex problems in practical use. In the case where the problem size goes beyond the capacity of a quantum(-inspired) computer, we evaluate them in the context of decomposition. Experiments suggest that both annealers are effective on problems with small size and simple settings, but lose their utility when facing problems in practical size and settings. Decomposition methods extend the scalability of annealers, but they are still far away from practical use. Based on the experiments and comparison, we discuss the advantages and limitations of quantum(-inspired) annealers, as well as the research directions that may improve the utility and scalability of the these emerging computing technologies.
翻訳日:2023-02-23 03:49:24 公開日:2022-09-24
# モース発振器のパラメータ空間

Parameter Space of Morse Oscillator ( http://arxiv.org/abs/2203.14008v2 )

ライセンス: Link先を確認
M.Y. Tan, M.S. Nurisya and H. Zainuddin(参考訳) 本稿では,su(2)群の数学的構造,特にモース発振器の昇降演算子と昇降演算子の可換関係について解析する。 演算子の整流子とモース発振器の他のパラメータとの関係について検討した。 モース振動子のパラメータに依存する作用素の数学的構造は,従来の期待値を変える可能性がある。 モース発振器のパラメータ空間を可視化し、モース発振器に関連する数学的関係を精査する。 このパラメータ空間は、モースポテンシャルの深さや他のパラメータに依存する可能性のあるパラメータ値の空間である。 提案するアルゴリズムは、特定の修正を施した他の量子システムにも適用可能である。

We present the analysis of mathematical structure of SU(2) group, specifically the commutation relation between raising and lowering operators of the Morse oscillator. The relationship between the commutator of operators and other parameters of Morse oscillator is investigated. We show that the mathematical structure of operators which depends on the parameters of Morse oscillator may change our conventional expectation. The parameter space of Morse oscillator is visualized to scrutinize the mathematical relations that are related to the Morse oscillator. This parameter space is the space of possible parameter values that depend on the depth of the Morse potential well and other parameters. The algorithm that we present is also applicable to other quantum systems with certain modifications.
翻訳日:2023-02-20 18:54:59 公開日:2022-09-24
# 人間と犬の関係におけるテクノロジーの役割--悪夢や夢の未来?

On the role of technology in human-dog relationships: a future of nightmares or dreams? ( http://arxiv.org/abs/2202.02030v2 )

ライセンス: Link先を確認
Dirk van der Linden, Brittany I. Davidson, Orit Hirsch-Matsioulas, and Anna Zamansky(参考訳) 犬の世話をしてくれるデジタル技術が、ますます広まりつつある。 しかし、人間と犬の関係におけるテクノロジーの役割についての研究はほとんどない。 本研究は,英国の155人の飼い犬の日常行動とitにおける技術の役割を反映する定量的・主題的分析を行い,種間ルーチンや活動,技術欲望,共通する人間間活動における技術的支援の根拠などを明らかにし,質的研究を行った。 犬の飼い主が犬の世話をする上で、テクノロジーを補助する役割があると概念づける多種多様な家庭では、日々のルーチンがますます絡み合っていることがわかりました。 様々な活動における技術の役割に直面すると、犬のクリーニングのような雑用は、主に肯定的な考察につながるが、一緒に歩くことのような利益をもたらす活動は、ほとんど否定的な考察をもたらす。 遊び、トレーニング、食事など他の活動においても、態度は様々である。 一般に、あらゆる活動において、人間の役割を担うテクノロジーの悪夢のシナリオと、人間と犬の関係を断ち切ること、そして人間の能力を増強するテクノロジーの夢のシナリオが生まれている。 ペットのデジタルテクノロジーの現在の軌道は、テーマ分析における悪夢の例として、リモートインタラクションの実現にますます焦点を絞っている、と私たちは主張する。 この軌跡を、私たちがより良く、より知的な介護者になるのを支えている技術の一つにリダイレクトすることが重要です。

Digital technologies that help people take care of their dogs are becoming more widespread. Yet, little research explores what the role of technology in the human-dog relationship should be. We conducted a qualitative study incorporating quantitative and thematic analysis of 155 UK dog owners reflecting on their daily routines and technology's role in it, disentangling the what-where-why of interspecies routines and activities, technological desires, and rationales for technological support across common human-dog activities. We found that increasingly entangled daily routines lead to close multi-species households where dog owners conceptualize technology as having a role to support them in giving care to their dogs. When confronted with the role of technology across various activities, only chores like cleaning up after their dogs lead to largely positive considerations, while activities that benefit themselves like walking together lead to largely negative considerations. For other activities, whether playing, training, or feeding, attitudes remain diverse. In general, across all activities both a nightmare scenario of technology taking the human's role and in doing so disentangling the human-dog bond, as well as a dream scenario of technology augmenting human abilities arise. We argue that the current trajectory of digital technology for pets is increasingly focused on enabling remote interactions, an example of the nightmare scenario in our thematic analysis. It is important to redirect this trajectory to one of technology predominantly supporting us in becoming better and more informed caregivers.
翻訳日:2023-02-19 14:42:30 公開日:2022-09-24
# データ漏洩リスクの統計的モデル化:識別と通知の時間

Statistical Modeling of Data Breach Risks: Time to Identification and Notification ( http://arxiv.org/abs/2209.07306v2 )

ライセンス: Link先を確認
Maochao Xu and Quynh Nhu Nguyen(参考訳) サイバーリスクの複雑な性質から、サイバーインシデントのコストを予測することは非常に困難である。 しかし、サイバー保険政策を提供する保険会社には避けられない。 インシデントを特定する時間と、影響を受けた個人に通知する時間は、サイバーインシデントのコストを決定する上で重要な2つの要素である。 本研究では,統計的モデリング手法を用いて,これらの2つの指標の研究を初期化する。 特に,データの欠落を暗示する新しい手法を提案し,これら2つの指標で示される複雑なパターンを捉えるための依存モデルをさらに開発する。 実験により,提案手法の予測性能は良好であり,他の一般的なモデルよりも優れていることが示された。

It is very challenging to predict the cost of a cyber incident owing to the complex nature of cyber risk. However, it is inevitable for insurance companies who offer cyber insurance policies. The time to identifying an incident and the time to noticing the affected individuals are two important components in determining the cost of a cyber incident. In this work, we initialize the study on those two metrics via statistical modeling approaches. Particularly, we propose a novel approach to imputing the missing data, and further develop a dependence model to capture the complex pattern exhibited by those two metrics. The empirical study shows that the proposed approach has a satisfactory predictive performance and is superior to other commonly used models.
翻訳日:2023-02-19 11:10:14 公開日:2022-09-24
# 角運動量光学系のハミルトニアンに関する理論的枠組み

A theoretical framework for the Hamiltonian of angular momentum optomechanical system ( http://arxiv.org/abs/2204.09446v2 )

ライセンス: Link先を確認
Yuan Liu and Dongxiao Li and Yimou Liu(参考訳) 光子は同時に線形運動量と角運動量を持つ。 光間相互作用の過程において、直線運動量交換は光学力につながり、角運動量交換は光学トルクに繋がる。 光力(光圧や減衰)の使用は量子光学において長く広く行われているが、光学トルクや光学角運動量などはそうではない。 本稿では, 空洞軌道およびスピン角運動量光学系のハミルトニアンを導出するための光学角運動量と光学トルクに基づく理論的枠組みを提案する。 さらに, この手法に基づき, 反射係数が非単位であるマイクロキャビティと複数のねじり振動子からなる複素角運動量光学系のハミルトニアンを得ることに成功した。 この結果は、角運動量光学系のハミルトニアンの理論的枠組みの適用性を示し、量子光学の研究範囲を拡張した。

Photon carries linear momentum and angular momentum simultaneously. Within the light-matter interaction process, exchange of linear momentum results in optical forces, whereas exchange of angular momentum leads to optical torques. Use of optical forces (light pressure or damping) have been long and wide in quantum optomechanics, however, those of optical torque and optical angular momentum are not. Here we propose a theoretical framework based on optical angular momentum and optical torques to derive the Hamiltonians of cavity orbital and spin angular momentum optomechanical systems, respectively. Moreover, based on the method, we successfully obtain the Hamiltonian of the complex angular momentum optomechanical systems consisting of micro-cavity and several torsional oscillators, whose reflection coefficients are non-unit. Our results indicate the general applicability of our theoretical framework for the Hamiltonian of angular momentum optomechanical systems and extend the research scope of quantum optomechanics.
翻訳日:2023-02-16 06:21:04 公開日:2022-09-24
# 量子ドットシミュレータにおけるスターク多体局在による環境からのコヒーレンス保護

Protecting coherence from the environment via Stark many-body localization in a Quantum-Dot Simulator ( http://arxiv.org/abs/2204.13354v2 )

ライセンス: Link先を確認
Subhajit Sarkar and Berislav Bu\v{c}a(参考訳) 半導体プラットフォームは量子ドットスピン量子ビットなどの量子情報の保存と処理のための有望なアーキテクチャとして出現している。 しかし、電子間の相互作用から生じる電荷ノイズは量子コンピュータの大量の量子ビットへの拡張性とともに、大きな制限因子である。 半導体量子ドットアレイに磁場勾配を実装でき、局所的な量子コヒーレント力学系 $\ell-$bit を誘導し、論理量子ビットとして使われる可能性を示す。 これらの動的$\ell-$bitsは、モデルが多体ローカライズされる責任がある。 これらの動的$\ell-$bits と対応する多体局在は、電子-フォノン相互作用が絶対非局所的でない場合、フォノンを含む全てのノイズから十分に保護される。 さらに、熱化に基づく自己補正論理ゲートの実装について述べる。 この熱化に基づく誤差補正は、デコヒーレンスフリーおよびノイズレスサブシステムの標準パラダイムを超えている。 これにより、半導体ベースの量子コンピュータにおけるパッシブ量子誤差補正のための新たな会場が開かれる。

Semiconductor platforms are emerging as promising architecture for storing and processing quantum information, e.g., in quantum dot spin qubits. However, charge noise coming from interactions between the electrons is a major limiting factor, along with the scalability towards a large number of qubits, for a quantum computer. We show that a magnetic field gradient can be implemented in a semiconductor quantum dot array to induce a local quantum coherent dynamical $\ell-$bit exhibiting the potential to be used as logical qubits. These dynamical $\ell-$bits are responsible for the model being many-body localized. We show that these dynamical $\ell-$bits and the corresponding many-body localization are protected from all noises, including phonons, for sufficiently long times if electron-phonon interaction is not absolutely non-local. We further show the implementation of thermalization-based self-correcting logical gates. This thermalization based error-correction goes beyond the standard paradigm of decoherence-free and noiseless subsystems. Our work thus opens a new venue for passive quantum error correction in semiconductor-based quantum computers.
翻訳日:2023-02-15 06:39:54 公開日:2022-09-24
# ボソニック損失減衰チャネルの量子容量と符号

Quantum capacity and codes for the bosonic loss-dephasing channel ( http://arxiv.org/abs/2205.00341v4 )

ライセンス: Link先を確認
Peter Leviant, Qian Xu, Liang Jiang, Serge Rosenblum(参考訳) 連続変数系に符号化されたボソニック量子ビットは、量子計算と通信のための2レベル量子ビットの有望な代替を提供する。 これまでのところ、光子損失はボソニック量子ビットにおける誤りの主な原因となっているが、最近のボソニック量子ビット実験における光子損失の大幅な低減は、誤りの強調も考慮すべきであることを示唆している。 しかし、光子損失と減衰チャネルの組み合わせについての詳細な理解は欠落している。 ここでは, その構成部品と異なり, 複合損失劣化チャネルは非劣化性であり, このチャネルのよりリッチな構造を指し示している。 損失遅延チャネルのキャパシティのバウンダリを提供し、幅広いエラー率に対して最適な単一モード符号を求めるために数値最適化を用いる。

Bosonic qubits encoded in continuous-variable systems provide a promising alternative to two-level qubits for quantum computation and communication. So far, photon loss has been the dominant source of errors in bosonic qubits, but the significant reduction of photon loss in recent bosonic qubit experiments suggests that dephasing errors should also be considered. However, a detailed understanding of the combined photon loss and dephasing channel is lacking. Here, we show that, unlike its constituent parts, the combined loss-dephasing channel is non-degradable, pointing towards a richer structure of this channel. We provide bounds for the capacity of the loss-dephasing channel and use numerical optimization to find optimal single-mode codes for a wide range of error rates.
翻訳日:2023-02-15 01:24:15 公開日:2022-09-24
# 境界駆動散逸性Klein-Gordon鎖のダイナミクスと輸送

Dynamics and transport in the boundary-driven dissipative Klein-Gordon chain ( http://arxiv.org/abs/2209.03977v2 )

ライセンス: Link先を確認
Abhinav Prem, Vir B. Bulchandani, S. L. Sondhi(参考訳) 超伝導量子ビットの鎖に関する実験に動機づけられ,コヒーレント駆動に結合した古典的クライン・ゴルドン鎖の動力学を,その境界のみで散逸する。 境界駆動の強度が増加するにつれて、この最小限の古典モデルは実験的に見られる「散逸相転移」の主な特徴を回復する。 この遷移の両側(それぞれ弾道輸送と拡散エネルギー輸送をサポートする)の伝達レジームと非伝達レジームの間には、追加の動的レジームが注目されている。 これらは、より弱い駆動強度の超拡散エネルギー輸送のレジームと、より強い駆動強度の「散逸ブレッシャー結晶」レジームを含み、これは、非線形正規モードの創発的翻訳対称性、弾道エネルギー輸送、およびコヒーレント振動によって特徴づけられる。 本稿では,本システムにおける多体カオスを実験的に測定可能な診断法として非局所的なリアプノフ指数を提案する。

Motivated by experiments on chains of superconducting qubits, we consider the dynamics of a classical Klein-Gordon chain coupled to coherent driving and subject to dissipation solely at its boundaries. As the strength of the boundary driving is increased, this minimal classical model recovers the main features of the "dissipative phase transition" seen experimentally. Between the transmitting and non-transmitting regimes on either side of this transition (which support ballistic and diffusive energy transport respectively), we observe additional dynamical regimes of interest. These include a regime of superdiffusive energy transport at weaker driving strengths, together with a "dissipative breather crystal" regime at stronger driving strengths, which is characterized by emergent translation symmetry, ballistic energy transport, and coherent oscillations of a nonlinear normal mode. We propose a non-local Lyapunov exponent as an experimentally measurable diagnostic of many-body chaos in this system, and more generally in open systems that are only coupled to an environment at their boundaries.
翻訳日:2023-01-27 07:45:29 公開日:2022-09-24
# グラフニューラルネットワークを用いた周囲防御ゲームの学習分散戦略

Learning Decentralized Strategies for a Perimeter Defense Game with Graph Neural Networks ( http://arxiv.org/abs/2211.01757v1 )

ライセンス: Link先を確認
Elijah S. Lee, Lifeng Zhou, Alejandro Ribeiro, Vijay Kumar(参考訳) マルチエージェント周辺防御ゲームにおける分散戦略の発見の問題を考える。 本研究では,学習行動が集中型エキスパートアルゴリズムによって生成されたものに近くなるように,防御者の局所知覚とコミュニケーショングラフから防御者の行動へのマッピングを学ぶために,グラフニューラルネットワークに基づく学習フレームワークを設計する。 提案するネットワークは,専門家の方針に近づき,より多くの侵入者を捕捉することで,他のベースラインアルゴリズムよりも優れていることを示す。 我々のGNNベースのネットワークは小規模で訓練されており、大規模に一般化することができる。 結果を検証するため,学習ネットワークの性能を評価するために,チームサイズや初期設定の異なるシナリオで周辺防衛ゲームを実行する。

We consider the problem of finding decentralized strategies for multi-agent perimeter defense games. In this work, we design a graph neural network-based learning framework to learn a mapping from defenders' local perceptions and the communication graph to defenders' actions such that the learned actions are close to that generated by a centralized expert algorithm. We demonstrate that our proposed networks stay closer to the expert policy and are superior to other baseline algorithms by capturing more intruders. Our GNN-based networks are trained at a small scale and can generalize to large scales. To validate our results, we run perimeter defense games in scenarios with different team sizes and initial configurations to evaluate the performance of the learned networks.
翻訳日:2023-01-25 07:44:19 公開日:2022-09-24
# 非相反多体系におけるベリー相による伝熱

Heat transfer mediated by the Berry-phase in non-reciprocal many-body systems ( http://arxiv.org/abs/2209.12069v1 )

ライセンス: Link先を確認
Svend-Age Biehs, Philippe Ben-Abdallah(参考訳) 非相反多体系における熱状態の断熱的進化とその環境に結合し,周期的駆動を受ける場合について検討した。 このような系では、動的位相の他に幾何学的位相が存在し、系の緩和ダイナミクスを駆動できることが示される。 系の平衡状態へ常に押し込む力学相とは対照的に、幾何相が緩和過程の速度を加速または減少させることができることを示す。 これらの結果は、複雑なシステムの熱管理の分野で応用できるかもしれない。

We investigate the adiabatic evolution of thermal state in non-reciprocal many-body systems coupled to their environment and subject to periodic drivings. In such systems we show that besides the dynamical phase a geometrical phase can exist and it drives the relaxation dynamic of the system. On the contrary to the dynamical phase which always pushes the system toward its equilibrium state we show that the geometric phase can speed up or reduce the speed of relaxation process. These results could have applications in the field of thermal management of complex systems.
翻訳日:2023-01-25 07:43:42 公開日:2022-09-24
# 非対称量子クローニング領域

The Asymmetric Quantum Cloning Region ( http://arxiv.org/abs/2209.11999v1 )

ライセンス: Link先を確認
Ion Nechita, Cl\'ement Pellegrini, Denis Rochette(参考訳) 量子クローニングは量子情報理論の基本的なプロトコルである。 完全普遍的量子クローンは量子力学の法則によって禁止され、到達可能なのは不完全なコピーのみである。 対称量子クローンは、クローンの品質が同一である場合に関係している。 本研究では, クローンの任意の性質を求める1-to-n-非対称クローンの一般的な場合について検討する。 我々は、すべてのヒルベルト空間次元とクローンの数に対して、すべての可能なクローン特性の集合を特徴づける。 この集合は新しく導入されたノルムの単位球の非負の部分として実現され、これを $\mathcal{q}$-norm と呼ぶ。 また、与えられたクローン品質ベクトルを達成する量子クローン器のクローズドフォーム式を提供する。 解析は、シュール・ワイル双対性と、部分置換置換作用素のスペクトル特性の研究に依存している。

Quantum cloning is a fundamental protocol of quantum information theory. Perfect universal quantum cloning is prohibited by the laws of quantum mechanics, only imperfect copies being reachable. Symmetric quantum cloning is concerned with case when the quality of the clones is identical. In this work, we study the general case of $1 \to N$ asymmetric cloning, where one asks for arbitrary qualities of the clones. We characterize, for all Hilbert space dimensions and number of clones, the set of all possible clone qualities. This set is realized as the nonnegative part of the unit ball of a newly introduced norm, which we call the $\mathcal{Q}$-norm. We also provide a closed form expression for the quantum cloner achieving a given clone quality vector. Our analysis relies on the Schur-Weyl duality and on the study of the spectral properties of partially transposed permutation operators.
翻訳日:2023-01-25 07:43:35 公開日:2022-09-24
# レイリーフェディングチャネルの量子化LDPCデコードについて

On Quantum-Enhanced LDPC Decoding for Rayleigh Fading Channels ( http://arxiv.org/abs/2209.11994v1 )

ライセンス: Link先を確認
Utso Majumder, Aditya Das Sarma, Vishnu Vaidya and M Girish Chandra(参考訳) 量子コンピュータと古典コンピュータは、難しい問題を解決するために緊密に協力し続けている。 この組み合わせは、次世代無線通信システムにおいて低密度パリティチェック(ldpc)符号をデコードするために近年提案されている。 本稿では,2つの異なるシナリオに対するrayleigh fading channelの2次非制約バイナリ最適化(qubo)の定式化について検討した。 結果のQUBOはD-Wave 2000Q Quantum Annealerを用いて解かれ、Annealerからの出力は古典的に後処理され、多様性の概念が導かれる。 出力の利用可能なコピーの最小距離復号化は、ビット誤り率(ber)の観点から最小エネルギーソリューションを選択するよりも、パフォーマンスの向上につながった。 これらの結果と、完全に古典的なシミュレートされたアニーリング (SA) と伝統的なブリーフ伝播 (BP) ベースの戦略との比較は別として、量子処理による多様性についてもいくつか指摘されている。

Quantum and Classical computers continue to work together in tight cooperation to solve difficult problems. The combination is thus suggested in recent times for decoding the Low Density Parity Check (LDPC) codes, for the next generation Wireless Communication systems. In this paper we have worked out the Quadratic Unconstrained Binary Optimization (QUBO) formulation for Rayleigh Fading channels for two different scenarios: channel state fully known and not known. The resultant QUBO are solved using D-Wave 2000Q Quantum Annealer and the outputs from the Annealer are classically postprocessed, invoking the notion of diversity. Simple minimum distance decoding of the available copies of the outputs led to improved performance, compared to picking the minimum-energy solution in terms of Bit Error Rate (BER). Apart from providing these results and the comparisons to fully classical Simulated Annealing (SA) and the traditional Belief Propagation (BP) based strategies, some remarks about diversity due to quantum processing are also spelt out.
翻訳日:2023-01-25 07:43:22 公開日:2022-09-24
# 長波長非逐次二重イオン化におけるパルス長効果

Pulse length effects in long wavelength driven non-sequential double ionization ( http://arxiv.org/abs/2209.11983v1 )

ライセンス: Link先を確認
H. Jiang, M. Mandrysz, A. Sanchez, J. Dura, T. Steinle, J. S. Prauzner-Bechcicki, J. Zakrzewski, M. Lewenstein, F. He, J. Biegert and M. F. Ciappina(参考訳) 3100nmレーザー源で駆動されるアルゴン中の非逐次二重イオン化(NSDI)に関する共同実験および理論的研究を行った。 相関光電子運動量分布(PMD)はパルス持続時間に強く依存しており、PMDの進化はエンベロープ誘起強度効果によって説明できる。 トンネルと再散乱の時間差によって決定され、束縛された電子のイオン化時のレーザーベクトル電位はパルス持続時間に影響され、異なるドリフトモーメントが生じる。 このようなメカニズムは、古典的軌道モンテカルロモデルを通じて抽出され、量子力学的シミュレーションによってさらに確認することができる。 本研究は、NSDIにおけるパルス持続時間の重要性に光を当て、中赤外レーザー場下での強磁場トンネル緩和ダイナミクスの理解を改善する。

We present a joint experimental and theoretical study of non-sequential double ionization (NSDI) in argon driven by a 3100-nm laser source. The correlated photoelectron momentum distribution (PMD) shows a strong dependence on the pulse duration, and the evolution of the PMD can be explained by an envelope-induced intensity effect. Determined by the time difference between tunneling and rescattering, the laser vector potential at the ionization time of the bound electron will be influenced by the pulse duration, leading to different drift momenta. Such a mechanism is extracted through a classical trajectory Monte Carlo-based model and it can be further confirmed by quantum mechanical simulations. This work sheds light on the importance of the pulse duration in NSDI and improves our understanding of the strong field tunnel-recollision dynamics under mid-IR laser fields.
翻訳日:2023-01-25 07:43:04 公開日:2022-09-24
# 非平衡熱力学系における量子情報状態

Quantized information states in non-equilibrium thermodynamic systems ( http://arxiv.org/abs/2209.11968v1 )

ライセンス: Link先を確認
S. Davatolhagh, A. Sheykhi, and M. H. Zarei(参考訳) に基づいて (i)シャノン情報。 (ii)エネルギー時間量子化関係、及び (iii) 平衡から離れた系における情報状態の量子化の方法である準静的情報エネルギー対応を平衡からの距離と環境の平均温度を時間関数として示す。 この方法は、膨張する宇宙の場合に適用され、宇宙が支持する長寿命構造の固有情報と、それを支える局所環境を見つけるため、宇宙の進化を具現化する時間とともに複雑さの増大の定量的な基礎を提供する。

Based on (i) the Shannon information, (ii) the energy-time quantization relation, and (iii) the quasi-static information-energy correspondence, a method for the quantization of information states in systems away from equilibrium is presented given the distance from equilibrium and the mean temperature of the environment are known as a function of time. The method is applied to the case of the expanding universe in order to find the eigen-informations of long-lived structures that are supported by the universe and the local environments therein at any given epoch, thus providing a quantitative basis for the rise of complexity with time that embodies the cosmic evolution.
翻訳日:2023-01-25 07:42:50 公開日:2022-09-24
# 学習の物理

The Physics of Learning ( http://arxiv.org/abs/2209.11954v1 )

ライセンス: Link先を確認
G. J. Milburn, Sahar Basiri-Esfahani(参考訳) 学習機械は、全ての機械と同様に、自由エネルギーの低エントロピー源へのアクセスによって熱平衡から遠く離れたオープンシステムである。 エラーの確率が低く学習するマシン間の接続と、古典機械と量子機械の両方に最適な熱力学資源の使用について論じる。 固定点とスパイキングの両パーセプトロンは、可能な物理的実装の文脈で議論される。 単一光子量子カーネル評価の例は、データ表現における量子コヒーレンスの重要な役割を示している。 従来の補完金属酸化物半導体(CMOS)デバイスに実装された機械学習アルゴリズムは、現在大量のエネルギーを消費している。 アルゴリズムよりも学習機械の物理的制約に焦点をあてることで、非常に低消費電力で動作する量子スイッチに基づいて学習を実装するより効率的な手段が可能であることを示唆する。 単一光子核の評価は、可能かもしれないエネルギー効率の例である。

A learning machine, like all machines, is an open system driven far from thermal equilibrium by access to a low entropy source of free energy. We discuss the connection between machines that learn, with low probability of error, and the optimal use of thermodynamic resources for both classical and quantum machines. Both fixed point and spiking perceptrons are discussed in the context of possible physical implementations. An example of a single photon quantum kernel evaluation illustrates the important role for quantum coherence in data representation. Machine learning algorithms, implemented on conventional complementary metal oxide semiconductor (CMOS) devices, currently consume large amounts of energy. By focusing on the physical constraints of learning machines rather than algorithms, we suggest that a more efficient means of implementing learning may be possible based on quantum switches operating at very low power. Single photon kernel evaluation is an example of the energy efficiency that might be possible.
翻訳日:2023-01-25 07:42:40 公開日:2022-09-24
# 強結合格子の非エルミート可視性

Non-Hermitian invisibility in tight-binding lattices ( http://arxiv.org/abs/2209.11928v1 )

ライセンス: Link先を確認
Stefano Longhi and Ermanno Pinotti(参考訳) 複雑な媒体における波動散乱の柔軟な制御は、古典物理学と量子物理学の異なる領域における関係性である。 近年、非エルミート系の散乱工学に大きな関心が寄せられ、透明および可視ポテンシャルや片方向反射性ポテンシャルのような独特の散乱特性を持つ非エルミートポテンシャルの新しいクラスの予測と実証が行われた。 このようなポテンシャルは連続系と離散系の両方で発見されている。 しかしながら、格子系における波動散乱は、許容エネルギーの有限バンドと格子上の波動伝播の有限速度によって特徴づけられる、系の離散的(連続的ではなく)翻訳不変性から生じるいくつかの異なる特徴を示す。 このような特徴を生かして、連続系に適用されると失敗する手法で格子上の可視性を実現することができる。 ここでは、任意の空間形状を持つ時間依存非エルミート散乱ポテンシャルや欠陥を、格子の限られたエネルギー帯域幅のため完全に見えないエルミート一バンド強結合格子で合成できることを示す。

A flexible control of wave scattering in complex media is of relevance in different areas of classical and quantum physics. Recently, a great interest has been devoted to scattering engineering in non-Hermitian systems, with the prediction and demonstration of new classes of non-Hermitian potentials with unique scattering properties, such as transparent and invisibile potentials or one-way reflectionless potentials. Such potentials have been found for both continuous and discrete (lattice) systems. However, wave scattering in lattice systems displays some distinct features arising from the discrete (rather than continuous) translational invariance of the system, characterized by a finite band of allowed energies and a finite speed of wave propagation on the lattice. Such distinct features can be exploited to realize invisibility on a lattice with methods that fail when applied to continuous systems. Here we show that a wide class of time-dependent non-Hermitian scattering potentials or defects with arbitrary spatial shape can be synthesized in an Hermitian single-band tight-binding lattice, which are fully invisible owing to the limited energy bandwidth of the lattice.
翻訳日:2023-01-25 07:42:27 公開日:2022-09-24
# 障害型スピンチェーンにおけるOnsager's Scars

Onsager's Scars in Disordered Spin Chains ( http://arxiv.org/abs/1912.13399v3 )

ライセンス: Link先を確認
Naoyuki Shibata, Nobuyuki Yoshioka, Hosho Katsura(参考訳) 乱れの存在下でも量子多体傷を示す非可積分量子スピンチェーンモデルを提案する。 いわゆるオンザガー対称性を用いることで、任意のスピン量子数$ s $ に対してそのような傷ついたモデルを構築する。 スカー状態には2つの種類があり、オンサーガー・アルゲブラ要素と関連したコヒーレント状態と、ワンマグノン・スカー状態がある。 どちらも高励起状態であるが、領域法的な絡み合いを持ち、行列積状態として記述することができる。 したがって、それらは固有状態熱化仮説に明示的に違反する。 いくつかの初期状態に対する忠実度と絡み合いエントロピーのダイナミクスについても検討する。 この結果は、スカー状態がヒルベルト部分空間内の完全に周期的な軌道に閉じ込められ、決して熱化しないことを明確に示している。 我々の知る限り、我々のモデルは乱れた量子多体スカーレッドモデルの最初の明示的な例である。

We propose a class of non-integrable quantum spin chain models that exhibit quantum many-body scars even in the presence of disorder. With the use of the so-called Onsager symmetry, we construct such scarred models for arbitrary spin quantum number $ S $. There are two types of scar states, namely, coherent states associated to an Onsager-algebra element and one-magnon scar states. While both of them are highly-excited states, they have area-law entanglement and can be written as a matrix product state. Therefore, they explicitly violate the eigenstate thermalization hypothesis. We also investigate the dynamics of the fidelity and entanglement entropy for several initial states. The results clearly show that the scar states are trapped in a perfectly periodic orbit in the Hilbert subspace and never thermalize, whereas other generic states do rapidly. To our knowledge, our model is the first explicit example of disordered quantum many-body scarred model.
翻訳日:2023-01-16 21:37:30 公開日:2022-09-24
# 人工ニューラルネットワークによる薄膜の厚み分布決定

Application of artificial neural network to determine the thickness profile of thin film ( http://arxiv.org/abs/2210.11421v1 )

ライセンス: Link先を確認
Archana Bora(参考訳) 本稿では,与えられた基板上に堆積した薄膜の厚さを推定する新しい人工ニューラルネットワーク(ann)方式を提案する。 ここでは、薄膜の厚さ情報を記録する薄膜表面から反射される平面波と発散波との間の可視干渉パターンについて考察する。 フィルムの厚さは一様であると仮定する。 しかし、沈着が進むにつれて厚さが大きくなる。 干渉パターンの中心を通して線に沿って強度データを抽出する。 我々は,既知の厚みプロファイルのライン情報を用いてネットワークを訓練する。 トレーニングされたネットワークの性能は、未知の表面の厚さを推定することによって検証される。 シミュレーションの結果,提案手法は堆積中の厚さ,迅速,リアルタイムの自動計測に非常に有用であることがわかった。

In this paper, we introduce a novel artificial neural network (ANN) based scheme to estimate the thickness of thin films deposited on a given substrate. Here we consider the visible interference pattern between a plane wave and a diverging wave reflected from the thin film surface that records the thickness information of the thin film. We assume a uniform thickness profile of the film. However, the thickness increases as the deposition takes place. We extract the intensity data along a line through the center of the interference pattern. We train our network by using a number of such line information of known thickness profiles. The performance of the trained network is then tested by estimating the thickness of unknown surfaces. The numerical simulation results show that the proposed technique can be very much useful for automated measurement of thickness, quickly and in real time, during deposition
翻訳日:2022-10-23 21:01:12 公開日:2022-09-24
# 分子特性回帰のためのグラフニューラルネットワーク表現性とメタラーニング

Graph Neural Network Expressivity and Meta-Learning for Molecular Property Regression ( http://arxiv.org/abs/2209.13410v1 )

ライセンス: Link先を確認
Haitz S\'aez de Oc\'ariz Borde, Federico Barbero(参考訳) 本稿では,メタ学習,特にReptileに対するモデル非依存アルゴリズムの分子回帰タスクにおけるGNNモデルへの適用性を示す。 メタラーニングを使用することで、各回帰タスクをスクラッチから学習する必要のあるランダム初期化GNNと比較して、数回のモデル更新で新しい化学予測タスクを学習することができる。 GNN層表現性はメタラーニングの改善と相関していることを示す。 さらに,kショット学習において,最高の性能と迅速な収束をもたらすGNNアンサンブルを実験した。

We demonstrate the applicability of model-agnostic algorithms for meta-learning, specifically Reptile, to GNN models in molecular regression tasks. Using meta-learning we are able to learn new chemical prediction tasks with only a few model updates, as compared to using randomly initialized GNNs which require learning each regression task from scratch. We experimentally show that GNN layer expressivity is correlated to improved meta-learning. Additionally, we also experiment with GNN emsembles which yield best performance and rapid convergence for k-shot learning.
翻訳日:2022-09-28 16:50:51 公開日:2022-09-24
# 救急医療における画像診断の患者フローへの影響

How does Imaging Impact Patient Flow in Emergency Departments? ( http://arxiv.org/abs/2209.12895v1 )

ライセンス: Link先を確認
Vishnunarayan Girishan Prabhu, Kevin Taaffe, Marisa Shehan, Ronald Pirrallo, William Jackson, Michael Ramsay, Jessica Hobbs(参考訳) 救急部門(ed)の過密は、患者の安全問題と同様に公衆衛生の問題であり続けている。 ED群集につながる根底にある要因は、多種多様で複雑である。 病院内ベッドの欠如は群集の主な原因とされることが多いが、画像、コンサルティング、研究室など他の補助資源へのEDの依存も群集に寄与している。 大規模1層トラウマセンターからの遅延, 処理時間, 画像注文数などの画像関連リフレクションデータを用いて, EDにおける画像遅延と画像注文のバンドルが患者時間に与える影響を識別する離散事象シミュレーションモデルを開発した。 感度分析の結果、特定の患者に対する撮像順序の10%程度の遅延と結合の削減は、患者がedに費やす時間を大幅に削減できることが示された(p値 < 0.05)。

Emergency Department (ED) overcrowding continues to be a public health issue as well as a patient safety issue. The underlying factors leading to ED crowding are numerous, varied, and complex. Although lack of in-hospital beds is frequently attributed as the primary reason for crowding, ED's dependencies on other ancillary resources, including imaging, consults, and labs, also contribute to crowding. Using retrospective data associated with imaging, including delays, processing time, and the number of image orders, from a large tier 1 trauma center, we developed a discrete event simulation model to identify the impact of the imaging delays and bundling image orders on patient time in the ED. Results from sensitivity analysis show that reducing the delays associated with imaging and bundling as few as 10% of imaging orders for certain patients can significantly (p-value < 0.05) reduce the time a patient spends in the ED.
翻訳日:2022-09-28 16:20:00 公開日:2022-09-24
# ハンドジェスチャ分類のための多変量同期変換に基づく時間周波数特性の統計的解析

Statistical Analysis of Time-Frequency Features Based On Multivariate Synchrosqueezing Transform for Hand Gesture Classification ( http://arxiv.org/abs/2209.13350v1 )

ライセンス: Link先を確認
Lutfiye Saripinar, Deniz Hande Kisa, Mehmet Akif Ozdemir, Onan Guren(参考訳) 本研究では,Multivarate Synchrosqueezing Transform (MSST) から得られたTF行列の平均, 変動, 歪, 曲率の4つの結合時間周波数(TF)モーメントを手動作認識の特徴として提案する。 10手ジェスチャーを行う40名の被験者の表層EMG信号を含む公開データセットを使用した。 KW (Kruskal-Wallis) 試験から得られたp値に基づいて, ジェスチャの特徴変数の識別能力を評価した。 その結果, TF行列の平均, 分散度, 歪度, 硬度が, 手のジェスチャー認識の候補となることが示唆された。

In this study, the four joint time-frequency (TF) moments; mean, variance, skewness, and kurtosis of TF matrix obtained from Multivariate Synchrosqueezing Transform (MSST) are proposed as features for hand gesture recognition. A publicly available dataset containing surface EMG (sEMG) signals of 40 subjects performing 10 hand gestures, was used. The distinguishing power of the feature variables for the tested gestures was evaluated according to their p values obtained from the Kruskal-Wallis (KW) test. It is concluded that the mean, variance, skewness, and kurtosis of TF matrices can be candidate feature sets for the recognition of hand gestures.
翻訳日:2022-09-28 15:16:31 公開日:2022-09-24
# 運動量に基づく高速化アルゴリズムにおける収束速度と雑音増幅のトレードオフ

Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms ( http://arxiv.org/abs/2209.11920v1 )

ライセンス: Link先を確認
Hesameddin Mohammadi, Meisam Razaviyayn, Mihailo R. Jovanovi\'c(参考訳) モーメントに基づく1次最適化アルゴリズムについて検討し,2つのステップからの情報を利用して付加的な白色雑音を受ける。 このアルゴリズムには特別な場合としてヘビーボールとネステロフの加速法が含まれる。 強凸二次問題に対しては、最適化変数における誤差の定常分散を用いてノイズ増幅を定量化し、新しい幾何学的視点を用いて沈降時間と最小・最大・最大雑音増幅の間の積上の解析的下界を確立する。 すべての安定化パラメータに対して、これらの境界は条件数と2次的にスケールする。 また,本論文で開発された幾何学的洞察を用いて,ノイズ増幅と沈下時間のバランスを保ちながら,次数的にパレートの最適性を保つ2つのパラメータ化アルゴリズムを導入する。 最後に,二段階運動量アルゴリズムを適度に導出する連続時間勾配流力学のクラスに対して,条件数と二乗的にスケールする類似の下界を定式化する。

We study momentum-based first-order optimization algorithms in which the iterations utilize information from the two previous steps and are subject to an additive white noise. This class of algorithms includes heavy-ball and Nesterov's accelerated methods as special cases. For strongly convex quadratic problems, we use the steady-state variance of the error in the optimization variable to quantify noise amplification and exploit a novel geometric viewpoint to establish analytical lower bounds on the product between the settling time and the smallest/largest achievable noise amplification. For all stabilizing parameters, these bounds scale quadratically with the condition number. We also use the geometric insight developed in the paper to introduce two parameterized families of algorithms that strike a balance between noise amplification and settling time while preserving order-wise Pareto optimality. Finally, for a class of continuous-time gradient flow dynamics, whose suitable discretization yields two-step momentum algorithm, we establish analogous lower bounds that also scale quadratically with the condition number.
翻訳日:2022-09-27 18:37:46 公開日:2022-09-24
# 2つの両複素最小平均平方(BLMS)アルゴリズム

Two Bicomplex Least Mean Square (BLMS) algorithms ( http://arxiv.org/abs/2209.11899v1 )

ライセンス: Link先を確認
Daniel Alpay, Kamal Diki, Mihaela Vajiac(参考訳) 我々は1960年にWidrow and Hoff for Adaptive Linear Neuron (ADALINE)によって発明されたLMSアルゴリズムから着想を得た、複素および複複素条件における新しい勾配作用素を研究、導入した。 これらの勾配演算子は、Bicomplex Least Mean Square (BLMS)アルゴリズムの新しい学習規則を定式化するために使用される。 このアプローチは古典的実数と複素LMSアルゴリズムの両方を拡張する。

We study and introduce new gradient operators in the complex and bicomplex settings, inspired from the well-known Least Mean Square (LMS) algorithm invented in 1960 by Widrow and Hoff for Adaptive Linear Neuron (ADALINE). These gradient operators will be used to formulate new learning rules for the Bicomplex Least Mean Square (BLMS) algorithms. This approach extends both the classical real and complex LMS algorithms.
翻訳日:2022-09-27 18:30:39 公開日:2022-09-24
# 資産価格とディープラーニング

Asset Pricing and Deep Learning ( http://arxiv.org/abs/2209.12014v1 )

ライセンス: Link先を確認
Chen Zhang (SenseTime Research)(参考訳) 伝統的な機械学習手法は金融革新において広く研究されている。 私の研究は、資産価格に対するディープラーニング手法の適用に焦点を当てています。 私は、資産価格、特にリスク予感測定のための様々なディープラーニング手法を調査します。 すべてのモデルは、同じ予測信号群(特性確認、系統的リスク、マクロ経済)を取る。 あらゆる種類の最先端(SOTA)深層学習手法の性能を実演し、記憶機構と注意力を備えたRNNが予測性において最高の性能を有することを明らかにする。 さらに、深層学習予測を用いて投資家に大きな経済効果を示す。 私の比較実験の結果は、ディープラーニングモデルを設計する際のドメイン知識と金融理論の重要性を強調します。 また、回帰予測タスクがディープラーニングに新たな課題をもたらすことも示しています。 時間分布の変化は、金融時系列予測に不可欠な分布シフト問題を引き起こす。 深層学習手法が資産リスクプレミアム測定を改善することを実証する。 深層学習の研究が盛んに進んでいるため、資産価格の背景にある金融メカニズムの研究を常に進めることができる。 また、データから学習し、説明可能な人工知能(AI)手法を用いて経済メカニズムを解明する有望な研究手法を提案する。 私の発見は、フィンテック開発におけるディープラーニングの価値を正当化するだけでなく、従来の機械学習手法に対する彼らの可能性とアドバンテージを強調します。

Traditional machine learning methods have been widely studied in financial innovation. My study focuses on the application of deep learning methods on asset pricing. I investigate various deep learning methods for asset pricing, especially for risk premia measurement. All models take the same set of predictive signals (firm characteristics, systematic risks and macroeconomics). I demonstrate high performance of all kinds of state-of-the-art (SOTA) deep learning methods, and figure out that RNNs with memory mechanism and attention have the best performance in terms of predictivity. Furthermore, I demonstrate large economic gains to investors using deep learning forecasts. The results of my comparative experiments highlight the importance of domain knowledge and financial theory when designing deep learning models. I also show return prediction tasks bring new challenges to deep learning. The time varying distribution causes distribution shift problem, which is essential for financial time series prediction. I demonstrate that deep learning methods can improve asset risk premium measurement. Due to the booming deep learning studies, they can constantly promote the study of underlying financial mechanisms behind asset pricing. I also propose a promising research method that learning from data and figuring out the underlying economic mechanisms through explainable artificial intelligence (AI) methods. My findings not only justify the value of deep learning in blooming fintech development, but also highlight their prospects and advantages over traditional machine learning methods.
翻訳日:2022-09-27 18:30:29 公開日:2022-09-24
# エネルギー需要データのためのグラフ表現学習:排出制約下の共同エネルギーシステム計画への適用

Graph Representation Learning for Energy Demand Data: Application to Joint Energy System Planning under Emissions Constraints ( http://arxiv.org/abs/2209.12035v1 )

ライセンス: Link先を確認
Aron Brenner, Rahman Khorramfar, Dharik Mallapragada, Saurabh Amin(参考訳) 現在の電力と天然ガス(NG)インフラの急速な転換は、CO2排出量削減の19世紀半ばの目標を満たすために不可欠である。 これは、代表的需給パターン、運用上の制約、政策上の考慮の下での長期計画を必要とする。 本研究は,GTEP (Generation and Transmission expansion problem) の計算・実践的課題に動機付けられている。 具体的には、各ネットワークにおける電力とNGデータから代表日の集合を効率的に抽出し、この集合を用いてGTEPの解決に必要な計算負担を削減する。 本研究では,多時間分解能エネルギーシステム(games)のためのグラフ自動エンコーダを提案する。 結果として得られる埋め込みは、クラスタリングアルゴリズムで代表日を選択するために使用される。 ニューイングランドの合体電力-NGシステムで校正されたGTEPの定式化を解く上でのアプローチの有効性を評価した。 この定式化は、共同排出制限を含む、電力とNGシステムの物理的相互依存性を説明できる。 以上の結果から, GAMES から得られた代表日数は GTEP の定式化を円滑に解決するだけでなく, 共同計画決定の実施コストの低減を図っている。

A rapid transformation of current electric power and natural gas (NG) infrastructure is imperative to meet the mid-century goal of CO2 emissions reduction requires. This necessitates a long-term planning of the joint power-NG system under representative demand and supply patterns, operational constraints, and policy considerations. Our work is motivated by the computational and practical challenges associated with solving the generation and transmission expansion problem (GTEP) for joint planning of power-NG systems. Specifically, we focus on efficiently extracting a set of representative days from power and NG data in respective networks and using this set to reduce the computational burden required to solve the GTEP. We propose a Graph Autoencoder for Multiple time resolution Energy Systems (GAMES) to capture the spatio-temporal demand patterns in interdependent networks and account for differences in the temporal resolution of available data. The resulting embeddings are used in a clustering algorithm to select representative days. We evaluate the effectiveness of our approach in solving a GTEP formulation calibrated for the joint power-NG system in New England. This formulation accounts for the physical interdependencies between power and NG systems, including the joint emissions constraint. Our results show that the set of representative days obtained from GAMES not only allows us to tractably solve the GTEP formulation, but also achieves a lower cost of implementing the joint planning decisions.
翻訳日:2022-09-27 18:30:12 公開日:2022-09-24
# クロスモーダル情報を用いたメディアコンテンツ中の教師なしアクティブ話者検出

Unsupervised active speaker detection in media content using cross-modal information ( http://arxiv.org/abs/2209.11896v1 )

ライセンス: Link先を確認
Rahul Sharma and Shrikanth Narayanan(参考訳) テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。 機械学習の進歩は、個人を音声や顔画像から識別する際の素晴らしいパフォーマンスを可能にした。 音声と顔からの話者識別情報を活用し、アクティブな話者検出を発話面割り当てタスクとして定式化し、アクティブな話者の顔と基礎となる音声が同一人物(キャラクタ)を識別する。 我々は、ビデオの相対的アイデンティティ構造を捉えるために、他のすべての音声セグメントから、関連する話者識別距離の観点で音声セグメントを表現する。 そして、得られたアクティブ話者の顔が類似した相対的アイデンティティ構造を示すように、同時に現れる顔から各音声セグメントにアクティブ話者の顔を割り当てる。 さらに,話者が画面外に存在する音声セグメントに,シンプルで効果的なアプローチを提案する。 提案システムは,エンターテイメントと放送メディアのビデオからなる3つのベンチマークデータセット – Visual Person Clustering データセット,AVA-active Speaker データセット,Columbia データセット – で評価し,最先端の完全管理手法に対する競合性能を示す。

We present a cross-modal unsupervised framework for active speaker detection in media content such as TV shows and movies. Machine learning advances have enabled impressive performance in identifying individuals from speech and facial images. We leverage speaker identity information from speech and faces, and formulate active speaker detection as a speech-face assignment task such that the active speaker's face and the underlying speech identify the same person (character). We express the speech segments in terms of their associated speaker identity distances, from all other speech segments, to capture a relative identity structure for the video. Then we assign an active speaker's face to each speech segment from the concurrently appearing faces such that the obtained set of active speaker faces displays a similar relative identity structure. Furthermore, we propose a simple and effective approach to address speech segments where speakers are present off-screen. We evaluate the proposed system on three benchmark datasets -- Visual Person Clustering dataset, AVA-active speaker dataset, and Columbia dataset -- consisting of videos from entertainment and broadcast media, and show competitive performance to state-of-the-art fully supervised methods.
翻訳日:2022-09-27 18:10:02 公開日:2022-09-24
# 拡散モデルとスコアマッチングモデルを用いたCT画像とMRI画像の変換

Conversion Between CT and MRI Images Using Diffusion and Score-Matching Models ( http://arxiv.org/abs/2209.12104v1 )

ライセンス: Link先を確認
Qing Lyu and Ge Wang(参考訳) MRIとCTは、最も広く使われている医用画像モダリティである。 放射線治療計画などの診断や治療のためにマルチモダリティ画像を取得することがしばしば必要である。 しかし,マルチモダリティ画像は費用がかかるだけでなく,MRI像とCT像との相違も生じる。 この課題に対処するためには、MRIとCT画像、特にMRIからCT画像への計算変換が有効なアプローチである。 本稿では,この文脈における拡散・スコアマッチングモデルという,新たな深層学習フレームワークの利用を提案する。 具体的には、拡散確率モデルとスコアマッチングモデルを適用し、4つの異なるサンプリング戦略を使用し、それらの性能指標を畳み込みニューラルネットワークと生成逆ネットワークモデルを用いて比較する。 その結果,拡散・スコアマッチングモデルがcnnおよびganモデルよりも優れた合成ct画像を生成することがわかった。 さらに,モンテカルロ法による拡散・スコアマッチングネットワークに関する不確実性を調査し,モンテカルロ出力平均化による結果の改善を行った。 本研究は, 画像合成において, 相補的画像モダリティを用いて高画質の画像を生成するために, 拡散・スコアマッチングモデルが強力であり, 明快な説明性を持つ解析的厳密であり, CNN や GAN と高い競争力を有することを示唆する。

MRI and CT are most widely used medical imaging modalities. It is often necessary to acquire multi-modality images for diagnosis and treatment such as radiotherapy planning. However, multi-modality imaging is not only costly but also introduces misalignment between MRI and CT images. To address this challenge, computational conversion is a viable approach between MRI and CT images, especially from MRI to CT images. In this paper, we propose to use an emerging deep learning framework called diffusion and score-matching models in this context. Specifically, we adapt denoising diffusion probabilistic and score-matching models, use four different sampling strategies, and compare their performance metrics with that using a convolutional neural network and a generative adversarial network model. Our results show that the diffusion and score-matching models generate better synthetic CT images than the CNN and GAN models. Furthermore, we investigate the uncertainties associated with the diffusion and score-matching networks using the Monte-Carlo method, and improve the results by averaging their Monte-Carlo outputs. Our study suggests that diffusion and score-matching models are powerful to generate high quality images conditioned on an image obtained using a complementary imaging modality, analytically rigorous with clear explainability, and highly competitive with CNNs and GANs for image synthesis.
翻訳日:2022-09-27 18:09:41 公開日:2022-09-24
# 実演からの高速長寿命適応逆強化学習

Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2209.11908v1 )

ライセンス: Link先を確認
Letian Chen, Sravan Jayanthi, Rohan Paleja, Daniel Martin, Viacheslav Zakharov, Matthew Gombolay(参考訳) 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。 しかしながら、現在のLfDフレームワークは、異種人間のデモへの迅速な適応や、ユビキタスなロボティクスアプリケーションへの大規模展開ができない。 本稿では,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。 提案手法は,学習した戦略を活用して,新しい実証に迅速に適応し,迅速なエンドユーザのパーソナライズを可能にすること,(2)実証にまたがる共通知識を蒸留し,正確なタスク推論を実現すること,(3)生涯展開に必要な場合にのみモデルを拡張すること,そして,ポリシミックスを通じてすべての行動を近似可能な,簡潔なプロトタイプ戦略のセットを維持すること,である。 flairが適応性(不均質なユーザ固有のタスク選択に適応するロボット)、効率性(サンプル効率の高い適応を実現するロボット)、スケーラビリティ(ハイパフォーマンスを維持しながらデモ数とサブリニアに成長するモデル)を達成することを実証的に検証する。 FLAIRは3つの連続制御タスクのベンチマークを上回り、ポリシーリターンが平均57%改善し、ポリシーミックスを使用したデモモデリングに必要なエピソードが平均78%減少した。 最後に,実ロボットテーブルテニスにおけるFLAIRの成功例を示す。

Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization; (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three continuous control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a real-robot table tennis task.
翻訳日:2022-09-27 17:52:38 公開日:2022-09-24
# フェイクニュースにおけるジェンダーバイアスについて

On Gender Bias in Fake News ( http://arxiv.org/abs/2209.11984v1 )

ライセンス: Link先を確認
Navya Sahadevan, Deepak Padmanabhan(参考訳) 偽ニュースに関するデータサイエンスの研究は近年、大きな公開ベンチマークデータセットの出現によって、非常に勢いを増している。 ジェンダーバイアスはニュースメディアを広める問題であるとするメディア研究の中で、確立されているが、ジェンダーバイアスとフェイクニュースの関係についてはほとんど調査されていない。 本研究では,公開ベンチマークデータセットよりも単純で透明なレキシコンベースの手法を活用し,性バイアスvis-a-vis偽ニュースを初めて実証的に分析する。 本分析により, 偽ニュースにおける性バイアスの頻度は, 3つの顔, 豊富, 感情, 近位語にまたがる。 この分析から得られた知見は、フェイクニュースの研究においてジェンダーバイアスが重要な考慮事項である必要があるという強い議論をもたらす。

Data science research into fake news has gathered much momentum in recent years, arguably facilitated by the emergence of large public benchmark datasets. While it has been well-established within media studies that gender bias is an issue that pervades news media, there has been very little exploration into the relationship between gender bias and fake news. In this work, we provide the first empirical analysis of gender bias vis-a-vis fake news, leveraging simple and transparent lexicon-based methods over public benchmark datasets. Our analysis establishes the increased prevalance of gender bias in fake news across three facets viz., abundance, affect and proximal words. The insights from our analysis provide a strong argument that gender bias needs to be an important consideration in research into fake news.
翻訳日:2022-09-27 17:51:57 公開日:2022-09-24
# 再生型ターボシャフトエンジンとDNNの併用サイクルのエネルギー環境評価と予測

Energy-Environment evaluation and Forecast of a Novel Regenerative turboshaft engine combine cycle with DNN application ( http://arxiv.org/abs/2209.12020v1 )

ライセンス: Link先を確認
Mahdi Alibeigi and Mohammadreza Sabzehali(参考訳) 本研究では, エネルギー環境解析に基づき, 入口空気冷却と再生冷却を加えてターボシャフトエンジンの評価を行った。 First, impacts of flight-Mach number, flight altitude, the compression ratio of compressor-1 in the main cycle, the turbine inlet temperature of turbine-1 in the main cycle, temperature fraction of turbine-2, the compression ratio of the accessory cycle, and inlet air temperature variation in inlet air cooling system on some functional performance parameters of Regenerative turboshaft engine cycle equipped with inlet air cooling system such as power-specific fuel consumption, Power output, thermal efficiency, and mass flow rate of Nitride oxides (NOx) including NO and NO2 has been investigated via using hydrogen as fuel working. その結果, 各層に625ニューロンの隠蔽層を有するディープニューラルネットワーク(DNN)をベースとした冷却空冷システムを備えた再生ターボシャフトエンジンサイクルのエネルギー環境性能を予測するモデルが開発された。 また,NOおよびNO2を含む窒化物(NOx)の熱効率と物質流量を予測するモデルを提案した。 その結果,MSE,MAE,RMSDのコスト関数の適切な量で統合DNNモデルの精度を検証し,テストおよびトレーニングデータの両方を検証した。 また、RとR^2は、熱効率およびNOx排出質量流量の予測値と、そのトレーニングデータと試験データの両方の検証のために、熱効率とNOx排出質量流量の双方に対して1に非常に近いように計算される。

In this integrated study, a turboshaft engine was evaluated by adding inlet air cooling and regenerative cooling based on energy-environment analysis. First, impacts of flight-Mach number, flight altitude, the compression ratio of compressor-1 in the main cycle, the turbine inlet temperature of turbine-1 in the main cycle, temperature fraction of turbine-2, the compression ratio of the accessory cycle, and inlet air temperature variation in inlet air cooling system on some functional performance parameters of Regenerative turboshaft engine cycle equipped with inlet air cooling system such as power-specific fuel consumption, Power output, thermal efficiency, and mass flow rate of Nitride oxides (NOx) including NO and NO2 has been investigated via using hydrogen as fuel working. Consequently, based on the analysis, a model was developed to predict the energy-environment performance of the Regenerative turboshaft engine cycle equipped with a cooling air cooling system based on a deep neural network (DNN) with 2 hidden layers with 625 neurons for each hidden layer. The model proposed to predict the amount of thermal efficiency and the mass flow rate of nitride oxide (NOx) containing NO and NO2. The results demonstrated the accuracy of the integrated DNN model with the proper amount of the MSE, MAE, and RMSD cost function for both predicted outputs to validate both testing and training data. Also, R and R^2 are noticeably calculated very close to 1 for both thermal Efficiency and NOx emission mass flow rate for both validations of thermal efficiency and NOx emission mass flow rate prediction values with its training and its testing data.
翻訳日:2022-09-27 17:51:43 公開日:2022-09-24
# Blinder:個人化フェデレーション学習によるセンシングシステムにおけるエンドツーエンドのプライバシ保護

Blinder: End-to-end Privacy Protection in Sensing Systems via Personalized Federated Learning ( http://arxiv.org/abs/2209.12046v1 )

ライセンス: Link先を確認
Xin Yang, Omid Ardakanian(参考訳) 本稿では,分散データに基づいてトレーニングを行い,収集されたセンサデータが下位分布が異なる異種環境においても,データユーティリティとプライバシの間の望ましいトレードオフを行うセンサデータ匿名化モデルを提案する。 われわれの匿名化モデルは blinder と呼ばれ、変分オートエンコーダと識別器ネットワークに基づいて、敵対的な方法で訓練されている。 モデルに依存しないメタラーニングフレームワークを用いて,各ユーザのデータ分布にフェデレーション学習を通じてトレーニングされた匿名化モデルを適用する。 我々は、異なる設定下で盲目者を評価し、プライバシー損失を最大4.00%増加させ、データユーティリティを最大4.24%減少させるコストで、エンドツーエンドのプライバシー保護を提供することを示した。 実験により,Blinderは一度に複数のプライベート属性を隠蔽できることを確認した。センサデータのリアルタイム匿名化を実現するために,エッジデバイスやスマートフォンに展開する電力消費と計算オーバーヘッドが十分に低い。

This paper proposes a sensor data anonymization model that is trained on decentralized data and strikes a desirable trade-off between data utility and privacy, even in heterogeneous settings where the collected sensor data have different underlying distributions. Our anonymization model, dubbed Blinder, is based on a variational autoencoder and discriminator networks trained in an adversarial fashion. We use the model-agnostic meta-learning framework to adapt the anonymization model trained via federated learning to each user's data distribution. We evaluate Blinder under different settings and show that it provides end-to-end privacy protection at the cost of increasing privacy loss by up to 4.00% and decreasing data utility by up to 4.24%, compared to the state-of-the-art anonymization model trained on centralized data. Our experiments confirm that Blinder can obscure multiple private attributes at once, and has sufficiently low power consumption and computational overhead for it to be deployed on edge devices and smartphones to perform real-time anonymization of sensor data.
翻訳日:2022-09-27 17:51:21 公開日:2022-09-24
# 歌の感情認識:音声特徴とニューラルネットワークの性能比較

Song Emotion Recognition: a Performance Comparison Between Audio Features and Artificial Neural Networks ( http://arxiv.org/abs/2209.12045v1 )

ライセンス: Link先を確認
Karen Rosero, Arthur Nicholas dos Santos, Pedro Benevenuto Valadares, Bruno Sanches Masiero(参考訳) 歌が作曲されたり演奏されたりする場合、シンガーソングライターが感情や感情を表現するという意図がしばしばある。 人間にとって、作曲や演奏における感情と観衆の主観的知覚とを合わせることは極めて困難である。 幸いにも、この問題に対する機械学習のアプローチはシンプルだ。 通常、音声の特徴を抽出してデータ駆動モデルに提示するデータセットが必要であり、それによって、与えられた曲がターゲットの感情にマッチする確率を予測するように訓練される。 本稿では,近年の出版物で採用されている最も一般的な特徴とモデルについて検討し,カペラの歌における感情認識に最適な特徴を明らかにする。

When songs are composed or performed, there is often an intent by the singer/songwriter of expressing feelings or emotions through it. For humans, matching the emotiveness in a musical composition or performance with the subjective perception of an audience can be quite challenging. Fortunately, the machine learning approach for this problem is simpler. Usually, it takes a data-set, from which audio features are extracted to present this information to a data-driven model, that will, in turn, train to predict what is the probability that a given song matches a target emotion. In this paper, we studied the most common features and models used in recent publications to tackle this problem, revealing which ones are best suited for recognizing emotion in a cappella songs.
翻訳日:2022-09-27 17:42:54 公開日:2022-09-24
# マルチロボット能動情報獲得のためのグラフニューラルネットワーク

Graph Neural Networks for Multi-Robot Active Information Acquisition ( http://arxiv.org/abs/2209.12091v1 )

ライセンス: Link先を確認
Mariliza Tzes, Nikolaos Bousias, Evangelos Chatzipantazis, George J. Pappas(参考訳) 本稿では,移動ロボットのチームが基礎となるグラフを通してコミュニケーションし,関心現象を表す隠れた状態を推定するマルチロボットアクティブ情報取得(aia)問題に対処する。 ターゲットトラッキングやカバレッジ、SLAMといったアプリケーションは、このフレームワークで表現できる。 しかし、既存のアプローチはスケーラブルではなく、動的現象を処理できないか、通信グラフの変化に対して堅牢ではない。 これらの欠点に対処するため,グラフニューラルネットワークのAIA適応である情報認識グラフブロックネットワーク(I-GBNet)を提案する。 I-GBNetは、集中型サンプリングベースのエキスパートソルバによる模倣学習によって訓練され、変分同値と時間的不変性を示し、以前は見つからなかった環境やロボットの構成に対して優れたスケーラビリティ、堅牢性、一般化性を利用する。 隠れ状態とより複雑な環境の非常に大きなグラフと次元に関する実験は、提案したアーキテクチャの特性と、動的ターゲットの局所化と追跡の応用における有効性を検証する。

This paper addresses the Multi-Robot Active Information Acquisition (AIA) problem, where a team of mobile robots, communicating through an underlying graph, estimates a hidden state expressing a phenomenon of interest. Applications like target tracking, coverage and SLAM can be expressed in this framework. Existing approaches, though, are either not scalable, unable to handle dynamic phenomena or not robust to changes in the communication graph. To counter these shortcomings, we propose an Information-aware Graph Block Network (I-GBNet), an AIA adaptation of Graph Neural Networks, that aggregates information over the graph representation and provides sequential-decision making in a distributed manner. The I-GBNet, trained via imitation learning with a centralized sampling-based expert solver, exhibits permutation equivariance and time invariance, while harnessing the superior scalability, robustness and generalizability to previously unseen environments and robot configurations. Experiments on significantly larger graphs and dimensionality of the hidden state and more complex environments than those seen in training validate the properties of the proposed architecture and its efficacy in the application of localization and tracking of dynamic targets.
翻訳日:2022-09-27 17:42:42 公開日:2022-09-24
# 市販部品からの構造光を用いた3次元再構成

3D Reconstruction using Structured Light from off-the-shelf components ( http://arxiv.org/abs/2209.12101v1 )

ライセンス: Link先を確認
Aman Gajendra Jain, Dr. Shital Chiddarwar(参考訳) 座標測定装置(CMM)は、過去50年以上の固体の計測における精度のベンチマークである。 しかし、3Dスキャン技術の出現により、生成された点雲の精度と密度が引き継がれた。 このプロジェクトでは、3dスキャンソフトウェアで使用できるさまざまなアルゴリズムを比較するだけでなく、カメラやプロジェクターといった市販コンポーネントから独自の3dスキャナーを作成します。 私たちの目標は 1)3Dスキャナーのプロトタイプを開発し,対象物に対して最適な精度で動作させるシステムを実現する。 2.既製部品の使用コストを最小化する。 3. CMMの精度に非常に近いものにすること。

The coordinate measuring machine(CMM) has been the benchmark of accuracy in measuring solid objects from nearly past 50 years or more. However with the advent of 3D scanning technology, the accuracy and the density of point cloud generated has taken over. In this project we not only compare the different algorithms that can be used in a 3D scanning software, but also create our own 3D scanner from off-the-shelf components like camera and projector. Our objective has been : 1. To develop a prototype for 3D scanner to achieve a system that performs at optimal accuracy over a wide typology of objects. 2. To minimise the cost using off-the-shelf components. 3. To reach very close to the accuracy of CMM.
翻訳日:2022-09-27 17:36:37 公開日:2022-09-24
# DomainATM:医療データ分析のためのドメイン適応ツールボックス

DomainATM: Domain Adaptation Toolbox for Medical Data Analysis ( http://arxiv.org/abs/2209.11890v1 )

ライセンス: Link先を確認
Hao Guan and Mingxia Liu(参考訳) ドメイン適応(da)は、現代の機械学習に基づく医療データ分析において重要な技術であり、異なる医療データセット間の分布差を減らすことを目的としている。 適切なドメイン適応手法は、複数のサイト/センターから取得したデータをプールすることで、統計的パワーを大幅に向上させることができる。 そこで我々は,医療データ分析のためのドメイン適応ツールボックス(DomainATM)を開発した。 DomainATMはMATLABでユーザフレンドリーなグラフィカルインタフェースで実装されており、医用画像解析やコンピュータビジョンに広く応用された一般的なデータ適応アルゴリズムのコレクションで構成されている。 DomainATMにより、研究者は、医療データ分析のための異なる適応方法の高速な特徴レベルおよび画像レベルの適応、可視化および性能評価を促進できる。 さらに重要なのは、DomainATMを使うことで、スクリプティングを通じて独自のアダプティブメソッドの開発とテストが可能になり、その実用性と拡張性を大幅に向上する。 DomainATMの概要と使用法について,その有効性,簡易性,柔軟性を示す3つの実験例を示し,その実例を示した。 ソフトウェア、ソースコード、マニュアルはオンラインで入手できる。

Domain adaptation (DA) is an important technique for modern machine learning-based medical data analysis, which aims at reducing distribution differences between different medical datasets. A proper domain adaptation method can significantly enhance the statistical power by pooling data acquired from multiple sites/centers. To this end, we have developed the Domain Adaptation Toolbox for Medical data analysis (DomainATM) - an open-source software package designed for fast facilitation and easy customization of domain adaptation methods for medical data analysis. The DomainATM is implemented in MATLAB with a user-friendly graphical interface, and it consists of a collection of popular data adaptation algorithms that have been extensively applied to medical image analysis and computer vision. With DomainATM, researchers are able to facilitate fast feature-level and image-level adaptation, visualization and performance evaluation of different adaptation methods for medical data analysis. More importantly, the DomainATM enables the users to develop and test their own adaptation methods through scripting, greatly enhancing its utility and extensibility. An overview characteristic and usage of DomainATM is presented and illustrated with three example experiments, demonstrating its effectiveness, simplicity, and flexibility. The software, source code, and manual are available online.
翻訳日:2022-09-27 17:27:22 公開日:2022-09-24
# ループを閉じる:多目的シーンのためのセマンティックオブジェクトと視覚機能を統合するグラフネットワーク

Closing the Loop: Graph Networks to Unify Semantic Objects and Visual Features for Multi-object Scenes ( http://arxiv.org/abs/2209.11894v1 )

ライセンス: Link先を確認
Jonathan J.Y. Kim, Martin Urschler, Patricia J. Riddle, J\"org S. Wicker(参考訳) 同時局所化マッピング(SLAM)では、以前に訪れた場所を認識する際のドリフトを最小限にするために、ループクロージャ検出(LCD)が不可欠である。 Visual Bag-of-Words (vBoW)は、多くの最先端SLAMシステムで選択されたLCDアルゴリズムである。 視覚的な特徴セットを使用して堅牢な場所認識を提供するが、特徴点間の意味や空間的関係を認識できない。 これまでの研究は主に、vBoWとシーン内のオブジェクトのセマンティック情報と空間情報を組み合わせることで、これらの問題に対処することに集中してきた。 しかし、局所的な視覚特徴の空間情報を利用することができず、セマンティックオブジェクトと視覚特徴を統一する構造が欠如しており、2つのコンポーネント間の共生が制限されている。 本稿では,セマンティックオブジェクトと視覚特徴を共生的に統合する統合グラフ構造を構築するSymbioLCD2を提案する。 Wesfeiler-Lehmanグラフカーネルを時間制約で適用し,ループクロージャ候補を頑健に予測することで,グラフ構造を統一化する。 提案システムの評価では,意味オブジェクトと視覚特徴を一体化したグラフ構造を持つことでLCD予測精度が向上し,このグラフ構造がこれら2つの相補的コンポーネントの間に強い共生をもたらすことを示す。 また、SVM、決定木、ランダムフォレスト、ニューラルネットワーク、GNNベースのグラフマッチングネットワークなど、他の機械学習アルゴリズムよりも優れています。 さらに、最先端SLAMシステムよりも早くループ閉鎖候補を検出することに優れた性能を示し、統一グラフ構造からのセマンティックな認識と空間的認識がLCDの性能に大きな影響を及ぼすことを示した。

In Simultaneous Localization and Mapping (SLAM), Loop Closure Detection (LCD) is essential to minimize drift when recognizing previously visited places. Visual Bag-of-Words (vBoW) has been an LCD algorithm of choice for many state-of-the-art SLAM systems. It uses a set of visual features to provide robust place recognition but fails to perceive the semantics or spatial relationship between feature points. Previous work has mainly focused on addressing these issues by combining vBoW with semantic and spatial information from objects in the scene. However, they are unable to exploit spatial information of local visual features and lack a structure that unifies semantic objects and visual features, therefore limiting the symbiosis between the two components. This paper proposes SymbioLCD2, which creates a unified graph structure to integrate semantic objects and visual features symbiotically. Our novel graph-based LCD system utilizes the unified graph structure by applying a Weisfeiler-Lehman graph kernel with temporal constraints to robustly predict loop closure candidates. Evaluation of the proposed system shows that having a unified graph structure incorporating semantic objects and visual features improves LCD prediction accuracy, illustrating that the proposed graph structure provides a strong symbiosis between these two complementary components. It also outperforms other Machine Learning algorithms - such as SVM, Decision Tree, Random Forest, Neural Network and GNN based Graph Matching Networks. Furthermore, it has shown good performance in detecting loop closure candidates earlier than state-of-the-art SLAM systems, demonstrating that extended semantic and spatial awareness from the unified graph structure significantly impacts LCD performance.
翻訳日:2022-09-27 17:27:02 公開日:2022-09-24
# イベントセンシングによる衛星画像推定のための空間領域ギャップのブリッジ化に向けて

Towards Bridging the Space Domain Gap for Satellite Pose Estimation using Event Sensing ( http://arxiv.org/abs/2209.11945v1 )

ライセンス: Link先を確認
Mohsi Jawaid, Ethan Elms, Yasir Latif and Tat-Jun Chin(参考訳) 合成データを用いて訓練された深層モデルは、シミュレーションとターゲット環境の間のギャップを埋めるためにドメイン適応を必要とする。 最先端のドメイン適応メソッドは、ターゲットドメインから十分な量の(ラベルなし)データを要求することが多い。 しかし、対象領域が空間のような極端な環境である場合、この要求を満たすことは困難である。 本稿では,本研究の目的は,衛星の近接位置推定であり,実際のランデブーミッションから衛星画像を取得するのに費用がかかることにある。 我々は,イベントセンシングが,シミュレーションから対象領域に一般化する有望な解決策であることを示す。 我々の主な貢献は、実用的な(ノイズの多い)イベントセンサに対するロバスト性を改善するために、基本データ拡張による合成イベントデータに基づいて純粋に訓練されたイベントベースの衛星ポーズ推定技術である。 提案手法の基盤となるのは,実験室における衛星ランデブーのシナリオを,劇的な照明条件下でエミュレートした実事象データからなる,精密に校正された地上真実のデータセットである。 その結果, 適応性のない合成データのみに基づいて学習したイベントベース衛星ポーズ推定手法が, 効果的に対象領域に一般化できることがわかった。

Deep models trained using synthetic data require domain adaptation to bridge the gap between the simulation and target environments. State-of-the-art domain adaptation methods often demand sufficient amounts of (unlabelled) data from the target domain. However, this need is difficult to fulfil when the target domain is an extreme environment, such as space. In this paper, our target problem is close proximity satellite pose estimation, where it is costly to obtain images of satellites from actual rendezvous missions. We demonstrate that event sensing offers a promising solution to generalise from the simulation to the target domain under stark illumination differences. Our main contribution is an event-based satellite pose estimation technique, trained purely on synthetic event data with basic data augmentation to improve robustness against practical (noisy) event sensors. Underpinning our method is a novel dataset with carefully calibrated ground truth, comprising of real event data obtained by emulating satellite rendezvous scenarios in the lab under drastic lighting conditions. Results on the dataset showed that our event-based satellite pose estimation method, trained only on synthetic data without adaptation, could generalise to the target domain effectively.
翻訳日:2022-09-27 17:26:32 公開日:2022-09-24
# 制約付き凸最適化による同時ガイド画像分割によるロバストハイパースペクトル画像融合

Robust Hyperspectral Image Fusion with Simultaneous Guide Image Denoising via Constrained Convex Optimization ( http://arxiv.org/abs/2209.11979v1 )

ライセンス: Link先を確認
Saori Takeyama and Shunsuke Ono(参考訳) 本稿では,凸最適化に基づく高分解能ハイパースペクトル(HR-HS)画像推定法を提案する。 この方法では、低空間分解能HS(LR-HS)画像とガイド画像が観測対象となり、両方の観測がノイズによって汚染される。 本手法はHR-HS画像とノイズレスガイド画像とを同時に推定するので,重騒音で汚染された場合でもガイド画像内の空間情報を利用することができる。 提案課題は, HR-HSとガイド画像のエッジ類似性を評価し, HR-HS画像におけるアプリオリ知識とガイド画像における空間的詳細情報を効果的に活用する。 この問題を効果的に解決するために,予備二分割法を適用した。 実験により,本手法の性能と既存手法の利点を実証した。

The paper proposes a new high spatial resolution hyperspectral (HR-HS) image estimation method based on convex optimization. The method assumes a low spatial resolution HS (LR-HS) image and a guide image as observations, where both observations are contaminated by noise. Our method simultaneously estimates an HR-HS image and a noiseless guide image, so the method can utilize spatial information in a guide image even if it is contaminated by heavy noise. The proposed estimation problem adopts hybrid spatio-spectral total variation as regularization and evaluates the edge similarity between HR-HS and guide images to effectively use apriori knowledge on an HR-HS image and spatial detail information in a guide image. To efficiently solve the problem, we apply a primal-dual splitting method. Experiments demonstrate the performance of our method and the advantage over several existing methods.
翻訳日:2022-09-27 17:26:12 公開日:2022-09-24
# CT画像におけるnU-Netの肺病変自動区分けへの応用と放射線モデルへの影響

Application of the nnU-Net for automatic segmentation of lung lesion on CT images, and implication on radiomic models ( http://arxiv.org/abs/2209.12027v1 )

ライセンス: Link先を確認
Matteo Ferrante, Lisa Rinaldi, Francesca Botta, Xiaobin Hu, Andreas Dolp, Marta Minotti, Francesca De Piano, Gianluigi Funicelli, Stefania Volpe, Federica Bellerba, Paolo De Marco, Sara Raimondi, Stefania Rizzo, Kuangyu Shi, Marta Cremonesi, Barbara A. Jereczek-Fossa, Lorenzo Spaggiari, Filippo De Marinis, Roberto Orecchia, Daniela Origgi(参考訳) 病変セグメンテーションは放射線のワークフローの重要なステップである。 手動セグメンテーションには長い実行時間が必要であり、変動しやすいため、放射線研究の実現と堅牢性が損なわれる。 本研究では,非小細胞肺癌患者のct画像にディープラーニング自動分割法を適用した。 生存放射線モデルの性能評価において,手動と自動セグメンテーションの併用も検討した。 方法】計899名のNSCLC患者(A,B,1名の公開データセット:C)を対象とした。 肺病変の自動切除は, 2D, 3D, カスケードアプローチを含む先進的なアーキテクチャであるnnU-Netをトレーニングすることによって行われた。 自動セグメンテーションの品質は手動の輪郭を基準としてDICE係数を用いて評価した。 患者生存のための放射能モデルの性能に対する自動分割の影響を,データセットaの手動および自動輪郭から放射能手作りおよびディープラーニングの特徴を抽出し,各機械学習アルゴリズムを用いて生存率を中央値以上/下位に分類した。 モデルの精度を評価し比較した。 RESULTS DICE=0.78 +(0.12)による自動輪郭と手動輪郭の最良の一致は、2Dおよび3Dモデルの予測を平均化し、最大連結成分を抽出するために後処理技術を適用することで達成された。 手動または自動輪郭、手作り、または深部特徴を用いた場合、生存モデルの性能には統計的に差は見られなかった。 最適分類器は0.65から0.78の精度を示した。 肺病変の自動分画におけるnnU-Netの役割は,放射線治療による生存予測モデルの精度を損なうことなく,医師の作業量を劇的に削減することが確認された。

Lesion segmentation is a crucial step of the radiomic workflow. Manual segmentation requires long execution time and is prone to variability, impairing the realisation of radiomic studies and their robustness. In this study, a deep-learning automatic segmentation method was applied on computed tomography images of non-small-cell lung cancer patients. The use of manual vs automatic segmentation in the performance of survival radiomic models was assessed, as well. METHODS A total of 899 NSCLC patients were included (2 proprietary: A and B, 1 public datasets: C). Automatic segmentation of lung lesions was performed by training a previously developed architecture, the nnU-Net, including 2D, 3D and cascade approaches. The quality of automatic segmentation was evaluated with DICE coefficient, considering manual contours as reference. The impact of automatic segmentation on the performance of a radiomic model for patient survival was explored by extracting radiomic hand-crafted and deep-learning features from manual and automatic contours of dataset A, and feeding different machine learning algorithms to classify survival above/below median. Models' accuracies were assessed and compared. RESULTS The best agreement between automatic and manual contours with DICE=0.78 +(0.12) was achieved by averaging predictions from 2D and 3D models, and applying a post-processing technique to extract the maximum connected component. No statistical differences were observed in the performances of survival models when using manual or automatic contours, hand-crafted, or deep features. The best classifier showed an accuracy between 0.65 and 0.78. CONCLUSION The promising role of nnU-Net for automatic segmentation of lung lesions was confirmed, dramatically reducing the time-consuming physicians' workload without impairing the accuracy of survival predictive models based on radiomics.
翻訳日:2022-09-27 17:25:57 公開日:2022-09-24
# NeRF-Loc:ニューラルラジアンスフィールド内におけるトランスフォーマーによる物体定位

NeRF-Loc: Transformer-Based Object Localization Within Neural Radiance Fields ( http://arxiv.org/abs/2209.12068v1 )

ライセンス: Link先を確認
Jiankai Sun, Yan Xu, Mingyu Ding, Hongwei Yi, Jingdong Wang, Liangjun Zhang, Mac Schwager(参考訳) neural radiance field (nerfs) はシーン表現に成功している。 最近の研究は、NeRFベースの環境表現を用いたロボットナビゲーションと操作システムも開発している。 オブジェクトローカライゼーションは多くのロボットアプリケーションの基礎であり、ロボットシステムにおけるNeRFの可能性をさらに解き放つため、物体ローカライゼーションをNeRFシーン内で研究する。 我々は,NeRFシーン内の物体の3次元境界ボックスを抽出するトランスフォーマーベースのフレームワークNeRF-Locを提案する。 NeRF-Locはトレーニング済みのNeRFモデルとカメラビューを入力として、オブジェクトのラベル付き3Dバウンディングボックスを出力として生成する。 具体的には,一対の並列トランスフォーマーエンコーダ分岐,すなわち粗いストリームと細かなストリームを設計し,対象オブジェクトのコンテキストと詳細の両方を符号化する。 符号化された特徴は、注意層と融合して、正確なオブジェクトローカライゼーションのためのあいまいさを軽減する。 提案手法を従来の変圧器方式と比較した結果,性能が向上した。 また、最初のNeRFサンプルに基づくオブジェクトローカライゼーションベンチマークNeRFLocBenchも提示する。

Neural Radiance Fields (NeRFs) have been successfully used for scene representation. Recent works have also developed robotic navigation and manipulation systems using NeRF-based environment representations. As object localization is the foundation for many robotic applications, to further unleash the potential of NeRFs in robotic systems, we study object localization within a NeRF scene. We propose a transformer-based framework NeRF-Loc to extract 3D bounding boxes of objects in NeRF scenes. NeRF-Loc takes a pre-trained NeRF model and camera view as input, and produces labeled 3D bounding boxes of objects as output. Concretely, we design a pair of paralleled transformer encoder branches, namely the coarse stream and the fine stream, to encode both the context and details of target objects. The encoded features are then fused together with attention layers to alleviate ambiguities for accurate object localization. We have compared our method with the conventional transformer-based method and our method achieves better performance. In addition, we also present the first NeRF samples-based object localization benchmark NeRFLocBench.
翻訳日:2022-09-27 17:25:20 公開日:2022-09-24
# マスク対応ハイパースペクトル画像再構成のためのS^2変換器

S^2-Transformer for Mask-Aware Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2209.12075v1 )

ライセンス: Link先を確認
Jiamian Wang, Kunpeng Li, Yulun Zhang, Xin Yuan, Zhiqiang Tao(参考訳) ハイパースペクトルイメージング(HSI)技術は、長距離分散スペクトル波長の視覚情報を記録する。 代表的ハイパースペクトル画像取得手順は、符号化された開口スナップショット分光撮像器(CASSI)による3Dから2Dの符号化を行い、3D信号再構成のためのソフトウェアデコーダを必要とする。 この符号化手順に基づき、高忠実度再構築の道に2つの大きな課題がある。 (i)2次元計測を行うため、cassiは分散性により複数のチャネルを配置し、同じ空間領域に絞り込み、絡み合ったデータ損失を生じさせる。 (ii)物理符号化開口(mask)は、画素単位の光露光を選択的にブロックすることにより、マスクされたデータ損失につながる。 これらの課題に対処するために,マスク対応学習戦略を用いた空間スペクトル(S2-)トランスフォーマーアーキテクチャを提案する。 まず,空間的およびスペクトル的注意モデリングを併用し,両次元に沿った2次元計測におけるブレンド情報を分離する。 空間的およびスペクトル的手がかりにまたがる一連のトランスフォーマー構造を体系的に設計し、2重のキュー間の情報相互依存性を考察する。 第二に、マスクされたピクセルは予測の困難を増し、未加工のピクセルと異なる扱いをすべきである。 そこで,マスク認識予測の難易度を推定することにより,マスク構造に起因する損失ペナルティを適応的に優先順位付けする。 提案手法は,新しい最先端を定量的に設定するだけでなく,構造領域の知覚品質も向上する。

The technology of hyperspectral imaging (HSI) records the visual information upon long-range-distributed spectral wavelengths. A representative hyperspectral image acquisition procedure conducts a 3D-to-2D encoding by the coded aperture snapshot spectral imager (CASSI), and requires a software decoder for the 3D signal reconstruction. Based on this encoding procedure, two major challenges stand in the way of a high-fidelity reconstruction: (i) To obtain 2D measurements, CASSI dislocates multiple channels by disperser-titling and squeezes them onto the same spatial region, yielding an entangled data loss. (ii) The physical coded aperture (mask) will lead to a masked data loss by selectively blocking the pixel-wise light exposure. To tackle these challenges, we propose a spatial-spectral (S2-) transformer architecture with a mask-aware learning strategy. Firstly, we simultaneously leverage spatial and spectral attention modelings to disentangle the blended information in the 2D measurement along both two dimensions. A series of Transformer structures across spatial & spectral clues are systematically designed, which considers the information inter-dependency between the two-fold cues. Secondly, the masked pixels will induce higher prediction difficulty and should be treated differently from unmasked ones. Thereby, we adaptively prioritize the loss penalty attributing to the mask structure by inferring the difficulty-level upon the mask-aware prediction. Our proposed method not only sets a new state-of-the-art quantitatively, but also yields a better perceptual quality upon structured areas.
翻訳日:2022-09-27 17:25:02 公開日:2022-09-24
# 薬物動態性天然物-薬物相互作用に関する知識グラフフレームワークの開発

Developing a Knowledge Graph Framework for Pharmacokinetic Natural Product-Drug Interactions ( http://arxiv.org/abs/2209.11950v1 )

ライセンス: Link先を確認
Sanya B. Taneja, Tiffany J. Callahan, Mary F. Paine, Sandra L. Kane-Gill, Halil Kilicoglu, Marcin P. Joachimiak, Richard D. Boyce(参考訳) 薬物動態的天然物ドラッグ相互作用(NPDIs)は、植物由来の天然物と医薬品の併用によって起こる。 NPDIの理解メカニズムは、有害事象を防ぐ鍵となる。 薬物動態npdisの計算的発見に向けたステップとして,知識グラフフレームワークnp-kgを構築した。 NP-KGは、Phenotype Knowledge Translatorフレームワークと意味関係抽出システム、SemRepとIntegrated NetworkとDynamic Reasoning Assemblerで構築された、生物医学的なオントロジー、リンクデータ、科学文献の全文を備えた異種KGである。 NP-KGは,パスサーチとメタパス発見を通した薬物動態学的緑茶とクラーム-ドラッグ相互作用のケーススタディで評価し,地中真実データと比較した一致性および矛盾性情報を求めた。 完全に統合されたNP-KGは745,512ノードと7,249,576エッジで構成される。 np-kgの評価の結果、コングルーエント(緑茶38.98%、クラトム50%)、相反性(15.25%、クラトム21.43%)、相反性(緑茶15.25%、クラトム21.43%)の情報が得られた。 緑茶ラロキシフェイン, 緑茶ナドロール, クラトム・ミダゾラム, クラトム・ケチアピン, クラトム・ベンラファキシン相互作用などいくつかのnpdisの薬物動態機序は, 出版文献と一致した。 NP-KGは、生物医学のオントロジーと天然物に焦点を当てた科学文献の全文を統合する最初のKGである。 本稿では,酵素,トランスポーター,医薬品を含む薬物動態相互作用の同定にNP-KGの応用を実証する。 我々は、NP-KGがヒトと機械のコラボレーションの改善を促進し、今後の薬理学的なNPDIの研究を指導することを期待している。 NP-KGフレームワークはhttps://doi.org/10.5281/zenodo.6814507とhttps://github.com/sanyabt/np-kgで公開されている。

Pharmacokinetic natural product-drug interactions (NPDIs) occur when botanical natural products are co-consumed with pharmaceutical drugs. Understanding mechanisms of NPDIs is key to preventing adverse events. We constructed a knowledge graph framework, NP-KG, as a step toward computational discovery of pharmacokinetic NPDIs. NP-KG is a heterogeneous KG with biomedical ontologies, linked data, and full texts of the scientific literature, constructed with the Phenotype Knowledge Translator framework and the semantic relation extraction systems, SemRep and Integrated Network and Dynamic Reasoning Assembler. NP-KG was evaluated with case studies of pharmacokinetic green tea- and kratom-drug interactions through path searches and meta-path discovery to determine congruent and contradictory information compared to ground truth data. The fully integrated NP-KG consisted of 745,512 nodes and 7,249,576 edges. Evaluation of NP-KG resulted in congruent (38.98% for green tea, 50% for kratom), contradictory (15.25% for green tea, 21.43% for kratom), and both congruent and contradictory (15.25% for green tea, 21.43% for kratom) information. Potential pharmacokinetic mechanisms for several purported NPDIs, including the green tea-raloxifene, green tea-nadolol, kratom-midazolam, kratom-quetiapine, and kratom-venlafaxine interactions were congruent with the published literature. NP-KG is the first KG to integrate biomedical ontologies with full texts of the scientific literature focused on natural products. We demonstrate the application of NP-KG to identify pharmacokinetic interactions involving enzymes, transporters, and pharmaceutical drugs. We envision that NP-KG will facilitate improved human-machine collaboration to guide researchers in future studies of pharmacokinetic NPDIs. The NP-KG framework is publicly available at https://doi.org/10.5281/zenodo.6814507 and https://github.com/sanyabt/np-kg.
翻訳日:2022-09-27 17:09:25 公開日:2022-09-24
# 気候影響モデリングフレームワーク

Climate Impact Modelling Framework ( http://arxiv.org/abs/2209.12080v1 )

ライセンス: Link先を確認
Blair Edwards, Paolo Fraccaro, Nikola Stoyanov, Nelson Bore, Julian Kuehnert, Tommy Weldemariam, Anne Jones(参考訳) 気象や気候の物理的影響とその社会やビジネスへの影響のリスクを評価するためのモデルの適用は、我々の変化する気候において最も重要である。 このようなモデルの操作は歴史的に悪用され、特定の計算インフラに制約され、データセットと事前定義された設定を駆動する。 これらの制約は、モデルの実行をスケーリングし、モデルを関心のあるユーザの手に渡すという課題をもたらす。 本稿では,地理空間モデルのデプロイと運用のためのクラウドベースのモジュラーフレームワークを提案する。 気候影響モデリングフレームワーク(cimf)は、動的かつ柔軟な方法でモジュールワークフローの展開を可能にする。 ユーザはワークフローコンポーネントを合理化された方法で指定でき、これらのコンポーネントをさまざまな構成に簡単に整理して、さまざまな方法でさまざまなスケールでリスクを評価することができる。 これにより、異なるモデル(物理シミュレーションや機械学習モデル)とワークフローを接続して、リスクアセスメントを組み合わせることも可能になる。 洪水モデリングは、CIMFの運用を実証するためのエンドツーエンドの例として用いられる。

The application of models to assess the risk of the physical impacts of weather and climate and their subsequent consequences for society and business is of the utmost importance in our changing climate. The operation of such models is historically bespoke and constrained to specific compute infrastructure, driving datasets and predefined configurations. These constraints introduce challenges with scaling model runs and putting the models in the hands of interested users. Here we present a cloud-based modular framework for the deployment and operation of geospatial models, initially applied to climate impacts. The Climate Impact Modelling Frameworks (CIMF) enables the deployment of modular workflows in a dynamic and flexible manner. Users can specify workflow components in a streamlined manner, these components can then be easily organised into different configurations to assess risk in different ways and at different scales. This also enables different models (physical simulation or machine learning models) and workflows to be connected to produce combined risk assessment. Flood modelling is used as an end-to-end example to demonstrate the operation of CIMF.
翻訳日:2022-09-27 17:08:47 公開日:2022-09-24
# エピジェネティック事象予測における深部マルチタスク学習のための高スケーラブルタスクグループ化

Highly Scalable Task Grouping for Deep Multi-Task Learning in Prediction of Epigenetic Events ( http://arxiv.org/abs/2209.11892v1 )

ライセンス: Link先を確認
Mohammad Shiri and Jiangwen Sun(参考訳) DNA配列から細胞イベントを予測するために訓練されたディープニューラルネットワークは、ゲノムワイド・アソシエーション研究で同定された関連に基づく生物学的メカニズムの解明に役立っている。 トレーニングを強化するために、MTL(Multi-task Learning)は、イベントのモダリティやセルタイプが異なる複数のプロファイルに対して、トレーニングされたネットワークを必要とする以前の研究で一般的に利用されている。 既存の作業はすべて、すべてのタスクが単一機能抽出ネットワークを共有するシンプルなMTLフレームワークを採用している。 このような戦略はある程度有効であっても、かなりの負の移動をもたらす。つまり、MTLによって得られたモデルが単一タスク学習によって得られるものよりも悪いタスクが存在することを意味する。 コンピュータビジョンなど他の領域での負の転送に対処する手法が開発されている。 しかし、これらの手法は一般に、大量のタスクを処理するためにスケールアップが困難である。 本稿では,互いに有益であるタスクを共同でトレーニングすることで,負の転送に対処する,高度にスケーラブルなタスクグループ化フレームワークを提案する。 提案手法は,全タスクのワンタイム共同訓練により安価に得られるタスク特定分類ヘッドに関連するネットワーク重みを活用できる。 367のエピジェネティックプロファイルからなるデータセットを用いた結果から,提案手法の有効性とベースライン法に対する優位性が示された。

Deep neural networks trained for predicting cellular events from DNA sequence have become emerging tools to help elucidate the biological mechanism underlying the associations identified in genome-wide association studies. To enhance the training, multi-task learning (MTL) has been commonly exploited in previous works where trained networks were needed for multiple profiles differing in either event modality or cell type. All existing works adopted a simple MTL framework where all tasks share a single feature extraction network. Such a strategy even though effective to certain extent leads to substantial negative transfer, meaning the existence of large portion of tasks for which models obtained through MTL perform worse than those by single task learning. There have been methods developed to address such negative transfer in other domains, such as computer vision. However, these methods are generally difficult to scale up to handle large amount of tasks. In this paper, we propose a highly scalable task grouping framework to address negative transfer by only jointly training tasks that are potentially beneficial to each other. The proposed method exploits the network weights associated with task specific classification heads that can be cheaply obtained by one-time joint training of all tasks. Our results using a dataset consisting of 367 epigenetic profiles demonstrate the effectiveness of the proposed approach and its superiority over baseline methods.
翻訳日:2022-09-27 16:50:56 公開日:2022-09-24
# インコンテキスト学習と誘導ヘッド

In-context Learning and Induction Heads ( http://arxiv.org/abs/2209.11895v1 )

ライセンス: Link先を確認
Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Dawn Drain, Deep Ganguli, Zac Hatfield-Dodds, Danny Hernandez, Scott Johnston, Andy Jones, Jackson Kernion, Liane Lovitt, Kamal Ndousse, Dario Amodei, Tom Brown, Jack Clark, Jared Kaplan, Sam McCandlish, Chris Olah(参考訳) インダクションヘッドは[A][B] ... [A] -> [B] のようなトークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。 本研究では,大きなトランスフォーマーモデル(トークン指標の増加に伴う損失の減少)において,帰納的頭部がすべての「文脈内学習」の大多数のメカニズムを構成するという仮説を予備的かつ間接的に提示する。 誘導頭部は, 訓練損失の増大として, テキスト内学習能力の急激な増加とともに, ほぼ同程度に発達することがわかった。 我々は6つの相補的なエビデンスを示し,任意の大きさの変圧器モデルにおいて誘導ヘッドが一般的な文脈学習の機械的源である可能性を論じた。 小さな注意のみのモデルでは、強い因果関係の証拠を示し、mlpを持つより大きなモデルでは相関関係の証拠を示す。

"Induction heads" are attention heads that implement a simple algorithm to complete token sequences like [A][B] ... [A] -> [B]. In this work, we present preliminary and indirect evidence for a hypothesis that induction heads might constitute the mechanism for the majority of all "in-context learning" in large transformer models (i.e. decreasing loss at increasing token indices). We find that induction heads develop at precisely the same point as a sudden sharp increase in in-context learning ability, visible as a bump in the training loss. We present six complementary lines of evidence, arguing that induction heads may be the mechanistic source of general in-context learning in transformer models of any size. For small attention-only models, we present strong, causal evidence; for larger models with MLPs, we present correlational evidence.
翻訳日:2022-09-27 16:50:33 公開日:2022-09-24
# DeepChrome 2.0: アーキテクチャ、可視化、実験の調査と改善

DeepChrome 2.0: Investigating and Improving Architectures, Visualizations, & Experiments ( http://arxiv.org/abs/2209.11923v1 )

ライセンス: Link先を確認
Saurav Kadavath, Samuel Paradis, Jacob Yeung(参考訳) ヒストン修飾は遺伝子調節において重要な役割を果たす。 したがって、ヒストン修飾シグナルから遺伝子発現を予測することはエピジェネティクスにおいて非常に動機づけられる問題である。 我々はSingh et al. (2016)によるDeepChromeの研究に基づいて、ヒストン修飾シグナルを遺伝子発現にマッピングする分類器を訓練した。 そこで本研究では,ヒストン修飾シグナルを生成するために,遺伝子制御のためのヒストン修飾因子の組合せ関係を可視化する新しい手法を提案する。 また,様々なアーキテクチャ変化を調査し比較した結果から,deepchromeの645kパラメータ畳み込みニューラルネットワークは12パラメータの線形ネットワークと同じ予測能力を持つことが示唆された。 異なるサイズ、細胞型、相関関係のデータセットを用いてモデルを訓練し、テストする細胞間予測実験の結果、ヒストン修飾信号と遺伝子発現の関係は細胞タイプに依存していることが示唆された。 我々は、deepchromeのpytorchの再実装をgithub上でリリースした。 \parfillskip=0pt である。

Histone modifications play a critical role in gene regulation. Consequently, predicting gene expression from histone modification signals is a highly motivated problem in epigenetics. We build upon the work of DeepChrome by Singh et al. (2016), who trained classifiers that map histone modification signals to gene expression. We present a novel visualization technique for providing insight into combinatorial relationships among histone modifications for gene regulation that uses a generative adversarial network to generate histone modification signals. We also explore and compare various architectural changes, with results suggesting that the 645k-parameter convolutional neural network from DeepChrome has the same predictive power as a 12-parameter linear network. Results from cross-cell prediction experiments, where the model is trained and tested on datasets of varying sizes, cell-types, and correlations, suggest the relationship between histone modification signals and gene expression is independent of cell type. We release our PyTorch re-implementation of DeepChrome on GitHub \footnote{\url{github.com/ssss1029/gene_expression_294}}.\parfillskip=0pt
翻訳日:2022-09-27 16:50:18 公開日:2022-09-24
# 対話要約のためのシーケンス長に着目した検討

A Focused Study on Sequence Length for Dialogue Summarization ( http://arxiv.org/abs/2209.11910v1 )

ライセンス: Link先を確認
Bin Wang, Chen Zhang, Chengwei Wei, Haizhou Li(参考訳) 対話要約システムでは出力長が重要となる。 対話要約長は、対話の複雑さ、要約目的、個人の好みなど、複数の要因によって決定される。 本研究では,3つの視点から対話要約長にアプローチする。 まず、既存のモデルの出力とそれに対応する人間の参照の長さの差を分析し、その事前学習目的のため、要約モデルはより冗長な要約を生成する傾向にあることを示す。 次に,異なるモデル設定を比較することで,要約長予測のための有能な特徴を同定する。 第3に,要約長を十分に組み込むことができれば,既存のモデルに顕著な改善がもたらされることを示す。 解析と実験はDialogSumとSAMSumのデータセットを用いて行われ、その結果を検証した。

Output length is critical to dialogue summarization systems. The dialogue summary length is determined by multiple factors, including dialogue complexity, summary objective, and personal preferences. In this work, we approach dialogue summary length from three perspectives. First, we analyze the length differences between existing models' outputs and the corresponding human references and find that summarization models tend to produce more verbose summaries due to their pretraining objectives. Second, we identify salient features for summary length prediction by comparing different model settings. Third, we experiment with a length-aware summarizer and show notable improvement on existing models if summary length can be well incorporated. Analysis and experiments are conducted on popular DialogSum and SAMSum datasets to validate our findings.
翻訳日:2022-09-27 16:41:43 公開日:2022-09-24
# StackOverflowの議論でトランスフォーマーモデルはソフトウェア側面を効果的に検出できるか?

Can Transformer Models Effectively Detect Software Aspects in StackOverflow Discussion? ( http://arxiv.org/abs/2209.12065v1 )

ライセンス: Link先を確認
Nibir Chandra Mandal, Tashreef Muhammad and G. M. Shahariar(参考訳) 開発者を支援するために、数多くの新しいツールや技術が組み込まれています。 例えば、webアプリケーションの開発には、少なくとも10のフレームワークが利用可能で、ニーズに合致した最適なフレームワークを選択する上での混乱を招いている。 その結果、開発者は、各API、フレームワーク、ツールなど、すべてのメリットと欠点を継続的に探している。 典型的なアプローチの1つは、公式ドキュメンテーションと議論を通じてすべての機能を調べることである。 このアプローチは時間を要するため、特定の開発者にとってどのアスペクトが最も重要なのか、コミュニティ全体にとって特定のアスペクトが重要であるかどうかを判断することが難しいことが多い。 本稿では,StackOverflowの投稿から収集したベンチマークAPIアスペクトデータセット(Opiner)を用いて,Transformerモデル(BERT,RoBERTa,DistilBERT,XLNet)が,ベースラインサポートベクタマシン(SVM)モデルに関するテキスト開発者ディスカッションにおいて,ソフトウェアアスペクトの検出にどのように機能するかを観察した。 広範な実験を通じて、トランスフォーマーモデルがベースラインsvmの性能、すなわち `performance', `security', `usability', `documentation', `bug', `legal', `onlysentiment', `others' といった多くの側面において改善できることが判明した。 しかし、モデルはいくつかの側面(例えば、'Community' や 'Potability' など)を認識できず、その性能は側面によって異なる。 また、XLNetのような大きなアーキテクチャは、DistilBERTのような小さなアーキテクチャと比べてソフトウェア側面の解釈に効果がない。

Dozens of new tools and technologies are being incorporated to help developers, which is becoming a source of consternation as they struggle to choose one over the others. For example, there are at least ten frameworks available to developers for developing web applications, posing a conundrum in selecting the best one that meets their needs. As a result, developers are continuously searching for all of the benefits and drawbacks of each API, framework, tool, and so on. One of the typical approaches is to examine all of the features through official documentation and discussion. This approach is time-consuming, often makes it difficult to determine which aspects are the most important to a particular developer and whether a particular aspect is important to the community at large. In this paper, we have used a benchmark API aspects dataset (Opiner) collected from StackOverflow posts and observed how Transformer models (BERT, RoBERTa, DistilBERT, and XLNet) perform in detecting software aspects in textual developer discussion with respect to the baseline Support Vector Machine (SVM) model. Through extensive experimentation, we have found that transformer models improve the performance of baseline SVM for most of the aspects, i.e., `Performance', `Security', `Usability', `Documentation', `Bug', `Legal', `OnlySentiment', and `Others'. However, the models fail to apprehend some of the aspects (e.g., `Community' and `Potability') and their performance varies depending on the aspects. Also, larger architectures like XLNet are ineffective in interpreting software aspects compared to smaller architectures like DistilBERT.
翻訳日:2022-09-27 16:41:34 公開日:2022-09-24
# 意図しない行動予測のための自己指導型学習

Self-supervised Learning for Unintentional Action Prediction ( http://arxiv.org/abs/2209.12074v1 )

ライセンス: Link先を確認
Olga Zatsarynna, Yazan Abu Farha, Juergen Gall(参考訳) アクションが意図したように実行されるか、意図したアクションが失敗したかの区別は、人間が持っているだけでなく、人間の環境で動作するインテリジェントなシステムにとっても重要なスキルである。 しかし、アクションが意図しないかどうか、あるいはアクションが失敗するかどうかを予測することは、アノテーション付きデータがないため、簡単ではない。 意図しない行動や失敗した行動のビデオはインターネットで豊富に見ることができるが、高いアノテーションコストはこれらのタスクの学習ネットワークにとって大きなボトルネックである。 本研究では,意図しない行動予測のための自己指導型表現学習の課題について検討する。 先行研究は,局所的な時間的近傍に基づく表現を学習する一方で,映像のグローバルコンテキストは,意図しない動作分類,局所化,予測という3つの下流課題の適切な表現を学習するために必要であることを示す。 補足資料では,ビデオ中の異常を検出するために,学習した表現を使用できることを示す。

Distinguishing if an action is performed as intended or if an intended action fails is an important skill that not only humans have, but that is also important for intelligent systems that operate in human environments. Recognizing if an action is unintentional or anticipating if an action will fail, however, is not straightforward due to lack of annotated data. While videos of unintentional or failed actions can be found in the Internet in abundance, high annotation costs are a major bottleneck for learning networks for these tasks. In this work, we thus study the problem of self-supervised representation learning for unintentional action prediction. While previous works learn the representation based on a local temporal neighborhood, we show that the global context of a video is needed to learn a good representation for the three downstream tasks: unintentional action classification, localization and anticipation. In the supplementary material, we show that the learned representation can be used for detecting anomalies in videos as well.
翻訳日:2022-09-27 16:17:06 公開日:2022-09-24
# 軌道マッピングによる不変性予測のための簡易戦略

A Simple Strategy to Provable Invariance via Orbit Mapping ( http://arxiv.org/abs/2209.11916v1 )

ライセンス: Link先を確認
Kanchana Vaishnavi Gandikota, Jonas Geiping, Zorah L\"ahner, Adam Czapli\'nski, Michael Moeller(参考訳) 多くのアプリケーションは、入力データの特定の変換に対するニューラルネットワークの堅牢性、あるいは理想的不変性を必要とする。 最も一般的に、この要件は、データ拡張のトレーニング、敵のトレーニングの使用、あるいは設計による望ましい不変性を含むネットワークアーキテクチャの定義によって対処される。 本研究では,固定基準に基づく(連続的な)軌道から1つの要素を選択することにより,グループ動作に関してネットワークアーキテクチャを即時不変にする方法を提案する。 簡単に言えば、実際のネットワークにデータを送る前に、可能なトランスフォーメーションを“無効化”するつもりです。 さらに,学習やアーキテクチャを通じて不変性を取り入れた異なるアプローチの特性を実証的に解析し,ロバスト性や計算効率の観点から,本手法の利点を実証する。 特に,画像の回転(離散化アーティファクトまで保持できる)に対するロバスト性,および3Dポイントクラウド分類の証明可能な配向とスケール不変性について検討する。

Many applications require robustness, or ideally invariance, of neural networks to certain transformations of input data. Most commonly, this requirement is addressed by training data augmentation, using adversarial training, or defining network architectures that include the desired invariance by design. In this work, we propose a method to make network architectures provably invariant with respect to group actions by choosing one element from a (possibly continuous) orbit based on a fixed criterion. In a nutshell, we intend to 'undo' any possible transformation before feeding the data into the actual network. Further, we empirically analyze the properties of different approaches which incorporate invariance via training or architecture, and demonstrate the advantages of our method in terms of robustness and computational efficiency. In particular, we investigate the robustness with respect to rotations of images (which can hold up to discretization artifacts) as well as the provable orientation and scaling invariance of 3D point cloud classification.
翻訳日:2022-09-27 16:07:33 公開日:2022-09-24
# コンストラッシブ補完生成による複数不完全視点からの自己監督画像クラスタリング

Self-supervised Image Clustering from Multiple Incomplete Views via Constrastive Complementary Generation ( http://arxiv.org/abs/2209.11927v1 )

ライセンス: Link先を確認
Jiatai Wang, Zhiwei Xu, Xuewen Yang, Dongjin Guo, Limin Liu(参考訳) 不完全なマルチビュークラスタリングは、複数のモードのデータを使用することでクラスタリングのパフォーマンスを向上させることを目的としている。 この問題を研究するためのいくつかのアプローチが提案されているが、以下の欠点は残っている。 1)ラベル情報を使わずに相補的かつ一貫性のある潜在表現を学習することは困難である。 したがって、不完全なデータで隠れた情報をフルに活用できないため、完全なデータが不足している場合、サブオプティマイズなクラスタリングのパフォーマンスが向上する。 本稿では,GANを用いて不完全データを補完し,コントラスト学習を用いて完全かつ不完全なデータの一貫性を学習するコントラスト非完全多視点画像クラスタリング(CIMIC-GAN)を提案する。 具体的には,複数のモーダル間の多様性と相補的情報を考慮し,完全および不完全データの自己エンコード表現を二重コントラスト学習に組み込んで学習一貫性を実現する。 自動エンコーディングプロセスへのganの統合は、不完全なデータの新機能をフルに活用するだけでなく、高いデータ欠落率が存在する場合にモデルをより一般化することができる。 CIMIC-GANは最先端の非完全なマルチビュークラスタリング手法より優れていることを示す。

Incomplete Multi-View Clustering aims to enhance clustering performance by using data from multiple modalities. Despite the fact that several approaches for studying this issue have been proposed, the following drawbacks still persist: 1) It's difficult to learn latent representations that account for complementarity yet consistency without using label information; 2) and thus fails to take full advantage of the hidden information in incomplete data results in suboptimal clustering performance when complete data is scarce. In this paper, we propose Contrastive Incomplete Multi-View Image Clustering with Generative Adversarial Networks (CIMIC-GAN), which uses GAN to fill in incomplete data and uses double contrastive learning to learn consistency on complete and incomplete data. More specifically, considering diversity and complementary information among multiple modalities, we incorporate autoencoding representation of complete and incomplete data into double contrastive learning to achieve learning consistency. Integrating GANs into the autoencoding process can not only take full advantage of new features of incomplete data, but also better generalize the model in the presence of high data missing rates. Experiments conducted on \textcolor{black}{four} extensively-used datasets show that CIMIC-GAN outperforms state-of-the-art incomplete multi-View clustering methods.
翻訳日:2022-09-27 16:07:17 公開日:2022-09-24
# groundのナビゲート:動的シーンにおける言語誘導ナビゲーション

Ground then Navigate: Language-guided Navigation in Dynamic Scenes ( http://arxiv.org/abs/2209.11972v1 )

ライセンス: Link先を確認
Kanishk Jain, Varun Chhangani, Amogh Tiwari, K. Madhava Krishna and Vineet Gandhi(参考訳) 屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。 テキストコマンドに対応するナビゲート可能な領域を明示的に接地することにより,この問題を解決する。 各タイムスタンプにおいて、モデルは中間または最終航行可能な領域に対応するセグメンテーションマスクを予測する。 我々の研究は、環境に対応する離散連結グラフが与えられたとき、ノード選択問題としてこのタスクを行うVLNの既存の取り組みとは対照的である。 このような不明瞭な地図が利用できるとは考えていない。 我々の研究は、アクション空間における連続性に向けて進み、視覚的フィードバックを通じて解釈可能性を提供し、VLNが「2台の車の間の駐車」のような細かな操作を必要とするコマンドに対して許可する。 さらに,効率的なトレーニングと検証が可能なメタデータセットCARLA-NAVを提案する。 データセットは、予め記録されたトレーニングシーケンスと、バリデーションとテストのためのライブ環境とを含む。 提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。

We investigate the Vision-and-Language Navigation (VLN) problem in the context of autonomous driving in outdoor settings. We solve the problem by explicitly grounding the navigable regions corresponding to the textual command. At each timestamp, the model predicts a segmentation mask corresponding to the intermediate or the final navigable region. Our work contrasts with existing efforts in VLN, which pose this task as a node selection problem, given a discrete connected graph corresponding to the environment. We do not assume the availability of such a discretised map. Our work moves towards continuity in action space, provides interpretability through visual feedback and allows VLN on commands requiring finer manoeuvres like "park between the two cars". Furthermore, we propose a novel meta-dataset CARLA-NAV to allow efficient training and validation. The dataset comprises pre-recorded training sequences and a live environment for validation and testing. We provide extensive qualitative and quantitive empirical results to validate the efficacy of the proposed approach.
翻訳日:2022-09-27 16:06:56 公開日:2022-09-24
# 視覚推論のためのディープニューラルネットワーク

Deep Neural Networks for Visual Reasoning ( http://arxiv.org/abs/2209.11990v1 )

ライセンス: Link先を確認
Thao Minh Le(参考訳) 視覚知覚と言語理解は、人間の知性の基本要素であり、物体とその相互作用について理解し、推論することができる。 ロボットと人間のコラボレーティブシステムを開発するためには、この2つのモダリティを推論する能力を持つことが重要です。 近年のディープラーニングの進歩は、視覚シーンと言語の両方の洗練された表現を構築している。 しかし、マルチモーダル推論の共用文脈における2つのモダリティ間の関連を理解することは依然として困難である。 言語と視覚のモダリティに焦点をあてたこの論文は、推論をサポートするために、ニューラルネットワークを用いた視覚・言語タスクの重要側面の活用と活用方法の理解を深めている。 私たちはこれらの理解を一連の作品から導き、2倍の貢献をする。 (i)言語的問合せに応答し、推論過程に十分な知識を準備する際に、動的視覚シーンからコンテンツ選択と時間関係の構築に有効なメカニズム (ii)視覚言語関連を利用してニューラルネットワークで推論を行うための新しいフレームワークは、直接データから導かれるか、外部の優先順位によって導かれるかのいずれかである。

Visual perception and language understanding are - fundamental components of human intelligence, enabling them to understand and reason about objects and their interactions. It is crucial for machines to have this capacity to reason using these two modalities to invent new robot-human collaborative systems. Recent advances in deep learning have built separate sophisticated representations of both visual scenes and languages. However, understanding the associations between the two modalities in a shared context for multimodal reasoning remains a challenge. Focusing on language and vision modalities, this thesis advances the understanding of how to exploit and use pivotal aspects of vision-and-language tasks with neural networks to support reasoning. We derive these understandings from a series of works, making a two-fold contribution: (i) effective mechanisms for content selection and construction of temporal relations from dynamic visual scenes in response to a linguistic query and preparing adequate knowledge for the reasoning process (ii) new frameworks to perform reasoning with neural networks by exploiting visual-linguistic associations, deduced either directly from data or guided by external priors.
翻訳日:2022-09-27 16:06:42 公開日:2022-09-24
# 野生の点雲列からのハンドオブジェクトインタラクションの追跡と再構成

Tracking and Reconstructing Hand Object Interactions from Point Cloud Sequences in the Wild ( http://arxiv.org/abs/2209.12009v1 )

ライセンス: Link先を確認
Jiayi Chen, Mi Yan, Jiazhao Zhang, Yinzhen Xu, Xiaolong Li, Yijia Weng, Li Yi, Shuran Song, He Wang(参考訳) 本研究は, フレーム0における初期ポーズを考慮し, 対象のポーズを共同で追跡し, 野生の深度点雲列から形状を再構築する課題に取り組む。 我々は初めて、フレーム間ハンドジョイント動作を推定するために、ポイントクラウドベースのハンドジョイントトラッキングネットワークであるHandTrackNetを提案する。 我々のHandTrackNetは、トラッキング作業を容易にし、正確で堅牢なハンドジョイントトラッキングを実現するために、新しい手ポーズ標準化モジュールを提案する。 このパイプラインは,予測ハンドジョイントをテンプレートベースパラメトリックハンドモデルMANOに変換することで,全ハンドを再構築する。 オブジェクトトラッキングでは,オブジェクトSDFを第1フレームから推定し,最適化に基づくトラッキングを行う,シンプルで効果的なモジュールを考案する。 最後に、結合最適化ステップを採用して、結合手と物体の推論を行い、閉塞によるあいまいさを軽減し、さらに手ポーズを洗練させる。 訓練中、パイプライン全体は純粋に合成されたデータしか見えず、それらは十分なバリエーションと一般化の容易さのために深さシミュレーションによって合成される。 パイプライン全体は一般化ギャップに関係しており、したがって実際の内蔵データに直接転送可能である。 本稿では,ho3d と dexycb の2つの実ハンドオブジェクトインタラクションデータセットについて,微調整を行わずに評価を行う。 提案手法は,9FPSのフレームレートで動作することにより,従来の最先端の深度に基づく手とオブジェクトのポーズ推定・追跡手法を著しく上回ることを示す。

In this work, we tackle the challenging task of jointly tracking hand object pose and reconstructing their shapes from depth point cloud sequences in the wild, given the initial poses at frame 0. We for the first time propose a point cloud based hand joint tracking network, HandTrackNet, to estimate the inter-frame hand joint motion. Our HandTrackNet proposes a novel hand pose canonicalization module to ease the tracking task, yielding accurate and robust hand joint tracking. Our pipeline then reconstructs the full hand via converting the predicted hand joints into a template-based parametric hand model MANO. For object tracking, we devise a simple yet effective module that estimates the object SDF from the first frame and performs optimization-based tracking. Finally, a joint optimization step is adopted to perform joint hand and object reasoning, which alleviates the occlusion-induced ambiguity and further refines the hand pose. During training, the whole pipeline only sees purely synthetic data, which are synthesized with sufficient variations and by depth simulation for the ease of generalization. The whole pipeline is pertinent to the generalization gaps and thus directly transferable to real in-the-wild data. We evaluate our method on two real hand object interaction datasets, e.g. HO3D and DexYCB, without any finetuning. Our experiments demonstrate that the proposed method significantly outperforms the previous state-of-the-art depth-based hand and object pose estimation and tracking methods, running at a frame rate of 9 FPS.
翻訳日:2022-09-27 16:06:25 公開日:2022-09-24
# 説明可能な3Dグラウンドのビジュアル質問回答に向けて:新しいベンチマークと強力なベースライン

Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline ( http://arxiv.org/abs/2209.12028v1 )

ライセンス: Link先を確認
Lichen Zhao, Daigang Cai, Jing Zhang, Lu Sheng, Dong Xu, Rui Zheng, Yinjie Zhao, Lipeng Wang and Xibo Fan(参考訳) 近年,3次元視覚言語タスクが研究の関心を集めている。 他の視覚・言語タスクと比較すると、3D視覚的質問応答(VQA)タスクは利用されにくく、言語優先や相互参照の曖昧さに敏感である。 一方、最近提案された2つの3D VQAデータセットは、3D VQAタスクをうまくサポートしていない。 FE-3DGQAと呼ばれる新しい3次元VQAデータセットを,多種多様で比較的自由な質問応答対と,密集した完全に接地された境界ボックスアノテーションで収集することにより,VQAタスクを正式に定義し,対処する。 より説明可能な回答を得るために、我々は、解答接地オブジェクト(問答接地オブジェクト)と解答接地オブジェクトのコンテキストオブジェクトを含む、異なる意味型を持つ複雑なQAペアに現れるオブジェクトをラベル付けした。 また,完全視覚的かつ説明可能な答えを効果的に予測する新しい3次元VQAフレームワークを提案する。 大規模な実験により,新たに収集したベンチマークデータセットが,さまざまな側面から様々な3D VQAメソッドを評価するのに有効であることが確認された。 新たに収集したデータセットと私たちのコードは、http://github.com/zlccccc/3dgqaで公開されます。

Recently, 3D vision-and-language tasks have attracted increasing research interest. Compared to other vision-and-language tasks, the 3D visual question answering (VQA) task is less exploited and is more susceptible to language priors and co-reference ambiguity. Meanwhile, a couple of recently proposed 3D VQA datasets do not well support 3D VQA task due to their limited scale and annotation methods. In this work, we formally define and address a 3D grounded VQA task by collecting a new 3D VQA dataset, referred to as FE-3DGQA, with diverse and relatively free-form question-answer pairs, as well as dense and completely grounded bounding box annotations. To achieve more explainable answers, we labelled the objects appeared in the complex QA pairs with different semantic types, including answer-grounded objects (both appeared and not appeared in the questions), and contextual objects for answer-grounded objects. We also propose a new 3D VQA framework to effectively predict the completely visually grounded and explainable answer. Extensive experiments verify that our newly collected benchmark datasets can be effectively used to evaluate various 3D VQA methods from different aspects and our newly proposed framework also achieves state-of-the-art performance on the new benchmark dataset. Both the newly collected dataset and our codes will be publicly available at http://github.com/zlccccc/3DGQA.
翻訳日:2022-09-27 16:05:58 公開日:2022-09-24
# 自己教師あり学習による制御可能な顔操作とuvマップ生成

Controllable Face Manipulation and UV Map Generation by Self-supervised Learning ( http://arxiv.org/abs/2209.12050v1 )

ライセンス: Link先を確認
Yuanming Li, Jeong-gi Kwak, David Han, Hanseok Ko(参考訳) 近年,gans(generative adversarial network)による顔属性の操作は著しく成功したが,ポーズ,表情,照明などの特徴の明示的な制御には課題がある。 近年の手法は2次元生成モデルと3DMMを組み合わせることで2次元画像の明示的な制御を実現する。 しかし、3DMMによるテクスチャ再構築における現実性と明瞭さの欠如により、合成画像と3DMMのレンダリング画像との間には領域ギャップがある。 レンダリングされた3DMM画像は背景のない顔領域を含むため、これらの2つの領域間の損失を直接計算することは理想的ではなく、結果として訓練されたモデルにバイアスがかかる。 本研究では,3DMMのパラメータを制御して,事前学習したStyleGANの潜在空間を明示的に編集することを提案する。 ドメインギャップ問題に対処するために,「マップと編集」と呼ばれるnovalネットワークと,レンダリング画像と合成画像間の直接損失計算を回避するための単純かつ効果的な属性編集手法を提案する。 また,同一性を維持しつつ,複数視点の顔画像を正確に生成することができる。 視認性マスクと組み合わせた副産物として,提案モデルはテクスチャリッチで高解像度なUV顔テクスチャを生成できる。 我々のモデルは事前訓練されたStyleGANに依存しており、提案モデルは手動のアノテーションやデータセットを使わずに自己指導的な方法で訓練される。

Although manipulating facial attributes by Generative Adversarial Networks (GANs) has been remarkably successful recently, there are still some challenges in explicit control of features such as pose, expression, lighting, etc. Recent methods achieve explicit control over 2D images by combining 2D generative model and 3DMM. However, due to the lack of realism and clarity in texture reconstruction by 3DMM, there is a domain gap between the synthetic image and the rendered image of 3DMM. Since rendered 3DMM images contain facial region only without the background, directly computing the loss between these two domains is not ideal and the resultant trained model will be biased. In this study, we propose to explicitly edit the latent space of the pretrained StyleGAN by controlling the parameters of the 3DMM. To address the domain gap problem, we propose a noval network called 'Map and edit' and a simple but effective attribute editing method to avoid direct loss computation between rendered and synthesized images. Furthermore, since our model can accurately generate multi-view face images while the identity remains unchanged. As a by-product, combined with visibility masks, our proposed model can also generate texture-rich and high-resolution UV facial textures. Our model relies on pretrained StyleGAN, and the proposed model is trained in a self-supervised manner without any manual annotations or datasets.
翻訳日:2022-09-27 16:05:31 公開日:2022-09-24
# ゼロショット動作認識のためのグローバルセマンティック記述子

Global Semantic Descriptors for Zero-Shot Action Recognition ( http://arxiv.org/abs/2209.12061v1 )

ライセンス: Link先を確認
Valter Estevam, Rayson Laroca, Helio Pedrini, David Menotti(参考訳) Zero-shot Action Recognition (ZSAR)法の成功は、知識の伝達に使用される意味的側情報の性質と本質的に関係している。 本研究では,行動オブジェクトと行動記述文の関係に基づく新しいZSAR手法を提案する。 記述文を用いてすべてのオブジェクトクラスを表現することで,パラフレーゼ推定法を埋め込み器として使用する場合,正確なオブジェクト・アクション親和性推定が得られることを示す。 また, 厳密なラベル付けを伴わない文の集合のみに基づいて, 行動クラスに対して確率を推定する方法を示す。 本手法では,この2つの大域的分類器(ビデオ全体から計算した特徴を利用する)の確率を組み合わせ,行動分類のための効率的な伝達知識モデルを作成する。 我々の結果はKinetics-400データセットの最先端技術であり、ZSAR評価の下ではUCF-101と競合する。 私たちのコードはhttps://github.com/valterlej/objsentzsarで利用可能です。

The success of Zero-shot Action Recognition (ZSAR) methods is intrinsically related to the nature of semantic side information used to transfer knowledge, although this aspect has not been primarily investigated in the literature. This work introduces a new ZSAR method based on the relationships of actions-objects and actions-descriptive sentences. We demonstrate that representing all object classes using descriptive sentences generates an accurate object-action affinity estimation when a paraphrase estimation method is used as an embedder. We also show how to estimate probabilities over the set of action classes based only on a set of sentences without hard human labeling. In our method, the probabilities from these two global classifiers (i.e., which use features computed over the entire video) are combined, producing an efficient transfer knowledge model for action classification. Our results are state-of-the-art in the Kinetics-400 dataset and are competitive on UCF-101 under the ZSAR evaluation. Our code is available at https://github.com/valterlej/objsentzsar
翻訳日:2022-09-27 16:05:06 公開日:2022-09-24
# 確率微分方程式を用いた顔超解法

Face Super-Resolution Using Stochastic Differential Equations ( http://arxiv.org/abs/2209.12064v1 )

ライセンス: Link先を確認
Marcelo dos Santos, Rayson Laroca, Rafael O. Ribeiro, Jo\~ao Neves, Hugo Proen\c{c}a, David Menotti(参考訳) 拡散モデルは画像、オーディオ、グラフ生成など様々な用途に有効であることが証明されている。 その他の重要な応用として、画像超解法や逆問題の解がある。 最近では、確率微分方程式(SDE)を用いて拡散モデルを連続時間に一般化する研究もある。 本稿では,超高解像度顔画像を生成するためのSDEを紹介する。 私たちの知る限りでは、このようなアプリケーションにSDEが使われるのはこれが初めてです。 提案手法は,改良されたピーク信号対雑音比(PSNR),構造類似度指数測定(SSIM),拡散モデルに基づく既存の超解像法よりも整合性を示す。 特に,この手法の顔認識タスクへの応用の可能性についても検討する。 超解像度画像と基底真理を比較するために汎用的な顔特徴抽出器を用い、他の方法と比較して優れた結果を得た。 私たちのコードはhttps://github.com/marcelowds/sr-sdeで公開されています。

Diffusion models have proven effective for various applications such as images, audio and graph generation. Other important applications are image super-resolution and the solution of inverse problems. More recently, some works have used stochastic differential equations (SDEs) to generalize diffusion models to continuous time. In this work, we introduce SDEs to generate super-resolution face images. To the best of our knowledge, this is the first time SDEs have been used for such an application. The proposed method provides an improved peak signal-to-noise ratio (PSNR), structural similarity index measure (SSIM), and consistency than the existing super-resolution methods based on diffusion models. In particular, we also assess the potential application of this method for the face recognition task. A generic facial feature extractor is used to compare the super-resolution images with the ground truth and superior results were obtained compared with other methods. Our code is publicly available at https://github.com/marcelowds/sr-sde
翻訳日:2022-09-27 16:04:50 公開日:2022-09-24
# 神経形態的統合センシングとコミュニケーション

Neuromorphic Integrated Sensing and Communications ( http://arxiv.org/abs/2209.11891v1 )

ライセンス: Link先を確認
Jiechen Chen, Nicolas Skatchkovsky, and Osvaldo Simeone(参考訳) ニューロモルフィックコンピューティングは、効率的なオンライン推論や制御を必要とするアプリケーションのためのイベント駆動データ処理をサポートする新興技術である。 最近の研究はニューロモルフィック通信の概念を導入し、ニューロモルフィックコンピューティングはインパルスラジオ(IR)伝送と統合され、無線IoTネットワークにおける低エネルギーかつ低レイテンシなリモート推論を実装している。 本稿では,ニューロモルフィック統合センシングと通信(N-ISAC)を導入し,効率的なオンラインデータデコーディングとレーダセンシングを実現する。 N-ISACは、デジタル情報を伝達し、レーダーターゲットの有無を検出するために共通のIR波形を利用する。 受信機にスパイキングニューラルネットワーク(SNN)を配置し、デジタルデータを復号し、受信した信号から直接レーダーターゲットを検出する。 SNN操作は、データ通信とレーダセンシングのパフォーマンス指標のバランスをとることで最適化され、2つのアプリケーション間の相乗効果とトレードオフが強調される。

Neuromorphic computing is an emerging technology that support event-driven data processing for applications requiring efficient online inference and/or control. Recent work has introduced the concept of neuromorphic communications, whereby neuromorphic computing is integrated with impulse radio (IR) transmission to implement low-energy and low-latency remote inference in wireless IoT networks. In this paper, we introduce neuromorphic integrated sensing and communications (N-ISAC), a novel solution that enables efficient online data decoding and radar sensing. N-ISAC leverages a common IR waveform for the dual purpose of conveying digital information and of detecting the presence or absence of a radar target. A spiking neural network (SNN) is deployed at the receiver to decode digital data and detect the radar target using directly the received signal. The SNN operation is optimized by balancing performance metric for data communications and radar sensing, highlighting synergies and trade-offs between the two applications.
翻訳日:2022-09-27 15:58:39 公開日:2022-09-24
# 問題を学ぶ - タスク関連埋め込みによるクロスドメイン模倣学習

Learn what matters: cross-domain imitation learning with task-relevant embeddings ( http://arxiv.org/abs/2209.12093v1 )

ライセンス: Link先を確認
Tim Franzmeyer, Philip H. S. Torr, Jo\~ao F. Henriques(参考訳) 自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。 このようなドメイン間の模倣学習は、例えば人間の専門家のデモンストレーションから人工エージェントを訓練するために必要である。 我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスせずにドメイン間模倣学習を可能にするスケーラブルなフレームワークを提案する。 我々は,学習者の政策を共同で訓練し,学習者と専門家のドメイン間の対応関係を学習する。 本稿では,タスク関連情報を含む,ドメイン固有値に不変な専門家の状態空間の埋め込みを見つけるために,相互情報規準を用いることにより,これを実現する。 このステップは、学習者とエキスパートドメイン間のマッピングを著しく単純化し、エンドツーエンドの学習を促進する。 我々は、追加のデモンストレーションや他の方法が失敗する状況など、余分な監督なしに、かなり異なるドメイン間でポリシーの転送に成功したことを実証する。

We study how an autonomous agent learns to perform a task from demonstrations in a different domain, such as a different environment or different agent. Such cross-domain imitation learning is required to, for example, train an artificial agent from demonstrations of a human expert. We propose a scalable framework that enables cross-domain imitation learning without access to additional demonstrations or further domain knowledge. We jointly train the learner agent's policy and learn a mapping between the learner and expert domains with adversarial training. We effect this by using a mutual information criterion to find an embedding of the expert's state space that contains task-relevant information and is invariant to domain specifics. This step significantly simplifies estimating the mapping between the learner and expert domains and hence facilitates end-to-end learning. We demonstrate successful transfer of policies between considerably different domains, without extra supervision such as additional demonstrations, and in situations where other methods fail.
翻訳日:2022-09-27 15:57:49 公開日:2022-09-24
# 道徳的模倣: 大きな言語モデルは、政治的アイデンティティに合わせた道徳的合理化を生み出す

Moral Mimicry: Large Language Models Produce Moral Rationalizations Tailored to Political Identity ( http://arxiv.org/abs/2209.12106v1 )

ライセンス: Link先を確認
Gabriel Simmons(参考訳) 大規模言語モデル(llm)は最近、フルーエントテキストを生成する素晴らしい能力を示している。 LLMはまた、例えば、性別と職業、人種、犯罪行動のステレオタイプ的関連など、社会的偏見を再現する危険な傾向を示した。 人種や性別と同様に、道徳は重要な社会的変数であり、我々の道徳バイアスは、他人とその議論の受け取り方に影響する。 LLMの明らかな道徳的能力は、人間の社会環境への影響において重要な役割を果たすものと期待する。 本研究は、LLMが政治的グループに関連する道徳的偏見を再現するかどうかを考察する。 私はこの仮説をトランスフォーマーアーキテクチャに基づく175bパラメータ言語モデルgpt-3で検討し、モラル基礎理論のツールを用いて、リベラルで保守的な政治的アイデンティティを導くモデルによって生成されたテキストのモラル内容を測定する。 その結果,大規模言語モデルは確かに道徳的模倣であり,政治的アイデンティティによって GPT-3 はそれに対応する道徳的バイアスを反映したテキストを生成することがわかった。 道徳的模倣は、道徳的リフレーミングを通じて社会集団間の理解を促進するのに寄与する。 さらに心配なのは、偏光的な見方を強化し、既存の社会的課題を悪化させることだ。 この取り組みは、社会的利益にどのように活用し、リスクを最小限に抑えるかなど、道徳的模倣能力のさらなる調査を促進することを願っています。

Large Language Models (LLMs) have recently demonstrated impressive capability in generating fluent text. LLMs have also shown an alarming tendency to reproduce social biases, for example stereotypical associations between gender and occupation or race and criminal behavior. Like race and gender, morality is an important social variable; our moral biases affect how we receive other people and their arguments. I anticipate that the apparent moral capabilities of LLMs will play an important role in their effects on the human social environment. This work investigates whether LLMs reproduce the moral biases associated with political groups, a capability I refer to as moral mimicry. I explore this hypothesis in GPT-3, a 175B-parameter language model based on the Transformer architecture, using tools from Moral Foundations Theory to measure the moral content in text generated by the model following prompting with liberal and conservative political identities. The results demonstrate that large language models are indeed moral mimics; when prompted with a political identity, GPT-3 generates text reflecting the corresponding moral biases. Moral mimicry could contribute to fostering understanding between social groups via moral reframing. Worryingly, it could also reinforce polarized views, exacerbating existing social challenges. I hope that this work encourages further investigation of the moral mimicry capability, including how to leverage it for social good and minimize its risks.
翻訳日:2022-09-27 15:49:27 公開日:2022-09-24
# マンダリンにおける量化器の使用の理解

Understanding the Use of Quantifiers in Mandarin ( http://arxiv.org/abs/2209.11977v1 )

ライセンス: Link先を確認
Guanyi Chen, Kees van Deemter(参考訳) 本稿では,数量化表現が顕著に表されるマンダリンの短文コーパスを紹介する。 東アジア語話者は、例えば西ヨーロッパ語話者よりも簡潔に話す傾向があるが、情報に乏しいという仮説(huang's "coolness" 仮説として知られる)を検証し、コーパスの意義を説明する。 コーパスは、参加者に抽象的な視覚シーンを記述するよう依頼された説明実験の結果である。 MQTUNAと呼ばれる結果のコーパスと、同じ実験パラダイムを用いて収集した英コーパスを比較した。 比較の結果、数量化器のいくつかの側面が上記の仮説を支持していることが明らかになった。 これらの発見が量化名詞句の生成に与える影響を論じる。

We introduce a corpus of short texts in Mandarin, in which quantified expressions figure prominently. We illustrate the significance of the corpus by examining the hypothesis (known as Huang's "coolness" hypothesis) that speakers of East Asian Languages tend to speak more briefly but less informatively than, for example, speakers of West-European languages. The corpus results from an elicitation experiment in which participants were asked to describe abstract visual scenes. We compare the resulting corpus, called MQTUNA, with an English corpus that was collected using the same experimental paradigm. The comparison reveals that some, though not all, aspects of quantifier use support the above-mentioned hypothesis. Implications of these findings for the generation of quantified noun phrases are discussed.
翻訳日:2022-09-27 15:38:25 公開日:2022-09-24
# 死者か殺人か? フェミサイドニュースレポートにおける責任感の予測

Dead or Murdered? Predicting Responsibility Perception in Femicide News Reports ( http://arxiv.org/abs/2209.12030v1 )

ライセンス: Link先を確認
Gosse Minnema, Sara Gemelli, Chiara Zanchi, Tommaso Caselli and Malvina Nissim(参考訳) 異なる言語表現は、異なる視点から同じ出来事を概念化することができる。 性別に基づく暴力(GBV)の言語表現は、私たちが責任を負っていると認識する人にどのように影響するのか。 我々は,この領域における過去の心理言語学的研究に基づいて,イタリアの新聞社から自動抽出されたGBV記述を大規模に認識調査した。 次に、責任感の異なる次元に対してGBV参加者のサリエンスを予測する回帰モデルを訓練する。 我々の最良モデル(微調整BERT)は、寸法と参加者の相違が大きいが、正解_focus_は正解_blame_より予測可能であり、加害者の正解は被害者の正解よりも予測可能である。 異なる表現を用いたリッジ回帰モデルを用いた実験は、単語に基づく特徴と同様に言語理論に基づく特徴を示す。 全体として、異なる言語的選択が責任に対する異なる認識を引き起こし、そのような認識を自動でモデル化できることが示される。 この研究は、一般大衆やニュースプロデューサーなどにおいて、様々なパースペクティブ化の結果に対する意識を高めるための中核的な手段となる。

Different linguistic expressions can conceptualize the same event from different viewpoints by emphasizing certain participants over others. Here, we investigate a case where this has social consequences: how do linguistic expressions of gender-based violence (GBV) influence who we perceive as responsible? We build on previous psycholinguistic research in this area and conduct a large-scale perception survey of GBV descriptions automatically extracted from a corpus of Italian newspapers. We then train regression models that predict the salience of GBV participants with respect to different dimensions of perceived responsibility. Our best model (fine-tuned BERT) shows solid overall performance, with large differences between dimensions and participants: salient _focus_ is more predictable than salient _blame_, and perpetrators' salience is more predictable than victims' salience. Experiments with ridge regression models using different representations show that features based on linguistic theory similarly to word-based features. Overall, we show that different linguistic choices do trigger different perceptions of responsibility, and that such perceptions can be modelled automatically. This work can be a core instrument to raise awareness of the consequences of different perspectivizations in the general public and in news producers alike.
翻訳日:2022-09-27 15:38:13 公開日:2022-09-24
# Knapsacks問題における帯域の非単調資源利用

Non-monotonic Resource Utilization in the Bandits with Knapsacks Problem ( http://arxiv.org/abs/2209.12013v1 )

ライセンス: Link先を確認
Raunak Kumar and Robert Kleinberg(参考訳) knapsacks (BwK) は、資源消費制約を含む不確実性の下でのシーケンシャルな意思決定のモデルである。 各ラウンドにおいて、意思決定者は、報酬と非負のリソース消費のベクトルからなる結果を観察し、各リソースの予算はその消費によって減少する。 本稿では,非単調な資源利用を可能にする確率的BwK問題の自然な一般化を提案する。 各ラウンドにおいて、意思決定者は、正、負、ゼロの可能性のある報酬とリソースドリフトのベクトルからなる結果を観察し、各リソースの予算はそのドリフトによって増分される。 我々の主な成果はマルコフ決定プロセス(MDP)政策であり、意思決定者が真の結果分布を知っていれば、線形プログラミング(LP)緩和に対して常に後悔する。 これに基づいて、意思決定者が真の結果分布を知らない場合に、同じLP緩和に対して対数的後悔を持つ学習アルゴリズムを開発する。 また、BwK から BwK への還元をモデルに示し、既存の結果に一致した後悔の意を示す。

Bandits with knapsacks (BwK) is an influential model of sequential decision-making under uncertainty that incorporates resource consumption constraints. In each round, the decision-maker observes an outcome consisting of a reward and a vector of nonnegative resource consumptions, and the budget of each resource is decremented by its consumption. In this paper we introduce a natural generalization of the stochastic BwK problem that allows non-monotonic resource utilization. In each round, the decision-maker observes an outcome consisting of a reward and a vector of resource drifts that can be positive, negative or zero, and the budget of each resource is incremented by its drift. Our main result is a Markov decision process (MDP) policy that has constant regret against a linear programming (LP) relaxation when the decision-maker knows the true outcome distributions. We build upon this to develop a learning algorithm that has logarithmic regret against the same LP relaxation when the decision-maker does not know the true outcome distributions. We also present a reduction from BwK to our model that shows our regret bound matches existing results.
翻訳日:2022-09-27 15:21:32 公開日:2022-09-24
# 都市動態記述のための移動データを用いた潜伏活動行動とライフスタイルの同定

Identifying latent activity behaviors and lifestyles using mobility data to describe urban dynamics ( http://arxiv.org/abs/2209.12095v1 )

ライセンス: Link先を確認
Yanni Yang, Alex Pentland, Esteban Moro(参考訳) 都市化とその問題には、都市力学、特に近代都市における複雑で多様化した生活様式を深く、包括的に理解する必要がある。 デジタル取得されたデータは、複雑な人間の活動を正確に捉えることができるが、人口統計データの解釈性に欠ける。 本稿では,米国11大都市圏の120万人から11100万人までの移動行動パターンのプライバシー向上データセットを調査し,アメリカの大都市における潜伏する移動行動や生活習慣を検出する。 移動性の訪問がかなり複雑であるにもかかわらず, 生活習慣は, 買い物, 食事, 働く, あるいは自由な時間をどう組み合わせるかという,12の潜在的解釈可能な行動行動に自動的に分解できることがわかった。 一つの生活習慣を持つ個人を説明するのではなく、都市住民の行動はそれらの行動の混合である。 検出された潜在活動行動は都市全体に等しく存在し、主要な人口統計学的特徴では説明できない。 最後に、これらの潜伏行動は、人口動態をコントロールした後も、経験豊富な所得隔離、輸送、都市における健全な行動といったダイナミクスと関連付けられている。 都市動態を理解するために,従来の国勢調査データを活動行動と補完することの重要性が示唆された。

Urbanization and its problems require an in-depth and comprehensive understanding of urban dynamics, especially the complex and diversified lifestyles in modern cities. Digitally acquired data can accurately capture complex human activity, but it lacks the interpretability of demographic data. In this paper, we study a privacy-enhanced dataset of the mobility visitation patterns of 1.2 million people to 1.1 million places in 11 metro areas in the U.S. to detect the latent mobility behaviors and lifestyles in the largest American cities. Despite the considerable complexity of mobility visitations, we found that lifestyles can be automatically decomposed into only 12 latent interpretable activity behaviors on how people combine shopping, eating, working, or using their free time. Rather than describing individuals with a single lifestyle, we find that city dwellers' behavior is a mixture of those behaviors. Those detected latent activity behaviors are equally present across cities and cannot be fully explained by main demographic features. Finally, we find those latent behaviors are associated with dynamics like experienced income segregation, transportation, or healthy behaviors in cities, even after controlling for demographic features. Our results signal the importance of complementing traditional census data with activity behaviors to understand urban dynamics.
翻訳日:2022-09-27 15:21:14 公開日:2022-09-24
# ニューロンモデルの逆問題を解くための物理的制約付きニューラルネットワーク

Physically constrained neural networks to solve the inverse problem for neuron models ( http://arxiv.org/abs/2209.11998v1 )

ライセンス: Link先を確認
Matteo Ferrante, Andera Duggento, Nicola Toschi(参考訳) 特にシステム生物学とシステム神経生理学は、最近、生体医学における多くの重要な応用のための強力なツールとして登場している。 しかしながら、そのようなモデルは、しばしば、アドホックな計算戦略を必要とし、非常に高い計算要求を示すマルチスケール(そしておそらくは多物理)戦略の複雑な組み合わせに基づいている。 近年のディープニューラルネットワークの分野での進歩は、非線形で普遍的な近似器を定式化し、高非線形で複雑な問題に対する解を、従来のモデルと比較して大きな速度と精度の利点で推定できることを実証している。 合成データバリデーションの後、我々はいわゆる物理的に制約されたニューラルネットワーク(PINN)を用いて、生物学的にプラウティブルなホジキン・ハクスリーモデルを同時に解き、そのパラメータと隠れた時間軸を、変動刺激と定電流刺激の両方の下で実データから推定し、スパイクと忠実な信号再構成の非常に低い変動を示す。 得られたパラメータ範囲は、事前の知識とも互換性がある。 シミュレーションデータと実データの両方に複雑なダイナミクスを適合させることで、詳細な生物学的知識をニューラルネットワークに提供できることを実証する。

Systems biology and systems neurophysiology in particular have recently emerged as powerful tools for a number of key applications in the biomedical sciences. Nevertheless, such models are often based on complex combinations of multiscale (and possibly multiphysics) strategies that require ad hoc computational strategies and pose extremely high computational demands. Recent developments in the field of deep neural networks have demonstrated the possibility of formulating nonlinear, universal approximators to estimate solutions to highly nonlinear and complex problems with significant speed and accuracy advantages in comparison with traditional models. After synthetic data validation, we use so-called physically constrained neural networks (PINN) to simultaneously solve the biologically plausible Hodgkin-Huxley model and infer its parameters and hidden time-courses from real data under both variable and constant current stimulation, demonstrating extremely low variability across spikes and faithful signal reconstruction. The parameter ranges we obtain are also compatible with prior knowledge. We demonstrate that detailed biological knowledge can be provided to a neural network, making it able to fit complex dynamics over both simulated and real data.
翻訳日:2022-09-27 15:14:43 公開日:2022-09-24
# CryptoGCN: 高速でスケーラブルな同型暗号化グラフ畳み込みネットワーク推論

CryptoGCN: Fast and Scalable Homomorphically Encrypted Graph Convolutional Network Inference ( http://arxiv.org/abs/2209.11904v1 )

ライセンス: Link先を確認
Ran Ran, Nuo Xu, Wei Wang, Quan Gang, Jieming Yin, Wujie Wen(参考訳) 最近、クラウドベースのグラフ畳み込みネットワーク(gcn)は、パーソナルヘルスケアや金融システムなど、多くのプライバシーに敏感なアプリケーションで大きな成功と可能性を示しています。 クラウドでの推論精度とパフォーマンスは高いが、これらの実用的なアプリケーションにとって最も重要なgcn推論におけるデータのプライバシの維持は、いまだに未検討のままである。 本稿では,この手法を最初に試み,$\textit{CryptoGCN}$--同型暗号(HE)に基づくGCN推論フレームワークを開発する。 提案手法の成功の鍵はHE演算の計算オーバーヘッドを大幅に削減することであり、これは平文空間の計算オーバヘッドよりも桁違いに高い。 そこで本研究では,GCN推論における行列演算の分散性を効果的に活用し,計算オーバーヘッドを大幅に削減する手法を開発した。 具体的には,複雑なグラフ構造を活用し,he計算において効率的な行列行列乗算を行い,he演算を大幅に削減できる新しいamaデータフォーマッティング法と空間畳み込み法を提案する。 また,GCNにおけるアクティベーションモジュールの偏差と多項式近似により,精度,セキュリティレベル,計算オーバーヘッドのトレードオフを探索できる協調最適化フレームワークを開発した。 NTU-XVIEWスケルトン共同データセット(英語版)、すなわち、我々が知る限り、最も大きなデータセットがホモモルフィズム的に評価されていることに基づいて、実験結果は、$\textit{CryptoGCN}$は、レイテンシとホモモルフィズム演算数の点で最先端のソリューションよりも優れており、すなわち、レイテンシを3.10$\times$スピードアップし、全ホモモルフィズム演算カウントを77.4\%削減し、1-1.5$\%の精度損失を小さくすることを示した。

Recently cloud-based graph convolutional network (GCN) has demonstrated great success and potential in many privacy-sensitive applications such as personal healthcare and financial systems. Despite its high inference accuracy and performance on cloud, maintaining data privacy in GCN inference, which is of paramount importance to these practical applications, remains largely unexplored. In this paper, we take an initial attempt towards this and develop $\textit{CryptoGCN}$--a homomorphic encryption (HE) based GCN inference framework. A key to the success of our approach is to reduce the tremendous computational overhead for HE operations, which can be orders of magnitude higher than its counterparts in the plaintext space. To this end, we develop an approach that can effectively take advantage of the sparsity of matrix operations in GCN inference to significantly reduce the computational overhead. Specifically, we propose a novel AMA data formatting method and associated spatial convolution methods, which can exploit the complex graph structure and perform efficient matrix-matrix multiplication in HE computation and thus greatly reduce the HE operations. We also develop a co-optimization framework that can explore the trade offs among the accuracy, security level, and computational overhead by judicious pruning and polynomial approximation of activation module in GCNs. Based on the NTU-XVIEW skeleton joint dataset, i.e., the largest dataset evaluated homomorphically by far as we are aware of, our experimental results demonstrate that $\textit{CryptoGCN}$ outperforms state-of-the-art solutions in terms of the latency and number of homomorphic operations, i.e., achieving as much as a 3.10$\times$ speedup on latency and reduces the total Homomorphic Operation Count by 77.4\% with a small accuracy loss of 1-1.5$\%$.
翻訳日:2022-09-27 15:13:43 公開日:2022-09-24
# 正しいソースコード対策を用いた機械プログラミングシステムはコードリポジトリを選択するか?

Are Machine Programming Systems using Right Source-Code Measures to Select Code Repositories? ( http://arxiv.org/abs/2209.11946v1 )

ライセンス: Link先を確認
Niranjan Hasabnis(参考訳) 機械プログラミング(英: Machine Programming、MP)は、決定論的および確率論的コンピューティングの交差点における新興分野であり、ソフトウェア技術者やハードウェアエンジニアを支援することを目的としている。 強力な計算リソースに加えて、MPシステムは、コードとプログラミングに関する興味深い特性を学び、デバッグやコードレコメンデーション、自動補完といった分野の問題を解決するために、大量のオープンソースコードに依存することが多い。 残念ながら、既存のMPシステムのいくつかは、コードリポジトリの品質を考慮していないか、ソフトウェア工学コミュニティで一般的に使われているものよりも非定型的な品質対策を使っている。 そのため、コードリポジトリの品質がこれらのシステムの性能に与える影響を研究する必要がある。 本稿では,mpシステム候補の性能に及ぼす品質の異なるリポジトリの影響について評価する。 その目的に向けて、我々はGitRankという名のフレームワークを開発し、このトピックに関する既存の研究を活用して、オープンソースのリポジトリの品質、保守性、人気をランク付けします。 次にgitrankを用いて,mpの候補システムで使用する品質指標と,そのフレームワークで使用する品質指標との相関性を評価する。 予備的な結果から,gitrank における品質指標と controlflag の性能の相関関係が明らかとなり,gitrank で使用されるいくつかの指標が controlflag に適用可能であることが示唆された。 しかし、MPシステムで使用されるコードリポジトリの適切な品質対策についても疑問を投げかける。 我々は,MPシステムの性能に影響を及ぼすコード品質対策に関する興味深い洞察も得られると考えている。

Machine programming (MP) is an emerging field at the intersection of deterministic and probabilistic computing, and it aims to assist software and hardware engineers, among other applications. Along with powerful compute resources, MP systems often rely on vast amount of open-source code to learn interesting properties about code and programming and solve problems in the areas of debugging, code recommendation, auto-completion, etc. Unfortunately, several of the existing MP systems either do not consider quality of code repositories or use atypical quality measures than those typically used in software engineering community to select them. As such, impact of quality of code repositories on the performance of these systems needs to be studied. In this preliminary paper, we evaluate impact of different quality repositories on the performance of a candidate MP system. Towards that objective, we develop a framework, named GitRank, to rank open-source repositories on quality, maintainability, and popularity by leveraging existing research on this topic. We then apply GitRank to evaluate correlation between the quality measures used by the candidate MP system and the quality measures used by our framework. Our preliminary results reveal some correlation between the quality measures used in GitRank and ControlFlag's performance, suggesting that some of the measures used in GitRank are applicable to ControlFlag. But it also raises questions around right quality measures for code repositories used in MP systems. We believe that our findings also generate interesting insights towards code quality measures that affect performance of MP systems.
翻訳日:2022-09-27 15:13:04 公開日:2022-09-24
# 深層学習による脳波中の眼内アーティファクトの除去

Removal of Ocular Artifacts in EEG Using Deep Learning ( http://arxiv.org/abs/2209.11980v1 )

ライセンス: Link先を確認
Mehmet Akif Ozdemir, Sumeyye Kizilisik, Onan Guren(参考訳) EEG信号は複雑で低周波信号である。 そのため、外部要因の影響も受けやすい。 脳波のアーティファクト除去は、脳波分析の結果に大きな影響を与えるため、神経科学において重要である。 眼アーチファクトの除去はこれらのアーティファクトの中でも最も困難である。 本研究では,双方向長短記憶(BiLSTM)に基づく深層学習(DL)モデルを開発することにより,新しい眼内人工物除去法を提案する。 eegdenoisenetとdeapデータセットを組み合わせて,提案するdlモデルのトレーニングとテストを行うためのベンチマークデータセットを作成した。 また, 各種SNRレベルにおいて, 地中清浄な脳波信号をEOGで汚染することにより, データを拡張した。 BiLSTMネットワークは、ウェーブレット同期変換(WSST)によって得られる高局所時間周波数(TF)係数を用いて、拡張信号から抽出された特徴に供給される。 また,wsstベースのdlモデル結果と,stft(short-time fourier transformation)とcwt(continuous wavelet transform)という従来のtf分析法との比較を行った。 平均 MSE の平均値は 0.3066 で、最初に提案された BiLSTM ベースの WSST-Net モデルで得られた。 その結果、wsst-netモデルは従来のtf法やraw信号法に比べてアーティファクト除去性能が大幅に向上した。 また,提案するeog除去法が,従来のおよびdlベースの眼内アーティファクト除去法を上回っていることが明らかとなった。

EEG signals are complex and low-frequency signals. Therefore, they are easily influenced by external factors. EEG artifact removal is crucial in neuroscience because artifacts have a significant impact on the results of EEG analysis. The removal of ocular artifacts is the most challenging among these artifacts. In this study, a novel ocular artifact removal method is presented by developing bidirectional long-short term memory (BiLSTM)-based deep learning (DL) models. We created a benchmarking dataset to train and test proposed DL models by combining the EEGdenoiseNet and DEAP datasets. We also augmented the data by contaminating ground-truth clean EEG signals with EOG at various SNR levels. The BiLSTM network is then fed to features extracted from augmented signals using highly-localized time-frequency (TF) coefficients obtained by wavelet synchrosqueezed transform (WSST). We also compare the WSST-based DL model results with traditional TF analysis (TFA) methods namely short-time Fourier transformation (STFT) and continuous wavelet transform (CWT) as well as augmented raw signals. The best average MSE value of 0.3066 was obtained by the first time-proposed BiLSTM-based WSST-Net model. Our results demonstrated the WSST-Net model significantly improves artifact removal performance compared to traditional TF and raw signal methods. Also, the proposed EOG removal approach reveals that it outperforms many conventional and DL-based ocular artifact removal methods in the literature.
翻訳日:2022-09-27 15:12:40 公開日:2022-09-24
# 教師なし誤り訂正による音声認識のための教師なし領域適応

Unsupervised domain adaptation for speech recognition with unsupervised error correction ( http://arxiv.org/abs/2209.12043v1 )

ライセンス: Link先を確認
Long Mai, Julie Carson-Berndsen(参考訳) 自動音声認識(ASR)システムの転写品質は、未確認領域からの音声の書き起こし時に著しく低下する。 本研究では、教師なしASRドメイン適応のための教師なし誤り訂正手法を提案し、ドメインミスマッチによる転写誤りの回復を目的とする。 本手法では, 録音音声に頼って訓練を行う既存の補正手法とは異なり, 疑似ラベル法を適用した対象領域のラベル付きデータのみを用いて補正訓練サンプルを生成する。 また,擬似データへの過度な適合を低減するため,対話コンテキストや音響特徴などの付加情報を考慮したエンコーダ・デコーダ補正モデルを提案する。 実験の結果,非適応型asrシステムに対して有意な単語誤り率(wer)低減が得られた。 補正モデルは、他の適応アプローチにも適用でき、10%の追加改善を比較的行うことができる。

The transcription quality of automatic speech recognition (ASR) systems degrades significantly when transcribing audios coming from unseen domains. We propose an unsupervised error correction method for unsupervised ASR domain adaption, aiming to recover transcription errors caused by domain mismatch. Unlike existing correction methods that rely on transcribed audios for training, our approach requires only unlabeled data of the target domains in which a pseudo-labeling technique is applied to generate correction training samples. To reduce over-fitting to the pseudo data, we also propose an encoder-decoder correction model that can take into account additional information such as dialogue context and acoustic features. Experiment results show that our method obtains a significant word error rate (WER) reduction over non-adapted ASR systems. The correction model can also be applied on top of other adaptation approaches to bring an additional improvement of 10% relatively.
翻訳日:2022-09-27 15:12:17 公開日:2022-09-24
# アウト・オブ・ディストリビューション検出におけるバーの上昇

Raising the Bar on the Evaluation of Out-of-Distribution Detection ( http://arxiv.org/abs/2209.11960v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Tsung-Yu Lin, Bor-Chun Chen, Ashish Shah, Philip H.S. Torr, Puneet K. Dokania, Ser-Nam Lim(参考訳) 画像分類では、アウト・オブ・ディストリビューション(ood)データを検出することに多くの進展があった。 しかし、ほとんどのood検出法は、トレーニングデータとは任意に異なる標準データセット上で評価される。 良い”OoDデータセットを形成するものを明確に定義することはできない。 さらに、最先端のOoD検出手法は、これらの標準ベンチマークでほぼ完璧な結果が得られる。 本稿では,知覚・視覚的・意味的類似性の概念をiDデータと比較し,OoDデータのカテゴリを2つ定義する。 我々は、Near OoDサンプルをiDサンプルと知覚的に似ているが意味的に異なるものと定義し、シフトしたサンプルを視覚的に異なるが、意味的にiDデータに似た点として定義する。 次に、iDデータセットが与えられた2つのカテゴリそれぞれからOoDサンプルを生成するためのGANベースのフレームワークを提案する。 mnist, cifar-10/100, imagenet の広範な実験により, a)従来のベンチマークで非常によく機能する最先端のood検出手法は,提案するベンチマークに比べて著しくロバスト性が低い。 さらに b) 従来の実世界のood検出ベンチマークでも良好に動作し,その逆もまた良好であり,ood検出の性能を確実に評価するために,個別のoodセットも不要であることを示す。

In image classification, a lot of development has happened in detecting out-of-distribution (OoD) data. However, most OoD detection methods are evaluated on a standard set of datasets, arbitrarily different from training data. There is no clear definition of what forms a ``good" OoD dataset. Furthermore, the state-of-the-art OoD detection methods already achieve near perfect results on these standard benchmarks. In this paper, we define 2 categories of OoD data using the subtly different concepts of perceptual/visual and semantic similarity to in-distribution (iD) data. We define Near OoD samples as perceptually similar but semantically different from iD samples, and Shifted samples as points which are visually different but semantically akin to iD data. We then propose a GAN based framework for generating OoD samples from each of these 2 categories, given an iD dataset. Through extensive experiments on MNIST, CIFAR-10/100 and ImageNet, we show that a) state-of-the-art OoD detection methods which perform exceedingly well on conventional benchmarks are significantly less robust to our proposed benchmark. Moreover, b) models performing well on our setup also perform well on conventional real-world OoD detection benchmarks and vice versa, thereby indicating that one might not even need a separate OoD set, to reliably evaluate performance in OoD detection.
翻訳日:2022-09-27 14:55:55 公開日:2022-09-24
# 近似精度、攻撃力:漸近的ガウス混合分布による逆例生成

Approximate better, Attack stronger: Adversarial Example Generation via Asymptotically Gaussian Mixture Distribution ( http://arxiv.org/abs/2209.11964v1 )

ライセンス: Link先を確認
Zhengwei Fang, Rui Wang, Tao Huang, Liping Jing(参考訳) 強力な敵の例は、ディープニューラルネットワークの堅牢性を評価し、強化する鍵である。 一般的な対向攻撃アルゴリズムは勾配上昇を用いて非凹凸損失関数を最大化する。 しかし、各攻撃のパフォーマンスは通常、情報不足によるマイナーな画像変換(入力例が1つ、ホワイトボックスのソースモデルが少数、防御戦略が不明)に敏感である。 したがって、手作りの敵対的な例はソースモデルに過度に適合しがちであり、不特定なアーキテクチャへの転送性を制限している。 本稿では,学習した分布から対向的摂動を明示的に特徴づける新しい手法であるMultiANDA(MultiANDA)を提案する。 具体的には,確率的勾配上昇(sga)の漸近正規性を利用して摂動の後方分布を近似し,この過程にアンサンブル戦略を適用してガウス混合モデルを推定し,潜在的な最適化空間をよりよく探索する。 学習した分布から摂動を描画することで、各入力に対して様々な逆例を生成することができる。 近似された後段は基本的にsga反復の定常分布を表し、局所最適の周りの幾何学的情報をキャプチャする。 したがって、分布から引き出された試料は確実に転写性を維持することができる。 提案手法は、通常訓練された7つの防御モデルと7つの防御モデルに対する広範囲な実験を通じて、防御の有無にかかわらず、9つの最先端のブラックボックス攻撃を再現する。

Strong adversarial examples are the keys to evaluating and enhancing the robustness of deep neural networks. The popular adversarial attack algorithms maximize the non-concave loss function using the gradient ascent. However, the performance of each attack is usually sensitive to, for instance, minor image transformations due to insufficient information (only one input example, few white-box source models and unknown defense strategies). Hence, the crafted adversarial examples are prone to overfit the source model, which limits their transferability to unidentified architectures. In this paper, we propose Multiple Asymptotically Normal Distribution Attacks (MultiANDA), a novel method that explicitly characterizes adversarial perturbations from a learned distribution. Specifically, we approximate the posterior distribution over the perturbations by taking advantage of the asymptotic normality property of stochastic gradient ascent (SGA), then apply the ensemble strategy on this procedure to estimate a Gaussian mixture model for a better exploration of the potential optimization space. Drawing perturbations from the learned distribution allow us to generate any number of adversarial examples for each input. The approximated posterior essentially describes the stationary distribution of SGA iterations, which captures the geometric information around the local optimum. Thus, the samples drawn from the distribution reliably maintain the transferability. Our proposed method outperforms nine state-of-the-art black-box attacks on deep learning models with or without defenses through extensive experiments on seven normally trained and seven defence models.
翻訳日:2022-09-27 14:55:34 公開日:2022-09-24
# 医用画像クラスタリングと再構成のためのコントラスト学習

Contrastive learning for unsupervised medical image clustering and reconstruction ( http://arxiv.org/abs/2209.12005v1 )

ライセンス: Link先を確認
Matteo Ferrante, Tommaso Boccato, Simeon Spasov, Andrea Duggento, Nicola Toschi(参考訳) 大規模ラベル付き医療画像データセットの欠如は、臨床的に確立された疾患クラスと比較して、個人間の大きなばらつきとともに、個別の予測を定式化し、患者をより均一な軌跡を辿りうるよりきめ細かなグループに分類し、治験を増強する、精度の高い医療パラダイムにおいて、医療画像情報を活用する上で重要な課題を提起する。 本研究は, 医用画像における可変性に基づく効果的な自由度を, 教師なしで効率的に探索するために, 対照的な損失を伴って拡張された教師なしオートエンコーダフレームワークを提案する。 このモデルは(医学的な)ベンチマークデータセットで検証される。 クラスタラベルはクラスタ割り当てに応じて各例に割り当てられるので,性能を教師付き転送学習ベースラインと比較する。 本手法は,教師付きアーキテクチャと同様の性能を実現し,潜在空間での分離が専門家の医療観察者のラベルを再現することを示す。 提案手法は, 患者の階層化や, より大きなクラスや病的連続体の新たな下位区分の探索, あるいはそのサンプリング能力から, 医用画像処理におけるデータ拡張に有用である。

The lack of large labeled medical imaging datasets, along with significant inter-individual variability compared to clinically established disease classes, poses significant challenges in exploiting medical imaging information in a precision medicine paradigm, where in principle dense patient-specific data can be employed to formulate individual predictions and/or stratify patients into finer-grained groups which may follow more homogeneous trajectories and therefore empower clinical trials. In order to efficiently explore the effective degrees of freedom underlying variability in medical images in an unsupervised manner, in this work we propose an unsupervised autoencoder framework which is augmented with a contrastive loss to encourage high separability in the latent space. The model is validated on (medical) benchmark datasets. As cluster labels are assigned to each example according to cluster assignments, we compare performance with a supervised transfer learning baseline. Our method achieves similar performance to the supervised architecture, indicating that separation in the latent space reproduces expert medical observer-assigned labels. The proposed method could be beneficial for patient stratification, exploring new subdivisions of larger classes or pathological continua or, due to its sampling abilities in a variation setting, data augmentation in medical image processing.
翻訳日:2022-09-27 14:55:06 公開日:2022-09-24
# 介入的因果表現学習

Interventional Causal Representation Learning ( http://arxiv.org/abs/2209.11924v1 )

ライセンス: Link先を確認
Kartik Ahuja, Yixin Wang, Divyat Mahajan, Yoshua Bengio(参考訳) 識別可能な表現学習の理論は、低レベル感覚データから高レベル潜在性(causal)因子を抽出する汎用的手法を構築することを目的としている。 既存の研究の多くは、潜在的(因果的)因子の分布的仮定に依存する観察データによる識別可能な表現学習に焦点を当てている。 しかし、実際には、表現学習のための介入データへのアクセスもしばしば行われている。 介入データを利用してハイレベルな潜伏者を特定するには? この目的のために,本研究における表現学習における介入データの役割について検討する。 本研究は,潜伏者の分布的仮定を最小に抑えながら,介入データの有無と潜伏因果要因の同定可能性について検討した。 実潜時変数が多項式関数を介して観測された高次元データにマップされると、オートエンコーダの標準再構成損失を最小化して表現学習を行い、真の潜時変数をアフィン変換まで同定する。 もし私たちが、一部の潜伏者に対するハード$do$の介入によって生成された介入データにさらにアクセスできれば、置換、シフト、スケーリングまで、これらの介入された潜伏者を特定することができます。

The theory of identifiable representation learning aims to build general-purpose methods that extract high-level latent (causal) factors from low-level sensory data. Most existing works focus on identifiable representation learning with observational data, relying on distributional assumptions on latent (causal) factors. However, in practice, we often also have access to interventional data for representation learning. How can we leverage interventional data to help identify high-level latents? To this end, we explore the role of interventional data for identifiable representation learning in this work. We study the identifiability of latent causal factors with and without interventional data, under minimal distributional assumptions on the latents. We prove that, if the true latent variables map to the observed high-dimensional data via a polynomial function, then representation learning via minimizing the standard reconstruction loss of autoencoders identifies the true latents up to affine transformation. If we further have access to interventional data generated by hard $do$ interventions on some of the latents, then we can identify these intervened latents up to permutation, shift and scaling.
翻訳日:2022-09-27 14:46:50 公開日:2022-09-24
# ローカルからグローバルへ:スペクトルにインスパイアされたグラフニューラルネットワーク

From Local to Global: Spectral-Inspired Graph Neural Networks ( http://arxiv.org/abs/2209.12054v1 )

ライセンス: Link先を確認
Ningyuan Huang, Soledad Villar, Carey E. Priebe, Da Zheng, Chengyue Huang, Lin Yang, Vladimir Braverman(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドデータのための強力なディープラーニング手法である。 一般的なGNNはメッセージパッシングアルゴリズム(MPNN)で、局所グラフ地区の信号を集約して結合する。 しかし、浅いMPNNは長距離信号を見逃し、不均一なグラフでは性能が悪く、深いMPNNは過度なスムースや過剰なスキャッシングといった問題に悩まされる。 このような問題を緩和するため、既存の研究は通常、ユークリッドデータのニューラルネットワークのトレーニングやグラフ構造の変更から正規化技術を借りる。 しかし、これらのアプローチは理論的には十分に理解されておらず、全体的な計算複雑性を増大させる可能性がある。 本稿では、スペクトルグラフの埋め込みからインスピレーションを得て、MPNNを強化するための単純なレイヤワイド正規化手法である$\texttt{PowerEmbed}$を提案する。 例えば、$\texttt{PowerEmbed}$はグラフ演算子の先頭の固有ベクトルのトップ$kを確実に表現することができ、これは過剰なスムーシングを防ぎ、グラフトポロジに非依存である。 我々は、幅広いシミュレーションおよび実グラフに$\texttt{powerembed}$を適用し、その競合性能、特に不均一グラフについて実証する。

Graph Neural Networks (GNNs) are powerful deep learning methods for Non-Euclidean data. Popular GNNs are message-passing algorithms (MPNNs) that aggregate and combine signals in a local graph neighborhood. However, shallow MPNNs tend to miss long-range signals and perform poorly on some heterophilous graphs, while deep MPNNs can suffer from issues like over-smoothing or over-squashing. To mitigate such issues, existing works typically borrow normalization techniques from training neural networks on Euclidean data or modify the graph structures. Yet these approaches are not well-understood theoretically and could increase the overall computational complexity. In this work, we draw inspirations from spectral graph embedding and propose $\texttt{PowerEmbed}$ -- a simple layer-wise normalization technique to boost MPNNs. We show $\texttt{PowerEmbed}$ can provably express the top-$k$ leading eigenvectors of the graph operator, which prevents over-smoothing and is agnostic to the graph topology; meanwhile, it produces a list of representations ranging from local features to global signals, which avoids over-squashing. We apply $\texttt{PowerEmbed}$ in a wide range of simulated and real graphs and demonstrate its competitive performance, particularly for heterophilous graphs.
翻訳日:2022-09-27 14:46:30 公開日:2022-09-24
# 計算グラフ補完を伴う確率微分方程式のワンショット学習

One-Shot Learning of Stochastic Differential Equations with Computational Graph Completion ( http://arxiv.org/abs/2209.12086v1 )

ライセンス: Link先を確認
Matthieu Darcy, Boumediene Hamzi, Giulia Livieri, Houman Owhadi, Peyman Tavallali(参考訳) 1つのサンプル軌道から$dX_t = f(X_t)dt+\sigma(X_t)dW_t $という形の確率微分方程式を学習する問題を考察する。 この問題は、決定論的力学系を学習するよりも難しい。なぜなら、1つのサンプル軌道は、未知の関数 $f$, $\sigma$, and stochastic process $dW_t$ に関する間接情報しか提供しないからである。 1) 時間インクリメント写像 $x_t \rightarrow x_{t+dt}$ を計算グラフとして表現し、$f$, $\sigma$, $dw_t$ を未知関数と確率変数として表示する。 (2) グラフ(約未知関数と確率変数)を、未知関数に先立ってガウス過程(gp)を用いた最大後続推定(データを取得)によって完成する。 (3)無作為なクロスバリデーションを持つデータからGP前の共分散関数(カーネル)を学習する。 数値実験により, 本手法の有効性, 堅牢性, 適用範囲を明らかにした。

We consider the problem of learning Stochastic Differential Equations of the form $dX_t = f(X_t)dt+\sigma(X_t)dW_t $ from one sample trajectory. This problem is more challenging than learning deterministic dynamical systems because one sample trajectory only provides indirect information on the unknown functions $f$, $\sigma$, and stochastic process $dW_t$ representing the drift, the diffusion, and the stochastic forcing terms, respectively. We propose a simple kernel-based solution to this problem that can be decomposed as follows: (1) Represent the time-increment map $X_t \rightarrow X_{t+dt}$ as a Computational Graph in which $f$, $\sigma$ and $dW_t$ appear as unknown functions and random variables. (2) Complete the graph (approximate unknown functions and random variables) via Maximum a Posteriori Estimation (given the data) with Gaussian Process (GP) priors on the unknown functions. (3) Learn the covariance functions (kernels) of the GP priors from data with randomized cross-validation. Numerical experiments illustrate the efficacy, robustness, and scope of our method.
翻訳日:2022-09-27 14:46:05 公開日:2022-09-24
# 検閲重球降下を用いたコミュニケーション効率の高いフェデレート学習

Communication-Efficient {Federated} Learning Using Censored Heavy Ball Descent ( http://arxiv.org/abs/2209.11944v1 )

ライセンス: Link先を確認
Yicheng Chen, Rick S. Blum, Brian M. Sadler(参考訳) 分散機械学習はスケーラビリティと計算オフロードを可能にするが、かなりのレベルの通信を必要とする。 そのため,分散学習環境における通信効率は重要な考慮事項であり,特に無線通信やバッテリ駆動デバイスを用いた場合において重要である。 本稿では,サーバワーカアーキテクチャにおける分散学習のための検閲型ヘビーボール(CHB)手法を提案する。 各労働者の自己検閲は、その局所的な勾配が以前送信されたものと十分に異なる場合を除きである。 学習問題に対するHB法の重要な実用的利点はよく知られているが,コミュニケーションの低減に関する問題は解決されていない。 chb は hb smoothing を利用して小さな変化の報告を無くし、滑らかで強い凸目的関数に対する古典的な hb 法と同等の線形収束率を達成する。 CHBの収束保証は、凸と非凸の両方に対して理論的に正当化される。 さらに、ある条件下では、少なくとも半分の通信は収束率に影響を与えることなく排除できることを示す。 大規模な数値計算の結果は、凸、非凸、および非微分可能なケースにおいて、合成データセットと実データセットの両方におけるCHBの通信効率を検証した。 目標精度を考慮すれば、CHBは既存のアルゴリズムと比較して通信回数を大幅に削減でき、最適化プロセスを遅くすることなく同じ精度を達成できる。

Distributed machine learning enables scalability and computational offloading, but requires significant levels of communication. Consequently, communication efficiency in distributed learning settings is an important consideration, especially when the communications are wireless and battery-driven devices are employed. In this paper we develop a censoring-based heavy ball (CHB) method for distributed learning in a server-worker architecture. Each worker self-censors unless its local gradient is sufficiently different from the previously transmitted one. The significant practical advantages of the HB method for learning problems are well known, but the question of reducing communications has not been addressed. CHB takes advantage of the HB smoothing to eliminate reporting small changes, and provably achieves a linear convergence rate equivalent to that of the classical HB method for smooth and strongly convex objective functions. The convergence guarantee of CHB is theoretically justified for both convex and nonconvex cases. In addition we prove that, under some conditions, at least half of all communications can be eliminated without any impact on convergence rate. Extensive numerical results validate the communication efficiency of CHB on both synthetic and real datasets, for convex, nonconvex, and nondifferentiable cases. Given a target accuracy, CHB can significantly reduce the number of communications compared to existing algorithms, achieving the same accuracy without slowing down the optimization process.
翻訳日:2022-09-27 14:38:58 公開日:2022-09-24
# 深い注意的信念伝播:制約最適化問題を解決するための推論と学習の統合

Deep Attentive Belief Propagation: Integrating Reasoning and Learning for Solving Constraint Optimization Problems ( http://arxiv.org/abs/2209.12000v1 )

ライセンス: Link先を確認
Yanchen Deng, Shufeng Kong, Caihua Liu, Bo An(参考訳) BP(Breief Propagation)は、制約最適化問題(COP)の解決を含む、グラフィカルモデル上の様々な推論タスクのための重要なメッセージパッシングアルゴリズムである。 BPは、新しいメッセージ、すなわち減衰を送る前に、古いメッセージと新しいメッセージを混ぜることで、様々なベンチマークで最先端のパフォーマンスを達成できることが示されている。 しかしながら、bpの静的減衰係数をチューニングする既存の方法は、手間がかかるだけでなく、その性能を損なう。 さらに、既存のBPアルゴリズムは、新しいメッセージを構成する際に各変数ノードの隣人を等しく扱い、探索能力も制限する。 これらの問題に対処するため、BP, Gated Recurrent Units (GRUs) および Graph Attention Networks (GATs) をメッセージパスフレームワークにシームレスに統合し、動的な重み付けと新しいBPメッセージを構成するための減衰要因を推論する。 我々のモデルであるDABP(Deep Attentive Belief Propagation)は、各イテレーションにおける因子グラフとBPメッセージを入力とし、GRUおよびGATを通して最適な重みと減衰率を推定し、次いでマルチヘッドアテンション層を用いる。 さらに,既存のニューラルネットワーク型bpと異なり,効率的なオンライン学習による分散問題を回避するために,費用のかかるラベルを必要とせず,平滑化した解コストでdabpの自己教師付き学習アルゴリズムを提案する。 大規模な実験により,我々のモデルは最先端のベースラインを著しく上回ることがわかった。

Belief Propagation (BP) is an important message-passing algorithm for various reasoning tasks over graphical models, including solving the Constraint Optimization Problems (COPs). It has been shown that BP can achieve state-of-the-art performance on various benchmarks by mixing old and new messages before sending the new one, i.e., damping. However, existing methods of tuning a static damping factor for BP not only are laborious but also harm their performance. Moreover, existing BP algorithms treat each variable node's neighbors equally when composing a new message, which also limits their exploration ability. To address these issues, we seamlessly integrate BP, Gated Recurrent Units (GRUs), and Graph Attention Networks (GATs) within the message-passing framework to reason about dynamic weights and damping factors for composing new BP messages. Our model, Deep Attentive Belief Propagation (DABP), takes the factor graph and the BP messages in each iteration as the input and infers the optimal weights and damping factors through GRUs and GATs, followed by a multi-head attention layer. Furthermore, unlike existing neural-based BP variants, we propose a novel self-supervised learning algorithm for DABP with a smoothed solution cost, which does not require expensive training labels and also avoids the common out-of-distribution issue through efficient online learning. Extensive experiments show that our model significantly outperforms state-of-the-art baselines.
翻訳日:2022-09-27 14:38:36 公開日:2022-09-24
# Bitcoinにおける早期マス検出のための意図発見に向けて

Toward Intention Discovery for Early Malice Detection in Bitcoin ( http://arxiv.org/abs/2209.12001v1 )

ライセンス: Link先を確認
Ling Cheng, Feida Zhu, Yong Wang, Huiwen Liu(参考訳) Bitcoinは、おそらく他の金融資産よりも違法な活動にさらされている。 理想的な検出モデルは, (I) 早期検出, (II) 良好な解釈性, (III) 様々な不正行為に対する汎用性の3つの特性をすべて達成できることが期待される。 しかし、既存のソリューションは、解釈可能性を満たすことなくディープラーニングに強く依存しており、特定の不正なタイプの振り返り分析にのみ利用できるため、これらの要件をすべて満たすことはできない。 まず、アドレスの初期の特性を記述するために、アセット転送パスを提案する。 次に、特徴選択とセグメンテーションのための決定木に基づく戦略を用いて、観察期間全体を異なるセグメントに分割し、それぞれをセグメントベクトルとしてエンコードする。 これらのセグメントベクトルを全てクラスタ化すると、大域的なステータスベクトルが得られます。 最後に、階層的な自己注意予測器が与えられたアドレスのラベルをリアルタイムで予測する。 サバイバルモジュールは、いつ停止するか予測者に指示し、ステータスシーケンス、すなわち意図を提案する。 タイプ依存選択戦略とグローバルステータスベクターを用いて,本モデルは,高い解釈性を有する様々な不正行為の検出に応用できる。 良く設計された予測器と特定の損失関数は、モデルの予測速度と解釈可能性をさらに強化する。 3つの実世界のデータセットに関する広範囲な実験により,提案手法が最先端手法よりも優れていることが示された。 さらに、新たなケーススタディは、我々のモデルが既存の不正なパターンを説明するだけでなく、新しい不審な文字を見つけることもできることを正当化する。

Bitcoin has been subject to illicit activities more often than probably any other financial assets, due to the pseudo-anonymous nature of its transacting entities. An ideal detection model is expected to achieve all the three properties of (I) early detection, (II) good interpretability, and (III) versatility for various illicit activities. However, existing solutions cannot meet all these requirements, as most of them heavily rely on deep learning without satisfying interpretability and are only available for retrospective analysis of a specific illicit type. First, we present asset transfer paths, which aim to describe addresses' early characteristics. Next, with a decision tree based strategy for feature selection and segmentation, we split the entire observation period into different segments and encode each as a segment vector. After clustering all these segment vectors, we get the global status vectors, essentially the basic unit to describe the whole intention. Finally, a hierarchical self-attention predictor predicts the label for the given address in real time. A survival module tells the predictor when to stop and proposes the status sequence, namely intention. % With the type-dependent selection strategy and global status vectors, our model can be applied to detect various illicit activities with strong interpretability. The well-designed predictor and particular loss functions strengthen the model's prediction speed and interpretability one step further. Extensive experiments on three real-world datasets show that our proposed algorithm outperforms state-of-the-art methods. Besides, additional case studies justify our model can not only explain existing illicit patterns but can also find new suspicious characters.
翻訳日:2022-09-27 14:38:07 公開日:2022-09-24
# モデル変換による説明可能な強化学習

Explainable Reinforcement Learning via Model Transforms ( http://arxiv.org/abs/2209.12006v1 )

ライセンス: Link先を確認
Mira Finkelstein, Lucy Liu, Nitsan Levy Schlot, Yoav Kolumbus, David C. Parkes, Jeffrey S. Rosenshein and Sarah Keren(参考訳) 強化学習(RL)エージェントの出現する振る舞いを理解することは、複雑な環境において、非常に複雑な意思決定手順を用いて訓練されることがしばしばあるため困難である。 このことは、エージェントの振る舞いと観察者が期待する振る舞いの間に生じる相違を解消することを目的としたRLにおける説明可能性に対する様々なアプローチを生み出した。 最近のアプローチでは、常に利用できるとは限らないドメイン知識、エージェントのポリシーの分析、またはマルコフ決定プロセス(MDP)としてモデル化された基礎環境の特定の要素の分析に頼っている。 我々の重要な主張は、基礎となるMDPが完全には知られていないとしても(例えば、遷移確率が正確に学習されていない)、エージェントによって維持されていない場合(すなわち、モデルフリーなメソッドを使用する場合)、それにもかかわらず、自動的に説明を生成するために利用することができるということである。 そこで本稿では,従来の文献で最適ポリシー探索の迅速化に用いられた形式的MDP抽象化と変換を用いて,説明の自動生成を提案する。 このような変換は、典型的には環境の象徴的な表現に基づいているため、予測された行動と実際のエージェントの振る舞いの間のギャップの有意義な説明を表すことができる。 この問題を形式的に定義し,創発的行動の説明に使用できる変換のクラスを提案し,効率的な説明探索を可能にする手法を提案する。 我々は、一連の標準ベンチマークでこのアプローチを実証する。

Understanding emerging behaviors of reinforcement learning (RL) agents may be difficult since such agents are often trained in complex environments using highly complex decision making procedures. This has given rise to a variety of approaches to explainability in RL that aim to reconcile discrepancies that may arise between the behavior of an agent and the behavior that is anticipated by an observer. Most recent approaches have relied either on domain knowledge, that may not always be available, on an analysis of the agent's policy, or on an analysis of specific elements of the underlying environment, typically modeled as a Markov Decision Process (MDP). Our key claim is that even if the underlying MDP is not fully known (e.g., the transition probabilities have not been accurately learned) or is not maintained by the agent (i.e., when using model-free methods), it can nevertheless be exploited to automatically generate explanations. For this purpose, we suggest using formal MDP abstractions and transforms, previously used in the literature for expediting the search for optimal policies, to automatically produce explanations. Since such transforms are typically based on a symbolic representation of the environment, they may represent meaningful explanations for gaps between the anticipated and actual agent behavior. We formally define this problem, suggest a class of transforms that can be used for explaining emergent behaviors, and suggest methods that enable efficient search for an explanation. We demonstrate the approach on a set of standard benchmarks.
翻訳日:2022-09-27 14:37:45 公開日:2022-09-24
# データ効率制御のための教師なしモデルベース事前学習

Unsupervised Model-based Pre-training for Data-efficient Control from Pixels ( http://arxiv.org/abs/2209.12016v1 )

ライセンス: Link先を確認
Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Pich\'e, Bart Dhoedt, Aaron Courville, Alexandre Lacoste(参考訳) 視覚感覚データから人工エージェントを制御するのは大変な作業だ。 強化学習(RL)アルゴリズムはこれに成功するが、エージェントと環境の間の大量の相互作用を必要とする。 問題を緩和するために、教師なしのRLは、将来のタスクに迅速に適応するために、自己教師付きインタラクションと学習を採用することを提案する。 しかし、現在の教師なし戦略が一般化能力を改善するかどうかは、特に視覚的制御設定においてまだ不明である。 本研究では、データ効率のよい視覚制御のための効率的な教師なしRL戦略を設計する。 まず,教師なしrlを用いて収集したデータを用いて事前学習した世界モデルが,今後の課題への適応を容易にすることを示す。 そこで我々は,Dyna-MPCをダブしたハイブリッドプランナーを用いて,エージェントの学習済みコンポーネントを効果的に再利用し,想像力で学習と計画を行う設計選択について分析した。 大規模な実証研究の成果を組み合わせることで、教師なしRLベンチマークの性能を強く向上させるアプローチを確立し、教師付き手法の性能に合わせるために20$\times$以下のデータを必要とする。 このアプローチはまた、Real-Word RLベンチマークで堅牢なパフォーマンスを示し、このアプローチがノイズの多い環境に一般化することを示唆している。

Controlling artificial agents from visual sensory data is an arduous task. Reinforcement learning (RL) algorithms can succeed in this but require large amounts of interactions between the agent and the environment. To alleviate the issue, unsupervised RL proposes to employ self-supervised interaction and learning, for adapting faster to future tasks. Yet, whether current unsupervised strategies improve generalization capabilities is still unclear, especially in visual control settings. In this work, we design an effective unsupervised RL strategy for data-efficient visual control. First, we show that world models pre-trained with data collected using unsupervised RL can facilitate adaptation for future tasks. Then, we analyze several design choices to adapt efficiently, effectively reusing the agents' pre-trained components, and learning and planning in imagination, with our hybrid planner, which we dub Dyna-MPC. By combining the findings of a large-scale empirical study, we establish an approach that strongly improves performance on the Unsupervised RL Benchmark, requiring 20$\times$ less data to match the performance of supervised methods. The approach also demonstrates robust performance on the Real-Word RL benchmark, hinting that the approach generalizes to noisy environments.
翻訳日:2022-09-27 14:37:20 公開日:2022-09-24
# クロスドメイン適応のための規則的振舞いパターンを用いたオープンエンディング多元解探索

Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns for Cross-Domain Adaptation ( http://arxiv.org/abs/2209.12029v1 )

ライセンス: Link先を確認
Kang Xu, Yan Ma, Wei Li, Bingsheng Wei(参考訳) 強化学習は複雑なタスクで印象的な結果をもたらすが、学習されたポリシーは一般に、マイナーなモデルミスマッチや予期しない摂動を伴う下流タスクで失敗する傾向がある。 近年の研究では、多様な行動特性を持つ政策集団が、様々な相違のある下流環境に一般化できることが示されている。 しかし、そのような政策は、訓練された政策の制約のない行動のため、現実世界のシステムのような実践的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。 さらに、行動の規制のない多様なポリシーの訓練は、ダイナミクスシフトを伴う幅広いテスト条件に外挿するための不適切なポリシーをもたらす可能性がある。 本研究では,行動パターンの規則化の下で多様な政策を訓練することを目的とする。 我々は,部分状態情報を用いた環境の逆ダイナミクスを観察し,その一般化に資する望ましいパターンを発見するために,規制の多様性を訓練するdir(diversity in regulation)を提案する。 異なる環境の様々なバリエーションに関する実験結果から,本手法が他の多様性駆動手法よりも改善できることが示唆された。

While Reinforcement Learning can achieve impressive results for complex tasks, the learned policies are generally prone to fail in downstream tasks with even minor model mismatch or unexpected perturbations. Recent works have demonstrated that a policy population with diverse behavior characteristics can generalize to downstream environments with various discrepancies. However, such policies might result in catastrophic damage during the deployment in practical scenarios like real-world systems due to the unrestricted behaviors of trained policies. Furthermore, training diverse policies without regulation of the behavior can result in inadequate feasible policies for extrapolating to a wide range of test conditions with dynamics shifts. In this work, we aim to train diverse policies under the regularization of the behavior patterns. We motivate our paradigm by observing the inverse dynamics in the environment with partial state information and propose Diversity in Regulation(DiR) training diverse policies with regulated behaviors to discover desired patterns that benefit the generalization. Considerable empirical results on various variations of different environments indicate that our method attains improvements over other diversity-driven counterparts.
翻訳日:2022-09-27 14:37:01 公開日:2022-09-24
# Spiking SiamFC++: オブジェクト追跡のためのディープスパイキングニューラルネットワーク

Spiking SiamFC++: Deep Spiking Neural Network for Object Tracking ( http://arxiv.org/abs/2209.12010v1 )

ライセンス: Link先を確認
Shuiying Xiang, Tao Zhang, Shuqing Jiang, Yanan Han, Yahui Zhang, Chenyang Du, Xingxing Guo, Licun Yu, Yuechun Shi and Yue Hao(参考訳) スパイキングニューラルネットワーク(SNN)は生物学的に証明可能なモデルであり、高い計算能力と低消費電力の利点を示す。 ディープSNNのトレーニングは依然としてオープンな問題であるが、ディープSNNの実際の応用は制限されている。 本稿では,オブジェクトトラッキングのためのSNNアーキテクチャであるSpike SiamFC++を提案する。 具体的には、AlexNetネットワークを時間領域に拡張して特徴を抽出し、SNNの直接教師付きトレーニングを実現するために代理勾配関数を採用する。 Spiking SiamFC++の性能を調べるために、OTB2013, OTB2015, VOT2015, VOT2016, UAV123などの追跡ベンチマークが検討されている。 その結果,SiamFC++と比較して精度の低下は小さいことがわかった。 既存のSNNベースのターゲットトラッカー、例えばSiamSNNと比較して、提案されているSpike SiamFC++の精度(サクセス)は85.24%(64.37%)に達し、SiamSNNが達成した52.78%(44.32%)よりもはるかに高い。 我々の知る限り、Spking SiamFC++のパフォーマンスは、SNNベースのオブジェクトトラッキングにおける既存の最先端アプローチよりも優れており、ターゲットトラッキング分野におけるSNNアプリケーションの新しいパスを提供する。 この研究は、SNNアルゴリズムとニューロモルフィックチップの開発をさらに促進する可能性がある。

Spiking neural network (SNN) is a biologically-plausible model and exhibits advantages of high computational capability and low power consumption. While the training of deep SNN is still an open problem, which limits the real-world applications of deep SNN. Here we propose a deep SNN architecture named Spiking SiamFC++ for object tracking with end-to-end direct training. Specifically, the AlexNet network is extended in the time domain to extract the feature, and the surrogate gradient function is adopted to realize direct supervised training of the deep SNN. To examine the performance of the Spiking SiamFC++, several tracking benchmarks including OTB2013, OTB2015, VOT2015, VOT2016, and UAV123 are considered. It is found that, the precision loss is small compared with the original SiamFC++. Compared with the existing SNN-based target tracker, e.g., the SiamSNN, the precision (succession) of the proposed Spiking SiamFC++ reaches 85.24% (64.37%), which is much higher than that of 52.78% (44.32%) achieved by the SiamSNN. To our best knowledge, the performance of the Spiking SiamFC++ outperforms the existing state-of-the-art approaches in SNN-based object tracking, which provides a novel path for SNN application in the field of target tracking. This work may further promote the development of SNN algorithms and neuromorphic chips.
翻訳日:2022-09-27 14:28:21 公開日:2022-09-24
# マルチエクイットアーキテクチャを用いた共同音声活動とオーバーラップ検出

Joint Speech Activity and Overlap Detection with Multi-Exit Architecture ( http://arxiv.org/abs/2209.11906v1 )

ライセンス: Link先を確認
Ziqing Du, Kai Liu, Xucheng Wan, Huan Zhou(参考訳) オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。 多くの研究努力と進歩にもかかわらず、音声活動検出(VAD)と比較すると、OSDは依然としてオープンな課題であり、全体的な性能は十分ではない。 先行研究の大多数は、標準分類問題としてOSD問題を定式化し、フレームレベルでバイナリ(OSD)または3クラスラベル(VADとOSD)を識別する。 本研究は,本研究の主流とは対照的に,新たな視点からvadとosdの共同作業について検討する。 特に,マルチエクイットアーキテクチャを用いた従来の分類ネットワークの拡張を提案する。 このようなアーキテクチャは,早期終了時の低レベル機能と最終終了時の高レベル機能のいずれかを使用して,クラスを識別するユニークな機能をシステムに提供する。 さらに, システム性能を高めるために, 知識蒸留と密接な接続という2つの訓練手法を採用した。 ベンチマークデータセット(AMIとDIHARD-III)による実験結果から,提案システムの有効性と汎用性を検証した。 さらに,提案手法の補完的貢献も明らかにした。 AMIで0.792ドル、DIHARD-IIIで0.625ドルという価格で、提案システムはこれらのデータセットでいくつかのトップパフォーマンスモデルよりも優れています。 性能上のメリットに加えて,提案システムでは,OSDの効率的な展開に好適な品質・複雑さトレードオフの可能性も備えている。

Overlapped speech detection (OSD) is critical for speech applications in scenario of multi-party conversion. Despite numerous research efforts and progresses, comparing with speech activity detection (VAD), OSD remains an open challenge and its overall performance is far from satisfactory. The majority of prior research typically formulates the OSD problem as a standard classification problem, to identify speech with binary (OSD) or three-class label (joint VAD and OSD) at frame level. In contrast to the mainstream, this study investigates the joint VAD and OSD task from a new perspective. In particular, we propose to extend traditional classification network with multi-exit architecture. Such an architecture empowers our system with unique capability to identify class using either low-level features from early exits or high-level features from last exit. In addition, two training schemes, knowledge distillation and dense connection, are adopted to further boost our system performance. Experimental results on benchmark datasets (AMI and DIHARD-III) validated the effectiveness and generality of our proposed system. Our ablations further reveal the complementary contribution of proposed schemes. With $F_1$ score of 0.792 on AMI and 0.625 on DIHARD-III, our proposed system outperforms several top performing models on these datasets, but also surpasses the current state-of-the-art by large margins across both datasets. Besides the performance benefit, our proposed system offers another appealing potential for quality-complexity trade-offs, which is highly preferred for efficient OSD deployment.
翻訳日:2022-09-27 14:20:59 公開日:2022-09-24
# 回帰型弱学習者を用いた一致型Survival Cobra

Concordance based Survival Cobra with regression type weak learners ( http://arxiv.org/abs/2209.11919v1 )

ライセンス: Link先を確認
Rahul Goswami, Arabin Kumar Dey(参考訳) 本稿では,複合回帰戦略を用いて条件付き生存関数を予測する。 我々は弱い学習者を無作為な生存木として捉えている。 本稿では,最適パラメータを求めるために,右集束の一致度を最大化することを提案する。 本研究では,コンセンサス指数に基づく生存コブラと新しい重み付き予測器の2つのアプローチを探索する。 提案手法では,マックスノルムとフロベニウスノルムの2つの異なるノルムを用いて,テストデータセット内の問合せ点から近接する予測集合を求める。 3つの異なる実生活データセット実装を通してアルゴリズムを説明します。

In this paper, we predict conditional survival functions through a combined regression strategy. We take weak learners as different random survival trees. We propose to maximize concordance in the right-censored set up to find the optimal parameters. We explore two approaches, a usual survival cobra and a novel weighted predictor based on the concordance index. Our proposed formulations use two different norms, say, Max-norm and Frobenius norm, to find a proximity set of predictions from query points in the test dataset. We illustrate our algorithms through three different real-life dataset implementations.
翻訳日:2022-09-27 14:19:54 公開日:2022-09-24
# キリル・トラジタルモンゴルの双方向変換におけるRNNと自己注意の深い検討

A Deep Investigation of RNN and Self-attention for the Cyrillic-Traditional Mongolian Bidirectional Conversion ( http://arxiv.org/abs/2209.11963v1 )

ライセンス: Link先を確認
Muhan Na, Rui Liu, Feilong and Guanglai Gao(参考訳) キリル文字と伝統的なモンゴル文字はモンゴル文字体系の主要な2つの要素である。 キリル・トラジタル・モンゴルの双方向変換(CTMBC)タスクには、キリル・モンゴル人(C2T)と伝統的モンゴル人(T2C)の2つの変換プロセスが含まれる。 従来、CTMBCタスクはSeq2Seq(Sequence-to-Sequence)モデリングの問題であるため、ジョイントシーケンスモデルが採用されていた。 近年の研究では、Recurrent Neural Network(RNN)とSelf-attention(あるいはTransformer)ベースのエンコーダデコーダモデルが、マンダリン、英語、フランス語などの主要言語間の機械翻訳タスクを大幅に改善していることが示されている。 しかし、RNNモデルとTransformerモデルを利用してCTMBCの品質を向上できるかどうかについては、未解決の問題が残っている。 本稿では,これら2つの強力なCTMBCタスクの有用性とモンゴル語の凝集特性について検討する。 我々はそれぞれRNNとTransformerに基づくエンコーダデコーダに基づくCTMBCモデルを構築し、異なるネットワーク構成を深く比較する。 実験の結果,RNNモデルとTransformerモデルの両方が従来のジョイントシーケンスモデルより優れており,Transformerが最高の性能を発揮することがわかった。 C2T と T2C の変換器の単語誤り率 (WER) はそれぞれ 5.72 % と 5.06 % に減少した。

Cyrillic and Traditional Mongolian are the two main members of the Mongolian writing system. The Cyrillic-Traditional Mongolian Bidirectional Conversion (CTMBC) task includes two conversion processes, including Cyrillic Mongolian to Traditional Mongolian (C2T) and Traditional Mongolian to Cyrillic Mongolian conversions (T2C). Previous researchers adopted the traditional joint sequence model, since the CTMBC task is a natural Sequence-to-Sequence (Seq2Seq) modeling problem. Recent studies have shown that Recurrent Neural Network (RNN) and Self-attention (or Transformer) based encoder-decoder models have shown significant improvement in machine translation tasks between some major languages, such as Mandarin, English, French, etc. However, an open problem remains as to whether the CTMBC quality can be improved by utilizing the RNN and Transformer models. To answer this question, this paper investigates the utility of these two powerful techniques for CTMBC task combined with agglutinative characteristics of Mongolian language. We build the encoder-decoder based CTMBC model based on RNN and Transformer respectively and compare the different network configurations deeply. The experimental results show that both RNN and Transformer models outperform the traditional joint sequence model, where the Transformer achieves the best performance. Compared with the joint sequence baseline, the word error rate (WER) of the Transformer for C2T and T2C decreased by 5.72\% and 5.06\% respectively.
翻訳日:2022-09-27 14:19:04 公開日:2022-09-24
# オープンドメイン創造性と公正性のための制御可能なテキスト生成

Controllable Text Generation for Open-Domain Creativity and Fairness ( http://arxiv.org/abs/2209.12099v1 )

ライセンス: Link先を確認
Nanyun Peng(参考訳) 大規模事前学習された言語モデルの最近の進歩は、自然言語の生成に強力な結果をもたらし、機械翻訳やテキスト要約のような多くの自然言語生成(nlg)アプリケーションのパフォーマンスを大幅に改善した。 しかし、生成タスクがよりオープンで、コンテンツが過小評価されている場合、既存の技術は長期的なコヒーレントで創造的なコンテンツを生成するのに苦労する。 さらに、モデルはトレーニングコーパスから学んだ社会的偏見を示し、増幅する。 これは、生成モデルが、基礎となる意味論や談話構造や社会的規範を含む背景知識を捉えるのではなく、表面パターン(すなわち単語のシーケンス)を捉えるように訓練されているためである。 本稿では,言語生成モデルの創造性と公平性を高めるために,制御可能なテキスト生成に関する最近の研究を紹介する。 我々は階層的生成と制約付き復号化を探求し、物語、詩、図形言語を含む創造的な言語生成、および世代モデルのバイアス緩和に適用する。

Recent advances in large pre-trained language models have demonstrated strong results in generating natural languages and significantly improved performances for many natural language generation (NLG) applications such as machine translation and text summarization. However, when the generation tasks are more open-ended and the content is under-specified, existing techniques struggle to generate long-term coherent and creative content. Moreover, the models exhibit and even amplify social biases that are learned from the training corpora. This happens because the generation models are trained to capture the surface patterns (i.e. sequences of words), instead of capturing underlying semantics and discourse structures, as well as background knowledge including social norms. In this paper, I introduce our recent works on controllable text generation to enhance the creativity and fairness of language generation models. We explore hierarchical generation and constrained decoding, with applications to creative language generation including story, poetry, and figurative languages, and bias mitigation for generation models.
翻訳日:2022-09-27 14:18:34 公開日:2022-09-24
# 知覚的モチベーション付き最適化とデュアル変換による音声強調

Speech Enhancement with Perceptually-motivated Optimization and Dual Transformations ( http://arxiv.org/abs/2209.11905v1 )

ライセンス: Link先を確認
Xucheng Wan, Kai Liu, Ziqing Du, Huan Zhou(参考訳) モノーラル音声強調問題に対処するために、音声混合から学習した内領域の時間領域または固定された全帯域短時間フーリエ変換(stft)の時間領域の操作を通して音声を強化するための研究が数多く行われている。 近年,サブバンドに基づく音声強調に関する研究がいくつか提案されている。 これらの研究は,サブバンドスペクトログラムの操作による音声強調により,DNS2020のベンチマークデータセット上での競合性能を実証した。 魅力的な研究だが、この新たな研究の方向性は十分に調査されておらず、まだ改善の余地がある。 そこで本研究では,PT-FSEと呼ばれる,知覚的モチベーションのある最適化と二重変換を備えたサブバンド音声強調システムを提案する。 特に,提案するPT-FSEモデルでは,バックボーン,フルバンドおよびサブバンド融合モデルの改良を3回行った。 まず,大域的周波数相関の強化を目的とした周波数変換モジュールを設計する。 その後、時間変換を導入して、長期の時間的コンテキストをキャプチャする。 最後に,人間の聴覚知覚の特性を活かし,低周波強調に焦点をあてた新しい損失モデルを提案する。 提案手法の有効性を検証するため,DNS2020データセットを用いて実験を行った。 実験の結果, PT-FSE システムは背骨よりも大幅に改善されているが, SOTA よりも27 % 小さく, 現状よりも優れていた。 ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。

To address the monaural speech enhancement problem, numerous research studies have been conducted to enhance speech via operations either in time-domain on the inner-domain learned from the speech mixture or in time--frequency domain on the fixed full-band short time Fourier transform (STFT) spectrograms. Very recently, a few studies on sub-band based speech enhancement have been proposed. By enhancing speech via operations on sub-band spectrograms, those studies demonstrated competitive performances on the benchmark dataset of DNS2020. Despite attractive, this new research direction has not been fully explored and there is still room for improvement. As such, in this study, we delve into the latest research direction and propose a sub-band based speech enhancement system with perceptually-motivated optimization and dual transformations, called PT-FSE. Specially, our proposed PT-FSE model improves its backbone, a full-band and sub-band fusion model, by three efforts. First, we design a frequency transformation module that aims to strengthen the global frequency correlation. Then a temporal transformation is introduced to capture long range temporal contexts. Lastly, a novel loss, with leverage of properties of human auditory perception, is proposed to facilitate the model to focus on low frequency enhancement. To validate the effectiveness of our proposed model, extensive experiments are conducted on the DNS2020 dataset. Experimental results show that our PT-FSE system achieves substantial improvements over its backbone, but also outperforms the current state-of-the-art while being 27\% smaller than the SOTA. With average NB-PESQ of 3.57 on the benchmark dataset, our system offers the best speech enhancement results reported till date.
翻訳日:2022-09-27 14:09:33 公開日:2022-09-24
# 言語モデルとトランスフォーマーによるチェスの学習

Learning Chess With Language Models and Transformers ( http://arxiv.org/abs/2209.11902v1 )

ライセンス: Link先を確認
Michael DeLeo, Erhan Guven(参考訳) ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。 言語モデルは、ゲームの教師なし学習ルール、プレイヤーの行動パターンの検出、プレイヤーの帰属、最終的にゲームの状態を破るためにゲームを学ぶなど、さまざまな興味深い問題に対する洞察を得るのに役立つ。 本研究では,まず,単純なnimゲームにbertモデルを適用し,数発学習アーキテクチャのセットアップにおいて,ノイズの存在下でのパフォーマンスを解析した。 我々は,Nim Guru,Random Player,Q-learnerという3つの仮想プレイヤーを用いてモデル性能を解析した。 第2部では,ゲーム学習言語モデルをチェスゲームに適用し,百科事典を網羅した大量のグランドマスターゲームについて検討した。 最後に, モデルがチェスゲームのルールを実質的に学習し, カテゴリーAのレーティングレベルにおいてストックフィッシュと対戦して生き残ることを示す。

Representing a board game and its positions by text-based notation enables the possibility of NLP applications. Language models, can help gain insight into a variety of interesting problems such as unsupervised learning rules of a game, detecting player behavior patterns, player attribution, and ultimately learning the game to beat state of the art. In this study, we applied BERT models, first to the simple Nim game to analyze its performance in the presence of noise in a setup of a few-shot learning architecture. We analyzed the model performance via three virtual players, namely Nim Guru, Random player, and Q-learner. In the second part, we applied the game learning language model to the chess game, and a large set of grandmaster games with exhaustive encyclopedia openings. Finally, we have shown that model practically learns the rules of the chess game and can survive games against Stockfish at a category-A rating level.
翻訳日:2022-09-27 14:01:53 公開日:2022-09-24
# ユーモア検出のためのハイブリッドマルチモーダル融合

Hybrid Multimodal Fusion for Humor Detection ( http://arxiv.org/abs/2209.11949v1 )

ライセンス: Link先を確認
Haojie Xu, Weifeng Liu, Jingwei Liu, Mingzheng Li, Yu Feng, Yasi Peng, Yunwei Shi, Xiao Sun and Meng Wang(参考訳) 本稿では,Multimodal Emotional Challenge (MuSe) 2022の MuSe-Humor sub-challenge について述べる。 MuSe-Humorサブチャレンジの目標は、ドイツのサッカー・ブンデスリーガ・プレス・カンファレンスの音声映像記録からユーモアを検出し、AUCを計算することである。 コーチによるユーモアの注釈が付けられている。 このサブキャレンジに対して,まずトランスフォーマーモジュールとbilstmモジュールを用いた識別モデルを構築し,次に各モードの予測結果を用いてモデルの性能を向上させるハイブリッド融合戦略を提案する。 実験では,本モデルとハイブリッド核融合戦略がマルチモーダル核融合に及ぼす影響を実証し,テストセット上でのモデルAUCは0.8972である。

In this paper, we present our solution to the MuSe-Humor sub-challenge of the Multimodal Emotional Challenge (MuSe) 2022. The goal of the MuSe-Humor sub-challenge is to detect humor and calculate AUC from audiovisual recordings of German football Bundesliga press conferences. It is annotated for humor displayed by the coaches. For this sub-challenge, we first build a discriminant model using the transformer module and BiLSTM module, and then propose a hybrid fusion strategy to use the prediction results of each modality to improve the performance of the model. Our experiments demonstrate the effectiveness of our proposed model and hybrid fusion strategy on multimodal fusion, and the AUC of our proposed model on the test set is 0.8972.
翻訳日:2022-09-27 14:01:36 公開日:2022-09-24
# TransPOS: 異なるPOSタグセットを統合するためのトランスフォーマー

TransPOS: Transformers for Consolidating Different POS Tagset Datasets ( http://arxiv.org/abs/2209.11959v1 )

ライセンス: Link先を確認
Alex Li, Ilyas Bankole-Hameed, Ranadeep Singh, Gabriel Shen Han Ng, Akshat Gupta(参考訳) トレーニングデータの拡大を期待する研究者は、異なるラベリングスキームを使用して作成された2つ以上のデータセットをマージしたい場合が多い。 本稿では、異なるタグ付け方式の下で、POSタグをラベル付けする2つのデータセットを検討し、一方のデータセットの教師付きラベルを利用して、他方のデータセットのラベルを生成する。 本稿では, 提案手法の理論的難しさをさらに議論し, 2つの完全不整合データセットの統合問題に対処するため, トランスフォーマーを用いた新しい教師付きアーキテクチャを提案する。 結果は、最初の期待から分岐し、異なるラベルでデータセットを統合するために非結合ラベルの使用を阻止する。

In hope of expanding training data, researchers often want to merge two or more datasets that are created using different labeling schemes. This paper considers two datasets that label part-of-speech (POS) tags under different tagging schemes and leverage the supervised labels of one dataset to help generate labels for the other dataset. This paper further discusses the theoretical difficulties of this approach and proposes a novel supervised architecture employing Transformers to tackle the problem of consolidating two completely disjoint datasets. The results diverge from initial expectations and discourage exploration into the use of disjoint labels to consolidate datasets with different labels.
翻訳日:2022-09-27 14:01:24 公開日:2022-09-24
# ディグ:人間の体の上に暗黙の衣服を描く

DIG: Draping Implicit Garment over the Human Body ( http://arxiv.org/abs/2209.10845v2 )

ライセンス: Link先を確認
Ren Li, Beno\^it Guillard, Edoardo Remelli, Pascal Fua(参考訳) 既存のデータ駆動による人体上の衣服のドローイング手法は有効ではあるが、任意のトポロジーの衣服を扱うことはできず、通常はエンドツーエンドの微分可能ではない。 そこで本研究では,これらの制約に対処するために,衣服を暗黙の面で表現し,物体モデルの形状やポーズパラメータを条件としたスキンフィールドを学習する,エンドツーエンドの微分可能パイプラインを提案する。 身体装具の相互接続やアーティファクトを制限するため,トレーニングデータの相互接続を考慮した事前処理戦略と,衣服をドラップしながら自己切断を罰する新たなトレーニング損失を提案する。 本手法は, 美術工法の現状に対して, 衣服の復元と変形について, より正確な結果が得られることを実証する。 さらに,本手法では, 画像観察から身体と衣服のパラメータを復元することが可能であり, 従来の作業ではできなかったことが確認できた。

Existing data-driven methods for draping garments over human bodies, despite being effective, cannot handle garments of arbitrary topology and are typically not end-to-end differentiable. To address these limitations, we propose an end-to-end differentiable pipeline that represents garments using implicit surfaces and learns a skinning field conditioned on shape and pose parameters of an articulated body model. To limit body-garment interpenetrations and artifacts, we propose an interpenetration-aware pre-processing strategy of training data and a novel training loss that penalizes self-intersections while draping garments. We demonstrate that our method yields more accurate results for garment reconstruction and deformation with respect to state of the art methods. Furthermore, we show that our method, thanks to its end-to-end differentiability, allows to recover body and garments parameters jointly from image observations, something that previous work could not do.
翻訳日:2022-09-27 11:22:11 公開日:2022-09-24
# 実世界ナビゲーションのためのリアルタイム注意を伴う学習モデル予測コントローラ

Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation ( http://arxiv.org/abs/2209.10780v2 )

ライセンス: Link先を確認
Xuesu Xiao, Tingnan Zhang, Krzysztof Choromanski, Edward Lee, Anthony Francis, Jake Varley, Stephen Tu, Sumeet Singh, Peng Xu, Fei Xia, Sven Mikael Persson, Dmitry Kalashnikov, Leila Takayama, Roy Frostig, Jie Tan, Carolina Parada, Vikas Sindhwani(参考訳) 何十年にもわたる研究にもかかわらず、既存のナビゲーションシステムは、乱雑な家庭環境や人里離れた公共空間などにおいて、現実世界の課題に直面している。 そこで本研究では,模擬学習の利点とモデル予測制御(MPC)によるシステム制約の頑健な処理を組み合わせた,暗黙的な制御ポリシーのクラスを提案する。 performer-mpcと呼ばれるこのアプローチでは、視覚コンテキスト埋め込みによってパラメータ化された学習コスト関数を使用する。 我々はコスト関数を共同で訓練し、それに依存するコントローラを構築し、対応する双方向最適化問題を効果的に解決する。 その結果,実世界の異なるシナリオにおいて,望ましいナビゲーション行動のエキスパート・デモをいくつか活用することにより,mpcの標準性能が向上することを示す。 標準的なMPCポリシーと比較して、Performer-MPCは乱雑な環境で達成した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。

Despite decades of research, existing navigation systems still face real-world challenges when deployed in the wild, e.g., in cluttered home environments or in human-occupied public spaces. To address this, we present a new class of implicit control policies combining the benefits of imitation learning with the robust handling of system constraints from Model Predictive Control (MPC). Our approach, called Performer-MPC, uses a learned cost function parameterized by vision context embeddings provided by Performers -- a low-rank implicit-attention Transformer. We jointly train the cost function and construct the controller relying on it, effectively solving end-to-end the corresponding bi-level optimization problem. We show that the resulting policy improves standard MPC performance by leveraging a few expert demonstrations of the desired navigation behavior in different challenging real-world scenarios. Compared with a standard MPC policy, Performer-MPC achieves >40% better goal reached in cluttered environments and >65% better on social metrics when navigating around humans.
翻訳日:2022-09-27 11:21:55 公開日:2022-09-24
# 病原性発見のための構造ガイドマニフォールド

Structure Guided Manifolds for Discovery of Disease Characteristics ( http://arxiv.org/abs/2209.11015v2 )

ライセンス: Link先を確認
Siyu Liu, Linfeng Liu, Xuan Vinh, Stuart Crozier, Craig Engstrom, Fatima Nasrallah, Shekhar Chandra(参考訳) 医用画像解析において、多くの疾患の微妙な視覚的特徴は、特にペアデータがないために識別が困難である。 例えば、軽度アルツハイマー病(AD)では、純粋な画像データから脳組織萎縮を観察することは困難である。 本研究は、微妙な疾患の特徴を発見・可視化するための弱い教師付きスタイルベースのフレームワークである病的発見GAN(DiDiGAN)を提示する。 ディディガンはadとcnの視覚特性の疾患多様体を学習し、この多様体からサンプリングされたスタイルコードは解剖学的構造である「ブループリント」に課され、ペアドadとcn磁気共鳴画像(mri)を合成する。 DiDiGANは、生成したADとCNの非相転移を抑えるために、サイクル一貫性とアンチエイリアシングによる構造的制約を活用し、解剖学的対応を強制する。 アルツハイマー病神経画像イニシアチブ(ADNI)データセットで試験したところ、DiDiGANはADスキャンとCNスキャンを併用することにより、主要なAD特性(海馬容積、心室拡張、皮質構造の萎縮)を示した。 定性的な結果は自動脳容積分析によって裏付けられ、脳組織構造の系統的一対の縮小も測定された。

In medical image analysis, the subtle visual characteristics of many diseases are challenging to discern, particularly due to the lack of paired data. For example, in mild Alzheimer's Disease (AD), brain tissue atrophy can be difficult to observe from pure imaging data, especially without paired AD and Cognitively Normal ( CN ) data for comparison. This work presents Disease Discovery GAN ( DiDiGAN), a weakly-supervised style-based framework for discovering and visualising subtle disease features. DiDiGAN learns a disease manifold of AD and CN visual characteristics, and the style codes sampled from this manifold are imposed onto an anatomical structural "blueprint" to synthesise paired AD and CN magnetic resonance images (MRIs). To suppress non-disease-related variations between the generated AD and CN pairs, DiDiGAN leverages a structural constraint with cycle consistency and anti-aliasing to enforce anatomical correspondence. When tested on the Alzheimer's Disease Neuroimaging Initiative ( ADNI) dataset, DiDiGAN showed key AD characteristics (reduced hippocampal volume, ventricular enlargement, and atrophy of cortical structures) through synthesising paired AD and CN scans. The qualitative results were backed up by automated brain volume analysis, where systematic pair-wise reductions in brain tissue structures were also measured
翻訳日:2022-09-27 11:19:58 公開日:2022-09-24