このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221116となっている論文です。

PDF登録状況(公開日: 20221116)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子状態ルータを用いたモジュラー量子コンピュータ

A modular quantum computer based on a quantum state router ( http://arxiv.org/abs/2109.06848v3 )

ライセンス: Link先を確認
Chao Zhou, Pinlei Lu, Matthieu Praquin, Tzu-Chiao Chien, Ryan Kaufman, Xi Cao, Mingkang Xia, Roger Mong, Wolfgang Pfaff, David Pekker and Michael Hatridge(参考訳) 大規模量子プロセッサを実現するための中心的な課題は、qubit-qubit接続の設計と実現である。 一方、これらの接続は高速な2量子ビットゲートを可能にするのに十分な強度が必要であり、一方、追加の損失やクロストークエラーを避けるためにモード間の密着性が必要となる。 最後に、プロセッサの異なる部分を個別に構築/テスト/置換できるように、接続を「取り外し可能」にしたいとも思っています。 本研究では,超伝導量子ビットの独立および分離可能な4つの量子モジュール間の全対全結合を実現するマイクロ波量子状態ルータを提案する。 各モジュールは1つのトランスモン、読み出しモード、ルータに結合された通信モードで構成される。 ルータの設計は、モジュールの通信モード間で光子交換を生成するパラメトリック駆動のジョセフソン接合に基づく3波混合素子を中心にしている。 まず、4つの通信モード間のコヒーレント光子交換を実演し、平均iswap時間は760nsであり、平均的なモジュール間ゲート忠実度は0.97である。 また、モジュールの量子ビット間の光子移動とペアの絡み合い、およびルータ間の同時iSWAPの並列動作を示す。 ここで実証されたゲートは、高速で高忠実なルータ操作に容易に拡張でき、量子モジュールのより大きなネットワークをサポートするためにスケールできる。

A central challenge for realizing large-scale quantum processors is the design and realization of qubit-qubit connectivity. On the one hand, these connections need to be strong enough to enable fast two-qubit gates, while on the other hand, they must be well-confined between modes to avoid extra loss and cross-talk errors. Finally, we also desire the connections to be made in a "detachable" way, so that different parts of the processor can be built/tested/replaced individually. In this work, we present a microwave quantum state router that realizes all-to-all couplings among four independent and detachable quantum modules of superconducting qubits. Each module consists of a single transmon, readout mode, and communication mode coupled to the router. The router design centers on a parametrically driven, Josephson-junction based three-wave mixing element which generates photon exchange among the modules' communication modes. We first demonstrate coherent photon exchange among four communication modes, with an average full-iSWAP time of 760ns and average inter-module gate fidelity of 0.97, limited by our modes' coherence times. We also demonstrate photon transfer and pairwise entanglement between the modules' qubits, and parallel operation of simultaneous iSWAPs across the router. The gates demonstrated here can readily be extended to faster and higher-fidelity router operations, as well as scaled to support larger networks of quantum modules.
翻訳日:2023-03-15 03:05:41 公開日:2022-11-16
# 通信波長におけるフォトニック量子ビットのオンデマンドストレージ

On-demand storage of photonic qubits at telecom wavelengths ( http://arxiv.org/abs/2201.03692v2 )

ライセンス: Link先を確認
Duan-Cheng Liu, Pei-Yun Li, Tian-Xiang Zhu, Liang Zheng, Jian-Yin Huang, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo(参考訳) テレコム波長での量子メモリは、既存のファイバーネットワークに基づく大規模量子ネットワークの構築に不可欠である。 テレコムフォトニックキュービットのオンデマンドストレージは、そのようなネットワークアプリケーションに対する基本的な要求であるが、まだ実証されていない。 ここでは,167}$er$^{3+}$:y$_2$sio$_5$結晶で作製したレーザ光導波路を用いて,通信用フォトニック量子ビットの保存とオンデマンド検索を示す。 導波路メモリの両端は、ファイバ対ファイバ効率が51%のファイバアレイと直接接続される。 単一の光子レベルコヒーレントパルスで符号化されたタイムビン量子ビットでは、98.3(1)%の記憶忠実性が得られる。 このデバイスは信頼性が高く、スケーラビリティが容易で、ファイバネットワークに直接統合できるため、ファイバベースの量子ネットワークにおいて重要な役割を果たす。

Quantum memories at telecom wavelengths are crucial for the construction of large-scale quantum networks based on existing fiber networks. On-demand storage of telecom photonic qubits is a fundamental request for such networking applications but yet to be demonstrated. Here we demonstrate the storage and on-demand retrieval of telecom photonic qubits using a laser-written waveguide fabricated in an $^{167}$Er$^{3+}$:Y$_2$SiO$_5$ crystal. Both ends of the waveguide memory are directly connected with fiber arrays with a fiber-to-fiber efficiency of 51%. Storage fidelity of 98.3(1)% can be obtained for time-bin qubits encoded with single-photon-level coherent pulses, which is far beyond the maximal fidelity that can be achieved with a classical measure and prepare strategy. This device features high reliability, easy scalability and can be directly integrated into fiber networks, which could play an essential role in fiber-based quantum networks.
翻訳日:2023-03-01 19:26:33 公開日:2022-11-16
# では、どのツイートをニュース記事に含めるのか? ツイート埋め込みのchronemics

Which tweets 'deserve' to be included in news stories? Chronemics of tweet embedding ( http://arxiv.org/abs/2211.09185v1 )

ライセンス: Link先を確認
Munif Ishad Mujib, Asta Zelenkauskaite, Jake Ryland Williams(参考訳) ニュースソースとしてのソーシャルメディアコンテンツ、特にツイートの使用と選択は、ニュース制作の慣行の不可欠な部分となっている。 しかし、ニュースメディアがソーシャルメディアの利用を統合する実践のマッピングと範囲は、いまだに不足している。 本研究は、ソーシャルメディアコンテンツ統合に関連する選択を行うニュースメディアの組織的実践として、メディアエコシステムにおける即時性の圧力に焦点を当てる。 ツイートを埋め込んだ大量のニュースソースを分析して、ツイートの埋め込みに要する時間として概念化されたchronemicsの概念に焦点をあてて、ツイートの埋め込みプラクティスを分析した。 24/7のニュースサイクルの継続的なプレッシャーを考えると、時間的制約は特にジャーナリストの慣行を圧迫している。 どのタイプのメディアがツイートを埋め込むのが早いのか、どのタイプのユーザーのツイートがすぐに埋め込まれる可能性が高いのか?

The use and selection of user-generated social media content, specifically tweets, as a news source has become an integral part of news production practice. Yet, the mapping and the extent of the nature of the practices in which news outlets integrate social media use are still lacking. This study focuses on the pressures of immediacy on the media ecosystems, i.e., as organizational practices of news outlets that make choices related to social media content integration. By analyzing a large corpora of news outlets that have embedded tweets, this study analyzes tweet embedding practices by specifically focusing on the concept of chronemics, conceptualized here as the time needed to embed tweets. Temporal constraints are particularly pressing for journalistic practices, given the continuous pressures of the 24/7 news cycle. We ask two main questions: which types of outlets are quicker to embed tweets, and which types of users' tweets are more likely to be embedded quickly?
翻訳日:2023-02-19 12:29:06 公開日:2022-11-16
# facebook上のコミュニティギフトグループ

Community gifting groups on Facebook ( http://arxiv.org/abs/2211.09043v1 )

ライセンス: Link先を確認
Ama\c{c} Herda\u{g}delen and Lada Adamic and Bogdan State(参考訳) 私たちは、facebookグループからの匿名データを使用して、地元のギフト提供コミュニティ、特にbuy nothing(bn)グループの研究と記述分析を行っています。 これらのコミュニティは、もはや不要なアイテムを提供し、無駄を減らし、地元のコミュニティと結びつくことができる。 新型コロナウイルス(COVID-19)のパンデミックで、何百万人もの人々がFacebookのBNグループに加わった。 BNグループは高学歴の高密度および都市部の郡で人気がある。 他の地元のグループと比較すると、BNグループはFacebookの友情の密度を低くし、まだつながりのない人々をまとめていることを示唆している。 BN群の相互作用グラフはより大きい強連結成分を形成し、一般化された相互性のノルムを表す。 BNグループのインタラクションパターンは、他のローカルオンラインギフトギフトグループと似ており、"free things" や "pay it forward" といった用語を含む。 これは、地元のオンラインギフトギフトコミュニティのためのインタラクションシグネチャを指す。

We use de-identified data from Facebook Groups to study and provide a descriptive analysis of local gift-giving communities, in particular buy nothing (BN) groups. These communities allow people to give items they no longer need, reduce waste, and connect to local community. Millions of people have joined BN groups on Facebook, with an increasing pace through the COVID-19 pandemic. BN groups are more popular in dense and urban US counties with higher educational attainment. Compared to other local groups, BN groups have lower Facebook friendship densities, suggesting they bring together people who are not already connected. The interaction graphs in BN groups form larger strongly connected components, indicative of norms of generalized reciprocity. The interaction patterns in BN groups are similar to other local online gift-giving groups, with names containing terms such as `free stuff" and `pay it forward". This points to an interaction signature for local online gift-giving communities.
翻訳日:2023-02-19 12:28:51 公開日:2022-11-16
# コロナウイルスの統計は感情バイアスを引き起こす-ソーシャルメディアのテキストマイニングの観点から

Coronavirus statistics causes emotional bias: a social media text mining perspective ( http://arxiv.org/abs/2211.08644v1 )

ライセンス: Link先を確認
Linjiang Guo, Zijian Feng, Yuxue Chi, Mingzhu Wang, Yijun Liu(参考訳) 新型コロナウイルス(covid-19)は長い間、人間に影響を与えてきたが、人々はwebでパンデミック関連の情報を検索し、不安を引き起こしている。 従来の研究では、新型コロナウイルス感染者の数が否定的な感情を引き起こすことが確認されているが、輸入されたケースの数、地域ケースの数、政府指定のロックダウンゾーンの数など、さまざまな次元の統計が、人々の感情を刺激するためには、詳細な理解が必要である。 本稿は、新型コロナウイルス(covid-19)に関する人々の視点を得るために、まず、パンデミックに関連するテキストを場所ラベル付きテキストデータから分類するディープラーニングモデルを提案する。 次に,マルチタスク学習に基づく感情分析を行う。 最後に、感情分析の出力を伴う固定効果パネル回帰を実行する。 アルゴリズムの性能は有望な結果を示している。 実証研究は、地域ケースの数がリスク認知と肯定的に関連しているのに対し、輸入ケースの数は信頼度と負の関連があることを示し、なぜ国民が引き起こされたパンデミックを外国要因に割り当てる傾向があるのかを説明している。 さらに, 市町村の医療費が改善する一方, 市町村の医療費の回復が緩やかに進んでいることも確認した。 本研究は,認知バイアスによる統計情報の異なる情報源に基づいて,リスク認知と信頼性の理由を示す。 流行に関する情報に関する知識を補完する。 また、高度なディープラーニング技術を用いた感情分析と経験的回帰手法を組み合わせたフレームワークにも貢献する。

While COVID-19 has impacted humans for a long time, people search the web for pandemic-related information, causing anxiety. From a theoretic perspective, previous studies have confirmed that the number of COVID-19 cases can cause negative emotions, but how statistics of different dimensions, such as the number of imported cases, the number of local cases, and the number of government-designated lockdown zones, stimulate people's emotions requires detailed understanding. In order to obtain the views of people on COVID-19, this paper first proposes a deep learning model which classifies texts related to the pandemic from text data with place labels. Next, it conducts a sentiment analysis based on multi-task learning. Finally, it carries out a fixed-effect panel regression with outputs of the sentiment analysis. The performance of the algorithm shows a promising result. The empirical study demonstrates while the number of local cases is positively associated with risk perception, the number of imported cases is negatively associated with confidence levels, which explains why citizens tend to ascribe the protracted pandemic to foreign factors. Besides, this study finds that previous pandemic hits cities recover slowly from the suffering, while local governments' spending on healthcare can improve the situation. Our study illustrates the reasons for risk perception and confidence based on different sources of statistical information due to cognitive bias. It complements the knowledge related to epidemic information. It also contributes to a framework that combines sentiment analysis using advanced deep learning technology with the empirical regression method.
翻訳日:2023-02-19 12:28:37 公開日:2022-11-16
# 最小限のスーパービジョンでFacebookのワクチンキャンペーンを理解する

Understanding COVID-19 Vaccine Campaign on Facebook using Minimal Supervision ( http://arxiv.org/abs/2210.10031v2 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) 何十億というインターネットユーザーが情報や意見を共有しているソーシャルメディアの時代において、パンデミックのネガティブな影響は物理的な世界に限らない。 これは不完全、偏見、誤った情報の急増を引き起こし、インフォデミックとしても知られる。 この世界的インフォデミックは、パニック、ワクチンの行き詰まり、社会的な反応の断片化によって、パンデミックを制御する手段を脅かしている。 Facebookのようなプラットフォームは、広告主がメッセージを使って異なる層をターゲットにし、コンテンツに応じてインフォデミック問題を緩和または悪化させるのに役立つ。 本稿では、広告テーマと道徳的基盤を識別し、新型コロナウイルスに関連するFacebook上のメッセージを理解するための最小限のマルチタスク学習フレームワークを提案する。 さらに,ソーシャルメディア上でのワクチンキャンペーンのメッセージ戦略について,よりニュアンス的な分析を行い,政策立案者がパンデミック対策についてより良い決定を下せるようにした。

In the age of social media, where billions of internet users share information and opinions, the negative impact of pandemics is not limited to the physical world. It provokes a surge of incomplete, biased, and incorrect information, also known as an infodemic. This global infodemic jeopardizes measures to control the pandemic by creating panic, vaccine hesitancy, and fragmented social response. Platforms like Facebook allow advertisers to adapt their messaging to target different demographics and help alleviate or exacerbate the infodemic problem depending on their content. In this paper, we propose a minimally supervised multi-task learning framework for understanding messaging on Facebook related to the COVID vaccine by identifying ad themes and moral foundations. Furthermore, we perform a more nuanced thematic analysis of messaging tactics of vaccine campaigns on social media so that policymakers can make better decisions on pandemic control.
翻訳日:2023-02-19 11:52:36 公開日:2022-11-16
# 機械学習における公正性とランダム性:統計的独立性と相対性

Fairness and Randomness in Machine Learning: Statistical Independence and Relativization ( http://arxiv.org/abs/2207.13596v2 )

ライセンス: Link先を確認
Rabanus Derr and Robert C. Williamson(参考訳) 公正な機械学習は、社会に埋め込まれた機械学習アプリケーションという文脈で生じる不公平さを防ぐための努力である。 公正性の様々な定義と「公正アルゴリズム」の提案にもかかわらず、公正性に関する未解決概念問題が存在する。 本稿では,機械学習で定期的に使用される公平性とランダム性概念における統計的独立性の役割を考察する。 これにより、ランダム性と公正性は機械学習における等価な概念と考えることができる。 特に、確率に関するフォン・ミーゼスの古い基礎に訴えることで、統計的独立性として表現される無作為性の相対化概念を得る。 この概念は、一般的に使われる i.i.d.-randomness に対する抽象的な意味での "orthogonal" であることが判明した。 統計的独立性によって定義される機械学習における標準的公平性概念を用いて、データに関する外部ランダム性仮定と公平な予測のためのexポスト要件をリンクする。 ランダム性と公正性は本質的に相対的であり、どちらの概念も機械学習におけるモデリング仮定としてその性質を反映すべきである、と我々は主張する。

Fair Machine Learning endeavors to prevent unfairness arising in the context of machine learning applications embedded in society. Despite the variety of definitions of fairness and proposed "fair algorithms", there remain unresolved conceptual problems regarding fairness. In this paper, we dissect the role of statistical independence in fairness and randomness notions regularly used in machine learning. Thereby, we are led to a suprising hypothesis: randomness and fairness can be considered equivalent concepts in machine learning. In particular, we obtain a relativized notion of randomness expressed as statistical independence by appealing to Von Mises' century-old foundations for probability. This notion turns out to be "orthogonal" in an abstract sense to the commonly used i.i.d.-randomness. Using standard fairness notions in machine learning, which are defined via statistical independence, we then link the ex ante randomness assumptions about the data to the ex post requirements for fair predictions. This connection proves fruitful: we use it to argue that randomness and fairness are essentially relative and that both concepts should reflect their nature as modeling assumptions in machine learning.
翻訳日:2023-02-19 10:10:37 公開日:2022-11-16
# ランダム還元密度行列のエントロピーと支配的固有値の厳密な解析的関係

Exact analytical relation between the entropies and the dominant eigenvalue of random reduced density matrices ( http://arxiv.org/abs/2204.01754v4 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では,ランダム還元密度行列のエントロピー(サブシステムのサイズ,エンタングルメントギャップ,およびr\'{e}nyiエントロピーの異なる次数を追跡することによって得られるフォン・ノイマンエントロピーを含む)が,それらの支配的固有値とどのように関係しているかを示す。 分散ウィッシュアート行列のランダム行列理論(RMT)から解析結果が導出され,計算機シミュレーションによって裏付けられる。 量子コンピューティングが生み出すエンタングルメントと研究の相関関係には,様々な例がある。

In this paper, we show how the entropy (including the von Neumann entropy obtained by tracing across various sizes of subsystems, the entanglement gap, as well as different degrees of R\'{e}nyi entropy) of the random reduced density matrices are related to their dominant eigenvalue. Analytical results are deduced from Random Matrix Theory (RMT) for decentralized Wishart matrices and backed up by computer simulations. The correlation between our study and entanglement generated by quantum computing is provided with various examples.
翻訳日:2023-02-18 08:04:36 公開日:2022-11-16
# 行列代数間の線型写像の合成とテンソル積

Compositions and tensor products of linear maps between matrix algebras ( http://arxiv.org/abs/2204.02516v2 )

ライセンス: Link先を確認
Seung-Hyeok Kye(参考訳) 本論文では,現在の量子情報理論におけるキー概念とそれらの基準をコヒーレントな方法で説明する。 これらには分離性/絡み合い、シュミット数、二部状態、ブロック正の積、および交絡写像、$k$-超正写像、完全正写像、$k$-正写像などの行列代数間の様々な正の写像が含まれる。 x\mapsto s^*xs$ で与えられる初等正写像の具体例から始め、上述のすべての概念を説明するためにchoi行列と双対性を用いる。 また、Choi行列は座標から自由に定義できることを示す。 上記の正の写像の概念は写像錐を生じさせ、その双対錐は線型写像の合成やテンソル積によって特徴づけられる。 議論を通じて、チェイ行列を通して行列代数間の線型写像のテンソル積と合成を接続する恒等性を示す。 この恒等式を用いて、テンソル積を持つ双対円錐の記述は、対応する円錐が写像円錐である場合にのみ可能であることを示し、上記の概念を増幅した様々な既知の基準を復元する。 恒等式の別の応用として、増幅と分解から生じる様々な写像円錐を構築し、テンソル積の観点でPT(正の部分転置)二乗予想にいくつかの等価なステートメントを提供する。

In this semi-expository paper, we first explain key notions from current quantum information theory and criteria for them in a coherent way. These include separability/entanglement, Schmidt numbers of bi-partite states and block-positivity, together with various kinds of positive maps between matrix algebras like entanglement breaking maps, $k$-superpositive maps, completely positive maps, $k$-positive maps. We will begin with concrete examples of elementary positive maps given by $x\mapsto s^*xs$, and use Choi matrices and duality to explain all the notions mentioned above. We also show that the Choi matrix can be defined free from coordinates. The above notions of positive maps give rise to mapping cones, whose dual cones are characterized in terms of compositions or tensor products of linear maps. Through the discussion, we exhibit an identity which connects tensor products and compositions of linear maps between matrix algebras through the Choi matrices. Using this identity, we show that the description of the dual cone with tensor products is possible only when the involving cones are mapping cones, and recover various known criteria with ampliation for the notions mentioned above. As another applications of the identity, we construct various mapping cones arising from ampliation and factorization, and provide several equivalent statements to PPT (positive partial transpose) square conjecture in terms of tensor products.
翻訳日:2023-02-18 05:18:39 公開日:2022-11-16
# 非線形ワイル半金属におけるギャップ閉点の位相特性

Topological characteristics of gap closing points in nonlinear Weyl semimetals ( http://arxiv.org/abs/2205.10989v2 )

ライセンス: Link先を確認
Thomas Tuloup, Raditya Weda Bomantara, and Jiangbin Gong(参考訳) 本研究では,3次元位相位相に対する非線形性の影響を考察する。 特に興味深いのは、いわゆるワイル半金属であり、そのワイルノード(すなわち、常に対に存在する点のような位相電荷)で知られ、一般摂動に対する顕著な堅牢性を示す。 オンサイト非線形性の存在は、それぞれのワイルノードが位相電荷を維持しながら、2つの異なるエネルギーでノーダル線とノーダル面に分裂する原因となることが判明した。 システムによっては、付加的なノーダル線は高非線形強度でさらに出現する可能性がある。 観測された節構造を調べる2つの異なる方法を提案する。 第一に、断熱ポンプ法を用いることで、元のワイルノードから発生する節線と面を検出することができる。 第二に、アハロノフ・ボーム干渉実験は特に、高非線形性で現れる追加のノイズ線を捉えることに有益である。

In this work we explore the effects of nonlinearity on three-dimensional topological phases. Of particular interest are the so-called Weyl semimetals, known for their Weyl nodes, i.e., point-like topological charges which always exist in pairs and demonstrate remarkable robustness against general perturbations. It is found that the presence of onsite nonlinearity causes each of these Weyl nodes to break down into nodal lines and nodal surfaces at two different energies while preserving its topological charge. Depending on the system considered, additional nodal lines may further emerge at high nonlinearity strength. We propose two different ways to probe the observed nodal structures. First, the use of an adiabatic pumping process allows the detection of the nodal lines and surfaces arising from the original Weyl nodes. Second, an Aharonov-Bohm interference experiment is particularly fruitful to capture additional nodal lines that emerge at high nonlinearity.
翻訳日:2023-02-12 00:56:39 公開日:2022-11-16
# 形状不変性を超えた新しい対称性の超ポテンシャル

Superpotential for novel symmetry beyond shape invariance ( http://arxiv.org/abs/2206.00043v3 )

ライセンス: Link先を確認
Shi-Hai Dong, Biswanath Rath(参考訳) 我々は新しい「超ポテンシャル」を提案し、超対称エネルギー条件も関連する形状不変条件も有効でないことを発見した。 一方、新しいエネルギー条件 $E_{n}^{+}-E_{n}^{(-)}=2$ は、2つのパートナーであるハミルトンの$H^{(\pm)}$の間に現れる。 本研究で裏付けられた数学的証明を例に示す。 超ポテンシャルが不連続性や歪みと結びついている場合、SUSYエネルギー条件と形状不変性はもはや良好ではないことが観察された。

We propose a new "superpotential" and find that neither the supersymmetric energy conditions nor the associated shape invariance condition remain valid. On the other hand a new energy condition $E_{n}^{+}-E_{n}^{(-)}=2$ between the two partner Hamiltonian $H^{(\pm)}$ emerges. Mathematical proof supported the present findings with examples are presented. It is observed that, when the superpotential is associated with discontinuity or distortion, SUSY energy conditions and the shape invariance condition will no longer hold good.
翻訳日:2023-02-11 11:29:45 公開日:2022-11-16
# 定常光磁気エンタングルメントと光磁気力学によるマグノン-光量子状態移動

Stationary optomagnonic entanglement and magnon-to-optics quantum state transfer via opto-magnomechanics ( http://arxiv.org/abs/2206.05688v3 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Hang Qian, Jie Li(参考訳) 分散磁歪相互作用により磁性体中のマグノンモードに機械振動モードが結合し、放射圧により光学キャビティに結合する光学・磁気力学的構成において、マグノンと光子との定常的絡み合い状態の調製方法を示す。 マグノンモードとキャビティを適切に駆動して、マグノメカニカルストークスとオプトメカニカルアンチストークス散乱を同時に活性化させることにより、定常的なオトマグニック絡み状態を生成することができる。 さらに、マグノメカニカルな状態-スワップ相互作用を活性化し、続いて弱赤色の光パルスを送りキャビティを駆動することにより、機械的トランスダクションを介してパルスのキャビティ出力フィールドでマグノニクス状態を読み取ることができることを示す。 このような新しい光学・磁気力学的構成で証明された絡み合いおよび状態読み出しプロトコルは、固体中の集団スピン励起の量子状態の光学制御、準備、読み出しを可能にし、量子マグノニクス、マクロ量子状態、マグネティック量子情報処理の研究に有望な機会を提供する。

We show how to prepare a steady-state entangled state between magnons and optical photons in an opto-magnomechanical configuration, where a mechanical vibration mode couples to a magnon mode in a ferrimagnet by the dispersive magnetostrictive interaction, and to an optical cavity by the radiation pressure. We find that, by appropriately driving the magnon mode and the cavity to simultaneously activate the magnomechanical Stokes and the optomechanical anti-Stokes scattering, a stationary optomagnonic entangled state can be created. We further show that, by activating the magnomechanical state-swap interaction and subsequently sending a weak red-detuned optical pulse to drive the cavity, the magnonic state can be read out in the cavity output field of the pulse via the mechanical transduction. The demonstrated entanglement and state-readout protocols in such a novel opto-magnomechanical configuration allow us to optically control, prepare, and read out quantum states of collective spin excitations in solids, and provide promising opportunities for the study of quantum magnonics, macroscopic quantum states, and magnonic quantum information processing.
翻訳日:2023-02-09 18:24:57 公開日:2022-11-16
# 周期的に駆動される相互作用スピン格子における対称性保護位相角モード

Symmetry-protected topological corner modes in a periodically driven interacting spin lattice ( http://arxiv.org/abs/2206.06660v2 )

ライセンス: Link先を確認
Kelvin Koor, Raditya Weda Bomantara, Leong Chuan Kwek(参考訳) 周期駆動は、静的に対応することなくエキゾチックな状態を生成するという長年の評判を持っている。 この研究は、周期駆動、相互作用効果、および$\mathbb{Z}2$対称性の間の相互作用を探求し、単純だが洞察に富んだ2次元スピン-1/2格子においてフロケ対称性が保護された2階位相相が出現する。 解析的および数値的処理を組み合わせることで、0 と $\pi$ のモード、すなわち 1 周期の時間発展演算子とそれぞれ可換かつ反共換である、コーナーローカライズされた $\mathbb{z}_2$ symmetry broken operator の生成を検証できる。 さらに,これらモードの位相的性質を,パラメータ値の広範囲にわたる存在を証明し,特殊条件下での位相不変量を明示的に導出することにより検証する。 最後に,このようなモードのシグネチャを実験で検出する手法を提案し,不完全性の影響について考察する。

Periodic driving has the longstanding reputation for generating exotic phases of matter with no static counterparts. This work explores the interplay among periodic driving, interaction effects, and $\mathbb{Z}_2$ symmetry that leads to the emergence of Floquet symmetry protected second-order topological phases in a simple but insightful two-dimensional spin-1/2 lattice. Through a combination of analytical and numerical treatments, we verify the formation of 0 and $\pi$ modes, i.e., corner localized $\mathbb{Z}_2$ symmetry broken operators that respectively commute and anticommute with the one-period time evolution operator. We further verify the topological nature of these modes by demonstrating their presence over a wide range of parameter values and explicitly deriving their associated topological invariants under special conditions. Finally, we propose a means to detect the signature of such modes in experiments and discuss the effect of imperfections.
翻訳日:2023-02-09 09:53:51 公開日:2022-11-16
# cnot$^{\text{n}}$およびc$_2$not$^2$gateの平行実装 : ライドバーグ原子のホモ核およびヘテロ核f\"{o}rster相互作用

Parallel implementation of CNOT$^{\text{N}}$ and C$_2$NOT$^2$ gates via homonuclear and heteronuclear F\"{o}rster interactions of Rydberg atoms ( http://arxiv.org/abs/2206.12176v2 )

ライセンス: Link先を確認
Ahmed M. Farouk, I.I. Beterov, Peng Xu, S. Bergamini, I.I. Ryabtsev(参考訳) 高忠実度マルチ量子ビットcnot$^{\text{n}}$とc$_{2}$not$^{2}$ゲートのスキームを量子ビットとして使用するアルカリ金属中性原子に対して解析した。 これらのスキームは、M. M\"{u}ller et al.によって提案された電磁誘導透過性とライドベルク封鎖に基づいている。 [PRL 102, 170502 (2009)] オリジナルの論文では、rydbergブロックに基づくマルチ量子ビットcnot$^{\text{n}}$ゲートの忠実性は、ターゲット原子間の相互作用と結合レーザー強度によって制限されていた。 我々は、F\"{o}rster相互作用とターゲット原子間のF\"{o}rster相互作用を通じて、強い非対称なジポール-双極子相互作用を用いてこれらの制限を克服し、ターゲット原子は弱いファンデルワールス相互作用で結合する。 我々は,ゲート方式の実験的実現性を向上させるため,レーザーの結合強度を極力小さく保ちつつ,高い忠実性を達成するためにゲート性能を最適化した。 また,C$_{2}$NOT$^{2}$ゲートのスキームの最適化についても検討した。 我々の数値シミュレーションにより、CNOT$^4$ゲート(単一制御と4つのターゲット原子)の忠実度は最大97.5\%$、C$2$NOT$^2$(2つの制御と2つのターゲット原子)の忠実度は実験的に実現可能な条件に対して最大980\%$であることを確認した。

We analyze the schemes of high-fidelity multiqubit CNOT$^{\text{N}}$ and C$_{2}$NOT$^{2}$ gates for alkali-metal neutral atoms used as qubits. These schemes are based on the electromagnetically induced transparency and Rydberg blockade, as proposed by M. M\"{u}ller et al. [PRL 102, 170502 (2009)]. In the original paper the fidelity of multi-qubit CNOT$^{\text{N}}$ gate based on Rydberg blockade was limited by the interaction between target atoms, and by the coupling laser intensity. We propose overcoming these limits by using strong asymmetric homonuclear and heteronuclear dipole-dipole interactions via F\"{o}rster interactions between the control and target atoms, while the target atoms remain coupled by weaker van der Waals interaction. We have optimized the gate performance in order to achieve higher fidelity, while keeping coupling laser intensity as small as possible in order to improve the experimental feasibility of the gate schemes. We also considered optimization of schemes of C$_{2}$NOT$^{2}$ gates, where the fidelity is also affected by the relation between the control-control, control-target and target-target interaction energies. Our numeric simulations confirm that the fidelity of CNOT$^4$ gate (single control and four target atoms) can be up to $97.5\%$ and the fidelity of C$_2$NOT$^2$ (two control and two target atoms) is up to $98\%$ for the conditions which are experimentally feasible.
翻訳日:2023-02-08 04:40:30 公開日:2022-11-16
# 回路qedにおける異なる導波路に伝播する時間周波数エンタングル光子対の生成

Generation of time-frequency entangled photon pairs propagating in separate waveguides in circuit QED setup ( http://arxiv.org/abs/2207.08289v2 )

ライセンス: Link先を確認
Eugene Stolyarov(参考訳) 時間周波数の絡み合った光子は、様々な量子技術の世界にまたがる多くのアプリケーションにとって重要な資源である。 したがって、エンタングル光子生成のための効率的で調整可能なセットアップは、現代の量子技術にとって必須である。 本研究では,時間周波数の絡み合った光子対をオンデマンドで生成し,各光子が別々の導波路で伝搬する汎用キャビティqed設定を提案する。 マイクロ波超伝導回路QEDアーキテクチャにおけるこの構成の可能性を概説する。 我々は、系の量子状態の進化を管理する運動方程式の集合を導出し、数値的に解き、光子放出のダイナミクスを調べることができる。 放射光子対の合同スペクトル振幅のシュミット分解を用いて、系のパラメータ依存性を解析したエントロピーのエントロピーを計算する。 本稿では,多光子時間周波数エンタングル状態生成のための提案手法の潜在拡張について概説する。

Time-frequency entangled photons constitute an important resource for a plethora of applications across the diverse quantum technology landscape. Thus, efficient and tunable setups for the generation of entangled photons are requisite for modern quantum technologies. In this work, we propose a generic cavity QED setup designed for on-demand generation of time-frequency entangled photon pairs, with each photon propagating in a separate waveguide. We outline a potential incarnation of this setup in the microwave superconducting circuit QED architecture. We derive and numerically solve the set of equations of motion governing the evolution of the quantum state of the system, allowing us to examine the photon emission dynamics. Using the Schmidt decomposition of the joint spectral amplitude of the emitted photon pair, we compute the entanglement entropy analyzing its dependence on the system parameters. We outline the potential extension of the proposed scheme for the generation of multiphoton time-frequency entangled states.
翻訳日:2023-02-04 18:15:06 公開日:2022-11-16
# 量子誤差緩和のための普遍サンプリング下界

Universal sampling lower bounds for quantum error mitigation ( http://arxiv.org/abs/2208.09178v3 )

ライセンス: Link先を確認
Ryuji Takagi and Hiroyasu Tajima and Mile Gu(参考訳) 中間スケールの量子デバイスにおけるノイズ効果を抑制するために、多くの量子誤り軽減プロトコルが提案されている。 しかし、その一般的な可能性と限界はいまだ解明されていない。 特に、量子エラー軽減の究極の実現可能性を理解するためには、基本サンプリングコスト -- 任意の緩和プロトコルがノイズの多い量子デバイスを実行しなければならない回数 -- を特徴付けることが不可欠である。 本稿では,量子誤差軽減のためのサンプリングコストの普遍的下限を定め,高い確率で所望の精度を達成する。 我々の限界は、非線形後処理を含む一般的な緩和プロトコルや、未発見のプロトコルにも当てはまる。 その結果、様々なノイズモデルにおいて、幅広い種類のプロトコルがエラーを緩和するために必要となるサンプリングコストは指数関数的に増大し、有用なノイズの短期量子デバイスのスケーラビリティにおける基本的な障害が明らかになった。

Numerous quantum error-mitigation protocols have been proposed, motivated by the critical need to suppress noise effects on intermediate-scale quantum devices. Yet, their general potential and limitations remain elusive. In particular, to understand the ultimate feasibility of quantum error mitigation, it is crucial to characterize the fundamental sampling cost -- how many times an arbitrary mitigation protocol must run a noisy quantum device. Here, we establish universal lower bounds on the sampling cost for quantum error mitigation to achieve the desired accuracy with high probability. Our bounds apply to general mitigation protocols, including the ones involving nonlinear postprocessing and those yet-to-be-discovered. The results imply that the sampling cost required for a wide class of protocols to mitigate errors must grow exponentially with the circuit depth for various noise models, revealing the fundamental obstacles in the scalability of useful noisy near-term quantum devices.
翻訳日:2023-01-30 12:17:15 公開日:2022-11-16
# 二重量子ドットにおける強いスピン-軌道相互作用を伴うゼーマン・スピリット状態の単一スピンランダウ-ツェナー-シュタッケルベルク-メジャー干渉法

Single spin Landau-Zener-St\"uckelberg-Majorana interferometry of Zeeman-split states with strong spin-orbit interaction in a double quantum dot ( http://arxiv.org/abs/2208.14965v3 )

ライセンス: Link先を確認
D.V. Khomitsky, S.A. Studenikin(参考訳) 周期的に駆動される二重量子ドットにおけるゼーマン・スピット四層系におけるランダウ・ツェナー・ストワッケルベルク・メジャーナ(lzsm)干渉によって引き起こされる単一スピン状態の進化を、フロッケストロボスコープ法により理論的に研究した。 個々のドットで誘導され、隣接する量子ドットとのlzsm多重レベル交差により強化された電気双極子スピン共鳴(edsr)とスピン保存とスピンフリップトンネルプロセスとの相互作用をマイクロ波(mw)周波数、駆動振幅、インタードットデチューン、磁場の関数として検討する。 パラメータ空間内のいくつかの特別な点が識別され、3つの特徴が全てマージされる。 この三重交差共鳴条件の下では、インタードットトンネルはEDSR周波数の各点における高速スピン進化と組み合わせられる。 EDSRの高調波はスピン依存トンネルマップで、可変磁場とMW周波数に対して明らかにされる。 この結果は、スピン軌道相互作用の強い電子系とホール系の両方に適用でき、量子ビットデバイスにおけるスピン制御と読み出しの新しい時間効率のスキームの開発に有用である。

Single spin state evolution induced by the Landau-Zener-St\"uckelberg-Majorana (LZSM) interference in a Zeeman-spit four level system in a periodically driven double quantum dot is studied theoretically by the Floquet stroboscopic method. An interplay between spin-conserving and spin-flip tunneling processes with the Electric Dipole Spin Resonance (EDSR) that is induced in an individual dot and enhanced by the LZSM multiple level crossings with the neighboring quantum dot is investigated as a function of the microwave (MW) frequency, driving amplitude, interdot detuning, and magnetic field. A number of special points in the parameter space are identified, out of which where all the three features are merged. Under this triple-crossing resonance condition the interdot tunneling is combined with a fast spin evolution in each dot at the EDSR frequency. Harmonics of the EDSR are revealed in the spin-dependent tunneling maps versus variable magnetic field and MW frequency. The results are applicable for both electron and hole systems with strong spin-orbit interaction and may be useful for developing new time-efficient schemes of the spin control and readout in qubit devices.
翻訳日:2023-01-28 09:07:24 公開日:2022-11-16
# 相補性原理に基づく量子デコーダの構成

Constructing quantum decoders based on complementarity principle ( http://arxiv.org/abs/2210.06661v3 )

ライセンス: Link先を確認
Yoshifumi Nakata, Takaya Matsuura, Masato Koashi(参考訳) ノイズ量子システムからの量子情報の復号化は、量子情報科学および基礎物理学において重要である。 本稿では,量子情報のデコードにおける相補性原理を探求し,量子情報のデコーダが,異なる基底で定義される2種類の古典的情報をデコードするための2つの一般化量子計測から常に構築可能であることを示す。 C-to-QデコーダをC-to-Qデコーダと呼び、C-to-Qデコーダのデコーダのデコーダのデコーダは2つの測定値と相補性の程度によって特徴付けられることを示す。 また、c-to-qデコーダはほぼ最適であることが判明した。 C-to-Qデコーダと良質な測定方法を組み合わせることで、量子情報のためのデコーダと、復号を成功させるための十分な条件を明示的に提供する。 本研究では,ブラックホール情報パラドックスの量子情報玩具モデルであるhayden-preskillプロトコルについて検討する。 我々の明示的なデコーダは、以前の結果よりもデコードエラーが良くなり、デカップリングアプローチとして知られる従来の方法に対する利点が示される。

Decoding quantum information from noisy quantum systems is crucial in quantum information science and in fundamental physics. In this paper, we explore the complementarity principle in decoding quantum information and show that a decoder for quantum information can be always constructed from the two generalized quantum measurements for decoding two types of classical information defined in different bases. We call the constructed decoder a Classical-to-Quantum (C-to-Q) decoder, and show that the decoding error of the C-to-Q decoder is characterized by those of the two measurements and by the degree of complementarity of the bases. It also turns out that the C-to-Q decoder is nearly optimal. Combining the C-to-Q decoder with a type of the pretty-good measurement, we explicitly provide a decoder for quantum information, as well as a sufficient condition for successful decoding. As an application, we investigate the Hayden-Preskill protocol, a quantum-information toy model of the black hole information paradox. Our explicit decoder leads to better decoding errors compared to previous results, illustrating the advantage over the previous method known as the decoupling approach.
翻訳日:2023-01-22 17:11:24 公開日:2022-11-16
# ロバートソン・ウォーカー幾何学における最小長宇宙

Minimum Length Universe in a Robertson Walker Geometry ( http://arxiv.org/abs/2210.08968v3 )

ライセンス: Link先を確認
Dragana Pilipovic(参考訳) 最小長宇宙は微分マルコフ場を介して強制される。 そのような場によって生成される時空変換の下で機能する固有時間の不変性を必要とすると、クリストッフェル接続、運動方程式、フリードマン方程式に多くの新しい項が加えられる。 Robertson-Walker(RW)計量の下では、種特異的エネルギー密度の進化が得られ、RWスケール係数と同様に拡散場を定義するパラメータの両方の関数となった。 この計算により、時間拡散、宇宙膨張加速、宇宙膨張の速度と、宇宙定数を最小長さの関数とヒッグス機構のスカラー場期待値の両方の関数として導出する関係が導かれる。 この理論は、ハッブルパラメータをその拡散ml「等価」に関連付ける手段と、減速パラメータqを用いて状態の有効な方程式を表現する手段を与える。 我々は、暗黒物質種を必要とせずに、qがより高い値を取ることができ、宇宙がqの関数として支配的な状態にあることを発見した。

A minimum length universe is enforced via a diffusive Markovian field. Requiring the invariance of the proper time functional under spacetime transformations generated by such fields provides us with many new terms added to the Christoffel Connection, Equations of Motion, and Friedmann Equation. Under the Robertson-Walker (RW) metric, we obtain species-specific energy-density evolution, now a function of both the parameters defining the diffusive fields as well as the RW scale factor. The math leads us to a relationship between temporal diffusion, universe expansion acceleration, and the speed of universe expansion, along with a derivation of the cosmological constant as a function of both minimum length and the scalar field expectation value of the Higgs mechanism. The theory gives us a means of relating the Hubble parameter to its diffusive ML 'equivalent', and a means to express the effective equation of state in terms of the deceleration parameter, q. We find that q can take on a range of higher values without invoking the need for a dark matter species, and that the universe inhabits a vacuum or matter dominated regime as a function of q.
翻訳日:2023-01-22 07:06:57 公開日:2022-11-16
# 質量の量子重力誘起絡み合いにおける装置による重力デコヒーレンス

Gravitational decoherence by the apparatus in the quantum-gravity induced entanglement of masses ( http://arxiv.org/abs/2210.16919v2 )

ライセンス: Link先を確認
Fabian Gunnink, Anupam Mazumdar, Martine Schut and Marko Toro\v{s}(参考訳) 現代の物理学において際立った疑問の1つは、重力が実験室で古典的か量子的かをテストする方法である。 最近では、重力の量子的性質が2つの量子系を絡めるのに十分近い2つの中性質量の量子重ね合わせを作成することで重力の量子的性質をテストするという提案があるが、他の既知の標準モデル相互作用が無視できないほど遠く離れている。 しかし、中性質量(光系)の重ね合わせ状態(重系)を合成する過程は、実験装置(重系)の近傍を必要とする。 このような重い系は別の量子系としてモデル化できると仮定する; 重力は普遍的であるので、より軽い系は重い系と絡み合い、重力デコヒーレンスの固有の源となる。 本稿では,2つの光と2つの重量子振動子について考察し,2つの光系間の絡み合いが重系によって引き起こされるデコヒーレンスを回避できる条件について検討する。 結論として,重力の量子性をテストする実験において,デコヒーレンスの大きさを推定した。

One of the outstanding questions in modern physics is how to test whether gravity is classical or quantum in a laboratory. Recently there has been a proposal to test the quantum nature of gravity by creating quantum superpositions of two nearby neutral masses, close enough that the quantum nature of gravity can entangle the two quantum systems, but still sufficiently far away that all other known Standard Model interactions remain negligible. However, the mere process of preparing superposition states of a neutral mass (the light system), requires the vicinity of laboratory apparatus (the heavy system). We will suppose that such a heavy system can be modelled as another quantum system; since gravity is universal, the lighter system can get entangled with the heavier system, providing an inherent source of gravitational decoherence. In this paper, we will consider two light and two heavy quantum oscillators, forming pairs of probe-detector systems, and study under what conditions the entanglement between two light systems evades the decoherence induced by the heavy systems. We conclude by estimating the magnitude of the decoherence in the proposed experiment for testing the quantum nature of gravity.
翻訳日:2023-01-21 00:42:12 公開日:2022-11-16
# 部分コヒーレントなエアリービーム:クロススペクトル密度アプローチ

Partially coherent Airy beams: A cross-spectral density approach ( http://arxiv.org/abs/2211.01027v2 )

ライセンス: Link先を確認
R. Mart\'inez-Herrero, A. S. Sanz(参考訳) エアリービームは、前方を伝播しながら横方向に沿って形状の不変性や自己加速を示すことで知られている。 これらの性質はビームコヒーレンスに関連付けられるが、部分的にコヒーレントなエアリー型の場合にも現れることが判明した。 ここで、これらの性質は、無限および有限のエネルギー条件下で部分的にコヒーレントなエアリービームのクラスを導入、解析することによってさらに研究される。 この手法の鍵となる要素は、いわゆるクロススペクトル密度であり、量子密度行列との直接接続を可能にし、解析を量子領域に輸出し、非一貫性とデコヒーレンスの両方によって作用するエアリー波パケットのダイナミクスを研究する。 このように、無限のエネルギービームの場合、ビームの基底構造はエアリービームと等しいため、両方の特性は完全な非一貫性の状況下でも保存される。 有限エネルギービームの場合、実験ビームは無限の延長を持つことができないので、両方の特性が保存される伝播範囲を保証できることを示す。 これは、確率場空間ゆらぎの拡張を決定するパラメータによって決定される拡散範囲に依存する臨界距離によって制御される。 このような距離は、伝搬ビームと入力ビームとの重なり合いの度合いを伝播距離に相当する量で定量化する位置依存パラメータを定義することにより決定される。

Airy beams are known for displaying shape invariance and self-acceleration along the transverse direction while they propagate forwards. Although these properties could be associated with the beam coherence, it has been revealed that they also manifest in the case of partially coherent Airy-type. Here, these properties are further investigated by introducing and analyzing a class of partially coherent Airy beams under both infinite and finite energy conditions. The key element within the present approach is the so-called cross-spectral density, which enables a direct connection with the quantum density matrix, making the analysis exportable to the quantum realm to study the dynamics of Airy wave packets acted by both incoherence and decoherence. As it is shown, in the case of infinite energy beams both properties are preserved even under the circumstance of total incoherence provided the underlying structure of the beam remains equal to that of an Airy beam. In the case of finite energy beams, a situation closer to a realistic scenario, as experimental beams cannot have an infinite extension, it is shown that a propagation range along which both properties are preserved can be warranted. This is controlled by a critical distance, which depends on the spread range determined by the parameters ruling the extension of random field spatial fluctuations. Such a distance is determined by defining a position-dependent parameter that quantifies the degree of overlapping between the propagated beam and the input one displaced by an amount equivalent to the propagation distance.
翻訳日:2023-01-20 16:46:04 公開日:2022-11-16
# 強磁性マグノンと超伝導量子ビットのキラルカップリング

Chiral coupling between a ferromagnetic magnon and a superconducting qubit ( http://arxiv.org/abs/2211.05285v2 )

ライセンス: Link先を確認
Ya-long Ren, Sheng-li Ma and Fu-li Li(参考訳) 単一量子レベルでのキラルカップリングは、量子情報処理の驚くべきポテンシャルを約束する。 強磁性球面内のマグノンモードと1次元結合キャビティアレイを媒介とする超伝導量子ビットとのキラル相互作用を実現する。 量子ビットがアレイの2つの格子サイトと結合し、それぞれが調整可能な位相で符号化されると、量子干渉効果によって方向の量子ビット-マグノン相互作用を得ることができる。 この研究は、量子磁気ネットワークのビルディングブロックになると期待されているカイラルデバイスを構築するための新しいルートを開く。

Chiral coupling at the single-quantum level promises to be a remarkable potential for quantum information processing. Here we propose to achieve a chiral interaction between a magnon mode in a ferromagnetic sphere and a superconducting qubit mediated by a one-dimensional coupled-cavity array. When the qubit is coupled to two lattice sites of the array and each one is encoded with a tunable phase, we can acquire a directional qubit-magnon interaction via the quantum interference effect. This work opens up a new route to construct chiral devices, which are expected to become a building block in quantum magnonic networks.
翻訳日:2023-01-19 19:45:37 公開日:2022-11-16
# 量子スライド上の量子ウォークによる量子コンピューティング

Quantum Computing by Quantum Walk on Quantum Slide ( http://arxiv.org/abs/2211.08659v1 )

ライセンス: Link先を確認
Fan Wang, Bin Cheng, Zi-Wei Cui and Man-Hong Yung(参考訳) 連続時間量子ウォーキング(Continuous-time quantum walk)は、量子ゲートの普遍的な集合がスパースグラフに埋め込まれた特別な構造上に量子ウォーカーを散乱させることによって達成される量子計算の代替手法の1つである。 フェムト秒レーザーによる光導波路の最近の進歩は、量子計算の量子ウォークモデルを実現するための有望な物理プラットフォームである。 しかし、主な課題は、平面波の初期状態を作成する問題である。 従来,NAND木の作用原理(Wang et al. Phy. Rev. 2020)を実証するために,量子スライドの概念が提案され,実験的に実現されてきた。 ここでは、平面波の要求を回避して普遍的な量子計算を実現するために量子スライドをさらに適用する方法を示す。 具体的には、外部フィールドを完全状態転送チェーンに適用し、任意の運動量を持つ移動ガウス波パケットを生成することができる。 フェーズが適切に調整された場合、子の提案におけるユニバーサルゲートセットは、このスキームで実現できる。 さらに,スライドの長さによってゲートの忠実度が増加し,漸近的に一様になることを示す。

Continuous-time quantum walk is one of the alternative approaches to quantum computation, where a universal set of quantum gates can be achieved by scattering a quantum walker on some specially-designed structures embedded in a sparse graph [Childs, Phys. Rev. Lett. 2009]. Recent advances in femtosecond laser-inscribed optical waveguides represent a promising physical platform for realizing this quantum-walk model of quantum computation. However, the major challenge is the problem of preparing a plane-wave initial state. Previously, the idea of quantum slide has been proposed and experimentally realized for demonstrating the working principle of NAND tree [Wang et al. Phy. Rev. Lett. 2020]. Here we show how quantum slide can be further applied to realize universal quantum computation, bypassing the plane-wave requirement. Specifically, we apply an external field to the perfect-state-transfer chain, which can generate a moving Gaussian wave packet with an arbitrary momentum. When the phase is properly tuned, the universal gate set in Childs' proposal can be realized in our scheme. Furthermore, we show that the gate fidelities increase with the length of the slide, and can reach unity asymptotically.
翻訳日:2023-01-19 09:50:48 公開日:2022-11-16
# コネクテッド・コレレータを用いた2ビット混合状態における量子絡み合いの定量化

Quantifying Quantum Entanglement in Two-Qubit Mixed State from Connected Correlator ( http://arxiv.org/abs/2211.08638v1 )

ライセンス: Link先を確認
Xingyu Guo and Chen-Te Ma(参考訳) 連結相関関数は古典的および量子的絡み合いに同時に寄与する。 分離可能な状態は、非零連結相関を含む。 これは量子エンタングルメントの定量化の難しさを示している。 2ビット混合状態における量子エンタングルメントの定量化のための相関行列を提案する。 私たちの研究は3ビット状態から始まります。 混合状態を得るために、1キュービット以上を部分的にトレースする。 したがって、2量子混合状態における量子エンタングルメントを、3量子エンタングルメント測度から特徴づけることができる。 ベルの不平等の最大違反は1つの絡み合い度を失うことを示す。 連結相関を考えると、結果はすべての必要な絡み合い測度を含む。 したがって、非接続セクターを排除します。 混合状態を分類し、分離可能な状態が各分類クラスで最も低い相関を持つことを示す。 エンタングルメント測度は相関測度に対して単調に増加する。 したがって量子エンタングルメントの定量化に成功した。 また,この結果は対数ネガティビティと比較した。 相関測度では負性は増大しているが、単調ではない。 最後に、量子化が非局所性の度合いを反映するかどうかについて議論する。 観測可能量は局所性を持つベクトルであるが、選択の自由に反するものと仮定する。 局所隠れ変数の確率分布は、測定設定に依存する必要がある。 したがって、局所性から量子エンタングルメントの解釈が可能である。

The connected correlation function contributes to Classical and Quantum Entanglement simultaneously. The separable state contains the non-zero connected correlation. It shows the difficulty of quantifying Quantum Entanglement. We propose a connected correlation matrix for quantifying Quantum Entanglement in the two-qubit mixed state. Our study begins from the three-qubit state. We partial trace over one qubit to obtain the mixed state. Therefore, one can characterize Quantum Entanglement in the two-qubit mixed state from the three-qubit entanglement measures. We show that the maximum violation of Bell's inequality lose one entanglement degree. When considering the connected correlation, the result contains all necessary entanglement measures. Hence we eliminate the non-connected sector. We classify the mixed states and then demonstrate that separable states have the lowest correlation in each classified class. The entanglement measure also monotonically increases for the correlation measure. Hence we successfully quantify Quantum Entanglement. We also compare the result to the logarithmic negativity. The negativity is increasing for the correlation measure but is not monotonic. In the end, we discuss whether the quantification reflects the degree of non-locality. We assume that the observable is a vector with the locality but violates the freedom of choice. The probability distribution of the local hidden variable needs to depend on a measurement setting. Hence the interpretation of Quantum Entanglement from the locality is possible.
翻訳日:2023-01-19 09:50:25 公開日:2022-11-16
# ツイスト光を用いた量子側情報を用いた実験的推測

Experimental Guesswork with Quantum Side Information using Twisted Light ( http://arxiv.org/abs/2211.08601v1 )

ライセンス: Link先を確認
Vishal Katariya, Narayan Bhusal, Chenglong You(参考訳) 推測は情報理論的な量であり、エントロピーに対する代替のセキュリティ基準と見なすことができる。 近年の研究では、量子側情報の存在下での推測の理論的枠組みを確立し、理論的にも実験的にも拡張する。 辺情報がbb84状態とその高次元一般化からなる場合の推測作業を考える。 この側面情報を用いて、各次元の異なる2つのシナリオの推測処理を計算する。 次に, BB84状態の高次元一般化に対する推理を実験的に計算するために, ラゲール・ガウスモードを用いたプリンシプル実験を行う。 実験結果は理論的な予測と密接に一致している。 この研究は、推測作業が暗号タスクにおいて有効なセキュリティ基準となり得ることを示し、多くの光学セットアップで実験的にアクセス可能であることを示した。

The guesswork is an information-theoretic quantity which can be seen as an alternate security criterion to entropy. Recent work has established the theoretical framework for guesswork in the presence of quantum side information, which we extend both theoretically and experimentally. We consider guesswork when the side information consists of the BB84 states and their higher-dimensional generalizations. With this side information, we compute the guesswork for two different scenarios for each dimension. We then perform a proof-of-principle experiment using Laguerre-Gauss modes to experimentally compute the guesswork for higher-dimensional generalizations of the BB84 states. We find that our experimental results agree closely with our theoretical predictions. This work shows that guesswork can be a viable security criterion in cryptographic tasks, and is experimentally accessible across a number of optical setups.
翻訳日:2023-01-19 09:49:38 公開日:2022-11-16
# ペアワイズ測定による量子コヒーレンスの合成

Pairwise Measurement Induced Synthesis of Quantum Coherence ( http://arxiv.org/abs/2211.08860v1 )

ライセンス: Link先を確認
Mariia Gumberidze, Michal Kol\'a\v{r}, and Radim Filip(参考訳) 異なるエネルギーを持つ状態、すなわちエネルギー基底に対するコヒーレンスを持つ状態の量子コヒーレント重ね合わせは、現代の量子技術にとって重要な資源である。 小さいコヒーレンスを持つ状態は、弱いコヒーレントドライブの効果により自律的に得られるか、環境の存在により潜在的に得ることができる。 本稿では,個々の系(初期コヒーレンスが低い)から結合系の大域的(および高い)コヒーレンスへの量子コヒーレンス合成のための測定ベースのプロトコルを提案する。 入力として、2レベルシステム(TLS)の非相互作用コピーを$N$で、初期エネルギーとコヒーレンスが低い。 これらは、例えば弱い外部ドライブによって供給されるか、浴槽との相互作用によって生じる。 このプロトコルは、ルールが十分に研究されていない普遍的なプロセスを表す初期状態よりも高いエネルギーとコヒーレンスで出力状態を条件付きで合成する。 エネルギーとコヒーレンスに加えて、相互コヒーレンス(相互コヒーレンス)と呼ばれる量も検討し、プロトコル適用後の増加を示す。 このアプローチはTLSエネルギーベースで対角であるTLSペア(条件付き基底状態を取り除く)の逐次対射影測定の適用に基づいている。 コヒーレンス合成の機能は、TLS環境がシステムに与える影響を軽視する上で堅牢である。 我々のアプローチは、より小さな(弱い)リソースからより大きなコヒーレントシステムを合成するのに役立つ量子センシング、量子電池の充電、その他の応用においてその利点を示すかもしれない。

Quantum coherent superpositions of states with different energies, i.e., states with coherence with respect to energy basis, are important resource for modern quantum technologies. States with small coherence can be obtained either autonomously, due to the effect of a weak coherent drive or, potentially, due to the presence of an environment. In this paper, we propose a measurement-based protocol for quantum coherence synthesis from individual systems (with low initial coherence) into a global (and higher) coherence of the joint system. As an input, it uses $N$ non-interacting copies of two-level systems (TLS), with low initial energy and coherence. These can be supplied by, e.g., a weak external drive or can result from an interaction with a bath. This protocol conditionally synthesizes an output state with higher energy and coherence than the initial state had, representing an universal process whose rules have not been well studied, yet. In addition to energy and coherence, we study the quantity called mutual coherence, showing increase after the protocol application, as well. This approach is based on application of sequential pairwise projective measurements on TLS pairs (conditionally removing their ground states), that are diagonal in the TLS energy basis. The functionality of the coherence synthesis is robust with respect to dephasing effects of the TLS environment on the system. Our approach may show its benefits in quantum sensing, quantum batteries charging, or other applications where synthesis of a larger coherent system from smaller (weaker) resources is useful.
翻訳日:2023-01-19 09:46:40 公開日:2022-11-16
# 開システムの量子力学:ディシパトン理論

Quantum mechanics of open systems: Dissipaton theories ( http://arxiv.org/abs/2211.08853v1 )

ライセンス: Link先を確認
Yao Wang and YiJing Yan(参考訳) このパースペクティブは、ディシパトンと位相空間ディシパトン代数の物理像を含む、2014年以降に我々のグループで開発されたディシパトン理論の包括的な説明を示す。 dissipaton-equation-of-motion-space (DEOM-space) の定式化は、Schr\"odinger の絵、ハイゼンベルクの絵、さらに想像時間 DEOM をカバーしている。 近年、平衡と非平衡熱力学的混合過程を研究するためのディシパトン理論も開発されている。 ジャジンスキー等式とクルックスの関係は数値的に正確に再現される。 ディシパトン理論は、オープンシステムの量子力学の成熟に必要不可欠であると予想されている。

This Perspective presents a comprehensive account of the dissipaton theories developed in our group since 2014, including the physical picture of dissipatons and the phase-space dissipaton algebra. The dissipaton-equation-of-motion-space (DEOM-space) formulations cover the Schr\"odinger picture, the Heisenberg picture, and further the imaginary-time DEOM. Recently developed are also the dissipaton theories for studying equilibrium and nonequilibrium thermodynamic mixing processes. The Jarzynski equality and Crooks relation are accurately reproduced numerically. It is anticipated that dissipaton theories would remain essential towards a maturation of quantum mechanics of open systems.
翻訳日:2023-01-19 09:46:13 公開日:2022-11-16
# 系内カップリングによる熱状態の局所コヒーレンスの実現

Achieving local coherence in thermal states by intra-system coupling ( http://arxiv.org/abs/2211.08851v1 )

ライセンス: Link先を確認
Michal Kol\'a\v{r}, Giacomo Guarnieri, and Radim Filip(参考訳) エネルギー固有状態の量子重ね合わせは、そのようなカップリングが適切な合成特性を持つ場合、低温熱浴に結合した単一の量子2レベルシステムに自律的に現れる。 そこで,本論文では,温度$t$の弱結合熱浴により,2レベルシステム間の適切な相互作用を大域ギブス状態に熱する手法を提案する。 したがって、量子コヒーレンスは異なる機構によって現れるが、システムバス結合は設計される必要はない。 このような自律的コヒーレンス生成を、いくつかの相互作用する2レベルシステムを用いた、少数の重要かつ刺激的なケーススタディで実証し、自律的量子コヒーレンスを実験的に観察する可能性を広げる。

Quantum superposition of energy eigenstates can appear autonomously in a single quantum two-level system coupled to a low-temperature thermal bath, if such coupling has a proper composite nature. We propose here a principally different and more feasible approach employing proper interactions between two-level systems being thermalized into a global Gibbs state by weakly coupled thermal bath at temperature $T$. Therefore, quantum coherence appears by a different mechanism, whereas the system-bath coupling does not have to be engineered. We demonstrate such autonomous coherence generation on few important and stimulating case-studies employing several interacting two-level systems and, therefore, enlarging possibilities to observe autonomous quantum coherence experimentally.
翻訳日:2023-01-19 09:45:58 公開日:2022-11-16
# シングルイオン量子メモリのための通信量子フォトニックインタフェース

Telecom Quantum Photonic Interface for a $^{40}$Ca$^+$ Single-Ion Quantum Memory ( http://arxiv.org/abs/2211.08841v1 )

ライセンス: Link先を確認
Elena Arensk\"otter, Tobias Bauer, Stephan Kucera, Matthias Bock, J\"urgen Eschner, Christoph Becher(参考訳) 絡み合いに基づく量子ネットワークは、静止量子メモリと光子の間の量子フォトニックインタフェースを必要とし、絡み合い分布を可能にする。 ここでは,通信用cバンドに$^{40}$ca$^+$単イオン量子メモリを接続するために設計されたフォトニックインタフェースを提案する。 このインタフェースは、メモリ共振器付き自然パラメトリックダウンコンバージョン(SPDC)光子対源と双方向偏光保存量子周波数変換(QFC)を組み合わせたものである。 変換中の高忠実度絡み合い、最大40kmのファイバー伝送、メモリ波長へのバック変換の保存を実証した。 長い距離と双方向の変換であっても、絡み合いの忠実度は背景補正なしで95 % (98 %) 以上である。

Entanglement-based quantum networks require quantum photonic interfaces between stationary quantum memories and photons, enabling entanglement distribution. Here we present such a photonic interface, designed for connecting a $^{40}$Ca$^+$ single-ion quantum memory to the telecom C-band. The interface combines a memory-resonant, cavity-enhanced spontaneous parametric down-conversion (SPDC) photon pair source with bi-directional polarization-conserving quantum frequency conversion (QFC). We demonstrate preservation of high-fidelity entanglement during conversion, fiber transmission over up to 40 km and back-conversion to the memory wavelength. Even for the longest distance and bi-directional conversion the entanglement fidelity remains larger than 95 % (98 %) without (with) background correction.
翻訳日:2023-01-19 09:45:44 公開日:2022-11-16
# 対相関を持つフォノンガス中の相転移

Phase transition in a phonon gas with pair correlation ( http://arxiv.org/abs/2211.08817v1 )

ライセンス: Link先を確認
Yu.M. Poluektov(参考訳) 相互作用するフォノンと反対のモーメントの対相関を持つフォノンガスの状態への相転移の研究である。 自己整合体モデルの枠組み内でそのようなフォノン系を記述する方法を開発し,その熱力学特性を計算した。 対相関を持つフォノンガスは不安定な熱力学平衡状態に存在することが示されている。 このような相における固体の実験観察の可能性について論じる。

The phase transition to the state of a phonon gas with pairwise correlations of interacting phonons with opposite momenta is studies. A method for describing such phonon systems within the framework of the self-consistent field model is developed and their thermodynamic characteristics are calculated. It is shown that a phonon gas with pair correlations can exist in a state of unstable thermodynamic equilibrium. The possibility of experimental observation of a solid in such a phase is discussed.
翻訳日:2023-01-19 09:45:29 公開日:2022-11-16
# イオン化誘起対称トップ分子の長寿命配向

Ionization-induced Long-lasting Orientation of Symmetric-top Molecules ( http://arxiv.org/abs/2211.08795v1 )

ライセンス: Link先を確認
Long Xu, Ilia Tutunnikov, Yehiam Prior, Ilya Sh. Averbukh(参考訳) 2色レーザーパルスで電離した対称トップ分子のフィールドフリー長寿命配向現象を理論的に考察する。 異方性イオン化は、生き残った中性分子の長い配向を著しく引き起こす。 方向の度合いはパルス強度と回転温度の両方で増加する。 複数の遅延2色パルスを用いることで、さらに指向性を高めることができる。 長期間の向きは、調和生成やクーロン爆発に基づく方法によっても探究できる。 この効果は、高密度分子ガス中の緩和過程の研究を可能にし、不均一な磁場による分子誘導とトラップに有用である。

We theoretically consider the phenomenon of field-free long-lasting orientation of symmetric-top molecules ionized by two-color laser pulses. The anisotropic ionization produces a significant long-lasting orientation of the surviving neutral molecules. The degree of orientation increases with both the pulse intensity and, counterintuitively, with the rotational temperature. The orientation may be enhanced even further by using multiple delayed two-color pulses. The long-lasting orientation may be probed by even harmonic generation or by Coulomb-explosion-based methods. The effect may enable the study of relaxation processes in dense molecular gases, and may be useful for molecular guiding and trapping by inhomogeneous fields.
翻訳日:2023-01-19 09:45:24 公開日:2022-11-16
# 深部量子回路からのノイズロバスト基底状態エネルギー推定

Noise-robust ground state energy estimates from deep quantum circuits ( http://arxiv.org/abs/2211.08780v1 )

ライセンス: Link先を確認
Harish J. Vallury, Michael A. Jones, Gregory A. L. White, Floyd M. Creevey, Charles D. Hill, Lloyd C. L. Hollenberg(参考訳) フォールトトレランスに先立ち、量子コンピューティングの実用性は、量子アルゴリズムにおいてノイズの影響をいかに適切に回避できるかによって決定される。 変分量子固有解法(VQE)のようなハイブリッド量子古典アルゴリズムは、短期的な状態のために設計されている。 しかしながら、問題の規模が大きくなるにつれて、VQEの結果は現在のハードウェアのノイズによってスクランブルされる。 誤り軽減技術はこれらの問題をある程度緩和するが、ノイズに対する堅牢性が高いアルゴリズムアプローチを開発する必要がある。 本稿では,最近導入された量子計算モーメント法(qcm)の基底状態エネルギー問題に対するロバスト性について検討し,基礎エネルギー推定が非コヒーレントノイズを明示的に除去する例を示す。 この観測により、我々はIBM Quantumハードウェア上で量子磁性のモデルとしてQCMを実装し、回路深度の増加に伴うノイズフィルタリング効果を調べる。 QCMはVQEが完全に失敗する極めて高いエラー堅牢性を維持している。 最大で20キュービットの量子磁気モデルの場合、最大500 CNOTの超深度試験状態回路に対して、QCMは正確なエネルギー推定を抽出することができる。 この観測は広範な実験結果によって支えられている。 この精度に合わせるために、VQEはエラー率で約2桁のハードウェア改善が必要である。

In the lead up to fault tolerance, the utility of quantum computing will be determined by how adequately the effects of noise can be circumvented in quantum algorithms. Hybrid quantum-classical algorithms such as the variational quantum eigensolver (VQE) have been designed for the short-term regime. However, as problems scale, VQE results are generally scrambled by noise on present-day hardware. While error mitigation techniques alleviate these issues to some extent, there is a pressing need to develop algorithmic approaches with higher robustness to noise. Here, we explore the robustness properties of the recently introduced quantum computed moments (QCM) approach to ground state energy problems, and show through an analytic example how the underlying energy estimate explicitly filters out incoherent noise. Motivated by this observation, we implement QCM for a model of quantum magnetism on IBM Quantum hardware to examine the noise-filtering effect with increasing circuit depth. We find that QCM maintains a remarkably high degree of error robustness where VQE completely fails. On instances of the quantum magnetism model up to 20 qubits for ultra-deep trial state circuits of up to ~500 CNOTs, QCM is still able to extract accurate energy estimates. The observation is bolstered by an extensive set of experimental results. To match this accuracy, VQE would need hardware improvement by some 2 orders of magnitude on error rates.
翻訳日:2023-01-19 09:45:15 公開日:2022-11-16
# 量子ゼノ効果を用いた量子ビット制御:アクション原理アプローチ

Qubit control using quantum Zeno effect: Action principle approach ( http://arxiv.org/abs/2211.08773v1 )

ライセンス: Link先を確認
Komal Kumari, Garima Rajpoot, Sandeep Joshi and Sudhir Ranjan Jain(参考訳) 量子ゼノ効果が単純な量子系の状態を制御するのに役立つ段階を理解するために、連続量子測定のための確率的経路積分的形式論と行動原理(chantasri-dressel-jordan (cdj) action formalism [1, 2])を用いる。 繰り返し測定された駆動された2レベルシステムの詳細なダイナミクスは、例えば、無数の位相を解き放ちます。 検出周波数がラビ周波数より小さい場合、発振は減速し、2つの状態間の遷移の時間によって正確に測定されたときに興味深い共鳴で停止する。 一方、多くの繰り返し測定の限界において、力学は、安定かつ不安定な方向が反転する位相空間の2つの双曲点について、かなり興味深い方法で組織化される。 したがって、相空間の流れは双曲点から別の点へ、分離点の周りで異なる方法で形成される。 ここで提示された体系的な処理は、量子誤差補正の文脈において、量子ゼノ効果をより明確に理解する方法を舗装していると信じている。

We employ the stochastic path-integral formalism and action principle for continuous quantum measurements - the Chantasri-Dressel-Jordan (CDJ) action formalism [1, 2] - to understand the stages in which quantum Zeno effect helps control the states of a simple quantum system. The detailed dynamics of a driven two-level system subjected to repeated measurements unravels a myriad of phases, so to say. When the detection frequency is smaller than the Rabi frequency, the oscillations slow down, eventually coming to a halt at an interesting resonance when measurements are spaced exactly by the time of transition between the two states. On the other hand, in the limit of large number of repeated measurements, the dynamics organizes itself in a rather interesting way about two hyperbolic points in phase space whose stable and unstable directions are reversed. Thus, the phase space flow occurs from one hyperbolic point to another, in different ways organized around the separatrices. We believe that the systematic treatment presented here paves the way for a better and clearer understanding of quantum Zeno effect in the context of quantum error correction.
翻訳日:2023-01-19 09:44:52 公開日:2022-11-16
# 量子画像間のmulitphoton相関

Mulitphoton Correlations between Quantum Images ( http://arxiv.org/abs/2211.08674v1 )

ライセンス: Link先を確認
Serge Massar, Fabrice Devaux, Eric Lantz(参考訳) パラメトリックダウンコンバージョンによって生成された量子画像間の多光子相関は双光子波動関数の位相に敏感であり、2光子相関はこの位相に敏感である。 そこで本研究では,ccdカメラのフォーカスを外れた既存の量子イメージング実験を簡易に拡張することを提案する。 得られた4つの光子インテレファレンスの詳細な解析予測を行い,数値シミュレーションによりこれを支援した。 ボブの光子は最初は絡み合っていないが、アリスの光子の合同検出はボブの光子を絡み合う状態に投影する。 ここで提案される一般的なアプローチは、高次元の絡み合いを含む他の量子光学実験に拡張することができる。

Multiphoton correlations between entangled quantum images produced through parametric downconversion are sensitive to the phase of the bi-photon wavefunction, while the 2-photon correlations are insensitive to this phase. To demonstrate this, we propose a simple extension of existing quantum imaging experiments in which the CCD cameras are moved out of focus. We provide detailed analytical predictions for the resulting 4 photon intereferences, and support these by numerical simulations. The proposed experiment can also be interpreted as entanglement swapping: Bob's photons are initially unentangled, but the joint detection of Alice's photons projects Bob's photons onto an entangled state. The general approach proposed here can be extended to other quantum optics experiments involving high dimensional entanglement.
翻訳日:2023-01-19 09:44:16 公開日:2022-11-16
# 不均一相関量子系における空間密度の深層学習

Deep learning of spatial densities in inhomogeneous correlated quantum systems ( http://arxiv.org/abs/2211.09050v1 )

ライセンス: Link先を確認
Alex Blania, Sandro Herbig, Fabian Dechent, Evert van Nieuwenburg and Florian Marquardt(参考訳) 機械学習は、量子多体システムの処理を改善するために重要な一歩を踏み出した。 特定の関連性の領域は相関不均一系である。 これまでに欠けているのは、任意のポテンシャルの強い相関系に対する空間密度の迅速な予測を可能にする、汎用的でスケーラブルなディープラーニングアプローチである。 本研究では,ランダムポテンシャルに基づいて学習した畳み込みニューラルネットワークを用いて,密度を予測できる簡単なスキームを提案する。 量子モンテカルロなどの数値手法のデータを用いた1次元格子モデルと2次元格子モデルでこのアプローチを実証するが、実験的な量子シミュレータから得られたデータに直接適用できる。 我々は,複数の観測対象の密度を同時に予測し,任意のシステムサイズに対して多体格子モデルのクラス全体を予測できるネットワークを訓練する。 我々は,不均質な状況下での干渉や相互作用の相互作用や相転移を伴うモデルの挙動をうまく処理できることを示し,また,所望の密度のポテンシャルを見出すことによって,逆問題を解決する能力を示す。

Machine learning has made important headway in helping to improve the treatment of quantum many-body systems. A domain of particular relevance are correlated inhomogeneous systems. What has been missing so far is a general, scalable deep-learning approach that would enable the rapid prediction of spatial densities for strongly correlated systems in arbitrary potentials. In this work, we present a straightforward scheme, where we learn to predict densities using convolutional neural networks trained on random potentials. While we demonstrate this approach in 1D and 2D lattice models using data from numerical techniques like Quantum Monte Carlo, it is directly applicable as well to training data obtained from experimental quantum simulators. We train networks that can predict the densities of multiple observables simultaneously and that can predict for a whole class of many-body lattice models, for arbitrary system sizes. We show that our approach can handle well the interplay of interference and interactions and the behaviour of models with phase transitions in inhomogeneous situations, and we also illustrate the ability to solve inverse problems, finding a potential for a desired density.
翻訳日:2023-01-19 09:37:29 公開日:2022-11-16
# 4次元スピノル重力のためのセルオートマトン

Cellular automaton for spinor gravity in four dimensions ( http://arxiv.org/abs/2211.09002v1 )

ライセンス: Link先を確認
C. Wetterich(参考訳) あるフェルミオン量子場理論は確率的セルオートマトンと等価であり、フェルミオンの占有数はビットと関連している。 4次元のスピノル重力の離散モデルを表すオートマトンを構築する。 局所ローレンツ対称性は離散レベルで完全であり、微分同相対称性はナイーブ連続極限に現れる。 我々の設定は、真の連続極限において微分同相対称性が実現されれば量子重力のモデルとして機能し、ビエルベインとメートル法に適した集合場は、消滅しない期待値を取得する。 この興味深い特定のモデルの議論は、確率的セルオートマトンに対する連続限界の重要な定性的特徴を明らかにしている。 この制限は、確率情報が十分に滑らかであれば、非常に多くの細胞に対して得られる。 粗粒化と関連している。 すべてのビット構成が離散時間ステップ毎に更新され、正確に1つの新しいビット構成が粗い粒度で保持されないというオートマトン特性。 職業数の粗い構成は、ある確率で多くの異なる構成に進化することができる。 この量子場理論の特徴は、連続的な時空対称性の出現とともに生じる。

Certain fermionic quantum field theories are equivalent to probabilistic cellular automata, with fermionic occupation numbers associated to bits. We construct an automaton that represents a discrete model of spinor gravity in four dimensions. Local Lorentz symmetry is exact on the discrete level and diffeomorphism symmetry emerges in the naive continuum limit. Our setting could serve as a model for quantum gravity if diffeomorphism symmetry is realized in the true continuum limit and suitable collective fields for vierbein and metric acquire nonvanishing expectation values. The discussion of this interesting specific model reveals may key qualitative features of the continuum limit for probabilistic cellular automata. This limit obtains for a very large number of cells if the probabilistic information is sufficiently smooth. It is associated to coarse graining. The automaton property that every bit configuration is updated at every discrete time step to precisely one new bit configuration does no longer hold on the coarse grained level. A coarse grained configuration of occupation numbers can evolve into many different configurations with certain probabilities. This characteristic feature of quantum field theories can come along with the emergence of continuous space-time symmetries.
翻訳日:2023-01-19 09:37:10 公開日:2022-11-16
# 超低温極性分子間の衝突の2光子光遮蔽

Two-photon optical shielding of collisions between ultracold polar molecules ( http://arxiv.org/abs/2211.08950v1 )

ライセンス: Link先を確認
Charbel Karam, Mara Meyer zum Alten Borgloh, Romain Vexiau, Maxence Lepers, Silke Ospelkaus, Nadia Bouloufa-Maafa, Leon Karpa and Olivier Dulieu(参考訳) 光学場を用いた超低温基底分子間の反発性長距離相互作用を設計し,短距離衝突損失を防止する手法を提案する。 衝突遮蔽に最近用いられたマイクロ波結合を2光子遷移にマッピングし、光制御技術を利用する。 1光子光遮蔽(phys. rev. lett. 125, 153202 (2020))とは対照的に、このスキームは光子散乱による分子ガスの加熱を避ける。 提案したプロトコルは23Na39Kに例示され、多種の極性二原子分子に適用できる。

We propose a method to engineer repulsive long-range interactions between ultracold ground-state molecules using optical fields, thus preventing short-range collisional losses. It maps the microwave coupling recently used for collisional shielding onto a two-photon transition, and takes advantage of optical control techniques. In contrast to one-photon optical shielding [Phys. Rev. Lett. 125, 153202 (2020)], this scheme avoids heating of the molecular gas due to photon scattering. The proposed protocol, exemplified for 23Na39K, should be applicable to a large class of polar diatomic molecules.
翻訳日:2023-01-19 09:36:54 公開日:2022-11-16
# 導波路QEDにおける超ラジカルバーストの観測

Observation of superradiant bursts in waveguide QED ( http://arxiv.org/abs/2211.08940v1 )

ライセンス: Link先を確認
Christian Liedl, Felix Tebbenjohanns, Constanze Bach, Sebastian Pucher, Arno Rauschenbeutel, and Philipp Schneeweiss(参考訳) dicke superradianceは、2レベル原子の完全に反転したアンサンブルの集団崩壊ダイナミクスを記述する。 そこで原子は、原子双極子の自発的な同期によって、短く激しいバーストの形で光を発する。 通常、この現象を観測するには、原子は互いに近接して配置する必要がある。 対照的に、我々は数千の波長にまたがる原子の1次元アンサンブルを用いて、超ラジアントバーストダイナミクスを実験的に観察する。 これは、原子をナノフォトニック導波路に結合することで実現され、エミッタ間の長距離双極子-双極子相互作用を媒介する。 バーストはしきい値の原子数以上で発生し、そのピーク電力は標準ディッケ超放射能よりも原子数とともに高速にスケールする。 さらに、バーストのコヒーレンス特性を調べ、2つのレジーム間の鋭い遷移を観察し、第一に、原子間の位相コヒーレンスを励起レーザーによってシードする。 第二に、真空揺らぎによってシードされる。 我々の結果は、空間的に拡張された量子エミッタの集合的放射動力学に光を当て、量子技術の資源として多光子フォック状態を生成するのに役立つかもしれない。

Dicke superradiance describes the collective decay dynamics of a fully inverted ensemble of two-level atoms. There, the atoms emit light in the form of a short, intense burst due to a spontaneous synchronization of the atomic dipoles. Typically, to observe this phenomenon, the atoms must be placed in close vicinity of each other. In contrast, here we experimentally observe superradiant burst dynamics with a one-dimensional ensemble of atoms that extends over thousands of optical wavelengths. This is enabled by coupling the atoms to a nanophotonic waveguide, which mediates long-range dipole-dipole interactions between the emitters. The burst occurs above a threshold atom number, and its peak power scales faster with the number of atoms than in the case of standard Dicke superradiance. Moreover, we study the coherence properties of the burst and observe a sharp transition between two regimes: in the first, the phase coherence between the atoms is seeded by the excitation laser. In the second, it is seeded by vacuum fluctuations. Our results shed light on the collective radiative dynamics of spatially extended ensembles of quantum emitters and may turn out useful for generating multi-photon Fock states as a resource for quantum technologies.
翻訳日:2023-01-19 09:36:42 公開日:2022-11-16
# キャビティマグノニクスにおける異常点近傍のコヒーレント完全吸収によるマグノンカー非線形性の検出感度の向上

Enhancing the detection sensitivity of magnon Kerr nonlinearity via coherent perfect absorption around an exceptional point in cavity magnonics ( http://arxiv.org/abs/2211.08922v1 )

ライセンス: Link先を確認
Guo-Qiang Zhang, Yimin Wang, Wei Xiong(参考訳) キャビティマグノニクスにおけるマグノンカー非線形性(mkn)の検出感度を向上させる方法を示す。 キャビティ・マグノン系は、2つのイットリウム鉄ガーネット(YIG)球を含む3次元マイクロ波空洞から構成され、YIG球内の2つのマグノンモード(一方はMKNを持ち、もう一方は線形)は同時にマイクロ波光子と結合される。 キャビティモードの有効利得を得るために,2つの入力フィールドをキャビティに供給する。 適切なパラメータを選択することによって、2つの入力場のコヒーレント完全吸収が起こり、キャビティ・マグノン系は有効非エルミート・ハミルトニアンによって記述できる。 擬エルミート条件の下では、実効ハミルトニアンは3階例外点 (EP3) をホストすることができ、そこではハミルトニアン座標の3つの固有値が1つにまとめられる。 mknによって誘導されるマグノン周波数シフト$\delta_k$がキャビティの伝送スペクトルのピークのライン幅$\gamma$よりも小さい場合(すなわち$\delta_k\ll \gamma$)、マグノン周波数シフトはep3によって増幅され、キャビティの出力スペクトルを介してプローブすることができる。 提案手法は,MKN を領域 $\Delta_K\ll \Gamma$ で測定する代替手法を提供し,MKN に基づく低消費電力非線形デバイスの設計に応用できる可能性を持っている。

We show how to enhance the detection sensitivity of magnon Kerr nonlinearity (MKN) in cavity magnonics. The considered cavity-magnon system consists of a three-dimensional microwave cavity containing two yttrium iron garnet (YIG) spheres, where the two magnon modes (one has the MKN, while the other is linear) in YIG spheres are simultaneously coupled to microwave photons. To obtain the effective gain of the cavity mode, we feed two input fields into the cavity. By choosing appropriate parameters, the coherent perfect absorption of the two input fields occurs, and the cavity-magnon system can be described by an effective non-Hermitian Hamiltonian. Under the pseudo-Hermitian conditions, the effective Hamiltonian can host the third-order exceptional point (EP3), where the three eigenvalues of the Hamiltonian coalesce into one. When the magnon frequency shift $\Delta_K$ induced by the MKN is much smaller than the linewidths $\Gamma$ of the peaks in the transmission spectrum of the cavity (i.e., $\Delta_K\ll \Gamma$), the magnon frequency shift can be amplified by the EP3, which can be probed via the output spectrum of the cavity. The scheme we present provides an alternative approach to measure the MKN in the region $\Delta_K\ll \Gamma$ and has potential applications in designing low-power nonlinear devices based on the MKN.
翻訳日:2023-01-19 09:36:22 公開日:2022-11-16
# 強サイドバンド結合レジームにおけるトラップイオンのサイドバンド冷却

Sideband Cooling of a Trapped Ion in Strong Sideband Coupling Regime ( http://arxiv.org/abs/2211.08896v1 )

ライセンス: Link先を確認
Shuo Zhang, Zhuo-Peng Huang, Tian-Ci Tian, Zheng-Yang Wu, Jian-Qi Zhang, Wan-Su Bao, Chu Guo(参考訳) 閉じ込められたイオンの基底状態レーザー冷却に関する従来の理論的研究は、主に弱いサイドバンドカップリング(WSC)機構に焦点を当てており、冷却速度は励起状態の直線幅に逆比例する。 最近の研究—[new j. phys. 23, 023018 (2021)]では、キャリア遷移の消滅を前提として、強側帯結合(ssc)状態における捕捉イオンの基底状態冷却を研究するための理論的枠組みを提案した。 ここでは,この解析を非有線キャリア遷移を伴うより一般的な状況に拡張し,結合レーザを適切に調整することで,線幅に比例する冷却速度が得られることを示す。 我々の理論的予測は、サイドバンド冷却実験において重要な理論的ガイダンスを提供するSSC体制における対応する正確な解と密接に一致している。

Conventional theoretical studies on the ground-state laser cooling of a trapped ion have mostly focused on the weak sideband coupling (WSC) regime, where the cooling rate is inverse proportional to the linewidth of the excited state. In a recent work~[New J. Phys. 23, 023018 (2021)], we proposed a theoretical framework to study the ground state cooling of a trapped ion in the strong sideband coupling (SSC) regime, under the assumption of a vanishing carrier transition. Here we extend this analysis to more general situations with nonvanishing carrier transitions, where we show that by properly tuning the coupling lasers a cooling rate proportional to the linewidth can be achieved. Our theoretical predictions closely agree with the corresponding exact solutions in the SSC regime, which provide an important theoretical guidance for sideband cooling experiments.
翻訳日:2023-01-19 09:35:47 公開日:2022-11-16
# コヒーレント量子電池の測定法による合成

Measurement Induced Synthesis of Coherent Quantum Batteries ( http://arxiv.org/abs/2211.08876v1 )

ライセンス: Link先を確認
Mariia Gumberidze, Michal Kol\'a\v{r}, and Radim Filip(参考訳) エネルギー固有状態の重ね合わせで表される量子コヒーレンスは、エネルギーとともに、量子技術や熱力学の重要な資源である。 しかし、エネルギーと量子コヒーレンスは相補的である。 エネルギーの増加は量子コヒーレンスを低減し、逆もまた可能である。 近年,定常量子コヒーレンスが寒冷環境から自律的に活用できることが判明した。 本研究では,環境から得られた部分量子コヒーレンスを,エネルギーとコヒーレンスの両方を同時に増加させることができる測定値を用いて,N$独立二段階系(TLS)の条件付き合成を提案する。 この測定プロセスは、個々のTLSのコヒーレントエネルギーを1つの大きなコヒーレント量子電池に合成するマックスウェルのデーモンとして作用する。 POVM 要素によって記述される測定過程はエネルギー表現において対角的であるため、量子コヒーレンスを持つ状態には射影しない。 電池のコヒーレントエネルギーに達するための様々な戦略と効率について論じる。 数値最適化と原理実証テストの後、定常自律コヒーレンスからコヒーレント量子電池の繰り返しアンティルサクセス合成を可能にする方法を開く。

Quantum coherence represented by a superposition of energy eigenstates is, together with energy, an important resource for quantum technology and thermodynamics. Energy and quantum coherence however, can be complementary. The increase of energy can reduce quantum coherence and vice versa. Recently, it was realized that steady-state quantum coherence could be autonomously harnessed from a cold environment. We propose a conditional synthesis of $N$ independent two-level systems (TLS) with partial quantum coherence obtained from an environment to one coherent system using a measurement able to increase both energy and coherence simultaneously. The measurement process acts here as a Maxwell demon synthesizing the coherent energy of individual TLS to one large coherent quantum battery. The measurement process described by POVM elements is diagonal in energy representation and, therefore, it does not project on states with quantum coherence at all. We discuss various strategies and their efficiency to reach large coherent energy of the battery. After numerical optimization and proof-of-principle tests, it opens way to feasible repeat-until-success synthesis of coherent quantum batteries from steady-state autonomous coherence.
翻訳日:2023-01-19 09:35:13 公開日:2022-11-16
# 量子絡み合ったサニャック干渉計

Quantum entangled Sagnac interferometer ( http://arxiv.org/abs/2211.08867v1 )

ライセンス: Link先を確認
Wen Zhao, Xuan Tang, Xueshi Guo, Xiaoying Li, and Z. Y. Ou(参考訳) SU(1,1)干渉計(SUI)は、直接絡み合った量子場を用いて位相変化を検出する新しいタイプの干渉計である。 回転センシングでは、通常、sagnac幾何が用いられる。 しかし、suは2つの腕の位相和に依存するため、伝統的なsagac幾何はsuに適用するとヌルシグナルとなる。 本稿では,従来のサニャック干渉計を,内部にsu(1,1)干渉計を入れ替えることで修正する。 回転信号はそれぞれ「古典」と「量子」の2つの部分から出ており、量子エンタングル場をセンシングに用いる量子部分では、suの利得に関連する係数によって回転信号が強化されている。

SU(1,1) interferometer (SUI) is a novel type of interferometer that uses directly entangled quantum fields for sensing phase change. For rotational sensing, Sagnac geometry is usually adopted. However, because SUI depends on the phase sum of the two arms, traditional Sagnac geometry, when applied to SUI, will result in null signal. In this paper, we modify the traditional Sagnac interferometer by nesting SU(1,1) interferometers inside. We show that the rotational signal comes from two parts labeled as "classical" and "quantum", respectively, and the quantum part, where quantum entangled fields are used for sensing, has rotational signal enhanced by a factor related to the gain of the SUI.
翻訳日:2023-01-19 09:34:55 公開日:2022-11-16
# トロッターステップの実装の複雑さについて

On the complexity of implementing Trotter steps ( http://arxiv.org/abs/2211.09133v1 )

ライセンス: Link先を確認
Guang Hao Low, Yuan Su, Yu Tong, Minh C. Tran(参考訳) 量子力学は、ハミルトニアンの初等項を逐次的に解いて量子コンピュータ上でシミュレーションすることができる。 しかし、そのようなトロッターステップの実装は、ハミルトニアン項全体の数に依存するゲート複雑性を持ち、より高度な手法を用いたアルゴリズムと比較すると不利である。 我々は,項数において複雑性をサブ線形とした高速なトロッターステップを実現する手法を開発した。 力則に従って相互作用強度が距離とともに減衰するハミルトニアンのクラスに対してこれを達成する。 提案手法は,再帰的ブロック符号化に基づくもの,平均コストシミュレーションに基づくもの,これら量子シミュレーション技術の正規化因子障壁を克服するものを含む。 また、ハミルトン係数の特定のブロックが低いとき、より高速なトロッターステップを実現する。 より厳密なエラー分析と組み合わせると、{\left(\eta^{1/3}n^{1/3}+\frac{n^{2/3}}{\eta^{2/3}}\right)n^{1+o(1)}$gatesを使って、実空間における第二量子化におけるスピン軌道と$\eta$電子による一様電子ガスをシミュレートし、以前の最良の仕事よりも漸近的に改善できることが分かる。 ボルン-オッペンハイマー近似の下で原子核の外部ポテンシャルが導入されたとき、類似の結果が得られる。 我々は、ハミルトニアン係数が連続値の範囲を取るとき、回路の低い境界を証明し、通勤項を持つ一般の$n$-qubit $2$-local Hamiltonianが、時間$t=\Omega(\epsilon)$に対して$\epsilon=\Omega(1/poly(n))$で進化するために少なくとも$\Omega(n^2)$ゲートを必要とすることを示す。 我々の証明は、ハミングウェイト内の対角ユニタリの近似合成から2$部分空間へのゲート効率の低下に基づく。 その結果, ゲート複雑性の低いトロッターステップを実装するのに必要かつ十分であるハミルトン構造特性を用いることが示唆された。

Quantum dynamics can be simulated on a quantum computer by exponentiating elementary terms from the Hamiltonian in a sequential manner. However, such an implementation of Trotter steps has gate complexity depending on the total Hamiltonian term number, comparing unfavorably to algorithms using more advanced techniques. We develop methods to perform faster Trotter steps with complexity sublinear in the number of terms. We achieve this for a class of Hamiltonians whose interaction strength decays with distance according to power law. Our methods include one based on a recursive block encoding and one based on an average-cost simulation, overcoming the normalization-factor barrier of these advanced quantum simulation techniques. We also realize faster Trotter steps when certain blocks of Hamiltonian coefficients have low rank. Combining with a tighter error analysis, we show that it suffices to use $\left(\eta^{1/3}n^{1/3}+\frac{n^{2/3}}{\eta^{2/3}}\right)n^{1+o(1)}$ gates to simulate uniform electron gas with $n$ spin orbitals and $\eta$ electrons in second quantization in real space, asymptotically improving over the best previous work. We obtain an analogous result when the external potential of nuclei is introduced under the Born-Oppenheimer approximation. We prove a circuit lower bound when the Hamiltonian coefficients take a continuum range of values, showing that generic $n$-qubit $2$-local Hamiltonians with commuting terms require at least $\Omega(n^2)$ gates to evolve with accuracy $\epsilon=\Omega(1/poly(n))$ for time $t=\Omega(\epsilon)$. Our proof is based on a gate-efficient reduction from the approximate synthesis of diagonal unitaries within the Hamming weight-$2$ subspace, which may be of independent interest. Our result thus suggests the use of Hamiltonian structural properties as both necessary and sufficient to implement Trotter steps with lower gate complexity.
翻訳日:2023-01-19 09:30:30 公開日:2022-11-16
# 2+1)D結晶状態とホフスタッター蝶の多体不変量としての量子化電荷偏極

Quantized charge polarization as a many-body invariant in (2+1)D crystalline topological states and Hofstadter butterflies ( http://arxiv.org/abs/2211.09127v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Naren Manjunath, Gautam Nambiar, and Maissam Barkeshli(参考訳) 非ゼロチャーン数や磁場の存在下でも、(2+1)Dのトポロジカル位相に対して量子化された多体電荷偏極$\vec{\mathscr{P}}$を定義する方法を示す。 可逆位相状態に対して、$\vec{\mathscr{p}}$ は$\mathbb{z}_2 \times \mathbb{z}_2$,$\mathbb{z}_3$,$\mathbb{z}_2$,$\mathbb{z}_1$ であり、m = 2$, $3$, $4$ または$$$$$$$ の回転対称性、格子(磁気)変換対称性、電荷保存がある。 システムの大部分において、$\vec{\mathscr{p}}$ が現れる。 i) $\vec{\mathscr{P}} \cdot \vec{b} \text{ mod 1}$ の分数量子化された寄与を、バーガースベクトル $\vec{b}$ で格子の微分と転位に束縛された電荷に対する。 (ii)磁束の線形運動量、及び (iii)シリンダ上の有効1次元偏光に対する振動系の大きさ依存性 磁場中のスピンレス自由フェルミオンの格子模型における$\vec{\mathscr{p}}$の研究を行った。 我々は、その効果の数値計算と一致する位相場理論から予測を導出する。 (i)- (iii) 顕微鏡モデルから本質的に多体的な方法で$\vec{\mathscr{p}}$を抽出するために使用できることを示す。 高対称性点 $\text{o}$ が与えられたとき、離散シフト $\mathscr{S}_{\text{o}}$ が存在して、$\vec{\mathscr{P}}$ が $\mathscr{S}_{\text{o}}$ の依存性を$\text{o}$ に指定することを示す。 色付きホフシュタッターバターは、チャーン数と離散シフトからさらに色付き蝶を精製する$\vec{\mathscr{p}}$の量子化値に対応する。

We show how to define a quantized many-body charge polarization $\vec{\mathscr{P}}$ for (2+1)D topological phases of matter, even in the presence of non-zero Chern number and magnetic field. For invertible topological states, $\vec{\mathscr{P}}$ is a $\mathbb{Z}_2 \times \mathbb{Z}_2$, $\mathbb{Z}_3$, $\mathbb{Z}_2$, or $\mathbb{Z}_1$ topological invariant in the presence of $M = 2$, $3$, $4$, or $6$-fold rotational symmetry, lattice (magnetic) translational symmetry, and charge conservation. $\vec{\mathscr{P}}$ manifests in the bulk of the system as (i) a fractional quantized contribution of $\vec{\mathscr{P}} \cdot \vec{b} \text{ mod 1}$ to the charge bound to lattice disclinations and dislocations with Burgers vector $\vec{b}$, (ii) a linear momentum for magnetic flux, and (iii) an oscillatory system size dependent contribution to the effective 1d polarization on a cylinder. We study $\vec{\mathscr{P}}$ in lattice models of spinless free fermions in a magnetic field. We derive predictions from topological field theory, which we match to numerical calculations for the effects (i)-(iii), demonstrating that these can be used to extract $\vec{\mathscr{P}}$ from microscopic models in an intrinsically many-body way. We show how, given a high symmetry point $\text{o}$, there is a topological invariant, the discrete shift $\mathscr{S}_{\text{o}}$, such that $\vec{\mathscr{P}}$ specifies the dependence of $\mathscr{S}_{\text{o}}$ on $\text{o}$. We derive colored Hofstadter butterflies, corresponding to the quantized value of $\vec{\mathscr{P}}$, which further refine the colored butterflies from the Chern number and discrete shift.
翻訳日:2023-01-19 09:29:42 公開日:2022-11-16
# 生成モデリングと制約付き組合せ最適化のための対称テンソルネットワーク

Symmetric Tensor Networks for Generative Modeling and Constrained Combinatorial Optimization ( http://arxiv.org/abs/2211.09121v1 )

ライセンス: Link先を確認
Javier Lopez-Piqueres, Jing Chen, Alejandro Perdomo-Ortiz(参考訳) ポートフォリオ最適化からロジスティクスまで、業界に多い制約付き組合せ最適化の問題。 これらの問題を解決する大きな障害の1つは、有効な探索空間を制限する非自明なハード制約の存在である。 いくつかのヒューリスティックな解法において、これらは典型的にはコスト関数に特定のラグランジュ乗数を導入し、それらを何らかの方法で緩和し、さらに悪いことに、多くのサンプルを生成して有効なものだけを保持することにより、非常に高価で非効率な探索をもたらす。 本研究では, ax=b 形式の任意の整数値等式制約を u(1) 対称テンソルネットワーク (tns) に直接エンコードし, 組合せ最適化問題の解探索を支援する量子モデルとしてその適用性を活用する。 これにより、TN生成モデルの一般化能力を利用でき、それらを制約することで、有効なサンプルのみを出力できる。 制約付きTN生成モデルは,パラメータ数と計算コストを削減し,制約を効率的に捕捉する。 任意の等式によって与えられる制約のあるタスクにおいて、対称行列積状態は、組合せ最適化問題に対する新しいより良い解を見つけるために、標準の制約のないタスクよりも優れることがわかった。

Constrained combinatorial optimization problems abound in industry, from portfolio optimization to logistics. One of the major roadblocks in solving these problems is the presence of non-trivial hard constraints which limit the valid search space. In some heuristic solvers, these are typically addressed by introducing certain Lagrange multipliers in the cost function, by relaxing them in some way, or worse yet, by generating many samples and only keeping valid ones, which leads to very expensive and inefficient searches. In this work, we encode arbitrary integer-valued equality constraints of the form Ax=b, directly into U(1) symmetric tensor networks (TNs) and leverage their applicability as quantum-inspired generative models to assist in the search of solutions to combinatorial optimization problems. This allows us to exploit the generalization capabilities of TN generative models while constraining them so that they only output valid samples. Our constrained TN generative model efficiently captures the constraints by reducing number of parameters and computational costs. We find that at tasks with constraints given by arbitrary equalities, symmetric Matrix Product States outperform their standard unconstrained counterparts at finding novel and better solutions to combinatorial optimization problems.
翻訳日:2023-01-19 09:28:52 公開日:2022-11-16
# 1次元双極子量子ガスの急速分布と運動量分布

Rapidity and momentum distributions of 1D dipolar quantum gases ( http://arxiv.org/abs/2211.09118v1 )

ライセンス: Link先を確認
Kuan-Yu Li, Yicheng Zhang, Kangning Yang, Kuan-Yu Lin, Sarang Gopalakrishnan, Marcos Rigol, and Benjamin L. Lev(参考訳) 接触相互作用を持つ1次元超低温ボゾンガスは可積分リーブ・ライニガーモデルによって記述される。 1Dジスプロシウムガスの場合、その強い双極子-双極子相互作用が平衡における測定可能な効果をもたらすか、リーブ-ライニガーモデルに基づく記述がまだ適用可能であるかという2つのオープンな疑問がある。 本研究では,強磁性1dジスプロシウムボース気体の低温平衡状態の速さと運動量分布を測定した。 磁場配向を変化させて双極子相互作用の強度をチューニングし、熱力学的bethe ansatz(速さ)と経路積分量子モンテカルロ(運動量)を用いて得られるリーブ・リンガーモデル予測と比較する。 この理論は、トンクス・ギラルドー極限における実験を最も密接に記述している。 この合意は中間的な相互作用で悪化するが、理論は全体的な実験的な傾向を追跡する。 以上の結果から, 双極子相互作用はトンクス・ジラルドー限界に近づくと弱くなることが示唆され, リーブ・ライニガーモデルが準基底状態の双極子1Dガスを記述するための出発点となることが示唆された。

One-dimensional ultracold bosonic gases with contact interactions are described by the integrable Lieb-Liniger model. In the case of 1D dysprosium gases, two open questions are whether its strong dipole-dipole interactions produce measurable effects in equilibrium and whether a description based on the Lieb-Liniger model is still applicable. In this work, we measure the rapidity and momentum distributions of low-temperature equilibrium states of highly magnetic 1D dysprosium Bose gases. We tune the strength of the dipolar interactions by changing the magnetic field orientation and compare the measurements to the Lieb-Liniger model predictions obtained using the thermodynamic Bethe ansatz (for rapidity) and path-integral quantum Monte Carlo (for momentum). The theory quantitatively describes the experiments most closely in the Tonks-Girardeau limit. The agreement worsens at intermediate interactions, but theory nevertheless tracks the overall experimental trends. Our results show that the dipolar interactions have a significant effect, which weakens as one approaches the Tonks-Girardeau limit, and suggest that the Lieb-Liniger model is a good starting point for describing near-ground-state dipolar 1D gases.
翻訳日:2023-01-19 09:28:29 公開日:2022-11-16
# リアルタイム量子誤差補正の限界

Real-time quantum error correction beyond break-even ( http://arxiv.org/abs/2211.09116v1 )

ライセンス: Link先を確認
V. V. Sivak, A. Eickbusch, B. Royer, S. Singh, I. Tsioutsios, S. Ganjam, A. Miano, B. L. Brock, A. Z. Ding, L. Frunzio, S. M. Girvin, R. J. Schoelkopf, M. H. Devoret(参考訳) 量子を計算に利用するという野心は、デコヒーレンスの基本的な現象と矛盾する。 量子エラー補正(QEC)の目的は、複雑なシステムの自然な傾向に逆らってデコヘアすることである。 この協調プロセスは、複数の量子および古典的成分の参加を必要とするが、これらの誤りが蓄積された量子情報を破壊する速度よりも早くエラーに起因するエントロピーを取り除く特別なタイプの散逸を生成する。 このようなプロセスを設計しようという試みは、プロセス自体のエラー訂正能力を圧倒する過度なエラー発生に直面した。 量子コヒーレンスを拡張するためにQECを実際に利用できるかどうかは未解決のままである。 量子コヒーレンスがQECプロセスに関わる全ての不完全な量子成分よりもかなり長い完全安定かつ誤り訂正された論理量子ビットを証明し、それらの中で最高のコヒーレンスゲインを$G = 2.27 \pm 0.07$で上回った。 超伝導量子回路の試作やモデルフリー強化学習など,いくつかの領域におけるイノベーションを組み合わせることで,この性能を実現する。

The ambition of harnessing the quantum for computation is at odds with the fundamental phenomenon of decoherence. The purpose of quantum error correction (QEC) is to counteract the natural tendency of a complex system to decohere. This cooperative process, which requires participation of multiple quantum and classical components, creates a special type of dissipation that removes the entropy caused by the errors faster than the rate at which these errors corrupt the stored quantum information. Previous experimental attempts to engineer such a process faced an excessive generation of errors that overwhelmed the error-correcting capability of the process itself. Whether it is practically possible to utilize QEC for extending quantum coherence thus remains an open question. We answer it by demonstrating a fully stabilized and error-corrected logical qubit whose quantum coherence is significantly longer than that of all the imperfect quantum components involved in the QEC process, beating the best of them with a coherence gain of $G = 2.27 \pm 0.07$. We achieve this performance by combining innovations in several domains including the fabrication of superconducting quantum circuits and model-free reinforcement learning.
翻訳日:2023-01-19 09:28:07 公開日:2022-11-16
# 量子デバイスにおける最適ベイズ系同定

Optimised Bayesian system identification in quantum devices ( http://arxiv.org/abs/2211.09090v1 )

ライセンス: Link先を確認
Thomas M. Stace, Jiayin Chen, Li Li, Viktor S. Perunicic, Andre R. R. Carvalho, Michael R. Hush, Christophe H. Valahu, Ting Rei Tan, and Michael J. Biercuk(参考訳) 物理量子システムにおける量的力学モデルの同定と校正は、様々な応用において重要である。 ここでは、最適化された実験「プローブ」制御と測定を用いて、複数の未知パラメータを動的モデルで推定する閉ループベイズ学習アルゴリズムを提案する。 この推定アルゴリズムはベイズ粒子フィルタに基づいており、予測モデルと比較する情報最適化プローブ実験を自律的に選択するように設計されている。 シミュレーションキャリブレーションタスクと実験用シングルキュービットイオントラップシステムの両方でアルゴリズムの性能を実証する。 実験では,従来の校正法の精度を60倍に抑え,約93倍の効率向上(目標残差不確実性を達成するために必要な測定値の削減と精度の増大による乗算による定量化)を実現した。 シミュレーションおよび実験実験では、後続の不確実性が反復的に減少し、実験クエリ数でモデルパラメータの精度が指数関数的に向上するため、連続的に長いパルスが選択されることが分かった。

Identifying and calibrating quantitative dynamical models for physical quantum systems is important for a variety of applications. Here we present a closed-loop Bayesian learning algorithm for estimating multiple unknown parameters in a dynamical model, using optimised experimental "probe" controls and measurement. The estimation algorithm is based on a Bayesian particle filter, and is designed to autonomously choose informationally-optimised probe experiments with which to compare to model predictions. We demonstrate the performance of the algorithm in both simulated calibration tasks and in an experimental single-qubit ion-trap system. Experimentally, we find that with 60x fewer samples, we exceed the precision of conventional calibration methods, delivering an approximately 93x improvement in efficiency (as quantified by the reduction of measurements required to achieve a target residual uncertainty and multiplied by the increase in accuracy). In simulated and experimental demonstrations, we see that successively longer pulses are selected as the posterior uncertainty iteratively decreases, leading to an exponential improvement in the accuracy of model parameters with the number of experimental queries.
翻訳日:2023-01-19 09:27:44 公開日:2022-11-16
# 絡み合った光子対による超高速デファスメントの探索

Probing Ultra-Fast Dephasing via Entangled Photon Pairs ( http://arxiv.org/abs/2211.09083v1 )

ライセンス: Link先を確認
Xinghua Liu, Tian Li, Jiaxuan Wang, Mrunal R. Kamble, Aleksei M. Zheltikov, and Girish S. Agarwal(参考訳) 極性光子とのHong-Ou-Mandel(HOM)干渉を超高速なデファス法に応用する方法を実証する。 我々は、HOMディップの位置と形状の変化から、媒体の複素感受性の実部や虚部のような光学特性を推測することができる。 HOMディップのシフトから、光学損失が97%である場合でも、連続波(CW)レーザーを用いて22 fsの劣化時間を測定することができ、HOMディップの可視性は92.3~\%(96.7%)で維持される。 厳密な理論モデルを用いて説明された実験的な観察は、超高速デファス探索におけるhom干渉の有用性を示している。

We demonstrate how the Hong-Ou-Mandel (HOM) interference with polarization-entangled photons can be used to probe ultrafast dephasing. We can infer the optical properties like the real and imaginary parts of the complex susceptibility of the medium from changes in the position and the shape of the HOM dip. From the shift of the HOM dip, we are able to measure 22 fs dephasing time using a continuous-wave (CW) laser even with optical loss > 97%, while the HOM dip visibility is maintained at 92.3~\% (which can be as high as 96.7%). The experimental observations, which are explained in terms of a rigorous theoretical model, demonstrate the utility of HOM interference in probing ultrafast dephasing.
翻訳日:2023-01-19 09:27:25 公開日:2022-11-16
# 局所エネルギー最適化による完全接続ネットワークの効率的な励磁移動

Efficient excitation-transfer across fully connected networks via local-energy optimization ( http://arxiv.org/abs/2211.09079v1 )

ライセンス: Link先を確認
P. Sgroi, G. Zicari, A. Imparato and M. Paternostro(参考訳) 本研究では,サイトエネルギーを人工的に設計できる完全連結量子ネットワーク上での励起移動の研究を行う。 fenna-matthews-olson複合体の簡易モデルから,aダプティブ勾配降下法と自動微分法を用いて,その局所エネルギーを体系的に最適化し,様々な環境条件下での高励起移動を実現する。 約完全な転送は局所的なデファス化なしで達成できることを示し、デファス化率はそれほど大きくないことを示す。 我々は,ネットワーク接続の強度やサイズ,コヒーレンス損失のばらつきに対して,レジリエンスの観点からソリューションを調査した。 軽蔑的かつ軽蔑的なトランスファーの異なる特徴を強調した。 我々の研究は、完全連結量子ネットワークにおける励起-伝達現象におけるコヒーレンスと強調効果の相互作用に関するさらなる洞察を与える。 これにより、ローカルエネルギーの簡単な操作を通じて、人工オープンネットワークにおける最適な転送を設計できる。

We study the excitation transfer across a fully connected quantum network whose sites energies can be artificially designed. Starting from a simplified model of a Fenna-Matthews-Olson complex, we systematically optimize its local energies to achieve high excitation transfer for various environmental conditions, using an a daptive Gradient Descent technique and Automatic Differentiation. We show that almost perfect transfer can be achieved with and without local dephasing, provided that the dephasing rates are not too large. We investigate our solutions in terms of resilience against variations in either the network connection strengths, or size, as well as coherence losses. We highlight the different features of a dephasing-free and dephasing-driven transfer. Our work gives further insight into the interplay between coherence and dephasing effects in excitation-transfer phenomena across fully connected quantum networks. In turn, this will help designing optimal transfer in artificial open networks through the simple manipulation of local energies.
翻訳日:2023-01-19 09:27:10 公開日:2022-11-16
# 立方相ゲートを用いた全光量子コンピューティング

All-optical quantum computing using cubic phase gates ( http://arxiv.org/abs/2211.09060v1 )

ライセンス: Link先を確認
Niklas Budinger, Akira Furusawa, Peter van Loock(参考訳) もし適切な量子光学相互作用が利用可能で、非線形に光学モード演算子を変換すれば、全フォトニクスプラットフォームは量子コンピュータを実現するための最強の競争相手の1つである。 他の物質ベースの(固体または原子)プラットフォームとは異なり、フォトニック量子ビットは室温と高クロックレート(GHzまたは原則として THz )で動作することができる。 さらに、最近の連続変数の時間ドメインアプローチは非常にスケーラブルです。 さらに、単一光子量子ビットは直接処理されるが、「明るい」論理量子ビットは個々の発振器モードに埋め込むことができ、ボソニック符号(bosonic codes)と呼ばれる。 本研究では,ビームスプリッタと単モード立方体位相ゲートのみを適度な数で,オフラインの圧縮状態あるいは単一光子リソースを用いて,全光,普遍的,フォールトトレラントな量子計算を実現する方法を示す。 本手法は, 正確なゲート分解と近似トロッタライゼーションを組み合わせた新しい分解手法に基づく。 これにより、ある種の非線形連続変量多モードゲートを基本ゲートに効率的な分解が可能となり、必要な数立方ゲートは弱く、あるいはすべて同一である可能性さえあるため、潜在的な実験が容易になる。 最後のゲート操作には、2モード制御された位相回転と3モードのラビ型ハミルトニアンゲートがあり、これは高忠実度単光子2量子エンタングゲートを実現するために用いられるか、ボソニック符号の例として高品質なゴッテマン・キタエフ・プレススキル状態を生成する。 我々は、クォートカー型相互作用に依存するものなど、様々なアプリケーションで一般的な利用法を期待する。

If suitable quantum optical interactions were available, transforming optical field mode operators in a nonlinear fashion, the all-photonics platform could be one of the strongest contenders for realizing a quantum computer. Unlike other, matter-based (solid-state or atomic) platforms, photonic qubits can be operated at room temperature and high clock rates (GHz or, in principle, even THz). In addition, recent continuous-variable time-domain approaches are extremely well scalable. Moreover, while single-photon qubits may be processed directly, "brighter" logical qubits may be embedded in individual oscillator modes, using so-called bosonic codes, for an in-principle fault-tolerant processing. In this work, we show how elements of all-optical, universal, and fault-tolerant quantum computation can be implemented using only beam splitters together with single-mode cubic phase gates in reasonable numbers, and possibly offline squeezed-state or single-photon resources. Our approach is based on a novel decomposition technique combining exact gate decompositions and approximate trotterization. This allows for efficient decompositions of certain nonlinear continuous-variable multi-mode gates into the elementary gates, where the few cubic gates needed may even be weak or all identical, thus facilitating potential experiments. The final gate operations include two-mode controlled phase rotation and three-mode Rabi-type Hamiltonian gates, which are shown to be employable for realizing high-fidelity single-photon two-qubit entangling gates or, as a bosonic-code example, creating high-quality Gottesman-Kitaev-Preskill states. We expect our method of general use with various applications, including those that rely on quartic Kerr-type interactions.
翻訳日:2023-01-19 09:26:55 公開日:2022-11-16
# バックフローの古典的限界への異なるルート

Different routes to the classical limit of backflow ( http://arxiv.org/abs/2211.09057v1 )

ライセンス: Link先を確認
S. V. Mousavi and S. Miret-Artes(参考訳) デコヒーレンスは、オープン量子システムにおける古典力学の出現のための確立されたプロセスである。 しかし, 独立系における本質的デコヒーレンスと, 開放系における散逸・ゆらぎによる環境デコヒーレンスという2つの異なる起源やメカニズムが考えられる。 この第2のメカニズムは、この効果の発生の重要な要件を維持するために形式論において熱揺らぎ項を追加できないため、バックフローについては考慮できない。 本研究の目的は,根底にある内在的非一貫性と散逸的ダイナミクスの光に対するバックフロー効果を分析することである。 この目的のために、まず、システムに必要なユニタリ進化ステップの平均頻度を仮定したミルバーンアプローチに対処します。 比較分析は、lindblad master方程式を用いて行われる。 第二に、いわゆる量子-古典遷移波動方程式は、量子から古典的レジームへの連続パラメータと、動的非古典的レジーム間の全ての内在的レジームを用いて導出・表現される線形スケールドシュル=オディンガー方程式から解析される。 この理論解析はウェンツェル・クラマース・ブリルアン近似に着想を得ている。 第三に, この解析を完遂するために, 遷移波動方程式形式論はカルディロラ・カナイ法における散逸バックフローにも応用され, 散逸ダイナミクスは効果的なハミルトニアンから得られる。 ここで扱われるすべてのケースにおいて、内在的非一貫性プロセスが進展するにつれて、バックフローは徐々に抑制され、古典的限界に特に注意を払う。 古典への道は独特ではない。

Decoherence is a well established process for the emergence of classical mechanics in open quantum systems. However, it can have two different origins or mechanisms depending on the dynamics one is considering, speaking then about intrinsic decoherence for isolated systems and environmental decoherence due to dissipation/fluctuations for open systems. This second mechanism can not be considered for backflow since no thermal fluctuation terms can be added in the formalism in order to keep an important requirement for the occurrence of this effect: only contributions of positive momenta along time should be maintained. The purpose of this work is to analyze the backflow effect in the light of the underlying intrinsic decoherence and the dissipative dynamics. For this goal, we first deal with the Milburn approach where a mean frequency of the unitary evolution steps undergone for the system is assumed. A comparative analysis is carried out in terms of the Lindblad master equation. Second, the so-called quantum-to-classical transition wave equation is analyzed from a linear scaled Schr\"odinger equation which is derived and expressed in terms of a continuous parameter covering from the quantum to the classical regime as well as all in-between dynamical non-classical regimes. This theoretical analysis is inspired by the Wentzel-Kramers-Brillouin approximation. And third, in order to complete our analysis, the transition wave equation formalism is also applied to dissipative backflow within the Caldirola-Kanai approach where the dissipative dynamics comes from an effective Hamiltonian. In all the cases treated here, backflow is gradually suppressed as the intrinsic decoherence process is developing, paying a special attention to the classical limit. The route to classicality is not unique.
翻訳日:2023-01-19 09:26:23 公開日:2022-11-16
# 量子反転調和ポテンシャル

Quantum inverted harmonic potential ( http://arxiv.org/abs/2211.09957v1 )

ライセンス: Link先を確認
C. Yuce(参考訳) 逆調和ポテンシャルの下での非相互作用気体と、無限に退化した非定常直交状態を考える。 絶対零温度における無限エントロピーについて考察する。 逆調和ポテンシャルの下での粒子の位置の不確実性は、ディラックデルタ関数に同調する解が存在するためゼロであることが示される。 逆調和ポテンシャルに対する固有状態を用いた新しい自由粒子波パケットを得る。 独特な自己焦点特性を持ち、パラ軸近似を用いる光学系においてレンズを使わずに集光ビームとして使用できる。

We consider a non-interacting gas under the inverted harmonic potential and present infinitely degenerate non-stationary orthogonal states. We discuss that it has an infinite entropy at the absolute zero temperature. We show that uncertainty in position of a particle under the inverted harmonic potential can be zero as there exists a solution which asymptotes to a Dirac delta function. We obtain a new free particle wave packet using the eigenstates for the inverted harmonic potential. It has unique self-focusing feature and can be used as focusing beam without a lens in optical systems where paraxial approximation is used.
翻訳日:2023-01-19 09:19:23 公開日:2022-11-16
# Rydbergブロックのない原子アンサンブルにおける集合励起を用いた量子レジスタ

A quantum register using collective excitations in an atomic ensemble without a Rydberg blockade ( http://arxiv.org/abs/2211.09252v1 )

ライセンス: Link先を確認
Elisha Haber (1), Zekai Chen (1 and 2), Nicholas P. Bigelow (1) ((1) University of Rochester, (2) University of Innsbruck)(参考訳) 原子の集合からなる量子ビットは、原子の損失に対する耐性から魅力的であり、そのような量子ビットを実現するための多くの提案は、リドベルク封鎖効果に基づいている。 本研究では,空間的に重なり合うボース・アインシュタイン凝縮体からスピン依存光学格子をコヒーレントにロードする実験可能なプロトコルを考える。 各格子サイトを量子ビットとして同定し, 空あるいは充填されたサイトを量子ビットとして, 高忠実度単一量子ビット演算, 任意の量子ビット間の2量子ゲート, 非破壊測定を行う方法について検討した。 この設定では、原子損失の影響は緩和されており、基底状態多様体の計算基底から原子を取り除く必要はなく、どちらも他の種類の原子量子ビットにおいて重要なデコヒーレンスの原因となる。

A qubit made up of an ensemble of atoms is attractive due to its resistance to atom losses, and many proposals to realize such a qubit are based on the Rydberg blockade effect. In this work, we instead consider an experimentally feasible protocol to coherently load a spin-dependent optical lattice from a spatially overlapping Bose-Einstein condensate. Identifying each lattice site as a qubit, with an empty or filled site as the qubit basis, we discuss how high-fidelity single qubit operations, two-qubit gates between arbitrary pairs of qubits, and nondestructive measurements could be performed. In this setup, the effect of atom losses has been mitigated, and we never need to remove the atoms from the computational basis in the ground state manifold, both of which can be significant sources of decoherence in other types of atomic qubits.
翻訳日:2023-01-19 09:19:04 公開日:2022-11-16
# 究極の情報は 量子を超えて

Ultimate information bounds beyond the quantum ( http://arxiv.org/abs/2211.09227v1 )

ライセンス: Link先を確認
Sarah Aghababaei, Hooman Moradpour, Salman Sajad Wani, Francesco Marino, Naveed Ahmad Shah and Mir Faizal(参考訳) 崩壊モデルの一般的な特徴とプランクスケールよりかなり低いエネルギーでの重力の量子化のサインは、通常の量子力学の振る舞いからの逸脱である。 ここでは,そのような修正が量子論や量子計算に与えた一般的な影響を分析し,量子情報理論の基本的な関係を一般化する。 新たに計算したMandelstam-TammおよびMargolus-Levitin境界から高い量子速度限界を予測し,パラメータ推定におけるハイゼンベルク極限の低下を示唆する。 我々は、量子フィッシャー情報の逆数に対するパラメータを決定する不確実性に関連する修正量子Cram\'{e}r-Raoを明示的に導き出す。 量子計算の達成可能な最大速度に対する我々の結果の影響を論じ、ブラックホールを高速量子コンピュータとして概念的にどのように活用するかを論じる。 結果はモデル非依存であり、通常の量子力学を超えた幅広いシナリオに普遍的に当てはまる。

A common feature of collapse models and an expected signature of the quantization of gravity at energies well below the Planck scale is the deviation from ordinary quantum-mechanical behavior. Here, we analyse the general consequences of such modifications on quantum metrology and quantum computing, generalizing some of the fundamental relations of quantum information theory. We predict a higher quantum speed limit from the newly calculated Mandelstam-Tamm and Margolus-Levitin bounds, which in turn imply the lowering of the Heisenberg limit for parameter estimation. We explicitly derive a modified quantum Cram\'{e}r-Rao bound relating the uncertainty in determining a parameter to the inverse of the quantum Fisher information. We finally discuss the implications of our results on the maximum achievable speed of quantum computation and speculate how analogue black holes could be conceptually exploited as fast quantum computers. Our results are model-independent and universally hold for a wide class of scenarios beyond ordinary quantum mechanics.
翻訳日:2023-01-19 09:18:47 公開日:2022-11-16
# 量子不和性の異なる概念をコミュニケーションの資源理論の厳密な階層に統一する

Unifying different notions of quantum incompatibility into a strict hierarchy of resource theories of communication ( http://arxiv.org/abs/2211.09226v1 )

ライセンス: Link先を確認
Francesco Buscemi, Kodai Kobayashi, Shintaro Minagawa, Paolo Perinotti, Alessandro Tosini(参考訳) 非互換なPOVMの定義には一般的なコンセンサスがあるが、楽器のレベルまで進むと、数学的に異なる論理的に独立な非互換の定義により、より明確な状況は見つからない。 ここでは、POVM、チャネル、および機器の異なる概念を分離した当事者間の通信に関するリソース理論の1つの階層に統一することで、このギャップを埋めます。 私たちが得られる資源理論は、自由操作の完全族と、変換の存在に必要な十分な条件を提供する単調なモノトーンを含むという意味で完備である。 さらに,我々のフレームワークは,因果的に制約された古典的コミュニケーションによって支援される局所的な操作において,自由変換が明確に特徴づけられるという意味で,完全に動作している。 したがって、情報理論的な資源という観点から、それぞれの非互換性の概念が何であるかを正確に特定することができる。

While there is general consensus on the definition of incompatible POVMs, moving up to the level of instruments one finds a much less clear situation, with mathematically different and logically independent definitions of incompatibility. Here we close this gap by unifying different notions of POVMs, channels, and instruments incompatibility into one hierarchy of resource theories of communication between separated parties. The resource theories that we obtain are complete, in the sense that they contain complete families of free operations and monotones providing necessary and sufficient conditions for the existence of a transformation. Furthermore, our framework is fully operational, in the sense that free transformations are characterized explicitly, in terms of local operations aided by causally-constrained directed classical communication, and all monotones possess a game-theoretic interpretation making them experimentally measurable in principle. We are thus able to pinpoint exactly what each notion of incompatibility consists of, in terms of information-theoretic resources.
翻訳日:2023-01-19 09:18:30 公開日:2022-11-16
# 量子対古典:不明瞭に確率変数の値を特定する

Quantum vs classical: identifying the value of a random variable unambiguously ( http://arxiv.org/abs/2211.09194v1 )

ライセンス: Link先を確認
Saronath Halder, Alexander Streltsov, Manik Banik(参考訳) 量子資源は古典的資源よりも有利である。 理論的には、あるタスクでは、この利点は非常に高い。 本研究では,Referee,Alice,Bobによる三部作ゲームに基づいて,そのようなタスクを構築する。 RefereeはAliceにランダム変数の値を送信する。 同時に、審判はボブにその値に関する部分的な情報も送っている。 アリスはレフェリーからボブにどんな情報が送られたか知ることができない。 繰り返しになるが、Bobは確率変数のどの値がアリスに送られるか知らない。 いずれにせよ、ボブがAliceにどのような情報や値が送られようとも、Bobが変数の値を不明確な確率で特定できるならば、このゲームは勝利できる。 しかし、ボブを助けるためにアリスは、試合が始まる前にアリスとボブによって固定された戦略に基づいて、限られた量の情報を彼に送っている。 アリスが古典情報を限られた量送った場合、「古典情報の限られた量」の量子アナログがゲームに勝つのに十分であるのに対し、ゲームは勝てないことを示す。 したがって、量子アドバンテージが確立される。 我々はさらに,ゲームのいくつかの変種を分析し,成功確率に一定の限界を与える。 さらに, トリネアンサンブル, 相互に偏りのないベース, およびエンコード復号戦略との接続を確立する。 また、現状における量子コヒーレンスの役割についても論じる。

Quantum resources may provide advantage over its classical counterparts. Theoretically, in certain tasks, this advantage can be very high. In this work, we construct such a task based on a tripartite game played by Referee, Alice, and Bob. Referee sends Alice a value of a random variable. At the same time, Referee also sends Bob some partial information regarding that value. Alice is not allowed to know what information is sent to Bob by the Referee. Again, Bob does not know which value of the random variable is sent to Alice. Now, the game can be won if and only if Bob can unambiguously identify the value of the variable with some nonzero probability, no matter what information Bob receives or which value is sent to Alice. However, to help Bob, Alice sends some limited amount of information to him, based on a strategy which is fixed by Alice and Bob before the game begins. We show that if Alice sends limited amount of classical information then the game cannot be won while the quantum analog of the `limited amount of classical information' is sufficient for winning the game. Thus, it establishes quantum advantage. We further analyze several variants of the game and provide certain bounds on the success probabilities. Moreover, we establish connections between trine ensemble, mutually unbiased bases, and the encoding-decoding strategies of those variants. We also discuss the role of quantum coherence in the present context.
翻訳日:2023-01-19 09:18:14 公開日:2022-11-16
# 15pT/$\sqrt{\textrm{Hz}}=感度を持つ繊維結合ダイヤモンド磁性体

Fiber-coupled Diamond Magnetometry with an Unshielded 15 pT/$\sqrt{\textrm{Hz}}$ Sensitivity ( http://arxiv.org/abs/2211.09170v1 )

ライセンス: Link先を確認
S. M. Graham (1 and 2), A. T. M. A. Rahman (1), L. Munn (1), R. L. Patel (1 and 2), A. J. Newman (1 and 2), C. J. Stephen (1), G. Colston (1), A. Nikitin (1), A. M. Edmonds (3), D. J. Twitchen (3), M. L. Markham (3), G. W. Morley (1 and 2) ((1) Department of Physics, University of Warwick, Coventry, United Kingdom (2) Diamond Science and Technology Centre for Doctoral Training, University of Warwick, Coventry, United Kingdom (3) Element Six Innovation, Fermi Avenue, Harwell Oxford, Oxfordshire, United Kingdom)(参考訳) ダイヤモンド中の窒素空孔中心(NVC)のアンサンブルは、感度磁力測定に使用できる。 本研究では,ファイバカップリング型NVC磁力計について,10~500Hzの周波数範囲で(15$\pm$ 5) pT/$\sqrt{\textrm{Hz}}$とする。 この感度は、比較的高い緑から赤への光子変換効率、[100]バイアス場アライメント、マイクロ波およびロックイン増幅器(LIA)パラメータ最適化、およびバランスの取れた超微細励起スキームによって実現される。 さらに、低ひずみの$^{12}\textrm{C}$ダイヤモンドとともにマイクロ波伝送には炭化ケイ素(SiC)熱スプレッダーが使用され、そのうちの1つが一般的なモードノイズキャンセリングのための第2の磁気非感応性蛍光収集センサヘッドに配置されている。 磁力計は、真空ポンプのような源からの信号を最大2m離れた方向で検出できるが、完全なデッドゾーンは存在せず、リモートセンシングでの使用の可能性を示している。

Ensembles of nitrogen vacancy centres (NVCs) in diamond can be employed for sensitive magnetometry. In this work we present a fiber-coupled NVC magnetometer with an unshielded sensitivity of (15 $\pm$ 5) pT/$\sqrt{\textrm{Hz}}$ in a 10 - 500 Hz frequency range. This sensitivity is enabled by a relatively high green-to-red photon conversion efficiency, the use of a [100] bias field alignment, microwave and lock-in amplifier (LIA) parameter optimisation, as well as a balanced hyperfine excitation scheme. Furthermore, a silicon carbide (SiC) heat spreader is used for microwave delivery, alongside low-strain $^{12}\textrm{C}$ diamonds, one of which is placed in a second magnetically insensitive fluorescence collecting sensor head for common-mode noise cancellation. The magnetometer is capable of detecting signals from sources such as a vacuum pump up to 2 m away, with some orientation dependence but no complete dead zones, demonstrating its potential for use in remote sensing applications.
翻訳日:2023-01-19 09:17:50 公開日:2022-11-16
# 分割定数パルスによる2レベル量子システムの時間最適制御

Time-optimal control of two-level quantum systems by piecewise constant pulses ( http://arxiv.org/abs/2211.09167v1 )

ライセンス: Link先を確認
E. Dionis and D. Sugny(参考訳) 我々はポントリャーギン最大原理を拡張して、2レベル量子系の時間-最適制御を断片的定数パルスを用いて導出する。 大域的最適解は、1つと2つの制御がある場合の状態から状態への転送のために得られる。 正確な量子速度制限はサンプリング周期の関数として確立される。 この周期が 0 となるときの連続極限における最小時間に対する指数収束を数値的に観察する。 この収束は線形量子系に対する多項式のみであることを示す。 この結果の実験的影響について論じる。

We apply an extension of the Pontryagin Maximum Principle to derive time-optimal controls of two-level quantum systems by means of piecewise constant pulses. Global optimal solutions are obtained for state-to-state transfer in the cases with one and two controls. Exact quantum speed limits are established as a function of the sampling period. We observe numerically an exponential convergence towards the minimum time in the continuous limit when this period goes to zero. We show that this convergence is only polynomial for a linearized quantum system. We discuss the experimental impact of this result.
翻訳日:2023-01-19 09:17:30 公開日:2022-11-16
# 非平衡音源分離におけるクロストーク影響空間除算の適用範囲

Application range of crosstalk-affected spatial demultiplexing for resolving separations between unbalanced sources ( http://arxiv.org/abs/2211.09157v1 )

ライセンス: Link先を確認
Tomasz Linowski, Konrad Schlichtholz, Giacomo Sorelli, Manuel Gessner, Mattia Walschaers, Nicolas Treps, {\L}ukasz Rudnicki(参考訳) 超解像は、現代の量子光学とメトロジーの交差における重要な問題の1つである。 近年,2つの平衡源の理想的な場合において,空間モードデマルチプレクシング(SPADE)は,計測クロストークの存在下においても,直接撮像よりも分解能が高いことが示されている[125,100501(2020)]。 本研究では,不均衡音源のより一般的な場合を考察し,クロストークの強度,相対輝度,音源間の分離により,スペードから得られる解像度に対するクロストークの影響を体系的に分析する。 完全にバランスの取れたソースに対する元の発見とは対照的に、SPADEはソース分離の消失という漸近的限界において、理想的なダイレクトイメージングよりも悪い結果が得られた。 それでも、クロストークの強さの現実的な値に対して、spadeはソース分離の桁数よりも優れた方法である。

Superresolution is one of the key issues at the crossroads of contemporary quantum optics and metrology. Recently, it was shown that for an idealized case of two balanced sources, spatial mode demultiplexing (SPADE) achieves resolution better than direct imaging even in the presence of measurement crosstalk [Phys. Rev. Lett. 125, 100501 (2020)]. In this work, we consider the more general case of unbalanced sources and provide a systematic analysis of the impact of crosstalk on the resolution obtained from SPADE depending on the strength of crosstalk, relative brightness and the separation between the sources. We find that, in contrast to the original findings for perfectly balanced sources, SPADE performs worse than ideal direct imaging in the asymptotic limit of vanishing source separations. Nonetheless, for realistic values of crosstalk strength, SPADE is still the superior method for several orders of magnitude of source separations.
翻訳日:2023-01-19 09:17:23 公開日:2022-11-16
# 非局所性は、量子客観性の測度間の関係を壊す

Nonlocality breaks the relations between measures of quantum objectivity ( http://arxiv.org/abs/2211.09150v1 )

ライセンス: Link先を確認
Dario A. Chisholm, Luca Innocenti, G. Massimo Palma(参考訳) 量子客観性の2つの異なる側面である `redundancy'' と ``consensus'' の存在を示す。 この文脈では同義語として用いられるが、量子力学から古典性の出現の異なる特徴を定量化する。 量子客観性を測定する2つの主要なフレームワーク、すなわちスペクトル放送構造と量子ダーウィン主義が、これらの2つの概念から自然に現れることを示す。 さらに、非局所状態の明示的な例を分析することにより、冗長度とコンセンサスとの潜在的な相違を明らかにする。 特に、これはスペクトル放送構造と量子ダーウィン主義の間の階層的関係を崩壊させる。 我々のフレームワークは、量子客観性の文脈において、既知の結果と将来の結果を解釈する新しい視点を提供し、量子領域から古典性の出現を深く理解する道を開く。

We show the existence of two different aspects of quantum objectivity, ``redundancy'' and ``consensus''. Though used as synonyms in this context, we prove that they quantify different features of the emergence of classicality from quantum mechanics. We show that the two main frameworks to measure quantum objectivity, namely spectrum broadcast structure and quantum Darwinism, naturally emerge from these two notions. Furthermore, by analyzing explicit examples of nonlocal states, we highlight the potentially stark difference between the degrees of redundancy and consensus. In particular, this causes a break in the hierarchical relations between spectrum broadcast structure and quantum Darwinism. Our framework provides a new perspective to interpret known and future results in the context of quantum objectivity, which paves the way for a deeper understanding of the emergence of classicality from the quantum realm.
翻訳日:2023-01-19 09:17:06 公開日:2022-11-16
# ニューラルネットワークを用いた基底状態近似のための量子インスピレーションテンパリング

Quantum-Inspired Tempering for Ground State Approximation using Artificial Neural Networks ( http://arxiv.org/abs/2210.11405v2 )

ライセンス: Link先を確認
Tameem Albash, Conor Smith, Quinn Campbell, Andrew D. Baczewski(参考訳) 多くの研究が、パラメータ化された人工ニューラルネットワーク(ANN)が、多くの興味深い量子多体ハミルトンの基底状態を効率的に記述できることを実証している。 しかし、annパラメータの更新やトレーニングに使用される標準変分アルゴリズムは、特にフラストレーションシステムや表現が十分に表現可能であっても、局所的なミニマに閉じ込められる可能性がある。 このような局所的ミニマからの逃避を容易にする並列テンパリング手法を提案する。 この方法は複数のアンを独立に訓練することを含み、それぞれのシミュレーションは異なる「ドライバー」強度を持つハミルトニアンによって制御され、量子並列テンパリングに類似しており、隣り合うアン構成の交換を可能にする更新ステップをトレーニングに組み込む。 我々はハミルトンの2つのクラスの例を研究し、我々のアプローチの有用性を実証する。 第一の例は置換不変ハミルトニアン(英語版)に基づいており、そのランドスケープは標準訓練アルゴリズムをより偽の局所最小値に引き込むことでスタイリングしている。 第二の例は四つの水素原子が矩形に配置されており、これはガウス基底関数を用いて離散化された第二の量子化電子構造の例である。 この問題を最小基底集合で検討し,問題の規模が小さいにもかかわらず標準変分アルゴリズムを罠に陥れるような虚偽の最小値を示す。 量子並列テンパリングによる学習の強化は,これらの問題の基底状態に対する適切な近似を見つける上で有用であることを示す。

A large body of work has demonstrated that parameterized artificial neural networks (ANNs) can efficiently describe ground states of numerous interesting quantum many-body Hamiltonians. However, the standard variational algorithms used to update or train the ANN parameters can get trapped in local minima, especially for frustrated systems and even if the representation is sufficiently expressive. We propose a parallel tempering method that facilitates escape from such local minima. This methods involves training multiple ANNs independently, with each simulation governed by a Hamiltonian with a different "driver" strength, in analogy to quantum parallel tempering, and it incorporates an update step into the training that allows for the exchange of neighboring ANN configurations. We study instances from two classes of Hamiltonians to demonstrate the utility of our approach. The first instance is based on a permutation-invariant Hamiltonian whose landscape stymies the standard training algorithm by drawing it increasingly to a false local minimum. The second instance is four hydrogen atoms arranged in a rectangle, which is an instance of the second quantized electronic structure Hamiltonian discretized using Gaussian basis functions. We study this problem in a minimal basis set, which exhibits false minima that can trap the standard variational algorithm despite the problem's small size. We show that augmenting the training with quantum parallel tempering becomes useful to finding good approximations to the ground states of these problem instances.
翻訳日:2023-01-18 20:14:15 公開日:2022-11-16
# シングルステップのRydbergブロックゲートによる全光学量子情報処理

All optical quantum information processing via a single-step Rydberg blockade gate ( http://arxiv.org/abs/2211.06998v2 )

ライセンス: Link先を確認
Mohammadsadegh Khazali(参考訳) 量子インターネットの実現における重要な要素の1つは決定論的2光子ゲートである。 この$CZ$フォトニックゲートは、全光学量子情報処理のためのユニバーサルゲートのセットも完成する。 本稿では、非リドバーグ電磁誘導透過(eit)を用いた原子アンサンブルに制御光子とターゲット光子の両方を格納し、グローバルレーザーを用いた高速単段リドバーグ励起を行い、cz$フォトニックゲートを実現する手法について述べる。 提案方式は、ライドバーグ励起に用いられる2つのレーザーの相対強度変調によって動作する。 従来の$\pi$-gap-$\pi$スキームを回避して、提案手法では環境ノイズからライドバーグ原子を連続的にレーザーで保護する。 閉塞半径内の貯蔵光子の完全な空間的重なりは、光学的深さを最適化し、実験を単純化する。 ここでのコヒーレント操作は、以前のRydberg EITスキームで散逸した領域で行われる。 主な不完全性源,すなわちRydbergの自然放出と中間レベル,集団回転誤差,遷移線のドップラー拡大,保存・検索効率,原子熱運動誘起デコヒーレンスを考慮し,現実的な実験パラメータ 99.7 % の忠実性は達成可能であると結論づける。

One of the critical elements in the realization of the quantum internet are deterministic two-photon gates. This $CZ$ photonic gate also completes a set of universal gates for all-optical quantum information processing. This article discusses an approach to realize high fidelity $CZ$ photonic gate by storing both control and target photons within an atomic ensemble using non-Rydberg electromagnetically induced transparency (EIT) followed by a fast, single-step Rydberg excitation with global lasers. The proposed scheme operates by relative intensity modulation of two lasers used in Rydberg excitation. Circumventing the conventional $\pi$-gap-$\pi$ schemes, the proposed operation features continuous laser protection of the Rydberg atoms from the environment noise. The complete spatial overlap of stored photons inside the blockade radius optimizes the optical depth and simplifies the experiment. The coherent operation here is performed in the region that was dissipative in the previous Rydberg EIT schemes. Encountering the main imperfection sources, i.e. the spontaneous emission of the Rydberg and intermediate levels, population rotation errors, Doppler broadening of the transition lines, storage/retrieval efficiency, and atomic thermal motion induced decoherence, this article concludes that with realistic experimental parameters 99.7\% fidelity is achievable.
翻訳日:2023-01-18 07:29:38 公開日:2022-11-16
# フーリエ変換による機械学習へのアプローチiii:フーリエ分類

Fourier Transform Approach to Machine Learning III: Fourier Classification ( http://arxiv.org/abs/2001.06081v3 )

ライセンス: Link先を確認
Soheil Mehrabkhani(参考訳) 非線形多クラス分類のためのフーリエ学習アルゴリズムを提案する。 このアルゴリズムは全クラスの確率分布を計算するスムースな手法に基づいている。 確率分布を得るために、各クラスの密度分布をローパスフィルタで別々に平滑化させる。 フーリエ表現の利点は、カーネル関数を定義することなくデータ分布の非線形性を捉えることである。 さらに、サポートベクトルマシンとは対照的に、分類の確率論的説明を可能にする。 さらに、重複したクラスも扱うことができる。 ロジスティック回帰と比較すると、機能エンジニアリングは必要ない。 一般に、その計算性能は大規模データセットにも非常によく、他のアルゴリズムとは対照的に、典型的なオーバーフィッティング問題は発生しない。 アルゴリズムの能力は、重複クラスとクラス分布の非常に高い非線形性を持つ多重クラス分類に対して実証される。

We propose a Fourier-based learning algorithm for highly nonlinear multiclass classification. The algorithm is based on a smoothing technique to calculate the probability distribution of all classes. To obtain the probability distribution, the density distribution of each class is smoothed by a low-pass filter separately. The advantage of the Fourier representation is capturing the nonlinearities of the data distribution without defining any kernel function. Furthermore, contrary to the support vector machines, it makes a probabilistic explanation for the classification possible. Moreover, it can treat overlapped classes as well. Comparing to the logistic regression, it does not require feature engineering. In general, its computational performance is also very well for large data sets and in contrast to other algorithms, the typical overfitting problem does not happen at all. The capability of the algorithm is demonstrated for multiclass classification with overlapped classes and very high nonlinearity of the class distributions.
翻訳日:2023-01-14 17:37:44 公開日:2022-11-16
# 量子ワイヤタップチャネルにおけるセマンティクスセキュリティ

Semantic Security for Quantum Wiretap Channels ( http://arxiv.org/abs/2001.05719v2 )

ライセンス: Link先を確認
Holger Boche, Minglai Cai, Christian Deppe, Roberto Ferrara, Moritz Wiese(参考訳) 本稿では,古典量子および量子ワイヤタップチャネルによるセマンティックセキュリティの問題について考察し,非セキュアなコードをセマンティックセキュアなコードに変換するための明示的な構成を用いて,双正則既約関数を用いてキャパシティを実現する。 有限レジームにおける明示的なパラメータは定理から抽出できる。 また,強いセキュアなコードが,無限次元および非ガウス的チャネルを含む任意の量子チャネルに対して,同じ秘密率で意味的にセキュアなコードを保証していることを示す,意味的セキュリティ容量定理を一般化する。

We consider the problem of semantic security via classical-quantum and quantum wiretap channels and use explicit constructions to transform a non-secure code into a semantically secure code, achieving capacity by means of biregular irreducible functions. Explicit parameters in finite regimes can be extracted from theorems. We also generalize the semantic security capacity theorem, which shows that a strongly secure code guarantees a semantically secure code with the same secrecy rate, to any quantum channel, including the infinite-dimensional and non-Gaussian ones.
翻訳日:2023-01-11 01:14:56 公開日:2022-11-16
# CDialog: エンティティ対応ダイアログ生成のためのマルチターンCovid-19会話データセット

CDialog: A Multi-turn Covid-19 Conversation Dataset for Entity-Aware Dialog Generation ( http://arxiv.org/abs/2212.06049v1 )

ライセンス: Link先を確認
Deeksha Varshney, Aizan Zafar, Niranshu Kumar Behra and Asif Ekbal(参考訳) 患者と対話し、臨床アドバイスを提供する会話エージェントの開発は、特に新型コロナウイルスのパンデミックを背景に、多くの研究者の関心を集めている。 一方で、エンドツーエンドのニューラルネットワークベースのダイアログシステムのトレーニングは、マルチターンの医療ダイアログコーパスの欠如によって妨げられている。 われわれは、CDialogという名前のCovid-19病に関連する高品質なマルチターン医療ダイアログデータセットをリリースする最初の試みを行っている。 それぞれの発話は, 疾患, 症状, 医療検査, 医療史, 治療, 薬品, その他の側面を含む7つの異なるカテゴリーの医療機関とアノテートする。 最後に,CDialogデータセットに基づくニューラルメディカルダイアログシステムを提案する。 対話生成には予め訓練された言語モデルを用い,アノテーテッド・メディカル・エンティティを取り入れ,患者の問合せに対応する仮想医師の反応を生成する。 実験結果から,提案したダイアログモデルにエンティティ情報を補足することで,応答品質を向上できることがわかった。

The development of conversational agents to interact with patients and deliver clinical advice has attracted the interest of many researchers, particularly in light of the COVID-19 pandemic. The training of an end-to-end neural based dialog system, on the other hand, is hampered by a lack of multi-turn medical dialog corpus. We make the very first attempt to release a high-quality multi-turn Medical Dialog dataset relating to Covid-19 disease named CDialog, with over 1K conversations collected from the online medical counselling websites. We annotate each utterance of the conversation with seven different categories of medical entities, including diseases, symptoms, medical tests, medical history, remedies, medications and other aspects as additional labels. Finally, we propose a novel neural medical dialog system based on the CDialog dataset to advance future research on developing automated medical dialog systems. We use pre-trained language models for dialogue generation, incorporating annotated medical entities, to generate a virtual doctor's response that addresses the patient's query. Experimental results show that the proposed dialog models perform comparably better when supplemented with entity information and hence can improve the response quality.
翻訳日:2022-12-18 18:57:18 公開日:2022-11-16
# ランダム性の無限性

The Infinity of Randomness ( http://arxiv.org/abs/2211.16975v1 )

ライセンス: Link先を確認
Yongxin Li(参考訳) この研究はランダム性の定義から始まり、アルゴリズム的ランダム性の結果は応用の観点から分析される。 そして、ランダム性の起源と性質を探求し、無限性とランダム性の関係を見いだす。 ランダム性の性質はシステム間の相互作用の観点から要約され、ランダム性によって生成される列からなる集合は漸近完全性の性質を持つ。 最後に、AI研究におけるランダム性の重要性を強調する。

This work starts from definition of randomness, the results of algorithmic randomness are analyzed from the perspective of application. Then, the source and nature of randomness is explored, and the relationship between infinity and randomness is found. The properties of randomness are summarized from the perspective of interaction between systems, that is, the set composed of sequences generated by randomness has the property of asymptotic completeness. Finally, the importance of randomness in AI research is emphasized.
翻訳日:2022-12-04 14:32:34 公開日:2022-11-16
# 漸進的予測符号化:並列かつ完全自動学習アルゴリズム

Incremental Predictive Coding: A Parallel and Fully Automatic Learning Algorithm ( http://arxiv.org/abs/2212.00720v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Yuhang Song, Beren Millidge, Zhenghua Xu, Lei Sha, Cornelius Emde, Rafal Bogacz, Thomas Lukasiewicz(参考訳) 予測コーディングのような神経科学に触発されたモデルは、機械知能の将来において重要な役割を果たす可能性がある。 しかし、効率性の欠如などいくつかの制限があるため、産業用途ではまだ使われていない。 本稿では,インクリメンタル予測符号化(ipc)を提案する。これは,インクリメンタル期待最大化アルゴリズムから派生したフレームワークの変種であり,すべての操作を外部制御なしで並列に行うことができる。 画像分類タスクにおけるバックプロパゲーションに匹敵する性能を維持しつつ,元々raoとballardが開発したアルゴリズムよりもはるかに高速であることを示す。 この研究はいくつかの分野に影響を与え、計算神経科学や機械学習に一般的な応用があり、分散コンピューティングやアナログおよびニューロモルフィックチップ上のディープラーニングモデルの実装など、自動化と並列化が重要であるシナリオにおける特定の応用がある。

Neuroscience-inspired models, such as predictive coding, have the potential to play an important role in the future of machine intelligence. However, they are not yet used in industrial applications due to some limitations, such as the lack of efficiency. In this work, we address this by proposing incremental predictive coding (iPC), a variation of the original framework derived from the incremental expectation maximization algorithm, where every operation can be performed in parallel without external control. We show both theoretically and empirically that iPC is much faster than the original algorithm originally developed by Rao and Ballard, while maintaining performance comparable to backpropagation in image classification tasks. This work impacts several areas, has general applications in computational neuroscience and machine learning, and specific applications in scenarios where automatization and parallelization are important, such as distributed computing and implementations of deep learning models on analog and neuromorphic chips.
翻訳日:2022-12-04 14:27:12 公開日:2022-11-16
# 遅発性特徴に対する単一画像の超解像再構成

Superresolution Reconstruction of Single Image for Latent features ( http://arxiv.org/abs/2211.12845v1 )

ライセンス: Link先を確認
Xin Wang, Jing-Ke Yan, Jing-Ye Cai, Jian-Hua Deng, Qin Qin, Qin Wang, Heng Xiao, Yao Cheng, Peng-Fei Ye(参考訳) 近年、Deep LearningはSingle Image Super Resolution Reconstruction (SISR)タスクにおいて良い結果を示しており、この分野で最も広く使われている手法となっている。 SISRタスクは不確実性問題を解決する典型的なタスクである。 したがって、SISRタスクで同時にサンプリングした後に、高品質なサンプリング、高速サンプリング、詳細とテクスチャの多様性の要求を満たすことはしばしば困難であり、モデル崩壊、サンプリング後の詳細とテクスチャの特徴の欠如、高分解能画像再構成法では長時間のサンプリング時間が長すぎる。 本稿では,これらの問題を解決するために,潜在特徴量(lddpm)の拡散確率モデルを提案する。 まず, 条件付きエンコーダを用いて, 低分解能画像(LR)を効果的に符号化し, 再構成画像の解空間を小さくし, 再構成画像の性能を向上させる。 次に、正規化フローとマルチモーダル逆訓練を用いて、複雑なマルチモーダル分布を持つ分別分布をモデル化し、少量のサンプリングステップでモデルの生成モデリング能力を向上させる。 本モデルでは,従来のSISRタスクと比較して,よりリアルなHRイメージを再構成し,PSNRとSSIMのパフォーマンスが向上し,SISRタスクに対する新たなアイデアが得られた。

In recent years, Deep Learning has shown good results in the Single Image Superresolution Reconstruction (SISR) task, thus becoming the most widely used methods in this field. The SISR task is a typical task to solve an uncertainty problem. Therefore, it is often challenging to meet the requirements of High-quality sampling, fast Sampling, and diversity of details and texture after Sampling simultaneously in a SISR task.It leads to model collapse, lack of details and texture features after Sampling, and too long Sampling time in High Resolution (HR) image reconstruction methods. This paper proposes a Diffusion Probability model for Latent features (LDDPM) to solve these problems. Firstly, a Conditional Encoder is designed to effectively encode Low-Resolution (LR) images, thereby reducing the solution space of reconstructed images to improve the performance of reconstructed images. Then, the Normalized Flow and Multi-modal adversarial training are used to model the denoising distribution with complex Multi-modal distribution so that the Generative Modeling ability of the model can be improved with a small number of Sampling steps. Experimental results on mainstream datasets demonstrate that our proposed model reconstructs more realistic HR images and obtains better PSNR and SSIM performance compared to existing SISR tasks, thus providing a new idea for SISR tasks.
翻訳日:2022-11-27 13:18:34 公開日:2022-11-16
# 衛星画像を用いた災害リスク評価のための居住型分類

Dwelling Type Classification for Disaster Risk Assessment Using Satellite Imagery ( http://arxiv.org/abs/2211.11636v1 )

ライセンス: Link先を確認
Md Nasir, Tina Sederholm, Anshu Sharma, Sundeep Reddy Mallu, Sumedh Ranjan Ghatage, Rahul Dodhia, Juan Lavista Ferres(参考訳) 災害対策には周辺地域の脆弱性とリスク評価が不可欠である。 既存の従来のシステムは、時間消費とコスト集約的なフィールドサーベイに依存しており、警告を解読し、ハイパーローカルレベルでリスクの正確な範囲を評価するスケーラブルな方法を提供していない。 この研究では、住宅とそのタイプを識別するプロセスを自動化し、より効果的な災害脆弱性評価システムを構築するために機械学習が用いられました。 まず、インドにおける低所得集落と脆弱地域の衛星画像を用いて7種類の住居を識別した。 具体的には,住宅型分類を意味セグメンテーションタスクとして定式化し,収集したデータを用いてu-netベースのニューラルネットワークモデル,ternausnetを訓練した。 次に, 地域の浸水モデルとともに, 確定住宅型を用いて, リスクスコア評価モデルを適用した。 パイプライン全体が2020年にインドの自然災害に先立って複数の場所に展開された。 このモデルの有効性を検証するため,これらの地域からのホック地中データを収集し,有望な性能を示した。 この作業は、プリエンプティブな行動を伝えることができる家庭レベルのリスク情報を提供することで、災害対応組織やコミュニティのリスクに対処することができる。

Vulnerability and risk assessment of neighborhoods is essential for effective disaster preparedness. Existing traditional systems, due to dependency on time-consuming and cost-intensive field surveying, do not provide a scalable way to decipher warnings and assess the precise extent of the risk at a hyper-local level. In this work, machine learning was used to automate the process of identifying dwellings and their type to build a potentially more effective disaster vulnerability assessment system. First, satellite imageries of low-income settlements and vulnerable areas in India were used to identify 7 different dwelling types. Specifically, we formulated the dwelling type classification as a semantic segmentation task and trained a U-net based neural network model, namely TernausNet, with the data we collected. Then a risk score assessment model was employed, using the determined dwelling type along with an inundation model of the regions. The entire pipeline was deployed to multiple locations prior to natural hazards in India in 2020. Post hoc ground-truth data from those regions was collected to validate the efficacy of this model which showed promising performance. This work can aid disaster response organizations and communities at risk by providing household-level risk information that can inform preemptive actions.
翻訳日:2022-11-27 13:09:32 公開日:2022-11-16
# マルチモーダルなソーシャルメディアイベントフィルタリングのためのFew-shot Learning

Few-shot Learning for Multi-modal Social Media Event Filtering ( http://arxiv.org/abs/2211.10340v1 )

ライセンス: Link先を確認
Jos\'e Nascimento, Jo\~ao Phillipe Cardenuto, Jing Yang, Anderson Rocha(参考訳) ソーシャルメディアはイベント分析の重要なデータソースとなっている。 このタイプのデータを収集する場合、ほとんどはターゲットイベントに関する有用な情報は含まない。 したがって、人間の専門家がさらなる検査を行う最初期の機会に、これらのノイズデータをフィルタリングすることが不可欠である。 イベントフィルタリングの既存のソリューションのほとんどは、トレーニングのための完全な教師付きメソッドに依存している。 しかし、多くの実世界のシナリオでは、多数のラベル付きサンプルにアクセスできない。 イベントフィルタリングのためのラベル付きサンプルトレーニング問題に対処するため,グラフベースの数ショット学習パイプラインを提案する。 メソッドをテストするためにブラジルのProtest Datasetもリリースしています。 われわれの知る限りでは、このデータセットは、マルチモーダルなソーシャルメディアデータにおける抗議活動に焦点を絞ったイベントフィルタリングの最初のものだ。 実験の結果,提案するパイプラインは,完全ラベル付きデータセット(3100)と比較して,少数のラベル付きサンプル(60)と同等の性能を示した。 研究コミュニティを促進するため、データセットとコードはhttps://github.com/jdnascim/7set-alで利用可能です。

Social media has become an important data source for event analysis. When collecting this type of data, most contain no useful information to a target event. Thus, it is essential to filter out those noisy data at the earliest opportunity for a human expert to perform further inspection. Most existing solutions for event filtering rely on fully supervised methods for training. However, in many real-world scenarios, having access to large number of labeled samples is not possible. To deal with a few labeled sample training problem for event filtering, we propose a graph-based few-shot learning pipeline. We also release the Brazilian Protest Dataset to test our method. To the best of our knowledge, this dataset is the first of its kind in event filtering that focuses on protests in multi-modal social media data, with most of the text in Portuguese. Our experimental results show that our proposed pipeline has comparable performance with only a few labeled samples (60) compared with a fully labeled dataset (3100). To facilitate the research community, we make our dataset and code available at https://github.com/jdnascim/7Set-AL.
翻訳日:2022-11-21 15:53:44 公開日:2022-11-16
# データ駆動による大気質の短時間予測:ES, ARIMA, LSTMの比較

Data-driven Real-time Short-term Prediction of Air Quality: Comparison of ES, ARIMA, and LSTM ( http://arxiv.org/abs/2211.09814v1 )

ライセンス: Link先を確認
Iryna Talamanova, Sabri Pllana(参考訳) 大気汚染は世界中の都市部の多くの人々の生活に影響を与える問題である。 大気汚染は心臓病や肺疾患を引き起こす可能性があると考えられている。 空気質の慎重でタイムリーな予測は、影響を受ける人の露出リスクを減らすのに役立つ。 本稿では,歴史的データに基づく大気質の予測にデータ駆動方式を用いる。 時系列予測には,指数平滑化(ES),自己回帰統合移動平均(ARIMA),Long短期記憶(LSTM)の3つの一般的な手法を比較する。 予測精度と時間的複雑さを考慮すると,短時間の大気汚染予測ESはARIMAやLSTMよりも優れた性能を示した。

Air pollution is a worldwide issue that affects the lives of many people in urban areas. It is considered that the air pollution may lead to heart and lung diseases. A careful and timely forecast of the air quality could help to reduce the exposure risk for affected people. In this paper, we use a data-driven approach to predict air quality based on historical data. We compare three popular methods for time series prediction: Exponential Smoothing (ES), Auto-Regressive Integrated Moving Average (ARIMA) and Long short-term memory (LSTM). Considering prediction accuracy and time complexity, our experiments reveal that for short-term air pollution prediction ES performs better than ARIMA and LSTM.
翻訳日:2022-11-21 15:28:28 公開日:2022-11-16
# デュエルバンド:ツー・ダウリングからマルチ・ダウリングへ

Dueling Bandits: From Two-dueling to Multi-dueling ( http://arxiv.org/abs/2211.10293v1 )

ライセンス: Link先を確認
Yihan Du, Siwei Wang, Longbo Huang(参考訳) エージェントが複数の選択肢を同時に比較し、最適な腕を選択することで後悔を最小限に抑える、一般的なマルチダウリングバンディット問題について検討する。 この設定は従来の二デューリングバンディット問題を一般化し、複数のオプションに対する主観的なフィードバックを含む多くの実世界のアプリケーションを見つける。 まず,2次元帯域設定から始め,DoublerBAIとMultiSBM-Feedbackという2つの効率的なアルゴリズムを提案する。 DoublerBAIは、最高の腕識別アルゴリズムの既知結果をデュエルバンディット問題に翻訳するための汎用スキーマを提供し、後悔する$O(\ln T)$を達成している。 multisbm-feedback は、最適な $o(\ln t)$ regret を持つだけでなく、ベンチマーク結果と比較して定数係数をほぼ半減させる。 そこで,本論文では,汎用マルチデュエルケースを考察し,効率的なアルゴリズムであるmultirucbを開発した。 一般マルチデューリングバンディット問題に対する新しい有限時間後悔解析を用いて、マルチルーシブは、比較集合の容量が増加するにつれて、$o(\ln t)$ regret bound とバウンド引き締めも達成できることを示した。 合成と実世界の両方のデータセットに基づいて、我々のアルゴリズムが既存のアルゴリズムより優れていることを実証的に実証した。

We study a general multi-dueling bandit problem, where an agent compares multiple options simultaneously and aims to minimize the regret due to selecting suboptimal arms. This setting generalizes the traditional two-dueling bandit problem and finds many real-world applications involving subjective feedback on multiple options. We start with the two-dueling bandit setting and propose two efficient algorithms, DoublerBAI and MultiSBM-Feedback. DoublerBAI provides a generic schema for translating known results on best arm identification algorithms to the dueling bandit problem, and achieves a regret bound of $O(\ln T)$. MultiSBM-Feedback not only has an optimal $O(\ln T)$ regret, but also reduces the constant factor by almost a half compared to benchmark results. Then, we consider the general multi-dueling case and develop an efficient algorithm MultiRUCB. Using a novel finite-time regret analysis for the general multi-dueling bandit problem, we show that MultiRUCB also achieves an $O(\ln T)$ regret bound and the bound tightens as the capacity of the comparison set increases. Based on both synthetic and real-world datasets, we empirically demonstrate that our algorithms outperform existing algorithms.
翻訳日:2022-11-21 15:26:04 公開日:2022-11-16
# データ効率的なエンジニアリング設計のためのサロゲートモデリング:回帰のためのアンサンブルフリーバッチモード深層アクティブラーニング

Data efficient surrogate modeling for engineering design: Ensemble-free batch mode deep active learning for regression ( http://arxiv.org/abs/2211.10360v1 )

ライセンス: Link先を確認
Harsh Vardhan, Umesh Timalsina, Peter Volgyesi, Janos Sztipanovits(参考訳) 複雑で時間のかかるシミュレータを含むコンピュータ支援工学設計最適化問題において、一般的なアプローチは、シミュレータの動作をはるかに安価に近似するデータ駆動サーロゲートに、これらのシミュレーションを置き換えることである。 安価なデータ駆動サロゲートを作成する上での最大の課題は、これらの計算コストの高い数値シミュレーションを使って膨大な数のデータを生成することである。 このような場合、最も少ないサンプルをラベル付けしながら入力出力の振る舞いを学習しようとするアクティブラーニング(AL)手法が用いられている。 回帰問題に対するALの現在の傾向は、基礎となる学習モデルがDeep Neural Networks(DNN)である場合、計算機的に面倒なトレーニングを行うための学習モデルの集合をトレーニングする必要があるベイズフレームワークによって支配されている。 しかし、DNNは、非常に高次元の問題であっても、非常に非線形で複雑な関係を学習する優れた能力を持っている。 本研究では,ベイズパラダイムの計算複雑性を回避するとともに,ディープ・ネットワークの優れた学習能力を活用するために,学生-教師によるサロゲートモデルの学習方法として,アクティブ・ラーニングのためのシンプルでスケーラブルなアプローチを提案する。 提案手法を用いることで,DBALやモンテカルロといった他のベースラインと同程度のサロゲート精度を最大40%のサンプルでサンプリングすることが可能となる。 本手法を, 有限要素解析, 計算流体力学, プロペラ設計の3つの異なる設計領域を含む複数のユースケースで実証的に評価した。

In a computer-aided engineering design optimization problem that involves notoriously complex and time-consuming simulator, the prevalent approach is to replace these simulations with a data-driven surrogate that approximates the simulator's behavior at a much cheaper cost. The main challenge in creating an inexpensive data-driven surrogate is the generation of a sheer number of data using these computationally expensive numerical simulations. In such cases, Active Learning (AL) methods have been used that attempt to learn an input--output behavior while labeling the fewest samples possible. The current trend in AL for a regression problem is dominated by the Bayesian framework that needs training an ensemble of learning models that makes surrogate training computationally tedious if the underlying learning model is Deep Neural Networks (DNNs). However, DNNs have an excellent capability to learn highly nonlinear and complex relationships even for a very high dimensional problem. To leverage the excellent learning capability of deep networks along with avoiding the computational complexity of the Bayesian paradigm, in this work we propose a simple and scalable approach for active learning that works in a student-teacher manner to train a surrogate model. By using this proposed approach, we are able to achieve the same level of surrogate accuracy as the other baselines like DBAL and Monte Carlo sampling with up to 40 % fewer samples. We empirically evaluated this method on multiple use cases including three different engineering design domains:finite element analysis, computational fluid dynamics, and propeller design.
翻訳日:2022-11-21 14:43:07 公開日:2022-11-16
# 知覚運動学習の神経活動的推論モデル

A Neural Active Inference Model of Perceptual-Motor Learning ( http://arxiv.org/abs/2211.10419v1 )

ライセンス: Link先を確認
Zhizhuo Yang, Gabriel J. Diaz, Brett R. Fajen, Reynold Bailey, Alexander Ororbia(参考訳) アクティブ推論フレームワーク(active inference framework, aif)は、報酬ベースの学習を通じて人間のような行動を生み出す現代の神経科学を基盤とする、有望な新しい計算フレームワークである。 本研究では,人間における行動の視覚的誘導における期待の役割をaifがとらえる能力について,十分に検討された視覚運動課題を体系的に検討し,地上面上を移動する目標を迎撃する能力について検証する。 従来の研究では、このタスクを行う人間は、アプローチの後半で目標速度の半予測可能な変化を補うために、予想される速度の変化に頼っていた。 提案するAIFエージェントは、ニューラルネットワークを用いて、これらのアクションが示すタスク環境に関する情報の非常に短期的な予測と、得られた累積自由エネルギーの長期推定に基づいて行動を選択する。 システマティックな変動は、エージェントの運動能力の制限によって要求される場合にのみ予測行動が出現し、エージェントが十分な長期にわたって蓄積された自由エネルギーを推定できる場合にのみ出現することを示した。 さらに,多次元の世界状態から自由エネルギーの一次元分布に写像する事前関数の新規な定式化を提案する。 これらの結果は,ヒトにおける予測的視覚誘導行動のモデルとしてAIFが有用であることを示す。

The active inference framework (AIF) is a promising new computational framework grounded in contemporary neuroscience that can produce human-like behavior through reward-based learning. In this study, we test the ability for the AIF to capture the role of anticipation in the visual guidance of action in humans through the systematic investigation of a visual-motor task that has been well-explored -- that of intercepting a target moving over a ground plane. Previous research demonstrated that humans performing this task resorted to anticipatory changes in speed intended to compensate for semi-predictable changes in target speed later in the approach. To capture this behavior, our proposed "neural" AIF agent uses artificial neural networks to select actions on the basis of a very short term prediction of the information about the task environment that these actions would reveal along with a long-term estimate of the resulting cumulative expected free energy. Systematic variation revealed that anticipatory behavior emerged only when required by limitations on the agent's movement capabilities, and only when the agent was able to estimate accumulated free energy over sufficiently long durations into the future. In addition, we present a novel formulation of the prior function that maps a multi-dimensional world-state to a uni-dimensional distribution of free-energy. Together, these results demonstrate the use of AIF as a plausible model of anticipatory visually guided behavior in humans.
翻訳日:2022-11-21 14:33:30 公開日:2022-11-16
# GAMMT:多重変換器を用いた生成曖昧性モデリング

GAMMT: Generative Ambiguity Modeling Using Multiple Transformers ( http://arxiv.org/abs/2211.09812v1 )

ライセンス: Link先を確認
Xingcheng Xu(参考訳) 逐次データに対する確率の集合に基づく新しいモデルを提案する。 GAMMTは複数変圧器を用いた生成曖昧性モデルを表すモデルである。 従来のモデルのように、シーケンスのデータ生成プロセスは曖昧であり、確率の集合によって決定される。 選択機構によって接続された多重並列トランスを用いて曖昧な確率を近似する。 GAMMTは、生成的な方法であいまいさをモデル化し、入力トークンと入力シーケンスの複数の表現を可能にする。 この研究は、ディープニューラルネットワークによる注意機構とあいまいさの組み合わせを探求する。 このフレームワークが機械学習の新たな研究を促進し、注意あいまいさメカニズムの理解を深めることを期待している。

We introduce a new model based on sets of probabilities for sequential data. We name the model GAMMT, which stands for Generative Ambiguity Models using Multiple Transformers. We suppose that data generating process of a sequence is ambiguous and determined by a set of probabilities rather than one as in the conventional model. We use multiple parallel transformers connected by a selection mechanism to approximate ambiguous probabilities. The GAMMT allows for ambiguity modeling in a generative way and multiple representations of the input tokens and the input sequence. This work explores the combination of attention mechanism and ambiguity by deep neural networks. We expect that this framework will facilitate new research into machine learning, improving our understanding of the attention-ambiguity mechanism.
翻訳日:2022-11-21 14:24:29 公開日:2022-11-16
# 有効かつ効率的なサンプリンググラフニューラルネットワークの階層的推定

Hierarchical Estimation for Effective and Efficient Sampling Graph Neural Network ( http://arxiv.org/abs/2211.09813v1 )

ライセンス: Link先を確認
Yang Li, Bingbing Xu, Qi Cao, Yige Yuan and Huawei Shen(参考訳) 大規模グラフではgnnのスケーラビリティ向上が不可欠である。 既存の手法では,ノードワイド,レイヤワイド,サブグラフサンプリングという3つのサンプリングパラダイムを利用し,拡張性を考慮した非バイアス推定器を設計する。 しかし、高いばらつきは依然としてGNNのパフォーマンスを著しく妨げている。 先行研究が分散分析を欠いているか、特定のサンプリングパラダイムのみに焦点を当てているかを考慮すると、まず、統一ノードサンプリング分散分析フレームワークを提案し、最小分散サンプルを導出するための「循環依存性」について分析する。 e. サンプリング確率はノード埋め込みに依存するが、ノード埋め込みはサンプリングが完了するまで計算できない。 既存の研究はノードの埋め込みを無視するか、外部パラメータを導入し、効率的かつ効果的な分散還元法が欠如している。 そこで本研究では,探索確率でノード埋め込みを推定し,循環依存性を壊すための第1のレベルと,グラフ全体のノード表現を推定するためにサンプリングGNN演算子を用いる第2のレベルを提案する。 技術の違いを考慮し, 層間サンプリングのための時系列シミュレーションと, サブグラフサンプリングのための特徴ベースシミュレーションという, 異なる第1レベルの推定器を提案する。 7つの代表的なデータセットに対する実験結果から,本手法の有効性と有効性を示した。

Improving the scalability of GNNs is critical for large graphs. Existing methods leverage three sampling paradigms including node-wise, layer-wise and subgraph sampling, then design unbiased estimator for scalability. However, the high variance still severely hinders GNNs' performance. On account that previous studies either lacks variance analysis or only focus on a particular sampling paradigm, we firstly propose an unified node sampling variance analysis framework and analyze the core challenge "circular dependency" for deriving the minimum variance sampler, i. e., sampling probability depends on node embeddings while node embeddings can not be calculated until sampling is finished. Existing studies either ignore the node embeddings or introduce external parameters, resulting in the lack of a both efficient and effective variance reduction methods. Therefore, we propose the \textbf{H}ierarchical \textbf{E}stimation based \textbf{S}ampling GNN (HE-SGNN) with first level estimating the node embeddings in sampling probability to break circular dependency, and second level employing sampling GNN operator to estimate the nodes' representations on the entire graph. Considering the technical difference, we propose different first level estimator, i.e., a time series simulation for layer-wise sampling and a feature based simulation for subgraph sampling. The experimental results on seven representative datasets demonstrate the effectiveness and efficiency of our method.
翻訳日:2022-11-21 14:07:34 公開日:2022-11-16
# 特定エミッタ同定に適用した任意精度分類

Arbitrarily Accurate Classification Applied to Specific Emitter Identification ( http://arxiv.org/abs/2211.10379v1 )

ライセンス: Link先を確認
Michael C. Kleder(参考訳) 本稿では,所定の分類精度に達するまでサブサンプルを評価する方法を紹介し,任意の精度を得る。 サンプル数を直線的に増加させて誤差率の対数還元を求める。 この手法は、16の可視的に同一の高性能ラジオからの物理的に記録された空中信号の公開データセット上の特定のエミッタ識別に適用される。 この技術は、i/q信号サブサンプリングのバイスペクトルに作用するマルチチャネルのディープラーニング畳み込みニューラルネットワークを使用し、それぞれが元の信号持続時間の56ppm(ppm)からなる。 このアプリケーションでは、8つのサンプルを追加するごとに1桁の誤差が減少する。

This article introduces a method of evaluating subsamples until any prescribed level of classification accuracy is attained, thus obtaining arbitrary accuracy. A logarithmic reduction in error rate is obtained with a linear increase in sample count. The technique is applied to specific emitter identification on a published dataset of physically recorded over-the-air signals from 16 ostensibly identical high-performance radios. The technique uses a multi-channel deep learning convolutional neural network acting on the bispectra of I/Q signal subsamples each consisting of 56 parts per million (ppm) of the original signal duration. High levels of accuracy are obtained with minimal computation time: in this application, each addition of eight samples decreases error by one order of magnitude.
翻訳日:2022-11-21 13:48:50 公開日:2022-11-16
# マルチモーダル感情認識のためのマルチレベルトランスフォーマタ

Multilevel Transformer For Multimodal Emotion Recognition ( http://arxiv.org/abs/2211.07711v2 )

ライセンス: Link先を確認
Junyi He, Meimei Wu, Meng Li, Xiaobo Zhu, Feng Ye(参考訳) 近年,マルチモーダル感情認識が注目されている。 ラベル付きデータで複数のモダリティを効果的に利用することは難しい課題である。 事前学習モデルの成功と感情表現のきめ細かい性質を考えると、これら2つの側面を考慮すると合理的である。 従来の1つの側面に焦点を当てた手法と異なり,細粒度表現と事前学習された発話レベル表現を組み合わせた,新しい多粒度フレームワークを導入する。 本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。 具体的には,音素レベルの埋め込みを単語レベルの埋め込みに組み込む方法を検討する。 マルチグラニュラリティ学習を行うには,多レベルトランスフォーマーモデルとalbertモデルを組み合わせるだけでよい。 大規模な実験結果から, テキスト書き起こしと音声信号を用いたIEMOCAPデータセットにおいて, 多レベルトランスフォーマモデルと多粒度モデルの両方が従来手法よりも優れていたことが示唆された。

Multimodal emotion recognition has attracted much attention recently. Fusing multiple modalities effectively with limited labeled data is a challenging task. Considering the success of pre-trained model and fine-grained nature of emotion expression, it is reasonable to take these two aspects into consideration. Unlike previous methods that mainly focus on one aspect, we introduce a novel multi-granularity framework, which combines fine-grained representation with pre-trained utterance-level representation. Inspired by Transformer TTS, we propose a multilevel transformer model to perform fine-grained multimodal emotion recognition. Specifically, we explore different methods to incorporate phoneme-level embedding with word-level embedding. To perform multi-granularity learning, we simply combine multilevel transformer model with Albert. Extensive experimental results show that both our multilevel transformer model and multi-granularity model outperform previous state-of-the-art approaches on IEMOCAP dataset with text transcripts and speech signal.
翻訳日:2022-11-20 14:08:29 公開日:2022-11-16
# データインジェクション攻撃によるSwarmインテリジェンス保護への信頼感

Trust-Awareness to Secure Swarm Intelligence from Data Injection Attack ( http://arxiv.org/abs/2211.08407v2 )

ライセンス: Link先を確認
Bin Han, Dennis Krummacker, Qiuheng Zhou, and Hans D. Schotten(参考訳) 新興産業エージェント(IA)技術によって実現されたSwarm Intelligence(SI)は、第6世代(6G)モバイル通信とデジタルツイン(DT)によって形成される将来の産業用モノのインターネット(IIoT)において重要な役割を果たす。 しかし、データインジェクション攻撃に対する脆弱さは、実際のデプロイを阻止する可能性がある。 本稿では,SIのセキュリティ問題に対処する効率的な信頼手法を提案する。

Enabled by the emerging industrial agent (IA) technology, swarm intelligence (SI) is envisaged to play an important role in future industrial Internet of Things (IIoT) that is shaped by Sixth Generation (6G) mobile communications and digital twin (DT). However, its fragility against data injection attack may halt it from practical deployment. In this paper we propose an efficient trust approach to address this security concern for SI.
翻訳日:2022-11-20 14:07:00 公開日:2022-11-16
# マルチゲーティング機構とニューラルアーキテクチャ探索を用いた多言語音声感情認識

Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search ( http://arxiv.org/abs/2211.08237v2 )

ライセンス: Link先を確認
Zihan Wang, Qi Meng, HaiFeng Lan, XinRui Zhang, KeHao Guo, Akshat Gupta(参考訳) 音声感情認識(ser)は、幸福、怒り、恐怖、嫌悪、中立といった感情カテゴリに音声を分類する。 音声感情認識(SER)は、一般的な言語では一般的な用途であるが、低リソース言語、すなわち事前訓練された音声認識モデルを持たない言語では問題であり続けている。 本稿では、まず、複数の事前訓練された音声モデルから感情情報を抽出する言語固有モデルを提案し、その後、様々な言語に対して同時にSERを実行するマルチドメインモデルを設計する。 マルチドメインモデルは、各言語にユニークな重み付けされた特徴の組み合わせを生成するマルチゲーティング機構と、ニューラルネットワーク検索モジュールを介して各言語の特定のニューラルネットワーク構造を検索する。 さらに,音声データに対してより分離可能な表現を構築するために,コントラスト的な補助損失を導入する。 実験の結果,ドイツ語では3%,フランス語では14.3%の精度向上が確認された。

Speech emotion recognition (SER) classifies audio into emotion categories such as Happy, Angry, Fear, Disgust and Neutral. While Speech Emotion Recognition (SER) is a common application for popular languages, it continues to be a problem for low-resourced languages, i.e., languages with no pretrained speech-to-text recognition models. This paper firstly proposes a language-specific model that extract emotional information from multiple pre-trained speech models, and then designs a multi-domain model that simultaneously performs SER for various languages. Our multidomain model employs a multi-gating mechanism to generate unique weighted feature combination for each language, and also searches for specific neural network structure for each language through a neural architecture search module. In addition, we introduce a contrastive auxiliary loss to build more separable representations for audio data. Our experiments show that our model raises the state-of-the-art accuracy by 3% for German and 14.3% for French.
翻訳日:2022-11-20 13:58:17 公開日:2022-11-16
# 機械学習による4弦接触インタラクションのキャラクタリゼーション

Characterizing 4-string contact interaction using machine learning ( http://arxiv.org/abs/2211.09129v1 )

ライセンス: Link先を確認
Harold Erbin, Atakan Hilmi F{\i}rat(参考訳) 閉弦場理論の4弦接触相互作用の幾何学は機械学習を用いて特徴づけられる。 本研究では,カスタム構築損失関数を用いて教師なし学習を行うことにより,ニューラルネットワークとして4次元球面上のストレーベル二次微分を求める。 これにより局所座標を解き、それらの関連する写像 radii を数値的に計算することができる。 また、ファインマン領域と頂点を区別するニューラルネットワークを訓練する。 チェックとして、タキオン電位中の4タキオン接触項を計算し、文献における結果との良好な一致を観察する。 我々は,本アルゴリズムがパンクチャ数とは明らかに独立であり,$n$ストリングの接触相互作用の幾何学的特徴付けが可能であることを論じる。

The geometry of 4-string contact interaction of closed string field theory is characterized using machine learning. We obtain Strebel quadratic differentials on 4-punctured spheres as a neural network by performing unsupervised learning with a custom-built loss function. This allows us to solve for local coordinates and compute their associated mapping radii numerically. We also train a neural network distinguishing vertex from Feynman region. As a check, 4-tachyon contact term in the tachyon potential is computed and a good agreement with the results in the literature is observed. We argue that our algorithm is manifestly independent of number of punctures and scaling it to characterize the geometry of $n$-string contact interaction is feasible.
翻訳日:2022-11-18 17:32:38 公開日:2022-11-16
# 環境に優しい磁場と電場を用いた大豆種子の刺激

Stimulation of soy seeds using environmentally friendly magnetic and electric fields ( http://arxiv.org/abs/2211.09240v1 )

ライセンス: Link先を確認
Agata Dziwulska-Hunek, Agnieszka Niemczynowicz, Rados{\l}aw A. Kycia, Arkadiusz Matwijczuk, Krzysztof Kornarzy\'nski, Joanna Stadnik, Mariusz Szymanek(参考訳) 本研究は、大豆の発芽エネルギーと容量、植物の発生と数、生苗の新鮮な塊の収量(II)、タンパク質含量、光合成パラメータなど、大豆の様々な成長パラメータに対する、定磁場と交互磁場と交互電界の影響を解析した。 MAVKA、MERLIN、VIOLETTA、AnusZKAの4品種が使用された。 さらに,光合成パラメータに対する物理要因の影響を識別するために,高度な機械学習処理パイプラインを提案した。 最初の3品種について異なる物理因子の露光を区別することは可能であるため、EM因子が大豆に何らかの可観測性を持つことを示す。 また, 成長パラメータに及ぼす物理的因子の影響も観察された。 ELM (Electromagnetic) フィールドの使用は, メルリンの発芽速度に有意な影響を及ぼした。 最も高い値は定磁場 (cmf) - マーリン (merlin) で記録され、最も低い値は交流電場 (aef) - ヴァイオレッタ (violetta) で記録された。 AEF処理(30日後の植物数)を除くマフカ栽培品種の発芽量と種子刺激後の植物数の増加が観察された(...)。

The study analyzes the impact of constant and alternating magnetic fields and alternating electric fields on various growth parameters of soy plants: the germination energy and capacity, plants emergence and number, the Yield(II) of the fresh mass of seedlings, protein content, and photosynthetic parameters. Four cultivars were used: MAVKA, MERLIN, VIOLETTA, and ANUSZKA. Moreover, the advanced Machine Learning processing pipeline was proposed to distinguish the impact of physical factors on photosynthetic parameters. It is possible to distinguish exposition on different physical factors for the first three cultivars; therefore, it indicates that the EM factors have some observable effect on soy plants. Moreover, some influence of physical factors on growth parameters was observed. The use of ELM (Electromagnetic) fields had a positive impact on the germination rate in Merlin plants. The highest values were recorded for the constant magnetic field (CMF) - Merlin, and the lowest for the alternating electric field (AEF) - Violetta. An increase in terms of emergence and number of plants after seed stimulation was observed for the Mavka cultivar, except for the AEF treatment (number of plants after 30 days) (...)
翻訳日:2022-11-18 17:32:28 公開日:2022-11-16
# デュアルブラインドデコンボリューション回復のためのBourling-Selberg Extremization

Beurling-Selberg Extremization for Dual-Blind Deconvolution Recovery in Joint Radar-Communications ( http://arxiv.org/abs/2211.09253v1 )

ライセンス: Link先を確認
Jonathan Monsalve, Edwin Vargas, Kumar Vijay Mishra, Brian M. Sadler and Henry Arguello(参考訳) 最近の統合センシングと通信への関心は、過大なレーダー通信信号から情報を回復するための新しい信号処理技術の設計につながった。 ここでは、レーダーと通信システムのチャネルと送信信号が共通の受信機に未知であるような、スペクトル共存シナリオに焦点を当てる。 このデュアルブラインド・デコンボリューション(DBD)問題では、受信機は複数のターゲットから反射されるレーダー信号にオーバーレイされたマルチキャリア無線通信信号を受け入れる。 通信チャネルとレーダチャネルはそれぞれ、複数の送信経路と目標に対応する連続値のレンジタイムまたは遅延で表現される。 以前の研究は、この不適切なdbd問題における未知のチャネルとシグナルの回復を原子のノルムの最小化を通じて取り組んだが、レーダーと通信チャネルの個々の最小分離条件に起因している。 本稿では,バーリング・セルバーグ補間理論から極値関数を用いた最適ジョイント分離条件を提案する。 その後、低階修正ハンケル行列検索としてdbdを定式化し、核ノルム最小化によって解く。 我々はMUSIC(Multiple signal classification)法を用いて、回収した低ランク行列から未知のターゲットと通信パラメータを推定する。 共同分離条件は, MUSIC の基盤となる Vandermonde 行列が十分に条件付きであることを保証する。 数値実験は我々の理論的な結果を検証する。

Recent interest in integrated sensing and communications has led to the design of novel signal processing techniques to recover information from an overlaid radar-communications signal. Here, we focus on a spectral coexistence scenario, wherein the channels and transmit signals of both radar and communications systems are unknown to the common receiver. In this dual-blind deconvolution (DBD) problem, the receiver admits a multi-carrier wireless communications signal that is overlaid with the radar signal reflected off multiple targets. The communications and radar channels are represented by continuous-valued range-times or delays corresponding to multiple transmission paths and targets, respectively. Prior works addressed recovery of unknown channels and signals in this ill-posed DBD problem through atomic norm minimization but contingent on individual minimum separation conditions for radar and communications channels. In this paper, we provide an optimal joint separation condition using extremal functions from the Beurling-Selberg interpolation theory. Thereafter, we formulate DBD as a low-rank modified Hankel matrix retrieval and solve it via nuclear norm minimization. We estimate the unknown target and communications parameters from the recovered low-rank matrix using multiple signal classification (MUSIC) method. We show that the joint separation condition also guarantees that the underlying Vandermonde matrix for MUSIC is well-conditioned. Numerical experiments validate our theoretical findings.
翻訳日:2022-11-18 17:22:58 公開日:2022-11-16
# 潜在対称性を有する領域における同変モデルの驚くべき有効性

The Surprising Effectiveness of Equivariant Models in Domains with Latent Symmetry ( http://arxiv.org/abs/2211.09231v1 )

ライセンス: Link先を確認
Dian Wang, Jung Yeon Park, Neel Sortur, Lawson L.S. Wong, Robin Walters, Robert Platt(参考訳) 広範にわたる研究により、同変ニューラルネットワークは、ネットワークアーキテクチャに帰納的バイアスを課すことでサンプル効率と一般化を大幅に改善できることが示されている。 これらの応用は通常、ドメイン対称性がモデル入力と出力の明示的な変換によって完全に記述されると仮定する。 しかし、実際の応用の多くは、入力の単純な変換では容易に説明できない潜在対称性や部分対称性しか含まない。 このような場合、ネットワークアーキテクチャに数学的に適用するのではなく、環境の対称性を学ぶ必要がある。 意外なことに、領域対称性と正確に一致しない同値制約を課すことは、環境の真の対称性を学ぶのに非常に役立ちます。 外部対称性と不正確な対称性の制約を区別し、不正確な対称性を課すことはモデルの性能を損なうが、外部対称性を課すことは実際に性能を向上させることができることを示した。 ロボット操作・制御問題における教師付き学習と強化学習の両方において,同変モデルが潜在対称性を持つ領域における非同変手法を大幅に上回ることを示す。

Extensive work has demonstrated that equivariant neural networks can significantly improve sample efficiency and generalization by enforcing an inductive bias in the network architecture. These applications typically assume that the domain symmetry is fully described by explicit transformations of the model inputs and outputs. However, many real-life applications contain only latent or partial symmetries which cannot be easily described by simple transformations of the input. In these cases, it is necessary to learn symmetry in the environment instead of imposing it mathematically on the network architecture. We discover, surprisingly, that imposing equivariance constraints that do not exactly match the domain symmetry is very helpful in learning the true symmetry in the environment. We differentiate between extrinsic and incorrect symmetry constraints and show that while imposing incorrect symmetry can impede the model's performance, imposing extrinsic symmetry can actually improve performance. We demonstrate that an equivariant model can significantly outperform non-equivariant methods on domains with latent symmetries both in supervised learning and in reinforcement learning for robotic manipulation and control problems.
翻訳日:2022-11-18 17:22:37 公開日:2022-11-16
# 学習支援BSTのパワーについて

On the Power of Learning-Augmented BSTs ( http://arxiv.org/abs/2211.09251v1 )

ライセンス: Link先を確認
Jingbang Chen, Li Chen(参考訳) 本稿では,静的最適性および作業セット境界を大まかに予測した最初の学習拡張バイナリ探索木(BST)を提案する。 予測と学習インデックス構造を用いたアルゴリズムの最近の研究に続いて、Lin, Luo, Woodruff (ICML 2022)は学習アドバイスによるBSTの改善を目的としたLearning-Augmented BSTの概念を導入した。 残念ながら、それらの構成は入力に対する強い仮定の下でのみ静的最適性を与える。 本稿では,学習アドバイスの恩恵を受けるシンプルなBSTメンテナンス手法を提案する。 適切な予測により、BSTの重要なパフォーマンス指標である静的最適性と作業セット境界をそれぞれ達成する。 さらに、このスキームは誤差の予測に頑健であり、入力を仮定しない。

We present the first Learning-Augmented Binary Search Tree(BST) that attains Static Optimality and Working-Set Bound given rough predictions. Following the recent studies in algorithms with predictions and learned index structures, Lin, Luo, and Woodruff (ICML 2022) introduced the concept of Learning-Augmented BSTs, which aim to improve BSTs with learned advice. Unfortunately, their construction gives only static optimality under strong assumptions on the input. In this paper, we present a simple BST maintenance scheme that benefits from learned advice. With proper predictions, the scheme achieves Static Optimality and Working-Set Bound, respectively, which are important performance measures for BSTs. Moreover, the scheme is robust to prediction errors and makes no assumption on the input.
翻訳日:2022-11-18 17:22:17 公開日:2022-11-16
# インテリジェント音楽生成システムの現状と展望

A Review of Intelligent Music Generation Systems ( http://arxiv.org/abs/2211.09124v1 )

ライセンス: Link先を確認
Ziyi Zhao, Hanwei Liu, Song Li, Junwei Pang, Maoqing Zhang, Yi Qin, Lei Wang, Qidi Wu(参考訳) 知的な音楽生成は、コンピュータ創造の最も人気のあるサブフィールドの1つであり、非特殊主義者の創造的閾値を下げ、音楽創造の効率を高める。 過去5年間で、ルール制約や音楽コーパスに基づいて、音楽内の暗黙のパターンを学習するために現代の生成アルゴリズムを使用することによって、アルゴリズムに基づく自動音楽生成の品質が大幅に向上し、様々なスタイルの音楽サンプルを生成するようになった。 利用可能な文献レビューのいくつかは、生成モデルの体系的なベンチマークを欠き、その観点では伝統的かつ保守的であり、現在の急速な科学的進歩と深く統合されていない分野の将来的な発展のビジョンをもたらす。 本稿では,近年のインテリジェント音楽生成技術に関する包括的調査と分析を行い,批判的な議論を行い,それぞれの特性を明確に把握し,一般的な表に示す。 まず、まず、情報のストリームとしての音楽と関連するデータセットをエンコードし、異なる種類の生成アルゴリズムを比較し、その強みと弱みを要約し、既存の評価方法について議論する。 最後に、作曲における人工知能の開発について、特に東西の音楽生成技術の異なる特徴を比較し、この分野の発展の展望を分析して考察する。

Intelligent music generation, one of the most popular subfields of computer creativity, can lower the creative threshold for non-specialists and increase the efficiency of music creation. In the last five years, the quality of algorithm-based automatic music generation has increased significantly, motivated by the use of modern generative algorithms to learn the patterns implicit within a piece of music based on rule constraints or a musical corpus, thus generating music samples in various styles. Some of the available literature reviews lack a systematic benchmark of generative models and are traditional and conservative in their perspective, resulting in a vision of the future development of the field that is not deeply integrated with the current rapid scientific progress. In this paper, we conduct a comprehensive survey and analysis of recent intelligent music generation techniques,provide a critical discussion, explicitly identify their respective characteristics, and present them in a general table. We first introduce how music as a stream of information is encoded and the relevant datasets, then compare different types of generation algorithms, summarize their strengths and weaknesses, and discuss existing methods for evaluation. Finally, the development of artificial intelligence in composition is studied, especially by comparing the different characteristics of music generation techniques in the East and West and analyzing the development prospects in this field.
翻訳日:2022-11-18 17:12:46 公開日:2022-11-16
# 包含的最大解に基づく0-1knapsack問題の特徴

Features for the 0-1 knapsack problem based on inclusionwise maximal solutions ( http://arxiv.org/abs/2211.09665v1 )

ライセンス: Link先を確認
Jorik Jooken, Pieter Leyman and Patrick De Causmaecker(参考訳) 0-1クナプサック問題の研究は、非常に効率的なアルゴリズムを生み出し、大きな問題のインスタンスを迅速に最適に解けるようになった。 これにより研究者は、既存のソルバにとって難しい比較的小さな問題インスタンスが存在するかどうかを調査し、どの特徴がその困難さを特徴付けるかを調べることができた。 従来、著者らはハード0-1knapsack問題インスタンスの新たなクラスを提案し、いわゆる包摂的最大解(IMS)の性質がこのクラスにとって重要な硬度指標であることを示した。 本稿では,任意の 0-1 クナプサック問題の imss に関する新たな計算問題をいくつか定式化する。 先行研究の一般化とimssに関する新しい構造的結果に基づき、これらの問題を解決するために多項式と擬似多項時間アルゴリズムを定式化する。 このことから,計算コストのかかる14種類の特徴を導出し,約540CPU時間でスーパーコンピュータ上の2つの大きなデータセットを計算した。 提案手法は,様々な0-1クナップサック問題の経験的ハードネスを正確に予測できる機械学習モデルを訓練することにより,文献から得られた初期の特徴に欠けていた問題インスタンスの経験的ハードネスに関する重要な情報を含むことを示す。 また, インスタンス空間解析手法を用いて, ハード0-1クナプサック問題インスタンスが比較的密集した領域の周辺に集結し, いくつかの特徴がインスタンス空間の容易かつ硬い部分で異なる挙動を示す。

Decades of research on the 0-1 knapsack problem led to very efficient algorithms that are able to quickly solve large problem instances to optimality. This prompted researchers to also investigate whether relatively small problem instances exist that are hard for existing solvers and investigate which features characterize their hardness. Previously the authors proposed a new class of hard 0-1 knapsack problem instances and demonstrated that the properties of so-called inclusionwise maximal solutions (IMSs) can be important hardness indicators for this class. In the current paper, we formulate several new computationally challenging problems related to the IMSs of arbitrary 0-1 knapsack problem instances. Based on generalizations of previous work and new structural results about IMSs, we formulate polynomial and pseudopolynomial time algorithms for solving these problems. From this we derive a set of 14 computationally expensive features, which we calculate for two large datasets on a supercomputer in approximately 540 CPU-hours. We show that the proposed features contain important information related to the empirical hardness of a problem instance that was missing in earlier features from the literature by training machine learning models that can accurately predict the empirical hardness of a wide variety of 0-1 knapsack problem instances. Using the instance space analysis methodology, we also show that hard 0-1 knapsack problem instances are clustered together around a relatively dense region of the instance space and several features behave differently in the easy and hard parts of the instance space.
翻訳日:2022-11-18 17:05:25 公開日:2022-11-16
# RGB-Dモーション認識のための統合型マルチモーダルデカップリングフレームワーク

A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion Recognition ( http://arxiv.org/abs/2211.09146v1 )

ライセンス: Link先を確認
Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang and Fan Wang(参考訳) 動き認識はコンピュータビジョンにおいて有望な方向であるが、映像分類モデルの訓練は、不十分なデータとかなりのパラメータのため、画像よりもはるかに難しい。 これを回避するために、RGB-Dデータからマルチモーダルキューを探究する研究もある。 動作認識をある程度改善したものの、以下の点において準最適の状況に直面している。 (i)データ拡張、すなわち、rgb-dデータセットの規模は依然として限られており、ビデオの新しいデータ拡張戦略を探求する努力はほとんど行われていない。 (ii)最適化機構、すなわち、密接な時空絡み合いネットワーク構造は、時空間情報モデリングにより多くの課題をもたらす。 (三)クロスモーダル知識融合、すなわち、遅発核融合の不足に起因する多モーダル表現の間の高い類似性。 これらの欠点を解消するため,本論文では,rgb-dに基づくモーション認識を,データとアルゴリズムの両方の観点から改善する。 より詳しくは、まず、mixupの補足として動作するshufflemixと呼ばれる新しいビデオデータ拡張手法を導入し、モーション認識に新たな時間的正規化を提供する。 第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。 最後に,CFCer (クロスモーダル補足型キャッチャー) を, 補助核融合流として多モーダル情報に共通する可能性を探り, 後期核融合結果を改善する。 これらの新しいデザインのシームレスな組み合わせは、頑健な時空間表現を形成し、4つの公開運動データセットの最先端手法よりも優れたパフォーマンスを達成する。 具体的には、umdrはchalearn isogdデータセットで前例のない4.5%の改善を達成している。

Motion recognition is a promising direction in computer vision, but the training of video classification models is much harder than images due to insufficient data and considerable parameters. To get around this, some works strive to explore multimodal cues from RGB-D data. Although improving motion recognition to some extent, these methods still face sub-optimal situations in the following aspects: (i) Data augmentation, i.e., the scale of the RGB-D datasets is still limited, and few efforts have been made to explore novel data augmentation strategies for videos; (ii) Optimization mechanism, i.e., the tightly space-time-entangled network structure brings more challenges to spatiotemporal information modeling; And (iii) cross-modal knowledge fusion, i.e., the high similarity between multimodal representations caused to insufficient late fusion. To alleviate these drawbacks, we propose to improve RGB-D-based motion recognition both from data and algorithm perspectives in this paper. In more detail, firstly, we introduce a novel video data augmentation method dubbed ShuffleMix, which acts as a supplement to MixUp, to provide additional temporal regularization for motion recognition. Secondly, a Unified Multimodal De-coupling and multi-stage Re-coupling framework, termed UMDR, is proposed for video representation learning. Finally, a novel cross-modal Complement Feature Catcher (CFCer) is explored to mine potential commonalities features in multimodal information as the auxiliary fusion stream, to improve the late fusion results. The seamless combination of these novel designs forms a robust spatiotemporal representation and achieves better performance than state-of-the-art methods on four public motion datasets. Specifically, UMDR achieves unprecedented improvements of +4.5% on the Chalearn IsoGD dataset.Our code is available at https://github.com/zhoubenjia/MotionRGBD-PAMI.
翻訳日:2022-11-18 17:03:53 公開日:2022-11-16
# Kindleで星の光を学べる

Learning to Kindle the Starlight ( http://arxiv.org/abs/2211.09206v1 )

ライセンス: Link先を確認
Yu Yuan and Jiaqi Wu and Lindong Wang and Zhongliang Jing and Henry Leung and Shuyuan Zhu and Han Pan(参考訳) 高い評価を受けた星面画像の撮影は、光害、特殊なハードウェアの要求、そして必要とされる高いレベルの写真技術のために非常に困難である。 深層学習に基づく技術は、低光度画像強調(llie)において顕著な成果を上げているが、トレーニングデータの欠如により、星面画像強調にはあまり適用されていない。 この問題に対処するため,実写355点,半合成854点の星体画像を含む第1の星体画像強調ベンチマーク(SFIEB)を構築した。 提案したデータセットを用いて,条件付き拡散確率モデル(DDPM)に基づく第1の星場画像強調手法,すなわちStarDiffusionを提案する。 条件付きDDPMの入力に動的確率的破損を導入し、我々の小規模データセットにおけるネットワークの性能と一般化を改善する。 実験の結果,提案手法は最先端の低照度画像強調アルゴリズムに勝る有望な結果を示した。 データセットとコードはオープンソースになる。

Capturing highly appreciated star field images is extremely challenging due to light pollution, the requirements of specialized hardware, and the high level of photographic skills needed. Deep learning-based techniques have achieved remarkable results in low-light image enhancement (LLIE) but have not been widely applied to star field image enhancement due to the lack of training data. To address this problem, we construct the first Star Field Image Enhancement Benchmark (SFIEB) that contains 355 real-shot and 854 semi-synthetic star field images, all having the corresponding reference images. Using the presented dataset, we propose the first star field image enhancement approach, namely StarDiffusion, based on conditional denoising diffusion probabilistic models (DDPM). We introduce dynamic stochastic corruptions to the inputs of conditional DDPM to improve the performance and generalization of the network on our small-scale dataset. Experiments show promising results of our method, which outperforms state-of-the-art low-light image enhancement algorithms. The dataset and codes will be open-sourced.
翻訳日:2022-11-18 17:03:22 公開日:2022-11-16
# edBB-Demo:オンライン教育プラットフォームにおけるバイオメトリックスと行動分析

edBB-Demo: Biometrics and Behavior Analysis for Online Educational Platforms ( http://arxiv.org/abs/2211.09210v1 )

ライセンス: Link先を確認
Roberto Daza, Aythami Morales, Ruben Tolosana, Luis F. Gomez, Julian Fierrez, Javier Ortega-Garcia(参考訳) 本稿では,遠隔教育における学生監視のためのAIを活用した研究プラットフォームの実証者であるedBB-Demoを紹介する。 EDBBプラットフォームは、デジタルプラットフォームにおけるユーザ認識と行動理解に関連する課題を研究することを目的としている。 このプラットフォームはデータ収集のために開発され、キーボード、マウス、ウェブカメラ、マイク、スマートウォッチ、脳波バンドなど様々なセンサーからの信号を取得する。 学生セッション中にセンサから取得した情報は、マルチモーダル学習フレームワークでモデル化される。 デモ参加者には 一 監督されていない環境での生体認証 二 遠隔映像解析に基づく人間の行動認識 三 ウェブカムビデオからの心拍数の推定及び iv)表情分析による注意レベルの推定

We present edBB-Demo, a demonstrator of an AI-powered research platform for student monitoring in remote education. The edBB platform aims to study the challenges associated to user recognition and behavior understanding in digital platforms. This platform has been developed for data collection, acquiring signals from a variety of sensors including keyboard, mouse, webcam, microphone, smartwatch, and an Electroencephalography band. The information captured from the sensors during the student sessions is modelled in a multimodal learning framework. The demonstrator includes: i) Biometric user authentication in an unsupervised environment; ii) Human action recognition based on remote video analysis; iii) Heart rate estimation from webcam video; and iv) Attention level estimation from facial expression analysis.
翻訳日:2022-11-18 17:03:02 公開日:2022-11-16
# 巡回群構造を持つ展開型ネットワークの学習

Learning unfolded networks with a cyclic group structure ( http://arxiv.org/abs/2211.09238v1 )

ライセンス: Link先を確認
Emmanouil Theodosis and Demba Ba(参考訳) 深層ニューラルネットワークには、ドメイン知識を組み込む簡単な方法がなく、ブラックボックスと見なされている。 以前の作業では、データ拡張を通じて暗黙的にアーキテクチャにドメイン知識を注入しようとした。 等変ニューラルネットワークの最近の進歩に基づき、ドメイン知識を明示的に符号化するネットワーク、特に回転に関して等価なネットワークを提案する。 分散コーディングを起源とし,理論的保証を有するリッチなフレームワークであるunfolded architecturesを使用することで,スパースアクティベーションを持つ解釈可能なネットワークを提案する。 等変アンフォールドネットワークは、(回転した)MNISTやCIFAR-10で示されるように、そのパラメータのごく一部で、ベースラインと良好に競合する。

Deep neural networks lack straightforward ways to incorporate domain knowledge and are notoriously considered black boxes. Prior works attempted to inject domain knowledge into architectures implicitly through data augmentation. Building on recent advances on equivariant neural networks, we propose networks that explicitly encode domain knowledge, specifically equivariance with respect to rotations. By using unfolded architectures, a rich framework that originated from sparse coding and has theoretical guarantees, we present interpretable networks with sparse activations. The equivariant unfolded networks compete favorably with baselines, with only a fraction of their parameters, as showcased on (rotated) MNIST and CIFAR-10.
翻訳日:2022-11-18 16:46:32 公開日:2022-11-16
# 情報初期化と核選択が生物配列のt-sneを改善する

Informative Initialization and Kernel Selection Improves t-SNE for Biological Sequences ( http://arxiv.org/abs/2211.09263v1 )

ライセンス: Link先を確認
Prakash Chourasia, Sarwan Ali, Murray Patterson(参考訳) t分散確率的隣接埋め込み(t-SNE)は、各点を低次元(LD)空間(通常は2次元)にマッピングすることで高次元(HD)データを解釈する方法である。 データの構造を維持することを目指している。 t-SNEアルゴリズムの重要な構成要素は、LDベクトルのランダム初期化から始まる初期化手順である。 この初期ベクトルの点が更新され、勾配降下を用いて損失関数(kl分岐)を最小化する。 これにより、同じ点が互いに惹きつけ、異なる点を分割する。 デフォルトでは、これらのアルゴリズムは何らかの情報的初期化を採用するべきだと考えています。 t-SNEのもう1つの必須成分は、配列間の対距離からなる類似性行列であるカーネルマトリックスである。 t-SNEベースの可視化では、ガウスカーネルがデフォルトで文献で使用される。 しかし,カーネル選択はt-SNEの性能において重要な役割を果たすことを示す。 本研究は,SARS-CoV-2ウイルスの塩基配列に対するよく知られたGISAIDデータベースなど,様々なソースから得られた生物配列(ヌクレオチド,タンパク質など)のデータセットを4つの異なるセットを用いて,t-SNEの性能評価を行う。 これらの選択肢の主観的および客観的評価を行う。 得られたt-SNEプロットとk-ary neighborhood agreement(k-ANA)を用いて,提案手法をベースラインと比較した。 情報初期化やカーネル行列選択など,異なる手法を用いることで,t-SNEの性能が大幅に向上することを示す。 さらに,よりインテリジェントな初期化により,t-sneはより少ないイテレーションでより高速に収束できることを示した。

The t-distributed stochastic neighbor embedding (t- SNE) is a method for interpreting high dimensional (HD) data by mapping each point to a low dimensional (LD) space (usually two-dimensional). It seeks to retain the structure of the data. An important component of the t-SNE algorithm is the initialization procedure, which begins with the random initialization of an LD vector. Points in this initial vector are then updated to minimize the loss function (the KL divergence) iteratively using gradient descent. This leads comparable points to attract one another while pushing dissimilar points apart. We believe that, by default, these algorithms should employ some form of informative initialization. Another essential component of the t-SNE is using a kernel matrix, a similarity matrix comprising the pairwise distances among the sequences. For t-SNE-based visualization, the Gaussian kernel is employed by default in the literature. However, we show that kernel selection can also play a crucial role in the performance of t-SNE. In this work, we assess the performance of t-SNE with various alternative initialization methods and kernels, using four different sets, out of which three are biological sequences (nucleotide, protein, etc.) datasets obtained from various sources, such as the well-known GISAID database for sequences of the SARS- CoV-2 virus. We perform subjective and objective assessments of these alternatives. We use the resulting t-SNE plots and k- ary neighborhood agreement (k-ANA) to evaluate and compare the proposed methods with the baselines. We show that by using different techniques, such as informed initialization and kernel matrix selection, that t-SNE performs significantly better. Moreover, we show that t-SNE also takes fewer iterations to converge faster with more intelligent initialization.
翻訳日:2022-11-18 16:46:20 公開日:2022-11-16
# パラメータ効率の良い医用画像分割のためのプロンプトチューニング

Prompt Tuning for Parameter-efficient Medical Image Segmentation ( http://arxiv.org/abs/2211.09233v1 )

ライセンス: Link先を確認
Marc Fischer, Alexander Bartler, Bin Yang(参考訳) 自己超越スキームで事前訓練されたニューラルネットワークは、アノテーションの少ないデータリッチ環境での運用において標準となっている。 例えば、セマンティクスのセグメンテーションにおいて新しいクラスのセットなど、パラメータ効率が良いが効果的な方法で下流タスクにモデルを微調整することの重要性が高まっている。 本研究では,2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。 最近普及したプロンプトチューニングアプローチを参考に,プリトレーニング後に凍結されるが,クラス依存の学習可能なプロンプトトークンによってネットワーク全体に適応可能な,プロンプト可能なUNet(PUNet)アーキテクチャを提供する。 このアーキテクチャを,オンライン作成プロトタイプ (contrastive prototype assignment, cpa) への割り当てと,クラスサブセットのセグメンテーション損失の同時処理を基本とした,密集した自己スーパービジョンスキームで事前学習する。 得られたニューラルネットワークモデルは,ct画像データセット上で,完全微調整されたモデルとパラメータに適応したモデルのギャップを軽減できることを実証する。 これにより、TCIA/BTCVデータセットは3.83pp、CT-ORGデータセットは2.67ppと、Dice similarity Coefficient(DSC, %)と、事前訓練されたバックボーンモデルの0.85%に相当するプロンプトトークンのみを調整した。 この作業のコードはhttps://github.com/marcdcfischer/PUNetで公開されている。

Neural networks pre-trained on a self-supervision scheme have become the standard when operating in data rich environments with scarce annotations. As such, fine-tuning a model to a downstream task in a parameter-efficient but effective way, e.g. for a new set of classes in the case of semantic segmentation, is of increasing importance. In this work, we propose and investigate several contributions to achieve a parameter-efficient but effective adaptation for semantic segmentation on two medical imaging datasets. Relying on the recently popularized prompt tuning approach, we provide a prompt-able UNet (PUNet) architecture, that is frozen after pre-training, but adaptable throughout the network by class-dependent learnable prompt tokens. We pre-train this architecture with a dedicated dense self-supervision scheme based on assignments to online generated prototypes (contrastive prototype assignment, CPA) of a student teacher combination alongside a concurrent segmentation loss on a subset of classes. We demonstrate that the resulting neural network model is able to attenuate the gap between fully fine-tuned and parameter-efficiently adapted models on CT imaging datasets. As such, the difference between fully fine-tuned and prompt-tuned variants amounts to only 3.83 pp for the TCIA/BTCV dataset and 2.67 pp for the CT-ORG dataset in the mean Dice Similarity Coefficient (DSC, in %) while only prompt tokens, corresponding to 0.85% of the pre-trained backbone model with 6.8M frozen parameters, are adjusted. The code for this work is available on https://github.com/marcdcfischer/PUNet .
翻訳日:2022-11-18 16:10:28 公開日:2022-11-16
# 人為的不流動性検出 人為的不流動性検出 人為的不流動性発生

Artificial Disfluency Detection, Uh No, Disfluency Generation for the Masses ( http://arxiv.org/abs/2211.09235v1 )

ライセンス: Link先を確認
T. Passali, T. Mavropoulos, G. Tsoumakas, G. Meditskos and S. Vrochidis(参考訳) 既存の拡散検出のアプローチは、通常、大きな注釈付きデータセットの存在を必要とする。 しかし、このタスクの現在のデータセットは制限されており、クラス不均衡に悩まされており、現実のシナリオで遭遇する可能性のあるある種の相反がない。 本研究は,流布テキストから人工的不一致を自動的に生成するLARDを提案する。 LARDは、reparandum/interregnumアノテーションスキームに基づいて、様々な種類の分散(繰り返し、置換、再起動)をシミュレートすることができる。 さらに、コンテキスト埋め込みを分散生成に組み込んで、現実的なコンテキスト認識人工的分散を生成する。 提案手法は, 流行ったテキストのみを必要とするため, アノテーテッド・ディスフルエント・データの要求を回避して, 直接トレーニングに使用できる。 我々の経験的評価は、わずかなデータしか利用できない場合、実際にLARDが有効であることを示す。 さらに,本手法は現実的な拡散を発生させ,既存の拡散検知器の精度を高めることが示唆された。

Existing approaches for disfluency detection typically require the existence of large annotated datasets. However, current datasets for this task are limited, suffer from class imbalance, and lack some types of disfluencies that can be encountered in real-world scenarios. This work proposes LARD, a method for automatically generating artificial disfluencies from fluent text. LARD can simulate all the different types of disfluencies (repetitions, replacements and restarts) based on the reparandum/interregnum annotation scheme. In addition, it incorporates contextual embeddings into the disfluency generation to produce realistic context-aware artificial disfluencies. Since the proposed method requires only fluent text, it can be used directly for training, bypassing the requirement of annotated disfluent data. Our empirical evaluation demonstrates that LARD can indeed be effectively used when no or only a few data are available. Furthermore, our detailed analysis suggests that the proposed method generates realistic disfluencies and increases the accuracy of existing disfluency detectors.
翻訳日:2022-11-18 16:02:19 公開日:2022-11-16
# 命令を用いたタスクアウェア検索

Task-aware Retrieval with Instructions ( http://arxiv.org/abs/2211.09260v1 )

ライセンス: Link先を確認
Akari Asai, Timo Schick, Patrick Lewis, Xilun Chen, Gautier Izacard, Sebastian Riedel, Hannaneh Hajishirzi, Wen-tau Yih(参考訳) そこで本研究では,検索システムのユーザがクエリとともに意図を明示的に記述し,システムにタスクを認識させる方法を提案する。 本稿では,与えられた問合せに最適な文書を見つけるために,人間が書いた命令を追従できるマルチタスク命令チューニングを用いた汎用タスク認識検索システムを開発することを目的とする。 そこで本研究では,命令付き検索データセット約40点を大規模に収集し,多種多様な検索タスクで学習したマルチタスク検索システム tart を提案する。 TARTは命令によって新しいタスクに適応する強力な能力を示し、2つのゼロショット検索ベンチマークであるBEIRとLOTTEで、最大3倍の精度でモデルのパフォーマンスを向上する。 さらに,実世界のシナリオをよりよく反映する新しい評価設定を導入し,多様な文書やタスクをプールする。 この設定では、TARTは競争ベースラインを大幅に上回り、さらに命令による検索を導く効果を示す。

We study the problem of retrieval with instructions, where users of a retrieval system explicitly describe their intent along with their queries, making the system task-aware. We aim to develop a general-purpose task-aware retrieval systems using multi-task instruction tuning that can follow human-written instructions to find the best documents for a given query. To this end, we introduce the first large-scale collection of approximately 40 retrieval datasets with instructions, and present TART, a multi-task retrieval system trained on the diverse retrieval tasks with instructions. TART shows strong capabilities to adapt to a new task via instructions and advances the state of the art on two zero-shot retrieval benchmarks, BEIR and LOTTE, outperforming models up to three times larger. We further introduce a new evaluation setup to better reflect real-world scenarios, pooling diverse documents and tasks. In this setup, TART significantly outperforms competitive baselines, further demonstrating the effectiveness of guiding retrieval with instructions.
翻訳日:2022-11-18 16:02:01 公開日:2022-11-16
# 運動とオブジェクト連続性によるオブジェクト表現学習の促進

Boosting Object Representation Learning via Motion and Object Continuity ( http://arxiv.org/abs/2211.09771v1 )

ライセンス: Link先を確認
Quentin Delfosse, Wolfgang Stammer, Thomas Rothenbacher, Dwarak Vittal, Kristian Kersting(参考訳) 最近の教師なしマルチオブジェクト検出モデルは印象的な性能改善を示しており、主に新しいアーキテクチャインダクティブバイアスに起因する。 残念なことに、下流タスクに最適なオブジェクトエンコーディングを生成する可能性がある。 これを克服するために,物体の運動と連続性,すなわち物体が出現・消滅しない状態を利用するように提案する。 これは2つのメカニズムによって達成される。 (i)光学的流れの統合による物体の位置の事前提供 (ii)連続した画像フレーム間のコントラストオブジェクト連続性損失。 明示的なディープアーキテクチャを開発するのではなく、結果のMotion and Object Continuity(MOC)スキームは、任意のベースラインオブジェクト検出モデルを使用してインスタンス化することができる。 この結果から,オブジェクト発見,収束速度,全般的な潜在オブジェクト表現,特にアタリゲームにおいて,SOTAモデルの性能は大幅に向上した。 全体として、下流タスクの動作とオブジェクト連続性を統合する利点は明らかであり、再構成のみに基づくオブジェクト表現学習を超えていく。

Recent unsupervised multi-object detection models have shown impressive performance improvements, largely attributed to novel architectural inductive biases. Unfortunately, they may produce suboptimal object encodings for downstream tasks. To overcome this, we propose to exploit object motion and continuity, i.e., objects do not pop in and out of existence. This is accomplished through two mechanisms: (i) providing priors on the location of objects through integration of optical flow, and (ii) a contrastive object continuity loss across consecutive image frames. Rather than developing an explicit deep architecture, the resulting Motion and Object Continuity (MOC) scheme can be instantiated using any baseline object detection model. Our results show large improvements in the performances of a SOTA model in terms of object discovery, convergence speed and overall latent object representations, particularly for playing Atari games. Overall, we show clear benefits of integrating motion and object continuity for downstream tasks, moving beyond object representation learning based only on reconstruction.
翻訳日:2022-11-18 15:44:53 公開日:2022-11-16
# ハイパースフィア上のソボレフ空間, カーネル, 分散性

Sobolev Spaces, Kernels and Discrepancies over Hyperspheres ( http://arxiv.org/abs/2211.09196v1 )

ライセンス: Link先を確認
Simon Hubbert, Emilio Porcu, Chris. J. Oates and Mark Girolami(参考訳) この研究は超球面文脈におけるカーネルメソッドの理論基盤を提供する。 具体的には、自然空間(再生核ヒルベルト空間)と超球面上で定義された核に付随するソボレフ空間を特徴づける。 結果は, カーネル・キューバチュアに直接的な影響をもたらし, 最悪のケースエラーの収束率を判定し, ステイン法に基づくキューバチュアアルゴリズムの適用可能性を拡大した。 まず、$(d+1)$-次元ユークリッド空間に埋め込まれた$d$-次元超球面上のソボレフ空間に適切な特徴付けを導入する。 我々の特徴付けは与えられたカーネルに関連するフーリエ-シェーンベルク列に基づいている。 そのような列は$d$次元球面上で解析的に計算するのは難しいが、ヒルベルト球面上ではしばしば実現可能である。 ヒルベルトから有限次元超球面へのフーリエ写像を可能にする射影作用素を見つけることでこの問題を回避する。 カーネルのパラメトリックなファミリを通して,本研究の成果を概説する。

This work provides theoretical foundations for kernel methods in the hyperspherical context. Specifically, we characterise the native spaces (reproducing kernel Hilbert spaces) and the Sobolev spaces associated with kernels defined over hyperspheres. Our results have direct consequences for kernel cubature, determining the rate of convergence of the worst case error, and expanding the applicability of cubature algorithms based on Stein's method. We first introduce a suitable characterisation on Sobolev spaces on the $d$-dimensional hypersphere embedded in $(d+1)$-dimensional Euclidean spaces. Our characterisation is based on the Fourier--Schoenberg sequences associated with a given kernel. Such sequences are hard (if not impossible) to compute analytically on $d$-dimensional spheres, but often feasible over Hilbert spheres. We circumvent this problem by finding a projection operator that allows to Fourier mapping from Hilbert into finite dimensional hyperspheres. We illustrate our findings through some parametric families of kernels.
翻訳日:2022-11-18 15:36:20 公開日:2022-11-16
# 重複群lassoに対する非重複統計近似

The non-overlapping statistical approximation to overlapping group lasso ( http://arxiv.org/abs/2211.09221v1 )

ライセンス: Link先を確認
Mingyu Qi, Tianxi Li(参考訳) グループラッソ(英: Group lasso)は、統計学習において、あらかじめ定義されたグループに従ってパラメータをモデルから排除する正規化法である。 しかし、重なり合う場合、重なり合うグループによって引き起こされる非分離性のため、グループラッソのペナル化目標の最適化は大規模問題に時間を要する可能性がある。 このボトルネックは、遺伝子経路選択やグラフィカルモデル推定など、現代の多くの問題において重複するグループラッソ正規化の適用を著しく制限している。 本稿では,重なり合うグループラッソペナルティの近似として,分離可能なペナルティを提案する。 この分離性により, 大規模・高次元問題において, 我々のペナルティに基づく正規化の計算は, 重なり合う群ラッソの計算よりもかなり高速である。 ペナルティは、$\ell_{q_1}/\ell_{q_2}$ノルムの族内の重なり合う群ラッソノルムの最も厳密な分離的緩和であることを示す。 さらに,提案した分離型ペナルティに基づく推定器は,誤差境界に対する重複群ラスソペナルティと,正方形損失によるレート-最適性能に基づいて統計的に等価であることを示す。 シミュレーション例では, 重複群ラッソと比較し, 提案手法の高速な計算時間と統計的等価性を示すとともに, 遺伝子発現と複数の遺伝子経路に基づく癌腫瘍の分類問題を示す。

Group lasso is a commonly used regularization method in statistical learning in which parameters are eliminated from the model according to predefined groups. However, when the groups overlap, optimizing the group lasso penalized objective can be time-consuming on large-scale problems because of the non-separability induced by the overlapping groups. This bottleneck has seriously limited the application of overlapping group lasso regularization in many modern problems, such as gene pathway selection and graphical model estimation. In this paper, we propose a separable penalty as an approximation of the overlapping group lasso penalty. Thanks to the separability, the computation of regularization based on our penalty is substantially faster than that of the overlapping group lasso, especially for large-scale and high-dimensional problems. We show that the penalty is the tightest separable relaxation of the overlapping group lasso norm within the family of $\ell_{q_1}/\ell_{q_2}$ norms. Moreover, we show that the estimator based on the proposed separable penalty is statistically equivalent to the one based on the overlapping group lasso penalty with respect to their error bounds and the rate-optimal performance under the squared loss. We demonstrate the faster computational time and statistical equivalence of our method compared with the overlapping group lasso in simulation examples and a classification problem of cancer tumors based on gene expression and multiple gene pathways.
翻訳日:2022-11-18 15:36:04 公開日:2022-11-16
# 異常だと確信していますか?

Are we certain it's anomalous? ( http://arxiv.org/abs/2211.09224v1 )

ライセンス: Link先を確認
Alessandro Flaborea, Bardh Prenkaj, Bharti Munjal, Marco Aurelio Sterpa, Dario Aragona, Luca Podo, Fabio Galasso(参考訳) 時系列モデリングの進歩とより一般的には、構造化データのシーケンスは、最近、異常検出の研究を改訂した。 この課題は、金融シリーズ、ITシステム、航空宇宙測定、医療領域における異常な行動の特定であり、異常検出はうつ病の分離や高齢者への参加に役立つ可能性がある。 時系列における異常検出は、高度に非線形な時間相関による異常は稀であり、異常の定義が主観的であるため、複雑なタスクである。 本稿では,異常検出(HypAD)におけるハイパボリック不確かさの新たな利用法を提案する。 HypADは自己指導で入力信号を再構築する。 我々は、LSTMでシーケンスをエンコードするために最先端技術からのベストプラクティスを採用し、GAN評論家の助けを借りて、デコーダと共同で信号の再構成を学習した。 不確実性は双曲型ニューラルネットワークによってエンドツーエンドに推定される。 不確実性を用いることで、HypADは入力信号について確実であるかどうかを評価することができるが、これは異常であるため再構成に失敗する。 新たなキーとなるアイデアは、検出可能な異常は、モデルが確実だが誤った予測をする場所である、ということだ。 HypADは、NASA、Yahoo、Numenta、Amazon、Twitterのデータをベースとした、確立したベンチマークにおいて、一変量検出の最先端技術を上回っている。 また、高齢住宅における異常活動の多変量データセット上での最先端のパフォーマンスも得られ、SWaTのベースラインを上回っている。 全体としてHypADは、検出可能な異常を正常に検出することで、最高のパフォーマンスで最も低い誤報を発生させる。

The progress in modelling time series and, more generally, sequences of structured-data has recently revamped research in anomaly detection. The task stands for identifying abnormal behaviours in financial series, IT systems, aerospace measurements, and the medical domain, where anomaly detection may aid in isolating cases of depression and attend the elderly. Anomaly detection in time series is a complex task since anomalies are rare due to highly non-linear temporal correlations and since the definition of anomalous is sometimes subjective. Here we propose the novel use of Hyperbolic uncertainty for Anomaly Detection (HypAD). HypAD learns self-supervisedly to reconstruct the input signal. We adopt best practices from the state-of-the-art to encode the sequence by an LSTM, jointly learnt with a decoder to reconstruct the signal, with the aid of GAN critics. Uncertainty is estimated end-to-end by means of a hyperbolic neural network. By using uncertainty, HypAD may assess whether it is certain about the input signal but it fails to reconstruct it because this is anomalous; or whether the reconstruction error does not necessarily imply anomaly, as the model is uncertain, e.g. a complex but regular input signal. The novel key idea is that a detectable anomaly is one where the model is certain but it predicts wrongly. HypAD outperforms the current state-of-the-art for univariate anomaly detection on established benchmarks based on data from NASA, Yahoo, Numenta, Amazon, Twitter. It also yields state-of-the-art performance on a multivariate dataset of anomaly activities in elderly home residences, and it outperforms the baseline on SWaT. Overall, HypAD yields the lowest false alarms at the best performance rate, thanks to successfully identifying detectable anomalies.
翻訳日:2022-11-18 15:34:47 公開日:2022-11-16
# T-SEA:オブジェクト検出におけるトランスファーベースセルフアンサンブルアタック

T-SEA: Transfer-based Self-Ensemble Attack on Object Detection ( http://arxiv.org/abs/2211.09773v1 )

ライセンス: Link先を確認
Hao Huang, Ziyan Chen, Huanran Chen, Yongtao Wang, Kevin Zhang(参考訳) クエリベースのブラックボックス攻撃と比較して、転送ベースのブラックボックス攻撃は攻撃されたモデルの情報を一切必要とせず、その機密性を保証する。 しかしながら、既存のトランスファーベースのアプローチの多くは、同じタスクで多様なモデルを取得することの難しさを言うまでもなく、時間とリソース集約的な攻撃転送可能性を高めるために複数のモデルをセンセンシングすることに依存している。 この制限に対処するため,本研究では,オブジェクト検出に対する単一モデル転送ベースのブラックボックス攻撃に着目し,複数のブラックボックス検出器に対する高透過性攻撃を実現するために,単一のモデルのみを活用する。 具体的には,まず既存の手法のパッチ最適化過程を観察し,そのトレーニング戦略を微調整した攻撃フレームワークを提案する。 次に, パッチ最適化を正規モデル最適化と類似させ, 入力データ, 攻撃モデル, 敵パッチに対する一連の自己感覚的アプローチを提案し, 限られた情報を有効に活用し, パッチの過剰フィットを防止する。 実験の結果,提案手法を複数の古典的ベースアタック手法(PGDやMIMなど)で適用することにより,複数の主流検出器に対する最適化パッチのブラックボックス転送性を大幅に向上し,一方,ホワイトボックス性能の向上を図っている。 私たちのコードはhttps://github.com/VDIGPKU/T-SEA.comで公開されています。

Compared to query-based black-box attacks, transfer-based black-box attacks do not require any information of the attacked models, which ensures their secrecy. However, most existing transfer-based approaches rely on ensembling multiple models to boost the attack transferability, which is time- and resource-intensive, not to mention the difficulty of obtaining diverse models on the same task. To address this limitation, in this work, we focus on the single-model transfer-based black-box attack on object detection, utilizing only one model to achieve a high-transferability adversarial attack on multiple black-box detectors. Specifically, we first make observations on the patch optimization process of the existing method and propose an enhanced attack framework by slightly adjusting its training strategies. Then, we analogize patch optimization with regular model optimization, proposing a series of self-ensemble approaches on the input data, the attacked model, and the adversarial patch to efficiently make use of the limited information and prevent the patch from overfitting. The experimental results show that the proposed framework can be applied with multiple classical base attack methods (e.g., PGD and MIM) to greatly improve the black-box transferability of the well-optimized patch on multiple mainstream detectors, meanwhile boosting white-box performance. Our code is available at https://github.com/VDIGPKU/T-SEA.
翻訳日:2022-11-18 15:27:15 公開日:2022-11-16
# オンライン会話を理解するグラフベースコンテキスト認識モデル

A Graph-Based Context-Aware Model to Understand Online Conversations ( http://arxiv.org/abs/2211.09207v1 )

ライセンス: Link先を確認
Vibhor Agarwal, Anthony P. Young, Sagar Joglekar, Nishanth Sastry(参考訳) ユーザ間の参加型エンゲージメントを可能にするオンラインフォーラムは、多くの重要な問題に関する公開議論に変革をもたらした。 しかし、そのような会話は時に憎悪と誤報の完全な交換へとエスカレートすることがある。 分類タスクのためのディープラーニングモデルのような自然言語処理(nlp)の既存のアプローチでは、タスクが個々のコメントの特性の推論やコメントのペア間の返信に関係しているかによって、単一のコメントまたはコメントのペアのみを入力として使用する。 しかし、オンライン会話では、コメントと返信はモデルに入力される即座に関連する情報を超えた外部の文脈に基づいている可能性がある。 したがって、会話の周囲の状況に気付くと、手元にある推論タスクに対するモデルの性能が向上する。 グラフウォークを用いて会話のより広いコンテキストを原則的に取り入れる,新しいグラフベースのディープラーニングアーキテクチャであるgraphnliを提案する。 具体的には、グラフウォークは、与えられたコメントから始まり、同じまたは平行な会話スレッドで"近くの"コメントをサンプリングする。 次に、これらリッチな埋め込みを、オンライン会話において重要な、下流のNLP予測タスクに使用します。 極性予測と擬似的ヘイトスピーチ検出という2つのタスクでGraphNLIを評価し、我々のモデルが両方のタスクのすべての関連するベースラインを一貫して上回ることを示した。 具体的には、偏りのあるルート探索ランダムウォークを持つGraphNLIは、極性予測とヘイトスピーチ検出タスクにおいて、最高性能のBERTベースラインよりもマクロF1スコアが3と6のパーセンテージで実行する。

Online forums that allow for participatory engagement between users have been transformative for the public discussion of many important issues. However, such conversations can sometimes escalate into full-blown exchanges of hate and misinformation. Existing approaches in natural language processing (NLP), such as deep learning models for classification tasks, use as inputs only a single comment or a pair of comments depending upon whether the task concerns the inference of properties of the individual comments or the replies between pairs of comments, respectively. But in online conversations, comments and replies may be based on external context beyond the immediately relevant information that is input to the model. Therefore, being aware of the conversations' surrounding contexts should improve the model's performance for the inference task at hand. We propose GraphNLI, a novel graph-based deep learning architecture that uses graph walks to incorporate the wider context of a conversation in a principled manner. Specifically, a graph walk starts from a given comment and samples "nearby" comments in the same or parallel conversation threads, which results in additional embeddings that are aggregated together with the initial comment's embedding. We then use these enriched embeddings for downstream NLP prediction tasks that are important for online conversations. We evaluate GraphNLI on two such tasks - polarity prediction and misogynistic hate speech detection - and found that our model consistently outperforms all relevant baselines for both tasks. Specifically, GraphNLI with a biased root-seeking random walk performs with a macro-F1 score of 3 and 6 percentage points better than the best-performing BERT-based baselines for the polarity prediction and hate speech detection tasks, respectively.
翻訳日:2022-11-18 15:26:27 公開日:2022-11-16
# 玩具モデルにおける工学的モノセマンティクス

Engineering Monosemanticity in Toy Models ( http://arxiv.org/abs/2211.09169v1 )

ライセンス: Link先を確認
Adam S. Jermyn, Nicholas Schiefer, and Evan Hubinger(参考訳) 一部のニューラルネットワークでは、個々のニューロンは入力の自然な ``features''' に対応する。 このような<emph{monosemantic}ニューロンは、きれいに理解できるので、解釈可能性の研究に大いに役立つ。 本研究は,玩具モデルにおけるモノセマンティクス工学の予備的試みについて報告する。 トレーニングプロセスが求める局所的な最小限を変更するだけで、損失を増やすことなく、モデルをより単調にすることができる。 よりモノセマンティックな損失最小値は、緩やかな負のバイアスを持ち、この事実を利用して高モノセマンティックなモデルを構築することができる。 残留する多節性ニューロンを含むこれらのモデルを機械的に解釈し、単純だが驚くべきアルゴリズムを明らかにすることができる。 最後に、層ごとにより多くのニューロンを持つモデルを提供することで、計算コストが増大するにもかかわらず、モデルはより単調になる。 これらの知見は,工学的一様性に対する新たな疑問と道のりを示唆しており,今後の研究で研究する予定である。

In some neural networks, individual neurons correspond to natural ``features'' in the input. Such \emph{monosemantic} neurons are of great help in interpretability studies, as they can be cleanly understood. In this work we report preliminary attempts to engineer monosemanticity in toy models. We find that models can be made more monosemantic without increasing the loss by just changing which local minimum the training process finds. More monosemantic loss minima have moderate negative biases, and we are able to use this fact to engineer highly monosemantic models. We are able to mechanistically interpret these models, including the residual polysemantic neurons, and uncover a simple yet surprising algorithm. Finally, we find that providing models with more neurons per layer makes the models more monosemantic, albeit at increased computational cost. These findings point to a number of new questions and avenues for engineering monosemanticity, which we intend to study these in future work.
翻訳日:2022-11-18 15:25:35 公開日:2022-11-16
# CASPR: 顧客活動シーケンスに基づく予測と表現

CASPR: Customer Activity Sequence-based Prediction and Representation ( http://arxiv.org/abs/2211.09174v1 )

ライセンス: Link先を確認
Pin-Jung Chen, Sahil Bhatnagar, Damian Konrad Kowalczyk, Mayank Shrivastava(参考訳) 顧客チャーン予測、不正アカウント検出、顧客寿命価値推定といった企業の収益性に不可欠なタスクは、顧客データを表形式で設計した機能に基づいてトレーニングされたモデルによってしばしば取り組まれる。 アプリケーション固有の機能エンジニアリングは、開発、運用、メンテナンスのコストを時間とともに増やします。 近年の表現学習は,アプリケーションの機能工学を簡素化し,一般化する機会となっている。 これらの進歩を表型データ研究者に適用する場合、データの多様性、顧客エンゲージメント履歴のバリエーション、あるいはエンタープライズデータセットの膨大な量を扱う。 本稿では,顧客取引,購入履歴,その他のインタラクションを含む表形式のデータを,顧客とビジネスの関係の一般的な表現に符号化する手法を提案する。 そして、様々なアプリケーションにわたる複数のモデルをトレーニングする機能としてこれらの埋め込みを評価します。 CASPR(Customer Activity Sequence-based Prediction and Representation)は、Transformerアーキテクチャを適用して、アクティビティシーケンスをエンコードすることで、モデルパフォーマンスを改善し、アプリケーション全体の機能エンジニアリングを回避する。 当社の実験では、小規模および大規模のエンタープライズアプリケーションに対して、CASPRを検証しています。

Tasks critical to enterprise profitability, such as customer churn prediction, fraudulent account detection or customer lifetime value estimation, are often tackled by models trained on features engineered from customer data in tabular format. Application-specific feature engineering adds development, operationalization and maintenance costs over time. Recent advances in representation learning present an opportunity to simplify and generalize feature engineering across applications. When applying these advancements to tabular data researchers deal with data heterogeneity, variations in customer engagement history or the sheer volume of enterprise datasets. In this paper, we propose a novel approach to encode tabular data containing customer transactions, purchase history and other interactions into a generic representation of a customer's association with the business. We then evaluate these embeddings as features to train multiple models spanning a variety of applications. CASPR, Customer Activity Sequence-based Prediction and Representation, applies Transformer architecture to encode activity sequences to improve model performance and avoid bespoke feature engineering across applications. Our experiments at scale validate CASPR for both small \& large enterprise applications.
翻訳日:2022-11-18 15:25:20 公開日:2022-11-16
# 有限v.s.無限幅ベイズ型ニューラルネットワークの利点に関する実証的研究

An Empirical Analysis of the Advantages of Finite- v.s. Infinite-Width Bayesian Neural Networks ( http://arxiv.org/abs/2211.09184v1 )

ライセンス: Link先を確認
Jiayu Yao, Yaniv Yacoby, Beau Coker, Weiwei Pan, Finale Doshi-Velez(参考訳) 幅が大きくなるにつれて、複数のモデル特性が同時に変化し、有限幅の場合の推論が難しくなるため、ベイズニューラルネットワーク(BNN)と異なる幅の比較は困難である。 本研究では,有限幅bnnと無限幅bnnを実験的に比較し,その性能差に対する定量的・質的説明を与える。 モデルが不特定の場合には,BNNの性能を損なう可能性がある。 このような場合、有限幅のBNNは、その周波数スペクトルの特性によって部分的に一般化され、モデルミスマッチの下で適応できることを示す。

Comparing Bayesian neural networks (BNNs) with different widths is challenging because, as the width increases, multiple model properties change simultaneously, and, inference in the finite-width case is intractable. In this work, we empirically compare finite- and infinite-width BNNs, and provide quantitative and qualitative explanations for their performance difference. We find that when the model is mis-specified, increasing width can hurt BNN performance. In these cases, we provide evidence that finite-width BNNs generalize better partially due to the properties of their frequency spectrum that allows them to adapt under model mismatch.
翻訳日:2022-11-18 15:24:44 公開日:2022-11-16
# スロベニアにおける統一質問応答

Unified Question Answering in Slovene ( http://arxiv.org/abs/2211.09159v1 )

ライセンス: Link先を確認
Katja Logar, Marko Robnik-\v{S}ikonja(参考訳) 質問応答は、言語理解において最も難しいタスクの1つです。 ほとんどのアプローチは英語向けに開発されているが、リソースの少ない言語はあまり研究されていない。 我々は、UnifiedQAと呼ばれる英語の質問応答アプローチを、少ないリソースのスロベニア語に適応させる。 我々はエンコーダ-デコーダトランスフォーマースロット5とmt5モデルを用いて4つの質問応答形式(yes/no、multiple-choice、abstractive、extractive)を処理する。 既存の4つのデータセットのSlovene適応を使用し、MCTestデータセットを機械翻訳します。 一般モデルは、少なくとも特殊なモデルと同様に、異なる形式の質問に答えることができることを示す。 結果は英語からの言語間移動によってさらに改善される。 スロベニアでは最先端の成果を上げていますが、パフォーマンスは英語に遅れています。

Question answering is one of the most challenging tasks in language understanding. Most approaches are developed for English, while less-resourced languages are much less researched. We adapt a successful English question-answering approach, called UnifiedQA, to the less-resourced Slovene language. Our adaptation uses the encoder-decoder transformer SloT5 and mT5 models to handle four question-answering formats: yes/no, multiple-choice, abstractive, and extractive. We use existing Slovene adaptations of four datasets, and machine translate the MCTest dataset. We show that a general model can answer questions in different formats at least as well as specialized models. The results are further improved using cross-lingual transfer from English. While we produce state-of-the-art results for Slovene, the performance still lags behind English.
翻訳日:2022-11-18 15:17:32 公開日:2022-11-16
# テキスト会話における深部感情認識 : 調査

Deep Emotion Recognition in Textual Conversations: A Survey ( http://arxiv.org/abs/2211.09172v1 )

ライセンス: Link先を確認
Patr\'icia Pereira, Helena Moniz and Joao Paulo Carvalho(参考訳) 会話における感情認識(erc)はここ数年で飛躍的な進歩を遂げてきたが、新しいアプリケーションや実装シナリオは新たな挑戦と機会をもたらしている。 会話的コンテキスト、話者および感情のダイナミクスモデリングの活用から、常識表現、非公式言語および皮肉の解釈、リアルタイムのercの課題への対処、感情原因の認識まで幅広い。 この調査はERCの導入から始まり、このタスクに関連する課題と機会について検討する。 注釈における主観性を扱うための主要な感情分類学と方法の説明が続く。 次に、ercや単語埋め込みに関連するディープラーニングメソッドを説明し、通常バランスのとれないercデータセットを扱うタスクやメソッドのパフォーマンスメトリクスの使用について詳しく説明する。 続いて、キーercの作業の説明とベンチマークと、それらのメソッドと異なるデータセット間のパフォーマンスに関するいくつかの作業を比較する総合的なテーブルが続く。 この調査は、不均衡なデータに対処するテクニックを活用することの利点、混合感情の探求、学習段階にアノテーションの主観性を導入することの利点を強調している。

While Emotion Recognition in Conversations (ERC) has seen a tremendous advancement in the last few years, new applications and implementation scenarios present novel challenges and opportunities. These range from leveraging the conversational context, speaker and emotion dynamics modelling, to interpreting common sense expressions, informal language and sarcasm, addressing challenges of real time ERC and recognizing emotion causes. This survey starts by introducing ERC, elaborating on the challenges and opportunities pertaining to this task. It proceeds with a description of the main emotion taxonomies and methods to deal with subjectivity in annotations. It then describes Deep Learning methods relevant for ERC, word embeddings, and elaborates on the use of performance metrics for the task and methods to deal with the typically unbalanced ERC datasets. This is followed by a description and benchmark of key ERC works along with comprehensive tables comparing several works regarding their methods and performance across different datasets. The survey highlights the advantage of leveraging techniques to address unbalanced data, the exploration of mixed emotions and the benefits of incorporating annotation subjectivity in the learning phase.
翻訳日:2022-11-18 15:17:22 公開日:2022-11-16
# 反射ではなく反射する:推論に基づく共通基盤は対話応答品質を改善する

Reflect, Not Reflex: Inference-Based Common Ground Improves Dialogue Response Quality ( http://arxiv.org/abs/2211.09267v1 )

ライセンス: Link先を確認
Pei Zhou, Hyundong Cho, Pegah Jandaghi, Dong-Ho Lee, Bill Yuchen Lin, Jay Pujara, Xiang Ren(参考訳) ヒューマンコミュニケーションは、共通基盤(CG)、参加者が共有する相互知識と信念に依存し、一貫性と興味深い会話を生み出す。 本稿では,現在の応答生成モデル(rg)が,学習データにおけるcgの欠如と標準rg訓練手順の欠如により,リフレッシブに行動し,cgを明示的にモデル化できないため,対話において汎用的かつ鈍い応答を生成することを実証する。 本稿では,対話に明示的なcg(共有知識と信念を近似する推論として具体化)を付与するデータセットreflectを紹介する。 リフレクションを用いて、現在の対話データとRGモデルの限界を示す: 現在のデータのレスポンスの半分未満は、高品質(感受性、特異性、興味深い)と評価され、このデータを使用してトレーニングされたモデルは、さらに品質が低く、ほとんどのリフレクション応答は高品質であると判断される。 次に、リフレクションCGを用いてRGモデルを誘導することにより、モデルが高品質な応答を生成できるかどうかを分析する。 意外なことに、単にGPT3にCGについて"考える"ように促すことで、品質が30%向上し、CGをRGプロセスに統合するメリットが期待できることがわかった。

Human communication relies on common ground (CG), the mutual knowledge and beliefs shared by participants, to produce coherent and interesting conversations. In this paper, we demonstrate that current response generation (RG) models produce generic and dull responses in dialogues because they act reflexively, failing to explicitly model CG, both due to the lack of CG in training data and the standard RG training procedure. We introduce Reflect, a dataset that annotates dialogues with explicit CG (materialized as inferences approximating shared knowledge and beliefs) and solicits 9k diverse human-generated responses each following one common ground. Using Reflect, we showcase the limitations of current dialogue data and RG models: less than half of the responses in current data are rated as high quality (sensible, specific, and interesting) and models trained using this data have even lower quality, while most Reflect responses are judged high quality. Next, we analyze whether CG can help models produce better-quality responses by using Reflect CG to guide RG models. Surprisingly, we find that simply prompting GPT3 to "think" about CG generates 30% more quality responses, showing promising benefits to integrating CG into the RG process.
翻訳日:2022-11-18 15:09:01 公開日:2022-11-16
# 欠落指標法:低次元から高次元へ

The Missing Indicator Method: From Low to High Dimensions ( http://arxiv.org/abs/2211.09259v1 )

ライセンス: Link先を確認
Mike Van Ness, Tomas M. Bosschieter, Roberto Halpin-Gregorio, Madeleine Udell(参考訳) 欠落したデータは応用データ科学、特に医療、社会科学、自然科学で見られる表形式のデータセットでよく見られる。 多くの教師付き学習手法は完全データのみで動作するため、不完全なデータセットに取り組むには値インプテーションの欠如のような前処理が必要となる。 しかし、イミューテーションは、欠落した値のパターンによって符号化された潜在的に有用な情報を破棄する。 情報不足パターンを持つデータセットでは、不足パターンを示すインジケータ変数を追加するMiM(Missing Indicator Method)が、インプットと併用してモデルパフォーマンスを向上させることができる。 実験により、MIMは情報不足値のパフォーマンスを向上し、不定形欠落値に対して漸近的に線形モデルを傷つけないことを示す。 それでもmimは、追加されたインジケータの多くが非変換である場合、分散を増加させ、特に高次元データセットに害を与える。 この問題に対処するために,情報に欠ける特徴のみに,不足指標を追加するSelective MIM(SMIM)を導入する。 SMIMは,様々な実験環境において,少なくともMIMと同様に動作し,高次元データのMIMを改善することを実証的に示す。

Missing data is common in applied data science, particularly for tabular data sets found in healthcare, social sciences, and natural sciences. Most supervised learning methods work only on complete data, thus requiring preprocessing, such as missing value imputation, to work on incomplete data sets. However, imputation discards potentially useful information encoded by the pattern of missing values. For data sets with informative missing patterns, the Missing Indicator Method (MIM), which adds indicator variables to indicate the missing pattern, can be used in conjunction with imputation to improve model performance. We show experimentally that MIM improves performance for informative missing values, and we prove that MIM does not hurt linear models asymptotically for uninformative missing values. Nonetheless, MIM can increase variance if many of the added indicators are uninformative, causing harm particularly for high-dimensional data sets. To address this issue, we introduce Selective MIM (SMIM), a method that adds missing indicators only for features that have informative missing patterns. We show empirically that SMIM performs at least as well as MIM across a range of experimental settings, and improves MIM for high-dimensional data.
翻訳日:2022-11-18 15:08:18 公開日:2022-11-16
# マルチビュー学習のための学習可能なグラフ畳み込みネットワークと特徴融合

Learnable Graph Convolutional Network and Feature Fusion for Multi-view Learning ( http://arxiv.org/abs/2211.09155v1 )

ライセンス: Link先を確認
Zhaoliang Chen, Lele Fu, Jie Yao, Wenzhong Guo, Claudia Plant, Shiping Wang(参考訳) 実用的なアプリケーションでは、さまざまな視点から目的を表現したマルチビューデータにより、学習アルゴリズムの精度向上が促進される。 しかし、多視点データから見れば、近年多くの研究者が注目しているグラフ畳み込みネットワークを通じて、識別ノード関係とグラフ情報の同時学習には限界がある。 既存の手法のほとんどは隣接行列の重み付き和のみを考えるが、特徴とグラフ融合の結合ニューラルネットワークはまだ未検討である。 本稿では,これらの問題に対処するため,Learnerable Graph Convolutional Network and Feature Fusion (LGCN-FF) と呼ばれる,機能融合ネットワークと学習可能なグラフ畳み込みネットワークの2段階からなる共同学習フレームワークを提案する。 前者は不均一な視点から基礎となる特徴表現を学習することを目的としており、後者は学習可能な重みによるより識別可能なグラフ融合と、微分収縮活性化関数(DSA)と呼ばれるパラメトリックアクティベーション関数を探索する。 提案したLGCN-FFは,多視点半教師付き分類における様々な最先端手法よりも優れていることが検証された。

In practical applications, multi-view data depicting objectives from assorted perspectives can facilitate the accuracy increase of learning algorithms. However, given multi-view data, there is limited work for learning discriminative node relationships and graph information simultaneously via graph convolutional network that has drawn the attention from considerable researchers in recent years. Most of existing methods only consider the weighted sum of adjacency matrices, yet a joint neural network of both feature and graph fusion is still under-explored. To cope with these issues, this paper proposes a joint deep learning framework called Learnable Graph Convolutional Network and Feature Fusion (LGCN-FF), consisting of two stages: feature fusion network and learnable graph convolutional network. The former aims to learn an underlying feature representation from heterogeneous views, while the latter explores a more discriminative graph fusion via learnable weights and a parametric activation function dubbed Differentiable Shrinkage Activation (DSA) function. The proposed LGCN-FF is validated to be superior to various state-of-the-art methods in multi-view semi-supervised classification.
翻訳日:2022-11-18 15:07:37 公開日:2022-11-16
# ET-AL:材料データにおけるバイアス軽減のためのエントロピー型アクティブラーニング

ET-AL: Entropy-Targeted Active Learning for Bias Mitigation in Materials Data ( http://arxiv.org/abs/2211.07881v2 )

ライセンス: Link先を確認
Hengrui Zhang, Wei Wayne Chen, James M. Rondinelli, Wei Chen(参考訳) 材料データとデータセントリックインフォマティクスツールの成長は、材料の発見と設計を劇的に促進する。 機械学習のようなデータ駆動型モデルは、多くの注目を集め、大きな進歩を観察してきたが、データリソースの品質は等しく重要であるが、研究は少ない。 本研究では,材料データ品質の重要な側面であるバイアス緩和に焦点をあてる。 異なる結晶系の安定性の多様性を定量化するために, 材料データ中の構造安定性バイアスを測定する指標を提案する。 バイアスを軽減するため, エントロピーターゲット型アクティブラーニング(ET-AL)フレームワークを開発し, 未表現結晶系の多様性が向上し, バイアスを緩和する。 材料データセットの実験により、ET-ALの能力とバイアス緩和による機械学習モデルの改善を実証する。 このアプローチは、他の科学領域のデータ中心情報学に適用できる。

Growing materials data and data-centric informatics tools drastically promote the discovery and design of materials. While data-driven models, such as machine learning, have drawn much attention and observed significant progress, the quality of data resources is equally important but less studied. In this work, we focus on bias mitigation, an important aspect of materials data quality. Quantifying the diversity of stability in different crystal systems, we propose a metric for measuring structure-stability bias in materials data. To mitigate the bias, we develop an entropy-target active learning (ET-AL) framework, guiding the acquisition of new data so that diversities of underrepresented crystal systems are improved, thus mitigating the bias. With experiments on materials datasets, we demonstrate the capability of ET-AL and the improvement in machine learning models through bias mitigation. The approach is applicable to data-centric informatics in other scientific domains.
翻訳日:2022-11-18 12:55:27 公開日:2022-11-16
# Calibrated Interpretation:Semantic Parsingにおける信頼度推定

Calibrated Interpretation: Confidence Estimation in Semantic Parsing ( http://arxiv.org/abs/2211.07443v2 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) タスク指向意味解析はユーザ向けアプリケーションでますます使われており、解析モデルのキャリブレーションの計測が特に重要である。 3つのモデルファミリーにまたがる6つのモデルのキャリブレーション特性を2つの共通英語意味構文解析データセットで検討し,多くのモデルが適度に適合しており,キャリブレーションと性能との間にトレードオフがあることを発見した。 3つのモデルにまたがる信頼度スコアに基づいて,検討した2つのデータセットの新たなチャレンジスプリットを提案し,リリースする。 次に,タスク指向解析における共通トレードオフのバランスをとる上で,校正モデルが有用であることを示す。 模擬アノテータ・イン・ザ・ループ実験では、モデルの信頼性を利用することで、トークンの2.2%しか相互作用しないため、パフォーマンスを9.6%向上できることを示した。 シーケンスレベルの信頼度スコアを用いて、パーサのユーザビリティと安全性の間のトレードオフを最適化する方法を検討する。 信頼度に基づくしきい値設定は、不正確な低信頼プログラムの実行回数を76%削減できるが、ユーザビリティにはコストがかかる。 ユーザビリティと安全性のバランスをとるDidiMeanシステムを提案する。 最後に、意味解析システムの評価に校正を含めるよう呼びかけ、校正メトリクスを計算するためのライブラリをリリースする。

Task-oriented semantic parsing is increasingly being used in user-facing applications, making measuring the calibration of parsing models especially important. We examine the calibration characteristics of six models across three model families on two common English semantic parsing datasets, finding that many models are reasonably well-calibrated and that there is a trade-off between calibration and performance. Based on confidence scores across three models, we propose and release new challenge splits of the two datasets we examine. We then illustrate the ways a calibrated model can be useful in balancing common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that using model confidence allows us to improve performance by 9.6% (absolute) with interactions on only 2.2% of tokens. Using sequence-level confidence scores, we then examine how we can optimize trade-off between a parser's usability and safety. We show that confidence-based thresholding can reduce the number of incorrect low-confidence programs executed by 76%; however, this comes at a cost to usability. We propose the DidYouMean system which balances usability and safety. We conclude by calling for calibration to be included in the evaluation of semantic parsing systems, and release a library for computing calibration metrics.
翻訳日:2022-11-18 12:50:35 公開日:2022-11-16
# ゼロサムマルチエージェントゲームにおける非同期勾配プレイ

Asynchronous Gradient Play in Zero-Sum Multi-agent Games ( http://arxiv.org/abs/2211.08980v1 )

ライセンス: Link先を確認
Ruicheng Ao, Shicong Cen, Yuejie Chi(参考訳) 近年、競合型マルチエージェントゲームにおける勾配遊びによる均衡の発見が注目を集めており、エージェントが収束を保証しながら分散的かつ対称的に行動する効率的な戦略の設計に重点が置かれている。 ゼロサム2プレイヤーマトリクスゲームを理解するために多大な努力がなされてきたが、ゼロサムマルチエージェントゲームの性能は、特に遅延フィードバックの存在下では不十分であり、勾配のスケーラビリティとレジリエンスは疑問に残る。 本稿では,ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討する。 まず, エントロピー正規化楽観的乗法重み更新 (omwu) 法の最終反復が, 有界合理性の下での解概念である量子応答平衡 (qre) に線形収束することを確認した。 軽度な統計的仮定の下でランダムにフィードバックが遅れても線形収束は継続するが、許容範囲の学習率が低いため、明らかに遅い速度で収束する。 さらに,2段階の学習速度を遅延認識方式で導入することにより,遅延が平均値に任意に拘束された場合でも,一定の遅延の下で最終値の収束速度が向上することを示す。 また,本手法は正規化量の調整によりナッシュ平衡(NE)を近似する有限時間保証ももたらした。 我々の知る限り、この研究はゼロサムポリマトリクスゲームにおいて、幅広い遅延仮定の下で非同期勾配プレイを理解することを目的としており、学習率分離の役割を強調している。

Finding equilibria via gradient play in competitive multi-agent games has been attracting a growing amount of attention in recent years, with emphasis on designing efficient strategies where the agents operate in a decentralized and symmetric manner with guaranteed convergence. While significant efforts have been made in understanding zero-sum two-player matrix games, the performance in zero-sum multi-agent games remains inadequately explored, especially in the presence of delayed feedbacks, leaving the scalability and resiliency of gradient play open to questions. In this paper, we make progress by studying asynchronous gradient plays in zero-sum polymatrix games under delayed feedbacks. We first establish that the last iterate of entropy-regularized optimistic multiplicative weight updates (OMWU) method converges linearly to the quantal response equilibrium (QRE), the solution concept under bounded rationality, in the absence of delays. While the linear convergence continues to hold even when the feedbacks are randomly delayed under mild statistical assumptions, it converges at a noticeably slower rate due to a smaller tolerable range of learning rates. Moving beyond, we demonstrate entropy-regularized OMWU -- by adopting two-timescale learning rates in a delay-aware manner -- enjoys faster last-iterate convergence under fixed delays, and continues to converge provably even when the delays are arbitrarily bounded in an average-iterate manner. Our methods also lead to finite-time guarantees to approximate the Nash equilibrium (NE) by moderating the amount of regularization. To the best of our knowledge, this work is the first that aims to understand asynchronous gradient play in zero-sum polymatrix games under a wide range of delay assumptions, highlighting the role of learning rates separation.
翻訳日:2022-11-17 17:04:42 公開日:2022-11-16
# 預言不等式に対するバンディットアルゴリズムとpandoraの箱

Bandit Algorithms for Prophet Inequality and Pandora's Box ( http://arxiv.org/abs/2211.08586v1 )

ライセンス: Link先を確認
Khashayar Gatmiry, Thomas Kesselheim, Sahil Singla, and Yifan Wang(参考訳) 預言不等式とpandoraのボックス問題は、メカニズム設計、オンラインアルゴリズム、確率的最適化、最適停止、運用研究における応用における基本的な確率的問題である。 これらの研究における通常の仮定は、n$の確率変数の確率分布がアルゴリズムへの入力として与えられることである。 実際にこれらの分布を学習する必要があるため、マルチアーメッド帯域モデルにおけるそのような確率的問題の研究を開始する。 ラウンド$t$では、ポリシー$x^{(t)}$を再生し、$x^{(t)}$のパフォーマンスに関する部分的な(バンド)フィードバックを受け取ります。 目的は,分布を学習するアルゴリズムの総値と,部分的フィードバックから分布を学習するアルゴリズムの総値との合計値におけるT$ラウンドの差を最小化することである。 我々の主な結果は、預言不等式とpandoraの箱の両方に対して、ほぼ最適の$\tilde{o}(\mathsf{poly}(n)\sqrt{t})$ total regretアルゴリズムを与える。 我々の証明は、最適政策の未知の指標に対する信頼区間を維持することによって進められる。 探索と爆発のトレードオフは、これらの信頼区間を直接精査することを妨げるため、主なテクニックは、低レグレットのバンディットポリシーを実行しながら学習可能な後悔の上限を設計することである。

The Prophet Inequality and Pandora's Box problems are fundamental stochastic problem with applications in Mechanism Design, Online Algorithms, Stochastic Optimization, Optimal Stopping, and Operations Research. A usual assumption in these works is that the probability distributions of the $n$ underlying random variables are given as input to the algorithm. Since in practice these distributions need to be learned, we initiate the study of such stochastic problems in the Multi-Armed Bandits model. In the Multi-Armed Bandits model we interact with $n$ unknown distributions over $T$ rounds: in round $t$ we play a policy $x^{(t)}$ and receive a partial (bandit) feedback on the performance of $x^{(t)}$. The goal is to minimize the regret, which is the difference over $T$ rounds in the total value of the optimal algorithm that knows the distributions vs. the total value of our algorithm that learns the distributions from the partial feedback. Our main results give near-optimal $\tilde{O}(\mathsf{poly}(n)\sqrt{T})$ total regret algorithms for both Prophet Inequality and Pandora's Box. Our proofs proceed by maintaining confidence intervals on the unknown indices of the optimal policy. The exploration-exploitation tradeoff prevents us from directly refining these confidence intervals, so the main technique is to design a regret upper bound that is learnable while playing low-regret Bandit policies.
翻訳日:2022-11-17 17:01:53 公開日:2022-11-16
# 単チャンネル音声強調のための複素スペクトルマッピング学習における不確かさの活用

Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral Mapping for Single-channel Speech Enhancement ( http://arxiv.org/abs/2211.08624v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Daniel D. E. Wong, Ke Tan, Buye Xu, Anurag Kumar, Vamsi Krishna Ithapu(参考訳) ほとんどの音声強調(SE)モデルは点推定を学習し、学習過程における不確実性推定を利用しない。 本稿では,多変量ガウス負の対数類似度(nll)を最小化することで,余分なコストでse性能が向上するヘテロシデスティック不確かさのモデル化について述べる。 学習中,各時間周波数ビンにおける強調誤差の共分散を予測するために,一時的サブモデルと複雑なスペクトルマッピングを学習するモデルの拡張を行う。 非制限不確実性のため、共分散はSE性能に有害なアンダーサンプリング効果をもたらす。 アンダーサンプリングを緩和するため,本手法では,不確実な下限と各損失成分の重み付けを両立させ,重度のアンダーサンプリング成分をより罰則で効果的に補償する。 我々の多変量設定はスカラー行列や対角行列のような共通共分散仮定を明らかにする。 これらの仮定を弱めることにより、NLLは平均二乗誤差(MSE)、平均絶対誤差(MAE)、スケール不変信号-歪み比(SI-SDR)など、一般的な損失と比較して優れた性能が得られることを示す。

Most speech enhancement (SE) models learn a point estimate, and do not make use of uncertainty estimation in the learning process. In this paper, we show that modeling heteroscedastic uncertainty by minimizing a multivariate Gaussian negative log-likelihood (NLL) improves SE performance at no extra cost. During training, our approach augments a model learning complex spectral mapping with a temporary submodel to predict the covariance of the enhancement error at each time-frequency bin. Due to unrestricted heteroscedastic uncertainty, the covariance introduces an undersampling effect, detrimental to SE performance. To mitigate undersampling, our approach inflates the uncertainty lower bound and weights each loss component with their uncertainty, effectively compensating severely undersampled components with more penalties. Our multivariate setting reveals common covariance assumptions such as scalar and diagonal matrices. By weakening these assumptions, we show that the NLL achieves superior performance compared to popular losses including the mean squared error (MSE), mean absolute error (MAE), and scale-invariant signal-to-distortion ratio (SI-SDR).
翻訳日:2022-11-17 17:01:30 公開日:2022-11-16
# ポリフォニック音楽音声のニューラル音声合成改善のための条件変分オートエンコーダ

Conditional variational autoencoder to improve neural audio synthesis for polyphonic music sound ( http://arxiv.org/abs/2211.08715v1 )

ライセンス: Link先を確認
Seokjin Lee, Minhan Kim, Seunghyeon Shin, Daeho Lee, Inseon Jang, and Wootaek Lim(参考訳) 音声合成のための深い生成モデルは最近大幅に改善されている。 しかし、生波形をモデル化する作業は、特に音声波形や音楽信号において難しい問題である。 近年,高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法が開発されている。 RAVE法は変分オートエンコーダに基づいて,2段階のトレーニング戦略を利用する。 残念ながら、RAVEモデルは広ピッチのポリフォニック音楽の再生に限られている。 そこで, 復元性能を向上させるために, ピッチ活性化データをraveモデルの補助情報として採用する。 補助情報を扱うために,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。 提案した構造を評価するために,隠れ参照を用いた複数刺激試験と,MAESTROを用いたアンカー(MUSHRA)による聴取実験を行った。 その結果,提案モデルは従来のraveモデルよりも高い性能と安定性が得られた。

Deep generative models for audio synthesis have recently been significantly improved. However, the task of modeling raw-waveforms remains a difficult problem, especially for audio waveforms and music signals. Recently, the realtime audio variational autoencoder (RAVE) method was developed for high-quality audio waveform synthesis. The RAVE method is based on the variational autoencoder and utilizes the two-stage training strategy. Unfortunately, the RAVE model is limited in reproducing wide-pitch polyphonic music sound. Therefore, to enhance the reconstruction performance, we adopt the pitch activation data as an auxiliary information to the RAVE model. To handle the auxiliary information, we propose an enhanced RAVE model with a conditional variational autoencoder structure and an additional fully-connected layer. To evaluate the proposed structure, we conducted a listening experiment based on multiple stimulus tests with hidden references and an anchor (MUSHRA) with the MAESTRO. The obtained results indicate that the proposed model exhibits a more significant performance and stability improvement than the conventional RAVE model.
翻訳日:2022-11-17 17:01:05 公開日:2022-11-16
# SVD-PINNs:特異値分解による物理インフォームニューラルネットワークの伝達学習

SVD-PINNs: Transfer Learning of Physics-Informed Neural Networks via Singular Value Decomposition ( http://arxiv.org/abs/2211.08760v1 )

ライセンス: Link先を確認
Yihang Gao, Ka Chun Cheung, Michael K. Ng(参考訳) 近年、物理インフォームドニューラルネットワーク(PINN)は、従来の方法で現れる次元の呪いを軽減するため、偏微分方程式(PDE)の解法として注目されている。 しかし、PINNの最も欠点は、1つのニューラルネットワークが1つのPDEに対応することである。 実際には、通常はPDEのクラスを解決しなければなりません。 深層学習の爆発的成長に伴い、一般の深層学習における多くの有用な技術がPINNにも適している。 転送学習手法は、PDEのクラスを解く際のPINNのコストを削減できる。 本稿では,特異ベクトルの保持と特異値の最適化(svd-pinns)によるピンの伝達学習法を提案する。 高次元PDE(10-d線型放物型方程式と10-dアレン-カーン方程式)に関する数値実験は、SVD-PINNが異なる右辺関数のクラスを解くのに有効であることを示している。

Physics-informed neural networks (PINNs) have attracted significant attention for solving partial differential equations (PDEs) in recent years because they alleviate the curse of dimensionality that appears in traditional methods. However, the most disadvantage of PINNs is that one neural network corresponds to one PDE. In practice, we usually need to solve a class of PDEs, not just one. With the explosive growth of deep learning, many useful techniques in general deep learning tasks are also suitable for PINNs. Transfer learning methods may reduce the cost for PINNs in solving a class of PDEs. In this paper, we proposed a transfer learning method of PINNs via keeping singular vectors and optimizing singular values (namely SVD-PINNs). Numerical experiments on high dimensional PDEs (10-d linear parabolic equations and 10-d Allen-Cahn equations) show that SVD-PINNs work for solving a class of PDEs with different but close right-hand-side functions.
翻訳日:2022-11-17 17:00:51 公開日:2022-11-16
# フローベース重力波推論における雑音分布変化への適応

Adapting to noise distribution shifts in flow-based gravitational-wave inference ( http://arxiv.org/abs/2211.08801v1 )

ライセンス: Link先を確認
Jonas Wildberger, Maximilian Dax, Stephen R. Green, Jonathan Gair, Michael P\"urrer, Jakob H. Macke, Alessandra Buonanno, Bernhard Sch\"olkopf(参考訳) 重力波パラメータ推定のためのディープラーニング技術は、標準サンプリングの高速な代替として、$\unicode{x2013}$で同等の精度で結果を生成する。 これらのアプローチ(例:dingo)は、観測データ上でベイズ後条件を表す正規化フローを訓練することで、償却推論を可能にする。 ノイズパワースペクトル密度(PSD)も条件付けすることで、検出器の特性の変化も考慮できる。 しかし、そのようなネットワークのトレーニングには、観測されるpsdの分布を事前に知る必要があるため、分析対象のすべてのデータが収集された場合にのみ行われる。 本稿では,将来のpsd予測のための確率モデルを構築し,dingoネットワークの時間的スコープを大きく向上させる。 第2のLIGO-Virgo観測実行(O2) $\unicode{x2013}$と第3の(O3) $\unicode{x2013}$から1つのPSDを使用すると、O3(37の実イベント)を通して正確な推論を実行するためにINGOネットワークをトレーニングできることが分かります。 そこで我々は,この手法が重力波の低遅延解析に深層学習技術を活用する上で重要な要素となることを期待している。

Deep learning techniques for gravitational-wave parameter estimation have emerged as a fast alternative to standard samplers $\unicode{x2013}$ producing results of comparable accuracy. These approaches (e.g., DINGO) enable amortized inference by training a normalizing flow to represent the Bayesian posterior conditional on observed data. By conditioning also on the noise power spectral density (PSD) they can even account for changing detector characteristics. However, training such networks requires knowing in advance the distribution of PSDs expected to be observed, and therefore can only take place once all data to be analyzed have been gathered. Here, we develop a probabilistic model to forecast future PSDs, greatly increasing the temporal scope of DINGO networks. Using PSDs from the second LIGO-Virgo observing run (O2) $\unicode{x2013}$ plus just a single PSD from the beginning of the third (O3) $\unicode{x2013}$ we show that we can train a DINGO network to perform accurate inference throughout O3 (on 37 real events). We therefore expect this approach to be a key component to enable the use of deep learning techniques for low-latency analyses of gravitational waves.
翻訳日:2022-11-17 17:00:33 公開日:2022-11-16
# リニアシステムにおけるオフラインデータポジショニング攻撃の解析と検出可能性

Analysis and Detectability of Offline Data Poisoning Attacks on Linear Systems ( http://arxiv.org/abs/2211.08804v1 )

ライセンス: Link先を確認
Alessio Russo, Alexandre Proutiere(参考訳) 最近の文献では、データ駆動制御法に対するデータ中毒攻撃の効果が研究されている。 データ中毒攻撃は機械学習コミュニティでよく知られており、クロスサンプル独立のような仮定を利用しており、一般的には動的システムには当てはまらない。 その結果、攻撃や検出手法は、古典的教師付き問題で研究されているi.i.d.設定とは異なる動作をする。 特に、データ駆動制御メソッドに対するデータ中毒攻撃は、データによって記述された動的システムの振る舞いを変えるものとして、基本的に見ることができる。 本研究では,この現象を統計的テストのレンズを通して研究し,線形力学系に対する異なる攻撃の検出可能性を検証する。 そこで本研究では,古典的検出試験から逃れることのできるステルスデータ中毒攻撃を提案し,提案攻撃の有効性を示す。

A recent body of literature has investigated the effect of data poisoning attacks on data-driven control methods. Data poisoning attacks are well-known to the Machine Learning community, which, however, make use of assumptions, such as cross-sample independence, that in general do not hold for dynamical systems. As a consequence, attacks, and detection methods, operate differently from the i.i.d. setting studied in classical supervised problems. In particular, data poisoning attacks against data-driven control methods can be fundamentally seen as changing the behavior of the dynamical system described by the data. In this work, we study this phenomenon through the lens of statistical testing, and verify the detectability of different attacks for a linear dynamical system. On the basis of the arguments hereby presented, we propose a stealthy data poisoning attack that can escape classical detection tests, and conclude by showing the efficiency of the proposed attack.
翻訳日:2022-11-17 17:00:10 公開日:2022-11-16
# 線形2次楕円型pdesのための教師なしガレルキンニューラルネットワークの収束解析

Convergence analysis of unsupervised Legendre-Galerkin neural networks for linear second-order elliptic PDEs ( http://arxiv.org/abs/2211.08900v1 )

ライセンス: Link先を確認
Seungchan Ko, Seok-Bae Yun and Youngjoon Hong(参考訳) 本稿では,偏微分方程式(pdes)を解くためのディープラーニングに基づく数値解法であるulgnet(unsupervised legendre-galerkin neural networks)の収束解析を行う。 既存のPDEのディープラーニングベース数値法とは異なり、ULGNetはレジェンダベースに対するスペクトル展開として解を表現し、変分残差最小化問題を解くことでディープニューラルネットワークによる係数を予測する。 対応する損失関数は基底関数の選択に依存する線形代数系によって誘導される残差と等価であるため、離散損失関数の最小化がPDEの弱解に収束することを証明する。 理論的結果を支持する数値的な証拠も提供される。 主要な技術ツールには、有界ニューラルネットワークに対する普遍近似定理の変種、剛性と質量行列の解析、およびラデマッハの複雑性の観点からの大数の均一な法則が含まれる。

In this paper, we perform the convergence analysis of unsupervised Legendre--Galerkin neural networks (ULGNet), a deep-learning-based numerical method for solving partial differential equations (PDEs). Unlike existing deep learning-based numerical methods for PDEs, the ULGNet expresses the solution as a spectral expansion with respect to the Legendre basis and predicts the coefficients with deep neural networks by solving a variational residual minimization problem. Since the corresponding loss function is equivalent to the residual induced by the linear algebraic system depending on the choice of basis functions, we prove that the minimizer of the discrete loss function converges to the weak solution of the PDEs. Numerical evidence will also be provided to support the theoretical result. Key technical tools include the variant of the universal approximation theorem for bounded neural networks, the analysis of the stiffness and mass matrices, and the uniform law of large numbers in terms of the Rademacher complexity.
翻訳日:2022-11-17 16:59:58 公開日:2022-11-16
# 深層学習法を用いたTAIGA実験におけるチェレンコフ望遠鏡画像の解析によるエネルギー再構成

Energy Reconstruction in Analysis of Cherenkov Telescopes Images in TAIGA Experiment Using Deep Learning Methods ( http://arxiv.org/abs/2211.08971v1 )

ライセンス: Link先を確認
E. O. Gres, A. P. Kryukov(参考訳) タイガ天体物理学複合体の大気チェレンコフ望遠鏡(IACT)は高エネルギーガンマ線を観測することができ、多くの天体や過程を研究するのに役立つ。 タイガ・イアクトにより,宇宙放射フラックスからガンマ量子を選択でき,エネルギーや到着方向などの一次パラメータを回復できる。 得られた画像を処理する伝統的な方法は、イメージパラメータ化(いわゆるhillasパラメータメソッド)である。 現在、機械学習手法、特にディープラーニング手法は、iact画像処理に積極的に使われている。 本稿では, 単モード(モノモード)と複数のIACT望遠鏡(ステレオモード)のDeep Learning法によるモンテカルロ画像の解析を行った。 エネルギー再構成の質を推定し,そのエネルギースペクトルを数種類のニューラルネットワークを用いて解析した。 得られた結果をヒラスパラメータに基づいて従来の手法で得られた結果と比較した。

Imaging Atmospheric Cherenkov Telescopes (IACT) of TAIGA astrophysical complex allow to observe high energy gamma radiation helping to study many astrophysical objects and processes. TAIGA-IACT enables us to select gamma quanta from the total cosmic radiation flux and recover their primary parameters, such as energy and direction of arrival. The traditional method of processing the resulting images is an image parameterization - so-called the Hillas parameters method. At the present time Machine Learning methods, in particular Deep Learning methods have become actively used for IACT image processing. This paper presents the analysis of simulated Monte Carlo images by several Deep Learning methods for a single telescope (mono-mode) and multiple IACT telescopes (stereo-mode). The estimation of the quality of energy reconstruction was carried out and their energy spectra were analyzed using several types of neural networks. Using the developed methods the obtained results were also compared with the results obtained by traditional methods based on the Hillas parameters.
翻訳日:2022-11-17 16:59:40 公開日:2022-11-16
# プロドローマおよび臨床認知症検出のための描画過程の自動解析

Automated Analysis of Drawing Process for Detecting Prodromal and Clinical Dementia ( http://arxiv.org/abs/2211.08685v1 )

ライセンス: Link先を確認
Yasunori Yamada, Masatomo Kobayashi, Kaoru Shinkawa, Miyuki Nemoto, Miho Ota, Kiyotaka Nemoto, Tetsuaki Arai(参考訳) 認知症の早期診断、特に前ドロマ期(軽度認知障害、MCI)は研究と臨床の優先事項となっているが、依然として困難である。 描画過程の自動解析は, プロドロマ, 臨床認知症をスクリーニングするための有望な手段として研究され, 描画速度, ペン姿勢, 筆記圧, 停止などの特徴を含む多面的情報を提供している。 本研究の目的は,前頭葉および臨床認知症の検出だけでなく,MMSE(Mini-Mental State Examination)を用いて評価した認知障害の重症度,および中側頭葉萎縮による神経病理学的変化の重症度を予測することである。 認知正常(CN), MCI, 認知症145名を対象に, デジタル化タブレットとペンを用いた描画データを収集した。 ネストクロスバリデーションの結果は, CN, MCI, 認知症を0.909および75.1%の精度(CN vs. MCI:82.4%の精度, CN vs. 認知症:92.2%の精度, MCI vs. 認知症: 80.3%の精度)で分類し, MMSEスコアを0.491ドルで予測し, MTL萎縮症の重症度を0.293ドルとした。 本研究は, 認知障害と認知神経病理学的変化の認知的変化を自動解析することにより, 表皮・臨床認知症をデジタルバイオマーカーとして認識する上で有効であることが示唆された。

Early diagnosis of dementia, particularly in the prodromal stage (i.e., mild cognitive impairment, or MCI), has become a research and clinical priority but remains challenging. Automated analysis of the drawing process has been studied as a promising means for screening prodromal and clinical dementia, providing multifaceted information encompassing features, such as drawing speed, pen posture, writing pressure, and pauses. We examined the feasibility of using these features not only for detecting prodromal and clinical dementia but also for predicting the severity of cognitive impairments assessed using Mini-Mental State Examination (MMSE) as well as the severity of neuropathological changes assessed by medial temporal lobe (MTL) atrophy. We collected drawing data with a digitizing tablet and pen from 145 older adults of cognitively normal (CN), MCI, and dementia. The nested cross-validation results indicate that the combination of drawing features could be used to classify CN, MCI, and dementia with an AUC of 0.909 and 75.1% accuracy (CN vs. MCI: 82.4% accuracy; CN vs. dementia: 92.2% accuracy; MCI vs. dementia: 80.3% accuracy) and predict MMSE scores with an $R^2$ of 0.491 and severity of MTL atrophy with an $R^2$ of 0.293. Our findings suggest that automated analysis of the drawing process can provide information about cognitive impairments and neuropathological changes due to dementia, which can help identify prodromal and clinical dementia as a digital biomarker.
翻訳日:2022-11-17 16:53:46 公開日:2022-11-16
# 移動拡張現実を用いたメタバースのためのフェデレーション学習の資源配分

Resource Allocation of Federated Learning for the Metaverse with Mobile Augmented Reality ( http://arxiv.org/abs/2211.08705v1 )

ライセンス: Link先を確認
Xinyu Zhou, Chang Liu, Jun Zhao(参考訳) メタバースは最近多くの注目を集めています。 モバイル拡張現実(MAR)によるメタバースアプリケーションは、デジタルデータを現実世界と混在させるために、迅速かつ正確なオブジェクト検出を必要とする。 フェデレートラーニング(FL)は、プライバシ保護の特性から興味深い分散機械学習アプローチである。 プライバシの懸念とモバイルデバイス上の限られた計算資源のため、FLをメタバースのMARシステムに組み込んでモデルを協調的に訓練する。 さらに, エネルギー, 実行遅延, モデル精度のトレードオフをバランスさせ, 異なる要求やアプリケーションシナリオを収容するために, 全エネルギー消費, 完了時間, モデル精度の重み付けを最小化するために最適化問題を定式化する。 本研究では,非凸最適化問題を2つのサブプロブレムに分解することで,各装置の帯域割り当て,伝送電力,CPU周波数,ビデオフレーム解像度を決定するリソース割り当てアルゴリズムを考案する。 さらに,提案アルゴリズムの収束解析と計算複雑性について述べる。 計算結果から,提案アルゴリズムは,既存のベンチマークと異なる重みパラメータの下で,より優れた性能(エネルギー消費,完了時間,モデル精度)を有することが示された。

The Metaverse has received much attention recently. Metaverse applications via mobile augmented reality (MAR) require rapid and accurate object detection to mix digital data with the real world. Federated learning (FL) is an intriguing distributed machine learning approach due to its privacy-preserving characteristics. Due to privacy concerns and the limited computation resources on mobile devices, we incorporate FL into MAR systems of the Metaverse to train a model cooperatively. Besides, to balance the trade-off between energy, execution latency and model accuracy, thereby accommodating different demands and application scenarios, we formulate an optimization problem to minimize a weighted combination of total energy consumption, completion time and model accuracy. Through decomposing the non-convex optimization problem into two subproblems, we devise a resource allocation algorithm to determine the bandwidth allocation, transmission power, CPU frequency and video frame resolution for each participating device. We further present the convergence analysis and computational complexity of the proposed algorithm. Numerical results show that our proposed algorithm has better performance (in terms of energy consumption, completion time and model accuracy) under different weight parameters compared to existing benchmarks.
翻訳日:2022-11-17 16:53:06 公開日:2022-11-16
# タブラソロ演奏の構造セグメンテーションとラベリング

Structural Segmentation and Labeling of Tabla Solo Performances ( http://arxiv.org/abs/2211.08790v1 )

ライセンス: Link先を確認
Gowriprasad R, R Aravind, Hema A Murthy(参考訳) タブラ (Tabla) は、北インドの打楽器で、伴奏やソロ演奏のための排他的な楽器として用いられる。 タブラ・ソロは複雑で精巧で、同質な部分の連続を通してリズム的な進化を示す。 各セクションには、特定の構造とそれに関連する名前がある。 インド亜大陸におけるタブラの学習とパフォーマンスは、ガーラナ・スと呼ばれる様式的な学校に基づいている。 各セクションでは、さまざまなガハラナの作曲家によるいくつかの作品が演奏される。 本稿では、タブラ・ソロ・コンサートを音楽的に意味のあるセクションに分割するタスクについて述べる。 次に、適切なセクションラベルを割り当て、そのセクションからgharana-sを認識します。 タスクのために,38時間を超える単独のタブラ記録の多様なコレクションを提示する。 問題にモチベーションを与え、タスクのさまざまな課題や側面を提示します。 タブラソロの異なる音楽特性に触発されて,セグメンテーションタスクのリズム的特徴と音節的特徴を計算した。 本研究は,局所的自己相似性を教師なしの方法で解析することにより,リズミカル構造の重要な変化を自動的に検出する手法を検討する。 また,教師付きランダムフォレストと,手作りの特徴を訓練した畳み込みニューラルネットワークについても検討した。 教師なしと教師なしの両方のアプローチは、一連の保留記録でもテストされる。 楽曲をその構造成分やラベルに分割することは、繰り返し構造探索、オーディオ要約、高速音楽ナビゲーションといった多くの音楽情報検索アプリケーションにとって重要である。 この作品は、タブラ・ソロ・コンサートの包括的な音楽的説明を得るのに役立ちます。

Tabla is a North Indian percussion instrument used as an accompaniment and an exclusive instrument for solo performances. Tabla solo is intricate and elaborate, exhibiting rhythmic evolution through a sequence of homogeneous sections marked by shared rhythmic characteristics. Each section has a specific structure and name associated with it. Tabla learning and performance in the Indian subcontinent is based on stylistic schools called gharana-s. Several compositions by various composers from different gharana-s are played in each section. This paper addresses the task of segmenting the tabla solo concert into musically meaningful sections. We then assign suitable section labels and recognize gharana-s from the sections. We present a diverse collection of over 38 hours of solo tabla recordings for the task. We motivate the problem and present different challenges and facets of the tasks. Inspired by the distinct musical properties of tabla solo, we compute several rhythmic and timbral features for the segmentation task. This work explores the approach of automatically locating the significant changes in the rhythmic structure by analyzing local self-similarity in an unsupervised manner. We also explore supervised random forest and a convolutional neural network trained on hand-crafted features. Both supervised and unsupervised approaches are also tested on a set of held-out recordings. Segmentation of an audio piece into its structural components and labeling is crucial to many music information retrieval applications like repetitive structure finding, audio summarization, and fast music navigation. This work helps us obtain a comprehensive musical description of the tabla solo concert.
翻訳日:2022-11-17 16:52:45 公開日:2022-11-16
# グラフ上の信号処理と機械学習のためのグラフフィルタ

Graph Filters for Signal Processing and Machine Learning on Graphs ( http://arxiv.org/abs/2211.08854v1 )

ライセンス: Link先を確認
Elvin Isufi, Fernando Gama, David I. Shuman, Santiago Segarra(参考訳) フィルタはデータから情報を取り出すのに基本となる。 ユークリッド領域に存在する時系列データや画像データでは、畳み込みニューラルネットワークを含む多くの信号処理や機械学習技術がフィルタとして使われている。 現代のデータはネットワークや他の不規則な領域にも存在し、その構造はグラフによってよりよく捉えられる。 このようなデータから処理と学習を行うため、グラフフィルタは基礎となるデータドメインの構造を担っている。 本稿では,さまざまなフィルタリングカテゴリ,各タイプの設計戦略,異なる種類のグラフフィルタ間のトレードオフなど,グラフフィルタの包括的概要について述べる。 本稿では,グラフフィルタをフィルタバンクやグラフニューラルネットワークに拡張して表現力を高める方法について議論する。 また,信号処理や機械学習アプリケーションにおけるグラフフィルタの基本的な役割についても紹介する。 この記事の目的は、初心者と経験豊富な研究者の両方に統一的なフレームワークを提供することと、信号処理、機械学習、アプリケーションドメイン間のコラボレーションを促進する共通理解を提供することです。

Filters are fundamental in extracting information from data. For time series and image data that reside on Euclidean domains, filters are the crux of many signal processing and machine learning techniques, including convolutional neural networks. Increasingly, modern data also reside on networks and other irregular domains whose structure is better captured by a graph. To process and learn from such data, graph filters account for the structure of the underlying data domain. In this article, we provide a comprehensive overview of graph filters, including the different filtering categories, design strategies for each type, and trade-offs between different types of graph filters. We discuss how to extend graph filters into filter banks and graph neural networks to enhance the representational power; that is, to model a broader variety of signal classes, data patterns, and relationships. We also showcase the fundamental role of graph filters in signal processing and machine learning applications. Our aim is that this article serves the dual purpose of providing a unifying framework for both beginner and experienced researchers, as well as a common understanding that promotes collaborations between signal processing, machine learning, and application domains.
翻訳日:2022-11-17 16:52:22 公開日:2022-11-16
# 個人化医療介入のためのデータプール強化学習

Data-pooling Reinforcement Learning for Personalized Healthcare Intervention ( http://arxiv.org/abs/2211.08998v1 )

ライセンス: Link先を確認
Xinyun Chen, Pengyi Shi, Shanwen Pu(参考訳) 多くの医療アプリケーションにおけるパーソナライズされた予防介入の必要性に動機づけられ、未知のモデルパラメータを持つオンライン環境でのマルチステージ、ダイナミックな意思決定の問題を考える。 パーソナライズドプランニングにおける小サンプルサイズの広範的問題に対処するため,汎用的な摂動値反復フレームワークに基づく新しいデータプール強化学習(RL)アルゴリズムを開発した。 我々のアルゴリズムは、歴史的データを適応的にプールする。 一 従来の方法による推定精度とは対照的に、決定(後悔によって測る)の遂行に直結する際の重み (二 履歴データと現在データの間にパラメトリックな仮定は必要ない。) (iii)患者レベルのデータとは対照的に、集計統計のみを通してデータ共有を要求すること。 我々のデータプーリングアルゴリズムフレームワークは、様々なRLアルゴリズムに適用され、我々は、プールバージョンが、ノープールのアルゴリズムよりも厳密に小さい後悔の限界を達成することを示す理論的性能保証を確立する。 我々は,計画外の再送を防止し,医療管理に実用的な洞察を与えるため,退院後介入のケーススタディを通じて,理論開発を経験的に優れたアルゴリズムの性能で実証する。 特に,我々のアルゴリズムは,健康データ共有に関するプライバシー上の懸念を緩和する。 一 個々の組織が、自身の患者をよりよく管理するための公開データセットや公開研究を高めるための扉を開くこと。 (二)公共政策立案者が集団データを共有し、広い地域社会の健康状態を改善することを奨励する基盤を提供する。

Motivated by the emerging needs of personalized preventative intervention in many healthcare applications, we consider a multi-stage, dynamic decision-making problem in the online setting with unknown model parameters. To deal with the pervasive issue of small sample size in personalized planning, we develop a novel data-pooling reinforcement learning (RL) algorithm based on a general perturbed value iteration framework. Our algorithm adaptively pools historical data, with three main innovations: (i) the weight of pooling ties directly to the performance of decision (measured by regret) as opposed to estimation accuracy in conventional methods; (ii) no parametric assumptions are needed between historical and current data; and (iii) requiring data-sharing only via aggregate statistics, as opposed to patient-level data. Our data-pooling algorithm framework applies to a variety of popular RL algorithms, and we establish a theoretical performance guarantee showing that our pooling version achieves a regret bound strictly smaller than that of the no-pooling counterpart. We substantiate the theoretical development with empirically better performance of our algorithm via a case study in the context of post-discharge intervention to prevent unplanned readmissions, generating practical insights for healthcare management. In particular, our algorithm alleviates privacy concerns about sharing health data, which (i) opens the door for individual organizations to levering public datasets or published studies to better manage their own patients; and (ii) provides the basis for public policy makers to encourage organizations to share aggregate data to improve population health outcomes for the broader community.
翻訳日:2022-11-17 16:51:51 公開日:2022-11-16
# Deconfounders によるNext-Basket Recommendationにおける周波数バイアスの緩和

Mitigating Frequency Bias in Next-Basket Recommendation via Deconfounders ( http://arxiv.org/abs/2211.09072v1 )

ライセンス: Link先を確認
Xiaohan Li, Zheng Liu, Luyi Ma, Kaushiki Nag, Stephen Guo, Philip Yu, Kannan Achan(参考訳) 近年のNext-Basket Recommendation (NBR) の研究は,個人化項目頻度(PIF)を主要な特徴の1つとして活用し,ユーザとアイテムとのインタラクションの頻度を測定することで,大きな進歩を遂げている。 しかし、pifを明示的な機能とすると、頻繁なアイテムに対するバイアスが生じる。 ユーザが頻繁に購入するアイテムは、PIFベースのレコメンデーションシステムで上位に割り当てられ、パーソナライズされたレコメンデーションリストに頻繁に表示される。 結果として、ユーザが頻繁に購入するアイテムと、ユーザが決して購入しないアイテムの公平性とバランスを失うことになる。 パーソナライズされたレコメンデーションリストのこの体系的バイアスを周波数バイアスと呼び、ユーザの閲覧範囲を狭め、システムの有用性を減らす。 我々はこの問題に対処するために因果推論理論を採用する。 過去の購入がユーザーの将来の利益に与える影響を考えると、ユーザとアイテムの表現は因果図の未保存の共同創設者と見なすことができる。 本稿では,周波数バイアスを軽減するためにFENDER(Frequency-aware Deconfounder for Next-Basket Recommendation)というデコノミーモデルを提案する。 提案するdeconfounders理論と因果図を用いて、fenderはpifをニューラルネットワークのテンソル層で分解し、ユーザとアイテムの代替のconfoundersを得る。 次に、FENDERは、これらの代替共同設立者の影響を考慮して、偏見のないレコメンデーションを行う。 実験の結果、FENDERは3つのデータセット上の10のベースラインモデルと比較して、多種多様で公正な結果を得た。 さらなる実験は、FENDERがユーザーの歴史的購入と潜在的利益のバランスをどう取るかを示す。

Recent studies on Next-basket Recommendation (NBR) have achieved much progress by leveraging Personalized Item Frequency (PIF) as one of the main features, which measures the frequency of the user's interactions with the item. However, taking the PIF as an explicit feature incurs bias towards frequent items. Items that a user purchases frequently are assigned higher weights in the PIF-based recommender system and appear more frequently in the personalized recommendation list. As a result, the system will lose the fairness and balance between items that the user frequently purchases and items that the user never purchases. We refer to this systematic bias on personalized recommendation lists as frequency bias, which narrows users' browsing scope and reduces the system utility. We adopt causal inference theory to address this issue. Considering the influence of historical purchases on users' future interests, the user and item representations can be viewed as unobserved confounders in the causal diagram. In this paper, we propose a deconfounder model named FENDER (Frequency-aware Deconfounder for Next-basket Recommendation) to mitigate the frequency bias. With the deconfounder theory and the causal diagram we propose, FENDER decomposes PIF with a neural tensor layer to obtain substitute confounders for users and items. Then, FENDER performs unbiased recommendations considering the effect of these substitute confounders. Experimental results demonstrate that FENDER has derived diverse and fair results compared to ten baseline models on three datasets while achieving competitive performance. Further experiments illustrate how FENDER balances users' historical purchases and potential interests.
翻訳日:2022-11-17 16:51:02 公開日:2022-11-16
# 局所感性ハッシュにおける探索半径探索のための機械学習手法の実験的検討

Experimental Analysis of Machine Learning Techniques for Finding Search Radius in Locality Sensitive Hashing ( http://arxiv.org/abs/2211.09093v1 )

ライセンス: Link先を確認
Omid Jafari and Parth Nagarkar(参考訳) 高次元空間で同様のデータを見つけることはマルチメディアアプリケーションにおいて重要なタスクの1つである。 正確な探索手法を見つけるために導入されたアプローチは、しばしば、その性能を制限する次元問題の呪いに苦しむことが知られている木に基づく索引構造を用いる。 近似探索技術は精度よりも性能を優先し、性能を向上しながら十分な結果を返す。 局所性センシティブハッシュ(lsh)は、高次元空間に対する最も一般的な近似近接探索手法の一つである。 LSHにおける最も時間を要するプロセスの1つは、射影空間に隣接する点を見つけることである。 半径最適化局所感性ハッシュ(roLSH)と呼ばれる改良されたLSHベースのインデックス構造が提案され、機械学習を利用してこれらの隣接点を効率的に見つけることができる。 本稿では,様々な機械学習手法が全体のパフォーマンスに与える影響を実験的に検討することにより,rolshを拡張した。 実世界の4つのデータセットにおける10の回帰手法を比較し、ニューラルネットワークベースの手法がRoLSHの精度と性能のトレードオフに最も適していることを示す。

Finding similar data in high-dimensional spaces is one of the important tasks in multimedia applications. Approaches introduced to find exact searching techniques often use tree-based index structures which are known to suffer from the curse of the dimensionality problem that limits their performance. Approximate searching techniques prefer performance over accuracy and they return good enough results while achieving a better performance. Locality Sensitive Hashing (LSH) is one of the most popular approximate nearest neighbor search techniques for high-dimensional spaces. One of the most time-consuming processes in LSH is to find the neighboring points in the projected spaces. An improved LSH-based index structure, called radius-optimized Locality Sensitive Hashing (roLSH) has been proposed to utilize Machine Learning and efficiently find these neighboring points; thus, further improve the overall performance of LSH. In this paper, we extend roLSH by experimentally studying the effect of different types of famous Machine Learning techniques on overall performance. We compare ten regression techniques on four real-world datasets and show that Neural Network-based techniques are the best fit to be used in roLSH as their accuracy and performance trade-off are the best compared to the other techniques.
翻訳日:2022-11-17 16:50:29 公開日:2022-11-16
# 粉末X線回折スペクトルを用いた多相同定と定量化のための機械学習の探索

Exploring Supervised Machine Learning for Multi-Phase Identification and Quantification from Powder X-Ray Diffraction Spectra ( http://arxiv.org/abs/2211.08591v1 )

ライセンス: Link先を確認
Jaimie Greasley and Patrick Hosein(参考訳) 粉末X線回折分析は材料特性評価法の重要な構成要素である。 特性ブラッグ強度ピークを識別し、既知の結晶相に割り当てることは、回折スペクトルを評価する最初の定性的ステップである。 位相同定の後、rietveld法を用いて粉体データに隠された量的、物質特異的なパラメータの量を抽出することができる。 これらの特徴付け手順はまだ時間がかかり、材料科学のワークフローにおける効率を阻害している。 データサイエンス技術の普及と推進により、材料分析自動化への道のりは明らかなソリューションとなった。 深層学習は、X線スペクトルから結晶学パラメータと特徴を予測する主要な焦点となっている。 しかし、大きな実験データセットをキュレートすることの不可能さは、深層モデルを効果的に訓練するために、粉体データ拡張のための多くの理論シミュレーションを使わなければならないことを意味している。 本稿では,生物医学応用のための多ラベル結晶相同定と定量位相解析のための深層学習の代わりに,従来の教師付き学習アルゴリズムに関心がある。 まず、非常に限られた実験データを用いてモデルを訓練した。 さらに,実世界のX線回折アプリケーションにおける予測解析のためのシミュレーションベーストレーニングの有効性とモデル一般化性を評価するためにシミュレーションXRDデータを組み込んだ。

Powder X-ray diffraction analysis is a critical component of materials characterization methodologies. Discerning characteristic Bragg intensity peaks and assigning them to known crystalline phases is the first qualitative step of evaluating diffraction spectra. Subsequent to phase identification, Rietveld refinement may be employed to extract the abundance of quantitative, material-specific parameters hidden within powder data. These characterization procedures are yet time-consuming and inhibit efficiency in materials science workflows. The ever-increasing popularity and propulsion of data science techniques has provided an obvious solution on the course towards materials analysis automation. Deep learning has become a prime focus for predicting crystallographic parameters and features from X-ray spectra. However, the infeasibility of curating large, well-labelled experimental datasets means that one must resort to a large number of theoretic simulations for powder data augmentation to effectively train deep models. Herein, we are interested in conventional supervised learning algorithms in lieu of deep learning for multi-label crystalline phase identification and quantitative phase analysis for a biomedical application. First, models were trained using very limited experimental data. Further, we incorporated simulated XRD data to assess model generalizability as well as the efficacy of simulation-based training for predictive analysis in a real-world X-ray diffraction application.
翻訳日:2022-11-17 16:43:34 公開日:2022-11-16
# SketchySGD:ロバスト曲率推定による信頼性確率最適化

SketchySGD: Reliable Stochastic Optimization via Robust Curvature Estimates ( http://arxiv.org/abs/2211.08597v1 )

ライセンス: Link先を確認
Zachary Frangella, Pratik Rathore, Shipu Zhao, Madeleine Udell(参考訳) 我々は、スケッチを用いて損失関数の曲率を近似する確率的準ニュートン法であるSketchySGDを紹介する。 準ニュートン法は従来の最適化において最も効果的なアルゴリズムの一つであり、sgdのような一階法よりもはるかに高速に収束する。 しかし、現代の深層学習においては、準ニュートン法はSGDやAdamのような一階法に劣るものと見なされている。 SketchySGDは、サブサンプリング、ランダム化ローランク近似、動的正規化という新しい組み合わせによってこれらの問題を回避している。 凸の場合、SketchySGDはSGDよりも速い速度で、固定ステップサイズで最適の周りの小さな球に収束する。 非凸の場合、sketchysgdは補間(interpolation)とpolyak-lojaciewicz条件(polyak-lojaciewicz condition)という2つの追加の仮定の下で線形収束する。 画像および表データの数値実験により、SGDやAdamのような標準的な最適化手法や既存の準ニュートン法と比較して、深層学習のためのSketchySGDの信頼性と速度が改善された。

We introduce SketchySGD, a stochastic quasi-Newton method that uses sketching to approximate the curvature of the loss function. Quasi-Newton methods are among the most effective algorithms in traditional optimization, where they converge much faster than first-order methods such as SGD. However, for contemporary deep learning, quasi-Newton methods are considered inferior to first-order methods like SGD and Adam owing to higher per-iteration complexity and fragility due to inexact gradients. SketchySGD circumvents these issues by a novel combination of subsampling, randomized low-rank approximation, and dynamic regularization. In the convex case, we show SketchySGD with a fixed stepsize converges to a small ball around the optimum at a faster rate than SGD. In the non-convex case, SketchySGD converges linearly under two additional assumptions, interpolation and the Polyak-Lojaciewicz condition, the latter of which holds with high probability for wide neural networks. Numerical experiments on image and tabular data demonstrate the improved reliability and speed of SketchySGD for deep learning, compared to standard optimizers such as SGD and Adam and existing quasi-Newton methods.
翻訳日:2022-11-17 16:43:16 公開日:2022-11-16
# ネットワーク上の非同期ベイズ学習

Asynchronous Bayesian Learning over a Network ( http://arxiv.org/abs/2211.08603v1 )

ライセンス: Link先を確認
Kinjal Bhar, He Bai, Jemin George, Carl Busart(参考訳) 本稿では,ネットワークエージェントが生データを共有することなく分散ベイズ学習を行うための,実用的な非同期データ融合モデルを提案する。 本アルゴリズムは,ランダムに選択されたエージェントのペアがパラメータサンプリングに不調整ランジュバンダイナミクスを用いるゴシップに基づくアプローチを用いる。 また,ゴシピングエージェント間のコミュニケーションをさらに低減するためのイベントトリガー機構も導入する。 これらのメカニズムは通信のオーバーヘッドを大幅に削減し、分散アルゴリズムで一般的なボトルネックを回避するのに役立つ。 また,アルゴリズムによるリンク使用率の低下は,リンク障害に対する回復力を高めることが期待される。 アルゴリズムの数学的保証を確立し,その効果を数値実験により実証する。

We present a practical asynchronous data fusion model for networked agents to perform distributed Bayesian learning without sharing raw data. Our algorithm uses a gossip-based approach where pairs of randomly selected agents employ unadjusted Langevin dynamics for parameter sampling. We also introduce an event-triggered mechanism to further reduce communication between gossiping agents. These mechanisms drastically reduce communication overhead and help avoid bottlenecks commonly experienced with distributed algorithms. In addition, the reduced link utilization by the algorithm is expected to increase resiliency to occasional link failure. We establish mathematical guarantees for our algorithm and demonstrate its effectiveness via numerical experiments.
翻訳日:2022-11-17 16:42:50 公開日:2022-11-16
# PU GNN:不均衡PUラベル付きグラフ注意ネットワークによるP2E MMORPGのチャージバックフラッド検出

PU GNN: Chargeback Fraud Detection in P2E MMORPGs via Graph Attention Networks with Imbalanced PU Labels ( http://arxiv.org/abs/2211.08604v1 )

ライセンス: Link先を確認
Jiho Choi, Junghoon Park, Woocheol Kim, Jin-Hyeok Park, Yumin Suh, Minchang Sung(参考訳) 近年のマルチプレイヤーオンラインロールプレイングゲーム(MMORPG)におけるプレイツーアーンシステム(P2E)の出現により、ゲーム内商品は、これまで以上に現実世界の価値と交換可能になった。 p2e mmorpgsの商品は、ブロックチェーンネットワークを介してbitcoin、ethereum、klaytnなどの暗号通貨と直接交換することができる。 従来のゲーム内商品とは異なり、一旦ブロックチェーンに書き込むと、P2E商品は支払い詐欺、キャンセル、返金などのチャージバック詐欺であってもゲーム運用チームによって復元できない。 そこで本研究では,p2eトークンのトランザクションパターンを用いて,pu損失を伴うグラフアテンションネットワークを活用した,新たなチャージバック詐欺予測手法pu gnnを提案する。 修正GraphSMOTEの導入により、提案モデルはチャージバック詐欺データセットにおけるラベルの不均衡分布を処理する。 実世界の2つのP2E MMORPGデータセットを用いた実験により,PU GNNは従来提案されていた手法よりも優れた性能を示した。

The recent advent of play-to-earn (P2E) systems in massively multiplayer online role-playing games (MMORPGs) has made in-game goods interchangeable with real-world values more than ever before. The goods in the P2E MMORPGs can be directly exchanged with cryptocurrencies such as Bitcoin, Ethereum, or Klaytn via blockchain networks. Unlike traditional in-game goods, once they had been written to the blockchains, P2E goods cannot be restored by the game operation teams even with chargeback fraud such as payment fraud, cancellation, or refund. To tackle the problem, we propose a novel chargeback fraud prediction method, PU GNN, which leverages graph attention networks with PU loss to capture both the players' in-game behavior with P2E token transaction patterns. With the adoption of modified GraphSMOTE, the proposed model handles the imbalanced distribution of labels in chargeback fraud datasets. The conducted experiments on two real-world P2E MMORPG datasets demonstrate that PU GNN achieves superior performances over previously suggested methods.
翻訳日:2022-11-17 16:42:42 公開日:2022-11-16
# 分散最適化と学習のレジリエンスに及ぼす冗長性の影響

Impact of Redundancy on Resilience in Distributed Optimization and Learning ( http://arxiv.org/abs/2211.08622v1 )

ライセンス: Link先を確認
Shuo Liu, Nirupam Gupta, Nitin H. Vaidya(参考訳) 本稿では,サーバアーキテクチャにおけるレジリエントな分散最適化と確率学習の問題について考察する。 システムはサーバと複数のエージェントから構成され、各エージェントは独自のローカルコスト関数を持つ。 エージェントはサーバと連携して、ローカルコスト関数の集約の最小値を求める。 確率学習の文脈において、エージェントの局所的なコストは、エージェントのデータ上で計算された損失関数である。 本報告では, エージェントのいくつかがビザンチンの欠陥であり, エージェントのいくつかが遅い(ストラグラーとも呼ばれる)システムでこの問題を考察する。 本研究では,上記の問題に対する「近似」解を求めることができる条件について検討する。 特に、$(f, r; \epsilon)$-レジリエンスの概念を導入して、真の解が最大$f$ビザンチン欠陥エージェントの存在下でどのように近似しているかを特徴付け、最大$r$遅いエージェント(またはストラグラー) -- 小さな$\epsilon$はより良い近似を表す。 また、エージェントのコスト関数の冗長性を特徴付けるために、$(f, r; \epsilon)$-redundancyという尺度も導入する。 より大きな冗長性は、総コスト最小化の問題を解決する際により良い近似を可能にする。 本報告では、局所コスト関数が十分冗長であることを考えると、$(f, r; \mathcal{O}(\epsilon))$-レジリエンスが実際に達成可能であることを(理論的にも経験的にも)構築的に示す。

This report considers the problem of resilient distributed optimization and stochastic learning in a server-based architecture. The system comprises a server and multiple agents, where each agent has its own local cost function. The agents collaborate with the server to find a minimum of the aggregate of the local cost functions. In the context of stochastic learning, the local cost of an agent is the loss function computed over the data at that agent. In this report, we consider this problem in a system wherein some of the agents may be Byzantine faulty and some of the agents may be slow (also called stragglers). In this setting, we investigate the conditions under which it is possible to obtain an "approximate" solution to the above problem. In particular, we introduce the notion of $(f, r; \epsilon)$-resilience to characterize how well the true solution is approximated in the presence of up to $f$ Byzantine faulty agents, and up to $r$ slow agents (or stragglers) -- smaller $\epsilon$ represents a better approximation. We also introduce a measure named $(f, r; \epsilon)$-redundancy to characterize the redundancy in the cost functions of the agents. Greater redundancy allows for a better approximation when solving the problem of aggregate cost minimization. In this report, we constructively show (both theoretically and empirically) that $(f, r; \mathcal{O}(\epsilon))$-resilience can indeed be achieved in practice, given that the local cost functions are sufficiently redundant.
翻訳日:2022-11-17 16:42:23 公開日:2022-11-16
# 物理を意識したCNNを用いた地下逆問題の解法

Using explainability to design physics-aware CNNs for solving subsurface inverse problems ( http://arxiv.org/abs/2211.08651v1 )

ライセンス: Link先を確認
Jodie Crocker (1), Krishna Kumar (1), Brady R. Cox (2) ((1) The University of Texas at Austin, (2) Utah State University)(参考訳) 物理認識型ニューラルネットワークの設計に説明可能性を用いた新しい手法を提案する。 我々は,浅層画像の逆問題を解決するために,畳み込みニューラルネットワーク(CNN)を開発した。 CNNは近年、多くの分野で人気を集めているが、CNNの開発は依然として芸術であり、最高のネットワークを生み出すハイパーパラメータの選択に関する明確なガイドラインはない。 最適化アルゴリズムはハイパーパラメータを自動的に選択するために用いられるが、これらの手法はモデル説明可能性(記述的精度)を無視しながら予測精度の高いネットワークの開発に重点を置いている。 しかし、説明可能な人工知能(XAI)の分野は、開発者がニューラルネットワークの内部ロジックを評価するツールを提供することで、モデル説明可能性の欠如に対処している。 本研究では,カーネルサイズやネットワーク深さなどのハイパーパラメータを選択するために,スコアカムとディープシェープを用いて,浅層イメージングのための物理認識型cnnを開発した。 入力として表面波分散画像を使用し,2次元せん断波速度を出力として生成する比較的深いエンコーダ・デコーダネットワークから始める。 モデル説明により、非定型カーネルサイズ3x1の2つの畳み込み層を用いた浅層cnnは、予測精度は同等であるが記述精度は向上することがわかった。 また,ネットワークの複雑さと意思決定を評価するために,説明可能性法が利用できることを示した。 この手法は,予測精度の高いニューラルネットワークの開発に有効であると同時に,本質的な説明性も提供できると考えている。

We present a novel method of using explainability techniques to design physics-aware neural networks. We demonstrate our approach by developing a convolutional neural network (CNN) for solving an inverse problem for shallow subsurface imaging. Although CNNs have gained popularity in recent years across many fields, the development of CNNs remains an art, as there are no clear guidelines regarding the selection of hyperparameters that will yield the best network. While optimization algorithms may be used to select hyperparameters automatically, these methods focus on developing networks with high predictive accuracy while disregarding model explainability (descriptive accuracy). However, the field of Explainable Artificial Intelligence (XAI) addresses the absence of model explainability by providing tools that allow developers to evaluate the internal logic of neural networks. In this study, we use the explainability methods Score-CAM and Deep SHAP to select hyperparameters, such as kernel sizes and network depth, to develop a physics-aware CNN for shallow subsurface imaging. We begin with a relatively deep Encoder-Decoder network, which uses surface wave dispersion images as inputs and generates 2D shear wave velocity subsurface images as outputs. Through model explanations, we ultimately find that a shallow CNN using two convolutional layers with an atypical kernel size of 3x1 yields comparable predictive accuracy but with increased descriptive accuracy. We also show that explainability methods can be used to evaluate the network's complexity and decision-making. We believe this method can be used to develop neural networks with high predictive accuracy while also providing inherent explainability.
翻訳日:2022-11-17 16:41:53 公開日:2022-11-16
# XRBench: メタバースのための拡張現実(XR)機械学習ベンチマークスイート

XRBench: An Extended Reality (XR) Machine Learning Benchmark Suite for the Metaverse ( http://arxiv.org/abs/2211.08675v1 )

ライセンス: Link先を確認
Hyoukjun Kwon, Krishnakumar Nair, Jamin Seo, Jason Yik, Debabrata Mohapatra, Dongyuan Zhan, Jinook Song, Peter Capak, Peizhao Zhang, Peter Vajda, Colby Banbury, Mark Mazumder, Liangzhen Lai, Ashish Sirasao, Tushar Krishna, Harshit Khaitan, Vikas Chandra, Vijay Janapa Reddi(参考訳) 新しい形式のディープラーニング推論ワークロードであるリアルタイムマルチモデルマルチタスク(MMMT)ワークロードは、メタバースユースケースをサポートするために拡張現実(XR)のようなアプリケーション領域に現れている。 これらのワークロードは、ユーザインタラクションと計算に複雑な機械学習(ML)アクティビティを組み合わせる。 標準的なMLアプリケーションと比較して、これらのMLワークロードには固有の困難と制約がある。 リアルタイムMMMTワークロードは、将来のMLシステムとデバイスに不均一性と並行性の要件を課し、新しい機能の開発を必要とする。 本稿では,これらのリアルタイム MMMT ML ワークロードの特徴について考察し,XR システムにおける将来の ML ハードウェアの性能を評価するためのオントロジーを提案する。 次に、XRBenchというMMMT MLタスク、モデル、利用シナリオのコレクションを紹介し、これらモデルを3つの代表的な方法で実行します。 最後に、要求を適切に把握する新しいメトリクスの必要性を強調します。 我々の研究が研究を刺激し、XRユースケースのための次世代のMLシステムの開発に繋がることを願っている。

Real-time multi-model multi-task (MMMT) workloads, a new form of deep learning inference workloads, are emerging for applications areas like extended reality (XR) to support metaverse use cases. These workloads combine user interactivity with computationally complex machine learning (ML) activities. Compared to standard ML applications, these ML workloads present unique difficulties and constraints. Real-time MMMT workloads impose heterogeneity and concurrency requirements on future ML systems and devices, necessitating the development of new capabilities. This paper begins with a discussion of the various characteristics of these real-time MMMT ML workloads and presents an ontology for evaluating the performance of future ML hardware for XR systems. Next, we present XRBench, a collection of MMMT ML tasks, models, and usage scenarios that execute these models in three representative ways: cascaded, concurrent, and cascaded-concurrency for XR use cases. Finally, we emphasize the need for new metrics that capture the requirements properly. We hope that our work will stimulate research and lead to the development of a new generation of ML systems for XR use cases.
翻訳日:2022-11-17 16:41:28 公開日:2022-11-16
# 深層学習による機能強化による傾斜促進による屋内位置決め

Indoor Positioning via Gradient Boosting Enhanced with Feature Augmentation using Deep Learning ( http://arxiv.org/abs/2211.08752v1 )

ライセンス: Link先を確認
Ashkan Goharfar, Jaber Babaki, Mehdi Rasti, Pedro H. J. Nardelli(参考訳) iot(internet of things, モノのインターネット)が出現するにつれ、屋内環境におけるローカライズは避けられないものとなり、近年多くの注目を集めている。 信号干渉の存在下で正確な位置決めシステムの課題に対処するために、いくつかの取り組みがなされている。 本稿では,ニューラルネットワーク(AugBoost-ANN)を用いて,ラベル付きデータを学習するグラディエント・ブースティング・エンハンスメントによる新しい深層学習手法を提案する。 そこで本研究では,Bluetooth Low Energy (BLE) モジュールの受信信号強度指標 (RSSI) を,屋内環境におけるアクセスポイント (AP) としてのRaspberry Piを用いて収集するために,星ネットワークトポロジを用いたIoTアーキテクチャを提案する。 実験用のデータセットは、実環境に合わせて異なる期間に現実世界に収集される。 次に,ディープニューラルネットワークとトランスファー学習技術を用いた意思決定木作成の反復毎に機能を強化した,augboost-annトレーニングの課題に対処する。 実験の結果,本論文で最近提案されている勾配向上法や深層学習法と比較して8倍以上の精度向上率を示し,提案手法は平均位置精度0.77mを得た。

With the emerge of the Internet of Things (IoT), localization within indoor environments has become inevitable and has attracted a great deal of attention in recent years. Several efforts have been made to cope with the challenges of accurate positioning systems in the presence of signal interference. In this paper, we propose a novel deep learning approach through Gradient Boosting Enhanced with Step-Wise Feature Augmentation using Artificial Neural Network (AugBoost-ANN) for indoor localization applications as it trains over labeled data. For this purpose, we propose an IoT architecture using a star network topology to collect the Received Signal Strength Indicator (RSSI) of Bluetooth Low Energy (BLE) modules by means of a Raspberry Pi as an Access Point (AP) in an indoor environment. The dataset for the experiments is gathered in the real world in different periods to match the real environments. Next, we address the challenges of the AugBoost-ANN training which augments features in each iteration of making a decision tree using a deep neural network and the transfer learning technique. Experimental results show more than 8\% improvement in terms of accuracy in comparison with the existing gradient boosting and deep learning methods recently proposed in the literature, and our proposed model acquires a mean location accuracy of 0.77 m.
翻訳日:2022-11-17 16:36:09 公開日:2022-11-16
# 音声感情認識のための教師なし発話スタイル転送によるデータ拡張

Data Augmentation with Unsupervised Speaking Style Transfer for Speech Emotion Recognition ( http://arxiv.org/abs/2211.08843v1 )

ライセンス: Link先を確認
Leyuan Qu, Wei Wang, Taihao Li, Cornelius Weber, Stefan Wermter and Fuji Ren(参考訳) 現在,音声感情認識(SER)システムの性能は,大規模ラベル付きコーパスの欠如によって主に制約されている。 データ拡張は、例えば速度とピッチの摂動や、生成的敵ネットワークを利用した感情的な音声を生成するなど、自動音声認識(ASR)の手法を借りた有望なアプローチとみなされる。 本稿では,意味エンコーダとパラ言語エンコーダがそれぞれ言語情報と非言語情報を表す,感情表現を強調する新しいスタイル転送モデルであるemoaugを提案する。 さらに、デコーダは、前述の2つの情報の流れを教師なしで条件付けして音声信号を再構成する。 訓練が完了すると、エモーグは、パラ言語エンコーダに異なるスタイルを与えることで、ストレス、リズム、強度といった様々な韻律的特徴による感情的なスピーチの表現を豊かにする。 さらに、データ不均衡問題に取り組むために、各クラスに類似したサンプル数を生成することもできる。 IEMOCAPデータセットの実験結果は、EmoAugが話者のアイデンティティとセマンティックコンテンツを保持しながら、異なる話しスタイルを転送できることを示した。 さらに,emoaug によって拡張されたデータを用いて ser モデルを訓練し,データ不均衡に起因する過剰フィッティング問題を克服した。 いくつかのオーディオサンプルは、私たちのデモwebサイトにある。

Currently, the performance of Speech Emotion Recognition (SER) systems is mainly constrained by the absence of large-scale labelled corpora. Data augmentation is regarded as a promising approach, which borrows methods from Automatic Speech Recognition (ASR), for instance, perturbation on speed and pitch, or generating emotional speech utilizing generative adversarial networks. In this paper, we propose EmoAug, a novel style transfer model to augment emotion expressions, in which a semantic encoder and a paralinguistic encoder represent verbal and non-verbal information respectively. Additionally, a decoder reconstructs speech signals by conditioning on the aforementioned two information flows in an unsupervised fashion. Once training is completed, EmoAug enriches expressions of emotional speech in different prosodic attributes, such as stress, rhythm and intensity, by feeding different styles into the paralinguistic encoder. In addition, we can also generate similar numbers of samples for each class to tackle the data imbalance issue. Experimental results on the IEMOCAP dataset demonstrate that EmoAug can successfully transfer different speaking styles while retaining the speaker identity and semantic content. Furthermore, we train a SER model with data augmented by EmoAug and show that it not only surpasses the state-of-the-art supervised and self-supervised methods but also overcomes overfitting problems caused by data imbalance. Some audio samples can be found on our demo website.
翻訳日:2022-11-17 16:35:47 公開日:2022-11-16
# McNet:マルチチャネル音声強調のためのFuse Multiple Cues

McNet: Fuse Multiple Cues for Multichannel Speech Enhancement ( http://arxiv.org/abs/2211.08872v1 )

ライセンス: Link先を確認
Yujie Yang, Changsheng Quan, Xiaofei Li(参考訳) 多チャンネル音声強調では、スペクトル情報と空間情報の両方が音声と雑音の区別に不可欠である。 これらの2種類の情報の活用方法とその時間的ダイナミクスは、いまだに興味深い研究課題である。 そこで本稿では,マルチキュー融合ネットワークであるmcnetを提案する。これは4つのモジュールをカスケードし,それぞれフルバンド空間,狭帯域空間,サブバンドスペクトル,フルバンドスペクトル情報を利用する。 実験の結果、提案するネットワークの各モジュールは独自のコントリビューションを持ち、特に他の最先端の手法よりも優れていることがわかった。

In multichannel speech enhancement, both spectral and spatial information are vital for discriminating between speech and noise. How to fully exploit these two types of information and their temporal dynamics remains an interesting research problem. As a solution to this problem, this paper proposes a multi-cue fusion network named McNet, which cascades four modules to respectively exploit the full-band spatial, narrow-band spatial, sub-band spectral, and full-band spectral information. Experiments show that each module in the proposed network has its unique contribution and, as a whole, notably outperforms other state-of-the-art methods.
翻訳日:2022-11-17 16:35:23 公開日:2022-11-16
# hotelling型テンソルデフレレーションの精度について:ランダムテンソル解析

On the Accuracy of Hotelling-Type Tensor Deflation: A Random Tensor Analysis ( http://arxiv.org/abs/2211.09004v1 )

ライセンス: Link先を確認
Mohamed El Amine Seddik, Maxime Guillaud, Alexis Decurninge(参考訳) ランダムテンソル理論の最近の進歩を利用して、この論文ではランク-r$非対称スパイクテンソルモデルとして $\sum_{i=1}^r \beta_i A_i + W$ where $\beta_i\geq 0$ and the $A_i$'s are rank-one tensor such that $\langle A_i, A_j \rangle\in [0, 1]$ for $i\neq j$ を考える。 具体的には,漸近的に大きいテンソル次元に対して,デフレ手順の各ステップにおける特異値とアライメントを特徴付ける。 これは、信号対雑音比$\beta_i$や、異なる信号成分$\langle a_i, a_j \rangle$間のアライメントなど、基礎問題に関連する異なる量の一貫した推定器を構築するのに使うことができる。

Leveraging on recent advances in random tensor theory, we consider in this paper a rank-$r$ asymmetric spiked tensor model of the form $\sum_{i=1}^r \beta_i A_i + W$ where $\beta_i\geq 0$ and the $A_i$'s are rank-one tensors such that $\langle A_i, A_j \rangle\in [0, 1]$ for $i\neq j$, based on which we provide an asymptotic study of Hotelling-type tensor deflation in the large dimensional regime. Specifically, our analysis characterizes the singular values and alignments at each step of the deflation procedure, for asymptotically large tensor dimensions. This can be used to construct consistent estimators of different quantities involved in the underlying problem, such as the signal-to-noise ratios $\beta_i$ or the alignments between the different signal components $\langle A_i, A_j \rangle$.
翻訳日:2022-11-17 16:34:12 公開日:2022-11-16
# 線形作用素の学習:不コンパクト逆問題としての無限次元回帰

Learning linear operators: Infinite-dimensional regression as a well-behaved non-compact inverse problem ( http://arxiv.org/abs/2211.08875v1 )

ライセンス: Link先を確認
Mattes Mollenhauer and Nicole M\"ucke and T. J. Sullivan(参考訳) 経験的観測から2つのヒルベルト空間の間の線型作用素$\theta$を学習する問題を考察し、無限次元における最小二乗回帰と解釈する。 この目標は、そのフォワード作用素が一般に非コンパクトである(もし$\theta$がコンパクトあるいは$p$-Schattenクラスであると仮定されたとしても)望ましくない特徴を持つ$\theta$の逆問題として再定義できることを示す。 しかし、スペクトル特性と正規化理論の観点からすると、この逆問題はスカラー応答回帰に関連する既知のコンパクトな逆問題と同値であることが証明される。 本フレームワークは,h\"older型ソース条件下での汎用学習アルゴリズムの次元自由率のエレガントな導出を可能にする。 この証明は、カーネル回帰による手法と、部分指数ヒルベルト確率変数の測度集中に関する最近の結果の組み合わせに依存している。 得られたレートは、関数回帰や演算子値を持つカーネルとの非線形回帰、古典的なカーネル回帰とスカラー応答の様々な関係性を持つ。

We consider the problem of learning a linear operator $\theta$ between two Hilbert spaces from empirical observations, which we interpret as least squares regression in infinite dimensions. We show that this goal can be reformulated as an inverse problem for $\theta$ with the undesirable feature that its forward operator is generally non-compact (even if $\theta$ is assumed to be compact or of $p$-Schatten class). However, we prove that, in terms of spectral properties and regularisation theory, this inverse problem is equivalent to the known compact inverse problem associated with scalar response regression. Our framework allows for the elegant derivation of dimension-free rates for generic learning algorithms under H\"older-type source conditions. The proofs rely on the combination of techniques from kernel regression with recent results on concentration of measure for sub-exponential Hilbertian random variables. The obtained rates hold for a variety of practically-relevant scenarios in functional regression as well as nonlinear regression with operator-valued kernels and match those of classical kernel regression with scalar response.
翻訳日:2022-11-17 16:33:46 公開日:2022-11-16
# 低複素性を考慮した適応フェデレーションミニマックス最適化

Adaptive Federated Minimax Optimization with Lower complexities ( http://arxiv.org/abs/2211.07303v2 )

ライセンス: Link先を確認
Feihu Huang(参考訳) フェデレーション学習(Federated Learning)は、分散およびプライバシ保護のマシンラーニングアプローチとして人気がある。 一方、ミニマックス最適化は機械学習における効果的な階層モデルである。 近年,分散ミニマックス最適化のためのフェデレート学習手法が提案されている。 しかし、これらのフェデレーションされたミニマックス最適化手法は依然として高い勾配と通信の複雑さに苦しんでいる。 このギャップを埋めるために,本稿では,Nonconvex-Strongly-Concave (NSC) のミニマックス最適化について検討し,分散ミニマックス問題の解法として,FGDAとAdaFGDAの高速化された最小マックス最適化手法のクラスを提案する。 具体的には、モーメントに基づく分散と局所SGDに基づく手法を構築し、適応アルゴリズム(AdaFGDA)は統一適応行列を用いて様々な適応学習率を柔軟に組み込むことができる。 理論的には、非i.i.d.条件下でのアルゴリズムのための固形収束解析フレームワークを提供する。 さらに, nsc ミニマックス問題の $\epsilon$-stationary point を求める際に, アルゴリズムが$\tilde{o}(\epsilon^{-3})$ と$\tilde{o}(\epsilon^{-2})$ の通信複雑性の低い$\tilde{o}(\epsilon^{-2})$ の勾配(すなわち sfo) の複雑さを得ることを証明した。 実験では,分散フェアラーニングと強固な連合学習タスクを実施し,手法の効率性を検証する。

Federated learning is a popular distributed and privacy-preserving machine learning approach. Meanwhile, minimax optimization is an effective hierarchical model in machine learning. Recently, some federated learning methods have been proposed to solve the distributed minimax optimization. However, these federated minimax optimization methods still suffer from high gradient and communication complexities. To fill this gap, in the paper, we study the Nonconvex-Strongly-Concave (NSC) minimax optimization, and propose a class of accelerated federated minimax optimization methods (i.e., FGDA and AdaFGDA) to solve the distributed minimax problems. Specifically, our methods build on the momentum-based variance reduced and local-SGD techniques, and our adaptive algorithm (i.e., AdaFGDA) can flexibly incorporate various adaptive learning rates by using the unified adaptive matrix. Theoretically, we provide a solid convergence analysis framework for our algorithms under non-i.i.d. setting. Moreover, we prove our algorithms obtain lower gradient (i.e., SFO) complexity of $\tilde{O}(\epsilon^{-3})$ with lower communication complexity of $\tilde{O}(\epsilon^{-2})$ in finding $\epsilon$-stationary point of NSC minimax problems. Experimentally, we conduct the distributed fair learning and robust federated learning tasks to verify efficiency of our methods.
翻訳日:2022-11-17 16:33:26 公開日:2022-11-16
# ユークリッド$k$-Meansのための改善されたCoreset

Improved Coresets for Euclidean $k$-Means ( http://arxiv.org/abs/2211.08184v2 )

ライセンス: Link先を確認
Vincent Cohen-Addad and Kasper Green Larsen and David Saulpic and Chris Schwiegelshohn and Omar Ali Sheikh-Omar(参考訳) d$次元において n$ 個の点が与えられると、ユークリッドの $k$-means 問題(つまり、ユークリッドの $k$-median 問題)は、すべての点から最も近い中心までの距離(距離の和)の和が最小となるような $k$ 中心を見つけることで成り立っている。 ビッグデータ設定でこの問題に対処する最も一般的な方法は、まずcoresetとして知られる重み付きサブセットを演算し、次にこのサブセット上でアルゴリズムを実行することでデータを圧縮することである。 コアセットの保証は、任意の候補解に対して、コアセットコストと元のインスタンスのコストの比率が$(1\pm \varepsilon)$ factor未満であることである。 現在のアートコアセットサイズは$\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4}))$ for Euclidean $k$-means and $\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3})$ for Euclidean $k$-medianである。 両問題の最もよく知られた下限は$\omega(k \varepsilon^{-2})$である。 本稿では、上界を$\tilde O(\min(k^{3/2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4})$ for $k$-means and $\tilde O(\min(k^{4/3} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3})$ for $k$-medianとする。 特に、最初の証明可能な境界は$k^2$障壁を破り、$\varepsilon$への最適な依存を維持している。

Given a set of $n$ points in $d$ dimensions, the Euclidean $k$-means problem (resp. the Euclidean $k$-median problem) consists of finding $k$ centers such that the sum of squared distances (resp. sum of distances) from every point to its closest center is minimized. The arguably most popular way of dealing with this problem in the big data setting is to first compress the data by computing a weighted subset known as a coreset and then run any algorithm on this subset. The guarantee of the coreset is that for any candidate solution, the ratio between coreset cost and the cost of the original instance is less than a $(1\pm \varepsilon)$ factor. The current state of the art coreset size is $\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4}))$ for Euclidean $k$-means and $\tilde O(\min(k^{2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3}))$ for Euclidean $k$-median. The best known lower bound for both problems is $\Omega(k \varepsilon^{-2})$. In this paper, we improve the upper bounds $\tilde O(\min(k^{3/2} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-4}))$ for $k$-means and $\tilde O(\min(k^{4/3} \cdot \varepsilon^{-2},k\cdot \varepsilon^{-3}))$ for $k$-median. In particular, ours is the first provable bound that breaks through the $k^2$ barrier while retaining an optimal dependency on $\varepsilon$.
翻訳日:2022-11-17 16:33:01 公開日:2022-11-16
# 長尺3次元検出に向けて

Towards Long-Tailed 3D Detection ( http://arxiv.org/abs/2211.08691v1 )

ライセンス: Link先を確認
Neehar Peri, Achal Dave, Deva Ramanan, Shu Kong(参考訳) 現代の自動運転車(AV)ベンチマークは、特に大規模ライダーデータに基づいて3D検出器を訓練するための高度な技術を持っている。 驚くべきことに、セマンティッククラスラベルは自然に長い尾の分布に従うが、現代のベンチマークはいくつかの共通クラス(歩行者や車など)に焦点を合わせ、多くの珍しいクラス(破片やベビーカーなど)を無視している。 しかし、安全操作を保証するためにavsは希少なクラスを検出する必要がある。 さらに、セマンティッククラスは階層内で組織されることが多い。例えば、子や建設作業員のような尾クラスは、間違いなく歩行者のサブクラスである。 しかし、このような階層的な関係はしばしば無視され、パフォーマンスの誤解を招く可能性があり、アルゴリズムによるイノベーションの機会を逃してしまう。 我々は,この課題を全クラスで評価可能なlt3d(long-tailed 3d detection)の問題を正式に検討することで解決する。 我々は,CenterPointやPointPillarsなどの一般的な3D検出コードベースを評価し,LT3Dに適応させる。 我々は,共通vs-rareクラス間の機能共有を促進する階層的損失と,階層性(例えば,子どもを大人に誤用する)に関する"理不尽な"誤りに対する部分的クレジットを与える検出指標の改善を実現した。 最後に,LiDARによるRGB画像のマルチモーダル融合により,微粒なテールクラスの精度が特に向上することが指摘されている。 全クラスで平均5%AP精度を向上し、レアクラスのAPを劇的に改善する(例:ベビーカーAPは3.6から31.6に改善)。

Contemporary autonomous vehicle (AV) benchmarks have advanced techniques for training 3D detectors, particularly on large-scale lidar data. Surprisingly, although semantic class labels naturally follow a long-tailed distribution, contemporary benchmarks focus on only a few common classes (e.g., pedestrian and car) and neglect many rare classes in-the-tail (e.g., debris and stroller). However, AVs must still detect rare classes to ensure safe operation. Moreover, semantic classes are often organized within a hierarchy, e.g., tail classes such as child and construction-worker are arguably subclasses of pedestrian. However, such hierarchical relationships are often ignored, which may lead to misleading estimates of performance and missed opportunities for algorithmic innovation. We address these challenges by formally studying the problem of Long-Tailed 3D Detection (LT3D), which evaluates on all classes, including those in-the-tail. We evaluate and innovate upon popular 3D detection codebases, such as CenterPoint and PointPillars, adapting them for LT3D. We develop hierarchical losses that promote feature sharing across common-vs-rare classes, as well as improved detection metrics that award partial credit to "reasonable" mistakes respecting the hierarchy (e.g., mistaking a child for an adult). Finally, we point out that fine-grained tail class accuracy is particularly improved via multimodal fusion of RGB images with LiDAR; simply put, small fine-grained classes are challenging to identify from sparse (lidar) geometry alone, suggesting that multimodal cues are crucial to long-tailed 3D detection. Our modifications improve accuracy by 5% AP on average for all classes, and dramatically improve AP for rare classes (e.g., stroller AP improves from 3.6 to 31.6)!
翻訳日:2022-11-17 16:27:30 公開日:2022-11-16
# SWIN-SFTNet : 全マイクロマスセグメンテーションのためのスイニングトランスを用いた空間的特徴展開と凝集

SWIN-SFTNet : Spatial Feature Expansion and Aggregation using Swin Transformer For Whole Breast micro-mass segmentation ( http://arxiv.org/abs/2211.08717v1 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, George Bebis, Sal Baker(参考訳) 深層学習アーキテクチャの訓練に様々な質量形状と大きさを取り入れることで、乳房の質量分割を困難にしている。 さらに、不規則な形状の質量の手動セグメンテーションには時間と誤差が伴う。 Deep Neural Networkは乳房のマスセグメンテーションにおいて優れた性能を示したが、マイクロマスセグメンテーションでは失敗している。 本稿では,乳房マンモグラフィーを用いたマイクロマスセグメンテーションにおいて,最先端のアーキテクチャよりも優れたU-net型トランスフォーマーアーキテクチャSwin-SFTNetを提案する。 まず、グローバルなコンテキストを捉えるために、逐次線形パッチを構造化空間特徴に変換する新しい空間特徴拡張・集約ブロック(SFEA)を設計した。 次に,スウィントランスブロックによって抽出された局所線形特徴と組み合わせて全体の精度を向上させる。 また、エンコーダブロックとデコーダブロックの線形特徴埋め込みの類似性を計算する新しい埋め込み損失も組み込んだ。 このアプローチでは,cbis-ddsmでは3.10%,inbreastでは3.81%,inbreastテストデータセットではcbisプリトレーニングモデルでは3.13%,最先端よりも高いセグメンテーションdiceを実現する。

Incorporating various mass shapes and sizes in training deep learning architectures has made breast mass segmentation challenging. Moreover, manual segmentation of masses of irregular shapes is time-consuming and error-prone. Though Deep Neural Network has shown outstanding performance in breast mass segmentation, it fails in segmenting micro-masses. In this paper, we propose a novel U-net-shaped transformer-based architecture, called Swin-SFTNet, that outperforms state-of-the-art architectures in breast mammography-based micro-mass segmentation. Firstly to capture the global context, we designed a novel Spatial Feature Expansion and Aggregation Block(SFEA) that transforms sequential linear patches into a structured spatial feature. Next, we combine it with the local linear features extracted by the swin transformer block to improve overall accuracy. We also incorporate a novel embedding loss that calculates similarities between linear feature embeddings of the encoder and decoder blocks. With this approach, we achieve higher segmentation dice over the state-of-the-art by 3.10% on CBIS-DDSM, 3.81% on InBreast, and 3.13% on CBIS pre-trained model on the InBreast test data set.
翻訳日:2022-11-17 16:26:56 公開日:2022-11-16
# paanet:高次コントラスト演算子を用いた物体検出のための視覚知覚に基づく4段階フレームワーク

PAANet:Visual Perception based Four-stage Framework for Salient Object Detection using High-order Contrast Operator ( http://arxiv.org/abs/2211.08724v1 )

ライセンス: Link先を確認
Yanbo Yuan, Hua Zhong, Haixiong Li, Xiao cheng, Linmei Xia(参考訳) 人間の視覚システム (HVS) は, サリアント物体検出 (SOD) を行う際の注意プロセスと注意プロセスからなると考えられている。 そこで本研究では,sodのための4段階のフレームワークを提案する。最初の2段階は一般特徴抽出 (gfe) と特徴前処理 (fp) からなる \textbf{p}re-\textbf{a}ttentive process と一致し,最後の2段階はsaliency feature extraction (sfe) を含む \textbf{a}ttention process (fa)、すなわち \textbf{paanet} に対応する。 事前のプロセスによると、gfeステージはフルトレーニングされたバックボーンを適用し、異なるデータセットの微調整は不要である。 この変更はトレーニング速度を大幅に向上させることができる。 FPステージは微調整の役割を果たすが、より単純な構造と少ないパラメータのためにより効率的に機能する。 さらに, sfe 段階では, 前景と周辺との対話情報を抽出する際に, 従来の畳み込み演算子とは対照的に, より意味的に機能する新しいコントラスト演算子の設計を行う。 興味深いことに、このコントラスト演算子はより深い構造を形成し、複雑なシーンをより効果的に高階の塩分を抽出するためにカスケードすることができる。 5つのデータセットの最先端手法との比較実験により,本フレームワークの有効性が示された。

It is believed that human vision system (HVS) consists of pre-attentive process and attention process when performing salient object detection (SOD). Based on this fact, we propose a four-stage framework for SOD, in which the first two stages match the \textbf{P}re-\textbf{A}ttentive process consisting of general feature extraction (GFE) and feature preprocessing (FP), and the last two stages are corresponding to \textbf{A}ttention process containing saliency feature extraction (SFE) and the feature aggregation (FA), namely \textbf{PAANet}. According to the pre-attentive process, the GFE stage applies the fully-trained backbone and needs no further finetuning for different datasets. This modification can greatly increase the training speed. The FP stage plays the role of finetuning but works more efficiently because of its simpler structure and fewer parameters. Moreover, in SFE stage we design for saliency feature extraction a novel contrast operator, which works more semantically in contrast with the traditional convolution operator when extracting the interactive information between the foreground and its surroundings. Interestingly, this contrast operator can be cascaded to form a deeper structure and extract higher-order saliency more effective for complex scene. Comparative experiments with the state-of-the-art methods on 5 datasets demonstrate the effectiveness of our framework.
翻訳日:2022-11-17 16:26:28 公開日:2022-11-16
# AlignVE:アライメント関係に基づく視覚的エンターメント認識

AlignVE: Visual Entailment Recognition Based on Alignment Relations ( http://arxiv.org/abs/2211.08736v1 )

ライセンス: Link先を確認
Biwei Cao, Jiuxin Cao, Jie Gui, Jiayun Shen, Bo Liu, Lei He, Yuan Yan Tang and James Tin-Yau Kwok(参考訳) Visual Entailment (VE) は、仮説テキストのセマンティクスが与えられた前提画像から推測できるかどうかを認識することを目的としている。 現在、既存のveアプローチのほとんどは、視覚的な質問応答の方法に由来する。 彼らは、マルチモーダル性からコンテンツセマンティック特徴の仮説と前提の類似性を定量化し、視覚的エンテーメントを認識する。 しかし、そのようなアプローチは前提と仮説の間の関係推論のveのユニークな性質を無視している。 そこで本稿では,関係相互作用法を用いて視覚的包摂問題を解決するためにAlignVEと呼ばれる新しいアーキテクチャを提案する。 これは前提と仮説の関係をアライメント行列としてモデル化する。 次に、固定サイズで特徴ベクトルを取得するためのプーリング操作を導入する。 最後に、完全な連結層と正規化層を通り、分類を完了します。 実験の結果、snli-veデータセットではアライメントベースのアーキテクチャが72.45\%の精度に達し、同じ設定で以前のコンテンツベースのモデルよりも優れていることがわかった。

Visual entailment (VE) is to recognize whether the semantics of a hypothesis text can be inferred from the given premise image, which is one special task among recent emerged vision and language understanding tasks. Currently, most of the existing VE approaches are derived from the methods of visual question answering. They recognize visual entailment by quantifying the similarity between the hypothesis and premise in the content semantic features from multi modalities. Such approaches, however, ignore the VE's unique nature of relation inference between the premise and hypothesis. Therefore, in this paper, a new architecture called AlignVE is proposed to solve the visual entailment problem with a relation interaction method. It models the relation between the premise and hypothesis as an alignment matrix. Then it introduces a pooling operation to get feature vectors with a fixed size. Finally, it goes through the fully-connected layer and normalization layer to complete the classification. Experiments show that our alignment-based architecture reaches 72.45\% accuracy on SNLI-VE dataset, outperforming previous content-based models under the same settings.
翻訳日:2022-11-17 16:26:00 公開日:2022-11-16
# 効率的な粒度調整フレームワーク@ego4d natural language query challenge 2022

An Efficient COarse-to-fiNE Alignment Framework @ Ego4D Natural Language Queries Challenge 2022 ( http://arxiv.org/abs/2211.08776v1 )

ライセンス: Link先を確認
Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan(参考訳) 本技術報告では,ECCV 2022におけるEgo4D Natural Language Queries (NLQ) Challengeに対するCONEアプローチについて述べる。 当社のモデルCONEは、効率的なウィンドウ中心のCoarse-to-fiNEアライメントフレームワークです。 具体的には、長いビデオをスライディングウィンドウアプローチで候補ウィンドウに動的にスライスする。 CONE(1)は,NLクエリに関連する候補ウィンドウを事前フィルタリングすることで,コントラスト学習を通じてウィンドウ間の意味のばらつきを学習し,推論を高速化すると共に,コントラスト型視覚文事前学習モデルEgoVLPの強力なマルチモーダルアライメント能力を利用して,ウィンドウ内候補モーメントのランク付けを行う。 ブラインドテストセットでは、それぞれR1@IoU=0.3とR1@IoU=0.5の15.26と9.24を達成する。

This technical report describes the CONE approach for Ego4D Natural Language Queries (NLQ) Challenge in ECCV 2022. We leverage our model CONE, an efficient window-centric COarse-to-fiNE alignment framework. Specifically, CONE dynamically slices the long video into candidate windows via a sliding window approach. Centering at windows, CONE (1) learns the inter-window (coarse-grained) semantic variance through contrastive learning and speeds up inference by pre-filtering the candidate windows relevant to the NL query, and (2) conducts intra-window (fine-grained) candidate moments ranking utilizing the powerful multi-modal alignment ability of the contrastive vision-text pre-trained model EgoVLP. On the blind test set, CONE achieves 15.26 and 9.24 for R1@IoU=0.3 and R1@IoU=0.5, respectively.
翻訳日:2022-11-17 16:25:43 公開日:2022-11-16
# RF-Annotate:コンテクスト内の共通物体のRF-Supervised Image Annotation

RF-Annotate: Automatic RF-Supervised Image Annotation of Common Objects in Context ( http://arxiv.org/abs/2211.08837v1 )

ライセンス: Link先を確認
Emerson Sie, Deepak Vasisht(参考訳) 無線タグは、小売品、食品、薬品、衣服、本、文書、鍵、機器など、関心のある一般的なアイテムを追跡し識別するためにますます使われています。 同時に、家、倉庫、店舗、図書館、薬局等で作業するロボットの物体検出および認識モデルを訓練するために、そのようなアイテムをラベル付けしたビジュアルデータが必要である。 本稿では,このようなタグの追跡・識別機能を,ロボット知覚タスクのための大規模自動画像アノテーションシステムの基礎として活用することは可能か? rf-annotateは、ロボットが興味のあるオブジェクトのラベル付きビジュアルデータを、その環境内で収集できる、自律的なピクセル単位での画像アノテーションのためのパイプラインである。 我々のパイプラインは、修正されていないコモディティRFIDリーダーとRGB-Dカメラを使用し、移動ロボットプラットフォームが任意の小さな動きを利用して、シーン内の対応するオブジェクトにRFIDを空間的にマッピングする。 唯一の前提は、環境内の関心の対象は、それぞれ3~15セントの安価なバッテリーフリーRFIDで事前にタグ付けされているということです。 各種屋内環境における共通物体を特徴とするテーブルトップシーンのRGB-Dシーケンスにおけるパイプラインの有効性を実証した。

Wireless tags are increasingly used to track and identify common items of interest such as retail goods, food, medicine, clothing, books, documents, keys, equipment, and more. At the same time, there is a need for labelled visual data featuring such items for the purpose of training object detection and recognition models for robots operating in homes, warehouses, stores, libraries, pharmacies, and so on. In this paper, we ask: can we leverage the tracking and identification capabilities of such tags as a basis for a large-scale automatic image annotation system for robotic perception tasks? We present RF-Annotate, a pipeline for autonomous pixel-wise image annotation which enables robots to collect labelled visual data of objects of interest as they encounter them within their environment. Our pipeline uses unmodified commodity RFID readers and RGB-D cameras, and exploits arbitrary small-scale motions afforded by mobile robotic platforms to spatially map RFIDs to corresponding objects in the scene. Our only assumption is that the objects of interest within the environment are pre-tagged with inexpensive battery-free RFIDs costing 3-15 cents each. We demonstrate the efficacy of our pipeline on several RGB-D sequences of tabletop scenes featuring common objects in a variety of indoor environments.
翻訳日:2022-11-17 16:25:18 公開日:2022-11-16
# chartparser: 印刷障害に対する自動チャート解析

ChartParser: Automatic Chart Parsing for Print-Impaired ( http://arxiv.org/abs/2211.08863v1 )

ライセンス: Link先を確認
Anukriti Kumar, Tanuja Ganu, Saikat Guha(参考訳) インフォグラフィックは、基礎となる複雑な情報を理解しやすくするため、質的または定量的な発見を報告するための科学文書の不可欠な構成要素であることが多い。 しかし、その解釈は、盲目、低視力、および他のBLV個人にとっての挑戦であり続けている。 本稿では、ディープラーニング、ocr、画像処理技術を利用して、すべての図形を研究論文から抽出し、それらを様々なチャートカテゴリ(棒グラフ、線グラフなど)に分類し、それらから関連する情報を得るための、完全に自動化されたパイプラインであるchartparserを提案する。 最後に、検索したコンテンツを、スクリーンリーダーに親しみやすく、BLVユーザーにもアクセス可能な表形式で提示する。 研究論文から実世界の注釈付きバーチャートのサンプリングにパイプラインを適用することで,我々のアプローチを徹底的に評価する。

Infographics are often an integral component of scientific documents for reporting qualitative or quantitative findings as they make it much simpler to comprehend the underlying complex information. However, their interpretation continues to be a challenge for the blind, low-vision, and other print-impaired (BLV) individuals. In this paper, we propose ChartParser, a fully automated pipeline that leverages deep learning, OCR, and image processing techniques to extract all figures from a research paper, classify them into various chart categories (bar chart, line chart, etc.) and obtain relevant information from them, specifically bar charts (including horizontal, vertical, stacked horizontal and stacked vertical charts) which already have several exciting challenges. Finally, we present the retrieved content in a tabular format that is screen-reader friendly and accessible to the BLV users. We present a thorough evaluation of our approach by applying our pipeline to sample real-world annotated bar charts from research papers.
翻訳日:2022-11-17 16:24:59 公開日:2022-11-16
# 双方向粗大スケール回復による自己教師付き感情と深度学習

Self-supervised Egomotion and Depth Learning via Bi-directional Coarse-to-Fine Scale Recovery ( http://arxiv.org/abs/2211.08904v1 )

ライセンス: Link先を確認
Hao Qu, Lilian Zhang, Xiaoping Hu, Xiaofeng He, Xianfei Pan, Changhao Chen(参考訳) エゴモーションと深さの自己教師付き学習が最近注目されている。 これらの学習モデルは、自律走行とロボットのナビゲーションと知覚タスクをサポートするためにポーズと深度マップを提供するが、ネットワークを訓練するために高精度な接地ラベルを必要としない。 しかし、単眼視覚に基づく手法はポーズスケールあいまいな問題に苦しむため、物理的に有意義な軌道を生成することができないため、実世界では応用が制限される。 本稿では,単眼画像から感情と深度を絶対的スケールで推定することのできる,新たな自己学習深層ニューラルネットワークフレームワークを提案する。 粗い深度スケールは、点雲データと予め訓練されたモデルを比較して、測光損失の整合性を保証する。 粗いポーズと深さを共同で洗練する2段階間粗いスケール回復戦略を導入することにより、スケール曖昧性問題を解決する。 我々のモデルは、夜間の運転のような低照度でも、グローバルスケールでポーズと深さの推定を成功させた。 公開データセットの評価から,我々のモデルは,VINS-mono,ORB-SLAM,SC-Learner,UnVIOなど,従来のVOとVIOの両方で優れていた。

Self-supervised learning of egomotion and depth has recently attracted great attentions. These learning models can provide pose and depth maps to support navigation and perception task for autonomous driving and robots, while they do not require high-precision ground-truth labels to train the networks. However, monocular vision based methods suffer from pose scale-ambiguity problem, so that can not generate physical meaningful trajectory, and thus their applications are limited in real-world. We propose a novel self-learning deep neural network framework that can learn to estimate egomotion and depths with absolute metric scale from monocular images. Coarse depth scale is recovered via comparing point cloud data against a pretrained model that ensures the consistency of photometric loss. The scale-ambiguity problem is solved by introducing a novel two-stages coarse-to-fine scale recovery strategy that jointly refines coarse poses and depths. Our model successfully produces pose and depth estimates in global scale-metric, even in low-light condition, i.e. driving at night. The evaluation on the public datasets demonstrates that our model outperforms both representative traditional and learning based VOs and VIOs, e.g. VINS-mono, ORB-SLAM, SC-Learner, and UnVIO.
翻訳日:2022-11-17 16:24:40 公開日:2022-11-16
# 自己中心型ハンド・オブジェクトインタラクション検出

Egocentric Hand-object Interaction Detection ( http://arxiv.org/abs/2211.09067v1 )

ライセンス: Link先を確認
Yao Lu, Yanan Liu(参考訳) 本稿では,手-物体相互作用の状態を共同で決定する手法を提案する。 これは自我中心の人間活動の理解と相互作用に不可欠である。 コンピュータビジョンの観点からは、手が物体と相互作用しているかどうかの判断は、対話的な手のポーズが存在するか、手が物体に触れているかによって決まると信じている。 そこで,ハンドポーズとハンドオブジェクトマスクを抽出し,協調してインタラクション状態を決定する。 対物咬合による手ポーズ推定の問題を解決するために,マルチカメラシステムを用いて複数の視点から手ポーズデータをキャプチャする。 Shanらによる最新の研究と評価・比較を行った。 EPIC-KITCHENS \cite{damen2018scaling} データセットから選択した画像上の \cite{Shan20} は、Shan の (92 %$) と比較した HOI (hand-object Interaction) 検出において、89 % の精度を達成する。 しかし、リアルタイムパフォーマンスの場合、このメソッドは$\textbf{30}$ fps以上の動作が可能であり、shanの($\textbf{1}\sim\textbf{2}$ fps)よりもはるかに効率的である。 デモはhttps://www.youtube.com/watch? v=XVj3zBuynmQ

In this paper, we propose a method to jointly determine the status of hand-object interaction. This is crucial for egocentric human activity understanding and interaction. From a computer vision perspective, we believe that determining whether a hand is interacting with an object depends on whether there is an interactive hand pose and whether the hand is touching the object. Thus, we extract the hand pose, hand-object masks to jointly determine the interaction status. In order to solve the problem of hand pose estimation due to in-hand object occlusion, we use a multi-cam system to capture hand pose data from multiple perspectives. We evaluate and compare our method with the most recent work from Shan et al. \cite{Shan20} on selected images from EPIC-KITCHENS \cite{damen2018scaling} dataset and achieve $89\%$ accuracy on HOI (hand-object interaction) detection which is comparative to Shan's ($92\%$). However, for real-time performance, our method can run over $\textbf{30}$ FPS which is much more efficient than Shan's ($\textbf{1}\sim\textbf{2}$ FPS). A demo can be found from https://www.youtube.com/watch?v=XVj3zBuynmQ
翻訳日:2022-11-17 16:24:19 公開日:2022-11-16
# 不均衡時間深部ガウス過程(iTDGP)を用いた虚血性脳卒中病変の予測

Ischemic Stroke Lesion Prediction using imbalanced Temporal Deep Gaussian Process (iTDGP) ( http://arxiv.org/abs/2211.09068v1 )

ライセンス: Link先を確認
Mohsen Soltanpour, Muhammad Yousefnezhad, Russ Greiner, Pierre Boulanger, Brian Buck(参考訳) 世界中で死亡と障害の主な原因の1つとして、脳への血液供給がブロックされた動脈によって突然中断されたときに急性期脳梗塞(ais)が起こる。 AISの発症から数秒以内に、ブロックされた動脈を囲む脳細胞が死に、病変の進行につながる。 既存の病変を自動的かつ正確に予測することは、AIS治療計画およびさらなる怪我の予防に重要な役割を果たす。 CT(Computed Tomography Perfusion)画像から抽出した3次元計測マップをしきい値とする現行のAIS評価法では,精度が不十分である。 このことから,本論文では,ベースラインCTP時系列を用いてAISの病変予測を改善する確率モデルである,不均衡な時間的深化ガウス過程(iTDGP)を提案する。 提案モデルは,CTP時系列から時間情報を効果的に抽出し,脳のボクセルのクラスラベルにマッピングすることができる。 さらに, バッチトレーニングとボクセルレベルの分析により, iTDGPは少数の患者から学習でき, 不均衡クラスに対して堅牢である。 さらに,空間情報を用いた予測精度を向上させるポストプロセッサを組み込んだモデルである。 ISLES 2018とUAH(University of Alberta Hospital)データセットを用いた総合的な実験では、iTDGPは最先端のAIS病変予測器よりも優れた性能を示し、それぞれ71.42%、65.37%、p<0.05である。

As one of the leading causes of mortality and disability worldwide, Acute Ischemic Stroke (AIS) occurs when the blood supply to the brain is suddenly interrupted because of a blocked artery. Within seconds of AIS onset, the brain cells surrounding the blocked artery die, which leads to the progression of the lesion. The automated and precise prediction of the existing lesion plays a vital role in the AIS treatment planning and prevention of further injuries. The current standard AIS assessment method, which thresholds the 3D measurement maps extracted from Computed Tomography Perfusion (CTP) images, is not accurate enough. Due to this fact, in this article, we propose the imbalanced Temporal Deep Gaussian Process (iTDGP), a probabilistic model that can improve AIS lesions prediction by using baseline CTP time series. Our proposed model can effectively extract temporal information from the CTP time series and map it to the class labels of the brain's voxels. In addition, by using batch training and voxel-level analysis iTDGP can learn from a few patients and it is robust against imbalanced classes. Moreover, our model incorporates a post-processor capable of improving prediction accuracy using spatial information. Our comprehensive experiments, on the ISLES 2018 and the University of Alberta Hospital (UAH) datasets, show that iTDGP performs better than state-of-the-art AIS lesion predictors, obtaining the (cross-validation) Dice score of 71.42% and 65.37% with a significant p<0.05, respectively.
翻訳日:2022-11-17 16:23:56 公開日:2022-11-16
# MDSEにおけるシステム要求処理のためのニューラルネットワークモデルとFew-Shot Learningに関する技術報告

Technical Report on Neural Language Models and Few-Shot Learning for Systematic Requirements Processing in MDSE ( http://arxiv.org/abs/2211.09084v1 )

ライセンス: Link先を確認
Vincent Bertram, Miriam Bo{\ss}, Evgeny Kusmenko, Imke Helene Nachmann, Bernhard Rumpe, Danilo Trotta, Louis Wachtmeister(参考訳) システム工学、特に自動車分野においては、開発プロセス中に発生する膨大な数の要求に対処する必要がある。 製品の品質を保証し、ISO26262などの機能安全基準を満たすためには、自動分析、整合性チェック、トレーシング機構といった形でモデル駆動システム工学のポテンシャルを活用する必要がある。 しかし、要求が書かれる言語とそれらを操作するために必要なツールは非常に個別であり、ドメイン固有の調整が必要である。 これにより、要求の自動処理やモデルへの要求のリンクが妨げられます。 既存のプロジェクトで正式な要件表記の導入は、要求の大量化とプロセスの変更を片手に翻訳することの難しさと、それに対応する要件エンジニアのトレーニングの必要性につながる。 本稿では,オープンソースの自動車要件分析に基づいて,要求のあいまいさを回避し,形式性を高めるために,ドメイン固有の言語構造を導出する。 主な貢献は、必須DSLのような構造化言語への非公式な要求の自動翻訳のために、大きな事前訓練された言語モデルによる数ショット学習の採用と評価である。 10未満の翻訳例からなるサポートセットは、キーワードを組み込んだ言語モデルを数ショットで訓練し、非公式な自然言語要求に構文ルールを実装するのに十分であることを示す。

Systems engineering, in particular in the automotive domain, needs to cope with the massively increasing numbers of requirements that arise during the development process. To guarantee a high product quality and make sure that functional safety standards such as ISO26262 are fulfilled, the exploitation of potentials of model-driven systems engineering in the form of automatic analyses, consistency checks, and tracing mechanisms is indispensable. However, the language in which requirements are written, and the tools needed to operate on them, are highly individual and require domain-specific tailoring. This hinders automated processing of requirements as well as the linking of requirements to models. Introducing formal requirement notations in existing projects leads to the challenge of translating masses of requirements and process changes on the one hand and to the necessity of the corresponding training for the requirements engineers. In this paper, based on the analysis of an open-source set of automotive requirements, we derive domain-specific language constructs helping us to avoid ambiguities in requirements and increase the level of formality. The main contribution is the adoption and evaluation of few-shot learning with large pretrained language models for the automated translation of informal requirements to structured languages such as a requirement DSL. We show that support sets of less than ten translation examples can suffice to few-shot train a language model to incorporate keywords and implement syntactic rules into informal natural language requirements.
翻訳日:2022-11-17 16:18:04 公開日:2022-11-16
# 動的治療再開のためのq関数の最小情報発散

Minimum information divergence of Q-functions for dynamic treatment resumes ( http://arxiv.org/abs/2211.08741v1 )

ライセンス: Link先を確認
Shinto Eguchi(参考訳) 本稿では,動的治療履歴に着目した強化学習への情報幾何学の新しい応用を提案する。 強化学習の標準的な枠組みでは、Q-関数は与えられた報酬の条件付き期待と単一段階の状況に対する行動として定義される。 全てのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。 情報分散のクラスは、各ステージのQ-函数空間で定義される。 主目的は,トラジェクタのデータセットに基づく最小情報発散の手法により,最適政策関数の推定子を提案することである。 特に、政策等価Q-函数間の$\gamma$-power divergenceがなくなるような有利な性質を持つことを示す$\gamma$-power divergenceについて論じる。 この性質は、Q-函数の半パラメトリックモデルの枠組みで議論される最適ポリシーを求めるために本質的に機能する。 パワーインデックス $\gamma$ の特定の選択は、値関数とq-函数の幾何学的および調和的手段の興味深い関係を与える。 数値実験により、動的処理系における最小$\gamma$-power divergence法の性能を示す。

This paper aims at presenting a new application of information geometry to reinforcement learning focusing on dynamic treatment resumes. In a standard framework of reinforcement learning, a Q-function is defined as the conditional expectation of a reward given a state and an action for a single-stage situation. We introduce an equivalence relation, called the policy equivalence, in the space of all the Q-functions. A class of information divergence is defined in the Q-function space for every stage. The main objective is to propose an estimator of the optimal policy function by a method of minimum information divergence based on a dataset of trajectories. In particular, we discuss the $\gamma$-power divergence that is shown to have an advantageous property such that the $\gamma$-power divergence between policy-equivalent Q-functions vanishes. This property essentially works to seek the optimal policy, which is discussed in a framework of a semiparametric model for the Q-function. The specific choices of power index $\gamma$ give interesting relationships of the value function, and the geometric and harmonic means of the Q-function. A numerical experiment demonstrates the performance of the minimum $\gamma$-power divergence method in the context of dynamic treatment regimes.
翻訳日:2022-11-17 16:17:42 公開日:2022-11-16
# ストリーム型関節音声認識と拡散検出

Streaming Joint Speech Recognition and Disfluency Detection ( http://arxiv.org/abs/2211.08726v1 )

ライセンス: Link先を確認
Hayato Futami, Emiru Tsunoo, Kentaro Shibata, Yosuke Kashiwagi, Takao Okuda, Siddhant Arora, Shinji Watanabe(参考訳) ディフルエンシー検出は主に、音声認識の処理後としてパイプラインアプローチで解決されている。 本研究では,ストリーミング方式で動作する音声認識と不整合検出を共同で解決するトランスコーダ・デコーダモデルを提案する。 パイプラインアプローチと比較して,不均一検出を認識エラーに頑健なものとし,非言語的手がかりを提供する音響情報を活用することができる。 さらに、ジョイントモデリングは低レイテンシと軽量な推論をもたらす。 ストリーム不流動性検出のための2つの共用モデル - 書き起こしエンリッチモデルとマルチタスクモデルについて検討した。 書き起こしエンリッチモデルは、不流動部分の開始点と終了点を示す特別なタグでテキストで訓練される。 しかし、遅延や標準言語モデルへの適応には問題がある。 本稿では,トランスフォーマーデコーダに2つの出力層を持つマルチタスクモデルを提案する。 追加のトークン依存性メカニズムで現在認識されているトークンで条件付けされるようにモデル化される。 提案したジョイントモデルは,スイッチボードと自発日本語のコーパスの両方において,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。

Disfluency detection has mainly been solved in a pipeline approach, as post-processing of speech recognition. In this study, we propose Transformer-based encoder-decoder models that jointly solve speech recognition and disfluency detection, which work in a streaming manner. Compared to pipeline approaches, the joint models can leverage acoustic information that makes disfluency detection robust to recognition errors and provide non-verbal clues. Moreover, joint modeling results in low-latency and lightweight inference. We investigate two joint model variants for streaming disfluency detection: a transcript-enriched model and a multi-task model. The transcript-enriched model is trained on text with special tags indicating the starting and ending points of the disfluent part. However, it has problems with latency and standard language model adaptation, which arise from the additional disfluency tags. We propose a multi-task model to solve such problems, which has two output layers at the Transformer decoder; one for speech recognition and the other for disfluency detection. It is modeled to be conditioned on the currently recognized token with an additional token-dependency mechanism. We show that the proposed joint models outperformed a BERT-based pipeline approach in both accuracy and latency, on both the Switchboard and the corpus of spontaneous Japanese.
翻訳日:2022-11-17 16:17:25 公開日:2022-11-16
# congruent image-report generation を用いた医用画像解析のための循環生成型逆ネットワーク

Cyclic Generative Adversarial Networks With Congruent Image-Report Generation For Explainable Medical Image Analysis ( http://arxiv.org/abs/2211.08424v1 )

ライセンス: Link先を確認
Dwarikanath Mahapatra(参考訳) 医用画像の説明可能なラベリングと解釈のための新しい枠組みを提案する。 医用画像は解釈のために専門の専門家を必要とし、精巧なテキストによる報告によって(典型的には)説明される。 画像やリバーサから医用レポートを生成する従来の方法とは違って、循環生成逆数ネットワーク(cycleGAN)を用いたコングロレントな画像レポートペアを新たに生成し、医用イメージを適切に説明し、そのテキストを視覚的に効果的に特徴付けるレポート生成画像は、元のものと類似する(十分)。 胸部x線画像の出力を診断するモデルの出力に対して、診断判断を支援する同様の症例を人間ユーザーに指さして、信頼性が高く忠実な説明を行うことが目的である。 透明な医用画像ラベリングと解釈を可能にすることとは別に,インディアナ胸部x線データを用いた実験で証明されたように,先行手法に匹敵する報告と画像に基づくラベリングを実現する。

We present a novel framework for explainable labeling and interpretation of medical images. Medical images require specialized professionals for interpretation, and are explained (typically) via elaborate textual reports. Different from prior methods that focus on medical report generation from images or vice-versa, we novelly generate congruent image--report pairs employing a cyclic-Generative Adversarial Network (cycleGAN); thereby, the generated report will adequately explain a medical image, while a report-generated image that effectively characterizes the text visually should (sufficiently) resemble the original. The aim of the work is to generate trustworthy and faithful explanations for the outputs of a model diagnosing chest x-ray images by pointing a human user to similar cases in support of a diagnostic decision. Apart from enabling transparent medical image labeling and interpretation, we achieve report and image-based labeling comparable to prior methods, including state-of-the-art performance in some cases as evidenced by experiments on the Indiana Chest X-ray dataset
翻訳日:2022-11-17 16:16:45 公開日:2022-11-16
# マルチディフカメラシステムを用いたスキャンされた動物の意味的キーポイント抽出

Semantic keypoint extraction for scanned animals using multi-depth-camera systems ( http://arxiv.org/abs/2211.08634v1 )

ライセンス: Link先を確認
Raphael Falque and Teresa Vidal-Calleja and Alen Alempijevic(参考訳) ポイントクラウドにおけるキーポイントアノテーションは、3D再構成、オブジェクト追跡、アライメント、特に変形可能なシーンや移動シーンにおいて重要なタスクである。 農業ロボティクスの文脈では、家畜の自動化が条件評価や行動認識に向けて働くことが重要な課題である。 本研究では,キーポイント抽出を,キーポイントと他のポイントクラウドの距離の回帰問題として再検討することで,ポイントクラウドにおける意味的キーポイントアノテーションの新たなアプローチを提案する。 我々は、放射基底関数(RBF)に写像された点雲多様体上の距離を使い、エンコーダ・デコーダアーキテクチャを用いて学習する。 外部キャリブレーションとカメラフレームのドロップアウトによるノイズを考慮したマルチディフカメラシステムに特化したデータ拡張について,特に考察した。 さらに,動物点雲に適用可能な計算効率の高い非剛性変形法について検討した。 本手法は,複数のハードウェア同期rgb-dカメラのキャリブレーションシステムを用いて,現場で収集したデータを用いて実験を行った。

Keypoint annotation in point clouds is an important task for 3D reconstruction, object tracking and alignment, in particular in deformable or moving scenes. In the context of agriculture robotics, it is a critical task for livestock automation to work toward condition assessment or behaviour recognition. In this work, we propose a novel approach for semantic keypoint annotation in point clouds, by reformulating the keypoint extraction as a regression problem of the distance between the keypoints and the rest of the point cloud. We use the distance on the point cloud manifold mapped into a radial basis function (RBF), which is then learned using an encoder-decoder architecture. Special consideration is given to the data augmentation specific to multi-depth-camera systems by considering noise over the extrinsic calibration and camera frame dropout. Additionally, we investigate computationally efficient non-rigid deformation methods that can be applied to animal point clouds. Our method is tested on data collected in the field, on moving beef cattle, with a calibrated system of multiple hardware-synchronised RGB-D cameras.
翻訳日:2022-11-17 16:15:27 公開日:2022-11-16
# 連続した飛行時間ビデオ深度超解像

Consistent Direct Time-of-Flight Video Depth Super-Resolution ( http://arxiv.org/abs/2211.08658v1 )

ライセンス: Link先を確認
Zhanghao Sun, Wei Ye, Jinhui Xiong, Gyeongmin Choe, Jialiang Wang, Shuochen Su, Rakesh Ranjan(参考訳) 飛行時間(dToF)センサーは、次世代のオンデバイス3Dセンシングを約束している。 しかし、コンパクトモジュールにおける十分な信号対雑音比(SNR)を達成するために、dToFデータは空間分解能が限られている(例えば、iPhone dToFでは20x30)。 本稿では,低分解能dToFデータを対応する高分解能RGBガイダンスで融合することにより,この超分解能問題を解決する。 フレーム単位の融合を行う従来のRGB誘導深度向上手法とは異なり,低分解能dToFイメージングによる空間的曖昧性を緩和する最初の多フレーム融合方式を提案する。 さらに、dToFセンサは各局所パッチに対して独自の深度ヒストグラム情報を提供し、このdToF固有の特徴をネットワーク設計に組み込んで空間的曖昧さを緩和する。 複雑な動的屋内環境におけるモデルの評価と大規模dToFセンサデータセットの提供を目的として,動的オブジェクトを特徴とする最初の合成RGB-dToFビデオデータセットであるDyDToFと,物理画像処理による現実的なdToFシミュレータを紹介する。 dToF深度センシングがモバイルデバイスで主流になりつつあるため、この方法とデータセットは幅広いコミュニティにとって有益であると考えています。

Direct time-of-flight (dToF) sensors are promising for next-generation on-device 3D sensing. However, to achieve the sufficient signal-to-noise-ratio (SNR) in a compact module, the dToF data has limited spatial resolution (e.g., ~20x30 for iPhone dToF), and it requires a super-resolution step before being passed to downstream tasks. In this paper, we solve this super-resolution problem by fusing the low-resolution dToF data with the corresponding high-resolution RGB guidance. Unlike the conventional RGB-guided depth enhancement approaches which perform the fusion in a per-frame manner, we propose the first multi-frame fusion scheme to mitigate the spatial ambiguity resulting from the low-resolution dToF imaging. In addition, dToF sensors provide unique depth histogram information for each local patch, and we incorporate this dToF-specific feature in our network design to further alleviate spatial ambiguity. To evaluate our models on complex dynamic indoor environments and to provide a large-scale dToF sensor dataset, we introduce DyDToF, the first synthetic RGB-dToF video dataset that features dynamic objects and a realistic dToF simulator following the physical imaging process. We believe the methods and dataset are beneficial to a broad community as dToF depth sensing is becoming mainstream on mobile devices.
翻訳日:2022-11-17 16:14:59 公開日:2022-11-16
# 関連ルールを用いたレコメンダシステムの高速化

Speeding Up Recommender Systems Using Association Rules ( http://arxiv.org/abs/2211.08799v1 )

ライセンス: Link先を確認
Eyad Kannout, Hung Son Nguyen, Marek Grzegorowski(参考訳) リコメンダーシステムは人工知能の最も急速に成長している分野の1つである。 より効率的なレコメンデーション作成技術を求める声が緊急となる。 しかし、生成とユーザへの表示が遅れている場合、多くの推奨事項は役に立たない。 したがって,精度に影響を与えることなく,レコメンデーションシステムの高速化に注目する。 本稿では,因子化機械と関連ルール(fmar)に基づく新しいレコメンダシステムを提案する。 2つのアルゴリズムを用いて関連ルールを生成する手法を提案する。 (i)プリオリ、及び (ii)頻繁なパターン(fp)の成長。 これらのアソシエーションルールは、因子化マシンレコメンデーションモデルに渡されるアイテムの数を減らすために利用される。 FMARは,レコメンデーションシステムが予測しなければならない新項目数を著しく削減し,レコメンデーション作成に必要な時間を短縮した。 一方,fmarツールの構築においては,予測時間と生成レコメンデーションの精度のバランスを取ることに注力し,関連ルールを伴わない因子化機械の精度と比較して精度が著しく影響しないことを確認した。

Recommender systems are considered one of the most rapidly growing branches of Artificial Intelligence. The demand for finding more efficient techniques to generate recommendations becomes urgent. However, many recommendations become useless if there is a delay in generating and showing them to the user. Therefore, we focus on improving the speed of recommendation systems without impacting the accuracy. In this paper, we suggest a novel recommender system based on Factorization Machines and Association Rules (FMAR). We introduce an approach to generate association rules using two algorithms: (i) apriori and (ii) frequent pattern (FP) growth. These association rules will be utilized to reduce the number of items passed to the factorization machines recommendation model. We show that FMAR has significantly decreased the number of new items that the recommender system has to predict and hence, decreased the required time for generating the recommendations. On the other hand, while building the FMAR tool, we concentrate on making a balance between prediction time and accuracy of generated recommendations to ensure that the accuracy is not significantly impacted compared to the accuracy of using factorization machines without association rules.
翻訳日:2022-11-17 16:09:17 公開日:2022-11-16
# 対訳 対訳 コントラスト フェデレーション セミスーパービジョン ラーニング

Dual Class-Aware Contrastive Federated Semi-Supervised Learning ( http://arxiv.org/abs/2211.08914v1 )

ライセンス: Link先を確認
Qi Guo, Yong Qi, Saiyu Qi, Di Wu(参考訳) フェデレートされた半教師付き学習(FSSL)は、ラベル付きクライアントとラベルなしクライアントが、プライベートデータを共有せずにグローバルモデルを共同でトレーニングすることを促進する。 既存のFSSLメソッドは主に、未ラベルデータの知識を活用するために、擬似ラベル付けと一貫性の規則化に重点を置いている。 しかし、これらのトレーニング手順は、ラベル付きクライアントとラベル付きクライアントのローカルモデルと、ノイズの多い擬似ラベルによって引き起こされる確認バイアスから大きく逸脱し、グローバルモデルのパフォーマンスを著しく損なう。 本稿では,各クライアントのデータの局所的なクラス認識分布と,全クライアントのデータのグローバルなクラス認識分布を特徴空間内で同時に検討する,Dual Class-aware Contrastive Federated Semi-Supervised Learning (DCCFSSL) という新しいFSSL手法を提案する。 デュアルクラス対応のコントラストモジュールを導入することで、DCCFSSLは、さまざまなクライアントのための共通のトレーニング目標を構築し、大きな偏差を低減し、特徴空間にコントラスト情報を導入して、確認バイアスを軽減する。 一方、dccfsslは、サーバのアグリゲーションの堅牢性を高めるために、認証強調アグリゲーション方式を提供する。 大規模な実験では、DCCFSSLは3つのベンチマークデータセットで最先端のメソッドを上回るだけでなく、CIFAR-10とCIFAR-100データセットでラベル付けされていないクライアントでFedAvgを上回っている。 我々の知る限りでは、すべてのクライアントのラベル付きクライアントの10%しか利用していないFSSLメソッドを初めて提示し、ラベル付きデータを持つすべてのクライアントを使用する標準のフェデレーション付き教師付き学習よりも優れたパフォーマンスを実現する。

Federated semi-supervised learning (FSSL), facilitates labeled clients and unlabeled clients jointly training a global model without sharing private data. Existing FSSL methods mostly focus on pseudo-labeling and consistency regularization to leverage the knowledge of unlabeled data, which have achieved substantial success on raw data utilization. However, their training procedures suffer from the large deviation from local models of labeled clients and unlabeled clients and the confirmation bias induced by noisy pseudo labels, which seriously damage the performance of the global model. In this paper, we propose a novel FSSL method, named Dual Class-aware Contrastive Federated Semi-Supervised Learning (DCCFSSL), which considers the local class-aware distribution of individual client's data and the global class-aware distribution of all clients' data simultaneously in the feature space. By introducing a dual class-aware contrastive module, DCCFSSL builds a common training goal for different clients to reduce the large deviation and introduces contrastive information in the feature space to alleviate the confirmation bias. Meanwhile, DCCFSSL presents an authentication-reweighted aggregation method to enhance the robustness of the server's aggregation. Extensive experiments demonstrate that DCCFSSL not only outperforms state-of-the-art methods on three benchmarked datasets, but also surpasses the FedAvg with relabeled unlabeled clients on CIFAR-10 and CIFAR-100 datasets. To our best knowledge, we are the first to present the FSSL method that utilizes only 10\% labeled clients of all clients to achieve better performance than the standard federated supervised learning that uses all clients with labeled data.
翻訳日:2022-11-17 16:08:58 公開日:2022-11-16
# FMRI解析のためのグラフニューラルネットワークのベンチマーク

Benchmarking Graph Neural Networks for FMRI analysis ( http://arxiv.org/abs/2211.08927v1 )

ライセンス: Link先を確認
Ahmed ElGazzar, Rajat Thomas, Guido van Wingen(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場した。 そのようなデータの最も重要な例は、ニューロンのマイクロスケールから、領域のマクロスケールまで、ネットワークとして動作する脳である。 この組織は、GNNが脳活動をモデル化するための自然なツールであるとみなし、その結果、神経画像のコミュニティで多くの注目を集めた。 しかし、従来の手法よりもこれらのモデルを採用する利点は、GNNが基礎となるデータ構造を利用して学習を改善することができるかどうかを体系的に評価する上ではまだ評価されていない。 本研究では,大うつ病と自閉症スペクトラム障害を2つの多施設の臨床データセットで診断する5つの一般的なgnnアーキテクチャの性能と,機能的脳スキャンを用いたukbiobankの性分類について検討・評価した。 その結果、GNNはカーネルベースおよび構造に依存しないディープラーニングモデルよりも優れず、1D CNNは全てのシナリオにおいて他の手法よりも優れていることがわかった。 機能的脳データのための最適なグラフ構造を作成することは、GNNの性能を妨げる主要なボトルネックであり、既存の研究では任意の測度を用いてノイズの多いグラフを生成する。 そこで我々は,グラフ拡散を既存アーキテクチャに統合し,この問題を緩和し,その性能を向上させることを提案する。 本稿では,グラフ法を評価する際のモデレーションと厳密な検証を求め,機能的神経画像アプリケーションのためのgnnの開発において,よりデータ中心的なアプローチを提唱する。

Graph Neural Networks (GNNs) have emerged as a powerful tool to learn from graph-structured data. A paramount example of such data is the brain, which operates as a network, from the micro-scale of neurons, to the macro-scale of regions. This organization deemed GNNs a natural tool of choice to model brain activity, and have consequently attracted a lot of attention in the neuroimaging community. Yet, the advantage of adopting these models over conventional methods has not yet been assessed in a systematic way to gauge if GNNs are capable of leveraging the underlying structure of the data to improve learning. In this work, we study and evaluate the performance of five popular GNN architectures in diagnosing major depression disorder and autism spectrum disorder in two multi-site clinical datasets, and sex classification on the UKBioBank, from functional brain scans under a general uniform framework. Our results show that GNNs fail to outperform kernel-based and structure-agnostic deep learning models, in which 1D CNNs outperform the other methods in all scenarios. We highlight that creating optimal graph structures for functional brain data is a major bottleneck hindering the performance of GNNs, where existing works use arbitrary measures to define the edges resulting in noisy graphs. We therefore propose to integrate graph diffusion into existing architectures and show that it can alleviate this problem and improve their performance. Our results call for increased moderation and rigorous validation when evaluating graph methods and advocate for more data-centeric approaches in developing GNNs for functional neuroimaging applications.
翻訳日:2022-11-17 16:08:26 公開日:2022-11-16
# 動的線形バンディット

Dynamical Linear Bandits ( http://arxiv.org/abs/2211.08997v1 )

ライセンス: Link先を確認
Marco Mussi, Alberto Maria Metelli and Marcello Restelli(参考訳) 多くの実世界のシーケンシャルな意思決定問題において、アクションはすぐにフィードバックを反映せず、その効果を長い時間枠で広げる。 例えば、オンライン広告では、プラットフォームへの投資は認知度を高めるが、実際の報酬、すなわち変換は将来的にははるかに起こるかもしれない。 さらに、変換が行われるかどうかは、認知度がどの程度速くなり、その消失効果、他の広告プラットフォームとのシナジーや干渉などに依存する。 前回の研究では、アクションが将来どのように伝播するかという特定の構造がなく、動的効果を無視して、遅延フィードバックと集約フィードバックの可能性を伴って、マルチアームのバンディットフレームワークを調査した。 本稿では,隠れ状態に特徴付けられる線形帯域の拡張である動的線形帯域(DLB)について紹介する。 アクションが実行されると、学習者は、平均が隠れた状態と動作の線形関数であるうるさい報酬を観察する。 そして、隠れた状態は線形ダイナミクスに従って進化し、実行されたアクションにも影響される。 まず、設定を導入し、最適政策の概念を議論し、期待された後悔の限界を導出することから始める。 そこで我々は, 線形動力学的進化の性質に一定の依存度cが作用ベクトルの次元 d が期待される順序 O(c d sqrt(T)) の後悔を被る, 任意の時間的楽観的最小化アルゴリズム, Dynamical Linear Upper Confidence Bound (DynLin-UCB) を提案する。 最後に,DynLin-UCBの有効性を示すために,合成環境と実世界のデータを用いた数値検証を行った。

In many real-world sequential decision-making problems, an action does not immediately reflect on the feedback and spreads its effects over a long time frame. For instance, in online advertising, investing in a platform produces an increase of awareness, but the actual reward, i.e., a conversion, might occur far in the future. Furthermore, whether a conversion takes place depends on: how fast the awareness grows, its vanishing effects, and the synergy or interference with other advertising platforms. Previous work has investigated the Multi-Armed Bandit framework with the possibility of delayed and aggregated feedback, without a particular structure on how an action propagates in the future, disregarding possible dynamical effects. In this paper, we introduce a novel setting, the Dynamical Linear Bandits (DLB), an extension of the linear bandits characterized by a hidden state. When an action is performed, the learner observes a noisy reward whose mean is a linear function of the hidden state and of the action. Then, the hidden state evolves according to a linear dynamics, affected by the performed action too. We start by introducing the setting, discussing the notion of optimal policy, and deriving an expected regret lower bound. Then, we provide an any-time optimistic regret minimization algorithm, Dynamical Linear Upper Confidence Bound (DynLin-UCB), that suffers an expected regret of order O(c d sqrt(T)), where c is a constant dependent on the properties of the linear dynamical evolution, and d is the dimension of the action vector. Finally, we conduct a numerical validation on a synthetic environment and on real-world data to show the effectiveness of DynLin-UCB in comparison with several baselines.
翻訳日:2022-11-17 16:08:01 公開日:2022-11-16
# 人間の行動のマルチタイムモデリング

Multi-Timescale Modeling of Human Behavior ( http://arxiv.org/abs/2211.09001v1 )

ライセンス: Link先を確認
Chinmai Basavaraj, Adarsh Pyarelal, Evan Carter(参考訳) 近年、人工知能(ai)エージェントの役割は、ベーシックなツールから、人間と一緒に働く社会的にインテリジェントなエージェントへと進化している。 このようなシナリオでは、人間のチームメイトの過去の行動を観察することで将来の行動を予測できる能力がAIエージェントで非常に望ましい。 目標指向の人間の行動は複雑で階層的で、複数の時間スケールで展開されます。 このような観察にもかかわらず、そのような振る舞いをモデル化するためにマルチタイムな機能を使うことには比較的注意が払われていない。 本稿では,行動情報を複数の時間スケールで処理し,将来の行動を予測するLSTMネットワークアーキテクチャを提案する。 複数の時間スケールでの振る舞いをモデル化する手法は、複数の時間スケールでの振る舞いをモデル化しない手法と比較して、将来の行動予測を大幅に改善することを示す。 仮想マインクラフトベースのテストベッドでシミュレートされた都市探索救難シナリオで収集されたデータに関するアーキテクチャを評価し,その性能を複数の有効なベースラインと,複数のタイムスケールで入力を処理しない他の手法と比較する。

In recent years, the role of artificially intelligent (AI) agents has evolved from being basic tools to socially intelligent agents working alongside humans towards common goals. In such scenarios, the ability to predict future behavior by observing past actions of their human teammates is highly desirable in an AI agent. Goal-oriented human behavior is complex, hierarchical, and unfolds across multiple timescales. Despite this observation, relatively little attention has been paid towards using multi-timescale features to model such behavior. In this paper, we propose an LSTM network architecture that processes behavioral information at multiple timescales to predict future behavior. We demonstrate that our approach for modeling behavior in multiple timescales substantially improves prediction of future behavior compared to methods that do not model behavior at multiple timescales. We evaluate our architecture on data collected in an urban search and rescue scenario simulated in a virtual Minecraft-based testbed, and compare its performance to that of a number of valid baselines as well as other methods that do not process inputs at multiple timescales.
翻訳日:2022-11-17 16:07:29 公開日:2022-11-16
# マイクロドロップレットのスクイーズフロー:調音性および調音性を有する畳み込みニューラルネットワーク

Squeeze flow of micro-droplets: convolutional neural network with trainable and tunable refinement ( http://arxiv.org/abs/2211.09061v1 )

ライセンス: Link先を確認
Aryan Mehboudi, Shrawan Singhal, S.V. Sreenivasan(参考訳) 本稿では,マイクロドロップレットのスクイーズフローの文脈で画像から画像への変換問題を解決するために,ニューラルネットワークに基づくプラットフォームを提案する。 本論文の前半では,問題の基礎となる物理を定式化するための偏微分方程式について述べる。 また、開発したpythonパッケージであるsqflowについても論じた。これは機械学習やコンピュータビジョンの分野で、フリーでフレキシブルでスケーラブルな標準ベンチマークとして機能する可能性がある。 本論文の第2部では、高分解能(hr)インプリント画像を特定の液膜厚で変換し、所定のインプリント画像を適切な液滴の拡散時間に生成可能な低分解能(lr)液滴パターン画像に変換することで、対応する逆問題を解くために、残畳み込みニューラルネットワークを導入する。 本稿では,所定の入力パラメータ(膜厚)を適切な精細度指標にマッピングするように訓練された関数近似器を用いて,残差畳み込みブロックの精細度を体系的に調整するニューラルネットワークアーキテクチャを提案する。 我々は、直接接続された関数近似器によって提供される洗練されたレベルインジケータに従って出力される複数の畳み込み層を用いる。 翻訳機構は、非線形活性化機能とともに、ターゲットLRドロップレットパターン画像が明らかにされるまで、HRインプリント画像を複数のステップで順次洗練することができる。 提案されたプラットフォームは、データ圧縮とデータ暗号化に応用できる可能性がある。 開発されたパッケージとデータセットは、githubのhttps://github.com/sqflow/sqflowで公開されている。

We propose a platform based on neural networks to solve the image-to-image translation problem in the context of squeeze flow of micro-droplets. In the first part of this paper, we present the governing partial differential equations to lay out the underlying physics of the problem. We also discuss our developed Python package, sqflow, which can potentially serve as free, flexible, and scalable standardized benchmarks in the fields of machine learning and computer vision. In the second part of this paper, we introduce a residual convolutional neural network to solve the corresponding inverse problem: to translate a high-resolution (HR) imprint image with a specific liquid film thickness to a low-resolution (LR) droplet pattern image capable of producing the given imprint image for an appropriate spread time of droplets. We propose a neural network architecture that learns to systematically tune the refinement level of its residual convolutional blocks by using the function approximators that are trained to map a given input parameter (film thickness) to an appropriate refinement level indicator. We use multiple stacks of convolutional layers the output of which is translated according to the refinement level indicators provided by the directly-connected function approximators. Together with a non-linear activation function, such a translation mechanism enables the HR imprint image to be refined sequentially in multiple steps until the target LR droplet pattern image is revealed. The proposed platform can be potentially applied to data compression and data encryption. The developed package and datasets are publicly available on GitHub at https://github.com/sqflow/sqflow.
翻訳日:2022-11-17 16:07:13 公開日:2022-11-16
# ロバストかつ効率的なML駆動型分子生成のための分子指紋

Molecular Fingerprints for Robust and Efficient ML-Driven Molecular Generation ( http://arxiv.org/abs/2211.09086v1 )

ライセンス: Link先を確認
Ruslan N. Tazhigulov, Joshua Schiller, Jacob Oppenheim, Max Winston(参考訳) そこで本研究では,分子生成に応用した分子指紋を用いた可変オートエンコーダを提案する。 我々は、より適切な薬局関連基準指標とテストを定義し、多様で薬物のような、新しい分子と足場の生成に焦点を当てた。 これらの分子生成メトリクスを新しいモデルに適用すると、既存のSMILESアーキテクチャと比較して化学合成アクセシビリティ(\Delta\bar{{SAS}}$ = -0.83)と計算効率は5.9倍に向上する。

We propose a novel molecular fingerprint-based variational autoencoder applied for molecular generation on real-world drug molecules. We define more suitable and pharma-relevant baseline metrics and tests, focusing on the generation of diverse, drug-like, novel small molecules and scaffolds. When we apply these molecular generation metrics to our novel model, we observe a substantial improvement in chemical synthetic accessibility ($\Delta\bar{{SAS}}$ = -0.83) and in computational efficiency up to 5.9x in comparison to an existing state-of-the-art SMILES-based architecture.
翻訳日:2022-11-17 16:06:52 公開日:2022-11-16
# パラメトリック関数近似による大域的最適化

Global Optimization with Parametric Function Approximation ( http://arxiv.org/abs/2211.09100v1 )

ライセンス: Link先を確認
Chong Liu, Yu-Xiang Wang(参考訳) 我々は,高パラメータチューニングやディープラーニング,新しい材料設計など,さまざまな応用に有用な,ノイズの多いゼロ次オラクルによる大域的最適化の問題を考察する。 既存の研究は、次元の呪いに苦しむガウス過程や他の非パラメトリック族に依存している。 本稿では,パラメトリックな関数群(例えばニューラルネットワーク)を利用する新しいアルゴリズムGO-UCBを提案する。 実現可能な仮定と他の幾何の穏やかな条件の下で、go-ucb は$t$ が時間軸である$\tilde{o}(\sqrt{t})$ の累積的後悔を達成する。 GO-UCBの中核は、楽観的な探索を可能にする勾配に基づくパラメータに関する慎重に設計された不確実性セットである。 数値シミュレーションにより、GO-UCBは、たとえモデルが不特定であっても、高次元の場合において古典的ベイズ最適化アプローチよりもうまく機能することを示した。

We consider the problem of global optimization with noisy zeroth order oracles - a well-motivated problem useful for various applications ranging from hyper-parameter tuning for deep learning to new material design. Existing work relies on Gaussian processes or other non-parametric family, which suffers from the curse of dimensionality. In this paper, we propose a new algorithm GO-UCB that leverages a parametric family of functions (e.g., neural networks) instead. Under a realizable assumption and a few other mild geometric conditions, we show that GO-UCB achieves a cumulative regret of $\tilde{O}(\sqrt{T})$ where $T$ is the time horizon. At the core of GO-UCB is a carefully designed uncertainty set over parameters based on gradients that allows optimistic exploration. Numerical simulation illustrates that GO-UCB works better than classical Bayesian optimization approaches in high dimensional cases, even if the model is misspecified.
翻訳日:2022-11-17 16:06:40 公開日:2022-11-16
# 構造化室内環境におけるロボットナビゲーションの高度化

Advanced Situational Graphs for Robot Navigation in Structured Indoor Environments ( http://arxiv.org/abs/2211.08754v1 )

ライセンス: Link先を確認
Hriday Bavle, Jose Luis Sanchez-Lopez, Muhammad Shaheer, Javier Civera, Holger Voos(参考訳) 移動ロボットは環境から情報を抽出して現状を理解し、インテリジェントな意思決定と自律的なタスク実行を可能にする。 これまでの研究では,1つの最適化可能なグラフ,ロボットキーフレーム,環境表現と幾何学的,意味的,トポロジカルな抽象化を組み合わせた状況グラフ(s-graphs)の概念を導入しました。 Sグラフはリアルタイムに構築、最適化され、最先端の結果が示されたが、部屋や廊下の特定の手動寸法の特定の構造化された環境に限定されている。 本研究では,(1)自由空間クラスタのグラフに沿った計量層を含む5層最適化グラフからなる状況グラフ(s-graphs+)の高度版(s-graphs+)を提案する。(2)ロボットの足跡を登録するキーフレーム層(3)抽出された平面壁からなる計量意味層(4)抽出された平面壁を制約する新しいルーム層(5)所定のフロアレベル内の部屋を包含する新しいフロア層について述べる。 S-Graphs+は、ロボットのポーズ推定を改善しながら、効率よく部屋情報を抽出するS-Graphsよりも優れた性能を示し、5層環境モデルでロボットの状況認識を拡大する。

Mobile robots extract information from its environment to understand their current situation to enable intelligent decision making and autonomous task execution. In our previous work, we introduced the concept of Situation Graphs (S-Graphs) which combines in a single optimizable graph, the robot keyframes and the representation of the environment with geometric, semantic and topological abstractions. Although S-Graphs were built and optimized in real-time and demonstrated state-of-the-art results, they are limited to specific structured environments with specific hand-tuned dimensions of rooms and corridors. In this work, we present an advanced version of the Situational Graphs (S-Graphs+), consisting of the five layered optimizable graph that includes (1) metric layer along with the graph of free-space clusters (2) keyframe layer where the robot poses are registered (3) metric-semantic layer consisting of the extracted planar walls (4) novel rooms layer constraining the extracted planar walls (5) novel floors layer encompassing the rooms within a given floor level. S-Graphs+ demonstrates improved performance over S-Graphs efficiently extracting the room information while simultaneously improving the pose estimate of the robot, thus extending the robots situational awareness in the form of a five layered environmental model.
翻訳日:2022-11-17 16:06:06 公開日:2022-11-16
# RetroMAE v2: 事前学習型検索指向言語モデルのための複写型自動エンコーダ

RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models ( http://arxiv.org/abs/2211.08769v1 )

ライセンス: Link先を確認
Shitao Xiao, Zheng Liu(参考訳) Web検索や質問応答などの検索アプリケーションを支援するために,検索指向言語モデルの開発に力を入れている。 既存の作業の多くは、[CLS]トークンのコンテキスト化埋め込みにおける意味表現機能の改善に焦点を当てています。 しかし、最近の研究では、[cls]以外の通常のトークンは追加の情報を提供する可能性があり、より良い表現効果を生み出すのに役立つ。 そのため、コンテクスト化された埋め込みを検索タスクのために共同で事前学習できる現在のメソッドを拡張する必要がある。 そこで本研究では, [cls] と通常のトークンのコンテクスト化埋め込みにおける意味表現能力の向上を目的とした, duplex masked auto-encoder, a.k.a. dupmae という新しい事前学習手法を提案する。 1つは [CLS] 埋め込みに基づいて元の入力文を再構築すること、もう1つは通常のトークンの埋め込み全体に基づいて入力文のbacker-of-words loss (BoW) を最小限にすることである。 2つの復号損失を加算して統一符号化モデルを訓練する。 cls] と通常のトークンからの埋め込みは、次元の縮小と集約の後、入力に対する統一的な意味表現として結合される。 DupMAEは単純だが経験的競争力があり、デコードコストが小さく、MS MARCOとBEIRベンチマークで顕著な改善が達成されるモデル表現能力と転送性に大きく貢献する。

To better support retrieval applications such as web search and question answering, growing effort is made to develop retrieval-oriented language models. Most of the existing works focus on improving the semantic representation capability for the contextualized embedding of [CLS] token. However, recent study shows that the ordinary tokens besides [CLS] may provide extra information, which helps to produce a better representation effect. As such, it's necessary to extend the current methods where all contextualized embeddings can be jointly pre-trained for the retrieval tasks. With this motivation, we propose a new pre-training method: duplex masked auto-encoder, a.k.a. DupMAE, which targets on improving the semantic representation capacity for the contextualized embeddings of both [CLS] and ordinary tokens. It introduces two decoding tasks: one is to reconstruct the original input sentence based on the [CLS] embedding, the other one is to minimize the bag-of-words loss (BoW) about the input sentence based on the entire ordinary tokens' embeddings. The two decoding losses are added up to train a unified encoding model. The embeddings from [CLS] and ordinary tokens, after dimension reduction and aggregation, are concatenated as one unified semantic representation for the input. DupMAE is simple but empirically competitive: with a small decoding cost, it substantially contributes to the model's representation capability and transferability, where remarkable improvements are achieved on MS MARCO and BEIR benchmarks.
翻訳日:2022-11-17 16:00:14 公開日:2022-11-16
# 自己教師型音声表現を用いたL2習熟度評価

L2 proficiency assessment using self-supervised speech representations ( http://arxiv.org/abs/2211.08849v1 )

ライセンス: Link先を確認
Stefano Bann\`o, Kate M. Knill, Marco Matassoni, Vyas Raina, Mark J. F. Gales(参考訳) 近年,音声自動評価システムに対する需要が高まっている。 このプロセスの標準的なパイプラインは、音声認識システムから始まり、手書きまたはディープラーニングに基づく、書き起こしとオーディオを利用する特徴を導出することである。 これらのアプローチは高性能システムをもたらす可能性があるが、l2スピーカーに使用できる音声認識システムが必要であり、好ましくはデプロイされるテストの特定の形態に合わせて調整される。 近年,音声認識不要な自己教師あり音声表現方式が提案されている。 この研究は、このアプローチで行った初期分析を、複数の部分からなる大規模熟練度テスト(linguaskill)に拡張し、それぞれが候補の発話能力の異なる特性を評価するように設計されている。 自己教師型wav2vec 2.0システムの性能は、高パフォーマンスの手作り評価システムとBERTベースのテキストシステムと比較される。 wav2vec 2.0ベースのシステムは応答の性質に敏感であることが判明しているが、音声転写を必要とするシステムと同等の性能を得られるように構成することができ、標準アプローチと適切に組み合わせると得られる。

There has been a growing demand for automated spoken language assessment systems in recent years. A standard pipeline for this process is to start with a speech recognition system and derive features, either hand-crafted or based on deep-learning, that exploit the transcription and audio. Though these approaches can yield high performance systems, they require speech recognition systems that can be used for L2 speakers, and preferably tuned to the specific form of test being deployed. Recently a self-supervised speech representation based scheme, requiring no speech recognition, was proposed. This work extends the initial analysis conducted on this approach to a large scale proficiency test, Linguaskill, that comprises multiple parts, each designed to assess different attributes of a candidate's speaking proficiency. The performance of the self-supervised, wav2vec 2.0, system is compared to a high performance hand-crafted assessment system and a BERT-based text system both of which use speech transcriptions. Though the wav2vec 2.0 based system is found to be sensitive to the nature of the response, it can be configured to yield comparable performance to systems requiring a speech transcription, and yields gains when appropriately combined with standard approaches.
翻訳日:2022-11-17 15:59:47 公開日:2022-11-16
# 深部自己回帰回帰

Deep Autoregressive Regression ( http://arxiv.org/abs/2211.07447v2 )

ライセンス: Link先を確認
Adam Khakhar, Jacob Buckman(参考訳) 本研究では,平均二乗誤差損失を用いた回帰の大幅な制限が,目標のスケールに対する感度であることを示す。 これにより、異なるスケールのターゲットを持つ複数のサブタスクからなる学習設定が困難になり、アルゴリズムがタスク固有の学習レートチューニングを必要とする。 最近提案されたヒストグラム損失関数は、この問題を回避している。 しかし、計算コストはヒストグラム内のバケットの数とともに直線的に増加し、実際の値のターゲットで予測できる。 この問題に対処するために,自己回帰的目標分解を利用して高忠実度分布を学習する自己回帰的目標に基づくディープラーニングモデルの学習手法を提案する。 このトレーニングの目的は、異なるスケールの複数のターゲットを含む回帰タスクを解決できることを実証する。

In this work, we demonstrate that a major limitation of regression using a mean-squared error loss is its sensitivity to the scale of its targets. This makes learning settings consisting of several subtasks with differently-scaled targets challenging, and causes algorithms to require task-specific learning rate tuning. A recently-proposed alternative loss function, known as histogram loss, avoids this issue. However, its computational cost grows linearly with the number of buckets in the histogram, which renders prediction with real-valued targets intractable. To address this issue, we propose a novel approach to training deep learning models on real-valued regression targets, autoregressive regression, which learns a high-fidelity distribution by utilizing an autoregressive target decomposition. We demonstrate that this training objective allows us to solve regression tasks involving multiple targets with different scales.
翻訳日:2022-11-17 15:59:27 公開日:2022-11-16
# 変動誘導型)政策グラディエントおよび自然政策グラディエント手法の改良分析

An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods ( http://arxiv.org/abs/2211.07937v2 )

ライセンス: Link先を確認
Yanli Liu, Kaiqing Zhang, Tamer Ba\c{s}ar and Wotao Yin(参考訳) 本稿では,一般的なスムーズな政策パラメトリゼーションの下で,政策勾配(PG)法,自然PG(NPG)法,およびそれらの分散還元変種の再検討と改善を行う。 より具体的には、政策のフィッシャー情報マトリックスが肯定的である。 一 定常点に収束することしか証明されていない最先端の分散分散還元pg法が、ポリシーのパラメトリゼーションによるいくつかの固有関数近似誤差までグローバルに最適値に収束することを示す。 二) NPGがより低いサンプル複雑性を享受していること。 三 分散還元をNPG更新に組み込んだSRVR-NPGを提案する。 PGの定常収束解析はNPGにも適用可能であり,NPGのグローバル収束解析は(分散還元)PG法のグローバル収束を確立するのに有効である。 この2つの作品の利点を慎重に分析する。 この改良により、グローバル収束と効率的な有限サンプル複雑性の両面から、NPGの分散還元が可能になった。

In this paper, we revisit and improve the convergence of policy gradient (PG), natural PG (NPG) methods, and their variance-reduced variants, under general smooth policy parametrizations. More specifically, with the Fisher information matrix of the policy being positive definite: i) we show that a state-of-the-art variance-reduced PG method, which has only been shown to converge to stationary points, converges to the globally optimal value up to some inherent function approximation error due to policy parametrization; ii) we show that NPG enjoys a lower sample complexity; iii) we propose SRVR-NPG, which incorporates variance-reduction into the NPG update. Our improvements follow from an observation that the convergence of (variance-reduced) PG and NPG methods can improve each other: the stationary convergence analysis of PG can be applied to NPG as well, and the global convergence analysis of NPG can help to establish the global convergence of (variance-reduced) PG methods. Our analysis carefully integrates the advantages of these two lines of works. Thanks to this improvement, we have also made variance-reduction for NPG possible, with both global convergence and an efficient finite-sample complexity.
翻訳日:2022-11-17 15:59:13 公開日:2022-11-16
# クリックスルー率予測のためのディープインテントアウェアネットワーク

Deep Intention-Aware Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2211.08650v1 )

ライセンス: Link先を確認
Yaxian Xia, Yi Cao, Sihao Hu, Tong Liu, Lingling Lu(参考訳) Eコマースプラットフォームは、顧客が特定のショッピング要件を満たすミニアプリに入るための入り口を提供する。 入り口のアイコンに表示されるトリガーアイテムは、より多くのエントリを引き付けることができる。 しかし、トリガー項目に対するユーザの興味を無視する従来のClick-Through-Rate(CTR)予測モデルは、Trigger-induced Recommendation in Mini-Apps(TIRA)と呼ばれる新しいレコメンデーションシナリオには適用されない。 さらに,顧客からのミニアプリへのこだわりが高いことから,トリガーアイテムの重要性を過度に強調する既存のトリガーベース手法は,トリガーではなく日常的な買い物習慣のため,TIRAにとって望ましくないものとなっている。 TIRAの鍵は、顧客のパーソナライズされた入力意図を抽出し、この意図に基づいてトリガーの影響を測定することである。 この目的を達成するために、我々はTIRAのCTR予測を別の推定形式に変換し、3つの重要な要素を持つディープ・インテンション・アウェア・ネットワーク(DIAN)を提示する。 1) ユーザの入力意図を推定する意図ネット,すなわち,トリガーによって影響を受けるか,習慣によって影響を受けるか 2)トリガーアウェアネット及び 3) ユーザが意図したCTRを推定するトリガーフリーネットは,それぞれトリガーイテムとミニアプリである。 共同学習手法により、DIANはユーザの意図を正確に予測し、推定された意図に基づいてトリガーフリーおよびトリガーベースレコメンデーションの結果を動的にバランスさせることができる。 実験によると、DIANは大規模な実世界のデータセットで最先端のパフォーマンスを向上し、オンラインアイテムページビューの9.39%と、有名なタオバオのミニアプリであるJuhuasuanの4.74%のCTRを提供する。

E-commerce platforms provide entrances for customers to enter mini-apps that can meet their specific shopping requirements. Trigger items displayed on entrance icons can attract more entering. However, conventional Click-Through-Rate (CTR) prediction models, which ignore user instant interest in trigger item, fail to be applied to the new recommendation scenario dubbed Trigger-Induced Recommendation in Mini-Apps (TIRA). Moreover, due to the high stickiness of customers to mini-apps, we argue that existing trigger-based methods that over-emphasize the importance of trigger items, are undesired for TIRA, since a large portion of customer entries are because of their routine shopping habits instead of triggers. We identify that the key to TIRA is to extract customers' personalized entering intention and weigh the impact of triggers based on this intention. To achieve this goal, we convert CTR prediction for TIRA into a separate estimation form, and present Deep Intention-Aware Network (DIAN) with three key elements: 1) Intent Net that estimates user's entering intention, i.e., whether he/she is affected by the trigger or by the habits; 2) Trigger-Aware Net and 3) Trigger-Free Net that estimate CTRs given user's intention is to the trigger-item and the mini-app respectively. Following a joint learning way, DIAN can both accurately predict user intention and dynamically balance the results of trigger-free and trigger-based recommendations based on the estimated intention. Experiments show that DIAN advances state-of-the-art performance in a large real-world dataset, and brings a 9.39% lift of online Item Page View and 4.74% CTR for Juhuasuan, a famous mini-app of Taobao.
翻訳日:2022-11-17 15:57:51 公開日:2022-11-16
# 戦略データ収集は貧困予測モデルの性能を向上させるか?

Can Strategic Data Collection Improve the Performance of Poverty Prediction Models? ( http://arxiv.org/abs/2211.08735v1 )

ライセンス: Link先を確認
Satej Soman, Emily Aiken, Esther Rolf, and Joshua Blumenstock(参考訳) 機械学習に基づく貧困と富の推定は、人道支援のターゲティングと社会援助の割り当てを導くためにますます利用されている。 しかし、これらのモデルのトレーニングに使用される基底的真理ラベルは、通常、機械学習モデルのトレーニングではなく、国家統計を生成するために設計された既存の調査から借用されている。 ここでは、地平データ収集のための適応的サンプリング戦略が貧困予測モデルの性能を向上させるかどうかを検証する。 シミュレーションにより,モデル不確実性に基づくトレーニングデータ獲得を優先する代替手法や,サブ集団におけるモデル性能を優先する手法と,現状のサンプリング戦略(ランダム・階層化ランダムサンプリング)を比較した。 意外なことに、これらのアクティブな学習手法は、ランダムな一様サンプリングよりも改善されていない。 これらの結果は、機械学習による貧困の推定を洗練するための将来の取り組みにどのように役立つかについて議論する。

Machine learning-based estimates of poverty and wealth are increasingly being used to guide the targeting of humanitarian aid and the allocation of social assistance. However, the ground truth labels used to train these models are typically borrowed from existing surveys that were designed to produce national statistics -- not to train machine learning models. Here, we test whether adaptive sampling strategies for ground truth data collection can improve the performance of poverty prediction models. Through simulations, we compare the status quo sampling strategies (uniform at random and stratified random sampling) to alternatives that prioritize acquiring training data based on model uncertainty or model performance on sub-populations. Perhaps surprisingly, we find that none of these active learning methods improve over uniform-at-random sampling. We discuss how these results can help shape future efforts to refine machine learning-based estimates of poverty.
翻訳日:2022-11-17 15:57:16 公開日:2022-11-16
# separable pinn:物理形ニューラルネットワークにおける次元の呪いの緩和

Separable PINN: Mitigating the Curse of Dimensionality in Physics-Informed Neural Networks ( http://arxiv.org/abs/2211.08761v1 )

ライセンス: Link先を確認
Junwoo Cho, Seungtae Nam, Hyunmo Yang, Seok-Bae Yun, Youngjoon Hong, Eunbyung Park(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、前方および逆問題の両方に新しいデータ駆動型PDEソルバとして登場した。 有望だが、解を得るための高価な計算コストは、しばしば広い適用可能性を制限する。 自動微分(AD)の計算は、PINNのトレーニングにおいて前方モードADを活用することで大幅に削減できることを示す。 しかし、従来の PINN に対するフォワードモード AD の単純適用により、計算量が増加し、実用的利益が失われる。 そこで我々は,より効率的な計算を行うために,前方移動ADを容易にするネットワークアーキテクチャであるセパブルPINN(SPINN)を提案する。 SPINNは従来のPINNではポイントワイド処理ではなく軸単位で動作し、ネットワークフォワードパスの数を減らす。 また,標準PINNの計算とメモリコストはグリッドの解像度とともに指数関数的に増大するが,我々のモデルでは,次元の呪いを軽減し,非常に影響を受けにくい。 各種PDEシステムにおいて,学習時間を大幅に削減し,比較精度を向上し,本モデルの有効性を示す。 プロジェクトページ: \url{https://jwcho5576.github.io/spinn/}

Physics-informed neural networks (PINNs) have emerged as new data-driven PDE solvers for both forward and inverse problems. While promising, the expensive computational costs to obtain solutions often restrict their broader applicability. We demonstrate that the computations in automatic differentiation (AD) can be significantly reduced by leveraging forward-mode AD when training PINN. However, a naive application of forward-mode AD to conventional PINNs results in higher computation, losing its practical benefit. Therefore, we propose a network architecture, called separable PINN (SPINN), which can facilitate forward-mode AD for more efficient computation. SPINN operates on a per-axis basis instead of point-wise processing in conventional PINNs, decreasing the number of network forward passes. Besides, while the computation and memory costs of standard PINNs grow exponentially along with the grid resolution, that of our model is remarkably less susceptible, mitigating the curse of dimensionality. We demonstrate the effectiveness of our model in various PDE systems by significantly reducing the training run-time while achieving comparable accuracy. Project page: \url{https://jwcho5576.github.io/spinn/}
翻訳日:2022-11-17 15:57:01 公開日:2022-11-16
# ラベル効率の良いオブジェクト検出を支援するリージョン提案ネットワーク

Region Proposal Network Pre-Training Helps Label-Efficient Object Detection ( http://arxiv.org/abs/2211.09022v1 )

ライセンス: Link先を確認
Linus Ericsson, Nanqing Dong, Yongxin Yang, Ales Leonardis and Steven McDonagh(参考訳) 自己教師付き事前学習は、インスタンス識別のプリテキストタスクに基づいて、最近のラベル効率の高いオブジェクト検出の進歩を促している。 しかし、既存の研究では、下流検出タスクの転送可能表現を学ぶために、特徴抽出ネットワークのみを事前学習することに焦点を当てている。 これにより、微調整フェーズで複数の検出固有のモジュールをスクラッチからトレーニングする必要がある。 多段検出器のローカライズ誤差を低減するために,共通検出専用モジュールである地域提案ネットワーク (RPN) を事前訓練することができると論じる。 本研究では,rpnの効果的な事前学習を提供し,下流のオブジェクト検出性能を効率的に向上させる簡易なプリテキストタスクを提案する。 ベンチマーク対象検出タスクおよびインスタンスセグメンテーションや少数ショット検出を含む下流タスクに対する提案手法の有効性を評価した。 RPN事前学習を行わないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善し,ラベルスカース設定で最大ゲインを得られる。

Self-supervised pre-training, based on the pretext task of instance discrimination, has fueled the recent advance in label-efficient object detection. However, existing studies focus on pre-training only a feature extractor network to learn transferable representations for downstream detection tasks. This leads to the necessity of training multiple detection-specific modules from scratch in the fine-tuning phase. We argue that the region proposal network (RPN), a common detection-specific module, can additionally be pre-trained towards reducing the localization error of multi-stage detectors. In this work, we propose a simple pretext task that provides an effective pre-training for the RPN, towards efficiently improving downstream object detection performance. We evaluate the efficacy of our approach on benchmark object detection tasks and additional downstream tasks, including instance segmentation and few-shot detection. In comparison with multi-stage detectors without RPN pre-training, our approach is able to consistently improve downstream task performance, with largest gains found in label-scarce settings.
翻訳日:2022-11-17 15:50:46 公開日:2022-11-16
# キャプションに基づく創造的産業用画像生成データセット

A Creative Industry Image Generation Dataset Based on Captions ( http://arxiv.org/abs/2211.09035v1 )

ライセンス: Link先を確認
Xiang Yuejia, Lv Chuanhao, Liu Qingdazhu, Yang Xiaocui, Liu Bo, Ju Meizhi(参考訳) ほとんどの画像生成方法は、生成した画像の構造、スケール、形状などの特性を正確に制御することは困難であり、概念設計やグラフィックデザインなどの創造的産業における大規模な応用を制限している。 プロンプトとスケッチを使うことは、制御可能性の現実的な解決策である。 既存のデータセットにはプロンプトやスケッチがなく、クリエイティブな産業向けに設計されていない。 これが私たちの仕事の主な貢献です。 a) これは、クリエイティブ業界における4つの重要な領域をカバーする最初のデータセットで、プロンプトとスケッチでラベル付けされている。 b) テストセットに複数の参照画像と,測定に有用な基準毎の詳細なスコアを提供する。 c) 2つの最先端のモデルをデータセットに適用し、プロンプトがスケッチよりも高く評価されるなど、いくつかの欠点を見つけます。

Most image generation methods are difficult to precisely control the properties of the generated images, such as structure, scale, shape, etc., which limits its large-scale application in creative industries such as conceptual design and graphic design, and so on. Using the prompt and the sketch is a practical solution for controllability. Existing datasets lack either prompt or sketch and are not designed for the creative industry. Here is the main contribution of our work. a) This is the first dataset that covers the 4 most important areas of creative industry domains and is labeled with prompt and sketch. b) We provide multiple reference images in the test set and fine-grained scores for each reference which are useful for measurement. c) We apply two state-of-the-art models to our dataset and then find some shortcomings, such as the prompt is more highly valued than the sketch.
翻訳日:2022-11-17 15:50:28 公開日:2022-11-16
# マルチスケールコントラストメモリによる異常検出

Anomaly Detection via Multi-Scale Contrasted Memory ( http://arxiv.org/abs/2211.09041v1 )

ライセンス: Link先を確認
Loic Jezequel, Ngoc-Son Vu, Jean Beaudet, Aymeric Histace(参考訳) Deep Anomaly Detection (AD)は、1クラスとアンバランスの設定に対して堅牢で効率的な分類器を提供することを目的としている。 しかしながら、現在のADモデルは、エッジケースの通常のサンプルに苦戦しており、しばしば異なるスケールの異常に対してハイパフォーマンスを維持することができない。 さらに、現在、一級学習と不均衡学習の両方を効率的にカバーする統一フレームワークは存在しない。 これらの限界に照らして,多段階正規プロトタイプの学習中に記憶し,異常偏差スコアを求める2段階の異常検出器を提案する。 まず,新しい記憶提示型コントラスト学習を用いて,複数のスケールで表現とメモリモジュールを同時に学習する。 次に,プロトタイプと観測の間の空間偏差マップについて異常距離検出器を訓練する。 CIFAR-10の誤差相対改善を最大35倍の精度で行うことにより,多種多様なオブジェクト,スタイル,局所異常に対する最先端性能を向上する。 また、1クラスとアンバランスな設定でハイパフォーマンスを維持する最初のモデルでもある。

Deep anomaly detection (AD) aims to provide robust and efficient classifiers for one-class and unbalanced settings. However current AD models still struggle on edge-case normal samples and are often unable to keep high performance over different scales of anomalies. Moreover, there currently does not exist a unified framework efficiently covering both one-class and unbalanced learnings. In the light of these limitations, we introduce a new two-stage anomaly detector which memorizes during training multi-scale normal prototypes to compute an anomaly deviation score. First, we simultaneously learn representations and memory modules on multiple scales using a novel memory-augmented contrastive learning. Then, we train an anomaly distance detector on the spatial deviation maps between prototypes and observations. Our model highly improves the state-of-the-art performance on a wide range of object, style and local anomalies with up to 35\% error relative improvement on CIFAR-10. It is also the first model to keep high performance across the one-class and unbalanced settings.
翻訳日:2022-11-17 15:50:13 公開日:2022-11-16
# 強力なバックボーンと強力な機能 - Ego4D Moment Queries ChallengeのためのActionFormer

Where a Strong Backbone Meets Strong Features -- ActionFormer for Ego4D Moment Queries Challenge ( http://arxiv.org/abs/2211.09074v1 )

ライセンス: Link先を確認
Fangzhou Mu, Sicheng Mo, Gillian Wang, Yin Li(参考訳) 本稿では,2022年のEgo4D Moment Queries Challengeについて述べる。 我々はActionFormer、時間的アクションローカライゼーションのための最先端のバックボーン、SlowFast、Omnivore、EgoVLPの強力なビデオ機能をベースにしています。 私たちのソリューションは公開リーダボードで2位にランクされ、テストセットの平均マップは21.76%で、公式ベースラインの3倍近くになっています。 さらに,テストセット上では tiou=0.5 で 42.54% recall@1x を得ることができ,絶対パーセンテージが 1.41 という大きな差でトップランクの解を上回った。 私たちのコードはhttps://github.com/happyharrycn/actionformer_releaseで利用可能です。

This report describes our submission to the Ego4D Moment Queries Challenge 2022. Our submission builds on ActionFormer, the state-of-the-art backbone for temporal action localization, and a trio of strong video features from SlowFast, Omnivore and EgoVLP. Our solution is ranked 2nd on the public leaderboard with 21.76% average mAP on the test set, which is nearly three times higher than the official baseline. Further, we obtain 42.54% Recall@1x at tIoU=0.5 on the test set, outperforming the top-ranked solution by a significant margin of 1.41 absolute percentage points. Our code is available at https://github.com/happyharrycn/actionformer_release.
翻訳日:2022-11-17 15:49:58 公開日:2022-11-16
# イベントカメラからの深度・連続光学的流れの学習

Learning Dense and Continuous Optical Flow from an Event Camera ( http://arxiv.org/abs/2211.09078v1 )

ライセンス: Link先を確認
Zhexiong Wan, Yuchao Dai, Yuxin Mao(参考訳) DAVISのようなイベントカメラは、高時間分解能イベントと低フレームレートの強度イメージを同時に出力することができる。 既存の光学フロー推定法のほとんどは、2つの連続した画像フレームに基づいており、固定時間間隔でのみ離散フローを推定できる。 前回の研究では、イベントの量や時間間隔を変更することで、連続的なフロー推定が可能になることが示されている。 しかし、特にトリガイベントのない地域では、信頼性の高い高密度流れを推定することは困難である。 本稿では,高速動作の正確な知覚を容易にするイベントストリームを用いた1つの画像から,深層学習に基づく高密度連続光フロー推定フレームワークを提案する。 具体的には,まず2種類のデータから内部動作を効果的に活用するイベント画像融合・相関モジュールを提案する。 次に,光フロー予測のための双方向トレーニングによる反復更新ネットワーク構造を提案する。 そこで本モデルでは,信頼性の高い密度流れを2フレーム法として推定し,時間的連続フローをイベントベース法として推定する。 合成データと実データの両方における広範囲な実験結果から,本モデルが既存のイベントベース・オブ・ザ・アート法と,高精度で連続的な光フロー推定のためのベースラインを上回っていることが判明した。

Event cameras such as DAVIS can simultaneously output high temporal resolution events and low frame-rate intensity images, which own great potential in capturing scene motion, such as optical flow estimation. Most of the existing optical flow estimation methods are based on two consecutive image frames and can only estimate discrete flow at a fixed time interval. Previous work has shown that continuous flow estimation can be achieved by changing the quantities or time intervals of events. However, they are difficult to estimate reliable dense flow , especially in the regions without any triggered events. In this paper, we propose a novel deep learning-based dense and continuous optical flow estimation framework from a single image with event streams, which facilitates the accurate perception of high-speed motion. Specifically, we first propose an event-image fusion and correlation module to effectively exploit the internal motion from two different modalities of data. Then we propose an iterative update network structure with bidirectional training for optical flow prediction. Therefore, our model can estimate reliable dense flow as two-frame-based methods, as well as estimate temporal continuous flow as event-based methods. Extensive experimental results on both synthetic and real captured datasets demonstrate that our model outperforms existing event-based state-of-the-art methods and our designed baselines for accurate dense and continuous optical flow estimation.
翻訳日:2022-11-17 15:49:44 公開日:2022-11-16
# トラッククエリを用いたロバストなオンラインビデオインスタンスセグメンテーション

Robust Online Video Instance Segmentation with Track Queries ( http://arxiv.org/abs/2211.09108v1 )

ライセンス: Link先を確認
Zitong Zhan, Daniel McKee, Svetlana Lazebnik(参考訳) 近年,ビデオインスタンスセグメンテーション(vis)においてトランスフォーマティブベースの手法が注目されている。 しかし、これらのトップパフォーマンスメソッドのほとんどは、ビデオクリップ全体を一度に処理してインスタンスマスクボリュームを予測することで、オフラインで実行される。 これにより、UVOやOVISといった新しいビデオインスタンスセグメンテーションデータセットに挑戦するような、長いビデオを扱うことができない。 我々は、youtube-vis 2019ベンチマークでオフラインメソッドのトップに比較可能な、完全にオンラインのトランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。 この手法はロバストオンラインビデオセグメンテーション(rovis)と呼ばれ、マルチオブジェクトトラッキングのためのトラックフォーマ法により導入された、フレームからフレームへのトラック情報を運ぶ軽量なメカニズムであるトラッククエリを備えた、mask2formerイメージインスタンスセグメンテーションモデルを強化している。 十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。

Recently, transformer-based methods have achieved impressive results on Video Instance Segmentation (VIS). However, most of these top-performing methods run in an offline manner by processing the entire video clip at once to predict instance mask volumes. This makes them incapable of handling the long videos that appear in challenging new video instance segmentation datasets like UVO and OVIS. We propose a fully online transformer-based video instance segmentation model that performs comparably to top offline methods on the YouTube-VIS 2019 benchmark and considerably outperforms them on UVO and OVIS. This method, called Robust Online Video Segmentation (ROVIS), augments the Mask2Former image instance segmentation model with track queries, a lightweight mechanism for carrying track information from frame to frame, originally introduced by the TrackFormer method for multi-object tracking. We show that, when combined with a strong enough image segmentation architecture, track queries can exhibit impressive accuracy while not being constrained to short videos.
翻訳日:2022-11-17 15:49:22 公開日:2022-11-16
# MAGE: 表現学習と画像合成を統合するMasked Generative Encoder

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis ( http://arxiv.org/abs/2211.09117v1 )

ライセンス: Link先を確認
Tianhong Li, Huiwen Chang, Shlok Kumar Mishra, Han Zhang, Dina Katabi, Dilip Krishnan(参考訳) 生成モデリングと表現学習はコンピュータビジョンにおける2つの重要なタスクである。 しかしながら、これらのモデルは一般的に独立してトレーニングされ、各タスクが互いに助け合う可能性を無視し、トレーニングやモデルのメンテナンスのオーバーヘッドにつながる。 本研究では,SOTA画像生成と自己教師付き表現学習を統合する最初のフレームワークであるMAsked Generative Encoder (MAGE)を提案する。 私たちの重要な洞察は、マスク画像モデリングの事前トレーニングにおいて可変マスキング比を使用することで、同じトレーニングフレームワークの下で生成的トレーニング(非常に高いマスキング比率)と表現学習(低いマスキング比率)が可能になるということです。 以前の生成モデルにインスパイアされたMAGEは、入力と出力においてベクトル量子化されたGANによって学習された意味トークンを使用し、これをマスキングと組み合わせる。 エンコーダ出力にコントラスト損失を加えることで、さらに表現を改善することができる。 我々はMAGEの生成と表現の学習能力を広く評価した。 ImageNet-1Kでは、1つのMAGE ViT-Lモデルが、クラス非条件画像生成タスクの9.10 FIDと線形探索のための78.9%のトップ-1精度を取得し、画像生成と表現学習の両方で最先端の性能を達成する。 コードはhttps://github.com/lth14/mageで入手できる。

Generative modeling and representation learning are two key tasks in computer vision. However, these models are typically trained independently, which ignores the potential for each task to help the other, and leads to training and model maintenance overheads. In this work, we propose MAsked Generative Encoder (MAGE), the first framework to unify SOTA image generation and self-supervised representation learning. Our key insight is that using variable masking ratios in masked image modeling pre-training can allow generative training (very high masking ratio) and representation learning (lower masking ratio) under the same training framework. Inspired by previous generative models, MAGE uses semantic tokens learned by a vector-quantized GAN at inputs and outputs, combining this with masking. We can further improve the representation by adding a contrastive loss to the encoder output. We extensively evaluate the generation and representation learning capabilities of MAGE. On ImageNet-1K, a single MAGE ViT-L model obtains 9.10 FID in the task of class-unconditional image generation and 78.9% top-1 accuracy for linear probing, achieving state-of-the-art performance in both image generation and representation learning. Code is available at https://github.com/LTH14/mage.
翻訳日:2022-11-17 15:49:03 公開日:2022-11-16
# 密集した相互注意によるハンドオブジェクトポーズ推定

Interacting Hand-Object Pose Estimation via Dense Mutual Attention ( http://arxiv.org/abs/2211.08805v1 )

ライセンス: Link先を確認
Rong Wang, Wei Mao, Hongdong Li(参考訳) 3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。 このタスクの主な焦点は、手とオブジェクトの相互作用を効果的にモデル化することである。 この目的のために、既存の研究は、計算に精通した反復最適化における相互作用の制約に依存するか、サンプルハンドとオブジェクトキーポイントの間の疎相関のみを考慮する。 これとは対照的に,手とオブジェクト間のきめ細かい依存性をモデル化できる,新しい密集した相互注意機構を提案する。 具体的には、まず手とオブジェクトのグラフをメッシュ構造に従って構築する。 各ハンドノードについて、学習した注意によって各オブジェクトノードから機能を集約し、その逆も行う。 このような密集した相互注意により,高品質かつリアルタイムな推定速度で,物理的に妥当なポーズを生成できる。 大規模ベンチマークデータセットにおける大規模定量的および定性的実験により,本手法が最先端の手法より優れていることが示された。 コードはhttps://github.com/rongakowang/densemutualattention.gitで入手できる。

3D hand-object pose estimation is the key to the success of many computer vision applications. The main focus of this task is to effectively model the interaction between the hand and an object. To this end, existing works either rely on interaction constraints in a computationally-expensive iterative optimization, or consider only a sparse correlation between sampled hand and object keypoints. In contrast, we propose a novel dense mutual attention mechanism that is able to model fine-grained dependencies between the hand and the object. Specifically, we first construct the hand and object graphs according to their mesh structures. For each hand node, we aggregate features from every object node by the learned attention and vice versa for each object node. Thanks to such dense mutual attention, our method is able to produce physically plausible poses with high quality and real-time inference speed. Extensive quantitative and qualitative experiments on large benchmark datasets show that our method outperforms state-of-the-art methods. The code is available at https://github.com/rongakowang/DenseMutualAttention.git.
翻訳日:2022-11-17 15:42:25 公開日:2022-11-16
# SMILEtrack: 複数オブジェクト追跡のためのSiMIlarity LEarning

SMILEtrack: SiMIlarity LEarning for Multiple Object Tracking ( http://arxiv.org/abs/2211.08824v1 )

ライセンス: Link先を確認
Yu-Hsiang Wang(参考訳) マルチプルオブジェクトトラッキング(mot)は、多くのアプリケーションでコンピュータビジョンで広く研究されている。 tracking-by-detection(tbd)は、一般的なマルチオブジェクトトラッキングパラダイムである。 TBDは、オブジェクト検出の最初のステップと、データアソシエーション、トラックレット生成、更新に続くステップで構成されている。 そこで我々は,シームズネットワークをモチベーションとした類似学習モジュール(SLM)を提案し,重要なオブジェクトの外観特徴を抽出し,オブジェクトの動きと外観特徴を効果的に組み合わせる手順を提案する。 この設計は、データアソシエーションのためのオブジェクトの動きと外観のモデリングを強化する。 smiletrack trackerのデータアソシエーションのための類似性マッチングカスケード(smc)を設計しました。 SMILEtrack は MOTChallenge と MOT17 のテストセットで 81.06 MOTA と 80.5 IDF1 を達成する。

Multiple Object Tracking (MOT) is widely investigated in computer vision with many applications. Tracking-By-Detection (TBD) is a popular multiple-object tracking paradigm. TBD consists of the first step of object detection and the subsequent of data association, tracklet generation, and update. We propose a Similarity Learning Module (SLM) motivated from the Siamese network to extract important object appearance features and a procedure to combine object motion and appearance features effectively. This design strengthens the modeling of object motion and appearance features for data association. We design a Similarity Matching Cascade (SMC) for the data association of our SMILEtrack tracker. SMILEtrack achieves 81.06 MOTA and 80.5 IDF1 on the MOTChallenge and the MOT17 test set, respectively.
翻訳日:2022-11-17 15:42:07 公開日:2022-11-16
# ビデオインスタンスセグメンテーションのための一般化フレームワーク

A Generalized Framework for Video Instance Segmentation ( http://arxiv.org/abs/2211.08834v1 )

ライセンス: Link先を確認
Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim(参考訳) 近年,ビデオインスタンスセグメンテーション (vis) コミュニティでは,複雑なシーケンスの長いビデオを扱うことが新たな課題となっている。 しかし,既存の手法は課題に対処する際の限界を示す。 現在のアプローチの最大のボトルネックは、トレーニングと推論の相違にある、と私たちは主張する。 このギャップを効果的に橋渡しするため,我々は,複雑なアーキテクチャや追加のポストプロセッシングを設計せずに,挑戦的なベンチマークで最先端のパフォーマンスを実現する, \textbf{gen}eralized framework for \textbf{vis},すなわち \textbf{genvis}を提案する。 GenVISの重要な貢献は学習戦略である。 具体的には,新しいターゲットラベル割り当て戦略を用いて,逐次学習のためのクエリベーストレーニングパイプラインを提案する。 残りのギャップをさらに埋めるために,過去の状態から情報を効果的に取得するメモリを導入する。 異なるフレームやクリップ間の関係を構築することに焦点を当てた新しい視点のおかげで、GenVISはオンラインと半オンラインの両方で柔軟に実行できる。 提案手法を,YouTube-VIS 2019/2021/2022,Occluded VIS (OVIS) で評価し,最先端の結果を得た。 特に、ロングVISベンチマーク(OVIS)の最先端性能を大きく上回り、ResNet-50のバックボーンで5.6 APを改善した。 コードはhttps://github.com/miranheo/GenVIS.comで入手できる。

Recently, handling long videos of complex and occluded sequences has emerged as a new challenge in the video instance segmentation (VIS) community. However, existing methods show limitations in addressing the challenge. We argue that the biggest bottleneck in current approaches is the discrepancy between the training and the inference. To effectively bridge the gap, we propose a \textbf{Gen}eralized framework for \textbf{VIS}, namely \textbf{GenVIS}, that achieves the state-of-the-art performance on challenging benchmarks without designing complicated architectures or extra post-processing. The key contribution of GenVIS is the learning strategy. Specifically, we propose a query-based training pipeline for sequential learning, using a novel target label assignment strategy. To further fill the remaining gaps, we introduce a memory that effectively acquires information from previous states. Thanks to the new perspective, which focuses on building relationships between separate frames or clips, GenVIS can be flexibly executed in both online and semi-online manner. We evaluate our methods on popular VIS benchmarks, YouTube-VIS 2019/2021/2022 and Occluded VIS (OVIS), achieving state-of-the-art results. Notably, we greatly outperform the state-of-the-art on the long VIS benchmark (OVIS), improving 5.6 AP with ResNet-50 backbone. Code will be available at https://github.com/miranheo/GenVIS.
翻訳日:2022-11-17 15:41:56 公開日:2022-11-16
# 前立腺MRI画像分割のための半監督的・自己監督的協調学習

Semi-Supervised and Self-Supervised Collaborative Learning for Prostate 3D MR Image Segmentation ( http://arxiv.org/abs/2211.08840v1 )

ライセンス: Link先を確認
Yousuf Babiker M. Osman, Cheng Li, Weijian Huang, Nazik Elsayed, Zhenzhen Xue, Hairong Zheng, Shanshan Wang(参考訳) 容積磁気共鳴(mr)画像分割は多くの臨床応用において重要な役割を果たす。 ディープラーニング(dl)は最近、さまざまな画像分割タスクで最先端あるいは人間レベルのパフォーマンスを達成している。 それにもかかわらず、DLモデルトレーニングのための手動によるボリュームMR画像の注釈付けは、労力と時間を要する。 本研究では,3次元MR画像セグメンテーションのための半教師付き・自己教師型協調学習フレームワークを,各容積MR画像の中央スライスのみに基本真理アノテーションを付与した,極めて疎いアノテーションを用いて訓練することを目的とする。 具体的には、半教師付き学習と自己教師付き学習法を用いて、2つの独立した擬似ラベルを生成する。 これらの擬似ラベルはBoolean演算によって融合され、より確実な擬似ラベル集合を抽出する。 手動またはネットワークの自己生成ラベルを持つ画像は、ターゲットボリューム抽出のためのセグメンテーションモデルを訓練するために使用される。 公開のプロステートmr画像データセットにおける実験結果から,アノテーションの労力は大幅に削減されるものの,セグメンテーション結果が非常に奨励されることがわかった。 このフレームワークは,高密度アノテーションを用いたトレーニングデータを得ることが難しい臨床応用において非常に有用である。

Volumetric magnetic resonance (MR) image segmentation plays an important role in many clinical applications. Deep learning (DL) has recently achieved state-of-the-art or even human-level performance on various image segmentation tasks. Nevertheless, manually annotating volumetric MR images for DL model training is labor-exhaustive and time-consuming. In this work, we aim to train a semi-supervised and self-supervised collaborative learning framework for prostate 3D MR image segmentation while using extremely sparse annotations, for which the ground truth annotations are provided for just the central slice of each volumetric MR image. Specifically, semi-supervised learning and self-supervised learning methods are used to generate two independent sets of pseudo labels. These pseudo labels are then fused by Boolean operation to extract a more confident pseudo label set. The images with either manual or network self-generated labels are then employed to train a segmentation model for target volume extraction. Experimental results on a publicly available prostate MR image dataset demonstrate that, while requiring significantly less annotation effort, our framework generates very encouraging segmentation results. The proposed framework is very useful in clinical applications when training data with dense annotations are difficult to obtain.
翻訳日:2022-11-17 15:41:28 公開日:2022-11-16
# PrivacyProber: ソフトバイオメトリックなプライバシエンハンシング技術の評価と検出

PrivacyProber: Assessment and Detection of Soft-Biometric Privacy-Enhancing Techniques ( http://arxiv.org/abs/2211.08864v1 )

ライセンス: Link先を確認
Peter Rot, Peter Peer, Vitomir \v{S}truc(参考訳) ソフトバイオメトリックプライバシエンハンシング技術は、次のような機械学習手法を表している。 (i)顔画像(性別、年齢、民族など)のソフトバイオメトリック属性の選択を抑制し、顔認識技術に関連するプライバシーの懸念を軽減すること。 (ii)機密性の高い個人情報の不十分な抽出を不可能にする。 このような技術は、現実のアプリケーションでますます使われているため、プライバシー強化がどれだけ反転できるか、そして、プライバシー強化された画像からどれだけの属性情報を復元できるかを理解することが不可欠である。 これらの側面は批判的であるが、文献では研究されていない。 そこで我々は,いくつかの最先端ソフトバイオメトリックプライバシエンハンシング手法のロバスト性について検討した。 プライバシ強化された顔画像からソフトバイオメトリック情報を復元するための高レベルフレームワークであるPrivacyProberを提案し,LFW,MUCT,Adienceの3つの公開顔データセットに対する総合的な実験において属性回復に適用する。 提案手法は,プライバシエンハンシング手法によらず,相当量の抑制された情報を復元できるだけでなく,考慮されたプライバシモデル間にも有意な差異があることを示す。 これらの結果は、既存のプライバシー強化技術の堅牢性を向上し、抑圧された情報を回復しようとする潜在的敵に対してそれらを保護する新しいメカニズムの必要性を示唆している。

Soft-biometric privacy-enhancing techniques represent machine learning methods that aim to: (i) mitigate privacy concerns associated with face recognition technology by suppressing selected soft-biometric attributes in facial images (e.g., gender, age, ethnicity) and (ii) make unsolicited extraction of sensitive personal information infeasible. Because such techniques are increasingly used in real-world applications, it is imperative to understand to what extent the privacy enhancement can be inverted and how much attribute information can be recovered from privacy-enhanced images. While these aspects are critical, they have not been investigated in the literature. We, therefore, study the robustness of several state-of-the-art soft-biometric privacy-enhancing techniques to attribute recovery attempts. We propose PrivacyProber, a high-level framework for restoring soft-biometric information from privacy-enhanced facial images, and apply it for attribute recovery in comprehensive experiments on three public face datasets, i.e., LFW, MUCT and Adience. Our experiments show that the proposed framework is able to restore a considerable amount of suppressed information, regardless of the privacy-enhancing technique used, but also that there are significant differences between the considered privacy models. These results point to the need for novel mechanisms that can improve the robustness of existing privacy-enhancing techniques and secure them against potential adversaries trying to restore suppressed information.
翻訳日:2022-11-17 15:41:07 公開日:2022-11-16
# モデル予測の不確実性に基づく教師なし領域適応

Unsupervised Domain Adaptation Based on the Predictive Uncertainty of Models ( http://arxiv.org/abs/2211.08866v1 )

ライセンス: Link先を確認
JoonHo Lee, Gyemin Lee(参考訳) unsupervised domain adaptation(uda)は、ソースドメインからの分散シフト下でのターゲットドメインの予測性能を改善することを目的としている。 UDAの主な原則は、ソースとターゲットドメイン間のばらつきを最小限にすることである。 この原則に従うために、多くの方法は特徴分布にマッチするドメイン判別器を用いる。 最近の手法では、ターゲットサンプルの2つの予測の相違を評価し、ソース分布から逸脱しているものを検出する。 しかし、その性能は限界分布に合致するか、保守的に分岐を測定するため限定的である。 本稿では,ドメインの発散を最小限に抑えるドメイン不変の特徴を学習するUDA手法を提案する。 領域分割の尺度としてモデル不確実性を提案する。 モデル不確実性(MUDA)に基づくUDA法はベイズ的枠組みを採用し,モンテカルロ・ドロップアウトサンプリングを用いてモデル不確実性を評価する効率的な方法を提供する。 画像認識タスクにおける実験結果から,本手法は既存の最先端手法よりも優れていることが示された。 また、MUDAをマルチソース領域適応問題に拡張する。

Unsupervised domain adaptation (UDA) aims to improve the prediction performance in the target domain under distribution shifts from the source domain. The key principle of UDA is to minimize the divergence between the source and the target domains. To follow this principle, many methods employ a domain discriminator to match the feature distributions. Some recent methods evaluate the discrepancy between two predictions on target samples to detect those that deviate from the source distribution. However, their performance is limited because they either match the marginal distributions or measure the divergence conservatively. In this paper, we present a novel UDA method that learns domain-invariant features that minimize the domain divergence. We propose model uncertainty as a measure of the domain divergence. Our UDA method based on model uncertainty (MUDA) adopts a Bayesian framework and provides an efficient way to evaluate model uncertainty by means of Monte Carlo dropout sampling. Empirical results on image recognition tasks show that our method is superior to existing state-of-the-art methods. We also extend MUDA to multi-source domain adaptation problems.
翻訳日:2022-11-17 15:40:43 公開日:2022-11-16
# ご覧の通り: 再建のないマスク付き画像モデリング

Stare at What You See: Masked Image Modeling without Reconstruction ( http://arxiv.org/abs/2211.08887v1 )

ライセンス: Link先を確認
Hongwei Xue, Peng Gao, Hongyang Li, Yu Qiao, Hao Sun, Houqiang Li, Jiebo Luo(参考訳) Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。 可視画像領域のごく一部からマスク画像パッチを再構成することにより、maeはモデルに画像内の意味相関を推論させる。 近年,画像特徴を復元対象として抽出するために意味豊富な教師モデルを適用した手法が提案されている。 しかし,画素値のような低レベルな特徴とは異なり,教師モデルによって抽出された特徴は,教師モデルを用いたマスク画像モデリング (mim) において必要か,という疑問を提起する。 本稿では,MaskAlignという,効率的なMIMパラダイムを提案する。 MaskAlignは、学生モデルによって抽出された可視的パッチ機能と教師モデルによって抽出された無傷の画像機能の一貫性を単に学習する。 学生モデルと教師モデルとの整合性の問題に対処するために,学習可能なアライメントを適用するための動的アライメント(DA)モジュールを提案する。 実験結果から,マスク領域を再構築してもマスクモデルの有効性は低下しないことが示された。 Dynamic Alignmentと組み合わせることで、MaskAlignは最先端のパフォーマンスをはるかに高い効率で達成できる。 コードとモデルはhttps://github.com/openperceptionx/maskalign.comで入手できる。

Masked Autoencoders (MAE) have been prevailing paradigms for large-scale vision representation pre-training. By reconstructing masked image patches from a small portion of visible image regions, MAE forces the model to infer semantic correlation within an image. Recently, some approaches apply semantic-rich teacher models to extract image features as the reconstruction target, leading to better performance. However, unlike the low-level features such as pixel values, we argue the features extracted by powerful teacher models already encode rich semantic correlation across regions in an intact image.This raises one question: is reconstruction necessary in Masked Image Modeling (MIM) with a teacher model? In this paper, we propose an efficient MIM paradigm named MaskAlign. MaskAlign simply learns the consistency of visible patch features extracted by the student model and intact image features extracted by the teacher model. To further advance the performance and tackle the problem of input inconsistency between the student and teacher model, we propose a Dynamic Alignment (DA) module to apply learnable alignment. Our experimental results demonstrate that masked modeling does not lose effectiveness even without reconstruction on masked regions. Combined with Dynamic Alignment, MaskAlign can achieve state-of-the-art performance with much higher efficiency. Code and models will be available at https://github.com/OpenPerceptionX/maskalign.
翻訳日:2022-11-17 15:40:25 公開日:2022-11-16
# ELDA:エッジを使ってセマンティックセグメンテーションベースのUDAにエッジを持つ

ELDA: Using Edges to Have an Edge on Semantic Segmentation Based UDA ( http://arxiv.org/abs/2211.08888v1 )

ライセンス: Link先を確認
Ting-Hsuan Liao, Huang-Ru Liao, Shan-Ya Yang, Jie-En Yao, Li-Yuan Tsao, Hsu-Shen Liu, Bo-Wun Cheng, Chen-Hao Chao, Chia-Che Chang, Yi-Chen Lo and Chun-Yi Lee(参考訳) ドメイン不変情報を利用してドメインギャップを橋渡しするための多くの非教師なしドメイン適応(uda)手法が提案されている。 ほとんどのアプローチはそのような情報から深いものを選び、驚くべき成功を収めた。 有効性にもかかわらず、UDAタスクにおけるドメイン不変情報として深度を使うことは、過剰に高い抽出コストや信頼性の高い予測品質を達成するのに困難など、複数の問題を引き起こす可能性がある。 その結果、エッジ情報をトレーニングプロセスに組み込んで、ドメイン不変情報の一種として利用するフレームワークである、エッジ学習ベースのドメイン適応(elda)が導入された。 実験では,エッジ情報の導入が有益かつ有効であることを定量的かつ定性的に証明し,セマンティックセグメンテーションに基づくUDAタスクの2つの一般的なベンチマークにおいて,ELDAが現代手法よりも優れていることを示す。 さらに、ELDAは、異なるクラスの特徴分布をよりよく分離できることを示す。 設計決定を正当化するためのアブレーション分析も提供します。

Many unsupervised domain adaptation (UDA) methods have been proposed to bridge the domain gap by utilizing domain invariant information. Most approaches have chosen depth as such information and achieved remarkable success. Despite their effectiveness, using depth as domain invariant information in UDA tasks may lead to multiple issues, such as excessively high extraction costs and difficulties in achieving a reliable prediction quality. As a result, we introduce Edge Learning based Domain Adaptation (ELDA), a framework which incorporates edge information into its training process to serve as a type of domain invariant information. In our experiments, we quantitatively and qualitatively demonstrate that the incorporation of edge information is indeed beneficial and effective and enables ELDA to outperform the contemporary state-of-the-art methods on two commonly adopted benchmarks for semantic segmentation based UDA tasks. In addition, we show that ELDA is able to better separate the feature distributions of different classes. We further provide an ablation analysis to justify our design decisions.
翻訳日:2022-11-17 15:40:02 公開日:2022-11-16
# AdaTriplet-RA: Anaptive TripletとReinforceed Attentionによるドメインマッチング

AdaTriplet-RA: Domain Matching via Adaptive Triplet and Reinforced Attention for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2211.08894v1 )

ライセンス: Link先を確認
Xinyao Shu, Shiyang Yan, Zhenyu Lu, Xinshao Wang, Yuan Xie(参考訳) 教師なしドメイン適応(Unsupervised Domain Adaption、UDA)は、ソースドメインのデータとアノテーションが利用できるが、トレーニング中にラベル付けされていないターゲットデータにのみアクセスできるトランスファー学習タスクである。 従来の手法では、ソースとターゲットドメイン間の分配アライメントを行うことで、ドメインレベルでの操作に際し、サンプルレベルの差を無視して、ドメインギャップを最小化しようと試みていた。 この弱点を軽減するために、ドメイン間サンプルマッチング方式を用いて教師なしドメイン適応タスクを改善することを提案する。 広く使われているロバストな三重項損失をドメイン間サンプルに適合させる。 トレーニング中に発生する不正確な擬似ラベルの破滅的効果を低減するため,信頼度の高い擬似ラベルを自動的に選択し,段階的に改良する新しい不確実性測定法を提案する。 適応的なTopkスキームを実現するために,Gumbel Softmax法を適用した。 さらに、ドメインマッチングの1バッチでグローバルランキングの最適化を可能にするために、平均精度(AP)を報酬として、ポリシー勾配アルゴリズムから監督された新しい強化された注意機構により、モデル全体を最適化する。 我々のモデルは,いくつかの公開ベンチマークデータセット上で最先端の結果を達成し,その有効性は包括的アブレーション研究によって検証される。 本手法は、visdaデータセットの9.7\%(resnet-101)と6.2\%(resnet-50)と、domainnetデータセットの4.22\%(resnet-50)の精度を向上させる。 ソースコードは、textit{https://github.com/shuxy0120/AdaTriplet-RA}}で公開されている。

Unsupervised domain adaption (UDA) is a transfer learning task where the data and annotations of the source domain are available but only have access to the unlabeled target data during training. Most previous methods try to minimise the domain gap by performing distribution alignment between the source and target domains, which has a notable limitation, i.e., operating at the domain level, but neglecting the sample-level differences. To mitigate this weakness, we propose to improve the unsupervised domain adaptation task with an inter-domain sample matching scheme. We apply the widely-used and robust Triplet loss to match the inter-domain samples. To reduce the catastrophic effect of the inaccurate pseudo-labels generated during training, we propose a novel uncertainty measurement method to select reliable pseudo-labels automatically and progressively refine them. We apply the advanced discrete relaxation Gumbel Softmax technique to realise an adaptive Topk scheme to fulfil the functionality. In addition, to enable the global ranking optimisation within one batch for the domain matching, the whole model is optimised via a novel reinforced attention mechanism with supervision from the policy gradient algorithm, using the Average Precision (AP) as the reward. Our model (termed \textbf{\textit{AdaTriplet-RA}}) achieves State-of-the-art results on several public benchmark datasets, and its effectiveness is validated via comprehensive ablation studies. Our method improves the accuracy of the baseline by 9.7\% (ResNet-101) and 6.2\% (ResNet-50) on the VisDa dataset and 4.22\% (ResNet-50) on the Domainnet dataset. {The source code is publicly available at \textit{https://github.com/shuxy0120/AdaTriplet-RA}}.
翻訳日:2022-11-17 15:39:43 公開日:2022-11-16
# イギリス手話ビデオにおける弱教師付指節認識

Weakly-supervised Fingerspelling Recognition in British Sign Language Videos ( http://arxiv.org/abs/2211.08954v1 )

ライセンス: Link先を確認
K R Prajwal, Hannah Bull, Liliane Momeni, Samuel Albanie, G\"ul Varol, Andrew Zisserman(参考訳) 本研究の目的は,英国手話 (British Sign Language, BSL) で指で綴じられた文字のシーケンスを検出し,認識することである。 それまでの指先認識法は、アメリカ手話(ASL)と全く異なる署名アルファベット(例えば、片手ではなく両手で)を持つBSLに焦点を合わせていなかった。 トレーニングには手動のアノテーションも使用する。 従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。 簡単な特徴類似性を用いて,手指操作の潜在的インスタンスをローカライズし,サブタイトルの単語をクエリし,シグナから対応するヒントを検索することで,これらのインスタンスを自動アノテーション化する。 本稿では,このタスクに適応したトランスフォーマティブアーキテクチャを提案し,代替アノテーションの可能性から学ぶためのマルチハイポテーゼctc損失関数を提案する。 私たちは多段階トレーニングアプローチを採用しており、トレーニングモデルの初期バージョンを使用してトレーニングデータの拡張と拡張を行い、その後再トレーニングしてパフォーマンス向上を実現しています。 広範な評価を通じて,自動アノテーションの手法とモデルアーキテクチャを検証する。 さらに,手話研究を支援するBSL指スペル認識手法を評価するために,人手による5Kビデオクリップの注釈付きテストセットを提供する。

The goal of this work is to detect and recognize sequences of letters signed using fingerspelling in British Sign Language (BSL). Previous fingerspelling recognition methods have not focused on BSL, which has a very different signing alphabet (e.g., two-handed instead of one-handed) to American Sign Language (ASL). They also use manual annotations for training. In contrast to previous methods, our method only uses weak annotations from subtitles for training. We localize potential instances of fingerspelling using a simple feature similarity method, then automatically annotate these instances by querying subtitle words and searching for corresponding mouthing cues from the signer. We propose a Transformer architecture adapted to this task, with a multiple-hypothesis CTC loss function to learn from alternative annotation possibilities. We employ a multi-stage training approach, where we make use of an initial version of our trained model to extend and enhance our training data before re-training again to achieve better performance. Through extensive evaluations, we verify our method for automatic annotation and our model architecture. Moreover, we provide a human expert annotated test set of 5K video clips for evaluating BSL fingerspelling recognition methods to support sign language research.
翻訳日:2022-11-17 15:39:09 公開日:2022-11-16
# 3Dラジオグラフィー画像における友人の近づきと遠近感:空間的事前学習の嫌悪感

Keep Your Friends Close & Enemies Farther: Debiasing Contrastive Learning with Spatial Priors in 3D Radiology Images ( http://arxiv.org/abs/2211.08643v1 )

ライセンス: Link先を確認
Yejia Zhang, Nishchal Sapkota, Pengfei Gu, Yaopeng Peng, Hao Zheng, Danny Z. Chen(参考訳) 空間属性の理解は、作物に基づく学習がデファクトスタンダードとなる効果的な3次元放射線画像分析の中心である。 イメージパッチが与えられると、その中心となる空間的特性(例えば、位置と方向)は、固有の解剖学的構成を通じて、期待される物体のサイズ、外観、構造について有用な事前情報を提供する。 特に空間対応は画像間領域間の意味的類似性を効果的に測定できるが、その近似抽出では注釈や計算コストが不要である。 しかし、近年の3次元コントラスト学習アプローチでは、対応を無視するか、最大限に活用できない。 この目的のために,抽出された対応を利用して表現学習においてより効果的な正と負のサンプルを選択する,拡張可能な3次元コントラストフレームワーク(spade, for spatial debiasing)を提案する。 本手法は,下流セグメンテーションを念頭に,グローバル不変表現と局所同変表現の両方を学習する。 また,それぞれの代表要件に合わせてグローバルスコープとローカルスコープを分離した選択戦略を提案する。 最近の最先端アプローチと比較して,Spadeは3つの下流セグメンテーションタスク(CT腹部臓器,CT心臓,MRハート)において顕著な改善を示した。

Understanding of spatial attributes is central to effective 3D radiology image analysis where crop-based learning is the de facto standard. Given an image patch, its core spatial properties (e.g., position & orientation) provide helpful priors on expected object sizes, appearances, and structures through inherent anatomical consistencies. Spatial correspondences, in particular, can effectively gauge semantic similarities between inter-image regions, while their approximate extraction requires no annotations or overbearing computational costs. However, recent 3D contrastive learning approaches either neglect correspondences or fail to maximally capitalize on them. To this end, we propose an extensible 3D contrastive framework (Spade, for Spatial Debiasing) that leverages extracted correspondences to select more effective positive & negative samples for representation learning. Our method learns both globally invariant and locally equivariant representations with downstream segmentation in mind. We also propose separate selection strategies for global & local scopes that tailor to their respective representational requirements. Compared to recent state-of-the-art approaches, Spade shows notable improvements on three downstream segmentation tasks (CT Abdominal Organ, CT Heart, MR Heart).
翻訳日:2022-11-17 15:32:46 公開日:2022-11-16
# トレーニングフリーnasメトリクスの再検討:効率的なトレーニングベース手法

Revisiting Training-free NAS Metrics: An Efficient Training-based Method ( http://arxiv.org/abs/2211.08666v1 )

ライセンス: Link先を確認
Taojiannan Yang, Linjie Yang, Xiaojie Jin, Chen Chen(参考訳) 最近のneural architecture search (nas)は、ネットワークのランク付けのためのトレーニングフリーメトリクスを提案し、nasの検索コストを大幅に削減した。 本稿では,(1)最も単純なトレーニングフリーメトリクスであるパラメータ数(\#param)は,従来の作業では見過ごされているが,驚くほど効果的である,(2)最近のトレーニングフリーメトリクスでは,ランク付けネットワークに対する\#param情報に大きく依存している,という結論を得た。 実験の結果,最近のトレーニングフリーメトリクスのパフォーマンスは,#Param情報が得られない場合に劇的に低下することがわかった。 これらの観察に動機づけられて、測定値と \#param との相関が小さいことは、nasに追加情報を提供することが望ましいと論じている。 本稿では,より少ない検索コストでトレーニングフリーのメトリクスよりも優れた性能を達成しつつ,#Paramとの相関が弱い軽量なトレーニングベースメトリクスを提案する。 具体的には、DARTS検索空間上では、ImageNetを直接2.6GPU時間で検索し、最先端NAS法と競合する24.1\%/7.1\%のトップ-1/トップ5エラー率を達成する。 コードは \url{https://github.com/taoyang1122/revisit_trainingfree_nas} で利用可能である。

Recent neural architecture search (NAS) works proposed training-free metrics to rank networks which largely reduced the search cost in NAS. In this paper, we revisit these training-free metrics and find that: (1) the number of parameters (\#Param), which is the most straightforward training-free metric, is overlooked in previous works but is surprisingly effective, (2) recent training-free metrics largely rely on the \#Param information to rank networks. Our experiments show that the performance of recent training-free metrics drops dramatically when the \#Param information is not available. Motivated by these observations, we argue that metrics less correlated with the \#Param are desired to provide additional information for NAS. We propose a light-weight training-based metric which has a weak correlation with the \#Param while achieving better performance than training-free metrics at a lower search cost. Specifically, on DARTS search space, our method completes searching directly on ImageNet in only 2.6 GPU hours and achieves a top-1/top-5 error rate of 24.1\%/7.1\%, which is competitive among state-of-the-art NAS methods. Codes are available at \url{https://github.com/taoyang1122/Revisit_TrainingFree_NAS}
翻訳日:2022-11-17 15:32:23 公開日:2022-11-16
# 地理画像のためのフェアコントラスト事前学習

Fair contrastive pre-training for geographic images ( http://arxiv.org/abs/2211.08672v1 )

ライセンス: Link先を確認
Miao Zhang, Rumi Chunara(参考訳) コントラスト表現学習は、地理画像データ(衛星画像などのリモートセンシングやストリートビュー画像などの近距離センシング)の視覚的認識に広く用いられているが、ランドスケープの不均一性のため、モデルは空間単位間で異なる性能を示すことができる。 本研究では,事前学習による土地被覆セマンティックセマンティックセグメンテーションの公平性リスクについて考察する。 衛星画像データセットの都道府県と農村部,ストリートビュー画像データセットの都市のgdpレベルなど,センシティブなグループ間でのクラス分布の変化とモデル予測の相違を評価した。 マルチレベル潜在空間のための相互情報学習目標を提案する。 この目的は,グループ間で異なる分布の局所的特徴の急激な表現を除去することにより,特徴識別を改善する。 この方法により、公正性が向上し、精度・フェア性トレードオフの観点から最先端の方法よりも優れる。 また,提案手法で学習した表現が,最小感度情報を含むことを線形分離評価を用いて検証する。 本研究は、地理的画像における特定の公平性分析の必要性を強調し、異なる自己教師付き学習方法や画像データに一般化できるソリューションを提供する。 私たちのコードは、https://anonymous.4open.science/r/FairDCL-1283で利用可能です。

Contrastive representation learning is widely employed in visual recognition for geographic image data (remote-sensing such as satellite imagery or proximal sensing such as street-view imagery), but because of landscape heterogeneity, models can show disparate performance across spatial units. In this work, we consider fairness risks in land-cover semantic segmentation which uses pre-trained representation in contrastive self-supervised learning. We assess class distribution shifts and model prediction disparities across selected sensitive groups: urban and rural scenes for satellite image datasets and city GDP level for a street view image dataset. We propose a mutual information training objective for multi-level latent space. The objective improves feature identification by removing spurious representations of dense local features which are disparately distributed across groups. The method achieves improved fairness results and outperforms state-of-the-art methods in terms of precision-fairness trade-off. In addition, we validate that representations learnt with the proposed method include lowest sensitive information using a linear separation evaluation. This work highlights the need for specific fairness analyses in geographic images, and provides a solution that can be generalized to different self-supervised learning methods or image data. Our code is available at: https://anonymous.4open.science/r/FairDCL-1283
翻訳日:2022-11-17 15:31:57 公開日:2022-11-16
# 少数ショットセグメンテーションにおけるクラス間プロトタイプ関係

Interclass Prototype Relation for Few-Shot Segmentation ( http://arxiv.org/abs/2211.08681v1 )

ライセンス: Link先を確認
Atsuro Okazawa(参考訳) 従来のセマンティックセグメンテーションは大きなラベル付きイメージデータセットを必要とし、事前定義されたクラス内でのみ予測できる。 この問題を解決するために、新しいターゲットクラスのアノテーションを少しだけ必要とするような、少数ショットセグメンテーションが重要である。 しかし, 少数ショットのセグメンテーションでは, 特徴空間におけるターゲットクラスデータの分布は小さく, サンプルデータのわずかなばらつきのため, カバー範囲が小さい。 ターゲットクラスを他のクラスから適切に分離する分類境界を設定することは不可能である。 特に、境界付近のターゲットクラスに類似したクラスを分類することは困難である。 本研究では,他のクラス間の類似性を低減し,分離性能を向上させるIPRNet(Interclass Prototype Relation Network)を提案する。 我々はPascal-5i と COCO-20i を用いた広範囲な実験を行い、IPRNet が従来の研究と比較した場合のセグメンテーション性能を示した。

Traditional semantic segmentation requires a large labeled image dataset and can only be predicted within predefined classes. To solve this problem, few-shot segmentation, which requires only a handful of annotations for the new target class, is important. However, with few-shot segmentation, the target class data distribution in the feature space is sparse and has low coverage because of the slight variations in the sample data. Setting the classification boundary that properly separates the target class from other classes is an impossible task. In particular, it is difficult to classify classes that are similar to the target class near the boundary. This study proposes the Interclass Prototype Relation Network (IPRNet), which improves the separation performance by reducing the similarity between other classes. We conducted extensive experiments with Pascal-5i and COCO-20i and showed that IPRNet provides the best segmentation performance compared with previous research.
翻訳日:2022-11-17 15:31:39 公開日:2022-11-16
# satvsr: クロスシナリオビデオ超解像のためのシナリオ適応トランスフォーマ

SATVSR: Scenario Adaptive Transformer for Cross Scenarios Video Super-Resolution ( http://arxiv.org/abs/2211.08703v1 )

ライセンス: Link先を確認
Yongjie Chen, Tieru Wu(参考訳) Video Super-Resolution (VSR)は、高解像度(HR)フレームのシーケンスを低解像度(LR)フレームから復元することを目的としている。 従来の方法は、主に時間的に隣接したフレームを使用して、ターゲットフレームの再構築を支援する。 しかし、実世界では、高速なシーン切替を伴うビデオの隣接フレームには無関係な情報が多数存在するため、これらのVSR手法は有効な情報を適応的に識別・選択することはできない。 対照的に, 時間的タスクに適した変圧器構造を用いて, 適応型映像超解像法を考案する。 具体的には、各ビデオフレームのパッチに光フローをラベル付けし、同じラベルでパッチの注意を計算します。 次に、最も関連性の高いラベルを選択して、対象フレームの時空間情報を補完する。 この設計では、追加情報を可能な限り同じシーンから直接得ることができる。 さらに,スケール変動問題を解決するために,クロススケール機能集約モジュールを提案する。 他の超解像法と比較して,本手法はシングルシーン映像の性能向上だけでなく,クロスシーンデータセットの堅牢性も向上する。

Video Super-Resolution (VSR) aims to recover sequences of high-resolution (HR) frames from low-resolution (LR) frames. Previous methods mainly utilize temporally adjacent frames to assist the reconstruction of target frames. However, in the real world, there is a lot of irrelevant information in adjacent frames of videos with fast scene switching, these VSR methods cannot adaptively distinguish and select useful information. In contrast, with a transformer structure suitable for temporal tasks, we devise a novel adaptive scenario video super-resolution method. Specifically, we use optical flow to label the patches in each video frame, only calculate the attention of patches with the same label. Then select the most relevant label among them to supplement the spatial-temporal information of the target frame. This design can directly make the supplementary information come from the same scene as much as possible. We further propose a cross-scale feature aggregation module to better handle the scale variation problem. Compared with other video super-resolution methods, our method not only achieves significant performance gains on single-scene videos but also has better robustness on cross-scene datasets.
翻訳日:2022-11-17 15:31:21 公開日:2022-11-16
# ego4d自然言語クエリチャレンジのための簡易トランスフォーマーモデル

A Simple Transformer-Based Model for Ego4D Natural Language Queries Challenge ( http://arxiv.org/abs/2211.08704v1 )

ライセンス: Link先を確認
Sicheng Mo, Fangzhou Mu, Yin Li(参考訳) 本稿では,Ego4D Natural Language Queries (NLQ) Challengeへの提案であるBadgers@UW-Madisonについて述べる。 提案手法は,時間的動作の局所化に関する先行研究からポイントベースイベント表現を継承し,ビデオグラウンド化のためのトランスフォーマーモデルを開発した。 さらに、当社のソリューションは、SlowFast、Omnivore、EgoVLPなどの強力なビデオ機能を統合しています。 ベルとホイッスルがなければ、単一モデルに基づく提案は12.64%の平均r@1を達成し、公開リーダーボードで2位にランクインします。 一方,本手法はtiou=0.3 (0.5) で28.45% (18.03%) r@5 となり,最大5.5 %の絶対パーセンテージでトップランクの解を上回った。

This report describes Badgers@UW-Madison, our submission to the Ego4D Natural Language Queries (NLQ) Challenge. Our solution inherits the point-based event representation from our prior work on temporal action localization, and develops a Transformer-based model for video grounding. Further, our solution integrates several strong video features including SlowFast, Omnivore and EgoVLP. Without bells and whistles, our submission based on a single model achieves 12.64% Mean R@1 and is ranked 2nd on the public leaderboard. Meanwhile, our method garners 28.45% (18.03%) R@5 at tIoU=0.3 (0.5), surpassing the top-ranked solution by up to 5.5 absolute percentage points.
翻訳日:2022-11-17 15:31:02 公開日:2022-11-16
# 幾何マッチングによる特徴量に基づく視覚定位の改善

Improving Feature-based Visual Localization by Geometry-Aided Matching ( http://arxiv.org/abs/2211.08712v1 )

ライセンス: Link先を確認
Hailin Yu, Youji Feng, Weicai Ye, Mingxuan Jiang, Hujun Bao, Guofeng Zhang(参考訳) 特徴マッチングは、カメラポーズの精度が確立された2D-3D対応によって決定される、視覚的位置決めにおける重要なステップである。 ノイズのため、カメラのポーズを正確に解くには十分な数の2D-3D対応が必要である。 既存の2d-3d特徴マッチングは、通常、特徴空間に最も近い隣接点を見つけ、手作りのヒューリスティックによって外れ値を取り除くことで達成される。 しかし、これは多くの真のマッチを見逃したり、確立された正しいマッチをフィルターアウトしたりする可能性がある。 本研究では,外観情報と幾何学的文脈の両方を用いて2D-3D特徴マッチングを改善する新しい2D-3Dマッチング手法であるGeometry-Aided Matching (GAM)を提案する。 GAMは高精度を維持しながら2D-3Dマッチのリコールを大幅に強化することができる。 我々はGAMを階層的な視覚的ローカライゼーションパイプラインに挿入し、GAMがローカライゼーションの堅牢性と精度を効果的に向上できることを示す。 大規模な実験により、GAMは手作りのヒューリスティックや学習ベースラインよりも正確な一致を見出すことができた。 提案手法は,複数の視覚的ローカライゼーションデータセットの最先端結果を実現する。 ケンブリッジランドマークデータセットにおける実験により,本手法は既存の最先端手法よりも優れており,トップパーフォーミング法よりも6倍高速であることが示された。

Feature matching is an essential step in visual localization, where the accuracy of camera pose is mainly determined by the established 2D-3D correspondence. Due to the noise, solving the camera pose accurately requires a sufficient number of well-distributed 2D-3D correspondences. Existing 2D-3D feature matching is typically achieved by finding the nearest neighbors in the feature space, and then removing the outliers by some hand-crafted heuristics. However, this may lead to a large number of potentially true matches being missed or the established correct matches being filtered out. In this work, we introduce a novel 2D-3D matching method, Geometry-Aided Matching (GAM), which uses both appearance information and geometric context to improve 2D-3D feature matching. GAM can greatly strengthen the recall of 2D-3D matches while maintaining high precision. We insert GAM into a hierarchical visual localization pipeline and show that GAM can effectively improve the robustness and accuracy of localization. Extensive experiments show that GAM can find more correct matches than hand-crafted heuristics and learning baselines. Our proposed localization method achieves state-of-the-art results on multiple visual localization datasets. Experiments on Cambridge Landmarks dataset show that our method outperforms the existing state-of-the-art methods and is six times faster than the top-performed method.
翻訳日:2022-11-17 15:30:47 公開日:2022-11-16
# 異種バックボーンの状態変化キャプチャの探求 @ego4d hands and objects challenge 2022

Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022 ( http://arxiv.org/abs/2211.08728v1 )

ライセンス: Link先を確認
Yin-Dong Zheng, Guo Chen, Jiahao Wang, Tong Lu, Limin Wang(参考訳) 相互作用するオブジェクトの状態変化を捉えることは、人間とオブジェクトの相互作用を理解するための重要な技術である。 本稿では,Ego4Dオブジェクト状態変化分類とPNR時間的局所化チャレンジのための異種バックボーンを用いた手法について述べる。 この課題では,3次元畳み込みを演算子とするcsnと,トランスフォーマーをオペレータとするvideomaeという異種ビデオ理解バックボーンを用いた。 提案手法はOSCCにおいて0.796の精度を実現し,PNRでは0.516の絶対時間局所化誤差を達成した。 これらの優れた結果は、Ego4D OSCC & PNR-TL Challenge 2022のリーダーボードにランクインした。

Capturing the state changes of interacting objects is a key technology for understanding human-object interactions. This technical report describes our method using heterogeneous backbones for the Ego4D Object State Change Classification and PNR Temporal Localization Challenge. In the challenge, we used the heterogeneous video understanding backbones, namely CSN with 3D convolution as operator and VideoMAE with Transformer as operator. Our method achieves an accuracy of 0.796 on OSCC while achieving an absolute temporal localization error of 0.516 on PNR. These excellent results rank 1st on the leaderboard of Ego4D OSCC & PNR-TL Challenge 2022.
翻訳日:2022-11-17 15:30:22 公開日:2022-11-16
# 知識蒸留法によるヨロV5を用いたシトラ果実の収量評価

Yield Evaluation of Citrus Fruits based on the YoloV5 compressed by Knowledge Distillation ( http://arxiv.org/abs/2211.08743v1 )

ライセンス: Link先を確認
Yuqi Li, Yuting He, Yihang Zhou, Zirui Gong and Renjie Huang(参考訳) 果樹栽培の分野では,果実収量の前収穫量の推定が果樹の貯蔵と価格評価に重要である。 しかし、コストを考慮すると、未熟果実を直接摘み取ることで各木の収量を評価することはできない。 そのため、この問題は非常に難しい課題である。 本稿では,キツネ属の果実を例として,コンピュータビジョンに基づく実数と収量評価法を提案する。 まず、異なる角度からの単果樹の画像を取得し、深部畳み込みニューラルネットワークモデルYOLOv5を用いて果実数を検出し、知識蒸留法を用いてモデルを圧縮する。 次に, 線形回帰法を用いて収量に関する特徴をモデル化し, 収量を評価する。 実験により, 提案手法は果実を正確に数え, 収率を近似できることがわかった。

In the field of planting fruit trees, pre-harvest estimation of fruit yield is important for fruit storage and price evaluation. However, considering the cost, the yield of each tree cannot be assessed by directly picking the immature fruit. Therefore, the problem is a very difficult task. In this paper, a fruit counting and yield assessment method based on computer vision is proposed for citrus fruit trees as an example. Firstly, images of single fruit trees from different angles are acquired and the number of fruits is detected using a deep Convolutional Neural Network model YOLOv5, and the model is compressed using a knowledge distillation method. Then, a linear regression method is used to model yield-related features and evaluate yield. Experiments show that the proposed method can accurately count fruits and approximate the yield.
翻訳日:2022-11-17 15:30:09 公開日:2022-11-16
# TransCC:マルチタスク学習を用いたトランスフォーマーを用いたマルチイルミナントカラーコンステンシー

TransCC: Transformer-based Multiple Illuminant Color Constancy Using Multitask Learning ( http://arxiv.org/abs/2211.08772v1 )

ライセンス: Link先を確認
Shuwei Li, Jikai Wang, Michael S. Brown, Robby T. Tan(参考訳) マルチイルミナント色濃度は、いくつかの既存手法では難しい問題である。 例えば、ある先行研究では、予め定義されたホワイトバランスの設定の小さなセットを使用し、その間に空間的にブレンドし、あらかじめ定義された照明に溶液を制限した。 別の手法では、生成逆ネットワークと角損失を提案したが、多色照明色の正規化が欠如しているため、性能は最適ではない。 本稿では,単一入力画像から単色および複数光色を推定するトランスベースマルチタスク学習手法を提案する。 深層学習モデルにおいて,光色,無彩色・画素検出,エッジ検出が,マルチタスク学習環境における補助的タスクとして使用される。 入力画像から抽出されたコンテンツ特徴をトークンとして活用することにより、我々のトランスフォーマの文脈情報を利用して画素間の照度色相関を学習する。 我々のトランスアプローチは、入力、出力、および基底真理の間に定義された対照的な損失によってさらに補助される。 提案手法は,マルチイルミナントデータセット(LSMI)上で,最先端のマルチイルミナントカラーコンスタンス法と比較して40.7%改善可能であることを示す。 さらに,本モデルは単一照度データセット (nus-8) 上でロバストな性能を維持し,最先端の単一カラーコンステンシー法を22.3%改善した。

Multi-illuminant color constancy is a challenging problem with only a few existing methods. For example, one prior work used a small set of predefined white balance settings and spatially blended among them, limiting the solution to predefined illuminations. Another method proposed a generative adversarial network and an angular loss, yet the performance is suboptimal due to the lack of regularization for multi-illumination colors. This paper introduces a transformer-based multi-task learning method to estimate single and multiple light colors from a single input image. To help our deep learning model have better cues of the light colors, achromatic-pixel detection, and edge detection are used as auxiliary tasks in our multi-task learning setting. By exploiting extracted content features from the input image as tokens, illuminant color correlations between pixels are learned by leveraging contextual information in our transformer. Our transformer approach is further assisted via a contrastive loss defined between the input, output, and ground truth. We demonstrate that our proposed model achieves 40.7% improvement compared to a state-of-the-art multi-illuminant color constancy method on a multi-illuminant dataset (LSMI). Moreover, our model maintains a robust performance on the single illuminant dataset (NUS-8) and provides 22.3% improvement on the state-of-the-art single color constancy method.
翻訳日:2022-11-17 15:29:58 公開日:2022-11-16
# lightdepth: カリキュラム学習による基礎的真理スパーシティに対処するための資源効率の高い深さ推定手法

LightDepth: A Resource Efficient Depth Estimation Approach for Dealing with Ground Truth Sparsity via Curriculum Learning ( http://arxiv.org/abs/2211.08608v1 )

ライセンス: Link先を確認
Fatemeh Karimi, Amir Mehrpanah, Reza Rawassizadeh(参考訳) ニューラルネットワークの進歩により、屋外シーンの深さ推定などの複雑なコンピュータビジョンタスクを前例のない精度で処理できる。 深度推定の研究が進められている。 しかし、現在の取り組みは計算資源集約であり、ロボットやドローンのような自律装置のリソース制約を考慮していない。 本研究では,深度推定のための高速かつバッテリ効率のアプローチを提案する。 本手法は,深さ推定のためのモデル非依存なカリキュラムベース学習を考案する。 実験の結果,我々のモデルが最先端モデルと同等に動作し,応答時間が他のモデルより71%向上していることがわかった。 すべてのコードはhttps://github.com/fatemehkarimii/LightDepth.comで公開されている。

Advances in neural networks enable tackling complex computer vision tasks such as depth estimation of outdoor scenes at unprecedented accuracy. Promising research has been done on depth estimation. However, current efforts are computationally resource-intensive and do not consider the resource constraints of autonomous devices, such as robots and drones. In this work, we present a fast and battery-efficient approach for depth estimation. Our approach devises model-agnostic curriculum-based learning for depth estimation. Our experiments show that the accuracy of our model performs on par with the state-of-the-art models, while its response time outperforms other models by 71%. All codes are available online at https://github.com/fatemehkarimii/LightDepth.
翻訳日:2022-11-17 15:22:10 公開日:2022-11-16
# r-pred:チューブ問合せによる2段階運動予測

R-Pred: Two-Stage Motion Prediction Via Tube-Query Attention-Based Trajectory Refinement ( http://arxiv.org/abs/2211.08609v1 )

ライセンス: Link先を確認
Sehwan Choi, Jungho Kim, Junyong Yun, Jun Won Choi(参考訳) 自律ロボットの動作計画における安全性の確保やリスク評価には,動的エージェントの今後の動きを予測することが極めて重要である。 本稿では,最初の軌道提案ネットワークと軌道修正ネットワークのカスケードを用いて,シーンとインタラクションの両方を効果的に活用する,R-Predと呼ばれる2段階の動作予測手法を提案する。 初期軌道提案ネットワークは、将来の軌道分布のmモードに対応するm軌道提案を生成する。 軌道修正ネットワークは、m提案のそれぞれを改良する 1)チューブ検索シーンアテンション(tqsa)および 2)提案レベルのインタラクションアテンション(PIA)。 tqsaはチューブキューを使用して、興味のある軌道提案の周辺からプールされたローカルなシーンコンテキストを集約する。 PIAはさらに、隣接するエージェントからの距離に基づいて選択された一連の軌道提案を用いて、エージェント間相互作用をモデル化することで、軌道提案をさらに強化する。 Argoverse および nuScenes データセットを用いて行った実験により,提案する改良ネットワークは,単段ベースラインと比較して大幅な性能向上を実現し,R-Pred がベンチマークのいくつかのカテゴリで最先端のパフォーマンスを達成することを示した。

Predicting the future motion of dynamic agents is of paramount importance to ensure safety or assess risks in motion planning for autonomous robots. In this paper, we propose a two-stage motion prediction method, referred to as R-Pred, that effectively utilizes both the scene and interaction context using a cascade of the initial trajectory proposal network and the trajectory refinement network. The initial trajectory proposal network produces M trajectory proposals corresponding to M modes of a future trajectory distribution. The trajectory refinement network enhances each of M proposals using 1) the tube-query scene attention (TQSA) and 2) the proposal-level interaction attention (PIA). TQSA uses tube-queries to aggregate the local scene context features pooled from proximity around the trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected based on their distances from neighboring agents. Our experiments conducted on the Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmark.
翻訳日:2022-11-17 15:21:59 公開日:2022-11-16
# CoNFies:制御可能なニューラルフェイスアバター

CoNFies: Controllable Neural Face Avatars ( http://arxiv.org/abs/2211.08610v1 )

ライセンス: Link先を確認
Heng Yu, Koichiro Niinuma, Laszlo A. Jeni(参考訳) ニューラルラジアンス場(NeRF)は、2次元画像コレクションから動的3次元シーンをモデリングするための魅力的な技術である。 これらのボリューム表現は、新しい表情の合成に適しているが、2つの問題には適している。 まず、変形可能なNeRFは、シーンのオブジェクト非依存的かつモデル全体的運動であり、時間とともに動きがどのように変化するかを再現できるが、解釈可能な方法では変更できない。 第二に、制御可能なボリューム表現は、通常、シーンに意味を与えるために、時間を要するマニュアルアノテーションまたは3Dの監督を必要とする。 顔の自己像(CoNFies)に対する制御可能なニューラル表現を提案し,これら2つの問題を共通のフレームワーク内で解決し,自動処理に依存する。 自動顔行動認識(AFAR)を用いて、表情をアクション単位(AU)とその強度の組み合わせとして特徴付ける。 AUはシステムのセマンティックロケーションとコントロールラベルの両方を提供する。 CoNFiesは、視覚的および解剖学的表現の忠実度の観点から、新しいビューと表現合成のための競合する手法より優れていた。

Neural Radiance Fields (NeRF) are compelling techniques for modeling dynamic 3D scenes from 2D image collections. These volumetric representations would be well suited for synthesizing novel facial expressions but for two problems. First, deformable NeRFs are object agnostic and model holistic movement of the scene: they can replay how the motion changes over time, but they cannot alter it in an interpretable way. Second, controllable volumetric representations typically require either time-consuming manual annotations or 3D supervision to provide semantic meaning to the scene. We propose a controllable neural representation for face self-portraits (CoNFies), that solves both of these problems within a common framework, and it can rely on automated processing. We use automated facial action recognition (AFAR) to characterize facial expressions as a combination of action units (AU) and their intensities. AUs provide both the semantic locations and control labels for the system. CoNFies outperformed competing methods for novel view and expression synthesis in terms of visual and anatomic fidelity of expressions.
翻訳日:2022-11-17 15:21:39 公開日:2022-11-16
# GLFF:顔偽造検出のためのグローバル・ローカル機能融合

GLFF: Global and Local Feature Fusion for Face Forgery Detection ( http://arxiv.org/abs/2211.08615v1 )

ライセンス: Link先を確認
Yan Ju, Shan Jia, Jialing Cai, Haiying Guan, Siwei Lyu(参考訳) 深層生成モデル(ジェネレーティブ・アドバイサル・ネットワークやオート・エンコーダなど)の急速な発展に伴い、人間の顔のAI合成画像は質の高いものとなり、人間が原始的画像と区別することがほとんどなくなった。 既存の検出手法は、例えば実世界のポストプロセッシングなしで見たモデルや画像の特定の評価設定で高い性能を示してきたが、より強力な世代モデルや様々なポストプロセッシング操作によってテスト画像が生成される現実のシナリオでは、深刻なパフォーマンス劣化に悩まされる傾向にある。 そこで本研究では,画像全体から多スケールのグローバル特徴と,顔偽造検出のための情報パッチから洗練された局所特徴を組み合わせることで,リッチで判別的な表現を学習するグローバル・ローカル特徴融合(glff)を提案する。 GLFFはグローバルブランチとローカルブランチの2つのブランチから情報を抽出し、詳細なローカルアーティファクト抽出のための情報パッチを選択する。 実世界のアプリケーションをシミュレートして評価するface forgeryデータセットが不足しているため、deepfakefaceforensics(df$^3$)という、挑戦的なface forgeryデータセットを作成します。 実験により,提案したDF^3データセットおよび他の3つのオープンソースデータセットの最先端手法に対する本手法の優位性を示した。

With the rapid development of the deep generative models (such as Generative Adversarial Networks and Auto-encoders), AI-synthesized images of human face are now of such high qualities that humans can hardly distinguish them from pristine ones. Although existing detection methods have shown high performance in specific evaluation settings, e.g., on images from seen models or on images without real-world post-processings, they tend to suffer serious performance degradation in real-world scenarios where testing images can be generated by more powerful generation models or combined with various post-processing operations. To address this issue, we propose a Global and Local Feature Fusion (GLFF) to learn rich and discriminative representations by combining multi-scale global features from the whole image with refined local features from informative patches for face forgery detection. GLFF fuses information from two branches: global branch to extract multi-scale semantic features and local branch to select informative patches for detailed local artifacts extraction. Due to the lack of face forgery dataset simulating real-world applications for evaluation, we further create a challenging face forgery dataset, named DeepFakeFaceForensics (DF$^3$), which contains 6 state-of-the-art generation models and a variety of post-processing techniques to approach the real-world scenarios. Experimental results demonstrate the superiority of our method to the state-of-the-art methods on the proposed DF^3 dataset and three other open-source datasets.
翻訳日:2022-11-17 15:21:21 公開日:2022-11-16
# 大規模ネットワークにおける分散ノード被覆最適化とソーシャル広告への応用

Distributed Node Covering Optimization for Large Scale Networks and Its Application on Social Advertising ( http://arxiv.org/abs/2211.08738v1 )

ライセンス: Link先を確認
Qiang Liu(参考訳) 組合せ最適化は通常複雑で非効率であり、数十億のリンクを持つ大規模ネットワークのアプリケーションを制限する。 本稿では,実シナリオの規模でノード被覆問題を解決する分散計算手法を提案する。 まず、遺伝的アルゴリズムを構築し、次に候補解を初期化する2段階の戦略を設計する。 すべての計算処理は、実用的なグラフの高速計算を可能にする \textit{apache spark} 上の分散形式で設計され、開発されている。 本手法は,従来の推薦・ランキング問題としてのみ扱われていたオンラインモバイルゲームにおいて,ユーザをリコールするソーシャル広告に適用する。

Combinatorial optimizations are usually complex and inefficient, which limits their applications in large-scale networks with billions of links. We introduce a distributed computational method for solving a node-covering problem at the scale of factual scenarios. We first construct a genetic algorithm and then design a two-step strategy to initialize the candidate solutions. All the computational operations are designed and developed in a distributed form on \textit{Apache Spark} enabling fast calculation for practical graphs. We apply our method to social advertising of recalling back churn users in online mobile games, which was previously only treated as a traditional item recommending or ranking problem.
翻訳日:2022-11-17 15:14:56 公開日:2022-11-16
# TINC:木構造インプシットニューラル圧縮

TINC: Tree-structured Implicit Neural Compression ( http://arxiv.org/abs/2211.06689v2 )

ライセンス: Link先を確認
Runzhao Yang, Tingxiong Xiao, Yuxiao Cheng, Jinli Suo, Qionghai Dai(参考訳) Inlicit Neural representation (INR)は、少数のパラメータを用いて高い忠実度でターゲットシーンを記述することができ、有望なデータ圧縮技術として登場している。 しかし、INRは本質的にスペクトル範囲が限られており、多様な複雑なデータの冗長性を効果的に除去することは自明ではない。 予備的な研究は、対象データにおける大域的または局所的な相関のみを活用できるため、性能が制限される。 本稿では,局所領域に対してコンパクトな表現を行い,これらの局所表現の共有特徴を階層的に抽出する木構造型インプリシトニューラルネットワーク圧縮(TINC)を提案する。 具体的には, mlpを分割した局所領域に適合させ, これらのmlpを木構造に整理し, 空間距離に応じてパラメータを共有する。 パラメータ共有方式は隣接領域間の連続性を保証するだけでなく、局所的および非局所的な冗長性も同時に除去する。 大規模な実験により、TINCはINRの圧縮精度を改善し、商用ツールや他のディープラーニングベースの手法よりも印象的な圧縮能力を示した。 さらに、このアプローチは柔軟性が高く、さまざまなデータやパラメータ設定に合わせて調整できる。 再現可能なすべてのコードはgithubでリリースされる予定だ。

Implicit neural representation (INR) can describe the target scenes with high fidelity using a small number of parameters, and is emerging as a promising data compression technique. However, INR in intrinsically of limited spectrum coverage, and it is non-trivial to remove redundancy in diverse complex data effectively. Preliminary studies can only exploit either global or local correlation in the target data and thus of limited performance. In this paper, we propose a Tree-structured Implicit Neural Compression (TINC) to conduct compact representation for local regions and extract the shared features of these local representations in a hierarchical manner. Specifically, we use MLPs to fit the partitioned local regions, and these MLPs are organized in tree structure to share parameters according to the spatial distance. The parameter sharing scheme not only ensures the continuity between adjacent regions, but also jointly removes the local and non-local redundancy. Extensive experiments show that TINC improves the compression fidelity of INR, and has shown impressive compression capabilities over commercial tools and other deep learning based methods. Besides, the approach is of high flexibility and can be tailored for different data and parameter settings. All the reproducible codes are going to be released on github.
翻訳日:2022-11-17 15:14:46 公開日:2022-11-16
# Cosine Transformerを用いたFew-shot画像分類の高速化

Enhancing Few-shot Image Classification with Cosine Transformer ( http://arxiv.org/abs/2211.06828v2 )

ライセンス: Link先を確認
Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham, Minh N. Do(参考訳) 本稿では,少ないショット画像の分類問題に対処する。 少数ショット学習の注目すべき制限の1つは、同じカテゴリを記述する際のバリエーションであり、小さなラベル付きサポートと大きなラベル付きクエリセットとの間に大きな違いが生じる可能性がある。 提案手法は,2つの集合間の関係ヒートマップを取得し,後者をトランスダクティブな設定でラベル付けすることである。 これは、スケールしたドット生成機構によるクロスアテンションを用いて解決できる。 しかし、2つの異なる組の埋め込みベクトル間のマグニチュード差は出力注意マップに大きな影響を与え、モデル性能に影響を及ぼす可能性がある。 我々は、コサイン類似性による注意機構の改善によりこの問題に対処する。 具体的には,FS-CT(Few-shot Cosine Transformer)を開発した。 提案するコサインアテンションは,ミニイメージネット,cub-200,cifar-fsの3つのマイナショットデータセットにおいて,各種シナリオのベースラインスケールドドット製品アテンションと比較して,fs-ctの性能を5%から20%以上向上させた。 さらに,注意モジュールに与える前に,学習可能な重みでカテゴリ表現のための原型的埋め込みを強化する。 提案手法であるFS-CTとCosineの注意は実装が簡単であり,幅広い応用に適用可能である。 私たちのコードはhttps://github.com/vinuni-vishc/Few-Shot-Cosine-Transformerで利用可能です。

This paper addresses the few-shot image classification problem. One notable limitation of few-shot learning is the variation in describing the same category, which might result in a significant difference between small labeled support and large unlabeled query sets. Our approach is to obtain a relation heatmap between the two sets in order to label the latter one in a transductive setting manner. This can be solved by using cross-attention with the scaled dot-product mechanism. However, the magnitude differences between two separate sets of embedding vectors may cause a significant impact on the output attention map and affect model performance. We tackle this problem by improving the attention mechanism with cosine similarity. Specifically, we develop FS-CT (Few-shot Cosine Transformer), a few-shot image classification method based on prototypical embedding and transformer-based framework. The proposed Cosine attention improves FS-CT performances significantly from nearly 5% to over 20% in accuracy compared to the baseline scaled dot-product attention in various scenarios on three few-shot datasets mini-ImageNet, CUB-200, and CIFAR-FS. Additionally, we enhance the prototypical embedding for categorical representation with learnable weights before feeding them to the attention module. Our proposed method FS-CT along with the Cosine attention is simple to implement and can be applied for a wide range of applications. Our codes are available at https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
翻訳日:2022-11-17 15:14:25 公開日:2022-11-16
# 臨床像からみた脳MRI像の解剖学的変化

Clinically Plausible Pathology-Anatomy Disentanglement in Patient Brain MRI with Structured Variational Priors ( http://arxiv.org/abs/2211.07820v2 )

ライセンス: Link先を確認
Anjun Hu, Jean-Pierre R. Falet, Brennan S. Nichyporuk, Changjian Shui, Douglas L. Arnold, Sotirios A. Tsaftaris, Tal Arbel(参考訳) 脳mriの被検体特異的解剖から疾患の観察可能な証拠(例えば脳病変や萎縮)を正確に抽出するための階層的構造的変分推論モデルを提案する。 柔軟性, 部分自己回帰的先行性では, 1)MRIの解剖学的および病理学的発生因子間の微妙できめ細かな依存関係に対処し, 生成標本の臨床的妥当性を保証し, (2) 患者の疾患状態に関するより詳細な病理的詳細を保存・解離する。 さらに、潜在ユニットのサブセットに監督を提供する代替のトレーニング構成を実験する。 その結果,(1)部分的に監督された潜在空間は,疾患のエビデンスと被検体特異的解剖学との間に高い不連続性が達成され,(2)事前が自己回帰構造で定式化されている場合,監督の知識は教師なしの潜在空間に伝播し,解剖病理学の相互依存性をモデル化できるより有益な潜在性表現が得られることが示された。

We propose a hierarchically structured variational inference model for accurately disentangling observable evidence of disease (e.g. brain lesions or atrophy) from subject-specific anatomy in brain MRIs. With flexible, partially autoregressive priors, our model (1) addresses the subtle and fine-grained dependencies that typically exist between anatomical and pathological generating factors of an MRI to ensure the clinical validity of generated samples; (2) preserves and disentangles finer pathological details pertaining to a patient's disease state. Additionally, we experiment with an alternative training configuration where we provide supervision to a subset of latent units. It is shown that (1) a partially supervised latent space achieves a higher degree of disentanglement between evidence of disease and subject-specific anatomy; (2) when the prior is formulated with an autoregressive structure, knowledge from the supervision can propagate to the unsupervised latent units, resulting in more informative latent representations capable of modelling anatomy-pathology interdependencies.
翻訳日:2022-11-17 15:13:59 公開日:2022-11-16
# 連続蒸留点サンプリングによる検出変圧器の知識蒸留

Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling ( http://arxiv.org/abs/2211.08071v2 )

ライセンス: Link先を確認
Yu Wang, Xin Li, Shengzhao Wen, Fukui Yang, Wanping Zhang, Gang Zhang, Haocheng Feng, Junyu Han, Errui Ding(参考訳) detrは、新しいエンドツーエンドトランスフォーマーアーキテクチャのオブジェクト検出器であり、モデルサイズをスケールアップする際の古典的な検出器を大幅に上回る。 本稿では,DeTRの知識蒸留による圧縮に着目した。 知識蒸留は古典的な検出器でよく研究されているが、DETRで効果的に機能させる方法の研究は乏しい。 まず, 実験および理論的解析を行い, デトル蒸留における主な課題は, 一貫性のある蒸留点の欠如にあることを指摘した。 蒸留点とは、生徒が模倣する予測の対応する入力を指し、信頼できる蒸留には、教師と生徒の一貫性のある十分な蒸留点が必要である。 そこで本研究では,一貫した蒸留点をサンプリングしたDETR(KD-DETR)の一般知識蒸留パラダイムを提案する。 具体的には, 蒸留点を構成するための特殊オブジェクトクエリの集合を導入することで, 検出・蒸留タスクを分離する。 本パラダイムでは,KD-DETRの拡張性を検討するため,一般から特定の蒸留点サンプリング戦略を提案する。 種々のバックボーンとトランスフォーマー層を有する異なるDETRアーキテクチャの広範な実験により、KD-DETRの有効性と一般化が検証された。 KD-DETRはDAB-DETRのパフォーマンスをResNet-18とResNet-50のバックボーンで41.4$\%$、45.7$\%$mAPに向上させ、それぞれベースラインよりも5.2$\%$、3.5$\%$高い。

DETR is a novel end-to-end transformer architecture object detector, which significantly outperforms classic detectors when scaling up the model size. In this paper, we focus on the compression of DETR with knowledge distillation. While knowledge distillation has been well-studied in classic detectors, there is a lack of researches on how to make it work effectively on DETR. We first provide experimental and theoretical analysis to point out that the main challenge in DETR distillation is the lack of consistent distillation points. Distillation points refer to the corresponding inputs of the predictions for student to mimic, and reliable distillation requires sufficient distillation points which are consistent between teacher and student. Based on this observation, we propose a general knowledge distillation paradigm for DETR(KD-DETR) with consistent distillation points sampling. Specifically, we decouple detection and distillation tasks by introducing a set of specialized object queries to construct distillation points. In this paradigm, we further propose a general-to-specific distillation points sampling strategy to explore the extensibility of KD-DETR. Extensive experiments on different DETR architectures with various scales of backbones and transformer layers validate the effectiveness and generalization of KD-DETR. KD-DETR boosts the performance of DAB-DETR with ResNet-18 and ResNet-50 backbone to 41.4$\%$, 45.7$\%$ mAP, respectively, which are 5.2$\%$, 3.5$\%$ higher than the baseline, and ResNet-50 even surpasses the teacher model by $2.2\%$.
翻訳日:2022-11-17 15:13:36 公開日:2022-11-16
# ニューラルアントラクタによる原語形態の再構成

Neural Unsupervised Reconstruction of Protolanguage Word Forms ( http://arxiv.org/abs/2211.08684v1 )

ライセンス: Link先を確認
Andre He, Nicholas Tomlin, Dan Klein(参考訳) 古語形態の教師なし再構成に対する最先端のニューラルアプローチを提案する。 この領域の以前の研究は、古代の語形と現代の言語におけるコニャートの間の単純な音韻学的変化を予測するために期待最大化を用いた。 我々はこの仕事を神経モデルで拡張し、より複雑な音韻学的および形態的変化を捉えることができる。 同時に,単調アライメント制約をモデルに構築し,最大化ステップ中に意図的に不適合することで,古典的手法からの帰納的バイアスを保存できる。 5つのロマンス言語にまたがるコーグネートのデータセットからラテン語を再構築する作業における性能を評価し,従来の手法と比較して,単語形式からの編集距離を著しく短縮した。

We present a state-of-the-art neural approach to the unsupervised reconstruction of ancient word forms. Previous work in this domain used expectation-maximization to predict simple phonological changes between ancient word forms and their cognates in modern languages. We extend this work with neural models that can capture more complicated phonological and morphological changes. At the same time, we preserve the inductive biases from classical methods by building monotonic alignment constraints into the model and deliberately underfitting during the maximization step. We evaluate our performance on the task of reconstructing Latin from a dataset of cognates across five Romance languages, achieving a notable reduction in edit distance from the target word forms compared to previous methods.
翻訳日:2022-11-17 15:05:45 公開日:2022-11-16
# 意見要約のためのノイズペアリングと部分的監督

Noisy Pairing and Partial Supervision for Opinion Summarization ( http://arxiv.org/abs/2211.08723v1 )

ライセンス: Link先を確認
Hayate Iso and Xiaolan Wang and Yoshi Suhara(参考訳) 現在の世論要約システムは、単に顧客レビューから重要な意見を反映した要約を生成するが、生成された要約は読者の注目を集めるものではない。 顧客レビューからプロのレビュアーのような要約を自動的に生成するのは便利だが、顧客レビューとプロレビューのトレーニングペアの収集は一般的に難しい。 顧客と専門的なレビューのペアを伴わずに、スタイリングされた意見要約システムを構築することができる、弱教師付き意見要約フレームワーク、ノイズペアリングと部分スーパービジョン(NAPA)を提案する。 実験の結果,自動評価の指標は一貫した改善がみられ,定性的な分析により,我々の弱教師付き意見要約システムは,専門家が書いたような要約を生成できることがわかった。

Current opinion summarization systems simply generate summaries reflecting important opinions from customer reviews, but the generated summaries may not attract the reader's attention. Although it is helpful to automatically generate professional reviewer-like summaries from customer reviews, collecting many training pairs of customer and professional reviews is generally tricky. We propose a weakly supervised opinion summarization framework, Noisy Pairing and Partial Supervision (NAPA) that can build a stylized opinion summarization system with no customer-professional review pairs. Experimental results show consistent improvements in automatic evaluation metrics, and qualitative analysis shows that our weakly supervised opinion summarization system can generate summaries that look more like those written by professional reviewers.
翻訳日:2022-11-17 15:05:31 公開日:2022-11-16
# ELBERTを用いた高速高精度FSAシステム:高効率軽量BERT

Fast and Accurate FSA System Using ELBERT: An Efficient and Lightweight BERT ( http://arxiv.org/abs/2211.08842v1 )

ライセンス: Link先を確認
Siyuan Lu, Chenchen Zhou, Keli Xie, Shiyi Liu, Jun Lin, and Zhongfeng Wang(参考訳) 自然言語処理(NLP)技術の応用として、金融感情分析(FSA)が投資家にとって貴重なツールとなっている。 BERTのようなディープラーニングとTransformerベースの事前学習モデルの開発により、FSAの精度は大幅に改善されているが、これらの時間を要する大きなモデルも計算を遅くする。 FSAシステムの処理速度を向上し、高精度を確保するため、我々はまず、新しい信頼ウィンドウベース(CWB)早期出口機構とともに、効率的で軽量なBERT(ELBERT)を提案する。 elbertに基づき、gpuプラットフォーム上でのテキスト処理を高速化する革新的な方法が開発され、入力バッチサイズが大きい場合に、アーリーエグジット機構をより効果的に動作させるという難題が解決される。 その後、高速かつ高精度なfsaシステムが構築される。 実験の結果,提案したCWB早期出口機構は同じ計算コストで既存のBERT早期出口法よりも精度が高いことがわかった。 さらに,本システムでは,高速ベルトの約2倍の高速化を実現することで,毎秒1,000テキスト以上の処理速度を十分な精度で向上させることができる。 これにより、現代のトレーディングシステムは金融テキストデータを迅速かつ正確に処理することができる。

As an application of Natural Language Processing (NLP) techniques, financial sentiment analysis (FSA) has become an invaluable tool for investors. Its speed and accuracy can significantly impact the returns of trading strategies.With the development of deep learning and Transformer-based pre-trained models like BERT, the accuracy of FSA has been much improved, but these time-consuming big models will also slow down the computation. To boost the processing speed of the FSA system and ensure high precision, we first propose an efficient and lightweight BERT (ELBERT) along with a novel confidence-window-based (CWB) early exit mechanism. Based on ELBERT, an innovative method to accelerate text processing on the GPU platform is developed, solving the difficult problem of making the early exit mechanism work more effectively with a large input batch size. Afterward, a fast and high-accuracy FSA system is built. Experimental results show that the proposed CWB early exit mechanism achieves significantly higher accuracy than existing early exit methods on BERT under the same computation cost. Besides, our FSA system can boost the processing speed to over 1000 texts per second with sufficient accuracy by using this acceleration method, which is nearly twice as fast as the FastBERT. Hence, this system can enable modern trading systems to quickly and accurately process financial text data.
翻訳日:2022-11-17 15:05:16 公開日:2022-11-16
# TSMind:AlibabaとSoochow UniversityのWMT22翻訳提案タスクへの提出

TSMind: Alibaba and Soochow University's Submission to the WMT22 Translation Suggestion Task ( http://arxiv.org/abs/2211.08987v1 )

ライセンス: Link先を確認
Xin Ge, Ke Wang, Jiayi Wang, Nini Xiao, Xiangyu Duan, Yu Zhao, Yuqi Zhang(参考訳) 本稿では,Alibaba と Soochow University, TSMind の WMT 2022 Shared Task on Translation Suggestion (TS) への共同提出について述べる。 私たちは英語とドイツ語のタスクに参加します。 基本的に,大規模事前学習モデルに基づく下流タスクの微調整をモデルパラダイムに応用し,近年大きな成功を収めている。 FAIR の WMT19 ニュース翻訳システムと MBART50 を事前学習モデルとして選択する。 トレーニングデータの限られた使用状況を考えると,WeTSが提案するデータ拡張戦略に従えば,TSモデルの性能が向上する。 差は、拡張データをフィルタリングするために、二重条件交叉エントロピーモデルとGPT-2言語モデルをさらに含むことである。 WMT22翻訳提案タスクのNaive TSタスクにおいて、我々の提案が4つの言語方向のうち3つにランクインしていることを示す。

This paper describes the joint submission of Alibaba and Soochow University, TSMind, to the WMT 2022 Shared Task on Translation Suggestion (TS). We participate in the English-German and English-Chinese tasks. Basically, we utilize the model paradigm fine-tuning on the downstream tasks based on large-scale pre-trained models, which has recently achieved great success. We choose FAIR's WMT19 English-German news translation system and MBART50 for English-Chinese as our pre-trained models. Considering the task's condition of limited use of training data, we follow the data augmentation strategies proposed by WeTS to boost our TS model performance. The difference is that we further involve the dual conditional cross-entropy model and GPT-2 language model to filter augmented data. The leader board finally shows that our submissions are ranked first in three of four language directions in the Naive TS task of the WMT22 Translation Suggestion task.
翻訳日:2022-11-17 15:04:54 公開日:2022-11-16
# unirel:関節リレーショナルトリプル抽出のための統一表現と相互作用

UniRel: Unified Representation and Interaction for Joint Relational Triple Extraction ( http://arxiv.org/abs/2211.09039v1 )

ライセンス: Link先を確認
Wei Tang, Benfeng Xu, Yuyue Zhao, Zhendong Mao, Yifeng Liu, Yong Liao, Haiyong Xie(参考訳) リレーショナルトリプル抽出は、エンティティとリレーショナルの間のリッチな相関を捉えるのが困難である。 既存の作品が苦しむ 1)実体と関係の不均一な表現、及び 2)エンティティ・エンティティ相互作用とエンティティ・リレーション相互作用の異種モデリング。 したがって、豊富な相関関係は既存の作品では十分に活用されていない。 本稿では,これらの課題に対処するためにUniRelを提案する。 具体的には、エンティティと関係の表現を、連結した自然言語シーケンスに共同で符号化することで統一し、任意のトランスフォーマーブロック内の自己認識機構に基づいて構築された対話マップと相互作用のモデリングを統合する。 2つの一般的なリレーショナルトリプル抽出データセットに関する総合的な実験により、UniRelはより効率的で計算的に効率的であることを示す。 ソースコードはhttps://github.com/wtangdev/UniRelで入手できる。

Relational triple extraction is challenging for its difficulty in capturing rich correlations between entities and relations. Existing works suffer from 1) heterogeneous representations of entities and relations, and 2) heterogeneous modeling of entity-entity interactions and entity-relation interactions. Therefore, the rich correlations are not fully exploited by existing works. In this paper, we propose UniRel to address these challenges. Specifically, we unify the representations of entities and relations by jointly encoding them within a concatenated natural language sequence, and unify the modeling of interactions with a proposed Interaction Map, which is built upon the off-the-shelf self-attention mechanism within any Transformer block. With comprehensive experiments on two popular relational triple extraction datasets, we demonstrate that UniRel is more effective and computationally efficient. The source code is available at https://github.com/wtangdev/UniRel.
翻訳日:2022-11-17 15:04:38 公開日:2022-11-16
# 言語モデルのための計算検証可能なセマンティクスの基盤化に向けて

Towards Computationally Verifiable Semantic Grounding for Language Models ( http://arxiv.org/abs/2211.09070v1 )

ライセンス: Link先を確認
Chris Alberti, Kuzman Ganchev, Michael Collins, Sebastian Gehrmann, Ciprian Chelba(参考訳) 本稿では,エンティティ関係三重項の組として形式化されたテキストを生成する条件付きモデルとしてlmを概念化した言語モデル(lms)のセマンティックグラウンド化へのアプローチを提案する。 出力が入力メッセージと同じ表現領域にあるセマンティックパーサに出力を供給することで、LMを自動エンコーダに埋め込む。 グリージー検索を用いてテキストを生成するベースラインと比較して、生成したテキストの流布率と意味的精度を改善する2つのテクニックを実証する。 2つ目は、自動エンコーダの意味的精度を改善するために、セマンティックパーサを凍結させながら言語モデルを訓練する。 我々は、BLEUを用いて英語WebNLG 3.0データセットの実験を行い、生成したテキストの流速を計測し、標準的な解析基準を用いて意味的精度を計測した。 提案手法が欲望検索ベースラインにおいて大幅に改善することを示す。 人的評価は自動評価実験の結果を裏付けるものである。

The paper presents an approach to semantic grounding of language models (LMs) that conceptualizes the LM as a conditional model generating text given a desired semantic message formalized as a set of entity-relationship triples. It embeds the LM in an auto-encoder by feeding its output to a semantic parser whose output is in the same representation domain as the input message. Compared to a baseline that generates text using greedy search, we demonstrate two techniques that improve the fluency and semantic accuracy of the generated text: The first technique samples multiple candidate text sequences from which the semantic parser chooses. The second trains the language model while keeping the semantic parser frozen to improve the semantic accuracy of the auto-encoder. We carry out experiments on the English WebNLG 3.0 data set, using BLEU to measure the fluency of generated text and standard parsing metrics to measure semantic accuracy. We show that our proposed approaches significantly improve on the greedy search baseline. Human evaluation corroborates the results of the automatic evaluation experiments.
翻訳日:2022-11-17 15:04:26 公開日:2022-11-16
# 訳語 PaLM の試行:戦略と性能の評価

Prompting PaLM for Translation: Assessing Strategies and Performance ( http://arxiv.org/abs/2211.09102v1 )

ライセンス: Link先を確認
David Vilar, Markus Freitag, Colin Cherry, Jiaming Luo, Viresh Ratnakar, George Foster(参考訳) 多言語で訓練されているが、並列テキストではない大規模言語モデル(LLM)は、言語間の翻訳に顕著な能力を示している。 この能力は,これまで訓練されたLLMの中で最強の機械翻訳(MT)性能を示すパス言語モデル(PaLM)の詳細な研究で検証されている。 提案手法は,サンプル品質が最も重要な要因であることを結論づけて,翻訳例を選択するための様々な戦略を検討する。 最適化されたプロンプトを用いて、より最近のテストセット、現代のMTメトリクス、人的評価でPaLMのMT能力に関する以前の評価を再考し、その性能は印象的ながら、最先端の監視システムよりも遅れていることを発見した。 そこで我々は,PaLMのMT出力の分析を行い,今後の成果と今後の課題を明らかにした。

Large language models (LLMs) that have been trained on multilingual but not parallel text exhibit a remarkable ability to translate between languages. We probe this ability in an in-depth study of the pathways language model (PaLM), which has demonstrated the strongest machine translation (MT) performance among similarly-trained LLMs to date. We investigate various strategies for choosing translation examples for few-shot prompting, concluding that example quality is the most important factor. Using optimized prompts, we revisit previous assessments of PaLM's MT capabilities with more recent test sets, modern MT metrics, and human evaluation, and find that its performance, while impressive, still lags that of state-of-the-art supervised systems. We conclude by providing an analysis of PaLM's MT output which reveals some interesting properties and prospects for future work.
翻訳日:2022-11-17 15:04:09 公開日:2022-11-16
# データセットの固有最小ショット硬さの測定について

On Measuring the Intrinsic Few-Shot Hardness of Datasets ( http://arxiv.org/abs/2211.09113v1 )

ライセンス: Link先を確認
Xinran Zhao, Shikhar Murty, Christopher D. Manning(参考訳) 事前学習の進歩はnlpタスクの少数ショット学習に劇的な改善をもたらしたが、データセットにおける少数ショット適応の成功の要因は限定的である。 特に、新しいデータセットと事前学習されたモデルが与えられた場合、データセットのどのプロパティが \emph{few-shot learnable} となるか。 我々は、最近の数ショット学習手法を幅広く検討し、その性能が多数のデータセットにまたがる高い相関性を示し、与えられた事前学習モデルに対して、少数ショットの硬さがデータセットに固有の可能性があることを示す。 次に,本質的少数ショットハードネスを推定するために,訓練とテストサンプル間の特徴空間不変性を利用して,少数ショット学習が可能な直観を捉えた「スプレッド」と呼ばれる簡易で軽量なメトリクスを提案する。 私たちの測定基準は、既存のハードネスの概念と比べて、わずかなショットのハードネスを考慮し、計算速度は8~100倍速くなります。

While advances in pre-training have led to dramatic improvements in few-shot learning of NLP tasks, there is limited understanding of what drives successful few-shot adaptation in datasets. In particular, given a new dataset and a pre-trained model, what properties of the dataset make it \emph{few-shot learnable} and are these properties independent of the specific adaptation techniques used? We consider an extensive set of recent few-shot learning methods, and show that their performance across a large number of datasets is highly correlated, showing that few-shot hardness may be intrinsic to datasets, for a given pre-trained model. To estimate intrinsic few-shot hardness, we then propose a simple and lightweight metric called "Spread" that captures the intuition that few-shot learning is made possible by exploiting feature-space invariances between training and test samples. Our metric better accounts for few-shot hardness compared to existing notions of hardness, and is ~8-100x faster to compute.
翻訳日:2022-11-17 15:03:51 公開日:2022-11-16
# LEMMA: 記号的抽象を学習した高次数学的推論

LEMMA: Bootstrapping High-Level Mathematical Reasoning with Learned Symbolic Abstractions ( http://arxiv.org/abs/2211.08671v1 )

ライセンス: Link先を確認
Zhening Li, Gabriel Poesia, Omar Costilla-Reyes, Noah Goodman, Armando Solar-Lezama(参考訳) 人間は抽象の階層を発達させることで数学的推論の複雑さを和らげる。 適切な抽象化によって、難しい問題の解を簡潔に表現できるため、それらを見つける可能性が高まる。 本稿では,この概念を数学的領域における強化学習エージェントとして実装するアルゴリズムであるLearning Mathematical Abstractions (LEMMA)を提案する。 lemmaはエキスパートイテレーションを抽象化ステップで強化し、これまで見てきたソリューションが再検討され、新しい高レベルのアクションによって書き直され、新しい問題を解決するために利用できるようになる。 LEMMAを2つの数学的推論タスク(方程式解法と分数単純化法)で段階的に評価する。 これら2つの領域において、lemmaは既存のエージェントの能力を改善し、より多くの問題を解決し、訓練中に見られるよりも難しい問題に対してより効果的に一般化する。

Humans tame the complexity of mathematical reasoning by developing hierarchies of abstractions. With proper abstractions, solutions to hard problems can be expressed concisely, thus making them more likely to be found. In this paper, we propose Learning Mathematical Abstractions (LEMMA): an algorithm that implements this idea for reinforcement learning agents in mathematical domains. LEMMA augments Expert Iteration with an abstraction step, where solutions found so far are revisited and rewritten in terms of new higher-level actions, which then become available to solve new problems. We evaluate LEMMA on two mathematical reasoning tasks--equation solving and fraction simplification--in a step-by-step fashion. In these two domains, LEMMA improves the ability of an existing agent, both solving more problems and generalizing more effectively to harder problems than those seen during training.
翻訳日:2022-11-17 15:03:10 公開日:2022-11-16
# PBSM:ピッチアップとサウンドマスキングに基づくキーワードスポッティングに対するバックドア攻撃

PBSM: Backdoor attack against Keyword spotting based on pitch boosting and sound masking ( http://arxiv.org/abs/2211.08697v1 )

ライセンス: Link先を確認
Hanbo Cai, Pengcheng Zhang, Hai Dong, Yan Xiao, Shunhui Ji(参考訳) キーワードスポッティング(KWS)は様々な音声制御シナリオで広く使われている。 KWSのトレーニングは通常、ディープニューラルネットワークに基づいており、大量のデータを必要とする。 メーカーはしばしばサードパーティのデータを使ってkwを訓練する。 しかし、ディープニューラルネットワークはメーカーには十分に解釈できないため、攻撃者はモデルトレーニング中にサードパーティのトレーニングデータを操作してバックドアを植えることができる。 効果的なバックドア攻撃は、モデルに特定の条件、すなわちトリガーの下で特定の判断を強制することができる。 本稿では,PBSM と呼ばれる KWS のための Pitch Boosting と Sound Masking に基づくバックドア攻撃方式を設計する。 実験の結果,PBSMはトレーニングデータの1%未満を中毒した場合に3つのモデルで平均攻撃成功率を90%近く達成できることがわかった。

Keyword spotting (KWS) has been widely used in various speech control scenarios. The training of KWS is usually based on deep neural networks and requires a large amount of data. Manufacturers often use third-party data to train KWS. However, deep neural networks are not sufficiently interpretable to manufacturers, and attackers can manipulate third-party training data to plant backdoors during the model training. An effective backdoor attack can force the model to make specified judgments under certain conditions, i.e., triggers. In this paper, we design a backdoor attack scheme based on Pitch Boosting and Sound Masking for KWS, called PBSM. Experimental results demonstrated that PBSM is feasible to achieve an average attack success rate close to 90% in three victim models when poisoning less than 1% of the training data.
翻訳日:2022-11-17 14:56:57 公開日:2022-11-16
# Augmented Physics-Informed Neural Networks (APINNs): ゲーティングネットワークに基づくソフトドメイン分解手法

Augmented Physics-Informed Neural Networks (APINNs): A gating network-based soft domain decomposition methodology ( http://arxiv.org/abs/2211.08939v1 )

ライセンス: Link先を確認
Zheyuan Hu, Ameya D. Jagtap, George Em Karniadakis, Kenji Kawaguchi(参考訳) 本稿では、拡張PINN(XPINN)とバニラPINN法をさらに改善するために、ソフトで訓練可能なドメイン分解とフレキシブルパラメータ共有を採用した拡張物理情報ニューラルネットワーク(APINN)を提案する。 特に、訓練可能なゲートネットワークはXPINNの硬く離散的な分解を模倣するために使用され、これは柔軟に微調整することで、より優れたパーティションを発見することができる。 APINNの出力として、いくつかのサブネットを重み付けする。 APINNは複雑なインターフェース条件を必要としない。そのサブネットは、サブドメイン内のトレーニングデータの一部だけでなく、すべてのトレーニングサンプルを利用することができる。 最後に、各サブネットは、分解された各関数の類似コンポーネントをキャプチャするために共通のパラメータの一部を共有する。 さらに、Hu et al の PINN 一般化理論に従う。 2021] 固有ゲートネットワークの初期化と一般ドメインと関数の分解により,apinnは一般化を改善できることを示す。 異なるタイプのPDEに関する大規模な実験は、APINNがPINNとXPINNメソッドをどのように改善するかを示している。 具体的には, XPINN が PINN と似ているか悪いかを示す。 また、すでにXPINNがPINNより優れているケースも示しています。 さらに,最適化されたゲーティングネットワークとその最適化トラジェクトリを可視化し,それらの性能と接続することで,最適分解の発見に役立てる。 興味深いことに、異なる分解によって初期化されると、対応するAPINNのパフォーマンスは大きく異なる可能性がある。 このことは、考慮中の微分方程式問題に対して最適領域分解を設計する可能性を示している。

In this paper, we propose the augmented physics-informed neural network (APINN), which adopts soft and trainable domain decomposition and flexible parameter sharing to further improve the extended PINN (XPINN) as well as the vanilla PINN methods. In particular, a trainable gate network is employed to mimic the hard and discrete decomposition of XPINN, which can be flexibly fine-tuned for discovering a potentially better partition. It weight-averages several sub-nets as the output of APINN. APINN does not require complex interface conditions, and its sub-nets can take advantage of all training samples rather than just part of the training data in their subdomains. Lastly, each sub-net shares part of the common parameters to capture the similar components in each decomposed function. Furthermore, following the PINN generalization theory in Hu et al. [2021], we show that APINN can improve generalization by proper gate network initialization and general domain & function decomposition. Extensive experiments on different types of PDEs demonstrate how APINN improves the PINN and XPINN methods. Specifically, we present examples where XPINN performs similarly to or worse than PINN, so that APINN can significantly improve both. We also show cases where XPINN is already better than PINN, so APINN can still slightly improve XPINN. Furthermore, we visualize the optimized gating networks and their optimization trajectories, and connect them with their performance, which helps discover the possibly optimal decomposition. Interestingly, if initialized by different decomposition, the performances of corresponding APINNs can differ drastically. This, in turn, shows the potential to design an optimal domain decomposition for the differential equation problem under consideration.
翻訳日:2022-11-17 14:56:43 公開日:2022-11-16
# 階層的フレーズベースシーケンス・ツー・シーケンス学習

Hierarchical Phrase-based Sequence-to-Sequence Learning ( http://arxiv.org/abs/2211.07906v2 )

ライセンス: Link先を確認
Bailin Wang, Ivan Titov, Jacob Andreas and Yoon Kim(参考訳) 学習中の帰納的バイアスの源として階層的句を取り入れたり,推論時の明示的な制約として用いたりしながら,標準的なシーケンシャル・ツー・シークエンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。 提案手法は,原文と対象句を階層的に整列するブラケット翻訳文法に基づく識別的パーサと,整列した句を1対1で翻訳するニューラルネットワークセク2seqモデルである。 同じseq2seqモデルを使用してすべてのフレーズスケールを翻訳し、パーサを破棄し、シーケンスレベルでseq2seqコンポーネントのみを使用する1つのモードと、パーサをseq2seqモデルと組み合わせた別のモードの2つの推論モードを生成する。 後者モードでの復号は、より複雑だが推論中に新しい翻訳規則を利用することのできる立方体のCKYアルゴリズムを用いて行われる。 我々は、ソース条件の同期文法としてモデルを形式化し、学習のための効率的な変分推論アルゴリズムを開発する。 ランダムに初期化および事前訓練されたSeq2seqモデルの上に適用すると、両方の推論モードは、小規模機械翻訳ベンチマークのベースラインと比較してよく機能することがわかった。

We describe a neural transducer that maintains the flexibility of standard sequence-to-sequence (seq2seq) models while incorporating hierarchical phrases as a source of inductive bias during training and as explicit constraints during inference. Our approach trains two models: a discriminative parser based on a bracketing transduction grammar whose derivation tree hierarchically aligns source and target phrases, and a neural seq2seq model that learns to translate the aligned phrases one-by-one. We use the same seq2seq model to translate at all phrase scales, which results in two inference modes: one mode in which the parser is discarded and only the seq2seq component is used at the sequence-level, and another in which the parser is combined with the seq2seq model. Decoding in the latter mode is done with the cube-pruned CKY algorithm, which is more involved but can make use of new translation rules during inference. We formalize our model as a source-conditioned synchronous grammar and develop an efficient variational inference algorithm for training. When applied on top of both randomly initialized and pretrained seq2seq models, we find that both inference modes performs well compared to baselines on small scale machine translation benchmarks.
翻訳日:2022-11-17 14:55:56 公開日:2022-11-16
# maskup:ソーシャルメディアプラットフォームにおける英語のセンシティブな発声のための選択的属性暗号化

#maskUp: Selective Attribute Encryption for Sensitive Vocalization for English language on Social Media Platforms ( http://arxiv.org/abs/2211.08653v1 )

ライセンス: Link先を確認
Supriti Vijay and Aman Priyanshu(参考訳) ソーシャルメディアは、人々が立ち上がり、社会や犯罪行為に対して声を上げるためのプラットフォームになっている。 このような情報のヴォーカライゼーションは、犯罪者の調査と特定を可能にした。 しかし、そのような機密情報を明らかにすると、被害者の安全を損なう恐れがある。 我々は,関連する当局に対して安全な方法で情報通信を行うための安全な方法である#maskupを提案し,被害者のいじめの可能性を損なう。 これにより、機密属性マスキングのための選択的暗号化を補足した自然言語処理を通じて、プライバシを保護できる。 われわれの知る限り、これは被害者の個人情報を隠蔽し、犯罪を報告するよう強制することによる被害者のプライバシー保護を目的とした最初の作品である。 マスク技術を使用することで、当局はこのデータを閲覧/アンマスクできる。 提案手法は,実世界シナリオで実現可能な連続学習タスクの構築と評価を行う。 maskupは、提示された目的を検証するサンプルデータセットで、この統合をうまく実証する。

Social media has become a platform for people to stand up and raise their voices against social and criminal acts. Vocalization of such information has allowed the investigation and identification of criminals. However, revealing such sensitive information may jeopardize the victim's safety. We propose #maskUp, a safe method for information communication in a secure fashion to the relevant authorities, discouraging potential bullying of the victim. This would ensure security by conserving their privacy through natural language processing supplemented with selective encryption for sensitive attribute masking. To our knowledge, this is the first work that aims to protect the privacy of the victims by masking their private details as well as emboldening them to come forward to report crimes. The use of masking technology allows only binding authorities to view/un-mask this data. We construct and evaluate the proposed methodology on continual learning tasks, allowing practical implementation of the same in a real-world scenario. #maskUp successfully demonstrates this integration on sample datasets validating the presented objective.
翻訳日:2022-11-17 14:54:14 公開日:2022-11-16
# 事前学習言語モデルの層正規化におけるパラメータ効率の調整

Parameter-Efficient Tuning on Layer Normalization for Pre-trained Language Models ( http://arxiv.org/abs/2211.08682v1 )

ライセンス: Link先を確認
Wang Qi, Yu-Ping Ruan, Yuan Zuo, Taihao Li(参考訳) 従来の微調整は、パラメータ効率のチューニングをフロンティア研究の焦点とする、現在の事前訓練言語モデルのサイズを考えると、困難が増している。 このフィールドの以前の方法は、トランスフォーマーブロックのMHAまたは/およびFFNに調整可能なアダプタを追加し、PLMが転送可能性を達成する。 しかし、Transformerアーキテクチャの重要な部分として、パラメータ効率チューニングにおける層正規化のパワーは無視される。 本稿では,まず,0.03\%のパラメータしか持たない層正規化モジュールの利得とバイアス項を調整し,時間効率が高く,0.1\%未満のベースラインよりも有意に優れるln調律を提案する。 さらに,LN-tuningと従来のLN-tuningを組み合わせる統一フレームワークについて検討し,(1)プレフィックスチューニングとMHAを用いたアダプタベースの手法を組み合わせた統一フレームワークにより,SOTAの性能が向上することを確認した。 2) mha と layernorm を同時にチューニングする統一フレームワークは性能が向上するが、ffn と layernorm を同時にチューニングするフレームワークは性能が低下する。 アブレーション研究はLNチューニングが豊富なパラメータではないことを検証し、さらなる理解を与える。

Conventional fine-tuning encounters increasing difficulties given the size of current Pre-trained Language Models, which makes parameter-efficient tuning become the focal point of frontier research. Previous methods in this field add tunable adapters into MHA or/and FFN of Transformer blocks to enable PLMs achieve transferability. However, as an important part of Transformer architecture, the power of layer normalization for parameter-efficent tuning is ignored. In this paper, we first propose LN-tuning, by tuning the gain and bias term of Layer Normalization module with only 0.03\% parameters, which is of high time-efficency and significantly superior to baselines which are less than 0.1\% tunable parameters. Further, we study the unified framework of combining LN-tuning with previous ones and we find that: (1) the unified framework of combining prefix-tuning, the adapter-based method working on MHA, and LN-tuning achieves SOTA performance. (2) unified framework which tunes MHA and LayerNorm simultaneously can get performance improvement but those which tune FFN and LayerNorm simultaneous will cause performance decrease. Ablation study validates LN-tuning is of no abundant parameters and gives a further understanding of it.
翻訳日:2022-11-17 14:53:58 公開日:2022-11-16
# ロバスト軌道予測のための解釈可能な自己認識ニューラルネットワーク

Interpretable Self-Aware Neural Networks for Robust Trajectory Prediction ( http://arxiv.org/abs/2211.08701v1 )

ライセンス: Link先を確認
Masha Itkina and Mykel J. Kochenderfer(参考訳) ニューラルネットワークは様々な領域で予測モデルとして大きな成功を収めてきたが、アウト・オブ・ディストリビューション(OOD)データに対する予測に過度に自信を持っている。 自動運転車のような安全クリティカルな応用のためには、ニューラルネットワークは認識論的あるいはモデルの不確実性を正確に推定し、システムの自己認識レベルを達成する必要がある。 てんかん不確実性定量化のための技術は、トレーニング中にOODデータを必要とする場合が多い。 これらの手法は高次元入力におけるリアルタイム性能には適さないかもしれない。 さらに、既存の手法では推定された不確実性の解釈性に欠けており、さらなるシステム開発のためのエンジニアと自律スタックの下流モジュールの両方に有用性を制限する。 本稿では, 軌跡予測設定において, 低次元, 解釈可能な潜在空間上での認識不確かさを推定するために, 明らかな深層学習を用いることを提案する。 我々は,過去のエージェント行動,道路構造,社会的文脈といった意味概念間の不確かさを分散した軌道予測のための解釈可能なパラダイムを提案する。 実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。 私たちのコードは、https://github.com/sisl/InterpretableSelfAwarePredictionで利用可能です。

Although neural networks have seen tremendous success as predictive models in a variety of domains, they can be overly confident in their predictions on out-of-distribution (OOD) data. To be viable for safety-critical applications, like autonomous vehicles, neural networks must accurately estimate their epistemic or model uncertainty, achieving a level of system self-awareness. Techniques for epistemic uncertainty quantification often require OOD data during training or multiple neural network forward passes during inference. These approaches may not be suitable for real-time performance on high-dimensional inputs. Furthermore, existing methods lack interpretability of the estimated uncertainty, which limits their usefulness both to engineers for further system development and to downstream modules in the autonomy stack. We propose the use of evidential deep learning to estimate the epistemic uncertainty over a low-dimensional, interpretable latent space in a trajectory prediction setting. We introduce an interpretable paradigm for trajectory prediction that distributes the uncertainty among the semantic concepts: past agent behavior, road structure, and social context. We validate our approach on real-world autonomous driving data, demonstrating superior performance over state-of-the-art baselines. Our code is available at: https://github.com/sisl/InterpretableSelfAwarePrediction.
翻訳日:2022-11-17 14:48:02 公開日:2022-11-16
# 不確実性を考慮した3次元物体分割のためのマルチパラメトリック磁気共鳴画像情報融合

Uncertainty-Aware Multi-Parametric Magnetic Resonance Image Information Fusion for 3D Object Segmentation ( http://arxiv.org/abs/2211.08783v1 )

ライセンス: Link先を確認
Cheng Li, Yousuf Babiker M. Osman, Weijian Huang, Zhenzhen Xue, Hua Han, Hairong Zheng, Shanshan Wang(参考訳) マルチパラメトリック磁気共鳴(mr)画像は臨床で必須のツールである。 その結果,多パラメータMR画像を用いた自動ボリューム分割は,コンピュータ支援疾患診断,治療計画,予後モニタリングに重要である。 深層学習に基づく医用画像解析における広範な研究にもかかわらず、異なる画像パラメータによる情報を有効に活用するには、さらなる研究が必要である。 どのように情報を融合するかは、この分野の重要な疑問である。 本稿では,3次元画像セグメンテーションのための情報を完全に活用するために,不確実性を考慮したマルチパラメトリックMR画像特徴融合法を提案する。 個々のモダリティの独立予測の不確かさを利用して、マルチモーダル画像特徴の融合を導く。 脳組織セグメンテーション用と腹部多臓器セグメンテーション用という2つのデータセットの広範囲な実験を行い,提案手法は既存のモデルと比較して,より優れたセグメンテーション性能を実現する。

Multi-parametric magnetic resonance (MR) imaging is an indispensable tool in the clinic. Consequently, automatic volume-of-interest segmentation based on multi-parametric MR imaging is crucial for computer-aided disease diagnosis, treatment planning, and prognosis monitoring. Despite the extensive studies conducted in deep learning-based medical image analysis, further investigations are still required to effectively exploit the information provided by different imaging parameters. How to fuse the information is a key question in this field. Here, we propose an uncertainty-aware multi-parametric MR image feature fusion method to fully exploit the information for enhanced 3D image segmentation. Uncertainties in the independent predictions of individual modalities are utilized to guide the fusion of multi-modal image features. Extensive experiments on two datasets, one for brain tissue segmentation and the other for abdominal multi-organ segmentation, have been conducted, and our proposed method achieves better segmentation performance when compared to existing models.
翻訳日:2022-11-17 14:47:39 公開日:2022-11-16
# ユニバーサル・ターゲット・ラベルスイッチパッチを用いた物体検出

Attacking Object Detector Using A Universal Targeted Label-Switch Patch ( http://arxiv.org/abs/2211.08859v1 )

ライセンス: Link先を確認
Avishag Shapira, Ron Bitton, Dan Avraham, Alon Zolfi, Yuval Elovici, Asaf Shabtai(参考訳) 深層学習に基づく物体検出装置(OD)に対する敵対的攻撃は,近年広く研究されている。 これらの攻撃は、ターゲットオブジェクトまたはフレーム内のどこかに逆パターンを含むパッチを配置することで、モデルが誤った予測を行う原因となる。 しかし、以前の研究では、ターゲットオブジェクトにパッチを適用したODに対する誤分類攻撃は提案されなかった。 本研究では,現在最先端のオブジェクト検出器であるYOLOに対する,新しい,普遍的で,標的とした,ラベルスウィッチ攻撃を提案する。 私たちの攻撃では 一 画像中の複数の対象物(例えば車)に対向パッチを配置することができるように仕立てられた投影機能であって、それぞれがカメラから離れた位置にあるり、カメラに対して異なる視野角を有することができるもの (ii)攻撃対象のラベルを変更することができるユニークな損失関数。 提案するユニバーサルパッチは、デジタルドメインでトレーニングされ、物理ドメインに転送可能である。 異なるタイプの物体検出器,異なるカメラで捉えた異なるビデオストリーム,および様々なターゲットクラスを用いて広範囲な評価を行い,物理領域における対向パッチの異なる構成の評価を行った。

Adversarial attacks against deep learning-based object detectors (ODs) have been studied extensively in the past few years. These attacks cause the model to make incorrect predictions by placing a patch containing an adversarial pattern on the target object or anywhere within the frame. However, none of prior research proposed a misclassification attack on ODs, in which the patch is applied on the target object. In this study, we propose a novel, universal, targeted, label-switch attack against the state-of-the-art object detector, YOLO. In our attack, we use (i) a tailored projection function to enable the placement of the adversarial patch on multiple target objects in the image (e.g., cars), each of which may be located a different distance away from the camera or have a different view angle relative to the camera, and (ii) a unique loss function capable of changing the label of the attacked objects. The proposed universal patch, which is trained in the digital domain, is transferable to the physical domain. We performed an extensive evaluation using different types of object detectors, different video streams captured by different cameras, and various target classes, and evaluated different configurations of the adversarial patch in the physical domain.
翻訳日:2022-11-17 14:47:24 公開日:2022-11-16
# 微分プライベートオプティマイザは、逆ロバストなモデルを学ぶことができる

Differentially Private Optimizers Can Learn Adversarially Robust Models ( http://arxiv.org/abs/2211.08942v1 )

ライセンス: Link先を確認
Yuan Zhang, Zhiqi Bu(参考訳) 機械学習モデルは様々な分野に浸透し、セキュリティとプライバシコミュニティの両方から注目を集めている。 ディファレンシャルプライバシ(dp)制約下でのトレーニングモデルは、敵の堅牢性に不利な影響を与えますか? これまでの研究では、プライバシーはより堅牢なコストが伴うと仮定されていたが、DPモデルが自然に訓練された非私的モデルよりも堅牢で正確であることを示す最初の理論的分析を行った。 1)DPオプティマイザのハイパーパラメータは重要である; 2) 公開データによる事前トレーニングは精度とロバスト性低下を著しく軽減する; 3) DPオプティマイザの選択は違いをもたらす。 これらの因子を適切に設定すると、90 %の自然精度、72 %の頑健な精度(非私的モデルより+9 %)、69 %の頑健な精度(非私的モデルより+16 %)、および事前訓練されたSimCLRv2 モデルで $l_\infty(4/255)のCIFAR10 に対する攻撃を$\epsilon=2$とする。 実際、理論上および経験上、dpモデルが精度・ロバスト性トレードオフにおいてパレート最適であることを示す。 経験的に、DPモデルのロバスト性は、MNIST、Fashion MNIST、CelebAデータセット、ResNet、Vision Transformerで一貫して観察されている。 奨励的な結果は、プライベートで堅牢なモデルをトレーニングするための重要なステップだと思います。

Machine learning models have shone in a variety of domains and attracted increasing attention from both the security and the privacy communities. One important yet worrying question is: will training models under the differential privacy (DP) constraint unfavorably impact on the adversarial robustness? While previous works have postulated that privacy comes at the cost of worse robustness, we give the first theoretical analysis to show that DP models can indeed be robust and accurate, even sometimes more robust than their naturally-trained non-private counterparts. We observe three key factors that influence the privacy-robustness-accuracy tradeoff: (1) hyperparameters for DP optimizers are critical; (2) pre-training on public data significantly mitigates the accuracy and robustness drop; (3) choice of DP optimizers makes a difference. With these factors set properly, we achieve 90\% natural accuracy, 72\% robust accuracy ($+9\%$ than the non-private model) under $l_2(0.5)$ attack, and 69\% robust accuracy ($+16\%$ than the non-private model) with pre-trained SimCLRv2 model under $l_\infty(4/255)$ attack on CIFAR10 with $\epsilon=2$. In fact, we show both theoretically and empirically that DP models are Pareto optimal on the accuracy-robustness tradeoff. Empirically, the robustness of DP models is consistently observed on MNIST, Fashion MNIST and CelebA datasets, with ResNet and Vision Transformer. We believe our encouraging results are a significant step towards training models that are private as well as robust.
翻訳日:2022-11-17 14:47:04 公開日:2022-11-16
# 決定論的問題に対する確率的推定器の優越性:ロバスト性、一貫性、知覚品質

Reasons for the Superiority of Stochastic Estimators over Deterministic Ones: Robustness, Consistency and Perceptual Quality ( http://arxiv.org/abs/2211.08944v1 )

ライセンス: Link先を確認
Guy Ohayon, Theo Adrai, Michael Elad, Tomer Michaeli(参考訳) 確率的復元アルゴリズムは、劣化した入力に対応する解の空間を探索することができる。 本稿では, 決定論的手法よりも確率論的手法の基本的な利点を明らかにする。 まず, 完全な知覚的品質を達成し, 入力と一致した出力を持つ復元アルゴリズムは, 後方標本でなければならないことを証明し, 確率的であることが求められる。 第二に、決定論的復元アルゴリズムは高い知覚的品質を達成できるが、これは、非常に敏感なマッピングを用いて、可能なすべてのソースイメージの空間を埋めることによってのみ達成できるので、敵の攻撃に対して非常に脆弱である。 実際,このような攻撃に対して決定論的モデルを強制することは知覚的品質を著しく損なう一方で,確率的モデルの堅牢化は知覚的品質にはほとんど影響を与えず,出力の変動性も向上することを示す。 これらの知見は, 確率的回復手法の進歩を促進する動機となり, 回復アルゴリズムの改善への道を開いた。

Stochastic restoration algorithms allow to explore the space of solutions that correspond to the degraded input. In this paper we reveal additional fundamental advantages of stochastic methods over deterministic ones, which further motivate their use. First, we prove that any restoration algorithm that attains perfect perceptual quality and whose outputs are consistent with the input must be a posterior sampler, and is thus required to be stochastic. Second, we illustrate that while deterministic restoration algorithms may attain high perceptual quality, this can be achieved only by filling up the space of all possible source images using an extremely sensitive mapping, which makes them highly vulnerable to adversarial attacks. Indeed, we show that enforcing deterministic models to be robust to such attacks profoundly hinders their perceptual quality, while robustifying stochastic models hardly influences their perceptual quality, and improves their output variability. These findings provide a motivation to foster progress in stochastic restoration methods, paving the way to better recovery algorithms.
翻訳日:2022-11-17 14:46:24 公開日:2022-11-16
# ATEAM: 専門家の注釈を用いた車両特徴抽出のためのフェデレーションデータセットからの知識統合

ATEAM: Knowledge Integration from Federated Datasets for Vehicle Feature Extraction using Annotation Team of Experts ( http://arxiv.org/abs/2211.09098v1 )

ライセンス: Link先を確認
Abhijit Suprem, Purva Singh, Suma Cherkadi, Sanjyot Vaidya, Joao Eduardo Ferreira, and Calton Pu(参考訳) 車両モデル認識(VMMR)、リID、トラッキング、部品検出を含む車両認識領域は、近年、タスクごとに大規模なデータセットによって駆動され、大きな進歩を遂げている。 これらのデータセットはオーバーラップしないことが多く、各タスクのラベルスキーマが異なる: VMMRは作成とモデルに焦点を当て、re-idは車両IDに重点を置いている。 これらのデータセットを組み合わせることで、データセット間の知識の活用と、トレーニングデータの増加が期待できるが、ドメインギャップの問題のため、データセットの統合は難しい。 本稿では,データ横断ラベリングと不整合アノテーションスキーマの統合を行うためのアノテーションチーム・オブ・エキスパートであるATEAMを提案する。 ATEAMでは、アノテーションスキーマを含むデータセットでトレーニングされたさまざまな専門家を使用して、アノテーションなしで知識をデータセットに転送する。 ATEAMを用いて、いくつかの共通車両認識データセットを知識統合データセット(KID)に統合した。 我々は,車体認識問題に対するateamとkidの評価を行い,本統合データセットが,モデルアーキテクチャの変更を伴わずに,vmmrと車体re-idにおいて優れた精度を達成することができることを示す。 veri 上の 0.83 の写像とcompcars 上の 0.97 の精度を達成する。 このデータセットと、パブリック使用のためのATEAMフレームワークの両方をリリースしました。

The vehicle recognition area, including vehicle make-model recognition (VMMR), re-id, tracking, and parts-detection, has made significant progress in recent years, driven by several large-scale datasets for each task. These datasets are often non-overlapping, with different label schemas for each task: VMMR focuses on make and model, while re-id focuses on vehicle ID. It is promising to combine these datasets to take advantage of knowledge across datasets as well as increased training data; however, dataset integration is challenging due to the domain gap problem. This paper proposes ATEAM, an annotation team-of-experts to perform cross-dataset labeling and integration of disjoint annotation schemas. ATEAM uses diverse experts, each trained on datasets that contain an annotation schema, to transfer knowledge to datasets without that annotation. Using ATEAM, we integrated several common vehicle recognition datasets into a Knowledge Integrated Dataset (KID). We evaluate ATEAM and KID for vehicle recognition problems and show that our integrated dataset can help off-the-shelf models achieve excellent accuracy on VMMR and vehicle re-id with no changes to model architectures. We achieve mAP of 0.83 on VeRi, and accuracy of 0.97 on CompCars. We have released both the dataset and the ATEAM framework for public use.
翻訳日:2022-11-17 14:46:05 公開日:2022-11-16
# トークンチューリング機

Token Turing Machines ( http://arxiv.org/abs/2211.09119v1 )

ライセンス: Link先を確認
Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab(参考訳) 本稿では,実世界のシーケンシャル視覚理解のためのメモリを有する逐次的自己回帰トランスフォーマーモデルであるtoken turing machines (ttm)を提案する。 私たちのモデルは、セナルニューラルチューリングマシンにインスパイアされ、前の履歴(つまりフレーム)を要約したトークンセットからなる外部メモリを持っています。 このメモリは、各ステップで処理ユニット/コントローラとしてTransformerを使用して、効率よくアドレス化され、読み書きされる。 モデルのメモリモジュールは、新しい観測がメモリの内容(履歴全体ではなく)でのみ処理されることを保証する。 TTMは、ビデオからのオンラインの時間的活動検出とビジョンベースのロボット行動ポリシー学習という、2つの現実の逐次的視覚理解タスクにおいて、長いシーケンスや繰り返しニューラルネットワーク用に設計された他のTransformerモデルよりも優れていることを示す。

We propose Token Turing Machines (TTM), a sequential, autoregressive Transformer model with memory for real-world sequential visual understanding. Our model is inspired by the seminal Neural Turing Machine, and has an external memory consisting of a set of tokens which summarise the previous history (i.e., frames). This memory is efficiently addressed, read and written using a Transformer as the processing unit/controller at each step. The model's memory module ensures that a new observation will only be processed with the contents of the memory (and not the entire history), meaning that it can efficiently process long sequences with a bounded computational cost at each step. We show that TTM outperforms other alternatives, such as other Transformer models designed for long sequences and recurrent neural networks, on two real-world sequential visual understanding tasks: online temporal activity detection from videos and vision-based robot action policy learning.
翻訳日:2022-11-17 14:45:43 公開日:2022-11-16
# 直交多項式四分法アルゴリズム(OPQA):ベイズ推論に対する機能解析的アプローチ

Orthogonal Polynomials Quadrature Algorithm (OPQA): A Functional Analytical Approach to Bayesian Inference ( http://arxiv.org/abs/2211.08594v1 )

ライセンス: Link先を確認
Lilian Wong(参考訳) 本稿では,関数的解析手法を用いてベイズ解析における後部と証拠の両方を1パスで推定する並列化可能なアルゴリズムである,新しい直交多項式量子化アルゴリズム(OPQA)を提案する。 まず、OPQAは、その証拠を我々の構成の特別な基礎への直交射影に関連付ける。 第二に、変換係数を計算するための高速で正確な計算スキームを配置する。 OPQAは次のように要約できる。 まず、指数重みを持つ測度に付随する$l^2$空間を考える。 そして、この空間において密度の高い多変量直交基底を定式化し、そのような密度はリースの定理によって保証される。 結合分布の平方根をこの選択の基底に射影すると、基底の密度はParseval Identityを呼び出すことができ、これは証拠をこの直交射影の変換係数の平方の和と同一視する。 これらの変換係数を計算するために,より高次元のガウス・ヘルマイト二次数を用いた計算手法を提案する。 このアプローチはランダムサンプリング法に関連する潜在的な高分散問題を避けるだけでなく、計算の複雑さを大幅に削減し、並列化によって計算速度を高速化することができる。 この新しいアルゴリズムは、潜在変数の独立性については何も仮定していないし、事前の知識も仮定していない。 1つのパスで証拠と後方の両方を解決します。 支援アルゴリズムの理論的証明の概要を述べる。

In this paper, we present the new Orthogonal Polynomials-Quadrature Algorithm (OPQA), a parallelizable algorithm that estimates both the posterior and the evidence in a Bayesian analysis in one pass by means of a functional analytic approach. First, OPQA relates the evidence to an orthogonal projection onto a special basis of our construct. Second, it lays out a fast and accurate computational scheme to compute the transform coefficients. OPQA can be summarized as follows. First, we consider the $L^2$ space associated with a measure with exponential weights. Then we constuct a multivariate orthogonal basis which is dense in this space, such density being guaranteed by the Riesz's Theorem. As we project the square root of the joint distribution onto this basis of our choice, the density of the basis allows us to invoke the Parseval Identity, which equates the evidence with the sum of squares of the transform coefficients of this orthogonal projection. To compute those transform coefficients, we propose a computational scheme using Gauss-Hermite quadrature in higher dimensions. Not only does this approach avoids the potential high variance problem associated with random sampling methods, it significantly reduces the complexity of the computation and enables one to speed up the computational speed by parallelization. This new algorithm does not make any assumption about the independence of the latent variable, nor do we assume any knowledge of the prior. It solves for both the evidence and the posterior in one pass. An outline of the theoretical proof of the supporting algorithm will be provided.
翻訳日:2022-11-17 14:39:41 公開日:2022-11-16
# ニューラルネットワークを用いたSAFARI-1軸中性子フラックスプロファイルの予測と不確かさの定量化

Prediction and Uncertainty Quantification of SAFARI-1 Axial Neutron Flux Profiles with Neural Networks ( http://arxiv.org/abs/2211.08654v1 )

ライセンス: Link先を確認
Lesego E. Moloko, Pavel M. Bokov, Xu Wu, Kostadin N. Ivanov(参考訳) 人工ニューラルネットワーク(anns)は、原子炉の物理パラメータを妥当な時間内および高い精度で予測するなど、様々な核工学の応用に成功している。 この成功にもかかわらず、モデル予測の不確実性に関する情報を提供できないため、特に外挿領域において、ANN予測の信頼性を評価することは困難である。 本研究では, 深部ニューラルネットワークを用いてSAFARI-1実験炉の集合軸流束分布の予測を行い, ANN予測の不確かさの定量化と, トレーニングプロセスで使用されていないサイクルへの外挿を行った。 トレーニングデータセットは、銅線活性化測定、軸方向測定位置、原子炉の履歴サイクルから得られた制御バンク位置から構成される。 変分推論 (BNN VI) で解いたモンテカルロ・ドロップアウト (MCD) とベイズニューラルネットワークを用いて, 正規DNNモデルの予測の不確かさの定量化を行う。 MCDとBNN VIで解決された通常のDNNとDNNは、トレーニングプロセスで使用されていない新しい測定データセットと非常によく一致しており、優れた予測と一般化能力を示している。 MCDとBNN VIが生成する不確実性帯域はよく一致しており、一般的にはノイズ測定データポイントを完全に包含することができる。 開発されたANNは、実験的な測定と中性子コード検証と検証(V&V)を支援するのに有用である。

Artificial Neural Networks (ANNs) have been successfully used in various nuclear engineering applications, such as predicting reactor physics parameters within reasonable time and with a high level of accuracy. Despite this success, they cannot provide information about the model prediction uncertainties, making it difficult to assess ANN prediction credibility, especially in extrapolated domains. In this study, Deep Neural Networks (DNNs) are used to predict the assembly axial neutron flux profiles in the SAFARI-1 research reactor, with quantified uncertainties in the ANN predictions and extrapolation to cycles not used in the training process. The training dataset consists of copper-wire activation measurements, the axial measurement locations and the measured control bank positions obtained from the reactor's historical cycles. Uncertainty Quantification of the regular DNN models' predictions is performed using Monte Carlo Dropout (MCD) and Bayesian Neural Networks solved by Variational Inference (BNN VI). The regular DNNs, DNNs solved with MCD and BNN VI results agree very well among each other as well as with the new measured dataset not used in the training process, thus indicating good prediction and generalization capability. The uncertainty bands produced by MCD and BNN VI agree very well, and in general, they can fully envelop the noisy measurement data points. The developed ANNs are useful in supporting the experimental measurements campaign and neutronics code Verification and Validation (V&V).
翻訳日:2022-11-17 14:39:01 公開日:2022-11-16
# SETAR-Tree:グローバル時系列予測のための新しい高精度ツリーアルゴリズム

SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series Forecasting ( http://arxiv.org/abs/2211.08661v1 )

ライセンス: Link先を確認
Rakshitha Godahewa, Geoffrey I. Webb, Daniel Schmidt, Christoph Bergmeir(参考訳) Threshold Autoregressive (TAR)モデルは、統計学者によって過去数十年間、その単純さと数学的性質のために、非線形時系列予測のために広く利用されている。 一方, 予測コミュニティでは, 汎用木型回帰アルゴリズム(フォレスト, 勾配ボスティング)が近年普及している。 本稿では,TARモデルと回帰木との密接な関係について検討する。 これにより、TARモデルに関する文献から豊富な方法論を用いて、階層的なTARモデルを、SETAR-Treeと呼ばれるシリーズを横断してグローバルにトレーニングする回帰木として定義することができます。 葉ノードの平均値の予測に重点を置き,葉ノードの平均値を計算する汎用ツリーベースモデルとは対照的に,葉葉におけるグローバルプール回帰(pr)モデルを学習し,クロスシリーズ情報を学習し,時系列特異的な分割・停止手順も利用する新しい予測木モデルを提案する。 木深度は、TARモデルでよく用いられる統計線形性試験を行い、各ノード分割における誤差低減率を測定することにより制御される。 したがって、提案したツリーモデルでは、外部パラメータの調整が最小限必要であり、デフォルト設定で競合する結果が得られる。 また、この木アルゴリズムを用いて、予測プロセス中に多様なSETAR-Treesの集合から得られる予測が組み合わさった森林を開発する。 8つの公開データセットに対する評価において,提案した木と林のモデルでは,4つの評価指標に対して,最先端のツリーベースアルゴリズムと予測ベンチマークのセットよりもはるかに高い精度を達成可能である。

Threshold Autoregressive (TAR) models have been widely used by statisticians for non-linear time series forecasting during the past few decades, due to their simplicity and mathematical properties. On the other hand, in the forecasting community, general-purpose tree-based regression algorithms (forests, gradient-boosting) have become popular recently due to their ease of use and accuracy. In this paper, we explore the close connections between TAR models and regression trees. These enable us to use the rich methodology from the literature on TAR models to define a hierarchical TAR model as a regression tree that trains globally across series, which we call SETAR-Tree. In contrast to the general-purpose tree-based models that do not primarily focus on forecasting, and calculate averages at the leaf nodes, we introduce a new forecasting-specific tree algorithm that trains global Pooled Regression (PR) models in the leaves allowing the models to learn cross-series information and also uses some time-series-specific splitting and stopping procedures. The depth of the tree is controlled by conducting a statistical linearity test commonly employed in TAR models, as well as measuring the error reduction percentage at each node split. Thus, the proposed tree model requires minimal external hyperparameter tuning and provides competitive results under its default configuration. We also use this tree algorithm to develop a forest where the forecasts provided by a collection of diverse SETAR-Trees are combined during the forecasting process. In our evaluation on eight publicly available datasets, the proposed tree and forest models are able to achieve significantly higher accuracy than a set of state-of-the-art tree-based algorithms and forecasting benchmarks across four evaluation metrics.
翻訳日:2022-11-17 14:38:34 公開日:2022-11-16
# 理論から数値への不均衡最適輸送

Unbalanced Optimal Transport, from Theory to Numerics ( http://arxiv.org/abs/2211.08775v1 )

ライセンス: Link先を確認
Thibault S\'ejourn\'e, Gabriel Peyr\'e, Fran\c{c}ois-Xavier Vialard(参考訳) 最適輸送(OT)は、幾何学的に忠実な点雲とより一般的に確率分布を比較するために、データサイエンスの中心的なツールとして最近登場した。 しかし、既存のデータ分析と機械学習パイプラインへのOTの広範な採用は、いくつかの欠点に悩まされている。 これには、外れ値に対する堅牢性の欠如、高い計算コスト、高次元の多数のサンプルの必要性、異なる空間におけるデータ処理の難しさが含まれる。 本稿では,これらの問題を緩和するための最近提案されたアプローチについて述べる。 特に、確率分布に制限されない任意の正測度を比較する不均衡OTについて主張する(つまり、その総質量は変化する)。 このotの一般化は、外れ値や不足データに対して堅牢である。 現代の計算OTの第二のワークホースはエントロピック正規化であり、高次元のサンプル複雑性を下げながらスケーラブルなアルゴリズムをもたらす。 このレビューで提示される最後のポイントはGromov-Wasserstein (GW) 距離であり、これは異なる距離空間に属する分布を扱うためにOTを拡張する。 このレビューの主な動機は、不均衡なOT、エントロピー正則化、GWがいかに協力してOTをデータ科学の効率的な幾何学的損失関数に変えるかを説明することである。

Optimal Transport (OT) has recently emerged as a central tool in data sciences to compare in a geometrically faithful way point clouds and more generally probability distributions. The wide adoption of OT into existing data analysis and machine learning pipelines is however plagued by several shortcomings. This includes its lack of robustness to outliers, its high computational costs, the need for a large number of samples in high dimension and the difficulty to handle data in distinct spaces. In this review, we detail several recently proposed approaches to mitigate these issues. We insist in particular on unbalanced OT, which compares arbitrary positive measures, not restricted to probability distributions (i.e. their total mass can vary). This generalization of OT makes it robust to outliers and missing data. The second workhorse of modern computational OT is entropic regularization, which leads to scalable algorithms while lowering the sample complexity in high dimension. The last point presented in this review is the Gromov-Wasserstein (GW) distance, which extends OT to cope with distributions belonging to different metric spaces. The main motivation for this review is to explain how unbalanced OT, entropic regularization and GW can work hand-in-hand to turn OT into efficient geometric loss functions for data sciences.
翻訳日:2022-11-17 14:38:06 公開日:2022-11-16
# 音楽の創造的生成モデルにおける挑戦--発散最大化の観点から

Challenges in creative generative models for music: a divergence maximization perspective ( http://arxiv.org/abs/2211.08856v1 )

ライセンス: Link先を確認
Axel Chemla--Romeu-Santos, Philippe Esling(参考訳) 創造的実践における生成的機械学習(ml)モデルの開発は、最近のユーザビリティの向上と事前学習モデルの可用性によって実現され、アーティスト、実践者、パフォーマーの間で関心が高まっている。 しかし、こうした技法を芸術領域に導入することで、科学者が使用する現在の評価方法から逃れる複数の制限も明らかになった。 特に、ほとんどのモデルは、トレーニングデータセットで定義されたドメインの外にあるコンテンツを生成することができない。 本稿では,ML文献(特に音声と音楽の分野)にすでに存在する意味や解決法を明確にすることを目的として,ML目的の新たな汎用的な定式化から始まる,新たな予測フレームワークを提案する。 また,生成モデルと計算クリエイティビティの関係と,既存のモデルにおける創造性の欠如に対する我々のフレームワークの対応について論じた。

The development of generative Machine Learning (ML) models in creative practices, enabled by the recent improvements in usability and availability of pre-trained models, is raising more and more interest among artists, practitioners and performers. Yet, the introduction of such techniques in artistic domains also revealed multiple limitations that escape current evaluation methods used by scientists. Notably, most models are still unable to generate content that lay outside of the domain defined by the training dataset. In this paper, we propose an alternative prospective framework, starting from a new general formulation of ML objectives, that we derive to delineate possible implications and solutions that already exist in the ML literature (notably for the audio and musical domain). We also discuss existing relations between generative models and computational creativity and how our framework could help address the lack of creativity in existing models.
翻訳日:2022-11-17 14:37:46 公開日:2022-11-16
# グラフオートエンコーダの新しいフロンティア:共同コミュニティ検出とリンク予測

New Frontiers in Graph Autoencoders: Joint Community Detection and Link Prediction ( http://arxiv.org/abs/2211.08972v1 )

ライセンス: Link先を確認
Guillaume Salha-Galvan and Johannes F. Lutzeyer and George Dasoulas and Romain Hennequin and Michalis Vazirgiannis(参考訳) グラフオートエンコーダ(GAE)と変分グラフオートエンコーダ(VGAE)はリンク予測(LP)の強力な手法として登場した。 彼らのパフォーマンスは、Louvainメソッドのようなより単純な代替手段により、しばしばパフォーマンスが向上するコミュニティ検出(CD)において、あまり印象的ではない。 特にノード機能がない場合、GAEとVGAEでCDをどの程度改善できるかは不明である。 さらに、マルチタスク環境では、LP上で優れたパフォーマンスを同時に維持できるかどうかも不確実である。 本論文では,これら2つの課題を高い精度で協調的に解決できることを,学術誌「salha-galvan et al. 2022」から要約した。 この目的のために,埋め込み空間の計算において,初期グラフとルービンに基づく先行コミュニティの両方を考慮したGAEおよびVGAEエンコーダをドープする,コミュニティ保存型メッセージパッシング方式を導入する。 モジュール性に基づくクラスタリングに着想を得て,共同LPとCDに特化して設計された新しいトレーニングと最適化戦略を提案する。 我々は,実世界の様々なグラフ上で,モジュール性を考慮したGAEとVGAEと呼ばれるアプローチの実証的効果を示す。

Graph autoencoders (GAE) and variational graph autoencoders (VGAE) emerged as powerful methods for link prediction (LP). Their performances are less impressive on community detection (CD), where they are often outperformed by simpler alternatives such as the Louvain method. It is still unclear to what extent one can improve CD with GAE and VGAE, especially in the absence of node features. It is moreover uncertain whether one could do so while simultaneously preserving good performances on LP in a multi-task setting. In this workshop paper, summarizing results from our journal publication (Salha-Galvan et al. 2022), we show that jointly addressing these two tasks with high accuracy is possible. For this purpose, we introduce a community-preserving message passing scheme, doping our GAE and VGAE encoders by considering both the initial graph and Louvain-based prior communities when computing embedding spaces. Inspired by modularity-based clustering, we further propose novel training and optimization strategies specifically designed for joint LP and CD. We demonstrate the empirical effectiveness of our approach, referred to as Modularity-Aware GAE and VGAE, on various real-world graphs.
翻訳日:2022-11-17 14:37:31 公開日:2022-11-16
# 比較学習:2つの仮説クラスのためのサンプル複雑性理論

Comparative Learning: A Sample Complexity Theory for Two Hypothesis Classes ( http://arxiv.org/abs/2211.09101v1 )

ライセンス: Link先を確認
Lunjia Hu, Charlotte Peale(参考訳) 多くの学習理論問題において、中心的な役割は仮説クラスによって演じられる: データはクラス内の仮説(通常、実現可能な設定と呼ばれる)に従ってラベル付けされていると仮定するか、あるいはクラス内の最良の仮説(不可知的な設定)と比較することによって学習モデルを評価することができる。 2つの二項仮説クラス$s$と$b$が与えられた場合、データはソースクラス$s$の仮説に従ってラベル付けされ、ベンチマーククラス$b$のベスト仮説に匹敵する精度を達成するために学習モデルが必要であると仮定します。 たとえ$S$と$B$が無限のVC次元を持つとしても、比較学習の複雑さは小さい。 比較学習のサンプルの複雑さは、相互VC次元$\mathsf{VC}(S,B)$によって特徴づけられ、これは、$S$と$B$によって破られた部分集合の最大サイズであると定義する。 また、オンライン設定でも同様の結果を示し、ここでは相互のLittlestone次元$\mathsf{Ldim}(S,B)$の観点から、後悔の意を表す。 これらの結果は部分仮説にも当てはまる。 さらに, 比較学習のサンプル複雑性を特徴付けるために必要な知見を, 実数値仮説に対するvc次元の類似である相互脂肪散布次元を用いて, 実現可能な多重精度と多重化のサンプル複雑性を特徴付けるために応用できることを示した。 これは、Hu, Peale, Reingold (2022) によって提案されたオープンな問題を解くだけでなく、回帰、ブースティング、および2つの仮説クラスの設定へのカバーに関する古典的な結果も、独立に興味深い結果をもたらす。

In many learning theory problems, a central role is played by a hypothesis class: we might assume that the data is labeled according to a hypothesis in the class (usually referred to as the realizable setting), or we might evaluate the learned model by comparing it with the best hypothesis in the class (the agnostic setting). Taking a step beyond these classic setups that involve only a single hypothesis class, we introduce comparative learning as a combination of the realizable and agnostic settings in PAC learning: given two binary hypothesis classes $S$ and $B$, we assume that the data is labeled according to a hypothesis in the source class $S$ and require the learned model to achieve an accuracy comparable to the best hypothesis in the benchmark class $B$. Even when both $S$ and $B$ have infinite VC dimensions, comparative learning can still have a small sample complexity. We show that the sample complexity of comparative learning is characterized by the mutual VC dimension $\mathsf{VC}(S,B)$ which we define to be the maximum size of a subset shattered by both $S$ and $B$. We also show a similar result in the online setting, where we give a regret characterization in terms of the mutual Littlestone dimension $\mathsf{Ldim}(S,B)$. These results also hold for partial hypotheses. We additionally show that the insights necessary to characterize the sample complexity of comparative learning can be applied to characterize the sample complexity of realizable multiaccuracy and multicalibration using the mutual fat-shattering dimension, an analogue of the mutual VC dimension for real-valued hypotheses. This not only solves an open problem proposed by Hu, Peale, Reingold (2022), but also leads to independently interesting results extending classic ones about regression, boosting, and covering number to our two-hypothesis-class setting.
翻訳日:2022-11-17 14:37:08 公開日:2022-11-16
# ニューラルアクティベーション感度の正規化による解釈可能性の向上

Improving Interpretability via Regularization of Neural Activation Sensitivity ( http://arxiv.org/abs/2211.08686v1 )

ライセンス: Link先を確認
Ofir Moshe, Gil Fidel, Ron Bitton, Asaf Shabtai(参考訳) 最先端のディープニューラルネットワーク(DNN)は多くの現実世界のタスクに取り組むのに非常に効果的である。 しかし、ミッションクリティカルな文脈における彼らの広範な採用は、敵の攻撃に対する感受性と不透明さの2つの大きな弱点によって妨げられている。 前者は現実世界の状況下でのDNNのセキュリティと一般化に関する懸念を高め、後者はユーザーのアウトプットに対する信頼を妨げている。 本研究では,1) 対向的頑健性が解釈可能性に及ぼす影響について検討し,(2) ニューラルアクティベーション感度の正規化に基づくDNNの解釈性向上のための新しいアプローチを提案する。 我々は,本手法を用いて訓練したモデルの,最先端の対角性技術を用いて訓練した標準モデルとモデルの解釈可能性を評価する。 提案手法を用いて学習したモデルは,解釈可能性の観点からは,正反対の頑健なモデルよりも優れていることを示す。

State-of-the-art deep neural networks (DNNs) are highly effective at tackling many real-world tasks. However, their wide adoption in mission-critical contexts is hampered by two major weaknesses - their susceptibility to adversarial attacks and their opaqueness. The former raises concerns about the security and generalization of DNNs in real-world conditions, whereas the latter impedes users' trust in their output. In this research, we (1) examine the effect of adversarial robustness on interpretability and (2) present a novel approach for improving the interpretability of DNNs that is based on regularization of neural activation sensitivity. We evaluate the interpretability of models trained using our method to that of standard models and models trained using state-of-the-art adversarial robustness techniques. Our results show that adversarially robust models are superior to standard models and that models trained using our proposed method are even better than adversarially robust models in terms of interpretability.
翻訳日:2022-11-17 14:35:59 公開日:2022-11-16
# CL2R: 互換性のある生涯学習表現

CL2R: Compatible Lifelong Learning Representations ( http://arxiv.org/abs/2211.09032v1 )

ライセンス: Link先を確認
Niccolo Biondi, Federico Pernici, Matteo Bruni, Daniele Mugnai, and Alberto Del Bimbo(参考訳) 本稿では,両立する生涯学習表現問題に対して,自然知能を部分的に模倣する手法を提案する。 オープンな動的宇宙におけるオブジェクトのインスタンス認識に関心のある学習エージェントの視点を、内部の特徴表現の更新がギャラリーの機能を視覚検索に使用できないような方法で捉えている。 我々は、この学習問題を、生涯学習パラダイムにおける互換性のある表現学習を考えるものとして、生涯学習表現(cl2r)と呼ぶ。 我々は,互換性を実現するために特徴表現が保持する必要がある性質として定常性を特定し,学習表現の局所的およびグローバル的定常性を促進する新しい訓練手順を提案する。 定常性のため、学習した特徴の統計的性質は時間とともに変化せず、以前に学習した特徴と相互運用可能である。 標準ベンチマークデータセットに関する広範な実験は、cl2rトレーニング手順が代替ベースラインや最先端メソッドよりも優れていることを示している。 また,様々な逐次学習タスクにおいて,破滅的な放棄下での適合表現学習を具体的に評価するための新しい指標を提供する。 コードネームはhttps://github.com/NiccoBiondi/CompatibleLifelongRepresentation。

In this paper, we propose a method to partially mimic natural intelligence for the problem of lifelong learning representations that are compatible. We take the perspective of a learning agent that is interested in recognizing object instances in an open dynamic universe in a way in which any update to its internal feature representation does not render the features in the gallery unusable for visual search. We refer to this learning problem as Compatible Lifelong Learning Representations (CL2R) as it considers compatible representation learning within the lifelong learning paradigm. We identify stationarity as the property that the feature representation is required to hold to achieve compatibility and propose a novel training procedure that encourages local and global stationarity on the learned representation. Due to stationarity, the statistical properties of the learned features do not change over time, making them interoperable with previously learned features. Extensive experiments on standard benchmark datasets show that our CL2R training procedure outperforms alternative baselines and state-of-the-art methods. We also provide novel metrics to specifically evaluate compatible representation learning under catastrophic forgetting in various sequential learning tasks. Code at https://github.com/NiccoBiondi/CompatibleLifelongRepresentation.
翻訳日:2022-11-17 14:29:59 公開日:2022-11-16
# オンライン属性選択による解釈可能なFew-shot学習

Interpretable Few-shot Learning with Online Attribute Selection ( http://arxiv.org/abs/2211.09107v1 )

ライセンス: Link先を確認
Mohammad Reza Zarei, Majid Komeili(参考訳) FSL(Few-shot Learning)は,クラス毎にサンプルを少数用意する,難しい学習問題である。 決定解釈は、従来の分類よりもエラーの確率が高いため、少数ショット分類においてより重要である。 しかし、以前のFSL法のほとんどはブラックボックスモデルである。 本稿では,人間に親しみやすい属性に基づくFSLの本質的に解釈可能なモデルを提案する。 さらに,各エピソードにおける無関係な属性を効果的にフィルタリングするオンライン属性選択機構を提案する。 属性選択機構は精度を向上し、各エピソードの参加属性数を減らし、解釈可能性を高める。 提案手法は,広範に使用されている4つのデータセット上で,ブラックボックス数ショット学習モデルと同等の結果が得られることを示す。 ブラックボックスモデルとの性能ギャップをさらに縮めるために,解釈可能性と精度を交換する機構を提案する。 提供された人間フレンドリーな属性が不十分なエピソードを自動的に検出し、学習した未知の属性を関連付けることで補償する。

Few-shot learning (FSL) is a challenging learning problem in which only a few samples are available for each class. Decision interpretation is more important in few-shot classification since there is a greater chance of error than in traditional classification. However, most of the previous FSL methods are black-box models. In this paper, we propose an inherently interpretable model for FSL based on human-friendly attributes. Moreover, we propose an online attribute selection mechanism that can effectively filter out irrelevant attributes in each episode. The attribute selection mechanism improves the accuracy and helps with interpretability by reducing the number of participated attributes in each episode. We demonstrate that the proposed method achieves results on par with black-box few-shot-learning models on four widely used datasets. To further close the performance gap with the black-box models, we propose a mechanism that trades interpretability for accuracy. It automatically detects the episodes where the provided human-friendly attributes are not adequate, and compensates by engaging learned unknown attributes.
翻訳日:2022-11-17 14:29:38 公開日:2022-11-16
# 階層的動的画像調和

Hierarchical Dynamic Image Harmonization ( http://arxiv.org/abs/2211.08639v1 )

ライセンス: Link先を確認
Haoxing Chen and Zhangxuan Gu and Yaohui Li and Jun Lan and Changhua Meng and Weiqiang Wang and Huaxiong Li(参考訳) イメージ調和はコンピュータビジョンにおいて重要なタスクであり、フォアグラウンドを調整してバックグラウンドと互換性を持たせることを目的としている。 最近の研究は主にグローバルトランスフォーメーション(正規化とカラーカーブレンダリング)を使用して視覚的な一貫性を実現することに焦点を当てている。 しかし、これらのモデルは局所的な一貫性を無視し、そのモデルサイズはエッジデバイスでの調和能力を制限する。 入力を条件としたモデル構造やパラメータに適応する動的深層ネットワークに着想を得て,効率的な画像調和のための階層型動的ネットワーク(hdnet)を提案する。 具体的には、局所力学(LD)とマスク対応グローバルダイナミクス(MGD)を適用する。 LDは異なるチャネルや位置の特徴を適応的に変化させ、構造情報学習を通じて幾何変換の表現能力を向上させる。 MGDは、前と後ろの領域の表現とグローバルな調和との相関を学習する。 実験により、提案するhdnetは、従来の方法に比べて80\%以上のパラメータを削減できるが、人気の高いiharmony4データセットでは最先端のパフォーマンスを達成していることが示された。 私たちのコードはhttps://github.com/chenhaoxing/HDNetで無効です。

Image harmonization is a critical task in computer vision, which aims to adjust the fore-ground to make it compatible with the back-ground. Recent works mainly focus on using global transformation (i.e., normalization and color curve rendering) to achieve visual consistency. However, these model ignore local consistency and their model size limit their harmonization ability on edge devices. Inspired by the dynamic deep networks that adapt the model structures or parameters conditioned on the inputs, we propose a hierarchical dynamic network (HDNet) for efficient image harmonization to adapt the model parameters and features from local to global view for better feature transformation. Specifically, local dynamics (LD) and mask-aware global dynamics (MGD) are applied. LD enables features of different channels and positions to change adaptively and improve the representation ability of geometric transformation through structural information learning. MGD learns the representations of fore- and back-ground regions and correlations to global harmonization. Experiments show that the proposed HDNet reduces more than 80\% parameters compared with previous methods but still achieves the state-of-the-art performance on the popular iHarmony4 dataset. Our code is avaliable in https://github.com/chenhaoxing/HDNet.
翻訳日:2022-11-17 14:29:21 公開日:2022-11-16
# Point Inverter: 形状優先の生成モデルによるポイントクラウド再構成と編集

PointInverter: Point Cloud Reconstruction and Editing via a Generative Model with Shape Priors ( http://arxiv.org/abs/2211.08702v1 )

ライセンス: Link先を確認
Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung(参考訳) 本稿では,3dポイントクラウドを3次元生成型逆ネットワークの潜在空間にマッピングする新しい手法を提案する。 我々の3D点雲生成モデルは、最先端の球誘導3D点雲生成装置SP-GANに基づいている。 入力された3次元点雲をSP-GANの潜在空間に符号化する効率的な方法を得る。 我々の点雲エンコーダは逆転中の点秩序問題を解くことができ、生成した3次元点雲の点とジェネレータが使用する正準球の点との対応を決定できる。 本手法は従来の3次元点雲のGANインバージョン法よりも優れており,定量および定性的に解析結果が得られた。 私たちのコードはhttps://github.com/hkust-vgd/point_inverterで利用可能です。

In this paper, we propose a new method for mapping a 3D point cloud to the latent space of a 3D generative adversarial network. Our generative model for 3D point clouds is based on SP-GAN, a state-of-the-art sphere-guided 3D point cloud generator. We derive an efficient way to encode an input 3D point cloud to the latent space of the SP-GAN. Our point cloud encoder can resolve the point ordering issue during inversion, and thus can determine the correspondences between points in the generated 3D point cloud and those in the canonical sphere used by the generator. We show that our method outperforms previous GAN inversion methods for 3D point clouds, achieving state-of-the-art results both quantitatively and qualitatively. Our code is available at https://github.com/hkust-vgd/point_inverter.
翻訳日:2022-11-17 14:29:01 公開日:2022-11-16
# 短期量子コンピューティング技術:変分量子アルゴリズム、誤り除去、回路コンパイル、ベンチマークおよび古典シミュレーション

Near-Term Quantum Computing Techniques: Variational Quantum Algorithms, Error Mitigation, Circuit Compilation, Benchmarking and Classical Simulation ( http://arxiv.org/abs/2211.08737v1 )

ライセンス: Link先を確認
He-Liang Huang, Xiao-Yue Xu, Chu Guo, Guojing Tian, Shi-Jie Wei, Xiaoming Sun, Wan-Su Bao, Gui-Lu Long(参考訳) 量子コンピューティング(Quantum Computing)は、計算科学、数学、ファイナンス、薬学、材料科学、化学、暗号などを含む、世界学術、研究センター、産業のゲーム変更技術である。 この10年で大きな成長を遂げたものの、本格的な量子コンピュータが成熟するまでには、まだまだ長い道のりが続いています。 とは言っても、我々は長い間、ノイズ・中間スケール量子(NISQ)時代にあり、数十から数千の量子コンピューティングシステムに取り組んでいる。 そこで、注目すべき課題は、非無視の量子ノイズを持つ短期量子デバイスに対して、確実に非自明なタスクを実行することができるアプリケーションを考案することである。 この課題に対処するために、変分量子アルゴリズム、エラー軽減、量子回路コンパイル、ベンチマークプロトコルなど、いくつかの短期量子コンピューティング技術が提案され、エラーを特徴づけ、緩和し、ノイズに対する一定の耐性を持つアルゴリズムを実装し、短期量子デバイスの能力を高め、有用アプリケーションを実現する能力の境界を探求している。 加えて、短期量子デバイスの開発は、量子アルゴリズムの設計と検証、エラー耐性検証、その他の応用において重要な役割を果たす効率的な古典シミュレーションとは分離できない。 このレビューでは、これらの短期量子コンピューティング技術の徹底的な導入、その進歩の報告、そして最終的にこれらの技術の将来展望について論じる。

Quantum computing is a game-changing technology for global academia, research centers and industries including computational science, mathematics, finance, pharmaceutical, materials science, chemistry and cryptography. Although it has seen a major boost in the last decade, we are still a long way from reaching the maturity of a full-fledged quantum computer. That said, we will be in the Noisy-Intermediate Scale Quantum (NISQ) era for a long time, working on dozens or even thousands of qubits quantum computing systems. An outstanding challenge, then, is to come up with an application that can reliably carry out a nontrivial task of interest on the near-term quantum devices with non-negligible quantum noise. To address this challenge, several near-term quantum computing techniques, including variational quantum algorithms, error mitigation, quantum circuit compilation and benchmarking protocols, have been proposed to characterize and mitigate errors, and to implement algorithms with a certain resistance to noise, so as to enhance the capabilities of near-term quantum devices and explore the boundaries of their ability to realize useful applications. Besides, the development of near-term quantum devices is inseparable from the efficient classical simulation, which plays a vital role in quantum algorithm design and verification, error-tolerant verification and other applications. This review will provide a thorough introduction of these near-term quantum computing techniques, report on their progress, and finally discuss the future prospect of these techniques, which we hope will motivate researchers to undertake additional studies in this field.
翻訳日:2022-11-17 14:28:04 公開日:2022-11-16
# モデルに基づく残留政策学習とアンテナ制御への応用

Model Based Residual Policy Learning with Applications to Antenna Control ( http://arxiv.org/abs/2211.08796v1 )

ライセンス: Link先を確認
Viktor Eriksson M\"ollerstedt, Alessio Russo, Maxime Bouton(参考訳) 非微分コントローラとルールベースのポリシーは、ロボットや通信ネットワークのような実システムを制御するために広く使われている。 本稿では,モデルに基づくアプローチにより既存の政策を改善し,サンプル効率を向上させるための実践的な強化学習手法を提案する。 提案手法は,様々なロボットベンチマークタスクにおいて,サンプル効率の観点から,最先端のモデルベース手法よりも優れていた。 また,従来はモデルベース手法が検討されていなかった通信分野における制御問題に対するアプローチの有効性を示す。 実験結果から, 優れた初期性能が得られ, 試料効率が向上することが示唆された。 さらに,性能を理論的に下限にすることで,アルゴリズム設計の動機付けを行う。

Non-differentiable controllers and rule-based policies are widely used for controlling real systems such as robots and telecommunication networks. In this paper, we present a practical reinforcement learning method which improves upon such existing policies with a model-based approach for better sample efficiency. Our method significantly outperforms state-of-the-art model-based methods, in terms of sample efficiency, on several widely used robotic benchmark tasks. We also demonstrate the effectiveness of our approach on a control problem in the telecommunications domain, where model-based methods have not previously been explored. Experimental results indicate that a strong initial performance can be achieved and combined with improved sample efficiency. We further motivate the design of our algorithm with a theoretical lower bound on the performance.
翻訳日:2022-11-17 14:27:36 公開日:2022-11-16
# シミュレーションプレースセル記録からの幾何表現仮説の検証

Testing geometric representation hypotheses from simulated place cell recordings ( http://arxiv.org/abs/2211.09096v1 )

ライセンス: Link先を確認
Thibault Niederhauser, Adam Lester, Nina Miolane, Khanh Dao Duc, Manu S. Madhav(参考訳) 海馬の場所細胞は、物理的またはタスク関連空間における動物の空間的位置をコードすることができる。 グラフトポロジで迷路のゴールノードにナビゲートするラットのユークリッドまたはグラフベースの位置をコードする位置細胞群をシミュレーションし,UMAPやオートエンコーダ(AE)などの多様体学習法を用いてこれらの神経集団活動を解析した。 AEによって学習された潜在空間の構造はその真の幾何学的構造を反映するが、PCAはそれを行うことができず、UMAPは雑音に対して頑健ではない。 本研究は,脳内空間エンコーディングの幾何学を解明するためのAEアーキテクチャの今後の応用を支援する。

Hippocampal place cells can encode spatial locations of an animal in physical or task-relevant spaces. We simulated place cell populations that encoded either Euclidean- or graph-based positions of a rat navigating to goal nodes in a maze with a graph topology, and used manifold learning methods such as UMAP and Autoencoders (AE) to analyze these neural population activities. The structure of the latent spaces learned by the AE reflects their true geometric structure, while PCA fails to do so and UMAP is less robust to noise. Our results support future applications of AE architectures to decipher the geometry of spatial encoding in the brain.
翻訳日:2022-11-17 14:27:05 公開日:2022-11-16
# 広層ニューラルネットワークのダイナミックスにおける対称性

Symmetries in the dynamics of wide two-layer neural networks ( http://arxiv.org/abs/2211.08771v1 )

ライセンス: Link先を確認
Karl Hajjar (LMO, CELESTE), Lenaic Chizat (EPFL)(参考訳) 偏りのない無限大2層reluニューラルネットワークの個体群リスクに対する勾配流の理想的な設定について検討し,学習パラメータと予測器に対する対称性の影響について検討した。 まず、対象関数 $f^*$ と入力分布によって満たされた場合、そのダイナミクスによって保存される対称性の一般クラスを記述する。 その後、より具体的なケースを研究します。 f^*$ が奇数であれば、予測器のダイナミクスは(非線形パラメータ化されていない)線形予測器のダイナミクスに還元され、指数収束が保証される。 f^*$ が低次元構造を持つとき、勾配流 PDE が低次元 PDE に還元されることを証明する。 さらに、入力ニューロンが問題の低次元構造と一致していることを示す非公式および数値的な議論を示す。

We consider the idealized setting of gradient flow on the population risk for infinitely wide two-layer ReLU neural networks (without bias), and study the effect of symmetries on the learned parameters and predictors. We first describe a general class of symmetries which, when satisfied by the target function $f^*$ and the input distribution, are preserved by the dynamics. We then study more specific cases. When $f^*$ is odd, we show that the dynamics of the predictor reduces to that of a (non-linearly parameterized) linear predictor, and its exponential convergence can be guaranteed. When $f^*$ has a low-dimensional structure, we prove that the gradient flow PDE reduces to a lower-dimensional PDE. Furthermore, we present informal and numerical arguments that suggest that the input neurons align with the lower-dimensional structure of the problem.
翻訳日:2022-11-17 14:20:36 公開日:2022-11-16
# 生成モデルを用いた創造的分岐合成

Creative divergent synthesis with generative models ( http://arxiv.org/abs/2211.08861v1 )

ライセンス: Link先を確認
Axel Chemla--Romeu-Santos, Philippe Esling(参考訳) 機械学習のアプローチは、画像、オーディオ、ビデオなど多くの領域で印象的な生成能力を実現している。 しかし、ほとんどのトレーニング用\&評価フレームワークは、それを外挿するのではなく、元のデータ分布を厳密にモデル化するというアイデアに基づいています。 これは、そのようなモデルが元の分布から分岐することを妨げるため、いくつかの創造的な特性を示す。 本稿では,この複雑な目標を実現するための様々な視点を提案し,新しいトレーニング目標である「textit{Bounded Adversarial Divergence} (BAD)」の予備的結果を提供する。

Machine learning approaches now achieve impressive generation capabilities in numerous domains such as image, audio or video. However, most training \& evaluation frameworks revolve around the idea of strictly modelling the original data distribution rather than trying to extrapolate from it. This precludes the ability of such models to diverge from the original distribution and, hence, exhibit some creative traits. In this paper, we propose various perspectives on how this complicated goal could ever be achieved, and provide preliminary results on our novel training objective called \textit{Bounded Adversarial Divergence} (BAD).
翻訳日:2022-11-17 14:20:21 公開日:2022-11-16
# Pyrocumulonimbus(PyroCb)の原因の同定

Identifying the Causes of Pyrocumulonimbus (PyroCb) ( http://arxiv.org/abs/2211.08883v1 )

ライセンス: Link先を確認
Emiliano D\'iaz Salas-Porras, Kenza Tazi, Ashwin Braude, Daniel Okoh, Kara D. Lamb, Duncan Watson-Parris, Paula Harder and Nis Meinert(参考訳) ピロCb(極端の山火事から発生する吹雪雲)の観測データから,最初の因果発見分析を行った。 Invariant Causal Predictionは、pyroCb形成の因果的要因を理解するためのツールの開発に使用された。 これには、バイナリ変数 $Y$ と multivariate に対して $Y \indep E|X$ をテストする条件独立テスト、連続変数 $X$ と $E$ をテストするための条件独立性テスト、より小さな条件独立性テストに依存するgreedy-ICP 探索アルゴリズムが含まれる。 これらのツールを用いて、表面感受性熱流束(surface sensible heat flux)、相対湿度(850$,hpa)、風成分($250$\,hpa, $13.3$\,\textmu m)、対流可能なポテンシャルエネルギー(convective potential energy)、高度の7つの因果予測器のサブセットを特定した。

A first causal discovery analysis from observational data of pyroCb (storm clouds generated from extreme wildfires) is presented. Invariant Causal Prediction was used to develop tools to understand the causal drivers of pyroCb formation. This includes a conditional independence test for testing $Y \indep E|X$ for binary variable $Y$ and multivariate, continuous variables $X$ and $E$, and a greedy-ICP search algorithm that relies on fewer conditional independence tests to obtain a smaller more manageable set of causal predictors. With these tools, we identified a subset of seven causal predictors which are plausible when contrasted with domain knowledge: surface sensible heat flux, relative humidity at $850$\,hPa, a component of wind at $250$\,hPa, $13.3$\,\textmu m thermal emissions, convective available potential energy, and altitude.
翻訳日:2022-11-17 14:20:09 公開日:2022-11-16
# 出力正規性推定によるベクトル値最小二乗回帰

Vector-Valued Least-Squares Regression under Output Regularity Assumptions ( http://arxiv.org/abs/2211.08958v1 )

ライセンス: Link先を確認
Luc Brogat-Motte, Alessandro Rudi, C\'eline Brouard, Juho Rousu, Florence d'Alch\'e-Buc(参考訳) 最小二乗回帰問題を無限次元出力で解くために,還元ランク法を提案し,解析する。 提案手法の学習バウンダリを導出し、フルランク手法と比較して統計的性能の設定を改善する研究を行う。 本分析は, 標準低ランク設定からより一般的な出力正規性仮定まで, 低ランク回帰の関心を拡げる。 我々は合成最小二乗問題に関する理論的知見を説明する。 そこで,本手法から得られた代理構造予測手法を提案する。 画像再構成,多ラベル分類,代謝物同定の3つの異なる問題に対して,その利点を評価する。

We propose and analyse a reduced-rank method for solving least-squares regression problems with infinite dimensional output. We derive learning bounds for our method, and study under which setting statistical performance is improved in comparison to full-rank method. Our analysis extends the interest of reduced-rank regression beyond the standard low-rank setting to more general output regularity assumptions. We illustrate our theoretical insights on synthetic least-squares problems. Then, we propose a surrogate structured prediction method derived from this reduced-rank method. We assess its benefits on three different problems: image reconstruction, multi-label classification, and metabolite identification.
翻訳日:2022-11-17 14:19:44 公開日:2022-11-16
# 不均衡サブポピュレーションによる雑音ラベルの学習

Learning with Noisy Labels over Imbalanced Subpopulations ( http://arxiv.org/abs/2211.08722v1 )

ライセンス: Link先を確認
MingCai Chen, Yu Zhao, Bing He, Zongbo Han, Bingzhe Wu, Jianhua Yao(参考訳) ノイズラベル(LNL)による学習は、研究コミュニティから大きな注目を集めている。 最近の多くのlnlメソッドはクリーンサンプルが"小さな損失"を持つ傾向があるという仮定に依存している。 しかし、この仮定は常に、サンプルサイズや認識難易度が異なる訓練サブポピュレーションなど、不均衡なサブポピュレーションを持つ現実のケースに一般化することができない。 そのため、近年のLNL法では、これらの「情報的」なサンプル(例えば、尾部亜集団の硬いサンプルやサンプル)をノイズのあるサンプルに誤分類する危険性があり、一般化性能は低い。 以上の問題に対処するため,ノイズラベルと不均衡なサブポピュレーションを同時に扱うLNL法を提案する。 まず、サンプル相関を利用してラベル補正のためのサンプルのクリーンな確率を推定し、次に修正ラベルを使用して分散的ロバスト最適化(dro)を行い、ロバスト性をさらに向上させる。 具体的には, 分類損失を選択基準として用いた先行研究とは対照的に, サンプルのクリーンな確率を推定するために, サンプル相関を考慮した特徴量測定法を提案する。 次に, 推定されたクリーン確率と擬似ラベルを用いて, ノイズラベルを再構成する。 再生ラベルでは、DROを使用してモデルをトレーニングし、サブポピュレーションの不均衡に頑健にします。 幅広いベンチマークを用いた広範な実験により,本手法は,雑音ラベルに対して,特に不均衡な下位集団に遭遇した場合において,最先端のロバストな学習パラダイムを一貫して改善できることが証明された。

Learning with Noisy Labels (LNL) has attracted significant attention from the research community. Many recent LNL methods rely on the assumption that clean samples tend to have "small loss". However, this assumption always fails to generalize to some real-world cases with imbalanced subpopulations, i.e., training subpopulations varying in sample size or recognition difficulty. Therefore, recent LNL methods face the risk of misclassifying those "informative" samples (e.g., hard samples or samples in the tail subpopulations) into noisy samples, leading to poor generalization performance. To address the above issue, we propose a novel LNL method to simultaneously deal with noisy labels and imbalanced subpopulations. It first leverages sample correlation to estimate samples' clean probabilities for label correction and then utilizes corrected labels for Distributionally Robust Optimization (DRO) to further improve the robustness. Specifically, in contrast to previous works using classification loss as the selection criterion, we introduce a feature-based metric that takes the sample correlation into account for estimating samples' clean probabilities. Then, we refurbish the noisy labels using the estimated clean probabilities and the pseudo-labels from the model's predictions. With refurbished labels, we use DRO to train the model to be robust to subpopulation imbalance. Extensive experiments on a wide range of benchmarks demonstrate that our technique can consistently improve current state-of-the-art robust learning paradigms against noisy labels, especially when encountering imbalanced subpopulations.
翻訳日:2022-11-17 14:19:10 公開日:2022-11-16
# 神経発達現象予測 : 最先端のディープラーニングモデル

Neurodevelopmental Phenotype Prediction: A State-of-the-Art Deep Learning Model ( http://arxiv.org/abs/2211.08831v1 )

ライセンス: Link先を確認
D\'aniel Unyi, B\'alint Gyires-T\'oth(参考訳) 医用画像解析における大きな課題は、神経画像データからのバイオマーカーの自動検出である。 イメージ登録に基づく伝統的なアプローチは、個人間での皮質組織の高い多様性の獲得に限られている。 深層学習法はこの難しさを克服することに成功したことが示されており、一部は特定のデータセットで医療専門家よりも優れていた。 本稿では, 深層ニューラルネットワークを用いて, ヒトコネクトームプロジェクト(dhcp)から得られた新生児の皮質表面データを分析する。 我々の目標は、神経発達バイオマーカーを同定し、これらのバイオマーカーに基づいて出生時の妊娠年齢を予測することである。 妊娠終末期に獲得した新生児のスキャンを用いて,妊娠早期の出生が妊娠後期の皮質成長および成熟に及ぼす影響について検討した。 最先端の予測精度に到達することに加えて、提案モデルではベースラインよりもパラメータがはるかに少なく、未登録および登録の皮質面上では誤差が低い。

A major challenge in medical image analysis is the automated detection of biomarkers from neuroimaging data. Traditional approaches, often based on image registration, are limited in capturing the high variability of cortical organisation across individuals. Deep learning methods have been shown to be successful in overcoming this difficulty, and some of them have even outperformed medical professionals on certain datasets. In this paper, we apply a deep neural network to analyse the cortical surface data of neonates, derived from the publicly available Developing Human Connectome Project (dHCP). Our goal is to identify neurodevelopmental biomarkers and to predict gestational age at birth based on these biomarkers. Using scans of preterm neonates acquired around the term-equivalent age, we were able to investigate the impact of preterm birth on cortical growth and maturation during late gestation. Besides reaching state-of-the-art prediction accuracy, the proposed model has much fewer parameters than the baselines, and its error stays low on both unregistered and registered cortical surfaces.
翻訳日:2022-11-17 14:18:41 公開日:2022-11-16
# 自己監督型階層型タスククラスタリングによるFew-shotテキスト分類のためのディエンタングリングタスク関係

Disentangling Task Relations for Few-shot Text Classification via Self-Supervised Hierarchical Task Clustering ( http://arxiv.org/abs/2211.08588v1 )

ライセンス: Link先を確認
Juan Zha, Zheng Li, Ying Wei, Yu Zhang(参考訳) Few-Shot Text Classification (FSTC) は、過去のタスクから事前の知識を活用することで、人間の模倣により、少数の例で新しいテキスト分類器を効率的に学習する。 しかし、ほとんどの先行研究は、タスクが異質で異なる分布にある現実のシナリオに適応できない単一のデータソースから全てのタスクがサンプリングされていると仮定している。 このように、既存の手法は、タスクの不均一性を扱うグローバルな知識共有メカニズムに悩まされる可能性がある。 一方,タスク関連性は明確には捉えられず,タスク知識が組織化されず,新たなタスクへの移行も困難である。 そこで本研究では,さまざまなデータソースからタスクを生成可能な,新たなFSTC設定を提案する。 タスクの不均一性に対処するために,自己教師付き階層型タスククラスタリング(SS-HTC)手法を提案する。 ss-htcは、異種タスクを階層レベルで異なるクラスタに動的に整理することで、クラスタ固有の知識をカスタマイズするだけでなく、タスク間の基礎的な関係を分離して解釈性を改善する。 5つの公開FSTCベンチマークデータセットに対する大規模な実験は、SS-HTCの有効性を示している。

Few-Shot Text Classification (FSTC) imitates humans to learn a new text classifier efficiently with only few examples, by leveraging prior knowledge from historical tasks. However, most prior works assume that all the tasks are sampled from a single data source, which cannot adapt to real-world scenarios where tasks are heterogeneous and lie in different distributions. As such, existing methods may suffer from their globally knowledge-shared mechanisms to handle the task heterogeneity. On the other hand, inherent task relation are not explicitly captured, making task knowledge unorganized and hard to transfer to new tasks. Thus, we explore a new FSTC setting where tasks can come from a diverse range of data sources. To address the task heterogeneity, we propose a self-supervised hierarchical task clustering (SS-HTC) method. SS-HTC not only customizes cluster-specific knowledge by dynamically organizing heterogeneous tasks into different clusters in hierarchical levels but also disentangles underlying relations between tasks to improve the interpretability. Extensive experiments on five public FSTC benchmark datasets demonstrate the effectiveness of SS-HTC.
翻訳日:2022-11-17 14:12:18 公開日:2022-11-16
# 補助入力によるエージェント状態構築

Agent-State Construction with Auxiliary Inputs ( http://arxiv.org/abs/2211.07805v2 )

ライセンス: Link先を確認
Ruo Yu Tao, Adam White, Marlos C. Machado(参考訳) 多くの場合、すべての現実的な意思決定タスクではないとしても、意思決定エージェントは世界の複雑さを完全にモデル化することはできない。 環境はしばしばエージェントよりも大きく複雑であり、部分的可観測性とも呼ばれる。 このような設定では、エージェントは現在の感覚入力だけでなく、これまでの世界との相互作用を要約するエージェント状態を構築する必要がある。 現在、この問題に取り組むための一般的なアプローチは、エージェントの感覚ストリームからリカレントネットワークを介してエージェントの状態関数を入力として学習することである。 多くの印象的な強化学習アプリケーションは、エージェントの入力を履歴要約に役立てるために、環境特有の機能に依存している。 これらの拡張は、観測を連結するといった単純なアプローチから、不確実性推定のようなより複雑なアプローチまで、複数の方法で行われる。 この分野ではユビキタスだが、補助入力と呼ばれるこれらの追加入力はほとんど強調されず、それらの役割や影響は明らかではない。 この研究で、我々はこのアイデアをさらに探求し、これらの補助的なインプットを、状態構築に対する以前の古典的アプローチに関連付ける。 本稿では,補助入力を用いた強化学習の方法を示す一連の例を示す。 これらの補助的な入力は、他の方法ではエイリアスされるであろう観測を区別するために使用することができ、異なる状態間でスムーズに補間するより表現力のある特徴をもたらす。 最後に,このアプローチは,繰り返しニューラルネットワークや時間経過によるバックプロパゲーションといった最先端の手法を補完するものであり,時間的クレジット割り当ての長期化を促進するヒューリスティックとして機能し,パフォーマンスの向上につながることを示す。

In many, if not every realistic sequential decision-making task, the decision-making agent is not able to model the full complexity of the world. The environment is often much larger and more complex than the agent, a setting also known as partial observability. In such settings, the agent must leverage more than just the current sensory inputs; it must construct an agent state that summarizes previous interactions with the world. Currently, a popular approach for tackling this problem is to learn the agent-state function via a recurrent network from the agent's sensory stream as input. Many impressive reinforcement learning applications have instead relied on environment-specific functions to aid the agent's inputs for history summarization. These augmentations are done in multiple ways, from simple approaches like concatenating observations to more complex ones such as uncertainty estimates. Although ubiquitous in the field, these additional inputs, which we term auxiliary inputs, are rarely emphasized, and it is not clear what their role or impact is. In this work we explore this idea further, and relate these auxiliary inputs to prior classic approaches to state construction. We present a series of examples illustrating the different ways of using auxiliary inputs for reinforcement learning. We show that these auxiliary inputs can be used to discriminate between observations that would otherwise be aliased, leading to more expressive features that smoothly interpolate between different states. Finally, we show that this approach is complementary to state-of-the-art methods such as recurrent neural networks and truncated back-propagation through time, and acts as a heuristic that facilitates longer temporal credit assignment, leading to better performance.
翻訳日:2022-11-17 14:11:59 公開日:2022-11-16
# 多目的強化学習における確率環境の課題と地域意思決定

Addressing the issue of stochastic environments and local decision-making in multi-objective reinforcement learning ( http://arxiv.org/abs/2211.08669v1 )

ライセンス: Link先を確認
Kewen Ding(参考訳) multi-objective reinforcement learning (morl) は、従来の強化学習 (rl) に基づいた、比較的新しい分野である。 一般的なアルゴリズムの1つは、ベクトルQ値とユーティリティ関数を組み合わせてスカラー値Q学習を拡張し、ユーザの行動選択の好みをキャプチャする。 本研究は、先行研究に続き、各エピソードにおける結果ではなく、複数の実行の平均結果を最大化するSER(Scalarised expecteded Return)の最大化を目標とするシナリオにおいて、価値に基づくMORL Q-learningアルゴリズムが確率的状態遷移を持つ環境に対して最適なポリシーを学習する頻度に影響を与える要因に焦点を当てる。 MORL Q-learningアルゴリズムと確率環境の相互作用の解析は、多目的マルコフ決定プロセス(MOMDP)の空間トレーダー問題において異なる変種で実行される。 実験的な評価では、よく設計された報酬信号は元のベースラインアルゴリズムの性能を向上させることができるが、より一般的な環境に対処するには不十分である。 グローバル統計を取り入れたMORL Q-Learningの変種は、宇宙トレーダ問題のベースライン法よりも優れているが、訓練の終わりに求めるSER最適ポリシーを見つけるための有効度は100%以下である。 一方、オプション学習は望ましいSER最適化ポリシーに収束することが保証されているが、現実の複雑な問題を解決するにはスケールアップできない。 この論文の主な貢献は、ノイズq値推定の問題は、確率環境、非線形ユーティリティ、定数学習率の組み合わせ下で最適なポリシーを学習する能力にどの程度影響するかを明らかにすることである。

Multi-objective reinforcement learning (MORL) is a relatively new field which builds on conventional Reinforcement Learning (RL) to solve multi-objective problems. One of common algorithm is to extend scalar value Q-learning by using vector Q values in combination with a utility function, which captures the user's preference for action selection. This study follows on prior works, and focuses on what factors influence the frequency with which value-based MORL Q-learning algorithms learn the optimal policy for an environment with stochastic state transitions in scenarios where the goal is to maximise the Scalarised Expected Return (SER) - that is, to maximise the average outcome over multiple runs rather than the outcome within each individual episode. The analysis of the interaction between stochastic environment and MORL Q-learning algorithms run on a simple Multi-objective Markov decision process (MOMDP) Space Traders problem with different variant versions. The empirical evaluations show that well designed reward signal can improve the performance of the original baseline algorithm, however it is still not enough to address more general environment. A variant of MORL Q-Learning incorporating global statistics is shown to outperform the baseline method in original Space Traders problem, but remains below 100 percent effectiveness in finding the find desired SER-optimal policy at the end of training. On the other hand, Option learning is guarantied to converge to desired SER-optimal policy but it is not able to scale up to solve more complex problem in real-life. The main contribution of this thesis is to identify the extent to which the issue of noisy Q-value estimates impacts on the ability to learn optimal policies under the combination of stochastic environments, non-linear utility and a constant learning rate.
翻訳日:2022-11-17 14:10:54 公開日:2022-11-16
# dnn前処理による逆例の探索

Efficiently Finding Adversarial Examples with DNN Preprocessing ( http://arxiv.org/abs/2211.08706v1 )

ライセンス: Link先を確認
Avriti Chauhan, Mohammad Afzal, Hrishikesh Karmarkar, Yizhak Elboher, Kumar Madhukar, and Guy Katz(参考訳) ディープニューラルネットワーク(dnn)はどこにでも存在し、マシンが実行するには想像できない非常に複雑なタスクを頻繁に実行する。 そうすることで、彼らは多くの意思決定を行い、アプリケーションによっては、うまくいかなかったら悲惨なことになるかもしれない。 このことは、基礎となるニューラルネットワークが特定の望ましい性質を満たすという公式な議論を必要とする。 特に安全性やビジネスクリティカルなアプリケーションにデプロイされている場合、ロバストネスはDNNにとって重要な特性のひとつです。 形式的には、DNNは、入力に対する非常に小さな変更がかなりの方法で出力に影響を与える場合(例えば、その入力の分類を変更する場合)、堅牢ではない。 逆の例を見つけるタスクは、いつでも適用可能な堅牢性の欠如を示すことです。 これは制約付き最適化技術によって実現可能だが、大規模ネットワークではスケーラビリティが課題となる。 本稿では,DNNを前処理して収集した情報を用いて最適化問題を単純化する手法を提案する。 我々の実験は、これが有効であり、最先端技術よりも著しく優れていることを裏付けている。

Deep Neural Networks (DNNs) are everywhere, frequently performing a fairly complex task that used to be unimaginable for machines to carry out. In doing so, they do a lot of decision making which, depending on the application, may be disastrous if gone wrong. This necessitates a formal argument that the underlying neural networks satisfy certain desirable properties. Robustness is one such key property for DNNs, particularly if they are being deployed in safety or business critical applications. Informally speaking, a DNN is not robust if very small changes to its input may affect the output in a considerable way (e.g. changes the classification for that input). The task of finding an adversarial example is to demonstrate this lack of robustness, whenever applicable. While this is doable with the help of constrained optimization techniques, scalability becomes a challenge due to large-sized networks. This paper proposes the use of information gathered by preprocessing the DNN to heavily simplify the optimization problem. Our experiments substantiate that this is effective, and does significantly better than the state-of-the-art.
翻訳日:2022-11-17 14:10:22 公開日:2022-11-16
# スペクトル拡散による高速グラフ生成モデル

Fast Graph Generative Model via Spectral Diffusion ( http://arxiv.org/abs/2211.08892v1 )

ライセンス: Link先を確認
Tianze Luo, Zhanfeng Mo, Sinno Jialin Pan(参考訳) グラフ構造データの生成は難しい問題であり、グラフの基盤となる分布を学習する必要がある。 グラフVAE、グラフGAN、グラフ拡散モデルといった様々なモデルが、有意義で信頼性の高いグラフを生成するために提案されている。 本稿では,全空間におけるフルランク拡散SDEの実行は,学習グラフトポロジ生成からの拡散モデルを妨げるため,生成したグラフデータの品質を著しく低下させる。 この制限に対処するために、グラフスペクトル空間上の低ランク拡散SDEによって駆動される効率的なグラフスペクトル拡散モデル(GSDM)を提案する。 我々のスペクトル拡散モデルは、標準拡散モデルよりもかなり強い理論的保証を享受できることが証明されている。 各種データセットを対象とした大規模な実験により,提案したGSDMがSOTAモデルであることが判明した。

Generating graph-structured data is a challenging problem, which requires learning the underlying distribution of graphs. Various models such as graph VAE, graph GANs and graph diffusion models have been proposed to generate meaningful and reliable graphs, among which the diffusion models have achieved state-of-the-art performance. In this paper, we argue that running full-rank diffusion SDEs on the whole space hinders diffusion models from learning graph topology generation, and hence significantly deteriorates the quality of generated graph data. To address this limitation, we propose an efficient yet effective Graph Spectral Diffusion Model (GSDM), which is driven by low-rank diffusion SDEs on the graph spectrum space. Our spectral diffusion model is further proven to enjoy a substantially stronger theoretical guarantee than standard diffusion models. Extensive experiments across various datasets demonstrate that, our proposed GSDM turns out to be the SOTA model, by exhibiting either significantly higher generation quality or much less computational consumption than the baselines.
翻訳日:2022-11-17 14:10:06 公開日:2022-11-16
# ドメイン逆グラフニューラルネットワークを用いた自転車共有需要予測のためのクロスモーダル知識適応

Cross-Mode Knowledge Adaptation for Bike Sharing Demand Prediction using Domain-Adversarial Graph Neural Networks ( http://arxiv.org/abs/2211.08903v1 )

ライセンス: Link先を確認
Yuebing Liang, Guan Huang and Zhan Zhao(参考訳) 自転車共有システムにとって、需要予測は、予測された需要に応じて、利用可能な自転車のタイムリーな再バランスを確保するために不可欠である。 既存の自転車シェアリング需要予測の方法は、基本的にはクローズドシステムとして、異なる輸送モード間の相互作用を無視する独自の歴史的需要変動に基づいている。 これは自転車シェアリングにおいて特に重要であり、他のモード(公共交通機関など)での移動を補完するためにしばしば使用される。 最近の進歩にもかかわらず、既存の手法では複数のモードからの時空間情報を活用することはできず、それらの間の分布の不一致を明示的に考慮し、容易に負の転送につながる可能性がある。 そこで本研究では,複数モーダル履歴データを入力として,自転車シェアリング需要予測を行うためのドメイン逆マルチリレーショナルグラフニューラルネットワーク(da-mrgnn)を提案する。 異なるモードの需要パターンから共有可能な特徴を抽出するために、時間的対向適応ネットワークを導入する。 モード間の空間単位間の相関関係を捉えるため,モード間の類似性と差を考慮したマルチリレーショナルグラフニューラルネットワーク(MRGNN)を適用した。 さらに,提案したモデルがどのように予測を行うかを理解するために,説明可能なGNN手法を開発した。 ニューヨーク市の自転車シェアリング、地下鉄、ライドシェアリングのデータを用いて大規模な実験が行われた。 その結果,提案手法は既存手法と比較して優れた性能を示し,異なるモデルコンポーネントの有効性を示した。

For bike sharing systems, demand prediction is crucial to ensure the timely re-balancing of available bikes according to predicted demand. Existing methods for bike sharing demand prediction are mostly based on its own historical demand variation, essentially regarding it as a closed system and neglecting the interaction between different transportation modes. This is particularly important for bike sharing because it is often used to complement travel through other modes (e.g., public transit). Despite some recent progress, no existing method is capable of leveraging spatiotemporal information from multiple modes and explicitly considers the distribution discrepancy between them, which can easily lead to negative transfer. To address these challenges, this study proposes a domain-adversarial multi-relational graph neural network (DA-MRGNN) for bike sharing demand prediction with multimodal historical data as input. A temporal adversarial adaptation network is introduced to extract shareable features from demand patterns of different modes. To capture correlations between spatial units across modes, we adapt a multi-relational graph neural network (MRGNN) considering both cross-mode similarity and difference. In addition, an explainable GNN technique is developed to understand how our proposed model makes predictions. Extensive experiments are conducted using real-world bike sharing, subway and ride-hailing data from New York City. The results demonstrate the superior performance of our proposed approach compared to existing methods and the effectiveness of different model components.
翻訳日:2022-11-17 14:09:50 公開日:2022-11-16
# 動的マルチタスク学習による逐次質問生成

Consecutive Question Generation via Dynamic Multitask Learning ( http://arxiv.org/abs/2211.08850v1 )

ライセンス: Link先を確認
Yunji Li, Sujian Li, Xing Shi(参考訳) 本稿では,文全体を理解するために,論理的に関連する質問・回答ペアの組を生成する連続質問生成タスク(cqg)を提案し,正確性,範囲,情報性などの側面を包括的に検討する。 そこで我々はまず,CQGの4つの重要な要素,すなわち質問,回答,合理化,コンテキスト履歴について検討し,質問応答ペアを生成する1つの主要なタスクと,他の要素を生成する4つの補助タスクを備えた新しい動的マルチタスクフレームワークを提案する。 これは、ジョイントトレーニングと自己評価の両方を通じて、モデルが優れた質問を直接生成するのに役立つ。 同時に、与えられた通路における価値のある情報を完全に探求するために、我々は、再ランクされた損失を利用して、論理をサンプリングし、世界最高の質問シリーズを検索する。 最後に、QAデータ拡張と手動評価による戦略の評価を行い、DocNLI上で生成した質問応答ペアの新たな応用について述べる。 我々の戦略が質問生成を大幅に改善し、複数の関連するNLPタスクに利益をもたらすことを実証する。

In this paper, we propose the task of consecutive question generation (CQG), which generates a set of logically related question-answer pairs to understand a whole passage, with a comprehensive consideration of the aspects including accuracy, coverage, and informativeness. To achieve this, we first examine the four key elements of CQG, i.e., question, answer, rationale, and context history, and propose a novel dynamic multitask framework with one main task generating a question-answer pair, and four auxiliary tasks generating other elements. It directly helps the model generate good questions through both joint training and self-reranking. At the same time, to fully explore the worth-asking information in a given passage, we make use of the reranking losses to sample the rationales and search for the best question series globally. Finally, we measure our strategy by QA data augmentation and manual evaluation, as well as a novel application of generated question-answer pairs on DocNLI. We prove that our strategy can improve question generation significantly and benefit multiple related NLP tasks.
翻訳日:2022-11-17 14:03:43 公開日:2022-11-16
# Galactica: 科学のための大規模言語モデル

Galactica: A Large Language Model for Science ( http://arxiv.org/abs/2211.09085v1 )

ライセンス: Link先を確認
Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic(参考訳) 情報過剰は科学的進歩の大きな障害である。 科学文献やデータの爆発的な成長は、大量の情報から有用な洞察を見つけるのをますます困難にしている。 現在、科学知識は検索エンジンを通じてアクセスされているが、科学知識のみを整理することはできない。 本稿では,科学知識の保存,組み合わせ,推論が可能な大規模言語モデルであるGalacticaを紹介する。 我々は、論文、参考資料、知識基盤、その他多くの情報源の大規模な科学的コーパスを訓練する。 私たちは既存のモデルを様々な科学的タスクで上回っている。 LaTeX方程式のような技術知識プローブでは、Galacticaは最新のGPT-3よりも68.2%高い49.0%である。 数学的なMMLUではチンチラを41.3%から35.7%、MATHではPaLM 540Bを20.4%対8.8%で上回っている。 また、PubMedQAやMedMCQAのような下流タスクで77.6%、52.9%の新しい最先端タスクも設定している。 一般のコーパスで訓練を受けていないにもかかわらず、GalacticaはBIGベンチでBLOOMとOPT-175Bを上回っている。 これらの結果は,新たな科学インターフェースとしての言語モデルの可能性を示している。 我々は、科学コミュニティの利益のためのモデルをオープンソースにしています。

Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2% versus 49.0%. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3% to 35.7%, and PaLM 540B on MATH with a score of 20.4% versus 8.8%. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6% and 52.9%. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community.
翻訳日:2022-11-17 14:03:24 公開日:2022-11-16
# 説明不能な軽微な医療報告を要した病変ガイド

Lesion Guided Explainable Few Weak-shot Medical Report Generation ( http://arxiv.org/abs/2211.08732v1 )

ライセンス: Link先を確認
Jinghan Sun, Dong Wei, Liansheng Wang, and Yefeng Zheng(参考訳) 医療画像は臨床診断に広く用いられている。 解釈可能な医療報告の自動生成は、放射線医の負担を軽減し、タイムリーなケアを容易にする。 しかし、既存のレポート自動生成手法では、トレーニングに十分なラベル付きデータが必要である。 さらに、学習したモデルはトレーニングクラスのレポートのみを生成することができ、これまで見つからなかった新しい病気に適応する能力に欠ける。 そこで本研究では,視覚的特徴アライメントと意味的特徴アライメントを通じて,目と新しいクラス間の相関関係を学習し,トレーニング中に観察されない疾患の医療報告を生成するための,弱ショットな医療レポート生成フレームワークを提案する。 病変中心の特徴抽出器とトランスフォーマティブベースのレポート生成モジュールを統合する。 具体的には、病変中心の特徴抽出器が異常領域を検出し、多視点(視覚的および語彙的)埋め込みによる目新しいクラス間の相関を学習する。 そして、検出された領域と対応する埋め込みの特徴をレポート生成モジュールへのマルチビュー入力として連結し、画像中に検出されたテキスト記述及び対応する異常領域を含む説明可能なレポート生成を行う。 解説可能なアノテーションを提供するデータセットであるFFA-IRの実験を行い、本フレームワークが新規疾患の報告生成において他者より優れていることを示す。

Medical images are widely used in clinical practice for diagnosis. Automatically generating interpretable medical reports can reduce radiologists' burden and facilitate timely care. However, most existing approaches to automatic report generation require sufficient labeled data for training. In addition, the learned model can only generate reports for the training classes, lacking the ability to adapt to previously unseen novel diseases. To this end, we propose a lesion guided explainable few weak-shot medical report generation framework that learns correlation between seen and novel classes through visual and semantic feature alignment, aiming to generate medical reports for diseases not observed in training. It integrates a lesion-centric feature extractor and a Transformer-based report generation module. Concretely, the lesion-centric feature extractor detects the abnormal regions and learns correlations between seen and novel classes with multi-view (visual and lexical) embeddings. Then, features of the detected regions and corresponding embeddings are concatenated as multi-view input to the report generation module for explainable report generation, including text descriptions and corresponding abnormal regions detected in the images. We conduct experiments on FFA-IR, a dataset providing explainable annotations, showing that our framework outperforms others on report generation for novel diseases.
翻訳日:2022-11-17 14:02:37 公開日:2022-11-16
# text-featur interpretability embedded と external attack node implantation による人物のテキスト画像マッチング

Person Text-Image Matching via Text-Featur Interpretability Embedding and External Attack Node Implantation ( http://arxiv.org/abs/2211.08657v1 )

ライセンス: Link先を確認
Fan Li, Hang Zhou, Huafeng Li, Yafei Zhang, and Zhengtao Yu(参考訳) 人物画像マッチングは、テキストベースの人物検索としても知られ、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。 人物のテキスト画像マッチングは大きな研究進歩を遂げてきたが、既存の手法はまだ2つの課題に直面している。 第一に、テキストの特徴の解釈性の欠如は、それらと対応する画像特徴を効果的に一致させることを困難にしている。 第二に、同一の歩行者画像は複数の異なるテキスト記述に対応し、単一のテキスト記述は同じアイデンティティの複数の異なる画像に対応できる。 テキスト記述や画像の多様性により、ネットワークが2つのモダリティにマッチするロバストな特徴を抽出することが困難になる。 これらの問題に対処するために,テキスト特徴解釈性と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。 具体的には,テキストのアライメントを実現し,画像領域の特徴を記述するために,画像特徴と一貫した意味情報を提供し,テキスト特徴の解釈性を向上させるとともに,テキストと対応する人物画像の多様性によって生じる課題に対処するため,摂動情報に起因する特徴の多様性による変化を扱い,それを解決するための新しい逆攻撃・防御手法を提案する。 モデル設計では、特徴表現の基本的なフレームワークとしてグラフ畳み込みを使用し、特徴抽出におけるテキストや画像の多様性に起因する敵攻撃を、グラフ畳み込み層に追加の攻撃ノードを埋め込むことでシミュレートし、テキストや画像の多様性に対するモデルの堅牢性を向上させる。 大規模な実験は、既存の手法よりもテキストペトリアン画像マッチングの有効性と優位性を示す。 メソッドのソースコードが公開されています

Person text-image matching, also known as textbased person search, aims to retrieve images of specific pedestrians using text descriptions. Although person text-image matching has made great research progress, existing methods still face two challenges. First, the lack of interpretability of text features makes it challenging to effectively align them with their corresponding image features. Second, the same pedestrian image often corresponds to multiple different text descriptions, and a single text description can correspond to multiple different images of the same identity. The diversity of text descriptions and images makes it difficult for a network to extract robust features that match the two modalities. To address these problems, we propose a person text-image matching method by embedding text-feature interpretability and an external attack node. Specifically, we improve the interpretability of text features by providing them with consistent semantic information with image features to achieve the alignment of text and describe image region features.To address the challenges posed by the diversity of text and the corresponding person images, we treat the variation caused by diversity to features as caused by perturbation information and propose a novel adversarial attack and defense method to solve it. In the model design, graph convolution is used as the basic framework for feature representation and the adversarial attacks caused by text and image diversity on feature extraction is simulated by implanting an additional attack node in the graph convolution layer to improve the robustness of the model against text and image diversity. Extensive experiments demonstrate the effectiveness and superiority of text-pedestrian image matching over existing methods. The source code of the method is published at
翻訳日:2022-11-17 14:01:28 公開日:2022-11-16
# adamae: masked autoencoderを用いた時空間学習のための適応マスク

AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders ( http://arxiv.org/abs/2211.09120v1 )

ライセンス: Link先を確認
Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel(参考訳) マスク付きオートエンコーダ(maes)は、可視データのトークンからマスク付き入力データを再構成することで、画像、テキスト、オーディオ、ビデオなどの汎用表現を学習する。 現在のビデオのMAEアプローチは、これらのトークンを選択するためにランダムパッチ、チューブ、フレームベースのマスキング戦略に依存している。 本稿では,エンドツーエンドのトレーニングが可能なmaesのための適応マスク戦略であるadamaeを提案する。 我々の適応マスキング戦略は補助サンプリングネットワークを用いて意味的文脈に基づいて可視トークンをサンプリングする。 このネットワークは時空パッチトークン上のカテゴリ分布を推定する。 予測される再構成誤差を増加させるトークンは、強化学習におけるポリシー勾配アルゴリズムによって動機付けられ、可視トークンとして選択される。 我々はadamaeが高時空間情報領域からより多くのトークンをサンプリングすることにより、95%のトークンを隠ぺいすることができ、メモリ要件の低減と事前トレーニングの高速化が達成できることを示した。 提案手法の有効性を実証するため,v2(ssv2)データセットのアブレーション実験を行い,ssv2のtop-1精度70.0%,81.7%,vitベースバックボーンと800プリトレーニングエポックを持つkinetics-400アクション分類データセットを報告した。

Masked Autoencoders (MAEs) learn generalizable representations for image, text, audio, video, etc., by reconstructing masked input data from tokens of the visible data. Current MAE approaches for videos rely on random patch, tube, or frame-based masking strategies to select these tokens. This paper proposes AdaMAE, an adaptive masking strategy for MAEs that is end-to-end trainable. Our adaptive masking strategy samples visible tokens based on the semantic context using an auxiliary sampling network. This network estimates a categorical distribution over spacetime-patch tokens. The tokens that increase the expected reconstruction error are rewarded and selected as visible tokens, motivated by the policy gradient algorithm in reinforcement learning. We show that AdaMAE samples more tokens from the high spatiotemporal information regions, thereby allowing us to mask 95% of tokens, resulting in lower memory requirements and faster pre-training. We conduct ablation studies on the Something-Something v2 (SSv2) dataset to demonstrate the efficacy of our adaptive sampling approach and report state-of-the-art results of 70.0% and 81.7% in top-1 accuracy on SSv2 and Kinetics-400 action classification datasets with a ViT-Base backbone and 800 pre-training epochs.
翻訳日:2022-11-17 14:00:58 公開日:2022-11-16
# AdaptKeyBERT: KeyBERTのFew-ShotとZero-Shotドメイン適応に対する注意に基づくアプローチ

AdaptKeyBERT: An Attention-Based approach towards Few-Shot & Zero-Shot Domain Adaptation of KeyBERT ( http://arxiv.org/abs/2211.07499v2 )

ライセンス: Link先を確認
Aman Priyanshu and Supriti Vijay(参考訳) キーワード抽出は現代の自然言語処理において重要なトピックである。 その応用は、オントロジー生成、要約テキストにおける事実検証、レコメンデーションシステムなど多岐にわたる。 重要なデータ集約型アプリケーションを持っているが、データセットが小さい場合には、しばしば妨げられる。 キーワード抽出器の下流でのトレーニングは長いプロセスであり、大量のデータを必要とする。 近年,この問題に対処するためにFSL(Few-shot Learning)とZSL(Zero-Shot Learning)が提案されている。 そこで本研究では,下流領域適応のための事前学習フェーズに正規化注意の概念を取り入れ,llmベースでキーワード抽出を訓練するパイプラインであるadaptkeybertを提案する。 FSL/ZSLのパイプラインやキーワード抽出で活用できると信じているので、コードをオープンソースにして、同じ名前の微調整ライブラリをhttps://github.com/AmanPriyanshu/AdaptKeyBERTで提供します。

Keyword extraction has been an important topic for modern natural language processing. With its applications ranging from ontology generation, fact verification in summarized text, and recommendation systems. While it has had significant data-intensive applications, it is often hampered when the data set is small. Downstream training for keyword extractors is a lengthy process and requires a significant amount of data. Recently, Few-shot Learning (FSL) and Zero-Shot Learning (ZSL) have been proposed to tackle this problem. Therefore, we propose AdaptKeyBERT, a pipeline for training keyword extractors with LLM bases by incorporating the concept of regularized attention into a pre-training phase for downstream domain adaptation. As we believe our work has implications to be utilized in the pipeline of FSL/ZSL and keyword extraction, we open-source our code as well as provide the fine-tuning library of the same name AdaptKeyBERT at https://github.com/AmanPriyanshu/AdaptKeyBERT.
翻訳日:2022-11-17 14:00:34 公開日:2022-11-16
# 欠落データを用いた複数視覚モダリティからの不動産属性予測

Real Estate Attribute Prediction from Multiple Visual Modalities with Missing Data ( http://arxiv.org/abs/2211.09018v1 )

ライセンス: Link先を確認
Eric Stumpe, Miroslav Despotovic, Zedong Zhang, Matthias Zeppelzauer(参考訳) 不動産の評価と評価には、不動産情報を含む大規模なデータセットが必要である。 残念なことに、不動産データベースは一般的には疎結合であり、各プロパティに対して重要な属性が利用可能ではない。 本稿では,室内(対話)と屋外(ファサード)の2つの視覚モダリティから,視覚データから高レベルの不動産属性を予測する可能性について検討する。 異なるマルチモーダル融合戦略を用いて3つのモデルを設計し、3つの異なるユースケースに対して評価する。 これにより、欠けているモダリティを扱うことが特に困難となる。 我々は,異なる融合戦略,異なる予測タスクのベースラインの評価を行い,さらに不完全なサンプルでトレーニングデータを充実させることにより,予測精度が向上することを見出した。 さらに、屋内写真と屋外写真からの情報の融合により、マクロf1-scoreの性能が最大5%向上する。

The assessment and valuation of real estate requires large datasets with real estate information. Unfortunately, real estate databases are usually sparse in practice, i.e., not for each property every important attribute is available. In this paper, we study the potential of predicting high-level real estate attributes from visual data, specifically from two visual modalities, namely indoor (interior) and outdoor (facade) photos. We design three models using different multimodal fusion strategies and evaluate them for three different use cases. Thereby, a particular challenge is to handle missing modalities. We evaluate different fusion strategies, present baselines for the different prediction tasks, and find that enriching the training data with additional incomplete samples can lead to an improvement in prediction accuracy. Furthermore, the fusion of information from indoor and outdoor photos results in a performance boost of up to 5% in Macro F1-score.
翻訳日:2022-11-17 13:53:17 公開日:2022-11-16
# 人間の観察によるロボット操作のための学習報酬関数

Learning Reward Functions for Robotic Manipulation by Observing Humans ( http://arxiv.org/abs/2211.09019v1 )

ライセンス: Link先を確認
Minttu Alakuijala, Gabriel Dulac-Arnold, Julien Mairal, Jean Ponce and Cordelia Schmid(参考訳) 人間のデモンストレーターがオブジェクトを操作するのを見ることは、ロボットポリシーを学ぶためのリッチでスケーラブルで安価なデータソースを提供する。 しかしながら、人間のビデオからロボットマニピュレータにスキルを移すことにはいくつかの課題があり、特に行動と観察空間の違いがある。 本研究では、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。 このトレーニングデータの多様性により、学習した報奨関数は、これまで見えないロボットの体現と環境からの画像観察を十分に一般化し、強化学習における直接探索の有意義な事前情報を提供する。 学習された報酬は、時間連続目的を用いて学習される埋め込み空間における目標までの距離に基づいている。 目標画像上で関数を条件付けすることで、さまざまなタスクで1つのモデルを再利用できます。 ロボットの教示にヒトビデオを活用する従来の手法とは異なり、人間のオフライン学習距離(HOLD)では、ロボット環境からの事前データやタスク固有の人間の実演のセット、形態素間の対応に関する事前定義された概念は必要とせず、タスク完了から得られるスパース報酬のみを使用して、シミュレーションされたロボットアーム上のいくつかの操作タスクのトレーニングを高速化することができる。

Observing a human demonstrator manipulate objects provides a rich, scalable and inexpensive source of data for learning robotic policies. However, transferring skills from human videos to a robotic manipulator poses several challenges, not least a difference in action and observation spaces. In this work, we use unlabeled videos of humans solving a wide range of manipulation tasks to learn a task-agnostic reward function for robotic manipulation policies. Thanks to the diversity of this training data, the learned reward function sufficiently generalizes to image observations from a previously unseen robot embodiment and environment to provide a meaningful prior for directed exploration in reinforcement learning. The learned rewards are based on distances to a goal in an embedding space learned using a time-contrastive objective. By conditioning the function on a goal image, we are able to reuse one model across a variety of tasks. Unlike prior work on leveraging human videos to teach robots, our method, Human Offline Learned Distances (HOLD) requires neither a priori data from the robot environment, nor a set of task-specific human demonstrations, nor a predefined notion of correspondence across morphologies, yet it is able to accelerate training of several manipulation tasks on a simulated robot arm compared to using only a sparse reward obtained from task completion.
翻訳日:2022-11-17 13:53:03 公開日:2022-11-16
# 従来型機械学習モデルにおける説明法の比較 その1:現在の手法の概要と不一致の定量化

Comparing Explanation Methods for Traditional Machine Learning Models Part 1: An Overview of Current Methods and Quantifying Their Disagreement ( http://arxiv.org/abs/2211.08943v1 )

ライセンス: Link先を確認
Montgomery Flora, Corey Potvin, Amy McGovern, Shawn Handler(参考訳) 機械学習(ML)モデルの説明への関心が高まり、この2部研究の第1部は、MLモデルのグローバルおよびローカルな側面を説明する方法に関する最近の研究を合成する。 本研究は,説明可能性と解釈可能性,局所的説明可能性,特徴的重要性と特徴的妥当性を区別する。 我々は、様々な説明方法、解釈方法、そして、将来の研究者がこれらの製品を探索できるように完全なPythonパッケージ(scikit-explain)を提供し、視覚化する。 また,特徴ランクと特徴効果に関する説明方法の相違点が頻繁であることを強調し,これらの相違点に対処するための実践的アドバイスを提供する。 気象予報および路面温度サブフリーズ予測のために開発されたmlモデルを用いて, 異なる説明手法の挙動を一般化した。 機能ランキングについては、特定のランク(平均すると2つのメソッドが上位10のフィーチャーのうち6つに一致する)よりも、上位10のフィーチャのセット(平均すると2つのメソッドが上位10のフィーチャーのセットの2-3のフィーチャのランクに一致する)にかなり多くの合意がある。 一方、位相空間が十分にサンプリングされている限り、異なる方法による2つの特徴効果曲線は高い一致を示す。 最後に、あまり知られていない手法であるツリーインタプリタが、機能効果のためにshapに匹敵するものとして発見され、ジオサイエンスにおけるランダムフォレストの利用や、ツリーインタプリタの計算容易性によって、今後の研究で検討することを推奨する。

With increasing interest in explaining machine learning (ML) models, the first part of this two-part study synthesizes recent research on methods for explaining global and local aspects of ML models. This study distinguishes explainability from interpretability, local from global explainability, and feature importance versus feature relevance. We demonstrate and visualize different explanation methods, how to interpret them, and provide a complete Python package (scikit-explain) to allow future researchers to explore these products. We also highlight the frequent disagreement between explanation methods for feature rankings and feature effects and provide practical advice for dealing with these disagreements. We used ML models developed for severe weather prediction and sub-freezing road surface temperature prediction to generalize the behavior of the different explanation methods. For feature rankings, there is substantially more agreement on the set of top features (e.g., on average, two methods agree on 6 of the top 10 features) than on specific rankings (on average, two methods only agree on the ranks of 2-3 features in the set of top 10 features). On the other hand, two feature effect curves from different methods are in high agreement as long as the phase space is well sampled. Finally, a lesser-known method, tree interpreter, was found comparable to SHAP for feature effects, and with the widespread use of random forests in geosciences and computational ease of tree interpreter, we recommend it be explored in future research.
翻訳日:2022-11-17 13:52:37 公開日:2022-11-16
# MTメトリクスと同時音声翻訳の人間のレーティングの関係

MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation ( http://arxiv.org/abs/2211.08633v1 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar, Raj Dabre(参考訳) 機械翻訳における人間のレーティングとBLEU, chrF2, COMETなどの指標との相関に関するいくつかの研究がある。 ほとんどの場合、全文翻訳を考慮しない。 同時音声翻訳(CR)の人間格付けがこれらの指標と相関しているかどうかは不明である。 そこで我々は,IWSLT 2022における英独同時音声翻訳タスクにおいて,CRと前述の自動測定値の相関分析を行った。 本研究は,オフラインMTメトリクスがCRと相関し,テストセットサイズに制限のある同時モードでの機械翻訳評価に確実に使用できることを示した。 これは、自動メトリクスがCRのプロキシとして使用できるため、人間の評価の必要性が軽減されることを意味する。

There have been several studies on the correlation between human ratings and metrics such as BLEU, chrF2 and COMET in machine translation. Most, if not all consider full-sentence translation. It is unclear whether human ratings of simultaneous speech translation Continuous Rating (CR) correlate with these metrics or not. Therefore, we conduct an extensive correlation analysis of CR and the aforementioned automatic metrics on evaluations of candidate systems at English-German simultaneous speech translation task at IWSLT 2022. Our studies reveal that the offline MT metrics correlate with CR and can be reliably used for evaluating machine translation in the simultaneous mode, with some limitations on the test set size. This implies that automatic metrics can be used as proxies for CR, thereby alleviating the need for human evaluation.
翻訳日:2022-11-17 13:52:04 公開日:2022-11-16
# CSCD-IME:Pinyin IMEによるスペルエラーの修正

CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME ( http://arxiv.org/abs/2211.08788v1 )

ライセンス: Link先を確認
Yong Hu, Fandong Meng, Jie Zhou(参考訳) Chinese Spelling Correction (CSC) は、テキスト中のスペルミスを検出し、修正するタスクである。 実際、中国語入力のほとんどがピニイン入力法に基づいているため、この過程における綴り誤りの研究はより実用的で価値のあるものである。 しかし、この本質的なシナリオに関する研究はいまだにない。 本稿では,まず,sina weiboの公用メディアの実際の投稿から4万の注釈文を含む,pinyin ime (cscd-ime) が生成した誤りに対する中国語綴り補正データセットを提案する。 さらに,Pinyin IMEによる入力をシミュレートすることで,大規模かつ高品質な擬似データを自動的に構築する手法を提案する。 CSCD-IMEに関する一連の分析と実験により、ピニインIMEが生成するスペルエラーは、ピニインレベルとセマンティックレベルで特定の分布を持ち、十分に困難であることが示された。 一方,提案する疑似データ構築手法は,この誤差分布に適合し,cscシステムの性能を向上させる。 最後に,データスケールやデータソース,トレーニング戦略など,擬似データを使用するための有用なガイドを提供する。

Chinese Spelling Correction (CSC) is a task to detect and correct spelling mistakes in texts. In fact, most of Chinese input is based on pinyin input method, so the study of spelling errors in this process is more practical and valuable. However, there is still no research dedicated to this essential scenario. In this paper, we first present a Chinese Spelling Correction Dataset for errors generated by pinyin IME (CSCD-IME), including 40,000 annotated sentences from real posts of official media on Sina Weibo. Furthermore, we propose a novel method to automatically construct large-scale and high-quality pseudo data by simulating the input through pinyin IME. A series of analyses and experiments on CSCD-IME show that spelling errors produced by pinyin IME hold a particular distribution at pinyin level and semantic level and are challenging enough. Meanwhile, our proposed pseudo-data construction method can better fit this error distribution and improve the performance of CSC systems. Finally, we also provide a useful guide to using pseudo data, including the data scale, the data source, and the training strategy
翻訳日:2022-11-17 13:51:44 公開日:2022-11-16
# テキストのシンプル化を改善する認知的単純化操作

Cognitive Simplification Operations Improve Text Simplification ( http://arxiv.org/abs/2211.08825v1 )

ライセンス: Link先を確認
Eytan Chamovitz and Omri Abend(参考訳) Text Simplification (TS) は、テキストを元のテキストの意味を維持しながら読みやすい形式に変換するタスクである。 TSのサブタスクは認知単純化(Cognitive Simplification, CS)であり、テキストを認知障害のある人に容易に理解できる形式に変換する。 このサブタスクはnlpのニューラルメソッドではまだ検討されておらず、そのリソースはほとんど利用できない。 本稿では,認知アクセシビリティ領域からの知識をTSモデルに組み込む手法を提案する。 この帰納バイアスをTSトレーニングモデルに追加することにより、CSデータを見ることなくCSに適応し、従来のTSベンチマークでベースラインモデルより優れていることを示す。 さらに,CS コーパスと既存の TS コーパスの違いを,単純化操作の適用方法の観点から解析し,新しい CS テストデータセットを提供する。

Text Simplification (TS) is the task of converting a text into a form that is easier to read while maintaining the meaning of the original text. A sub-task of TS is Cognitive Simplification (CS), converting text to a form that is readily understood by people with cognitive disabilities without rendering it childish or simplistic. This sub-task has yet to be explored with neural methods in NLP, and resources for it are scarcely available. In this paper, we present a method for incorporating knowledge from the cognitive accessibility domain into a TS model, by introducing an inductive bias regarding what simplification operations to use. We show that by adding this inductive bias to a TS-trained model, it is able to adapt better to CS without ever seeing CS data, and outperform a baseline model on a traditional TS benchmark. In addition, we provide a novel test dataset for CS, and analyze the differences between CS corpora and existing TS corpora, in terms of how simplification operations are applied.
翻訳日:2022-11-17 13:51:15 公開日:2022-11-16
# 条件付きテキスト生成における報酬ゲーム

Reward Gaming in Conditional Text Generation ( http://arxiv.org/abs/2211.08714v1 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Vishakh Padmakumar, Thibault Sellam, Ankur P. Parikh, He He(参考訳) 条件付きテキスト生成モデル出力を所望の動作に合わせるため,人間アノテーションから学習した報酬関数と強化学習(RL)を用いたモデルのトレーニングに注目が集まっている。 この枠組みでは,ノイズ誘発スプリアス相関,自然発生スプリアス相関,共変量シフトという,望ましくないパターンに対して高い報酬が誤って割り当てられる一般的な3つの事例を同定する。 学習した指標が報酬関数のトレーニングに使用されるデータの分布において高いパフォーマンスを達成しても,テキスト生成モデルのrlトレーニング中に望ましくないパターンが増幅される可能性がある。 RLや安全コミュニティでは報酬ゲームが議論されているが、この短い議論記事では、具体的条件付きテキスト生成例を用いてNLGコミュニティの報酬ゲームを強調し、今後の作業の潜在的な修正や領域について議論したい。

To align conditional text generation model outputs with desired behaviors, there has been an increasing focus on training the model using reinforcement learning (RL) with reward functions learned from human annotations. Under this framework, we identify three common cases where high rewards are incorrectly assigned to undesirable patterns: noise-induced spurious correlation, naturally occurring spurious correlation, and covariate shift. We show that even though learned metrics achieve high performance on the distribution of the data used to train the reward function, the undesirable patterns may be amplified during RL training of the text generation model. While there has been discussion about reward gaming in the RL or safety community, in this short discussion piece, we would like to highlight reward gaming in the NLG community using concrete conditional text generation examples and discuss potential fixes and areas for future work.
翻訳日:2022-11-17 13:45:02 公開日:2022-11-16
# 重度に基づくloganを用いた健康のための機械学習の監査アルゴリズム的公平性

Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN ( http://arxiv.org/abs/2211.08742v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Sunipa Dev, Jieyu Zhao, Majid Sarrafzadeh, Kai-Wei Chang(参考訳) 偏見のための機械学習ベースの(ml)ヘルスケアツールの監査は、特に不釣り合いに健康の不平等に直面しているコミュニティにおいて、患者の危害を防ぐために重要である。 一般的なフレームワークは、グループ間のMLフェアネスギャップを測定するために、ますます利用され始めている。 しかし、健康のためのML(ML4H)監査の原則は、モデルアセスメントに対する文脈的、患者中心のアプローチを要求する。 したがって,ML監査ツールは,(1)ML4H監査の原則に適合し,(2)最も危害の弱いコミュニティを照明し,特徴づけることができる必要がある。 このギャップに対処するために,臨床予測タスクで局所バイアスを捉えるための自動ツールであるslogan (patient severe-based local group bias detection) を用いたml4h監査フレームワークの補足を提案する。 SLOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOGAN(LOcal Group biAs detectioN)に適応する。 我々はSLOGANのバイアス検出能力をMIMIC-IIIデータセットの患者サブグループ間でLOGANや他のクラスタリング技術と比較した。 SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。 さらに、糖尿病症例では、健康格差の文献がSLOGANによって同定された最も偏りのあるクラスターの特徴を裏付けている。 私たちの結果は、機械学習のバイアスが既存の医療格差を持続させる方法に関する幅広い議論に寄与しています。

Auditing machine learning-based (ML) healthcare tools for bias is critical to preventing patient harm, especially in communities that disproportionately face health inequities. General frameworks are becoming increasingly available to measure ML fairness gaps between groups. However, ML for health (ML4H) auditing principles call for a contextual, patient-centered approach to model assessment. Therefore, ML auditing tools must be (1) better aligned with ML4H auditing principles and (2) able to illuminate and characterize communities vulnerable to the most harm. To address this gap, we propose supplementing ML4H auditing frameworks with SLOGAN (patient Severity-based LOcal Group biAs detectioN), an automatic tool for capturing local biases in a clinical prediction task. SLOGAN adapts an existing tool, LOGAN (LOcal Group biAs detectioN), by contextualizing group bias detection in patient illness severity and past medical history. We investigate and compare SLOGAN's bias detection capabilities to LOGAN and other clustering techniques across patient subgroups in the MIMIC-III dataset. On average, SLOGAN identifies larger fairness disparities in over 75% of patient groups than LOGAN while maintaining clustering quality. Furthermore, in a diabetes case study, health disparity literature corroborates the characterizations of the most biased clusters identified by SLOGAN. Our results contribute to the broader discussion of how machine learning biases may perpetuate existing healthcare disparities.
翻訳日:2022-11-17 13:44:45 公開日:2022-11-16
# マルチビュー圧縮表現を用いたロバスト低リソースファインチューニングに向けて

Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representations ( http://arxiv.org/abs/2211.08794v1 )

ライセンス: Link先を確認
Linlin Liu, Xingxuan Li, Megh Thakkar, Xin Li, Lidong Bing, Shafiq Joty, Luo Si(参考訳) 大量のパラメータのため、事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。 そこで本研究では,PLMの隠れ表現に基づいてオーバーフィッティングを低減する手法を提案する。 微調整の際には, PLMの隠蔽層間にランダムなオートエンコーダを挿入し, 前の層からのアクティベーションをマルチビュー圧縮表現に変換して上層に供給する。 オートエンコーダは微調整後に接続されるので,提案手法ではパラメータの追加や推論時の計算コストの増大は行わない。 本手法は,多種多様なシーケンスおよびトークンレベルの低リソースnlpタスクにおいて有望な性能改善を示す。

Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into a multi-view compressed representation before feeding it into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.
翻訳日:2022-11-17 13:44:22 公開日:2022-11-16
# 言語モデルの総合的評価

Holistic Evaluation of Language Models ( http://arxiv.org/abs/2211.09110v1 )

ライセンス: Link先を確認
Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher R\'e, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda(参考訳) 言語モデル(LM)はほとんどの主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。 本稿では,言語モデルの透明性を高めるために,言語モデルの完全性評価(HELM)を提案する。 第一に、lmsに興味を持つ可能性のあるシナリオ(ユースケース)とメトリクス(デシデラタ)の広大なスペースを分類します。 次に、カバー範囲と実現可能性に基づいて幅広いサブセットを選択し、何が欠落しているか、または不足しているかを示す(例えば、無視された英語の方言に対する質問応答、信頼性の指標など)。 次に,16のコアシナリオ(87.5%)それぞれについて,7つの指標(正確性,キャリブレーション,堅牢性,公平性,バイアス,毒性,効率)を測定した。 これにより、精度を超えたメトリクスが道端に落ちないようにし、トレードオフが明らかになる。 また、26のシナリオに基づいて7つのターゲット評価を行い、特定の側面(推論、偽情報など)を分析する。 第3に,従来主流のlm評価では用いられていなかった42のシナリオすべてにおいて,30の著名な言語モデル(オープン,限定アクセス,クローズドモデル)を大規模に評価した。 HELM以前、平均的なモデルはHELMのコアシナリオの17.9%しか評価されず、いくつかの顕著なモデルは単一のシナリオを共有していない。 今や30のモデルはすべて、標準化された条件下で同じコアシナリオとメトリクスで密にベンチマークされています。 評価対象はトップレベル25。 完全な透明性のために、我々はすべての生モデルのプロンプトと補完を公開して、さらなる分析と一般的なモジュラーツールキットを提供しています。 HELMはコミュニティの生きたベンチマークであり、新しいシナリオやメトリクス、モデルを継続的に更新するつもりです。

Language models (LMs) are becoming the foundation for almost all major language technologies, but their capabilities, limitations, and risks are not well understood. We present Holistic Evaluation of Language Models (HELM) to improve the transparency of language models. First, we taxonomize the vast space of potential scenarios (i.e. use cases) and metrics (i.e. desiderata) that are of interest for LMs. Then we select a broad subset based on coverage and feasibility, noting what's missing or underrepresented (e.g. question answering for neglected English dialects, metrics for trustworthiness). Second, we adopt a multi-metric approach: We measure 7 metrics (accuracy, calibration, robustness, fairness, bias, toxicity, and efficiency) for each of 16 core scenarios when possible (87.5% of the time). This ensures metrics beyond accuracy don't fall to the wayside, and that trade-offs are clearly exposed. We also perform 7 targeted evaluations, based on 26 targeted scenarios, to analyze specific aspects (e.g. reasoning, disinformation). Third, we conduct a large-scale evaluation of 30 prominent language models (spanning open, limited-access, and closed models) on all 42 scenarios, 21 of which were not previously used in mainstream LM evaluation. Prior to HELM, models on average were evaluated on just 17.9% of the core HELM scenarios, with some prominent models not sharing a single scenario in common. We improve this to 96.0%: now all 30 models have been densely benchmarked on the same core scenarios and metrics under standardized conditions. Our evaluation surfaces 25 top-level findings. For full transparency, we release all raw model prompts and completions publicly for further analysis, as well as a general modular toolkit. We intend for HELM to be a living benchmark for the community, continuously updated with new scenarios, metrics, and models.
翻訳日:2022-11-17 13:43:45 公開日:2022-11-16
# メタ探索による対話型学生プログラムへのフィードバック

Giving Feedback on Interactive Student Programs with Meta-Exploration ( http://arxiv.org/abs/2211.08802v1 )

ライセンス: Link先を確認
Evan Zheran Liu, Moritz Stephan, Allen Nie, Chris Piech, Emma Brunskill, Chelsea Finn(参考訳) ウェブサイトやゲームのようなインタラクティブなソフトウェアを開発することは、特にコンピュータ科学を学ぶための魅力的な方法である。 しかし、そのようなソフトウェアを教育し、フィードバックを与えるのに時間がかかり、標準的なアプローチでは、インストラクターが手動で学生が実装したインタラクティブプログラムを評価しなければならない。 結果として、code.orgのような数百万のオンラインプラットフォームは、インタラクティブなプログラムを実装するための課題に対するフィードバックが得られず、学生の学習能力が著しく阻害される。 自動格付けへのアプローチの1つは、生徒のプログラムと相互作用するエージェントを学習し、強化学習を通してエラーを示す状態を調べることである。 しかし、このアプローチに関する既存の研究は、プログラムが正しいかどうかについてのバイナリフィードバックのみを提供しており、学生はプログラムの特定のエラーについてよりきめ細かいフィードバックを必要としている。 本研究では,エラー発見の探索をメタ爆発問題としてキャストできることを示す。 これにより、エラーを発見するための原則化された目的と、この目的を最適化するアルゴリズムを構築し、きめ細かいフィードバックを提供する。 Code.orgの対話型課題から,700万以上の実匿名化学生プログラムに対するアプローチを評価する。 我々のアプローチは94.3%の精度でフィードバックを提供し、既存のアプローチを17.7%改善し、人間レベルの精度の1.5%以内になる。 プロジェクトwebページ: https://ezliu.github.io/dreamgrader。

Developing interactive software, such as websites or games, is a particularly engaging way to learn computer science. However, teaching and giving feedback on such software is time-consuming -- standard approaches require instructors to manually grade student-implemented interactive programs. As a result, online platforms that serve millions, like Code.org, are unable to provide any feedback on assignments for implementing interactive programs, which critically hinders students' ability to learn. One approach toward automatic grading is to learn an agent that interacts with a student's program and explores states indicative of errors via reinforcement learning. However, existing work on this approach only provides binary feedback of whether a program is correct or not, while students require finer-grained feedback on the specific errors in their programs to understand their mistakes. In this work, we show that exploring to discover errors can be cast as a meta-exploration problem. This enables us to construct a principled objective for discovering errors and an algorithm for optimizing this objective, which provides fine-grained feedback. We evaluate our approach on a set of over 700K real anonymized student programs from a Code.org interactive assignment. Our approach provides feedback with 94.3% accuracy, improving over existing approaches by 17.7% and coming within 1.5% of human-level accuracy. Project web page: https://ezliu.github.io/dreamgrader.
翻訳日:2022-11-17 13:42:54 公開日:2022-11-16
# 異常検出のための生成モデルと識別モデルの接続について

On the Connection of Generative Models and Discriminative Models for Anomaly Detection ( http://arxiv.org/abs/2211.08910v1 )

ライセンス: Link先を確認
Jingxuan Pang and Chunguang Li(参考訳) 異常検出(AD)は学術と産業の両方で注目されている。 多くのケースで異常なデータが欠如しているため、ADは通常、まず通常のデータパターンをモデル化し、次にこのモデルに適合するかどうかを決定することで解決される。 生成モデル(GM)はこの目的を達成するための自然なツールであり、通常のデータ分布を学習し、確率密度関数(PDF)を用いて推定する。 しかし、そのようなGMベースのAD手法の理想的な性能を観察する研究もある。 本稿では,GMに基づくAD手法の理想的な性能に関する新しい視点を提案する。 これらの方法では、GMの主張とADの目標を結びつける暗黙の仮定は、通常データにおけるマルチピーク分布特性のため、一般的には理解できない。 まず、この視点を定性的に定性的に定式化し、次にガウス混合モデル(GMM)に着目して、典型的なGMであり、マルチピーク分布を近似する自然な性質を持つ視点を直観的に記述する。 提案する視点から,GMMに基づくAD法における暗黙の仮定を回避すべく,GMMからADタスク(DiGMM)への識別的アイデアの統合を提案する。 DiGMMでは、ADの2つの重要なパラダイムである生成モデルと識別モデルの接続を確立し、通常、それ以前に別々に扱われる。 この接続は、2つのパラダイムを共同で考慮し、それらの補完的特徴をadに組み込むための将来の作業に可能な方向を与える。

Anomaly detection (AD) has attracted considerable attention in both academia and industry. Due to the lack of anomalous data in many practical cases, AD is usually solved by first modeling the normal data pattern and then determining if data fit this model. Generative models (GMs) seem a natural tool to achieve this purpose, which learn the normal data distribution and estimate it using a probability density function (PDF). However, some works have observed the ideal performance of such GM-based AD methods. In this paper, we propose a new perspective on the ideal performance of GM-based AD methods. We state that in these methods, the implicit assumption that connects GMs'results to AD's goal is usually implausible due to normal data's multi-peaked distribution characteristic, which is quite common in practical cases. We first qualitatively formulate this perspective, and then focus on the Gaussian mixture model (GMM) to intuitively illustrate the perspective, which is a typical GM and has the natural property to approximate multi-peaked distributions. Based on the proposed perspective, in order to bypass the implicit assumption in the GMM-based AD method, we suggest integrating the Discriminative idea to orient GMM to AD tasks (DiGMM). With DiGMM, we establish a connection of generative and discriminative models, which are two key paradigms for AD and are usually treated separately before. This connection provides a possible direction for future works to jointly consider the two paradigms and incorporate their complementary characteristics for AD.
翻訳日:2022-11-17 13:42:31 公開日:2022-11-16