このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221114となっている論文です。

PDF登録状況(公開日: 20221114)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子チャネルの収縮係数、部分順序および容量の近似について

On contraction coefficients, partial orders and approximation of capacities for quantum channels ( http://arxiv.org/abs/2011.05949v4 )

ライセンス: Link先を確認
Christoph Hirche, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a(参考訳) データ処理の不等式は、有意義な情報測定のための最も基本的な要件である。 本質的には、状態間の識別性測度は、量子チャネルを適用すると減少し、情報理論における多くの結果の中心となる。 さらに、ほとんどのエントロピー量の操作的解釈を正当化する。 本研究では,量子チャネルの縮約係数の概念を再検討し,データ処理の不等式をより鋭く特殊化したバージョンを提供する。 データ処理に密接に関連する概念は、量子チャネル上の部分順序である。 まず、よく知られた低雑音順序の量子展開について議論し、収縮係数に関連付ける。 さらに、部分順序の近似バージョンを定義し、その近似容量に関するいくつかの結果の強固で概念的に単純な証明を与える方法を示す。 さらに、文献における他の部分順序とそれらの性質との関係、特にテンソル化について検討する。 次に、超contractivityのような量子チャネルの他の性質と収縮係数の関係について検討する。 次に、縮退係数の枠組みを一般のf-分岐に拡張し、いくつかの構造的結果を示す。 最後に、Weyl-covariant と bosonic Gaussian channel という2つの重要な量子チャネルのクラスを考える。 これらに対して, 種々の部分順序に対する新しい収縮係数と関係を決定する。

The data processing inequality is the most basic requirement for any meaningful measure of information. It essentially states that distinguishability measures between states decrease if we apply a quantum channel and is the centerpiece of many results in information theory. Moreover, it justifies the operational interpretation of most entropic quantities. In this work, we revisit the notion of contraction coefficients of quantum channels, which provide sharper and specialized versions of the data processing inequality. A concept closely related to data processing is partial orders on quantum channels. First, we discuss several quantum extensions of the well-known less noisy ordering and relate them to contraction coefficients. We further define approximate versions of the partial orders and show how they can give strengthened and conceptually simple proofs of several results on approximating capacities. Moreover, we investigate the relation to other partial orders in the literature and their properties, particularly with regard to tensorization. We then examine the relation between contraction coefficients with other properties of quantum channels such as hypercontractivity. Next, we extend the framework of contraction coefficients to general f-divergences and prove several structural results. Finally, we consider two important classes of quantum channels, namely Weyl-covariant and bosonic Gaussian channels. For those, we determine new contraction coefficients and relations for various partial orders.
翻訳日:2023-04-24 11:43:35 公開日:2022-11-14
# オープン量子システムからの情報の流れの追跡

Tracing Information Flow from Open Quantum Systems ( http://arxiv.org/abs/2103.11994v2 )

ライセンス: Link先を確認
Jan Dziewior, Leonardo Ruscio, Lukas Knips, Eric Mayer, Alexander Szameit, and Jasmin D. A. Meinecke(参考訳) オープン量子システムは、実際的な応用だけでなく、情報の性質や転送に関する基本的な問題に対しても、例えばデコヒーレンスやメモリ効果など、非常に関連性が高い。 量子力学は情報の転送、例えば非古典的相関における情報の保存にさらに複雑さをもたらす。 しかし、これらの側面のいくつかは、オープンシステム研究の通常の枠組みによって無視される傾向がある。 この研究では、導波路アレイに光子を用いて、キュービットと低次元の離散環境とのカップリングの量子シミュレーションを実装した。 量子状態間のトレース距離を情報の尺度として用いて、異なるタイプの情報伝達を分析する。 システムのみに焦点を当てた一般的な視点を拡張し,環境における情報の存在について検討する。

Open quantum systems are highly relevant, both for practical applications as well as for fundamental questions about the nature of information and its transfer, encompassing for example decoherence and memory effects. Quantum mechanics introduces additional complexity to the transfer of information, e.g., storage of information in non-classical correlations. Yet, some of these aspects tend to be neglected by the usual framework of open system research. In this work we use photons in a waveguide array to implement a quantum simulation of the coupling of a qubit with a low-dimensional discrete environment. Using the trace distance between quantum states as a measure of information, we analyze different types of information transfer. Extending the usual perspective which is focused on the system alone, we also investigate the presence of information in the environment.
翻訳日:2023-04-07 04:27:11 公開日:2022-11-14
# 時空量子行動からの経路積分

Path Integrals from Spacetime Quantum Actions ( http://arxiv.org/abs/2111.05383v3 )

ライセンス: Link先を確認
N. L. Diaz, J. M. Matera and R. Rossignoli(参考訳) 我々は、ファインマン経路積分(pis)の時空ヒルベルト空間の定式化を示す。 時間におけるテンソル積構造に依存しており、時空の量子作用作用素を通して動的可観測体の拡張表現を提供する。 歴史の仮定」は時空の量子トレースと同一視され、異なる拡張基底における評価は異なるPI表現をもたらす。 新しい洞察は、正確な離散化、連続極限への非自明なアプローチ、時空対称性のヒルベルト空間処理など、自然に従う。 時空状態におけるトレース式と期待値の等価性も露呈する。 量子力学の一般時空対称ヒルベルト空間拡張の発展における形式主義の関連性についても論じる。

We present a spacetime Hilbert space formulation of Feynman path integrals (PIs). It relies on a tensor product structure in time which provides extended representations of dynamical observables through a spacetime quantum action operator. The "sum over histories" is identified with a spacetime quantum trace, whose evaluation in different extended bases yields the distinct PI representations. New insights naturally follow, including exact discretizations, a nontrivial approach to the continuum limit, and a Hilbert space treatment of spacetime symmetries. An equivalence between trace expressions and expectation values in spacetime states is also exposed. The relevance of the formalism in the development of general spacetime symmetric Hilbert space extensions of quantum mechanics is also discussed.
翻訳日:2023-03-08 17:59:43 公開日:2022-11-14
# 量子回路のフェルミオン非線形性の定量化

Quantifying fermionic nonlinearity of quantum circuits ( http://arxiv.org/abs/2111.14599v4 )

ライセンス: Link先を確認
Shigeo Hakkaku, Yuichiro Tashima, Kosuke Mitarai, Wataru Mizukami, Keisuke Fujii(参考訳) 変分量子アルゴリズム(VQA)は、ノイズのある中間スケール量子(NISQ)デバイス上で量子優位性を示す最も有望なアプローチの1つとして提案されている。 しかしながら、VQAsがNISQデバイス固有のノイズの下で量子優位性を維持することができるかどうかは不明であり、量子性は悪化する。 ここでは、フェルミオンハミルトニアンをシミュレートするために設計された量子回路の古典的シミュラビリティを定量化する、フェルミオン非線形性と呼ばれる尺度を提案する。 具体的には, サンプリングオーバーヘッドがフェルミオン非線形性によって特徴づけられるフェルミオン線形光学の古典的同時性に基づくモンテカルロ型古典アルゴリズムを構築する。 これらの手法の実証として, 4つのフェルミオンモードによって発生する回転ゲートのフェルミオン非線形性の上界を強調雑音下で計算する。 さらに,一元結合型クラスタシングルのサンプリングコストを推定し,劣化ノイズを受ける水素鎖の量子回路を2倍にする。 誤差確率と原子間隔に依存すると、フェルミオン非線形性が非常に小さくなり、一様になる領域が存在し、したがって回路は古典的にシミュレート可能である。 我々は,フェミオン系のための量子回路の設計に提案手法と結果が有効であると考えている。

Variational quantum algorithms (VQAs) have been proposed as one of the most promising approaches to demonstrate quantum advantage on noisy intermediate-scale quantum (NISQ) devices. However, it has been unclear whether VQAs can maintain quantum advantage under the intrinsic noise of the NISQ devices, which deteriorates the quantumness. Here we propose a measure, called fermionic nonlinearity, to quantify the classical simulatability of quantum circuits designed for simulating fermionic Hamiltonians. Specifically, we construct a Monte Carlo type classical algorithm based on the classical simulatability of fermionic linear optics, whose sampling overhead is characterized by the fermionic nonlinearity. As a demonstration of these techniques, we calculate the upper bound of the fermionic nonlinearity of a rotation gate generated by four fermionic modes under the dephasing noise. Moreover, we estimate the sampling costs of the unitary coupled cluster singles and doubles quantum circuits for hydrogen chains subject to the dephasing noise. We find that, depending on the error probability and atomic spacing, there are regions where the fermionic nonlinearity becomes very small or unity, and hence the circuits are classically simulatable. We believe that our method and results help to design quantum circuits for fermionic systems with potential quantum advantages.
翻訳日:2023-03-06 09:43:59 公開日:2022-11-14
# 限定オラクルを用いた決定論的グローバー探索

Deterministic Grover search with a restricted oracle ( http://arxiv.org/abs/2201.00091v3 )

ライセンス: Link先を確認
Tanay Roy, Liang Jiang, David I. Schuster(参考訳) グローバーの量子探索アルゴリズムは、非構造化探索問題の幅広いクラスにわたる古典的アルゴリズムに対する二次量子優位性を提供する。 元のプロトコルは確率的であり、各クエリで所望の結果をかなりの確率で返すが、一般にアルゴリズムの繰り返しを必要とする。 我々は,量子検索オラクルをユーザが制御することなく,正しい結果を確実に返すための修正版を提案する。 我々の決定論的2パラメータ"D2p"プロトコルは、標準的なオラクルクエリの後に位相反転を置き換える一般化位相回転を利用する。 d2pプロトコルは、元のグローバー探索の最適なステップ数に比べて1回以上のイテレーションで100%の成功率を達成し、同じ二次的なスピードアップを実現している。 また,Bloch球を用いた幾何学的直観の可視化も行った。

Grover's quantum search algorithm provides a quadratic quantum advantage over classical algorithms across a broad class of unstructured search problems. The original protocol is probabilistic, returning the desired result with significant probability on each query, but in general, requiring several iterations of the algorithm. We present a modified version to return the correct result with certainty without having user control over the quantum search oracle. Our deterministic, two-parameter "D2p" protocol utilizes generalized phase rotations replacing the phase inversions after a standard oracle query. The D2p protocol achieves a 100% success rate in no more than one additional iteration compared to the optimal number of steps in the original Grover's search enabling the same quadratic speed up. We also provide a visualization using the Bloch sphere for enhanced geometric intuition.
翻訳日:2023-03-02 17:22:12 公開日:2022-11-14
# 相互作用するスピン液体の異常ダイナミクス

Exceptional dynamics of interacting spin liquids ( http://arxiv.org/abs/2202.03445v2 )

ライセンス: Link先を確認
Kang Yang, Daniel Varjas, Emil J. Bergholtz, Sid Morampudi, Frank Wilczek(参考訳) 量子スピン液体の相互作用は平均場期待と定性的に異なる非エルミート現象論をもたらす。 キタエフ・ハニカムモデルに対するフォノンと障害の影響を通して2つの著明な症例でこれを示す。 解析的および数値計算を用いて、系の対称性に応じて例外点と環の一般的な外観を示す。 その存在は、中性子散乱で測定された動的構造関数を含む動的観測物に反映される。 この結果は、実験データの解析に組み込まなければならないスピン液体の現象学的特徴を指摘するとともに、スピン液体がより広い摂動クラスに汎用的に安定であることを示す。

We show that interactions in quantum spin liquids can result in non-Hermitian phenomenology that differs qualitatively from mean-field expectations. We demonstrate this in two prominent cases through the effects of phonons and disorder on a Kitaev honeycomb model. Using analytic and numerical calculations, we show the generic appearance of exceptional points and rings depending on the symmetry of the system. Their existence is reflected in dynamical observables including the dynamic structure function measured in neutron scattering. The results point to new phenomenological features in realizable spin liquids that must be incorporated into the analysis of experimental data and also indicate that spin liquids could be generically stable to wider classes of perturbations.
翻訳日:2023-02-26 15:13:19 公開日:2022-11-14
# 量子アニーラを用いた標準模型物理学のシミュレーションの基本要素:マルチグリッドとクロック状態

Basic Elements for Simulations of Standard Model Physics with Quantum Annealers: Multigrid and Clock States ( http://arxiv.org/abs/2202.12340v3 )

ライセンス: Link先を確認
Marc Illa and Martin J. Savage(参考訳) 我々は、標準模型物理学の量子シミュレーションに必要な基本的な要素を計算するために、d-waveの量子アニーラの可能性を探求する。 基本的な乗法(「ズーム」を含む)を実装し、ファインマンクロックのアルゴリズムを専門とするD-Waveのアドバンテージは、格子スカラー場の理論や有効場理論、SU(3)ヤン・ミルズ格子ゲージ場理論の単一小包の時間発展、および4つのニュートリノ系におけるフレーバーエンタングルメントのダイナミクスを研究するために用いられる。

We explore the potential of D-Wave's quantum annealers for computing some of the basic components required for quantum simulations of Standard Model physics. By implementing a basic multigrid (including "zooming") and specializing Feynman-clock algorithms, D-Wave's Advantage is used to study harmonic and anharmonic oscillators relevant for lattice scalar field theories and effective field theories, the time evolution of a single plaquette of SU(3) Yang-Mills lattice gauge field theory, and the dynamics of flavor entanglement in four neutrino systems.
翻訳日:2023-02-24 01:25:55 公開日:2022-11-14
# 非射影測度観測値に対するメルミンとスヴェトリニュの不等式

Mermin and Svetlichny inequalities for non-projective measurement observables ( http://arxiv.org/abs/2203.07103v3 )

ライセンス: Link先を確認
Mohd Asad Siddiqui and Sk Sazim(参考訳) 任意の3ビット状態によるメルミンとスヴェトリニュの不等式に違反するために必要な十分な基準を示す。 このような基準を見つけるためにいくつかの試みがなされたが、現存する基準はほとんどの例では厳密でも、完全には一般的でもない。 我々は、局所射影計測可観測性だけでなく任意のものに対しても有効であるmerminとsvetlichnyの不等式に対する既存の基準を一般化する。 任意の3量子ビット状態に対する偏りのない測定可観測性を持つメルミンおよびスヴェトリヒニー作用素の最大可測境界と、最大に混合した辺数を持つ3量子状態に対する任意の可観測性が得られる。 測定強度の一定範囲では、偏りのある測定可観測性によってのみマーミンやスヴェトリヒニーの不等式を破ることができる。 可能な6つのメルミンとスヴェトリクニーの不等式のいずれかに違反するために必要な十分な基準も導かれる。

The necessary and sufficient criteria for violating the Mermin and Svetlichny inequalities by arbitrary three-qubit states are presented. Several attempts have been made, earlier, to find such criteria, however, those extant criteria are neither tight for most of the instances, nor fully general. We generalize the existing criteria for Mermin and Svetlichny inequalities which are valid for the local projective measurement observables as well as for the arbitrary ones. We obtain the maximal achievable bounds of the Mermin and Svetlichny operators with unbiased measurement observables for arbitrary three-qubit states and with arbitrary observables for three-qubit states having maximally mixed marginals. We find that for certain ranges of measurement strengths, it is possible to violate Mermin and Svetlichny inequalities only by biased measurement observables. The necessary and sufficient criteria of violating any one of the six possible Mermin and Svetlichny inequalities are also derived.
翻訳日:2023-02-22 03:38:06 公開日:2022-11-14
# モノのインターネットを再考する - 新しいトレンド,機会,そして大きな課題

Revisiting the Internet of Things: New Trends, Opportunities and Grand Challenges ( http://arxiv.org/abs/2211.11523v1 )

ライセンス: Link先を確認
Khalid Elgazzar, Haytham Khalil, Taghreed Alghamdi, Ahmed Badr, Ghadeer Abdelkader, Abdelrahman Elewah, Rajkumar Buyya(参考訳) IoT(Internet of Things)は、物理的環境からユビキタスなデータアクセスの夢を現実に持ち込んだ。 IoTはセンサーとアクチュエータを物理的オブジェクトに埋め込んで、データ間の通信と交換を可能にし、リアルタイムのインテリジェントなサービスを可能にし、人々の生活の質を向上させる。 デプロイされたIoTデバイスの数は過去5年間で急速に増加しており、IoTが近年で最も破壊的な技術になっている。 本稿では、IoTの生活における位置づけを再評価し、その実現可能な技術、アプリケーション、トレンドの高まり、そして大きな課題について深い洞察を提供する。 この論文は、AIがIoTを人類の歴史の中でこれまで開発されてきた最高の変革技術にする役割を強調している。

The Internet of Things (IoT) has brought the dream of ubiquitous data access from physical environments into reality. IoT embeds sensors and actuators in physical objects so that they can communicate and exchange data between themselves to improve efficiency along with enabling real-time intelligent services and offering better quality of life to people. The number of deployed IoT devices has rapidly grown in the past five years in a way that makes IoT the most disruptive technology in recent history. In this paper, we reevaluate the position of IoT in our life and provide deep insights on its enabling technologies, applications, rising trends and grand challenges. The paper also highlights the role of artificial intelligence to make IoT the top transformative technology that has been ever developed in human history.
翻訳日:2023-02-19 12:33:54 公開日:2022-11-14
# ニュースと歴史:ウィキペディアにおける集合的注意のネットワークトピックの特定

Between News and History: Identifying Networked Topics of Collective Attention on Wikipedia ( http://arxiv.org/abs/2211.07616v1 )

ライセンス: Link先を確認
Patrick Gildersleve, Renaud Lambiotte, Taha Yasseri(参考訳) デジタル情報ランドスケープは、私たちが新しい情報にどのように反応し、社会レベルで保存するかを理解するための新しい次元を導入しました。 これはウィキペディアのようなプラットフォームが出現すると共に、現在の出来事と出来事の歴史的記述との関係に関する伝統的な見解に挑戦し、「新しい」と「歴史」の分裂が絶え間ない。 ウィキペディアはインターネットの主要な参考文献であり、伝統的な百科事典の知識と重要なニュース記事の両方をいかに表現しているかという疑問を提起している。 言い換えれば、ウィキペディアの既存の話題構造に現在の出来事に関する情報と注意が組み込まれているのか。 そこで本稿では,注目の短期的ダイナミクスと長期的記事ネットワーク構造を考慮に入れた,話題検出のための時間的コミュニティ検出手法を開発する。 本手法を,ページビュー時系列相関や静的ネットワーク構造からのみ見出されるものと異なるクラスタを特定するために,ウィキペディア上の1年間の現在のイベントのデータセットに適用する。 我々は、集合的注意力とリンク構造との相対的な重要性によって、現在の出来事とより確立された知識を強く反映するトピックを解決することができる。 また,wikipediaの創発的な話題を識別し,記述することで,重要な進展を提供する。 この研究は、これらの情報と注意クラスタがウィキペディアの百科事典的な知識と現在の出来事の双子の顔とどのように関連しているかを区別する手段を提供する。

The digital information landscape has introduced a new dimension to understanding how we collectively react to new information and preserve it at the societal level. This, together with the emergence of platforms such as Wikipedia, has challenged traditional views on the relationship between current events and historical accounts of events, with an ever-shrinking divide between "news" and "history". Wikipedia's place as the Internet's primary reference work thus poses the question of how it represents both traditional encyclopaedic knowledge and evolving important news stories. In other words, how is information on and attention towards current events integrated into the existing topical structures of Wikipedia? To address this we develop a temporal community detection approach towards topic detection that takes into account both short term dynamics of attention as well as long term article network structures. We apply this method to a dataset of one year of current events on Wikipedia to identify clusters distinct from those that would be found solely from page view time series correlations or static network structure. We are able to resolve the topics that more strongly reflect unfolding current events vs more established knowledge by the relative importance of collective attention dynamics vs link structures. We also offer important developments by identifying and describing the emergent topics on Wikipedia. This work provides a means of distinguishing how these information and attention clusters are related to Wikipedia's twin faces of encyclopaedic knowledge and current events -- crucial to understanding the production and consumption of knowledge in the digital age.
翻訳日:2023-02-19 12:27:16 公開日:2022-11-14
# モバイルアプリの安全利用に関する実証的研究 : 攻撃シミュレーションアプローチ

An Empirical Study on Secure Usage of Mobile Health Apps: The Attack Simulation Approach ( http://arxiv.org/abs/2211.07585v1 )

ライセンス: Link先を確認
Bakheet Aljedaani, Aakash Ahmad, Mansooreh Zahedi, M. Ali Babar(参考訳) モバイルアプリ、略してモバイルアプリは、スマートヘルスケア、モバイルコマース、コンテキストセンシティブなコンピューティング分野など、さまざまなドメインにわたるサービスのプロビジョニングを強化する上で有用であることを証明した。 近年,mHealthアプリのセキュアな開発と利用を調査するために,実証的な調査に基づく調査が数多く行われている。 しかし,このような研究は,ユーザ行動や行動の監視と分析を行う実践的アプローチが欠如しているインタビューや調査質問を通じて,自己報告された行動に依存している。 我々は,攻撃シミュレーションのシナリオに参加者を巻き込み,その動作を分析し,mHealthアプリ利用者のセキュリティ意識を行動ベースで調査する実験を行った。 mHealthコンテキストで一般的なセキュリティ攻撃シナリオをシミュレートし、合計105人のアプリユーザがアクションを監視し、振る舞いを分析しました。 信頼性や相関テスト,記述分析,質的データ分析などの統計分析をユーザデータを分析した。 結果から、参加者の少数派はアクセス許可を肯定的に認識しているが、大多数は、そのようなアプリがプライバシーを損なう可能性があるという否定的な見解を持っていた。 ユーザーは同意し、許可を与え、プライバシーポリシーを慎重にレビューすることなく、健康上重要なデータへの望ましくない、または悪意のあるアクセスを許可する。 その結果,73.3%の参加者が少なくとも1つのアクセス許可を否定しており,36%の参加者は認証方法が好まなかった。 この研究は、mhealthアプリのセキュアな使用に関する既存の研究を補完し、ユーザーの行動を監視するためのセキュリティ脅威をシミュレートし、モバイル健康システムの開発と使用に関する経験則的なガイドラインを提供する。

Mobile applications, mobile apps for short, have proven their usefulness in enhancing service provisioning across a multitude of domains that range from smart healthcare, to mobile commerce, and areas of context sensitive computing. In recent years, a number of empirically grounded, survey-based studies have been conducted to investigate secure development and usage of mHealth apps. However, such studies rely on self reported behaviors documented via interviews or survey questions that lack a practical, i.e. action based approach to monitor and synthesise users actions and behaviors in security critical scenarios. We conducted an empirical study, engaging participants with attack simulation scenarios and analyse their actions, for investigating the security awareness of mHealth app users via action-based research. We simulated some common security attack scenarios in mHealth context and engaged a total of 105 app users to monitor their actions and analyse their behavior. We analysed users data with statistical analysis including reliability and correlations tests, descriptive analysis, and qualitative data analysis. Our results indicate that whilst the minority of our participants perceived access permissions positively, the majority had negative views by indicating that such an app could violate or cost them to lose privacy. Users provide their consent, granting permissions, without a careful review of privacy policies that leads to undesired or malicious access to health critical data. The results also indicated that 73.3% of our participants had denied at least one access permission, and 36% of our participants preferred no authentication method. The study complements existing research on secure usage of mHealth apps, simulates security threats to monitor users actions, and provides empirically grounded guidelines for secure development and usage of mobile health systems.
翻訳日:2023-02-19 12:26:52 公開日:2022-11-14
# Wikigender:Wikipediaのジェンダーバイアスを検出する機械学習モデル

Wikigender: A Machine Learning Model to Detect Gender Bias in Wikipedia ( http://arxiv.org/abs/2211.07520v1 )

ライセンス: Link先を確認
Natalie Bol\'on Brun, Sofia Kypraiou, Natalia Gull\'on Alt\'es, Irene Petlacalco Barrios(参考訳) ウィキペディアのコントリビュータの考え方は、性別に基づく偏見をもたらす個人の記述方法に影響を与える可能性がある。 私たちは、ウィキペディアで女性と男性の描写方法に違いがあることを証明するために、機械学習モデルを使用します。 また、このモデルの結果を用いて、英語ウィキペディアの伝記の概観において、どの単語がバイアスを生じさせるかを得る。 モデルへの入力として形容詞のみを用い,女性を表す形容詞は男性を表すものよりも主観性が高いことを示した。 モデルへのインプットとして名詞と形容詞を用いて概観からトピックを抽出することにより,女性は家族関連であり,男性はビジネスやスポーツ関連であることがわかった。

The way Wikipedia's contributors think can influence how they describe individuals resulting in a bias based on gender. We use a machine learning model to prove that there is a difference in how women and men are portrayed on Wikipedia. Additionally, we use the results of the model to obtain which words create bias in the overview of the biographies of the English Wikipedia. Using only adjectives as input to the model, we show that the adjectives used to portray women have a higher subjectivity than the ones used to describe men. Extracting topics from the overview using nouns and adjectives as input to the model, we obtain that women are related to family while men are related to business and sports.
翻訳日:2023-02-19 12:26:20 公開日:2022-11-14
# クッキーに関するリスク分析によるユーザ認識と行動

User Perception and Actions Through Risk Analysis Concerning Cookies ( http://arxiv.org/abs/2211.07366v1 )

ライセンス: Link先を確認
Matthew Wheeler, Suleiman Saka and Sanchari Das(参考訳) ウェブサイトブラウザクッキー(英: web browser cookie)は、Webサーバが訪問時に作成した小さなファイルで、ユーザのブラウザディレクトリに置かれ、ユーザのエクスペリエンスを高める。 しかし、第1および第3のクッキーは、データ収集方法によってユーザのプライバシに重大な脅威となっている。 クッキーやターゲット広告のリスクに対するユーザの認識を理解するために,コントロール対実験グループ調査を通じてユーザ調査を行った。 ユーザ知識がインターネット上でのセキュリティとプライバシの好みをどう反映しているかを評価することを目的として,実験グループでは,参加型設計による学習Webサイトと情報ビデオを,15人の参加者によるワークショップで作成しました。 その後,68名の参加者の回答を調査を通じて評価し,クッキーに対するユーザの意識,プライバシーへの影響,リスクコミュニケーションがユーザの行動に与える影響について分析した。

A website browser cookie is a small file created by a web server upon visitation, which is placed in the user's browser directory to enhance the user's experience. However, first and third-party cookies have become a significant threat to users' privacy due to their data collection methods. To understand the users' perception of the risk of cookies and targeted advertisements, we conducted a user study through a control versus experimental group survey. Our goal was to gauge how user knowledge reflected their security and privacy preferences on the internet; thus, for the experimental group, we created a learning website and information videos through participatory design in a workshop with 15 participants. After that, by evaluating the responses of 68 participants through the survey, we analyzed user awareness of cookies, their privacy implications, and how risk communication can impact user behavior.
翻訳日:2023-02-19 12:26:08 公開日:2022-11-14
# 教育メタバースの価値連鎖

The Value Chain of Education Metaverse ( http://arxiv.org/abs/2211.05833v2 )

ライセンス: Link先を確認
Yun-Cheng Tsai(参考訳) 2021年の終わりから、メタバースはブームになっている。 多くの未知の可能性が徐々に実現されているが、多くの人がVR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)をMetaverseで使用すると決定した。 上記の現実(vr、ar、mr)が使用される限り、それはメタバースと等しいと考えられている。 しかし、現実ベースの表示ツールはメタバースの表現方法の1つに過ぎないため、これは事実ではない。 メタバースの主な特徴である「デジタル・アバター」、分散化された「コンセンサス・バリュー・システム」、および「没入的体験」の3つに戻らなければ、メタバースの実践と想像力は非常に狭くなる。 2022年以降、メタバースの概念は教室で教育活動に統合するために広く使われてきた。 したがって、教師や生徒が「vr、ar、mrはメタバースと等価」でメタバースを理解するのを防ぐため、他の2つのメタバースの特徴である「デジタルアバター」と分散化された「コンセンサス・バリュー・システム」に注意を払う。

Since the end of 2021, the Metaverse has been booming. Many unknown possibilities are gradually being realized, but many people only determined that they use Virtual Reality (VR), Augmented Reality (AR), and Mixed Reality (MR) in the Metaverse. It is even considered that as long as the above realities (VR, AR, MR) are used, it is equal to the Metaverse. However, this is not true, for Reality-based display tools are only one of the presentation methods of the Metaverse. If we cannot return to the three main characteristics of the Metaverse: "digital avatars," a decentralized "consensus value system," and "Immersive experience," the practice and imagination of the Metaverse will become very narrow. Since 2022, the concept of Metaverse has also been widely used in classroom teaching to integrate into teaching activities. Therefore, to prevent teachers and students from understanding the Metaverse not only in the "Using VR, AR, MR is equivalent to Metaverse" but also pay more attention to the other two characteristics of the Metaverse: "digital avatars" and a decentralized "consensus value system."
翻訳日:2023-02-19 12:21:32 公開日:2022-11-14
# 好中球近傍におけるグラフニューラルネットワークの公正性について

On Graph Neural Network Fairness in the Presence of Heterophilous Neighborhoods ( http://arxiv.org/abs/2207.04376v2 )

ライセンス: Link先を確認
Donald Loveland, Jiong Zhu, Mark Heimann, Ben Fish, Michael T. Schaub, Danai Koutra(参考訳) 本稿では,グラフニューラルネットワーク(gnns)のノード分類の課題について検討し,統計的パリティと等機会によって測定されるグループフェアネスと,類似する属性を持つリンクノードの傾向との相関性を確立する。 このような随伴性はしばしばホモフィリーによって引き起こされ、類似した性質のノードが接続する傾向にある。 ホモフィリーは、システム的要因が個人をセンシティブな属性を共有するコミュニティに強制したソーシャルネットワークで一般的である。 合成グラフを用いて局所的に発生するホモフィリーと公正な予測の相互作用を研究し、全てのノード近傍がこの点において等しくはないことを見出し、感度の高い属性の1つのカテゴリが支配する近傍は、特に局所的なクラスと感度の高い属性のホモフィリーが分岐する場合において、公正な扱いを得るのに苦労することが多い。 局所的ホモフィリーと公平性の関係を判定した後、適用されたGNNモデルの設計に不公平性の問題が関係しているかどうかを考察する。 異種グループラベルを扱える不均質なGNN設計を採用することで、局所異種地域におけるグループフェアネスを、実データや合成データセットにおけるホモフレンドリなデザインよりも最大25%向上させることができることを示す。

We study the task of node classification for graph neural networks (GNNs) and establish a connection between group fairness, as measured by statistical parity and equal opportunity, and local assortativity, i.e., the tendency of linked nodes to have similar attributes. Such assortativity is often induced by homophily, the tendency for nodes of similar properties to connect. Homophily can be common in social networks where systemic factors have forced individuals into communities which share a sensitive attribute. Through synthetic graphs, we study the interplay between locally occurring homophily and fair predictions, finding that not all node neighborhoods are equal in this respect -- neighborhoods dominated by one category of a sensitive attribute often struggle to obtain fair treatment, especially in the case of diverging local class and sensitive attribute homophily. After determining that a relationship between local homophily and fairness exists, we investigate if the issue of unfairness can be associated to the design of the applied GNN model. We show that by adopting heterophilous GNN designs capable of handling disassortative group labels, group fairness in locally heterophilous neighborhoods can be improved by up to 25% over homophilous designs in real and synthetic datasets.
翻訳日:2023-02-19 09:47:41 公開日:2022-11-14
# von Neumann測定値の保存と検索

Storage and retrieval of von Neumann measurements ( http://arxiv.org/abs/2204.03029v2 )

ライセンス: Link先を確認
Paulina Lewandowska, Ryszard Kukulski, {\L}ukasz Pawela, Zbigniew Pucha{\l}a(参考訳) 本研究は、有限個のコピー数から次元 $d$ の未知のフォン・ノイマン測定を学習する問題を考察する。 与えられた測定値の忠実な近似を得るためには、$N$ times を使うことができる。 我々の主な目標は、一般的な$N \rightarrow 1$学習スキームに対して平均忠実度関数$F_d$の最大値の漸近挙動を推定することである。 f_d = 1 - \theta\left(\frac{1}{n^2}\right)$ for arbitrary but fixed dimension $d$ である。 それに加えて、さまざまな学習スキームを$d=2$で比較した。 決定論的ポートベーステレポーテーションに基づく学習スキームは漸近的に最適であるが,低N$では不十分であった。 特に、漸近的最適性の欠如にもかかわらず、N$の低い値に対する忠実度の高い値を提供し、2ビットの絡み合ったメモリ状態のみを使用する並列学習方式を発見した。

This work examines the problem of learning an unknown von Neumann measurement of dimension $d$ from a finite number of copies. To obtain a faithful approximation of the given measurement we are allowed to use it $N$ times. Our main goal is to estimate the asymptotic behavior of the maximum value of the average fidelity function $F_d$ for a general $N \rightarrow 1$ learning scheme. We show that $F_d = 1 - \Theta\left(\frac{1}{N^2}\right)$ for arbitrary but fixed dimension $d$. In addition to that, we compared various learning schemes for $d=2$. We observed that the learning scheme based on deterministic port-based teleportation is asymptotically optimal but performs poorly for low $N$. In particular, we discovered a parallel learning scheme, which despite its lack of asymptotic optimality, provides a high value of the fidelity for low values of $N$ and uses only two-qubit entangled memory states.
翻訳日:2023-02-18 02:22:44 公開日:2022-11-14
# クラウス様分解

Kraus-Like Decompositions ( http://arxiv.org/abs/2204.06741v2 )

ライセンス: Link先を確認
Robert Lin and Jonathan Boretsky(参考訳) 本稿では,群代数に作用する量子チャネルの新たな分解について紹介し,クラウス様作用素分解 (kraus-like decompositions for short) と呼ぶ。 この新たな分解の重要な動機は、この設定における量子チャネルに対するクラウス作用素分解に対する一般的な非存在結果である。 有限群の既約指標によって誘導される「textit{convex} Kraus-like operator decompositions」(和分解の係数が非負で和則を満たす)の概念は、その長さがクラス関数であるときの条件付き負定長の概念と等価であることを示す。 一般有限群 $g$ に対して、長さに付随する半群がすべての$t>0$ に対して凸クラウス様作用素分解を持つなら、すべての時間 $t>0$ に対して凸クラウス様作用素分解を持つという安定性条件が証明される。 安定性条件を用いて、一般有限群に対して、長さ関数の条件付き負性は長さ関数上の半有限線型制約の集合に等しいことを示す。 この結果から、群代数の設定において、クラス関数である長さ関数によって誘導される半群$P_t$は、すべての$t\geq 0$に対する量子チャネルであり、それがすべての$t>0$に対する凸クラウス様作用素分解を持つ場合に限る。

In this paper, we introduce a new decomposition of quantum channels acting on group algebras, which we term Kraus-like operator decompositions (Kraus-like decompositions for short). An important motivation for this new decomposition is a general nonexistence result that we show for Kraus operator decompositions for quantum channels in this setting. We show that the notion of \textit{convex} Kraus-like operator decompositions (in which the coefficients in the sum decomposition are nonnegative and satisfy a sum rule) that are induced by the irreducible characters of a finite group is equivalent to the notion of a conditionally negative-definite length when the length is a class function. For a general finite group $G$, we prove a stability condition which shows that if the semigroup associated with a length has a convex Kraus-like operator decomposition for all $t>0$ small enough, then it has a convex Kraus-like operator decomposition for all time $t>0$. Using the stability condition, we show that for a general finite group, conditional negativity of the length function is equivalent to a set of semidefinite linear constraints on the length function. By a result of \cite{Sch}, our result implies that in the group algebra setting, a semigroup $P_t$ induced by a length function which is a class function is a quantum channel for all $t\geq 0$ if and only if it possesses a convex Kraus-like operator decomposition for all $t>0$.
翻訳日:2023-02-17 00:23:31 公開日:2022-11-14
# 分散Groverのアルゴリズム

Distributed Grover's algorithm ( http://arxiv.org/abs/2204.10487v4 )

ライセンス: Link先を確認
Daowen Qiu, Le Luo, Ligang Xiao(参考訳) ブール関数 $f:\{0,1\}^n\longrightarrow \{0,1\}$ ここで $|\{x\in\{0,1\}^n| f(x)=1\}|=a\geq 1$ とする。 Groverのアルゴリズムで$x\in\{0,1\}^n$を$f(x)=1$で検索するには、クエリ時間$\lfloor \frac{\pi}{4}\sqrt{\frac{2^n}{a}} \rfloor$が目的である。 本稿では,少ないクエリ時間と少ない入力ビット数で$f$を計算する分散グローバーアルゴリズムを提案する。 より正確には、$n>k\geq 1$の任意の$k$に対して、$f$を$n-k$の入力ビットを持つ$^k$のサブファンクションに分解することができ、その目的は、クエリ時間で最大$\sum_{i=1}^{r_i} \lfloor \frac {\pi}{4}\sqrt {\frac{2^{n-k}}{b_i}} \rfloor+\lceil\sqrt{2^{n-k}}\rceil+2t_a+1$ for some $1\leq b_i\leq a$と$r_i\leq 2t_a+1$$$$$$t=\lceil b_i\leq a$ and $r_i\leq 2t_a+1$$, $t=\lceil 2\sq 2\rceil+11$$$である。 特に$a=1$の場合、分散Groverのアルゴリズムは$\lfloor \frac{\pi}{4}\sqrt{2^{n-k}} \rfloor$クエリしか必要とせず、$\lfloor \frac{\pi}{4}\sqrt{2^{n}} \rfloor$クエリはGroverのアルゴリズムのクエリである。 % $n$ qubits が中規模に属するが、実際には処理がやや難しい場合、$n-k$ qubits は物理的実現可能性において適切な$k$に対して実現可能である。 最後に、共役正規形(CNF)を持つブール関数に対応するオラクルを実現するための量子回路を構築する効率的なアルゴリズムを提案する。

Let Boolean function $f:\{0,1\}^n\longrightarrow \{0,1\}$ where $|\{x\in\{0,1\}^n| f(x)=1\}|=a\geq 1$. To search for an $x\in\{0,1\}^n$ with $f(x)=1$, by Grover's algorithm we can get the objective with query times $\lfloor \frac{\pi}{4}\sqrt{\frac{2^n}{a}} \rfloor$. In this paper, we propose a distributed Grover's algorithm for computing $f$ with lower query times and smaller number of input bits. More exactly, for any $k$ with $n>k\geq 1$, we can decompose $f$ into $2^k$ subfunctions, each which has $n-k$ input bits, and then the objective can be found out by computing these subfunctions with query times at most $\sum_{i=1}^{r_i} \lfloor \frac{\pi}{4}\sqrt{\frac{2^{n-k}}{b_i}} \rfloor+\lceil\sqrt{2^{n-k}}\rceil+2t_a+1$ for some $1\leq b_i\leq a$ and $r_i\leq 2t_a+1$, where $t_a=\lceil 2\pi\sqrt{a}+11\rceil$. In particular, if $a=1$, then our distributed Grover's algorithm only needs $\lfloor \frac{\pi}{4}\sqrt{2^{n-k}} \rfloor$ queries, versus $\lfloor \frac{\pi}{4}\sqrt{2^{n}} \rfloor$ queries of Grover's algorithm. %When $n$ qubits belong to middle scale but still are a bit difficult to be processed in practice, $n-k$ qubits are likely feasible for appropriate $k$ in physical realizability. Finally, we propose an efficient algorithm of constructing quantum circuits for realizing the oracle corresponding to any Boolean function with conjunctive normal form (CNF).
翻訳日:2023-02-16 01:15:52 公開日:2022-11-14
# マルチモーダルタンパク質知識グラフの構築とその応用

Multi-modal Protein Knowledge Graph Construction and Applications ( http://arxiv.org/abs/2207.10080v3 )

ライセンス: Link先を確認
Siyuan Cheng, Xiaozhuan Liang, Zhen Bi, Huajun Chen, Ningyu Zhang(参考訳) タンパク質科学のための既存のデータ中心の手法は、一般的に生物学の知識を十分に捉えて活用することはできない。 この分野での研究を促進するために,タンパク質科学の知識グラフであるProteinKG65を開発した。 遺伝子オントロジーとユニプロット知識ベースを基礎として、様々な種類の知識をそれぞれgo用語とタンパク質実体に整列した記述とタンパク質配列に変換し統合する。 タンパク質KG65は主にタンパク質知識グラフを提供し、タンパク質の機能と構造予測に遺伝子オントロジーの知識をもたらす。 また,プロテアーゼKG65のプロトタイプへの応用の可能性についても述べる。 データセットはhttps://w3id.org/oproteinkg65でダウンロードできます。

Existing data-centric methods for protein science generally cannot sufficiently capture and leverage biology knowledge, which may be crucial for many protein tasks. To facilitate research in this field, we create ProteinKG65, a knowledge graph for protein science. Using gene ontology and Uniprot knowledge base as a basis, we transform and integrate various kinds of knowledge with aligned descriptions and protein sequences, respectively, to GO terms and protein entities. ProteinKG65 is mainly dedicated to providing a specialized protein knowledge graph, bringing the knowledge of Gene Ontology to protein function and structure prediction. We also illustrate the potential applications of ProteinKG65 with a prototype. Our dataset can be downloaded at https://w3id.org/proteinkg65.
翻訳日:2023-02-11 13:46:23 公開日:2022-11-14
# 協調量子情報消去

Cooperative quantum information erasure ( http://arxiv.org/abs/2206.10230v2 )

ライセンス: Link先を確認
Lorenzo Buffoni and Michele Campisi(参考訳) 我々は、一度に$n$ qubitsをリセットする情報消去プロトコルを示す。 この手法は、エネルギーコスト(ほぼランドウアーのエネルギーコスト$kt \ln 2$)、時間($\sim \mu s$)、そして成功率($\sim 99,9\%$)の点で非常に優れた性能を示す。 この方法は、量子トンネル現象によって増幅される自発的対称性破壊のメカニズムに関連する協調効果を利用して、標準的なアルゴリズム冷却パラダイムから逸脱する。 このような協調的量子消去プロトコルは、商用の量子アニール上で実験的に実証され、量子処理ユニットの高速で効果的でエネルギー効率の良い初期化のために、次世代のハイブリッドゲートベース/量子アニール量子コンピュータに容易に適用できる。

We demonstrate an information erasure protocol that resets $N$ qubits at once. The method displays exceptional performances in terms of energy cost (it operates nearly at Landauer energy cost $kT \ln 2$), time duration ($\sim \mu s$) and erasure success rate ($\sim 99,9\%$). The method departs from the standard algorithmic cooling paradigm by exploiting cooperative effects associated to the mechanism of spontaneous symmetry breaking which are amplified by quantum tunnelling phenomena. Such cooperative quantum erasure protocol is experimentally demonstrated on a commercial quantum annealer and could be readily applied in next generation hybrid gate-based/quantum-annealing quantum computers, for fast, effective, and energy efficient initialisation of quantum processing units.
翻訳日:2023-02-08 12:50:58 公開日:2022-11-14
# マルチラムダシステムにおける3レーザーコヒーレント集団トラップ-理論,実験,応用

Three-laser coherent population trapping in a multi-lambda system: theory, experiment and applications ( http://arxiv.org/abs/2206.12305v2 )

ライセンス: Link先を確認
Nicol\'as Nu\~nez Barreto, Martin Drechsler, Christian Tom\'as Schmiegelow(参考訳) 我々は,多値な$^{40}$Ca$^+$-type構成のコヒーレント集団トラップスペクトルの理論的および実験的結果を示し,望ましくない光ポンピングを避けるために標準2レーザー$\Lambda$システムに第3のビームを付加した。 余分なレーザーは、ダーク共鳴の性質を維持したり、そのパワーに応じてデコヒーレンスを導入することができる。 実験は、S_{1/2}-P_{1/2}-D_{3/2}$多様体の1つの閉じ込められた$^{40}$Ca$^+$イオンを用いて行われる。 理論的には、この問題はフルタイム積分を必要とせずに全てのスペクトルを正確に予測するリウヴィリアンのフロケのような拡張によって解決される。 マルチレーザー技術の最初の応用として、得られたよりリッチなスペクトルをビームの1つのベクトル偏光計として用いることができ、任意の空間方向のイオン位置の電界を測定することができることを示した。 また, 温度計の感度が調整可能であり, レーザ線幅依存性がないことも説明できた。

We present theoretical and experimental results of coherent population trapping spectra on a multi-level $^{40}$Ca$^+$-type configuration, adding a third beam to the standard two-laser $\Lambda$ system to avoid undesired optical pumping. We show that the extra laser can preserve the nature of the dark resonances or introduce decoherence depending on its power. Experiments are carried out using a single trapped $^{40}$Ca$^+$ ion in the $S_{1/2}-P_{1/2}-D_{3/2}$ manifold. Theoretically, the problem is solved with a Floquet-like expansion of the Liouvillian that correctly predicts all of the measured spectra without the need of full time integration. As a first application of the multilaser technique, we show that the richer spectra obtained can be used as a vectorial polarimeter of one of the beams, allowing one to measure the electrical field at the ion position in any spatial direction. We also explain how our setup could realize a thermometer with tunable sensitivity and no laser-linewidth dependence.
翻訳日:2023-02-08 04:30:47 公開日:2022-11-14
# 量子化学において指数関数的量子優位の証拠はあるか?

Is there evidence for exponential quantum advantage in quantum chemistry? ( http://arxiv.org/abs/2208.02199v3 )

ライセンス: Link先を確認
Seunghoon Lee, Joonho Lee, Huanchen Zhai, Yu Tong, Alexander M. Dalzell, Ashutosh Kumar, Phillip Helms, Johnnie Gray, Zhi-Hao Cui, Wenyuan Liu, Michael Kastoryano, Ryan Babbush, John Preskill, David R. Reichman, Earl T. Campbell, Edward F. Valeev, Lin Lin, Garnet Kin-Lic Chan(参考訳) 量子力学デバイスを使って他の量子システムをシミュレートするというアイデアは、一般にファインマンに言及されている。 当初の提案以来、分子および材料化学を量子計算によりシミュレーションするための具体的な提案が「キラー応用」の可能性として現れてきた。 人工タスクにおける指数的量子優位性を示す指標は、この応用への関心が高まり、量子化学における指数的量子優位性の基礎を理解することが重要である。 ここでは、量子化学における最も一般的なタスク、すなわち基底状態エネルギー推定において、このケースの証拠を収集する。 化学空間にまたがる指数関数的な優位性の証拠はまだ発見されていない。 量子コンピュータは依然として量子化学に有用である可能性があるが、指数的スピードアップがこの問題に対して汎用的に利用できないと仮定するのは慎重である。

The idea to use quantum mechanical devices to simulate other quantum systems is commonly ascribed to Feynman. Since the original suggestion, concrete proposals have appeared for simulating molecular and materials chemistry through quantum computation, as a potential ``killer application''. Indications of potential exponential quantum advantage in artificial tasks have increased interest in this application, thus, it is critical to understand the basis for potential exponential quantum advantage in quantum chemistry. Here we gather the evidence for this case in the most common task in quantum chemistry, namely, ground-state energy estimation. We conclude that evidence for such an exponential advantage across chemical space has yet to be found. While quantum computers may still prove useful for quantum chemistry, it may be prudent to assume exponential speedups are not generically available for this problem.
翻訳日:2023-02-02 09:55:09 公開日:2022-11-14
# 修正反復量子振幅推定は漸近的に最適である

Modified Iterative Quantum Amplitude Estimation is Asymptotically Optimal ( http://arxiv.org/abs/2208.14612v2 )

ライセンス: Link先を確認
Shion Fukuzawa, Christopher Ho, Sandy Irani, Jasen Zion(参考訳) 本研究は,量子振幅推定(QAE)のためのQFTフリーアルゴリズムとして,先行する数値性能を維持しつつ,漸近的に最適である。 QAEアルゴリズムは量子コンピュータの多くの応用においてサブルーチンとして現れる。 QAEの量子アルゴリズムで達成可能な最適なクエリ複雑性は$O\left(\frac{1}{\epsilon}\log \frac{1}{\alpha}\right)$クエリであり、同じ問題に対して他の古典的アルゴリズムよりも1/\epsilon$の高速化を提供する。 QAEのアルゴリズムは量子フーリエ変換(QFT)を用いており、これは短期量子ハードウェアの課題であると考えられている。 この問題を解決するために、QFTの使用を避けるQAEアルゴリズムの設計に興味がある。 近年、Grinkoらにより反復QAEアルゴリズム (IQAE) が導入され、クエリの複雑さと小さな定数要素がほぼ最適である$O\left(\frac{1}{\epsilon}\log \left(\frac{1}{\alpha} \log \frac{1}{\epsilon}\right)\right)が導入された。 本研究では、先行研究のアイデアを組み合わせて、QFTフリーQAEアルゴリズムを導入し、漸近的に最適な$O\left(\frac{1}{\epsilon}\log \frac{1}{\alpha}\right)$クエリ複雑性を維持しながら、小さな定数要素を保持する。 IQAEと比較した数値実験により解析結果を補足し, 改良によって高い性能が維持され, 場合によっては数値結果も改善されている。

In this work, we provide the first QFT-free algorithm for Quantum Amplitude Estimation (QAE) that is asymptotically optimal while maintaining the leading numerical performance. QAE algorithms appear as a subroutine in many applications for quantum computers. The optimal query complexity achievable by a quantum algorithm for QAE is $O\left(\frac{1}{\epsilon}\log \frac{1}{\alpha}\right)$ queries, providing a speedup of a factor of $1/\epsilon$ over any other classical algorithm for the same problem. The original algorithm for QAE utilizes the quantum Fourier transform (QFT) which is expected to be a challenge for near-term quantum hardware. To solve this problem, there has been interest in designing a QAE algorithm that avoids using QFT. Recently, the iterative QAE algorithm (IQAE) was introduced by Grinko et al. with a near-optimal $O\left(\frac{1}{\epsilon}\log \left(\frac{1}{\alpha} \log \frac{1}{\epsilon}\right)\right)$ query complexity and small constant factors. In this work, we combine ideas from the preceding line of work to introduce a QFT-free QAE algorithm that maintains the asymptotically optimal $O\left(\frac{1}{\epsilon}\log \frac{1}{\alpha}\right)$ query complexity while retaining small constant factors. We supplement our analysis with numerical experiments comparing our performance with IQAE where we find that our modifications retain the high performance, and in some cases even improve the numerical results.
翻訳日:2023-01-28 09:21:27 公開日:2022-11-14
# 量子コンピュータ上の非平衡相転移の特徴付け

Characterizing a non-equilibrium phase transition on a quantum computer ( http://arxiv.org/abs/2209.12889v3 )

ライセンス: Link先を確認
Eli Chertkov, Zihan Cheng, Andrew C. Potter, Sarang Gopalakrishnan, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Alex Hall, Aaron Hankin, Mitchell Matheny, Tanner Mengle, David Hayes, Brian Neyenhuis, Russell Stutz, Michael Foss-Feig(参考訳) 物質相間の遷移において、物理系は微視的詳細とは無関係に普遍的な振る舞いを示すことができる。 量子多体系におけるそのような振る舞いの証明は、古典的コンピュータよりも指数関数的に高速な量子コンピュータによって解ける、困難で事実上重要な問題である。 本研究では,量子式h1-1量子コンピュータを用いて,能動状態と吸収状態との間の非平衡相転移を示すことで知られる単純な古典的疾患拡散過程の量子拡張を実現する。 実時間条件付き論理(量子誤り訂正に広く用いられている)に基づく量子ビット再利用やエラー回避といった手法を用いて、73$サイトと72$回路層を持つモデルの大規模インスタンスを実装し、モデルの臨界特性を定量的に決定することができる。 この研究は、中間回路のリセット、測定、条件論理が可能な量子コンピュータが、量子多体物理学における難しい問題、すなわち開量子系力学と非平衡相転移のシミュレーションの研究を可能にする方法を示す。

At transitions between phases of matter, physical systems can exhibit universal behavior independent of their microscopic details. Probing such behavior in quantum many-body systems is a challenging and practically important problem that can be solved by quantum computers, potentially exponentially faster than by classical computers. In this work, we use the Quantinuum H1-1 quantum computer to realize a quantum extension of a simple classical disease spreading process that is known to exhibit a non-equilibrium phase transition between an active and absorbing state. Using techniques such as qubit-reuse and error avoidance based on real-time conditional logic (utilized extensively in quantum error correction), we are able to implement large instances of the model with $73$ sites and up to $72$ circuit layers, and quantitatively determine the model's critical properties. This work demonstrates how quantum computers capable of mid-circuit resets, measurements, and conditional logic enable the study of difficult problems in quantum many-body physics: the simulation of open quantum system dynamics and non-equilibrium phase transitions.
翻訳日:2023-01-25 02:53:24 公開日:2022-11-14
# モジュールアーキテクチャのための量子LDPC符号

Quantum LDPC Codes for Modular Architectures ( http://arxiv.org/abs/2209.14329v2 )

ライセンス: Link先を確認
Armands Strikis, Lucas Berent(参考訳) 量子コンピュータの規模を拡大するために、モジュラリティは多くの量子コンピューティング技術において中心的な役割を果たす。 フォールトトレランスの観点からすると、アーキテクチャレイアウトから生じる接続性と互換性のある量子誤り訂正符号を設計する必要がある。 本稿では,モジュラーアーキテクチャに適した量子LDPCコードを見て構築する方法を提供することで,このギャップを埋めることを目指している。 古典的もしくは量子LDPC符号に対応して、モジュール内およびモジュール間接続を見ることができる場合、そのハイパーグラフ製品コードは、アーキテクチャ上の接続制約を完全に尊重する。 最後に、モジュール間の接続のツイストを可能にする接続制約を緩和し、より良いパラメータを持つコードを構築する方法を示す。

In efforts to scale the size of quantum computers, modularity plays a central role across most quantum computing technologies. In the light of fault tolerance, this necessitates designing quantum error-correcting codes that are compatible with the connectivity arising from the architectural layouts. In this paper, we aim to bridge this gap by giving a novel way to view and construct quantum LDPC codes tailored for modular architectures. We demonstrate that if the intra- and inter-modular qubit connectivity can be viewed as corresponding to some classical or quantum LDPC codes, then their hypergraph product code fully respects the architectural connectivity constraints. Finally, we show that relaxed connectivity constraints that allow twists of connections between modules pave a way to construct codes with better parameters.
翻訳日:2023-01-24 19:27:52 公開日:2022-11-14
# 量子信号処理による摂動理論

Perturbation theory with quantum signal processing ( http://arxiv.org/abs/2210.00718v2 )

ライセンス: Link先を確認
Kosuke Mitarai, Kiichiro Toyoizumi, Wataru Mizukami(参考訳) 摂動理論は計算コストを削減し、古典的なコンピュータで量子システムをシミュレートする物理的洞察を提供するための重要な技術である。 本稿では,量子コンピュータ上で摂動エネルギーを得る量子アルゴリズムを提案する。 量子コンピュータを使用する利点は、古典的に解くのが難しいハミルトニアンから摂動を開始することができることである。 提案アルゴリズムはこの目的を達成するために量子信号処理(QSP)を用いる。 摂動理論と並行して, 計算コスト解析の詳細な基礎状態作成手法を構築し, 独立な関心を持つことができる。 また,水クラスターやポリアセン分子などの単純な化学系に対するアルゴリズムの粗い計算コストを推定した。 我々の知る限りでは、これはQSPの実用化のための最初の評価である。 残念なことに、提案アルゴリズムは、少なくとも現在の形式では、従来の量子アルゴリズムと比較してQSPの効率性に拘わらず、実用的な数値を示さない。 しかし、摂動理論自体が物理的解釈可能性のために探索する上で魅力的な方向であり、相互作用がシステムの特性に重要な貢献をもたらすかについての洞察を提供する。 これは、エネルギーの値しか得られない量子位相推定アルゴリズムに基づく従来のアプローチとは対照的である。 この側面から、この研究は、フォールトトレラント量子コンピュータ上の‘説明可能’量子シミュレーションへの第一歩である。

Perturbation theory is an important technique for reducing computational cost and providing physical insights in simulating quantum systems with classical computers. Here, we provide a quantum algorithm to obtain perturbative energies on quantum computers. The benefit of using quantum computers is that we can start the perturbation from a Hamiltonian that is classically hard to solve. The proposed algorithm uses quantum signal processing (QSP) to achieve this goal. Along with the perturbation theory, we construct a technique for ground state preparation with detailed computational cost analysis, which can be of independent interest. We also estimate a rough computational cost of the algorithm for simple chemical systems such as water clusters and polyacene molecules. To the best of our knowledge, this is the first of such estimates for practical applications of QSP. Unfortunately, we find that the proposed algorithm, at least in its current form, does not exhibit practical numbers despite of the efficiency of QSP compared to conventional quantum algorithms. However, perturbation theory itself is an attractive direction to explore because of its physical interpretability; it provides us insights about what interaction gives an important contribution to the properties of systems. This is in sharp contrast to the conventional approaches based on the quantum phase estimation algorithm, where we can only obtain values of energy. From this aspect, this work is a first step towards ``explainable'' quantum simulation on fault-tolerant quantum computers.
翻訳日:2023-01-24 00:44:25 公開日:2022-11-14
# 駆動カオス系のエネルギー遷移密度:化合物トレース公式

Energy transition density of driven chaotic systems: A compound trace formula ( http://arxiv.org/abs/2210.04078v3 )

ライセンス: Link先を確認
Alfredo M. Ozorio de Almeida(参考訳) 古典的に狭いエネルギー範囲におけるカオスハミルトニアンの固有状態の量子遷移の確率密度の振動は閉複軌道に依存することが示されている。 これらは一対の軌道セグメントによって形成され、一方は元のハミルトニアンのエネルギー殻に、もう一方は駆動ハミルトニアンのエネルギー殻に、他方は同一のエンドポイントを持つ。 時間領域で見た場合、同じ軌道セグメントの組は、合成プロパゲーターのトレースの半古典的評価、すなわち、元のハミルトニアンとその駆動像の複素指数の積において生じる。 ここでは、確率密度がこのトレースの二重フーリエ変換であることを示し、閉複軌道はその半古典的評価においてグッツウィラーのトレース公式で周期軌道が果たす役割をエミュレートする。 エネルギーあるいは進化パラメータによる振動の位相は、以前得られたものと一致するが、閉複軌道の寄与の振幅はよりコンパクトであり、計算が行われたワイル・ウィグナー表現のいかなる特徴にも依存しない。

Oscillations in the probability density of quantum transitions of the eigenstates of a chaotic Hamiltonian within classically narrow energy ranges have been shown to depend on closed compound orbits. These are formed by a pair of orbit segments, one in the energy shell of the original Hamiltonian and the other in the energy shell of the driven Hamiltonian, with endpoints which coincide. Viewed in the time domain, the same pair of trajectory segments arises in the semiclassical evaluation of the trace of a compound propagator: the product of the complex exponentials of the original Hamiltonian and of its driven image. It is shown here that the probability density is the double Fourier transform of this trace, so that the closed compound orbits emulate the role played by periodic orbits in Gutzwiller's trace formula in its semiclassical evaluation. The phase of the oscillations with the energies or evolution parameters agree with those previously obtained, whereas the amplitude of the contribution of each closed compound orbit is more compact and independent of any feature of the Weyl-Wigner representation in which the calculation was carried out.
翻訳日:2023-01-23 05:38:59 公開日:2022-11-14
# 無調波電位で磁気浮上する超伝導マイクロスフィア

Superconducting microsphere magnetically levitated in an anharmonic potential ( http://arxiv.org/abs/2210.13451v2 )

ライセンス: Link先を確認
Mart\'i Gutierrez Latorre and Gerard Higgins and Achintya Paradkar and Thilo Bauch and Witlef Wieczorek(参考訳) 磁気浮上型超伝導微粒子は、ピコグラムを用いた量子実験からマイクログラムオブジェクトへの有望な経路を提供する。 本研究は, 検出を集積した磁気チップトラップにおいて, 700ng$\sim 10^{17}$amu超伝導マイクロスフィアを浮揚する。 我々はDC-SQUID磁気センサを用いて粒子の中心運動を測定する。 トラップ周波数は30Hzから160Hzの間で連続的に調整可能であり、粒子は希釈冷凍機環境下で数日にわたって安定に捕捉される。 我々は、トラップ不調和、すなわちダッフィング非線形性とモード結合から生じる運動振幅依存性の周波数シフトを特徴付ける。 チップに基づくトラップポテンシャルの有限要素モデリングを用いて, この非線形挙動を説明する。 この研究は、磁気浮上超伝導微粒子を用いた量子実験と超感度慣性センサへの第一歩となる。

Magnetically levitated superconducting microparticles offer a promising path to quantum experiments with picogram to microgram objects. In this work, we levitate a 700ng $\sim 10^{17}$amu superconducting microsphere in a magnetic chip trap in which detection is integrated. We measure the particle's center-of-mass motion using a DC-SQUID magnetometer. The trap frequencies are continuously tunable between 30 and 160Hz and the particle remains stably trapped over days in a dilution refrigerator environment. We characterize motional-amplitude-dependent frequency shifts, which arise from trap anharmonicities, namely Duffing nonlinearities and mode couplings. We explain this nonlinear behavior using finite element modelling of the chip-based trap potential. This work constitutes a first step towards quantum experiments and ultrasensitive inertial sensors with magnetically levitated superconducting microparticles.
翻訳日:2023-01-21 18:46:30 公開日:2022-11-14
# 位置依存型コイン演算子を用いた離散時間量子ウォークのための量子回路

Quantum circuits for discrete-time quantum walks with position-dependent coin operator ( http://arxiv.org/abs/2211.05271v2 )

ライセンス: Link先を確認
Ugo Nzongani and Julien Zylberman and Carlo-Elia Doncecchi and Armando P\'erez and Fabrice Debbasch and Pablo Arnault(参考訳) 本論文の目的は、任意の位置依存のコイン演算子を持つ離散時間量子ウォークを実装する量子回路を構築することである。 ウォーカーの位置はベース2でエンコードされる:$n$ワイヤで、それぞれが1キュービットに対応して、2^n$の位置状態をエンコードする。 従って、任意の位置依存コイン演算子を定義するために必要なデータは、指数関数的に$n$である。 まず,位置依存コイン演算子を実装した回路を提案する。これは指数関数的な深さを持ち,適切な位置依存コイン演算子を逐次実装するという意味ではナイーブである。 次に,全ての深さをancillaeに"移行"し,指数関数的なancillae数のコストでn$で線形となる回路を提案する。 この線形深さ回路の主なアイデアは、異なる位置にすべてのコイン演算子を並列に実装することである。 最後に、Refの結果を拡張します。 実際、十分に滑らかなコイン演算子(ブロック対角ユニタリ)の位置依存について、効率の良い量子回路実装がコイン演算子を誤差$\epsilon$(スペクトルノルムの観点では)まで近似し、その深さと大きさが$O(1/\epsilon)$であることを示す。 効率的な実装の典型的な応用は格子上の相対論的スピン-1/2粒子の量子シミュレーションであり、滑らかな外部ゲージ場と結びついている。 線形深さ回路の典型的な応用は、コイン演算子に空間ノイズがある場合(したがって位置の非スムース依存性)である。

The aim of this paper is to build quantum circuits that implement discrete-time quantum walks having an arbitrary position-dependent coin operator. The position of the walker is encoded in base 2: with $n$ wires, each corresponding to one qubit, we encode $2^n$ position states. The data necessary to define an arbitrary position-dependent coin operator is therefore exponential in $n$. We first propose a circuit implementing the position-dependent coin operator, that is naive, in the sense that it has exponential depth and implements sequentially all appropriate position-dependent coin operators. We then propose a circuit that "transfers" all the depth into ancillae, yielding a final depth that is linear in $n$ at the cost of an exponential number of ancillae. The main idea of this linear-depth circuit is to implement in parallel all coin operators at the different positions. Finally, we extend the result of Ref. [2] from position-dependent unitaries which are diagonal in the position basis to position-dependent $2 \times 2$-block-diagonal unitaries: indeed, we show that for a position dependence of the coin operator (the block-diagonal unitary) which is smooth enough, one can find an efficient quantum-circuit implementation approximating the coin operator up to an error $\epsilon$ (in terms of the spectral norm), the depth and size of which scale as $O(1/\epsilon)$. A typical application of the efficient implementation would be the quantum simulation of a relativistic spin-1/2 particle on a lattice, coupled to a smooth external gauge field; notice that recently, quantum spatial-search schemes have been developed which use gauge fields as the oracle, to mark the vertex to be found [3, 4]. A typical application of the linear-depth circuit would be when there is spatial noise on the coin operator (and hence a non-smooth dependence in the position).
翻訳日:2023-01-19 19:45:25 公開日:2022-11-14
# 量子力学の統計的解釈は$\psi$-Onticか$\psi$-Epistemicか?

Is the Statistical Interpretation of Quantum Mechanics $\psi$-Ontic or $\psi$-Epistemic? ( http://arxiv.org/abs/2211.07057v1 )

ライセンス: Link先を確認
Mario Hubert(参考訳) オントロジモデルフレームワークは、$\psi$-onticと$\psi$-epistemic wavefunctionsを区別する。 一般に、ある量子論の波動関数を分類するのは非常に単純である。 それにもかかわらず、量子力学の統計解釈における波動関数のオントロジ的状態に関する議論がある:それは$\psi$-epistemic か$\psi$-ontic か$\psi$-ontic か、完全か? この解釈の波動関数は$\psi$-ontic であり不完全であると考えるのが一番よい。

The ontological models framework distinguishes $\psi$-ontic from $\psi$-epistemic wavefunctions. It is, in general, quite straightforward to categorize the wave-function of a certain quantum theory. Nevertheless, there has been a debate about the ontological status of the wave-function in the statistical interpretation of quantum mechanics: is it $\psi$-epistemic and incomplete or $\psi$-ontic and complete? I will argue that the wavefunction in this interpretation is best regarded as $\psi$-ontic and incomplete.
翻訳日:2023-01-18 07:30:04 公開日:2022-11-14
# スピンベクトルポテンシャルとスピンアハロノフ-ボーム効果

Spin Vector Potential and Spin Aharonov-Bohm Effect ( http://arxiv.org/abs/2211.07178v1 )

ライセンス: Link先を確認
Jing-Ling Chen, Xing-Yan Fan, and Xiang-Ru Xie(参考訳) Aharonov-Bohm(AB)効果は量子論の重要な発見である。 これは、磁場と電場の両方がゼロの領域に制限されているにもかかわらず、電荷を帯びた粒子が電磁ポテンシャルによって影響を受ける驚くべき量子現象として機能する。 この事実により、電磁ポテンシャルは古典物理学よりも量子物理学において重要である。 もともとのAB効果は「電磁気型」に属する。あるベクトルポテンシャルは特定の種類のAB効果を構築するのに不可欠である。この記事では、近年広く受け入れられている顕微鏡粒子の本質的な性質である「スピン」に焦点を当てる。 まず,スピン作用素を持つ粒子を考えることにより,スピンベクトルポテンシャルの仮説を提案する。 次に、そのようなスピンベクトルポテンシャルの存在を検証するために、実験室で観測可能なゲダンケン二重スリット干渉実験(すなわちスピンab効果)を提案する。 第3に、スピンベクトルポテンシャルを用いて、なぜジアルシンスキー-モリヤ型相互作用とスピン間の双極子-双極子相互作用があるのかを自然に説明し、新しいタイプのスピン-軌道相互作用を予測する。

The Aharonov-Bohm (AB) effect is an important discovery of quantum theory. It serves as a surprising quantum phenomenon in which an electrically charged particle can be affected by an electromagnetic potential, despite being confined to a region in which both the magnetic field and electric field are zero. This fact gives the electromagnetic potentials greater significance in quantum physics than in classical physics. The original AB effect belongs to an ``electromagnetic type". A certain vector potential is crucial for building a certain type of AB effect. In this work, we focus on the ``spin", which is an intrinsic property of microscopic particles that has been widely accepted nowadays. First, we propose the hypothesis of spin vector potential by considering a particle with a spin operator. Second, to verify the existence of such a spin vector potential, we present a gedanken double-slit interference experiment (i.e., the spin AB effect), which is possible to be observed in the lab. Third, we apply the spin vector potential to naturally explain why there were the Dzyaloshinsky-Moriya-type interaction and the dipole-dipole interaction between spins, and also predict a new type of spin-orbital interaction.
翻訳日:2023-01-18 07:20:56 公開日:2022-11-14
# ボース・アインシュタイン凝縮の断片化とその創発的有効進化について

On the characterisation of fragmented Bose-Einstein condensation and its emergent effective evolution ( http://arxiv.org/abs/2211.07133v1 )

ライセンス: Link先を確認
Jinyeop Lee and Alessandro Michelangeli(参考訳) フラグメンテッドボース・アインシュタイン凝縮体(Fragmented Bose-Einstein condensates)は、単体状態のマクロな占有を示す同一ボソンの大きな系である。 The quest for an effective dynamics of the fragmented condensate at the leading order in the number of particles, in analogy to the much more controlled scenario for complete condensation in one single state, is deceptive both because characterising fragmentation solely in terms of reduced density matrices is unsatisfactory and ambiguous, and because as soon as the time evolution starts the rank of the reduced marginals generically passes from finite to infinite, which is a signature of a transfer of occupations on infinitely many more one-body states. 本研究では、これらの困難さを概観し、断片化凝縮体の以前の特徴化を限界点で洗練し、無限個の粒子と無限個のエネルギーギャップの二重極限における主要な有効動力学への収束率を定量的に評価する。

Fragmented Bose-Einstein condensates are large systems of identical bosons displaying \emph{multiple} macroscopic occupations of one-body states, in a suitable sense. The quest for an effective dynamics of the fragmented condensate at the leading order in the number of particles, in analogy to the much more controlled scenario for complete condensation in one single state, is deceptive both because characterising fragmentation solely in terms of reduced density matrices is unsatisfactory and ambiguous, and because as soon as the time evolution starts the rank of the reduced marginals generically passes from finite to infinite, which is a signature of a transfer of occupations on infinitely many more one-body states. In this work we review these difficulties, we refine previous characterisations of fragmented condensates in terms of marginals, and we provide a quantitative rate of convergence to the leading effective dynamics in the double limit of infinitely many particles and infinite energy gap.
翻訳日:2023-01-18 07:20:35 公開日:2022-11-14
# 独立非マルコフ浴における結合量子振動子の絡み合いダイナミクス

Entanglement dynamics of coupled quantum oscillators in independent nonMarkovian baths ( http://arxiv.org/abs/2211.07124v1 )

ライセンス: Link先を確認
Jen-Tsung Hsiang, Onat Ar{\i}soy, and Bei-Lok Hu(参考訳) この研究は、オープン量子系における絡み合いが、ここでは2つの結合ブラウン振動子によって表され、非マルコフ環境(記憶を伴う)に影響され、ここでは各振動子が個別に相互作用する2つの独立した浴槽によって表される。 両発振器と浴槽のパラメータが同一である「対称」構成と、これらが異なる「非対称」構成、特に2つの結合発振器が非マルコフ浴槽と相互作用し、もう1つはマルコフ浴と相互作用する「ハイブリッド」構成の2つの設定を考える。 Q1) 浴槽の非マルコビアン性はシステムの絡み合いに最も恩恵をもたらすか? より詳細な数値的な研究から得られた答えは、A1) が初期絡み合った振動子対に対して、中間時間範囲では、絡み合いの持続時間は記憶時間に比例し、緩和時間のごく一部であるが、力学が定常状態に達する後期には、部分的に転向した共分散行列のシンプレクティック固有値の値は、バス非マルコビアン性からほとんど恩恵を受けないことを示唆している。 q2)非マルコフ浴の記憶を別のマルコフ浴に伝えることができるか? もしそうなら、このメモリ転送はシステムの絡み合いダイナミクスを維持するのに役立ちますか? 非対称なハイブリッド構成の数値的な研究から,A2) メモリ時間が短いシステムでは,メモリ時間が長いシステムと結合した場合に改善が得られるが,後者ではコストがかかることが示唆された。 両部絡みの持続性は、最も容易に絡みを断ち切る党によって決定される。

This work strives to better understand how the entanglement in an open quantum system, here represented by two coupled Brownian oscillators, is affected by a nonMarkovian environment (with memories), here represented by two independent baths each oscillator separately interacts with. We consider two settings, a `symmetric' configuration wherein the parameters of both oscillators and their baths are identical, and an `asymmetric' configuration wherein they are different, in particular, a `hybrid' configuration, where one of the two coupled oscillators interacts with a nonMarkovian bath and the other with a Markovian bath. We ask two groups of questions: Q1) Which time regime does the bath's nonMarkovianity benefit the system's entanglement most? The answers we get from detailed numerical studies suggest that A1) For an initially entangled pair of oscillators, we see that in the intermediate time range, the duration of entanglement is proportional to the memory time, and it lasts a fraction of the relaxation time, but at late times when the dynamics reaches a steady state, the value of the symplectic eigenvalue of the partially transposed covariance matrix barely benefit from the bath nonMarkovianity. For the second group of questions: Q2)Can the memory of one nonMarkovian bath be passed on to another Markovian bath? And if so, does this memory transfer help to sustain the system's entanglement dynamics? Our results from numerical studies of the asymmetric hybrid configuration indicate that A2) A system with a short memory time can acquire improvement when it is coupled to another system with a long memory time, but, at a cost of the latter. The sustainability of the bipartite entanglement is determined by the party which breaks off entanglement most easily.
翻訳日:2023-01-18 07:20:19 公開日:2022-11-14
# 決定ダイアグラムに基づく量子回路シミュレーションのためのリオーダートリック

A Reorder Trick for Decision Diagram Based Quantum Circuit Simulation ( http://arxiv.org/abs/2211.07110v1 )

ライセンス: Link先を確認
Jingcheng Shen, Linbo Long, Masao Okita, Fumihiko Ino(参考訳) 量子コンピューティングは、量子並列性を利用して特定のアプリケーションを加速するためのホットスポット技術である。 しかし、現在の物理量子コンピュータは比較的小規模に制限されており、従来のマシンに基づくシミュレーターは量子コンピューティングの研究にかなり依存している。 単純な配列ベースのシミュレータは、キュービット数に対して指数関数的に増加する膨大なメモリを必要とする。 このような計算資源の懸念を軽減するため、量子状態や演算におけるデータ冗長性を効率的に活用できる決定図に基づくシミュレータが提案された。 本稿では,現状決定図に基づくシミュレーターがシミュレーション時間でうまく動作しなかった量子回路の2つのクラスについて検討する。 また,そのような量子回路のシミュレーションを促進するための,シンプルで強力なリオーダー手法を提案する。 予備評価結果は,提案手法の有用性を示すものである。 特に、量子位相推定回路では、シミュレーション順序を最適化する補助ツールに依存する最先端のアプローチと比較して、提案手法は最大313.6倍の高速化を達成している。

Quantum computing is a hotspot technology for its potential to accelerate specific applications by exploiting quantum parallelism. However, current physical quantum computers are limited to a relatively small scale, simulators based on conventional machines are significantly relied on to perform quantum computing research. The straightforward array-based simulators require a tremendous amount of memory that increases exponentially with respect to the number of qubits. To mitigate such computing resource concerns, decision diagram based simulators were proposed that can efficiently exploit data redundancies in quantum states and operations. In this paper, we study two classes of quantum circuits on which the state-of-the-art decision diagram based simulators failed to perform well in terms of simulation time. We also propose a simple and powerful reorder trick to boost the simulation of such quantum circuits. Preliminary evaluation results demonstrate the usefulness of the proposed trick. Especially, for the Quantum Phase Estimation circuits, the proposed trick achieved speedups up to 313.6x compared to a state-of-the-art approach that relies on an auxiliary tool to optimize simulation order.
翻訳日:2023-01-18 07:19:30 公開日:2022-11-14
# 量子アクセスネットワークにおける高次元量子鍵分布

High-Dimensional Quantum Key Distribution in Quantum Access Networks ( http://arxiv.org/abs/2211.07109v1 )

ライセンス: Link先を確認
Osama Elmabrok, Mohsen Razavi, Tawfig Eltaif, Khaled A. Alaghbari(参考訳) ハイブリッド量子古典ネットワークへの無線アクセスにおける高次元量子鍵分布(HD-QKD)の利用について検討する。 アクセスネットワークの他端における屋内無線ユーザと中央オフィス間のD次元時間位相符号化状態の分布について検討する。 我々は,ラマン散乱光による背景雑音がqkd受信機に与える影響を考慮し,同じチャネル上で量子信号と古典信号を送信する場合の性能評価を行った。 また,室内環境における騒音の損失や背景の騒音も考慮し,分析における有限要素の影響も考慮する。 d = 4 の hd-qkd システムは、その qubit ベースのシステムよりも優れている。

We investigate the use of high-dimensional quantum key distribution (HD-QKD) in wireless access to hybrid quantum classical networks. We study the distribution of d-dimensional time-phase encoded states between an indoor wireless user and the central office on the other end of the access network. We evaluate the performance in the case of transmitting quantum and classical signals over the same channel by accounting for the impact of background noise induced by the Raman-scattered light on the QKD receiver. We also take into account the loss and background noise that occur in indoor environments as well as finite key effects in our analysis. We show that an HD-QKD system with d = 4 can outperform its qubit-based counterpart.
翻訳日:2023-01-18 07:19:13 公開日:2022-11-14
# ルエンベルガーダイナミクスを用いたコヒーレント量子LQGコントローラ

Coherent quantum LQG controllers with Luenberger dynamics ( http://arxiv.org/abs/2211.07097v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen(参考訳) 本稿では,量子プラントと安定化量子コントローラの無測定場間相互接続において,無限ホリゾン平均二乗コストを最小化するコヒーレント量子線形-四次ゲージ-ガウシアン制御問題について述べる。 プラントとコントローラは、線形量子確率微分方程式によって制御され、真空状態の外部多チャネルボゾン場と互いに結合する多モードオープン量子調和振動子である。 量子物理学的実現可能性条件と古典的分離原理に付随するルエンベルガー構造との相互作用を論じる。 これは、共役位置の交換変換の枠組みで定式化されたコントローラ利得行列の二次制約と、コントローラ変数の標準表現におけるモーメントをもたらす。 ルエンベルガー力学を持つコヒーレント量子コントローラのクラスに対しては、行列値ラグランジュ乗算器を含む代数方程式の形で最適性の1次必要条件を得る。

This paper is concerned with the coherent quantum linear-quadratic-Gaussian control problem of minimising an infinite-horizon mean square cost for a measurement-free field-mediated interconnection of a quantum plant with a stabilising quantum controller. The plant and the controller are multimode open quantum harmonic oscillators, governed by linear quantum stochastic differential equations and coupled to each other and the external multichannel bosonic fields in the vacuum state. We discuss an interplay between the quantum physical realizability conditions and the Luenberger structure associated with the classical separation principle. This leads to a quadratic constraint on the controller gain matrices, which is formulated in the framework of a swapping transformation for the conjugate positions and momenta in the canonical representation of the controller variables. For the class of coherent quantum controllers with the Luenberger dynamics, we obtain first-order necessary conditions of optimality in the form of algebraic equations, involving a matrix-valued Lagrange multiplier.
翻訳日:2023-01-18 07:19:03 公開日:2022-11-14
# 最適確率記憶のロバスト性と雑音に対するユニタリチャネルの検索

Robustness of optimal probabilistic storage and retrieval of unitary channels to noise ( http://arxiv.org/abs/2211.07079v1 )

ライセンス: Link先を確認
Jaroslav Pavli\v{c}ko and M\'ario Ziman(参考訳) 位相ゲートを雑音に最適化した確率的記憶・検索装置のロバスト性について検討する。 ユニタリチャネルとデポーラ化チャネルとデフォーカスチャネルの凸結合を組み合わせた雑音入力を用いる。 ノイズの低減に対する抵抗は脱分極よりも高いことが判明した。 興味深いことに、脱分極のために、検索はノイズの程度を減少させる。 また,ノイズ発生時の性能が異なることを示す可能性についても検討した。

We investigate robustness of probabilistic storage and retrieval device optimized for phase gates to noise. We use noisy input composed of convex combination of unitary channel with either depolarizing or dephasing channel. We find out that the resistance to dephasing noise is higher than to depolarization. Interestingly, for the depolarisation the retrieval reduces the degree of noise. We also examine the possible realizations showing that their performance is different when the noise is present.
翻訳日:2023-01-18 07:18:48 公開日:2022-11-14
# 相互作用可積分および非可積分多体量子系における時間外秩序相関系における対称性の影響

Effect of symmetries in out-of-time ordered correlators in interacting integrable and nonintegrable many-body quantum systems ( http://arxiv.org/abs/2211.07073v1 )

ライセンス: Link先を確認
Vinitha Balachandran, Lea F. Santos, Marcos Rigol, and Dario Poletti(参考訳) 時間外順序相関器(OTOC)は量子情報のスクランブルを特徴づけるのに役立ち、通常は非可積分系の文脈で研究される。 U(1)対称性と超対称性の存在下での相互作用する可積分および非可積分多体量子系におけるOTOCの緩和ダイナミクスを比較する。 それらの力学は類似した振る舞いを示し、その時間依存性は可積分性よりも対称性によって決定され、2点コリケータの力学に密接に従う。 数値計算を用いてOTOCs力学を研究し,エネルギー固有ベイシスにおけるOTOCs局所作用素の対角線および対角線外行列要素の性質から解析的な知見を得る。

Out-of-time ordered correlators (OTOCs) help characterize the scrambling of quantum information and are usually studied in the context of nonintegrable systems. We compare the relaxation dynamics of OTOCs in interacting integrable and nonintegrable many-body quantum systems in the presence of U(1) symmetry and supersymmetry. We show that their dynamics exhibit similar behaviors, with a time dependence that is mostly determined by the symmetry rather than integrability, and they follow closely the dynamics of two-point correlators. We study the OTOCs dynamics using numerical calculations, and gain analytical insights from the properties of the diagonal and of the off-diagonal matrix elements of the OTOCs local operators in the energy eigenbasis.
翻訳日:2023-01-18 07:18:21 公開日:2022-11-14
# エバネッセント波とカシミールパズルに対する金属の電磁応答の実験的研究

Experimentum crucis for electromagnetic response of metals to evanescent waves and the Casimir puzzle ( http://arxiv.org/abs/2211.07276v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya, V. M. Mostepanenko and V. B. Svetovoy(参考訳) リフシッツ理論を用いて計算されたカシミール力は、ドルーデモデルやプラズマモデルで記述された金属に対する2の因子によって異なることが知られている。 我々は、この差は横電気(s)エバネッセント波の寄与によって完全に決定されると主張する。 低周波エバネッセント波に対する金属の電磁応答に関する実験情報が欠けていることを考慮し、厚い金属板の上の真空中に存在する振動する磁気双極子の磁場を測定する実験を提案する。 以上の結果から, 横方向の成分は横方向の電気的エバネッセント波によって制御され, 計算に使用する板の誘電率と磁気双極子の発振周波数のモデルにより, 桁違いに変化する可能性が示唆された。 1mmコイルで設計された磁気双極子の典型的なパラメータの磁場の外側成分を測定することで、低周波エバネッセント波の範囲で金属の応答関数としてドルドモデルの適用性を検証または無効にすることができる。 このことは、ドルーデモデルを用いたリフシッツ理論の理論的予測が150nmを超える分離におけるカシミール力の高精度測定と矛盾しているという事実から、カシミールパズルの根を解明する。 エバネッセント波を扱う光学と凝縮物質物理学の幅広いトピックに対する提案実験の可能性について考察した。

It is well known that the Casimir force calculated at large separations using the Lifshitz theory differs by a factor of 2 for metals described by the Drude or plasma models. We argue that this difference is entirely determined by the contribution of transverse electric (s) evanescent waves. Taking into account that there is a lack of experimental information on the electromagnetic response of metals to low-frequency evanescent waves, we propose an experiment on measuring the magnetic field of an oscillating magnetic dipole spaced in vacuum above a thick metallic plate. According to our results, the lateral components of this field are governed by the transverse electric evanescent waves and may vary by orders of magnitude depending on the model describing the permittivity of the plates used in calculations and the oscillation frequency of the magnetic dipole. Measuring the lateral component of the magnetic field for typical parameters of the magnetic dipole designed in the form of 1-mm coil, one could either validate or disprove applicability of the Drude model as a response function of metal in the range of low-frequency evanescent waves. This will elucidate the roots of the Casimir puzzle lying in the fact that the theoretical predictions of the Lifshitz theory using the Drude model are in contradiction with the high-precision measurements of the Casimir force at separations exceeding 150 nm. Possible implications of the suggested experiment for a wide range of topics in optics and condensed matter physics dealing with evanescent waves are discussed.
翻訳日:2023-01-18 07:10:46 公開日:2022-11-14
# ナノダイヤモンドベースの緩和度測定のための最適化データ処理

Optimising data processing for nanodiamond based relaxometry ( http://arxiv.org/abs/2211.07269v1 )

ライセンス: Link先を確認
Thea A. Vedelaar (1), Thamir H. Hamoh (1), Felipe Perona Martinez (1), Mayeul Chipaux (2), Romana Schirhagl (1) ((1) Groningen University, University Medical Center Groningen, (2) Institute of Physics, \'Ecole Polytechnique F\'ed\'erale de Lausanne (EPFL))(参考訳) ダイヤモンド中の負電荷窒素空孔(NV)中心は、多様な量に対する強力で汎用的な量子センサーとして出現している。 特に、全光学ダイヤモンドベースの緩和計(T1)は、グリーンレーザーパルス列に送信されたNV中心の発光をモニターすることで、磁気ノイズとその起源を検出することができる。 ダイヤモンドナノ粒子に適用すると、ナノスケールの分解が可能となり、化学反応の代謝活性や診断マーカーのモニタリングに多くの応用が期待できる。 ナノダイアモンド中のNV中心の数を増やすことでより多くの信号を集めることができるが、そのようなNVアンサンブルの緩和実験から情報を抽出する標準的な方法がいまだに欠けている。 本稿では,ガドリニウムイオン濃度の異なる濃度で得られたT1緩和曲線を用いて,得られた生データから抽出したT1までのデータ処理フロー全体を校正し,最適化する。 特に、ブートストラップを用いて、ある方法と別の方法とを定量的に比較できる信号対雑音比を導出する。 まず、発光パルスからT1曲線を抽出する。 従来のように最適化された窓を通した信号の統合と、その上に既知の機能を持たせることを比較した。 崩壊するT1曲線を満たすと、関連するT1値が得られる。 ここでは、単体、双体、伸縮指数の3つの最もよく使われるフィットモデルを比較した。 最終的に、ブートストラップ自体が結果の精度や、タイムレゾリューションを可能にするローリングウインドウの使用に与えた影響を調査した。

The negatively charged nitrogen-vacancy (NV) center in diamond has emerged as a powerful and versatile quantum sensor for diverse quantities. In particular, all-optical diamond based relaxometry or T1, which consists of monitoring the NV centers' photoluminescence submitted to a train of green laser pulses, allows to detect magnetic noise and its origin. When applied on diamond nanoparticles, it allows nanoscale resolution and has many applications in biology, for monitoring chemical reactions metabolic activity or diagnostic markers. While increasing the number of NV centers in a nanodiamond allows to collect more signal, a standardized method to extract information from relaxometry experiments of such NV ensembles is still missing. In this article, we use a set of T1 relaxation curves acquired at different concentrations of gadolinium ions to calibrate and optimize the entire data processing flow, from the acquired raw data to the extracted T1. In particular, we use a bootstrap to derive a signal to noise ratio that can be quantitatively compared from one method to another. At first, T1 curves are extracted from photoluminescence pulses. We compare integrating their signal through an optimized window as performed conventionally, to fitting a known function on it. Fitting the decaying T1 curves allows to obtain the relevant T1 value. We compared here the three most commonly used fit models that are, single, bi, and stretched exponential. We finally investigated the effect of the bootstrap itself on the precision of the result as well as the use of a rolling window to allows time-resolution.
翻訳日:2023-01-18 07:10:24 公開日:2022-11-14
# モット/超流動相転移における強相関非平衡光子流体の集団励起

Collective excitations of a strongly-correlated non-equilibrium photon fluid across the Mott/superfluid phase transition ( http://arxiv.org/abs/2211.07246v1 )

ライセンス: Link先を確認
Fabio Caleffi, Massimo Capone, Iacopo Carusotto(参考訳) 非マルコフ非粘性ポンプにより駆動される強い相互作用を持つ光子流体の非平衡定常状態に対するグッツウィラー理論を考案する。 特に,超流動相の拡散性金岩モードと絶縁相の粒子/ホール励起を特徴付ける,平衡モット/超流動遷移における集団励起モードについて検討した。 システムのポンプ・プローブ光応答における観察可能な特徴を強調する。 我々の結果は、最先端のサーキットQEDデバイスに実験的にアクセス可能であり、新しい多体シナリオの量子シミュレーターとして、光の駆動散逸流体への道を開く。

We develop a Gutzwiller theory for the non-equilibrium steady states of a strongly-interacting photon fluid driven by a non-Markovian incoherent pump. In particular, we explore the collective excitation modes across the out-of-equilibrium Mott/superfluid transition, characterizing the diffusive Goldstone mode in the superfluid phase and the particle/hole excitations in the insulating one. Observable features in the pump-and-probe optical response of the system are highlighted. Our results appear as experimentally accessible to state-of-the-art circuit-QED devices and open the way for driven-dissipative fluids of light as quantum simulators of novel many-body scenarios.
翻訳日:2023-01-18 07:09:59 公開日:2022-11-14
# 散逸Bose-Josephson接合における相拡散とゆらぎ

Phase diffusion and fluctuations in a dissipative Bose-Josephson junction ( http://arxiv.org/abs/2211.07229v1 )

ライセンス: Link先を確認
Abhik Kumar Saha, Deb Shankar Ray, and Bimalendu Deb(参考訳) ボソニック熱浴に結合した1次元ボース・ジョゼフソン接合(bjj)の位相拡散,量子揺らぎ,スペクトル特性を解析した。 位相拡散係数のオンサイト相互作用パラメータ$U$および0相および$\pi$-phaseモードにおける温度依存性を示す。 我々は、$\pi$-phase モードでは、$u$ が臨界値以下である限り、$u$ の関数としての位相拡散の効率が低下し、臨界値を超えることが分かる。 このオンサイト相互作用の臨界性は、ジョセフソン振動とマクロ量子自己トッピング(MQST)状態の遷移を反映している。 熱カノニカルなウィグナー分布に基づいてコヒーレンス係数を計算し、ジョセフソン振動とMQST状態における温度およびオンサイト相互作用エネルギーへの依存性を解明する。 さらに, 相対位相のゆらぎと, 0および$\pi$-phaseモードと強い散逸状態の両モードにおける集団不均衡に関連して, コヒーレントかつ非コヒーレントなスペクトル特性について考察した。

We analyze the phase diffusion, quantum fluctuations and their spectral features of an one-dimensional Bose-Josephson junction (BJJ) coupled to a bosonic heat bath. We show the dependence of the phase diffusion coefficient on the on-site interaction parameter $U$ and the temperature in zero-phase and $\pi$-phase modes. We find that in the $\pi$-phase mode, the phase diffusion co-efficient as a function of $U$ decreases so long as $U$ is below a critical value while it increases above the critical value. This criticality of on-site interaction reflects a transition between Josephson oscillation and macroscopic quantum self-trapping (MQST) regime. Based on the thermal canonical Wigner distribution, we calculate the coherence factor to understand its dependence on temperature and on-site interaction energy in Josephson oscillation and MQST regime. Furthermore, we discuss coherent and incoherent spectral properties in connection with the fluctuations of the relative phase and the population imbalance in both zero and $\pi$-phase modes from weak to strong dissipation regime.
翻訳日:2023-01-18 07:09:47 公開日:2022-11-14
# 二重確率行列に基づく最適量子ビットルーティング

A doubly stochastic matrices-based approach to optimal qubit routing ( http://arxiv.org/abs/2211.07222v1 )

ライセンス: Link先を確認
Nicola Mariella, Sergiy Zhuk(参考訳) スワップマッピングは、SWAPゲートを導入することで論理量子回路を等価な物理実装可能なものにマッピングする量子コンパイラ最適化である。 回路の物理的実装性は、ハードウェア接続制約を満たすことによって決定される。 したがって、スワップゲートの配置は離散最適化プロセスとして解釈することができる。 本研究では、置換行列の凸結合として定義される二重確率行列(dubly stochastic matrix)という構造を用いる。 直感は意思決定プロセスを円滑にすることです。 二重確率行列はバーホフ多面体に含まれ、頂点は単一の置換行列を表す。 本質的に、このアルゴリズムは滑らかな制約付き最適化を使用して、頂点上のポテンシャル解に向かってポリトープの端に沿ってスライドする。 実験では,提案アルゴリズムは,計算時間を増やすことで,アートアルゴリズムのSABREの状態と比較して,大幅な深度低減を実現することができることを示した。

Swap mapping is a quantum compiler optimization that, by introducing SWAP gates, maps a logical quantum circuit to an equivalent physically implementable one. The physical implementability of a circuit is determined by the fulfillment of the hardware connectivity constraints. Therefore, the placement of the SWAP gates can be interpreted as a discrete optimization process. In this work, we employ a structure called doubly stochastic matrix, which is defined as a convex combination of permutation matrices. The intuition is that of making the decision process smooth. Doubly stochastic matrices are contained in the Birkhoff polytope, in which the vertices represent single permutation matrices. In essence, the algorithm uses smooth constrained optimization to slide along the edges of the polytope toward the potential solutions on the vertices. In the experiments, we show that the proposed algorithm, at the cost of additional computation time, can deliver significant depth reduction when compared to the state of the art algorithm SABRE.
翻訳日:2023-01-18 07:09:17 公開日:2022-11-14
# 2つの相互作用量子ビットを持つ可積分量子ラビ様モデルの量子相転移

Quantum phase transitions for an integrable quantum Rabi-like model with two interacting qubits ( http://arxiv.org/abs/2211.07207v1 )

ライセンス: Link先を確認
Roberto Grimaudo, Antonio S. M. de Castro, Antonino Messina, Enrique Solano, and Davide Valenti(参考訳) 量子ペア上の横場を消失する2つの相互作用量子ラビ様モデルについて検討した。 カップリングレジームとは独立に、このモデルは2つの独立なシングルスピン量子ラビモデルに正確に一元的に還元され、スピンスピンカップリングが横磁場の役割を担う。 この変換と単一スピン量子ラビモデルの解析処理は、我々のモデルの可積分性を証明する鍵となる。 不連続な2スピン磁化、平均光子数と共起によって特徴づけられる異なる一階量子相転移の存在が光にもたらされる。

A two-interacting-qubit quantum Rabi-like model with vanishing transverse fields on the qubit-pair is studied. Independently of the coupling regime, this model can be exactly and unitarily reduced to two independent single-spin quantum Rabi models, where the spin-spin coupling plays the role of the transverse field. This transformation and the analytical treatment of the single-spin quantum Rabi model provide the key to prove the integrability of our model. The existence of different first-order quantum phase transitions, characterized by discontinuous two-spin magnetization, mean photon number and concurrence, is brought to light.
翻訳日:2023-01-18 07:09:03 公開日:2022-11-14
# 線形光回路のアウトカム確率近似

Approximating outcome probabilities of linear optical circuits ( http://arxiv.org/abs/2211.07184v1 )

ライセンス: Link先を確認
Youngrong Lim and Changhun Oh(参考訳) 準確率表現は、量子状態や量子回路などの量子システムを解析するための重要なツールである。 本研究では,線形光回路の出力確率を$s$-parameterized quasiprobability分布を用いて近似する古典的アルゴリズムを提案する。 特に、線形光学変換のノルム保存特性により準確率分布の形状を変調することにより、特定の場合において回路の負性境界を指数関数から最大多項式に減らすことができる。 その結果、回路の古典性に応じて精度の高い結果確率を効率的に推定する。 驚くべきことに、古典性が十分高い場合、乗算誤差内で多項式時間推定アルゴリズムに到達する。 この結果から,様々な行列関数を近似する量子インスピレーションアルゴリズムが得られた。 さらに,ポリスパース条件下での任意の(疑似)結果確率に対する近似アルゴリズムを用いて,ガウスボソンサンプリングの古典的シミュラビリティについて十分な条件を与える。 我々の研究は線形光学のパワーに光を当て、計算複雑性の問題に多くの量子インスパイアされたアルゴリズムを提供する。

Quasiprobability representation is an important tool for analyzing a quantum system, such as a quantum state or a quantum circuit. In this work, we propose classical algorithms specialized for approximating outcome probabilities of a linear optical circuit using $s$-parameterized quasiprobability distributions. Notably, we can reduce the negativity bound of a circuit from exponential to at most polynomial for specific cases by modulating the shapes of quasiprobability distributions thanks to the norm-preserving property of a linear optical transformation. Consequently, our scheme renders an efficient estimation of outcome probabilities with precision depending on the classicality of the circuit. Surprisingly, when the classicality is high enough, we reach a polynomial-time estimation algorithm within a multiplicative error. Our results provide quantum-inspired algorithms for approximating various matrix functions beating best-known results. Moreover, we give sufficient conditions for the classical simulability of Gaussian boson sampling using the approximating algorithm for any (marginal) outcome probability under the poly-sparse condition. Our study sheds light on the power of linear optics, providing plenty of quantum-inspired algorithms for problems in computational complexity.
翻訳日:2023-01-18 07:08:45 公開日:2022-11-14
# 超伝導量子ビットからの音響放射:自発的放射からラビ振動へ

Acoustic radiation from a superconducting qubit: From spontaneous emission to Rabi oscillations ( http://arxiv.org/abs/2211.07475v1 )

ライセンス: Link先を確認
Vijay Jain, Vladislav D. Kurilovich, Yanni D. Dahmani, Chan U Lei, David Mason, Taekwan Yoon, Peter T. Rakich, Leonid I. Glazman, Robert J. Schoelkopf(参考訳) バルク誘電体への音響的自然放出は、特に圧電材料の存在下では量子デバイスにおいて強いデコヒーレンスの原因となる。 圧電膜による音響共振器に結合した量子ビットのダイナミクスについて検討する。 共振器の表面トポグラフィーを粗面から研磨面から形状に変化させることで、励起量子ビットの高速崩壊からクビットと孤立フォノンモードの間の量子コヒーレント結合へのクロスオーバーを探索する。 我々の実験手法は結晶振動の精密測定、量子メモリの設計、誘電体損失に対する電気機械的寄与の研究に利用できる。

Acoustic spontaneous emission into bulk dielectrics can be a strong source of decoherence in quantum devices, especially when a qubit is in the presence of piezoelectric materials. We study the dynamics of a qubit coupled to an acoustic resonator by a piezoelectric film. By varying the surface topography of the resonator from rough to polished to shaped, we explore the crossover from fast decay of an excited qubit to quantum-coherent coupling between the qubit and an isolated phonon mode. Our experimental approach may be used for precision measurements of crystalline vibrations, the design of quantum memories, and the study of electro-mechanical contributions to dielectric loss.
翻訳日:2023-01-18 07:01:57 公開日:2022-11-14
# 準相対論的アロフ電子とメゾスコピック試料の量子相互作用

Quantum interaction of sub-relativistic aloof electrons with mesoscopic samples ( http://arxiv.org/abs/2211.07448v1 )

ライセンス: Link先を確認
Alessandro Ciattoni(参考訳) 相対論的電子は、ナノメートルサイズのサンプルと相互作用する際に非常にわずかな波束の歪みと無視可能な運動量を持つ。 したがって、高速電子を古典的な点電荷としてモデル化することは、エネルギー損失スペクトルの極めて正確な理論的予測をもたらす。 そこで本研究では,数kevのナノサイズの電子ビームとミクロンサイズの試料との相互作用について検討する。 これらの効果に対処するために, 巨視的量子電磁力学を用いて, 反動を考慮した電子エネルギー損失確率の一般化式を解析的に導出する。 相互作用の量子的特徴は、相互作用長が増加し、または/または電子運動エネルギーが減少するにつれて劇的に強くなる。 さらに、エネルギー損失確率の相対的な大きな値は、移動点チャージによって生じる場のエバネッセントプロファイルによって古典的に禁止される顕著な量子効果である、より高いエネルギー損失とより大きな衝突パラメータに見出される。

Relativistic electrons experience very slight wave packet distortion and negligible momentum recoil when interacting with nanometer-sized samples, as a consequence of the ultra-short interaction time. Accordingly, modeling fast electrons as classical point-charges provides extremely accurate theoretical predictions of energy-loss spectra. Here we investigate the aloof interaction of nanometer-sized electron beams of few keV with micron-sized samples, a regime where the classical description generally fails due to significant wavefunction broadening and momentum recoil. To cope with these effects, we use macroscopic quantum electrodynamics to analytically derive a generalized expression for the electron energy loss probability which accounts for recoil. Quantum features of the interaction are shown to get dramatically strong as the interaction length is increased and/or the electron kinetic energy is decreased. Moreover, relatively large values of the energy loss probability are found at higher energy losses and larger impact parameters, a marked quantum effect which is classically forbidden by the evanescent profile of the field produced by a moving point-charge.
翻訳日:2023-01-18 07:01:44 公開日:2022-11-14
# 量子ハードウェア上での連続モニタリングによる部分および無限温度熱化の観測

Observation of partial and infinite-temperature thermalization induced by continuous monitoring on a quantum hardware ( http://arxiv.org/abs/2211.07444v1 )

ライセンス: Link先を確認
Alessandro Santini, Andrea Solfanelli, Stefano Gherardini and Guido Giachetti(参考訳) 量子超伝導プロセッサでは、連続した量子射影測定によって誘導される部分的および無限温度の熱化を、ユニタリ(ハミルトン)進化によって観測する。 具体的には、量子ビット系と2量子ビット系において、ハミルトニアンの非可換性と測定可観測性に応じて、多数の量子測定の限界内で監視された量子系の状態収束をテストする。 ほとんどの場合、ハミルトニアンと観測可能が可換でない場合、収束は無限温度状態に向かって一様である。 逆に、2つの作用素がスペクトル分解において1つ以上の固有ベクトルを持つとき、観測された系の状態は測定可能な固有状態によって広がる部分空間に異なる収束する。 その結果、この収束は、完全に混合された(無限温度)状態ではなく、観測可能な基底におけるブロック対角状態に、各測定部分空間に有限効用温度で依存することを示した。 最後に,量子チャネルを非分極化することにより,量子ハードウェアノイズが実験データに与える影響をモデル化することで定量化する。

On a quantum superconducting processor we experimentally observe partial and infinite-temperature thermalization induced by a sequence of repeated quantum projective measurements, interspersed by a unitary (Hamiltonian) evolution. Specifically, on a qubit and two-qubit systems, we test the state convergence of a monitored quantum system in the limit of a large number of quantum measurements, depending on the non-commutativity of the Hamiltonian and the measurement observable. In most cases, where the Hamiltonian and observable do not commute, the convergence is uniform towards the infinite-temperature state. Conversely, whenever the two operators have one or more eigenvectors in common in their spectral decomposition, the state of the monitored system converges differently in the subspaces spanned by the measurement observable eigenstates. As a result, we experimentally show that the convergence does not tend to a completely mixed (infinite-temperature) state, but to a block-diagonal state in the observable basis, with a finite effective temperature in each measurement subspace. Finally, we quantify the effects of the quantum hardware noise on the experimental data by modelling them by means of depolarizing quantum channels.
翻訳日:2023-01-18 07:01:25 公開日:2022-11-14
# 自律量子システムのエネルギー解析について

On the energetic analysis of autonomous quantum systems ( http://arxiv.org/abs/2211.07439v1 )

ライセンス: Link先を確認
Andr\'e Hernandes Alves Malavazi(参考訳) 本論文では,自律量子システムにおけるエネルギー解析に着目する。 そこで本研究では,相互作用するサブシステム間のエネルギー交換の動的記述のための新しい一般形式を提案する。 シュミット分解法から, エネルギー付加率の通常の熱力学的概念を満たす局所内部エネルギーを特徴づける代表的作用素として, 有効ハミルトニアンを同定した。 現在使われている手法とは対照的に、このような手順は足場が等しいサブシステムを扱い、例えば半古典的記述、弱い結合状態、厳密なエネルギー保存、マルコフ力学など、いかなる種類の近似や追加の仮説にも依存しない。 要するに、この提案は、通常の制限的欠点に悩まされない新しい形式主義を提供し、量子状態に対する他の一般的な熱力学量を定義するための新しい正確な経路を確立することで、QTの発展に寄与する。

In this thesis, we focus on the energetic analysis within autonomous quantum systems. To this aim, we propose a novel and general formalism for a dynamic description of the energy exchanges between interacting subsystems. From the Schmidt decomposition approach, we identify effective Hamiltonians as the representative operators for characterizing the local internal energies, whose expectation values satisfy the usual thermodynamic notion of energy additivity. In contrast to the currently used methodologies, such procedure treats the subsystems with equal footing and do not rely on any sort of approximations and additional hypotheses, e.g., semi-classical description, weak-coupling regime, strict energy conservation and Markovian dynamics. In short, our proposal contributes to the development of QT by providing a new formalism that does not suffer from the usual restrictive shortcomings and establishes a new and exact route for defining other general thermodynamic quantities to the quantum regime.
翻訳日:2023-01-18 07:01:05 公開日:2022-11-14
# 非平衡量子系における異常熱伝達

Anomalous Heat Transfer in Nonequilibrium Quantum Systems ( http://arxiv.org/abs/2211.07410v1 )

ライセンス: Link先を確認
Teng Ma, Jing-Ning Zhang, Yuan-Sheng Wang, Hong-Yi Xie, Man-Hong Yung(参考訳) 異常熱伝達(英: anomalous heat transfer、aht)とは、熱が冷却系から熱系へと自発的に流れる過程であり、熱力学の第2法則のクラウシウスの主張と表面的に矛盾する。 ここでは,非平衡量子系におけるahtの機構を量子情報の観点から完全に分類する。 局所平衡状態の初期状態の場合、AHTは初期相関、系内相互作用、系内温度不均一性の3つの資源から生じる。 特に、量子ビット系では、系間相互作用が2体型に限定されている場合、初期量子コヒーレンスがAHTに必要であることを示す。 AHTは3量子系において各機構に支配されることを示す。 提案手法は,高効率量子ヒートポンプ開発のためのガイドラインとなるかもしれない。

Anomalous heat transfer (AHT), a process by which heat spontaneously flows from a cold system into a hot one, superficially contradicts the Clausius statement of the second law of thermodynamics. Here we provide a full classification of mechanisms of the AHT in nonequilibrium quantum systems from a quantum-information perspective. For initial states in local equilibrium, we find that the AHT can arise from three resources: initial correlation, intrasystem interaction, and intrasystem temperature inhomogeneity. In particular, for qubit systems, we prove that initial quantum coherence is necessary for AHT if the intersystem interactions are limited to the two-body type. We explicitly show the AHT dominated by each of the mechanisms in a three-qubit system. Our classification scheme may offer a guideline for developing high-efficiency quantum heat pump.
翻訳日:2023-01-18 07:00:50 公開日:2022-11-14
# 量子カオスの制御:最適コヒーレントターゲット

Controlling Quantum Chaos: Optimal Coherent Targeting ( http://arxiv.org/abs/2211.07408v1 )

ライセンス: Link先を確認
Steven Tomsovic, Juan Diego Urbina, and Klaus Richter(参考訳) 古典的カオス力学系を制御する主な目的の1つはターゲティング (target) と呼ばれ、これはシステムが所定の目標状態に到達するために初期状態に極度に敏感に反応する非常に弱い摂動過程である。 カオス量子系への一般化は、半古典的状態において可能であるが、進化する量子状態の動的拡散を未然に行う必要があるように調整された摂動を必要とする。 本手法は,量子カオスパラダイムである量子蹴りロータにおける初期最小不確実性波パケットに適用し,その精度について検討する。 このメソッドのエラーは$\hbar \rightarrow 0$として消えるようにすることができる。

One of the principal goals of controlling classical chaotic dynamical systems is known as targeting, which is the very weakly perturbative process of using the system's extreme sensitivity to initial conditions in order to arrive at a predetermined target state. It is shown that a generalization to chaotic quantum systems is possible in the semiclassical regime, but requires tailored perturbations whose effects must undo the dynamical spreading of the evolving quantum state. The procedure described here is applied to initially minimum uncertainty wave packets in the quantum kicked rotor, a preeminent quantum chaotic paradigm, to illustrate the method, and investigate its accuracy. The method's error can be made to vanish as $\hbar \rightarrow 0$
翻訳日:2023-01-18 07:00:35 公開日:2022-11-14
# 回転インスパイアされた回路カット最適化

Rotation-inspired circuit cut optimization ( http://arxiv.org/abs/2211.07358v1 )

ライセンス: Link先を確認
Gideon Uchehara, Tor M. Aamodt, Olivia Di Matteo(参考訳) 近年の研究では、小さな量子コンピュータ上で独立に実行できる量子ビットの少ない量子回路の小さなクラスターに、大きな量子回路を切断し分解できることが示されている。 古典的な後処理は、各クラスタの結果を組み合わせて元の量子回路の出力を再構築する。 しかし、そのようなハイブリッド量子古典アルゴリズムのランタイムは回路上のカット数で指数関数的である。 そこで本研究では,回路切断の処理後オーバーヘッドを低減し,最適化問題を解くコストを低減した回路切断最適化(ricco)を提案する。 RICCOはカットされた場所でのユニタリ回転を導入して量子状態を回転させ、ある観測可能集合に対する期待値が最大化され、他は0に設定される。 本稿では、VQEの小さなインスタンスを古典的にシミュレートし、既存の回路切断手法と比較することにより、RCICCOのVQEへの適用を実証する。

Recent works have demonstrated that large quantum circuits can be cut and decomposed into smaller clusters of quantum circuits with fewer qubits that can be executed independently on a small quantum computer. Classical post-processing then combines the results from each cluster to reconstruct the output of the original quantum circuit. However, the runtime for such hybrid quantum-classical algorithms is exponential in the number of cuts on a circuit. We propose Rotation-Inspired Circuit Cut Optimization (RICCO), an alternative method which reduces the post-processing overhead of circuit cutting, at the cost of having to solve an optimization problem. RICCO introduces unitary rotations at cut locations to rotate the quantum state such that expectation values with respect to one set of observables are maximized and others are set to zero. We demonstrate practical application of RICCO to VQE by classically simulating a small instance of VQE and comparing it to one of the existing circuit-cutting methods.
翻訳日:2023-01-18 07:00:24 公開日:2022-11-14
# 閉じ込められたイオンによる円錐交差のシミュレーション

Simulating conical intersections with trapped ions ( http://arxiv.org/abs/2211.07319v1 )

ライセンス: Link先を確認
Jacob Whitlow, Zhubing Jia, Ye Wang, Chao Fang, Jungsang Kim and Kenneth R. Brown(参考訳) 円錐交叉は分子物理学や光化学において一般的であり、しばしば観察された反応生成物を説明するために呼び出される。 励起電子ポテンシャルエネルギー表面が核位置の座標空間において基底電子ポテンシャルエネルギー表面と交差するときに円錐交差が発生する。 理論は円錐交差が基底ポテンシャルエネルギー面上のウェーブパックの幾何学的位相をもたらすことを予測している。 円錐交差は実験的に観測されているが、幾何学的位相は分子系では観測されていない。 ここでは、閉じ込められた原子イオン系を用いて円錐交叉の量子シミュレーションを行う。 閉じ込められた原子イオンの内部状態は電子状態として機能し、原子核の運動はイオンの正常な運動モードに符号化される。 模擬電子ポテンシャルは、近共振レーザーを用いてイオンに状態依存力を適用することで構成される。 地表面の幾何学的位相を断熱的状態準備と運動状態測定を用いて実験的に観察した。 本実験は,量子シミュレータにおけるスピンと運動の自由度の組み合わせの利点を示す。

Conical intersections are common in molecular physics and photochemistry, and are often invoked to explain observed reaction products. A conical intersection can occur when an excited electronic potential energy surface intersects with the ground electronic potential energy surface in the coordinate space of the nuclear positions. Theory predicts that the conical intersection will result in a geometric phase for a wavepacket on the ground potential energy surface. Although conical intersections have been observed experimentally, the geometric phase has not been observed in a molecular system. Here we use a trapped atomic ion system to perform a quantum simulation of a conical intersection. The internal state of a trapped atomic ion serves as the electronic state and the motion of the atomic nuclei are encoded into the normal modes of motion of the ions. The simulated electronic potential is constructed by applying state-dependent forces to the ion with a near-resonant laser. We experimentally observe the geometric phase on the ground-state surface using adiabatic state preparation followed by motional state measurement. Our experiment shows the advantage of combining spin and motion degrees of freedom in a quantum simulator.
翻訳日:2023-01-18 06:59:48 公開日:2022-11-14
# 境界絡みのくさび断面積

Bounding entanglement wedge cross sections ( http://arxiv.org/abs/2211.07671v1 )

ライセンス: Link先を確認
Parul Jain, Niko Jokela, Matti Jarvinen, Subhash Mahapatra(参考訳) エンタングルメント・ウェッジ断面積(EWCS)は、多党系のエンタングルメントの特定の測定基準に対する双対重力プローブとして仮定される。 EWCSの様々な不等式を検証した。 結局のところ、予想に反して、EWCSは明らかに三部構造系に対して単ガム性でも多ガム性でもないが、結果は重力解の幾何学の細部と次元性に依存する。 二重絡み合い対策のためのより弱い一夫一婦制関係を提案し、EWCSの新たな下限を導いた。 私たちの研究は、純粋な反ド・ジッター空間、反ド・ジッター・ブラックブラン、dpブレーンのスタックによって引き起こされるもの、総体次元の葉巻幾何学といった、多くの重力背景に基づいている。

The entanglement wedge cross sections (EWCSs) are postulated as dual gravity probes to certain measures for the entanglement of multiparty systems. We test various proposed inequalities for EWCSs. As it turns out, contrary to expectations, the EWCS is not clearly monogamous nor polygamous for tripartite systems but the results depend on the details and dimensionality of the geometry of the gravity solutions. We propose weaker monogamy relations for dual entanglement measures, which lead to a new lower bound on EWCS. Our work is based on a plethora of gravity backgrounds: pure anti de Sitter spaces, anti de Sitter black branes, those induced by a stack of Dp-branes, and cigar geometries in generic dimension.
翻訳日:2023-01-18 06:54:33 公開日:2022-11-14
# SYK熱電場ダブルにおけるホログラフィー測定と量子テレポーテーション

Holographic measurement and quantum teleportation in the SYK thermofield double ( http://arxiv.org/abs/2211.07658v1 )

ライセンス: Link先を確認
Stefano Antonini, Brianna Grado-White, Shao-Kai Jian, Brian Swingle(参考訳) ホログラフィによれば、エンタングルメントは時空の構成要素であり、エンタングルメントの劇的な変化は双対時空における興味深い遷移をもたらす。 本稿では,ジャッキー・タイテルボイム(JT)重力下での永遠ブラックホールに双対する,SYKモデルの熱場二重状態に対する射影測定の効果について検討する。 1コピー中のフェルミオンの部分集合の射影的測定により、sykモデルの2つのコピー間の相互情報(renyi-2)を計算する。 本稿では,測定による絡み合いの変化を考慮し,フォン・ノイマンエントロピーにおける絡み合いくさみ相転移を観測可能な双対jt重力モデルを提案する。 計測されたマヨラナフェルミオンの数が増加するにつれて、測定されていない側縁の絡み合いは地平線の外の領域から2面幾何学の時間反転不変スライス全体を含むように変化する。 したがって、移行後、測定されたサブシステムに格納されたバルク情報は、SYKモデルの1つのコピーで投影されると完全に失われるのではなく、他のコピーにテレポートされる。 さらに,伝送解釈の解明のための復号化プロトコルを提案し,その解析をワームホールの物理に結びつける。

According to holography, entanglement is the building block of spacetime; therefore, drastic changes of entanglement will lead to interesting transitions in the dual spacetime. In this paper, we study the effect of projective measurements on the Sachdev-Ye-Kitaev (SYK) model's thermofield double state, dual to an eternal black hole in Jackiw-Teitelboim (JT) gravity. We calculate the (Renyi-2) mutual information between the two copies of the SYK model upon projective measurement of a subset of fermions in one copy. We propose a dual JT gravity model that can account for the change of entanglement due to measurement, and observe an entanglement wedge phase transition in the von Neumann entropy. The entanglement wedge for the unmeasured side changes from the region outside the horizon to include the entire time reversal invariant slice of the two-sided geometry as the number of measured Majorana fermions increases. Therefore, after the transition, the bulk information stored in the measured subsystem is not entirely lost upon projection in one copy of the SYK model, but rather teleported to the other copy. We further propose a decoding protocol to elucidate the teleportation interpretation, and connect our analysis to the physics of traversable wormholes.
翻訳日:2023-01-18 06:54:17 公開日:2022-11-14
# 遅延および進行グリーン関数によって満足される数学的物理方程式

The mathematical physical equations satisfied by retarded and advanced Green's functions ( http://arxiv.org/abs/2211.07646v1 )

ライセンス: Link先を確認
Huai-Yu Wang(参考訳) 数学物理学において、時間依存グリーン函数(英: time-dependent green's function、gfs)は、第一および第二の時間微分の微分方程式の解である。 周期的に、時間依存GFは周波数空間にフーリエ変換される。 そして、周波数の解析継続を実軸以下またはその上まで拡張する。 逆フーリエ変換の後、リタードおよび高度なGFを得ることができ、そのような解析的連続性には任意性があるかもしれない。 本研究では,遅延および進行gfを厳密に解く微分方程式を定式化する。 鍵となる点は、時間ステップ関数の微分がディラックデルタ関数と無限に小さな量であり、後者は時間遅延や時間進行の意味を具現化しているため無視できないということである。 本論文で定義されている遅延および進行gfは、多体理論における生成および破壊演算子の助けを借りて定義された一体gfと同一である。 数学的物理学において因果GFを定義する方法はなく、その理由が与えられる。 この研究は初期条件を微分方程式に当てはめることで、なぜ時間内に可逆な動きが存在するのかという問題を解決する方法を生み出している。

In mathematical physics, time-dependent Green's functions (GFs) are the solutions of differential equations of the first and second time derivatives. Habitually, the time-dependent GFs are Fourier transformed into the frequency space. Then, analytical continuation of the frequency is extended to below or above the real axis. After inverse Fourier transformation, retarded and advanced GFs can be obtained, and there may be arbitrariness in such analytical continuation. In the present work, we establish the differential equations from which the retarded and advanced GFs are rigorously solved. The key point is that the derivative of the time step function is the Dirac delta function plus an infinitely small quantity, where the latter is not negligible because it embodies the meaning of time delay or time advance. The retarded and advanced GFs defined in this paper are the same as the one-body GFs defined with the help of the creation and destruction operators in many-body theory. There is no way to define the causal GF in mathematical physics, and the reason is given. This work puts the initial conditions into differential equations, thereby paving a way for solving the problem of why there are motions that are irreversible in time.
翻訳日:2023-01-18 06:53:33 公開日:2022-11-14
# 実用的な量子アドバンテージへのスケール要件の評価

Assessing requirements to scale to practical quantum advantage ( http://arxiv.org/abs/2211.07629v1 )

ライセンス: Link先を確認
Michael E. Beverland, Prakash Murali, Matthias Troyer, Krysta M. Svore, Torsten Hoefler, Vadym Kliuchnikov, Guang Hao Low, Mathias Soeken, Aarthi Sundaram, and Alexander Vaschillo(参考訳) 量子コンピュータは、古典機械にとって難解と思われる科学的かつ商業的に価値のある問題を解くことを約束するが、この約束を果たすには大規模な量子機械が必要である。 量子システムの完全な実現に先立って、特定のアプリケーションに対するスケールド量子スタックのアーキテクチャ設計選択の影響を理解することは、重要なオープンチャレンジである。 そこで我々は,スタックの層を抽象化した量子資源推定フレームワークを開発し,これらの層にまたがる大規模量子アプリケーションに必要なリソースを推定する。 このフレームワークを実装したツールを使って、3つのスケールした量子アプリケーションを評価し、実用的な量子優位性を達成するために数十万から数百万の物理キュービットが必要であることを見出します。 これらのアプリケーションを実用的なものにするには, サイズ, 速度, 制御性という3つの量子ビットパラメータが不可欠である。 我々の研究の目標は、アルゴリズムから量子ビットまで、幅広いコミュニティがスタック全体の設計選択を探索できるようにすることで、実用的な量子優位性に向けた進歩を加速することである。

While quantum computers promise to solve some scientifically and commercially valuable problems thought intractable for classical machines, delivering on this promise will require a large-scale quantum machine. Understanding the impact of architecture design choices for a scaled quantum stack for specific applications, prior to full realization of the quantum system, is an important open challenge. To this end, we develop a framework for quantum resource estimation, abstracting the layers of the stack, to estimate resources required across these layers for large-scale quantum applications. Using a tool that implements this framework, we assess three scaled quantum applications and find that hundreds of thousands to millions of physical qubits are needed to achieve practical quantum advantage. We identify three qubit parameters, namely size, speed, and controllability, that are critical at scale to rendering these applications practical. A goal of our work is to accelerate progress towards practical quantum advantage by enabling the broader community to explore design choices across the stack, from algorithms to qubits.
翻訳日:2023-01-18 06:53:15 公開日:2022-11-14
# 宇宙デコヒーレンス : 原始パワースペクトルと非ガウス性

Cosmic decoherence: primordial power spectra and non-Gaussianities ( http://arxiv.org/abs/2211.07598v1 )

ライセンス: Link先を確認
Aoumeur Daddi Hammou, Nicola Bartolo(参考訳) 量子デコヒーレンスがインフレーション宇宙論的摂動に与える影響について検討する。 このプロセスは、インフレーションのメカニズムの量子的性質が、インフレーションの変動の量子-古典的遷移の長年の問題と関連していることを示す特定の観察的なサインを印字するかもしれない。 いくつかの研究は、原始変動の統計的性質に対する量子デコヒーレンスの影響を調査している。 特に、宇宙デコヒーレンスが標準のスローロールインフレーションによって予測される曲率パワースペクトルの補正につながることが示されている。 同様に、非ゼロ曲率トリスペクトラムは宇宙デコヒーレンスによって純粋に誘導されることが示されているが、驚くべきことにデコヒーレンスはバイスペクトルを発生しないようである。 さらに, ポインターオブザーバブルの一般化形式を採用し, 非消滅曲率双スペクトルをデコヒーレンスが引き起こすことを示し, 具体的な具体的な物理プロセスを提供することにより, 解析をさらに発展させる。 原始双スペクトルに関する現在の制約は、環境-システム相互作用の強さに上限を置くことができる。 完全な一般性において、デコヒーレンス誘起双スペクトルはスケール依存であり、スケール独立となるパワースペクトルに対応する補正を課す。 このような宇宙スケールへのスケール依存は、インフレーション中に起こる量子デコヒーレンス過程の顕著なインプリントを表しているかもしれない。 また,宇宙デコヒーレンスが環境の種類とは無関係にスケール独立な補正を誘導する過程を理解するための基準を提供する。 最後に,宇宙デコヒーレンスがテンソル摂動に及ぼす影響を考察し,デコヒーレンス補正したテンソル-スカラー摂動比を導出する。 特定の場合、デコヒーレンスは標準テンソルパワースペクトルに青い傾いた補正を誘導する。

We study the effect of quantum decoherence on the inflationary cosmological perturbations. This process might imprint specific observational signatures revealing the quantum nature of the inflationary mechanism being related to the longstanding issue of the quantum-to-classical transition of inflationary fluctuations. Several works have investigated the effect of quantum decoherence on the statistical properties of primordial fluctuations. In particular, it has been shown that cosmic decoherence leads to corrections to the curvature power spectrum predicted by standard slow-roll inflation. Equally interesting, a non zero curvature trispectrum has been shown to be purely induced by cosmic decoherence, but surprisingly, decoherence seems not to generate any bispectrum. We further develop such an analysis by adopting a generalized form of the pointer observable, showing that decoherence does induce a non vanishing curvature bispectrum and providing a specific underlying concrete physical process. Present constraints on primordial bispectra allow to put an upper bound on the strength of the environment-system interaction. In full generality, the decoherence-induced bispectrum can be scale dependent provided one imposes the corresponding correction to the power spectrum to be scale independent. Such scale dependence on the largest cosmological scales might represent a distinctive imprint of the quantum decoherence process taking place during inflation. We also provide a criterion that allows to understand when cosmic decoherence induces scale independent corrections, independently of the type of environment considered. As a final result, we study the effect of cosmic decoherence on tensor perturbations and we derive the decoherence corrected tensor-to-scalar perturbation ratio. In specific cases, decoherence induces a blue tilted correction to the standard tensor power spectrum.
翻訳日:2023-01-18 06:52:44 公開日:2022-11-14
# 連続変数量子システムのための古典影トモグラフィ

Classical shadow tomography for continuous variables quantum systems ( http://arxiv.org/abs/2211.07578v1 )

ライセンス: Link先を確認
Simon Becker, Nilanjana Datta, Ludovico Lami, Cambyse Rouz\'e(参考訳) 本稿では,量子光学において幅広い応用が可能な連続変数(CV)シャドウトモグラフィー法を提案する。 我々の研究は、量子情報、量子通信、量子センシング、量子シミュレーション、量子コンピューティング、エラー訂正におけるCVシステムの実験的および技術的関連性の向上によるものである。 ランダム化されたガウスユニタリのみを用いてCV(おそらく非ガウス的)量子状態の古典的影を得るための実験的に実現可能な2つのスキームを導入する。 どちらのスキームに対しても、$n=\mathcal{o}\big(\operatorname{poly}\big(\frac{1}{\epsilon},\log\big(\frac{1}{\delta}\big),m_n^{r+\alpha},\log(m)\big)\big)$ 未知の$m$モード状態のサンプル $\rho$ suffice は、次数 $\alpha$ の標準可観測式における任意の$r$-ローカル多項式の期待値を学ぶために、$m_n$ で与えられる。 エネルギーと位相空間における状態と作用素を同時に切り離すことで、CV系の無限次元性に起因する新しい数学的課題を克服することができる。 また, 近年のエネルギー制約付きエントロピー連続性境界を利用して, 少数のモード上のエントロピーなど, 状態の非線形汎関数を学習する手法を提案する。 最後に、多体系の二次ハミルトニアンの基底状態や猫量子ビット状態を含む、量子情報理論におけるcv状態の妥当性の場合に、プロトコルの効率性に関する数値的証拠を提供する。 我々は,2次元材料とフォトニック結晶の関連状態の学習において良好な回復を期待する。

In this article we develop a continuous variable (CV) shadow tomography scheme with wide ranging applications in quantum optics. Our work is motivated by the increasing experimental and technological relevance of CV systems in quantum information, quantum communication, quantum sensing, quantum simulations, quantum computing and error correction. We introduce two experimentally realisable schemes for obtaining classical shadows of CV (possibly non-Gaussian) quantum states using only randomised Gaussian unitaries and easily implementable Gaussian measurements such as homodyne and heterodyne detection. For both schemes, we show that $N=\mathcal{O}\big(\operatorname{poly}\big(\frac{1}{\epsilon},\log\big(\frac{1}{\delta}\big),M_n^{r+\alpha},\log(m)\big)\big)$ samples of an unknown $m$-mode state $\rho$ suffice to learn the expected value of any $r$-local polynomial in the canonical observables of degree $\alpha$, both with high probability $1-\delta$ and accuracy $\epsilon$, as long as the state $\rho$ has moments of order $n>\alpha$ bounded by $M_n$. By simultaneously truncating states and operators in energy and phase space, we are able to overcome new mathematical challenges that arise due to the infinite-dimensionality of CV systems. We also provide a scheme to learn nonlinear functionals of the state, such as entropies over any small number of modes, by leveraging recent energy-constrained entropic continuity bounds. Finally, we provide numerical evidence of the efficiency of our protocols in the case of CV states of relevance in quantum information theory, including ground states of quadratic Hamiltonians of many-body systems and cat qubit states. We expect our scheme to provide good recovery in learning relevant states of 2D materials and photonic crystals.
翻訳日:2023-01-18 06:52:00 公開日:2022-11-14
# 開システムの量子ジャンプ作用素の安定性

Stability property for the quantum jump operators of an open system ( http://arxiv.org/abs/2211.07527v1 )

ライセンス: Link先を確認
Marius Junge, Peixue Wu(参考訳) 有限次元条件下でのリンドブラッド発生器の跳躍作用素の観点から、スペクトルギャップと完全対数定数の連続性を示す。 本手法は導出空間の双加群構造と[Paulsen09]で開発された手法に基づく。 同じトリックを用いて、量子光学における量子光と古典光を区別するために使われる$g^2(0)$定数の連続性を示す。

We show the continuity property of spectral gaps and complete Logarithmic constants in terms of the jump operators of Lindblad generators in finite dimensional setting. Our method is based on the bimodule structure of the derivation space and the technique developed in [Paulsen09]. Using the same trick, we also show the continuity of the $g^2(0)$ constant used to distinguish quantum and classical lights in quantum optics.
翻訳日:2023-01-18 06:50:21 公開日:2022-11-14
# 非線形輸送による二次元ジョセフソン接合アレイの絶縁相

Insulating Phase in Two-dimensional Josephson-Junction Arrays Investigated by Nonlinear Transport ( http://arxiv.org/abs/2211.12435v1 )

ライセンス: Link先を確認
Hiroki Ikegami and Yasunobu Nakamura(参考訳) 本稿では、ジョセフソンエネルギー$E_\mathrm{J}$と充電エネルギー$E_\mathrm{C}$の比を体系的に変化させることにより、2次元ジョセフソン接合アレイ(JJA)の絶縁相における輸送特性の実験的検討を行う。 抵抗の温度依存性は、jjasは鋭い相転移を示しず、絶縁相への段階的な交差を示すことを示している。 低温では、電流電圧(I$-$V$)特性は、温度依存係数である$I=cV+bV^a$(a$, $b$, $c$)によって説明されるように非線形となる。 この非線形挙動は、クーパー対の対数相互作用の有限範囲切断の影響を考慮し、ベレジンスキー-コステリッツ-トゥーレス機構(BKT)によって理解される。 非線形性の解析から、断熱相への交差温度を導出し、絶縁側の位相図を$E_\mathrm{J} /E_\mathrm{C}$の関数として決定する。 また,超低温では,コヒーレント単一コアペアトンネルによる負の微分コンダクタンスに$I$-$V$特性が連続的に発達することを示した。

We present experimental investigations of transport properties in the insulating phase of two-dimensional Josephson-junction arrays (JJAs) by systematically changing the ratio of Josephson energy $E_\mathrm{J}$ and charging energy $E_\mathrm{C}$. The observed temperature dependence of resistance indicates that the JJAs do not show a sharp phase transition but exhibit a gradual crossover to the insulating phase. At low temperatures, the current-voltage ($I$-$V$) characteristics become nonlinear as described by $I=cV+bV^a$ ($a$, $b$, and $c$ are temperature dependent coefficients). This nonlinear behavior is understood in terms of the Berezinskii-Kosterlitz-Thouless (BKT) mechanism by taking into account the influence of a finite-range cutoff of the logarithmic interaction between Cooper pairs. From the analysis of the nonlinearity, we deduce the crossover temperature to the insulating phase and determine the phase diagram in the insulating side as a function of $E_\mathrm{J} /E_\mathrm{C}$. We also show that, at very low temperatures, the $I$-$V$ characteristics continuously develop into the negative differential conductance caused by coherent single-Cooper-pair tunneling.
翻訳日:2023-01-18 06:44:00 公開日:2022-11-14
# 非エルミタン系における動的縮退と方向視認性

Dynamical Degeneracy Splitting and Directional Invisibility in Non-Hermitian Systems ( http://arxiv.org/abs/2211.07783v1 )

ライセンス: Link先を確認
Kai Zhang, Chen Fang, Zhesen Yang(参考訳) 本稿では,非エルミート系の異方性崩壊挙動を特徴付けるために,動的縮退分割という概念を提案する。 系統が動的縮退した場合には,その系統が発現することを示す。 (i)バルクに異常な散乱と (ii) 一般幾何学の開境界条件下での非エルミート皮膚効果。 そこで本研究では, 波束力学の観点からの方向可視性を提案し, 形状依存性の皮膚効果を高次元で探究する。 我々の研究は、実験で非エルミート皮膚効果を検出するための実現可能な方法を提供する。

In this paper, we propose the concept called dynamical degeneracy splitting to characterize the anisotropic decay behaviors in non-Hermitian systems. We show that when the system has dynamical degeneracy splitting, it will exhibit (i) anomalous scattering in the bulk and (ii) the non-Hermitian skin effect under the open boundary condition of a generic geometry. As an application, we propose directional invisibility in terms of wave packet dynamics to probe the geometry-dependent skin effect in higher dimensions. Our work provides a feasible way to detect the non-Hermitian skin effect in experiments.
翻訳日:2023-01-18 06:43:12 公開日:2022-11-14
# ディープニューラルネットワークを用いたフラストレーションマグネットの高精度変動モンテカルロ

High-accuracy variational Monte Carlo for frustrated magnets with deep neural networks ( http://arxiv.org/abs/2211.07749v1 )

ライセンス: Link先を確認
Christopher Roth, Attila Szab\'o and Allan MacDonald(参考訳) 非常に深い(4--16層型)ニューラルネットワークに基づく神経量子状態は、量子スピン液体候補を含む高フラストレーション量子マグネットにおける最先端の変動的アプローチより優れていることを示す。 我々はグループ畳み込みニューラルネットワーク(GCNN)に焦点をあてて、宇宙グループ対称性を我々のAns\atzeに課すことができる。 正方形および三角形格子上のj_1-j_2$ハイゼンベルク模型の秩序相とスピン液相の両方における最先端の基底状態エネルギーを実現し、非自明な対称性セクタで低次励起状態にアクセスする方法について議論する。 また、三角格子上の量子常磁性相のスピンとディマー相関関数を計算し、従来の順序付けや原子価結合順序付けは示さない。

We show that neural quantum states based on very deep (4--16-layered) neural networks can outperform state-of-the-art variational approaches on highly frustrated quantum magnets, including quantum-spin-liquid candidates. We focus on group convolutional neural networks (GCNNs) that allow us to impose space-group symmetries on our ans\"atze. We achieve state-of-the-art ground-state energies for the $J_1-J_2$ Heisenberg models on the square and triangular lattices, in both ordered and spin-liquid phases, and discuss ways to access low-lying excited states in nontrivial symmetry sectors. We also compute spin and dimer correlation functions for the quantum paramagnetic phase on the triangular lattice, which do not indicate either conventional or valence-bond ordering.
翻訳日:2023-01-18 06:43:03 公開日:2022-11-14
# 連続弱測定による時間依存性ハミルトン再構成

Time-Dependent Hamiltonian Reconstruction using Continuous Weak Measurements ( http://arxiv.org/abs/2211.07718v1 )

ライセンス: Link先を確認
Karthik Siva, Gerwin Koolstra, John Steinmetz, William P. Livingston, Debmalya Das, Larry Chen, John Mark Kreikebaum, Noah Stevenson, Christian J\"unger, David I. Santiago, Irfan Siddiqi, Andrew N. Jordan(参考訳) 量子システムのハミルトニアンを再構成することは、量子プロセッサとシミュレータを特徴づけ、認定するための重要なタスクである。 既存の手法は、コヒーレント時間進化の前と後のシステムの射影的測定に依存しており、トモグラフィーのための完全な時間依存ハミルトニアンや割り込み進化を明示的に再構築しない。 本研究では,2つの超伝導トランスモンを束縛型カプラで結合した系において,コヒーレントな時間発展を伴う連続的弱測定から,事前未知の時間依存ハミルトニアンを再構成できることを実験的に証明する。 従来の研究とは対照的に、この手法は中断を必要とせず、ハミルトニアンを歪ませる。 連続測定の不完全集合からハミルトン行列と密度行列を復元するアルゴリズムを導入し、様々な単一量子ビットの振幅を確実に抽出し、2つの量子ビットハミルトニアンを絡み合わせることを実証する。 さらに,本手法が従来の手法では見落としていた理論制御ハミルトニアンからの偏差を明らかにする。 我々の研究は、ゲート内の非理想性の研究、アナログ量子シミュレータの証明、量子メトロロジーの実行など、連続的弱測定のための新しい応用を開拓する。

Reconstructing the Hamiltonian of a quantum system is an essential task for characterizing and certifying quantum processors and simulators. Existing techniques either rely on projective measurements of the system before and after coherent time evolution and do not explicitly reconstruct the full time-dependent Hamiltonian or interrupt evolution for tomography. Here, we experimentally demonstrate that an a priori unknown, time-dependent Hamiltonian can be reconstructed from continuous weak measurements concurrent with coherent time evolution in a system of two superconducting transmons coupled by a flux-tunable coupler. In contrast to previous work, our technique does not require interruptions, which would distort the recovered Hamiltonian. We introduce an algorithm which recovers the Hamiltonian and density matrix from an incomplete set of continuous measurements and demonstrate that it reliably extracts amplitudes of a variety of single qubit and entangling two qubit Hamiltonians. We further demonstrate how this technique reveals deviations from a theoretical control Hamiltonian which would otherwise be missed by conventional techniques. Our work opens up novel applications for continuous weak measurements, such as studying non-idealities in gates, certifying analog quantum simulators, and performing quantum metrology.
翻訳日:2023-01-18 06:42:43 公開日:2022-11-14
# リアルタイムフィードバック制御による臨界量子計測

Critical quantum metrology assisted by real-time feedback control ( http://arxiv.org/abs/2211.07688v1 )

ライセンス: Link先を確認
Raffaele Salvia, Mohammad Mehboudi, and Mart\'i Perarnau-Llobet(参考訳) 量子臨界点に近い多体系におけるパラメータの推定である臨界量子メトロロジーをベイズ推論理論のレンズを通して研究する。 まず、適応的でない測定戦略は、事前の知識が限られるたびに、十分に多くの粒子に対して量子臨界増強(すなわちショットノイズ限界を超える精度)を利用することができない、というノーゴーの結果を導出する。 そして,このno-goの結果を克服する様々な適応戦略を検討し,その性能を推定で示す。 (i) 1次元スピンイジング鎖のプローブと磁場 (ii)bose-hubbard正方格子の結合強度。 その結果, 実時間フィードバック制御による適応戦略は, 少数の測定値とかなりの事前不確かさを伴っても, サブショットノイズスケーリングを実現することができた。

We investigate critical quantum metrology,that is the estimation of parameters in many-body systems close to a quantum critical point, through the lens of Bayesian inference theory. We first derive a no-go result stating that any non-adaptive measurement strategy will fail to exploit quantum critical enhancement (i.e. precision beyond the shot-noise limit) for a sufficiently large number of particles $N$ whenever our prior knowledge is limited. We then consider different adaptive strategies that can overcome this no-go result, and illustrate their performance in the estimation of (i) a magnetic field using a probe of 1D spin Ising chain and (ii) the coupling strength in a Bose-Hubbard square lattice. Our results show that adaptive strategies with real-time feedback control can achieve sub-shot noise scaling even with few measurements and substantial prior uncertainty.
翻訳日:2023-01-18 06:42:21 公開日:2022-11-14
# 3相集合ニュートリノ振動における絡み合い

Entanglement in three-flavor collective neutrino oscillations ( http://arxiv.org/abs/2211.07678v1 )

ライセンス: Link先を確認
Pooja Siwach, Anna M. Suliga and A. Baha Balantekin(参考訳) 核融合超新星の内部に存在する極端な条件により、ニュートリノとニュートリノの相互作用は特定の領域において実現可能であるだけでなく支配的となり、ニュートリノのフレーバーの非線形進化に繋がる。 このような集合ニュートリノ振動を平均場近似で処理すると、量子相関が無視されるため、多体画像を用いて結果から逸脱する。 ニュートリノ群発振の最初の3つのフレーバー多体計算について述べる。 絡み合いは、絡み合いエントロピーおよび偏光ベクトルの成分の観点から定量化される。 本稿では,フレーバーレプトン数保存量の観点から,絡み合いの質的尺度を提案する。 本研究で検討した場合, 絡み合いは2つのフレーバー近似で過小評価できることがわかった。 また, エンタングルメントの質量秩序依存性についても検討した。 また、異なる質量秩序における質量固有状態の混合についても検討する。

Extreme conditions present in the interiors of the core-collapse supernovae make neutrino-neutrino interactions not only feasible but dominant in specific regions, leading to the non-linear evolution of the neutrino flavor. Results obtained when such collective neutrino oscillations are treated in the mean-field approximation deviate from the results using the many-body picture because of the ignored quantum correlations. We present the first three flavor many-body calculations of the collective neutrino oscillations. The entanglement is quantified in terms of the entanglement entropy and the components of the polarization vector. We propose a qualitative measure of entanglement in terms of flavor-lepton number conserved quantities. We find that in the cases considered in the present work, the entanglement can be underestimated in two flavor approximation. The dependence of the entanglement on mass ordering is also investigated. We also explore the mixing of mass eigenstates in different mass orderings.
翻訳日:2023-01-18 06:41:31 公開日:2022-11-14
# ソーシャルメディアプラットフォーム上での希望音声検出

Hope Speech Detection on Social Media Platforms ( http://arxiv.org/abs/2212.07424v1 )

ライセンス: Link先を確認
Pranjal Aggarwal, Pasupuleti Chandana, Jagrut Nemade, Shubham Sharma, Sunil Saumya, Shankar Biradar(参考訳) パーソナルコンピュータが消費者市場で広く普及したため、インターネット上の有害コンテンツの量は大幅に増加した。 簡単に言えば、有害なコンテンツはネット上のあらゆるものであり、人の苦痛や危害を引き起こす。 ヘイトスピーチ、暴力的なコンテンツ、脅威、ノンホップスピーチなどが含まれる。 オンラインコンテンツは肯定的、高揚的、支持的でなければならない。 過去数年間、多くの研究はヘイトスピーチの検出を通してこの問題に焦点を合わせてきたが、ホープスピーチを特定することに焦点を絞った研究はほとんどない。 本稿では,文章をホープ音声,ノンホップ音声,ニュートラル文と識別するための機械学習手法について述べる。 この研究で使用されたデータセットには、英語のYouTubeコメントが含まれており、共有タスク「EACL-2021: Hope Speech Detection for Equality, Diversity, and Inclusion」の一部としてリリースされている。 当初、共有タスクから得られたデータセットは3つのクラス(hope speech、non-hope speech、not in english)を持っていたが、より深い検査の結果、データセットのrelabelingが必要であることが判明した。 大学生のグループが、データセット全体のrelabelingタスクを実行するために雇われました。 我々は,従来の機械学習モデル(Na\"ive Bayes,ロジスティック回帰,サポートベクタマシンなど)と,ラベル付きデータに対する事前学習モデル(BERTなど)を実験した。 実験結果によると、relabeledデータは、元のデータセットよりもホープ音声識別の精度が向上した。

Since personal computers became widely available in the consumer market, the amount of harmful content on the internet has significantly expanded. In simple terms, harmful content is anything online which causes a person distress or harm. It may include hate speech, violent content, threats, non-hope speech, etc. The online content must be positive, uplifting and supportive. Over the past few years, many studies have focused on solving this problem through hate speech detection, but very few focused on identifying hope speech. This paper discusses various machine learning approaches to identify a sentence as Hope Speech, Non-Hope Speech, or a Neutral sentence. The dataset used in the study contains English YouTube comments and is released as a part of the shared task "EACL-2021: Hope Speech Detection for Equality, Diversity, and Inclusion". Initially, the dataset obtained from the shared task had three classes: Hope Speech, non-Hope speech, and not in English; however, upon deeper inspection, we discovered that dataset relabeling is required. A group of undergraduates was hired to help perform the entire dataset's relabeling task. We experimented with conventional machine learning models (such as Na\"ive Bayes, logistic regression and support vector machine) and pre-trained models (such as BERT) on relabeled data. According to the experimental results, the relabeled data has achieved a better accuracy for Hope speech identification than the original data set.
翻訳日:2022-12-18 19:03:18 公開日:2022-11-14
# EHRデータに基づく大規模言語モデルの学習を改善する意味分解

Semantic Decomposition Improves Learning of Large Language Models on EHR Data ( http://arxiv.org/abs/2212.06040v1 )

ライセンス: Link先を確認
David A. Bloore, Romane Gauriau, Anna L. Decker, Jacob Oppenheim(参考訳) 電子健康記録(EHR)は、大きなノイズの背景の中で不規則で半構造化された形式で暗号化された、行動可能な洞察の拡散を広く信じられている。 健康と病気の学習パターンを単純化するために、EHRの医療コードは階層グラフで連結された意味単位に分解することができる。 トランスフォーマー (bert) とグラフアテンションネットワーク (gat) の双方向エンコーダ表現とのより早い相乗効果に基づいて, 葉のみを取り込み, 患者レベルのラベルを各訪問にプッシュするのではなく, 階層的医用コードのグラフツリー展開を包含するh-bertを提案する。 本手法は,aucおよびapsの集計により,500以上の医療診断クラスにおける患者メンバーシップの予測を著しく改善し,近縁であるが臨床的に異なる表現型を示す。

Electronic health records (EHR) are widely believed to hold a profusion of actionable insights, encrypted in an irregular, semi-structured format, amidst a loud noise background. To simplify learning patterns of health and disease, medical codes in EHR can be decomposed into semantic units connected by hierarchical graphs. Building on earlier synergy between Bidirectional Encoder Representations from Transformers (BERT) and Graph Attention Networks (GAT), we present H-BERT, which ingests complete graph tree expansions of hierarchical medical codes as opposed to only ingesting the leaves and pushes patient-level labels down to each visit. This methodology significantly improves prediction of patient membership in over 500 medical diagnosis classes as measured by aggregated AUC and APS, and creates distinct representations of patients in closely related but clinically distinct phenotypes.
翻訳日:2022-12-18 19:02:42 公開日:2022-11-14
# 対話型確率予測のためのシナリオ変換可能なセマンティックグラフ推論

Scenario-Transferable Semantic Graph Reasoning for Interaction-Aware Probabilistic Prediction ( http://arxiv.org/abs/2004.03053v3 )

ライセンス: Link先を確認
Yeping Hu, Wei Zhan, and Masayoshi Tomizuka(参考訳) 交通参加者の行動の正確な予測は、自動運転車にとって不可欠な能力である。 自動運転車は動的に変化する環境をナビゲートする必要があるため、どこにいても、どのような状況に遭遇したかを正確に予測することが期待されている。 異なる交通状況下で予測問題を解く手法が提案されている。 これらの作業は通常、エージェントの軌跡を入力表現として色付きまたはベクトル化された高定義(HD)マップと組み合わせ、その情報を行動予測タスクにエンコードする。 しかし、すべての情報が現場の予測に関係しているわけではなく、そのような無関係な情報が特定の状況で予測に気を散らすこともある。 そこで本稿では, セマンティクスとドメイン知識を活かして, 様々な運転環境に対する新しい汎用表現を提案する。 セマンティクスを使用することで、状況を一様にモデル化し、対象車両の将来の振る舞いに無関係な要素をフィルタすることが可能になる。 次に、これらの表現を空間的意味グラフに定式化し、それらのグラフの内部関係を推論することで効果的に活用するための一般的な意味行動予測フレームワークを提案する。 我々は,高度にインタラクティブで複雑なシナリオで提案手法を理論的・実証的に検証し,提案手法が最先端性能を実現するだけでなく,ゼロショット転送性が要求されるプロセスも実現できることを実証した。

Accurately predicting the possible behaviors of traffic participants is an essential capability for autonomous vehicles. Since autonomous vehicles need to navigate in dynamically changing environments, they are expected to make accurate predictions regardless of where they are and what driving circumstances they encountered. Several methodologies have been proposed to solve prediction problems under different traffic situations. These works usually combine agent trajectories with either color-coded or vectorized high definition (HD) map as input representations and encode this information for behavior prediction tasks. However, not all the information is relevant in the scene for the forecasting and such irrelevant information may be even distracting to the forecasting in certain situations. Therefore, in this paper, we propose a novel generic representation for various driving environments by taking the advantage of semantics and domain knowledge. Using semantics enables situations to be modeled in a uniform way and applying domain knowledge filters out unrelated elements to target vehicle's future behaviors. We then propose a general semantic behavior prediction framework to effectively utilize these representations by formulating them into spatial-temporal semantic graphs and reasoning internal relations among these graphs. We theoretically and empirically validate the proposed framework under highly interactive and complex scenarios, demonstrating that our method not only achieves state-of-the-art performance, but also processes desirable zero-shot transferability.
翻訳日:2022-12-16 00:52:31 公開日:2022-11-14
# 時空間スパイクニューラルネットワークを用いたウェアラブル型人間活動認識

Wearable-based Human Activity Recognition with Spatio-Temporal Spiking Neural Networks ( http://arxiv.org/abs/2212.02233v1 )

ライセンス: Link先を確認
Yuhang Li, Ruokai Yin, Hyoungseob Park, Youngeun Kim, Priyadarshini Panda(参考訳) 本研究では,ウェアラブルセンサの時系列データに基づいて,ユーザの日常活動を予測するヒューマンアクティビティ認識(HAR)タスクについて検討する。 近年、研究者たちは、エンドツーエンドのニューラルネットワーク(ANN)を使用して特徴を抽出し、HARで分類している。 しかし、ANNはウェアラブルデバイスに膨大な計算負荷を与え、時間的特徴抽出を欠いている。 本研究では、生体ニューロンにインスパイアされたアーキテクチャであるスパイキングニューラルネットワーク(SNN)をHARタスクに活用する。 SNNは特徴の時空間抽出を可能にし、バイナリスパイクによる低消費電力計算を楽しむ。 SNNを用いた3つのHARデータセットの広範な実験を行い、SNNがANNと同等であり、最大94%のエネルギー消費を削減できることを示した。 コードはhttps://github.com/Intelligent-Computing-Lab-Yale/SNN_HARで公開されている。

We study the Human Activity Recognition (HAR) task, which predicts user daily activity based on time series data from wearable sensors. Recently, researchers use end-to-end Artificial Neural Networks (ANNs) to extract the features and perform classification in HAR. However, ANNs pose a huge computation burden on wearable devices and lack temporal feature extraction. In this work, we leverage Spiking Neural Networks (SNNs)--an architecture inspired by biological neurons--to HAR tasks. SNNs allow spatio-temporal extraction of features and enjoy low-power computation with binary spikes. We conduct extensive experiments on three HAR datasets with SNNs, demonstrating that SNNs are on par with ANNs in terms of accuracy while reducing up to 94% energy consumption. The code is publicly available in https://github.com/Intelligent-Computing-Lab-Yale/SNN_HAR
翻訳日:2022-12-11 13:08:34 公開日:2022-11-14
# 知識強化からマルチタスクへ--ヒューマンライクな対話システムへ

From Knowledge Augmentation to Multi-tasking: Towards Human-like Dialogue Systems ( http://arxiv.org/abs/2212.03279v1 )

ライセンス: Link先を確認
Tianji Yang(参考訳) 人間と会話できる対話エージェントを構築するという目標は、人工知能の初期から研究者の長年の夢だった。 有名なチューリングテストは、人工知能エージェントの究極の妥当性を、その対話と人間の対話の区別不能性について判断するために提案された。 人間レベルの対話システムが構築に非常に困難であることは驚くにあたらない。 しかし、ルールベースのシステムに対する初期の取り組みは、成功は限られていたが、ディープラーニングの出現は、このトピックに大きな進歩をもたらした。 本稿では,人工会話エージェントと人間レベルの対話者との間のギャップを埋める多くの問題に対処する手法に注目した。 これらの手法は、一般的な最先端のAI方法論にインスパイアされた方法で提案され、実験された。 しかし、対話システムが持つ特性もターゲットとした。

The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
翻訳日:2022-12-11 12:59:41 公開日:2022-11-14
# 自己回帰モデルとlstmを用いたcovid-19症例の解釈可能なハイブリッド予測モデル

An Interpretable Hybrid Predictive Model of COVID-19 Cases using Autoregressive Model and LSTM ( http://arxiv.org/abs/2211.17014v1 )

ライセンス: Link先を確認
Yangyi Zhang, Sui Tang, and Guo Yu(参考訳) コロナウイルス感染症2019(COVID-19)は、世界の人間の健康と経済に深刻な脅威をもたらしている。 Covid 19のケースに対する信頼性の高いデータ駆動予測モデルを構築し、公共政策の改善を急務とする。 しかし、COVID-19のデータは、大きな変動や非定常性のような特別な伝達特性を示しており、これは単一の予測モデルで捉えるのが困難であり、効果的な予測には大きな課題が生じる可能性がある。 本稿では,自己回帰モデル (ar) とlong short-term memory neural networks (lstm) を組み合わせた新しいハイブリッドデータ駆動モデルを提案する。 新しいニューラルネットワークモデルとして見ることができ、トレーニング手順でARとLSTMの寄与を自動調整する。 カリフォルニア州8郡から収集したデータについて,様々な傾向を示す広範な数値実験を行った。 数値計算の結果,ARおよびLSTMに対するハイブリッドモデルの優位性は予測力によって示される。 ハイブリッドモデルは4.195\% mapeを達成し、平均でar 5.629\%とlstm 5.070\%を上回り、解釈可能性について議論した。

The Coronavirus Disease 2019 (COVID-19) has posed a severe threat to global human health and economic. It is an urgent task to build reliable data-driven prediction models for Covid 19 cases to improve public policy making. However, COVID-19 data shows special transmission characteristics such as significant fluctuations and non-stationarity, which may be difficult to be captured by a single predictive model and poses grand challenges in effective forecasting. In this paper, we proposed a novel Hybrid data-driven model combining Autoregressive model (AR) and long short-term memory neural networks (LSTM). It can be viewed as a new neural network model and the contribution of AR and LSTM is auto tuned in the training procedure. We conduct extensive numerical experiments on data collected from 8 counties of California that display various trends. The numerical results show the Hybrid model' advantages over AR and LSTM by its predictive powers. We show that the Hybrid model achieved 4.195\% MAPE, outperformed the AR 5.629\% and LSTM 5.070\% on average, and provide a discussion on interpretability.
翻訳日:2022-12-04 14:57:34 公開日:2022-11-14
# LAPTNet:LiDAR支援型パースペクティブトランスフォーメーションネットワーク

LAPTNet: LiDAR-Aided Perspective Transform Network ( http://arxiv.org/abs/2211.14445v1 )

ライセンス: Link先を確認
Manuel Alejandro Diaz-Zapata (CHROMA), \"Ozg\"ur Erkent (CHROMA), Christian Laugier (CHROMA), Jilles Dibangoye (CHROMA), David Sierra Gonz\'alez (CHROMA)(参考訳) セマンティックグリッドは、ロボットを取り巻く環境の有用な表現である。 自動運転車では、車の周囲のシーンを簡潔に表現し、ナビゲーションや衝突評価といった下流のタスクに欠かせない情報をキャプチャすることができる。 異なるセンサーからの情報は、これらのグリッドを生成するために使用できる。 RGB画像のみに依存する方法もあるが、レーダーやLiDARなどの他のセンサーからの情報を組み込む方法もある。 本稿では,LiDARとカメラ情報を融合してセマンティックグリッドを生成するアーキテクチャを提案する。 LiDARポイントクラウドからの3D情報を使用することで、LiDAR-Aided Perspective Transform Network (LAPTNet)は、カメラプレーンの機能を、シーンの奥行き情報を予測することなく、鳥の目視に関連付けることができる。 最先端のカメラ専用手法と比較して、LAPTNetはNuScenesデータセット検証の分割で提案されたクラスに対する最先端の競合するアプローチよりも最大8.8ポイント(38.13%)の改善を実現している。

Semantic grids are a useful representation of the environment around a robot. They can be used in autonomous vehicles to concisely represent the scene around the car, capturing vital information for downstream tasks like navigation or collision assessment. Information from different sensors can be used to generate these grids. Some methods rely only on RGB images, whereas others choose to incorporate information from other sensors, such as radar or LiDAR. In this paper, we present an architecture that fuses LiDAR and camera information to generate semantic grids. By using the 3D information from a LiDAR point cloud, the LiDAR-Aided Perspective Transform Network (LAPTNet) is able to associate features in the camera plane to the bird's eye view without having to predict any depth information about the scene. Compared to state-of-theart camera-only methods, LAPTNet achieves an improvement of up to 8.8 points (or 38.13%) over state-of-art competing approaches for the classes proposed in the NuScenes dataset validation split.
翻訳日:2022-12-04 14:52:35 公開日:2022-11-14
# 自律的ドローン植林のための動的協調型マルチエージェント強化学習コミュニケーション

Dynamic Collaborative Multi-Agent Reinforcement Learning Communication for Autonomous Drone Reforestation ( http://arxiv.org/abs/2211.15414v1 )

ライセンス: Link先を確認
Philipp Dominic Siedler(参考訳) 我々は,マルチエージェント強化学習(marl)による自律型ドローンによる再植林にアプローチする。 エージェントは動的に変化するネットワークの一部として通信することができる。 我々は、ハイインパクトな問題の背後にあるコラボレーションとコミュニケーションを探求する。 森林は二酸化炭素の上昇を抑える主要な資源である。 残念ながら、世界の森林の量は前例のない速度で減少している。 多くの地域は大きすぎて、新しい木を植えるのが難しい。 本稿では、できるだけ多くの領域を効率的にカバーするために、協調を可能にするグラフニューラルネットワーク(GNN)ベースの通信機構を提案する。 エージェントは、再植林が必要なエリアの位置情報を共有することができ、ビューエリアと植林されたツリー数を増加させる。 提案する通信機構を,通信能力のないマルチエージェントベースラインと比較する。 その結果、コミュニケーションが協調し、集団的パフォーマンスを高め、正確さを植え付け、個々のエージェントのリスクテイク性を高めるかが示される。

We approach autonomous drone-based reforestation with a collaborative multi-agent reinforcement learning (MARL) setup. Agents can communicate as part of a dynamically changing network. We explore collaboration and communication on the back of a high-impact problem. Forests are the main resource to control rising CO2 conditions. Unfortunately, the global forest volume is decreasing at an unprecedented rate. Many areas are too large and hard to traverse to plant new trees. To efficiently cover as much area as possible, here we propose a Graph Neural Network (GNN) based communication mechanism that enables collaboration. Agents can share location information on areas needing reforestation, which increases viewed area and planted tree count. We compare our proposed communication mechanism with a multi-agent baseline without the ability to communicate. Results show how communication enables collaboration and increases collective performance, planting precision and the risk-taking propensity of individual agents.
翻訳日:2022-12-04 14:52:03 公開日:2022-11-14
# HPCスケール人工知能のエネルギー消費の理解

Understanding the Energy Consumption of HPC Scale Artificial Intelligence ( http://arxiv.org/abs/2212.00582v1 )

ライセンス: Link先を確認
Danilo Carastan dos Santos (DATAMOVE, UGA)(参考訳) 本稿では,HPCスケール人工知能(AI)と,より具体的にはディープラーニング(DL)アルゴリズムのエネルギー消費トレードオフの理解に寄与する。 そこで我々は,hpc環境におけるdlアルゴリズムの速度とエネルギー消費量を評価するベンチマークツールであるbenchmark-trackerを開発した。 ハードウェアカウンタとPythonライブラリを利用して、ソフトウェアを通じてエネルギー情報を収集し、既知のAIベンチマークツールを計測し、多数のDLアルゴリズムとモデルのエネルギー消費を評価する。 実験的なキャンペーンを通じて、トレーニングと推論のDLアルゴリズムの計算速度とエネルギー消費を測定するベンチマークトラッカーの可能性、およびHPCプラットフォームにおけるDLアルゴリズムのエネルギー挙動をよりよく理解するBenchmark-Trackerの可能性を示す。 この作業は、HPCにおけるディープラーニングのエネルギー消費をよりよく理解するための一歩であり、また、HPC DLデベロッパがHPCインフラのスピードとエネルギー消費のバランスを改善するための新しいツールにも貢献している。

This paper contributes towards better understanding the energy consumption trade-offs of HPC scale Artificial Intelligence (AI), and more specifically Deep Learning (DL) algorithms. For this task we developed benchmark-tracker, a benchmark tool to evaluate the speed and energy consumption of DL algorithms in HPC environments. We exploited hardware counters and Python libraries to collect energy information through software, which enabled us to instrument a known AI benchmark tool, and to evaluate the energy consumption of numerous DL algorithms and models. Through an experimental campaign, we show a case example of the potential of benchmark-tracker to measure the computing speed and the energy consumption for training and inference DL algorithms, and also the potential of Benchmark-Tracker to help better understanding the energy behavior of DL algorithms in HPC platforms. This work is a step forward to better understand the energy consumption of Deep Learning in HPC, and it also contributes with a new tool to help HPC DL developers to better balance the HPC infrastructure in terms of speed and energy consumption.
翻訳日:2022-12-04 14:51:53 公開日:2022-11-14
# Caravanデータセットに基づく大域河川洪水予測のためのMLフレームワーク

ML framework for global river flood predictions based on the Caravan dataset ( http://arxiv.org/abs/2212.00719v1 )

ライセンス: Link先を確認
Ioanna Bouri, Manu Lahariya, Omer Nivron, Enrique Portales Julia, Dietmar Backes, Piotr Bilinski, Guy Schumann(参考訳) 最初の72時間における河川洪水の信頼できる予測は、緊急機関が現場での救助の準備と展開に十分な時間を持っているため、危険を軽減できる。 このような洪水予測モデルは既に存在し、多くの高所得国で比較的よく機能している。 しかし、データの入手が限られているため、低所得国にはこれらのモデルがない。 ここでは,新たに発表されたカラバンデータセットに基づく,最初のグローバル河川洪水予測フレームワークを提供する。 本フレームワークは,今後のグローバルな河川洪水予測研究の指標となることを目的としている。 汎用性クレームをサポートするために、カスタムデータ評価スプリットを含める。 さらに,新しい2経路LSTMアーキテクチャ(2P-LSTM)を3つのベースラインモデルに対して提案し,評価する。 最後に,カラバンデータセットには含まれないアフリカとアジアの異なる場所で生成されたモデルを評価する。

Reliable prediction of river floods in the first 72 hours can reduce harm because emergency agencies have sufficient time to prepare and deploy for help at the scene. Such river flood prediction models already exist and perform relatively well in most high-income countries. But, due to the limited availability of data, these models are lacking in low-income countries. Here, we offer the first global river flood prediction framework based on the newly published Caravan dataset. Our framework aims to serve as a benchmark for future global river flood prediction research. To support generalizability claims we include custom data evaluation splits. Further, we propose and evaluate a novel two-path LSTM architecture (2P-LSTM) against three baseline models. Finally, we evaluate the generated models on different locations in Africa and Asia that were not part of the Caravan dataset.
翻訳日:2022-12-04 14:50:31 公開日:2022-11-14
# LSA-T:手話翻訳のための最初の連続アルゼンチン手話データセット

LSA-T: The first continuous Argentinian Sign Language dataset for Sign Language Translation ( http://arxiv.org/abs/2211.15481v1 )

ライセンス: Link先を確認
Pedro Dal Bianco and Gast\'on R\'ios and Franco Ronchetti and Facundo Quiroga and Oscar Stanchi and Waldo Hasperu\'e and Alejandro Rosete(参考訳) 手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。 この分野の進歩は、聴覚障害者のより高いレベルの統合につながる可能性がある。 本稿では、我々の知る限り、最初の連続的アルゼンチン手話(LSA)データセットについて述べる。 cn sordos youtubeチャンネルから抽出されたlsaの14,880文レベルのビデオがあり、各署名者に対してラベルとキーポイントのアノテーションが提供されている。 また、アクティブシグナの推測方法、データセットの特徴を詳細に分析する手法、データセットを探索する可視化ツール、将来の実験のベースラインとなるニューラルネットワークSLTモデルを提案する。

Sign language translation (SLT) is an active field of study that encompasses human-computer interaction, computer vision, natural language processing and machine learning. Progress on this field could lead to higher levels of integration of deaf people. This paper presents, to the best of our knowledge, the first continuous Argentinian Sign Language (LSA) dataset. It contains 14,880 sentence level videos of LSA extracted from the CN Sordos YouTube channel with labels and keypoints annotations for each signer. We also present a method for inferring the active signer, a detailed analysis of the characteristics of the dataset, a visualization tool to explore the dataset and a neural SLT model to serve as baseline for future experiments.
翻訳日:2022-12-04 14:41:45 公開日:2022-11-14
# ジレツ・ジューンズ(gilets jaunes)と「大ド・エバト国家」(grand d\'ebat national? ダイエバト・ナショナル」と「ヴライ・ダ・エバト」と「ダイエバト・ナショナル」の相乗効果

Un discours et un public "Gilets Jaunes" au coeur du Grand D\'ebat National? Combinaison des approches IA et textom\'etriques pour l'analyse de discours des plateformes "Grand D\'ebat National" et "Vrai d\'ebat" ( http://arxiv.org/abs/2211.11521v1 )

ライセンス: Link先を確認
Suignard Philippe (EDF R&D ICAME)(参考訳) 本稿では,政府プラットフォームである'grand d{\'e}bat national'と,イエローベスト集団が提案する'vrai d{\'e}bat'-の2つの「シビックテク」プラットフォームから得られた文を,テキスト解析に特化した2つのアルゴリズムファミリーと対決して分析することを提案する。 本稿では,最近大規模コーパスの分析に興味を示したテキストデータ解析(reinert/iramuteq法)における実証的手法の実装と,コンピュータ世界の交差点,人工知能,自動言語処理による新たな手法を提案する。 直接情報が少ない話者の社会的特性を評価するための方法論的ソリューションについて検討する。 最後に,このような対立が顕在化する世論とデータ科学の政治社会学の交差点において,いくつかの研究課題を提示する。

In this contribution, we propose to analyze the statements coming from two ''civic tech'' platforms-the governmental platform, ''Grand D{\'e}bat National'' and, its political and algorithmic response proposed by a Yellow Vest collective, ''Vrai D{\'e}bat''-, by confronting two families of algorithms dedicated to text analysis. We propose to implement, on the one hand, proven approaches in textual data analysis (Reinert/Iramuteq Method) which have recently shown their interest in the analysis of very large corpora and, on the other hand, new methods resulting from the crossroads of the computer worlds, artificial intelligence and automatic language processing. We will examine the methodological solutions for qualifying the social properties of speakers about whom we have little direct information. Finally, we will attempt to present some research questions at the crossroads of the political sociology of public opinion and data science, which such a confrontation opens up.
翻訳日:2022-11-27 13:19:20 公開日:2022-11-14
# 符号化レート低減によるサンプル効率量子ボーンマシン

Sample-efficient Quantum Born Machine through Coding Rate Reduction ( http://arxiv.org/abs/2211.10418v1 )

ライセンス: Link先を確認
Pengyuan Zhai(参考訳) 量子回路ボーンマシン(QCBM)は量子物理学にインスパイアされた暗黙的な生成モデルであり、古典的にシミュレートしにくい離散分布をモデル化する潜在的な利点がある。 データサンプルが量子力学的に生成されると、QCBMはユニークな最適化の風景を包含する。 しかしながら、qcbmsにおける先駆的な仕事は、訓練中に小さなバッチサイズのみを許可する実用的なシナリオを考慮しない。 画像空間における統計的2サンプルテストの目的で訓練されたQCBMは、確率空間の指数的スケーリングのため、大規模量子系では実用的ではなく、モデル分布をうまく近似するために、大量の射影測定を必要とする。 ディープニューラルネットワーク判別器に対して逆行的に訓練されたQCBMは、モード崩壊に直面した概念実証モデルである。 本研究では,QCBMの実践的学習について検討する。 本稿では,第2モーメントマッチングツールとして,情報理論の<textit{Maximal Coding Rate Reduction} (MCR$^2$) を用いて,QCBMにおけるモード崩壊への影響について検討する。 量子回路パラメータに対するmcr$^2$のサンプリングに基づく勾配を明示的な特徴マッピングの有無にかかわらず計算する。 実験により、第2モーメントのみのマッチングは量子発生器の訓練には不十分であるが、クラス確率推定損失と組み合わせると、MCR$^2$はモード崩壊に抵抗できることを示した。 さらに,無限モーメントマッチングのための逆訓練ニューラルネットワークカーネルも,モード崩壊に対して有効であることを示す。 Bars と Stripes のデータセットでは,提案手法により,従来のQCBM トレーニングスキームよりもモード崩壊が大幅に軽減され,実用性と拡張性に一歩近づいた。

The quantum circuit Born machine (QCBM) is a quantum physics inspired implicit generative model naturally suitable for learning binary images, with a potential advantage of modeling discrete distributions that are hard to simulate classically. As data samples are generated quantum-mechanically, QCBMs encompass a unique optimization landscape. However, pioneering works on QCBMs do not consider the practical scenario where only small batch sizes are allowed during training. QCBMs trained with a statistical two-sample test objective in the image space require large amounts of projective measurements to approximate the model distribution well, unpractical for large-scale quantum systems due to the exponential scaling of the probability space. QCBMs trained adversarially against a deep neural network discriminator are proof-of-concept models that face mode collapse. In this work we investigate practical learning of QCBMs. We use the information-theoretic \textit{Maximal Coding Rate Reduction} (MCR$^2$) metric as a second moment matching tool and study its effect on mode collapse in QCBMs. We compute the sampling based gradient of MCR$^2$ with respect to quantum circuit parameters with or without an explicit feature mapping. We experimentally show that matching up to the second moment alone is not sufficient for training the quantum generator, but when combined with the class probability estimation loss, MCR$^2$ is able to resist mode collapse. In addition, we show that adversarially trained neural network kernel for infinite moment matching is also effective against mode collapse. On the Bars and Stripes dataset, our proposed techniques alleviate mode collapse to a larger degree than previous QCBM training schemes, moving one step closer towards practicality and scalability.
翻訳日:2022-11-27 13:17:19 公開日:2022-11-14
# パンデミック前医療記録を用いた心電図に基づく新型コロナウイルスの診断と死亡予測の改善

Improving ECG-based COVID-19 diagnosis and mortality predictions using pre-pandemic medical records at population-scale ( http://arxiv.org/abs/2211.10431v1 )

ライセンス: Link先を確認
Weijie Sun, Sunil Vasu Kalmady, Nariman Sepehrvan, Luan Manh Chu, Zihan Wang, Amir Salimi, Abram Hindle, Russell Greiner, Padma Kaul(参考訳) 新型コロナウイルスなどのパンデミックの流行は予想外に発生し、世界的な健康に壊滅的な影響をもたらす可能性があるため、直ちに対応する必要がある。 心電図(ECG)のようなポイント・オブ・ケアのルーチンアセスメントを用いて、リスクのある個人を特定するための予測モデルを開発することができる。 しかし、特にパンデミックの初期段階では、正確な予測モデルを開発するには、臨床的に注釈された医療データが少ないことが多い。 このような状況下では、過去のパンデミック前の健康記録を利用して予備モデルを推定し、限られたパンデミックデータに基づいて微調整することができる。 本研究は、3つの異なるcovid-19関連診断および予後予測タスクに対して実質的なパフォーマンス改善を示すことにより、このアプローチ -- パンデミック前データを用いたディープラーニングモデル -- が効果的に機能することを示しています。 同様のトランスファー学習戦略は、将来のパンデミックでタイムリーな人工知能ソリューションを開発するのに役立つ。

Pandemic outbreaks such as COVID-19 occur unexpectedly, and need immediate action due to their potential devastating consequences on global health. Point-of-care routine assessments such as electrocardiogram (ECG), can be used to develop prediction models for identifying individuals at risk. However, there is often too little clinically-annotated medical data, especially in early phases of a pandemic, to develop accurate prediction models. In such situations, historical pre-pandemic health records can be utilized to estimate a preliminary model, which can then be fine-tuned based on limited available pandemic data. This study shows this approach -- pre-train deep learning models with pre-pandemic data -- can work effectively, by demonstrating substantial performance improvement over three different COVID-19 related diagnostic and prognostic prediction tasks. Similar transfer learning strategies can be useful for developing timely artificial intelligence solutions in future pandemic outbreaks.
翻訳日:2022-11-27 13:16:49 公開日:2022-11-14
# 異種性空間における品質多様性

Quality-diversity in dissimilarity spaces ( http://arxiv.org/abs/2211.12337v1 )

ライセンス: Link先を確認
Steve Huntsman(参考訳) 等級の理論は多様性の定量化と最大化のための数学的枠組みを提供する。 この枠組みを汎用的異質性空間における品質多様性アルゴリズムの定式化に応用する。 特に、Go-Exploreの非常に一般的なバージョンをインスタンス化し、デモします。

The theory of magnitude provides a mathematical framework for quantifying and maximizing diversity. We apply this framework to formulate quality-diversity algorithms in generic dissimilarity spaces. In particular, we instantiate and demonstrate a very general version of Go-Explore with promising performance.
翻訳日:2022-11-27 13:09:13 公開日:2022-11-14
# 電動機ブレーキシステム改善のためのタイヤロード摩擦推定と不確実性評価

Tire-road friction estimation and uncertainty assessment to improve electric aircraft braking system ( http://arxiv.org/abs/2211.10336v1 )

ライセンス: Link先を確認
Francesco Crocetti, G. Costante, M.L. Fravolini, P. Valigi(参考訳) 道路摩擦係数の正確なオンライン推定は、先進的なブレーキ制御システムにとって欠かせない特徴である。 本研究では,MLPニューラルネットに基づくデータ駆動方式を提案し,窓面のすべり摩擦測定関数として最適摩擦係数を推定する。 確率的NN重み付き降ろし機構を用いて、推定された最適摩擦係数の信頼区間をオンラインで推定し、NNブロックに関連するてんかんの不確かさを特徴づける。 未知表面における航空機の着陸相の開ループおよび閉ループシミュレーションを用いて, 提案した頑健な摩擦推定手法の有効性と有効性を示す。

The accurate online estimation of the road-friction coefficient is an essential feature for any advanced brake control system. In this study, a data-driven scheme based on a MLP Neural Net is proposed to estimate the optimum friction coefficient as a function of windowed slip-friction measurements. A stochastic NN weights drop-out mechanism is used to online estimate the confidence interval of the estimated best friction coefficient thus providing a characterization of the epistemic uncertainty associated to the NN block. Open loop and closed loop simulations of the landing phase of an aircraft on an unknown surface are used to show the potentiality and efficacy of the proposed robust friction estimation approach.
翻訳日:2022-11-27 13:08:26 公開日:2022-11-14
# 放射線用コンボリューションフィルタの標準化

Standardised convolutional filtering for radiomics ( http://arxiv.org/abs/2006.05470v7 )

ライセンス: Link先を確認
Adrien Depeursinge, Vincent Andrearczyk, Philip Whybra, Joost van Griethuysen, Henning M\"uller, Roger Schaer, Martin Valli\`eres, Alex Zwanenburg (for the Image Biomarker Standardisation Initiative)(参考訳) 画像バイオマーカー標準化イニシアチブ(IBSI)は、画像から画像バイオマーカー(特徴)を抽出する計算プロセスの標準化により、放射線医学研究の再現性を向上させることを目的としている。 従来,169の一般的な特徴の基準値を定め,標準放射能画像処理スキームを作成し,放射能研究のための報告ガイドラインを開発した。 しかし、いくつかの側面は標準化されていない。 本稿では,ラジオグラフィにおける畳み込み画像フィルタの使用に関するリファレンスマニュアルの予備版について述べる。 ガウスフィルタのウェーブレットやラプラシアンのようなフィルタは、エッジやブロブのような特定の画像特性を強調する上で重要な役割を果たす。 フィルタ応答マップから得られた特徴は再現性が悪いことが判明した。 この基準マニュアルは、放射能における畳み込みフィルタの標準化に関する進行中の作業の基礎を形成し、この作業が進むにつれて更新される。

The Image Biomarker Standardisation Initiative (IBSI) aims to improve reproducibility of radiomics studies by standardising the computational process of extracting image biomarkers (features) from images. We have previously established reference values for 169 commonly used features, created a standard radiomics image processing scheme, and developed reporting guidelines for radiomic studies. However, several aspects are not standardised. Here we present a preliminary version of a reference manual on the use of convolutional image filters in radiomics. Filters, such as wavelets or Laplacian of Gaussian filters, play an important part in emphasising specific image characteristics such as edges and blobs. Features derived from filter response maps have been found to be poorly reproducible. This reference manual forms the basis of ongoing work on standardising convolutional filters in radiomics, and will be updated as this work progresses.
翻訳日:2022-11-23 15:29:00 公開日:2022-11-14
# 私の自動音声キャプションシステムはそんなに悪いのか? spider-max:いくつかのキャプション候補を考えるための指標

Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates ( http://arxiv.org/abs/2211.08983v1 )

ライセンス: Link先を確認
Etienne Labb\'e (IRIT-SAMoVA, UT3), Thomas Pellegrini (IRIT-SAMoVA, UT3), Julien Pinquier (IRIT-SAMoVA, UT3)(参考訳) AAC(Automatic Audio Captioning)は、自然言語を用いて音声信号を記述するタスクである。 AACシステムは音声信号を入力として、キャプションと呼ばれる自由形式のテキストを出力する。 このようなシステムの評価は、同じアイデアを表現する多くの方法があるため、ささいなことではない。 このため、ブレウ、サイダー、スパイス、スパイダーなどいくつかの補完的な指標は、人間の注釈によって作成された1つまたは複数の引用キャプションと比較するために使用される。 それにもかかわらず、自動システムは、文生成プロセスでランダム性を使用するか、ビームサーチによるデコード中の様々な競合する仮定的なキャプションを考慮すれば、いくつかのキャプション候補を生成することができる。 AACシステムのエンドユーザーを考えると、情報検索システムと同様に、単一のキャプションの代わりにいくつかのキャプションを提示することは、いくつかの多様性を提供するのに重要と思われる。 本研究では,評価過程における予測キャプションを複数検討する可能性について検討する。 そこで本研究では,いくつかのキャプション候補のスコアの中から最大SPIDEr値を求める指標であるSPIDEr-maxを提案する。 提案手法を提唱するために,Clotho v2.1とAudioCapsの実験を変換ベースシステムで報告する。 たとえばAudioCapsでは、このシステムはSPIDEr-max値(5つの候補を持つ)に到達した。

Automatic Audio Captioning (AAC) is the task that aims to describe an audio signal using natural language. AAC systems take as input an audio signal and output a free-form text sentence, called a caption. Evaluating such systems is not trivial, since there are many ways to express the same idea. For this reason, several complementary metrics, such as BLEU, CIDEr, SPICE and SPIDEr, are used to compare a single automatic caption to one or several captions of reference, produced by a human annotator. Nevertheless, an automatic system can produce several caption candidates, either using some randomness in the sentence generation process, or by considering the various competing hypothesized captions during decoding with beam-search, for instance. If we consider an end-user of an AAC system, presenting several captions instead of a single one seems relevant to provide some diversity, similarly to information retrieval systems. In this work, we explore the possibility to consider several predicted captions in the evaluation process instead of one. For this purpose, we propose SPIDEr-max, a metric that takes the maximum SPIDEr value among the scores of several caption candidates. To advocate for our metric, we report experiments on Clotho v2.1 and AudioCaps, with a transformed-based system. On AudioCaps for example, this system reached a SPIDEr-max value (with 5 candidates) close to the SPIDEr human score of reference.
翻訳日:2022-11-17 16:59:25 公開日:2022-11-14
# 反復型自己ラベル領域適応の更新と松運動予測への応用

Renewing Iterative Self-labeling Domain Adaptation with Application to the Spine Motion Prediction ( http://arxiv.org/abs/2211.09064v1 )

ライセンス: Link先を確認
Gecheng Chen, Yu Zhou, Xudong Zhang, Rui Tuo(参考訳) 転送学習の領域は、トレーニングおよびテストデータが異なる入力特徴空間または分布を持つ場合に問題に対処する教師付き機械学習方法を含む。 本研究では,Renewing Iterative Self-labeling Domain Adaptation (Re-ISDA) と呼ばれる新しいトランスファー学習アルゴリズムを提案する。 本研究では,Renewing Iterative Self-labeling Domain Adaptation (Re-ISDA) と呼ばれる新しいトランスファー学習アルゴリズムを提案する。

The area of transfer learning comprises supervised machine learning methods that cope with the issue when the training and testing data have different input feature spaces or distributions. In this work, we propose a novel transfer learning algorithm called Renewing Iterative Self-labeling Domain Adaptation (Re-ISDA). In this work, we propose a novel transfer learning algorithm called Renewing Iterative Self-labeling Domain Adaptation (Re-ISDA).
翻訳日:2022-11-17 16:51:10 公開日:2022-11-14
# 深いテイラー分解の厳密な研究

A Rigorous Study Of The Deep Taylor Decomposition ( http://arxiv.org/abs/2211.08425v1 )

ライセンス: Link先を確認
Leon Sixt, Tim Landgraf(参考訳) Saliencyメソッドは、サンプルの最も健全な特徴を強調して、ディープニューラルネットワークの説明を試みる。 広く使われている手法はディープ・テイラー分解(Deep Taylor Decomposition, DTD)と呼ばれる理論的な枠組みに基づいており、テイラー定理のネットワーク層への再帰的適用を定式化している。 しかし、最近の研究により、これらの手法はネットワークの深い層から独立しており、低レベルの画像構造にのみ対応していることがわかった。 本稿では,dtd理論を解析し,この複雑化挙動をよりよく理解し,テイラー根点(ユーザが選択したアルゴリズムの重要なパラメータ)が局所定数である場合,深いテイラー分解は基本勾配$\times$input法と同値であることが判明した。 ルートポイントが局所的な入力依存であれば、説明を正当化することができる。 この場合、理論は未定である。 経験的評価では、dtd の根はテイラーの定理の基本的な仮定に対する入力コントラストと同じ線形領域には存在しないことが分かる。 DTDの理論的基礎は説明の信頼性の源として引用された。 しかし,このような主張には注意を促した。

Saliency methods attempt to explain deep neural networks by highlighting the most salient features of a sample. Some widely used methods are based on a theoretical framework called Deep Taylor Decomposition (DTD), which formalizes the recursive application of the Taylor Theorem to the network's layers. However, recent work has found these methods to be independent of the network's deeper layers and appear to respond only to lower-level image structure. Here, we investigate the DTD theory to better understand this perplexing behavior and found that the Deep Taylor Decomposition is equivalent to the basic gradient$\times$input method when the Taylor root points (an important parameter of the algorithm chosen by the user) are locally constant. If the root points are locally input-dependent, then one can justify any explanation. In this case, the theory is under-constrained. In an empirical evaluation, we find that DTD roots do not lie in the same linear regions as the input - contrary to a fundamental assumption of the Taylor theorem. The theoretical foundations of DTD were cited as a source of reliability for the explanations. However, our findings urge caution in making such claims.
翻訳日:2022-11-17 13:43:13 公開日:2022-11-14
# 類似系データを用いた神経状態空間モデルのメタラーニング

Meta-Learning of Neural State-Space Models Using Data From Similar Systems ( http://arxiv.org/abs/2211.07768v1 )

ライセンス: Link先を確認
Ankush Chakrabarty, Gordon Wichern, Christopher R. Laughman(参考訳) 深層神経状態空間モデル(deep neural state-space model, ssms)は、運用データのみを使用して動的システムをモデリングするための強力なツールである。 通常、ニューラルネットワークSSMは、実際に検討中のシステムから収集されたデータを使用して訓練される。 本稿では、類似システム(メタトレインオフラインに使用される)からのアーカイブデータと実際のシステム(高速オンライン適応に使用される)からの限定データの組み合わせを利用して、ディープエンコーダネットワークベースのSSMを構築するためのモデル非依存メタラーニング(MAML)を提案する。 本研究では,適応ステップが少なく,オンラインデータに制限があるにもかかわらず,教師付き学習や転送学習よりも正確な神経ssmモデルが生成できることを数値的に示す。 さらに、状態遷移演算子を修正しながらエンコーダ層を慎重に分割して適応させることで、オンライン適応の複雑さを低減しつつ、mamlと同等の性能を達成できることを示す。

Deep neural state-space models (SSMs) provide a powerful tool for modeling dynamical systems solely using operational data. Typically, neural SSMs are trained using data collected from the actual system under consideration, despite the likely existence of operational data from similar systems which have previously been deployed in the field. In this paper, we propose the use of model-agnostic meta-learning (MAML) for constructing deep encoder network-based SSMs, by leveraging a combination of archived data from similar systems (used to meta-train offline) and limited data from the actual system (used for rapid online adaptation). We demonstrate using a numerical example that meta-learning can result in more accurate neural SSM models than supervised- or transfer-learning, despite few adaptation steps and limited online data. Additionally, we show that by carefully partitioning and adapting the encoder layers while fixing the state-transition operator, we can achieve comparable performance to MAML while reducing online adaptation complexity.
翻訳日:2022-11-16 16:14:59 公開日:2022-11-14
# 機会価値関数予測によるエネルギー貯蔵価格調停

Energy Storage Price Arbitrage via Opportunity Value Function Prediction ( http://arxiv.org/abs/2211.07797v1 )

ライセンス: Link先を確認
Ningkun Zheng, Xiaoxiang Liu, Bolun Xu, Yuanyuan Shi(参考訳) 本稿では,教師付き学習と動的プログラミングを組み合わせた新しいエネルギー貯蔵価格調停アルゴリズムを提案する。 提案手法はニューラルネットワークを用いて、異なるエネルギー貯蔵状態における機会コストを直接予測し、予測された機会コストをモデルベース仲裁制御アルゴリズムに入力して最適な決定を行う。 我々は,価格データと動的計画アルゴリズムを用いて,過去の最適機会値関数を生成し,それを基礎的真理と歴史的価格として利用し,機会価値関数予測モデルを訓練する。 提案手法は,ニューヨーク州の異なるエネルギー貯蔵モデルと価格データを用いたケーススタディにおいて,完全予測に比べて65%から90%の利益を達成し,既存のモデルベースおよび学習ベース手法を著しく上回っている。 高い収益性を保証する一方で、アルゴリズムは軽量化されており、最小限の計算コストでトレーニングと実装が可能である。 また, 学習予測モデルは, 伝達性に優れることを示した。 あるリージョンの価格データを用いてトレーニングされた予測モデルは、他のリージョンでテストした場合に良い仲裁結果を提供する。

This paper proposes a novel energy storage price arbitrage algorithm combining supervised learning with dynamic programming. The proposed approach uses a neural network to directly predicts the opportunity cost at different energy storage state-of-charge levels, and then input the predicted opportunity cost into a model-based arbitrage control algorithm for optimal decisions. We generate the historical optimal opportunity value function using price data and a dynamic programming algorithm, then use it as the ground truth and historical price as predictors to train the opportunity value function prediction model. Our method achieves 65% to 90% profit compared to perfect foresight in case studies using different energy storage models and price data from New York State, which significantly outperforms existing model-based and learning-based methods. While guaranteeing high profitability, the algorithm is also light-weighted and can be trained and implemented with minimal computational cost. Our results also show that the learned prediction model has excellent transferability. The prediction model trained using price data from one region also provides good arbitrage results when tested over other regions.
翻訳日:2022-11-16 16:14:39 公開日:2022-11-14
# 非オブザーブド・コンファウンディングによる反事実推論について

On counterfactual inference with unobserved confounding ( http://arxiv.org/abs/2211.08209v1 )

ライセンス: Link先を確認
Abhin Shah, Raaz Dwivedi, Devavrat Shah, Gregory W. Wornell(参考訳) 独立だが不均一な単位と,共変量,介入,結果を含む単位あたりの1$p$-dimensionalサンプルを用いた観測的研究から,各単位の反実分布を学習することが目的である。 我々は、介入と結果の間の統計的偏りを生じさせ、単位間の不均一性を悪化させる未観測共生の研究を検討する。 基礎となる結合分布を指数族としてモデル化し、適切な条件下では、単位レベル対実分布$n$の学習を、不均一パラメータを持つ指数族分布$n$の学習に還元する。 我々は、すべての$n$サンプルをプールして、すべての$n$パラメータを共同で学習し、パラメータ空間の計量エントロピーと線形にスケールする単位平均2乗誤差境界を提供する凸目的を導入する。 例えば、パラメータが $s$-sparse linear combination of $k$ known vectorsである場合、エラーは$o(s\log k/p)$である。 途中で、対数ソボレフ不等式を満たすためのコンパクトに支持された分布の十分条件を導出する。

Given an observational study with $n$ independent but heterogeneous units and one $p$-dimensional sample per unit containing covariates, interventions, and outcomes, our goal is to learn the counterfactual distribution for each unit. We consider studies with unobserved confounding which introduces statistical biases between interventions and outcomes as well as exacerbates the heterogeneity across units. Modeling the underlying joint distribution as an exponential family and under suitable conditions, we reduce learning the $n$ unit-level counterfactual distributions to learning $n$ exponential family distributions with heterogeneous parameters and only one sample per distribution. We introduce a convex objective that pools all $n$ samples to jointly learn all $n$ parameters and provide a unit-wise mean squared error bound that scales linearly with the metric entropy of the parameter space. For example, when the parameters are $s$-sparse linear combination of $k$ known vectors, the error is $O(s\log k/p)$. En route, we derive sufficient conditions for compactly supported distributions to satisfy the logarithmic Sobolev inequality.
翻訳日:2022-11-16 16:06:03 公開日:2022-11-14
# 音声感情認識のための音響特性プロンプトによる感情表現

Describing emotions with acoustic property prompts for speech emotion recognition ( http://arxiv.org/abs/2211.07737v1 )

ライセンス: Link先を確認
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh(参考訳) 感情は広い連続体の上にあり、感情を離散的なクラス数として扱うことは、連続体のニュアンスを捉えるモデルの能力を制限する。 課題は、感情のニュアンスを説明する方法と、モデルが記述を学習できるようにする方法である。 本研究では,音高,ラウドネス,発声率,調音率などの音響特性を演算することで,所定の音声に対する記述(あるいはプロンプト)を自動的に生成する手法を提案する。 5種類の感情データセットを用いてプロンプトと対応するオーディオを組み合わせる。 これらの音声テキストペアを用いてニューラルネットワークモデルを訓練した。 そして、さらに1つのデータセットを用いてモデルを評価する。 モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。 我々の研究成果は、感情の広範連続性に関する研究を動機づけるものと期待している。

Emotions lie on a broad continuum and treating emotions as a discrete number of classes limits the ability of a model to capture the nuances in the continuum. The challenge is how to describe the nuances of emotions and how to enable a model to learn the descriptions. In this work, we devise a method to automatically create a description (or prompt) for a given audio by computing acoustic properties, such as pitch, loudness, speech rate, and articulation rate. We pair a prompt with its corresponding audio using 5 different emotion datasets. We trained a neural network model using these audio-text pairs. Then, we evaluate the model using one more dataset. We investigate how the model can learn to associate the audio with the descriptions, resulting in performance improvement of Speech Emotion Recognition and Speech Audio Retrieval. We expect our findings to motivate research describing the broad continuum of emotion
翻訳日:2022-11-16 16:03:19 公開日:2022-11-14
# 深層学習型無線デバイス指紋の可搬性限界を明らかにする

Uncovering the Portability Limitation of Deep Learning-Based Wireless Device Fingerprints ( http://arxiv.org/abs/2211.07687v1 )

ライセンス: Link先を確認
Bechir Hamdaoui, Abdurrahman Elmaghbub(参考訳) 最近のデバイス指紋認証手法は、無線デバイスを識別、分類、認証するために、生のRF信号からのみデバイス固有の特徴を抽出するためにディープラーニングに依存している。 広く知られている問題のひとつは、トレーニングデータとテストデータがさまざまなデプロイメントドメインの下で収集される場合、これらのアプローチが優れたパフォーマンスを維持することができないことだ。 例えば、学習モデルが1つの受信機から収集されたデータに基づいてトレーニングされ、異なる受信機から収集されたデータに基づいてテストされると、トレーニングデータとテストデータの両方が同じ受信機を使用して収集された場合と比較して、性能は大幅に低下する。 チャネル条件やプロトコル設定など、他の異なるドメインも考慮すれば、同じことが起こる。 本稿では,テストベッド実験を通じて,これらのフィンガープリント技術がドメインポータビリティに直面する課題を説明することから始める。 次に、深層学習ベースのデバイスフィンガープリントをよりドメインの可変性に弾力性を持たせるために、これらの課題に対処する方法をいくつか提示する。

Recent device fingerprinting approaches rely on deep learning to extract device-specific features solely from raw RF signals to identify, classify and authenticate wireless devices. One widely known issue lies in the inability of these approaches to maintain good performances when the training data and testing data are collected under varying deployment domains. For example, when the learning model is trained on data collected from one receiver but tested on data collected from a different receiver, the performance degrades substantially compared to when both training and testing data are collected using the same receiver. The same also happens when considering other varying domains, like channel condition and protocol configuration. In this paper, we begin by explaining, through testbed experiments, the challenges these fingerprinting techniques face when it comes to domain portability. We will then present some ideas on how to go about addressing these challenges so as to make deep learning-based device fingerprinting more resilient to domain variability.
翻訳日:2022-11-16 15:47:19 公開日:2022-11-14
# (時期) 強化学習の対比的説明は役に立つか?

(When) Are Contrastive Explanations of Reinforcement Learning Helpful? ( http://arxiv.org/abs/2211.07719v1 )

ライセンス: Link先を確認
Sanjana Narayanan, Isaac Lage, Finale Doshi-Velez(参考訳) 強化学習(RL)エージェントの期待行動に関するグローバルな説明は、デプロイをより安全にすることができる。 しかし、そのような説明は、多くのrlポリシーの複雑な性質のため、理解が難しいことが多い。 効果的な人間の説明はしばしば対比的であり、冗長性を減らすために既知のコントラスト(政治)を参照する。 同時に、これらの説明には、説明を評価する際にコントラストを参照する追加の努力も必要となる。 我々は,コントラストを参照する必要のない完全な説明に対して,コントラスト的説明が望ましいか,いつかを理解するために,ユーザ調査を行う。 完全な説明は、一般的に、それらが同じ方針の対照的な説明よりもサイズが同じか小さい場合、より効果的であり、より大きい場合は、悪くはない。 このことは,強化学習方針を効果的に説明する問題を解決するには対照的な説明だけでは不十分であり,この文脈での使用にはさらなる注意深い研究が必要であることを示唆する。

Global explanations of a reinforcement learning (RL) agent's expected behavior can make it safer to deploy. However, such explanations are often difficult to understand because of the complicated nature of many RL policies. Effective human explanations are often contrastive, referencing a known contrast (policy) to reduce redundancy. At the same time, these explanations also require the additional effort of referencing that contrast when evaluating an explanation. We conduct a user study to understand whether and when contrastive explanations might be preferable to complete explanations that do not require referencing a contrast. We find that complete explanations are generally more effective when they are the same size or smaller than a contrastive explanation of the same policy, and no worse when they are larger. This suggests that contrastive explanations are not sufficient to solve the problem of effectively explaining reinforcement learning policies, and require additional careful study for use in this context.
翻訳日:2022-11-16 15:47:00 公開日:2022-11-14
# 時間的モデリング事項:音声感情認識のための新しい時間的感情モデルアプローチ

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition ( http://arxiv.org/abs/2211.08233v1 )

ライセンス: Link先を確認
Jiaxin Ye, Xincheng Wen, Yujie Wei, Yong Xu, Kunhong Liu, Hongming Shan(参考訳) 音声感情認識(SER)は、人間の感情や感情状態を音声信号から推定することにより、人間と機械の相互作用を改善する上で重要な役割を果たす。 近年の研究では,手作りの特徴から時空間情報を抽出することを中心に,動的時間的尺度から音声感情の時間的パターンをモデル化する方法が検討されている。 そこで本研究では,様々な時間スケールの文脈的感情表現を学習する時間指向型双方向ネットワーク (tim-net) と呼ばれる,新たな時間的感情モデリング手法を提案する。 具体的には、TIM-Netは、まず時間的認知ブロックを用いて、時間的感情表現を学習し、その後、過去と未来からの補完情報を統合して文脈表現を豊かにする。 6つのベンチマークSERデータセットの大規模な実験結果は、TIM-Netの優れた性能を示し、各コーパスにおける平均的UARとWARの2.34%と2.61%の改善を得た。 注目すべきことに、TIM-Netは、クロスコーパスSERタスクにおける最新のドメイン適応手法よりも優れており、強力な一般化性を示している。

Speech emotion recognition (SER) plays a vital role in improving the interactions between humans and machines by inferring human emotion and affective states from speech signals. Whereas recent works primarily focus on mining spatiotemporal information from hand-crafted features, we explore how to model the temporal patterns of speech emotions from dynamic temporal scales. Towards that goal, we introduce a novel temporal emotional modeling approach for SER, termed Temporal-aware bI-direction Multi-scale Network (TIM-Net), which learns multi-scale contextual affective representations from various time scales. Specifically, TIM-Net first employs temporal-aware blocks to learn temporal affective representation, then integrates complementary information from the past and the future to enrich contextual representations, and finally, fuses multiple time scale features for better adaptation to the emotional variation. Extensive experimental results on six benchmark SER datasets demonstrate the superior performance of TIM-Net, gaining 2.34% and 2.61% improvements of the average UAR and WAR over the second-best on each corpus. Remarkably, TIM-Net outperforms the latest domain-adaptation method on the cross-corpus SER tasks, demonstrating strong generalizability.
翻訳日:2022-11-16 15:39:19 公開日:2022-11-14
# 農業検査におけるソルガムパニクルの3次元再構成法

3D Reconstruction-Based Seed Counting of Sorghum Panicles for Agricultural Inspection ( http://arxiv.org/abs/2211.07748v1 )

ライセンス: Link先を確認
Harry Freeman, Eric Schneider, Chung Hee Kim, Moonyoung Lee, George Kantor(参考訳) 本稿では,育種実験における表現型化のための高品質3dモデルの作成法を提案する。 これは、2Dと3Dの両方のセマンティックランドマークとしてシードを使用する新しい再構築アプローチによって達成される。 この性能を評価するため, 地中点雲を伴わずに再建点雲の品質を評価するための新しい指標を開発した。 最後に、3次元モデルにおける種子中心の密度は、複数のビューから2次元カウントを効果的に組み合わせて全粒カウントにすることができるカウント法を示す。 そこで本研究では,本手法を用いて2次元画像から推定した種子数と重量を推定し,同等の大きさの種子と穀粒の最先端技術である2次元画像から推定する手法を提案する。

In this paper, we present a method for creating high-quality 3D models of sorghum panicles for phenotyping in breeding experiments. This is achieved with a novel reconstruction approach that uses seeds as semantic landmarks in both 2D and 3D. To evaluate the performance, we develop a new metric for assessing the quality of reconstructed point clouds without having a ground-truth point cloud. Finally, a counting method is presented where the density of seed centers in the 3D model allows 2D counts from multiple views to be effectively combined into a whole-panicle count. We demonstrate that using this method to estimate seed count and weight for sorghum outperforms count extrapolation from 2D images, an approach used in most state of the art methods for seeds and grains of comparable size.
翻訳日:2022-11-16 15:38:56 公開日:2022-11-14
# 拡張拡散に基づくテキスト対画像生成のための任意スタイル指導

Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image Generation ( http://arxiv.org/abs/2211.07751v1 )

ライセンス: Link先を確認
Zhihong Pan, Xin Zhou, Hao Tian(参考訳) 近年,GLIDE や DALLE-2 のような拡散型テキスト・画像生成モデルは,複雑なテキスト入力を高品質で多彩な画像に変換する上で,優れた性能を発揮している。 特に、様々な形式や様式のグラフィックアートを作る上で非常に強力であることが証明されている。 現在のモデルは、油絵や鉛筆画のようなスタイル形式を規定することをサポートしているが、色分布やブラシストロークのようなきめ細かいスタイルの特徴は、与えられたテキスト入力に基づいて条件分布からランダムに選択されるため、特定が難しい。 本稿では,参照画像による任意のスタイルを用いた画像生成を支援する新しいスタイル指導手法を提案する。 テキスト入力によって制御された生成コンテンツの画質を維持しつつ、所望のスタイルを生成するために別個のスタイル転送モデルを必要としない。 さらに、より多様なスタイルの画像を生成するために、自己スタイルガイダンスと呼ばれるスタイル参照なしでガイダンス手法を適用することができる。 包括的実験により,提案手法は多種多様なグラフィックアート形式,画像コンテンツタイプ,拡散モデルなど,幅広い条件下で頑健かつ効果的であることが証明された。

Diffusion-based text-to-image generation models like GLIDE and DALLE-2 have gained wide success recently for their superior performance in turning complex text inputs into images of high quality and wide diversity. In particular, they are proven to be very powerful in creating graphic arts of various formats and styles. Although current models supported specifying style formats like oil painting or pencil drawing, fine-grained style features like color distributions and brush strokes are hard to specify as they are randomly picked from a conditional distribution based on the given text input. Here we propose a novel style guidance method to support generating images using arbitrary style guided by a reference image. The generation method does not require a separate style transfer model to generate desired styles while maintaining image quality in generated content as controlled by the text input. Additionally, the guidance method can be applied without a style reference, denoted as self style guidance, to generate images of more diverse styles. Comprehensive experiments prove that the proposed method remains robust and effective in a wide range of conditions, including diverse graphic art forms, image content types and diffusion models.
翻訳日:2022-11-16 15:38:42 公開日:2022-11-14
# 拡散モデルからのテキスト埋め込み学習による極端生成画像圧縮

Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models ( http://arxiv.org/abs/2211.07793v1 )

ライセンス: Link先を確認
Zhihong Pan, Xin Zhou, Hao Tian(参考訳) 限られた帯域で大量の高解像度画像を転送することは重要であるが、非常に難しい作業である。 非常に低ビットレート (0.1 bpp) の圧縮画像が研究されているが, 圧縮データに利用可能なビット数に強い制約があるため, 重いアーティファクトの低品質な画像が得られることが多い。 絵は千語の価値があると言われることが多いが、一方では短い記述を用いて画像の本質を捉えるのに言語は非常に強力である。 近年のテキスト対画像生成のための拡散モデルの成功により,画像の保存を短いテキスト埋め込みとして行う可能性を示す生成画像圧縮手法が提案されている。 与えられた画像に対して、対応するテキスト埋め込みは、元の変換器をバイパスした後、入力として学習可能なテキスト埋め込みを用いて、テキスト間拡散モデル自体と同じ最適化プロセスを用いて学習される。 この最適化は学習圧縮モデルと共に適用され、低ビットレート <0.1 bpp の極端な圧縮を達成する。 総合的な画像品質指標で測定した実験に基づいて,本手法は知覚的品質と多様性の両面で,最先端のディープラーニング手法を上回っている。

Transferring large amount of high resolution images over limited bandwidth is an important but very challenging task. Compressing images using extremely low bitrates (<0.1 bpp) has been studied but it often results in low quality images of heavy artifacts due to the strong constraint in the number of bits available for the compressed data. It is often said that a picture is worth a thousand words but on the other hand, language is very powerful in capturing the essence of an image using short descriptions. With the recent success of diffusion models for text-to-image generation, we propose a generative image compression method that demonstrates the potential of saving an image as a short text embedding which in turn can be used to generate high-fidelity images which is equivalent to the original one perceptually. For a given image, its corresponding text embedding is learned using the same optimization process as the text-to-image diffusion model itself, using a learnable text embedding as input after bypassing the original transformer. The optimization is applied together with a learning compression model to achieve extreme compression of low bitrates <0.1 bpp. Based on our experiments measured by a comprehensive set of image quality metrics, our method outperforms the other state-of-the-art deep learning methods in terms of both perceptual quality and diversity.
翻訳日:2022-11-16 15:38:21 公開日:2022-11-14
# ハイブリッド信念PMDPにおけるモンテカルロ計画

Monte Carlo Planning in Hybrid Belief POMDPs ( http://arxiv.org/abs/2211.07735v1 )

ライセンス: Link先を確認
Moran Barenboim, Moshe Shienman and Vadim Indelman(参考訳) 実世界の問題は、しばしば離散変数と連続変数の両方に対するハイブリッド信念についての推論を必要とする。 しかし、このような設定は計画の文脈ではほとんど調査されていない。 さらに、既存のオンライン部分可観測マルコフ決定プロセス(pomdps)ソルバは、ハイブリッド信念を直接サポートしない。 特に、これらの解法は、指数関数的に増大できる計画的地平線に関する仮説が増加するため、追加の計算負担に対処しない。 本研究の一環として, モンテカルロ木探索 (MCTS) アルゴリズムを用いて, ハイブリッド信念を維持しながらPOMDPを解く新しいアルゴリズム, モンテカルロ計画 (HB-MCP) を提案する。 本研究は, 仮説樹の成長を誘導するために, 上位信頼度(UCB)探索ボーナスを活用する方法について述べる。 次に,未解決のデータ関連がマルチモーダル信念仮説につながる高度にエイリアスされたシミュレーション環境でのアプローチを評価する。

Real-world problems often require reasoning about hybrid beliefs, over both discrete and continuous random variables. Yet, such a setting has hardly been investigated in the context of planning. Moreover, existing online Partially Observable Markov Decision Processes (POMDPs) solvers do not support hybrid beliefs directly. In particular, these solvers do not address the added computational burden due to an increasing number of hypotheses with the planning horizon, which can grow exponentially. As part of this work, we present a novel algorithm, Hybrid Belief Monte Carlo Planning (HB-MCP) that utilizes the Monte Carlo Tree Search (MCTS) algorithm to solve a POMDP while maintaining a hybrid belief. We illustrate how the upper confidence bound (UCB) exploration bonus can be leveraged to guide the growth of hypotheses trees alongside the belief trees. We then evaluate our approach in highly aliased simulated environments where unresolved data association leads to multi-modal belief hypotheses.
翻訳日:2022-11-16 15:28:23 公開日:2022-11-14
# 教師付き自己表現による幼児の音声認識改善

Improving Children's Speech Recognition by Fine-tuning Self-supervised Adult Speech Representations ( http://arxiv.org/abs/2211.07769v1 )

ライセンス: Link先を確認
Renee Lu, Mostafa Shahin, Beena Ahmed(参考訳) 幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。 この領域の進歩を妨げる大きな課題は、適切な児童音声コーパスの欠如である。しかしながら、近年の自己教師付き学習の進歩は、データの不足という問題を克服する新たな機会を生み出した。 本稿では,自己指導型成人音声表現を活用し,よく知られた3つの音声コーパスを用いて,子どもの音声認識モデルを構築する。 本研究では、母国語と非母国語の両方での微調整の性能を評価し、ドメイン間子コーパスの効果を検証し、最先端の成人モデルより優れるモデルを微調整するのに要する児童音声の最小量を調べた。 また, 子どもの年齢ごとの音声認識性能も分析した。 以上の結果から,クロスドメイン・チャイルドコーパスによる微調整は,それぞれ46.08%,45.53%に向上し,14.70%,31.10%に向上した。 また,5時間以内の子どもの音声の書き起こしで,960時間の成人音声において,最先端の成人モデルより優れた子どもの音声認識システムを微調整できることを示した。

Children's speech recognition is a vital, yet largely overlooked domain when building inclusive speech technologies. The major challenge impeding progress in this domain is the lack of adequate child speech corpora; however, recent advances in self-supervised learning have created a new opportunity for overcoming this problem of data scarcity. In this paper, we leverage self-supervised adult speech representations and use three well-known child speech corpora to build models for children's speech recognition. We assess the performance of fine-tuning on both native and non-native children's speech, examine the effect of cross-domain child corpora, and investigate the minimum amount of child speech required to fine-tune a model which outperforms a state-of-the-art adult model. We also analyze speech recognition performance across children's ages. Our results demonstrate that fine-tuning with cross-domain child corpora leads to relative improvements of up to 46.08% and 45.53% for native and non-native child speech respectively, and absolute improvements of 14.70% and 31.10%. We also show that with as little as 5 hours of transcribed children's speech, it is possible to fine-tune a children's speech recognition system that outperforms a state-of-the-art adult model fine-tuned on 960 hours of adult speech.
翻訳日:2022-11-16 15:27:41 公開日:2022-11-14
# 効率的な推論のための超深層ニューラルネットワークチャネルのプルーニング

Pruning Very Deep Neural Network Channels for Efficient Inference ( http://arxiv.org/abs/2211.08339v1 )

ライセンス: Link先を確認
Yihui He(参考訳) 本稿では,非常に深い畳み込みニューラルネットワークを高速化する新しいチャネルプルーニング手法を提案する。 訓練されたCNNモデルを用いて、LASSO回帰に基づくチャネル選択と最小二乗再構成により、各層を効果的にプーンする反復的2段階アルゴリズムを提案する。 さらに、このアルゴリズムを多層および多分岐ケースに一般化する。 本手法は,蓄積誤差を低減し,各種アーキテクチャとの互換性を高める。 我々のプルーニングVGG-16は5倍のスピードアップを実現し、エラーはわずか0.3%増加した。 さらに,提案手法では,ResNet,Xceptionなどの最新のネットワークを高速化し,それぞれ2倍のスピードアップで1.4%,1.0%の精度損失を被った。 私たちのコードは公開されています。

In this paper, we introduce a new channel pruning method to accelerate very deep convolutional neural networks. Given a trained CNN model, we propose an iterative two-step algorithm to effectively prune each layer, by a LASSO regression based channel selection and least square reconstruction. We further generalize this algorithm to multi-layer and multi-branch cases. Our method reduces the accumulated error and enhances the compatibility with various architectures. Our pruned VGG-16 achieves the state-of-the-art results by 5x speed-up along with only 0.3% increase of error. More importantly, our method is able to accelerate modern networks like ResNet, Xception and suffers only 1.4%, 1.0% accuracy loss under 2x speed-up respectively, which is significant. Our code has been made publicly available.
翻訳日:2022-11-16 15:21:02 公開日:2022-11-14
# 医用画像解析のための拡散モデル:総合的調査

Diffusion Models for Medical Image Analysis: A Comprehensive Survey ( http://arxiv.org/abs/2211.07804v1 )

ライセンス: Link先を確認
Amirhossein Kazerouni, Ehsan Khodapanah Aghdam, Moein Heidari, Reza Azad, Mohsen Fayyaz, Ilker Hacihaliloglu, Dorit Merhof(参考訳) 生成モデルの一種である分母拡散モデルは、近年、様々なディープラーニング問題に多大な関心を集めている。 拡散確率モデルは、ガウス雑音を付加することにより入力データが徐々に数段にわたって摂動する前方拡散段階を定義し、その後拡散過程を逆転してノイズのないデータをノイズデータから取得する。 拡散モデルは、既知の計算負荷にもかかわらず、強いモードカバレッジと生成サンプルの品質で広く評価されている。 コンピュータビジョンの進歩に乗じて、医療画像の分野でも拡散モデルへの関心が高まっている。 本研究は, 医用画像解析の分野における拡散モデルの概要を明らかにすることを目的としている。 具体的には,拡散モデルと拡散確率モデル,雑音条件スコアネットワーク,確率微分方程式という3つの汎用拡散モデルフレームワークの背後にある固体理論的基礎と基本概念を紹介する。 そこで我々は,医療領域における拡散モデルの系統分類を提供し,その応用,画像のモダリティ,興味の組織,アルゴリズムに基づく多視点分類を提案する。 この目的のために,医療領域における拡散モデルの広範な応用について紹介する。 さらに,いくつかのアプローチの実用化事例を強調し,医療領域における拡散モデルの限界を議論し,この分野の要求を満たすためのいくつかの方向性を提案する。 最後に、利用可能なオープンソース実装に関する概要研究をhttps://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imagingにまとめる。

Denoising diffusion models, a class of generative models, have garnered immense interest lately in various deep-learning problems. A diffusion probabilistic model defines a forward diffusion stage where the input data is gradually perturbed over several steps by adding Gaussian noise and then learns to reverse the diffusion process to retrieve the desired noise-free data from noisy data samples. Diffusion models are widely appreciated for their strong mode coverage and quality of the generated samples despite their known computational burdens. Capitalizing on the advances in computer vision, the field of medical imaging has also observed a growing interest in diffusion models. To help the researcher navigate this profusion, this survey intends to provide a comprehensive overview of diffusion models in the discipline of medical image analysis. Specifically, we introduce the solid theoretical foundation and fundamental concepts behind diffusion models and the three generic diffusion modelling frameworks: diffusion probabilistic models, noise-conditioned score networks, and stochastic differential equations. Then, we provide a systematic taxonomy of diffusion models in the medical domain and propose a multi-perspective categorization based on their application, imaging modality, organ of interest, and algorithms. To this end, we cover extensive applications of diffusion models in the medical domain. Furthermore, we emphasize the practical use case of some selected approaches, and then we discuss the limitations of the diffusion models in the medical domain and propose several directions to fulfill the demands of this field. Finally, we gather the overviewed studies with their available open-source implementations at https://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging.
翻訳日:2022-11-16 14:55:00 公開日:2022-11-14
# 肝病理学における機械学習モデルの自己学習--臨床シフト下での一般化

Self-training of Machine Learning Models for Liver Histopathology: Generalization under Clinical Shifts ( http://arxiv.org/abs/2211.07692v1 )

ライセンス: Link先を確認
Jin Li, Deepta Rajan, Chintan Shah, Dinkar Juyal, Shreya Chakraborty, Chandan Akiti, Filip Kos, Janani Iyer, Anand Sampat, Ali Behrooz(参考訳) 病理像はギガピクセルサイズであり、解像度の異なる特徴や情報を含んでいる。 病理学における注釈の収集には高度に専門的な病理学者が必要であり、高価で時間を要する。 自己学習はラベル付きデータとラベルなしデータの両方から学習することでアノテーション制約を緩和し、病理医に必要なアノテーションの量を削減できる。 非アルコール性脂肪肝炎(NASH)に対する臨床病理組織学的データセットを用いた教師学習型自己訓練システムの設計について検討した。 臨床データシフト下での分布内および分布外テストデータに関するモデルを評価する。 自己学習を通じて、最高の学生モデルは、マクロF1スコアに対して3倍%の絶対差で統計的に教師より優れていることを示した。 最高の学生モデルは、また2倍のアノテーションで訓練された完全に教師されたモデルのパフォーマンスにもアプローチします。

Histopathology images are gigapixel-sized and include features and information at different resolutions. Collecting annotations in histopathology requires highly specialized pathologists, making it expensive and time-consuming. Self-training can alleviate annotation constraints by learning from both labeled and unlabeled data, reducing the amount of annotations required from pathologists. We study the design of teacher-student self-training systems for Non-alcoholic Steatohepatitis (NASH) using clinical histopathology datasets with limited annotations. We evaluate the models on in-distribution and out-of-distribution test data under clinical data shifts. We demonstrate that through self-training, the best student model statistically outperforms the teacher with a $3\%$ absolute difference on the macro F1 score. The best student model also approaches the performance of a fully supervised model trained with twice as many annotations.
翻訳日:2022-11-16 14:43:31 公開日:2022-11-14
# 長期視覚位置認識のための教師付き微調整評価

Supervised Fine-tuning Evaluation for Long-term Visual Place Recognition ( http://arxiv.org/abs/2211.07696v1 )

ライセンス: Link先を確認
Farid Alijani and Esa Rahtu(参考訳) 本稿では,畳み込み層の後に配置され,季節や照明のバリエーションを含む困難な状況下での視覚位置認識タスクのエンドツーエンドで微調整された2つの最先端プール層を有する深層畳み込みニューラルネットワークの有用性に関する包括的研究を行う。 アーキテクチャのパラメータを、デプロイメント中の正しいマッチのごく一部で学習するために、三重項、コントラスト、ArcFaceという3つの異なる損失関数を持つディープラーニンググローバル機能のパフォーマンスを広範囲に比較した。 この結果の有効性を検証するために,屋内と屋外の2つの実世界データセットを用いた。 本研究は,視覚的位置認識タスクにおいて,ArcFace損失を伴う微調整アーキテクチャは,屋外では1~4%,屋内では1~2%の精度で,他の2つの損失よりも優れていたことを示す。

In this paper, we present a comprehensive study on the utility of deep convolutional neural networks with two state-of-the-art pooling layers which are placed after convolutional layers and fine-tuned in an end-to-end manner for visual place recognition task in challenging conditions, including seasonal and illumination variations. We compared extensively the performance of deep learned global features with three different loss functions, e.g. triplet, contrastive and ArcFace, for learning the parameters of the architectures in terms of fraction of the correct matches during deployment. To verify effectiveness of our results, we utilized two real world datasets in place recognition, both indoor and outdoor. Our investigation demonstrates that fine tuning architectures with ArcFace loss in an end-to-end manner outperforms other two losses by approximately 1~4% in outdoor and 1~2% in indoor datasets, given certain thresholds, for the visual place recognition tasks.
翻訳日:2022-11-16 14:43:18 公開日:2022-11-14
# Edge2Vec:Jigsawのパズル問題に対する高品質な埋め込み

Edge2Vec: A High Quality Embedding for the Jigsaw Puzzle Problem ( http://arxiv.org/abs/2211.07771v1 )

ライセンス: Link先を確認
Daniel Rika, Dror Sholomon, Eli David, Nathan S. Netanyahu(参考訳) pairwise compatibility measure(cm)はjigsaw puzzle problem(jpp)と最近提案された多くの変種を解決する上で重要なコンポーネントである。 ディープニューラルネットワーク(DNN)の急速な普及に伴い、性能(すなわち精度)と計算効率のトレードオフが非常に大きな問題となっている。 エンドツーエンドのDNNベースのCMモデルは高い性能を示すが、非常に大きなパズルではほとんど実現不可能となる。 一方,近年の研究によれば,組込みの概念を活用して計算効率を著しく低下させることにより,性能が低下した。 本稿では,上記の速度と精度の差を縮めるための高度なcmモデル(改良組込みとハードバッチ三重項損失と呼ばれる新しい損失関数に基づく)を導出する。 従来の3つのデータセット上で新たに得られたcmを評価した結果, 従来のcmsと比較して, タイプ1およびタイプ2問題に対して5.8%, 19.5%の再構成改善が得られた。

Pairwise compatibility measure (CM) is a key component in solving the jigsaw puzzle problem (JPP) and many of its recently proposed variants. With the rapid rise of deep neural networks (DNNs), a trade-off between performance (i.e., accuracy) and computational efficiency has become a very significant issue. Whereas an end-to-end DNN-based CM model exhibits high performance, it becomes virtually infeasible on very large puzzles, due to its highly intensive computation. On the other hand, exploiting the concept of embeddings to alleviate significantly the computational efficiency, has resulted in degraded performance, according to recent studies. This paper derives an advanced CM model (based on modified embeddings and a new loss function, called hard batch triplet loss) for closing the above gap between speed and accuracy; namely a CM model that achieves SOTA results in terms of performance and efficiency combined. We evaluated our newly derived CM on three commonly used datasets, and obtained a reconstruction improvement of 5.8% and 19.5% for so-called Type-1 and Type-2 problem variants, respectively, compared to best known results due to previous CMs.
翻訳日:2022-11-16 14:42:58 公開日:2022-11-14
# 胸部x線画像に基づく医用画像の自動分類と疾患検出のための深層学習法

Deep learning methods for automatic classification of medical images and disease detection based on chest X-Ray images ( http://arxiv.org/abs/2211.08244v1 )

ライセンス: Link先を確認
Liora Mayats-Alpay(参考訳) X線画像を用いた疾患の検出と分類は、医学や研究の世界で最も困難な課題の1つです。 ディープラーニング手法によるコンピュータビジョンの革新と革新は、胸部X線画像(CXR)からのスクリーニングと検出の迅速かつ正確な診断を可能にする。 本研究では,Deep Learning Pre-trained RepVGGアルゴリズムを用いて肺疾患の迅速検出を行い,特徴抽出と分類を行った。 x線画像の自動分類をcovid-19,肺炎,正常x線症例の3種類に分類した。 まず、興味領域(ROI)の形状を検出するために、ヒストグラム指向勾配(HOG)を用いた。 肺抽出の検出精度を向上させるためにroiオブジェクトを用い,データの前処理と増強を行った。 次に、事前学習されたrepvggモデルを用いて、構造再パラメータ化手法により、マルチからフラットモードへ変換されたトレーニング時間および推論時間アーキテクチャのためのvggおよびresnet畳み込みニューラルネットワークに似た深い特徴抽出と分類を行う。 次に,コンピュータビジョン技術を用いて特徴マップを作成し,元の画像に重畳した。 本手法を用いて, 肺の病変部位の自動強調検出を行った。 x線画像に基づいて,x線画像を高さ精度で分類し,モデルのアーキテクチャ変換により高速に動作させるアルゴリズムを開発した。 深層学習フレームワークの正確性と疾患の検出を比較した。 本研究は,胸部x線を用いたcovid-19検出に基づくx線画像のディープラーニング手法の強力さを示す。 提案フレームワークは,一般的なディープラーニングモデルであるVGG,ResNet50,InceptionV3,DenseNet,InceptionResnetV2を比較することで,より正確な診断精度を示す。

Detecting and classifying diseases using X-Ray images is one of the more challenging core tasks in the medical and research world. Innovations and revolutions of Computer Vision with Deep learning methods offer great promise for fast and accurate diagnosis of screening and detection from chest X-Ray images (CXR). This work presents rapid detection of diseases in the lung using the efficient Deep learning pre-trained RepVGG algorithm for deep feature extraction and classification. We performed automatic classification of X-Ray images into three categories as Covid-19, Pneumonia, and Normal X-Ray cases. For evaluation, first, we used a histogram-oriented gradient (HOG) to detect the shape of the region of interest (ROI). We used the ROI object to improve the detection accuracy for lung extraction, followed by data pre-processing and augmentation. Then a pre-trained RepVGG model is used for deep feature extraction and classification, similar to VGG and ResNet convolutional neural network for the training-time and inference-time architecture transformed from the multi to the flat mode by a structural re-parameterization technique. Next, using the Computer Vision technique, we created a feature map and superimposed it on the original images. We used this technique for the automatic highlighted detection of affected areas of people's lungs. Based on the X-Ray images, we developed an algorithm that classifies X-Ray images with height accuracy and power faster thanks to the architecture transformation of the model. We compare deep learning frameworks' accuracy and detection of disease. The study shows the high power of deep learning methods for X-Ray images based on COVID-19 detection utilizing chest X-Ray. The proposed framework shows better diagnostic accuracy by comparing popular deep learning models, i.e., VGG, ResNet50, inceptionV3, DenseNet, and InceptionResnetV2.
翻訳日:2022-11-16 14:17:24 公開日:2022-11-14
# 多地点脳年齢予測における回帰のコントラスト学習

Contrastive learning for regression in multi-site brain age prediction ( http://arxiv.org/abs/2211.08326v1 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Benoit Dufumier, Edouard Duchesnay, Marco Grangetto, Pietro Gori(参考訳) 脳年齢予測のための正確なディープラーニング(dl)モデルの構築は、神経画像学において非常に重要なトピックであり、神経変性疾患の理解を深め、新しいバイオマーカーを見つけるのに役立つ。 正確で一般化可能なモデルを推定するために、大規模なデータセットが収集されている。 この大きな不均一性は、サイト関連ノイズに過度に適合する傾向にあるため、DLモデルの一般化性能に悪影響を及ぼす。 近年、データやラベルのノイズに対して、対照的な学習アプローチがより堅牢であることが示されている。 そこで本稿では,MRIスキャンを用いた脳年齢予測のための新しい学習遅延損失を提案する。 提案手法は,OpenBHBチャレンジにおける最先端性能を実現し,サイト関連ノイズに対する最高の一般化能力とロバスト性を実現する。

Building accurate Deep Learning (DL) models for brain age prediction is a very relevant topic in neuroimaging, as it could help better understand neurodegenerative disorders and find new biomarkers. To estimate accurate and generalizable models, large datasets have been collected, which are often multi-site and multi-scanner. This large heterogeneity negatively affects the generalization performance of DL models since they are prone to overfit site-related noise. Recently, contrastive learning approaches have been shown to be more robust against noise in data or labels. For this reason, we propose a novel contrastive learning regression loss for robust brain age prediction using MRI scans. Our method achieves state-of-the-art performance on the OpenBHB challenge, yielding the best generalization capability and robustness to site-related noise.
翻訳日:2022-11-16 14:16:50 公開日:2022-11-14
# 複数の言語を話すことが言語モデルのモラルバイアスに影響を及ぼす

Speaking Multiple Languages Affects the Moral Bias of Language Models ( http://arxiv.org/abs/2211.07733v1 )

ライセンス: Link先を確認
Katharina H\"ammerl, Bj\"orn Deiseroth, Patrick Schramowski, Jind\v{r}ich Libovick\'y, Constantin A. Rothkopf, Alexander Fraser, Kristian Kersting(参考訳) 事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。 しかし、pmlmは各言語のさまざまな量のデータに基づいて訓練される。 実際には、他の多くの言語よりも英語の方がパフォーマンスが優れている。 道徳的規範にもどの程度適用できるかを探求する。 モデルは英語から道徳的規範を捉え、他の言語に強制するか? モデルは特定の言語にランダムで潜在的に有害な信念を示すか? どちらの問題も言語間移動に悪影響を及ぼし、有害な結果をもたらす可能性がある。 本稿では,(1)ドイツ語,チェコ語,アラビア語,マンダリン中国語,英語の結果を比較して,MoralDirectionフレームワークを多言語モデルに適用し,(2)フィルタリングしたパラレル字幕コーパスのモデル挙動を分析し,(3)Moral Foundations Questionnaireに適用し,異なる国の人的反応と比較する。 実験の結果,pmlmsは異なる道徳バイアスをコード化しているが,必ずしも人間の意見における文化的差異や共通性に対応しているとは限らない。

Pre-trained multilingual language models (PMLMs) are commonly used when dealing with data from multiple languages and cross-lingual transfer. However, PMLMs are trained on varying amounts of data for each language. In practice this means their performance is often much better on English than many other languages. We explore to what extent this also applies to moral norms. Do the models capture moral norms from English and impose them on other languages? Do the models exhibit random and thus potentially harmful beliefs in certain languages? Both these issues could negatively impact cross-lingual transfer and potentially lead to harmful outcomes. In this paper, we (1) apply the MoralDirection framework to multilingual models, comparing results in German, Czech, Arabic, Mandarin Chinese, and English, (2) analyse model behaviour on filtered parallel subtitles corpora, and (3) apply the models to a Moral Foundations Questionnaire, comparing with human responses from different countries. Our experiments demonstrate that, indeed, PMLMs encode differing moral biases, but these do not necessarily correspond to cultural differences or commonalities in human opinions.
翻訳日:2022-11-16 14:16:21 公開日:2022-11-14
# コントラスト学習と表現構造を用いた生成的アスペクトベース感情分析

Generative Aspect-Based Sentiment Analysis with Contrastive Learning and Expressive Structure ( http://arxiv.org/abs/2211.07743v1 )

ライセンス: Link先を確認
Joseph J. Peper, Lu Wang(参考訳) Aspect-based Sentiment Analysis(ABSA)タスク、特にAspect-Category-Opinion-Sentiment(ACOS)四重項抽出タスクにおいて、生成モデルが顕著な結果を示した。 しかし、これらのモデルは、オンラインレビューのような意見コンテンツで一般的に見られる暗黙的な感情表現に苦しむ。 本稿では、ACOS四重項抽出のための構造生成を改善する2つの技術からなるGEN-SCL-NATを紹介する。 まず、感傷極性や暗黙の意見や側面など、キー入力属性間で識別可能な入力表現をモデルに生成させることで、4倍の予測を支援する教師付きコントラスト学習目標であるgen-sclを提案する。 第二にGEN-NATは、自己回帰エンコーダデコーダモデルに適応し、生成方式で四重項を抽出する新しい構造生成フォーマットである。 実験結果から、GEN-SCL-NATは3つのACOSデータセットで最高パフォーマンスを達成し、平均1.48%のF1改善を実現し、LAPTOP-L1データセットでは最大1.73%増加した。 さらに、既存のACOSアプローチでは、暗黙的な側面や意見の分裂が困難であることが示されている。

Generative models have demonstrated impressive results on Aspect-based Sentiment Analysis (ABSA) tasks, particularly for the emerging task of extracting Aspect-Category-Opinion-Sentiment (ACOS) quadruples. However, these models struggle with implicit sentiment expressions, which are commonly observed in opinionated content such as online reviews. In this work, we introduce GEN-SCL-NAT, which consists of two techniques for improved structured generation for ACOS quadruple extraction. First, we propose GEN-SCL, a supervised contrastive learning objective that aids quadruple prediction by encouraging the model to produce input representations that are discriminable across key input attributes, such as sentiment polarity and the existence of implicit opinions and aspects. Second, we introduce GEN-NAT, a new structured generation format that better adapts autoregressive encoder-decoder models to extract quadruples in a generative fashion. Experimental results show that GEN-SCL-NAT achieves top performance across three ACOS datasets, averaging 1.48% F1 improvement, with a maximum 1.73% increase on the LAPTOP-L1 dataset. Additionally, we see significant gains on implicit aspect and opinion splits that have been shown as challenging for existing ACOS approaches.
翻訳日:2022-11-16 14:16:04 公開日:2022-11-14
# 確率的支配制約による最適化の学習

Learning to Optimize with Stochastic Dominance Constraints ( http://arxiv.org/abs/2211.07767v1 )

ライセンス: Link先を確認
Hanjun Dai, Yuan Xue, Niao He, Bethany Wang, Na Li, Dale Schuurmans, Bo Dai(参考訳) 現実世界の意思決定では、不確実性は重要で扱いにくい。 確率支配は、不確実量を比較するための理論的に健全なアプローチを提供するが、確率支配の制約による最適化はしばしば計算コストが高く、実用的な適用性を制限する。 本稿では,Lagrangian の有用な性質を生かした簡易かつ効率的な方法である Light Stochastic Dominance Solver (light-SD) を提案する。 我々は、ラグランジアンの内部最適化をサロゲート近似の学習問題として再考し、これは明らかな難解さを回避し、グラデーション計算のための引き込み可能な更新やクローズドフォームの解にも繋がる。 アルゴリズムの収束を証明し、経験的にテストします。 提案するlight-sdは,金融からサプライチェーン管理に至るまで,いくつかの代表的な問題において優れた性能を示す。

In real-world decision-making, uncertainty is important yet difficult to handle. Stochastic dominance provides a theoretically sound approach for comparing uncertain quantities, but optimization with stochastic dominance constraints is often computationally expensive, which limits practical applicability. In this paper, we develop a simple yet efficient approach for the problem, the Light Stochastic Dominance Solver (light-SD), that leverages useful properties of the Lagrangian. We recast the inner optimization in the Lagrangian as a learning problem for surrogate approximation, which bypasses apparent intractability and leads to tractable updates or even closed-form solutions for gradient calculations. We prove convergence of the algorithm and test it empirically. The proposed light-SD demonstrates superior performance on several representative problems ranging from finance to supply chain management.
翻訳日:2022-11-16 14:08:25 公開日:2022-11-14
# トポロジカルな特徴を持つニューラルネットワークは、異なる内部表現を学ぶか?

Do Neural Networks Trained with Topological Features Learn Different Internal Representations? ( http://arxiv.org/abs/2211.07697v1 )

ライセンス: Link先を確認
Sarah McGuire, Shane Jackson, Tegan Emerson, Henry Kvinge(参考訳) トポロジカルデータ分析によって抽出された機能を活用して、機械学習モデルをトレーニングする作業が増えている。 この分野は、しばしばトポロジカル機械学習(TML)として知られているが、トポロジカル特徴から学習する過程が生データから学習する過程とどのように異なるかを理解することは、まだ限られている。 本研究では,トポロジカルな特徴で訓練されたモデルが,原生データで学習したモデルと根本的に異なるデータの内部表現を学習するかどうかを問うことで,この大きな問題の1つに対処し始める。 different''を定量化するために、ニューラルネットワーク内のデータの隠れた表現の類似性、ニューラルネットワークの縫い付け、中心的カーネルアライメントの測定に使用できる2つの一般的なメトリクスを利用する。 これらのことから、トポロジカルな特徴を持つトレーニングがどのように行われ、モデルが学習する表現を変えないかについて、さまざまな結論を導き出します。 おそらく当然のことながら、構造的には、トポロジカルな特徴で訓練・評価されたモデルの隠れ表現は、対応する生データで訓練・評価されたモデルと大きく異なる。 一方,本実験では,これらの表現を単純なアフィン変換を用いて (少なくとも対応するタスクを解くために必要な程度に) 整合できることが示されている。 これは、生データに基づいてトレーニングされたニューラルネットワークが、予測を行う過程で限られたトポロジ的特徴を抽出することを意味する。

There is a growing body of work that leverages features extracted via topological data analysis to train machine learning models. While this field, sometimes known as topological machine learning (TML), has seen some notable successes, an understanding of how the process of learning from topological features differs from the process of learning from raw data is still limited. In this work, we begin to address one component of this larger issue by asking whether a model trained with topological features learns internal representations of data that are fundamentally different than those learned by a model trained with the original raw data. To quantify ``different'', we exploit two popular metrics that can be used to measure the similarity of the hidden representations of data within neural networks, neural stitching and centered kernel alignment. From these we draw a range of conclusions about how training with topological features does and does not change the representations that a model learns. Perhaps unsurprisingly, we find that structurally, the hidden representations of models trained and evaluated on topological features differ substantially compared to those trained and evaluated on the corresponding raw data. On the other hand, our experiments show that in some cases, these representations can be reconciled (at least to the degree required to solve the corresponding task) using a simple affine transformation. We conjecture that this means that neural networks trained on raw data may extract some limited topological features in the process of making predictions.
翻訳日:2022-11-16 14:07:37 公開日:2022-11-14
# 時空間パターン認識におけるスパイキングニューロンの漏洩とネットワーク再帰の影響

Impact of spiking neurons leakages and network recurrences on event-based spatio-temporal pattern recognition ( http://arxiv.org/abs/2211.07761v1 )

ライセンス: Link先を確認
Mohamed Sadek Bouanane, Dalila Cherifi, Elisabetta Chicca, Lyes Khacef(参考訳) ニューロモルフィックハードウェアとイベントベースのセンサーを組み合わせたスパイクニューラルネットワークは、エッジにおける低レイテンシと低パワー推論への関心が高まっている。 しかし、複数のスパイキングニューロンモデルが生物学的妥当性のレベルと計算特性と複雑さの異なる文献で提案されている。 したがって、神経形ハードウェアの精度、効率、高速推論において最高の性能を得るためには、生物学からの適切な抽象化レベルを定義する必要がある。 この文脈では、スパイクニューロンにおけるシナプスおよび膜漏出の影響について検討する。 我々は,イベントベース視覚・聴覚パターン認識のためのフィードフォワードとリカレントトポロジーを用いて,計算の複雑さが異なる3つのニューラルモデルに挑戦する。 その結果,データの時間的情報とネットワークの明示的な再帰性の両方がある場合,正確性の観点からは漏洩が重要であることがわかった。 さらに、漏洩は必ずしもネットワーク内を流れるスパイクの空間を増大させるとは限らない。 また, 漏洩の時間定数における不均一性の影響についても検討し, 豊富な時間構造を持つデータを用いた場合の精度は若干向上した。 これらの結果は,神経リークとネットワーク再発の計算的役割を理解し,組み込みシステムのためのコンパクトでエネルギー効率の良いニューロモルフィックハードウェアの設計に有用な知見を与える。

Spiking neural networks coupled with neuromorphic hardware and event-based sensors are getting increased interest for low-latency and low-power inference at the edge. However, multiple spiking neuron models have been proposed in the literature with different levels of biological plausibility and different computational features and complexities. Consequently, there is a need to define the right level of abstraction from biology in order to get the best performance in accurate, efficient and fast inference in neuromorphic hardware. In this context, we explore the impact of synaptic and membrane leakages in spiking neurons. We confront three neural models with different computational complexities using feedforward and recurrent topologies for event-based visual and auditory pattern recognition. Our results show that, in terms of accuracy, leakages are important when there are both temporal information in the data and explicit recurrence in the network. In addition, leakages do not necessarily increase the sparsity of spikes flowing in the network. We also investigate the impact of heterogeneity in the time constant of leakages, and the results show a slight improvement in accuracy when using data with a rich temporal structure. These results advance our understanding of the computational role of the neural leakages and network recurrences, and provide valuable insights for the design of compact and energy-efficient neuromorphic hardware for embedded systems.
翻訳日:2022-11-16 14:00:20 公開日:2022-11-14
# 空間画像からの流体レンズ効果の除去

Removing fluid lensing effects from spatial images ( http://arxiv.org/abs/2211.07648v1 )

ライセンス: Link先を確認
Greg Sabella(参考訳) サンゴ礁や海草の草原のような浅瀬や沿岸の水生生態系は、地球の気候や生物多様性の変化を調節し理解する上で重要な役割を担っている。 また、町や都市を浸食や暴風雨から守る上でも重要な役割を担っている。 しかし、リモートセンシング(ドローン、UAV、衛星)に使用される技術は、これらの生態系の詳細な画像を作成することはできない。 水中の物体に表面波や光によって引き起こされる歪みである流体レンズ効果は、これらの生態系のリモートセンシングを非常に難しい課題にしている。 機械学習を用いて、これらの効果のほとんどを取り除き、より安定した画像を生成することができる概念実証モデルが開発された。

Shallow water and coastal aquatic ecosystems such as coral reefs and seagrass meadows play a critical role in regulating and understanding Earth's changing climate and biodiversity. They also play an important role in protecting towns and cities from erosion and storm surges. Yet technology used for remote sensing (drones, UAVs, satellites) cannot produce detailed images of these ecosystems. Fluid lensing effects, the distortions caused by surface waves and light on underwater objects, are what makes the remote sensing of these ecosystems a very challenging task. Using machine learning, a proof of concept model was developed that is able to remove most of these effects and produce a clearer more stable image.
翻訳日:2022-11-16 14:00:00 公開日:2022-11-14
# 教師なし不確実性駆動音声擬似ラベルフィルタリングとモデルキャリブレーションについて

On Unsupervised Uncertainty-Driven Speech Pseudo-Label Filtering and Model Calibration ( http://arxiv.org/abs/2211.07795v1 )

ライセンス: Link先を確認
Nauman Dawalatabad, Sameer Khurana, Antoine Laurent, James Glass(参考訳) Pseudo-label (PL) フィルタリングは、教師なしドメイン適応のための自己訓練(ST)手法の重要な部分を形成する。 ドロップアウトベースの不確実性駆動セルフトレーニング(dust)は、まず、ソースドメインラベル付きデータで教師モデルをトレーニングする。 そして、教師モデルを用いて、未ラベルのターゲットドメインデータに対してPLを提供する。 最後に,ラベル付きおよび擬似ラベル付きデータを用いて学生を訓練する。 プロセスは反復的であり、学生が次のDUSTイテレーションの教師になる。 各DUSTイテレーションで学生モデルトレーニングに先立つ重要なステップは、学生モデルアストレイを導くうるノイズの多いPLをフィルタリングすることだ。 本研究は,教師モデルの予測の不確実性に基づく単純,効果的,理論的に有理なplフィルタリング手法を提案する。 本研究では,教師モデルから抽出した複数のサンプル間の不一致の計算によるモデルの不確実性の推定を行う。 本研究では,DUST の PL フィルタリングが当初使用されていたように,厳しいソースとターゲットドメインのミスマッチの下で失敗する可能性があることを示す。 この問題を排除または緩和するためのいくつかのアプローチを提案する。 さらに,ニューラルネットワークモデルキャリブレーションの研究成果をDUSTに持ち込み,よく校正されたモデルがDUST PLフィルタリングステップの正の結果と強く相関していることを示す。

Pseudo-label (PL) filtering forms a crucial part of Self-Training (ST) methods for unsupervised domain adaptation. Dropout-based Uncertainty-driven Self-Training (DUST) proceeds by first training a teacher model on source domain labeled data. Then, the teacher model is used to provide PLs for the unlabeled target domain data. Finally, we train a student on augmented labeled and pseudo-labeled data. The process is iterative, where the student becomes the teacher for the next DUST iteration. A crucial step that precedes the student model training in each DUST iteration is filtering out noisy PLs that could lead the student model astray. In DUST, we proposed a simple, effective, and theoretically sound PL filtering strategy based on the teacher model's uncertainty about its predictions on unlabeled speech utterances. We estimate the model's uncertainty by computing disagreement amongst multiple samples drawn from the teacher model during inference by injecting noise via dropout. In this work, we show that DUST's PL filtering, as initially used, may fail under severe source and target domain mismatch. We suggest several approaches to eliminate or alleviate this issue. Further, we bring insights from the research in neural network model calibration to DUST and show that a well-calibrated model correlates strongly with a positive outcome of the DUST PL filtering step.
翻訳日:2022-11-16 13:59:49 公開日:2022-11-14
# 変分オートエンコーダ

Disentangling Variational Autoencoders ( http://arxiv.org/abs/2211.07700v1 )

ライセンス: Link先を確認
Rafael Pastrana(参考訳) 可変オートエンコーダ(VAE)は、低次元の潜在空間に高次元データの入力セットを投影する後方推論のための確率論的機械学習フレームワークである。 vaeで学んだ潜在性は、創造的な分野において新しいデータ駆動設計プロセスを開発するエキサイティングな機会を提供します。 しかし、学習された潜伏空間は典型的には分解され、絡み合わされ、単一の次元に沿って潜伏空間を横切ると、データの単一の視覚特性が変化しない。 潜在構造が欠如していることは、潜在空間から生成される新しいデザインの視覚的属性を故意に制御することを妨げる。 本稿では,潜伏空間の絡み合いを実験的に検討する。 文献から3つの異なるVAEモデルを実装し、手書き桁の6万の画像のデータセットでそれらをトレーニングする。 本研究では,データのログ周縁確率に対する下限を最大化するために,少数の潜在次元を求めるための感度解析を行う。 さらに,復号画像の復元品質と潜在空間の絡み合いの程度とのトレードオフについて検討した。 線形重み、傾き、幅の3つの解釈可能な視覚特性で、3つの潜在次元を自動的に整列することができる。 私たちの実験は 一 潜伏者に対する先行者間のクルバック・リーブラー分岐の寄与の増大及び証拠の低限界に対する変動分布 二 条件入力画像クラスは、VAEによる非絡み合った潜伏空間の学習を強化する。

A variational autoencoder (VAE) is a probabilistic machine learning framework for posterior inference that projects an input set of high-dimensional data to a lower-dimensional, latent space. The latent space learned with a VAE offers exciting opportunities to develop new data-driven design processes in creative disciplines, in particular, to automate the generation of multiple novel designs that are aesthetically reminiscent of the input data but that were unseen during training. However, the learned latent space is typically disorganized and entangled: traversing the latent space along a single dimension does not result in changes to single visual attributes of the data. The lack of latent structure impedes designers from deliberately controlling the visual attributes of new designs generated from the latent space. This paper presents an experimental study that investigates latent space disentanglement. We implement three different VAE models from the literature and train them on a publicly available dataset of 60,000 images of hand-written digits. We perform a sensitivity analysis to find a small number of latent dimensions necessary to maximize a lower bound to the log marginal likelihood of the data. Furthermore, we investigate the trade-offs between the quality of the reconstruction of the decoded images and the level of disentanglement of the latent space. We are able to automatically align three latent dimensions with three interpretable visual properties of the digits: line weight, tilt and width. Our experiments suggest that i) increasing the contribution of the Kullback-Leibler divergence between the prior over the latents and the variational distribution to the evidence lower bound, and ii) conditioning input image class enhances the learning of a disentangled latent space with a VAE.
翻訳日:2022-11-16 13:52:51 公開日:2022-11-14
# 分布外検出のための消音拡散モデル

Denoising Diffusion Models for Out-of-Distribution Detection ( http://arxiv.org/abs/2211.07740v1 )

ライセンス: Link先を確認
Mark S. Graham, Walter H.L. Pinaya, Petru-Daniel Tudosiu, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 分散検出は、機械学習システムの安全な展開に不可欠である。 現在、教師なしの分配外検出の最先端は、生成モデルからの可能性または他の測定値の推定を利用する生成的アプローチによって支配されている。 レコンストラクションに基づく手法は、サンプルが配布外であるかどうかを判断するために再構成誤差の尺度を使用する別のアプローチを提供する。 しかし、再構築に基づくアプローチは、良い結果を得るためにモデルの情報ボトルネック(潜伏次元のサイズなど)を慎重にチューニングする必要があるため、あまり好ましくない。 本研究では,拡散確率モデル(DDPM)を,ボトルネックが外部に制御される自己エンコーダを雑音の量で識別する手法として活用する。 DDPMを用いてノイズレベルの範囲の入力を再構成し,その結果の多次元再構成誤差を用いて分布外入力を分類する。 提案手法は, 復元法だけでなく, 最先端の生成法にも優れる。

Out-of-distribution detection is crucial to the safe deployment of machine learning systems. Currently, the state-of-the-art in unsupervised out-of-distribution detection is dominated by generative-based approaches that make use of estimates of the likelihood or other measurements from a generative model. Reconstruction-based methods offer an alternative approach, in which a measure of reconstruction error is used to determine if a sample is out-of-distribution. However, reconstruction-based approaches are less favoured, as they require careful tuning of the model's information bottleneck - such as the size of the latent dimension - to produce good results. In this work, we exploit the view of denoising diffusion probabilistic models (DDPM) as denoising autoencoders where the bottleneck is controlled externally, by means of the amount of noise applied. We propose to use DDPMs to reconstruct an input that has been noised to a range of noise levels, and use the resulting multi-dimensional reconstruction error to classify out-of-distribution inputs. Our approach outperforms not only reconstruction-based methods, but also state-of-the-art generative-based approaches.
翻訳日:2022-11-16 13:52:26 公開日:2022-11-14
# 階層的構造化タスク非依存型連続学習

Hierarchically Structured Task-Agnostic Continual Learning ( http://arxiv.org/abs/2211.07725v1 )

ライセンス: Link先を確認
Heinke Hihn, Daniel A. Braun(参考訳) 現在の機械学習アルゴリズムの顕著な弱点の1つは、モデルが以前獲得した知識を忘れずに新しい問題を解決する能力の欠如である。 連続学習パラダイムは、一連のタスクによって生成されたサンプルを逐次観察する設定を体系的に調査するプロトコルとして登場した。 本研究では,連続学習のタスクに依存しない視点を取り入れ,学習と忘れのトレードオフを促進する階層的情報理論の最適性原理を開発する。 我々はこの原理をベイズ的視点から導き出し、連続学習への従来のアプローチとのつながりを示す。 この原理に基づき,ガティングポリシーによって制御されるネットワークを通して情報処理パスの集合を作成することにより,忘れを緩和する,mixing-of-variational-experts層と呼ばれるニューラルネットワーク層を提案する。 多様な特殊なパラメータセットを備えており、各パスはタスクの解き方を学ぶ独立したサブネットワークと見なすことができる。 専門家の割当を改善するために,我々はさらなるアブレーション研究で評価する多様性目標を提案する。 重要なことは,既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない,タスクに依存しない方法で動作させることである。 汎用的ユーティリティ関数に基づく一般的な定式化により,この最適性原理を教師あり学習,強化学習,生成モデリングなど,多種多様な学習問題に適用することができる。 我々は,MNIST, CIFAR-10, CIFAR-100データセットの連続的強化学習と変種に対する提案手法の競合性能を示す。

One notable weakness of current machine learning algorithms is the poor ability of models to solve new problems without forgetting previously acquired knowledge. The Continual Learning paradigm has emerged as a protocol to systematically investigate settings where the model sequentially observes samples generated by a series of tasks. In this work, we take a task-agnostic view of continual learning and develop a hierarchical information-theoretic optimality principle that facilitates a trade-off between learning and forgetting. We derive this principle from a Bayesian perspective and show its connections to previous approaches to continual learning. Based on this principle, we propose a neural network layer, called the Mixture-of-Variational-Experts layer, that alleviates forgetting by creating a set of information processing paths through the network which is governed by a gating policy. Equipped with a diverse and specialized set of parameters, each path can be regarded as a distinct sub-network that learns to solve tasks. To improve expert allocation, we introduce diversity objectives, which we evaluate in additional ablation studies. Importantly, our approach can operate in a task-agnostic way, i.e., it does not require task-specific knowledge, as is the case with many existing continual learning algorithms. Due to the general formulation based on generic utility functions, we can apply this optimality principle to a large variety of learning problems, including supervised learning, reinforcement learning, and generative modeling. We demonstrate the competitive performance of our method on continual reinforcement learning and variants of the MNIST, CIFAR-10, and CIFAR-100 datasets.
翻訳日:2022-11-16 13:42:05 公開日:2022-11-14
# 説明者発散スコア(eds) : 未知の散発的相関の検出に有効なポストホックな説明

Explainer Divergence Scores (EDS): Some Post-Hoc Explanations May be Effective for Detecting Unknown Spurious Correlations ( http://arxiv.org/abs/2211.07650v1 )

ライセンス: Link先を確認
Shea Cardozo, Gabriel Islas Montero, Dmitry Kazhdan, Botty Dimanov, Maleakhi Wijaya, Mateja Jamnik and Pietro Lio(参考訳) 最近の研究は、ディープニューラルネットワーク(dnn)のスプリアス相関を検出するのにポストホックな説明器が非有効であることを示唆している。 しかし,既存の評価フレームワークに重大な弱点があることは明らかである。 提案されているメトリクスは解釈が極めて困難であり、説明者メソッドと直接比較できない。 これらの制約を緩和するため,説明者評価のための情報理論アプローチを基礎とした新しい評価手法 Explainer Divergence Scores (EDS) を提案する。 EDSは簡単に解釈でき、説明者間で自然に匹敵する。 提案手法は,2つの異なる画像データセット上で,特徴属性法,影響例,概念抽出の3つの異なる説明器の検出性能を比較するために用いられる。 ポストホックな説明者は、しばしばdnnのスプリアスアーティファクトへの依存に関する実質的な情報を含んでいるが、人間のユーザには受け入れがたい。 これは、この情報を利用してdnnがスプリアス相関に依存することをより正確に検出できる新しい技術の必要性を示唆する。

Recent work has suggested post-hoc explainers might be ineffective for detecting spurious correlations in Deep Neural Networks (DNNs). However, we show there are serious weaknesses with the existing evaluation frameworks for this setting. Previously proposed metrics are extremely difficult to interpret and are not directly comparable between explainer methods. To alleviate these constraints, we propose a new evaluation methodology, Explainer Divergence Scores (EDS), grounded in an information theory approach to evaluate explainers. EDS is easy to interpret and naturally comparable across explainers. We use our methodology to compare the detection performance of three different explainers - feature attribution methods, influential examples and concept extraction, on two different image datasets. We discover post-hoc explainers often contain substantial information about a DNN's dependence on spurious artifacts, but in ways often imperceptible to human users. This suggests the need for new techniques that can use this information to better detect a DNN's reliance on spurious correlations.
翻訳日:2022-11-16 13:34:45 公開日:2022-11-14
# 不均衡な医療データに基づくストローク予測のための機械学習性能解析

Machine Learning Performance Analysis to Predict Stroke Based on Imbalanced Medical Dataset ( http://arxiv.org/abs/2211.07652v1 )

ライセンス: Link先を確認
Yuru Jing(参考訳) 脳卒中は、世界で2番目に重大な死因であり、ここ数年で主要な公衆衛生上の問題となっている。 機械学習技術の助けを借りて、様々なストロークアラートの早期検出が可能であるため、ストロークを効果的に防止または低減することができる。 しかし、医療データセットは、しばしばクラスラベルで不均衡であり、少数クラスの予測が不十分な傾向にある。 本稿では,脳卒中リスク要因について検討する。 さらに、アンサンブル重み投票分類器、合成マイノリティオーバーサンプリング技術(smote)、主成分分析によるk-meansクラスタリング(pca-kmeans)、深層ニューラルネットワーク(dnn)による焦点損失、それらの性能の比較を含む、不均衡脳卒中データセットにおけるマイノリティクラスの分類を改善するために4つの異なるアプローチが適用されている。 解析結果から,DNN-Focal Lossを用いたSMOTEとPCA-Kmeansは,Kaggleの2~4倍の大規模な不均衡データセットの限られたサイズで動作する。

Cerebral stroke, the second most substantial cause of death universally, has been a primary public health concern over the last few years. With the help of machine learning techniques, early detection of various stroke alerts is accessible, which can efficiently prevent or diminish the stroke. Medical dataset, however, are frequently unbalanced in their class label, with a tendency to poorly predict minority classes. In this paper, the potential risk factors for stroke are investigated. Moreover, four distinctive approaches are applied to improve the classification of the minority class in the imbalanced stroke dataset, which are the ensemble weight voting classifier, the Synthetic Minority Over-sampling Technique (SMOTE), Principal Component Analysis with K-Means Clustering (PCA-Kmeans), Focal Loss with the Deep Neural Network (DNN) and compare their performance. Through the analysis results, SMOTE and PCA-Kmeans with DNN-Focal Loss work best for the limited size of a large severe imbalanced dataset,which is 2-4 times outperform Kaggle work.
翻訳日:2022-11-16 13:34:25 公開日:2022-11-14
# 2層ニューラルネットワークパラメトリゼーションを用いた適合q音の大域収束について

On the Global Convergence of Fitted Q-Iteration with Two-layer Neural Network Parametrization ( http://arxiv.org/abs/2211.07675v1 )

ライセンス: Link先を確認
Mudit Gaur, Vaneet Aggarwal, Mridul Aggarwal(参考訳) 深いQ-ラーニングに基づくアルゴリズムは多くの意思決定問題にうまく適用されているが、理論的基礎はよく理解されていない。 本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。 このアプローチは凸最適化問題を用いて各イテレーションのQ関数を推定する。 このアプローチは、オーダー最適化である$\tilde{\mathcal{O}}(1/\epsilon^{2})$のサンプル複雑性を実現する。 この結果は可算状態空間に対して成り立ち、MDP上の線型構造や低階構造のような仮定は不要である。

Deep Q-learning based algorithms have been applied successfully in many decision making problems, while their theoretical foundations are not as well understood. In this paper, we study a Fitted Q-Iteration with two-layer ReLU neural network parametrization, and find the sample complexity guarantees for the algorithm. The approach estimates the Q-function in each iteration using a convex optimization problem. We show that this approach achieves a sample complexity of $\tilde{\mathcal{O}}(1/\epsilon^{2})$, which is order-optimal. This result holds for a countable state-space and does not require any assumptions such as a linear or low rank structure on the MDP.
翻訳日:2022-11-16 13:34:01 公開日:2022-11-14
# 外挿・規則理解のための論理課題

Logical Tasks for Measuring Extrapolation and Rule Comprehension ( http://arxiv.org/abs/2211.07727v1 )

ライセンス: Link先を確認
Ippei Fujisawa, Ryota Kanai(参考訳) 論理的推論は様々な人間の活動に不可欠である。 論理タスクの代表的な例は数学である。 近年,大規模データセットで訓練された大規模モデルは様々な分野で成功しているが,算術的タスクにおける推論能力は限られており,実験的に再現されている。 ここでは、この制限は数学に固有のものではなく、論理演算を必要とするタスクに共通していると再考する。 次に、次に対処すべき課題となる、論理的タスクと呼ばれる新しいタスクセットを提案する。 このより高い視点は、個々のタスクのソリューションを越えて幅広い影響を持つ帰納的バイアスの開発に役立つ。 論理的タスクを定義し,そのソリューションのシステム要件について議論する。 さらに,外挿,説明可能性,帰納バイアスといった概念に対する論理タスクの関連性について考察する。 最後に、論理的タスクの解法を提供する。

Logical reasoning is essential in a variety of human activities. A representative example of a logical task is mathematics. Recent large-scale models trained on large datasets have been successful in various fields, but their reasoning ability in arithmetic tasks is limited, which we reproduce experimentally. Here, we recast this limitation as not unique to mathematics but common to tasks that require logical operations. We then propose a new set of tasks, termed logical tasks, which will be the next challenge to address. This higher point of view helps the development of inductive biases that have broad impact beyond the solution of individual tasks. We define and characterize logical tasks and discuss system requirements for their solution. Furthermore, we discuss the relevance of logical tasks to concepts such as extrapolation, explainability, and inductive bias. Finally, we provide directions for solving logical tasks.
翻訳日:2022-11-16 13:33:51 公開日:2022-11-14
# 効率的かつコンパクトな多視点3D検出に向けた構造的知識蒸留

Structured Knowledge Distillation Towards Efficient and Compact Multi-View 3D Detection ( http://arxiv.org/abs/2211.08398v1 )

ライセンス: Link先を確認
Linfeng Zhang, Yukang Shi, Hung-Shuo Tai, Zhipeng Zhang, Yuan He, Ke Wang, Kaisheng Ma(参考訳) 多視点画像から3Dオブジェクトを検出することは、3Dコンピュータビジョンの基本的な問題である。 近年,マルチビュー3d検出タスクにおいて大きなブレークスルーが達成されている。 しかし、これらの視覚BEV(バードアイビュー)検出モデルの前例のない検出性能は、膨大なパラメータと計算を伴うため、エッジデバイスでは達成できない。 この問題に対処するため,本稿では,現代的な視覚のみのbev検出モデルの効率向上を目的とした構造化知識蒸留フレームワークを提案する。 提案するフレームワークは主に次のとおりである。 (a)異なるタイムスタンプや視点から情報融合に関する教師の知識を蒸留する時空間蒸留 (b)異なる柱に対して教師の反応を蒸留するbev応答蒸留 (c)現代変圧器建築における学生と教師の不整合入力の問題を解決する重み継承 実験結果から,本手法はnuScenesベンチマークにおいて平均2.16mAPおよび2.27NDSの改善を達成し,複数のベースラインを大きなマージンで上回ることがわかった。

Detecting 3D objects from multi-view images is a fundamental problem in 3D computer vision. Recently, significant breakthrough has been made in multi-view 3D detection tasks. However, the unprecedented detection performance of these vision BEV (bird's-eye-view) detection models is accompanied with enormous parameters and computation, which make them unaffordable on edge devices. To address this problem, in this paper, we propose a structured knowledge distillation framework, aiming to improve the efficiency of modern vision-only BEV detection models. The proposed framework mainly includes: (a) spatial-temporal distillation which distills teacher knowledge of information fusion from different timestamps and views, (b) BEV response distillation which distills teacher response to different pillars, and (c) weight-inheriting which solves the problem of inconsistent inputs between students and teacher in modern transformer architectures. Experimental results show that our method leads to an average improvement of 2.16 mAP and 2.27 NDS on the nuScenes benchmark, outperforming multiple baselines by a large margin.
翻訳日:2022-11-16 13:24:41 公開日:2022-11-14
# 静的知識蒸留のための解釈可能なニューロン埋め込み

An Interpretable Neuron Embedding for Static Knowledge Distillation ( http://arxiv.org/abs/2211.07647v1 )

ライセンス: Link先を確認
Wei Han, Yangqiming Wang, Christian B\"ohm, Junming Shao(参考訳) ディープニューラルネットワークは様々なタスクで優れた性能を示しているが、モデルの解釈の貧弱さは常に批判されている。 本稿では,ニューロンを意味空間に埋め込んで,その内在的グローバルな意味論を抽出する,新しい解釈可能なニューラルネットワーク手法を提案する。 モデル内の潜伏知識を探索する従来の手法とは対照的に,提案したセマンティックベクトルは潜伏知識を静的知識に外部化する。 特に、同様の活性化を持つニューロンは、類似した意味情報のものであると仮定する。 その後、ニューラルネットワークのトレーニング中に、アクティベーション類似性とセマンティクスベクトル類似性を連続的に調整することにより、セマンティクスベクトルを最適化する。 意味ベクトルの可視化により、ニューラルネットワークの質的な説明が可能になる。 さらに,知識蒸留タスクによって静的知識を定量的に評価する。 可視化の実証実験では、意味ベクトルはニューロンの活性化の意味をうまく表現している。 教師モデルからのサンプル・バイ・サンプルの指導がなければ、静的知識蒸留は既存の関係性に基づく知識蒸留法と同等あるいはそれ以上の性能を示す。

Although deep neural networks have shown well-performance in various tasks, the poor interpretability of the models is always criticized. In the paper, we propose a new interpretable neural network method, by embedding neurons into the semantic space to extract their intrinsic global semantics. In contrast to previous methods that probe latent knowledge inside the model, the proposed semantic vector externalizes the latent knowledge to static knowledge, which is easy to exploit. Specifically, we assume that neurons with similar activation are of similar semantic information. Afterwards, semantic vectors are optimized by continuously aligning activation similarity and semantic vector similarity during the training of the neural network. The visualization of semantic vectors allows for a qualitative explanation of the neural network. Moreover, we assess the static knowledge quantitatively by knowledge distillation tasks. Empirical experiments of visualization show that semantic vectors describe neuron activation semantics well. Without the sample-by-sample guidance from the teacher model, static knowledge distillation exhibit comparable or even superior performance with existing relation-based knowledge distillation methods.
翻訳日:2022-11-16 13:22:41 公開日:2022-11-14
# 超構造グラフ畳み込みネットによる配電系統の信頼性評価

Evaluating Distribution System Reliability with Hyperstructures Graph Convolutional Nets ( http://arxiv.org/abs/2211.07645v1 )

ライセンス: Link先を確認
Yuzhou Chen, Tian Jiang, Miguel Heleno, Alexandre Moreira, Yulia R. Gel(参考訳) 現在、電力システムコミュニティでは、拡大を続けるエネルギーセクターのニーズを満たすために、もはや物理モデルのみに頼ることは不可能であり、人工知能(AI)ツールの体系的な統合なしには、信頼性、時間的、持続的なエネルギーシステムの運用は不可能である、と広く認識されている。 それでも、電力システムにおけるAIの採用は限定的であり、特に配電網投資計画へのAIの統合は、まだ未知の領域である。 このギャップを埋める第一歩として,超構造表現学習フレームワークとグラフ畳み込みネットワークが,レジリエンス目標の精度,信頼性,計算効率のよい分散グリッド計画にどのように活用されているかを示す。 さらに,ハイパー構造グラフ畳み込みニューラルネットワーク(Hyper-GCNN)を提案する。 数値実験の結果,超gcnns手法は,分散グリッド計画における一般的な手法に比べ計算効率が大幅に向上し,ディープラーニング(dl)コミュニティの7つの最先端モデルを上回ることがわかった。

Nowadays, it is broadly recognized in the power system community that to meet the ever expanding energy sector's needs, it is no longer possible to rely solely on physics-based models and that reliable, timely and sustainable operation of energy systems is impossible without systematic integration of artificial intelligence (AI) tools. Nevertheless, the adoption of AI in power systems is still limited, while integration of AI particularly into distribution grid investment planning is still an uncharted territory. We make the first step forward to bridge this gap by showing how graph convolutional networks coupled with the hyperstructures representation learning framework can be employed for accurate, reliable, and computationally efficient distribution grid planning with resilience objectives. We further propose a Hyperstructures Graph Convolutional Neural Networks (Hyper-GCNNs) to capture hidden higher order representations of distribution networks with attention mechanism. Our numerical experiments show that the proposed Hyper-GCNNs approach yields substantial gains in computational efficiency compared to the prevailing methodology in distribution grid planning and also noticeably outperforms seven state-of-the-art models from deep learning (DL) community.
翻訳日:2022-11-16 13:07:33 公開日:2022-11-14
# ニューラルネットワークにおけるバイアスの解釈:表現の類似性への視点

Interpreting Bias in the Neural Networks: A Peek Into Representational Similarity ( http://arxiv.org/abs/2211.07774v1 )

ライセンス: Link先を確認
Gnyanesh Bangaru, Lalith Bharadwaj Baru and Kiran Chakravarthula(参考訳) 標準画像分類データセットに基づいてトレーニングされたニューラルネットワークは、データセットバイアスに対する耐性が低いことが示されている。 バイアスのあるデータに対する優れた性能に対応する可能性のある行動目的関数を理解する必要がある。 しかし、偏りのあるデータセット上でトレーニングされた場合、目的関数の選択とその表現構造に関する研究はほとんどない。 本稿では,様々な目的関数を用いたバイアスデータに基づく畳み込み型ニューラルネットワーク(resnetなど)の性能と内部表現構造について検討する。 具体的には、CKA(Centered Kernel Alignment)を用いて、異なる目的関数(確率的、マージン的)に対して、表現の類似性を研究し、選択した関数の包括的分析を行う。 我々の発見によると、損失関数はバイアスデータ上でより優れたパフォーマンスと微細な表現を生み出すことができるため、負のLog Likelihood$(\mathcal{L}_{NLL})$およびSoftmax Cross-Entropy$(\mathcal{L}_{SCE}$)で得られたResNets表現が等しく得られる。 ニューラルネットワークのレイヤ間のプログレッシブな表現の類似性がなければ、パフォーマンスが堅牢になる可能性は低いことに注意する。

Neural networks trained on standard image classification data sets are shown to be less resistant to data set bias. It is necessary to comprehend the behavior objective function that might correspond to superior performance for data with biases. However, there is little research on the selection of the objective function and its representational structure when trained on data set with biases. In this paper, we investigate the performance and internal representational structure of convolution-based neural networks (e.g., ResNets) trained on biased data using various objective functions. We specifically study similarities in representations, using Centered Kernel Alignment (CKA), for different objective functions (probabilistic and margin-based) and offer a comprehensive analysis of the chosen ones. According to our findings, ResNets representations obtained with Negative Log Likelihood $(\mathcal{L}_{NLL})$ and Softmax Cross-Entropy ($\mathcal{L}_{SCE}$) as loss functions are equally capable of producing better performance and fine representations on biased data. We note that without progressive representational similarities among the layers of a neural network, the performance is less likely to be robust.
翻訳日:2022-11-16 13:06:04 公開日:2022-11-14
# 自律運転のための頑健なディープラーニング

Robust Deep Learning for Autonomous Driving ( http://arxiv.org/abs/2211.07772v1 )

ライセンス: Link先を確認
Charles Corbi\`ere(参考訳) 人工知能に関する過去10年間の研究は、自動運転の進歩に大きな影響を与えた。 しかし、このようなシステムをリスクの高い環境にデプロイする場合、安全性は依然として大きな関心事である。 本論文の目的は,ディープニューラルネットワークに対する信頼性の高い不確実性推定を行う方法論的ツールの開発である。 まず、モデルの信頼性を確実に推定する新しい基準、真のクラス確率(TCP)を導入する。 我々は、TCPが現在の不確実性対策よりも、障害予測に優れた特性を提供することを示す。 真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。 提案手法の妥当性は画像分類とセマンティックセグメンテーションデータセットで検証される。 そして、学習した信頼度アプローチをドメイン適応のタスクに拡張し、自己学習手法における擬似ラベルの選択を改善する。 最後に, 供述モデルに基づく新たな不確実性尺度を導入することで, 誤分類や分布外サンプルを共同検出する課題に挑戦する。

The last decade's research in artificial intelligence had a significant impact on the advance of autonomous driving. Yet, safety remains a major concern when it comes to deploying such systems in high-risk environments. The objective of this thesis is to develop methodological tools which provide reliable uncertainty estimates for deep neural networks. First, we introduce a new criterion to reliably estimate model confidence: the true class probability (TCP). We show that TCP offers better properties for failure prediction than current uncertainty measures. Since the true class is by essence unknown at test time, we propose to learn TCP criterion from data with an auxiliary model, introducing a specific learning scheme adapted to this context. The relevance of the proposed approach is validated on image classification and semantic segmentation datasets. Then, we extend our learned confidence approach to the task of domain adaptation where it improves the selection of pseudo-labels in self-training methods. Finally, we tackle the challenge of jointly detecting misclassification and out-of-distributions samples by introducing a new uncertainty measure based on evidential models and defined on the simplex.
翻訳日:2022-11-16 13:05:02 公開日:2022-11-14
# コントラスト主成分分析のためのオンラインアルゴリズム

An online algorithm for contrastive Principal Component Analysis ( http://arxiv.org/abs/2211.07723v1 )

ライセンス: Link先を確認
Siavash Golkar, David Lipshutz, Tiberiu Tesileanu, Dmitri B. Chklovskii(参考訳) 大規模データセットで効率的に計算できる情報的低次元表現を見つけることは、データ解析において重要な問題である。 近年, コントラッシブ・プリンシパル・コンポーネント分析 (cPCA) は, コントラッシブ・ラーニングを生かしたPCAのより情報的な一般化として提案されている。 しかし、cPCAの性能はハイパーパラメータの選択に敏感であり、cPCAを実装するためのオンラインアルゴリズムはない。 本稿では,cPCA* を改良した cPCA 法を提案する。 我々は、cPCA*のオンラインアルゴリズムを導き、局所的な学習規則でニューラルネットワークにマップできることを示し、エネルギー効率の良いニューロモルフィックハードウェアで実装できる可能性がある。 実際のデータセット上でのオンラインアルゴリズムの性能を評価し,元の定式化との相違点と類似点を強調する。

Finding informative low-dimensional representations that can be computed efficiently in large datasets is an important problem in data analysis. Recently, contrastive Principal Component Analysis (cPCA) was proposed as a more informative generalization of PCA that takes advantage of contrastive learning. However, the performance of cPCA is sensitive to hyper-parameter choice and there is currently no online algorithm for implementing cPCA. Here, we introduce a modified cPCA method, which we denote cPCA*, that is more interpretable and less sensitive to the choice of hyper-parameter. We derive an online algorithm for cPCA* and show that it maps onto a neural network with local learning rules, so it can potentially be implemented in energy efficient neuromorphic hardware. We evaluate the performance of our online algorithm on real datasets and highlight the differences and similarities with the original formulation.
翻訳日:2022-11-16 12:56:22 公開日:2022-11-14
# QueryForm: シンプルなゼロショットフォーム Entity Query Framework

QueryForm: A Simple Zero-shot Form Entity Query Framework ( http://arxiv.org/abs/2211.07730v1 )

ライセンス: Link先を確認
Zifeng Wang, Zizhao Zhang, Jacob Devlin, Chen-Yu Lee, Guolong Su, Hao Zhang, Jennifer Dy, Vincent Perot, Tomas Pfister(参考訳) 文書理解のためのゼロショット転送学習は、文書エンティティのアノテートにかかわる高コスト化を支援するために不可欠だが、未検討のシナリオである。 本稿では,0ショット方式でフォームライクなドキュメントからエンティティ値を抽出する新しいクエリベースのフレームワークQueryFormを提案する。 queryformには、ドキュメントスキーマと特定のエンティティタイプの両方をクエリに構成するデュアルプロンプトメカニズムが含まれており、トランスフォーマーモデルに単一のエンティティ抽出タスクを実行するように促すために使用される。 さらに,HTML アノテーションの弱いフォーム風の Web ページから生成された大規模クエリエンタリティペアを,事前学習型 QueryForm に活用することを提案する。 事前トレーニングと微調整を同じクエリベースのフレームワークに統合することにより、queryformでは、さまざまなエンティティやレイアウトを含む構造化ドキュメントからモデルが学習できるようになる。 QueryForm は XFUND (+4.6%~10.1%) と Payment (+3.2%~9.5%) のゼロショットベンチマークの両方に新しい最先端の平均 F1 スコアをセットする。

Zero-shot transfer learning for document understanding is a crucial yet under-investigated scenario to help reduce the high cost involved in annotating document entities. We present a novel query-based framework, QueryForm, that extracts entity values from form-like documents in a zero-shot fashion. QueryForm contains a dual prompting mechanism that composes both the document schema and a specific entity type into a query, which is used to prompt a Transformer model to perform a single entity extraction task. Furthermore, we propose to leverage large-scale query-entity pairs generated from form-like webpages with weak HTML annotations to pre-train QueryForm. By unifying pre-training and fine-tuning into the same query-based framework, QueryForm enables models to learn from structured documents containing various entities and layouts, leading to better generalization to target document types without the need for target-specific training data. QueryForm sets new state-of-the-art average F1 score on both the XFUND (+4.6%~10.1%) and the Payment (+3.2%~9.5%) zero-shot benchmark, with a smaller model size and no additional image input.
翻訳日:2022-11-16 12:55:53 公開日:2022-11-14
# pyRDDLGym:RDDLからGym環境へ

pyRDDLGym: From RDDL to Gym Environments ( http://arxiv.org/abs/2211.05939v2 )

ライセンス: Link先を確認
Ayal Taitler, Michael Gimelfarb, Sriram Gopalakrishnan, Xiaotian Liu, Scott Sanner(参考訳) 提案するpyRDDLGymは, RDDL宣言記述からOpenAI Gym環境の自動生成のためのPythonフレームワークである。 rddlにおける変数の離散時間ステップ進化は、ジムステップスキームに自然に適合する条件付き確率関数によって記述される。 さらに、RDDLは持ち上げられた記述であるため、複数のエンティティと異なる構成をサポートする環境の修正とスケールアップは、面倒なプロセスではなく、簡単になる。 我々は,pyRDDLGymがRDDLの独特な表現力により,ベンチマークの容易かつ迅速な開発を可能にすることで,強化学習コミュニティの新たな風として機能することを期待する。 rddl記述におけるモデルへの明示的なアクセスを提供することで、pyrddlgymはモデルの知識を活用しながら相互作用から学ぶためのハイブリッドアプローチの研究を促進できる。 本稿では、pyRDDLGymの設計と組込み例と、フレームワークに組み込まれたRDDL言語への追加について述べる。

We present pyRDDLGym, a Python framework for auto-generation of OpenAI Gym environments from RDDL declerative description. The discrete time step evolution of variables in RDDL is described by conditional probability functions, which fits naturally into the Gym step scheme. Furthermore, since RDDL is a lifted description, the modification and scaling up of environments to support multiple entities and different configurations becomes trivial rather than a tedious process prone to errors. We hope that pyRDDLGym will serve as a new wind in the reinforcement learning community by enabling easy and rapid development of benchmarks due to the unique expressive power of RDDL. By providing explicit access to the model in the RDDL description, pyRDDLGym can also facilitate research on hybrid approaches for learning from interaction while leveraging model knowledge. We present the design and built-in examples of pyRDDLGym, and the additions made to the RDDL language that were incorporated into the framework.
翻訳日:2022-11-16 12:47:12 公開日:2022-11-14
# 透視能力に追従する: 最適制御への模倣学習アプローチ

Follow the Clairvoyant: an Imitation Learning Approach to Optimal Control ( http://arxiv.org/abs/2211.07389v1 )

ライセンス: Link先を確認
Andrea Martin, Luca Furieri, Florian D\"orfler, John Lygeros, Giancarlo Ferrari-Trecate(参考訳) 我々は,競争分析のレンズを通して力学系の制御を考える。 この分野における多くの先行研究は、過去、現在、そして将来の混乱への非因果的アクセスを持つ理想的な透視政策に対する損失を最小化することに焦点を当てている。 最適コストが理想的閉ループ行動に関する粗い情報のみを提供するという観測に動機づけられ、代わりに後見における最適軌道に対する追跡誤差を直接最小化すること、すなわち透視性ポリシーを模倣することを提案する。 システムレベルでの視点を取り入れることで,追従サーベイラント(FTC)セーフコントローラの効率的な最適化手法を提案する。 非因果ベンチマークに制約が課せられなければ、これらが最小限の後悔を達成できることを証明します。 さらに,従来の$\mathcal{H}_2$と$\mathcal{H}_\infty$制御法を補間する競合アルゴリズムの目印を保ちながら,制約シナリオにおける後悔の最小化手法を常に上回っていることを示す数値実験を行った。

We consider control of dynamical systems through the lens of competitive analysis. Most prior work in this area focuses on minimizing regret, that is, the loss relative to an ideal clairvoyant policy that has noncausal access to past, present, and future disturbances. Motivated by the observation that the optimal cost only provides coarse information about the ideal closed-loop behavior, we instead propose directly minimizing the tracking error relative to the optimal trajectories in hindsight, i.e., imitating the clairvoyant policy. By embracing a system level perspective, we present an efficient optimization-based approach for computing follow-the-clairvoyant (FTC) safe controllers. We prove that these attain minimal regret if no constraints are imposed on the noncausal benchmark. In addition, we present numerical experiments to show that our policy retains the hallmark of competitive algorithms of interpolating between classical $\mathcal{H}_2$ and $\mathcal{H}_\infty$ control laws - while consistently outperforming regret minimization methods in constrained scenarios thanks to the superior ability to chase the clairvoyant.
翻訳日:2022-11-15 21:39:48 公開日:2022-11-14
# 線形力学系の安定性に対する後悔の意義

Implications of Regret on Stability of Linear Dynamical Systems ( http://arxiv.org/abs/2211.07411v1 )

ライセンス: Link先を確認
Aren Karapetyan, Anastasios Tsiamis, Efe C. Balta, Andrea Iannelli, John Lygeros(参考訳) 不確実性と動的制約の下で決定を行うエージェントの設定は、最適制御、強化学習、そして最近オンライン学習の分野でも一般的である。 オンライン学習環境において、エージェントの判断の質は、しばしば後悔の概念によって定量化され、選択された決定のパフォーマンスを後から見て最良の決定と比較する。 後悔はパフォーマンスの指標として有用であるが,力学系に関しては,選択した政策に対する閉ループシステムの安定性も評価することが重要である。 本研究では, 線形状態フィードバックポリシと線形システムに対して, 線形後悔は時間変化と時間不変の両条件において漸近安定性を示すことを示す。 逆に、有界入力有界状態 (bibs) の安定性と状態遷移行列の和は線形後悔を意味することを示した。

The setting of an agent making decisions under uncertainty and under dynamic constraints is common for the fields of optimal control, reinforcement learning and recently also for online learning. In the online learning setting, the quality of an agent's decision is often quantified by the concept of regret, comparing the performance of the chosen decisions to the best possible ones in hindsight. While regret is a useful performance measure, when dynamical systems are concerned, it is important to also assess the stability of the closed-loop system for a chosen policy. In this work, we show that for linear state feedback policies and linear systems subject to adversarial disturbances, linear regret implies asymptotic stability in both time-varying and time-invariant settings. Conversely, we also show that bounded input bounded state (BIBS) stability and summability of the state transition matrices imply linear regret.
翻訳日:2022-11-15 21:39:28 公開日:2022-11-14
# 格子QCDのフローベースサンプリングにおけるスケーリングとスケーラビリティの側面

Aspects of scaling and scalability for flow-based sampling of lattice QCD ( http://arxiv.org/abs/2211.07541v1 )

ライセンス: Link先を確認
Ryan Abbott, Michael S. Albergo, Aleksandar Botev, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Alexander G. D. G. Matthews, S\'ebastien Racani\`ere, Ali Razavi, Danilo J. Rezende, Fernando Romero-L\'opez, Phiala E. Shanahan, Julian M. Urban(参考訳) 格子場理論におけるサンプリングへの機械学習正規化流れの最近の応用は、そのような手法が臨界減速と位相凍結を緩和できる可能性を示唆している。 しかし、これらの実演はおもちゃの模型のスケールであり、それが最先端の格子量子色力学計算に応用できるかどうかは定かではない。 格子場理論におけるサンプリングアルゴリズムの実用性の評価は、従来、単純なコストスケーリング則を用いて行われてきたが、本研究で議論されるように、その有用性はフローベースのアプローチに限定されている。 サンプリングに対するフローベースのアプローチは、異なるスケーリング特性を持つ幅広いアルゴリズムのファミリーとしてより良く考えられ、スケーラビリティを実験的に評価する必要があると結論づけた。

Recent applications of machine-learned normalizing flows to sampling in lattice field theory suggest that such methods may be able to mitigate critical slowing down and topological freezing. However, these demonstrations have been at the scale of toy models, and it remains to be determined whether they can be applied to state-of-the-art lattice quantum chromodynamics calculations. Assessing the viability of sampling algorithms for lattice field theory at scale has traditionally been accomplished using simple cost scaling laws, but as we discuss in this work, their utility is limited for flow-based approaches. We conclude that flow-based approaches to sampling are better thought of as a broad family of algorithms with different scaling properties, and that scalability must be assessed experimentally.
翻訳日:2022-11-15 21:39:13 公開日:2022-11-14
# r局所およびkスパース非ラベルセンシングの初期化解析を用いた交代最小化アルゴリズム

Alternating minimization algorithm with initialization analysis for r-local and k-sparse unlabeled sensing ( http://arxiv.org/abs/2211.07621v1 )

ライセンス: Link先を確認
Ahmed Abbasi, Abiy Tasissa, Shuchin Aeron(参考訳) ラベルなしセンシング問題は、変分線形測定から未知の信号を復元することである。 広く検討されているk-スパース置換モデルに対して適切な初期化を持つ交互最小化アルゴリズムを提案する。 ガウス計測行列または準ガウス信号のどちらかを仮定すると、ブロックサイズ $r$ とシャッフル k の点で r-局所および k-スパース置換モデルの初期化誤差を上限とする。 アルゴリズムは計算処理がスケーラブルで,ベースライン法に比べ,実データと合成データで優れた性能を実現する。

The unlabeled sensing problem is to recover an unknown signal from permuted linear measurements. We propose an alternating minimization algorithm with a suitable initialization for the widely considered k-sparse permutation model. Assuming either a Gaussian measurement matrix or a sub-Gaussian signal, we upper bound the initialization error for the r-local and k-sparse permutation models in terms of the block size $r$ and the number of shuffles k, respectively. Our algorithm is computationally scalable and, compared to baseline methods, achieves superior performance on real and synthetic datasets.
翻訳日:2022-11-15 21:38:00 公開日:2022-11-14
# 802.11admm波センサを用いた携帯端末のハンドジェスチャ認識

Hand gesture recognition using 802.11ad mmWave sensor in the mobile device ( http://arxiv.org/abs/2211.07090v1 )

ライセンス: Link先を確認
Yuwei Ren, Jiuyuan Lu, Andrian Beletchi, Yin Huang, Ilia Karmanov, Daniel Fontijne, Chirag Patel and Hao Xu(参考訳) スマートフォンにおける802.11ad 60GHz (mmWave) 技術を用いたAI支援手振り認識の実現可能性について検討する。 パルスドップラーレーダを用いたジェスチャー認識により、距離ドップラー情報(rdi)を得る。 レーダーセンシングとwlan通信波形を時間分割二重化(tdd)によって共存させ,実時間ハンドジェスチャ推論を実証するプロトタイプシステムを構築した。 センシングデータを収集し、100ミリ秒以内にジェスチャーを予測する。 まず、リアルタイムの機能処理のためのパイプラインを構築します。 RDIシーケンスの復元は、連続データストリーム内のフレームドロップを処理するために実装され、データ拡張にも適用される。 第二に、異なるジェスチャーrdiを分析し、指と手の動きが明確な特徴を示すことができる。 第3に, 5つの典型的なジェスチャー(スワイプ, 手のひら保持, プルプッシュ, フィンガースライディング, ノイズ)を実験し, 任意の入力で連続的なジェスチャ列の異なるジェスチャを分割する分類枠組みを検討した。 大規模マルチパーソンデータセット上でアーキテクチャを評価し,1つのcnn + lstmモデルを用いて95%の精度を報告した。 さらに、デバイス上の実装に適合する純粋なCNNモデルを開発し、推論遅延、消費電力、計算コストを最小限に抑える。 CNNモデルの精度は93%以上で、パラメータは2.29Kである。

We explore the feasibility of AI assisted hand-gesture recognition using 802.11ad 60GHz (mmWave) technology in smartphones. Range-Doppler information (RDI) is obtained by using pulse Doppler radar for gesture recognition. We built a prototype system, where radar sensing and WLAN communication waveform can coexist by time-division duplex (TDD), to demonstrate the real-time hand-gesture inference. It can gather sensing data and predict gestures within 100 milliseconds. First, we build the pipeline for the real-time feature processing, which is robust to occasional frame drops in the data stream. RDI sequence restoration is implemented to handle the frame dropping in the continuous data stream, and also applied to data augmentation. Second, different gestures RDI are analyzed, where finger and hand motions can clearly show distinctive features. Third, five typical gestures (swipe, palm-holding, pull-push, finger-sliding and noise) are experimented with, and a classification framework is explored to segment the different gestures in the continuous gesture sequence with arbitrary inputs. We evaluate our architecture on a large multi-person dataset and report > 95% accuracy with one CNN + LSTM model. Further, a pure CNN model is developed to fit to on-device implementation, which minimizes the inference latency, power consumption and computation cost. And the accuracy of this CNN model is more than 93% with only 2.29K parameters.
翻訳日:2022-11-15 21:33:14 公開日:2022-11-14
# 排卵mRNAのベイズ的再構成と鑑別試験

Bayesian Reconstruction and Differential Testing of Excised mRNA ( http://arxiv.org/abs/2211.07105v1 )

ライセンス: Link先を確認
Marjan Hosseini, Devin McConnell, Derek Aguiar(参考訳) 細胞や組織の機能的複雑さを正常な発達過程から疾患の発生まで理解するためには、mRNAの差分抽出を特徴づけることが重要である。 ほとんどの転写再建法は、高スループットシークエンシングデータから全長の転写を推定する。 しかし、これは不完全アノテーションと細胞型、組織、実験条件における転写産物の差分表現のために難しい課題である。 近年,局所的なスプライシングイベントを考慮し,これらの問題を回避する方法がいくつかあるが,これらの手法は転写レベルのスプライシング情報を失い,書き起こしを補完する可能性がある。 我々は、転写と局所スプライシングの視点を調和させる最初の確率モデルを開発する。 まず,RNAシーケンシングデータからmRNAエキシションの可変長配列を組み立てることを目的とした,mRNAエキシション(SME)再構成問題を定式化する。 次に, BREM (Restruction of Excized mRNA) のための新しい階層的ベイズ混和モデルを提案する。 BREMは局所スプライシングイベントとフル長の転写産物を補間し、高い後部確率を持つ中小企業にのみ焦点をあてる。 我々は、Gibsサンプリングと独立集合の局所探索に基づく後部推論アルゴリズムを開発し、収束BREMモデルパラメータに基づく一般化線形モデルを用いて微分SMEの使用を特徴付ける。 BREMは, 再現作業におけるF1スコアを向上し, 差分スプライシングの精度と感度を向上させることを示し, シミュレーションデータ上での4つの最先端スプライシング法と局所スプライシング法と比較した。 最後に,転写の再構成,転写の新規性,ハイパーパラメータに対するモデル感度,および差分表現されたSMEの機能解析に基づいてBREMを解析し,BREMが関連する生物学的シグナルを捉えることを示した。

Characterizing the differential excision of mRNA is critical for understanding the functional complexity of a cell or tissue, from normal developmental processes to disease pathogenesis. Most transcript reconstruction methods infer full-length transcripts from high-throughput sequencing data. However, this is a challenging task due to incomplete annotations and the differential expression of transcripts across cell-types, tissues, and experimental conditions. Several recent methods circumvent these difficulties by considering local splicing events, but these methods lose transcript-level splicing information and may conflate transcripts. We develop the first probabilistic model that reconciles the transcript and local splicing perspectives. First, we formalize the sequence of mRNA excisions (SME) reconstruction problem, which aims to assemble variable-length sequences of mRNA excisions from RNA-sequencing data. We then present a novel hierarchical Bayesian admixture model for the Reconstruction of Excised mRNA (BREM). BREM interpolates between local splicing events and full-length transcripts and thus focuses only on SMEs that have high posterior probability. We develop posterior inference algorithms based on Gibbs sampling and local search of independent sets and characterize differential SME usage using generalized linear models based on converged BREM model parameters. We show that BREM achieves higher F1 score for reconstruction tasks and improved accuracy and sensitivity in differential splicing when compared with four state-of-the-art transcript and local splicing methods on simulated data. Lastly, we evaluate BREM on both bulk and scRNA sequencing data based on transcript reconstruction, novelty of transcripts produced, model sensitivity to hyperparameters, and a functional analysis of differentially expressed SMEs, demonstrating that BREM captures relevant biological signal.
翻訳日:2022-11-15 21:32:50 公開日:2022-11-14
# 交流電力流れのニューラルネットワークモデルにおけるグローバル性能保証

Global Performance Guarantees for Neural Network Models of AC Power Flow ( http://arxiv.org/abs/2211.07125v1 )

ライセンス: Link先を確認
Samuel Chevalier and Spyros Chatzivasileiadis(参考訳) 機械学習は、非常に高速かつ高精度なブラックボックスサーロゲートモデルを生成することができる。 しかし、これらのブラックボックスモデルの精度を厳格に検証することは困難である。 電力システムに関しては、ACパワーフローの学習は、最適化、制御、動的処理のいずれにおいても、計算を劇的に加速したいと願う機械学習サロゲートモデルの基盤となる。 本稿では, ニューラルネットワークの最悪の性能を決定するために, 交流電力流方程式の基底的真理を組み込んだ, トラクタブルニューラルネットワーク検証手法を, 我々の知る限り, 初めて開発する。 我々の手法は逐次的目標追尾(STT)と呼ばれ、混合整数二次プログラム(MIQP)である元の検証問題のゆるやかに凸化された再構成を利用する。 目標カットの逐次追加を用いることで, 解が十分にきついか, 性能保証が十分に得られるまで, 反復的に定式化を締め付ける。 14,57,118,200-busのPGLibテストケースのニューラルネットワークモデルを学習した後、STT手順によって生成された性能保証と最先端MIQP解決器であるGurobi 9.5による性能保証を比較した。 STTはMIQP上界よりも桁違いに厳密な性能保証をしばしば生成することを示す。

Machine learning can generate black-box surrogate models which are both extremely fast and highly accurate. Rigorously verifying the accuracy of these black-box models, however, is computationally challenging. When it comes to power systems, learning AC power flow is the cornerstone of any machine learning surrogate model wishing to drastically accelerate computations, whether it is for optimization, control, or dynamics. This paper develops for the first time, to our knowledge, a tractable neural network verification procedure which incorporates the ground truth of the \emph{non-linear} AC power flow equations to determine worst-case neural network performance. Our approach, termed Sequential Targeted Tightening (STT), leverages a loosely convexified reformulation of the original verification problem, which is a mixed integer quadratic program (MIQP). Using the sequential addition of targeted cuts, we iteratively tighten our formulation until either the solution is sufficiently tight or a satisfactory performance guarantee has been generated. After learning neural network models of the 14, 57, 118, and 200-bus PGLib test cases, we compare the performance guarantees generated by our STT procedure with ones generated by a state-of-the-art MIQP solver, Gurobi 9.5. We show that STT often generates performance guarantees which are orders of magnitude tighter than the MIQP upper bound.
翻訳日:2022-11-15 21:32:20 公開日:2022-11-14
# YM2413-MDB:感情アノテーション付きマルチ機器FMゲーム音楽データセット

YM2413-MDB: A Multi-Instrumental FM Video Game Music Dataset with Emotion Annotations ( http://arxiv.org/abs/2211.07131v1 )

ライセンス: Link先を確認
Eunjin Choi, Yoonjin Chung, Seolhee Lee, JongIk Jeon, Taegyun Kwon, Juhan Nam(参考訳) 既存のマルチインストゥルメンタルデータセットは、ポップ音楽やクラシック音楽に偏りがちである。 さらに、一般的には感情タグのようなハイレベルなアノテーションが欠けている。 本稿では,マルチラベル感情アノテーションを用いた80年代のFMゲーム音楽データセットYM2413-MDBを提案する。 FMベースのプログラム可能なサウンドジェネレータであるYM2413を使用して、80年代のSegaとMSX PCの669のオーディオファイルとMIDIファイルを含む。 収集されたゲーム音楽は、15の単音楽器と1つのドラム楽器のサブセットで配置される。 それらはYM2413サウンドチップのバイナリコマンドから変換された。 それぞれの歌は19個の感情タグを2つのアノテーターによってラベル付けされ、3つの検証者によって検証され、洗練されたタグが得られた。 感情認識とYM2413-MDBを用いた感情条件付きシンボリック音楽生成のためのベースラインモデルと結果を提供する。

Existing multi-instrumental datasets tend to be biased toward pop and classical music. In addition, they generally lack high-level annotations such as emotion tags. In this paper, we propose YM2413-MDB, an 80s FM video game music dataset with multi-label emotion annotations. It includes 669 audio and MIDI files of music from Sega and MSX PC games in the 80s using YM2413, a programmable sound generator based on FM. The collected game music is arranged with a subset of 15 monophonic instruments and one drum instrument. They were converted from binary commands of the YM2413 sound chip. Each song was labeled with 19 emotion tags by two annotators and validated by three verifiers to obtain refined tags. We provide the baseline models and results for emotion recognition and emotion-conditioned symbolic music generation using YM2413-MDB.
翻訳日:2022-11-15 21:31:57 公開日:2022-11-14
# モバイルエッジコンピューティングにおける無線フェデレーション学習システムにおける最適プライバシー保護

Optimal Privacy Preserving in Wireless Federated Learning System over Mobile Edge Computing ( http://arxiv.org/abs/2211.07166v1 )

ライセンス: Link先を確認
Hai M. Nguyen, Nam H. Chu, Diep N. Nguyen, Dinh Thai Hoang, Minh Hoang Ha, and Eryk Dutkiewicz(参考訳) 無線ネットワーク上で量子化と意図的にノイズを追加したフェデレートラーニング(FL)は、無線リソースを削減しつつ、ユーザの差分プライバシーを維持するための有望なアプローチである。 具体的には、FL学習プロセスは、複数のユーザが提供した量子化されたBinomialメカニズムベースの更新と融合して、通信オーバーヘッドやコストを削減し、‘参加’ユーザのプライバシを保護することができる。 しかし、無線伝送と量子化パラメータ(例えば、送信電力、帯域幅、量子化ビット)の最適化は、プライバシー要件と学習されたFLモデルの性能を保証しながら、付加的なノイズも未解決の課題である。 本稿では,無線ネットワークの制約下でのトレーニング時間を最小化するために,量子化のレベル,二項機構のパラメータ,デバイスの送信パワーを共同で最適化することを目的とする。 その結果得られた最適化は、NPハードであることが知られている混合整数非線形プログラミング(MINLP)問題であることが判明した。 そこで我々は,このMINLP問題を,解が元の解の最適解であることが証明された新しい問題に変換する。 次に、任意の相対誤差保証で変換問題を解くことができる近似アルゴリズムを提案する。 集中的なシミュレーションにより、同じ無線リソースに対して提案手法が最も精度が高く、量子化もノイズ付加もない標準FLに近いことが示されている。 これは、ユーザのプライバシーを最適に保ちながら、提案された無線flフレームワークの収束/訓練時間の短縮を示唆する。

Federated Learning (FL) with quantization and deliberately added noise over wireless networks is a promising approach to preserve the user differential privacy while reducing the wireless resources. Specifically, an FL learning process can be fused with quantized Binomial mechanism-based updates contributed by multiple users to reduce the communication overhead/cost as well as to protect the privacy of {participating} users. However, the optimization of wireless transmission and quantization parameters (e.g., transmit power, bandwidth, and quantization bits) as well as the added noise while guaranteeing the privacy requirement and the performance of the learned FL model remains an open and challenging problem. In this paper, we aim to jointly optimize the level of quantization, parameters of the Binomial mechanism, and devices' transmit powers to minimize the training time under the constraints of the wireless networks. The resulting optimization turns out to be a Mixed Integer Non-linear Programming (MINLP) problem, which is known to be NP-hard. To tackle it, we transform this MINLP problem into a new problem whose solutions are proved to be the optimal solutions of the original one. We then propose an approximate algorithm that can solve the transformed problem with an arbitrary relative error guarantee. Intensive simulations show that for the same wireless resources the proposed approach achieves the highest accuracy, close to that of the standard FL with no quantization and no noise added. This suggests the faster convergence/training time of the proposed wireless FL framework while optimally preserving users' privacy.
翻訳日:2022-11-15 21:31:45 公開日:2022-11-14
# ユーザ対応リスニングコンテキストによるタグ音楽へのデバイスとオーディオデータのエクスプロイト

Exploiting Device and Audio Data to Tag Music with User-Aware Listening Contexts ( http://arxiv.org/abs/2211.07250v1 )

ライセンス: Link先を確認
Karim M. Ibrahim, Elena V. Epure, Geoffroy Peeters, Ga\"el Richard(参考訳) 音楽が特に音楽ストリーミングプラットフォームで利用できるようになったため、人々は様々なリスニング状況(文脈としても知られる)に合った好みを持つようになった。 そのため、ユーザに音楽を推薦する際のユーザの状況を考えることへの関心が高まっている。 音楽コンテンツやユーザのグローバルリスニング嗜好から状況関連タグを推測するための,ユーザ対応オートタグの提案も行われている。 しかし,実践的な音楽検索システムでは,コンテキストクラスがユーザによって明示的に提供されることを前提として,オートタグを使用できる。 そこで本研究では,完全自動音楽検索システムを設計するため,ストリームデータからユーザの聞き取り情報を曖昧化することを提案する。 すなわち,ユーザの状況に応じたプレイリストを一定時間で生成できるシステムを提案する。 1) ユーザ対応音楽オートタガーを活用して, 2)ストリームデータ(例えば、デバイス、ネットワーク)とユーザの一般プロファイル情報(例えば、年齢)からユーザの状況を自動的に推測することにより、 このようなコンテキスト対応のパーソナライズド音楽検索システムは実現可能であるが,新規ユーザや新曲,あるいはコンテキストクラス数が増加すると,パフォーマンスは低下する。

As music has become more available especially on music streaming platforms, people have started to have distinct preferences to fit to their varying listening situations, also known as context. Hence, there has been a growing interest in considering the user's situation when recommending music to users. Previous works have proposed user-aware autotaggers to infer situation-related tags from music content and user's global listening preferences. However, in a practical music retrieval system, the autotagger could be only used by assuming that the context class is explicitly provided by the user. In this work, for designing a fully automatised music retrieval system, we propose to disambiguate the user's listening information from their stream data. Namely, we propose a system which can generate a situational playlist for a user at a certain time 1) by leveraging user-aware music autotaggers, and 2) by automatically inferring the user's situation from stream data (e.g. device, network) and user's general profile information (e.g. age). Experiments show that such a context-aware personalized music retrieval system is feasible, but the performance decreases in the case of new users, new tracks or when the number of context classes increases.
翻訳日:2022-11-15 21:31:20 公開日:2022-11-14
# MedleyVox: 複数の歌声分離のための評価データセット

MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation ( http://arxiv.org/abs/2211.07302v1 )

ライセンス: Link先を確認
Chang-Bin Jeon, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon, and Kyogu Lee(参考訳) 複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される分野である。 ベンチマークデータセットの欠如は、その進捗を妨げている。 本稿では,評価データセットと,複数の歌声分離のためのベースライン研究について述べる。 まず,これらのカテゴリに対応する複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。 このデータセットの問題を分類して問題定義を指定する。 i) デュエット ii) ユニゾン iii)メイン対レスト、及び iv) n-singing separation。 第2に,様々な単一音声データセットを用いた複数の歌唱混合音の構築戦略を提案する。 これはトレーニングデータを取得するために使用できる。 第3に,改良型スーパーレゾリューションネットワーク(isrnet)を提案する。 Conv-TasNetとマルチシング混合構成戦略を併用して、提案したiSRNetは、MedleyVoxのデュエットおよびユニゾンサブセット上の理想的な時間周波数マスクに匹敵する性能を達成した。 オーディオサンプル、データセット、コードはGitHubのページにある(https://github.com/jeonchangbin49/MedleyVox)。

Separation of multiple singing voices into each voice is a rarely studied area in music source separation research. The absence of a benchmark dataset has hindered its progress. In this paper, we present an evaluation dataset and provide baseline studies for multiple singing voices separation. First, we introduce MedleyVox, an evaluation dataset for multiple singing voices separation that corresponds to such categories. We specify the problem definition in this dataset by categorizing the problem into i) duet, ii) unison, iii)main vs. rest, and iv) N-singing separation. Second, we present a strategy for construction of multiple singing mixtures using various single-singing datasets. This can be used to obtain training data. Third, we propose the improved super-resolution network (iSRNet). Jointly trained with the Conv-TasNet and the multi-singing mixture construction strategy, the proposed iSRNet achieved comparable performance to ideal time-frequency masks on duet and unison subsets of MedleyVox. Audio samples, the dataset, and codes are available on our GitHub page (https://github.com/jeonchangbin49/MedleyVox).
翻訳日:2022-11-15 21:31:00 公開日:2022-11-14
# 環境変化に伴う公正確保に関する調査研究

A Survey on Preserving Fairness Guarantees in Changing Environments ( http://arxiv.org/abs/2211.07530v1 )

ライセンス: Link先を確認
Ainhize Barrainkua, Paula Gordaliza, Jose A. Lozano and Novi Quadrianto(参考訳) 人命は、自動意思決定システムの結果によってますます影響を受けており、後者が正確であるだけでなく公正でもあることが不可欠である。 アルゴリズム的公平性に関する文献は過去10年間で大きく成長しており、ほとんどのアプローチは、列車と試験のサンプルが同一の分布から独立かつ同一に引き出されるという強い仮定の下で評価されている。 しかし実際には、トレーニング環境とデプロイメント環境の相似性が存在し、意思決定アルゴリズムのパフォーマンスを損なうと同時に、デプロイメントデータに公平性が保証される。 データ生成プロセスがソース(トレイン)とターゲット(テスト)ドメインの間で異なる場合、公正性を保証する方法を研究する緊急研究線があり、それは著しく成長しています。 この調査では、このトピックを広く統一した概要を提供することを目指している。 そこで本研究では,分布シフトの下での公平な分類のための既存のアプローチの分類法を提案するとともに,他の類似研究分野との関係を指摘する。

Human lives are increasingly being affected by the outcomes of automated decision-making systems and it is essential for the latter to be, not only accurate, but also fair. The literature of algorithmic fairness has grown considerably over the last decade, where most of the approaches are evaluated under the strong assumption that the train and test samples are independently and identically drawn from the same underlying distribution. However, in practice, dissimilarity between the training and deployment environments exists, which compromises the performance of the decision-making algorithm as well as its fairness guarantees in the deployment data. There is an emergent research line that studies how to preserve fairness guarantees when the data generating processes differ between the source (train) and target (test) domains, which is growing remarkably. With this survey, we aim to provide a wide and unifying overview on the topic. For such purpose, we propose a taxonomy of the existing approaches for fair classification under distribution shift, highlight benchmarking alternatives, point out the relation with other similar research fields and eventually, identify future venues of research.
翻訳日:2022-11-15 20:21:34 公開日:2022-11-14
# 合成関係データベース作成のためのRow Conditional-TGAN

Row Conditional-TGAN for generating synthetic relational databases ( http://arxiv.org/abs/2211.07588v1 )

ライセンス: Link先を確認
Mohamed Gueye, Yazid Attabi, Maxime Dumas(参考訳) スタンドアローンテーブルの表データプロパティの再現に加えて、合成リレーショナルデータベースは関連するテーブル間の関係のモデリングも必要である。 本稿では,テーブル型ganを拡張し,データベースのモデリングと合成を支援する新しい生成型逆ネットワーク (gan) モデルである row conditional-tabular generarial adversarial network (rc-tgan) を提案する。 RC-TGANは、子テーブルのGANの設計に親行の条件データを組み込むことで、テーブル間の関係情報をモデル化する。 さらに、親テーブルの行がこの関係情報を転送できない場合に、この接続が失われないように、祖父母テーブル行が孫行に与える影響をモデル化するためにRC-TGANを拡張します。 8つの実関係データベースを用いた実験の結果、ベンチマークシステムと比較して合成関係データベースの品質が大幅に向上し、元のデータベースのテーブル間の関係を保存するRC-TGANの有効性が示された。

Besides reproducing tabular data properties of standalone tables, synthetic relational databases also require modeling the relationships between related tables. In this paper, we propose the Row Conditional-Tabular Generative Adversarial Network (RC-TGAN), a novel generative adversarial network (GAN) model that extends the tabular GAN to support modeling and synthesizing relational databases. The RC-TGAN models relationship information between tables by incorporating conditional data of parent rows into the design of the child table's GAN. We further extend the RC-TGAN to model the influence that grandparent table rows may have on their grandchild rows, in order to prevent the loss of this connection when the rows of the parent table fail to transfer this relationship information. The experimental results, using eight real relational databases, show significant improvements in the quality of the synthesized relational databases when compared to the benchmark system, demonstrating the effectiveness of the RC-TGAN in preserving relationships between tables of the original database.
翻訳日:2022-11-15 20:21:16 公開日:2022-11-14
# ポーズ誤りを考慮したロバストな3次元物体検出

Robust Collaborative 3D Object Detection in Presence of Pose Errors ( http://arxiv.org/abs/2211.07214v1 )

ライセンス: Link先を確認
Yifan Lu, Quanhao Li, Baoan Liu, Mehrdad Dianat, Chen Feng, Siheng Chen, Yanfeng Wang(参考訳) コラボレーティブな3dオブジェクト検出は、複数のエージェント間の情報交換を利用して、咬合などのセンサ障害の存在下でのオブジェクト検出の精度を高める。 しかし、実際には、不完全局所化によるポーズ推定誤差は、空間的メッセージの不整合を引き起こし、協調性能を著しく低下させる。 ポーズエラーの悪影響を軽減するために,未知のポーズエラーに対して堅牢な新しいハイブリッド協調フレームワークであるCoAlignを提案する。 提案手法は,協調エージェント間のポーズ一貫性を高めるために,新たなエージェント・オブジェクトポーズグラフモデリングに依存している。 さらに,複数の空間解像度で中間特徴を集約するマルチスケールデータ融合戦略を採用した。 訓練指導のための基礎的姿勢を必要とする先行研究と比較すると,本提案手法は訓練において基礎的姿勢の監督を必要とせず,ポーズ誤りの具体的な仮定をもたらさないため,より実用的である。 提案手法の大規模評価を複数のデータセットで行い,CoAlignが相対的な局所化誤差を著しく低減し,ポーズ誤差が存在する場合の美術検出性能の達成を証明した。 コードはhttps://github.com/yifanlu0227/CoAlign.comで研究コミュニティが利用できる。

Collaborative 3D object detection exploits information exchange among multiple agents to enhance accuracy of object detection in presence of sensor impairments such as occlusion. However, in practice, pose estimation errors due to imperfect localization would cause spatial message misalignment and significantly reduce the performance of collaboration. To alleviate adverse impacts of pose errors, we propose CoAlign, a novel hybrid collaboration framework that is robust to unknown pose errors. The proposed solution relies on a novel agent-object pose graph modeling to enhance pose consistency among collaborating agents. Furthermore, we adopt a multi-scale data fusion strategy to aggregate intermediate features at multiple spatial resolutions. Comparing with previous works, which require ground-truth pose for training supervision, our proposed CoAlign is more practical since it doesn't require any ground-truth pose supervision in the training and makes no specific assumptions on pose errors. Extensive evaluation of the proposed method is carried out on multiple datasets, certifying that CoAlign significantly reduce relative localization error and achieving the state of art detection performance when pose errors exist. Code are made available for the use of the research community at https://github.com/yifanlu0227/CoAlign.
翻訳日:2022-11-15 20:20:41 公開日:2022-11-14
# カメラ搭載ミリ波ドローン:コンピュータビジョンによる無線ビーム予測

Millimeter Wave Drones with Cameras: Computer Vision Aided Wireless Beam Prediction ( http://arxiv.org/abs/2211.07569v1 )

ライセンス: Link先を確認
Gouranga Charan, Andrew Hredzak, and Ahmed Alkhateeb(参考訳) ミリ波(mmWave)とテラヘルツ(THz)ドローンは、カバー範囲の拡張、セキュリティ監視の強化、災害管理などの未来的な応用を可能にする可能性がある。 しかし、これらのドローンは大きなアンテナアレイを配置し、十分なリンク予算を維持するために狭い指向ビームを使用する必要がある。 これらのアレイに付随する大きなビームトレーニングのオーバーヘッドは、これらの狭いビームを調整することを妨げる。 これらの課題に対処するため,本稿では,ドローンに搭載されたカメラから収集した視覚データを活用して,高速かつ正確なビーム予測を実現する視覚支援機械学習手法を提案する。 さらに,提案手法の評価を容易にするため,既存の無線データと視覚データを組み合わせた合成ドローン通信データセットを構築した。 提案したビジョン支援ソリューションは、1ドル以上のビーム予測精度を$\approx 91\%$、100ドルに近い$3$$$で達成する。 これらの結果は,高度に移動可能なmmWave/THzドローン通信の実現に向けた提案手法の有効性を強調した。

Millimeter wave (mmWave) and terahertz (THz) drones have the potential to enable several futuristic applications such as coverage extension, enhanced security monitoring, and disaster management. However, these drones need to deploy large antenna arrays and use narrow directive beams to maintain a sufficient link budget. The large beam training overhead associated with these arrays makes adjusting these narrow beams challenging for highly-mobile drones. To address these challenges, this paper proposes a vision-aided machine learning-based approach that leverages visual data collected from cameras installed on the drones to enable fast and accurate beam prediction. Further, to facilitate the evaluation of the proposed solution, we build a synthetic drone communication dataset consisting of co-existing wireless and visual data. The proposed vision-aided solution achieves a top-$1$ beam prediction accuracy of $\approx 91\%$ and close to $100\%$ top-$3$ accuracy. These results highlight the efficacy of the proposed solution towards enabling highly mobile mmWave/THz drone communication.
翻訳日:2022-11-15 20:20:20 公開日:2022-11-14
# 分散量子ニューラルネットワークへの招待

An Invitation to Distributed Quantum Neural Networks ( http://arxiv.org/abs/2211.07056v1 )

ライセンス: Link先を確認
Lirand\"e Pira, Chris Ferrie(参考訳) ディープニューラルネットワークは、最も有望な機械学習技術の1つとして確立されている。 このようなモデルを大規模にトレーニングすることは、しばしば並列化され、分散ディープラーニングの概念を生み出します。 分散技術は、必要から、あるいは単に速度のために、大規模モデルや大規模データセットのトレーニングに使用されることが多い。 一方、量子機械学習は、機械学習と量子コンピューティングの相互作用である。 新しい学習アルゴリズムの開発に量子デバイスを使うことの利点を理解し、既存のものを改善することを目指している。 量子機械学習で深く研究されているアーキテクチャのセットは、量子ニューラルネットワークである。 本稿では,分散ディープラーニングの考え方を量子ニューラルネットワークに適用する。 量子データセットの分布は、量子モデルの分布よりも従来のものと類似性が高いが、量子データのユニークな側面は、両方のアプローチに新たな脆弱性をもたらす。 本稿では,近年の数値実験と回路切断の概念を含む分散量子ニューラルネットワークにおける技術の現状について概説する。

Deep neural networks have established themselves as one of the most promising machine learning techniques. Training such models at large scales is often parallelized, giving rise to the concept of distributed deep learning. Distributed techniques are often employed in training large models or large datasets either out of necessity or simply for speed. Quantum machine learning, on the other hand, is the interplay between machine learning and quantum computing. It seeks to understand the advantages of employing quantum devices in developing new learning algorithms as well as improving the existing ones. A set of architectures that are heavily explored in quantum machine learning are quantum neural networks. In this review, we consider ideas from distributed deep learning as they apply to quantum neural networks. We find that the distribution of quantum datasets shares more similarities with its classical counterpart than does the distribution of quantum models, though the unique aspects of quantum data introduces new vulnerabilities to both approaches. We review the current state of the art in distributed quantum neural networks, including recent numerical experiments and the concept of circuit cutting.
翻訳日:2022-11-15 20:12:14 公開日:2022-11-14
# インド株市場統合による効率の良いペアトレーディング戦略の設計

Designing Efficient Pair-Trading Strategies Using Cointegration for the Indian Stock Market ( http://arxiv.org/abs/2211.07080v1 )

ライセンス: Link先を確認
Jaydip Sen(参考訳) ペアトレーディング戦略(ペアトレーディングほう、英: pair-trading strategy)は、短期的な時間枠で一対の株式の価格の変動を利用するアプローチであり、長期的には、ペアは強い関連付けと共同行動パターンを示すことができる。 株の価格が著しくばらつきを示す場合には、価格が上がる株の株を売却(短期戦略)し、価格が下がった他の株の株を購入(長期戦略)する。 本稿では,インド国立証券取引所(NSE)の5部門に上場する株式を,効率的なペアトレーディングポートフォリオを設計するための統合的アプローチを提案する。 2018年1月1日から2020年12月31日までの株価に基づいて、統合された株が特定され、ペアが形成される。 ペアトレーディングポートフォリオは、2021年の年間リターンに基づいて評価される。 その結果, 自動車部門と不動産部門の株式の対が, 調査対象5部門の中で最も高いリターンを示した。 しかし、情報技術部門(it)の5組のうち2組は負のリターンをもたらした。

A pair-trading strategy is an approach that utilizes the fluctuations between prices of a pair of stocks in a short-term time frame, while in the long-term the pair may exhibit a strong association and co-movement pattern. When the prices of the stocks exhibit significant divergence, the shares of the stock that gains in price are sold (a short strategy) while the shares of the other stock whose price falls are bought (a long strategy). This paper presents a cointegration-based approach that identifies stocks listed in the five sectors of the National Stock Exchange (NSE) of India for designing efficient pair-trading portfolios. Based on the stock prices from Jan 1, 2018, to Dec 31, 2020, the cointegrated stocks are identified and the pairs are formed. The pair-trading portfolios are evaluated on their annual returns for the year 2021. The results show that the pairs of stocks from the auto and the realty sectors, in general, yielded the highest returns among the five sectors studied in the work. However, two among the five pairs from the information technology (IT) sector are found to have yielded negative returns.
翻訳日:2022-11-15 20:12:00 公開日:2022-11-14
# 医療データセットにおける時間的モデル評価

Model Evaluation in Medical Datasets Over Time ( http://arxiv.org/abs/2211.07165v1 )

ライセンス: Link先を確認
Helen Zhou, Yuwen Chen, Zachary C. Lipton(参考訳) 医療システムにデプロイされた機械学習モデルは、継続的に進化する環境から引き出されたデータに直面する。 しかし、このようなモデルを提案する研究者は、通常、時間に依存しない方法で評価し、トレーニングとテストで患者をサンプリングする。 本稿では,時間とともにモデルクラスの性能を評価するEMDOTフレームワークとPythonパッケージについて紹介する。 5つの医療データセットと各種モデルにまたがって,(1)すべての履歴データの利用,(2)最新のデータのウィンドウの使用,という2つのトレーニング戦略を比較した。 時間とともにパフォーマンスが変化していることに留意し、これらのショックの考えられる説明を特定します。

Machine learning models deployed in healthcare systems face data drawn from continually evolving environments. However, researchers proposing such models typically evaluate them in a time-agnostic manner, with train and test splits sampling patients throughout the entire study period. We introduce the Evaluation on Medical Datasets Over Time (EMDOT) framework and Python package, which evaluates the performance of a model class over time. Across five medical datasets and a variety of models, we compare two training strategies: (1) using all historical data, and (2) using a window of the most recent data. We note changes in performance over time, and identify possible explanations for these shocks.
翻訳日:2022-11-15 20:11:41 公開日:2022-11-14
# 低複素性を考慮した適応フェデレーションミニマックス最適化

Adaptive Federated Minimax Optimization with Lower complexities ( http://arxiv.org/abs/2211.07303v1 )

ライセンス: Link先を確認
Feihu Huang(参考訳) フェデレーション学習(Federated Learning)は、分散およびプライバシ保護のマシンラーニングアプローチとして人気がある。 一方、ミニマックス最適化は機械学習における効果的な階層モデルである。 近年,分散ミニマックス最適化のためのフェデレート学習手法が提案されている。 しかし、これらのフェデレーションされたミニマックス最適化手法は依然として高い勾配と通信の複雑さに苦しんでいる。 このギャップを埋めるために,本稿では,Nonconvex-Strongly-Concave (NSC) のミニマックス最適化について検討し,分散ミニマックス問題の解法として,FGDAとAdaFGDAの高速化された最小マックス最適化手法のクラスを提案する。 具体的には、モーメントに基づく分散と局所SGDに基づく手法を構築し、適応アルゴリズム(AdaFGDA)は統一適応行列を用いて様々な適応学習率を柔軟に組み込むことができる。 理論的には、非i.i.d.条件下でのアルゴリズムのための固形収束解析フレームワークを提供する。 さらに, nsc ミニマックス問題の $\epsilon$-stationary point を求める際に, アルゴリズムが$\tilde{o}(\epsilon^{-3})$ と$\tilde{o}(\epsilon^{-2})$ の通信複雑性の低い$\tilde{o}(\epsilon^{-2})$ の勾配(すなわち sfo) の複雑さを得ることを証明した。 実験では,分散フェアラーニングと強固な連合学習タスクを実施し,手法の効率性を検証する。

Federated learning is a popular distributed and privacy-preserving machine learning approach. Meanwhile, minimax optimization is an effective hierarchical model in machine learning. Recently, some federated learning methods have been proposed to solve the distributed minimax optimization. However, these federated minimax optimization methods still suffer from high gradient and communication complexities. To fill this gap, in the paper, we study the Nonconvex-Strongly-Concave (NSC) minimax optimization, and propose a class of accelerated federated minimax optimization methods (i.e., FGDA and AdaFGDA) to solve the distributed minimax problems. Specifically, our methods build on the momentum-based variance reduced and local-SGD techniques, and our adaptive algorithm (i.e., AdaFGDA) can flexibly incorporate various adaptive learning rates by using the unified adaptive matrix. Theoretically, we provide a solid convergence analysis framework for our algorithms under non-i.i.d. setting. Moreover, we prove our algorithms obtain lower gradient (i.e., SFO) complexity of $\tilde{O}(\epsilon^{-3})$ with lower communication complexity of $\tilde{O}(\epsilon^{-2})$ in finding $\epsilon$-stationary point of NSC minimax problems. Experimentally, we conduct the distributed fair learning and robust federated learning tasks to verify efficiency of our methods.
翻訳日:2022-11-15 20:11:30 公開日:2022-11-14
# o-ranmidhaulにおけるネットワークスライスのための強化学習に基づく資源割当

Reinforcement Learning Based Resource Allocation for Network Slices in O-RAN Midhaul ( http://arxiv.org/abs/2211.07466v1 )

ライセンス: Link先を確認
Nien Fang Cheng, Turgay Pamuklu, Melike Erol-Kantarci(参考訳) ネットワークスライシングは、Ultra-Reliable Low Latency Communication (URLLC) や Enhanced Mobile Broadband (eMBB) など、異なるサービスに対する異なる要求に基づいて、第5世代(5G)モバイルネットワークリソース割り当てを想定している。 Open Radio Access Network (O-RAN) は、機能機能を独立したコンポーネントに変調することで、RANのオープンで非集約的な概念を提案する。 O-RANのネットワークスライシングは性能を大幅に向上させる。 そこで本研究では,強化学習(RL)を適用して,O-RANにおけるネットワークスライシングのための高度な資源割当ソリューションを提案する。 本研究では,ユーザ機器(ue),エッジoクラウド,地域oクラウドの3つのコンポーネントを用いた,rl互換の簡易エッジネットワークシミュレータを提案する。 このシミュレータは後に、未使用帯域を他のスライスから動的に割り当てることで、ターゲットネットワークスライス(s)のスループットを改善する方法を見つけるために使われる。 ネットワークスライシングのスループット向上は、平均データレート、ピークレート、送信時間の短縮といったエンドユーザにとってもメリットがある。 その結果, rlモデルでは, バランスドおよびembbフォーカスのベースラインと比較して, ピークレートが高く, 伝送時間が短いembbトラフィックを提供できることがわかった。

Network slicing envisions the 5th generation (5G) mobile network resource allocation to be based on different requirements for different services, such as Ultra-Reliable Low Latency Communication (URLLC) and Enhanced Mobile Broadband (eMBB). Open Radio Access Network (O-RAN), proposes an open and disaggregated concept of RAN by modulizing the functionalities into independent components. Network slicing for O-RAN can significantly improve performance. Therefore, an advanced resource allocation solution for network slicing in O-RAN is proposed in this study by applying Reinforcement Learning (RL). This research demonstrates an RL compatible simplified edge network simulator with three components, user equipment(UE), Edge O-Cloud, and Regional O-Cloud. This simulator is later used to discover how to improve throughput for targeted network slice(s) by dynamically allocating unused bandwidth from other slices. Increasing the throughput for certain network slicing can also benefit the end users with a higher average data rate, peak rate, or shorter transmission time. The results show that the RL model can provide eMBB traffic with a high peak rate and shorter transmission time for URLLC compared to balanced and eMBB focus baselines.
翻訳日:2022-11-15 20:10:25 公開日:2022-11-14
# 機能的コネクトームフィンガープリントと認知状態復号のための高精度機械学習技術

High-Accuracy Machine Learning Techniques for Functional Connectome Fingerprinting and Cognitive State Decoding ( http://arxiv.org/abs/2211.07507v1 )

ライセンス: Link先を確認
Andrew Hannum, Mario A. Lopez, Sa\'ul A. Blanco, Richard F. Betzel(参考訳) ヒト脳は機能的および解剖学的に結合した脳領域からなる複雑なネットワークである。 多くの研究が、脳ネットワークの実験的推定が、疾患や認知状態のバイオマーカーの発見に有用であると示唆している。 しかし、この目的を実現するための前提条件は、脳ネットワークが個人の信頼できるマーカーでもあることである。 本稿では、人間のコネクトームプロジェクトデータを用いて、作業記憶、心の理論、運動機能などを評価する認知的要求課題に基づいて、個々の被験者と認知状態の脳ベースの指紋を調べる最近の研究を行った。 提案手法は、fMRIスキャンの被検体の識別と、前例のない被検体の認知状態の分類の両方において、最大99 %の精度を実現する。 より広範に、多数の被験者(865名)のfMRIスキャン(865名)の機能的接続データを用いて、被験者の指紋認証と認知状態復号化のための5種類の機械学習技術の精度と信頼性について検討した。 これらの結果は、機能的接続に基づく脳のフィンガープリントと状態復号のための既存の技術の進歩を表している。 さらに、16の異なる前処理パイプラインを比較し、機能的コネクトーム(fcs)生産の異なる側面が主題とタスクの分類の精度に及ぼす影響を特徴付け、考えられるコンファウンドを特定する。

The human brain is a complex network comprised of functionally and anatomically interconnected brain regions. A growing number of studies have suggested that empirical estimates of brain networks may be useful for discovery of biomarkers of disease and cognitive state. A prerequisite for realizing this aim, however, is that brain networks also serve as reliable markers of an individual. Here, using Human Connectome Project data, we build upon recent studies examining brain-based fingerprints of individual subjects and cognitive states based on cognitively-demanding tasks that assess, for example, working memory, theory of mind, and motor function. Our approach achieves accuracy of up to 99\% for both identification of the subject of an fMRI scan, and for classification of the cognitive state of a previously-unseen subject in a scan. More broadly, we explore the accuracy and reliability of five different machine learning techniques on subject fingerprinting and cognitive state decoding objectives, using functional connectivity data from fMRI scans of a high number of subjects (865) across a number of cognitive states (8). These results represent an advance on existing techniques for functional connectivity-based brain fingerprinting and state decoding. Additionally, 16 different pre-processing pipelines are compared in order to characterize the effects of different aspects of the production of functional connectomes (FCs) on the accuracy of subject and task classification, and to identify possible confounds.
翻訳日:2022-11-15 20:10:04 公開日:2022-11-14
# 3次元形状とテクスチャの形状誘導のための潜時NeRF

Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures ( http://arxiv.org/abs/2211.07600v1 )

ライセンス: Link先を確認
Gal Metzer and Elad Richardson and Or Patashnik and Raja Giryes and Daniel Cohen-Or(参考訳) テキスト誘導画像生成は近年急速に進歩し、テキスト誘導形状生成に大きなブレークスルーをもたらした。 近年, スコア蒸留により, 3次元オブジェクトを生成するためにNeRFモデルをテキストガイドすることに成功した。 我々は, 自動エンコーダのコンパクトな潜在空間における拡散過程全体を適用可能な, 計算効率の高い潜在拡散モデルにスコア蒸留を適用した。 NeRFは画像空間で動作するため、潜伏点の蒸留を誘導するには各誘導ステップで潜伏点へのエンコーディングが必要となる。 代わりに、我々はNeRFを潜在空間に持ち込むことを提案し、結果としてLatent-NeRFとなる。 テキスト・トゥ・3Dモデルでは印象的な結果が得られるが、本質的に制約がなく、特定の3D構造をガイドまたは強制する能力がない可能性がある。 3D 生成を支援するために,所望の物体の粗い構造を定義する抽象幾何学である Sketch-Shape を用いて潜伏型NeRF を導出する。 そこで我々は,そのような制約をLatent-NeRFに直接統合する手段を提案する。 このテキストと形状誘導の独特な組み合わせにより、生成プロセスの制御が強化される。 また, 潜在スコア蒸留は, 直接3dメッシュに適用できることを示した。 これにより、所定の幾何学上で高品質なテクスチャを生成することができる。 私たちの実験では、様々な形式のガイダンスのパワーと、潜在レンダリングの効率を検証しています。 実装はhttps://github.com/eladrich/latent-nerfで利用可能

Text-guided image generation has progressed rapidly in recent years, inspiring major breakthroughs in text-guided shape generation. Recently, it has been shown that using score distillation, one can successfully text-guide a NeRF model to generate a 3D object. We adapt the score distillation to the publicly available, and computationally efficient, Latent Diffusion Models, which apply the entire diffusion process in a compact latent space of a pretrained autoencoder. As NeRFs operate in image space, a naive solution for guiding them with latent score distillation would require encoding to the latent space at each guidance step. Instead, we propose to bring the NeRF to the latent space, resulting in a Latent-NeRF. Analyzing our Latent-NeRF, we show that while Text-to-3D models can generate impressive results, they are inherently unconstrained and may lack the ability to guide or enforce a specific 3D structure. To assist and direct the 3D generation, we propose to guide our Latent-NeRF using a Sketch-Shape: an abstract geometry that defines the coarse structure of the desired object. Then, we present means to integrate such a constraint directly into a Latent-NeRF. This unique combination of text and shape guidance allows for increased control over the generation process. We also show that latent score distillation can be successfully applied directly on 3D meshes. This allows for generating high-quality textures on a given geometry. Our experiments validate the power of our different forms of guidance and the efficiency of using latent rendering. Implementation is available at https://github.com/eladrich/latent-nerf
翻訳日:2022-11-15 19:54:56 公開日:2022-11-14
# 深部慣性局在のための学習可能な時空間マップ埋め込み

Learnable Spatio-Temporal Map Embeddings for Deep Inertial Localization ( http://arxiv.org/abs/2211.07635v1 )

ライセンス: Link先を確認
Dennis Melamed, Karnik Ram, Vivek Roy, Kris Kitani(参考訳) 屋内ローカライズシステムでは、慣性オドメトリと地図情報とを融合してオドメトリドリフトを低減させることが多いが、そのような方法はノイズに敏感であり、オドメトリソースをまたいで一般化するのに苦労している。 地図利用におけるロバスト性問題に対処するために,学習された空間地図の埋め込みと時間計測の埋め込みを組み合わせることで,地図内のユーザ位置を先導するデータ駆動型手法を提案する。 これまでの手定義手法よりも,ユーザにとって,どのマップ領域が実現可能な場所であるかをエンコードすることを学びました。 これにより、粒子フィルタで使用する場合、慣性のみの局所化精度が49%向上する。 この結果は,ブルートゥースビーコンを用いた絶対位置決め性能と相対位置決め法が一致できることが示唆された。 また,本手法の一般化性を示すため,ホイールエンコーダオドメトリーを用いて同様の改善を行った。

Indoor localization systems often fuse inertial odometry with map information via hand-defined methods to reduce odometry drift, but such methods are sensitive to noise and struggle to generalize across odometry sources. To address the robustness problem in map utilization, we propose a data-driven prior on possible user locations in a map by combining learned spatial map embeddings and temporal odometry embeddings. Our prior learns to encode which map regions are feasible locations for a user more accurately than previous hand-defined methods. This prior leads to a 49% improvement in inertial-only localization accuracy when used in a particle filter. This result is significant, as it shows that our relative positioning method can match the performance of absolute positioning using bluetooth beacons. To show the generalizability of our method, we also show similar improvements using wheel encoder odometry.
翻訳日:2022-11-15 19:54:29 公開日:2022-11-14
# 付加共分散行列モデル:イギリスにおける地域電力ネットデマンドのモデル化

Additive Covariance Matrix Models: Modelling Regional Electricity Net-Demand in Great Britain ( http://arxiv.org/abs/2211.07451v1 )

ライセンス: Link先を確認
V. Gioia, M. Fasiolo, J. Browell, R. Bellio(参考訳) 地域電力需要の予測、消費最小の組込み発電は、信頼性と経済システムの運用とエネルギー取引に欠かせないインプットである。 このような予測は地域によって行われるのが一般的であるが、電力フローの管理などの操作には空間的に一貫性のある共同予測が必要である。 ここでは、イギリスの電力網を構成する14の地域における需要の同時分布を予測する。 共同モデリングは、各地域における純需要変動と地域間の依存性が、時間的、社会経済的、気象関連要因によって異なるという事実によって複雑である。 修正されたコレスキーパラメトリションに基づいて多変量ガウスモデルを提案し、加法モデルを用いて各非拘束パラメータをモデル化することができる。 モデルパラメータと共変量の数は大きいので、勾配ブースティングに基づいて半自動的なモデル選択アプローチを採用する。 covariate-dependent covariance matrixモデルを採用すると、ダイアゴナルな静的共分散マトリックスではなくフルで得られるものと同等の性能が大幅に向上することを示すことに加えて、蓄積された局所効果やその他のビジュアルツールを通じてモデル出力を調べ、covariateがネット要求の変動性と依存性にどのように影響するかを考察する。 この論文で結果を再現するためのコードはhttps://doi.org/10.5281/zenodo.7315106で入手できる。

Forecasts of regional electricity net-demand, consumption minus embedded generation, are an essential input for reliable and economic power system operation, and energy trading. While such forecasts are typically performed region by region, operations such as managing power flows require spatially coherent joint forecasts, which account for cross-regional dependencies. Here we forecast the joint distribution of net-demand across the 14 regions constituting Great Britain's electricity network. Joint modelling is complicated by the fact that the net-demand variability within each region, and the dependencies between regions, vary with temporal, socio-economical and weather-related factors. We accommodate for these characteristics by proposing a multivariate Gaussian model based on a modified Cholesky parametrisation, which allows us to model each unconstrained parameter via an additive model. Given that the number of model parameters and covariates is large, we adopt a semi-automated approach to model selection, based on gradient boosting. In addition to demonstrating that adopting a covariate-dependent covariance matrix model leads to substantial forecasting performance improvements, comparable to those obtained by using a full rather than a diagonal static covariance matrix, we explore the model output via accumulated local effects and other visual tools to get insights into how the covariates affect net-demand variability and dependencies. The code for reproducing the results in this paper is available at https://doi.org/10.5281/zenodo.7315106
翻訳日:2022-11-15 19:53:24 公開日:2022-11-14
# 深部ニューラルネットワークによる心臓MRI方位認識と予測精度向上手法

Recognition of Cardiac MRI Orientation via Deep Neural Networks and a Method to Improve Prediction Accuracy ( http://arxiv.org/abs/2211.07088v1 )

ライセンス: Link先を確認
Houxin Zhou(参考訳) ほとんどの医療画像処理タスクでは、画像の向きが計算結果に影響を及ぼす。 しかし、手動で画像を並べ替えることは時間と労力を浪費する。 本稿では、心臓MRIにおける方向認識の問題と深部ニューラルネットワークを用いてこの問題を解決する。 我々は,MRIの多重列とモーダル性に対して,単一のモーダルから複数のモーダルへモデルを適用するトランスファー学習戦略を提案する。 また,投票を用いた予測手法を提案する。 その結果,深層ニューラルネットワークは心臓mriの向き認識に有効な方法であり,投票予測法によって精度が向上する可能性が示唆された。

In most medical image processing tasks, the orientation of an image would affect computing result. However, manually reorienting images wastes time and effort. In this paper, we study the problem of recognizing orientation in cardiac MRI and using deep neural network to solve this problem. For multiple sequences and modalities of MRI, we propose a transfer learning strategy, which adapts our proposed model from a single modality to multiple modalities. We also propose a prediction method that uses voting. The results shows that deep neural network is an effective way in recognition of cardiac MRI orientation and the voting prediction method could improve accuracy.
翻訳日:2022-11-15 19:46:25 公開日:2022-11-14
# wsc-trans:側頭骨ctの自動マルチストラクショナルセグメンテーションのための3次元ネットワークモデル

WSC-Trans: A 3D network model for automatic multi-structural segmentation of temporal bone CT ( http://arxiv.org/abs/2211.07143v1 )

ライセンス: Link先を確認
Xin Hua, Zhijiang Du, Hongjian Yu, Jixin Ma, Fanjun Zheng, Cheng Zhang, Qiaohui Lu, Hui Zhao(参考訳) 現在, 人工内耳は重度難聴患者に最も有効な治療法であるが, 側頭骨が極めて複雑で3次元の解剖学的構造を有しており, 手術時の損傷を避けることが重要であるため, 人工内耳の習得は極めて困難である。 対象領域内の解剖学的組織の空間的位置は, 手術前にCTを用いて決定する必要がある。 ターゲット構造が小さすぎて複雑すぎることを考えると、手指の分節に必要な時間は長すぎるため、側頭骨とその近傍の解剖学的構造を迅速かつ正確に分節することが極めて困難である。 この課題を克服するために,頭蓋骨,顔面神経,聴覚結節,前庭,半円管を自動分割可能な,側頭骨ctにおける多臓器目標の自動セグメンテーションのための深層学習に基づく3次元ネットワークモデルを提案する。 The algorithm combines CNN and Transformer for feature extraction and takes advantage of spatial attention and channel attention mechanisms to further improve the segmentation effect, the experimental results comparing with the results of various existing segmentation algorithms show that the dice similarity scores, Jaccard coefficients of all targets anatomical structures are significantly higher while HD95 and ASSD scores are lower, effectively proving that our method outperforms other advanced methods.

Cochlear implantation is currently the most effective treatment for patients with severe deafness, but mastering cochlear implantation is extremely challenging because the temporal bone has extremely complex and small three-dimensional anatomical structures, and it is important to avoid damaging the corresponding structures when performing surgery. The spatial location of the relevant anatomical tissues within the target area needs to be determined using CT prior to the procedure. Considering that the target structures are too small and complex, the time required for manual segmentation is too long, and it is extremely challenging to segment the temporal bone and its nearby anatomical structures quickly and accurately. To overcome this difficulty, we propose a deep learning-based algorithm, a 3D network model for automatic segmentation of multi-structural targets in temporal bone CT that can automatically segment the cochlea, facial nerve, auditory tubercle, vestibule and semicircular canal. The algorithm combines CNN and Transformer for feature extraction and takes advantage of spatial attention and channel attention mechanisms to further improve the segmentation effect, the experimental results comparing with the results of various existing segmentation algorithms show that the dice similarity scores, Jaccard coefficients of all targets anatomical structures are significantly higher while HD95 and ASSD scores are lower, effectively proving that our method outperforms other advanced methods.
翻訳日:2022-11-15 19:46:15 公開日:2022-11-14
# 学習画像圧縮のためのマルチ参照エントロピーモデル

Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v1 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Ronggang Wang(参考訳) 近年,学習画像の圧縮性能は著しく向上している。 潜在表現の分布を正確に推定するエントロピーモデルは、速度歪みの増大に重要な役割を果たしている。 ほとんどのエントロピーモデルは相関を1次元で捉える。 しかし、潜在表現にはチャネル毎、局所的、大域的な空間相関がある。 この問題に対処するため,マルチ参照エントロピーモデルMEMとMEM+を提案する。 我々は潜在表現をスライスに分割する。 現在のスライスをデコードする場合、以前のデコードされたスライスをコンテキストとして使用し、以前のデコードされたスライスのアテンションマップを使用して、現在のスライスにおけるグローバル相関を予測する。 ローカルコンテキストをキャプチャするために,2パスデコードを維持しながら性能低下を回避するために,拡張されたチェッカーボードコンテキストキャプチャを提案する。 MEMとMEM+に基づいて,画像圧縮モデルMLICとMLIC+を提案する。 大規模な実験により,我々のMLICとMLIC+は最先端の性能を達成し,PSNRで測定されたコダックデータセット上でのBDレートを9.77%,13.09%削減した。

Recently, learned image compression has achieved remarkable performance. Entropy model, which accurately estimates the distribution of latent representation, plays an important role in boosting rate distortion performance. Most entropy models capture correlations in one dimension. However, there are channel-wise, local and global spatial correlations in latent representation. To address this issue, we propose multi-reference entropy models MEM and MEM+ to capture channel, local and global spatial contexts. We divide latent representation into slices. When decoding current slice, we use previously decoded slices as contexts and use attention map of previously decoded slice to predict global correlations in current slice. To capture local contexts, we propose enhanced checkerboard context capturing to avoid performance degradation while retaining two-pass decoding. Based on MEM and MEM+, we propose image compression models MLIC and MLIC+. Extensive experimental evaluations have shown that our MLIC and MLIC+ achieve state-of-the-art performance and they reduce BD-rate by 9.77% and 13.09% on Kodak dataset over VVC when measured in PSNR.
翻訳日:2022-11-15 19:45:53 公開日:2022-11-14
# CurvPnP:Deep Curvature Denoiserを用いたプラグアンドプレイブラインド画像復元

CurvPnP: Plug-and-play Blind Image Restoration with Deep Curvature Denoiser ( http://arxiv.org/abs/2211.07286v1 )

ライセンス: Link先を確認
Yutong Li and Yuping Duan(参考訳) 深層学習に基づくデノイザーの開発により、プラグ・アンド・プレイ戦略は画像復元問題で大きな成功を収めている。 しかし、既存のプラグ・アンド・プレイ画像復元法は、zhang et al (2022)のような、未知の雑音に対して目視的に劣化する非盲検ガウス的デノナイジングのために設計されている。 プラグ・アンド・プレイ画像復元の限界を推し進めるために,現実の複雑な画像復元問題に対処できるブラインド・ガウス以前の新しい枠組みを提案する。 具体的には、ノイズ推定サブネットワークと雑音推定サブネットワークとからなる2段階のブラインドガウスディニューザにより実装され、ノイズ推定サブネットワークがノイズ評価サブネットワークに対してノイズレベルを提供する変数としてのノイズレベルに関する新しい画像復元モデルを構築する。 また、エンコーダ・デコーダアーキテクチャと教師付きアテンションモジュールに曲率マップを導入し、高い柔軟性と効果的な畳み込みニューラルネットワークを実現する。 画像のデニュージング,デブラリング,単一画像の超高解像度化に関する実験結果を提供し,最先端モデルベースおよび学習ベース手法に対する奥行き曲率デノイザーとブラインド画像復元手法の利点を実証した。 本モデルでは,異なる画像復元作業においてノイズレベルが未知であっても,詳細な画像詳細と微小構造物を復元できることが示されている。 ソースコードはhttps://github.com/Duanlab123/CurvPnPで入手できる。

Due to the development of deep learning-based denoisers, the plug-and-play strategy has achieved great success in image restoration problems. However, existing plug-and-play image restoration methods are designed for non-blind Gaussian denoising such as zhang et al (2022), the performance of which visibly deteriorate for unknown noises. To push the limits of plug-and-play image restoration, we propose a novel framework with blind Gaussian prior, which can deal with more complicated image restoration problems in the real world. More specifically, we build up a new image restoration model by regarding the noise level as a variable, which is implemented by a two-stage blind Gaussian denoiser consisting of a noise estimation subnetwork and a denoising subnetwork, where the noise estimation subnetwork provides the noise level to the denoising subnetwork for blind noise removal. We also introduce the curvature map into the encoder-decoder architecture and the supervised attention module to achieve a highly flexible and effective convolutional neural network. The experimental results on image denoising, deblurring and single-image super-resolution are provided to demonstrate the advantages of our deep curvature denoiser and the resulting plug-and-play blind image restoration method over the state-of-the-art model-based and learning-based methods. Our model is shown to be able to recover the fine image details and tiny structures even when the noise level is unknown for different image restoration tasks. The source codes are available at https://github.com/Duanlab123/CurvPnP.
翻訳日:2022-11-15 19:45:30 公開日:2022-11-14
# ハイパペット画像分類のためのベイズ層グラフコンボリュートアンネットワーク

Bayesian Layer Graph Convolutioanl Network for Hyperspetral Image Classification ( http://arxiv.org/abs/2211.07316v1 )

ライセンス: Link先を確認
Mingyang Zhang, Ziqi Di, Maoguo Gong, Yue Wu, Hao Li, Xiangming Jiang(参考訳) 近年,高スペクトル画像(HSI)分類の研究は深層ネットワークモデルの導入に着実に進展しており,近年ではGCNに基づくモデルが目覚ましい性能を示している。 しかし、これらの点推定に基づくディープラーニングフレームワークは、一般化が低く、分類結果の不確かさを定量化できない。 一方、分布推定に基づいてベイズニューラルネットワーク(BNN)を単純に適用することで、HSIを分類することは、大量のパラメータによって高い分類精度を達成できない。 本稿では,点推定に基づくニューラルネットワークへの挿入層としてベイズ的考えを持つベイズ的層を設計し,グラフ畳み込み処理を組み合わせたベイズ的層グラフ畳み込みネットワーク(BLGCN)モデルを提案し,グラフ情報を効果的に抽出し,分類結果の不確かさを推定する。 さらに,HSIデータセットのサンプル不均衡問題を解決するためにGAN(Generative Adversarial Network)を構築した。 最後に,信頼区間が予め設定された閾値に達すると早期にトレーニングを終了させる分類結果の信頼区間に基づいて,動的制御訓練戦略を設計する。 実験の結果,本モデルでは高い分類精度と強い一般化のバランスが得られた。 さらに、分類結果の不確実性を定量化することができる。

In recent years, research on hyperspectral image (HSI) classification has continuous progress on introducing deep network models, and recently the graph convolutional network (GCN) based models have shown impressive performance. However, these deep learning frameworks based on point estimation suffer from low generalization and inability to quantify the classification results uncertainty. On the other hand, simply applying the Bayesian Neural Network (BNN) based on distribution estimation to classify the HSI is unable to achieve high classification accuracy due to the large amount of parameters. In this paper, we design a Bayesian layer with Bayesian idea as an insertion layer into point estimation based neural networks, and propose a Bayesian Layer Graph Convolutional Network (BLGCN) model by combining graph convolution operations, which can effectively extract graph information and estimate the uncertainty of classification results. Moreover, a Generative Adversarial Network (GAN) is built to solve the sample imbalance problem of HSI dataset. Finally, we design a dynamic control training strategy based on the confidence interval of the classification results, which will terminate the training early when the confidence interval reaches the preseted threshold. The experimental results show that our model achieves a balance between high classification accuracy and strong generalization. In addition, it can quantifies the uncertainty of the classification results.
翻訳日:2022-11-15 19:44:52 公開日:2022-11-14
# ランドマークモデルによる異種ラベルを用いた多中心解剖学的セグメンテーション

Multi-center anatomical segmentation with heterogeneous labels via landmark-based models ( http://arxiv.org/abs/2211.07395v1 )

ライセンス: Link先を確認
Nicol\'as Gaggion, Maria Vakalopoulou, Diego H. Milone, Enzo Ferrante(参考訳) 多施設データセットにおける異種ラベルからの解剖学的セグメンテーションの学習は、臨床シナリオで遭遇する一般的な状況であり、特定の解剖学的構造は特定の医療センターからのイメージにのみアノテートされるが、完全なデータベースには含まれない。 ここではまず,ドメインの暗記問題やラベルの競合などにより,この課題を無意味に学習する上で,最先端のピクセルレベルセグメンテーションモデルがいかに失敗するかを示す。 次に,グラフ表現を用いて解剖学的構造を学習するランドマークに基づくセグメンテーションモデルであるhybridgnetを採用することを提案する。 両モデルで学習した潜伏空間を解析することにより,HybridGNetは自然にドメイン不変の特徴表現を学習し,胸部X線マルチクラスセグメンテーションの文脈における実証的証拠を提供する。 これらの洞察が、パブリックおよびマルチセンターデータセットからの異種ラベルによるディープラーニングモデルのトレーニングに光を当てることを願っています。

Learning anatomical segmentation from heterogeneous labels in multi-center datasets is a common situation encountered in clinical scenarios, where certain anatomical structures are only annotated in images coming from particular medical centers, but not in the full database. Here we first show how state-of-the-art pixel-level segmentation models fail in naively learning this task due to domain memorization issues and conflicting labels. We then propose to adopt HybridGNet, a landmark-based segmentation model which learns the available anatomical structures using graph-based representations. By analyzing the latent space learned by both models, we show that HybridGNet naturally learns more domain-invariant feature representations, and provide empirical evidence in the context of chest X-ray multiclass segmentation. We hope these insights will shed light on the training of deep learning models with heterogeneous labels from public and multi-center datasets.
翻訳日:2022-11-15 19:44:30 公開日:2022-11-14
# MR-NOM:Nissl-stained histological slicesにおける神経細胞の多段階分解能

MR-NOM: Multi-scale Resolution of Neuronal cells in Nissl-stained histological slices via deliberate Over-segmentation and Merging ( http://arxiv.org/abs/2211.07415v1 )

ライセンス: Link先を確認
Valentina Vadori, Jean-Marie Gra\"ic, Livio Finos, Livio Corain, Antonella Peruffo, Enrico Grisan(参考訳) 比較神経解剖学において、脳細胞構造の特徴は、異なる個体群の発達、進化、特徴に関する情報を抽出するのに役立つため、脳の構造と機能をよりよく理解するために重要である。 個々の脳細胞の自動セグメンテーションは主要な前提条件であり、依然として困難である。 Nissl-stained histological image of the brain における細胞分画のための新しい方法 (MR-NOM) を開発した。 MR-NOMは、細胞をスーパーピクセルに意図的に過剰に分割し、形状、構造、強度の特徴に基づいて分類器を介してマージするマルチスケールアプローチを利用する。 この方法は、大脳皮質の画像でテストされ、部分的に触れたり重なったりする様々な特徴を持つ細胞を扱うことに成功し、2つの最先端の方法よりも優れた性能を示した。

In comparative neuroanatomy, the characterization of brain cytoarchitecture is critical to a better understanding of brain structure and function, as it helps to distill information on the development, evolution, and distinctive features of different populations. The automatic segmentation of individual brain cells is a primary prerequisite and yet remains challenging. A new method (MR-NOM) was developed for the instance segmentation of cells in Nissl-stained histological images of the brain. MR-NOM exploits a multi-scale approach to deliberately over-segment the cells into superpixels and subsequently merge them via a classifier based on shape, structure, and intensity features. The method was tested on images of the cerebral cortex, proving successful in dealing with cells of varying characteristics that partially touch or overlap, showing better performance than two state-of-the-art methods.
翻訳日:2022-11-15 19:44:10 公開日:2022-11-14
# AI4Food-NutritionDB:食品画像データベース、栄養分類学、認識ベンチマーク

AI4Food-NutritionDB: Food Image Database, Nutrition Taxonomy, and Recognition Benchmark ( http://arxiv.org/abs/2211.07440v1 )

ライセンス: Link先を確認
Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Isabel Espinosa-Salinas, Gala Freixer, Julian Fierrez, Ruben Vera-Rodriguez, Javier Ortega-Garcia, Enrique Carrillo de Santa Pau, Ana Ramirez de Molina(参考訳) 健康なライフスタイルをリードすることは、私たちの摂食生活と食事習慣の悪化により、今日の社会において最も困難な目標の一つとなっている。 その結果、国内外の生物は健康的な食物食と身体活動の習慣を促進するために多くの努力をしている。 しかし、これらの勧告は日々の生活において従うのが難しい場合があり、一般人口にも基づいている。 その結果、個人化された栄養学という新たな研究領域が、スマートデバイスと人工知能(AI)メソッドによる個々のソリューションに焦点を当てることが考えられた。 本研究は, 食品画像と栄養分類を考察した初の栄養データベースであるAI4Food-NutritionDBデータベースを提案する。 さらに、栄養学の専門家は6つの栄養レベル、19の主なカテゴリー(例えば「ミート」)、73のサブカテゴリ(例えば「ホワイト・ミート」)、853の食品(例えば「チッケン」)の4つの異なる分類レベルを考える。 AI4Food-NutritionDBは、食品の摂取頻度、品質、分類の観点から、新しい食品コンピューティングアプローチへの扉を開く。 また,本データベースに加えて,栄養分類に基づく3つのタスク(カテゴリー,分類,最終製品)を研究コミュニティで使用するための標準実験プロトコルとベンチマークを提案する。 最後に、私たちはai4food-nutritiondbでトレーニングされたディープラーニングモデルもリリースしています。

Leading a healthy lifestyle has become one of the most challenging goals in today's society due to our sedentary lifestyle and poor eating habits. As a result, national and international organisms have made numerous efforts to promote healthier food diets and physical activity habits. However, these recommendations are sometimes difficult to follow in our daily life and they are also based on a general population. As a consequence, a new area of research, personalised nutrition, has been conceived focusing on individual solutions through smart devices and Artificial Intelligence (AI) methods. This study presents the AI4Food-NutritionDB database, the first nutrition database that considers food images and a nutrition taxonomy based on recommendations by national and international organisms. In addition, four different categorisation levels are considered following nutrition experts: 6 nutritional levels, 19 main categories (e.g., "Meat"), 73 subcategories (e.g., "White Meat"), and 893 final food products (e.g., "Chicken"). The AI4Food-NutritionDB opens the doors to new food computing approaches in terms of food intake frequency, quality, and categorisation. Also, in addition to the database, we propose a standard experimental protocol and benchmark including three tasks based on the nutrition taxonomy (i.e., category, subcategory, and final product) to be used for the research community. Finally, we also release our Deep Learning models trained with the AI4Food-NutritionDB, which can be used as pre-trained models, achieving accurate recognition results with challenging food image databases.
翻訳日:2022-11-15 19:43:54 公開日:2022-11-14
# AsyncNeRF:時相関数付き非同期RGB-D系列から大規模ラジアンス場を学習する

AsyncNeRF: Learning Large-scale Radiance Fields from Asynchronous RGB-D Sequences with Time-Pose Function ( http://arxiv.org/abs/2211.07459v1 )

ライセンス: Link先を確認
Zirui Wu, Yuantao Chen, Runyi Yang, Zhenxin Zhu, Chao Hou, Yongliang Shi, Hao Zhao, Guyue Zhou(参考訳) 大規模な放射界は、自動運転やドローン配達といったスマートトランスポートアプリケーションのためのマッピングツールを約束している。 しかし、大規模なシーンでは、センサ範囲が限られているため、コンパクトな同期RGB-Dカメラは適用できない。 そこで本研究では,RGBと深度フレームのミスマッチを自己校正する手法を提案する。 rgbと深度フレームが実際に同じ軌道からサンプリングされているという重要なドメイン特有な事実を利用し、time-pose関数と呼ばれる新しい暗黙的ネットワークを開発する。 大規模な放射場と組み合わせることで、2つの暗黙の表現ネットワークをカスケードするアーキテクチャとなる。 その有効性を検証するために,様々なRGB-Dミスマッチシナリオをカバーする多種多様なフォトリアリスティックデータセットを構築した。 このデータセットの包括的なベンチマークを通じて、異なるシナリオにおけるメソッドの柔軟性と、適用可能な先行モデルよりも優れたパフォーマンスを実証する。 コード、データ、モデルは公開される予定だ。

Large-scale radiance fields are promising mapping tools for smart transportation applications like autonomous driving or drone delivery. But for large-scale scenes, compact synchronized RGB-D cameras are not applicable due to limited sensing range, and using separate RGB and depth sensors inevitably leads to unsynchronized sequences. Inspired by the recent success of self-calibrating radiance field training methods that do not require known intrinsic or extrinsic parameters, we propose the first solution that self-calibrates the mismatch between RGB and depth frames. We leverage the important domain-specific fact that RGB and depth frames are actually sampled from the same trajectory and develop a novel implicit network called the time-pose function. Combining it with a large-scale radiance field leads to an architecture that cascades two implicit representation networks. To validate its effectiveness, we construct a diverse and photorealistic dataset that covers various RGB-D mismatch scenarios. Through a comprehensive benchmarking on this dataset, we demonstrate the flexibility of our method in different scenarios and superior performance over applicable prior counterparts. Codes, data, and models will be made publicly available.
翻訳日:2022-11-15 19:43:27 公開日:2022-11-14
# 顕微鏡画像における海藻の検出:新しいデータセット

Marine Microalgae Detection in Microscopy Images: A New Dataset ( http://arxiv.org/abs/2211.07546v1 )

ライセンス: Link先を確認
Shizheng Zhou, Juntao Jiang, Xiaohan Hong, Yajun Fang, Yan Hong, Pengcheng Fu(参考訳) 海洋性藻類は海洋に広く分布し、生態系において重要な役割を担っている。 顕微鏡画像における海洋藻類の自動同定と位置は,海洋生態環境モニタリングおよび水質評価システムの構築に役立つ。 本稿では,海洋マイクロ藻類検出のための新しいデータセットを提案する。 海洋によく見られる6種の微細藻類(bacillariophyta, chlorella pyrenoidosa, platymonas, dunaliella salina, chrysophyta, symbiodiniaceae)がリアルタイムで観察される。 正常、漂白、翻訳として知られる3つの生理状態にあるシノビオディニ科のイメージも含む。 Labelmeソフトウェアを使ってこれらの画像をバウンディングボックスで注釈付けし、それらをトレーニングとテストセットに分割しました。 データセットの総画像数は937で、これらの画像のすべてのオブジェクトに注釈が付けられた。 注釈付きオブジェクトの総数は4201である。 トレーニングセットは537イメージを含み、テストセットは430イメージを含む。 異なるオブジェクト検出アルゴリズムのベースラインはトレーニングされ、検証され、このデータセット上でテストされる。 このデータセットはtianchi.aliyun.com/competition/entrance/532036/informationからアクセスできる。

Marine microalgae are widespread in the ocean and play a crucial role in the ecosystem. Automatic identification and location of marine microalgae in microscopy images would help establish marine ecological environment monitoring and water quality evaluation system. A new dataset for marine microalgae detection is proposed in this paper. Six classes of microalgae commonlyfound in the ocean (Bacillariophyta, Chlorella pyrenoidosa, Platymonas, Dunaliella salina, Chrysophyta, Symbiodiniaceae) are microscopically imaged in real-time. Images of Symbiodiniaceae in three physiological states known as normal, bleaching, and translating are also included. We annotated these images with bounding boxes using Labelme software and split them into the training and testing sets. The total number of images in the dataset is 937 and all the objects in these images were annotated. The total number of annotated objects is 4201. The training set contains 537 images and the testing set contains 430 images. Baselines of different object detection algorithms are trained, validated and tested on this dataset. This data set can be got accessed via tianchi.aliyun.com/competition/entrance/532036/information.
翻訳日:2022-11-15 19:43:07 公開日:2022-11-14
# 文化の分析: 主観性、スケーラビリティ、文脈性、テンポラリティをモデル化する

An Analytics of Culture: Modeling Subjectivity, Scalability, Contextuality, and Temporality ( http://arxiv.org/abs/2211.07460v1 )

ライセンス: Link先を確認
Nanne van Noord, Melvin Wevers, Tobias Blanke, Julia Noordegraaf, Marcel Worring(参考訳) 文化とAIの間には双方向の関係があり、AIモデルは文化を分析するためにますます使われ、文化に対する理解を形成する。 一方で、モデルは、文化の表現を暗黙的に、かつ必ずしも正しくエンコードするとは限らない、文化的アーティファクトのコレクションに基づいて訓練される。 これにより、文化の分析にAIの使用を制限する緊張が生じ、バイアスのような文化的な複雑な問題に関してAIの問題を引き起こす。 この緊張を克服する一つのアプローチは、文化の複雑さと複雑さをより広く考慮することである。 我々は,主観性,拡張性,文脈性,時間性という4つの概念を用いて議論を構成する。 AI研究ではまだ十分に表現されていないため、これらの概念に焦点を当てています。 AI研究におけるこれらの側面の実装の可能性は、文化の複雑さをよりよく捉えたAIにつながると信じています。 以下に示すように、これらの4つの概念とAI研究におけるそれらの欠如について簡単に説明する。 それぞれの概念に対して、可能な研究課題を定義します。

There is a bidirectional relationship between culture and AI; AI models are increasingly used to analyse culture, thereby shaping our understanding of culture. On the other hand, the models are trained on collections of cultural artifacts thereby implicitly, and not always correctly, encoding expressions of culture. This creates a tension that both limits the use of AI for analysing culture and leads to problems in AI with respect to cultural complex issues such as bias. One approach to overcome this tension is to more extensively take into account the intricacies and complexities of culture. We structure our discussion using four concepts that guide humanistic inquiry into culture: subjectivity, scalability, contextuality, and temporality. We focus on these concepts because they have not yet been sufficiently represented in AI research. We believe that possible implementations of these aspects into AI research leads to AI that better captures the complexities of culture. In what follows, we briefly describe these four concepts and their absence in AI research. For each concept, we define possible research challenges.
翻訳日:2022-11-15 19:37:03 公開日:2022-11-14
# 空間トラス構造の事前および後座屈解析のための適応探索空間分解法

Adaptive search space decomposition method for pre- and post- buckling analyses of space truss structures ( http://arxiv.org/abs/2211.07519v1 )

ライセンス: Link先を確認
Varun Ojha, Bartolomeo Panto, and Giuseppe Nicosia(参考訳) 本稿では,空間トラス構造の前・後解析のための適応型探索空間分解法と,勾配なし最適化に基づく新しい定式化を提案する。 宇宙トラスはしばしば、大きな変位によって特徴付けられる橋やドームのような大きな鋼構造物を構築するために構造工学で使用される。 したがって、これらの構造は局所的またはグローバルな座屈効果による進行的な崩壊に弱いため、突然の失敗に繋がる。 本稿では, 安定かつ不安定な平衡段階を含むトラス構造物の荷重平衡経路の解析と, 幾何非線形性を明示的に考慮することを可能とする。 この研究の目的は、システムのラグランジアン運動パラメータの最適化を通じてこれらの平衡段階を決定し、大域平衡を決定することである。 しかし、この最適化問題は、未定義のパラメータ領域とラグランジアンパラメータ間の感度と相互作用のため、非自明である。 そこで本研究では,非線形,マルチモーダル,非拘束,連続最適化問題としてこの問題を定式化し,探索領域(超球)を漸進的かつ適応的に再定義し,無勾配最適化アルゴリズムを用いてシステムの平衡を評価する新しい適応探索空間分解法を提案する。 本稿では,3つのベンチマーク問題に取り組み,実構造問題を表す中規模試験を評価する。 その結果, 変位荷重曲線および変形形状に関する文献で得られるものと比較した。 導入した手法の精度とロバスト性は,空間トラス構造解析における勾配なしアルゴリズムの高ポテンシャルを示している。

The paper proposes a novel adaptive search space decomposition method and a novel gradient-free optimization-based formulation for the pre- and post-buckling analyses of space truss structures. Space trusses are often employed in structural engineering to build large steel constructions, such as bridges and domes, whose structural response is characterized by large displacements. Therefore, these structures are vulnerable to progressive collapses due to local or global buckling effects, leading to sudden failures. The method proposed in this paper allows the analysis of the load-equilibrium path of truss structures to permanent and variable loading, including stable and unstable equilibrium stages and explicitly considering geometric nonlinearities. The goal of this work is to determine these equilibrium stages via optimization of the Lagrangian kinematic parameters of the system, determining the global equilibrium. However, this optimization problem is non-trivial due to the undefined parameter domain and the sensitivity and interaction among the Lagrangian parameters. Therefore, we propose formulating this problem as a nonlinear, multimodal, unconstrained, continuous optimization problem and develop a novel adaptive search space decomposition method, which progressively and adaptively re-defines the search domain (hypersphere) to evaluate the equilibrium of the system using a gradient-free optimization algorithm. We tackle three benchmark problems and evaluate a medium-sized test representing a real structural problem in this paper. The results are compared to those available in the literature regarding displacement-load curves and deformed configurations. The accuracy and robustness of the adopted methodology show a high potential of gradient-free algorithms in analyzing space truss structures.
翻訳日:2022-11-15 19:36:46 公開日:2022-11-14
# オンライン強化学習のためのデータ駆動オフラインシミュレーションに向けて

Towards Data-Driven Offline Simulations for Online Reinforcement Learning ( http://arxiv.org/abs/2211.07614v1 )

ライセンス: Link先を確認
Shengpu Tang, Felipe Vieira Frujeri, Dipendra Misra, Alex Lamb, John Langford, Paul Mineiro, Sebastian Kochman(参考訳) ロボットからWebレコメンデーションエンジンまで、現代の意思決定システムは、ユーザの好み、状況の変化、さらには新しいタスクに適応することが期待される。 しかし、製品システムに動的に学習するエージェント(固定されたポリシーではなく)を配置することは、安全でないと認識されるため、いまだに珍しくありません。 固定ポリシーに適用されたオフラインポリシー評価(OPE)と同様、履歴データを使って学習アルゴリズムを推論することは、実践者がそのような適応エージェントを最終的に本番環境に評価し、デプロイするのに役立ちます。 本研究では,強化学習(rl)のためのオフライン学習者シミュレーション(ols)を定式化し,シミュレーションの忠実性と効率を計測する新しい評価プロトコルを提案する。 複雑な高次元観測環境に対して, 潜在状態発見の最近の進歩を活かし, 高精度かつ効率的なオフラインシミュレーションを実現する準パラメトリック手法を提案する。 予備実験では, 完全非パラメトリックベースラインと比較して, アプローチの利点を示す。 これらの実験を再現するコードはhttps://github.com/microsoft/rl-offline-simulationで公開される。

Modern decision-making systems, from robots to web recommendation engines, are expected to adapt: to user preferences, changing circumstances or even new tasks. Yet, it is still uncommon to deploy a dynamically learning agent (rather than a fixed policy) to a production system, as it's perceived as unsafe. Using historical data to reason about learning algorithms, similar to offline policy evaluation (OPE) applied to fixed policies, could help practitioners evaluate and ultimately deploy such adaptive agents to production. In this work, we formalize offline learner simulation (OLS) for reinforcement learning (RL) and propose a novel evaluation protocol that measures both fidelity and efficiency of the simulation. For environments with complex high-dimensional observations, we propose a semi-parametric approach that leverages recent advances in latent state discovery in order to achieve accurate and efficient offline simulations. In preliminary experiments, we show the advantage of our approach compared to fully non-parametric baselines. The code to reproduce these experiments will be made available at https://github.com/microsoft/rl-offline-simulation.
翻訳日:2022-11-15 19:27:54 公開日:2022-11-14
# 産業用iotにおける自動エンコーダ型状態監視のためのフェデレーション学習

Federated Learning for Autoencoder-based Condition Monitoring in the Industrial Internet of Things ( http://arxiv.org/abs/2211.07619v1 )

ライセンス: Link先を確認
Soeren Becker, Kevin Styp-Rekowski, Oliver Vincent Leon Stoll, Odej Kao(参考訳) 生産機械から監視されるセンサデータの可用性の向上により、産業用モノのインターネットにおける効率的でロバストな製造サイクルにおいて、状態監視と予測メンテナンス手法が重要な柱となる。 複数の産業環境にまたがる多様なデータを分析して、劣化行動の検出と予測を行う機械学習モデルの雇用は、最近の研究で有望な結果を示しているが、同時に、クラウドにある集中型サーバにセンサーデータを転送する必要があることもしばしばある。 さらに、業界サイト間の知識のコラボレーションや共有は、特に状態監視の分野で大きな利益をもたらすが、データプライバシーの問題により、しばしば禁止される。 そこで本研究では,回転機械からの振動センサデータを利用した自動エンコーダ型フェデレーション学習手法を提案する。 データプライバシを保存すると同時に、リモートサイトの信頼性の低いネットワーク接続を排除しつつ、監視データを共有することなく、組織の境界を越えた知識伝達を可能にします。 本研究では,実世界の2つのデータセットと複数のテストベッドを用いた評価を行い,その評価結果から,従来の結果に比べて性能が向上し,リソースとネットワーク利用が大幅に削減できることを示した。

Enabled by the increasing availability of sensor data monitored from production machinery, condition monitoring and predictive maintenance methods are key pillars for an efficient and robust manufacturing production cycle in the Industrial Internet of Things. The employment of machine learning models to detect and predict deteriorating behavior by analyzing a variety of data collected across several industrial environments shows promising results in recent works, yet also often requires transferring the sensor data to centralized servers located in the cloud. Moreover, although collaborating and sharing knowledge between industry sites yields large benefits, especially in the area of condition monitoring, it is often prohibited due to data privacy issues. To tackle this situation, we propose an Autoencoder-based Federated Learning method utilizing vibration sensor data from rotating machines, that allows for a distributed training on edge devices, located on-premise and close to the monitored machines. Preserving data privacy and at the same time exonerating possibly unreliable network connections of remote sites, our approach enables knowledge transfer across organizational boundaries, without sharing the monitored data. We conducted an evaluation utilizing two real-world datasets as well as multiple testbeds and the results indicate that our method enables a competitive performance compared to previous results, while significantly reducing the resource and network utilization.
翻訳日:2022-11-15 19:27:36 公開日:2022-11-14
# オープンソースAIインシデントにおける障害原因分析のための分類システム

A taxonomic system for failure cause analysis of open source AI incidents ( http://arxiv.org/abs/2211.07280v1 )

ライセンス: Link先を確認
Nikiforos Pittaras, Sean McGregor(参考訳) 特定の産業部門(例えば航空)は、分析的な発見を完備した強制的なインシデントレポートの長い歴史を持っているが、人工知能(AI)の安全性の実践はそのような委任事項から恩恵を受けておらず、公に知られている「オープンソース」AIインシデントに対して分析を行う必要がある。 aiインシデントの原因は、外部からはほとんど知られていないが、本研究では、aiインシデントデータベース(aiid)のインシデント集団に専門家の知識を適用する方法を示し、報告された失敗や危害に寄与する可能性と潜在的な技術的原因を推測する。 本稿では,システム目標(ほぼ常に知られている)から手法/技術(多くの場合は理解できない),および関連するシステムの技術的障害原因(専門家分析の対象)まで,関連要因のカスケードをカバーする分類システムについて概説する。 このオントロジー構造を、専門家の知識とコミュニティのフィードバックを活用する包括的な分類ワークフローと組み合わせることで、インシデントデータと人間の専門知識に基づく分類学的アノテーションを実現する。

While certain industrial sectors (e.g., aviation) have a long history of mandatory incident reporting complete with analytical findings, the practice of artificial intelligence (AI) safety benefits from no such mandate and thus analyses must be performed on publicly known ``open source'' AI incidents. Although the exact causes of AI incidents are seldom known by outsiders, this work demonstrates how to apply expert knowledge on the population of incidents in the AI Incident Database (AIID) to infer the potential and likely technical causative factors that contribute to reported failures and harms. We present early work on a taxonomic system that covers a cascade of interrelated incident factors, from system goals (nearly always known) to methods / technologies (knowable in many cases) and technical failure causes (subject to expert analysis) of the implicated systems. We pair this ontology structure with a comprehensive classification workflow that leverages expert knowledge and community feedback, resulting in taxonomic annotations grounded by incident data and human expertise.
翻訳日:2022-11-15 19:25:22 公開日:2022-11-14
# ユニバーサルepr連合学習フレームワーク

Universal EHR Federated Learning Framework ( http://arxiv.org/abs/2211.07300v1 )

ライセンス: Link先を確認
Junu Kim, Kyunghoon Hur, Seongjun Yang, Edward Choi(参考訳) フェデレートラーニング(FL)は、電子医療記録(EHR)の最も実用的なマルチソースラーニング手法である。 プライバシー保護が保証されているにもかかわらず、FLの幅広い適用は、異種EHRシステムと非i.d.データ特性という2つの大きな課題によって制限されている。 最近の研究では、UniHPFという異種EHRを統合するフレームワークが提案されている。 我々はUniHPFとFLを組み合わせることで両課題を同時に解決しようとする。 本研究は異種EHRを単一FLフレームワークに統合するための最初のアプローチである。 この組み合わせは、ローカル学習と比較して平均3.4%のパフォーマンス向上をもたらす。 われわれのフレームワークは現実のFLに適用できると考えている。

Federated learning (FL) is the most practical multi-source learning method for electronic healthcare records (EHR). Despite its guarantee of privacy protection, the wide application of FL is restricted by two large challenges: the heterogeneous EHR systems, and the non-i.i.d. data characteristic. A recent research proposed a framework that unifies heterogeneous EHRs, named UniHPF. We attempt to address both the challenges simultaneously by combining UniHPF and FL. Our study is the first approach to unify heterogeneous EHRs into a single FL framework. This combination provides an average of 3.4% performance gain compared to local learning. We believe that our framework is practically applicable in the real-world FL.
翻訳日:2022-11-15 19:19:00 公開日:2022-11-14
# 連合型自己教師付き学習のための特徴相関誘導知識伝達

Feature Correlation-guided Knowledge Transfer for Federated Self-supervised Learning ( http://arxiv.org/abs/2211.07364v1 )

ライセンス: Link先を確認
Yi Liu, Song Guo, Jie Zhang, Qihua Zhou, Yingchun Wang and Xiaohan Zhao(参考訳) 従来のフェデレートラーニング(FL)における教師付きモデルトレーニングのための完全ラベル付きデータの必要性を排除するため,ラベル不足問題に対処するため,自己教師付きラーニング(SSL)アプローチをFLに適用することに注意が払われている。 フェデレーションsslに関する以前の研究は、パラメータベースのモデルアグリゲーション(フェデレーション)と、複数のラベルのないクライアント間の知識転送を達成するためのデータベースの機能共有(知識蒸留、異種ケースに適用)の2つのカテゴリに分類される。 進歩にもかかわらず、それらすべてが必然的に、均質なモデルや、より一般的なシナリオのためのトレーニングフレームワークの普遍性を阻害する追加のパブリックデータセットの存在といったいくつかの仮定に依存している。 そこで本稿では,FedFoA(Federated Self-supervised Learning with Feature-correlation based Aggregation, FedFoA)という,コミュニケーション効率とプライバシ保護を両立させる手法を提案する。 私たちの洞察は、機能相関を利用して機能マッピングを調整し、クライアント間のローカルモデル更新をローカルトレーニングプロセス中に校正することです。 具体的には、局所表現から機能間関係行列を抽出する分解に基づく手法を設計する。 そして、関係行列を意味情報の担体として集約フェーズを行うことができる。 我々はFedFoAがモデルに依存しないトレーニングフレームワークであることを証明する。 広範な実証実験により,提案手法が最先端手法をかなり上回っていることが示された。

To eliminate the requirement of fully-labeled data for supervised model training in traditional Federated Learning (FL), extensive attention has been paid to the application of Self-supervised Learning (SSL) approaches on FL to tackle the label scarcity problem. Previous works on Federated SSL generally fall into two categories: parameter-based model aggregation (i.e., FedAvg, applicable to homogeneous cases) or data-based feature sharing (i.e., knowledge distillation, applicable to heterogeneous cases) to achieve knowledge transfer among multiple unlabeled clients. Despite the progress, all of them inevitably rely on some assumptions, such as homogeneous models or the existence of an additional public dataset, which hinder the universality of the training frameworks for more general scenarios. Therefore, in this paper, we propose a novel and general method named Federated Self-supervised Learning with Feature-correlation based Aggregation (FedFoA) to tackle the above limitations in a communication-efficient and privacy-preserving manner. Our insight is to utilize feature correlation to align the feature mappings and calibrate the local model updates across clients during their local training process. More specifically, we design a factorization-based method to extract the cross-feature relation matrix from the local representations. Then, the relation matrix can be regarded as a carrier of semantic information to perform the aggregation phase. We prove that FedFoA is a model-agnostic training framework and can be easily compatible with state-of-the-art unsupervised FL methods. Extensive empirical experiments demonstrate that our proposed approach outperforms the state-of-the-art methods by a significant margin.
翻訳日:2022-11-15 19:18:51 公開日:2022-11-14
# リアルな人口とモビリティデータを生成するディープラーニングフレームワーク

A deep learning framework to generate realistic population and mobility data ( http://arxiv.org/abs/2211.07369v1 )

ライセンス: Link先を確認
Eren Arkangil, Mehmet Yildirimoglu, Jiwon Kim, Carlo Prato(参考訳) 国勢調査および世帯旅行調査データセットは、定期的に世帯や個人から収集され、人口統計と経済特性を備えた日々の旅行行動に関する情報を提供する。 これらのデータセットには、旅行需要推定からエージェントベースモデリングまで、重要な応用がある。 しかし、プライバシー上の懸念から人口の限られたサンプルを表すことや、集約されることが多い。 合成データ拡張は、これらの課題に対処する上で有望な手段である。 本稿では,社会経済的特徴(年齢,性別,産業など)とトリップチェーン(活動場所など)の両方を含む合成人口を生成する枠組みを提案する。 我々のモデルは、複数の評価指標で最近提案された他のモデルと比較される。

Census and Household Travel Survey datasets are regularly collected from households and individuals and provide information on their daily travel behavior with demographic and economic characteristics. These datasets have important applications ranging from travel demand estimation to agent-based modeling. However, they often represent a limited sample of the population due to privacy concerns or are given aggregated. Synthetic data augmentation is a promising avenue in addressing these challenges. In this paper, we propose a framework to generate a synthetic population that includes both socioeconomic features (e.g., age, sex, industry) and trip chains (i.e., activity locations). Our model is tested and compared with other recently proposed models on multiple assessment metrics.
翻訳日:2022-11-15 19:18:19 公開日:2022-11-14
# 科学計算における物理誘導・物理インフォームド・物理符号化ニューラルネットワーク

Physics-Guided, Physics-Informed, and Physics-Encoded Neural Networks in Scientific Computing ( http://arxiv.org/abs/2211.07377v1 )

ライセンス: Link先を確認
Salah A Faroughi, Nikhil Pawar, Celio Fernandes, Subasish Das, Nima K. Kalantari, Seyed Kourosh Mahjour(参考訳) 近年のコンピュータパワーのブレークスルーにより、流体力学、固体力学、材料科学など、多くの分野において、機械学習とディープラーニングを使って科学計算を進歩させることが可能になった。 特にニューラルネットワークは、このハイブリダイゼーションにおいて中心的な役割を果たす。 内在的なアーキテクチャのため、従来のニューラルネットワークは、データがスパースである場合、うまくトレーニングされ、スコープ化できない。 それでもニューラルネットワークは、トレーニング中に物理的あるいは知識に基づく制約を消化する強力な基盤を提供する。 一般的に、基礎となる物理を強制する3つの異なるニューラルネットワークフレームワークがあります。 (i)物理誘導ニューラルネットワーク(PgNN) (ii)物理情報化ニューラルネットワーク(pinn)及び (iii)物理符号化ニューラルネットワーク(PeNN) これらのアプローチは、複雑な多スケール多物理現象のモデリングを加速するユニークな利点を提供する。 それらはまた、ユニークな欠点を持ち、さらなる研究を必要とする未解決の制限(安定性、収束、一般化など)に苦しむ。 本研究の目的は、科学計算研究で使用される3つのニューラルネットワークフレームワーク(PgNN、PiNN、PeNN)の詳細なレビューを行うことである。 現状のアーキテクチャとその応用を概観し、限界について論じ、因果関係の考慮、応用の拡大、科学的およびディープラーニングの解法の統合など、アルゴリズムの改善における今後の研究機会について述べる。 この批判的なレビューは、研究者やエンジニアがさまざまな物理層をニューラルネットワークに統合する方法を理解するための出発点となる。

Recent breakthroughs in computing power have made it feasible to use machine learning and deep learning to advance scientific computing in many fields, such as fluid mechanics, solid mechanics, materials science, etc. Neural networks, in particular, play a central role in this hybridization. Due to their intrinsic architecture, conventional neural networks cannot be successfully trained and scoped when data is sparse; a scenario that is true in many scientific fields. Nonetheless, neural networks offer a strong foundation to digest physical-driven or knowledge-based constraints during training. Generally speaking, there are three distinct neural network frameworks to enforce underlying physics: (i) physics-guided neural networks (PgNN), (ii) physics-informed neural networks (PiNN) and (iii) physics-encoded neural networks (PeNN). These approaches offer unique advantages to accelerate the modeling of complex multiscale multi-physics phenomena. They also come with unique drawbacks and suffer from unresolved limitations (e.g., stability, convergence, and generalization) that call for further research. This study aims to present an in-depth review of the three neural network frameworks (i.e., PgNN, PiNN, and PeNN) used in scientific computing research. The state-of-the-art architectures and their applications are reviewed; limitations are discussed; and future research opportunities in terms of improving algorithms, considering causalities, expanding applications, and coupling scientific and deep learning solvers are presented. This critical review provides a solid starting point for researchers and engineers to comprehend how to integrate different layers of physics into neural networks.
翻訳日:2022-11-15 19:18:08 公開日:2022-11-14
# 重み付きモデルによるバンディットの仮説伝達

Hypothesis Transfer in Bandits by Weighted Models ( http://arxiv.org/abs/2211.07387v1 )

ライセンス: Link先を確認
Steven Bilaj, Sofien Dhouib, Setareh Maghsudi(参考訳) 仮説伝達学習の設定において,文脈的多腕バンディットの問題を考える。 すなわち、観測されていないコンテキストのセット上で、以前に学習したモデルにアクセスすることを想定し、新しいバンディット問題の探索を加速するためにそれを活用する。 転送戦略は、2つのタスクが無関係な場合の古典的後悔率を回復しながら、転送が望まれる場合の古典的リニアCBに対する後悔の低減を示す再重み付け方式に基づいている。 さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。 さらに、古典的なlinucbアルゴリズムにおいて、ソースモデルの動的凸結合がバイアス付き正規化項で与えられるアプローチについても論じる。 シミュレーションおよび実世界のデータに対する経験的評価により,提案手法のアルゴリズムと理論的解析を行った。

We consider the problem of contextual multi-armed bandits in the setting of hypothesis transfer learning. That is, we assume having access to a previously learned model on an unobserved set of contexts, and we leverage it in order to accelerate exploration on a new bandit problem. Our transfer strategy is based on a re-weighting scheme for which we show a reduction in the regret over the classic Linear UCB when transfer is desired, while recovering the classic regret rate when the two tasks are unrelated. We further extend this method to an arbitrary amount of source models, where the algorithm decides which model is preferred at each time step. Additionally we discuss an approach where a dynamic convex combination of source models is given in terms of a biased regularization term in the classic LinUCB algorithm. The algorithms and the theoretical analysis of our proposed methods substantiated by empirical evaluations on simulated and real-world data.
翻訳日:2022-11-15 19:17:45 公開日:2022-11-14
# ボール構造動作空間を用いた線形強化学習

Linear Reinforcement Learning with Ball Structure Action Space ( http://arxiv.org/abs/2211.07419v1 )

ライセンス: Link先を確認
Zeyu Jia, Randy Jia, Dhruv Madeka, Dean P. Foster(参考訳) 本稿では,線形関数近似を用いた強化学習(RL)の問題,すなわち,最適作用値関数が既知の$d$次元特徴写像において線形であることを仮定する。 しかし、残念ながら、この仮定に基づいて、最悪のサンプルの複雑さは、生成モデルの下でも指数関数的であることが示されている。 MDP や値関数についてさらに仮定する代わりに、我々のアクション空間は、常に特徴空間の任意の方向を探索するための再生可能なアクションが存在すると仮定する。 この仮定を「ボール構造」の作用空間として定式化し、特徴空間を自由に探索できることは効率的なRLを可能にすることを示す。 特に,$\tilde{O}\left(\frac{H^5d^3}{\epsilon^3}\right)$のトラジェクトリ数だけを用いて,$\epsilon$-optimal Policyを学習するサンプル効率のよいRLアルゴリズム(BallRL)を提案する。

We study the problem of Reinforcement Learning (RL) with linear function approximation, i.e. assuming the optimal action-value function is linear in a known $d$-dimensional feature mapping. Unfortunately, however, based on only this assumption, the worst case sample complexity has been shown to be exponential, even under a generative model. Instead of making further assumptions on the MDP or value functions, we assume that our action space is such that there always exist playable actions to explore any direction of the feature space. We formalize this assumption as a ``ball structure'' action space, and show that being able to freely explore the feature space allows for efficient RL. In particular, we propose a sample-efficient RL algorithm (BallRL) that learns an $\epsilon$-optimal policy using only $\tilde{O}\left(\frac{H^5d^3}{\epsilon^3}\right)$ number of trajectories.
翻訳日:2022-11-15 19:17:32 公開日:2022-11-14
# 深部自己回帰回帰

Deep Autoregressive Regression ( http://arxiv.org/abs/2211.07447v1 )

ライセンス: Link先を確認
Adam Khakhar, Jacob Buckman(参考訳) 本研究では,平均二乗誤差損失を用いた回帰の大幅な制限が,目標のスケールに対する感度であることを示す。 これにより、異なるスケールのターゲットを持つ複数のサブタスクからなる学習設定が困難になり、アルゴリズムがタスク固有の学習レートチューニングを必要とする。 最近提案されたヒストグラム損失関数は、この問題を回避している。 しかし、計算コストはヒストグラム内のバケットの数とともに直線的に増加し、実際の値のターゲットで予測できる。 この問題に対処するために,自己回帰的目標分解を利用して高忠実度分布を学習する自己回帰的目標に基づくディープラーニングモデルの学習手法を提案する。 このトレーニングの目的は、異なるスケールの複数のターゲットを含む回帰タスクを解決できることを実証する。

In this work, we demonstrate that a major limitation of regression using a mean-squared error loss is its sensitivity to the scale of its targets. This makes learning settings consisting of several subtasks with differently-scaled targets challenging, and causes algorithms to require task-specific learning rate tuning. A recently-proposed alternative loss function, known as histogram loss, avoids this issue. However, its computational cost grows linearly with the number of buckets in the histogram, which renders prediction with real-valued targets intractable. To address this issue, we propose a novel approach to training deep learning models on real-valued regression targets, autoregressive regression, which learns a high-fidelity distribution by utilizing an autoregressive target decomposition. We demonstrate that this training objective allows us to solve regression tasks involving multiple targets with different scales.
翻訳日:2022-11-15 19:17:12 公開日:2022-11-14
# 効率的な表現学習のための不均一グラフスパーシフィケーション

Heterogeneous Graph Sparsification for Efficient Representation Learning ( http://arxiv.org/abs/2211.07518v1 )

ライセンス: Link先を確認
Chandan Chunduru, Chun Jiang Zhu, Blake Gains, and Jinbo Bi(参考訳) グラフスペーシフィケーションは任意のグラフを近似する強力なツールであり、同質グラフ上の機械学習に使われている。 しかし、知識グラフのような異種グラフでは、学習タスクの効率を改善するためにスパーシフィケーションは体系的に利用されていない。 本研究では,不均質なグラフスパーシフィケーションの研究を開始し,元のグラフに重要な情報を分散して保存するスパーシファイザを構築するためのサンプリングベースアルゴリズムを開発した。 我々は,提案手法が表現学習の時間的・空間的複雑さを向上すると同時に,学習埋め込みに基づくグラフ学習タスクの性能向上を図るために,広範囲な実験を行った。

Graph sparsification is a powerful tool to approximate an arbitrary graph and has been used in machine learning over homogeneous graphs. In heterogeneous graphs such as knowledge graphs, however, sparsification has not been systematically exploited to improve efficiency of learning tasks. In this work, we initiate the study on heterogeneous graph sparsification and develop sampling-based algorithms for constructing sparsifiers that are provably sparse and preserve important information in the original graphs. We have performed extensive experiments to confirm that the proposed method can improve time and space complexities of representation learning while achieving comparable, or even better performance in subsequent graph learning tasks based on the learned embedding.
翻訳日:2022-11-15 19:16:59 公開日:2022-11-14
# オンラインMixEHRアルゴリズムによる実世界データ中の現象型検出

Phenotype Detection in Real World Data via Online MixEHR Algorithm ( http://arxiv.org/abs/2211.07549v1 )

ライセンス: Link先を確認
Ying Xu, Anna Decker, Jacob Oppenheim, Romane Gauriau(参考訳) 電子健康記録(EHR)および健康保険請求(Health Insurer)からの診断、医薬品、手順、検査検査のパターンを理解することは、疾患のリスクを理解し、しばしば臨床医と共同でルールベースの治療を必要とする効率的な臨床開発のために重要である。 教師なし表現型アルゴリズムであるmixEHRをオンラインバージョンに拡張し、米国ベースの大規模クレームデータセットや、リッチな地域EHRデータセットを含む、桁違いの大きなデータセットで使用できるようにしました。 既往の疾患群を再現することに加えて,臨床的に有意義な疾患サブタイプと複合性を見出した。 本研究は, 効果的な教師なし学習方法, 既存の臨床知識の強化, 臨床医との効果的なコラボレーションのための有望なアプローチである。

Understanding patterns of diagnoses, medications, procedures, and laboratory tests from electronic health records (EHRs) and health insurer claims is important for understanding disease risk and for efficient clinical development, which often require rules-based curation in collaboration with clinicians. We extended an unsupervised phenotyping algorithm, mixEHR, to an online version allowing us to use it on order of magnitude larger datasets including a large, US-based claims dataset and a rich regional EHR dataset. In addition to recapitulating previously observed disease groups, we discovered clinically meaningful disease subtypes and comorbidities. This work scaled up an effective unsupervised learning method, reinforced existing clinical knowledge, and is a promising approach for efficient collaboration with clinicians.
翻訳日:2022-11-15 19:16:47 公開日:2022-11-14
# ニューラルネットワークによる軸対称磁石のロバストリアルタイム追跡

Robust Real-Time Tracking of Axis-Symmetric Magnets via Neural Networks ( http://arxiv.org/abs/2211.07556v1 )

ライセンス: Link先を確認
Mengfan Wu, Thomas Langerak, Otmar Hilliges and Juan Zarate(参考訳) 従来の磁気マーカーの追跡は、反復最適化の手順を必要とするため、高い計算コストをもたらす。 さらに、そのようなアプローチは最適化関数の磁気双極子モデルに依存しており、非球面磁石が配列内のセンサに近づくと不正確な結果をもたらす。 この限界を克服するために,ニューラルネットワークを用いてマーカーの位置と向きを推定する。 本手法では, 初期推定に頼らずに, マグネットの5自由度(5自由度)を単一の推論ステップで得ることができる。 一方、教師付きトレーニングフェーズはデータ集約型である。 有限要素法シミュレーションを用いて、合成的で現実的なデータを生成することで、この問題を解決する。 高速で正確な推論は、オフライントレーニングの準備に大きく補う。 16個のセンサの正方形配列で追跡した円筒形磁石を用いてシステム評価を行った。 我々は、センサの読み取りと位置推定のために、ポータブルでニューラルネットワーク指向のシングルボードコンピュータを使用し、セットアップを非常にコンパクトにしています。 トラッキング出力と視覚に基づく地上真実データを比較した。 プロトタイプ実装では,平均位置誤差が4mm,方向誤差が0.2x0.2x0.15mで5ドルDoFを記録している。

Traditional tracking of magnetic markers leads to high computational costs due to the requirement for iterative optimization procedures. Furthermore, such approaches rely on the magnetic dipole model for the optimization function, leading to inaccurate results anytime a non-spherical magnet gets close to a sensor in the array. We propose to overcome these limitations by using neural networks to infer the marker's position and orientation. Our method can obtain the magnet's five degrees of freedom (5 DoF) in a single inference step without relying on an initial estimation. As a counterpart, the supervised training phase is data intensive. We solve this by generating synthetic, yet realistic, data via Finite Element Methods simulations. A fast and accurate inference largely compensates for the offline training preparation. We evaluate our system using different cylindrical magnets, tracked with a square array of 16 sensors. We use a portable, neural networks-oriented single-board computer for the sensors' reading and the position inference, making our setup very compact. We compared our tracking outputs with vision-based ground truth data. Our prototype implementation tracks $5$ DoF with an averaged positional error of 4mm and orientation error of 8deg within a 0.2x0.2x0.15m working volume.
翻訳日:2022-11-15 19:16:32 公開日:2022-11-14
# 逐次的治療体制における再帰的サム・プロダクト・ネットワーク

Treatment-RSPN: Recurrent Sum-Product Networks for Sequential Treatment Regimes ( http://arxiv.org/abs/2211.07052v1 )

ライセンス: Link先を確認
Adam Dejl, Harsh Deep, Jonathan Fei, Ardavan Saeedi and Li-wei H. Lehman(参考訳) Sum-product Network (SPN) は近年,高効率な確率的推論を可能にする新しいディープラーニングアーキテクチャとして出現している。 導入以来、SPNは幅広いデータモダリティに適用され、時系列データに拡張されてきた。 本稿では, 逐次的処理決定行動と処理応答を, 逐次的サプライズネットワーク(RSPN)を用いてモデル化するフレームワークを提案する。 私たちのフレームワークで開発されたモデルは、データの完全な分散をモデル化し、潜在変数、欠落した値とカテゴリデータをシームレスに処理し、限界および条件付き推論を効率的に行う能力を含む、rspnの全機能から恩恵を受けます。 提案手法は,RSPNの予測最大化アルゴリズムの新たな変種によって補完され,モデルの効率的な学習が可能となった。 本研究は,MIMIC-IV集中治療ユニット医療データベースから合成データセットと実世界のデータについて評価する。 提案手法は, 合成データ上での地下構造データ生成プロセスと密接に一致し, トラクタブルかつ解釈可能なモデルを用いて, ニューラルおよび確率的ベースラインに近い結果が得られることを示す。

Sum-product networks (SPNs) have recently emerged as a novel deep learning architecture enabling highly efficient probabilistic inference. Since their introduction, SPNs have been applied to a wide range of data modalities and extended to time-sequence data. In this paper, we propose a general framework for modelling sequential treatment decision-making behaviour and treatment response using recurrent sum-product networks (RSPNs). Models developed using our framework benefit from the full range of RSPN capabilities, including the abilities to model the full distribution of the data, to seamlessly handle latent variables, missing values and categorical data, and to efficiently perform marginal and conditional inference. Our methodology is complemented by a novel variant of the expectation-maximization algorithm for RSPNs, enabling efficient training of our models. We evaluate our approach on a synthetic dataset as well as real-world data from the MIMIC-IV intensive care unit medical database. Our evaluation demonstrates that our approach can closely match the ground-truth data generation process on synthetic data and achieve results close to neural and probabilistic baselines while using a tractable and interpretable model.
翻訳日:2022-11-15 19:09:38 公開日:2022-11-14
# 注意と潜時空間正規化を用いた欠測データ処理

Dealing with missing data using attention and latent space regularization ( http://arxiv.org/abs/2211.07059v1 )

ライセンス: Link先を確認
Jahan C. Penny-Dimri, Christoph Bergmeir, Julian Smith(参考訳) 実践的なデータサイエンスの問題は、欠落データに遭遇する。 様々な解が存在し、それぞれが不足発生過程に依存する強さと弱点を持つ。 ここでは,不完全なデータセットを計算せずにモデル化できる観測変数のみを用いた,学習と推論のための理論的枠組みを開発する。 情報と測度理論の議論を用いて、欠落データから生じる潜在的なバイアスに対して規則化する潜在空間表現を持つモデルを構築する。 このアプローチの理論的特性は、合成データセットを用いて経験的に実証される。 このアプローチのパフォーマンスは、欠落した11のベンチマークデータセットと3つの欠落パターンにまたがった18のデータセットでテストされている。 提案手法は, インプテーション法の弱点を克服し, 現状を上回っていることを示す。

Most practical data science problems encounter missing data. A wide variety of solutions exist, each with strengths and weaknesses that depend upon the missingness-generating process. Here we develop a theoretical framework for training and inference using only observed variables enabling modeling of incomplete datasets without imputation. Using an information and measure-theoretic argument we construct models with latent space representations that regularize against the potential bias introduced by missing data. The theoretical properties of this approach are demonstrated empirically using a synthetic dataset. The performance of this approach is tested on 11 benchmarking datasets with missingness and 18 datasets corrupted across three missingness patterns with comparison against a state-of-the-art model and industry-standard imputation. We show that our proposed method overcomes the weaknesses of imputation methods and outperforms the current state-of-the-art.
翻訳日:2022-11-15 19:09:16 公開日:2022-11-14
# 連続医療データからの予測チェックリストの学習

Learning predictive checklists from continuous medical data ( http://arxiv.org/abs/2211.07076v1 )

ライセンス: Link先を確認
Yukti Makhija and Edward De Brouwer and Rahul G. Krishnan(参考訳) チェックリストは、医学領域で最近紹介されたばかりであるが、その効果と高い解釈性により、日常的な臨床実践で人気を博している。 チェックリストは通常、手動で証拠を収集し分析する専門医によって設計される。 しかし、利用可能な医療データの量が増加するにつれて、部分的に自動チェックリスト設計が求められている。 最近の研究は、カテゴリーデータから予測チェックリストを学習することで、その方向への一歩を踏み出した。 本研究では,この手法を,混合整数プログラミング手法を用いて連続的な医療データから学習チェックリストに拡張することを提案する。 この拡張は,集中治療的臨床経過からの敗血症の予測において,説明可能な機械学習ベースラインを上回っている。

Checklists, while being only recently introduced in the medical domain, have become highly popular in daily clinical practice due to their combined effectiveness and great interpretability. Checklists are usually designed by expert clinicians that manually collect and analyze available evidence. However, the increasing quantity of available medical data is calling for a partially automated checklist design. Recent works have taken a step in that direction by learning predictive checklists from categorical data. In this work, we propose to extend this approach to accomodate learning checklists from continuous medical data using mixed-integer programming approach. We show that this extension outperforms a range of explainable machine learning baselines on the prediction of sepsis from intensive care clinical trajectories.
翻訳日:2022-11-15 19:09:01 公開日:2022-11-14
# PMR:マルチモーダルラーニングのための原型モーダルリバランス

PMR: Prototypical Modal Rebalance for Multimodal Learning ( http://arxiv.org/abs/2211.07089v1 )

ライセンス: Link先を確認
Yunfeng Fan, Wenchao Xu, Haozhao Wang, Junxiao Wang, and Song Guo(参考訳) マルチモーダルラーニング (MML) は、異なるモダリティの共通の先行を共同で活用し、それらの固有の制約を補うことを目的としている。 しかし、既存のMML手法は、しばしば異なるモダリティに対して一様目的を最適化し、悪名高い「モダリティの不均衡」問題と反生産的なMML性能をもたらす。 この問題に対処するため、既存の手法では、より優れたモダリティに支配される融合モダリティに基づいて学習ペースを変調し、最終的には悪いモダリティを限定的に改善する。 マルチモーダルの特徴をよりうまく活用するため,我々は,他のモダリティに干渉することなく,特定のスローラーニングモダリティに対する刺激を行うためのpmr(prototypical modality rebalance)を提案する。 具体的には、各クラスの一般的な特徴を表すプロトタイプを紹介し、ユニモーダル性能評価のための非パラメトリック分類器を構築する。 次に,プロトタイプへのクラスタリングを強化することで,学習速度の遅いモダリティを加速する。 さらに,支配的モダリティからの抑制を緩和するため,早期学習期にプロトタイプベースのエントロピー正規化項を導入し,早期収束を防ぐ。 さらに,本手法は各モダリティの表現にのみ依存し,モデル構造や融合手法の制約を伴わないため,様々なシナリオに適用できる可能性も高い。

Multimodal learning (MML) aims to jointly exploit the common priors of different modalities to compensate for their inherent limitations. However, existing MML methods often optimize a uniform objective for different modalities, leading to the notorious "modality imbalance" problem and counterproductive MML performance. To address the problem, some existing methods modulate the learning pace based on the fused modality, which is dominated by the better modality and eventually results in a limited improvement on the worse modal. To better exploit the features of multimodal, we propose Prototypical Modality Rebalance (PMR) to perform stimulation on the particular slow-learning modality without interference from other modalities. Specifically, we introduce the prototypes that represent general features for each class, to build the non-parametric classifiers for uni-modal performance evaluation. Then, we try to accelerate the slow-learning modality by enhancing its clustering toward prototypes. Furthermore, to alleviate the suppression from the dominant modality, we introduce a prototype-based entropy regularization term during the early training stage to prevent premature convergence. Besides, our method only relies on the representations of each modality and without restrictions from model structures and fusion methods, making it with great application potential for various scenarios.
翻訳日:2022-11-15 19:08:50 公開日:2022-11-14
# C3: クロスインスタンスガイドによるコントラストクラスタリング

C3: Cross-instance guided Contrastive Clustering ( http://arxiv.org/abs/2211.07136v1 )

ライセンス: Link先を確認
Mohammadreza Sadeghi, Hadi Hojjati, Narges Armanfard(参考訳) クラスタリングは、事前に定義されたラベルを使わずに、類似したデータサンプルをクラスタに収集するタスクである。 機械学習文学において広く研究され、近年のディープラーニングの進歩はこの分野への関心を復活させてきた。 対比クラスタリング(CC)モデルは、データ拡張によって各データインスタンスの正と負のペアが生成されるディープクラスタリングの基盤である。 CCモデルは、正のペアのインスタンスレベルとクラスタレベルの表現がグループ化される特徴空間を学習することを目的としている。 sotaの改善にもかかわらず、これらのアルゴリズムはクラスタリング性能を改善するための必須情報を含むクロスインスタンスパターンを無視している。 本稿では,クロスサンプル関係を考慮し,正のペア数を増加させる,新しいコントラストクラスタリング法であるcross-instance guided contrastive clustering (c3)を提案する。 特に、インスタンスレベルの表現を使って類似のインスタンスを識別し、それらを集約する新たなロス関数を定義します。 提案手法は,ベンチマークコンピュータビジョンデータセットにおける最先端アルゴリズムを6.8%,2.8%,4.9%,1.3%,0.4%,cifar-10,cifar-100,imagenet-10,imagenet-dogs,tiny-imagenetでそれぞれ改善する。

Clustering is the task of gathering similar data samples into clusters without using any predefined labels. It has been widely studied in machine learning literature, and recent advancements in deep learning have revived interest in this field. Contrastive clustering (CC) models are a staple of deep clustering in which positive and negative pairs of each data instance are generated through data augmentation. CC models aim to learn a feature space where instance-level and cluster-level representations of positive pairs are grouped together. Despite improving the SOTA, these algorithms ignore the cross-instance patterns, which carry essential information for improving clustering performance. In this paper, we propose a novel contrastive clustering method, Cross-instance guided Contrastive Clustering (C3), that considers the cross-sample relationships to increase the number of positive pairs. In particular, we define a new loss function that identifies similar instances using the instance-level representation and encourages them to aggregate together. Extensive experimental evaluations show that our proposed method can outperform state-of-the-art algorithms on benchmark computer vision datasets: we improve the clustering accuracy by 6.8%, 2.8%, 4.9%, 1.3% and 0.4% on CIFAR-10, CIFAR-100, ImageNet-10, ImageNet-Dogs, and Tiny-ImageNet, respectively.
翻訳日:2022-11-15 19:08:27 公開日:2022-11-14
# FedCL: ユーザ不均一性を同期的に相関させる多相学習

FedCL: Federated Multi-Phase Curriculum Learning to Synchronously Correlate User Heterogeneity ( http://arxiv.org/abs/2211.07248v1 )

ライセンス: Link先を確認
Mingjie Wang, Jianxiong Guo, Weijia Jia(参考訳) Federated Learning(FL)は、グローバルモデルがローカルモデルのパラメータを反復的に収集するが、ローカルデータにアクセスしない機械学習アルゴリズムのトレーニングに使用される、新たな分散学習である。 FLの重要な課題は、局所的なデータ分布の不均一性を扱うことである。 この課題に対処するため、現在の手法では、知識蒸留、重み付けモデル集約、マルチタスク学習といった異なる戦略を規制として採用している。 モデルドリフトが既に発生または過小評価されている、ローカルまたはポストホックな方法でユーザモデルをアライメントするため、これらのアプローチを非同期FLと呼んでいる。 本稿では,FLにおけるユーザ不均一性の課題を解決するための,アクティブかつ同期的な相関手法を提案する。 具体的には,各ラウンドのユーザ学習ペースを動的多相カリキュラムでアクティブかつ同期的にスケジューリングすることで,FLを標準ディープラーニングとして近似することを目的とする。 グローバルカリキュラムは、自己回帰オートエンコーダによってサーバ上の全ユーザーカリキュラムをアンサンブルする。 次に、グローバルカリキュラムを複数のフェーズに分割し、ユーザに対して、ドメインに依存しない学習ペースの測定と調整を行う。 実験により,本手法は,ユーザの不均一性に直面する場合さえも,既存の非同期アプローチに対して,最先端の一般化性能とFLを併用することを示した。

Federated Learning (FL) is a new decentralized learning used for training machine learning algorithms where a global model iteratively gathers the parameters of local models but does not access their local data. A key challenge in FL is to handle the heterogeneity of local data distribution, resulting in a drifted global model, which is hard to converge. To cope with this challenge, current methods adopt different strategies like knowledge distillation, weighted model aggregation, and multi-task learning, as regulation. We refer to these approaches as asynchronous FL since they align user models in either a local or post-hoc manner where model drift has already happened or has been underestimated. In this paper, we propose an active and synchronous correlation approach to solve the challenge of user heterogeneity in FL. Specifically, we aim to approximate FL as the standard deep learning by actively and synchronously scheduling user learning pace in each round with a dynamic multi-phase curriculum. A global curriculum ensembles all user curriculum on its server by the auto-regressive auto-encoder. Then the global curriculum is divided into multiple phases and broadcast to users to measure and align the domain-agnostic learning pace. Empirical studies demonstrate that our approach equips FL with state-of-the-art generalization performance over existing asynchronous approaches, even facing severe user heterogeneity.
翻訳日:2022-11-15 19:08:00 公開日:2022-11-14
# 部分的対物識別と昇降モデリング--理論的結果と実世界評価

Partial counterfactual identification and uplift modeling: theoretical results and real-world assessment ( http://arxiv.org/abs/2211.07264v1 )

ライセンス: Link先を確認
Th\'eo Verhelst, Denis Mercier, Jeevan Shrestha, Gianluca Bontempi(参考訳) 反事実は因果的推論と科学的発見プロセスの中心である。 アップリフト(英: Uplift、条件平均治療効果とも呼ばれる)は、ある行動や治療が個人の結果に与える影響を測定する。 本稿では,隆起項に基づく反事実文の確率の境界を導出する方法について述べる。 まず, 反事実の確率に関する元の境界を導出し, このような境界の厳密性は隆起項に設定された特徴の情報に依存することを示した。 次に,反実結果間の条件付き独立性を仮定した点推定器を提案する。 通信会社が提供する合成データと大規模な実世界の顧客データに基づいて、境界値と点推定器の品質を評価し、技術の現状を大きく改善したことを示す。

Counterfactuals are central in causal human reasoning and the scientific discovery process. The uplift, also called conditional average treatment effect, measures the causal effect of some action, or treatment, on the outcome of an individual. This paper discusses how it is possible to derive bounds on the probability of counterfactual statements based on uplift terms. First, we derive some original bounds on the probability of counterfactuals and we show that tightness of such bounds depends on the information of the feature set on the uplift term. Then, we propose a point estimator based on the assumption of conditional independence between the counterfactual outcomes. The quality of the bounds and the point estimators are assessed on synthetic data and a large real-world customer data set provided by a telecom company, showing significant improvement over the state of the art.
翻訳日:2022-11-15 19:07:36 公開日:2022-11-14
# 2次元画像からの3次元形状とポーズの半教師あり学習のための分割平面船体

Piecewise Planar Hulls for Semi-Supervised Learning of 3D Shape and Pose from 2D Images ( http://arxiv.org/abs/2211.07491v1 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) 一つの2次元画像から,物体の3次元形状とポーズをキーポイントで推定する問題について検討する。 形状とポーズはカテゴリと部分的な2dキーポイントアノテーションによって収集された画像から直接学習される。 . 本研究ではまず,中間2次元キーポイント抽出と最終3次元形状とポーズ推定のためのエンドツーエンドトレーニングフレームワークを提案する。 提案したフレームワークは、中間2次元キーポイントの弱い監督のみを用いて訓練される。 さらに、ラベル付きデータとラベルなしデータの両方から恩恵を受ける、半教師付きトレーニングフレームワークも開発しています。 ラベルのないデータを活用するために,標準物体の形状に先立って,emph{piece-wise Planar hull}を導入し,活用する。 これらの平面船体は、キーポイントの助けを借りて、オブジェクトカテゴリごとに手動で定義される。 一方, 提案手法は, ラベル付きデータからこれらの平面殻を分割する方法を学習する。 一方、予測キーポイントとラベルなしデータ上のセグメンテーションされた船体との整合性を同時に実施する。 強制された一貫性により、手元のタスクにラベルのないデータを効率的に使用できます。 提案手法は,アノテーションの半数しか使用せずに,最先端の完全教師あり手法と同等の結果が得られる。 私たちのソースコードは公開されます。

We study the problem of estimating 3D shape and pose of an object in terms of keypoints, from a single 2D image. The shape and pose are learned directly from images collected by categories and their partial 2D keypoint annotations.. In this work, we first propose an end-to-end training framework for intermediate 2D keypoints extraction and final 3D shape and pose estimation. The proposed framework is then trained using only the weak supervision of the intermediate 2D keypoints. Additionally, we devise a semi-supervised training framework that benefits from both labeled and unlabeled data. To leverage the unlabeled data, we introduce and exploit the \emph{piece-wise planar hull} prior of the canonical object shape. These planar hulls are defined manually once per object category, with the help of the keypoints. On the one hand, the proposed method learns to segment these planar hulls from the labeled data. On the other hand, it simultaneously enforces the consistency between predicted keypoints and the segmented hulls on the unlabeled data. The enforced consistency allows us to efficiently use the unlabeled data for the task at hand. The proposed method achieves comparable results with fully supervised state-of-the-art methods by using only half of the annotations. Our source code will be made publicly available.
翻訳日:2022-11-15 18:52:53 公開日:2022-11-14
# PKCAM: これまでの知識チャネル注意モジュール

PKCAM: Previous Knowledge Channel Attention Module ( http://arxiv.org/abs/2211.07521v1 )

ライセンス: Link先を確認
Eslam Mohamed Bakar, Ahmad El Sallab, Mohsen A. Rashwan(参考訳) 近年,空間次元とチャネル次元の両方において,convnetで注意機構が検討されている。 しかしながら、我々の知る限り、既存のメソッドはすべて、局所的なインタラクションをユニスケールから捉えるために注意モジュールを割いている。 本稿では,グローバルコンテキストをモデル化するために,各レイヤ間のチャネル間関係をキャプチャする知識チャネルアテンションモジュール(pkcam)を提案する。 提案するモジュールPKCAMは,任意のフィードフォワードCNNアーキテクチャに容易に統合可能であり,その軽量性によりフットプリントが無視できるようなエンドツーエンドで訓練される。 我々は,異なるバックボーンを用いた画像分類と物体検出タスクの広範な実験を通じて,新しいアーキテクチャを検証する。 私たちの実験では、パフォーマンスが同等に向上しています。 私たちのコードはhttps://github.com/eslambakr/EMCA.comで公開されています。

Recently, attention mechanisms have been explored with ConvNets, both across the spatial and channel dimensions. However, from our knowledge, all the existing methods devote the attention modules to capture local interactions from a uni-scale. In this paper, we propose a Previous Knowledge Channel Attention Module(PKCAM), that captures channel-wise relations across different layers to model the global context. Our proposed module PKCAM is easily integrated into any feed-forward CNN architectures and trained in an end-to-end fashion with a negligible footprint due to its lightweight property. We validate our novel architecture through extensive experiments on image classification and object detection tasks with different backbones. Our experiments show consistent improvements in performances against their counterparts. Our code is published at https://github.com/eslambakr/EMCA.
翻訳日:2022-11-15 18:52:33 公開日:2022-11-14
# バッチマニフォールド上でのオンライン拡散による自己蒸留による深層学習の改善

Self-distillation with Online Diffusion on Batch Manifolds Improves Deep Metric Learning ( http://arxiv.org/abs/2211.07566v1 )

ライセンス: Link先を確認
Zelong Zeng, Fan Yang, Hong Liu and Shin'ichi Satoh(参考訳) 最近のdml(deep metric learning)メソッドは通常、ポジティブなサンプルを負のラベルから遠ざけるためにのみクラスラベルを利用する。 しかし、この種の手法は通常、訓練されたモデルの一般化に有害なデータ(例えば、クラス内情報変動)に隠された重要な知識を無視している。 本稿では,dmlのためのオンラインバッチ拡散式自己蒸留(obd-sd)を提案する。 具体的には、まず、訓練中にモデル自体から徐々に知識を蒸留する単純で効果的なプログレッシブ自己蒸留(PSD)を提案する。 PSDによって達成されるソフト距離ターゲットは、よりリッチな関係情報をサンプル間で提示することができる。 次に, PSD を Online Batch Diffusion Process (OBDP) で拡張することにより, 各バッチ内の多様体の局所的幾何学的構造を把握し, バッチ内のサンプル間の固有関係を明らかにするとともに, ソフト距離目標の精度を向上させる。 OBDPは元のPSDで得られた不十分な多様体関係を復元することができ、大幅な性能向上を実現している。 私たちのOBD-SDは、最先端(SOTA)DMLメソッドに統合可能な柔軟なフレームワークです。 CUB200、CARS196、Stanford Online Productsといった様々なベンチマークに関する大規模な実験は、OBD-SDが複数のデータセット上の既存のDMLメソッドのパフォーマンスを、無視できない追加トレーニング時間で一貫して改善し、非常に競争力のある結果を得ることを示した。 コード: \url{https://github.com/ZelongZeng/OBD-SD_Pytorch}

Recent deep metric learning (DML) methods typically leverage solely class labels to keep positive samples far away from negative ones. However, this type of method normally ignores the crucial knowledge hidden in the data (e.g., intra-class information variation), which is harmful to the generalization of the trained model. To alleviate this problem, in this paper we propose Online Batch Diffusion-based Self-Distillation (OBD-SD) for DML. Specifically, we first propose a simple but effective Progressive Self-Distillation (PSD), which distills the knowledge progressively from the model itself during training. The soft distance targets achieved by PSD can present richer relational information among samples, which is beneficial for the diversity of embedding representations. Then, we extend PSD with an Online Batch Diffusion Process (OBDP), which is to capture the local geometric structure of manifolds in each batch, so that it can reveal the intrinsic relationships among samples in the batch and produce better soft distance targets. Note that our OBDP is able to restore the insufficient manifold relationships obtained by the original PSD and achieve significant performance improvement. Our OBD-SD is a flexible framework that can be integrated into state-of-the-art (SOTA) DML methods. Extensive experiments on various benchmarks, namely CUB200, CARS196, and Stanford Online Products, demonstrate that our OBD-SD consistently improves the performance of the existing DML methods on multiple datasets with negligible additional training time, achieving very competitive results. Code: \url{https://github.com/ZelongZeng/OBD-SD_Pytorch}
翻訳日:2022-11-15 18:52:19 公開日:2022-11-14
# attenface:顔認識を用いたリアルタイム出席システム

AttenFace: A Real Time Attendance System using Face Recognition ( http://arxiv.org/abs/2211.07582v1 )

ライセンス: Link先を確認
Ashwin Rao(参考訳) 大学への出席をマークする現在のアプローチは退屈で時間を要する。 顔認識を用いてリアルタイムに参加者を追跡し,追跡し,許可するスタンドアロンシステムであるattenfaceを提案する。 ライブカメラフィードからのクラスのスナップショットを使用して、システムは学生を識別し、クラス期間中に複数のスナップショットで取得したクラスの存在に基づいて、クラスに存在をマークする。 各クラスの顔認識は独立して並列に行われ、システムが並列クラスの数でスケールすることを保証する。 また、出席計算のためのバックエンドサーバから顔認識サーバを分離することで、momentleのような既存の出席追跡ソフトウェアと顔認識モジュールを統合できる。 顔認識アルゴリズムは教室のスナップショット上で10分間隔で動作し、ライブカメラフィードの直接処理に比べて計算量を大幅に削減する。 この方法はまた、授業に出席する機会を失うことなく、短い期間(例えば電話など)クラスを離れる柔軟性も学生に提供する。 一定の閾値以上のスナップショットのためにクラスに留まっている場合、出席は学生に与えられる。 バックエンドがクラス内カメラと直接接続するため、システムは完全に自動化されており、教授の介入や手作業による出席、あるいはカメラのセットアップも不要である。 attenfaceは、顔認識対応の教育機関でのワンストップソリューションであり、学生の出席確認から、自分の出席方針を決める教授、デフォルトの出席規則を強制する大学管理まで、あらゆる側面をプロキシーに対処している。

The current approach to marking attendance in colleges is tedious and time consuming. I propose AttenFace, a standalone system to analyze, track and grant attendance in real time using face recognition. Using snapshots of class from live camera feed, the system identifies students and marks them as present in a class based on their presence in multiple snapshots taken throughout the class duration. Face recognition for each class is performed independently and in parallel, ensuring that the system scales with number of concurrent classes. Further, the separation of the face recognition server from the back-end server for attendance calculation allows the face recognition module to be integrated with existing attendance tracking software like Moodle. The face recognition algorithm runs at 10 minute intervals on classroom snapshots, significantly reducing computation compared to direct processing of live camera feed. This method also provides students the flexibility to leave class for a short duration (such as for a phone call) without losing attendance for that class. Attendance is granted to a student if he remains in class for a number of snapshots above a certain threshold. The system is fully automatic and requires no professor intervention or any form of manual attendance or even camera set-up, since the back-end directly interfaces with in-class cameras. AttenFace is a first-of-its-kind one-stop solution for face-recognition-enabled attendance in educational institutions that prevents proxy, handling all aspects from students checking attendance to professors deciding their own attendance policy, to college administration enforcing default attendance rules.
翻訳日:2022-11-15 18:51:46 公開日:2022-11-14
# 病理画像解析のための立体不変自己教師あり学習

Stain-invariant self supervised learning for histopathology image analysis ( http://arxiv.org/abs/2211.07590v1 )

ライセンス: Link先を確認
Alexandre Tiard, Alex Wong, David Joon Ho, Yangchao Wu, Eliram Nof, Stefano Soatto, Saad Nadeem(参考訳) 乳がんのヘマトキシリンおよびエオシン(H&E)染色像におけるいくつかの分類課題に対する自己監督アルゴリズムを提案する。 本手法は, 自動分析ツールの適用性を制限したヒストロジー画像取得プロセスに固有の変異の染色に頑健である。 トレーニング中に染色正規化技術を利用する学習潜在空間に制約を課すことでこの問題に対処する。 各イテレーションで、イメージを正規化ターゲットとして選択し、そのターゲットに正規化されたバッチ内の各イメージのバージョンを生成します。 異なる染色変化下で同じ画像に対応する埋め込み間の距離を最小化し、他のサンプル間の距離を最大化する。 提案手法は,マルチセンターデータ間の染色変化に対するロバスト性を向上するだけでなく,様々な正規化対象および手法に関する広範な実験を通じて,分類性能を向上させる。 本手法は,腫瘍分類(CAMELYON17)やサブタイピング(BRACS)からHER2ステータス分類および治療応答予測まで,いくつかの乳がんデータセットの最先端性を実現する。

We present a self-supervised algorithm for several classification tasks within hematoxylin and eosin (H&E) stained images of breast cancer. Our method is robust to stain variations inherent to the histology images acquisition process, which has limited the applicability of automated analysis tools. We address this problem by imposing constraints a learnt latent space which leverages stain normalization techniques during training. At every iteration, we select an image as a normalization target and generate a version of every image in the batch normalized to that target. We minimize the distance between the embeddings that correspond to the same image under different staining variations while maximizing the distance between other samples. We show that our method not only improves robustness to stain variations across multi-center data, but also classification performance through extensive experiments on various normalization targets and methods. Our method achieves the state-of-the-art performance on several publicly available breast cancer datasets ranging from tumor classification (CAMELYON17) and subtyping (BRACS) to HER2 status classification and treatment response prediction.
翻訳日:2022-11-15 18:51:19 公開日:2022-11-14
# pipa: ピクセルおよびパッチ単位で自己教師付き学習によるドメイン適応意味セグメンテーション

PiPa: Pixel- and Patch-wise Self-supervised Learning for Domain Adaptative Semantic Segmentation ( http://arxiv.org/abs/2211.07609v1 )

ライセンス: Link先を確認
Mu Chen, Zhedong Zheng, Yi Yang, Tat-Seng Chua(参考訳) Unsupervised Domain Adaptation (UDA) は、学習モデルの他の領域への一般化を強化することを目的としている。 ドメイン不変知識は、例えばビデオゲームのようなラベル付きソースドメインでトレーニングされたモデルから、実世界のシナリオのようなラベル付き対象ドメインへ、アノテーション費用の節約に移される。 セマンティックセグメンテーションのための既存のUDAメソッドは、通常、ドメイン不変知識を抽出するために、ピクセル、特徴、予測など、様々なレベルのドメイン間の差を最小限にすることに焦点を当てている。 しかし、画像内のコンテキスト相関など、ドメイン内の主要な知識は未調査のままである。 このギャップを埋めるために,画像内のピクセル間相関と異なるコンテキストに対するパッチ間意味整合性を容易にするドメイン適応意味セグメンテーションのための,pipaと呼ばれる統合画素・パッチ間自己教師付き学習フレームワークを提案する。 提案手法は,(1)クラス内コンパクト性とクラス間分離性によって識別可能な画素単位の特徴を明示的に学習すること,(2)異なる文脈やゆらぎに対する同一パッチのロバストな特徴学習を動機付けること,というドメイン内イメージの固有構造を利用する。 GTA から Cityscapes への75.6 mIoU と Synthia から Cityscapes への68.2 mIoU という2つの広く使われている UDA ベンチマークの競合精度を得る手法の有効性を検証する。 さらに,本手法は他のUDA手法と互換性があり,パラメータの追加を伴わずにさらなる性能向上を図ることができる。

Unsupervised Domain Adaptation (UDA) aims to enhance the generalization of the learned model to other domains. The domain-invariant knowledge is transferred from the model trained on labeled source domain, e.g., video game, to unlabeled target domains, e.g., real-world scenarios, saving annotation expenses. Existing UDA methods for semantic segmentation usually focus on minimizing the inter-domain discrepancy of various levels, e.g., pixels, features, and predictions, for extracting domain-invariant knowledge. However, the primary intra-domain knowledge, such as context correlation inside an image, remains underexplored. In an attempt to fill this gap, we propose a unified pixel- and patch-wise self-supervised learning framework, called PiPa, for domain adaptive semantic segmentation that facilitates intra-image pixel-wise correlations and patch-wise semantic consistency against different contexts. The proposed framework exploits the inherent structures of intra-domain images, which: (1) explicitly encourages learning the discriminative pixel-wise features with intra-class compactness and inter-class separability, and (2) motivates the robust feature learning of the identical patch against different contexts or fluctuations. Extensive experiments verify the effectiveness of the proposed method, which obtains competitive accuracy on the two widely-used UDA benchmarks, i.e., 75.6 mIoU on GTA to Cityscapes and 68.2 mIoU on Synthia to Cityscapes. Moreover, our method is compatible with other UDA approaches to further improve the performance without introducing extra parameters.
翻訳日:2022-11-15 18:50:58 公開日:2022-11-14
# クロスコーパス音声データセットのドメイン適応によるイタリア高齢者の感性認識

Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset ( http://arxiv.org/abs/2211.07307v1 )

ライセンス: Link先を確認
Francesca Gasparini, Alessandra Grossi(参考訳) 本研究の目的は、イタリア高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識できる音声感情認識(ser)モデルを定義することである。 ser用のいくつかのデータセットが文献に載っている。 しかし、ほとんどが英語または中国語で録音されており、俳優や女優が短いフレーズを発音しているため、自然な会話とは無関係である。 さらに、全てのデータベースの中で高齢者に関連するものはほとんどない。 そこで本研究では,多言語・多年齢コーパスが,イタリア語のデータセットを含む高齢者を含む英語のデータセットをマージすることを検討する。 若者や成人のイギリス人俳優や女優を対象とし,XGBoostに基づく一般モデルが提案されている。 次に、高齢者とイタリアの話者にモデルを適用するために、ドメイン適応の2つの戦略を提案する。 その結果,このアプローチにより分類性能が向上し,新たなデータセットの収集も可能となった。

The aim of this work is to define a speech emotion recognition (SER) model able to recognize positive, neutral and negative emotions in natural conversations of Italian elderly people. Several datasets for SER are available in the literature. However most of them are in English or Chinese, have been recorded while actors and actresses pronounce short phrases and thus are not related to natural conversation. Moreover only few speeches among all the databases are related to elderly people. Therefore, in this work, a multi-language and multi-age corpus is considered merging a dataset in English, that includes also elderly people, with a dataset in Italian. A general model, trained on young and adult English actors and actresses is proposed, based on XGBoost. Then two strategies of domain adaptation are proposed to adapt the model either to elderly people and to Italian speakers. The results suggest that this approach increases the classification performance, underlining also that new datasets should be collected.
翻訳日:2022-11-15 18:49:48 公開日:2022-11-14
# アンカー型視覚言語空間アライメントによるゼロショット画像キャプション

Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment ( http://arxiv.org/abs/2211.07275v1 )

ライセンス: Link先を確認
Junyang Wang, Yi Zhang, Ming Yan, Ji Zhang, Jitao Sang(参考訳) CLIP(Contrastive Language- Image Pre-Training)は,視覚的分類や画像検索などの相互相関タスクにおいて,顕著なゼロショット転送機能を示す。 しかし、ゼロショット画像キャプションのようなクロスモーダル生成タスクのパフォーマンスは相変わらず満足できない。 本稿では, ゼロショット画像キャプションにCLIPを直接利用する場合, 文脈におけるテキストのモダリティに大きく依存し, 視覚情報の無視に大きく依存する, いわゆる「emph{contextual language prior}」について述べる。 これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。 さらに,クリップ表現における細粒度情報に対する生成モデルの注意を導くアンカー拡張を提案する。 MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証する。

CLIP (Contrastive Language-Image Pre-Training) has shown remarkable zero-shot transfer capabilities in cross-modal correlation tasks such as visual classification and image retrieval. However, its performance in cross-modal generation tasks like zero-shot image captioning remains unsatisfied. In this work, we discuss that directly employing CLIP for zero-shot image captioning relies more on the textual modality in context and largely ignores the visual information, which we call \emph{contextual language prior}. To address this, we propose Cross-modal Language Models (CLMs) to facilitate unsupervised cross-modal learning. We further propose Anchor Augment to guide the generative model's attention to the fine-grained information in the representation of CLIP. Experiments on MS COCO and Flickr 30K validate the promising performance of proposed approach in both captioning quality and computational efficiency.
翻訳日:2022-11-15 18:44:03 公開日:2022-11-14
# ブラリーとノイズペアを用いた自己監督画像復元

Self-Supervised Image Restoration with Blurry and Noisy Pairs ( http://arxiv.org/abs/2211.07317v1 )

ライセンス: Link先を確認
Zhilu Zhang, Rongjian Xu, Ming Liu, Zifei Yan, Wangmeng Zuo(参考訳) 光の不足した環境下で写真を撮る場合、露出時間とセンサーの利得を慎重に選択し、視覚的品質を満足する画像を得る必要がある。 例えば、isoの高い画像は一般に無視できないノイズを持ち、長時間露光画像はカメラの揺動や物体の動きによってぼやけている可能性がある。 既存のソリューションは一般に、ノイズとブラーのバランスを求め、フルビジョンまたはセルフスーパービジョンのどちらかの下でデノイングやデブロワーリングのモデルを学ぶことを提案している。 しかし,実世界のトレーニングペアの収集は困難であり,自己監督手法はぼやけた画像やノイズ画像のみに依存するため,性能に制限がある。 そこで本研究では,短時間露光ノイズ画像と長時間露光ぼやき画像とを併用して画像復元を行う。 このような設定は、短い露光と長時間露光画像が2つの個々のカメラによって取得されるか、あるいは長い画像のバーストによって合成されるため、事実上実現可能である。 さらに、短い露光画像はほとんどぼやけておらず、長い露光画像には無視できるノイズがある。 その相補性により、自己管理的な方法で復元モデルを学習することができる。 具体的には、ノイズ画像をデブラリングの監督情報として用いることができ、ぼやけた画像のシャープな領域を自己監視デノイジングの補助監督情報として利用することができる。 協調的に学習することで,提案手法におけるタスクのデブラリングとデノライゼーションが相互に利益をもたらす。 合成および実世界の画像実験により,提案手法の有効性と実用性が示された。 コードはhttps://github.com/cszhilu1998/selfirで入手できる。

When taking photos under an environment with insufficient light, the exposure time and the sensor gain usually require to be carefully chosen to obtain images with satisfying visual quality. For example, the images with high ISO usually have inescapable noise, while the long-exposure ones may be blurry due to camera shake or object motion. Existing solutions generally suggest to seek a balance between noise and blur, and learn denoising or deblurring models under either full- or self-supervision. However, the real-world training pairs are difficult to collect, and the self-supervised methods merely rely on blurry or noisy images are limited in performance. In this work, we tackle this problem by jointly leveraging the short-exposure noisy image and the long-exposure blurry image for better image restoration. Such setting is practically feasible due to that short-exposure and long-exposure images can be either acquired by two individual cameras or synthesized by a long burst of images. Moreover, the short-exposure images are hardly blurry, and the long-exposure ones have negligible noise. Their complementarity makes it feasible to learn restoration model in a self-supervised manner. Specifically, the noisy images can be used as the supervision information for deblurring, while the sharp areas in the blurry images can be utilized as the auxiliary supervision information for self-supervised denoising. By learning in a collaborative manner, the deblurring and denoising tasks in our method can benefit each other. Experiments on synthetic and real-world images show the effectiveness and practicality of the proposed method. Codes are available at https://github.com/cszhilu1998/SelfIR.
翻訳日:2022-11-15 18:43:51 公開日:2022-11-14
# 視覚スキャンパス予測のためのobserver間一貫性のあるディープ・コンバーサル・トレーニング

An Inter-observer consistent deep adversarial training for visual scanpath prediction ( http://arxiv.org/abs/2211.07336v1 )

ライセンス: Link先を確認
Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Alessandro Bruno(参考訳) 視覚スキャンパス(visual scanpath)は、シーンを探索しながら人間の視線が動く点のシーケンスである。 視覚的注意研究の基盤となる基本的な概念である。 その結果,近年,これらの予測能力が重要な課題となっている。 本稿では,軽量深層ニューラルネットワークによるスキャニングパス予測のための,オブザーバ間の一貫性のある逆向学習手法を提案する。 本手法は、異なる観測者によって横断される走査パスの主観的性質に関する分布間の整合性を維持しつつ、自然な確率現象をモデル化するのに適した動的損失として識別ニューラルネットワークを用いる。 広範なテストを通じて、最先端の手法に対する我々のアプローチの競争力を示す。

The visual scanpath is a sequence of points through which the human gaze moves while exploring a scene. It represents the fundamental concepts upon which visual attention research is based. As a result, the ability to predict them has emerged as an important task in recent years. In this paper, we propose an inter-observer consistent adversarial training approach for scanpath prediction through a lightweight deep neural network. The adversarial method employs a discriminative neural network as a dynamic loss that is better suited to model the natural stochastic phenomenon while maintaining consistency between the distributions related to the subjective nature of scanpaths traversed by different observers. Through extensive testing, we show the competitiveness of our approach in regard to state-of-the-art methods.
翻訳日:2022-11-15 18:43:25 公開日:2022-11-14
# イベントによる動きブル画像の線分検出

Detecting Line Segments in Motion-blurred Images with Events ( http://arxiv.org/abs/2211.07365v1 )

ライセンス: Link先を確認
Huai Yu, Hao Li, Wen Yang, Lei Yu, Gui-Song Xia(参考訳) ラインセグメント検出器を動きのぼかしの下で信頼性を高めることは、視覚的SLAMや3D再構成など、実用的な応用において最も重要な課題の1つである。 既存の線分検出方法は、動きのぼけが発生したときに線分を正確に検出し、位置決めする、厳しい性能劣化に直面している。 事象データは画像に強い相補的特徴を示すが、高時間分解能において最小のぼかしとエッジ認識は信頼性の高い線分認識に有用である。 動きのぼやき上の線分をロバストに検出するために,画像とイベントの補完的情報を活用することを提案する。 これを実現するために,我々はまず,詳細な画像テクスチャと低遅延イベントエッジを抽出・融合する汎用フレームイベント機能融合ネットワークを設計し,チャネルアテンションベースの浅層融合モジュールと自己アテンションベースのデュアルアワーグラスモジュールからなる。 次に2つの最先端のワイヤフレーム解析ネットワークを用いて,融合特徴マップ上の線分を検出する。 さらに,FE-Wireframe や FE-Blurframe といった線分検出のための合成および現実的なデータセットを,一対の動画やイベントで提供する。 両データセットの広範な実験により,提案手法の有効性が示された。 実データを用いた場合,本手法は, FE-Wireframeで事前学習したモデルを用いて平均構造平均精度(msAP)を63.3%, FE-Blurframeで微調整したモデルに対して32.6, 11.3ポイント向上した。 コード、データセット、トレーニングされたモデルは以下の通りである。

Making line segment detectors more reliable under motion blurs is one of the most important challenges for practical applications, such as visual SLAM and 3D reconstruction. Existing line segment detection methods face severe performance degradation for accurately detecting and locating line segments when motion blur occurs. While event data shows strong complementary characteristics to images for minimal blur and edge awareness at high-temporal resolution, potentially beneficial for reliable line segment recognition. To robustly detect line segments over motion blurs, we propose to leverage the complementary information of images and events. To achieve this, we first design a general frame-event feature fusion network to extract and fuse the detailed image textures and low-latency event edges, which consists of a channel-attention-based shallow fusion module and a self-attention-based dual hourglass module. We then utilize two state-of-the-art wireframe parsing networks to detect line segments on the fused feature map. Besides, we contribute a synthetic and a realistic dataset for line segment detection, i.e., FE-Wireframe and FE-Blurframe, with pairwise motion-blurred images and events. Extensive experiments on both datasets demonstrate the effectiveness of the proposed method. When tested on the real dataset, our method achieves 63.3% mean structural average precision (msAP) with the model pre-trained on the FE-Wireframe and fine-tuned on the FE-Blurframe, improved by 32.6 and 11.3 points compared with models trained on synthetic only and real only, respectively. The codes, datasets, and trained models are released at: https://levenberg.github.io/FE-LSD
翻訳日:2022-11-15 18:43:13 公開日:2022-11-14
# ラベルなし合成データを用いた教師なし顔認識

Unsupervised Face Recognition using Unlabeled Synthetic Data ( http://arxiv.org/abs/2211.07371v1 )

ライセンス: Link先を確認
Fadi Boutros, Marcel Klemt, Meiling Fang, Arjan Kuijper and Naser Damer(参考訳) 過去数年間、顔認識における主要な研究革新は、マルチクラス分類損失のバリエーションを用いて、大規模アイデンティティラベルデータセットでディープニューラルネットワークをトレーニングすることに焦点を当てた。 しかしながら、これらのデータセットの多くは、プライバシーと倫理的懸念の高まりにより、作成者によって取り下げられている。 プライバシーに優しい合成データは、プライバシー規制に準拠し、顔認識研究の継続性を確保するために、プライバシーに敏感な認証データに代わるものとして提案されている。 本稿では,ラベルなし合成データ(USynthFace)に基づく教師なし顔認識モデルを提案する。 提案するusynthfaceは,同一インスタンスの2つの拡張画像間の類似性を最大化する。 私たちはこれを,usynthfaceモデルのトレーニングに寄与するganベースの拡張に加えて,幾何および色変換の大規模なセットによって実現します。 また,USynthFaceのさまざまなコンポーネントについて,多数の実証的研究を行った。 提案する拡張操作により,ラベルなし合成データを用いた比較的高い認識精度を達成するためのusynthfaceの有効性を実証した。

Over the past years, the main research innovations in face recognition focused on training deep neural networks on large-scale identity-labeled datasets using variations of multi-class classification losses. However, many of these datasets are retreated by their creators due to increased privacy and ethical concerns. Very recently, privacy-friendly synthetic data has been proposed as an alternative to privacy-sensitive authentic data to comply with privacy regulations and to ensure the continuity of face recognition research. In this paper, we propose an unsupervised face recognition model based on unlabeled synthetic data (USynthFace). Our proposed USynthFace learns to maximize the similarity between two augmented images of the same synthetic instance. We enable this by a large set of geometric and color transformations in addition to GAN-based augmentation that contributes to the USynthFace model training. We also conduct numerous empirical studies on different components of our USynthFace. With the proposed set of augmentation operations, we proved the effectiveness of our USynthFace in achieving relatively high recognition accuracies using unlabeled synthetic data.
翻訳日:2022-11-15 18:42:42 公開日:2022-11-14
# FAPM: リアルタイム産業異常検出のための高速適応パッチメモリ

FAPM: Fast Adaptive Patch Memory for Real-time Industrial Anomaly Detection ( http://arxiv.org/abs/2211.07381v1 )

ライセンス: Link先を確認
Donghyeong Kim, Chaewon Park, Suhwan Cho and Sangyoun Lee(参考訳) 特徴埋め込みに基づく手法は, 対象画像の特徴と正常画像の特徴を比較することで, 産業的異常の検出に非常に有用である。 しかし、そのような手法は、現実のアプリケーションでは精度と同じくらい重要な推論速度を考慮しない。 この問題を解消するために,実時間産業異常検出のための高速適応型パッチメモリ(FAPM)を提案する。 FAPMはパッチ単位とレイヤ単位のメモリバンクで構成され、パッチレベルとレイヤレベルのイメージの埋め込み機能を節約し、不要な繰り返し計算を排除している。 また、高速かつ正確な検出のためのパッチワイド適応コアセットサンプリングを提案する。 FAPMは、他の最先端手法と比較して精度と速度の両方で良好に機能する。

Feature embedding-based methods have performed exceptionally well in detecting industrial anomalies by comparing the features of the target image and the normal image. However, such approaches do not consider the inference speed, which is as important as accuracy in real-world applications. To relieve this issue, we propose a method called fast adaptive patch memory (FAPM) for real-time industrial anomaly detection. FAPM consists of patch-wise and layer-wise memory banks that save the embedding features of images in patch-level and layer-level, eliminating unnecessary repeated calculations. We also propose patch-wise adaptive coreset sampling for fast and accurate detection. FAPM performs well for both accuracy and speed compared to other state-of-the-art methods.
翻訳日:2022-11-15 18:42:29 公開日:2022-11-14
# tシャツによる顔認識攻撃:データベース,脆弱性評価,検出

Attacking Face Recognition with T-shirts: Database, Vulnerability Assessment and Detection ( http://arxiv.org/abs/2211.07383v1 )

ライセンス: Link先を確認
M. Ibsen, C. Rathgeb, F. Brechtel, R. Klepp, K. P\"oppelmann, A. George, S. Marcel, C. Busch(参考訳) 顔認識システムは生体認証のために広く利用されている。 それにもかかわらず、安全対策がなければ、顔認識システムがプレゼンテーション攻撃に対して非常に脆弱であることはよく知られている。 このセキュリティ問題に対応するために、既存のベンチマークで高いパフォーマンスを示すプレゼンテーションアタックを検出するいくつかの有望な方法が提案されている。 しかし、現在進行中の課題は、表示攻撃検出手法の非表示および新しい攻撃タイプへの一般化である。 そこで本研究では,100種類のプレゼンテーションアタックを用いた1,608個のTシャツアタックからなる新しいTシャツ顔提示アタック(TFPA)データベースを提案する。 広範な評価において、この種の攻撃は顔認識システムのセキュリティを損なう可能性があり、人気のあるベンチマークで訓練された最先端の攻撃検出メカニズムのいくつかは、新しい攻撃に対して堅牢に一般化できないことを示した。 さらに,本研究では,ボナファイド画像の深度マップとTシャツアタックの統計的差異に依存するTシャツアタック画像の検出方法,ボナフェイドRGB画像からのみ抽出された特徴に基づいて訓練された異常検出手法,および競合検出性能を実現する融合手法を提案する。

Face recognition systems are widely deployed for biometric authentication. Despite this, it is well-known that, without any safeguards, face recognition systems are highly vulnerable to presentation attacks. In response to this security issue, several promising methods for detecting presentation attacks have been proposed which show high performance on existing benchmarks. However, an ongoing challenge is the generalization of presentation attack detection methods to unseen and new attack types. To this end, we propose a new T-shirt Face Presentation Attack (TFPA) database of 1,608 T-shirt attacks using 100 unique presentation attack instruments. In an extensive evaluation, we show that this type of attack can compromise the security of face recognition systems and that some state-of-the-art attack detection mechanisms trained on popular benchmarks fail to robustly generalize to the new attacks. Further, we propose three new methods for detecting T-shirt attack images, one which relies on the statistical differences between depth maps of bona fide images and T-shirt attacks, an anomaly detection approach trained on features only extracted from bona fide RGB images, and a fusion approach which achieves competitive detection performance.
翻訳日:2022-11-15 18:42:16 公開日:2022-11-14
# 言語モデルは良い病理学者である:wsi分類のための注意に基づくシーケンス縮小とテキスト事前学習トランスフォーマー

Language models are good pathologists: using attention-based sequence reduction and text-pretrained transformers for efficient WSI classification ( http://arxiv.org/abs/2211.07384v1 )

ライセンス: Link先を確認
Juan I. Pisula and Katarzyna Bozek(参考訳) デジタル病理学では、全スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。 トランスフォーマーベースのアーキテクチャはwsiの分類に使われてきたが、これらの手法はこの種の画像データの特定の課題に対応するために修正を必要とする。 ドメインにまたがるパワーにもかかわらず、古典的コンピュータビジョン(cv)における参照トランスフォーマーモデルや自然言語処理(nlp)タスクは病理スライド解析には使われない。 本稿では、wsi分類に適用する標準、凍結、テキストプリトレーニング、トランスフォーマ言語モデルの使用例を示す。 本稿では,複数頭部アテンションに基づくシーケンス低減入力層であるseqshortを提案し,各wsiをインスタンスの固定および短いシーケンスで要約する。 これにより、長いシーケンスに対する自己注意の計算コストを削減し、他のミルアプローチでは利用できない位置情報を含めることができる。 本手法は,WSI 固有のトランスフォーマーを設計したり,ドメイン内自己監督型事前訓練を行う必要がなく,計算予算の削減や訓練可能なパラメータの数を抑えることなく,癌サブタイプ分類作業における有効性を示す。

In digital pathology, Whole Slide Image (WSI) analysis is usually formulated as a Multiple Instance Learning (MIL) problem. Although transformer-based architectures have been used for WSI classification, these methods require modifications to adapt them to specific challenges of this type of image data. Despite their power across domains, reference transformer models in classical Computer Vision (CV) and Natural Language Processing (NLP) tasks are not used for pathology slide analysis. In this work we demonstrate the use of standard, frozen, text-pretrained, transformer language models in application to WSI classification. We propose SeqShort, a multi-head attention-based sequence reduction input layer to summarize each WSI in a fixed and short size sequence of instances. This allows us to reduce the computational costs of self-attention on long sequences, and to include positional information that is unavailable in other MIL approaches. We demonstrate the effectiveness of our methods in the task of cancer subtype classification, without the need of designing a WSI-specific transformer or performing in-domain self-supervised pretraining, while keeping a reduced compute budget and number of trainable parameters.
翻訳日:2022-11-15 18:41:56 公開日:2022-11-14
# 多粒度不確かさ正規化によるテキストフィードバックによる合成画像検索

Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization ( http://arxiv.org/abs/2211.07394v1 )

ライセンス: Link先を確認
Yiyang Chen, Zhedong Zheng, Wei Ji, Leigang Qu, Tat-Seng Chua(参考訳) テキストフィードバックによる合成画像検索について検討した。 ユーザは、粗いフィードバックから細かいフィードバックに移行することで、徐々に関心の対象を探します。 しかし、既存の方法は、訓練中に正のペアと負のペアを利用することで、後者、すなわちきめ細かい検索にのみ焦点を合わせている。 このペアベースのパラダイムは、一対の特定点間の一対一の距離のみを考慮し、一対一の粗い粗い検索プロセスと一致せず、リコール率を損なう。 このギャップを埋めるために,多粒度不確実性を考慮した粗粒度検索を同時にモデル化する統一学習手法を提案する。 提案手法を基盤とするキーアイデアは,データポイントと小変動点,大変動点のマッチングとして,細粒度検索と粗粒度検索を統合することである。 具体的には、不確実性モデリングと不確実性正規化の2つのモジュールを含む。 1)不確実性モデリングは,特徴空間に同一の分散変動を導入することで,多粒度クエリをシミュレートする。 2) 不確実性モデリングに基づいて,変動範囲に応じて一致目標を適応させる不確実性正規化を導入する。 既存手法と比較して, 提案手法では, モデルが早期に潜在的な候補を追い払うことを明示的に防止し, リコール率を向上させる。 fashioniq, fashion200k, shoesの3つのパブリックデータセットにおいて,提案手法はそれぞれ,強いベースラインに対して +4.03%, + 3.38%, + 2.40% recall@50 精度を達成した。

We investigate composed image retrieval with text feedback. Users gradually look for the target of interest by moving from coarse to fine-grained feedback. However, existing methods merely focus on the latter, i.e, fine-grained search, by harnessing positive and negative pairs during training. This pair-based paradigm only considers the one-to-one distance between a pair of specific points, which is not aligned with the one-to-many coarse-grained retrieval process and compromises the recall rate. In an attempt to fill this gap, we introduce a unified learning approach to simultaneously modeling the coarse- and fine-grained retrieval by considering the multi-grained uncertainty. The key idea underpinning the proposed method is to integrate fine- and coarse-grained retrieval as matching data points with small and large fluctuations, respectively. Specifically, our method contains two modules: uncertainty modeling and uncertainty regularization. (1) The uncertainty modeling simulates the multi-grained queries by introducing identically distributed fluctuations in the feature space. (2) Based on the uncertainty modeling, we further introduce uncertainty regularization to adapt the matching objective according to the fluctuation range. Compared with existing methods, the proposed strategy explicitly prevents the model from pushing away potential candidates in the early stage, and thus improves the recall rate. On the three public datasets, i.e., FashionIQ, Fashion200k, and Shoes, the proposed method has achieved +4.03%, + 3.38%, and + 2.40% Recall@50 accuracy over a strong baseline, respectively.
翻訳日:2022-11-15 18:41:34 公開日:2022-11-14
# LGN-Net:ビデオ異常検出のための局所グローバル正規化ネットワーク

LGN-Net: Local-Global Normality Network for Video Anomaly Detection ( http://arxiv.org/abs/2211.07454v1 )

ライセンス: Link先を確認
Mengyang Zhao, Yang Liu, Jing Liu, Di Li, Xinhua Zeng(参考訳) ビデオ異常検出(VAD)は、インテリジェントビデオシステムに応用される可能性があるため、長年にわたって研究されてきた。 既存の教師なしvad法は、通常のビデオのみからなるトレーニングセットから正規性を学び、そのような正規性から逸脱したインスタンスを異常と見なす傾向がある。 しかし、彼らはしばしば局所的あるいはグローバルな正規性のみを考慮する。 それらの一部は、ビデオクリップの連続フレームから局所的な時空間表現を学習し、通常のイベントの表現を強化することに重点を置いている。 しかし、強力な表現により、これらのメソッドはいくつかの異常を表現でき、検出に失敗する。 対照的に、他の手法は、トレーニングビデオ全体のグローバルな原型パターンを記憶し、異常の一般化を弱め、多様な正常なパターンを表現し、誤報を引き起こすことを制限している。 そこで本研究では,局所正規化とグローバル正規化を同時に学習する2分岐モデルLGN-Netを提案する。 具体的には、時空間予測ネットワークを用いた局所正規性として連続フレームからの出現と動きの進化正規性を学び、一方のブランチは、全ビデオのプロトタイプ特徴をメモリモジュールによるグローバル正規性として記憶する。 LGN-Netは、局所的および大域的正規性を融合させることで、正常および異常なインスタンスを表すバランスを達成する。 融合正規性により,単一正規性を利用する場合に比べて,モデルが様々な場面に一般化される。 本手法の有効性と優れた性能を示す実験を行った。 コードはhttps://github.com/myzhao1999/lgn-net。

Video anomaly detection (VAD) has been intensively studied for years because of its potential applications in intelligent video systems. Existing unsupervised VAD methods tend to learn normality from training sets consisting of only normal videos and regard instances deviating from such normality as anomalies. However, they often consider only local or global normality. Some of them focus on learning local spatiotemporal representations from consecutive frames in video clips to enhance the representation for normal events. But powerful representation allows these methods to represent some anomalies and causes missed detections. In contrast, the other methods are devoted to memorizing global prototypical patterns of whole training videos to weaken the generalization for anomalies, which also restricts them to represent diverse normal patterns and causes false alarms. To this end, we propose a two-branch model, Local-Global Normality Network (LGN-Net), to learn local and global normality simultaneously. Specifically, one branch learns the evolution regularities of appearance and motion from consecutive frames as local normality utilizing a spatiotemporal prediction network, while the other branch memorizes prototype features of the whole videos as global normality by a memory module. LGN-Net achieves a balance of representing normal and abnormal instances by fusing local and global normality. The fused normality enables our model more generalized to various scenes compared to exploiting single normality. Experiments demonstrate the effectiveness and superior performance of our method. The code is available online: https://github.com/Myzhao1999/LGN-Net.
翻訳日:2022-11-15 18:41:06 公開日:2022-11-14
# 再帰的クロスビュー: 3dアノテーションなしで3dオブジェクト検出を実現するために2d検出器のみを使用する

Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object Detection without 3D Annotations ( http://arxiv.org/abs/2211.07108v1 )

ライセンス: Link先を確認
Shun Gui and Yan Luximon(参考訳) 3Dアノテーションに大きく依存することは、3Dオブジェクト検出の現実的な応用を制限する。 本稿では,完全指向の3dバウンディングボックスを予測しながら,いかなる3dアノテーションも必要としない手法を提案する。 提案手法は,Recursive Cross-View (RCV) と呼ばれ,3次元の原理に基づいて3次元検出を複数の2次元検出タスクに変換する。 そこで我々は,Cross-Viewによるインスタンス分割と3次元境界ボックス生成を収束するまで再帰的に行う再帰的パラダイムを提案する。 具体的には、フラストラムは2D検出器を介して提案され、続いて完全な3Dボックス、クラス、スコアを出力する再帰パラダイムが提案される。 実世界のシナリオで新たなタスクに迅速に使用できることを正当化するために,屋内3d人間検出,全方向3dハンド検出,実3dセンサによるリアルタイム検出という3つの実験を行った。 RCVはこれらの実験で十分な性能を発揮する。 トレーニングを済ませば、3Dアノテーションツールとして見ることができます。 その結果、他の3D検出器の事前訓練に使用できるRCVに基づく2つの3Dラベル付きデータセット、すなわち「3D_HUMAN」と「D_HAND」を定式化した。 さらに,sun rgb-dベンチマークで推定した本手法は,全3次元教師付き学習手法と同等の性能を実現する。 RCVは3Dラベルを消費せず、ポイントクラウド上で完全な3Dボックスを生成する最初の3D検出方法である。

Heavily relying on 3D annotations limits the real-world application of 3D object detection. In this paper, we propose a method that does not demand any 3D annotation, while being able to predict full-oriented 3D bounding boxes. Our method, called Recursive Cross-View (RCV), transforms 3D detection into several 2D detection tasks, which only consume some 2D labels, based on the three-view principle. We propose a recursive paradigm, in which instance segmentation and 3D bounding box generation by Cross-View are implemented recursively until convergence. Specifically, a frustum is proposed via a 2D detector, followed by the recursive paradigm that finally outputs a full-oriented 3D box, class, and score. To justify that our method can be quickly used to new tasks in real-world scenarios, we do three experiments, namely indoor 3D human detection, full-oriented 3D hand detection, and real-time detection on a real 3D sensor. RCV achieves decent performance in these experiments. Once trained, our method can be viewed as a 3D annotation tool. Consequently, we formulate two 3D labeled dataset, namely '3D_HUMAN' and 'D_HAND', based on RCV, which could be used to pre-train other 3D detectors. Furthermore, estimated on the SUN RGB-D benchmark, our method achieves comparable performance with some full 3D supervised learning methods. RCV is the first 3D detection method that does not consume 3D labels and yields full-oriented 3D boxes on point clouds.
翻訳日:2022-11-15 18:35:39 公開日:2022-11-14
# few-shot metric learning: 検索のための埋め込みのオンライン適応

Few-shot Metric Learning: Online Adaptation of Embedding for Retrieval ( http://arxiv.org/abs/2211.07116v1 )

ライセンス: Link先を確認
Deunsol Jung, Dahyun Kang, Suha Kwak, and Minsu Cho(参考訳) メトリック学習は、類似のオブジェクトをその埋め込み空間内の近傍の点にマップする効果的な埋め込み関数を学習することによって、一般的に距離メトリックを構築することを目的としている。 近年のディープ・メトリック・ラーニングの進歩にもかかわらず、学習されたメートル法が大きな領域ギャップを持つ未確認クラスに一般化することは依然として困難である。 この問題に取り組むため,いくつかの注釈付きデータのみを用いて,埋め込み関数を対象領域に適応させることを目的とした,マイナショットメトリック学習の新たな問題を検討する。 本稿では,中間層のチャネルを調整することで,メトリック空間をオンラインで効果的に適応する,Channel-Rectifier Meta-Learning (CRML)を提案する。 miniImageNet, CUB-200-2011, MPII, および新しいデータセットである miniDeepFashion の実験的解析により, 対象クラスに適応することで学習基準を継続的に改善し, ソースクラスとのドメインギャップが大きくなると画像検索の精度が向上することを示した。

Metric learning aims to build a distance metric typically by learning an effective embedding function that maps similar objects into nearby points in its embedding space. Despite recent advances in deep metric learning, it remains challenging for the learned metric to generalize to unseen classes with a substantial domain gap. To tackle the issue, we explore a new problem of few-shot metric learning that aims to adapt the embedding function to the target domain with only a few annotated data. We introduce three few-shot metric learning baselines and propose the Channel-Rectifier Meta-Learning (CRML), which effectively adapts the metric space online by adjusting channels of intermediate layers. Experimental analyses on miniImageNet, CUB-200-2011, MPII, as well as a new dataset, miniDeepFashion, demonstrate that our method consistently improves the learned metric by adapting it to target classes and achieves a greater gain in image retrieval when the domain gap from the source classes is larger.
翻訳日:2022-11-15 18:35:09 公開日:2022-11-14
# ピクセル間コントラスト学習のための情報誘導型画素拡張

Information-guided pixel augmentation for pixel-wise contrastive learning ( http://arxiv.org/abs/2211.07118v1 )

ライセンス: Link先を確認
Quan Quan and Qingsong Yao and Jun Li and S.kevin Zhou(参考訳) コントラスト学習 (cl) は自己教師あり学習の一種であり、様々なタスクに広く使われている。 広く研究されているインスタンスレベルのコントラスト学習とは異なり、画素単位のコントラスト学習は主に医学的ランドマーク検出のようなピクセル単位のタスクに役立つ。 インスタンスレベルの CL のインスタンスに匹敵するものは、ピクセル単位の CL において、隣接するコンテキストと共にピクセルである。 より優れた特徴表現を構築するために、インスタンスレベルCLのインスタンス拡張戦略の設計には膨大な文献があるが、ピクセルワイドCLのピクセル粒度に関する同様の研究はほとんどない。 本稿では,このギャップを埋めようと試みる。 まず、画素に含まれる情報量に基づいて、画素を3つのカテゴリ、すなわち低、中、高インフォーマティブに分類する。 インフォミン」の原理に触発されて,各カテゴリーの増減強度とサンプリング比の観点で,個別の増補戦略を設計する。 広汎な実験により、我々の情報誘導画素増強戦略は、より差別的な表現を符号化し、教師なしの局所的特徴マッチングにおける他の競合的アプローチを上回ることに成功している。 さらに,事前学習モデルでは,単発モデルと全監督モデルの両方の性能が向上した。 最善の知識を得るために,我々は,教師なしの画素間コントラスト学習を強化するために,画素粒度を有する画素拡張法を最初に提案する。

Contrastive learning (CL) is a form of self-supervised learning and has been widely used for various tasks. Different from widely studied instance-level contrastive learning, pixel-wise contrastive learning mainly helps with pixel-wise tasks such as medical landmark detection. The counterpart to an instance in instance-level CL is a pixel, along with its neighboring context, in pixel-wise CL. Aiming to build better feature representation, there is a vast literature about designing instance augmentation strategies for instance-level CL; but there is little similar work on pixel augmentation for pixel-wise CL with a pixel granularity. In this paper, we attempt to bridge this gap. We first classify a pixel into three categories, namely low-, medium-, and high-informative, based on the information quantity the pixel contains. Inspired by the ``InfoMin" principle, we then design separate augmentation strategies for each category in terms of augmentation intensity and sampling ratio. Extensive experiments validate that our information-guided pixel augmentation strategy succeeds in encoding more discriminative representations and surpassing other competitive approaches in unsupervised local feature matching. Furthermore, our pretrained model improves the performance of both one-shot and fully supervised models. To the best of our knowledge, we are the first to propose a pixel augmentation method with a pixel granularity for enhancing unsupervised pixel-wise contrastive learning.
翻訳日:2022-11-15 18:34:50 公開日:2022-11-14
# ContextCLIP: CLIPビジュアル表現における画像テキストペアのコンテキストアライメント

ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations ( http://arxiv.org/abs/2211.07122v1 )

ライセンス: Link先を確認
Chanda Grover, Indra Deep Mastan, Debayan Gupta(参考訳) 最先端の実証研究は、ディープニューラルネットワークによって学習された視覚表現が本質的に堅牢であり、多様なデータセットで分類タスクを実行することができることを示した。 例えば、CLIPは画像とテキストの組込み空間における分類タスクのための複数のデータセットに対してゼロショット転送性能を示した。 しかし、標準データセット(例えばBirdsNAP、RESISC45、MNIST)では負の転送性能を示した。 本稿では,概念的キャプションのデータセット上で頑健な視覚表現を学習することにより,文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。 共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善する。 ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。 我々は,CIFAR-10,CIFAR-100,Birdsnap,RESISC45,MNISTデータセットを用いて,ゼロショット転送および微調整実験により定量的に評価した。

State-of-the-art empirical work has shown that visual representations learned by deep neural networks are robust in nature and capable of performing classification tasks on diverse datasets. For example, CLIP demonstrated zero-shot transfer performance on multiple datasets for classification tasks in a joint embedding space of image and text pairs. However, it showed negative transfer performance on standard datasets, e.g., BirdsNAP, RESISC45, and MNIST. In this paper, we propose ContextCLIP, a contextual and contrastive learning framework for the contextual alignment of image-text pairs by learning robust visual representations on Conceptual Captions dataset. Our framework was observed to improve the image-text alignment by aligning text and image representations contextually in the joint embedding space. ContextCLIP showed good qualitative performance for text-to-image retrieval tasks and enhanced classification accuracy. We evaluated our model quantitatively with zero-shot transfer and fine-tuning experiments on CIFAR-10, CIFAR-100, Birdsnap, RESISC45, and MNIST datasets for classification task.
翻訳日:2022-11-15 18:34:25 公開日:2022-11-14
# メタラーニングによる単一画像デハジングの実領域一般化に向けて

Towards Generalization on Real Domain for Single Image Dehazing via Meta-Learning ( http://arxiv.org/abs/2211.07147v1 )

ライセンス: Link先を確認
Wenqi Ren, Qiyu Sun, Chaoqiang Zhao, Yang Tang(参考訳) 学習に基づくイメージデハージング手法は、信頼性を高める自律システムを支援するために不可欠である。 合成領域と実領域の間の領域ギャップのため、合成画像から得られる内部情報は、通常実領域では最適ではないため、デハビリゼーションモデルの性能低下に繋がる。 未認識のいくつかのサンプルから内部情報を探索する能力によって、メタラーニングは、ハイパーパラメータに敏感で時間のかかるテスト時間トレーニングを通じてこの問題に対処するために一般的に採用されている。 対照的に,本論文では,メタラーニングに基づくドメイン一般化フレームワークを提案し,テスト時間トレーニングを行わずに,実hazyドメインの代表的および識別的内部特性を探索する。 代表的なドメイン固有情報を得るために,適応型ネットワークと距離認識型アグリゲータという2つのエンティティをデヘイジングネットワークに付加する。 適応ネットワークは、いくつかのヘージーなサンプルからドメイン関連情報を蒸留し、それらを特徴のコレクションにキャッシュするのを支援する。 距離対応アグリゲータは、生成された特徴を要約し、より代表的な内部特性のために誤解を招く情報をフィルタリングする。 蒸留した内部情報の識別を強化するために,同一領域から生成する内部特徴をより類似させ,多種多様な領域から生成する内部特徴をより異なるものにする,ドメイン関連コントラスト正規化と呼ばれる新しい損失関数を提案する。 生成された代表的特徴と識別的特徴は、特定のドメインに対して特定の強力な関数を回帰するために、デハジングネットワークの外部変数と見なされる。 RTTS や URHI などの実効性のあるデータセットに関する広範な実験により,提案手法が最先端の競合相手よりも優れた一般化能力を有することを確認した。

Learning-based image dehazing methods are essential to assist autonomous systems in enhancing reliability. Due to the domain gap between synthetic and real domains, the internal information learned from synthesized images is usually sub-optimal in real domains, leading to severe performance drop of dehaizing models. Driven by the ability on exploring internal information from a few unseen-domain samples, meta-learning is commonly adopted to address this issue via test-time training, which is hyperparameter-sensitive and time-consuming. In contrast, we present a domain generalization framework based on meta-learning to dig out representative and discriminative internal properties of real hazy domains without test-time training. To obtain representative domain-specific information, we attach two entities termed adaptation network and distance-aware aggregator to our dehazing network. The adaptation network assists in distilling domain-relevant information from a few hazy samples and caching it into a collection of features. The distance-aware aggregator strives to summarize the generated features and filter out misleading information for more representative internal properties. To enhance the discrimination of distilled internal information, we present a novel loss function called domain-relevant contrastive regularization, which encourages the internal features generated from the same domain more similar and that from diverse domains more distinct. The generated representative and discriminative features are regarded as some external variables of our dehazing network to regress a particular and powerful function for a given domain. The extensive experiments on real hazy datasets, such as RTTS and URHI, validate that our proposed method has superior generalization ability than the state-of-the-art competitors.
翻訳日:2022-11-15 18:34:07 公開日:2022-11-14
# ParCNetV2: 注意力を強化した大容量カーネル

ParCNetV2: Oversized Kernel with Enhanced Attention ( http://arxiv.org/abs/2211.07157v1 )

ライセンス: Link先を確認
Ruihan Xu, Haokui Zhang, Wenze Hu, Shiliang Zhang, Xiaoyu Wang(参考訳) トランスフォーマーは様々なコンピュータビジョンタスクで大きな成功を収めた。 トランスフォーマーの設計概念を借用することで、多くの研究がcnnに革命をもたらし、驚くべき結果をもたらした。 この論文は、この一連の研究に当てはまる。 より具体的には、畳み込みニューラルネットワークアーキテクチャparcnetv2を導入する。これは、過剰な畳み込みを伴う位置認識円畳み込み(parcnet)を拡張し、分岐ゲートユニットを介して注意を強化する。 オーバーサイズの畳み込みは、2\times$の入力サイズを持つカーネルを使用して、グローバルレセプティブフィールドを介して長距離依存関係をモデル化する。 同時に、畳み込みカーネルからシフト不変性を取り除くことにより暗黙的位置符号化を実現する。すなわち、異なる空間位置における有効カーネルは、カーネルサイズが入力サイズの2倍である場合に異なる。 分岐ゲートユニットは、変圧器の自己着脱に類似した注意機構を実装している。 入力を2つのブランチに分割し、1つは機能変換、もう1つは注意重みとして機能する。 注意は2つの枝の要素ワイド乗算を通じて適用される。 さらに,初期および後期の畳み込みブロックの設計を統一するために,局所的グローバル畳み込みブロックを導入する。 広範な実験により,本手法がcnnとトランスフォーマーをハイブリッド化したニューラルネットワークと同様に,他の純粋畳み込みニューラルネットワークよりも優れていることが証明された。

Transformers have achieved tremendous success in various computer vision tasks. By borrowing design concepts from transformers, many studies revolutionized CNNs and showed remarkable results. This paper falls in this line of studies. More specifically, we introduce a convolutional neural network architecture named ParCNetV2, which extends position-aware circular convolution (ParCNet) with oversized convolutions and strengthens attention through bifurcate gate units. The oversized convolution utilizes a kernel with $2\times$ the input size to model long-range dependencies through a global receptive field. Simultaneously, it achieves implicit positional encoding by removing the shift-invariant property from convolutional kernels, i.e., the effective kernels at different spatial locations are different when the kernel size is twice as large as the input size. The bifurcate gate unit implements an attention mechanism similar to self-attention in transformers. It splits the input into two branches, one serves as feature transformation while the other serves as attention weights. The attention is applied through element-wise multiplication of the two branches. Besides, we introduce a unified local-global convolution block to unify the design of the early and late stage convolutional blocks. Extensive experiments demonstrate that our method outperforms other pure convolutional neural networks as well as neural networks hybridizing CNNs and transformers.
翻訳日:2022-11-15 18:33:37 公開日:2022-11-14
# モノクロ3次元物体検出のためのクロスモダリティ知識蒸留ネットワーク

Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection ( http://arxiv.org/abs/2211.07171v1 )

ライセンス: Link先を確認
Yu Hong, Hang Dai and Yong Ding(参考訳) LiDARをベースとした検出器や実際のLiDAR点データをモノクル3D検出のガイドに利用することで、例えばPseudo-LiDAR法のような大幅な改善が行われた。 しかし、既存の手法は通常、非エンドツーエンドのトレーニング戦略を適用し、LiDARデータのリッチなポテンシャルが十分に活用されていないLiDAR情報を不十分に活用する。 本稿では,lidarモダリティから画像モダリティへ,特徴と応答の両方を効率的に直接伝達するために,単眼3次元検出のためのクロスモダリティ知識蒸留(cmkd)ネットワークを提案する。 さらに,大規模未ラベルデータから知識を抽出することにより,半教師付きトレーニングフレームワークとしてのCMKDをさらに拡張し,性能を大幅に向上させる。 提出まで、CMKDはKITTI$test$setとWaymo$val$setの両方で発行されたモノクロ3D検出器の中で、従来の最先端の方法と比較して大幅にパフォーマンスが向上した。

Leveraging LiDAR-based detectors or real LiDAR point data to guide monocular 3D detection has brought significant improvement, e.g., Pseudo-LiDAR methods. However, the existing methods usually apply non-end-to-end training strategies and insufficiently leverage the LiDAR information, where the rich potential of the LiDAR data has not been well exploited. In this paper, we propose the Cross-Modality Knowledge Distillation (CMKD) network for monocular 3D detection to efficiently and directly transfer the knowledge from LiDAR modality to image modality on both features and responses. Moreover, we further extend CMKD as a semi-supervised training framework by distilling knowledge from large-scale unlabeled data and significantly boost the performance. Until submission, CMKD ranks $1^{st}$ among the monocular 3D detectors with publications on both KITTI $test$ set and Waymo $val$ set with significant performance gains compared to previous state-of-the-art methods.
翻訳日:2022-11-15 18:33:14 公開日:2022-11-14
# SportsTrack:スポーツシーンにおける選手追跡の革新的手法

SportsTrack: An Innovative Method for Tracking Athletes in Sports Scenes ( http://arxiv.org/abs/2211.07173v1 )

ライセンス: Link先を確認
Jie Wang, Yuzhou Peng, Xiaodong Yang, Ting Wang, Yanming Zhang(参考訳) SportsMOTコンペティションは、バスケットボールやサッカーなど、さまざまなスポーツシーンのアスリートの複数のオブジェクト追跡を解決することを目的としている。 競技は、不安定なカメラビュー、アスリートの複雑な軌道、複雑な背景のために難しい。 これまでのmotの方法は、アスリートの質の高いトラックにはマッチしない。 スポーツシーンにおけるMOTの性能向上を図るため,SportsTrackと呼ばれる革新的なトラッカーを導入し,検出によるトラッキングを検出パラダイムとして活用する。 次に,スポーツシーンにおける動作のぼやけと身体重なりを解消する3段階マッチング手法を提案する。 一方,スポーツ競技における競技者の身体の重なりに対処するため,検出ボックスと混み合ったトラックの1対多対応が提案されている。 BOT-SORTやByteTrackのような他のトラッカーと比較して、他のトラッカーから無視されたエッジロストトラックを慎重に復元した。 最後に、ECCV 2022 DeepAction SportsMOTコンペティションで、上位1位(76.264 HOTA)に達した。

The SportsMOT competition aims to solve multiple object tracking of athletes in different sports scenes such as basketball or soccer. The competition is challenging because of the unstable camera view, athletes' complex trajectory, and complicated background. Previous MOT methods can not match enough high-quality tracks of athletes. To pursue higher performance of MOT in sports scenes, we introduce an innovative tracker named SportsTrack, we utilize tracking by detection as our detection paradigm. Then we will introduce a three-stage matching process to solve the motion blur and body overlapping in sports scenes. Meanwhile, we present another innovation point: one-to-many correspondence between detection bboxes and crowded tracks to handle the overlap of athletes' bodies during sports competitions. Compared to other trackers such as BOT-SORT and ByteTrack, We carefully restored edge-lost tracks that were ignored by other trackers. Finally, we reached the top 1 tracking score (76.264 HOTA) in the ECCV 2022 DeepAction SportsMOT competition.
翻訳日:2022-11-15 18:32:56 公開日:2022-11-14
# 非リジッド構造を用いた制御可能なGAN合成

Controllable GAN Synthesis Using Non-Rigid Structure-from-Motion ( http://arxiv.org/abs/2211.07195v1 )

ライセンス: Link先を確認
Ren\'e Haas, Stella Gra{\ss}hof, Sami S. Brandt(参考訳) 本稿では,NRSfMと深部生成モデルを組み合わせる手法を提案する。また,3次元形状の変化に対応する2次元GANの潜時空間における軌道探索のための効率的な枠組みを提案する。 提案手法はnrsfmの最近の進歩を活かし、ジェネレータをリトレーニングすることなく、潜在コードに関連するカメラおよび非剛体形状情報の編集を可能にする。 この定式化は、任意の視角と非剛体構造から新しい形状のイメージ合成を可能にするため、暗黙的な3次元再構成を提供する。 この方法はスパースバックボーン上に構築され、まず神経回帰器がカメラを記述するパラメータを回帰させ、潜伏するコードから直接スパース非剛体構造を分離するように訓練される。 次に、カメラと構造パラメータの変化に関連する潜時軌跡を、所定の潜時符号の近傍で回帰器の局所反転を推定することにより同定する。 実験により, 顔の形状や非剛体構造をモデル化, 解析, 編集するための汎用的, 体系的な方法が得られた。

In this paper, we present an approach for combining non-rigid structure-from-motion (NRSfM) with deep generative models,and propose an efficient framework for discovering trajectories in the latent space of 2D GANs corresponding to changes in 3D geometry. Our approach uses recent advances in NRSfM and enables editing of the camera and non-rigid shape information associated with the latent codes without needing to retrain the generator. This formulation provides an implicit dense 3D reconstruction as it enables the image synthesis of novel shapes from arbitrary view angles and non-rigid structure. The method is built upon a sparse backbone, where a neural regressor is first trained to regress parameters describing the cameras and sparse non-rigid structure directly from the latent codes. The latent trajectories associated with changes in the camera and structure parameters are then identified by estimating the local inverse of the regressor in the neighborhood of a given latent code. The experiments show that our approach provides a versatile, systematic way to model, analyze, and edit the geometry and non-rigid structures of faces.
翻訳日:2022-11-15 18:32:38 公開日:2022-11-14
# CabViT:Vision Transformerのブロック間のクロスアテンション

CabViT: Cross Attention among Blocks for Vision Transformer ( http://arxiv.org/abs/2211.07198v1 )

ライセンス: Link先を確認
Haokui Zhang, Wenze Hu, Xiaoyu Wang(参考訳) 視覚トランスフォーマー (vit) は画像分類において素晴らしい性能を発揮したため、より効率的な視覚トランスフォーマーの設計に注目する研究者が増えている。 一般研究ラインでは,注意の疎化や局所注意窓の利用により,自己注意モジュールの計算コストを削減している。 これとは対照的に,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。 具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。 提案したCabViTは、潜在的に異なるセマンティクスを持つブロック間のトークン間の相互作用を強化し、より低いレベルへの情報フローを促進する。 提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。 例えば、トレーニングの強化に知識蒸留を必要とせず、カビットは16.3百万のパラメータと約3.9gのフロップを持つimagenetで83.0%のtop-1精度を達成し、ほぼ半分のパラメータと13%の計算コストを節約し、convnextよりも0.1%高い精度を得られる一方で、52%のパラメータを使用するが、蒸留効率向上機に比べて0.6%の精度を得られる。

Since the vision transformer (ViT) has achieved impressive performance in image classification, an increasing number of researchers pay their attentions to designing more efficient vision transformer models. A general research line is reducing computational cost of self attention modules by adopting sparse attention or using local attention windows. In contrast, we propose to design high performance transformer based architectures by densifying the attention pattern. Specifically, we propose cross attention among blocks of ViT (CabViT), which uses tokens from previous blocks in the same stage as extra input to the multi-head attention of transformers. The proposed CabViT enhances the interactions of tokens across blocks with potentially different semantics, and encourages more information flows to the lower levels, which together improves model performance and model convergence with limited extra cost. Based on the proposed CabViT, we design a series of CabViT models which achieve the best trade-off between model size, computational cost and accuracy. For instance without the need of knowledge distillation to strength the training, CabViT achieves 83.0% top-1 accuracy on Imagenet with only 16.3 million parameters and about 3.9G FLOPs, saving almost half parameters and 13% computational cost while gaining 0.9% higher accuracy compared with ConvNext, use 52% of parameters but gaining 0.6% accuracy compared with distilled EfficientFormer
翻訳日:2022-11-15 18:32:18 公開日:2022-11-14
# IFQA: 顔の品質評価

IFQA: Interpretable Face Quality Assessment ( http://arxiv.org/abs/2211.07077v1 )

ライセンス: Link先を確認
Byungho Jo and Donghyeon Cho and In Kyu Park and Sungeun Hong(参考訳) 既存の顔復元モデルは、顔領域の特徴を考慮しない一般的な評価指標に依存している。 それゆえ、最近の研究は、スケーラブルではなく、かなりの労力を要する人間研究を用いてその手法を評価している。 本稿では, 顔の復元を模擬し, 識別器が画質を評価する, 対向的な枠組みに基づく新しい顔中心距離法を提案する。 具体的には、従来のメトリクスでは提供できない解釈可能な評価を可能にする。 さらに, 眼, 鼻, 口の微妙な変化が人間の認知に有意な影響を及ぼすことを考慮し, 顔面一次領域に着目した。 我々の顔指向測定基準は、既存の一般または顔画像品質評価基準を印象的なマージンで一貫して上回っている。 提案手法は,様々なアーキテクチャ設計と課題シナリオにおいて汎用性を示す。 興味深いことに、IFQAは客観的な機能として性能改善につながる可能性がある。 コードとモデルは \url{https://github.com/vcllab/ifqa} で入手できる。

Existing face restoration models have relied on general assessment metrics that do not consider the characteristics of facial regions. Recent works have therefore assessed their methods using human studies, which is not scalable and involves significant effort. This paper proposes a novel face-centric metric based on an adversarial framework where a generator simulates face restoration and a discriminator assesses image quality. Specifically, our per-pixel discriminator enables interpretable evaluation that cannot be provided by traditional metrics. Moreover, our metric emphasizes facial primary regions considering that even minor changes to the eyes, nose, and mouth significantly affect human cognition. Our face-oriented metric consistently surpasses existing general or facial image quality assessment metrics by impressive margins. We demonstrate the generalizability of the proposed strategy in various architectural designs and challenging scenarios. Interestingly, we find that our IFQA can lead to performance improvement as an objective function. The code and models are available at \url{https://github.com/VCLLab/IFQA}.
翻訳日:2022-11-15 18:24:03 公開日:2022-11-14
# ポイントクラウドのための潜在部分ホール階層の学習

Learning Latent Part-Whole Hierarchies for Point Clouds ( http://arxiv.org/abs/2211.07082v1 )

ライセンス: Link先を確認
Xiang Gao, Wei Hu, Renjie Liao(参考訳) 強力な証拠は、視覚シーンとオブジェクトを部分階層に解析することで、人間が3d世界を知覚することを示唆している。 ディープニューラルネットワークは強力なマルチレベル表現を学習する能力を持っているが、ポイントクラウドのような3Dビジョンデータを処理する際の表現性と解釈性を制限する部分全体階層を明示的にモデル化することはできない。 そこで本研究では,マルチレベルクラウドセグメンテーションのための部分階層を明示的に学習するエンコーダ-デコーダスタイルの潜在変数モデルを提案する。 具体的には、エンコーダはポイントクラウドを入力として、中間レベルでのポイント毎の潜在部分分布を予測する。 デコーダは、エンコーダから潜在変数と特徴を入力として、トップレベルでポイント毎の部品分布を予測する。 トレーニング中、トップレベルのアノテートされた部分ラベルのみが提供され、フレームワーク全体が弱く監督される。 我々は、最も確率の大きいモンテカルロ法と、離散潜在変数(ストレートスルー、REINFORCE、パスワイズ推定器)を学習するための3つの確率勾配推定法という2種類の近似推論アルゴリズムを探索する。 実験の結果,本手法はトップレベル部分のセグメンテーションだけでなく,中レベル潜在部分のセグメンテーションにおいても最先端の性能を実現することがわかった。

Strong evidence suggests that humans perceive the 3D world by parsing visual scenes and objects into part-whole hierarchies. Although deep neural networks have the capability of learning powerful multi-level representations, they can not explicitly model part-whole hierarchies, which limits their expressiveness and interpretability in processing 3D vision data such as point clouds. To this end, we propose an encoder-decoder style latent variable model that explicitly learns the part-whole hierarchies for the multi-level point cloud segmentation. Specifically, the encoder takes a point cloud as input and predicts the per-point latent subpart distribution at the middle level. The decoder takes the latent variable and the feature from the encoder as an input and predicts the per-point part distribution at the top level. During training, only annotated part labels at the top level are provided, thus making the whole framework weakly supervised. We explore two kinds of approximated inference algorithms, i.e., most-probable-latent and Monte Carlo methods, and three stochastic gradient estimations for learning discrete latent variables, i.e., straight-through, REINFORCE, and pathwise estimators. Experimental results on the PartNet dataset show that the proposed method achieves state-of-the-art performance in not only top-level part segmentation but also middle-level latent subpart segmentation.
翻訳日:2022-11-15 18:23:48 公開日:2022-11-14
# セミサンプリングによる半スーパービジョン3次元物体検出

Boosting Semi-Supervised 3D Object Detection with Semi-Sampling ( http://arxiv.org/abs/2211.07084v1 )

ライセンス: Link先を確認
Xiaopei Wu, Yang Zhao, Liang Peng, Hua Chen, Xiaoshui Huang, Binbin Lin, Haifeng Liu, Deng Cai, Wanli Ouyang(参考訳) 現在の3Dオブジェクト検出方法は大量のアノテーションに大きく依存しています。 半教師付き学習はこの問題を軽減するために使用できる。 従来の半教師付き3Dオブジェクト検出手法は,ラベル付きおよびラベルなしデータを拡張するための完全教師付き手法を直接従う。 本稿では,セミサンプリングと呼ばれる半教師付き学習のためのデータ拡張手法を設計する。 具体的には,グラウンドの真理ラベルと擬似ラベルを用いて,ラベル付きフレーム上のgtサンプルと擬似サンプルを抽出する。 そして、gtサンプルデータベースと擬似サンプルデータベースを生成します。 教師が指導する半教師付きフレームワークを訓練する際、ラベル付きフレームとラベルなしフレームの両方にgtサンプルと擬似サンプルをランダムに選択し、強力なデータ拡張を行う。 セミサンプリングは、gtサンプリングの半教師付き学習への拡張と見なすことができる。 我々の方法は単純だが効果的だ。 我々は、ScanNet、SUN-RGBD、KITTIベンチマークにおける最先端の手法を大きなマージンで継続的に改善する。 例えば、ScanNet上のラベル付きデータのみを使用したトレーニングでは、3DIoUMatchで3.1mAPと6.4mAPの改善をmAP@0.25とmAP@0.5で達成しています。 KITTIのラベル付きデータでトレーニングする場合、車、歩行者、自転車の授業で3DIoUMatchを3.5mAP、6.7mAP、14.1mAPで強化する。 コードはhttps://github.com/LittlePey/Semi-Sampling.comで公開される。

Current 3D object detection methods heavily rely on an enormous amount of annotations. Semi-supervised learning can be used to alleviate this issue. Previous semi-supervised 3D object detection methods directly follow the practice of fully-supervised methods to augment labeled and unlabeled data, which is sub-optimal. In this paper, we design a data augmentation method for semi-supervised learning, which we call Semi-Sampling. Specifically, we use ground truth labels and pseudo labels to crop gt samples and pseudo samples on labeled frames and unlabeled frames, respectively. Then we can generate a gt sample database and a pseudo sample database. When training a teacher-student semi-supervised framework, we randomly select gt samples and pseudo samples to both labeled frames and unlabeled frames, making a strong data augmentation for them. Our semi-sampling can be regarded as an extension of gt-sampling to semi-supervised learning. Our method is simple but effective. We consistently improve state-of-the-art methods on ScanNet, SUN-RGBD, and KITTI benchmarks by large margins. For example, when training using only 10% labeled data on ScanNet, we achieve 3.1 mAP and 6.4 mAP improvement upon 3DIoUMatch in terms of mAP@0.25 and mAP@0.5. When training using only 1% labeled data on KITTI, we boost 3DIoUMatch by 3.5 mAP, 6.7 mAP and 14.1 mAP on car, pedestrian and cyclist classes. Codes will be made publicly available at https://github.com/LittlePey/Semi-Sampling.
翻訳日:2022-11-15 18:23:26 公開日:2022-11-14
# ダブルブラインドレビュー: 深層学習による著者の貢献

Cracking Double-Blind Review: Authorship Attribution with Deep Learning ( http://arxiv.org/abs/2211.07467v1 )

ライセンス: Link先を確認
Leonard Bauersfeld and Angel Romero and Manasi Muglikar and Davide Scaramuzza(参考訳) 二重盲検ピアレビューは、公平で偏りのない、事実中心の科学的な議論を確実にするため、学術研究の柱と考えられている。 しかし、経験豊富な研究者たちは、どの研究グループが匿名で提出したのかを正確に推測することができ、ピアレビュープロセスに偏っている。 本研究では,著者に匿名の原稿を配布するために,書誌中のテキストコンテンツと著者名のみを使用するトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。 提案手法を訓練し,評価するために,これまでで最大の著者識別データセットを作成した。 arXivで公開されているすべての研究論文を活用し、200万冊以上の原稿を公開している。 最大2000人の著者によるarXiv-subsetでは、論文の95%が正しく属性付けされている前例のない著者帰属精度を達成する。 この手法により,匿名の著作物の著者を予測できるだけでなく,論文を帰属させる重要な側面を見つけることで,二重盲検プロセスの弱点を識別できる。 この研究は、偏りのない二重盲検プロセスをサポートするために、提出者が匿名のままでいられる方法に関する貴重な洞察を与えると信じています。

Double-blind peer review is considered a pillar of academic research because it is perceived to ensure a fair, unbiased, and fact-centered scientific discussion. Yet, experienced researchers can often correctly guess from which research group an anonymous submission originates, biasing the peer-review process. In this work, we present a transformer-based, neural-network architecture that only uses the text content and the author names in the bibliography to atttribute an anonymous manuscript to an author. To train and evaluate our method, we created the largest authorship-identification dataset to date. It leverages all research papers publicly available on arXiv amounting to over 2 million manuscripts. In arXiv-subsets with up to 2,000 different authors, our method achieves an unprecedented authorship attribution accuracy, where up to 95% of papers are attributed correctly. Thanks to our method, we are not only able to predict the author of an anonymous work but we also identify weaknesses of the double-blind review process by finding the key aspects that make a paper attributable. We believe that this work gives precious insights into how a submission can remain anonymous in order to support an unbiased double-blind review process.
翻訳日:2022-11-15 17:50:08 公開日:2022-11-14
# CST5: コード変換セマンティックパースのためのデータ拡張

CST5: Data Augmentation for Code-Switched Semantic Parsing ( http://arxiv.org/abs/2211.07514v1 )

ライセンス: Link先を確認
Anmol Agarwal, Jigar Gupta, Rahul Goel, Shyam Upadhyay, Pankaj Joshi, Rengarajan Aravamudhan(参考訳) コード変更入力へのセマンティックパーサの拡張は、主に教師付きトレーニングデータがないため、難しい問題であった。 本研究では,小さなシードセット($100発話)を用いてT5モデルを微調整し,英語の発話からコード切替音声を生成する新しいデータ拡張手法であるCST5を紹介する。 CST5は、データ拡張なしで訓練されたベースラインモデルと、強化されたデータで訓練されたモデルを比較して、本質的な(人間による評価による)高品質なコード切替データを生成する。 CST5を使用することで、最大20倍のラベル付きデータを使用することで、同じセマンティック解析性能を実現することができる。 この分野のさらなる研究を支援するため、我々はまたリリースする。 (a)hinglish-topは、これまでで最大の人間の注釈付きコードスイッチ付きセマンティックパースデータセットで、10k人のアノテーション付きヒンディー語(ヒンディー語)コードスイッチ付き発話を含む。 (b)170万以上のCST5がTOPv2データセットからコード変更された発話を生成した。 人間による評価は、人間の注釈付きデータとCST5生成データの両方が良質であることを示している。

Extending semantic parsers to code-switched input has been a challenging problem, primarily due to a lack of supervised training data. In this work, we introduce CST5, a new data augmentation technique that finetunes a T5 model using a small seed set ($\approx$100 utterances) to generate code-switched utterances from English utterances. We show that CST5 generates high quality code-switched data, both intrinsically (per human evaluation) and extrinsically by comparing baseline models which are trained without data augmentation to models which are trained with augmented data. Empirically we observe that using CST5, one can achieve the same semantic parsing performance by using up to 20x less labeled data. To aid further research in this area, we are also releasing (a) Hinglish-TOP, the largest human annotated code-switched semantic parsing dataset to date, containing 10k human annotated Hindi-English (Hinglish) code-switched utterances, and (b) Over 170K CST5 generated code-switched utterances from the TOPv2 dataset. Human evaluation shows that both the human annotated data as well as the CST5 generated data is of good quality.
翻訳日:2022-11-15 17:49:47 公開日:2022-11-14
# なぜ鶏は道路を渡ったのか? VQAにおける曖昧な質問の言い直しと分析

Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA ( http://arxiv.org/abs/2211.07516v1 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Jimena Guallar-Blasco, Yi Zhou, Benjamin Van Durme(参考訳) 質問のあいまいさを解決することが、答える上で鍵となる。 画像に関する質問に焦点をあてて、あいまいな例のデータセットを作成し、これらの例を注釈し、それらが対処する基礎的な質問によって回答をグループ化し、各グループに対する質問を言い換え、あいまいさを減らす。 分析の結果,視覚質問におけるあいまいな理由の言語的に整合したオントロジーが明らかになった。 そして、自動的および人的評価により、よりあいまいな質問を生成する英語の質問生成モデルを開発する。 さらに,本モデルを用いた質問生成の目的により,直接の監督なしに回答グループ情報を統合できることを示す。

Resolving ambiguities in questions is key to successfully answering them. Focusing on questions about images, we create a dataset of ambiguous examples; we annotate these examples, grouping the answers by the underlying question they address and rephrasing the question for each group to reduce ambiguity. An analysis of our data reveals a linguistically-aligned ontology of reasons for ambiguity in visual questions. We then develop an English question-generation model which we demonstrate via automatic and human evaluation produces less ambiguous questions. We further show that the question generation objective we use allows the model to integrate answer group information without any direct supervision.
翻訳日:2022-11-15 17:49:26 公開日:2022-11-14
# 多言語・コード混合質問に対する学習

Learning to Answer Multilingual and Code-Mixed Questions ( http://arxiv.org/abs/2211.07522v1 )

ライセンス: Link先を確認
Deepak Gupta(参考訳) 質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。 ウェブと対話するための最も便利で自然な方法の1つとして現れており、特に音声制御環境では望ましい。 もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。 マルチランガルエンドユーザーにサービスを提供する人工インテリジェント(AI)エージェントを構築するには,多言語環境に適した言語を多用するQAシステムが必要である。 近年のQAモデルの進歩は、主に大量の高品質データセットが利用可能であることから、人的パフォーマンスを上回ることが可能になっている。 しかし、これらの注釈付きデータセットの大部分は作成に費用がかかり、英語のみに限られており、外国語の進歩を認めることは困難である。 したがって、多言語QAシステムにおける同様の改善を測定するためには、高品質な多言語評価ベンチマークに投資する必要がある。 本稿では,多言語環境におけるエンドユーザクエリ処理におけるQA手法の進歩に着目した。 この論文は2部構成である。 第1部では、多言語主義と、コード混合と呼ばれる新しい多言語主義を探求する。 次に,複数の文書を活用し,マルチホップ質問生成の課題を解決する手法を提案する。 実験により, MQA, VQA, 言語生成の複数の領域において, 回答抽出, ランキング, 生成タスクにおける最先端のパフォーマンスが得られた。 提案手法は汎用的であり、様々なドメインや言語でQAシステムの進歩に広く利用することができる。

Question-answering (QA) that comes naturally to humans is a critical component in seamless human-computer interaction. It has emerged as one of the most convenient and natural methods to interact with the web and is especially desirable in voice-controlled environments. Despite being one of the oldest research areas, the current QA system faces the critical challenge of handling multilingual queries. To build an Artificial Intelligent (AI) agent that can serve multilingual end users, a QA system is required to be language versatile and tailored to suit the multilingual environment. Recent advances in QA models have enabled surpassing human performance primarily due to the availability of a sizable amount of high-quality datasets. However, the majority of such annotated datasets are expensive to create and are only confined to the English language, making it challenging to acknowledge progress in foreign languages. Therefore, to measure a similar improvement in the multilingual QA system, it is necessary to invest in high-quality multilingual evaluation benchmarks. In this dissertation, we focus on advancing QA techniques for handling end-user queries in multilingual environments. This dissertation consists of two parts. In the first part, we explore multilingualism and a new dimension of multilingualism referred to as code-mixing. Second, we propose a technique to solve the task of multi-hop question generation by exploiting multiple documents. Experiments show our models achieve state-of-the-art performance on answer extraction, ranking, and generation tasks on multiple domains of MQA, VQA, and language generation. The proposed techniques are generic and can be widely used in various domains and languages to advance QA systems.
翻訳日:2022-11-15 17:49:14 公開日:2022-11-14
# 低資源調査における高資源方法論バイアス

High-Resource Methodological Bias in Low-Resource Investigations ( http://arxiv.org/abs/2211.07534v1 )

ライセンス: Link先を確認
Maartje ter Hoeve, David Grangier, Natalie Schluter(参考訳) 低リソースNLPにおける中心的なボトルネックは、典型的には、データ品質の寄与を見越して、アクセス可能なデータの量であると考えられている。 これは特に、高リソース言語データのダウンサンプリングによる低リソースシステムの開発と評価で見られる。 本研究では,本手法の有効性について検討し,POSタグ付けと機械翻訳の2つのNLPタスクに着目した。 高いリソース言語からのサンプリングは、低リソースのデータセットとは異なる特性を持つデータセットとなり、posタグと機械翻訳の両方のモデル性能に影響を及ぼす。 これらの結果に基づき、データセットのサンプリングをナビブダウンすることで、低リソースシナリオにおいてこれらのシステムがいかにうまく機能するかのバイアス付きビューが得られると結論づけた。

The central bottleneck for low-resource NLP is typically regarded to be the quantity of accessible data, overlooking the contribution of data quality. This is particularly seen in the development and evaluation of low-resource systems via down sampling of high-resource language data. In this work we investigate the validity of this approach, and we specifically focus on two well-known NLP tasks for our empirical investigations: POS-tagging and machine translation. We show that down sampling from a high-resource language results in datasets with different properties than the low-resource datasets, impacting the model performance for both POS-tagging and machine translation. Based on these results we conclude that naive down sampling of datasets results in a biased view of how well these systems work in a low-resource scenario.
翻訳日:2022-11-15 17:48:52 公開日:2022-11-14
# 想像力は それだけだ! 長期対話計画における抽象シーケンスモデリングのための曲線コントラスト学習

Imagination is All You Need! Curved Contrastive Learning for Abstract Sequence Modeling Utilized on Long Short-Term Dialogue Planning ( http://arxiv.org/abs/2211.07591v1 )

ライセンス: Link先を確認
Justus-Jonas Erker, Gerasimos Spanakis, Stefan Schaffer(参考訳) コントラスト学習文埋め込みによる多段対話の包含性に動機づけられ,コサイン類似性を用いて比較可能な意味的有意味・会話的グラフ曲面発話埋め込みを生成する新しい手法であるcurved contrastive learning (ccl) を提案する。 得られたバイエンコーダモデルは、目標発話と対応する応答候補を潜在空間に投影することにより、応答ランキングモデルとしてのトランスフォーマーをゼロショット方式で目標に向かって導くことができる。 ここでコサイン類似性は、我々が曲線空間として定義する対応する目標に向かって、候補発話の距離/到達可能性を示す。 さらに,これらの前処理言語表現を用いて,各部材のコサイン類似性(個別に符号化された)を曲線空間の創発的特性として,エンテーメント強度によってシーケンスの可能性を評価する方法について検討する。 これにより、対話における将来のパターンの可能性、特に対話コンテキストを前提として、複数の方向転換された将来の目標発話を注文/識別することで、想像することができる。 分析の一環として,毎日の会話データから,会話を(計画不能)にし,複数のターン(3ターン61.56\%)にわたる計画能力の強い証拠を見つける特徴について検討した。 最後に、曲線特性を利用して100万発話とコンテキストペアをランク付けする方法を示す。gpuの計算時間はdialogrptより700万倍高速だが、平均2ターンよりも長いシーケンスでは2.8\%上回っている。

Motivated by the entailment property of multi-turn dialogues through contrastive learning sentence embeddings, we introduce a novel technique, Curved Contrastive Learning (CCL), for generating semantically meaningful and conversational graph curved utterance embeddings that can be compared using cosine similarity. The resulting bi-encoder models can guide transformers as a response ranking model towards a goal in a zero-shot fashion by projecting the goal utterance and the corresponding reply candidates into a latent space. Here the cosine similarity indicates the distance/reachability of a candidate utterance towards the corresponding goal which we define as curved space. Furthermore, we explore how these forward-entailing language representations can be utilized for assessing the likelihood of sequences by the entailment strength i.e. through the cosine similarity of its individual members (encoded separately) as an emergent property in the curved space. This allows us to imagine the likelihood of future patterns in dialogues, specifically by ordering/identifying future goal utterances that are multiple turns away, given a dialogue context. As part of our analysis, we investigate characteristics that make conversations (un)plannable and find strong evidence of planning capability over multiple turns (in 61.56\% over 3 turns) in conversations from the DailyDialog dataset. Finally, we will show how we can exploit the curved property to rank one million utterance & context pairs, in terms of GPU computation time over 7 million times faster than DialogRPT, while being in average 2.8\% qualitatively superior for sequences longer than 2 turns.
翻訳日:2022-11-15 17:48:39 公開日:2022-11-14
# UGIF:UIの接地命令に続くもの

UGIF: UI Grounded Instruction Following ( http://arxiv.org/abs/2211.07615v1 )

ライセンス: Link先を確認
Sagar Gubbi Venkatesh, Partha Talukdar, Srini Narayanan(参考訳) 新しいスマートフォンユーザーはそれに関わるのが難しく、電話やメッセージといった限られた機能しか使わないことが多い。 これらのユーザーは、スマートフォンを使い、経験豊富なユーザーにスマートフォンの使い方を教えることをためらっている。 しかし、経験豊富なユーザーがガイドするとは限らない。 そこで本研究では,ユーザ自身がスマートフォンの使い方を学習するために,UI上で操作する自然言語ベースの指示に従うエージェントを提案し,ユーザに対してさまざまなタスクの実行方法を示す。 未知数からの呼び出しをブロックする方法"のような一般的なハウツー質問は、ユーザが何をすべきかを自然言語で記述した一連のステップでサポートサイトに文書化されている。 これらのステップをLLM(Large Language Models)を用いて解析し、ユーザがクエリーを尋ねるとデバイス上で実行できるマクロを生成する。 このエージェントを評価するために,スマートフォン上でのステップバイステップタスク補完のための多言語マルチモーダルUI基盤データセットであるUDG-DataSetを紹介する。 8つの言語でタスクを実行する方法を示すアクションと多言語ui画面のペア配列を持つ523の自然言語命令を含んでいる。 PaLM, GPT3など, さまざまな大規模言語モデルの性能を比較し, エンドツーエンドのタスク完了成功率は, 英語UIでは48%だが, 非英語では32%に低下することがわかった。 このタスクで既存のモデルの一般的な障害モードを分析し、改善すべき領域を指摘します。

New smartphone users have difficulty engaging with it and often use only a limited set of features like calling and messaging. These users are hesitant to explore using the smartphone and rely on experienced users to teach them how to use the phone. However, experienced users are not always around to guide them. To help new users learn how to use the phone on their own, we propose a natural language based instruction following agent that operates over the UI and shows the user how to perform various tasks. Common how-to questions, such as "How to block calls from unknown numbers?", are documented on support sites with a sequence of steps in natural language describing what the user should do. We parse these steps using Large Language Models (LLMs) and generate macros that can be executed on-device when the user asks a query. To evaluate this agent, we introduce UGIF-DataSet, a multi-lingual, multi-modal UI grounded dataset for step-by-step task completion on the smartphone. It contains 523 natural language instructions with paired sequences of multilingual UI screens and actions that show how to execute the task in eight languages. We compare the performance of different large language models including PaLM, GPT3, etc. and find that the end-to-end task completion success rate is 48% for English UI but the performance drops to 32% for non-English languages. We analyse the common failure modes of existing models on this task and point out areas for improvement.
翻訳日:2022-11-15 17:48:07 公開日:2022-11-14
# 抑うつ度推定のための意味的類似性モデル

Semantic Similarity Models for Depression Severity Estimation ( http://arxiv.org/abs/2211.07624v1 )

ライセンス: Link先を確認
Anxo P\'erez, Neha Warikoo, Kexin Wang, Javier Parapar, Iryna Gurevych(参考訳) うつ病は世界中で深刻な公衆衛生問題となっている。 しかし、公衆衛生システムはケース検出と診断の能力に限界がある。 この点に関して、ソーシャルメディアの広範にわたる利用は、大規模な公開情報にアクセスするための手段となった。 計算手法は、このユーザ生成ソーシャルメディアコンテンツを活用することにより、迅速なスクリーニングを支援するツールとして機能する。 本稿では,個人の抑うつ症状をソーシャルメディアの書き込みに基づいて調査するための効率的な意味パイプラインを提案する。 抑うつ症状と重度レベルに対応する代表訓練文の指標から,意味的ランキングを生成するユーザ文を選択する。 次に、これらの結果から得られた文を、ユーザの症状の重症度を予測する証拠として用いる。 そのために、症状毎に4つのBeck Depression Inventory(BDI)オプションのうちの1つに答えるための異なる集約方法を検討する。 本手法を2つのRedditベースのベンチマークで評価し,うつ病の重症度を指標として,技術の現状を30%改善した。

Depressive disorders constitute a severe public health issue worldwide. However, public health systems have limited capacity for case detection and diagnosis. In this regard, the widespread use of social media has opened up a way to access public information on a large scale. Computational methods can serve as support tools for rapid screening by exploiting this user-generated social media content. This paper presents an efficient semantic pipeline to study depression severity in individuals based on their social media writings. We select test user sentences for producing semantic rankings over an index of representative training sentences corresponding to depressive symptoms and severity levels. Then, we use the sentences from those results as evidence for predicting users' symptom severity. For that, we explore different aggregation methods to answer one of four Beck Depression Inventory (BDI) options per symptom. We evaluate our methods on two Reddit-based benchmarks, achieving 30\% improvement over state of the art in terms of measuring depression severity.
翻訳日:2022-11-15 17:47:45 公開日:2022-11-14
# 言語パターン予測による言語非依存型コード混合データ拡張

Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic Patterns ( http://arxiv.org/abs/2211.07628v1 )

ライセンス: Link先を確認
Shuyue Stella Li, Kenton Murray(参考訳) 本研究では,様々な種類のラベル付きゴールドデータに対して,ダウンストリーム感情分析タスクにおいてベースラインを上回る,複数の異なる合成符号混合(scm)データ拡張手法を提案する。 提案手法は, テキストを一定のマスクで戦略的に置き換えることで, 分類精度が向上し, コードミキシング現象に対する言語学的洞察がさらに高められることを示す。 我々は,低リソースおよび言語間設定でデータ拡張法をテストし,極めて少ない英語-マラーラームデータセットで7.73%の相対的改善に到達した。 コード混合文におけるコードスイッチパターンは,モデルが学習する上でも重要である。 最後に,低リソース言語に対して安価かつ極めて有用な言語非依存scmアルゴリズムを提案する。

In this work, we focus on intrasentential code-mixing and propose several different Synthetic Code-Mixing (SCM) data augmentation methods that outperform the baseline on downstream sentiment analysis tasks across various amounts of labeled gold data. Most importantly, our proposed methods demonstrate that strategically replacing parts of sentences in the matrix language with a constant mask significantly improves classification accuracy, motivating further linguistic insights into the phenomenon of code-mixing. We test our data augmentation method in a variety of low-resource and cross-lingual settings, reaching up to a relative improvement of 7.73% on the extremely scarce English-Malayalam dataset. We conclude that the code-switch pattern in code-mixing sentences is also important for the model to learn. Finally, we propose a language-agnostic SCM algorithm that is cheap yet extremely helpful for low-resource languages.
翻訳日:2022-11-15 17:47:31 公開日:2022-11-14
# 聴覚神経の機械学習モデルを用いた人工内耳の刺激エネルギーの最適化

Optimizing Stimulus Energy for Cochlear Implants with a Machine Learning Model of the Auditory Nerve ( http://arxiv.org/abs/2211.07285v1 )

ライセンス: Link先を確認
Jacob de Nobel, Anna V. Kononova, Jeroen Briaire, Johan Frijns, Thomas B\"ack(参考訳) 現実的な生体物理学的神経線維モデルによるシミュレーションは、計算の複雑な性質のために非常に時間がかかる。 そこで,このような聴覚神経線維モデルのサロゲートモデル(近似)を機械学習を用いて開発し,シミュレーションをより効率的に行う。 いくつかの機械学習モデルを比較し、畳み込みニューラルネットワークが最高のパフォーマンスを示した。 実際、畳み込みニューラルネットワークは、幅広い実験条件下でテストされた非常に高い類似度(r^2 > 0.99$)で聴覚神経線維モデルの挙動をエミュレートすることができ、シミュレーション時間を5桁削減することができた。 さらに,超平面投影を用いた電荷平衡波形をランダムに生成する手法を提案する。 本稿では、進化的アルゴリズムを用いて、エネルギー効率の観点から刺激波形の形状を最適化するために、畳み込みニューラルネットワークサロゲートモデルを用いた。 得られた波形は、長い負の位相が先行する正のガウス状ピークに似ている。 進化アルゴリズムによって生成された波形のエネルギーと一般的に使用される正方形波を比較すると、異なるパルス持続時間でエネルギーの8%から45%の低下が観測された。 これらの結果は, 従来の聴覚神経線維モデルを用いて検証され, 提案するサーロゲートモデルが精度と効率の良さを実証した。

Performing simulations with a realistic biophysical auditory nerve fiber model can be very time consuming, due to the complex nature of the calculations involved. Here, a surrogate (approximate) model of such an auditory nerve fiber model was developed using machine learning methods, to perform simulations more efficiently. Several machine learning models were compared, of which a Convolutional Neural Network showed the best performance. In fact, the Convolutional Neural Network was able to emulate the behavior of the auditory nerve fiber model with extremely high similarity ($R^2 > 0.99$), tested under a wide range of experimental conditions, whilst reducing the simulation time by five orders of magnitude. In addition, we introduce a method for randomly generating charge-balanced waveforms using hyperplane projection. In the second part of this paper, the Convolutional Neural Network surrogate model was used by an Evolutionary Algorithm to optimize the shape of the stimulus waveform in terms energy efficiency. The resulting waveforms resemble a positive Gaussian-like peak, preceded by an elongated negative phase. When comparing the energy of the waveforms generated by the Evolutionary Algorithm with the commonly used square wave, energy decreases of 8% - 45% were observed for different pulse durations. These results were validated with the original auditory nerve fiber model, which demonstrates that our proposed surrogate model can be used as its accurate and efficient replacement.
翻訳日:2022-11-15 17:47:16 公開日:2022-11-14
# 臨床概念指導による電子健康記録の要約

Summarisation of Electronic Health Records with Clinical Concept Guidance ( http://arxiv.org/abs/2211.07126v1 )

ライセンス: Link先を確認
Thomas Searle, Zina Ibrahim, James Teo, Richard Dobson(参考訳) ブリーフ病院コース(英: Brief Hospital Course, BHC)は、患者の全身的なケアを担当する臨床医によって書かれた、退院サマリーに埋め込まれた病院の出会いの簡潔な要約である。 入院患者の文書から要約を自動生成する方法は、患者を入院・退院させるための高圧下で文書を要約するクリニカルマニュアルの負担を軽減するのに有用である。 患者コースからこれらの要約を自動生成することは、病院化の過程で様々な視点(看護、医師、放射線学など)から資料を書くため、複雑で多文書の要約作業である。 抽出および抽象的な要約シナリオにまたがる深層学習要約モデルの性能を示すBHC要約手法について述べる。 また,医療概念オントロジ(snomed)を臨床指導信号として組み込んだ新しいアンサンブル抽出・抽象要約モデルもテストし,実世界の2つの臨床データセットにおいて優れた性能を示す。

Brief Hospital Course (BHC) summaries are succinct summaries of an entire hospital encounter, embedded within discharge summaries, written by senior clinicians responsible for the overall care of a patient. Methods to automatically produce summaries from inpatient documentation would be invaluable in reducing clinician manual burden of summarising documents under high time-pressure to admit and discharge patients. Automatically producing these summaries from the inpatient course, is a complex, multi-document summarisation task, as source notes are written from various perspectives (e.g. nursing, doctor, radiology), during the course of the hospitalisation. We demonstrate a range of methods for BHC summarisation demonstrating the performance of deep learning summarisation models across extractive and abstractive summarisation scenarios. We also test a novel ensemble extractive and abstractive summarisation model that incorporates a medical concept ontology (SNOMED) as a clinical guidance signal and shows superior performance in 2 real-world clinical data sets.
翻訳日:2022-11-15 17:41:19 公開日:2022-11-14
# 対話要約における省略の理解に向けて

Towards Understanding Omission in Dialogue Summarization ( http://arxiv.org/abs/2211.07145v1 )

ライセンス: Link先を確認
Yicheng Zou, Kaitao Song, Xu Tan, Zhongkai Fu, Tao Gui, Qi Zhang, Dongsheng Li(参考訳) 対話要約は、長い対話を簡潔な要約にまとめることを目的としており、最近は大きな進歩を遂げている。 しかし、既存の方法の結果はまだ満足のいくものではない。 これまでの研究では, 省略が要約の質に影響を及ぼす主要な要因であることが示されたが, 省略が要約結果にどのように影響するか, 欠落の検出方法など, 省略問題をさらに探求する研究は少ない。 さらに, 省略文の分析と検出は, 現在の文献では利用できない, 省略ラベル付き要約データセット(すなわち, 要約文中の対話発話を省略する)に依存している。 本稿では,対話要約のための高品質なオミッションラベルを提供するOLDSデータセットを提案する。 このデータセットを解析することにより,対話要約における省略検出の重要性を実証するために,要約モデルに接頭辞省略ラベルを提供することにより,要約品質の大幅な向上が期待できることがわかった。 そこで我々は,この課題の学習と評価を支援するために,誤り検出タスクを定式化し,提案するデータセットを実証する。 また,提案するデータセットに基づく欠落検出に関する研究活動も求める。 データセットとコードは公開されています。

Dialogue summarization aims to condense the lengthy dialogue into a concise summary, and has recently achieved significant progress. However, the result of existing methods is still far from satisfactory. Previous works indicated that omission is a major factor in affecting the quality of summarization, but few of them have further explored the omission problem, such as how omission affects summarization results and how to detect omission, which is critical for reducing omission and improving summarization quality. Moreover, analyzing and detecting omission relies on summarization datasets with omission labels (i.e., which dialogue utterances are omitted in the summarization), which are not available in the current literature. In this paper, we propose the OLDS dataset, which provides high-quality Omission Labels for Dialogue Summarization. By analyzing this dataset, we find that a large improvement in summarization quality can be achieved by providing ground-truth omission labels for the summarization model to recover omission information, which demonstrates the importance of omission detection for omission mitigation in dialogue summarization. Therefore, we formulate an omission detection task and demonstrate our proposed dataset can support the training and evaluation of this task well. We also call for research action on omission detection based on our proposed datasets. Our dataset and codes are publicly available.
翻訳日:2022-11-15 17:41:00 公開日:2022-11-14
# 医学の道を開く:集中的注意によるテキスト生成における多様性とノベルティの促進

Evade the Trap of Mediocrity: Promoting Diversity and Novelty in Text Generation via Concentrating Attention ( http://arxiv.org/abs/2211.07164v1 )

ライセンス: Link先を確認
Wenhao Li, Xiaoyuan Yi, Jinyi Hu, Maosong Sun, Xing Xie(参考訳) 近年、強力なトランスフォーマーアーキテクチャは高品質な文を生成するのに優れていることが証明されている。 にもかかわらず、これらのモデルは鈍い高頻度のフレーズを生み出し、生成されたテキストの多様性と新しさを著しく傷つける傾向がある。 本研究では,本問題の本質的なメカニズムを掘り下げ,トランスフォーマーのスペーサー注意値が多様性を向上させることを発見した。 このような現象を理解するために、我々はまず経験的および理論的解析の両方を行い、訓練中に隠れた状態の注意混合によって引き起こされる表現的変性に起因する。 我々はこの過程をメディオクリティーのトラップと呼ぶ。 このような罠から逃れるために,モデル構造に透過的で,pythonコード20行以内に容易に実装可能な注意分散のシャープネスを制御するために,新たな注意正規化損失を導入する。 この手法は数学的にベイズ近似を学習したと見なせることが証明された。 提案手法は,様々な条件付きおよび非条件付き生成タスクにおいて同等の品質を維持しつつ,生成したテキストの多様性と新規性を改善したことを示す。

Recently, powerful Transformer architectures have proven superior in generating high-quality sentences. Nevertheless, these models tend to produce dull high-frequency phrases, severely hurting the diversity and novelty of generated text. In this work, we dig into the intrinsic mechanism of this problem and found that sparser attention values in Transformer could improve diversity. To understand such a phenomenon, we first conduct both empirical and theoretical analysis and then attribute it to representation degeneration caused by the attentive mixture of the hidden states during training. We term this process the Trap of Mediocrity. To escape from such a trap, we introduce a novel attention regularization loss to control the sharpness of the attention distribution, which is transparent to model structures and can be easily implemented within 20 lines of python code. We prove that this method could be mathematically regarded as learning a Bayesian approximation of posterior attention. Experiments show that our method improved the diversity and novelty of the generated text while maintaining comparable quality on a variety of conditional and unconditional generation tasks.
翻訳日:2022-11-15 17:40:39 公開日:2022-11-14
# ロバスト・アーリーバイド・チケットを用いた効果的な対人訓練

Efficient Adversarial Training with Robust Early-Bird Tickets ( http://arxiv.org/abs/2211.07263v1 )

ライセンス: Link先を確認
Zhiheng Xi1, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 先行訓練言語モデル(PLM)の堅牢性を改善するための最も強力な手法の1つである。 しかし、このアプローチは通常、勾配降下による逆例を生成する必要があるため、従来の微調整よりも高価である。 敵対的トレーニングの最適化プロセスに着目すると、パラメータが収束するずっと前に、初期のトレーニングフェーズ(通常、$0.15\sim0.3$ epochs)に堅牢な接続パターンが出現する。 この発見にインスパイアされた我々は,(1)早期に構造化された空間をもつ堅牢なチケットを探索し,(2)残りの期間に頑健なチケットを微調整する,効率的な対向訓練手法を開発するために,堅牢な早期バードチケット(サブネットワーク)を掘り下げた。 できるだけ早くロバストなチケットを抽出するために,自動で検索を終了するチケット収束指標を設計する。 実験により, 提案手法は, 最も競争力のある対人訓練法と比較して, 同等かそれ以上の堅牢性を保ちながら, 最大7\times \sim 13 \times$トレーニングスピードアップを達成することができることがわかった。

Adversarial training is one of the most powerful methods to improve the robustness of pre-trained language models (PLMs). However, this approach is typically more expensive than traditional fine-tuning because of the necessity to generate adversarial examples via gradient descent. Delving into the optimization process of adversarial training, we find that robust connectivity patterns emerge in the early training phase (typically $0.15\sim0.3$ epochs), far before parameters converge. Inspired by this finding, we dig out robust early-bird tickets (i.e., subnetworks) to develop an efficient adversarial training method: (1) searching for robust tickets with structured sparsity in the early stage; (2) fine-tuning robust tickets in the remaining time. To extract the robust tickets as early as possible, we design a ticket convergence metric to automatically terminate the searching process. Experiments show that the proposed efficient adversarial training method can achieve up to $7\times \sim 13 \times$ training speedups while maintaining comparable or even better robustness compared to the most competitive state-of-the-art adversarial training methods.
翻訳日:2022-11-15 17:40:19 公開日:2022-11-14
# MAVEN-ERE:イベント参照・時間・因果関係抽出のための大規模統合データセット

MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference, Temporal, Causal, and Subevent Relation Extraction ( http://arxiv.org/abs/2211.07342v1 )

ライセンス: Link先を確認
Xiaozhi Wang, Yulin Chen, Ning Ding, Hao Peng, Zimu Wang, Yankai Lin, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Peng Li, Jie Zhou(参考訳) コア推論、時間的、因果関係、亜種関係を含む現実世界の出来事間の多様な関係は、自然言語を理解するのに不可欠である。 しかし、既存のデータセットの2つの欠点は、イベント関係抽出(ERE)タスクを制限している。 アノテーションの複雑さのため、既存のデータセットのデータスケールは限られており、データ・ハングモデルのトレーニングや評価がうまく行えない。 (2)統一アノテーションの欠如。 異なるタイプのイベントリレーションは自然に相互に相互作用するが、既存のデータセットは限定的なリレーションシップタイプのみを一度にカバーしているため、モデルがリレーションインタラクションを完全に活用できない。 これらの課題に対処するため、我々は、アノテーションスキームを改良した大規模な人間アノテーション付きEREデータセットMAVEN-EREを構築した。 103,193のイベントコリファレンスチェーン、1,216,217の時間関係、57,992の因果関係、15,841のサブイベント関係が含まれており、ereタスクの既存のデータセットよりも少なくとも1桁大きい。 実験の結果,MAVEN-ERE上のEREは極めて困難であり,共同学習との相互関係を考慮することで性能が向上することが示された。 データセットとソースコードはhttps://github.com/THU-KEG/MAVEN-EREから取得できる。

The diverse relationships among real-world events, including coreference, temporal, causal, and subevent relations, are fundamental to understanding natural languages. However, two drawbacks of existing datasets limit event relation extraction (ERE) tasks: (1) Small scale. Due to the annotation complexity, the data scale of existing datasets is limited, which cannot well train and evaluate data-hungry models. (2) Absence of unified annotation. Different types of event relations naturally interact with each other, but existing datasets only cover limited relation types at once, which prevents models from taking full advantage of relation interactions. To address these issues, we construct a unified large-scale human-annotated ERE dataset MAVEN-ERE with improved annotation schemes. It contains 103,193 event coreference chains, 1,216,217 temporal relations, 57,992 causal relations, and 15,841 subevent relations, which is larger than existing datasets of all the ERE tasks by at least an order of magnitude. Experiments show that ERE on MAVEN-ERE is quite challenging, and considering relation interactions with joint learning can improve performances. The dataset and source codes can be obtained from https://github.com/THU-KEG/MAVEN-ERE.
翻訳日:2022-11-15 17:39:58 公開日:2022-11-14
# タグづけとしてのパースについて

On Parsing as Tagging ( http://arxiv.org/abs/2211.07344v1 )

ライセンス: Link先を確認
Afra Amini, Ryan Cotterell(参考訳) 文学におけるタグ付けによる選挙区パーシングを減らすための提案が数多くある。 これらのアプローチの共通点をよりよく理解するため、線形化、学習、復号化という3つのステップからなる統一パイプラインに、既存の提案をいくつか導入しました。 特に,現在最先端の選挙区タグであるテトラタギングを減らして,文法上で右コーナー変換を行い,特定の独立性を仮定することで,シフト-リデュース解析を行う方法を示す。 さらに,リニアライザ,学習者,デコーダの選択の異なるタギングパイプラインの分類を経験的に評価した。 英文の結果と8つの類型的多種多様な言語の集合に基づき、導出木の線形化とその入力列へのアライメントが正確なタガーを達成する上で最も重要な要因であると結論づける。

There have been many proposals to reduce constituency parsing to tagging in the literature. To better understand what these approaches have in common, we cast several existing proposals into a unifying pipeline consisting of three steps: linearization, learning, and decoding. In particular, we show how to reduce tetratagging, a state-of-the-art constituency tagger, to shift--reduce parsing by performing a right-corner transformation on the grammar and making a specific independence assumption. Furthermore, we empirically evaluate our taxonomy of tagging pipelines with different choices of linearizers, learners, and decoders. Based on the results in English and a set of 8 typologically diverse languages, we conclude that the linearization of the derivation tree and its alignment with the input sequence is the most critical factor in achieving accurate taggers.
翻訳日:2022-11-15 17:39:35 公開日:2022-11-14
# デバイアスは必然的にモデルパフォーマンスを低下させるか

Does Debiasing Inevitably Degrade the Model Performance ( http://arxiv.org/abs/2211.07350v1 )

ライセンス: Link先を確認
Yiran Liu, Xiao Liu, Haotian Chen and Yang Yu(参考訳) 言語モデルのジェンダーバイアスは社会的正義を脅かすので十分な注目を集めている。 しかし、現在のデバイアス法のほとんどは、モデルの性能を他のタスクで低下させ、分解メカニズムはまだ謎のままである。 言語モデルのジェンダーバイアスの3つの候補メカニズムを説明する理論的枠組みを提案する。 我々は,現在のデバイアス手法が性能低下の原因となる理由を説明するために,理論的な枠組みを用いる。 また,デバイアスがモデル性能を劣化させない経路も発見する。 さらに,性別バイアスを正すための因果検出細調整手法を開発した。 数値実験により, 性能劣化を回避しつつ, 男女偏差を部分的に緩和する手法が, 二重配当に導かれることが示された。

Gender bias in language models has attracted sufficient attention because it threatens social justice. However, most of the current debiasing methods degraded the model's performance on other tasks while the degradation mechanism is still mysterious. We propose a theoretical framework explaining the three candidate mechanisms of the language model's gender bias. We use our theoretical framework to explain why the current debiasing methods cause performance degradation. We also discover a pathway through which debiasing will not degrade the model performance. We further develop a causality-detection fine-tuning approach to correct gender bias. The numerical experiment demonstrates that our method is able to lead to double dividends: partially mitigating gender bias while avoiding performance degradation.
翻訳日:2022-11-15 17:39:20 公開日:2022-11-14
# Calibrated Interpretation:Semantic Parsingにおける信頼度推定

Calibrated Interpretation: Confidence Estimation in Semantic Parsing ( http://arxiv.org/abs/2211.07443v1 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) タスク指向意味解析はユーザ向けアプリケーションでますます使われており、解析モデルのキャリブレーションの計測が特に重要である。 3つのモデルファミリーにまたがる6つのモデルのキャリブレーション特性を2つの共通英語意味構文解析データセットで検討し,多くのモデルが適度に適合しており,キャリブレーションと性能との間にトレードオフがあることを発見した。 3つのモデルにまたがる信頼度スコアに基づいて,検討した2つのデータセットの新たなチャレンジスプリットを提案し,リリースする。 次に,タスク指向解析における共通トレードオフのバランスをとる上で,校正モデルが有用であることを示す。 模擬アノテータ・イン・ザ・ループ実験では、モデルの信頼性を利用することで、トークンの2.2%しか相互作用しないため、パフォーマンスを9.6%向上できることを示した。 シーケンスレベルの信頼度スコアを用いて、パーサのユーザビリティと安全性の間のトレードオフを最適化する方法を検討する。 信頼度に基づくしきい値設定は、不正確な低信頼プログラムの実行回数を76%削減できるが、ユーザビリティにはコストがかかる。 ユーザビリティと安全性のバランスをとるDidiMeanシステムを提案する。 最後に、意味解析システムの評価に校正を含めるよう呼びかけ、校正メトリクスを計算するためのライブラリをリリースする。

Task-oriented semantic parsing is increasingly being used in user-facing applications, making measuring the calibration of parsing models especially important. We examine the calibration characteristics of six models across three model families on two common English semantic parsing datasets, finding that many models are reasonably well-calibrated and that there is a trade-off between calibration and performance. Based on confidence scores across three models, we propose and release new challenge splits of the two datasets we examine. We then illustrate the ways a calibrated model can be useful in balancing common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that using model confidence allows us to improve performance by 9.6% (absolute) with interactions on only 2.2% of tokens. Using sequence-level confidence scores, we then examine how we can optimize trade-off between a parser's usability and safety. We show that confidence-based thresholding can reduce the number of incorrect low-confidence programs executed by 76%; however, this comes at a cost to usability. We propose the DidYouMean system which balances usability and safety. We conclude by calling for calibration to be included in the evaluation of semantic parsing systems, and release a library for computing calibration metrics.
翻訳日:2022-11-15 17:39:10 公開日:2022-11-14
# 頑健な数値質問応答に向けて:NLPシステムの数値能力の診断

Towards Robust Numerical Question Answering: Diagnosing Numerical Capabilities of NLP Systems ( http://arxiv.org/abs/2211.07455v1 )

ライセンス: Link先を確認
Jialiang Xu, Mengyu Zhou, Xinyi He, Shi Han, Dongmei Zhang(参考訳) 数値質問回答は数値能力を必要とする質問に答えるタスクである。 従来の研究は、数値質問回答に一般的な敵攻撃を導入しているが、このトピックに特有な数値能力について体系的に調べることはなかった。 本稿では,一連の数値質問応答システムとデータセットを用いて,数値能力診断を行う。 一連の数値機能を強調し、対応するデータセット摂動を設計する。 実証的な結果は、既存のシステムはこれらの摂動によって深刻な課題を被っていることを示している。 例えば、Graph2Tree は ASDiv-a 上の ``Extra'' の摂動に対して 53.83% の絶対精度低下を経験し、BART は 13.80% の精度低下を DROP の数値部分集合における ``Language' の摂動に対して経験した。 また,データ拡張として摂動を適用し,システムの堅牢な数値能力の欠如を緩和する効果についても検討した。 実験分析および実験研究により,頑健な数値的能力を持つ数値的質問応答はいまだにオープンな質問であることが示された。 数値質問応答の今後の方向性について議論し,今後のデータセット収集とシステム設計に関するガイドラインを要約する。

Numerical Question Answering is the task of answering questions that require numerical capabilities. Previous works introduce general adversarial attacks to Numerical Question Answering, while not systematically exploring numerical capabilities specific to the topic. In this paper, we propose to conduct numerical capability diagnosis on a series of Numerical Question Answering systems and datasets. A series of numerical capabilities are highlighted, and corresponding dataset perturbations are designed. Empirical results indicate that existing systems are severely challenged by these perturbations. E.g., Graph2Tree experienced a 53.83% absolute accuracy drop against the ``Extra'' perturbation on ASDiv-a, and BART experienced 13.80% accuracy drop against the ``Language'' perturbation on the numerical subset of DROP. As a counteracting approach, we also investigate the effectiveness of applying perturbations as data augmentation to relieve systems' lack of robust numerical capabilities. With experiment analysis and empirical studies, it is demonstrated that Numerical Question Answering with robust numerical capabilities is still to a large extent an open question. We discuss future directions of Numerical Question Answering and summarize guidelines on future dataset collection and system design.
翻訳日:2022-11-15 17:38:45 公開日:2022-11-14
# Covid-19 MLIA 機械翻訳タスクの発見

Findings of the Covid-19 MLIA Machine Translation Task ( http://arxiv.org/abs/2211.07465v1 )

ライセンス: Link先を確認
Francisco Casacuberta, Alexandru Ceausu, Khalid Choukri, Miltos Deligiannis, Miguel Domingo, Mercedes Garc\'ia-Mart\'inez, Manuel Herranz, Guillaume Jacquet, Vassilis Papavassiliou, Stelios Piperidis, Prokopis Prokopidis, Dimitris Roussis, and Marwa Hadj Salah(参考訳) この研究は、現在のCovid-19危機に焦点を当てたMTシステムの生成を改善するコミュニティ取り組みである、Covid-19 MLIA @ Evalイニシアチブの機械翻訳(MT)タスクの結果を提示する。 9チームがこのイベントに参加し、2ラウンドに分かれ、7つの異なる言語ペアが参加した。 提供されたデータのみを許可するシナリオと、外部リソースの使用を許可するシナリオという2つのシナリオが検討された。 全体として、最良のアプローチは多言語モデルとトランスファーラーニングに基づいており、トレーニングデータにクリーニングプロセスを適用することの重要性を強調している。

This work presents the results of the machine translation (MT) task from the Covid-19 MLIA @ Eval initiative, a community effort to improve the generation of MT systems focused on the current Covid-19 crisis. Nine teams took part in this event, which was divided in two rounds and involved seven different language pairs. Two different scenarios were considered: one in which only the provided data was allowed, and a second one in which the use of external resources was allowed. Overall, best approaches were based on multilingual models and transfer learning, with an emphasis on the importance of applying a cleaning process to the training data.
翻訳日:2022-11-15 17:38:21 公開日:2022-11-14
# 制御可能な引用テキスト生成

Controllable Citation Text Generation ( http://arxiv.org/abs/2211.07066v1 )

ライセンス: Link先を確認
Nianlong Gu, Richard H.R. Hahnloser(参考訳) 引用生成の目的は通常、原稿の文脈で選択された論文を参照する引用文を自動的に生成することである。 しかし、厳格な引用生成プロセスは、著者が生成したテキストを特定の属性に基づいて制御したいという願望と相反する。 1) 背景情報の導入又は結果の比較等の引用意図 2)引用文に表示すべきキーワード,又は 3) 引用文中の引用内容の特徴とする特定の文。 このような自由度を提供するため,制御可能な引用生成システムを提案する。 大規模なコーパスからのデータでは、まず各引用文の属性を解析し、BARTベースの抽象要約器のトレーニング中に追加の入力源として使用する。 さらに,引用意図を推論し,ユーザが選択可能な関連するキーワードや文を提案する属性提案モジュールを開発する。 我々のフレームワークは、ROUGEと人的評価の両方において属性認識を伴わず、より優れた引用生成モデルを実現する。

The aim of citation generation is usually to automatically generate a citation sentence that refers to a chosen paper in the context of a manuscript. However, a rigid citation generation process is at odds with an author's desire to control the generated text based on certain attributes, such as 1) the citation intent of e.g. either introducing background information or comparing results; 2) keywords that should appear in the citation text; or 3) specific sentences in the cited paper that characterize the citation content. To provide these degrees of freedom, we present a controllable citation generation system. In data from a large corpus, we first parse the attributes of each citation sentence and use these as additional input sources during training of the BART-based abstractive summarizer. We further develop an attribute suggestion module that infers the citation intent and suggests relevant keywords and sentences that users can select to tune the generation. Our framework gives users more control over generated citations, outperforming citation generation models without attribute awareness in both ROUGE and human evaluations.
翻訳日:2022-11-15 17:29:48 公開日:2022-11-14
# イベント引数抽出のための検索型生成質問応答

Retrieval-Augmented Generative Question Answering for Event Argument Extraction ( http://arxiv.org/abs/2211.07067v1 )

ライセンス: Link先を確認
Xinya Du and Heng Ji(参考訳) イベント引数抽出は、抽出的手法による逐次予測問題として長い間研究されてきた。 最近の研究では、クロス引数依存関係をキャプチャする生成ベースの手法を提案するが、複雑なターゲットシーケンス(テンプレート)の生成と後処理が必要である。 これらの観察と最近の事前学習された言語モデルのデモから学ぶ能力に動機づけられた。 イベント引数抽出のための検索拡張生成QAモデル(R-GQA)を提案する。 最も類似したQAペアを取得し、現在の例のコンテキストへのプロンプトとして拡張し、引数を回答としてデコードする。 提案手法は, 各種設定(完全教師付き, ドメイン転送, 少数ショット学習)において, かなり先行した手法より優れている。 最後に、クラスタリングに基づくサンプリング戦略(jointenc)を提案し、異なる戦略が学習性能にどのように影響するかを徹底的に分析する。 実装はhttps:// github.com/xinyadu/RGQAで公開されている。

Event argument extraction has long been studied as a sequential prediction problem with extractive-based methods, tackling each argument in isolation. Although recent work proposes generation-based methods to capture cross-argument dependency, they require generating and post-processing a complicated target sequence (template). Motivated by these observations and recent pretrained language models' capabilities of learning from demonstrations. We propose a retrieval-augmented generative QA model (R-GQA) for event argument extraction. It retrieves the most similar QA pair and augments it as prompt to the current example's context, then decodes the arguments as answers. Our approach outperforms substantially prior methods across various settings (i.e. fully supervised, domain transfer, and fewshot learning). Finally, we propose a clustering-based sampling strategy (JointEnc) and conduct a thorough analysis of how different strategies influence the few-shot learning performance. The implementations are available at https:// github.com/xinyadu/RGQA
翻訳日:2022-11-15 17:29:35 公開日:2022-11-14
# 対話型機械翻訳における簡単なガイド付き復号法の提案

Easy Guided Decoding in Providing Suggestions for Interactive Machine Translation ( http://arxiv.org/abs/2211.07093v1 )

ライセンス: Link先を確認
Ke Wang, Xin Ge, Yuqi Zhang, Yu Zhao, Jiayi Wang(参考訳) 完全な機械翻訳はエラーのない結果をほとんど保証しない。 人間は機械翻訳の事後編集を行い、コンピュータ支援翻訳のシナリオで誤りを訂正する。 ポスト編集プロセスを促進するために、最近の作品は対話モードで機械翻訳を調査し、機械は人間の編集に制約された他の翻訳を自動的に洗練することができる。 本稿では,ニューラルマシン翻訳のパラメータ化目的関数を用いて,学習を伴わずに翻訳品質を向上させるための制約付き復号アルゴリズムを提案する。 我々は、その能力と時間効率をベンチマークデータセットであるWeTSで実証し、潜在的なエラーでスパンを選択することで、人間のガイドラインを規定する。 実験結果では,10.37BLEUの翻訳品質の向上と平均時間コストの63.4%の削減により,最先端の語彙制約復号法よりもはるかに優れていることがわかった。 さらに、英語とドイツ語のWeTSに関する大量の注釈付きデータでトレーニングされたベンチマークシステムよりも優れています。

Fully machine translation scarcely guarantees error-free results. Humans perform post-editing on machine generated translations to correct errors in the scenario of computer aided translation. In favor of expediting the post-editing process, recent works have investigated machine translation in an interactive mode, where machines can automatically refine the rest of translations constrained on human's edits. In this paper, we utilize the parameterized objective function of neural machine translation and propose an easy constrained decoding algorithm to improve the translation quality without additional training. We demonstrate its capability and time efficiency on a benchmark dataset, WeTS, where it conditions on humans' guidelines by selecting spans with potential errors. In the experimental results, our algorithm is significantly superior to state-of-the-art lexically constrained decoding method by an increase of 10.37 BLEU in translation quality and a decrease of 63.4% in time cost on average. It even outperforms the benchmark systems trained with a large amount of annotated data on WeTS in English-German and German-English.
翻訳日:2022-11-15 17:29:19 公開日:2022-11-14
# バタフライ効果攻撃:物体検出のための小さく一見無関係な摂動

Butterfly Effect Attack: Tiny and Seemingly Unrelated Perturbations for Object Detection ( http://arxiv.org/abs/2211.07483v1 )

ライセンス: Link先を確認
Nguyen Anh Vu Doan, Arda Y\"uksel, Chih-Hong Cheng(参考訳) この研究は、オブジェクト検出における小さく、一見無関係なイメージの摂動を探索し、識別することを目的としている。 L_p$ノルムは自然に定義できるが、物体の「非関連性」の度合いを、発生した摂動と物体の間の画素距離によって特徴づける。 2つの目的を満足しながら予測における誤差をトリガーすることは、遺伝的アルゴリズムを用いて探索を誘導する多目的最適化問題として定式化することができる。 その結果、画像の右側の(見えない)摂動は、左側の物体検出の結果を大きく変えることができることを示した。 広範に評価した結果, YOLOv5のような単一段階の物体検出ネットワークと比較して, トランスフォーマーを用いた物体検出ネットワークの方がバタフライの影響を受けやすいという予想が再確認された。

This work aims to explore and identify tiny and seemingly unrelated perturbations of images in object detection that will lead to performance degradation. While tininess can naturally be defined using $L_p$ norms, we characterize the degree of "unrelatedness" of an object by the pixel distance between the occurred perturbation and the object. Triggering errors in prediction while satisfying two objectives can be formulated as a multi-objective optimization problem where we utilize genetic algorithms to guide the search. The result successfully demonstrates that (invisible) perturbations on the right part of the image can drastically change the outcome of object detection on the left. An extensive evaluation reaffirms our conjecture that transformer-based object detection networks are more susceptible to butterfly effects in comparison to single-stage object detection networks such as YOLOv5.
翻訳日:2022-11-15 17:22:53 公開日:2022-11-14
# NeurIPS 2022コンペティション: ドライビングSMARTS

NeurIPS 2022 Competition: Driving SMARTS ( http://arxiv.org/abs/2211.07545v1 )

ライセンス: Link先を確認
Amir Rasouli, Randy Goebel, Matthew E. Taylor, Iuliia Kotseruba, Soheil Alizadeh, Tianpei Yang, Montgomery Alban, Florian Shkurti, Yuzheng Zhuang, Adam Scibior, Kasra Rezaee, Animesh Garg, David Meger, Jun Luo, Liam Paull, Weinan Zhang, Xinyu Wang, and Xi Chen(参考訳) ドライビングSMARTS(ドライビングSMARTS)は、現実の自律運転(AD)で一般的な動的相互作用コンテキストの分散シフトに起因する問題に対処するために設計されたレギュラー競技である。 提案するコンペティションは、自然主義ADデータとオープンソースのシミュレーションプラットフォームSMARTSの組み合わせに基づいてトレーニングされた強化学習(RL)やオフライン学習手法などの方法論的に多様なソリューションをサポートする。 2トラック構造は、分布シフトの異なる側面に焦点を合わせることができる。 track 1はどんな方法でも利用可能で、さまざまなバックグラウンドを持つml研究者が、現実世界の自動運転課題を解決する機会を提供する。 トラック2は、厳密にオフラインの学習方法のために設計されている。 そのため,新たな研究方向を特定するために,異なる手法の直接比較を行うことができる。 提案された構成は 1)実世界のデータとマイクロシミュレータを用いて現実的なトラフィックを生成し,シナリオの忠実性を確保する。 2)課題解決のための多様な手法を適応する枠組み、及び 3)ベースライン法。 そのため、自動運転車の配備に関する様々な側面を原則的に調査する唯一の機会となる。

Driving SMARTS is a regular competition designed to tackle problems caused by the distribution shift in dynamic interaction contexts that are prevalent in real-world autonomous driving (AD). The proposed competition supports methodologically diverse solutions, such as reinforcement learning (RL) and offline learning methods, trained on a combination of naturalistic AD data and open-source simulation platform SMARTS. The two-track structure allows focusing on different aspects of the distribution shift. Track 1 is open to any method and will give ML researchers with different backgrounds an opportunity to solve a real-world autonomous driving challenge. Track 2 is designed for strictly offline learning methods. Therefore, direct comparisons can be made between different methods with the aim to identify new promising research directions. The proposed setup consists of 1) realistic traffic generated using real-world data and micro simulators to ensure fidelity of the scenarios, 2) framework accommodating diverse methods for solving the problem, and 3) baseline method. As such it provides a unique opportunity for the principled investigation into various aspects of autonomous vehicle deployment.
翻訳日:2022-11-15 17:22:39 公開日:2022-11-14
# 等級制約二値最適化のための交互入射影SGDとその効率的な変数

Alternating Implicit Projected SGD and Its Efficient Variants for Equality-constrained Bilevel Optimization ( http://arxiv.org/abs/2211.07096v1 )

ライセンス: Link先を確認
Quan Xiao, Han Shen, Wotao Yin, Tianyi Chen(参考訳) 機械学習問題の固有のネスト構造を捉える確率的二段階最適化は、最近の多くのアプリケーションで人気を集めている。 既存の二段階最適化の研究は、主に制約のない問題や制約された上層問題を考える。 本稿では,上層と下層の両方で等式制約を持つ確率的二段階最適化問題を考察する。 等式制約問題の特殊構造を利用して、まず暗黙的射影SGD法を交互に提示し、非制約双レベル問題に対するALSET \citep{chen2021closing}の最先端複雑さに一致する$\tilde{\cal O}(\epsilon^{-2})$サンプル複雑性を確立する。 プロジェクションのコストをさらに節約するために、この論文は2つの代替的な暗黙的プロジェクション効率のsgdアプローチを提示している。1つのアルゴリズムは、$\tilde{\cal o}(\epsilon^{-2}/t)$ upper-levelと${\cal o}(\epsilon^{-1.5}/t^{\frac{3}{4}})$ low-level projection complexity with ${\cal o}(t)$ lower-level batch size、もう1つは$\tilde{\cal o}(\epsilon^{-1.5})$ upper-level and lower-level projection complexity with ${\cal o}(1)$ batch sizeである。 アルゴリズムの実証的な性能を示すために,フェデレートされた二レベル最適化への応用が提案されている。 この結果から, 強凸低レベル問題による等式制約付き二レベル最適化は, 確率的単一レベル最適化問題と同じくらい効率的に解けることを示した。

Stochastic bilevel optimization, which captures the inherent nested structure of machine learning problems, is gaining popularity in many recent applications. Existing works on bilevel optimization mostly consider either unconstrained problems or constrained upper-level problems. This paper considers the stochastic bilevel optimization problems with equality constraints both in the upper and lower levels. By leveraging the special structure of the equality constraints problem, the paper first presents an alternating implicit projected SGD approach and establishes the $\tilde{\cal O}(\epsilon^{-2})$ sample complexity that matches the state-of-the-art complexity of ALSET \citep{chen2021closing} for unconstrained bilevel problems. To further save the cost of projection, the paper presents two alternating implicit projection-efficient SGD approaches, where one algorithm enjoys the $\tilde{\cal O}(\epsilon^{-2}/T)$ upper-level and ${\cal O}(\epsilon^{-1.5}/T^{\frac{3}{4}})$ lower-level projection complexity with ${\cal O}(T)$ lower-level batch size, and the other one enjoys $\tilde{\cal O}(\epsilon^{-1.5})$ upper-level and lower-level projection complexity with ${\cal O}(1)$ batch size. Application to federated bilevel optimization has been presented to showcase the empirical performance of our algorithms. Our results demonstrate that equality-constrained bilevel optimization with strongly-convex lower-level problems can be solved as efficiently as stochastic single-level optimization problems.
翻訳日:2022-11-15 17:14:50 公開日:2022-11-14
# 1型糖尿病におけるインスリン需要の経時的変化

Temporal patterns in insulin needs for Type 1 diabetes ( http://arxiv.org/abs/2211.07393v1 )

ライセンス: Link先を確認
Isabella Degen, Zahraa S. Abdallah(参考訳) 1型糖尿病 (1 type 1 Diabetes, T1D) は、体がインスリンをほとんど、または全く産生しない慢性疾患であり、細胞がエネルギーとして血糖(BG)を使用し、体内のBG濃度を調節するために必要なホルモンである。 正しいインスリン摂取量と時間を見つけることは、複雑で困難であり、まだ未解決のコントロールタスクである。 本研究では,実際の状況で収集された広範囲なデータセットであるopenaps data commons datasetを用いて,炭水化物などの既知の要因や潜在的に新しい要因によって,インスリンに必要な時間的パターンを探索する。 行列プロファイルと多変量クラスタリングを用いて,様々な時系列手法を用いてパターンを抽出した。 T1Dとインスリンのニーズに影響を与える因子を理解するほど、T1D治療のためのデータ駆動技術の構築に貢献できる。

Type 1 Diabetes (T1D) is a chronic condition where the body produces little or no insulin, a hormone required for the cells to use blood glucose (BG) for energy and to regulate BG levels in the body. Finding the right insulin dose and time remains a complex, challenging and as yet unsolved control task. In this study, we use the OpenAPS Data Commons dataset, which is an extensive dataset collected in real-life conditions, to discover temporal patterns in insulin need driven by well-known factors such as carbohydrates as well as potentially novel factors. We utilised various time series techniques to spot such patterns using matrix profile and multi-variate clustering. The better we understand T1D and the factors impacting insulin needs, the more we can contribute to building data-driven technology for T1D treatments.
翻訳日:2022-11-15 17:14:09 公開日:2022-11-14
# 構造化状態空間モデルによる心電図解析の最先端化

Advancing the State-of-the-Art for ECG Analysis through Structured State Space Models ( http://arxiv.org/abs/2211.07579v1 )

ライセンス: Link先を確認
Temesgen Mehari, Nils Strodthoff(参考訳) ディープラーニングに基づくECG分析の分野は、主に畳み込みアーキテクチャに支配されている。 この研究は、最近導入された構造化状態空間モデル(structured state space model, ssms)を特に有望なアプローチとして適用する可能性を探っている。 本手法は心電図の分類における現状よりも大幅に改善され,個々の病理に遡ることを示す。 さらに、モデルが長期依存を捕捉する能力は、最適サンプリング率やウィンドウサイズといった文献における長年の疑問に光を当て、分類モデルを訓練することができる。 興味深いことに、100Hzではなく500Hzでサンプリングされたデータを使用する証拠は見つからず、3sを超える入力サイズを拡大するメリットもない。 この非常に有望な最初の評価に基づいて、SSMはECG分析のための新しいモデリングパラダイムへと発展する可能性がある。

The field of deep-learning-based ECG analysis has been largely dominated by convolutional architectures. This work explores the prospects of applying the recently introduced structured state space models (SSMs) as a particularly promising approach due to its ability to capture long-term dependencies in time series. We demonstrate that this approach leads to significant improvements over the current state-of-the-art for ECG classification, which we trace back to individual pathologies. Furthermore, the model's ability to capture long-term dependencies allows to shed light on long-standing questions in the literature such as the optimal sampling rate or window size to train classification models. Interestingly, we find no evidence for using data sampled at 500Hz as opposed to 100Hz and no advantages from extending the model's input size beyond 3s. Based on this very promising first assessment, SSMs could develop into a new modeling paradigm for ECG analysis.
翻訳日:2022-11-15 17:13:53 公開日:2022-11-14
# SVS: スパースビュー合成のための逆改良

SVS: Adversarial refinement for sparse novel view synthesis ( http://arxiv.org/abs/2211.07301v1 )

ライセンス: Link先を確認
Violeta Men\'endez Gonz\'alez, Andrew Gilbert, Graeme Phillipson, Stephen Jolly, Simon Hadfield(参考訳) 本稿ではスパースビュー合成を提案する。 これは、参照ビューの数を制限するビュー合成問題であり、ターゲットと参照ビューの間のベースラインが重要である。 これらの条件下では、現在の放射界法は、3次元浮動小冊子やぼやけ、構造的重複など、参照ビューの数が限られている場合や、対象ビューが参照ビューから大きくばらつき、破滅的に失敗する。 ネットワークアーキテクチャの進歩と損失正規化は、これらの成果物を十分に取り除くことができない。 シーン内の閉塞は、これらの領域の真の内容が単にモデルで利用できないことを保証します。 そこで本研究では,これらの領域における可視的なシーン内容の幻覚化に着目した。 この目的のために、逆学習と知覚的損失を伴う放射場モデルを統一する。 得られたシステムは、この問題に関する現在の最先端の放射場モデルと比較して、知覚精度を最大60%向上させる。

This paper proposes Sparse View Synthesis. This is a view synthesis problem where the number of reference views is limited, and the baseline between target and reference view is significant. Under these conditions, current radiance field methods fail catastrophically due to inescapable artifacts such 3D floating blobs, blurring and structural duplication, whenever the number of reference views is limited, or the target view diverges significantly from the reference views. Advances in network architecture and loss regularisation are unable to satisfactorily remove these artifacts. The occlusions within the scene ensure that the true contents of these regions is simply not available to the model. In this work, we instead focus on hallucinating plausible scene contents within such regions. To this end we unify radiance field models with adversarial learning and perceptual losses. The resulting system provides up to 60% improvement in perceptual accuracy compared to current state-of-the-art radiance field models on this problem.
翻訳日:2022-11-15 17:12:19 公開日:2022-11-14
# Edge-MultiAI:Edge上のレイテンシ感性ディープラーニングアプリケーションのマルチテナンシ

Edge-MultiAI: Multi-Tenancy of Latency-Sensitive Deep Learning Applications on Edge ( http://arxiv.org/abs/2211.07130v1 )

ライセンス: Link先を確認
SM Zobaed, Ali Mokhtari, Jaya Prakash Champati, Mathieu Kourouma, Mohsen Amini Salehi(参考訳) スマートIoTベースのシステムは、複数のレイテンシに敏感なディープラーニング(DL)アプリケーションの継続的実行を望むことが多い。 エッジサーバはIoTベースのシステムの基盤として機能するが、リソース制限によって複数の(マルチテナント)DLアプリケーションの連続実行が妨げられる。 問題となるのは、DLアプリケーションは、エッジの限られたメモリ空間で同時に維持できない、バルクな"神経ネットワーク(NN)モデルに基づいて機能することである。 したがって、この研究の主な貢献は、メモリ競合の課題を克服し、その推論精度を損なうことなく、dlアプリケーションのレイテンシ制約を満たすことである。 本稿では,マルチテナンシの程度とウォームスタート数を最大化するために,dlアプリケーションのnnモデルをエッジメモリに格納する,効率的なnnモデル管理フレームワークedge-multiaiを提案する。 edge-multiaiはモデル量子化のようなnnモデル圧縮技術を利用し、dlアプリケーションのnnモデルを動的にロードしてエッジサーバのマルチテナントを刺激する。 iWS-BFEと呼ばれるEdge-MultiAIのモデル管理ヒューリスティックを考案し、ベイズ理論に基づいてマルチテナントアプリケーションに対する推論要求を予測し、それを用いてロードに適したNNモデルを選択することにより、ウォームスタート推論の数を増やす。 我々はedge-multiaiの有効性とロバスト性を評価した。 その結果,Edge-MultiAIはエッジ上のマルチテナント度を少なくとも2倍に刺激し,アプリケーションの推測精度に大きな損失を伴わずにウォームスタート数を約60%向上できることがわかった。

Smart IoT-based systems often desire continuous execution of multiple latency-sensitive Deep Learning (DL) applications. The edge servers serve as the cornerstone of such IoT-based systems, however, their resource limitations hamper the continuous execution of multiple (multi-tenant) DL applications. The challenge is that, DL applications function based on bulky "neural network (NN) models" that cannot be simultaneously maintained in the limited memory space of the edge. Accordingly, the main contribution of this research is to overcome the memory contention challenge, thereby, meeting the latency constraints of the DL applications without compromising their inference accuracy. We propose an efficient NN model management framework, called Edge-MultiAI, that ushers the NN models of the DL applications into the edge memory such that the degree of multi-tenancy and the number of warm-starts are maximized. Edge-MultiAI leverages NN model compression techniques, such as model quantization, and dynamically loads NN models for DL applications to stimulate multi-tenancy on the edge server. We also devise a model management heuristic for Edge-MultiAI, called iWS-BFE, that functions based on the Bayesian theory to predict the inference requests for multi-tenant applications, and uses it to choose the appropriate NN models for loading, hence, increasing the number of warm-start inferences. We evaluate the efficacy and robustness of Edge-MultiAI under various configurations. The results reveal that Edge-MultiAI can stimulate the degree of multi-tenancy on the edge by at least 2X and increase the number of warm-starts by around 60% without any major loss on the inference accuracy of the applications.
翻訳日:2022-11-15 17:05:46 公開日:2022-11-14
# セキュアなフェデレーション学習におけるウォーターマーキング:クライアントサイドバックドアに基づく検証フレームワーク

Watermarking in Secure Federated Learning: A Verification Framework Based on Client-Side Backdooring ( http://arxiv.org/abs/2211.07138v1 )

ライセンス: Link先を確認
Wenyuan Yang, Shuo Shao, Yue Yang, Xiyao Liu, Zhihua Xia, Gerald Schaefer and Hui Fang(参考訳) フェデレーション学習(fl)は、複数の参加者がデータを直接共有することなく、共同してディープラーニング(dl)モデルを構築することができる。 したがって、信頼できない参加者が共同で訓練されたモデルにアクセスできる可能性があるため、flにおける著作権保護の問題は重要となる。 セキュアFLフレームワークへの同型暗号化(HE)の適用により、中央サーバが平文モデルにアクセスできなくなる。 したがって、既存の透かしスキームを使用して中央サーバに透かしを埋め込むことはもはや不可能である。 本稿では,secure flにおける著作権保護問題に取り組むために,新しいクライアント側fl透かし方式を提案する。 我々の知る限りでは、Secure FL環境下でモデルに透かしを埋め込む最初のスキームである。 我々は,クライアント側バックドアに基づくブラックボックス透かしスキームの設計を行い,グラデーションエンハンスド埋め込み手法を用いてflモデルに予め設計したトリガーセットを組み込む。 さらに,ウォーターマークの偽造を防止するためのトリガーセット構築機構を提案する。 実験の結果,提案手法は様々な透かし除去攻撃や曖昧性攻撃に対して優れた保護性能と頑健性をもたらすことがわかった。

Federated learning (FL) allows multiple participants to collaboratively build deep learning (DL) models without directly sharing data. Consequently, the issue of copyright protection in FL becomes important since unreliable participants may gain access to the jointly trained model. Application of homomorphic encryption (HE) in secure FL framework prevents the central server from accessing plaintext models. Thus, it is no longer feasible to embed the watermark at the central server using existing watermarking schemes. In this paper, we propose a novel client-side FL watermarking scheme to tackle the copyright protection issue in secure FL with HE. To our best knowledge, it is the first scheme to embed the watermark to models under the Secure FL environment. We design a black-box watermarking scheme based on client-side backdooring to embed a pre-designed trigger set into an FL model by a gradient-enhanced embedding method. Additionally, we propose a trigger set construction mechanism to ensure the watermark cannot be forged. Experimental results demonstrate that our proposed scheme delivers outstanding protection performance and robustness against various watermark removal attacks and ambiguity attack.
翻訳日:2022-11-15 17:05:17 公開日:2022-11-14
# FedTracker: フェデレーション学習モデルのオーナシップ検証とトレーサビリティ向上

FedTracker: Furnishing Ownership Verification and Traceability for Federated Learning Model ( http://arxiv.org/abs/2211.07160v1 )

ライセンス: Link先を確認
Shuo Shao, Wenyuan Yang, Hanlin Gu, Jian Lou, Zhan Qin, Lixin Fan, Qiang Yang and Kui Ren(参考訳) FL(Federated Learning)モデルの著作権保護は、FLの悪意あるクライアントが極秘にFLモデルを他の当事者に配布または販売できるため、大きな関心事となっている。 このような不正行為を防止するためには、問題のモデルからの痕跡証拠を調査して犯人を捕まえる必要がある。 本稿では,グローバルモデルの所有権を検証するために,グローバルウォーターマークを用いた最初のflモデル保護フレームワークであるfeedtrackerを提案する。 さらに、FedTrackerは、透かし埋め込みに連続学習(CL)の直感を導入し、忠実度を改善するためのCLベースの透かし機構を提案する。 実験の結果,提案するFedTrackerはオーナシップ検証,トレーサビリティ,忠実度,堅牢性に有効であることがわかった。

Copyright protection of the Federated Learning (FL) model has become a major concern since malicious clients in FL can stealthily distribute or sell the FL model to other parties. In order to prevent such misbehavior, one must be able to catch the culprit by investigating trace evidence from the model in question. In this paper, we propose FedTracker, the first FL model protection framework that, on one hand, employs global watermarks to verify ownerships of the global model; and on the other hand, embed unique local fingerprints into respective local models to facilitate tracing the model back to the culprit. Furthermore, FedTracker introduces the intuition of Continual Learning (CL) into watermark embedding, and proposes a CL-based watermark mechanism to improve fidelity. Experimental results show that the proposed FedTracker is effective in ownership verification, traceability, fidelity, and robustness.
翻訳日:2022-11-15 17:04:57 公開日:2022-11-14
# 制御マルコフ鎖のオフライン推定:ミニマックス非パラメトリック推定器とサンプル効率

Offline Estimation of Controlled Markov Chains: Minimax Nonparametric Estimators and Sample Efficiency ( http://arxiv.org/abs/2211.07092v1 )

ライセンス: Link先を確認
Imon Banerjee, Harsha Honnappa, Vinayak Rao(参考訳) 制御マルコフ連鎖(CMC)は工学や機械学習に広く応用されており、多くの強化学習問題において重要な要素となっている。 本研究では,有限状態有限制御cmcの遷移確率を推定し,これらの遷移確率行列の非パラメトリック推定のための極小サンプル複雑性境界を開発する。 オンライン設定で行われているほとんどの研究とは異なり、オフラインmdpを考える。 私たちの結果は、ロギングポリシーについて特に何も想定していないので、非常に一般的なものです。 代わりに、ロギングポリシーに対する統計的境界の依存は、自然な混合係数の形で生じる。 混合に対する強い仮定と、特定のPAC結合を達成するためにより多くのサンプルを必要とすることの間の興味深いトレードオフを示す。 我々は, エルゴード型マルコフ鎖, 弱エルゴード型不均質型マルコフ鎖, 非定常型マルコフ鎖, エピソード型, およびグリード型制御によるマルコフ鎖の制御など, 様々な例による結果の有効性を示す。 最後に,制御が定常かつマルコフである場合,推定遷移行列の特性を用いて値関数を推定する。

Controlled Markov chains (CMCs) have wide applications in engineering and machine learning, forming a key component in many reinforcement learning problems. In this work, we consider the estimation of the transition probabilities of a finite-state finite-control CMC, and develop a minimax sample complexity bounds for nonparametric estimation of these transition probability matrices. Unlike most studies that have been done in the online setup, we consider offline MDPs. Our results are quite general, since we do not assume anything specific about the logging policy. Instead, the dependence of our statistical bounds on the logging policy comes in the form of a natural mixing coefficient. We demonstrate an interesting trade-off between stronger assumptions on mixing versus requiring more samples to achieve a particular PAC-bound. We demonstrate the validity of our results under various examples, like ergodic Markov chains, weakly ergodic inhomogenous Markov chains, and controlled Markov chains with non-stationary Markov, episodic, and greedy controls. Lastly, we use the properties of the estimated transition matrix to perform estimate the value function when the controls are stationary and Markov.
翻訳日:2022-11-15 17:02:40 公開日:2022-11-14
# SA-DPSGD:シミュレートアニーリングに基づく個人性確率勾配の差分

SA-DPSGD: Differentially Private Stochastic Gradient Descent based on Simulated Annealing ( http://arxiv.org/abs/2211.07218v1 )

ライセンス: Link先を確認
Jie Fu, Zhili Chen and XinPeng Ling(参考訳) 差分プライバシー(DP)は、機械学習モデルにアクセスする敵が個別のトレーニングポイントに関する情報を抽出することを防ぐ正式なプライバシー保証を提供する。 differentially private stochasticgradient descent (dpsgd) は、画像認識において差分プライバシーを持つ最も一般的なトレーニング手法である。 しかし、既存のDPSGDスキームは性能を著しく低下させ、差分プライバシーの適用を妨げている。 本稿では,更新品質とイテレーション数の両方に依存する確率で候補更新を受理するSA-DPSGD(simulated annealing-based differentially private stochastic descent scheme)を提案する。 このランダムな更新スクリーニングにより、各イテレーションにおいて微分プライベートな勾配降下を正しい方向に進行させ、最終的により正確なモデルが得られる。 実験では, 試験精度98.35%, 87.41%, 60.92%をMNIST, FashionMNIST, CIFAR10で測定し, 現状の98.12%, 86.33%, 59.34%と比較した。 自由調整ハイパーパラメータでは、98.89%、88.50%、64.17%という高い精度を実現している。 本手法は,プライベート画像分類と非プライベート画像分類の精度ギャップを埋める上で大きな寄与があると考えられる。

Differential privacy (DP) provides a formal privacy guarantee that prevents adversaries with access to machine learning models from extracting information about individual training points. Differentially private stochastic gradient descent (DPSGD) is the most popular training method with differential privacy in image recognition. However, existing DPSGD schemes lead to significant performance degradation, which prevents the application of differential privacy. In this paper, we propose a simulated annealing-based differentially private stochastic gradient descent scheme (SA-DPSGD) which accepts a candidate update with a probability that depends both on the update quality and on the number of iterations. Through this random update screening, we make the differentially private gradient descent proceed in the right direction in each iteration, and result in a more accurate model finally. In our experiments, under the same hyperparameters, our scheme achieves test accuracies 98.35%, 87.41% and 60.92% on datasets MNIST, FashionMNIST and CIFAR10, respectively, compared to the state-of-the-art result of 98.12%, 86.33% and 59.34%. Under the freely adjusted hyperparameters, our scheme achieves even higher accuracies, 98.89%, 88.50% and 64.17%. We believe that our method has a great contribution for closing the accuracy gap between private and non-private image classification.
翻訳日:2022-11-15 16:56:18 公開日:2022-11-14
# web ベース質問応答とマルチモーダル融合を用いた知識ベース補完

Knowledge Base Completion using Web-Based Question Answering and Multimodal Fusion ( http://arxiv.org/abs/2211.07098v1 )

ライセンス: Link先を確認
Yang Peng, Daisy Zhe Wang(参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。 しかし、これらの知識は極めて不完全である。 この問題を解決するために,構造化されていない情報と構造化されていない情報をマルチモーダルに融合したWebベースの質問応答システムを提案する。 知識ベース補完のためにWebからの非構造化情報を活用するために,多モーダル特徴と質問テンプレートを用いたWebベースの質問応答システムを設計し,欠落した事実を抽出し,極めて少ない質問で優れた性能を実現する。 抽出品質を向上させるため、質問応答システムは、エンティティタイプやエンティティ間関連性といった知識ベースからの構造化情報を用いる。

Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete. To solve this problem, we propose a web-based question answering system system with multimodal fusion of unstructured and structured information, to fill in missing information for knowledge bases. To utilize unstructured information from the Web for knowledge base completion, we design a web-based question answering system using multimodal features and question templates to extract missing facts, which can achieve good performance with very few questions. To help improve extraction quality, the question answering system employs structured information from knowledge bases, such as entity types and entity-to-entity relatedness.
翻訳日:2022-11-15 16:53:28 公開日:2022-11-14
# 医用画像における画像テキストコントラスト学習における局所的アライメントと一様性の役割

The Role of Local Alignment and Uniformity in Image-Text Contrastive Learning on Medical Images ( http://arxiv.org/abs/2211.07254v1 )

ライセンス: Link先を確認
Philip M\"uller, Georgios Kaissis, Daniel Rueckert(参考訳) 画像テキストコントラスト学習は医療画像モデルの事前訓練に有効であることが証明されている。 意味セグメンテーションやオブジェクト検出のような局所的な下流タスクをターゲットにすると、画像領域と文を一致させる局所的なコントラスト損失が有望な結果を示している。 局所的なコントラスト損失がグローバルな(サンプルごとの)コントラスト損失とどのように関連し、局所的な医療ダウンストリームタスクにどのような影響があるかを検討する。 理論的比較に基づき,各サンプルにおける表現の均一性を強制する新しい分布によって,局所的な損失の成分を除去し,他の成分を置き換えることを提案する。 胸部x線課題に対するこのアプローチを実証的に検討し,18課題中12課題において局所的損失を伴わない非常に効果的かつ優れた方法であることが判明した。

Image-text contrastive learning has proven effective for pretraining medical image models. When targeting localized downstream tasks like semantic segmentation or object detection, additional local contrastive losses that align image regions with sentences have shown promising results. We study how local contrastive losses are related to global (per-sample) contrastive losses and which effects they have on localized medical downstream tasks. Based on a theoretical comparison, we propose to remove some components of local losses and replace others by a novel distribution prior which enforces uniformity of representations within each sample. We empirically study this approach on chest X-ray tasks and find it to be very effective, outperforming methods without local losses on 12 of 18 tasks.
翻訳日:2022-11-15 16:46:21 公開日:2022-11-14
# 形状感化による深部視覚モデルのロバスト化

Robustifying Deep Vision Models Through Shape Sensitization ( http://arxiv.org/abs/2211.07277v1 )

ライセンス: Link先を確認
Aditay Tripathi, Rishubh Singh, Anirban Chakraborty, Pradeep Shenoy(参考訳) 近年の研究では、深部視覚モデルは低レベルまたは「テクチュア」な特徴に過度に依存しがちであり、一般化が貧弱であることが示されている。 DNNにおけるこのようなテクスチャバイアスを克服するために、様々なデータ拡張戦略が提案されている。 本稿では,オブジェクト分類設定における正確な予測のために,ネットワークが全体形状を学習するためのインセンティブを明示的に与える,単純で軽量な相反拡張手法を提案する。 増補では,エッジマップ画像のイメージラベルとランダムに決定された混合比率を用いて,ある画像から別の画像へのエッジマップをシャッフルパッチで重ね合わせる。 これらの拡張画像を分類するには、エッジの検出とフォーカスだけでなく、関連するエッジとスプリアスエッジを区別する必要がある。 この拡張により、データセットやニューラルネットワークの分類精度とロバストネスの指標が大幅に向上することを示す。 例えば、ViT-Sでは、分類精度が最大6%向上する絶対ゲインを得る。 また,ImageNet-A (ViT-B用) や ImageNet-R (ViT-S用) といった,自然の敵対的データセットとアウト・オブ・ディストリビューションデータセットで最大28%と8.5%のゲインを得た。 各種プローブデータセットを用いて解析したところ, 実験モデルの形状感度が大幅に向上し, 頑健さと分類精度が向上した。

Recent work has shown that deep vision models tend to be overly dependent on low-level or "texture" features, leading to poor generalization. Various data augmentation strategies have been proposed to overcome this so-called texture bias in DNNs. We propose a simple, lightweight adversarial augmentation technique that explicitly incentivizes the network to learn holistic shapes for accurate prediction in an object classification setting. Our augmentations superpose edgemaps from one image onto another image with shuffled patches, using a randomly determined mixing proportion, with the image label of the edgemap image. To classify these augmented images, the model needs to not only detect and focus on edges but distinguish between relevant and spurious edges. We show that our augmentations significantly improve classification accuracy and robustness measures on a range of datasets and neural architectures. As an example, for ViT-S, We obtain absolute gains on classification accuracy gains up to 6%. We also obtain gains of up to 28% and 8.5% on natural adversarial and out-of-distribution datasets like ImageNet-A (for ViT-B) and ImageNet-R (for ViT-S), respectively. Analysis using a range of probe datasets shows substantially increased shape sensitivity in our trained models, explaining the observed improvement in robustness and classification accuracy.
翻訳日:2022-11-15 16:46:04 公開日:2022-11-14
# ベクトル量子化潜在空間上の高速テキスト条件離散化

Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent Spaces ( http://arxiv.org/abs/2211.07292v1 )

ライセンス: Link先を確認
Dominic Rampas, Pablo Pernias, Elea Zhong and Marc Aubreville(参考訳) 条件付きテキスト・ツー・イメージ生成では、品質、多様性、忠実性の面で、最近無数の改善が見られた。 それでも、最先端モデルの多くは忠実な世代を生み出すために多くの推論ステップを必要とし、結果としてエンドユーザアプリケーションのパフォーマンスボトルネックが発生する。 本稿では,500ms未満の単一画像を573Mパラメータでサンプリングできる高速最適化アーキテクチャを用いて,高忠実度画像のサンプリングに10ステップ未満を要する新しいテキスト・画像モデルPaellaを紹介する。 このモデルは圧縮および量子化された潜在空間で動作し、クリップ埋め込みを条件とし、以前の作品よりも改良されたサンプリング機能を使用する。 テキスト条件による画像生成とは別に,本モデルでは,インペイント,アウトペイント,構造編集などの潜時空間補間や画像操作を行うことができる。 すべてのコードと事前訓練されたモデルをhttps://github.com/dome272/Paellaでリリースします。

Conditional text-to-image generation has seen countless recent improvements in terms of quality, diversity and fidelity. Nevertheless, most state-of-the-art models require numerous inference steps to produce faithful generations, resulting in performance bottlenecks for end-user applications. In this paper we introduce Paella, a novel text-to-image model requiring less than 10 steps to sample high-fidelity images, using a speed-optimized architecture allowing to sample a single image in less than 500 ms, while having 573M parameters. The model operates on a compressed & quantized latent space, it is conditioned on CLIP embeddings and uses an improved sampling function over previous works. Aside from text-conditional image generation, our model is able to do latent space interpolation and image manipulations such as inpainting, outpainting, and structural editing. We release all of our code and pretrained models at https://github.com/dome272/Paella
翻訳日:2022-11-15 16:45:38 公開日:2022-11-14
# 逆一貫性による目的関数重み付けに基づく脳磁気共鳴画像の患者内登録方法:BraTS-Regチャレンジへの貢献

Unsupervised Method for Intra-patient Registration of Brain Magnetic Resonance Images based on Objective Function Weighting by Inverse Consistency: Contribution to the BraTS-Reg Challenge ( http://arxiv.org/abs/2211.07386v1 )

ライセンス: Link先を確認
Marek Wodzinski, Artur Jurgas, Niccolo Marini, Manfredo Atzori, Henning Muller(参考訳) 脳スキャンと病理の登録は難しいが、重要な研究領域である。 このタスクの重要性は、IEEE ISBI 2022とMICCAI 2022と共同でBraTS-Regチャレンジを組織する研究者の動機となった。 オーガナイザーは、グリオーマの磁気共鳴画像に事前手術を施すタスクを導入した。 主な困難は、大きな、非剛性、非可逆的な変形につながる欠落データと結びついている。 本稿では,brats-regチャレンジの両エディションへの貢献について述べる。 提案手法は,ディープラーニングとインスタンス最適化を組み合わせた手法である。 まず、インスタンス最適化により、最先端のLapIRN法が強化され、一般化性と細部保存性が向上する。 第二に、逆整合性に基づいて追加の目的関数重み付けを導入する。 提案手法は完全に教師なしであり,高い登録品質とロバスト性を示す。 外的検証セットの定量的結果は次のとおりである。 (i)IEEE ISBI 2022版 1.85、0.86 (ii)miccai 2022 版: 1.71 と 0.86 それぞれ中央値の絶対誤差とロバスト性の平均について。 IEEE ISBI 2022版では1位、MICCAI 2022では3位となった。 将来の作業は、逆一貫性に基づく重み付けをディープネットワークトレーニングに直接転送する可能性がある。

Registration of brain scans with pathologies is difficult, yet important research area. The importance of this task motivated researchers to organize the BraTS-Reg challenge, jointly with IEEE ISBI 2022 and MICCAI 2022 conferences. The organizers introduced the task of aligning pre-operative to follow-up magnetic resonance images of glioma. The main difficulties are connected with the missing data leading to large, nonrigid, and noninvertible deformations. In this work, we describe our contributions to both the editions of the BraTS-Reg challenge. The proposed method is based on combined deep learning and instance optimization approaches. First, the instance optimization enriches the state-of-the-art LapIRN method to improve the generalizability and fine-details preservation. Second, an additional objective function weighting is introduced, based on the inverse consistency. The proposed method is fully unsupervised and exhibits high registration quality and robustness. The quantitative results on the external validation set are: (i) IEEE ISBI 2022 edition: 1.85, and 0.86, (ii) MICCAI 2022 edition: 1.71, and 0.86, in terms of the mean of median absolute error and robustness respectively. The method scored the 1st place during the IEEE ISBI 2022 version of the challenge and the 3rd place during the MICCAI 2022. Future work could transfer the inverse consistency-based weighting directly into the deep network training.
翻訳日:2022-11-15 16:45:21 公開日:2022-11-14
# tridonet:ct金属アーティファクト削減のためのトリプルドメインモデル駆動ネットワーク

TriDoNet: A Triple Domain Model-driven Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2211.07190v1 )

ライセンス: Link先を確認
Baoshun Shi, Ke Jiang, Shaolei Zhang, Qiusheng Lian, and Yanwei Qin(参考訳) 近年のDeep Learning-based methodは,CTMAR(Computerd tomography Metal artifact reduction)において有望な性能を達成した。 しかし、そのほとんどは2つの制限に悩まされている。 (i)ネットワークトレーニングにドメイン知識が完全に組み込まれていないこと。 (II)金属人工物には効果的な表現モデルがない。 上記の制限は、さらなるパフォーマンス改善の余地がある。 これらの問題に対して,tridonetと呼ばれる新たなトリプルドメインモデル駆動型ctmarネットワークを提案し,そのネットワークトレーニングがトリプルドメイン知識,すなわちシンノグラム,ct画像,金属アーティファクトドメインの知識を活用している。 具体的には,金属アーチファクトの非局所的繰り返しストリーキングパターンを探索するために,適応しきい値を持つ明確なフレームスパース表現モデルとして符号化する。 さらに, 比較学習に基づく対照正則化(CR)を設計し, クリーンCT画像と金属汚染画像をそれぞれ正および負のサンプルとして活用する。 実験結果から,TriDoNetは優れたアーティファクト再現CT画像を生成することができた。

Recent deep learning-based methods have achieved promising performance for computed tomography metal artifact reduction (CTMAR). However, most of them suffer from two limitations: (i) the domain knowledge is not fully embedded into the network training; (ii) metal artifacts lack effective representation models. The aforementioned limitations leave room for further performance improvement. Against these issues, we propose a novel triple domain model-driven CTMAR network, termed as TriDoNet, whose network training exploits triple domain knowledge, i.e., the knowledge of the sinogram, CT image, and metal artifact domains. Specifically, to explore the non-local repetitive streaking patterns of metal artifacts, we encode them as an explicit tight frame sparse representation model with adaptive thresholds. Furthermore, we design a contrastive regularization (CR) built upon contrastive learning to exploit clean CT images and metal-affected images as positive and negative samples, respectively. Experimental results show that our TriDoNet can generate superior artifact-reduced CT images.
翻訳日:2022-11-15 16:44:38 公開日:2022-11-14
# PAC-Bayesianメタラーニング:理論から実践へ

PAC-Bayesian Meta-Learning: From Theory to Practice ( http://arxiv.org/abs/2211.07206v1 )

ライセンス: Link先を確認
Jonas Rothfuss, Martin Josifoski, Vincent Fortuin, Andreas Krause(参考訳) Meta-Learningは、関連するデータソースから有用な帰納バイアスを取得することで、新しいタスクの学習を加速することを目的としている。 実際には、メタ学習で利用できるタスクの数は少ないことが多い。 しかし、既存のアプローチのほとんどは、大量のメタトレーニングタスクに依存しているため、オーバーフィットしがちです。 メタラーナーを正規化して、目に見えないタスクを一般化する方法は、文学の中心的な問題である。 本研究では,PAC-Bayesianフレームワークを用いた理論解析を行い,非有界損失関数を持つメタラーナーを導出する。 重要なのは,pac-optimal hyper-posterior (pacoh) -pac-bayesian meta-learning問題のクローズドフォーム解法を導出することで,ネスト最適化への依存を回避し,スケーラブルにスケール可能な標準変分法に適応可能な最適化問題を生じさせることである。 実験の結果,PACOHをガウス過程とベイジアンニューラルネットワークをベースラーナーとしてインスタンス化する場合,提案手法はよりスケーラブルで,予測精度と不確実性評価の質の両方において,最先端性能が得られることがわかった。 最後に,不確実性の原理的処理により,逐次的決定問題に対してメタリーナーが有効である。

Meta-Learning aims to accelerate the learning on new tasks by acquiring useful inductive biases from related data sources. In practice, the number of tasks available for meta-learning is often small. Yet, most of the existing approaches rely on an abundance of meta-training tasks, making them prone to overfitting. How to regularize the meta-learner to ensure generalization to unseen tasks, is a central question in the literature. We provide a theoretical analysis using the PAC-Bayesian framework and derive the first bound for meta-learners with unbounded loss functions. Crucially, our bounds allow us to derive the PAC-optimal hyper-posterior (PACOH) - the closed-form-solution of the PAC-Bayesian meta-learning problem, thereby avoiding the reliance on nested optimization, giving rise to an optimization problem amenable to standard variational methods that scale well. Our experiments show that, when instantiating the PACOH with Gaussian processes and Bayesian Neural Networks as base learners, the resulting methods are more scalable, and yield state-of-the-art performance, both in terms of predictive accuracy and the quality of uncertainty estimates. Finally, thanks to the principled treatment of uncertainty, our meta-learners can also be successfully employed for sequential decision problems.
翻訳日:2022-11-15 16:37:35 公開日:2022-11-14
# 高次元グラフィカルモデルを用いた最適経路アルゴリズムの自動変数選択

The Best Path Algorithm automatic variables selection via High Dimensional Graphical Models ( http://arxiv.org/abs/2211.07267v1 )

ライセンス: Link先を確認
Consuelo R. Nava, Luigi Riso and Maria G. Zoia(参考訳) 本稿では,高次元グラフィカルモデルにおける自動変数選択手順のための新しいアルゴリズムを提案する。 アルゴリズムは、相互情報に基づいて、関心のノードに関する関連する変数を選択する。 文献におけるいくつかの貢献は、大規模なデータセットにおける適切な数の関連特徴の選択における相互情報の使用について研究してきたが、そのほとんどはバイナリ結果や高い計算労力に重点を置いている。 ここで提案されたアルゴリズムは、Chow と Liu のアルゴリズムの拡張であるため、これらの欠点を克服する。 このアルゴリズムによって高次元図形モデルの確率構造が決定されると、興味のある変数に対して最も説明力/予測力を持つ変数を含む最良の経路ステップが決定のエントロピー係数の計算によって決定される。 後者は(対称)kullback-leiblerの発散の概念に基づいており、関連する変数の相互情報と密接な関係にあることが判明した。 広範にわたる実語と公開データセットへのアルゴリズムの適用は、既存の方法に比べてその可能性と有効性を強調している。

This paper proposes a new algorithm for an automatic variable selection procedure in High Dimensional Graphical Models. The algorithm selects the relevant variables for the node of interest on the basis of mutual information. Several contributions in literature have investigated the use of mutual information in selecting the appropriate number of relevant features in a large data-set, but most of them have focused on binary outcomes or required high computational effort. The algorithm here proposed overcomes these drawbacks as it is an extension of Chow and Liu's algorithm. Once, the probabilistic structure of a High Dimensional Graphical Model is determined via the said algorithm, the best path-step, including variables with the most explanatory/predictive power for a variable of interest, is determined via the computation of the entropy coefficient of determination. The latter, being based on the notion of (symmetric) Kullback-Leibler divergence, turns out to be closely connected to the mutual information of the involved variables. The application of the algorithm to a wide range of real-word and publicly data-sets has highlighted its potential and greater effectiveness compared to alternative extant methods.
翻訳日:2022-11-15 16:37:09 公開日:2022-11-14
# 斜め外乱に対してロバストな高次2乗和緩和

Higher degree sum-of-squares relaxations robust against oblivious outliers ( http://arxiv.org/abs/2211.07327v1 )

ライセンス: Link先を確認
Tommaso d'Orsi, Rajai Nasser, Gleb Novikov, David Steurer(参考訳) 我々は、$Y=X^*+N$という形の推定モデルを考える。ここでは、$X^*$は回復したい$m$次元の信号であり、$N$は対称分布ノイズであり、エントリの小さな$\alpha$分しか有界でないかもしれない。 我々は,ノイズ$n$ がガウス的である場合の信号$x^*$ の回復に成功する2乗和アルゴリズムが存在するすべての推定問題において,軽度な仮定の下で信号 $x^*$ を回復するアルゴリズムのファミリを導入する。 これは本質的には、対称雑音モデルで動作するアルゴリズムを得るために、ガウス雑音を伴う推定問題に対する2乗和アルゴリズムを設計するのに十分であることを示している。 我々のフレームワークは、対称ノイズモデルに関するこれまでの結果を大きく超え、逆摂動に対しても頑健である。 具体的な例として,重み付き雑音に対して効率的なアルゴリズムが動作しない2つの問題,すなわちテンソルpcaとスパースpcaについて検討した。 前者の場合、信号対雑音比が少なくとも$\tilde{o}(n^{p/4}/\alpha)$であるとき、アルゴリズムは多項式時間で主成分を回復する。 後者の場合,我々のアルゴリズムは準ポリノミカル時間で動作し,ガウス雑音の場合の準ポリノミカル時間アルゴリズムの最先端保証と一致する。 プラントクレーク問題からの低減を用いて, 対称雑音を持つpcaのスパースに対して, 準多項時間が必要である可能性が示唆された。 この証明では、疑似予想の集合の被覆数上の境界を使い、解の集合のガウス複素数上の2乗の和の上界を証明して得られる。 擬似予想の集合の被覆数を境界とするこのアプローチは、それ自体が興味深く、将来の研究で他の応用を見出すかもしれない。

We consider estimation models of the form $Y=X^*+N$, where $X^*$ is some $m$-dimensional signal we wish to recover, and $N$ is symmetrically distributed noise that may be unbounded in all but a small $\alpha$ fraction of the entries. We introduce a family of algorithms that under mild assumptions recover the signal $X^*$ in all estimation problems for which there exists a sum-of-squares algorithm that succeeds in recovering the signal $X^*$ when the noise $N$ is Gaussian. This essentially shows that it is enough to design a sum-of-squares algorithm for an estimation problem with Gaussian noise in order to get the algorithm that works with the symmetric noise model. Our framework extends far beyond previous results on symmetric noise models and is even robust to adversarial perturbations. As concrete examples, we investigate two problems for which no efficient algorithms were known to work for heavy-tailed noise: tensor PCA and sparse PCA. For the former, our algorithm recovers the principal component in polynomial time when the signal-to-noise ratio is at least $\tilde{O}(n^{p/4}/\alpha)$, that matches (up to logarithmic factors) current best known algorithmic guarantees for Gaussian noise. For the latter, our algorithm runs in quasipolynomial time and matches the state-of-the-art guarantees for quasipolynomial time algorithms in the case of Gaussian noise. Using a reduction from the planted clique problem, we provide evidence that the quasipolynomial time is likely to be necessary for sparse PCA with symmetric noise. In our proofs we use bounds on the covering numbers of sets of pseudo-expectations, which we obtain by certifying in sum-of-squares upper bounds on the Gaussian complexities of sets of solutions. This approach for bounding the covering numbers of sets of pseudo-expectations may be interesting in its own right and may find other application in future works.
翻訳日:2022-11-15 16:36:51 公開日:2022-11-14
# 回帰によるナップサックを用いた効率的なコンテクストバンディット

Efficient Contextual Bandits with Knapsacks via Regression ( http://arxiv.org/abs/2211.07484v1 )

ライセンス: Link先を確認
Aleksandrs Slivkins and Dylan Foster(参考訳) 我々は,knapsacks (CBwK) を用いた文脈的盗賊を,予算消費に世界的制約を課す文脈的盗賊の変種として検討する。 本稿では,単純,統計的に最適,計算効率のよい新しいアルゴリズムを提案する。 我々のアルゴリズムは、CBwKのためのラグランジアンベースの手法であるLagrangeBwK(Immorlica et al., FOCS'19)と、文脈的包帯の回帰に基づく手法であるSquareCB(Foster and Rakhlin, ICML'20)を組み合わせる。 我々の分析は両手法のモジュラリティを強調している。

We consider contextual bandits with knapsacks (CBwK), a variant of the contextual bandit which places global constraints on budget consumption. We present a new algorithm that is simple, statistically optimal, and computationally efficient. Our algorithm combines LagrangeBwK (Immorlica et al., FOCS'19), a Lagrangian-based technique for CBwK, and SquareCB (Foster and Rakhlin, ICML'20), a regression-based technique for contextual bandits. Our analysis emphasizes the modularity of both techniques.
翻訳日:2022-11-15 16:36:15 公開日:2022-11-14
# ニューラルギブズ密度による一般化安定度

Generalized Stable Weights via Neural Gibbs Density ( http://arxiv.org/abs/2211.07533v1 )

ライセンス: Link先を確認
Yoshiaki Kitazawa(参考訳) 離散的および連続的な介入の任意の混合に対する因果効果を推定するための一般化されたバランスウェイト法を提案する。 我々の重みはバックプロパゲーションによってトレーニング可能であり、ニューラルネットワークアルゴリズムによって重みを推定する方法を提供する。 また、バランスの取れた分布の相互情報を推定することにより、ウェイトの性能を測定する方法も提供する。 本手法は,既存の深層学習ライブラリでも容易に実装でき,その重み付けをほとんどの教師付きアルゴリズムで利用することができる。

We present a generalized balancing weight method fully available for estimating causal effects for an arbitrary mixture of discrete and continuous interventions. Our weights are trainable through back-propagation, and we give a method for estimating the weights via neural network algorithms. In addition, we also provide a method to measure the performance of our weights by estimating the mutual information for the balanced distribution. Our method is easy to implement with any present deep learning libraries, and the weights from it can be used in most state-of-art supervised algorithms.
翻訳日:2022-11-15 16:36:03 公開日:2022-11-14
# GAN発電機間の共有損失

Shared Loss between Generators of GANs ( http://arxiv.org/abs/2211.07234v1 )

ライセンス: Link先を確認
Xin Wang(参考訳) 生成逆ネットワーク(generative adversarial networks)は、入力データの暗黙的確率分布を高精度に再現できる生成モデルである。 伝統的にganは、非常に現実的な人工データを生成するために互いに相互作用するジェネレータと識別器で構成されている。 従来のganは、入力データセットに存在するさまざまな種類のデータを生成することができないという、モード崩壊問題の原因になる。 近年、モード崩壊問題を緩和してより現実的な出力を生成するために複数のジェネレータが使われている。 この複数のジェネレータフレームワークを使用します。 本論文の新規性は, 判別器を同時に操作しながら, ジェネレータ同士を競合させることにある。 その結果,GANのトレーニング時間は劇的に短縮され,性能に影響を与えないことがわかった。

Generative adversarial networks are generative models that are capable of replicating the implicit probability distribution of the input data with high accuracy. Traditionally, GANs consist of a Generator and a Discriminator which interact with each other to produce highly realistic artificial data. Traditional GANs fall prey to the mode collapse problem, which means that they are unable to generate the different variations of data present in the input dataset. Recently, multiple generators have been used to produce more realistic output by mitigating the mode collapse problem. We use this multiple generator framework. The novelty in this paper lies in making the generators compete against each other while interacting with the discriminator simultaneously. We show that this causes a dramatic reduction in the training time for GANs without affecting its performance.
翻訳日:2022-11-15 16:27:24 公開日:2022-11-14
# 強化学習を用いた並列自動履歴マッチングアルゴリズム

Parallel Automatic History Matching Algorithm Using Reinforcement Learning ( http://arxiv.org/abs/2211.07434v1 )

ライセンス: Link先を確認
Omar S. Alolayan, Abdullah O. Alomar and John R. Williams(参考訳) マルコフ決定過程(Markov Decision Process)により,最小二乗数学最適化問題から履歴マッチング問題を再構成し,その解法として強化学習を利用する方法を提案する。 この方法は、人工深層ニューラルネットワークエージェントが貯水池シミュレータと相互作用し、問題に対する複数の異なる解決策を見つけることができるメカニズムを提供する。 このような定式化は、エージェントが一度にすべての環境から同時に学習できるように複数の並行環境を起動することで、問題を並列に解決し、大幅なスピードアップを実現する。

Reformulating the history matching problem from a least-square mathematical optimization problem into a Markov Decision Process introduces a method in which reinforcement learning can be utilized to solve the problem. This method provides a mechanism where an artificial deep neural network agent can interact with the reservoir simulator and find multiple different solutions to the problem. Such formulation allows for solving the problem in parallel by launching multiple concurrent environments enabling the agent to learn simultaneously from all the environments at once, achieving significant speed up.
翻訳日:2022-11-15 16:27:12 公開日:2022-11-14
# 制約付き最適化による内在的報酬の軽減

Redeeming Intrinsic Rewards via Constrained Optimization ( http://arxiv.org/abs/2211.07627v1 )

ライセンス: Link先を確認
Eric Chen, Zhang-Wei Hong, Joni Pajarinen, Pulkit Agrawal(参考訳) 最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$\epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。 探索の課題に対処するために、先行研究は、探索ボーナス(内在的な報酬または好奇心とも呼ばれる)を使用して、エージェントに新しい州を訪問するインセンティブを与える。 このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。 このパフォーマンス低下は、エージェントが本質的な報酬を求め、十分なタスク報酬が得られても不要な探索を行う場合に発生する。 このタスク間のパフォーマンスの不整合は、RLアルゴリズムで固有の報酬を広く使用するのを防ぐ。 提案手法は,探索が不要な場合の本質的な報酬を抑え,探索が必要な場合の報酬を増大させるという,本質的な報酬の重要性を自動的に調整する,原則付き制約付き政策最適化手法を提案する。 この結果、本質的な報酬とタスク報酬のバランスをとるために手動のチューニングを必要としない優れた探索がもたらされる。 ATARIゲーム61ゲームのうち、一貫性のあるパフォーマンス向上は、我々の主張を裏付ける。 コードはhttps://github.com/improbable-ai/eipoで入手できる。

State-of-the-art reinforcement learning (RL) algorithms typically use random sampling (e.g., $\epsilon$-greedy) for exploration, but this method fails in hard exploration tasks like Montezuma's Revenge. To address the challenge of exploration, prior works incentivize the agent to visit novel states using an exploration bonus (also called an intrinsic reward or curiosity). Such methods can lead to excellent results on hard exploration tasks but can suffer from intrinsic reward bias and underperform when compared to an agent trained using only task rewards. This performance decrease occurs when an agent seeks out intrinsic rewards and performs unnecessary exploration even when sufficient task reward is available. This inconsistency in performance across tasks prevents the widespread use of intrinsic rewards with RL algorithms. We propose a principled constrained policy optimization procedure that automatically tunes the importance of the intrinsic reward: it suppresses the intrinsic reward when exploration is unnecessary and increases it when exploration is required. This results in superior exploration that does not require manual tuning to balance the intrinsic reward against the task reward. Consistent performance gains across sixty-one ATARI games validate our claim. The code is available at https://github.com/Improbable-AI/eipo.
翻訳日:2022-11-15 16:27:02 公開日:2022-11-14
# スタイル転送のための言語モデルを置き換える

Replacing Language Model for Style Transfer ( http://arxiv.org/abs/2211.07343v1 )

ライセンス: Link先を確認
Pengyu Cheng, Ruineng Li(参考訳) テキストスタイル転送のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を導入する。 本手法は,原文の各トークンをターゲットスタイルのテキストスパンに自動的に置き換える。 対照的に、新しいスパンは非回帰マスク言語モデルによって生成される。 rlm生成方式は、自己回帰モデルの柔軟性と非自己回帰モデルの精度を収集し、文レベルと単語レベルの変換方法のギャップを橋渡しする。 生成文のスタイルをさらに制御するために、rlmの隠れた表現に対してスタイル・コンテントの絡み合いを行う。 実世界のテキストスタイル転送タスクにおける実証的な結果は、他のベースラインと比較してRLMの有効性を示す。

We introduce replacing language model (RLM), a sequence-to-sequence language modeling framework for text style transfer. Our method autoregressively replaces each token in the original sentence with a text span in the target style. In contrast, the new span is generated via a non-autoregressive masked language model. The RLM generation scheme gathers the flexibility of autoregressive models and the accuracy of non-autoregressive models, which bridges the gap between sentence-level and word-level style transfer methods. To further control the style of generated sentences, we conduct a style-content disentanglement on the hidden representations of RLM. Empirical results on real-world text style transfer tasks demonstrate the effectiveness of RLM compared with other baselines.
翻訳日:2022-11-15 16:20:26 公開日:2022-11-14
# 事前学習型トランスフォーマー言語モデルにおけるスキルニューロンの探索

Finding Skill Neurons in Pre-trained Transformer-based Language Models ( http://arxiv.org/abs/2211.07349v1 )

ライセンス: Link先を確認
Xiaozhi Wang, Kaiyue Wen, Zhengyan Zhang, Lei Hou, Zhiyuan Liu, Juanzi Li(参考訳) トランスフォーマーに基づく事前学習型言語モデルは、様々な自然言語処理タスクにおいて優れた性能を示した。 しかし、これらのタスクを扱うために必要なスキルがモデルパラメータ間でどのように分散するかは、まだ不明である。 本稿では,特定のタスクを即時チューニングした後に,事前学習したトランスフォーマー内のニューロンの活性化がタスクラベルを高い精度で予測できることを見出した。 我々は,これらのニューロンのスキルニューロンをダビングし,(1)スキルニューロンがタスクの処理に不可欠であることを示すことによって,タスク固有のスキルをコードすることを確認する。 学習済みトランスフォーマーの性能は、対応するスキルニューロンが摂動すると大幅に低下する。 2) スキルニューロンはタスク固有である。 同様のタスクは、スキルニューロンの同様の分布を持つ傾向がある。 さらに,適応型チューニングやビットフィットなどのニューロン重みを凍結する他のファインチューニング法においても,プロンプトチューニングで見出されるスキルニューロンが重要であることを示すことにより,事前学習においてスキルニューロンが生成される可能性が最も高いことを示す。 また,ネットワークプルーニングによるトランスフォーマーの高速化や,より優れた伝達性指標の構築など,スキルニューロンの応用についても検討する。 これらの結果は、トランスフォーマーの理解に関するさらなる研究を促進する可能性がある。 ソースコードはhttps://github.com/THU-KEG/Skill-Neuronから取得できる。

Transformer-based pre-trained language models have demonstrated superior performance on various natural language processing tasks. However, it remains unclear how the skills required to handle these tasks distribute among model parameters. In this paper, we find that after prompt tuning for specific tasks, the activations of some neurons within pre-trained Transformers are highly predictive of the task labels. We dub these neurons skill neurons and confirm they encode task-specific skills by finding that: (1) Skill neurons are crucial for handling tasks. Performances of pre-trained Transformers on a task significantly drop when corresponding skill neurons are perturbed. (2) Skill neurons are task-specific. Similar tasks tend to have similar distributions of skill neurons. Furthermore, we demonstrate the skill neurons are most likely generated in pre-training rather than fine-tuning by showing that the skill neurons found with prompt tuning are also crucial for other fine-tuning methods freezing neuron weights, such as the adapter-based tuning and BitFit. We also explore the applications of skill neurons, including accelerating Transformers with network pruning and building better transferability indicators. These findings may promote further research on understanding Transformers. The source code can be obtained from https://github.com/THU-KEG/Skill-Neuron.
翻訳日:2022-11-15 16:20:16 公開日:2022-11-14
# AdaptKeyBERT: KeyBERTのFew-Shot \& Zero-Shotドメイン適応に対する注意に基づくアプローチ

AdaptKeyBERT: An Attention-Based approach towards Few-Shot \& Zero-Shot Domain Adaptation of KeyBERT ( http://arxiv.org/abs/2211.07499v1 )

ライセンス: Link先を確認
Aman Priyanshu and Supriti Vijay(参考訳) キーワード抽出は現代の自然言語処理において重要なトピックである。 その応用は、オントロジー生成、要約テキストにおける事実検証、レコメンデーションシステムなど多岐にわたる。 重要なデータ集約型アプリケーションを持っているが、データセットが小さい場合には、しばしば妨げられる。 キーワード抽出器の下流でのトレーニングは長いプロセスであり、大量のデータを必要とする。 近年,この問題に対処するためにFSL(Few-shot Learning)とZSL(Zero-Shot Learning)が提案されている。 そこで本研究では,下流領域適応のための事前学習フェーズに正規化注意の概念を取り入れ,llmベースでキーワード抽出を訓練するパイプラインであるadaptkeybertを提案する。 FSL/ZSLのパイプラインやキーワード抽出で活用できると信じているので、コードをオープンソースにして、同じ名前の微調整ライブラリAdaptKeyBERTを \url{https://github.com/AmanPriyanshu/AdaptKeyBERT}で提供します。

Keyword extraction has been an important topic for modern natural language processing. With its applications ranging from ontology generation, fact verification in summarized text, and recommendation systems. While it has had significant data-intensive applications, it is often hampered when the data set is small. Downstream training for keyword extractors is a lengthy process and requires a significant amount of data. Recently, Few-shot Learning (FSL) and Zero-Shot Learning (ZSL) have been proposed to tackle this problem. Therefore, we propose AdaptKeyBERT, a pipeline for training keyword extractors with LLM bases by incorporating the concept of regularized attention into a pre-training phase for downstream domain adaptation. As we believe our work has implications to be utilized in the pipeline of FSL/ZSL and keyword extraction, we open-source our code as well as provide the fine-tuning library of the same name AdaptKeyBERT at \url{https://github.com/AmanPriyanshu/AdaptKeyBERT}.
翻訳日:2022-11-15 16:19:55 公開日:2022-11-14
# 強化学習によるタイムラインの要約学習

Interactively Learning to Summarise Timelines by Reinforcement Learning ( http://arxiv.org/abs/2211.07596v1 )

ライセンス: Link先を確認
Yuxuan Ye and Edwin Simpson(参考訳) 時系列要約 (tls) は、日付の一連のイベントを簡潔に記述した時間順要約リストを作成することを目的としている。 これは一般的な要約タスクと異なり、入力文書の主要なアイデア以外に時間情報を取得する方法が必要となる。 本稿では,ユーザからのフィードバックから,強化学習を通じて対話的に学習し,ユーザの興味を満たすタイムラインを生成するTLSシステムを提案する。 ユーザとのインタラクションを通じて受信したフィードバックに応じて自動的に更新できる複合報酬関数を定義する。 本システムは,要約の局所的整合性,事実整合性,言語流布性を保証するために,強化学習を通じて抽象的要約モデルを微調整する報奨関数を利用する。 提案システムでは,個々のユーザの好みフィードバックは不要である。 実験の結果,本システムは,ベンチマークtlsデータセットのベースラインを上回っており,実ユーザをより満足する精度とタイムラインを正確に生成できることがわかった。

Timeline summarisation (TLS) aims to create a time-ordered summary list concisely describing a series of events with corresponding dates. This differs from general summarisation tasks because it requires the method to capture temporal information besides the main idea of the input documents. This paper proposes a TLS system which can interactively learn from the user's feedback via reinforcement learning and generate timelines satisfying the user's interests. We define a compound reward function that can update automatically according to the received feedback through interaction with the user. The system utilises the reward function to fine-tune an abstractive summarisation model via reinforcement learning to guarantee topical coherence, factual consistency and linguistic fluency of the generated summaries. The proposed system avoids the need of preference feedback from individual users. The experiments show that our system outperforms the baseline on the benchmark TLS dataset and can generate accurate and timeline precises that better satisfy real users.
翻訳日:2022-11-15 16:19:36 公開日:2022-11-14
# 群衆の知恵をフォローする:最小ベイズリスク復号による効果的なテキスト生成

Follow the Wisdom of the Crowd: Effective Text Generation via Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2211.07634v1 )

ライセンス: Link先を確認
Mirac Suzgun, Luke Melas-Kyriazi, Dan Jurafsky(参考訳) オープンな自然言語生成では、既存のテキスト復号法は、多様かつ高品質なテキストを生成するのに苦労する。 グリーディとビームサーチはテキストの変性と言語多様性の問題に苦しむことが知られており、温度、トップk、核サンプリングは多様だが低品質のアウトプットを生み出している。 本研究では,ベイズリスク最小化に基づくデコード手法である群集サンプリングを行い,この多様性のトレードオフに対処する。 群衆の知恵」の原理に着想を得て、集団サンプリングは、所定の効用関数に従って生成モデルの下で最も期待されるリスク(すなわち最も期待される報酬)の少ない候補のプールから候補者を選択する。 群衆サンプリングは多数決を含む多くの既存手法の一般化と見なすことができ、実際には既存のサンプリング方法のドロップイン代替として使うことができる。 大規模な実験により,WebNLG と WMT'16 上での新たな最先端結果の達成とともに,要約,データからテキストへの翻訳,テキストスタイルの転送など,幅広いタスクにわたる3~7ROUGE と BLEU 点の改善が得られた。

In open-ended natural-language generation, existing text decoding methods typically struggle to produce text which is both diverse and high-quality. Greedy and beam search are known to suffer from text degeneration and linguistic diversity issues, while temperature, top-k, and nucleus sampling often yield diverse but low-quality outputs. In this work, we present crowd sampling, a family of decoding methods based on Bayesian risk minimization, to address this diversity-quality trade-off. Inspired by the principle of "the wisdom of the crowd," crowd sampling seeks to select a candidate from a pool of candidates that has the least expected risk (i.e., highest expected reward) under a generative model according to a given utility function. Crowd sampling can be seen as a generalization of numerous existing methods, including majority voting, and in practice, it can be used as a drop-in replacement for existing sampling methods. Extensive experiments show that crowd sampling delivers improvements of 3-7 ROUGE and BLEU points across a wide range of tasks, including summarization, data-to-text, translation, and textual style transfer, while achieving new state-of-the-art results on WebNLG and WMT'16.
翻訳日:2022-11-15 16:19:20 公開日:2022-11-14
# MT4SSL:複数ターゲットの統合による自己監督型音声表現学習の促進

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets ( http://arxiv.org/abs/2211.07321v1 )

ライセンス: Link先を確認
Ziyang Ma, Zhisheng Zhen, Changli Tang, Yujin Wang, Xie Chen(参考訳) 本稿では,自己学習目標の獲得方法から,自己教師付き音声モデルに対する新しい視点を提案する。 ターゲット抽出部をオフラインターゲット抽出部(off-te)とオンラインターゲット抽出部(on-te)に一般化し,特定のプリテキストタスクを気にせずに処理を行う。 そこで,本研究では,自己教師あり学習のためのマルチタスク学習フレームワークであるmt4sslを提案する。 MT4SSL は HuBERT と data2vec の2つの典型的なモデルを指し、K-means アルゴリズムを Off-TE として、教師ネットワークを On-TE として使用する。 我々のモデルは、LibriSpeechベンチマークの非自明なマージンで以前のSSLメソッドより優れており、そのようなデータを必要としない最高のパフォーマンスモデルに匹敵するか、さらに優れている。 さらに,Off-TEとOn-TEの両方を用いることで,事前学習フェーズの収束性が向上することがわかった。 効果と効率の両面で、自己教師付き音声モデルでマルチタスク学習を行うことは有望なトレンドであると考えている。

In this paper, we provide a new perspective on self-supervised speech models from how the self-training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE), without caring about specific pretext tasks. Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL refers to two typical models, HuBERT and data2vec, which use the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with no need for that much data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think that doing multi-task learning on self-supervised speech models from our perspective is a promising trend.
翻訳日:2022-11-15 16:18:54 公開日:2022-11-14
# BiViT:極端に圧縮されたバイナリビジョントランス

BiViT: Extremely Compressed Binary Vision Transformer ( http://arxiv.org/abs/2211.07091v1 )

ライセンス: Link先を確認
Yefei He, Zhenyu Lou, Luoming Zhang, Weijia Wu, Bohan Zhuang, Hong Zhou(参考訳) モデルバイナライゼーションは、モデルサイズを著しく圧縮し、エネルギー消費を削減し、効率的なビット演算によって推論を加速することができる。 畳み込み畳み込みニューラルネットワークは広範に研究されているが、視覚認識における最新のブレークスルーを支える視覚変換器のバイナライゼーションを探求する研究はほとんどない。 この目的のために,両眼視変換器(BiViT)の水平方向を推し進めるための2つの基本的な課題を提案する。 第一に、従来の二分法はソフトマックスの長期分布を考慮に入れず、アテンションモジュールに大きな二項化誤差をもたらす。 そこで本研究では,データ分布に動的に適応し,二項化による誤差を低減するソフトマックス対応バイナリ化を提案する。 第2に,事前学習したモデルの情報をうまく活用し,精度を回復するために,層間二元化スキームを提案し,重み付き二元化のための学習可能なチャネルワイズスケーリング係数を導入する。 前者は自己アテンションとMLPの双対化を分離し、相互干渉を避ける一方、後者は双対化モデルの表現能力を高める。 全体として、この手法はTinyImageNetデータセットで19.8%向上した。 ImageNet上では、BiViTはSwin-Tモデルよりも70.8%のTop-1の精度を達成し、既存のSOTAメソッドをクリアマージンで上回っている。

Model binarization can significantly compress model size, reduce energy consumption, and accelerate inference through efficient bit-wise operations. Although binarizing convolutional neural networks have been extensively studied, there is little work on exploring binarization on vision Transformers which underpin most recent breakthroughs in visual recognition. To this end, we propose to solve two fundamental challenges to push the horizon of Binary Vision Transformers (BiViT). First, the traditional binary method does not take the long-tailed distribution of softmax attention into consideration, bringing large binarization errors in the attention module. To solve this, we propose Softmax-aware Binarization, which dynamically adapts to the data distribution and reduces the error caused by binarization. Second, to better exploit the information of the pretrained model and restore accuracy, we propose a Cross-layer Binarization scheme and introduce learnable channel-wise scaling factors for weight binarization. The former decouples the binarization of self-attention and MLP to avoid mutual interference while the latter enhances the representation capacity of binarized models. Overall, our method performs favorably against state-of-the-arts by 19.8% on the TinyImageNet dataset. On ImageNet, BiViT achieves a competitive 70.8% Top-1 accuracy over Swin-T model, outperforming the existing SOTA methods by a clear margin.
翻訳日:2022-11-15 16:09:47 公開日:2022-11-14
# dronenet: セルフオンによるドローンの群集密度の推定

DroneNet: Crowd Density Estimation using Self-ONNs for Drones ( http://arxiv.org/abs/2211.07137v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, and Ridha Hamila(参考訳) ドローンによるビデオ監視は、展開の容易さと、多くのシナリオにおける無人機の動きのために便利かつ効率的である。 ドローンによるビデオ監視の興味深い応用は、公共の場で群衆密度(歩行者と車両の両方)を推定することだ。 畳み込みニューラルネットワーク(CNN)を用いた深層学習は、画像やビデオを用いた自動群集カウントと密度推定に使用される。 しかしながら、これらのモデルの性能と精度は、一般的にモデルアーキテクチャに依存する。つまり、より深いcnnモデルは、推論時間を増やすコストで精度を向上させる。 本稿では,自己組織型オペレーショナルニューラルネットワーク(Self-ONN)を用いたドローン(DroneNet)の群集密度推定モデルを提案する。 Self-ONNはCNNベースのモデルと比較して計算複雑性の低い効率的な学習機能を提供する。 私たちは2つのドローンビュー公開データセットでアルゴリズムをテストしました。 評価の結果,提案するDroneNetは同等のCNNモデルにおいて優れた性能を示した。

Video surveillance using drones is both convenient and efficient due to the ease of deployment and unobstructed movement of drones in many scenarios. An interesting application of drone-based video surveillance is to estimate crowd densities (both pedestrians and vehicles) in public places. Deep learning using convolution neural networks (CNNs) is employed for automatic crowd counting and density estimation using images and videos. However, the performance and accuracy of such models typically depend upon the model architecture i.e., deeper CNN models improve accuracy at the cost of increased inference time. In this paper, we propose a novel crowd density estimation model for drones (DroneNet) using Self-organized Operational Neural Networks (Self-ONN). Self-ONN provides efficient learning capabilities with lower computational complexity as compared to CNN-based models. We tested our algorithm on two drone-view public datasets. Our evaluation shows that the proposed DroneNet shows superior performance on an equivalent CNN-based model.
翻訳日:2022-11-15 16:09:22 公開日:2022-11-14
# マルチモーダルヘッドライン生成のための事前学習モデル

Grafting Pre-trained Models for Multimodal Headline Generation ( http://arxiv.org/abs/2211.07210v1 )

ライセンス: Link先を確認
Lingfeng Qiao, Chen Wu, Ye Liu, Haoyuan Peng, Di Yin, Bo Ren(参考訳) マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。 大規模で手動で注釈付けされたデータがないため、動画の見出しに注釈をつけるタスクは労働集約的で実用的ではない。 事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。 しかし、これらはマルチモーダルエンコーダと文デコーダの両方を必要とするマルチモーダルヘッドラインアーキテクチャに直接適用することはできない。 言語モデルとビデオ言語モデルを簡単に結合する上での大きな課題は、視覚言語補完能力の組み合わせを目的としたモダリティバランスである。 本稿では,ビデオエンコーダを前訓練型ビデオ言語モデルから生成型前訓練型言語モデルに移植する新しい手法を提案する。 また,相互/イントラモダリティ関係を介して,異なる成分の統合のためのコンセンサス融合機構を提案する。 実験により, 実世界のアプリケーションから収集した新たなデータセットに対して, グラフトモデルにより強い結果が得られた。

Multimodal headline utilizes both video frames and transcripts to generate the natural language title of the videos. Due to a lack of large-scale, manually annotated data, the task of annotating grounded headlines for video is labor intensive and impractical. Previous researches on pre-trained language models and video-language models have achieved significant progress in related downstream tasks. However, none of them can be directly applied to multimodal headline architecture where we need both multimodal encoder and sentence decoder. A major challenge in simply gluing language model and video-language model is the modality balance, which is aimed at combining visual-language complementary abilities. In this paper, we propose a novel approach to graft the video encoder from the pre-trained video-language model on the generative pre-trained language model. We also present a consensus fusion mechanism for the integration of different components, via inter/intra modality relation. Empirically, experiments show that the grafted model achieves strong results on a brand-new dataset collected from real-world applications.
翻訳日:2022-11-15 16:09:06 公開日:2022-11-14
# 組織学領域同定のためのシード反復クラスタリング

Seeded iterative clustering for histology region identification ( http://arxiv.org/abs/2211.07425v1 )

ライセンス: Link先を確認
Eduard Chelebian and Francesco Ciompi and Carolina W\"ahlby(参考訳) 病理組織学のためのコンピュータビジョンアルゴリズムを開発するにはアノテーションが必要であるが、高解像度の高密度アノテーションは時間を要することが多い。 セグメンテーションのためのディープラーニングモデルは、プロセスを緩和する手段ですが、大量のトレーニングデータ、トレーニング時間、計算能力が必要です。 これらの問題に対処するため,我々は,粗いセグメンテーションを密に,スライドレベル全体に生成するために,シード型反復クラスタリングを提案する。 このアルゴリズムは、予め計算された表現をクラスタリング空間として使用し、限られた量のスパースインタラクティブアノテーションを種として、反復的にイメージパッチを分類する。 スライド画像全体に対する高密度アノテーションを高速かつ効果的に生成する手法と、トランスファーラーニングの文脈におけるニューラルネットワーク潜在表現の比較を可能にするフレームワークを得る。

Annotations are necessary to develop computer vision algorithms for histopathology, but dense annotations at a high resolution are often time-consuming to make. Deep learning models for segmentation are a way to alleviate the process, but require large amounts of training data, training times and computing power. To address these issues, we present seeded iterative clustering to produce a coarse segmentation densely and at the whole slide level. The algorithm uses precomputed representations as the clustering space and a limited amount of sparse interactive annotations as seeds to iteratively classify image patches. We obtain a fast and effective way of generating dense annotations for whole slide images and a framework that allows the comparison of neural network latent representations in the context of transfer learning.
翻訳日:2022-11-15 16:08:51 公開日:2022-11-14
# 意味的類似性を利用した知識グラフエンコーダを用いた質問応答用ALBERT

ALBERT with Knowledge Graph Encoder Utilizing Semantic Similarity for Commonsense Question Answering ( http://arxiv.org/abs/2211.07065v1 )

ライセンス: Link先を確認
Byeongmin Choi, YongHyun Lee, Yeunwoong Kyung and Eunchan Kim(参考訳) 近年,変換器(BERT)からの双方向エンコーダ表現などの事前学習された言語表現モデルは,CSQA(Commonsense Question answering)においてよく機能している。 しかし、モデルが外部に存在する知識ソースの明示的な情報を直接使用しないという問題がある。 これを強化するために、知識対応グラフネットワーク(KagNet)やマルチホップグラフ関係ネットワーク(MHGRN)などの追加手法が提案されている。 本研究では,知識グラフ情報抽出技術を用いたトランスフォーマー(ALBERT)の双方向エンコーダ表現として,最新の事前学習言語モデルを提案する。 また,新しい手法であるスキーマグラフ拡張を最近の言語モデルに適用することを提案する。 そして,知識グラフに基づく知識抽出手法を最近の事前学習言語モデルに適用し,スキーマグラフの拡張がある程度有効であることを確認する。 さらに,提案モデルにより,CommonsenseQAデータセットにおける既存のKagNetおよびMHGRNモデルよりも優れた性能が得られることを示す。

Recently, pre-trained language representation models such as bidirectional encoder representations from transformers (BERT) have been performing well in commonsense question answering (CSQA). However, there is a problem that the models do not directly use explicit information of knowledge sources existing outside. To augment this, additional methods such as knowledge-aware graph network (KagNet) and multi-hop graph relation network (MHGRN) have been proposed. In this study, we propose to use the latest pre-trained language model a lite bidirectional encoder representations from transformers (ALBERT) with knowledge graph information extraction technique. We also propose to applying the novel method, schema graph expansion to recent language models. Then, we analyze the effect of applying knowledge graph-based knowledge extraction techniques to recent pre-trained language models and confirm that schema graph expansion is effective in some extent. Furthermore, we show that our proposed model can achieve better performance than existing KagNet and MHGRN models in CommonsenseQA dataset.
翻訳日:2022-11-15 16:02:08 公開日:2022-11-14
# 難しい例も説明が難しいのか? 人間とモデルによる説明に関する研究

Are Hard Examples also Harder to Explain? A Study with Human and Model-Generated Explanations ( http://arxiv.org/abs/2211.07517v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Peter Hase, Nazneen Rajani, Mohit Bansal(参考訳) 説明可能なNLPに関する最近の研究は、少数ショットプロンプトにより、大規模事前訓練された言語モデル(LLM)がデータラベルの文法的および事実的自然言語説明を生成することができることを示した。 本研究は,「LLMと人間は,簡単かつ硬いサンプルの両方にデータラベルを説明するのが得意なのか?」という質問に対して,説明可能性とサンプル硬さの関係について検討する。 まず、winograd schema challenge (winogrande dataset) のタスクについて、一般化可能なcommonsenseルールの形で、人間が記述した説明を収集することで、この質問に答える。 これらの説明をGPT-3で生成されたものと比較し,テストサンプルの硬さとコンテキスト内サンプルの硬さを変化させる。 その結果,(1) GPT-3の説明は, 試験試料の硬さに関わらず, 人間の説明と同じくらい文法的であり, (2) 簡単な例では, GPT-3は高い支持的説明を生成するが, 人間の説明はより一般化可能であり, 3) 難解な例では, ラベル支持性および一般化可能性判定の両方の観点からも, GPT-3の説明よりもはるかに優れていることがわかった。 また、文脈内例の硬さがGPT-3説明の質に影響を及ぼすことも見出した。 最後に、人間の説明の支持性と一般化性も、モデルよりもはるかに小さなマージンで、サンプル硬さの影響を受けていることを示す。 コードとデータはhttps://github.com/swarnaHub/ExplanationHardnessで入手できる。

Recent work on explainable NLP has shown that few-shot prompting can enable large pretrained language models (LLMs) to generate grammatical and factual natural language explanations for data labels. In this work, we study the connection between explainability and sample hardness by investigating the following research question - "Are LLMs and humans equally good at explaining data labels for both easy and hard samples?" We answer this question by first collecting human-written explanations in the form of generalizable commonsense rules on the task of Winograd Schema Challenge (Winogrande dataset). We compare these explanations with those generated by GPT-3 while varying the hardness of the test samples as well as the in-context samples. We observe that (1) GPT-3 explanations are as grammatical as human explanations regardless of the hardness of the test samples, (2) for easy examples, GPT-3 generates highly supportive explanations but human explanations are more generalizable, and (3) for hard examples, human explanations are significantly better than GPT-3 explanations both in terms of label-supportiveness and generalizability judgements. We also find that hardness of the in-context examples impacts the quality of GPT-3 explanations. Finally, we show that the supportiveness and generalizability aspects of human explanations are also impacted by sample hardness, although by a much smaller margin than models. Supporting code and data are available at https://github.com/swarnaHub/ExplanationHardness
翻訳日:2022-11-15 16:01:50 公開日:2022-11-14
# 大規模言語モデルを用いた数学形式化支援の試み

Towards a Mathematics Formalisation Assistant using Large Language Models ( http://arxiv.org/abs/2211.07524v1 )

ライセンス: Link先を確認
Ayush Agrawal, Siddhartha Gadgil, Navin Goyal, Ashvni Narayanan, Anand Tadipatri(参考訳) 数学の形式化(英: mathematics formalization)とは、自然言語で数学(すなわち、定義、定理ステートメント、証明)を、書籍や論文に見られるように、プログラムによって正しさを確認する形式言語に記述する作業である。 現在では活発な活動であるが、形式化は難しいままである。 本稿では,大規模言語モデル(codex)のリーン定理証明器における形式化を支援する能力について検討する。 入力依存のプロンプト選択と後処理により、コーデックスは120ドルの定理文に対して75倍近い精度で短い数学的ステートメントを下級レベルで定式化できることがわかった。 実証のためには定量的分析は不可能であり, 詳細な事例研究を行っている。 私たちは下級のレベルで13ドルの定理の多種多様な集合を選び、その証明は2~3段落に収まる。 新しいプロンプト戦略によって、codexはこれらの証明を自然言語で形式化でき、12つのcodex補完のうち少なくとも1つが完全な証明に簡単に修正できることを示した。 形式化された数学、特に証明のためのアライメントデータは存在しないので、これは驚くべきことである。 これらの結果は、大きな言語モデルが完全あるいは部分的に形式化を自動化するための有望な道筋であることを示唆している。

Mathematics formalisation is the task of writing mathematics (i.e., definitions, theorem statements, proofs) in natural language, as found in books and papers, into a formal language that can then be checked for correctness by a program. It is a thriving activity today, however formalisation remains cumbersome. In this paper, we explore the abilities of a large language model (Codex) to help with formalisation in the Lean theorem prover. We find that with careful input-dependent prompt selection and postprocessing, Codex is able to formalise short mathematical statements at undergrad level with nearly 75\% accuracy for $120$ theorem statements. For proofs quantitative analysis is infeasible and we undertake a detailed case study. We choose a diverse set of $13$ theorems at undergrad level with proofs that fit in two-three paragraphs. We show that with a new prompting strategy Codex can formalise these proofs in natural language with at least one out of twelve Codex completion being easy to repair into a complete proof. This is surprising as essentially no aligned data exists for formalised mathematics, particularly for proofs. These results suggest that large language models are a promising avenue towards fully or partially automating formalisation.
翻訳日:2022-11-15 16:01:21 公開日:2022-11-14
# ストーリー可視化のためのマルチモーダル・セマンティックアライメントのモデル化

Learning to Model Multimodal Semantic Alignment for Story Visualization ( http://arxiv.org/abs/2211.07289v1 )

ライセンス: Link先を確認
Bowen Li, Thomas Lukasiewicz(参考訳) ストーリービジュアライゼーションは、複数のシーンで各文をナレーションするための一連の画像を生成することを目的としている。 現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 この問題に対処するために,ganに基づく生成モデルにおいて,テキストと画像表現間の意味的アライメントを学習することによって検討する。 具体的には、学習に応じた動的相互作用を導入し、様々な意味深度を動的に探索し、一致した意味レベルで異なるモーダル情報を融合することにより、テキスト・イメージのセマンティック・アライメントの問題を緩和する。 セグメンテーションマスクや補助キャプションネットワークを使用しない,さまざまなデータセットに関する広範な実験により,最先端手法と比較して画像品質とストーリー一貫性が向上した。

Story visualization aims to generate a sequence of images to narrate each sentence in a multi-sentence story, where the images should be realistic and keep global consistency across dynamic scenes and characters. Current works face the problem of semantic misalignment because of their fixed architecture and diversity of input modalities. To address this problem, we explore the semantic alignment between text and image representations by learning to match their semantic levels in the GAN-based generative model. More specifically, we introduce dynamic interactions according to learning to dynamically explore various semantic depths and fuse the different-modal information at a matched semantic level, which thus relieves the text-image semantic misalignment problem. Extensive experiments on different datasets demonstrate the improvements of our approach, neither using segmentation masks nor auxiliary captioning networks, on image quality and story consistency, compared with state-of-the-art methods.
翻訳日:2022-11-15 15:53:29 公開日:2022-11-14
# eva: 大規模なマスク視覚表現学習の限界を探る

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale ( http://arxiv.org/abs/2211.07636v1 )

ライセンス: Link先を確認
Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao(参考訳) EVAは視覚中心の基盤モデルであり、一般公開データのみを使用して、大規模に視覚表現の限界を探索する。 EVAは、目に見える画像パッチに調整されたマスクされた画像テキスト整列視覚機能を再構築するために事前訓練されたバニラViTである。 このプリテキストタスクを通じて、evaを10億のパラメータに効率的にスケールアップし、画像認識、ビデオアクション認識、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、幅広い代表的なビジョン下流タスクに、教師付きトレーニングなしで新しいレコードを設定することができる。 さらに,他のモデルには存在しない転写学習性能の質的変化を,EVAのスケーリング結果の量的変化として観察する。 私たちのモデルは、1000以上のカテゴリと80以上のカテゴリのCOCOデータセットを持つLVISv1.0データセットで、ほぼ同じ最先端のパフォーマンスを実現しています。 純粋なビジョンエンコーダの他に、EVAは画像とテキストを接続するためのビジョン中心のマルチモーダルピボットとしても機能する。 EVAから巨大なCLIPのビジョンタワーを初期化することで、トレーニングを大幅に安定化し、より少ないサンプルと少ない計算でスクラッチからトレーニングを上回り、マルチモーダルファンデーションモデルのスケールアップと高速化のための新たな方向性を提供することができる。 将来の研究を促進するため、私たちはすべてのコードとモデルを \url{https://github.com/baaivision/EVA} でリリースします。

We launch EVA, a vision-centric foundation model to explore the limits of visual representation at scale using only publicly accessible data. EVA is a vanilla ViT pre-trained to reconstruct the masked out image-text aligned vision features conditioned on visible image patches. Via this pretext task, we can efficiently scale up EVA to one billion parameters, and sets new records on a broad range of representative vision downstream tasks, such as image recognition, video action recognition, object detection, instance segmentation and semantic segmentation without heavy supervised training. Moreover, we observe quantitative changes in scaling EVA result in qualitative changes in transfer learning performance that are not present in other models. For instance, EVA takes a great leap in the challenging large vocabulary instance segmentation task: our model achieves almost the same state-of-the-art performance on LVISv1.0 dataset with over a thousand categories and COCO dataset with only eighty categories. Beyond a pure vision encoder, EVA can also serve as a vision-centric, multi-modal pivot to connect images and text. We find initializing the vision tower of a giant CLIP from EVA can greatly stabilize the training and outperform the training from scratch counterpart with much fewer samples and less compute, providing a new direction for scaling up and accelerating the costly training of multi-modal foundation models. To facilitate future research, we will release all the code and models at \url{https://github.com/baaivision/EVA}.
翻訳日:2022-11-15 15:53:11 公開日:2022-11-14
# マルチVQG:複数画像に対する拡張質問の生成

Multi-VQG: Generating Engaging Questions for Multiple Images ( http://arxiv.org/abs/2211.07441v1 )

ライセンス: Link先を確認
Min-Hsuan Yeh, Vicent Chen, Ting-Hao (Kenneth) Haung, Lun-Wei Ku(参考訳) NLPコミュニティでは、エンゲージメントコンテンツの生成が注目されている。 質問は、写真に反応し、意識を高める自然な方法です。 しかし、従来のQAデータセットの質問に対する回答のほとんどはファクトイドであり、個人の回答意欲を低下させる。 さらに、従来の視覚的質問生成(VQG)は、質問生成のソースデータを単一の画像に閉じ込め、基礎となる事象の時系列情報を理解する能力に制限を与える。 本稿では,複数の画像から係わる質問を生成することを提案する。 我々は、新しいデータセットであるMVQGを紹介し、エンドツーエンドおよびデュアルステージアーキテクチャを含む一連のベースラインを確立する。 結果は、画像シーケンスの背後にストーリーを構築することで、モデルが興味をそそる質問を生成できることを示している。 これらの結果は、視覚と言語モデルが一連の写真の背後にあるストーリーを暗黙的に構築し、創造性と経験を共有することを可能にし、従って下流アプリケーションに注意を向ける、というエキサイティングな挑戦を開く。

Generating engaging content has drawn much recent attention in the NLP community. Asking questions is a natural way to respond to photos and promote awareness. However, most answers to questions in traditional question-answering (QA) datasets are factoids, which reduce individuals' willingness to answer. Furthermore, traditional visual question generation (VQG) confines the source data for question generation to single images, resulting in a limited ability to comprehend time-series information of the underlying event. In this paper, we propose generating engaging questions from multiple images. We present MVQG, a new dataset, and establish a series of baselines, including both end-to-end and dual-stage architectures. Results show that building stories behind the image sequence enables models to generate engaging questions, which confirms our assumption that people typically construct a picture of the event in their minds before asking questions. These results open up an exciting challenge for visual-and-language models to implicitly construct a story behind a series of photos to allow for creativity and experience sharing and hence draw attention to downstream applications.
翻訳日:2022-11-15 15:52:44 公開日:2022-11-14
# 時空間相互作用における物体の多様性の発見

Discovering a Variety of Objects in Spatio-Temporal Human-Object Interactions ( http://arxiv.org/abs/2211.07501v1 )

ライセンス: Link先を確認
Yong-Lu Li, Hongwei Fan, Zuoyu Qiu, Yiming Dou, Liang Xu, Hao-Shu Fang, Peiyang Guo, Haisheng Su, Dongliang Wang, Wei Wu, Cewu Lu(参考訳) 時空間ヒューマンオブジェクトインタラクション(ST-HOI)検出は,ビデオからHOIを検出することを目的としている。 毎日のHOIでは、人間が掃除中に何十もの家庭用品を持って触れるなど、さまざまな物と対話することが多い。 しかしながら、既存のボディオブジェクト間のインタラクションビデオベンチマークは通常、限られたオブジェクトクラスを提供する。 ここでは、AVAに基づく新しいベンチマークを紹介する。 51のインタラクションと1000以上のオブジェクトを含む、DIO(Interacted Objects)の発見。 そこで,ST-HOI学習タスクでは,視覚システムが人間のアクターを追跡し,対話を検出し,対話対象を同時に発見することを期待している。 今日の検出器/トラッカーは、オブジェクトの検出/追跡タスクに優れていますが、dioにおける多様で未知のオブジェクトをローカライズするには不十分です。 これは現在のビジョンシステムの限界を深く明らかにし、大きな課題となる。 そこで,物体発見への時空間的手がかりの活用法を探求し,階層的時空間的人間/文脈的手がかりを利用した対話的物体発見のための階層的プローブネットワーク (hpn) を考案した。 大規模な実験では、HPNは素晴らしい性能を示している。 データとコードはhttps://github.com/DirtyHarryLYL/HAKE-AVA.comで入手できる。

Spatio-temporal Human-Object Interaction (ST-HOI) detection aims at detecting HOIs from videos, which is crucial for activity understanding. In daily HOIs, humans often interact with a variety of objects, e.g., holding and touching dozens of household items in cleaning. However, existing whole body-object interaction video benchmarks usually provide limited object classes. Here, we introduce a new benchmark based on AVA: Discovering Interacted Objects (DIO) including 51 interactions and 1,000+ objects. Accordingly, an ST-HOI learning task is proposed expecting vision systems to track human actors, detect interactions and simultaneously discover interacted objects. Even though today's detectors/trackers excel in object detection/tracking tasks, they perform unsatisfied to localize diverse/unseen objects in DIO. This profoundly reveals the limitation of current vision systems and poses a great challenge. Thus, how to leverage spatio-temporal cues to address object discovery is explored, and a Hierarchical Probe Network (HPN) is devised to discover interacted objects utilizing hierarchical spatio-temporal human/context cues. In extensive experiments, HPN demonstrates impressive performance. Data and code are available at https://github.com/DirtyHarryLYL/HAKE-AVA.
翻訳日:2022-11-15 15:52:25 公開日:2022-11-14
# マシンにとって記憶に残る画像は?

What Images are More Memorable to Machines? ( http://arxiv.org/abs/2211.07625v1 )

ライセンス: Link先を確認
Junlin Han, Huangying Zhan, Jie Hong, Pengfei Fang, Hongdong Li, Lars Petersson, Ian Reid(参考訳) 本稿では、画像がパターン認識マシンにどれだけ記憶可能かを測定し予測する問題を、機械学習を探索するための経路として検討する。 まず, 「MachineMem measurer'」 と呼ばれる自己教師型マシンメモリ量子化パイプラインを提案し, 画像の記憶可能性スコアを収集する。 人間と同様に、機械は特定の種類の画像を記憶する傾向があるが、機械と人間が記念する画像の種類は異なる。 詳細な分析と包括的可視化を通じて、我々は徐々に「複雑な」画像が通常機械にとって記憶に残るものとなることを明らかにした。 さらに11の異なるマシン(線形分類器から現代のViTまで)と9つの事前学習手法を用いてマシンメモリの解析と理解を行う。 本研究は,機械記憶可能性の概念を提案し,マシンメモリと視覚データとのインタフェースに新たな研究方向を開く。

This paper studies the problem of measuring and predicting how memorable an image is to pattern recognition machines, as a path to explore machine intelligence. Firstly, we propose a self-supervised machine memory quantification pipeline, dubbed ``MachineMem measurer'', to collect machine memorability scores of images. Similar to humans, machines also tend to memorize certain kinds of images, whereas the types of images that machines and humans memorialize are different. Through in-depth analysis and comprehensive visualizations, we gradually unveil that "complex" images are usually more memorable to machines. We further conduct extensive experiments across 11 different machines (from linear classifiers to modern ViTs) and 9 pre-training methods to analyze and understand machine memory. This work proposes the concept of machine memorability and opens a new research direction at the interface between machine memory and visual data.
翻訳日:2022-11-15 15:52:05 公開日:2022-11-14
# エゴセントリックビジョンを用いた挑戦的地形における脚部移動

Legged Locomotion in Challenging Terrains using Egocentric Vision ( http://arxiv.org/abs/2211.07638v1 )

ライセンス: Link先を確認
Ananye Agarwal, Ashish Kumar, Jitendra Malik, Deepak Pathak(参考訳) 動物は視覚を使って精密でアジャイルな移動ができる。 この能力の複製は、ロボティクスにおける長年の目標だった。 従来のアプローチでは、この問題を標高マッピングと足場計画フェーズに分解する必要があった。 しかし、標高マッピングは故障や大きなノイズアーティファクトに影響を受けやすく、特殊なハードウェアを必要とし、生物学的には当てはまらない。 本稿では,階段,縁石,踏み石,隙間を横切ることができる最初のエンドツーエンド移動システムを提案する。 この結果を,1台の前面深度カメラを用いた中型四足歩行ロボットに示す。 ロボットの小型化は、他では見られない特殊な歩行パターンの発見を必要とする。 エゴセントリックなカメラは、過去の情報を記憶して後足下の地形を推定する必要がある。 私たちはシミュレーションで政策を訓練する。 トレーニングには2つのフェーズがある – まずは、安価で計算可能な深度画像を用いて強化学習を使用してポリシーを訓練し、次に第2フェーズでは、教師付き学習を使用して深度を使用する最終ポリシーに蒸留する。 結果として得られるポリシーは現実世界に転送され、ロボットの限られた計算でリアルタイムで実行することができる。 様々な地形を横切ることができ、押し込み、滑りやすい表面、岩の多い地形といった摂動に頑丈である。 ビデオはhttps://vision-locomotion.github.io

Animals are capable of precise and agile locomotion using vision. Replicating this ability has been a long-standing goal in robotics. The traditional approach has been to decompose this problem into elevation mapping and foothold planning phases. The elevation mapping, however, is susceptible to failure and large noise artifacts, requires specialized hardware, and is biologically implausible. In this paper, we present the first end-to-end locomotion system capable of traversing stairs, curbs, stepping stones, and gaps. We show this result on a medium-sized quadruped robot using a single front-facing depth camera. The small size of the robot necessitates discovering specialized gait patterns not seen elsewhere. The egocentric camera requires the policy to remember past information to estimate the terrain under its hind feet. We train our policy in simulation. Training has two phases - first, we train a policy using reinforcement learning with a cheap-to-compute variant of depth image and then in phase 2 distill it into the final policy that uses depth using supervised learning. The resulting policy transfers to the real world and is able to run in real-time on the limited compute of the robot. It can traverse a large variety of terrain while being robust to perturbations like pushes, slippery surfaces, and rocky terrain. Videos are at https://vision-locomotion.github.io
翻訳日:2022-11-15 15:51:33 公開日:2022-11-14
# 欠落値の多い患者旅行データを用いた健康リスク予測のための畳み込み・再帰的ニューラルネットワーク

Integrated Convolutional and Recurrent Neural Networks for Health Risk Prediction using Patient Journey Data with Many Missing Values ( http://arxiv.org/abs/2211.06045v2 )

ライセンス: Link先を確認
Yuxi Liu, Shaowen Qin, Antonio Jimeno Yepes, Wei Shao, Zhenhao Zhang, Flora D. Salim(参考訳) 電子健康記録(ehr)を用いた患者の健康リスクの予測は、近年、特に深層学習技術の発展によって注目されている。 健康リスク(Health risk)とは、特定の患者の特定の健康結果の発生確率である。 予測されるリスクは、医療専門家による意思決定を支援するために使用できる。 EHRは構造化された患者旅行データである。 各患者旅行は、臨床イベントの時系列セットを含み、各臨床イベント内には、臨床・医療活動のセットがある。 患者状況や治療ニーズの相違により、EHR患者旅行データは本質的に、時間を含む変数間の関係に影響を及ぼす重要な情報を含む欠落度が高い。 既存のディープラーニングベースのモデルは、関係を学習するときに、欠落した値のインデュート値を生成する。 しかし, EHR患者旅行データにおけるインプテッドデータは, 当初のEHR患者旅行データの臨床的意味を歪め, 分類バイアスをもたらす可能性がある。 本稿では,統合畳み込みニューラルネットワークとリカレントニューラルネットワークを用いたEMH患者旅行データのモデリング手法を提案する。 本モデルは,各患者旅における長期的,短期的両方の時間的パターンを捉えることができ,インプテーションデータ生成を必要とせず,ehlデータの高次欠如を効果的に処理できる。 2つの実世界のデータセットに提案したモデルを用いた大規模な実験結果は、既存の最先端の計算に基づく予測手法と比較して、頑健な性能と優れた予測精度を示す。

Predicting the health risks of patients using Electronic Health Records (EHR) has attracted considerable attention in recent years, especially with the development of deep learning techniques. Health risk refers to the probability of the occurrence of a specific health outcome for a specific patient. The predicted risks can be used to support decision-making by healthcare professionals. EHRs are structured patient journey data. Each patient journey contains a chronological set of clinical events, and within each clinical event, there is a set of clinical/medical activities. Due to variations of patient conditions and treatment needs, EHR patient journey data has an inherently high degree of missingness that contains important information affecting relationships among variables, including time. Existing deep learning-based models generate imputed values for missing values when learning the relationships. However, imputed data in EHR patient journey data may distort the clinical meaning of the original EHR patient journey data, resulting in classification bias. This paper proposes a novel end-to-end approach to modeling EHR patient journey data with Integrated Convolutional and Recurrent Neural Networks. Our model can capture both long- and short-term temporal patterns within each patient journey and effectively handle the high degree of missingness in EHR data without any imputation data generation. Extensive experimental results using the proposed model on two real-world datasets demonstrate robust performance as well as superior prediction accuracy compared to existing state-of-the-art imputation-based prediction methods.
翻訳日:2022-11-15 15:43:48 公開日:2022-11-14
# 顔認識Bootstrap法の性能と公正度の評価

Assessing Performance and Fairness Metrics in Face Recognition - Bootstrap Methods ( http://arxiv.org/abs/2211.07245v1 )

ライセンス: Link先を確認
Jean-R\'emy Conti, St\'ephan Cl\'emen\c{c}on(参考訳) roc曲線は、顔認識における類似度スコアリング関数の性能だけでなく、フェアネス特性を評価するための主要なツールである。 経験的ROC分析に基づいて信頼性の高い結論を導き出すためには,ROC曲線の統計バージョンに関する不確かさを正確に評価する必要がある。 この目的のために,本論文では,True/False Acceptance Rates は類似性スコアの場合に U-statistics の形式であるため,単純ブートストラップアプローチはここでは有効ではなく,代わりに専用更新手法を使わなければならない,と説明する。 これは、一般的な公正度測定値など、複数のROCベースのメトリクスに適用した場合に、顔画像の実データに示される。

The ROC curve is the major tool for assessing not only the performance but also the fairness properties of a similarity scoring function in Face Recognition. In order to draw reliable conclusions based on empirical ROC analysis, evaluating accurately the uncertainty related to statistical versions of the ROC curves of interest is necessary. For this purpose, we explain in this paper that, because the True/False Acceptance Rates are of the form of U-statistics in the case of similarity scoring, the naive bootstrap approach is not valid here and that a dedicated recentering technique must be used instead. This is illustrated on real data of face images, when applied to several ROC-based metrics such as popular fairness metrics.
翻訳日:2022-11-15 15:43:25 公開日:2022-11-14
# 視覚的関係抽出における画像の役割の分析

On Analyzing the Role of Image for Visual-enhanced Relation Extraction ( http://arxiv.org/abs/2211.07504v1 )

ライセンス: Link先を確認
Lei Li, Xiang Chen, Shuofei Qiao, Feiyu Xiong, Huajun Chen, Ningyu Zhang(参考訳) マルチモーダル関係抽出は知識グラフ構築に不可欠なタスクである。 本稿では,視覚的シーングラフにおける不正確な情報から,モーダルアライメントの重みが低下し,さらに劣化することを示す詳細な実験分析を行う。 さらに、視覚シャッフル実験は、現在のアプローチが視覚情報を完全に活用できないことを示している。 さらに,この観測に基づいて,マルチモーダル関係抽出のためのトランスフォーマに基づく暗黙の微細なマルチモーダルアライメントを持つ強いベースラインを提案する。 実験の結果,本手法の性能が向上した。 コードはhttps://github.com/zjunlp/deepke/tree/main/example/re/multimodalで入手できる。

Multimodal relation extraction is an essential task for knowledge graph construction. In this paper, we take an in-depth empirical analysis that indicates the inaccurate information in the visual scene graph leads to poor modal alignment weights, further degrading performance. Moreover, the visual shuffle experiments illustrate that the current approaches may not take full advantage of visual information. Based on the above observation, we further propose a strong baseline with an implicit fine-grained multimodal alignment based on Transformer for multimodal relation extraction. Experimental results demonstrate the better performance of our method. Codes are available at https://github.com/zjunlp/DeepKE/tree/main/example/re/multimodal.
翻訳日:2022-11-15 15:43:11 公開日:2022-11-14
# SPE:Fact Probingのための対称型プロンプトエンハンスメント

SPE: Symmetrical Prompt Enhancement for Fact Probing ( http://arxiv.org/abs/2211.07078v1 )

ライセンス: Link先を確認
Yiyuan Li, Tong Che, Yezhen Wang, Zhengbao Jiang, Caiming Xiong, Snigdha Chaturvedi(参考訳) プレトレーニング言語モデル(PLM)は,事前トレーニング中に事実知識を蓄積することが示されている(Petroni et al., 2019)。 最近の研究は、離散形式または連続形式のいずれかのプロンプトを通じて、この知識の範囲をplmで調査している。 しかし、これらの手法はタスクの対称性を考慮しない: 対象予測と対象予測である。 本研究では,主観的および対象的予測のための対称的プロンプトを構築することで,課題の対称性を活用するPLMにおける実写的プロンプトに基づく連続的プロンプトベース手法であるSPEを提案する。 その結果,従来の探索手法に比べて,SPEの大幅な改善が見られた。

Pretrained language models (PLMs) have been shown to accumulate factual knowledge during pretrainingng (Petroni et al., 2019). Recent works probe PLMs for the extent of this knowledge through prompts either in discrete or continuous forms. However, these methods do not consider symmetry of the task: object prediction and subject prediction. In this work, we propose Symmetrical Prompt Enhancement (SPE), a continuous prompt-based method for factual probing in PLMs that leverages the symmetry of the task by constructing symmetrical prompts for subject and object prediction. Our results on a popular factual probing dataset, LAMA, show significant improvement of SPE over previous probing methods.
翻訳日:2022-11-15 15:41:54 公開日:2022-11-14
# 融合図を用いた群同変ニューラルネットワーク

Group-Equivariant Neural Networks with Fusion Diagrams ( http://arxiv.org/abs/2211.07482v1 )

ライセンス: Link先を確認
Zimu Li, Han Zheng, Erik Thiede, Junyu Liu, and Risi Kondor(参考訳) 物理学や化学における多くの学習課題は、粒子間の置換対称性と同様に、大域的な空間対称性を含む。 このような問題に対する標準的なアプローチは、空間群の下で変換される様々なテンソル間のテンソル積を用いる等変ニューラルネットワークである。 しかし、異なるテンソルの数とそれらの間の関係の複雑さが増すにつれて、同値性や同値性を保証するための簿記は急速に非自明になる。 本稿では,su($2$)対称量子多体問題のシミュレーションに広く用いられている核融合ダイアグラムを用いて,等価ニューラルネットワークに用いる新しい等価成分を設計することを提案する。 これにより、新しいニューラルネットワークアーキテクチャを構築するための図式的アプローチが生まれます。 与えられた局所近傍の粒子に適用した場合、融合ブロックと呼ばれる結果の成分は、その近傍で定義される任意の連続同変関数の普遍近似であることを示す。 実演として、既存の同変アーキテクチャ(Cormorant)に融合ブロックを組み込んで、ベンチマーク分子学習タスクの性能を向上させることを示す。

Many learning tasks in physics and chemistry involve global spatial symmetries as well as permutational symmetry between particles. The standard approach to such problems is equivariant neural networks, which employ tensor products between various tensors that transform under the spatial group. However, as the number of different tensors and the complexity of relationships between them increases, the bookkeeping associated with ensuring parsimony as well as equivariance quickly becomes nontrivial. In this paper, we propose to use fusion diagrams, a technique widely used in simulating SU($2$)-symmetric quantum many-body problems, to design new equivariant components for use in equivariant neural networks. This yields a diagrammatic approach to constructing new neural network architectures. We show that when applied to particles in a given local neighborhood, the resulting components, which we call fusion blocks, are universal approximators of any continuous equivariant function defined on the neighborhood. As a practical demonstration, we incorporate a fusion block into a pre-existing equivariant architecture (Cormorant) and show that it improves performance on benchmark molecular learning tasks.
翻訳日:2022-11-15 15:41:41 公開日:2022-11-14
# 低リソース情報抽出のための勾配模倣強化学習

Gradient Imitation Reinforcement Learning for General Low-Resource Information Extraction ( http://arxiv.org/abs/2211.06014v2 )

ライセンス: Link先を確認
Xuming Hu, Shiao Meng, Chenwei Zhang, Xiangli Yang, Lijie Wen, Irwin King, Philip S. Yu(参考訳) 情報抽出(IE)は異種情報源から構造化情報を抽出することを目的としている。 自然言語テキストからのIEには、名前付きエンティティ認識(NER)、関係抽出(RE)、イベント抽出(EE)などのサブタスクが含まれる。 ほとんどのIEシステムは、文構造、暗黙のセマンティクス、ドメイン知識の包括的な理解を必要とするため、IEタスクは常に適切な外部リソースとアノテーションが必要である。 しかし、より人間のアノテーションを得るには時間と労力を要する。 低リソース情報抽出(LRIE)は、教師なしのデータを使用し、必要なリソースと人間のアノテーションを減らす。 実際には、既存のシステムは自己学習方式を使用して、段階的なドリフト問題を引き起こす擬似ラベルを生成するか、あるいは必然的に確証バイアスを持つ一貫性の正則化手法を利用する。 既存のLRIE学習パラダイムにおけるフィードバックループの欠如による確認バイアスを軽減するため,ラベル付きデータに勾配降下方向を模した擬ラベル付きデータを奨励するグラディエント・イミテーション・強化学習(GIRL)法を開発した。 ラベル付きデータから得られた指示的勾配降下方向を擬似ラベル付きデータがいかによく模倣するかに基づき、模倣過程を定量化し、試行錯誤により擬似ラベル付きデータの最適化能力をブートストラップする報酬をデザインする。 学習パラダイムに加えて、GIRLは特定のサブタスクに限らず、GIRLを利用して低リソース環境(準教師付きIEと少数ショットIE)におけるすべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決する。

Information Extraction (IE) aims to extract structured information from heterogeneous sources. IE from natural language texts include sub-tasks such as Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). Most IE systems require comprehensive understandings of sentence structure, implied semantics, and domain knowledge to perform well; thus, IE tasks always need adequate external resources and annotations. However, it takes time and effort to obtain more human annotations. Low-Resource Information Extraction (LRIE) strives to use unsupervised data, reducing the required resources and human annotation. In practice, existing systems either utilize self-training schemes to generate pseudo labels that will cause the gradual drift problem, or leverage consistency regularization methods which inevitably possess confirmation bias. To alleviate confirmation bias due to the lack of feedback loops in existing LRIE learning paradigms, we develop a Gradient Imitation Reinforcement Learning (GIRL) method to encourage pseudo-labeled data to imitate the gradient descent direction on labeled data, which can force pseudo-labeled data to achieve better optimization capabilities similar to labeled data. Based on how well the pseudo-labeled data imitates the instructive gradient descent direction obtained from labeled data, we design a reward to quantify the imitation process and bootstrap the optimization capability of pseudo-labeled data through trial and error. In addition to learning paradigms, GIRL is not limited to specific sub-tasks, and we leverage GIRL to solve all IE sub-tasks (named entity recognition, relation extraction, and event extraction) in low-resource settings (semi-supervised IE and few-shot IE).
翻訳日:2022-11-15 15:33:19 公開日:2022-11-14
# ゲーム内有害言語検出:タスクの共有と注意の残り

In-game Toxic Language Detection: Shared Task and Attention Residuals ( http://arxiv.org/abs/2211.05995v2 )

ライセンス: Link先を確認
Yuanzhe Jia, Weixuan Wu, Feiqi Cao, Soyeon Caren Han(参考訳) ゲーム内有毒言語は、ゲーム業界やコミュニティにおいてホットポテトとなる。 オンラインゲーム毒性分析フレームワークやモデルが提案されている。 しかし,ゲーム内チャットの性質が極めて短いため,毒性を検出することは依然として困難である。 本稿では,実際のゲーム内チャットデータを用いて,ゲーム内有害言語共有タスクの確立について述べる。 さらに,ゲーム内チャットから有害な言語トークンタグ付け(slot fill)のためのモデル/フレームワークを提案する。 データとコードはリリースされます。

In-game toxic language becomes the hot potato in the gaming industry and community. There have been several online game toxicity analysis frameworks and models proposed. However, it is still challenging to detect toxicity due to the nature of in-game chat, which has extremely short length. In this paper, we describe how the in-game toxic language shared task has been established using the real-world in-game chat data. In addition, we propose and introduce the model/framework for toxic language token tagging (slot filling) from the in-game chat. The data and code will be released.
翻訳日:2022-11-15 15:32:37 公開日:2022-11-14