このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230307となっている論文です。

PDF登録状況(公開日: 20230307)

TitleAuthorsAbstract論文公表日・翻訳日
# chatgptで多くのバイオインフォマティクスプログラミングタスクを自動化できる

Many bioinformatics programming tasks can be automated with ChatGPT ( http://arxiv.org/abs/2303.13528v1 )

ライセンス: Link先を確認
Stephen R. Piccolo, Paul Denny, Andrew Luxton-Reilly, Samuel Payne, Perry G. Ridge(参考訳) コンピュータプログラミングは生命科学者にとって基本的なツールであり、多くの重要な研究課題を遂行することができる。 しかし、様々な教育努力にもかかわらず、コードを書くことを学ぶことは、生命科学の分野の研究者と学生の両方にとって難しい取り組みである。 近年の人工知能の進歩により、人間の言語プロンプトを関数型コードに変換することが可能となり、これらの技術が生命科学者のコードを書く努力を助ける(あるいは置き換える)ことができるかという疑問が持ち上がった。 導入バイオインフォマティクスコースからの184のプログラミング演習を用いて、そのようなモデルであるOpenAIのChatGPTが、基本的なプログラミングタスクから中程度のプログラミングタスクを完了できる範囲を評価した。 最初の試みで、chatgptは139(75.5%)の演習を解決した。 残りの演習では、モデルに自然言語によるフィードバックを提供し、異なるアプローチを試すように促しました。 7回かそれ以下で、chatgptは演習の179(97.3%)を解決した。 これらの知見は生命科学研究と教育に重要な意味を持つ。 多くのプログラミングタスクでは、研究者はスクラッチからコードを書く必要がなくなった。 代わりに、機械学習モデルは有用なソリューションを生み出すかもしれない。 インストラクターは、一般向けに利用可能なこれらの新しい機能を考慮するために、教育的アプローチと評価手法を適応する必要があるかもしれない。

Computer programming is a fundamental tool for life scientists, allowing them to carry out many essential research tasks. However, despite a variety of educational efforts, learning to write code can be a challenging endeavor for both researchers and students in life science disciplines. Recent advances in artificial intelligence have made it possible to translate human-language prompts to functional code, raising questions about whether these technologies can aid (or replace) life scientists' efforts to write code. Using 184 programming exercises from an introductory-bioinformatics course, we evaluated the extent to which one such model -- OpenAI's ChatGPT -- can successfully complete basic- to moderate-level programming tasks. On its first attempt, ChatGPT solved 139 (75.5%) of the exercises. For the remaining exercises, we provided natural-language feedback to the model, prompting it to try different approaches. Within 7 or fewer attempts, ChatGPT solved 179 (97.3%) of the exercises. These findings have important implications for life-sciences research and education. For many programming tasks, researchers no longer need to write code from scratch. Instead, machine-learning models may produce usable solutions. Instructors may need to adapt their pedagogical approaches and assessment techniques to account for these new capabilities that are available to the general public.
翻訳日:2023-03-31 16:36:09 公開日:2023-03-07
# メモリサブシステムの進化的設計

Evolutionary Design of the Memory Subsystem ( http://arxiv.org/abs/2303.16074v1 )

ライセンス: Link先を確認
Josefa D\'iaz \'Alvarez, Jos\'e L. Risco-Mart\'in and J. Manuel Colmenar(参考訳) メモリ階層はシステムの性能と消費電力に大きな影響を与える。 さらに、モバイルデバイスに含まれる現在の組み込みシステムは、特にメモリ集約型のマルチメディアアプリケーションを実行するように設計されている。 これによりメモリサブシステムへのプレッシャーが増大し、パフォーマンスとエネルギー消費に影響を及ぼす。 この点において、熱問題、性能劣化、高エネルギー消費はデバイスに不可逆的なダメージを与える可能性がある。 本稿では,メモリサブシステム全体の最適化を,単一の方法論として統合した3つのアプローチで解決する。 まず、レジスタファイルの熱的影響を分析し、最適化する。 第二に、キャッシュメモリは、実行中のアプリケーションに応じてキャッシュ構成を最適化し、パフォーマンスと消費電力の両方を改善する。 最後に、本メモリにおける汎用およびカスタマイズされた動的メモリマネージャの設計と評価プロセスを単純化する。 そこで本研究では,メモリシミュレータとプロファイリングツールを組み合わせた進化的アルゴリズムを提案する。 これにより、各候補ソリューションの品質を評価し、最適化アルゴリズムによる解探索を活用できるとともに、よく知られたベンチマークアプリケーションを用いて提案手法を評価する実験的な経験を提供する。

The memory hierarchy has a high impact on the performance and power consumption in the system. Moreover, current embedded systems, included in mobile devices, are specifically designed to run multimedia applications, which are memory intensive. This increases the pressure on the memory subsystem and affects the performance and energy consumption. In this regard, the thermal problems, performance degradation and high energy consumption, can cause irreversible damage to the devices. We address the optimization of the whole memory subsystem with three approaches integrated as a single methodology. Firstly, the thermal impact of register file is analyzed and optimized. Secondly, the cache memory is addressed by optimizing cache configuration according to running applications and improving both performance and power consumption. Finally, we simplify the design and evaluation process of general-purpose and customized dynamic memory manager, in the main memory. To this aim, we apply different evolutionary algorithms in combination with memory simulators and profiling tools. This way, we are able to evaluate the quality of each candidate solution and take advantage of the exploration of solutions given by the optimization algorithm.We also provide an experimental experience where our proposal is assessed using well-known benchmark applications.
翻訳日:2023-03-31 16:11:04 公開日:2023-03-07
# クエンチド量子宇宙論における熱化

Thermalization in Quenched Open Quantum Cosmology ( http://arxiv.org/abs/2104.10692v5 )

ライセンス: Link先を確認
Subhashish Banerjee, Sayantan Choudhury, Satyaki Chowdhury, Johannes Knaute, Sudhakar Panda, K.Shirish(参考訳) 本稿では,古典的重力場における2つのスカラー場間の相互作用を考慮した一般曲線時空におけるカルデイラ・レゲットモデルの量子場論的な一般化について検討する。 次に、経路統合効果から得られる1つのスカラー場モデルから量子クエンチを用いて得られたデ・ジッター溶液から熱化現象を研究する。 我々は、我々の関心分野の時間依存マスプロトコルにおける即時クエンチを考える。 電場後クエンチの力学は一般化されたカラブレス・カーディ (gCC) 形式の状態から説明することができ、この文脈で異なるタイプの2点相関関数を計算した。 我々は、ド・ジッター空間におけるクエンチの後の gcc 状態を表す $w_{\infty}$ algebra の保存電荷を明示的に見出し、平坦な時空結果とは大きく異なることを見出した。 本研究は, プレクエンチ状態を基底状態とするだけでなく, 圧縮状態も考慮して, 異なる2点相関関数について検討する。 プレクエンチ状態によらず, ポストクエンチ状態はGCC状態によって記述でき, 興味のサブシステムがド・ジッター空間で熱化することを示した。 さらに, 熱一般化ギブズアンサンブル (GGE) を考慮し, 2点相関器の一般表現を行い, 熱化過程を明示的に示す。 最後に, 2点相関器で得られた結果の等時間運動量依存性から, パワースペクトルの隠れた特徴を研究し, その量子初期条件の異なる選択に対する影響について検討した。

In this article, we study the quantum field theoretic generalization of the Caldeira-Leggett model in general curved space-time considering interactions between two scalar fields in a classical gravitational background. The thermalization phenomena is then studied from the obtained de Sitter solution using quantum quench from one scalar field model obtained from path integrated effective action. We consider an instantaneous quench in the time-dependent mass protocol of the field of our interest. We find that the dynamics of the field post-quench can be described in terms of the state of the generalized Calabrese-Cardy (gCC) form and computed the different types of two-point correlation functions in this context. We explicitly found the conserved charges of $W_{\infty}$ algebra that represents the gCC state after a quench in de Sitter space and found it to be significantly different from the flat space-time results. We extend our study for the different two-point correlation functions not only considering the pre-quench state as the ground state, but also a squeezed state. We found that irrespective of the pre-quench state, the post quench state can be written in terms of the gCC state showing that the subsystem of our interest thermalizes in de Sitter space. Furthermore, we provide a general expression for the two-point correlators and explicitly show the thermalization process by considering a thermal Generalized Gibbs ensemble (GGE). Finally, from the equal time momentum dependent counterpart of the obtained results for the two-point correlators, we have studied the hidden features of the power spectra and studied its consequences for different choices of the quantum initial conditions.
翻訳日:2023-03-26 04:27:48 公開日:2023-03-07
# ユニタリ安定化子ヌルティによるtカウントの下限

Lower bound for the T count via unitary stabilizer nullity ( http://arxiv.org/abs/2103.09999v2 )

ライセンス: Link先を確認
Jiaqing Jiang, Xin Wang(参考訳) 我々は,マルチキュービット量子ゲートの非安定化性を定量化し,フォールトトレラント量子計算の$T$カウントの下位境界を確立するためのマジック測度を導入する。 まず,このユニタリに付随する商パウリ群の部分群に基づく多量子ユニタリの安定化ヌルティを導入する。 このユニタリ安定化器 nullity は Beverland らによる状態安定化器 nullity を動的バージョンに拡張する。 特に、この非安定度測定は、組成下の部分加法率やテンソル積下の加法率などの望ましい性質を持つことを示す。 第二に、与えられたユニタリの安定化子ヌルティが、上記のゲート合成の特性を利用して、$t$カウントに対する下限であることが証明される。 第3に、状態-とユニタリスタビライザのヌルティを比較し、ユニタリスタビライザのヌルティによって得られる$t$カウントの下限が状態スタビライザのヌルティよりも小さいことを証明した。 さらに、ユニタリ安定子nullityの明示的な$n$-qubitユニタリファミリーが$n$を示し、これは、その$t$カウントが少なくとも$n$であることを意味する。 これはユニタリ安定化ヌニティによって導かれる境界が、状態安定化ヌニティを2ドルの係数で厳密に上回るような例を与える。 最後に、興味のある量子ゲートの$T$を推定する際のユニタリ安定化器のヌルティの利点を示す。

We introduce magic measures to quantify the nonstabilizerness of multiqubit quantum gates and establish lower bounds on the $T$ count for fault-tolerant quantum computation. First, we introduce the stabilizer nullity of multi-qubit unitary, which is based on the subgroup of the quotient Pauli group associated with the unitary. This unitary stabilizer nullity extends the state-stabilizer nullity by Beverland et al. to a dynamic version. In particular, we show this nonstabilizerness measure has desirable properties such as subadditivity under composition and additivity under tensor product. Second, we prove that a given unitary's stabilizer nullity is a lower bound for the $T$ count, utilizing the above properties in gate synthesis. Third, we compare the state- and the unitary-stabilizer nullity, proving that the lower bounds for the $T$ count obtained by the unitary-stabilizer nullity are never less than the state-stabilizer nullity. Moreover, we show an explicit $n$-qubit unitary family of unitary-stabilizer nullity $2n$, which implies that its $T$ count is at least $2n$. This gives an example where the bounds derived by the unitary-stabilizer nullity strictly outperform the state-stabilizer nullity by a factor of $2$. We finally showcase the advantages of unitary-stabilizer nullity in estimating the $T$ count of quantum gates with interests.
翻訳日:2023-03-26 04:27:18 公開日:2023-03-07
# グラフの量子重ね合わせ、非シグナリングおよび共分散について

On quantum superpositions of graphs, no-signalling and covariance ( http://arxiv.org/abs/2010.13579v3 )

ライセンス: Link先を確認
Pablo Arrighi and Marios Christodoulou and Am\'elia Durbec(参考訳) グラフの量子重ね合わせの数学的かつ概念的にロバストな概念を提供する。 重要なことに、グラフの量子重ね合わせは正しいアライメントのためにノード名を必要とし、符号なしの議論を通して証明する。 それでも、ノード名は有限構造であり、連続空間における座標の選択を通じて点のラベル付けと同様の目的を果たす。 グラフのリネーム、いわゆる同型はグラフ上の座標の変化として理解され、連続微分同相のネイティブに離散的なアナログに対応する。 我々は、連続体の微分同相不変性と類似した重みの離散位相における対称性原理としてリネーム不変性を仮定する。 我々は、グラフの量子重ね合わせのレベルで不変性(英語版)を課す方法を説明する。

We provide a mathematically and conceptually robust notion of quantum superpositions of graphs. We argue that, crucially, quantum superpositions of graphs require node names for their correct alignment, which we demonstrate through a no-signalling argument. Nevertheless, node names are a fiducial construct, serving a similar purpose to the labelling of points through a choice of coordinates in continuous space. Graph renamings, aka isomorphisms, are understood as a change of coordinates on the graph and correspond to a natively discrete analogue of continuous diffeomorphisms. We postulate renaming invariance as a symmetry principle in discrete topology of similar weight to diffeomorphism invariance in the continuous. We explain how to impose renaming invariance at the level of quantum superpositions of graphs, in a way that still allows us to talk about an observable centred at a specific node.
翻訳日:2023-03-26 04:26:35 公開日:2023-03-07
# Stern-Gerlach Humpty-Dumpty実験における自己重力の研究

Revealing self-gravity in a Stern-Gerlach Humpty-Dumpty experiment ( http://arxiv.org/abs/2006.07420v3 )

ライセンス: Link先を確認
Mohamed Hatifi and Thomas Durt(参考訳) 今日の物理学者の間では、量子フレームワークで重力相互作用を適切に記述する方法についての合意は得られていない。 本稿では, 非線形自己相互作用 \`a la Schrodinger-Newton (S-N) の存在を明らかにする実験を行った。 このテストでは、メソスコピックスピン1/2マイクロスフィアはハンプティダンプティ・スターン・ゲラッハ干渉計に自由に落下する。 マイクロスフィアの上下スピン成分の振幅の関数における相互作用のスケーリングの役割を明確にした後、自己重力がそれらの間の測定可能な位相シフトを誘発し、実験への道を開くことを示した。 また、2つの異なる微小球が平行に落ちると、S-N相互作用の絡み合う力はちょうど0に等しいことが示されている。

There is no consensus among today's physicists about how to describe the gravitational interaction properly in a quantum framework. We propose in this paper an experimental test aimed at revealing the existence of a non-linear self-interaction \`a la Schrodinger-Newton (S-N). In this test, a mesoscopic spin 1/2 microsphere is freely falling in a Humpty-Dumpty Stern-Gerlach interferometer. After clarifying the role of the scaling of the interaction in function of the amplitudes of the up and down spin components of the microsphere, it is shown that self-gravity induces a measurable phase shift between them, which paves the way to experimental tests. It is also shown that if we consider two distinct microspheres falling in parallel, the entangling power of the S-N interaction is exactly equal to zero.
翻訳日:2023-03-26 04:26:21 公開日:2023-03-07
# ネットワークサイバーセキュリティのための説明可能な人工知能に関する調査

A Survey on Explainable Artificial Intelligence for Network Cybersecurity ( http://arxiv.org/abs/2303.12942v1 )

ライセンス: Link先を確認
Gaith Rjoub, Jamal Bentahar, Omar Abdel Wahab, Rabeb Mizouni, Alyssa Song, Robin Cohen, Hadi Otrok, and Azzam Mourad(参考訳) 人工知能(AI)モデルにおけるブラックボックスの性質は、重要な応用に使用する多くの懸念の源となっている。 説明可能な人工知能(XAI)は急速に成長する研究分野であり、決定と行動に対して明確かつ解釈可能な説明を提供する機械学習モデルの構築を目指している。 ネットワークサイバーセキュリティの分野では、サイバー脅威の振る舞いをよりよく理解し、より効果的な防御を設計することで、ネットワークセキュリティへのアプローチ方法に革命をもたらす可能性がある。 本稿では,ネットワークシステムにおけるサイバーセキュリティに関するXAI技術の現状を概観し,この問題に対処するために提案された様々なアプローチについて考察する。 このレビューは、ネットワークによるサイバーセキュリティの脅威と問題の体系的な分類に従っている。 本稿では,サイバーセキュリティにおける現行のxai手法の課題と限界について論じ,今後の展望について概説する。

The black-box nature of artificial intelligence (AI) models has been the source of many concerns in their use for critical applications. Explainable Artificial Intelligence (XAI) is a rapidly growing research field that aims to create machine learning models that can provide clear and interpretable explanations for their decisions and actions. In the field of network cybersecurity, XAI has the potential to revolutionize the way we approach network security by enabling us to better understand the behavior of cyber threats and to design more effective defenses. In this survey, we review the state of the art in XAI for cybersecurity in network systems and explore the various approaches that have been proposed to address this important problem. The review follows a systematic classification of network-driven cybersecurity threats and issues. We discuss the challenges and limitations of current XAI methods in the context of cybersecurity and outline promising directions for future research.
翻訳日:2023-03-26 04:18:41 公開日:2023-03-07
# 子どもの図形の絵を自動的にアニメーション化する方法

A Method for Automatically Animating Children's Drawings of the Human Figure ( http://arxiv.org/abs/2303.12741v1 )

ライセンス: Link先を確認
Harrison Jesse Smith, Qingyuan Zheng, Yifei Li, Somya Jain, Jessica K. Hodgins(参考訳) 子供の絵には素晴らしい創造性、創造性、多様性があります。 本研究では,人間の図形を自動で表現し,これらの図形に固有の差異に頑健であり,誰でも利用できるほどシンプルで簡単なシステムを提案する。 私たちは、世界中の何百万人もの人々が使っている無料公開webサイトであるanimated drawings demoを構築、公開することで、このアプローチの価値と幅広い魅力を示しています。 本稿では,微調整に必要なトレーニングデータ量を検討する実験と,新しい「手探り視点」再ターゲティング手法の魅力を示す知覚実験について述べる。 最後に,初歩的なアノテーション付きデータセットであるアマチュアドローイングデータセットを公開デモを通じて紹介し,約180,000のアマチュアドローイングと対応するユーザ認識文字バウンディングボックス,セグメンテーションマスク,ジョイントロケーションアノテーションを含む。

Children's drawings have a wonderful inventiveness, creativity, and variety to them. We present a system that automatically animates children's drawings of the human figure, is robust to the variance inherent in these depictions, and is simple and straightforward enough for anyone to use. We demonstrate the value and broad appeal of our approach by building and releasing the Animated Drawings Demo, a freely available public website that has been used by millions of people around the world. We present a set of experiments exploring the amount of training data needed for fine-tuning, as well as a perceptual study demonstrating the appeal of a novel "twisted perspective" retargeting technique. Finally, we introduce the Amateur Drawings Dataset, a first-of-its-kind annotated dataset, collected via the public demo, containing ~180,000 amateur drawings and corresponding user-accepted character bounding box, segmentation mask, and joint location annotations.
翻訳日:2023-03-26 04:18:28 公開日:2023-03-07
# 1次元双極子超固体の基底状態安定性と励起スペクトル

Ground-state stability and excitation spectrum of a one-dimensional dipolar supersolid ( http://arxiv.org/abs/2211.17178v2 )

ライセンス: Link先を確認
Tobias Ilg and Hans Peter B\"uchler(参考訳) 一次元幾何学に閉じ込められた双極子ボース気体の超流動から超固相への量子相転移における励起スペクトルの挙動について検討する。 実効ハミルトニアン内の平均場外効果を導くことを含め、この分析はボゴリューボフ理論に基づいており、超流動と固体構造を考慮に入れたいくつかの順序パラメータを持つ。 超固体中における基底状態エネルギーの高速収束と秩序パラメータの数,および低エネルギー状態における2つのゴールドストーンモードと振幅モードの安定励起スペクトルを示す。 以上の結果から,超固相は熱力学的限界において安定な励起スペクトルを示し,超固相への遷移はロートン不安定性によって2次駆動される,ジスプロシウム原子の実験的に実現可能なパラメータレジームが存在することが示唆された。

We study the behavior of the excitation spectrum across the quantum phase transition from a superfluid to a supersolid phase of a dipolar Bose gas confined to a one-dimensional geometry. Including the leading beyond-mean-field effects within an effective Hamiltonian, the analysis is based on Bogoliubov theory with several order parameters accounting for the superfluid as well as solid structure. We find fast convergence of the ground-state energy in the supersolid with the number of order parameters and demonstrate a stable excitation spectrum with two Goldstone modes and an amplitude mode in the low-energy regime. Our results suggest that there exists an experimentally achievable parameter regime for dysprosium atoms, where the supersolid phase exhibits a stable excitation spectrum in the thermodynamic limit and the transition into the supersolid phase is of second order driven by the roton instability.
翻訳日:2023-03-26 04:17:19 公開日:2023-03-07
# 散乱に基づく共通空間パターン--統一空間フィルタリングフレームワーク

Scatter-based common spatial patterns -- a unified spatial filtering framework ( http://arxiv.org/abs/2303.06019v1 )

ライセンス: Link先を確認
Jinlong Dong, Milana Komosar, Johannes Vorwerk, Daniel Baumgarten, and Jens Haueisen(参考訳) 共通空間パターン(CSP)アプローチは、運動画像(MI)ベースの脳コンピュータインタフェース(BCI)において、脳波分類のための最も一般的な空間フィルタリング手法の1つである。 However, it still suffers some drawbacks such as sensitivity to noise, non-stationarity, and limitation to binary classification.Therefore, we propose a novel spatial filtering framework called scaCSP based on the scatter matrices of spatial covariances of EEG signals, which works generally in both binary and multi-class problems whereas CSP can be cast into our framework as a special case when only the range space of the between-class scatter matrix is used in binary cases.We further propose subspace enhanced scaCSP algorithms which easily permit incorporating more discriminative information contained in other range spaces and null spaces of the between-class and within-class scatter matrices in two scenarios: a nullspace components reduction scenario and an additional spatial filter learning scenario.The proposed algorithms are evaluated on two data sets including 4 MI tasks. CSP, Tikhonov regularized CSP (TRCSP), stationary CSP (sCSP) および stationary TRCSP (sTRCSP) の2値問題において、CSPのペアワイドおよびワンバイスレスト技術に基づくマルチクラス拡張において、その分類性能を比較検討した。 提案手法は,二進問題と多進問題の両方において,平均分類精度と計算効率の点で全ての競合アルゴリズムより優れており,一般的な多進問題に対する統一的なフレームワークとして機能し,MI-BCIの性能向上を約束している。

The common spatial pattern (CSP) approach is known as one of the most popular spatial filtering techniques for EEG classification in motor imagery (MI) based brain-computer interfaces (BCIs). However, it still suffers some drawbacks such as sensitivity to noise, non-stationarity, and limitation to binary classification.Therefore, we propose a novel spatial filtering framework called scaCSP based on the scatter matrices of spatial covariances of EEG signals, which works generally in both binary and multi-class problems whereas CSP can be cast into our framework as a special case when only the range space of the between-class scatter matrix is used in binary cases.We further propose subspace enhanced scaCSP algorithms which easily permit incorporating more discriminative information contained in other range spaces and null spaces of the between-class and within-class scatter matrices in two scenarios: a nullspace components reduction scenario and an additional spatial filter learning scenario.The proposed algorithms are evaluated on two data sets including 4 MI tasks. The classification performance is compared against state-of-the-art competing algorithms: CSP, Tikhonov regularized CSP (TRCSP), stationary CSP (sCSP) and stationary TRCSP (sTRCSP) in the binary problems whilst multi-class extensions of CSP based on pair-wise and one-versus-rest techniques in the multi-class problems. The results show that the proposed framework outperforms all the competing algorithms in terms of average classification accuracy and computational efficiency in both binary and multi-class problems.The proposed scsCSP works as a unified framework for general multi-class problems and is promising for improving the performance of MI-BCIs.
翻訳日:2023-03-19 12:05:34 公開日:2023-03-07
# neurodmに向けて: 計算神経科学がデータマイニングと合致する場所

Toward NeuroDM: Where Computational Neuroscience Meets Data Mining ( http://arxiv.org/abs/2303.06047v1 )

ライセンス: Link先を確認
Xin Li, Bin Liu, and Shuo Wang(参考訳) 計算神経科学 (CN) とデータマイニング (DM) の交わりで、我々はそれらのリッチなつながりに対する全体論的な見解を提唱する。 一方、正当性、記憶、感情といった神経科学の基本概念は、データマイニングに新しい応用を見出すことができる。 一方で、マルチモーダルイメージングは、マルチモーダルニューラルデータから重要な認知的・行動的情報を抽出するためのデータマイニングの扉を開いた。 NeuroDM では,CN と DM の連携が促進され,二つの分野の進歩が促進される。 生物学的ニューラルネットワークと人工ニューラルネットワークの過度パラメータ化の類似は、両方の分野を前進させる統一的な視点を示唆するかもしれない。

At the intersection of computational neuroscience (CN) and data mining (DM), we advocate a holistic view toward their rich connections. On the one hand, fundamental concepts in neuroscience such as saliency, memory, and emotion can find novel applications in data mining. On the other hand, multimodal imaging has opened the door for data mining to facilitate the extraction of important cognitive and behavioral information from multimodal neural data. By NeuroDM, we advocate for more collaboration between CN and DM to expedite the advances in two well-established fields. The analogy between the over-parameterization of biological and artificial neural networks might suggest a unifying perspective of advancing both fields.
翻訳日:2023-03-19 11:56:16 公開日:2023-03-07
# 分類と自動テキスト分析における公平性へのバイアス、多様性、課題。 図書館からAIへ、そしてバックへ

Bias, diversity, and challenges to fairness in classification and automated text analysis. From libraries to AI and back ( http://arxiv.org/abs/2303.07207v1 )

ライセンス: Link先を確認
Bettina Berendt, \"Ozg\"ur Karadeniz, Sercan K{\i}yak, Stefan Mertens, Leen d'Haenens(参考訳) ライブラリは、人工知能(AI)の手法を含む計算方法にますます依存している。 この利用の増加は、現在科学文献、メディア、法律作成で広く議論されているAIのリスクに対する懸念を高める。 本稿では,図書館アプリケーションにおける分類と自動テキスト解析におけるAI利用の偏りと不公平性に関するリスクについて検討する。 本稿では,図書館コミュニティが長年にわたってそのようなリスクに気付いてきたこと,そして,その開発と対策の展開について述べる。 我々は,「多様性」の概念に関連して「(un)fairness」の概念を詳細に検討し,包含と分布の両方をモデル化した多様性の形式化について検討する。 自動コンテンツ分析における不公平性問題の多くは、多様性のレンズと多様性を高めるための対策によっても考慮できると論じる。

Libraries are increasingly relying on computational methods, including methods from Artificial Intelligence (AI). This increasing usage raises concerns about the risks of AI that are currently broadly discussed in scientific literature, the media and law-making. In this article we investigate the risks surrounding bias and unfairness in AI usage in classification and automated text analysis within the context of library applications. We describe examples that show how the library community has been aware of such risks for a long time, and how it has developed and deployed countermeasures. We take a closer look at the notion of '(un)fairness' in relation to the notion of 'diversity', and we investigate a formalisation of diversity that models both inclusion and distribution. We argue that many of the unfairness problems of automated content analysis can also be regarded through the lens of diversity and the countermeasures taken to enhance diversity.
翻訳日:2023-03-19 11:48:20 公開日:2023-03-07
# イベント内GANを用いた超高分解能リレーショナル推論

Ultra-High-Resolution Detector Simulation with Intra-Event Aware GAN and Self-Supervised Relational Reasoning ( http://arxiv.org/abs/2303.08046v1 )

ライセンス: Link先を確認
Hosein Hashemi, Nikolai Hartmann, Sahand Sharifzadeh, James Kahn, Thomas Kuhr(参考訳) 高分解能検出器応答のシミュレーションは、ストレージコストと計算集約的なプロセスであり、長い間素粒子物理学において挑戦されてきた。 このプロセスをよりコスト効率良くするための深い生成モデルがあるにもかかわらず、超高分解能検出器シミュレーションは、イベント内の相関および細かな相互情報を含んでいるため、依然として困難である。 このような制約を克服するため,我々は,自己監督学習と生成支援ネットワークを融合したイベント・アウェア・ガン(IEA-GAN)を提案する。 IEA-GANは、検出器シミュレーションにおける'event'の概念を近似したリレーショナル推論モジュールを提案し、適切なリレーショナル帰納バイアスを持つ高分解能検出器応答のための相関層依存のコンテキスト化画像を生成する。 IEA-GANはまた、新たなイベント内認識損失と統一損失を導入し、画像の忠実度と多様性を著しく向上させた。 我々はベルII実験において、7.5M以上の情報チャネルと非自明な幾何を持つ高粒度Pixel Vertex Detector (PXD) のセンサ依存画像生成におけるIEA-GANの適用を実証した。 この研究には、制御可能なシミュレーションベースの推論とイベント生成、HL-LHC(High Luminosity LHC)のような高粒度検出器シミュレーション、詳細な密度推定とサンプリングが含まれる。 我々の知る限り、IEA-GANはイベントベースの推論による忠実な超高分解能検出器シミュレーションのための最初のアルゴリズムである。

Simulating high-resolution detector responses is a storage-costly and computationally intensive process that has long been challenging in particle physics. Despite the ability of deep generative models to make this process more cost-efficient, ultra-high-resolution detector simulation still proves to be difficult as it contains correlated and fine-grained mutual information within an event. To overcome these limitations, we propose Intra-Event Aware GAN (IEA-GAN), a novel fusion of Self-Supervised Learning and Generative Adversarial Networks. IEA-GAN presents a Relational Reasoning Module that approximates the concept of an ''event'' in detector simulation, allowing for the generation of correlated layer-dependent contextualized images for high-resolution detector responses with a proper relational inductive bias. IEA-GAN also introduces a new intra-event aware loss and a Uniformity loss, resulting in significant enhancements to image fidelity and diversity. We demonstrate IEA-GAN's application in generating sensor-dependent images for the high-granularity Pixel Vertex Detector (PXD), with more than 7.5M information channels and a non-trivial geometry, at the Belle II Experiment. Applications of this work include controllable simulation-based inference and event generation, high-granularity detector simulation such as at the HL-LHC (High Luminosity LHC), and fine-grained density estimation and sampling. To the best of our knowledge, IEA-GAN is the first algorithm for faithful ultra-high-resolution detector simulation with event-based reasoning.
翻訳日:2023-03-19 11:37:42 公開日:2023-03-07
# バリューチェーンデータを用いた時間グラフモデルによる株価予測

Stock Price Prediction Using Temporal Graph Model with Value Chain Data ( http://arxiv.org/abs/2303.09406v1 )

ライセンス: Link先を確認
Chang Liu and Sandra Paterlini(参考訳) 株価予測は金融取引において重要な要素であり、トレーダーは株式の売買、保有に関して情報的な決定を下すことができる。 将来の株価の正確な予測はトレーダーの取引戦略の最適化と利益の最大化に役立つ。 本稿では,Long Short-Term Memory Graph Convolutional Neural Network (LSTM-GCN) モデルとして,Graph Convolutional Network (GCN) とLong Short-Term Memory (LSTM) セルを組み合わせたニューラルネットワークを用いたストックリターン予測手法を提案する。 特に、GCNは複雑なトポロジカルな構造とバリューチェーンデータからの空間的依存を捉え、LSTMは時間的依存とストックリターンデータの動的変化を捉えている。 LSTM-GCNモデルをEurostoxx 600とS&P 500の構成成分からなる2つのデータセットで評価した。 実験により,LSTM-GCNモデルは,価格データに完全に反映されていないバリューチェーンデータから付加的な情報を取得することができ,予測は両データセットのベースラインモデルより優れていた。

Stock price prediction is a crucial element in financial trading as it allows traders to make informed decisions about buying, selling, and holding stocks. Accurate predictions of future stock prices can help traders optimize their trading strategies and maximize their profits. In this paper, we introduce a neural network-based stock return prediction method, the Long Short-Term Memory Graph Convolutional Neural Network (LSTM-GCN) model, which combines the Graph Convolutional Network (GCN) and Long Short-Term Memory (LSTM) Cells. Specifically, the GCN is used to capture complex topological structures and spatial dependence from value chain data, while the LSTM captures temporal dependence and dynamic changes in stock returns data. We evaluated the LSTM-GCN model on two datasets consisting of constituents of Eurostoxx 600 and S&P 500. Our experiments demonstrate that the LSTM-GCN model can capture additional information from value chain data that are not fully reflected in price data, and the predictions outperform baseline models on both datasets.
翻訳日:2023-03-19 11:31:03 公開日:2023-03-07
# 階層型変圧器力学vaeによる音声モデリング

Speech Modeling with a Hierarchical Transformer Dynamical VAE ( http://arxiv.org/abs/2303.09404v1 )

ライセンス: Link先を確認
Xiaoyu Lin, Xiaoyu Bie, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda(参考訳) 動的変分オートエンコーダ(DVAEs)は、VAEを拡張して観測データのシーケンスとそれに対応する潜時ベクトルのシーケンスをモデル化する潜時可変深部生成モデルのファミリーである。 文献のほとんど全てのDVAEにおいて、各シーケンスと2つのシーケンス間の時間的依存関係は、繰り返しニューラルネットワークでモデル化される。 本稿では,2段階の潜在変数(列方向とフレーム方向)を持つdvaeである階層的トランスフォーマーdvae(hit-dvae)を用いて音声信号のモデル化を行い,その時間依存性をトランスフォーマーアーキテクチャで実装することを提案する。 我々は,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,より簡単な訓練手順を実現し,音声強調などの低レベル音声処理タスクの低レベル化の可能性を明らかにした。

The dynamical variational autoencoders (DVAEs) are a family of latent-variable deep generative models that extends the VAE to model a sequence of observed data and a corresponding sequence of latent vectors. In almost all the DVAEs of the literature, the temporal dependencies within each sequence and across the two sequences are modeled with recurrent neural networks. In this paper, we propose to model speech signals with the Hierarchical Transformer DVAE (HiT-DVAE), which is a DVAE with two levels of latent variable (sequence-wise and frame-wise) and in which the temporal dependencies are implemented with the Transformer architecture. We show that HiT-DVAE outperforms several other DVAEs for speech spectrogram modeling, while enabling a simpler training procedure, revealing its high potential for downstream low-level speech processing tasks such as speech enhancement.
翻訳日:2023-03-19 11:30:43 公開日:2023-03-07
# マヨラナ単電荷トランジスタにおける全計数統計

Full counting statistics in a Majorana single-charge transistor ( http://arxiv.org/abs/2303.04046v1 )

ライセンス: Link先を確認
Eric Kleinherbers, Alexander Sch\"unemann, and J\"urgen K\"onig(参考訳) マヨラナ単電荷トランジスタによる電子輸送の完全な計数統計について検討する。 低バイアス電圧では、輸送はジョセフソン・マヨラナサイクルと呼ばれる通常の単電荷およびジョセフソントンネルのシーケンスによって支配される。 完全数え上げ統計を特徴付ける因子累積は、このサイクルにおける電荷移動の相関の性質を解明する。 さらに、クーパー対の完全ポアソン変換からジョセフソンカップリングの増加を伴う2つの異なるフェルミオンパリティ状態間の相関的な切り替えへの完全な数え上げ統計量の位相的遷移を予測する。

We study full counting statistics of electron transport through a Majorana single-charge transistor. At low bias voltage, transport is dominated by the so-called Josephson-Majorana cycle, a sequence of normal and anomalous single-charge and Josephson tunneling. Factorial cumulants characterizing the full counting statistics elucidate the correlated nature of the charge transfers in this cycle. Moreover, we predict a topological transition in the full counting statistics from a perfect Poissonian transfer of Cooper pairs to a correlated switching between two distinct fermion parity states with increasing Josephson coupling.
翻訳日:2023-03-10 17:26:19 公開日:2023-03-07
# データマーケットプレースにおけるデータ価格調査

A Survey of Data Pricing for Data Marketplaces ( http://arxiv.org/abs/2303.04810v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Fernando Beltran, Jiamou Liu(参考訳) データマーケットプレースは、データ所有者、データブローカー、データコンシューマをまとめて、データのコモディティ化を促進するオンラインの会場である。 データ市場の主要な機能であるデータ価格には、データの金銭価値の定量化が要求される。 データ価格設定に関する多くの研究は文献で見ることができる。 本稿では,この新たな研究領域の理解を深めるために,既存データ価格研究の現状を総合的に検討する。 我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。 当社のフレームワークの基盤は、販売側、買い側、両面といった市場構造によってこれらの研究を分類している。 次に、販売側市場において、データ消費者がデータにアクセスする方法を定義するクエリタイプで研究をさらに分割し、購入側市場においては、データ所有者のプライバシーを定量化する方法を規定するプライバシー概念に従って研究を分割する。 双方向の市場では、プライバシの概念とクエリタイプが基準として使用される。 我々は分類学の各分野に該当する研究を体系的に検討した。 最後に,既存の研究のギャップについて論じ,今後の研究方向性を定義する。

A data marketplace is an online venue that brings data owners, data brokers, and data consumers together and facilitates commoditisation of data amongst them. Data pricing, as a key function of a data marketplace, demands quantifying the monetary value of data. A considerable number of studies on data pricing can be found in literature. This paper attempts to comprehensively review the state-of-the-art on existing data pricing studies to provide a general understanding of this emerging research area. Our key contribution lies in a new taxonomy of data pricing studies that unifies different attributes determining data prices. The basis of our framework categorises these studies by the kind of market structure, be it sell-side, buy-side, or two-sided. Then in a sell-side market, the studies are further divided by query type, which defines the way a data consumer accesses data, while in a buy-side market, the studies are divided according to privacy notion, which defines the way to quantify privacy of data owners. In a two-sided market, both privacy notion and query type are used as criteria. We systematically examine the studies falling into each category in our taxonomy. Lastly, we discuss gaps within the existing research and define future research directions.
翻訳日:2023-03-10 17:15:30 公開日:2023-03-07
# 大きな言語モデルは因果グラフを構築することができるか?

Can large language models build causal graphs? ( http://arxiv.org/abs/2303.05279v1 )

ライセンス: Link先を確認
Stephanie Long (1), Tibor Schuster (1), Alexandre Pich\'e (2,3) (1) Department of Family Medicine, McGill University, (2) Mila, Universit\'e de Montreal, (3) ServiceNow Research(参考訳) 因果グラフの構築は、面倒なプロセスである。 すべての因果経路を確実に把握するために、研究者はしばしば臨床医や専門家と議論し、関連する医学文献をレビューする必要がある。 共通知識と医学知識をエンコードすることで、大きな言語モデル(llm)は、潜在的なグラフでエッジ(つまり2つの変数間の接続)を自動的にスコアリングすることで、このプロセスを緩和する機会を表している。 しかし、LLMは、ユーザーが使用する単語、文脈、およびプロンプトの選択に弱いことが示されている。 本研究では,LLMが因果グラフ開発を補完する有用なツールであるかどうかを評価する。

Building causal graphs can be a laborious process. To ensure all relevant causal pathways have been captured, researchers often have to discuss with clinicians and experts while also reviewing extensive relevant medical literature. By encoding common and medical knowledge, large language models (LLMs) represent an opportunity to ease this process by automatically scoring edges (i.e., connections between two variables) in potential graphs. LLMs however have been shown to be brittle to the choice of probing words, context, and prompts that the user employs. In this work, we evaluate if LLMs can be a useful tool in complementing causal graph development.
翻訳日:2023-03-10 14:40:34 公開日:2023-03-07
# 会話言語モデルとプロンプト工学を用いた研究論文からの正確な資料データの抽出 - ChatGPTの例-

Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT ( http://arxiv.org/abs/2303.05352v1 )

ライセンス: Link先を確認
Maciej P. Polak, Dane Morgan(参考訳) 研究論文から手作業によるデータ抽出を自然言語処理(NLP)、言語モデル(LM)、最近では大規模言語モデル(LLM)に基づく自動データ抽出に置き換える努力が増えている。 これらの手法は大量の研究論文から効率的なデータ抽出を可能にするが、事前の努力、専門知識、コーディングが必要となる。 本研究では,高度会話型LLM(あるいはAI)を用いて,初期作業やバックグラウンドを必要とせずに,極めて正確なデータ抽出を完全自動化するChatExtract法を提案する。 ChatExtractは、会話型LLMに適用された一連のエンジニアリングされたプロンプトで構成され、文をデータで識別し、データを抽出し、一連のフォローアップ質問を通じてその正確性を保証する。 これらのフォローアップ質問は、LLMに関連する重要な課題、すなわち、事実的に不正確な応答を提供する傾向に対処する。 chatextractは任意の会話llmに適用でき、非常に高品質なデータ抽出ができる。 材料データに関するテストでは、90%以上を最高の会話型llmから思い出すことができ、多くの場合、人間の正確さに匹敵するか、超えている可能性が高い。 本稿では,会話モデルにおける情報保持と,目的的冗長性と,フォローアッププロンプトによる不確実性の導入により,例外的な性能が実現できることを実証する。 これらの結果から,ChatExtractに類似したアプローチは,その単純さ,転送性,正確性により,近い将来他のデータ抽出手法を置き換える可能性が示唆された。

There has been a growing effort to replace hand extraction of data from research papers with automated data extraction based on natural language processing (NLP), language models (LMs), and recently, large language models (LLMs). Although these methods enable efficient extraction of data from large sets of research papers, they require a significant amount of up-front effort, expertise, and coding. In this work we propose the ChatExtract method that can fully automate very accurate data extraction with essentially no initial effort or background using an advanced conversational LLM (or AI). ChatExtract consists of a set of engineered prompts applied to a conversational LLM that both identify sentences with data, extract data, and assure its correctness through a series of follow-up questions. These follow-up questions address a critical challenge associated with LLMs - their tendency to provide factually inaccurate responses. ChatExtract can be applied with any conversational LLMs and yields very high quality data extraction. In tests on materials data we find precision and recall both over 90% from the best conversational LLMs, likely rivaling or exceeding human accuracy in many cases. We demonstrate that the exceptional performance is enabled by the information retention in a conversational model combined with purposeful redundancy and introducing uncertainty through follow-up prompts. These results suggest that approaches similar to ChatExtract, due to their simplicity, transferability and accuracy are likely to replace other methods of data extraction in the near future.
翻訳日:2023-03-10 14:13:36 公開日:2023-03-07
# 臨床試験のエビデンスを自動的に要約する:現在の課題を強調するプロトタイプ

Automatically Summarizing Evidence from Clinical Trials: A Prototype Highlighting Current Challenges ( http://arxiv.org/abs/2303.05392v1 )

ライセンス: Link先を確認
Sanjana Ramprasad, Denis Jered McInerney, Iain J. Marshal, Byron C. Wallace(参考訳) 本研究では,与えられた問合せに最も関係のあるランダム化対照試験のセットで提示される証拠を自動的に要約するシステムであるexperiencesummarizerを提案する。 先行研究に基づき,条件,介入(s),成果(s)の組み合わせを指定するクエリに適合した試用出版物を検索し,サンプルサイズおよび推定研究品質に応じて分類する。 このようなトップkの研究は、神経的な多文書要約システムを通して受け継がれ、これらの試行の相乗効果をもたらす。 本稿では,BARTに基づく標準的なシーケンス・ツー・シーケンス・モデルと,エンドユーザーへの透明性向上を目的としたマルチヘッドアーキテクチャの2つのアーキテクチャを検討する。 どちらのモデルもクエリで検索された証拠の精巧で関連性の高い要約を生成するが、サポート対象のステートメントを導入する傾向があるため、現時点ではこのドメインでの使用には適さない。 提案されたアーキテクチャは、ユーザが生成したトークンを入力にトレースできる出力を検証するのに役立つ。

We present TrialsSummarizer, a system that aims to automatically summarize evidence presented in the set of randomized controlled trials most relevant to a given query. Building on prior work, the system retrieves trial publications matching a query specifying a combination of condition, intervention(s), and outcome(s), and ranks these according to sample size and estimated study quality. The top-k such studies are passed through a neural multi-document summarization system, yielding a synopsis of these trials. We consider two architectures: A standard sequence-to-sequence model based on BART and a multi-headed architecture intended to provide greater transparency to end-users. Both models produce fluent and relevant summaries of evidence retrieved for queries, but their tendency to introduce unsupported statements render them inappropriate for use in this domain at present. The proposed architecture may help users verify outputs allowing users to trace generated tokens back to inputs.
翻訳日:2023-03-10 14:05:46 公開日:2023-03-07
# ディープリカレントネットワークによる企業名の曖昧化

Disambiguation of Company names via Deep Recurrent Networks ( http://arxiv.org/abs/2303.05391v1 )

ライセンス: Link先を確認
Alessandro Basile, Riccardo Crupi, Michele Grasso, Alessandro Mercanti, Daniele Regoli, Simone Scarsi, Shuyi Yang, Andrea Cosentini(参考訳) 名前の曖昧さ(英: Name Entity Disambiguation)とは、属性のリスト(名前、場所、組織など)として表される現実世界のエンティティである、同じ名前のエンティティに対応するテキストレコードを識別する自然言語処理タスクである。 本研究では,企業名を記載した上で,企業を曖昧にすることの課題に直面する。 本稿では,企業名列を(相対的に)低次元ベクトル空間に埋め込んで,同一企業(すなわち同一エンティティ)を実際に表わす企業名のペアを識別する,Siamese LSTM Networkアプローチを提案する。 文字列ペアの手動ラベリングがやや面倒な作業であることを考慮すると、ラベル付けされるサンプルを優先順位付けするアクティブな学習アプローチが、より効率的な学習パイプラインにつながるかを分析します。 経験的調査により,提案手法は,ラベル付きデータの利用が十分であれば,標準文字列マッチングアルゴリズムに基づくベンチマーク手法を上回ることを示した。 さらに,ラベリング資源が限られている場合,アクティブラーニングの優先順位付けが有効であることを示すとともに,標準(ランダム)データラベリングアプローチに対するラベル付きデータが少ない場合,サンプルのパフォーマンス飽和度を学習モデルに到達させる。

Name Entity Disambiguation is the Natural Language Processing task of identifying textual records corresponding to the same Named Entity, i.e. real-world entities represented as a list of attributes (names, places, organisations, etc.). In this work, we face the task of disambiguating companies on the basis of their written names. We propose a Siamese LSTM Network approach to extract -- via supervised learning -- an embedding of company name strings in a (relatively) low dimensional vector space and use this representation to identify pairs of company names that actually represent the same company (i.e. the same Entity). Given that the manual labelling of string pairs is a rather onerous task, we analyse how an Active Learning approach to prioritise the samples to be labelled leads to a more efficient overall learning pipeline. With empirical investigations, we show that our proposed Siamese Network outperforms several benchmark approaches based on standard string matching algorithms when enough labelled data are available. Moreover, we show that Active Learning prioritisation is indeed helpful when labelling resources are limited, and let the learning models reach the out-of-sample performance saturation with less labelled data with respect to standard (random) data labelling approaches.
翻訳日:2023-03-10 14:05:28 公開日:2023-03-07
# 法的名前付きエンティティ認識のためのドイツ語BERTモデル

German BERT Model for Legal Named Entity Recognition ( http://arxiv.org/abs/2303.05388v1 )

ライセンス: Link先を確認
Harshil Darji, Jelena Mitrovi\'c, Michael Granitzer(参考訳) 最も人気のある言語モデルの一つであるBERTの使用は、多くの自然言語処理(NLP)タスクの改善につながっている。 そのようなタスクの1つは、名前付きエンティティ認識(NER)、すなわち指定されたテキストから場所、人、組織などの名前付きエンティティを自動的に識別するものである。 また、情報抽出や議論マイニングといった多くのNLPタスクのための重要なベースステップでもある。 BERTや他の人気のある言語モデルを用いたNERに関する多くの研究があるが、法務NLPや法務技術に関しては、詳細は明らかにされていない。 法的なNLPは、文の類似性や法的なデータにNERなどの様々なNLP技術を適用している。 BERT言語モデルを用いたNERタスクのモデルはごくわずかだが、いずれもドイツ語の法的文書を対象としていない。 本稿では,LERデータセット上でドイツ語データ(BERT)に基づいて訓練された人気のあるBERT言語モデルを微調整する。 モデルが過度に適合しないよう、階層化された10倍のクロスバリデーションを実施しました。 LERデータセット上のゲルマンBERTを微調整することで、同じLERデータセットの著者が使用するBiLSTM-CRF+モデルより優れる。 最後に、HuggingFaceを通じてモデルを公開しています。

The use of BERT, one of the most popular language models, has led to improvements in many Natural Language Processing (NLP) tasks. One such task is Named Entity Recognition (NER) i.e. automatic identification of named entities such as location, person, organization, etc. from a given text. It is also an important base step for many NLP tasks such as information extraction and argumentation mining. Even though there is much research done on NER using BERT and other popular language models, the same is not explored in detail when it comes to Legal NLP or Legal Tech. Legal NLP applies various NLP techniques such as sentence similarity or NER specifically on legal data. There are only a handful of models for NER tasks using BERT language models, however, none of these are aimed at legal documents in German. In this paper, we fine-tune a popular BERT language model trained on German data (German BERT) on a Legal Entity Recognition (LER) dataset. To make sure our model is not overfitting, we performed a stratified 10-fold cross-validation. The results we achieve by fine-tuning German BERT on the LER dataset outperform the BiLSTM-CRF+ model used by the authors of the same LER dataset. Finally, we make the model openly available via HuggingFace.
翻訳日:2023-03-10 14:04:39 公開日:2023-03-07
# 計算弁護士を作る.

Making a Computational Attorney ( http://arxiv.org/abs/2303.05383v1 )

ライセンス: Link先を確認
Dell Zhang, Frank Schilder, Jack G. Conrad, Masoud Makrehchi, David von Rickenbach, Isabelle Moulinier(参考訳) この「青い空のアイデア」論文は、データマイニングと機械学習における機会と課題を概説している。このインテリジェントなソフトウェアエージェントは、検察や法廷での弁護に対する法的説明書の起草など、人間の弁護士を広範囲にわたる高度な法的タスクで支援することができる。 特に、chatgptのような大規模法的言語モデル(l$^3$m)が現在何が可能で何ができないのかについて議論し、短期的かつ長期的な研究目標を研究者に促す。

This "blue sky idea" paper outlines the opportunities and challenges in data mining and machine learning involving making a computational attorney -- an intelligent software agent capable of helping human lawyers with a wide range of complex high-level legal tasks such as drafting legal briefs for the prosecution or defense in court. In particular, we discuss what a ChatGPT-like Large Legal Language Model (L$^3$M) can and cannot do today, which will inspire researchers with promising short-term and long-term research objectives.
翻訳日:2023-03-10 14:03:56 公開日:2023-03-07
# 学習可能な制御系の時間的論理特性の検証に対するニューロシンボリックアプローチ

A Neurosymbolic Approach to the Verification of Temporal Logic Properties of Learning enabled Control Systems ( http://arxiv.org/abs/2303.05394v1 )

ライセンス: Link先を確認
Navid Hashemi, Bardh Hoxha, Tomoya Yamaguchi, Danil Prokhorov, Geogios Fainekos, Jyotirmoy Deshmukh(参考訳) Signal Temporal Logic (STL) は,Cyber-Physical Systems (CPS) の正式な要件を表現するツールとして人気がある。 ニューラルネットワーク制御cpsのstl特性を検証する問題は、ほとんど解明されていない。 本稿では、STL公式をReLUアクティベートしたフィードフォワードニューラルネットワークにマッピングするカスタムニューラルネットワークアーキテクチャを用いて、一般的なSTL仕様に対するニューラルネットワーク(NN)コントローラの検証モデルを提案する。 プラントモデルとコントローラの両方がReLU活性化ニューラルネットワークである場合、STL検証問題をReLUニューラルネットワークの到達性に還元する。 また,本手法は,クローズドループ制御系のリプシッツ定数の計算に基づく音響的完全検証手法である。 本稿では,学習可能な制御システムの実例について,本手法の実用性を示す。

Signal Temporal Logic (STL) has become a popular tool for expressing formal requirements of Cyber-Physical Systems (CPS). The problem of verifying STL properties of neural network-controlled CPS remains a largely unexplored problem. In this paper, we present a model for the verification of Neural Network (NN) controllers for general STL specifications using a custom neural architecture where we map an STL formula into a feed-forward neural network with ReLU activation. In the case where both our plant model and the controller are ReLU-activated neural networks, we reduce the STL verification problem to reachability in ReLU neural networks. We also propose a new approach for neural network controllers with general activation functions; this approach is a sound and complete verification approach based on computing the Lipschitz constant of the closed-loop control system. We demonstrate the practical efficacy of our techniques on a number of examples of learning-enabled control systems.
翻訳日:2023-03-10 13:54:12 公開日:2023-03-07
# 非線形確率力学系の効率的な量子アルゴリズム

Efficient Quantum Algorithms for Nonlinear Stochastic Dynamical Systems ( http://arxiv.org/abs/2303.02463v2 )

ライセンス: Link先を確認
Abeynaya Gnanasekaran, Amit Surana, Tuhin Sahai(参考訳) 本稿では、Fokker-Planck方程式(FPE)を用いて非線形確率微分方程式(SDE)を解くための効率的な量子アルゴリズムを提案する。 空間と時間におけるFPEの離散化をChang-Cooperスキームを用いて行い、量子線形系アルゴリズムを用いて線形方程式の解を求める。 チャン=クーパースキームは二階精度であり、その解の保守性と正しさを満たす。 量子線形系chang-cooperアルゴリズム (qlscca) と呼ばれる提案する量子スキームが, 条件次元 $d$ に対する多項式依存性を持つ, 所定の $\epsilon$ 誤差境界内で, fpe に対する解を計算することを実証した。 古典的数値法は次元と指数関数的にスケールするので、我々の手法は従来の手法よりも高速である。

In this paper, we propose an efficient quantum algorithm for solving nonlinear stochastic differential equations (SDE) via the associated Fokker-Planck equation (FPE). We discretize FPE in space and time using the Chang-Cooper scheme, and compute the solution of the resulting system of linear equations using the quantum linear systems algorithm. The Chang-Cooper scheme is second order accurate and satisfies conservativeness and positivity of the solution. We present detailed error and complexity analyses that demonstrate that our proposed quantum scheme, which we call the Quantum Linear Systems Chang-Cooper Algorithm (QLSCCA), computes the solution to the FPE within prescribed $\epsilon$ error bounds with polynomial dependence on state dimension $d$. Classical numerical methods scale exponentially with dimension, thus, our approach provides an \emph{exponential speed-up} over traditional approaches.
翻訳日:2023-03-09 16:41:37 公開日:2023-03-07
# SALSA PICANTE: バイナリシークレットを持つLWEに対する機械学習攻撃

SALSA PICANTE: a machine learning attack on LWE with binary secrets ( http://arxiv.org/abs/2303.04178v1 )

ライセンス: Link先を確認
Cathy Li, Jana Sot\'akov\'a, Emily Wenger, Mohamed Malhou, Evrard Garcelon, Francois Charton, Kristin Lauter(参考訳) 誤り学習問題(lwe)は、量子化後の暗号において大きな問題の1つである。 例えば 1) NIST[14]で標準化された唯一の鍵交換機構KEMは、LWEに基づいており、 2) 現在公開されている同型暗号化(HE)ライブラリはLWEに基づいている。 NIST KEMスキームはランダムシークレットを使用するが、同型暗号化スキームは効率上の理由からバイナリまたは3次シークレットを使用する。 特に、sparseバイナリシークレットが提案されているが、heには標準化されていない。 SALSA [49] は,小次元(n = 128まで)と低ハミング重量(h = 4まで)において,LWE問題のスパースバイナリシークレットに対する新たな機械学習攻撃を実証した。 しかし、この攻撃は数百万のLWEサンプルへのアクセスを前提としており、ハミング重量や寸法の増大には至らなかった。 私たちの攻撃であるpicanteは、m = 4nサンプルだけに必要なサンプル数を減らす。 さらに、より大きな次元(350まで)とハミング重み(おおむねn/10、またはn = 300のh = 33)で秘密を復元することができる。 そこで本研究では,サンプルの線形数からトレーニングデータを生成し,トレーニングデータの分布を変化させ,トランスフォーマートレーニングを改善するための前処理手順を提案する。 また,SALSAの識別・秘密回復手法の改良や,トレーニングされたモデルから直接秘密を読み取ることのできる,新たなクロスアテンション回復機構を導入する。

The Learning With Errors (LWE) problem is one of the major hard problems in post-quantum cryptography. For example, 1) the only Key Exchange Mechanism KEM standardized by NIST [14] is based on LWE; and 2) current publicly available Homomorphic Encryption (HE) libraries are based on LWE. NIST KEM schemes use random secrets, but homomorphic encryption schemes use binary or ternary secrets, for efficiency reasons. In particular, sparse binary secrets have been proposed, but not standardized [2], for HE. Prior work SALSA [49] demonstrated a new machine learning attack on sparse binary secrets for the LWE problem in small dimensions (up to n = 128) and low Hamming weights (up to h = 4). However, this attack assumed access to millions of LWE samples, and was not scaled to higher Hamming weights or dimensions. Our attack, PICANTE, reduces the number of samples required to just m = 4n samples. Moreover, it can recover secrets with much larger dimensions (up to 350) and Hamming weights (roughly n/10, or h = 33 for n = 300). To achieve this, we introduce a preprocessing step which allows us to generate the training data from a linear number of samples and changes the distribution of the training data to improve transformer training. We also improve the distinguisher/secret recovery methods of SALSA and introduce a novel cross-attention recovery mechanism which allows us to read-off the secret directly from the trained models.
翻訳日:2023-03-09 16:24:27 公開日:2023-03-07
# オープンシステムにおけるクリロフ複雑性について:bi-lanczosアルゴリズムによるアプローチ

On Krylov complexity in open systems: an approach via bi-Lanczos algorithm ( http://arxiv.org/abs/2303.04175v1 )

ライセンス: Link先を確認
Aranya Bhattacharya, Pratik Nandy, Pingal Pratyush Nath, Himanshu Sahu(参考訳) 先述のarXiv: 2207.05347 と arXiv: 2212.06180 は継続して、散逸性開量子系における演算子成長とクリロフ複雑性の探索を追求する。 本稿では,非直交部分空間を個別に生成する2つの直交クリロフ空間を生成するバイランチョスアルゴリズムを利用する。 前述したアーノルドの反復とは異なり、このアルゴリズムはリンドブラジアンを純粋に三対角形にレンダリングし、クリュロフの複雑性を後期に計算することで、散逸可積分およびカオスシステムの幅広いクラスを研究できる可能性を開く。 本研究は, 散逸的横場イジングモデル(tfim)と散逸的相互作用型xxz鎖の2つの特定の系に依存する。 弱結合の場合、初期ランチョス係数は散逸効果が設定される前に可積分およびカオス的進化を効率的に区別することができ、それによってより高いランチョス係数のゆらぎが増大する。 この結果、積分可能ケースとカオス的ケースの両方において、リアルタイムの複雑さが等しく飽和し、遅延カオスの概念は疑わしいものとなる。

Continuing the previous initiatives arXiv: 2207.05347 and arXiv: 2212.06180, we pursue the exploration of operator growth and Krylov complexity in dissipative open quantum systems. In this paper, we resort to the bi-Lanczos algorithm generating two bi-orthogonal Krylov spaces, which individually generate non-orthogonal subspaces. Unlike the previously studied Arnoldi iteration, this algorithm renders the Lindbladian into a purely tridiagonal form, thus opening up a possibility to study a wide class of dissipative integrable and chaotic systems by computing Krylov complexity at late times. Our study relies on two specific systems, the dissipative transverse-field Ising model (TFIM) and the dissipative interacting XXZ chain. We find that, for the weak coupling, initial Lanczos coefficients can efficiently distinguish integrable and chaotic evolution before the dissipative effect sets in, which results in more fluctuations in higher Lanczos coefficients. This results in the equal saturation of late-time complexity for both integrable and chaotic cases, making the notion of late-time chaos dubious.
翻訳日:2023-03-09 16:24:00 公開日:2023-03-07
# 単一衛星を用いたグローバル量子通信のための時間遅延単一量子中継ノード

Time-delayed single quantum repeater node for global quantum communications with a single satellite ( http://arxiv.org/abs/2303.04174v1 )

ライセンス: Link先を確認
Mustafa G\"undo\u{g}an, Jasminder J. Sidhu, Daniel K. L. Oi, Markus Krutzik(参考訳) グローバルスケールでの量子ネットワークは、重大な技術的および科学的な障害に満ちた、非常に困難な取り組みである。 様々な種類の量子リピータが提案されているが、通常は数千kmの距離に制限されている。 最近の提案は、軌道上の量子記憶を持つ少数の衛星からなる宇宙からの量子リピータは、真にグローバルな距離をカバーできることを示唆している。 本稿では,超長寿命の量子メモリと,より短い記憶時間を持つ第2のメモリを併用したリピータコンステレーションの代替案を提案する。 この組み合わせは、単一の量子リピータノードの時間遅延バージョンとして効果的に機能する。 達成可能な有限鍵レートを調査し、単一メモリに依存する前回の単一衛星法に比べて少なくとも3桁の改善を実証し、同時に必要なメモリ容量を同じ量削減する。 我々はこのスキームを実現するための実験的なプラットフォームを提案する。

Quantum networking on a global scale is an immensely challenging endeavor that is fraught with significant technical and scientific obstacles. While various types of quantum repeaters have been proposed they are typically limited to distances of a few thousand kilometers or require extensive hardware overhead. Recent proposals suggest that space-borne quantum repeaters composed of a small number of satellites carrying on-board quantum memories would be able to cover truly global distances. In this paper, we propose an alternative to such repeater constellations using an ultra-long lived quantum memory in combination with a second memory with a shorter storage time. This combination effectively acts as a time-delayed version of a single quantum repeater node. We investigate the attainable finite key rates and demonstrate an improvement of at least three orders of magnitude over prior single-satellite methods that rely on a single memory, while simultaneously reducing the necessary memory capacity by the same amount. We conclude by suggesting an experimental platform to realize this scheme.
翻訳日:2023-03-09 16:23:37 公開日:2023-03-07
# 原子状量子メモリと相互作用する通信用量子ドット光子の決定論的記憶と検索

Deterministic Storage and Retrieval of Telecom Quantum Dot Photons Interfaced with an Atomic Quantum Memory ( http://arxiv.org/abs/2303.04166v1 )

ライセンス: Link先を確認
S. E. Thomas, L. Wagner, R. Joos, R. Sittig, C. Nawrath, P. Burdekin, T. Huber-Loyola, S. Sagona-Stophel, S. H\"ofling, M. Jetter, P. Michler, I. A. Walmsley, S. L. Portalupi, P. M. Ledingham(参考訳) 固体単一光子源と原子量子メモリのハイブリッドインタフェースは、フォトニック量子技術における長年の目標である。 本稿では、原子アンサンブル量子メモリにおける半導体量子ドットからの光子の電気通信波長における決定論的保存と検索を示す。 InAs量子ドットから1つの光子を高帯域幅のルビジウム蒸気ベースの量子メモリに格納し、総内部メモリ効率は$(12.9 \pm 0.4) \%$である。 検出された光子の信号対雑音比は18.2\pm 0.6$であり、検出器ダークカウントのみによって制限される。 このデモは分散エンタングルメントに依存する量子技術への道を開き、特にフォトニック量子ネットワークに適している。

A hybrid interface of solid state single-photon sources and atomic quantum memories is a long sought-after goal in photonic quantum technologies. Here we demonstrate deterministic storage and retrieval of photons from a semiconductor quantum dot in an atomic ensemble quantum memory at telecommunications wavelengths. We store single photons from an InAs quantum dot in a high-bandwidth rubidium vapour based quantum memory, with a total internal memory efficiency of $(12.9 \pm 0.4) \%$. The signal-to-noise ratio of the retrieved photons is $18.2\pm 0.6$, limited only by detector dark counts. This demonstration paves the way to quantum technologies that rely on distributed entanglement, and is especially suited for photonic quantum networks.
翻訳日:2023-03-09 16:23:22 公開日:2023-03-07
# 拡張貯留層アプローチによる周期駆動傾斜格子の輸送:連続体限界の回復のための安定性基準

Transport in a periodically--driven tilted lattice via the extended reservoir approach: Stability criterion for recovering the continuum limit ( http://arxiv.org/abs/2303.04160v1 )

ライセンス: Link先を確認
Bitan De, Gabriela Wojtowicz, Jakub Zakrzewski, Michael Zwolak, Marek M. Rams(参考訳) 拡張された貯水池は、ナノスケールの接触、不純物、または材料を介して電流を駆動する金属電極のような、マクロな連続的な環境を捉えるための枠組みを提供する。 We examine the application of this approach to periodically--driven systems, specifically in the context of quantum transport. As with non--equilibrium steady states in time--independent scenarios, the current displays a Kramers' turnover including the formation of a plateau region that captures the physical, continuum limit response. We demonstrate that a simple stability criteria identifies an appropriate relaxation rate to target this physical plateau. Using this approach, we study quantum transport through a periodically--driven tilted lattice coupled to two metallic reservoirs held at a finite bias and temperature. このモデルを用いて拡張貯留層アプローチのベンチマークを行い,安定性評価を行った。 系と貯水池が弱結合すると、この極限において十分に理解された物理的挙動を回復する。拡張された貯水池は強い結合と非線形応答にも対処できる。そこで、駆動格子内の力学に輸送がどのように反応するかを分析する。 これらの結果は、多体浮動小数点状態のような周期的に駆動される量子システムに拡張貯水池アプローチを使用するための基礎を定めている。

Extended reservoirs provide a framework for capturing macroscopic, continuum environments, such as metallic electrodes driving a current through a nanoscale contact, impurity, or material. We examine the application of this approach to periodically--driven systems, specifically in the context of quantum transport. As with non--equilibrium steady states in time--independent scenarios, the current displays a Kramers' turnover including the formation of a plateau region that captures the physical, continuum limit response. We demonstrate that a simple stability criteria identifies an appropriate relaxation rate to target this physical plateau. Using this approach, we study quantum transport through a periodically--driven tilted lattice coupled to two metallic reservoirs held at a finite bias and temperature. We use this model to benchmark the extended reservoir approach and assess the stability criteria. When the system and reservoir are weakly coupled, the approach recovers well--understood physical behavior in this limit. Extended reservoirs enable addressing strong coupling and non--linear response as well, where we analyze how transport responds to the dynamics inside the driven lattice. These results set the foundations for the use of extended reservoir approach for periodically-driven, quantum systems, such as many--body Floquet states.
翻訳日:2023-03-09 16:23:10 公開日:2023-03-07
# 機械学習のカテゴリによるコンピューティング

Computing with Categories in Machine Learning ( http://arxiv.org/abs/2303.04156v1 )

ライセンス: Link先を確認
Eli Sennesh, Tom Xu, Yoshihiro Maruyama(参考訳) カテゴリー理論は科学の様々な分野に適用され、多様な現象を統一する普遍原理に光を当て、それらの間の知識伝達を可能にする。 機械学習の応用は近年研究されているが、抽象数学的基礎と機械学習タスクへの具体的応用の間にはまだギャップがある。 本稿では,カテゴリ構造(対称モノイド圏やオペレーティングなど)と非モルト化変分推論を組み合わせた分類構造学習フレームワークとしてdiscopyroを導入し,例えば,変分オートエンコーダのためのプログラム学習に適用する。 他のモデル(例えばニューロシンボリックモデル)との比較とともに、数学的基礎と具体的な応用の両方を提供する。 我々は、DisCoPyroが最終的には人工知能の開発に寄与するのではないかと推測する。

Category theory has been successfully applied in various domains of science, shedding light on universal principles unifying diverse phenomena and thereby enabling knowledge transfer between them. Applications to machine learning have been pursued recently, and yet there is still a gap between abstract mathematical foundations and concrete applications to machine learning tasks. In this paper we introduce DisCoPyro as a categorical structure learning framework, which combines categorical structures (such as symmetric monoidal categories and operads) with amortized variational inference, and can be applied, e.g., in program learning for variational autoencoders. We provide both mathematical foundations and concrete applications together with comparison of experimental performance with other models (e.g., neuro-symbolic models). We speculate that DisCoPyro could ultimately contribute to the development of artificial general intelligence.
翻訳日:2023-03-09 16:22:49 公開日:2023-03-07
# Adaptive Weighted Multiview Kernel Matrix Factorizationとそのアルツハイマー病解析への応用 -- クラスタリングの観点から

Adaptive Weighted Multiview Kernel Matrix Factorization with its application in Alzheimer's Disease Analysis -- A clustering Perspective ( http://arxiv.org/abs/2303.04154v1 )

ライセンス: Link先を確認
Kai Liu and Yarui Cao(参考訳) 最近の技術と機器の進歩により、アルツハイマー病(ad)をよりよく分析する機会が得られ、様々な画像と遺伝的モダリティからデータを収集し、利用することで予測性能を向上させることができる。 本稿では,広告分析におけるクラスタリングを改善するために,各視点の重みを適応的に学習できる,すべての異なるモダリティ/ビューのデータを活用する新しいモデルを提案する。 データを線形分離可能であると仮定する以前のバニラ非負行列因子化とは違って,非線形データ構造に対処できるだけでなく,予測精度も向上する,カーネル行列因子化に基づく単純かつ効率的な手法を提案する。 adniデータセットの実験結果は,提案手法の有効性を示し,ad解析におけるカーネル応用の可能性を示す。

Recent technology and equipment advancements provide with us opportunities to better analyze Alzheimer's disease (AD), where we could collect and employ the data from different image and genetic modalities that may potentially enhance the predictive performance. To perform better clustering in AD analysis, in this paper we propose a novel model to leverage data from all different modalities/views, which can learn the weights of each view adaptively. Different from previous vanilla Non-negative Matrix Factorization which assumes data is linearly separable, we propose a simple yet efficient method based on kernel matrix factorization, which is not only able to deal with non-linear data structure but also can achieve better prediction accuracy. Experimental results on ADNI dataset demonstrate the effectiveness of our proposed method, which indicate promising prospects of kernel application in AD analysis.
翻訳日:2023-03-09 16:22:35 公開日:2023-03-07
# 進化的強化学習:調査

Evolutionary Reinforcement Learning: A Survey ( http://arxiv.org/abs/2303.04150v1 )

ライセンス: Link先を確認
Hui Bai and Ran Cheng and Yaochu Jin(参考訳) 強化学習(Reinforcement Learning, RL)は、エージェントに環境とのインタラクションを通じて累積報酬を最大化する機械学習アプローチである。 RLとディープラーニングの統合は、ボードゲーム、アーケードゲーム、ロボット制御など、幅広い課題において、目覚ましい成果をもたらした。 これらの成功にもかかわらず、センシティブなハイパーパラメータによって引き起こされる不安定な収束性、長期水平線とスパース報酬による時間的クレジット割り当ての難しさ、探索空間の連続的なシナリオにおける多様な探索の欠如、マルチエージェント強化学習におけるクレジット割り当ての難しさ、報酬の相反など、いくつかの重要な課題がある。 学習エージェントの個体数を維持する進化的計算(EC)は,これらの制限に対処する上で有望な性能を示した。 本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を行う。 本稿では,超パラメータ最適化,政策探索,探索,報酬形成,メタRL,多目的RLなど,RLの重要研究分野に基づいてEvoRL法を分類する。 次に、効率的な方法、ベンチマーク、スケーラブルなプラットフォームの観点から、今後の研究の方向性について論じる。 この調査は、EvoRLの分野に関心を持つ研究者や実践者のリソースとなり、今後の研究における重要な課題と機会を強調している。 この調査の助けを借りて、研究者や実践者はより効率的な方法やEvoRLのベンチマークを作成できるようになり、この有望な学際的な研究分野をさらに進めることができる。

Reinforcement learning (RL) is a machine learning approach that trains agents to maximize cumulative rewards through interactions with environments. The integration of RL with deep learning has recently resulted in impressive achievements in a wide range of challenging tasks, including board games, arcade games, and robot control. Despite these successes, there remain several crucial challenges, including brittle convergence properties caused by sensitive hyperparameters, difficulties in temporal credit assignment with long time horizons and sparse rewards, a lack of diverse exploration, especially in continuous search space scenarios, difficulties in credit assignment in multi-agent reinforcement learning, and conflicting objectives for rewards. Evolutionary computation (EC), which maintains a population of learning agents, has demonstrated promising performance in addressing these limitations. This article presents a comprehensive survey of state-of-the-art methods for integrating EC into RL, referred to as evolutionary reinforcement learning (EvoRL). We categorize EvoRL methods according to key research fields in RL, including hyperparameter optimization, policy search, exploration, reward shaping, meta-RL, and multi-objective RL. We then discuss future research directions in terms of efficient methods, benchmarks, and scalable platforms. This survey serves as a resource for researchers and practitioners interested in the field of EvoRL, highlighting the important challenges and opportunities for future research. With the help of this survey, researchers and practitioners can develop more efficient methods and tailored benchmarks for EvoRL, further advancing this promising cross-disciplinary research field.
翻訳日:2023-03-09 16:22:19 公開日:2023-03-07
# DR-VIDAL --2つのロバストな変分情報-実世界データに基づく対実予測と処理効果推定のためのディープラーニング

DR-VIDAL -- Doubly Robust Variational Information-theoretic Deep Adversarial Learning for Counterfactual Prediction and Treatment Effect Estimation on Real World Data ( http://arxiv.org/abs/2303.04201v1 )

ライセンス: Link先を確認
Shantanu Ghosh, Zheng Feng, Jiang Bian, Kevin Butler, Mattia Prosperi(参考訳) リアルワールド、観察的(非ランダム化)データ、例えば電子的な健康記録を用いた治療の再利用の結果に対する介入の因果効果の決定は、基礎的なバイアスのために困難である。 因果深い学習は、個別化された治療効果(ITE)を推定する伝統的な手法よりも改善されている。 本稿では2つの治療と結果のジョイントモデルを組み合わせた新たな生成フレームワークであるDouubly Robust Variational Information-theoretic Deep Adversarial Learning(DR-VIDAL)を提案する。 DR-VIDAL の統合 (i)共起者を因果的前提に従って潜在変数に分解する変分オートエンコーダ(vae) 二 反事実を発生させる情報理論的生成広告ネットワーク(info-gan) (iii)アウトカム予測のための治療効果を組み込んだ二重ロバストなブロック。 Infant Health and Development Program、Twin Birth Registry、National Supported Work Programといった人工的および現実世界のデータセットでは、DR-VIDALは他の生成的および生成的手法よりも優れたパフォーマンスを達成する。 結論として、DR-VIDALは因果仮定、VAE、Info-GAN、そして2倍の堅牢性を包括的でパフォーマンスのよいフレームワークに融合させる。 コードは、MITライセンス下でhttps://github.com/Shantanu48114860/DR-VIDAL-AMIA-22で入手できる。

Determining causal effects of interventions onto outcomes from real-world, observational (non-randomized) data, e.g., treatment repurposing using electronic health records, is challenging due to underlying bias. Causal deep learning has improved over traditional techniques for estimating individualized treatment effects (ITE). We present the Doubly Robust Variational Information-theoretic Deep Adversarial Learning (DR-VIDAL), a novel generative framework that combines two joint models of treatment and outcome, ensuring an unbiased ITE estimation even when one of the two is misspecified. DR-VIDAL integrates: (i) a variational autoencoder (VAE) to factorize confounders into latent variables according to causal assumptions; (ii) an information-theoretic generative adversarial network (Info-GAN) to generate counterfactuals; (iii) a doubly robust block incorporating treatment propensities for outcome predictions. On synthetic and real-world datasets (Infant Health and Development Program, Twin Birth Registry, and National Supported Work Program), DR-VIDAL achieves better performance than other non-generative and generative methods. In conclusion, DR-VIDAL uniquely fuses causal assumptions, VAE, Info-GAN, and doubly robustness into a comprehensive, performant framework. Code is available at: https://github.com/Shantanu48114860/DR-VIDAL-AMIA-22 under MIT license.
翻訳日:2023-03-09 16:15:40 公開日:2023-03-07
# 線形同変ステアブルネットワークの暗黙的バイアスについて : マージン,一般化,データ拡張に対する同値性

On the Implicit Bias of Linear Equivariant Steerable Networks: Margin, Generalization, and Their Equivalence to Data Augmentation ( http://arxiv.org/abs/2303.04198v1 )

ライセンス: Link先を確認
Ziyu Chen, Wei Zhu(参考訳) 群不変二元分類における線形同変ステアブルネットワーク上の勾配流の暗黙バイアスについて検討する。 その結果,パラメータ化予測器は入力群アクションによって定義された最大辺を持つ一意な群不変分類器に方向収束することがわかった。 入力表現のユニタリな仮定に基づき、ステアブルネットワークとデータ拡張の等価性を確立する。 さらに,非不変ネットワークに対するステアブルネットワークのマージン改善と一般化のバウンダリを示す。

We study the implicit bias of gradient flow on linear equivariant steerable networks in group-invariant binary classification. Our findings reveal that the parameterized predictor converges in direction to the unique group-invariant classifier with a maximum margin defined by the input group action. Under a unitary assumption on the input representation, we establish the equivalence between steerable networks and data augmentation. Furthermore, we demonstrate the improved margin and generalization bound of steerable networks over their non-invariant counterparts.
翻訳日:2023-03-09 16:15:13 公開日:2023-03-07
# PRIMO: 複数のアウトカムでプライベート回帰

PRIMO: Private Regression in Multiple Outcomes ( http://arxiv.org/abs/2303.04195v1 )

ライセンス: Link先を確認
Seth Neel(参考訳) プライバシを保ちながら、データアナリストが一連の$l$レグレッションを実行したいという共通の状況に触発され、covariates $x$がすべての$l$レグレッションで共有され、各レグレッション$i \in [l]$は異なる結果ベクトル$y_i$を持つ。 プライベートな線形回帰技術である l$ times を適用すると、標準線形回帰設定に対する誤差が$\sqrt{l}$ 増加するが、第4.1条では、十分な統計摂動(ssp)に基づいてテクニックを変更し、$l$ への依存度を大幅に改善する。 セクション4.2$では、内部製品クエリと呼ばれる特殊な低感度クエリに対して、回答をプライベートにリリースする問題と等価性を証明します。 この等価性を通じて,プライベートクエリリリースの事前作業からプリモ設定まで,幾何学的プロジェクションに基づく手法を適用する。 y$ というラベルがパブリックであると仮定すると、n < l\sqrt{d}$ のときガウスのメカニズムよりも改善され、エラー中の $l$ に対する漸近的な依存がなくなる。 4.3$で、プロジェクションアルゴリズムの複雑さを調べ、より高速なサブサンプリングベースの変種を4.4$で分析する。 最後に、1000 Genomesプロジェクトのデータを用いて、複数の表現型に対するプライベートなゲノムリスク予測のタスクにアルゴリズムを適用する。 提案手法を適度に大きめの$l$の場合,既存のプライベート回帰法とプロジェクションを使用しない修正SSPアルゴリズムの両方を用いて,本手法の精度を劇的に向上させることが判明した。

We introduce a new differentially private regression setting we call Private Regression in Multiple Outcomes (PRIMO), inspired the common situation where a data analyst wants to perform a set of $l$ regressions while preserving privacy, where the covariates $X$ are shared across all $l$ regressions, and each regression $i \in [l]$ has a different vector of outcomes $y_i$. While naively applying private linear regression techniques $l$ times leads to a $\sqrt{l}$ multiplicative increase in error over the standard linear regression setting, in Subsection $4.1$ we modify techniques based on sufficient statistics perturbation (SSP) to yield greatly improved dependence on $l$. In Subsection $4.2$ we prove an equivalence to the problem of privately releasing the answers to a special class of low-sensitivity queries we call inner product queries. Via this equivalence, we adapt the geometric projection-based methods from prior work on private query release to the PRIMO setting. Under the assumption the labels $Y$ are public, the projection gives improved results over the Gaussian mechanism when $n < l\sqrt{d}$, with no asymptotic dependence on $l$ in the error. In Subsection $4.3$ we study the complexity of our projection algorithm, and analyze a faster sub-sampling based variant in Subsection $4.4$. Finally in Section $5$ we apply our algorithms to the task of private genomic risk prediction for multiple phenotypes using data from the 1000 Genomes project. We find that for moderately large values of $l$ our techniques drastically improve the accuracy relative to both the naive baseline that uses existing private regression methods and our modified SSP algorithm that doesn't use the projection.
翻訳日:2023-03-09 16:15:05 公開日:2023-03-07
# 戦略指向ベイズソフトアクタ-クリティックモデル

A Strategy-Oriented Bayesian Soft Actor-Critic Model ( http://arxiv.org/abs/2303.04193v1 )

ライセンス: Link先を確認
Qin Yang, Ramviyas Parasuraman(参考訳) 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功確率を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって不可欠である。 本稿では,ベイズ連鎖規則に基づく新しい階層的戦略分解手法を提案し,複雑な方針をいくつかの単純なサブポリティシーに分離し,ベイズ戦略ネットワーク (bsn) としてそれらの関係を整理する。 我々は,このアプローチを最先端のdrl手法であるsoft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築する。 提案手法を,OpenAI Gym環境のMuJoCoにおける標準連続制御ベンチマークであるHopper-v2, Walker2d-v2, Humanoid-v2において, 提案手法とSAC, TD3, DDPG, PPOなどの最先端手法との比較を行った。 その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。

Adopting reasonable strategies is challenging but crucial for an intelligent agent with limited resources working in hazardous, unstructured, and dynamic environments to improve the system's utility, decrease the overall cost, and increase mission success probability. This paper proposes a novel hierarchical strategy decomposition approach based on the Bayesian chain rule to separate an intricate policy into several simple sub-policies and organize their relationships as Bayesian strategy networks (BSN). We integrate this approach into the state-of-the-art DRL method -- soft actor-critic (SAC) and build the corresponding Bayesian soft actor-critic (BSAC) model by organizing several sub-policies as a joint policy. We compare the proposed BSAC method with the SAC and other state-of-the-art approaches such as TD3, DDPG, and PPO on the standard continuous control benchmarks -- Hopper-v2, Walker2d-v2, and Humanoid-v2 -- in MuJoCo with the OpenAI Gym environment. The results demonstrate that the promising potential of the BSAC method significantly improves training efficiency.
翻訳日:2023-03-09 16:14:28 公開日:2023-03-07
# 大規模3次元ボリュームのクラスタリング:サンプリングに基づくアプローチ

Clustering large 3D volumes: A sampling-based approach ( http://arxiv.org/abs/2303.04188v1 )

ライセンス: Link先を確認
Thomas Lang(参考訳) x線ctの多くの応用において、再構成された3dボリュームの教師なしセグメンテーションは、デジタル化されたオブジェクトをさらに調査するための画像処理チェーンの重要なステップとなる。 したがって、クラスタインデックスを各voxelに割り当てることで、voxelwise分類を生成するボリューム上のクラスタリングアルゴリズムをトレーニングすることが目的である。 しかしながら、K-Meansのようなクラスタリング手法は一般的にデータセットサイズに関して漸近多項式ランタイムを持つため、これらの手法が大容量に適用されることは滅多にない。 本研究では,ランダムサンプリングに基づく新しいクラスタリング手法を導入し,任意の大ボリュームのボクセルワイズ分類を可能にする。 提案手法は,データに対して効率的な線形パスを行い,分類器を訓練可能な固定サイズの代表ランダムサンプルを抽出する。 そして、最終線形パスがセグメンテーションを実行し、各個々のボクセルにクラスタインデックスを割り当てる。 定量的および定性的な評価は、非常に小さなサンプルサイズであっても優れた結果が得られることを示している。 これにより、クラスタリングによる教師なしセグメンテーションが任意に大量のボリュームに対して実現可能となる。

In many applications of X-ray computed tomography, an unsupervised segmentation of the reconstructed 3D volumes forms an important step in the image processing chain for further investigation of the digitized object. Therefore, the goal is to train a clustering algorithm on the volume, which produces a voxelwise classification by assigning a cluster index to each voxel. However, clustering methods, e.g., K-Means, typically have an asymptotic polynomial runtime with respect to the dataset size, and thus, these techniques are rarely applicable to large volumes. In this work, we introduce a novel clustering technique based on random sampling, which allows for the voxelwise classification of arbitrarily large volumes. The presented method conducts efficient linear passes over the data to extract a representative random sample of a fixed size on which the classifier can be trained. Then, a final linear pass performs the segmentation and assigns a cluster index to each individual voxel. Quantitative and qualitative evaluations show that excellent results can be achieved even with a very small sample size. Consequently, the unsupervised segmentation by means of clustering becomes feasible for arbitrarily large volumes.
翻訳日:2023-03-09 16:14:02 公開日:2023-03-07
# 共同エネルギーモデルにおける安定化トレーニングとその応用

Stabilized training of joint energy-based models and their practical applications ( http://arxiv.org/abs/2303.04187v1 )

ライセンス: Link先を確認
Martin Sustek, Samik Sadhu, Lukas Burget, Hynek Hermansky, Jesus Villalba, Laureano Moro-Velazquez, Najim Dehak(参考訳) 最近提案されたジョイント・エナジー・ベース・モデル(JEM)は、識別的に訓練された分類器$p(y|x)$をエネルギーモデルとして解釈し、入力された観測値$p(x)$の分布を記述する生成モデルとしても訓練されている。 JEMトレーニングは、SGLD(Stochastic Gradient Langevin Dynamics)によって生成された分布$p(x)$から生成されるサンプルである"陽性例"(トレーニングデータセットの例)と"負例"に依拠している。 残念なことに、SGLDは標準のJEMトレーニング中に十分な品質の負のサンプルを提供することができず、これはJEM更新の勾配を計算する際の正の例と負の例から非常に不均衡なコントリビューションを引き起こす。 結果として、標準のJEMトレーニングは、ハイパーパラメータの注意深いチューニングを必要とし、トレーニングが分岐し始めると頻繁に再起動する。 これにより、異なるニューラルネットワークアーキテクチャ、モダリティ、タスクにJEMを適用するのが難しくなる。 本研究では,SGLDをベースとしたJEMトレーニング(ST-JEM)を,肯定的および否定的事例からのコントリビューションのバランスによって安定化させる訓練手順を提案する。 また、入力観測値の$x$と出力ラベルの$y$-の間に、トレーニング目標に"正規化"という用語を追加することを提案し、出力ラベルに関するより確実な決定をJEM分類器に促す。 CIFAR10タスクとCIFAR100タスクに対するアプローチの有効性を示す。 また,音声信号中の音素を分類する作業についても検討した。 学習モデルから説得力のある発話を生成できることを示す。 あるいは、いくつかのSGLDイテレーションを用いて、モデル付き音声分布に近づけることで、劣化した音声をデノーズすることができる。 また,訓練モデルのさらなる応用について提案・検討する。

The recently proposed Joint Energy-based Model (JEM) interprets discriminatively trained classifier $p(y|x)$ as an energy model, which is also trained as a generative model describing the distribution of the input observations $p(x)$. The JEM training relies on "positive examples" (i.e. examples from the training data set) as well as on "negative examples", which are samples from the modeled distribution $p(x)$ generated by means of Stochastic Gradient Langevin Dynamics (SGLD). Unfortunately, SGLD often fails to deliver negative samples of sufficient quality during the standard JEM training, which causes a very unbalanced contribution from the positive and negative examples when calculating gradients for JEM updates. As a consequence, the standard JEM training is quite unstable requiring careful tuning of hyper-parameters and frequent restarts when the training starts diverging. This makes it difficult to apply JEM to different neural network architectures, modalities, and tasks. In this work, we propose a training procedure that stabilizes SGLD-based JEM training (ST-JEM) by balancing the contribution from the positive and negative examples. We also propose to add an additional "regularization" term to the training objective -- MI between the input observations $x$ and output labels $y$ -- which encourages the JEM classifier to make more certain decisions about output labels. We demonstrate the effectiveness of our approach on the CIFAR10 and CIFAR100 tasks. We also consider the task of classifying phonemes in a speech signal, for which we were not able to train JEM without the proposed stabilization. We show that a convincing speech can be generated from the trained model. Alternatively, corrupted speech can be de-noised by bringing it closer to the modeled speech distribution using a few SGLD iterations. We also propose and discuss additional applications of the trained model.
翻訳日:2023-03-09 16:13:47 公開日:2023-03-07
# Adaptive Latent Representation Learningによるエンドツーエンドの顔スワッピング

End-to-end Face-swapping via Adaptive Latent Representation Learning ( http://arxiv.org/abs/2303.04186v1 )

ライセンス: Link先を確認
Chenhao Lin, Pengbin Hu, Chao Shen, Qian Li(参考訳) 近年,スタイルGANの優れた性能をフル活用して,スタイル転送に基づくフェイススワップ手法が広く研究されている。 しかし、これらの研究は、顔スワップを成功させるために異なる顔セグメンテーションとブレンディングモジュールを必要としており、これらの研究で操作された潜在コードの固定選択は無謀である。 本稿では,Adaptive Latent Representation Learningによる高分解能・属性保存顔交換のための新しいエンドツーエンド統合フレームワークを提案する。 具体的には、基礎となる特徴抽出ネットワークを共有し、顔領域の知覚と顔のエンコーディングを同時に完了させることにより、まずマルチタスクのデュアルスペース顔エンコーダを設計する。 このエンコーダにより、顔ポーズと属性を個別に制御することができ、顔交換品質が向上する。 次に,顔属性と潜時符号のマッピングを適応的に学習する適応型潜時符号スワップモジュールを提案し,顔属性の保持を改善するために有効な潜時符号を選択する。 最後に、StyleGAN2が生成した初期顔交換画像とエンコーダが生成した顔領域マスクとを混合して背景ぼけ問題に対処する。 エンド・ツー・エンドのトレーニングとテストプロセスに顔認識とブレンドを統合するフレームワークは,セグメンテーションマスクを使わずに,野生の顔を高度にリアルにスワッピングできる。 実験により,本手法の最先端手法よりも優れた性能を示した。

Taking full advantage of the excellent performance of StyleGAN, style transfer-based face swapping methods have been extensively investigated recently. However, these studies require separate face segmentation and blending modules for successful face swapping, and the fixed selection of the manipulated latent code in these works is reckless, thus degrading face swapping quality, generalizability, and practicability. This paper proposes a novel and end-to-end integrated framework for high resolution and attribute preservation face swapping via Adaptive Latent Representation Learning. Specifically, we first design a multi-task dual-space face encoder by sharing the underlying feature extraction network to simultaneously complete the facial region perception and face encoding. This encoder enables us to control the face pose and attribute individually, thus enhancing the face swapping quality. Next, we propose an adaptive latent codes swapping module to adaptively learn the mapping between the facial attributes and the latent codes and select effective latent codes for improved retention of facial attributes. Finally, the initial face swapping image generated by StyleGAN2 is blended with the facial region mask generated by our encoder to address the background blur problem. Our framework integrating facial perceiving and blending into the end-to-end training and testing process can achieve high realistic face-swapping on wild faces without segmentation masks. Experimental results demonstrate the superior performance of our approach over state-of-the-art methods.
翻訳日:2023-03-09 16:13:11 公開日:2023-03-07
# ラベルなしデータによるグラディエントフリー構造化プルーニング

Gradient-Free Structured Pruning with Unlabeled Data ( http://arxiv.org/abs/2303.04185v1 )

ライセンス: Link先を確認
Azade Nova, Hanjun Dai, Dale Schuurmans(参考訳) 大規模言語モデル(LLM)は、多くのドメインにわたる困難なタスクを解決する上で大きな成功を収めていますが、その成功には高い計算コストと推論遅延が伴います。 開発者やサードパーティがこれらのモデルをカスタマイズするにつれて、効率的な推論の必要性が高まっている。 多くの試みがプルーニングや蒸留といったモデル圧縮技術によって推論コストを削減しようとしている。 しかし、これらの技術はラベル付きデータを必要とするか、あるいは圧縮されたモデルが精度を取り戻すために再訓練される必要があるため、時間を要する。 本稿では,ラベルなしデータのみを使用する勾配フリー構造プルーニングフレームワークを提案する。 BERT$_{BASE}$とDistilBERTを用いたGLUEおよびSQuADベンチマークの評価は,提案手法の有効性を示す。 トレーニング済みのモデルとラベルなしデータの重みのみを使用することで、単一のGPU上で数分で、検討されたすべてのタスクで最大40%のFLOPカウントを4%未満の精度で削減することができる。

Large Language Models (LLMs) have achieved great success in solving difficult tasks across many domains, but such success comes with a high computation cost, and inference latency. As developers and third parties customize these models, the need to provide efficient inference has increased. Many efforts have attempted to reduce inference cost through model compression techniques such as pruning and distillation. However, these techniques either require labeled data, or are time-consuming as they require the compressed model to be retrained to regain accuracy. In this paper, we propose a gradient-free structured pruning framework that uses only unlabeled data. An evaluation on the GLUE and SQuAD benchmarks using BERT$_{BASE}$ and DistilBERT illustrates the effectiveness of the proposed approach. By only using the weights of the pre-trained model and unlabeled data, in a matter of a few minutes on a single GPU, up to 40% of the original FLOP count can be reduced with less than a 4% accuracy loss across all tasks considered.
翻訳日:2023-03-09 16:12:47 公開日:2023-03-07
# データセット凝縮によるロバスト性保存生涯学習

Robustness-preserving Lifelong Learning via Dataset Condensation ( http://arxiv.org/abs/2303.04183v1 )

ライセンス: Link先を確認
Jinghan Jia and Yihua Zhang and Dogyoon Song and Sijia Liu and Alfred Hero(参考訳) Lifelong Learning (LL)は、データソースが継続的に進化するにつれて予測モデルを改善することを目的としている。 この学習パラダイムにおけるほとんどの研究は、「破滅的な忘れ」の問題を解決することに集中しており、これは新しいデータよりもモデル精度を改善することと、以前のデータよりも精度を維持することの間の悪名高いジレンマを指す。 しかし、機械学習(ml)モデルは、小さな逆の入力摂動がモデルを騙して誤った予測を生成することができるという意味でも脆弱であることが知られている。 本論文は,大惨な忘れからモデルロバスト性(アタックによる攻撃)を救える新しいLLフレームワークの仕様を,本研究の目的とするものである。 具体的には,近年のbiレベル最適化手法を活用し,現在のデータ(記憶すべき少量のデータ)の「コアセット」を判断し,時間とともに敵対的ロバスト性を維持するための新しいメモリリプレイll戦略を提案する。 結果の LL フレームワークを 'Data-Efficient Robustness-Preserving LL' (DERPLL) と呼ぶ。 CIFAR-10データセット上でのResNet-18を用いた画像分類においてDERPLLの有効性を評価する。 実験の結果, DERPLLは従来のコアセット誘導LLベースラインよりも優れ,標準精度とロバスト精度の両方で大幅に向上した。

Lifelong learning (LL) aims to improve a predictive model as the data source evolves continuously. Most work in this learning paradigm has focused on resolving the problem of 'catastrophic forgetting,' which refers to a notorious dilemma between improving model accuracy over new data and retaining accuracy over previous data. Yet, it is also known that machine learning (ML) models can be vulnerable in the sense that tiny, adversarial input perturbations can deceive the models into producing erroneous predictions. This motivates the research objective of this paper - specification of a new LL framework that can salvage model robustness (against adversarial attacks) from catastrophic forgetting. Specifically, we propose a new memory-replay LL strategy that leverages modern bi-level optimization techniques to determine the 'coreset' of the current data (i.e., a small amount of data to be memorized) for ease of preserving adversarial robustness over time. We term the resulting LL framework 'Data-Efficient Robustness-Preserving LL' (DERPLL). The effectiveness of DERPLL is evaluated for class-incremental image classification using ResNet-18 over the CIFAR-10 dataset. Experimental results show that DERPLL outperforms the conventional coreset-guided LL baseline and achieves a substantial improvement in both standard accuracy and robust accuracy.
翻訳日:2023-03-09 16:12:30 公開日:2023-03-07
# 運動インダクタンス進行波パラメトリック増幅器を用いたマイクロ波SQUID多重出力の改善

Improved microwave SQUID multiplexer readout using a kinetic-inductance traveling-wave parametric amplifier ( http://arxiv.org/abs/2303.04181v1 )

ライセンス: Link先を確認
M. Malnou, J. A. B. Mates, M. R. Vissers, L. R. Vale, D. R. Schmidt, D. A. Bennett, J. Gao, J. N. Ullom(参考訳) マイクロ波超伝導量子干渉装置(squid)マルチプレクサ(umux)の読み出しチェーンにおける最初の増幅器として、速度-インダクタンス進行波パラメトリック増幅器(kitwpa)の使用について報告する。 このumuxは、超伝導トランジッションエッジセンサマイクロカロリメータなどの低温検出器アレイからの信号を多重化するように設計されている。 周期的なフラックスランプでSQUID応答を線形化すると、フラックスノイズは平均1.6$$$\mu\Phi_0/\sqrt{\mathrm{Hz}}$から0.77$$$\mu\Phi_0/\sqrt{\mathrm{Hz}}$へと改善される。 umuxを最大フラックス感応点に静的にバイアスすると、フラックスノイズは$0.45$$$$\mu\phi_0/\sqrt{\mathrm{hz}}$から$0.2$$$$$\mu\phi_0/\sqrt{\mathrm{hz}}$となる。 本研究では, 遷移エッジセンサマイクロカロリメータとumuxを結合し, 背景放射を検出することで, この新しい読み出し方式を検証する。 umuxとKITWPAの組み合わせによって、検出感度の向上や帯域幅の効率向上など、さまざまな新機能が提供される。

We report on the use of a kinetic-inductance traveling-wave parametric amplifier (KITWPA) as the first amplifier in the readout chain of a microwave superconducting quantum interference device (SQUID) multiplexer (umux). This umux is designed to multiplex signals from arrays of low temperature detectors such as superconducting transition-edge sensor microcalorimeters. When modulated with a periodic flux-ramp to linearize the SQUID response, the flux noise improves, on average, from $1.6$ $\mu\Phi_0/\sqrt{\mathrm{Hz}}$ with the KITWPA off, to $0.77$ $\mu\Phi_0/\sqrt{\mathrm{Hz}}$ with the KITWPA on. When statically biasing the umux to the maximally flux-sensitive point, the flux noise drops from $0.45$ $\mu\Phi_0/\sqrt{\mathrm{Hz}}$ to $0.2$ $\mu\Phi_0/\sqrt{\mathrm{Hz}}$. We validate this new readout scheme by coupling a transition-edge sensor microcalorimeter to the umux and detecting background radiation. The combination of umux and KITWPA provides a variety of new capabilities including improved detector sensitivity and more efficient bandwidth utilization.
翻訳日:2023-03-09 16:12:09 公開日:2023-03-07
# ai生成コンテンツ(aigc)の包括的調査 : ganからchatgptへの生成aiの歴史

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT ( http://arxiv.org/abs/2303.04226v1 )

ライセンス: Link先を確認
Yihan Cao, Siyu Li, Yixin Liu, Zhiling Yan, Yutong Dai, Philip S. Yu, Lichao Sun(参考訳) 近年、ChatGPTはDALL-E-2やCodexと共に社会から注目を集めている。 その結果、多くの個人が関連リソースに興味を持ち、その印象的なパフォーマンスの背景と秘密を解明しようと試みている。 実際、ChatGPTや他の生成AI(GAI)技術は、AIモデルを通じて画像、音楽、自然言語などのデジタルコンテンツを作成するAIGC(Artificial Intelligence Generated Content)のカテゴリに属している。 AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。 AIGCは、人間の提供する指示から意図情報を抽出し、理解し、その知識と意図情報に基づいてコンテンツを生成する。 近年,AIGCの意図抽出が向上し,生成結果が向上するにつれて,大規模モデルの重要性が高まっている。 データの成長とモデルのサイズによって、モデルが学習できる分布はより包括的で現実に近いものになり、より現実的で高品質なコンテンツ生成につながる。 本調査では, 生成モデルの歴史, 基本コンポーネント, 単調相互作用とマルチモーダル相互作用によるAIGCの最近の進歩を概観する。 ユニモダリティの観点からは,テキストと画像の生成タスクと相対モデルを紹介する。 マルチモーダル性の観点から、上述したモダリティ間の相互適用を導入する。 最後に、AIGCにおける既存のオープンな問題と今後の課題について論じる。

Recently, ChatGPT, along with DALL-E-2 and Codex,has been gaining significant attention from society. As a result, many individuals have become interested in related resources and are seeking to uncover the background and secrets behind its impressive performance. In fact, ChatGPT and other Generative AI (GAI) techniques belong to the category of Artificial Intelligence Generated Content (AIGC), which involves the creation of digital content, such as images, music, and natural language, through AI models. The goal of AIGC is to make the content creation process more efficient and accessible, allowing for the production of high-quality content at a faster pace. AIGC is achieved by extracting and understanding intent information from instructions provided by human, and generating the content according to its knowledge and the intent information. In recent years, large-scale models have become increasingly important in AIGC as they provide better intent extraction and thus, improved generation results. With the growth of data and the size of the models, the distribution that the model can learn becomes more comprehensive and closer to reality, leading to more realistic and high-quality content generation. This survey provides a comprehensive review on the history of generative models, and basic components, recent advances in AIGC from unimodal interaction and multimodal interaction. From the perspective of unimodality, we introduce the generation tasks and relative models of text and image. From the perspective of multimodality, we introduce the cross-application between the modalities mentioned above. Finally, we discuss the existing open problems and future challenges in AIGC.
翻訳日:2023-03-09 16:05:42 公開日:2023-03-07
# SemEval-2023 Task 10: 説明可能なオンライン性差別の検出

SemEval-2023 Task 10: Explainable Detection of Online Sexism ( http://arxiv.org/abs/2303.04222v1 )

ライセンス: Link先を確認
Hannah Rose Kirk, Wenjie Yin, Bertie Vidgen, Paul R\"ottger(参考訳) オンライン性差別は広く、有害な現象である。 自動ツールは、性差別を大規模に検出するのに役立つ。 しかし、バイナリー検出は性差別的コンテンツの多様性を無視しており、なぜ性差別的なのかを明確に説明できない。 この問題に対処するために、オンライン性差別の説明可能な検出(EDOS)についてSemEval Task 10を紹介する。 主な貢献は3つあります 一 説明可能性を支援するために性差別の粒状ベクトルを含む性差別コンテンツの新規階層分類法 二 細粒度ラベル付きソーシャルメディアコメント二万件の新しいデータセット及びモデル適応のためのより大きな未ラベルデータセット 三 ベースラインモデル及び我々のタスクへの参加者の提出方法、結果及びエラーの分析。

Online sexism is a widespread and harmful phenomenon. Automated tools can assist the detection of sexism at scale. Binary detection, however, disregards the diversity of sexist content, and fails to provide clear explanations for why something is sexist. To address this issue, we introduce SemEval Task 10 on the Explainable Detection of Online Sexism (EDOS). We make three main contributions: i) a novel hierarchical taxonomy of sexist content, which includes granular vectors of sexism to aid explainability; ii) a new dataset of 20,000 social media comments with fine-grained labels, along with larger unlabelled datasets for model adaptation; and iii) baseline models as well as an analysis of the methods, results and errors for participant submissions to our task.
翻訳日:2023-03-09 16:05:18 公開日:2023-03-07
# 自動運転の深部活動予測表現

Deep Occupancy-Predictive Representations for Autonomous Driving ( http://arxiv.org/abs/2303.04218v1 )

ライセンス: Link先を確認
Eivind Meyer, Lars Frederik Peiss, and Matthias Althoff(参考訳) 交通環境の多様性を捉える機能を手動で指定するのは現実的ではない。 そのため、学習に基づくエージェントは、自動運転車のニューラルモーションプランナーとしての可能性を完全には認識できない。 代わりに、この作業はどの機能がタスクに関係するかを学ぶことを提案する。 動作計画の即時的関連を考慮し,提案アーキテクチャは,事前学習した状態表現のプロキシとして確率的占有マップを符号化する。 エージェント中心のエンコーダは,環境の地図認識グラフを活用し,任意の道路網や交通状況に一般化する。 本手法は,都市交通環境における強化学習エージェントの下流性能を著しく向上させることを示す。

Manually specifying features that capture the diversity in traffic environments is impractical. Consequently, learning-based agents cannot realize their full potential as neural motion planners for autonomous vehicles. Instead, this work proposes to learn which features are task-relevant. Given its immediate relevance to motion planning, our proposed architecture encodes the probabilistic occupancy map as a proxy for obtaining pre-trained state representations. By leveraging a map-aware graph formulation of the environment, our agent-centric encoder generalizes to arbitrary road networks and traffic situations. We show that our approach significantly improves the downstream performance of a reinforcement learning agent operating in urban traffic environments.
翻訳日:2023-03-09 16:05:06 公開日:2023-03-07
# AI for Science - 新進のアジェンダ

AI for Science: An Emerging Agenda ( http://arxiv.org/abs/2303.04217v1 )

ライセンス: Link先を確認
Philipp Berens, Kyle Cranmer, Neil D. Lawrence, Ulrike von Luxburg and Jessica Montgomery(参考訳) 本報告は,dagstuhl seminar 22382 "machine learning for science: bridging data-driven and mechanistic modelling" のプログラムと成果について述べる。 今日の科学的課題は複雑さによって特徴づけられる。 相互接続された自然、技術、および人間のシステムは、時間的、空間的スケールにまたがる力に影響され、複雑な相互作用と創発的な行動をもたらす。 これらの現象を理解し、社会の健康、富、幸福を改善するための革新的な解決策を提供するには、複雑なシステムを分析する新しい方法が必要である。 AIの変革的ポテンシャルは、分野にわたって広く適用可能であることに由来するもので、研究領域間での統合によってのみ達成される。 科学のためのAIはランデブーポイントだ。 これは、$\mathrm{AI}$とアプリケーションドメインの専門知識、モデリング知識とエンジニアリングノウハウの組み合わせ、そして、規律と人間と機械間のコラボレーションに依存している。 技術的な進歩に加えて、この分野における次の進歩の波は、機械学習研究者、ドメインエキスパート、市民科学者、そして効果的なAIツールの設計とデプロイのために協力して働くエンジニアのコミュニティを構築することにある。 このレポートはセミナーの議論を要約し、異なるコミュニティが協力してaiの新たな進歩の波と科学的発見の応用を提供する方法を示唆するロードマップを提供する。

This report documents the programme and the outcomes of Dagstuhl Seminar 22382 "Machine Learning for Science: Bridging Data-Driven and Mechanistic Modelling". Today's scientific challenges are characterised by complexity. Interconnected natural, technological, and human systems are influenced by forces acting across time- and spatial-scales, resulting in complex interactions and emergent behaviours. Understanding these phenomena -- and leveraging scientific advances to deliver innovative solutions to improve society's health, wealth, and well-being -- requires new ways of analysing complex systems. The transformative potential of AI stems from its widespread applicability across disciplines, and will only be achieved through integration across research domains. AI for science is a rendezvous point. It brings together expertise from $\mathrm{AI}$ and application domains; combines modelling knowledge with engineering know-how; and relies on collaboration across disciplines and between humans and machines. Alongside technical advances, the next wave of progress in the field will come from building a community of machine learning researchers, domain experts, citizen scientists, and engineers working together to design and deploy effective AI tools. This report summarises the discussions from the seminar and provides a roadmap to suggest how different communities can collaborate to deliver a new wave of progress in AI and its application for scientific discovery.
翻訳日:2023-03-09 16:04:58 公開日:2023-03-07
# ConBaT: 安全な政策学習のための制御バリアトランス

ConBaT: Control Barrier Transformer for Safe Policy Learning ( http://arxiv.org/abs/2303.04212v1 )

ライセンス: Link先を確認
Yue Meng, Sai Vemprala, Rogerio Bonatti, Chuchu Fan, and Ashish Kapoor(参考訳) 大規模自己管理モデルは最近、ビジョンや言語領域内でさまざまなタスクを実行する能力に革命をもたらした。 しかし、そのようなモデルを自律システムに使用することは、安全要件のために困難である:正しい行動を実行する以外に、自律エージェントは高いコストと致命的な致命的な過ちを避ける必要がある。 伝統的に、自己指導訓練は主に観察された行動の模倣に焦点を当てており、トレーニングのデモンストレーションでは、どの行動が明示的に避けるべきかという概念は持たない。 そこで本研究では,自己監視方式で実験から安全な行動を学習する制御バリアトランスフォーマ(conbat)を提案する。 ConBaTは制御理論における制御障壁関数の概念に着想を得ており、最小限の安全データラベリングを必要とする批評家を用いて安全ロボット行動の自動回帰予測を学ぶ因果変換器を使用している。 デプロイ中、私たちは軽量なオンライン最適化を採用して、学習したセーフセット内の将来の状態を確実にするアクションを見つけました。 本手法は,様々なシミュレーション制御タスクに適用し,模倣学習,強化学習,モデル予測制御といった他の古典的・学習ベースの手法と比較して,より安全な制御方針を実現することを示す。

Large-scale self-supervised models have recently revolutionized our ability to perform a variety of tasks within the vision and language domains. However, using such models for autonomous systems is challenging because of safety requirements: besides executing correct actions, an autonomous agent must also avoid the high cost and potentially fatal critical mistakes. Traditionally, self-supervised training mainly focuses on imitating previously observed behaviors, and the training demonstrations carry no notion of which behaviors should be explicitly avoided. In this work, we propose Control Barrier Transformer (ConBaT), an approach that learns safe behaviors from demonstrations in a self-supervised fashion. ConBaT is inspired by the concept of control barrier functions in control theory and uses a causal transformer that learns to predict safe robot actions autoregressively using a critic that requires minimal safety data labeling. During deployment, we employ a lightweight online optimization to find actions that ensure future states lie within the learned safe set. We apply our approach to different simulated control tasks and show that our method results in safer control policies compared to other classical and learning-based methods such as imitation learning, reinforcement learning, and model predictive control.
翻訳日:2023-03-09 16:04:35 公開日:2023-03-07
# 解釈可能な機械学習のための因果依存プロット

Causal Dependence Plots for Interpretable Machine Learning ( http://arxiv.org/abs/2303.04209v1 )

ライセンス: Link先を確認
Joshua R. Loftus, Lucius E. J. Bynum, Sakina Hansen(参考訳) 人工知能や機械学習モデルを説明することは、ますます重要な問題である。 人間はループに留まり、そのようなシステムを制御するためには、どのように世界と相互作用するかを理解する必要がある。 本研究では、入力変数の因果構造を既知のあるいは仮定し、教師付き学習モデルの単純かつ実践的な説明を生成することを提案する。 私たちがCausal Dependence Plots(CDP)と呼ぶ私たちの説明は、モデル出力が与えられた予測子 \emph{along の変化にどのように依存するかを可視化し、他の予測子に連続した因果変化がある。 この因果依存は、人間が入出力依存をどう考えるかを捉えているため、cdpは説明可能なaiや解釈可能なmlツールキットの強力なツールとなり、科学的機械学習やアルゴリズムの公平性といったアプリケーションに貢献する。 CDPはモデルに依存しない説明やブラックボックスの説明にも使える。

Explaining artificial intelligence or machine learning models is an increasingly important problem. For humans to stay in the loop and control such systems, we must be able to understand how they interact with the world. This work proposes using known or assumed causal structure in the input variables to produce simple and practical explanations of supervised learning models. Our explanations -- which we name Causal Dependence Plots or CDP -- visualize how the model output depends on changes in a given predictor \emph{along with any consequent causal changes in other predictors}. Since this causal dependence captures how humans often think about input-output dependence, CDPs can be powerful tools in the explainable AI or interpretable ML toolkit and contribute to applications including scientific machine learning and algorithmic fairness. CDP can also be used for model-agnostic or black-box explanations.
翻訳日:2023-03-09 16:04:12 公開日:2023-03-07
# EscherNet 101

EscherNet 101 ( http://arxiv.org/abs/2303.04208v1 )

ライセンス: Link先を確認
Christopher Funk and Yanxi Liu(参考訳) 深層学習モデルeschernet 101を構築し、2次元周期パターンの画像をそれぞれ17の壁紙グループに分類する。 EscherNet 101の性能を分類率で評価する以外に、マイクロレベルでネットワーク内の異なる層で学習したフィルタを調べ、エッジや曲率を超える2階不変量をキャプチャする。

A deep learning model, EscherNet 101, is constructed to categorize images of 2D periodic patterns into their respective 17 wallpaper groups. Beyond evaluating EscherNet 101 performance by classification rates, at a micro-level we investigate the filters learned at different layers in the network, capable of capturing second-order invariants beyond edge and curvature.
翻訳日:2023-03-09 16:03:56 公開日:2023-03-07
# 太陽バースト北エフ環のリビリアンギャップと平衡外ダイナミクス:局所から均一散逸へ

Liovillian gap and out-of-equilibrium dynamics of a sunburst Kitaev ring: from local to uniform dissipation ( http://arxiv.org/abs/2303.04207v1 )

ライセンス: Link先を確認
Alessio Franchi, Francesco Tarantelli(参考訳) 1+1) 次元のキタエフ環からなる開量子系を、\textit{sunburst} 幾何学において、n$ の粒子損失散逸子を介して環境と結合する。 装置全体の平衡外ダイナミクスをlindbladマスター方程式を用いて記述し,システムサイズ$l$のliovillian gap $\delta_\lambda$のスケーリング挙動に注目した。 我々は、大きめの極限で考慮された散逸源の数と、散逸強度$w$に依存する異なるレジームを明らかにし、これは固定または0に$w\sim1/L$として減衰される。 第2部では、臨界相関と絡み合いエントロピーの時間的進化を監視するために、連続量子遷移に近い動的有限サイズスケーリングフレームワークを開発し、この体制における$\Delta_\lambda$の役割を強調した。

We consider an open quantum system composed of a $(1+1)$-dimensional Kitaev ring coupled with the environment via $n$ particle-loss dissipators in a \textit{sunburst} geometry. We describe the out-of-equilibrium dynamics of the whole apparatus in terms of Lindblad master equations and focus on the scaling behavior of the Liovillian gap $\Delta_\lambda$ with the system size $L$. We unveil different regimes, which depend primarily on the number of dissipation sources considered in the large-size limit and the dissipation strength $w$, which may be either fixed or attenuated to zero as $w\sim1/L$. In the second part, we develop a dynamic Finite-Size Scaling framework close to Continuous Quantum Transitions to monitor the time evolution of the critical correlations and the entanglement entropy, emphasizing the role of $\Delta_\lambda$ in this regime.
翻訳日:2023-03-09 16:03:48 公開日:2023-03-07
# 衛星画像を用いた深層ハイブリッドモデル:行動分析のための需要モデリングとコンピュータビジョンの結合法?

Deep hybrid model with satellite imagery: how to combine demand modeling and computer vision for behavior analysis? ( http://arxiv.org/abs/2303.04204v1 )

ライセンス: Link先を確認
Qingyi Wang, Shenhao Wang, Yunhan Zheng, Hongzhou Lin, Xiaohu Zhang, Jinhua Zhao, Joan Walker(参考訳) 古典的需要モデリングは、低次元の数値データ(社会デモグラフィと旅行属性)のみを使用して旅行行動を分析するが、高次元の都市画像ではない。 しかし、旅行行動は数値データと都市画像の両方で表される要因に依存するため、それらを組み合わせるには相乗的枠組みが必要である。 本研究では,混合演算子と行動予測器からなる交差構造を持つ深層ハイブリッドモデルの理論的枠組みを作成し,数値と画像のデータを潜在空間に統合する。 シカゴのMyDailyTravel Surveyを数値入力として,衛星画像を画像入力として利用して,旅行モードの選択を実証的に分析する。 我々は,従来の需要モデルと近年の深層学習の両方において,当社の監視・混合設計による旅行行動の集約・非集約化を予測する上で,ハイブリッドモデルの方が優れていることを発見した。 深いハイブリッドモデルにおける潜伏空間は、意味のある空間的および社会的パターンを明らかにするため解釈できる。 ディープハイブリッドモデルはまた、現実に存在しない新しい都市イメージを生成し、コンピューティングの代替パターンや社会福祉の変化といった経済理論と解釈することができる。 全体として、深層ハイブリッドモデルは、低次元数値データと高次元画像データと、従来の需要モデリングと最近のディープラーニングの相補性を示している。 古典的なハイブリッド需要モデルにおける潜在クラスと変数を潜在空間に一般化し、マイクロエコノミクス財団の経済解釈性を維持しつつ、画像に対するディープラーニングの計算能力を活用する。

Classical demand modeling analyzes travel behavior using only low-dimensional numeric data (i.e. sociodemographics and travel attributes) but not high-dimensional urban imagery. However, travel behavior depends on the factors represented by both numeric data and urban imagery, thus necessitating a synergetic framework to combine them. This study creates a theoretical framework of deep hybrid models with a crossing structure consisting of a mixing operator and a behavioral predictor, thus integrating the numeric and imagery data into a latent space. Empirically, this framework is applied to analyze travel mode choice using the MyDailyTravel Survey from Chicago as the numeric inputs and the satellite images as the imagery inputs. We found that deep hybrid models outperform both the traditional demand models and the recent deep learning in predicting the aggregate and disaggregate travel behavior with our supervision-as-mixing design. The latent space in deep hybrid models can be interpreted, because it reveals meaningful spatial and social patterns. The deep hybrid models can also generate new urban images that do not exist in reality and interpret them with economic theory, such as computing substitution patterns and social welfare changes. Overall, the deep hybrid models demonstrate the complementarity between the low-dimensional numeric and high-dimensional imagery data and between the traditional demand modeling and recent deep learning. It generalizes the latent classes and variables in classical hybrid demand models to a latent space, and leverages the computational power of deep learning for imagery while retaining the economic interpretability on the microeconomics foundation.
翻訳日:2023-03-09 16:03:32 公開日:2023-03-07
# 多様体アンタングリングの幾何学理論に向けて

Toward a Geometric Theory of Manifold Untangling ( http://arxiv.org/abs/2303.04203v1 )

ライセンス: Link先を確認
Xin Li and Shuo Wang(参考訳) 物体認識のための腹側ストリーム処理は皮質局所部分空間アンタングリングと呼ばれるメカニズムに基づいていると仮定されている。 視覚野による物体認識の数学的抽象化は、異なる対象圏に関連する多様体を解き放つ方法である。 そのような多様体の取り外し問題は、計量空間における有名なカーネルトリックと密接に関連している。 本稿では、距離計量を人工的に定義することなく、位相空間に展開する多様体に対するより一般的な解が存在すると仮定する。 幾何学的には、選択性を促進するために高次元空間の多様体に$embed$を、寛容を促進するために$flatten$をもよい。 大域多様体埋め込みと局所多様体平坦化の両方の一般的な戦略を提示し、画像、音声、言語データのアンタングリングに関する既存の研究と結びつける。 また、多様体を運動制御や内部表現に展開する意義についても論じる。

It has been hypothesized that the ventral stream processing for object recognition is based on a mechanism called cortically local subspace untangling. A mathematical abstraction of object recognition by the visual cortex is how to untangle the manifolds associated with different object category. Such a manifold untangling problem is closely related to the celebrated kernel trick in metric space. In this paper, we conjecture that there is a more general solution to manifold untangling in the topological space without artificially defining any distance metric. Geometrically, we can either $embed$ a manifold in a higher dimensional space to promote selectivity or $flatten$ a manifold to promote tolerance. General strategies of both global manifold embedding and local manifold flattening are presented and connected with existing work on the untangling of image, audio, and language data. We also discuss the implications of untangling the manifold into motor control and internal representations.
翻訳日:2023-03-09 16:03:04 公開日:2023-03-07
# SKGHOI:人間と物体の相互作用検出のための空間意味知識グラフ

SKGHOI: Spatial-Semantic Knowledge Graph for Human-Object Interaction Detection ( http://arxiv.org/abs/2303.04253v1 )

ライセンス: Link先を確認
Lijing Zhu, Qizhen Lan, Alvaro Velasquez, Houbing Song, Acharya Kamal, Qing Tian, Shuteng Niu(参考訳) 人間と物体の相互作用(HOI)を検出することは、コンピュータビジョンにおいて難しい問題である。 既存のHOI検出技術は外観に基づく特徴に大きく依存しており、正確な検出には他の重要な特徴を捉えない可能性がある。 さらに,トランスフォーマーモデルを用いた人-物対の感情表現は,計算コストがかかる。 これらの課題に対処するために,空間的知識と意味的知識を統合することにより,HOIの感情表現を効果的に捉える新しいグラフベースアプローチであるSKGHOI(Spatial-Semantic Knowledge Graph for Human-Object Interaction Detection)を提案する。 グラフでは、SKGHOIは相互作用のコンポーネントをノードとして、それらの間の空間的関係をエッジとして取ります。 提案手法では,空間エンコーダと意味エンコーダを用いて,空間情報と意味情報をそれぞれ抽出し,これらのエンコーダを組み合わせて,HOIの感情表現をキャプチャする知識グラフを作成する。 既存の技術と比較して、skghoiは計算効率が高く、事前知識の組み込みが可能であり、実世界のアプリケーションでの使用に実用的である。 提案手法は,既存の最先端グラフベース手法をかなりのマージンで上回る,広く使用されているhco-detデータセット上での有効性を示す。 以上の結果から,skghoiアプローチはhoi検出の精度と効率を大幅に向上させる可能性を示唆し,この課題に取り組む研究者や実践者にとって大きな関心事となることを期待した。

Detecting human-object interactions (HOIs) is a challenging problem in computer vision. Existing techniques for HOI detection heavily rely on appearance-based features, which may not capture other essential characteristics for accurate detection. Furthermore, the use of transformer-based models for sentiment representation of human-object pairs can be computationally expensive. To address these challenges, we propose a novel graph-based approach, SKGHOI (Spatial-Semantic Knowledge Graph for Human-Object Interaction Detection), that effectively captures the sentiment representation of HOIs by integrating both spatial and semantic knowledge. In a graph, SKGHOI takes the components of interaction as nodes, and the spatial relationships between them as edges. Our approach employs a spatial encoder and a semantic encoder to extract spatial and semantic information, respectively, and then combines these encodings to create a knowledge graph that captures the sentiment representation of HOIs. Compared to existing techniques, SKGHOI is computationally efficient and allows for the incorporation of prior knowledge, making it practical for use in real-world applications. We demonstrate the effectiveness of our proposed method on the widely-used HICO-DET datasets, where it outperforms existing state-of-the-art graph-based methods by a significant margin. Our results indicate that the SKGHOI approach has the potential to significantly improve the accuracy and efficiency of HOI detection, and we anticipate that it will be of great interest to researchers and practitioners working on this challenging task.
翻訳日:2023-03-09 15:56:39 公開日:2023-03-07
# 離散高次ベリー相とマトリックス生成物状態

Discrete Higher Berry Phases and Matrix Product States ( http://arxiv.org/abs/2303.04252v1 )

ライセンス: Link先を確認
Shuhei Ohyama, Yuji Terashima, Ken Shiozaki(参考訳) 可逆状態の1ドルのパラメタ族は、トゥーレスポンピングに似たトポロジカルな輸送現象を与える。 この自然な一般化として、ある位相空間$X$でパラメータ化された可逆状態の族を考えることができる。 これを高ポンプという。 1+1)$-次元ボソニックな非可逆状態が$X$でパラメータ化され、$\mathrm{H}^{3}(X;\mathbb{Z})$に分類される。 本稿では、$X=\mathbb{R}P^{2}\times S^1$と$X=\mathrm{L}(3,1)\times S^1$によりパラメータ化された2つの高いポンプモデルを構築し、$\mathrm{H}^{3}(X;\mathbb{Z})$のねじれ部分に対応する。 族としての非自明性の結果、非自明な離散ベリー相を持つ量子力学系が$(1+1)$-次元系の境界に励起されることが分かる。 また,行列積状態 (mps) を用いて高次ポンプ現象を研究し,$\mathrm{h}^{3}(x;\mathbb{z})$ のねじれ部で値を取る高次ポンプ不変量を構成する。 これは通常の離散ベリー位相のより高いアナログであり、$\mathrm{H}^{2}(X;\mathbb{Z})$のねじれ部分で値を取る。 高次ポンプ不変量を定義するために、滑らかなデリジェンコホモロジーとその積分理論を利用する。 このモデルの高次ポンプ不変量は非自明な値であることを確認する。

A $1$-parameter family of invertible states gives a topological transport phenomenon, similar to the Thouless pumping. As a natural generalization of this, we can consider a family of invertible states parametrized by some topological space $X$. This is called a higher pump. It is conjectured that $(1+1)$-dimensional bosonic invertible state parametrized by $X$ is classified by $\mathrm{H}^{3}(X;\mathbb{Z})$. In this paper, we construct two higher pumping models parametrized by $X=\mathbb{R}P^{2}\times S^1$ and $X=\mathrm{L}(3,1)\times S^1$ that corresponds to the torsion part of $\mathrm{H}^{3}(X;\mathbb{Z})$. As a consequence of the nontriviality as a family, we find that a quantum mechanical system with a nontrivial discrete Berry phase is pumped to the boundary of the $(1+1)$-dimensional system. We also study higher pump phenomena by using matrix product states (MPS), and construct a higher pump invariant which takes value in a torsion part of $\mathrm{H}^{3}(X;\mathbb{Z})$. This is a higher analog of the ordinary discrete Berry phase that takes value in the torsion part of $\mathrm{H}^{2}(X;\mathbb{Z})$. In order to define the higher pump invariant, we utilize the smooth Deligne cohomology and its integration theory. We confirm that the higher pump invariant of the model has a nontrivial value.
翻訳日:2023-03-09 15:56:13 公開日:2023-03-07
# 私たちが今どこにいるか,何を見ているのか -階層とシーンを用いたクエリベースのグローバルイメージジオローカライズ

Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes ( http://arxiv.org/abs/2303.04249v1 )

ライセンス: Link先を確認
Brandon Clark, Alec Kerrigan, Parth Parag Kulkarni, Vicente Vivanco Cepeda, Mubarak Shah(参考訳) 写真が撮影された正確な緯度と経度を決定することは有用で広く適用可能なタスクであるが、他のコンピュータビジョンタスクの進行が加速しているにもかかわらず、非常に難しい。 これまでのアプローチでは、クエリイメージの単一の表現を学習し、地理的な粒度の異なるレベルに分類した。 これらのアプローチは、国、州、都市レベルといった異なる階層にコンテキストを与える異なる視覚的な手がかりを活用できない。 この目的のために,階層的相互注意による画像内の異なる地理的レベル(階層と呼ぶ)と対応する視覚的シーン情報の関係を利用する,エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。 地理階層とシーンタイプ毎にクエリを学習することで,これを実現する。 さらに,同じ場所の異なるシーンが全く異なる視覚的特徴によって定義されることが多いため,異なる環境シーンの別の表現を学習する。 我々は,Im2GPS,Im2GPS3k,YFCC4k,YFCC26kの4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現するとともに,従来の方法では示されていない異なる視覚階層やシーンの異なる表現をどのように学習するかを定性的に示す。 これらの以前のテストデータセットは、主にソーシャルメディアから撮った象徴的なランドマークや画像で構成されており、記憶タスクや特定の場所に偏っている。 この問題に対処するため、私たちは、地球全体とアート結果の現状をカバーするGoogle Streetviewから撮影された画像からなる、はるかに難しいテストデータセットであるGoogle-World-Streets-15kを導入しました。 私たちのコードはカメラ対応バージョンで利用できます。

Determining the exact latitude and longitude that a photo was taken is a useful and widely applicable task, yet it remains exceptionally difficult despite the accelerated progress of other computer vision tasks. Most previous approaches have opted to learn a single representation of query images, which are then classified at different levels of geographic granularity. These approaches fail to exploit the different visual cues that give context to different hierarchies, such as the country, state, and city level. To this end, we introduce an end-to-end transformer-based architecture that exploits the relationship between different geographic levels (which we refer to as hierarchies) and the corresponding visual scene information in an image through hierarchical cross-attention. We achieve this by learning a query for each geographic hierarchy and scene type. Furthermore, we learn a separate representation for different environmental scenes, as different scenes in the same location are often defined by completely different visual features. We achieve state of the art street level accuracy on 4 standard geo-localization datasets : Im2GPS, Im2GPS3k, YFCC4k, and YFCC26k, as well as qualitatively demonstrate how our method learns different representations for different visual hierarchies and scenes, which has not been demonstrated in the previous methods. These previous testing datasets mostly consist of iconic landmarks or images taken from social media, which makes them either a memorization task, or biased towards certain places. To address this issue we introduce a much harder testing dataset, Google-World-Streets-15k, comprised of images taken from Google Streetview covering the whole planet and present state of the art results. Our code will be made available in the camera-ready version.
翻訳日:2023-03-09 15:55:45 公開日:2023-03-07
# TRACT:過渡的閉鎖時間拡張を伴う拡散モデル

TRACT: Denoising Diffusion Models with Transitive Closure Time-Distillation ( http://arxiv.org/abs/2303.04248v1 )

ライセンス: Link先を確認
David Berthelot, Arnaud Autef, Jierui Lin, Dian Ang Yap, Shuangfei Zhai, Siyuan Hu, Daniel Zheng, Walter Talbot, Eric Gu(参考訳) Denoising Diffusion Modelは、生成的サンプリングの習熟度を実証している。 しかし、良いサンプルを生成するには、しばしば多くのイテレーションが必要です。 その結果,固定アーキテクチャに対するネットワーク呼び出し回数を減らすため,バイナリ時間蒸留(BTD)などの手法が提案されている。 本稿では,btdを拡張する新しい方法であるトランジッティブクロージャ時間蒸留(tract)を提案する。 単一ステップ拡散では、TRACTは同じアーキテクチャ上でFIDを2.4倍改善し、新しい単一ステップ拡散拡散インプリシットモデル(DDIM)の最先端FID(ImageNet64では7.4、CIFAR10では3.8)を実現する。 最後に, 拡張アブレーションによる方法の分離を行った。 PyTorchの実装はまもなくリリースされる。

Denoising Diffusion models have demonstrated their proficiency for generative sampling. However, generating good samples often requires many iterations. Consequently, techniques such as binary time-distillation (BTD) have been proposed to reduce the number of network calls for a fixed architecture. In this paper, we introduce TRAnsitive Closure Time-distillation (TRACT), a new method that extends BTD. For single step diffusion,TRACT improves FID by up to 2.4x on the same architecture, and achieves new single-step Denoising Diffusion Implicit Models (DDIM) state-of-the-art FID (7.4 for ImageNet64, 3.8 for CIFAR10). Finally we tease apart the method through extended ablations. The PyTorch implementation will be released soon.
翻訳日:2023-03-09 15:55:14 公開日:2023-03-07
# トランスフォーマーはいかにしてトピック構造を学ぶか:機械的理解に向けて

How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding ( http://arxiv.org/abs/2303.04245v1 )

ライセンス: Link先を確認
Yuchen Li, Yuanzhi Li, Andrej Risteski(参考訳) 多くの領域にわたる変圧器の成功は疑わしいが、学習力学の正確な理解はいまだにほとんど欠けている。 それらの能力は、様々な構造化および推論タスクを含むベンチマークで調査されてきたが、数学的理解は大幅に遅れている。 最近の研究は、あるタスクを実行するための注意に基づくネットワークのサイズ/深さ/複雑さという、この問題の表現的側面の研究を始めている。 しかし、学習ダイナミクスが提案された構成に収束する保証はない。 本稿では, トランスフォーマーが単語の共起構造を捉えた「意味構造」をどのように学習するかを, きめ細かい機械論的に理解する。 本研究は, 潜在ディリクレ割当(lda)とwikipediaデータとをモデルとした合成データ実験と, 埋め込み層と自己付着層が局所構造を符号化する数学的解析を組み合わせたものである。 前者の場合、これは同じ話題語間の埋め込みの平均的な内積として表される。 後者では、同トピックの単語間で平均的なペアワイズ注意が高まる。 数学的結果は、データに基づいて検証し、また独立した関心を持つような分析を可能にするためのいくつかの仮定を含む。

While the successes of transformers across many domains are indisputable, accurate understanding of the learning mechanics is still largely lacking. Their capabilities have been probed on benchmarks which include a variety of structured and reasoning tasks -- but mathematical understanding is lagging substantially behind. Recent lines of work have begun studying representational aspects of this question: that is, the size/depth/complexity of attention-based networks to perform certain tasks. However, there is no guarantee the learning dynamics will converge to the constructions proposed. In our paper, we provide fine-grained mechanistic understanding of how transformers learn "semantic structure", understood as capturing co-occurrence structure of words. Precisely, we show, through a combination of experiments on synthetic data modeled by Latent Dirichlet Allocation (LDA), Wikipedia data, and mathematical analysis that the embedding layer and the self-attention layer encode the topical structure. In the former case, this manifests as higher average inner product of embeddings between same-topic words. In the latter, it manifests as higher average pairwise attention between same-topic words. The mathematical results involve several assumptions to make the analysis tractable, which we verify on data, and might be of independent interest as well.
翻訳日:2023-03-09 15:54:58 公開日:2023-03-07
# 軽量コントラストアプローチによる人間のポーズ系列の整列化

A Light-Weight Contrastive Approach for Aligning Human Pose Sequences ( http://arxiv.org/abs/2303.04244v1 )

ライセンス: Link先を確認
Robert T. Collins(参考訳) 動的時間ワープによるシーケンス・ツー・シーケンスアライメントに適した埋め込みベクトルに短い3次元ポーズ列をマッピングするエンコーダを簡単な教師なしで学習する手法を提案する。 トレーニングサンプルは、モカプマーカーや骨格関節などの3Dボディポイントを含むフレームの時間窓で構成されている。 拡張サンプル対の埋め込みベクトルにコサイン類似度1と、他のすべてのサンプルとミニバッチで類似度0を付与するコントラスト損失関数を用いて、軽量3層エンコーダを訓練する。 複数のスクリプト化されたトレーニングシーケンスが利用可能であれば、最初のトレーニングラウンドから推定された時間アライメントを抽出して、エンコーダを洗練する第2のトレーニングフェーズのための追加のクロスパフォーマンスマッチペアを抽出する。 簡単なことに加えて、提案手法は訓練が速く、異なるマーカーセットや骨格関節レイアウトを用いて新しいデータに適応しやすくする。 実験結果は,人間の行動系列の比較・解析における学習埋め込みの使いやすさ,伝達性,有用性を示す。

We present a simple unsupervised method for learning an encoder mapping short 3D pose sequences into embedding vectors suitable for sequence-to-sequence alignment by dynamic time warping. Training samples consist of temporal windows of frames containing 3D body points such as mocap markers or skeleton joints. A light-weight, 3-layer encoder is trained using a contrastive loss function that encourages embedding vectors of augmented sample pairs to have cosine similarity 1, and similarity 0 with all other samples in a minibatch. When multiple scripted training sequences are available, temporal alignments inferred from an initial round of training are harvested to extract additional, cross-performance match pairs for a second phase of training to refine the encoder. In addition to being simple, the proposed method is fast to train, making it easy to adapt to new data using different marker sets or skeletal joint layouts. Experimental results illustrate ease of use, transferability, and utility of the learned embeddings for comparing and analyzing human behavior sequences.
翻訳日:2023-03-09 15:54:38 公開日:2023-03-07
# 物体検出器の勾配誘導型知識蒸留

Gradient-Guided Knowledge Distillation for Object Detectors ( http://arxiv.org/abs/2303.04240v1 )

ライセンス: Link先を確認
Qizhen Lan and Qing Tian(参考訳) 深層学習モデルは、物体検出において顕著に成功したが、その複雑さと計算強度は、現実のアプリケーション(例えば、自動運転の知覚)にそれらを展開する上で障壁となる。 知識蒸留(KD)は効率的なモデルを導出する有効な方法である。 しかし、少数のKDメソッドしかオブジェクト検出に取り組みません。 また、多くは教師モデルの平易な特徴を模倣することに集中しているが、その特徴が最終発見にどのように貢献するかを考えることは滅多にない。 本稿では,GKD (Gradient-Guided Knowledge Distillation) という,物体検出における知識蒸留の新しい手法を提案する。 我々のGKDは勾配情報を用いて、検出損失に大きな影響を及ぼす特徴を識別し、割り当て、生徒が教師から最も関連性の高い特徴を学習できるようにする。 さらに、KD性能をさらに向上するために、有界ボックス対応多粒性特徴模倣(BMFI)を提案する。 KITTIとCOCO-Trafficデータセットの実験は、対象検出のための知識蒸留における本手法の有効性を実証する。 1段階と2段階の検出器では、我々のgkd-bmfiは平均5.1%と3.8%の地図改善をもたらす。

Deep learning models have demonstrated remarkable success in object detection, yet their complexity and computational intensity pose a barrier to deploying them in real-world applications (e.g., self-driving perception). Knowledge Distillation (KD) is an effective way to derive efficient models. However, only a small number of KD methods tackle object detection. Also, most of them focus on mimicking the plain features of the teacher model but rarely consider how the features contribute to the final detection. In this paper, we propose a novel approach for knowledge distillation in object detection, named Gradient-guided Knowledge Distillation (GKD). Our GKD uses gradient information to identify and assign more weights to features that significantly impact the detection loss, allowing the student to learn the most relevant features from the teacher. Furthermore, we present bounding-box-aware multi-grained feature imitation (BMFI) to further improve the KD performance. Experiments on the KITTI and COCO-Traffic datasets demonstrate our method's efficacy in knowledge distillation for object detection. On one-stage and two-stage detectors, our GKD-BMFI leads to an average of 5.1% and 3.8% mAP improvement, respectively, beating various state-of-the-art KD methods.
翻訳日:2023-03-09 15:54:21 公開日:2023-03-07
# 可視性のパッチ:オブジェクト検出器に対する自然なブラックボックス攻撃

Patch of Invisibility: Naturalistic Black-Box Adversarial Attacks on Object Detectors ( http://arxiv.org/abs/2303.04238v1 )

ライセンス: Link先を確認
Raz Lapid and Moshe Sipper(参考訳) 近年,ディープラーニングモデルに対する敵意攻撃が注目されている。 この領域での作業は、主に勾配に基づく手法、いわゆるホワイトボックス攻撃に焦点を当てており、攻撃者はターゲットモデルの内部パラメータにアクセスすることができる。 さらに、一部の攻撃はピクセル空間全体を使って特定のモデルを騙すが、実用的でも物理的でもない(実世界)。 一方,本研究では,GAN(Pretrained Generative Adversarial Network, GAN)の学習画像多様体を用いて,対象検出器の自然な物理逆パッチを生成する勾配のない手法を提案する。 提案手法はデジタルと物理の両方で動作することを示す。

Adversarial attacks on deep-learning models have been receiving increased attention in recent years. Work in this area has mostly focused on gradient-based techniques, so-called white-box attacks, wherein the attacker has access to the targeted model's internal parameters; such an assumption is usually unrealistic in the real world. Some attacks additionally use the entire pixel space to fool a given model, which is neither practical nor physical (i.e., real-world). On the contrary, we propose herein a gradient-free method that uses the learned image manifold of a pretrained generative adversarial network (GAN) to generate naturalistic physical adversarial patches for object detectors. We show that our proposed method works both digitally and physically.
翻訳日:2023-03-09 15:54:00 公開日:2023-03-07
# ディジタイズドダイアバティック駆動における誤差のスケーリング

Scaling of errors in digitized counterdiabatic driving ( http://arxiv.org/abs/2303.04235v1 )

ライセンス: Link先を確認
Takuya Hatomura(参考訳) 対糖尿病運転による断熱への近道のディジタル化による誤差について検討した。 誤差スケーリング $\mathcal{O}(M^{-2})$ 時間スライス数$M$ であるのに対し、悪いエラースケーリング $\mathcal{O}(M^{-1})$ は1次スズキ・トロッター分解の従来の理論で予測される。 我々は、状態依存の誤差境界を考慮し、数値シミュレーションにより、この誤差スケーリング $\mathcal{o}(m^{-2})$ の出現を確認することにより、この可能性を示す。 さらに, 近似反断熱駆動のディジタル化において, 中間誤差スケーリングが観測可能であることを示す。 これらの結果は, コストと性能の両面から, ディジタル化された反断熱駆動の有用性を明らかにした。

We study errors caused by digitization of shortcuts to adiabaticity by counterdiabatic driving. We find possibility of error scaling $\mathcal{O}(M^{-2})$ with the number of time slices $M$, whereas worse error scaling $\mathcal{O}(M^{-1})$ is predicted in the conventional theory of the first-order Suzuki-Trotter decomposition. We point out this possibility by considering a state-dependent error bound and confirm emergence of this error scaling $\mathcal{O}(M^{-2})$ by numerical simulation. Moreover, we numerically show that intermediate error scaling can be observed in digitization of approximate counterdiabatic driving. These results reveal usefulness of digitized counterdiabatic driving from the viewpoints of both cost and performance.
翻訳日:2023-03-09 15:53:46 公開日:2023-03-07
# 脳の状態を特徴付ける位相的分類器:形状が分散以上のものであるとき

A topological classifier to characterize brain states: When shape matters more than variance ( http://arxiv.org/abs/2303.04231v1 )

ライセンス: Link先を確認
Aina Ferr\`a, Gloria Cecchini, Fritz-Pere Nobbe Fisas, Carles Casacuberta, Ignasi Cos(参考訳) 機械学習分類器が複雑なデータセットを教師付きで分離するために達成した顕著な精度にもかかわらず、その操作の大部分は、データの構造に関する情報的直感を提供するために不足しており、さらに重要なのは、与えられたデータセットによって特徴づけられる現象に関するものである。 対照的に、トポロジカルデータ分析(TDA)は、永続記述子を用いてデータ雲の形状を研究し、精査下のデータセットの特定のトポロジ的特徴の定量的評価を提供する。 本稿では,データサブセットへの新たな入力の追加によるトポロジカルメトリクスの定量的変化を評価するための,TDAに基づく新しい分類手法を提案する。 意思決定実験では, 高次元脳波(EEG)データセットを用いて, 社会的圧力の操作により3つの動機づけ状態が誘導された。 脳波信号の帯域通過フィルタを処理した結果,各モチベーション状態に関連する持続性図からシルエットを算出し,各シルエットへの影響に応じてラベルなし信号を分類した。 以上の結果から,TDA分類器は,近傍の分類器の範囲内での精度に加えて,データセットの構造の形式的直観や本質的な次元の推定も提供することがわかった。 この目的のために,本手法に次元削減手法を組み込んだ結果,TDA分類器の精度は,ほとんどの機械学習分類器とは対照的に,説明された分散に敏感ではなく,形状に敏感であることがわかった。

Despite the remarkable accuracies attained by machine learning classifiers to separate complex datasets in a supervised fashion, most of their operation falls short to provide an informed intuition about the structure of data, and, what is more important, about the phenomena being characterized by the given datasets. By contrast, topological data analysis (TDA) is devoted to study the shape of data clouds by means of persistence descriptors and provides a quantitative characterization of specific topological features of the dataset under scrutiny. In this article we introduce a novel TDA-based classifier that works on the principle of assessing quantifiable changes on topological metrics caused by the addition of new input to a subset of data. We used this classifier with a high-dimensional electro-encephalographic (EEG) dataset recorded from eleven participants during a decision-making experiment in which three motivational states were induced through a manipulation of social pressure. After processing a band-pass filtered version of EEG signals, we calculated silhouettes from persistence diagrams associated with each motivated state, and classified unlabeled signals according to their impact on each reference silhouette. Our results show that in addition to providing accuracies within the range of those of a nearest neighbour classifier, the TDA classifier provides formal intuition of the structure of the dataset as well as an estimate of its intrinsic dimension. Towards this end, we incorporated dimensionality reduction methods to our procedure and found that the accuracy of our TDA classifier is generally not sensitive to explained variance but rather to shape, contrary to what happens with most machine learning classifiers.
翻訳日:2023-03-09 15:53:31 公開日:2023-03-07
# オープン量子システムにおける電流ゆらぎ:量子連続測定と全計数統計とのギャップを橋渡しする

Current fluctuations in open quantum systems: Bridging the gap between quantum continuous measurements and full counting statistics ( http://arxiv.org/abs/2303.04270v1 )

ライセンス: Link先を確認
Gabriel T. Landi, Michael J. Kewming, Mark T. Mitchison, Patrick P. Potts(参考訳) 連続測定された量子系は、基礎となる量子系に関する重要な情報を伝達する確率的および相関的な時系列の形で出力電流によって特徴づけられる。 量子光学者は確率的マスター方程式を使うことが多く、凝縮物質物理学における一般的なアプローチは完全な数え上げ統計によって提供される。 しかし、これらは単に同じ硬貨の異なる側面である。 このチュートリアルの目標は、現在のゆらぎを記述するための統一ツールボックスを提供することです。 これは、物理学の異なる分野をまとめることによって、新しい洞察を与えるだけでなく、興味のある量を計算するための様々な分析的および数値的ツールをもたらす。 我々は,様々な教育例を用いて実験結果を示し,待ち時間統計,量子メトロロジー,熱力学的不確実性関係,量子点接触,マクスウェルのデーモンなど,局所的な研究分野と結びつける。

Continuously measured quantum systems are characterized by an output current, in the form of a stochastic and correlated time series which conveys crucial information about the underlying quantum system. The many tools used to describe current fluctuations are scattered across different communities: quantum opticians often use stochastic master equations, while a prevalent approach in condensed matter physics is provided by full counting statistics. These, however, are simply different sides of the same coin. Our goal with this tutorial is to provide a unified toolbox for describing current fluctuations. This not only provides novel insights, by bringing together different fields in physics, but also yields various analytical and numerical tools for computing quantities of interest. We illustrate our results with various pedagogical examples, and connect them with topical fields of research, such as waiting-time statistics, quantum metrology, thermodynamic uncertainty relations, quantum point contacts and Maxwell's demons.
翻訳日:2023-03-09 15:48:14 公開日:2023-03-07
# PSDNet: 合成土壌画像と畳み込みニューラルネットワークを用いた粒子径分布の決定

PSDNet: Determination of Particle Size Distributions Using Synthetic Soil Images and Convolutional Neural Networks ( http://arxiv.org/abs/2303.04269v1 )

ライセンス: Link先を確認
Javad Manashti, Pouyan Pirnia, Alireza Manashty, Sahar Ujan, Matthew Toews, Fran\c{c}ois Duhaime(参考訳) 本研究の目的は,畳み込みニューラルネットワークを用いた画像から粒状物質の粒度分布を決定することである。 ConvNetと、AlexNet、SqueezeNet、GoogLeNet、InceptionV3、DenseNet201、MobileNetV2、ResNet18、ResNet50、ResNet101、Xception、InceptionResNetV2、ShuffleNet、NASNetMobileを含む事前訓練されたConvNetモデルの適用について研究した。 離散素子コードYADEで作成した粒状物質の合成画像を用いた。 すべてのモデルは、画像サイズが32から160ピクセルのグレースケールとカラーバンドデータセットでトレーニングされ、検証された。 提案するconvnetモデルは, 最微細シーブ, 粗粗シーブおよび全シーブに保持される質量の割合を, それぞれ1.8 %, 3.3 %, 2.8 %, 決定係数 0.99 で予測する。 事前学習ネットワークでは, 特徴抽出モデルと伝達学習モデルを用いて, 根平均二乗誤差2.4 %と2.8 %を得た。

This project aimed to determine the grain size distribution of granular materials from images using convolutional neural networks. The application of ConvNet and pretrained ConvNet models, including AlexNet, SqueezeNet, GoogLeNet, InceptionV3, DenseNet201, MobileNetV2, ResNet18, ResNet50, ResNet101, Xception, InceptionResNetV2, ShuffleNet, and NASNetMobile was studied. Synthetic images of granular materials created with the discrete element code YADE were used. All the models were trained and verified with grayscale and color band datasets with image sizes ranging from 32 to 160 pixels. The proposed ConvNet model predicts the percentages of mass retained on the finest sieve, coarsest sieve, and all sieves with root-mean-square errors of 1.8 %, 3.3 %, and 2.8 %, respectively, and a coefficient of determination of 0.99. For pretrained networks, root-mean-square errors of 2.4 % and 2.8 % were obtained for the finest sieve with feature extraction and transfer learning models, respectively.
翻訳日:2023-03-09 15:47:57 公開日:2023-03-07
# 依存サンプルを用いたバニラモデルに基づくオフライン強化学習のサンプル複雑性について

On the Sample Complexity of Vanilla Model-Based Offline Reinforcement Learning with Dependent Samples ( http://arxiv.org/abs/2303.04268v1 )

ライセンス: Link先を確認
Mustafa O. Karabag, Ufuk Topcu(参考訳) オフライン強化学習(オフラインRL)は、以前に収集したサンプルのみを用いて学習を行う場合の問題を考え、新しいデータを集めるのにコストがかかるかリスクが高い設定に役立ちます。 モデルベースオフラインRLでは、学習者は経験的遷移周波数に基づいて構築されたモデルを用いて推定(または最適化)を行う。 無限ホライゾン値引き設定におけるバニラモデルに基づくオフラインrlのサンプル複雑性について解析した。 この設定では、サンプルはマルコフ決定プロセスのダイナミクスに従い、その結果、相互依存性を持つ可能性がある。 独立サンプルの仮定なしでは、バニラモデルに基づくオフポリシー評価のための高確率多項式サンプル複雑性を提供し、部分的あるいは均一なカバレッジを必要とする。 我々は、この結果を一様カバレッジ下でのオフポリシー最適化に拡張する。 モデルに基づくアプローチと比較し,無限ホライゾン設定におけるバニラ重要度サンプリングを用いたオフポリシー評価のサンプル複雑性を分析した。 最後に,強化学習でよく見られるほぼ決定論的ダイナミクスに対して,サンプル平均推定値より優れている推定値を提案する。

Offline reinforcement learning (offline RL) considers problems where learning is performed using only previously collected samples and is helpful for the settings in which collecting new data is costly or risky. In model-based offline RL, the learner performs estimation (or optimization) using a model constructed according to the empirical transition frequencies. We analyze the sample complexity of vanilla model-based offline RL with dependent samples in the infinite-horizon discounted-reward setting. In our setting, the samples obey the dynamics of the Markov decision process and, consequently, may have interdependencies. Under no assumption of independent samples, we provide a high-probability, polynomial sample complexity bound for vanilla model-based off-policy evaluation that requires partial or uniform coverage. We extend this result to the off-policy optimization under uniform coverage. As a comparison to the model-based approach, we analyze the sample complexity of off-policy evaluation with vanilla importance sampling in the infinite-horizon setting. Finally, we provide an estimator that outperforms the sample-mean estimator for almost deterministic dynamics that are prevalent in reinforcement learning.
翻訳日:2023-03-09 15:47:33 公開日:2023-03-07
# 写真からの粒状物質の粒度分布予測のためのPSDNet, 事前学習ネットワーク, 従来の特徴抽出の比較

Comparing PSDNet, pretrained networks, and traditional feature extraction for predicting the particle size distribution of granular materials from photographs ( http://arxiv.org/abs/2303.04265v1 )

ライセンス: Link先を確認
Javad Manashti, Fran\c{c}ois Duhaime, Matthew F. Toews, Pouyan Pirnia, Jn Kinsonn Telcy(参考訳) 本研究では, 粒状物質の粒子径分布を予測するために, 写真で訓練した一連の畳み込みニューラルネットワーク(ConvNets)であるPSDNetを評価することを目的とする。 従来の9つの特徴抽出法と15の事前訓練されたConvNetの評価と比較を行った。 15の異なる粒状物質の9600枚の写真を含むデータセットが使用された。 画像サイズと色帯域の影響を,32から160ピクセルの6つの画像サイズと,PSDNet入力としてグレースケールとカラーイメージを用いて検証した。 ランダムトレーニング,検証,テストデータセットに加えて,各画像解析手法の性能評価にも材料除去法が用いられた。 この方法で、各材料はトレーニングおよび検証データセットから順次削除され、テストデータセットとして使用される。 その結果、すべてのpsdnet色とグレースケールの特徴の組み合わせは、ランダムなテストデータセットで1.8%、材料除去法で9.1%のパーセンテージでルート平均二乗誤差(rmse)をもたらすことが分かった。 ランダムデータセットでは、すべての伝統的な特徴とinceptionresnetv2から抽出された特徴の組み合わせは、それぞれ2.3および1.7%のパーセンテージでrmseに導かれた。

This study aims to evaluate PSDNet, a series of convolutional neural networks (ConvNets) trained with photographs to predict the particle size distribution of granular materials. Nine traditional feature extraction methods and 15 pretrained ConvNets were also evaluated and compared. A dataset including 9600 photographs of 15 different granular materials was used. The influence of image size and color band was verified by using six image sizes between 32 and 160 pixels, and both grayscale and color images as PSDNet inputs. In addition to random training, validation, and testing datasets, a material removal method was also used to evaluate the performances of each image analysis method. With this method, each material was successively removed from the training and validation datasets and used as the testing dataset. Results show that a combination of all PSDNet color and grayscale features can lead to a root mean square error (RMSE) on the percentages passing as low as 1.8 % with a random testing dataset and 9.1% with the material removal method. For the random datasets, a combination of all traditional features, and the features extracted from InceptionResNetV2 led to RMSE on the percentages passing of 2.3 and 1.7 %, respectively.
翻訳日:2023-03-09 15:47:15 公開日:2023-03-07
# 複合量子コリオリ力

Composite quantum Coriolis forces ( http://arxiv.org/abs/2303.04263v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 古典コリオリ力は、その量子類似物が$\sigma(t)=h(t)-g(t)$であり、ここで ``true'' と観測可能なハミルトニアン $h(t)$ は瞬時エネルギーを表す。 もう1つの ``false'' hamiltonian $g(t)$ は波動関数の時間変化を生成する。 $\Sigma(t)\neq 0$ のとき、量子力学は相互作用図形を取得する。 そして、すべての可観測物の時間進化は、コリオリス作用素 $\Sigma(t)$ ({\it alias} ``Heisenberg''' Hamiltonian) 自身によって生成される。 論文では、$\Sigma(t)$ の代替公式の列は、ダイソン写像作用素 $\Omega(t)$ の$N-$終因子化の仮定の下で導かれる(事前選択された準エルミタン $H(t)$ を従来の自己随伴アバターに変換するものとして定義される)。 この結果、'factorization-based non-Hermitian interaction picture' (FNIP)' と呼ばれる革新的形式論において、量子力学の記述の代替形式として$N+1$ を選ぶことが示されている。 例示として、``wrong-sign''アンハーモニック発振器モデルをリコールする。

The classical Coriolis force finds its quantum analogue in the difference $\Sigma(t)=H(t)-G(t)$ where the ``true'', observable Hamiltonian $H(t)$ represents the instantaneous energy. The other, ``false'' Hamiltonian $G(t)$ generates the time-evolution of wave functions. Whenever $\Sigma(t)\neq 0$, quantum mechanics acquires an interaction-picture form. Then, the time-evolution of every observable is generated by the Coriolis operator $\Sigma(t)$ ({\it alias} ``Heisenberg'' Hamiltonian) itself. In the paper a sequence of alternative formulae for $\Sigma(t)$ is derived under the assumption of an $N-$term factorization of the Dyson-map operator $\Omega(t)$ (defined as converting a preselected quasi-Hermitian $H(t)$ into its conventional self-adjoint avatar). It is shown that in the resulting innovative formalism called ``factorization-based non-Hermitian interaction picture'' (FNIP) one has a choice between $N+1$ alternative forms of the description of quantum dynamics, one of which may prove, for the underlying quantum system, optimal. For illustration, the ``wrong-sign'' anharmonic oscillator model is recalled.
翻訳日:2023-03-09 15:46:36 公開日:2023-03-07
# 超伝導量子ドット上の任意の量子論理ゲートの直接パルスレベルコンパイル

Direct pulse-level compilation of arbitrary quantum logic gates on superconducting qutrits ( http://arxiv.org/abs/2303.04261v1 )

ライセンス: Link先を確認
Yujin Cho, Kristin M. Beck, Alessandro R. Castelli, Kyle A. Wendt, Bram Evert, Matthew J. Reagor, Jonathan L DuBois(参考訳) 量子コンピュータの高度なシミュレーションと計算は、量子回路の高忠実性実装を必要とする。 普遍ゲートセットアプローチは、小さな校正された高忠実な原始ゲートの集合から引き出された多くのゲートから複雑なユニタリを構築する。 クエトリットのような高次元論理要素を持つプロセッサの複雑なユニタリをコンパイルすると、より長いゲートシーケンスを必要とするため、ユニタリ当たりの累積誤差が増大する。 最適制御法は時間と資源効率のよいコンパクトゲート列を約束する。 これらの方法は、原理上、量子デバイス上の任意の複素ユニタリを直接実装できるパルスを生成する。 本研究では,任意のクエットゲートを高忠実度で実現できることを実証する。 2つのqutrit互換プロセッサである llnl quantum device and integration testbed (qudit) standard qpu と rigetti aspen-11 上でランダムに選択された多数の任意のユニタリのパルスを生成しテストし、平均99%の忠実性を得た。 最適制御ゲートは少なくとも3日間は校正を必要とせず、全ての実装ゲートに対して同じ校正パラメータを使用できることを示す。 本研究は,最適制御ゲートのキャリブレーションオーバヘッドを,この手法に基づく効率的な量子回路を実現するために十分に小さくすることができることを示す。

Advanced simulations and calculations on quantum computers require high fidelity implementations of quantum circuits. The universal gateset approach builds complex unitaries from many gates drawn from a small set of calibrated high-fidelity primitive gates, which results in a lower combined fidelity. Compiling a complex unitary for processors with higher-dimensional logical elements, such as qutrits, exacerbates the accumulated error per unitary because a longer gate sequence is needed. Optimal control methods promise time and resource efficient compact gate sequences and, therefore, higher fidelity. These methods generate pulses that can, in principle, directly implement any complex unitary on a quantum device. In this work, we demonstrate that any arbitrary qutrit gate can be realized with high fidelity. We generated and tested pulses for a large set of randomly selected arbitrary unitaries on two separate qutrit compatible processors, LLNL Quantum Device and Integration Testbed (QuDIT) standard QPU and Rigetti Aspen-11, achieving an average fidelity around 99 %. We show that the optimal control gates do not require recalibration for at least three days and the same calibration parameters can be used for all implemented gates. Our work shows that the calibration overheads for optimal control gates can be made small enough to enable efficient quantum circuits based on this technique.
翻訳日:2023-03-09 15:46:00 公開日:2023-03-07
# d-分割可能な量子進化族

D-divisible quantum evolution families ( http://arxiv.org/abs/2303.04260v1 )

ライセンス: Link先を確認
Krzysztof Szczygielski(参考訳) 我々は、行列代数上の可除(d-可除)微分可能量子進化族の概念を提案し、検討する。 これは、プロパゲータに課される完全な肯定性要件を、より一般的な非互換性の条件で置き換えることによって達成される。 このようなD-可分な力学写像はマスター方程式の一般化版を満たすことが示され、時間局所生成器によって完全に特徴づけられる。 D-divisibility には必要かつ十分な条件がある。 さらに、半群を分解可能なトレース保存する。

We propose and explore a notion of decomposably divisible (D-divisible) differentiable quantum evolution families on matrix algebras. This is achieved by replacing the complete positivity requirement, imposed on the propagator, by more general condition of decomposability. It is shown that such D-divisible dynamical maps satisfy a generalized version of Master Equation and are totally characterized by their time-local generators. Necessary and sufficient conditions for D-divisibility are found. Additionally, decomposable trace preserving semigroups are examined.
翻訳日:2023-03-09 15:45:35 公開日:2023-03-07
# 1次元スピン-1キタエフ模型におけるロバスト量子多体傷

Robust quantum many-body scars in the one-dimensional spin-1 Kitaev model ( http://arxiv.org/abs/2303.04259v1 )

ライセンス: Link先を確認
Sashikanta Mohapatra and Ajit C. Balram(参考訳) ライドベルク原子鎖 (Bernien et al., Nature 551, 579 (2017)) におけるコヒーレント振動の実験的観察により、エルゴディシズムを破る新しいパラダイムである量子多体散乱(QMBS)が発見された。 ライドバーグ連鎖の実験結果は、スペクトルの中央に固有状態熱化仮説 (ETH) に違反する傷跡状態を宿る「PXP」モデルと呼ばれる運動論的に制約されたモデルによって、うまく捉えることができる。 ETHに違反していることを示す同様の運動的に制限されたシステムを特定するために多くの努力が払われている。 本研究では,そのようなモデルにおいて生じるqmbの研究,すなわち,保存量によってヒルベルト空間が不等分部分空間に断片化されるスピン1ドルのキタエフ連鎖について述べる。 最近、あなたたちも。 [Phys. Rev. Research 4, 013103 (2022)] は、この鎖の基底状態セクターをPXPモデルに正確にマッピングし、QMBSをホストできることを示した。 ここでは,スカーリング現象が他の分野にも存在していることを実証し,特に,基礎状態のスカーリング現象よりも著しくスカーリングを示すセクタを同定する。 初期状態を提案し,その忠実度回復がPXPモデルよりも頑健で長寿命であることを数値的に示す。

Experimental observation of coherent oscillations in a Rydberg atom chain [Bernien et al., Nature 551, 579 (2017)] has led to the discovery of quantum many-body scars (QMBS) which is a new paradigm for ergodicity-breaking. The experimental findings in the Rydberg chain can be well captured by a kinetically constrained model called the "PXP" model, which has been shown to host the Eigenstate Thermalization Hypothesis (ETH)-violating scar states in the middle of the spectrum. Much effort has been put into identifying similar kinetically restricted systems that show a violation of ETH. In this work, we study the QMBS that can arise in one such model, namely the spin-$1$ Kitaev chain, where owing to some conserved quantities, the Hilbert space gets fragmented into unequal disconnected subspaces. Recently, You et al. [Phys. Rev. Research 4, 013103 (2022)] showed that the ground state sector of this chain can be mapped exactly onto the prototypical PXP model and thus hosts QMBSs. Here, we demonstrate that the phenomenon of scarring is also present in other sectors, and in particular, we identify a sector that exhibits substantially more scarring than the ground state one. We propose an initial state and numerically demonstrate that its fidelity revivals are robust and longer-lived than those in the PXP model.
翻訳日:2023-03-09 15:45:27 公開日:2023-03-07
# adaPARL: シーケンス決定のための適応型プライバシ・アウェア強化学習

adaPARL: Adaptive Privacy-Aware Reinforcement Learning for Sequential-Decision Making Human-in-the-Loop Systems ( http://arxiv.org/abs/2303.04257v1 )

ライセンス: Link先を確認
Mojtaba Taherisadr, Stelios Andrew Stavroulakis, Salma Elmalaki(参考訳) 強化学習(rl)は、様々なアプリケーションにおけるルールベースのアプローチに比べて多くの利点がある。 iotデバイス、特にヒューマン・イン・ザ・ループシステムでプライバシに敏感なデータをトレーニングしたrlが普及したことで、プライバシの懸念が高まっている。 一方、RL法は、人間の非常にダイナミックな性質に適応しようと試みることで、ユーザエクスペリエンスを向上させる。 一方、トレーニングされたポリシーはユーザーの個人情報を漏洩させる可能性がある。 近年,プライバシを意識したRLアルゴリズムの設計に注目が集まっている。 プライバシを意識したRLの設計における中心的な課題は、特に人間-イン-ザ-ループシステムにおいて、人間には固有の多様性があり、その好みと行動が進化することである。 1つのプライバシーリーク軽減の効果は、同じ人間や異なる人間に対して、時間とともに異なる可能性がある。 したがって、プライバシを意識したRLのための固定モデルを設計することはできません。 そこで我々は,プライバシを意識したRLの適応的アプローチであるadaPARLを提案する。 adaPARLは、人間の振る舞いや好みに応じて、パーソナライズされたプライバシユーティリティトレードオフを提供する。 提案するadaparlを2つのiotアプリケーションで検証した。 一 スマートホーム及びスマートホーム (ii)vr(human-in-the-loop virtual reality)スマート教室。 これら2つのアプリケーションで得られた結果は、adaPARLの汎用性と、パーソナライズされたプライバシユーティリティトレードオフを提供する能力を検証する。 最初のアプリケーションでは、平均して、adaPARLはベースライン上で57 %$、ランダム化で43 %$の改善を行う。 adaparlはまた、プライバシリークを平均で$23\%削減する。 第2のアプリケーションでは,adaparlがプライバシリークを4,4\%$に削減し,ユーティリティが15\%$に低下する。

Reinforcement learning (RL) presents numerous benefits compared to rule-based approaches in various applications. Privacy concerns have grown with the widespread use of RL trained with privacy-sensitive data in IoT devices, especially for human-in-the-loop systems. On the one hand, RL methods enhance the user experience by trying to adapt to the highly dynamic nature of humans. On the other hand, trained policies can leak the user's private information. Recent attention has been drawn to designing privacy-aware RL algorithms while maintaining an acceptable system utility. A central challenge in designing privacy-aware RL, especially for human-in-the-loop systems, is that humans have intrinsic variability and their preferences and behavior evolve. The effect of one privacy leak mitigation can be different for the same human or across different humans over time. Hence, we can not design one fixed model for privacy-aware RL that fits all. To that end, we propose adaPARL, an adaptive approach for privacy-aware RL, especially for human-in-the-loop IoT systems. adaPARL provides a personalized privacy-utility trade-off depending on human behavior and preference. We validate the proposed adaPARL on two IoT applications, namely (i) Human-in-the-Loop Smart Home and (ii) Human-in-the-Loop Virtual Reality (VR) Smart Classroom. Results obtained on these two applications validate the generality of adaPARL and its ability to provide a personalized privacy-utility trade-off. On average, for the first application, adaPARL improves the utility by $57\%$ over the baseline and by $43\%$ over randomization. adaPARL also reduces the privacy leak by $23\%$ on average. For the second application, adaPARL decreases the privacy leak to $44\%$ before the utility drops by $15\%$.
翻訳日:2023-03-09 15:44:58 公開日:2023-03-07
# 軽量トランスを用いたキーワードスポッティングのための自己教師付き音声表現学習

Self-supervised speech representation learning for keyword-spotting with light-weight transformers ( http://arxiv.org/abs/2303.04255v1 )

ライセンス: Link先を確認
Chenyang Gao, Yue Gu, Francesco Caliva, and Yuzong Liu(参考訳) 自己教師付き音声表現学習(S3RL)は、ますます増加するデータの活用方法に革命をもたらしている。 S3RL関連の研究は通常、大きなモデルを用いるが、計算制約のあるデバイスの厳密なメモリに対応するために軽量ネットワークを用いる。 330kパラメータの変換器を用いて,キーワードスポッティング(KS)問題に対するS3RLの有効性を実証し,分類タスクの性能向上に欠かせない発話単位の区別を強化する機構を提案する。 google speech commands v2データセットでは、自動回帰予測符号 s3rl に適用した提案手法が、スクラッチからのトレーニングと比較して1.2%の精度向上をもたらした。 4つの異なるキーワードを持つ社内のksデータセットでは、固定された偽拒絶率で6%から23.7%の相対的偽受け入れ改善を提供する。 このことは、KSの軽量モデルへのS3RLアプローチの適用性を実証し、S3RLがリソース制約されたアプリケーションに対する従来の教師あり学習の強力な代替手段であることを確認した。

Self-supervised speech representation learning (S3RL) is revolutionizing the way we leverage the ever-growing availability of data. While S3RL related studies typically use large models, we employ light-weight networks to comply with tight memory of compute-constrained devices. We demonstrate the effectiveness of S3RL on a keyword-spotting (KS) problem by using transformers with 330k parameters and propose a mechanism to enhance utterance-wise distinction, which proves crucial for improving performance on classification tasks. On the Google speech commands v2 dataset, the proposed method applied to the Auto-Regressive Predictive Coding S3RL led to a 1.2% accuracy improvement compared to training from scratch. On an in-house KS dataset with four different keywords, it provided 6% to 23.7% relative false accept improvement at fixed false reject rate. We argue this demonstrates the applicability of S3RL approaches to light-weight models for KS and confirms S3RL is a powerful alternative to traditional supervised learning for resource-constrained applications.
翻訳日:2023-03-09 15:44:27 公開日:2023-03-07
# ERUDITE: 適応型パーソナライズドラーニングシステムのためのロボットIoT

ERUDITE: Human-in-the-Loop IoT for an Adaptive Personalized Learning System ( http://arxiv.org/abs/2303.04292v1 )

ライセンス: Link先を確認
Mojtaba Taherisadr and Mohammad Abdullah Al Faruque and Salma Elmalaki(参考訳) ウェアラブル技術の急速な成長と、最近の機械学習と信号処理の進歩により、複雑な人間のコンテキストの監視は実現可能となり、人間と環境に自律的に適応するために自然に進化する、ループ内IoTシステムを開発するための道を開いた。 それでも、これらのIoTシステムを設計する上での中心的な課題は、意図、ストレス、認知負荷、学習能力など、人間の精神状態を予測することにある。 異なる人間のコンテキストは、特定の精神状態と相関する様々なセンサーモダリティの融合から推測できるが、人間の脳はよりリッチなセンサーモダリティを提供し、必要な人間のコンテキストに関する洞察を与えてくれる。 本稿では、最近のウェアラブルニューロテクノロジーを活用して脳信号をデコードする、学習環境のためのヒューマン・イン・ザ・ループIoTシステムであるERUDITEを提案する。 概念学習理論からの洞察により、ERUDITEは人間の学習状態を推測し、人間の学習が増加するか低下するかを理解することができる。 入力感覚信号として人間の学習を定量化することにより、学習環境において人間に適切なパーソナライズされたフィードバックを提供し、学習経験を向上させることができる。 ERUDITEは15ドルの参加者を対象に評価し,人間の学習状態を推定し,学習環境に適応するためのセンサモダリティとして脳信号を用いることで,参加者の学習性能を平均26%向上させることを示した。 さらに,ERUDITEをエッジベースのプロトタイプにデプロイして,実用性やスケーラビリティを評価する方法を示した。

Thanks to the rapid growth in wearable technologies and recent advancement in machine learning and signal processing, monitoring complex human contexts becomes feasible, paving the way to develop human-in-the-loop IoT systems that naturally evolve to adapt to the human and environment state autonomously. Nevertheless, a central challenge in designing many of these IoT systems arises from the requirement to infer the human mental state, such as intention, stress, cognition load, or learning ability. While different human contexts can be inferred from the fusion of different sensor modalities that can correlate to a particular mental state, the human brain provides a richer sensor modality that gives us more insights into the required human context. This paper proposes ERUDITE, a human-in-the-loop IoT system for the learning environment that exploits recent wearable neurotechnology to decode brain signals. Through insights from concept learning theory, ERUDITE can infer the human state of learning and understand when human learning increases or declines. By quantifying human learning as an input sensory signal, ERUDITE can provide adequate personalized feedback to humans in a learning environment to enhance their learning experience. ERUDITE is evaluated across $15$ participants and showed that by using the brain signals as a sensor modality to infer the human learning state and providing personalized adaptation to the learning environment, the participants' learning performance increased on average by $26\%$. Furthermore, we showed that ERUDITE can be deployed on an edge-based prototype to evaluate its practicality and scalability.
翻訳日:2023-03-09 15:37:49 公開日:2023-03-07
# 暗黒における拡散:低光度テキスト認識のための拡散モデル

Diffusion in the Dark: A Diffusion Model for Low-Light Text Recognition ( http://arxiv.org/abs/2303.04291v1 )

ライセンス: Link先を確認
Cindy M. Nguyen, Eric R. Chan, Alexander W. Bergman, Gordon Wetzstein(参考訳) 画像はテキスト認識などのハイレベルなタスクの自動化に不可欠である。 低照度条件は、高レベルの知覚スタックに挑戦するものであり、よく照らされたアーティファクトフリーなイメージに最適化されることが多い。 低照度画像の再構成手法は、よく照らされた画像を生成するが、通常は下流タスクにとって重要な周波数詳細のコストがかかる。 我々は,低照度画像再構成のための拡散モデルであるDiffusion in the Dark (DiD)を提案する。 実画像上での低照度テキスト認識におけるSOTAの低照度手法よりも高い性能を示すとともに,不適切な逆問題に対する拡散モデルの可能性を示す。

Images are indispensable for the automation of high-level tasks, such as text recognition. Low-light conditions pose a challenge for these high-level perception stacks, which are often optimized on well-lit, artifact-free images. Reconstruction methods for low-light images can produce well-lit counterparts, but typically at the cost of high-frequency details critical for downstream tasks. We propose Diffusion in the Dark (DiD), a diffusion model for low-light image reconstruction that provides qualitatively competitive reconstructions with that of SOTA, while preserving high-frequency details even in extremely noisy, dark conditions. We demonstrate that DiD, without any task-specific optimization, can outperform SOTA low-light methods in low-light text recognition on real images, bolstering the potential of diffusion models for ill-posed inverse problems.
翻訳日:2023-03-09 15:37:19 公開日:2023-03-07
# 韻律伝達モデルは韻律伝達か?

Do Prosody Transfer Models Transfer Prosody? ( http://arxiv.org/abs/2303.04289v1 )

ライセンス: Link先を確認
Atli Thor Sigurgeirsson, Simon King(参考訳) 最近のテキスト音声合成モデルは、参照発話の韻律を生成対象合成音声に転送することを目的としている。 これは、音声生成の条件付けに使用される基準発話の学習的な埋め込みを用いて行われる。 訓練中は、基準発話は対象発話と同一である。 しかし、合成中、これらのモデルは、合成されるテキストや話者とは異なる参照から韻律を転送するためにしばしば使用される。 この矛盾に対処するために、トレーニング中に異なる、しかし韻律的に関連した発話を使うように提案する。 これはモデルに、参照とターゲットが共通している特性のみを転送することを学ぶように促すべきだと考えています。 韻律伝達法が実際に韻律を転送するなら、我々が提案する方法で訓練できるはずである。 しかし,これらの条件下で訓練したモデルでは,対象発話を基準として訓練したモデルよりも有意に性能が低下することが示唆された。 これを説明するために、韻律伝達モデルが韻律の伝達可能な表現を学習するのではなく、参照話者と参照テキストの両方に大きく依存する発話レベル表現を仮定する。

Some recent models for Text-to-Speech synthesis aim to transfer the prosody of a reference utterance to the generated target synthetic speech. This is done by using a learned embedding of the reference utterance, which is used to condition speech generation. During training, the reference utterance is identical to the target utterance. Yet, during synthesis, these models are often used to transfer prosody from a reference that differs from the text or speaker being synthesized. To address this inconsistency, we propose to use a different, but prosodically-related, utterance during training too. We believe this should encourage the model to learn to transfer only those characteristics that the reference and target have in common. If prosody transfer methods do indeed transfer prosody they should be able to be trained in the way we propose. However, results show that a model trained under these conditions performs significantly worse than one trained using the target utterance as a reference. To explain this, we hypothesize that prosody transfer models do not learn a transferable representation of prosody, but rather an utterance-level representation which is highly dependent on both the reference speaker and reference text.
翻訳日:2023-03-09 15:37:04 公開日:2023-03-07
# 非有界ガウス混合モデルの多項式時間とプライベート学習

Polynomial Time and Private Learning of Unbounded Gaussian Mixture Models ( http://arxiv.org/abs/2303.04288v1 )

ライセンス: Link先を確認
Jamil Arbas, Hassan Ashtiani and Christopher Liaw(参考訳) 本稿では,$d$-dimensional Gaussian Mixture Models (GMM) のパラメータを$k$コンポーネントでプライベートに推定する問題について検討する。 そこで我々は,この問題を非民間企業に還元する手法を開発した。 これにより、既存の非プライベートなアルゴリズムをブラックボックス方式で民営化できますが、サンプルの複雑さと実行時間のオーバーヘッドは少なくなります。 本フレームワークの主な応用例として,Moitra と Valiant [MV10] の非プライベートアルゴリズムをブラックボックスとして,GMM を学習するための$(\varepsilon, \delta)$-differentially privateアルゴリズムを開発した。 これにより、パラメータの有界性を仮定せずにgmmをプライベートに学習する最初のサンプル複雑性上限時間と1次多項式時間アルゴリズムが得られる。

We study the problem of privately estimating the parameters of $d$-dimensional Gaussian Mixture Models (GMMs) with $k$ components. For this, we develop a technique to reduce the problem to its non-private counterpart. This allows us to privatize existing non-private algorithms in a blackbox manner, while incurring only a small overhead in the sample complexity and running time. As the main application of our framework, we develop an $(\varepsilon, \delta)$-differentially private algorithm to learn GMMs using the non-private algorithm of Moitra and Valiant [MV10] as a blackbox. Consequently, this gives the first sample complexity upper bound and first polynomial time algorithm for privately learning GMMs without any boundedness assumptions on the parameters.
翻訳日:2023-03-09 15:36:45 公開日:2023-03-07
# 特徴行列に対する十分次元還元

Sufficient dimension reduction for feature matrices ( http://arxiv.org/abs/2303.04286v1 )

ライセンス: Link先を確認
Chanwoo Lee(参考訳) 我々は,センサネットワークの局在化,脳神経イメージング,脳波解析などにおいてしばしば発生する特徴行列の十分な次元削減の問題に対処する。 一般に、特徴行列は行と列の双方の解釈を持ち、単純ベクトル化アプローチで失われる構造情報を含んでいる。 そこで本研究では, 主支持行列機械 (psmm) と呼ばれる行列を十分次元的に縮小する手法を提案する。 PSMMは、応答変数をスライスに分割することで、十分な次元削減問題を一連の分類問題に変換する。 スライスされた応答を最適に分離するrank-1正規行列を持つ超平面を見つけることで、マトリックス構造を有効に活用する。 さらに、より高階テンソルケースにアプローチを拡張します。 数値解析により、PSMMは既存の手法よりも優れ、実データアプリケーションでは高い解釈性を有することが示された。

We address the problem of sufficient dimension reduction for feature matrices, which arises often in sensor network localization, brain neuroimaging, and electroencephalography analysis. In general, feature matrices have both row- and column-wise interpretations and contain structural information that can be lost with naive vectorization approaches. To address this, we propose a method called principal support matrix machine (PSMM) for the matrix sufficient dimension reduction. The PSMM converts the sufficient dimension reduction problem into a series of classification problems by dividing the response variables into slices. It effectively utilizes the matrix structure by finding hyperplanes with rank-1 normal matrix that optimally separate the sliced responses. Additionally, we extend our approach to the higher-order tensor case. Our numerical analysis demonstrates that the PSMM outperforms existing methods and has strong interpretability in real data applications.
翻訳日:2023-03-09 15:36:29 公開日:2023-03-07
# 速くて遅い計画

Fast and Slow Planning ( http://arxiv.org/abs/2303.04283v1 )

ライセンス: Link先を確認
Francesco Fabiano, Vishal Pallagani, Marianna Bergamaschi Ganapini, Lior Horesh, Andrea Loreggia, Keerthiram Murugesan, Francesca Rossi, Biplav Srivastava(参考訳) 人工知能の概念は、過去10年間に多くの注目を集めてきた。 特に、AIベースのツールはいくつかのシナリオで採用されており、現在までに私たちの日常生活に浸透しています。 それでもこれらのシステムには,“知性(intelligence)”という概念に当然含まれると思われる,多くの機能が欠けているのです。 本研究では,d. kahneman による思考の速さと遅さという認知理論に触発されたアーキテクチャを提案する。 提案されたシステムは、SOFAI(Slow and Fast AI)と呼ばれるより一般的なAIパラダイムの例である。 SOFAIは、高速または遅いと特徴付ける異なる機能と、それらを制御するメタ認知モジュールを備えた、複数の解決アプローチを利用する。 このコンポーネントの組み合わせは、d. kahneman氏によると、人間の推論過程を大まかに反映しており、この場合、2つの異なる設定での計画に関する推論プロセスを強化することができました。 このシステムの動作は最先端の解法と比較され、新しいシステムでは解法時間と解の精度のトレードオフを許容し、より広範な問題の集合を解き、より一般性の観点からより良い結果を示すことを示した。

The concept of Artificial Intelligence has gained a lot of attention over the last decade. In particular, AI-based tools have been employed in several scenarios and are, by now, pervading our everyday life. Nonetheless, most of these systems lack many capabilities that we would naturally consider to be included in a notion of "intelligence". In this work, we present an architecture that, inspired by the cognitive theory known as Thinking Fast and Slow by D. Kahneman, is tasked with solving planning problems in different settings, specifically: classical and multi-agent epistemic. The system proposed is an instance of a more general AI paradigm, referred to as SOFAI (for Slow and Fast AI). SOFAI exploits multiple solving approaches, with different capabilities that characterize them as either fast or slow, and a metacognitive module to regulate them. This combination of components, which roughly reflects the human reasoning process according to D. Kahneman, allowed us to enhance the reasoning process that, in this case, is concerned with planning in two different settings. The behavior of this system is then compared to state-of-the-art solvers, showing that the newly introduced system presents better results in terms of generality, solving a wider set of problems with an acceptable trade-off between solving times and solution accuracy.
翻訳日:2023-03-09 15:36:15 公開日:2023-03-07
# CUDA: 畳み込みベースの未学習データセット

CUDA: Convolution-based Unlearnable Datasets ( http://arxiv.org/abs/2303.04278v1 )

ライセンス: Link先を確認
Vinu Sankar Sadasivan, Mahdi Soltanolkotabi, Soheil Feizi(参考訳) 現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。 このオンラインデータの使用は、データプライバシに関する懸念につながる可能性がある。 最近の研究は、この問題に対処するために、小型で特別に設計されたノイズを追加することで、ディープラーニングモデルの学習不可能なデータを作ることを目指している。 しかし、これらの手法は対戦訓練(AT)や計算量に弱い。 本研究では,新しいモデルフリーな畳み込み型非学習型データセット(cuda)生成手法を提案する。 CUDAは、秘密鍵を介してランダムに生成されるフィルタで制御されたクラスワイズ畳み込みを用いて生成される。 CUDAは、クリーンなデータを分類するための情報的特徴よりも、フィルタとラベルの関係を学ぶことをネットワークに推奨する。 最適ベイズ分類器のクリーンデータ性能を低減し, CUDAがガウス混合データに有意な毒性を与えることを示す理論的解析法を開発した。 また,各種データセット (CIFAR-10, CIFAR-100, ImageNet-100, Tiny-ImageNet) とアーキテクチャ (ResNet-18, VGG-16, Wide ResNet-34-10, DenseNet-121, DeIT, EfficientNetV2-S, MobileNetV2) でCUDAの有効性を実証的に実証した。 実験の結果,CUDAはスムーシング,AT,トランスファーラーニング,微調整など,さまざまなデータ拡張やトレーニングアプローチに対して堅牢であることがわかった。 例えば、ImageNet-100 CUDA 上で ResNet-18 をトレーニングすると、それぞれ 8.96$\%$、40.08$\%$、20.58$\%$クリーンなテスト精度と経験的リスク最小化(ERM)、$L_{\infty}$ AT、$L_{2}$ AT が達成される。 ここで、クリーントレーニングデータ上のERMは、80.66$\%のクリーンテスト精度を達成する。 CUDAは、トレーニングデータセットのごく一部が摂動した場合でも、ERMによる非学習性効果を示す。 さらに、CUDAは、それを壊すために設計された適応防御に対して堅牢であることを示す。

Large-scale training of modern deep learning models heavily relies on publicly available data on the web. This potentially unauthorized usage of online data leads to concerns regarding data privacy. Recent works aim to make unlearnable data for deep learning models by adding small, specially designed noises to tackle this issue. However, these methods are vulnerable to adversarial training (AT) and/or are computationally heavy. In this work, we propose a novel, model-free, Convolution-based Unlearnable DAtaset (CUDA) generation technique. CUDA is generated using controlled class-wise convolutions with filters that are randomly generated via a private key. CUDA encourages the network to learn the relation between filters and labels rather than informative features for classifying the clean data. We develop some theoretical analysis demonstrating that CUDA can successfully poison Gaussian mixture data by reducing the clean data performance of the optimal Bayes classifier. We also empirically demonstrate the effectiveness of CUDA with various datasets (CIFAR-10, CIFAR-100, ImageNet-100, and Tiny-ImageNet), and architectures (ResNet-18, VGG-16, Wide ResNet-34-10, DenseNet-121, DeIT, EfficientNetV2-S, and MobileNetV2). Our experiments show that CUDA is robust to various data augmentations and training approaches such as smoothing, AT with different budgets, transfer learning, and fine-tuning. For instance, training a ResNet-18 on ImageNet-100 CUDA achieves only 8.96$\%$, 40.08$\%$, and 20.58$\%$ clean test accuracies with empirical risk minimization (ERM), $L_{\infty}$ AT, and $L_{2}$ AT, respectively. Here, ERM on the clean training data achieves a clean test accuracy of 80.66$\%$. CUDA exhibits unlearnability effect with ERM even when only a fraction of the training dataset is perturbed. Furthermore, we also show that CUDA is robust to adaptive defenses designed specifically to break it.
翻訳日:2023-03-09 15:35:53 公開日:2023-03-07
# 変圧器予測ヘッドに基づく改良型YOLOv5によるコンピュータビジョンによる損傷検出モデル

A Computer Vision Enabled damage detection model with improved YOLOv5 based on Transformer Prediction Head ( http://arxiv.org/abs/2303.04275v1 )

ライセンス: Link先を確認
Arunabha M. Roy and Jayabrata Bhaduri(参考訳) 目的:コンピュータビジョンに基づく最新のダメージ分類とローカライゼーションは、インフラ監視、安全、および土木インフラのサービス性において決定的な重要性を持つ。 しかし、現在の最先端のディープラーニング(dl)ベースの損傷検出モデルでは、複雑でノイズの多い環境では優れた特徴抽出能力が欠如しており、正確で信頼性の高いオブジェクト識別の開発が制限されている。 方法: DenseSPH-YOLOv5は,DenseNetブロックをバックボーンに統合し,重要な特徴情報の保存・再利用を改善するリアルタイムDLベース高速損傷検出モデルである。 さらに、cbam(convolutional block attention module)が実装され、様々な困難な環境下で優れた検出を可能にする深層空間特徴抽出のための注意性能機構が向上している。 さらに、マルチスケールオブジェクトサイズをより効率的に検出し、計算複雑性を同時に低減するために、高度な自己アテンション機構を活用する機能融合層とSwin-Transformer Prediction Head (SPH)が追加された。 結果: 大規模道路被害データセット(RDD-2018)におけるモデル性能を62.4 FPSで評価すると, DenseSPH-YOLOv5は平均平均精度(mAP)が85.25 %, F1スコアが81.18 %, 精度(P)が89.51 %である。 意義: 本研究は, 高精度な局所的境界ボックス予測を提供することにより, 既存のDLベース損傷検出モデルの欠点に対処する, 効果的かつ効率的な損傷局所化モデルを提供する。 現在の作業は、リアルタイムフィールドアプリケーションにおける正確で堅牢な自動損傷検出システムに向けての一歩となる。

Objective:Computer vision-based up-to-date accurate damage classification and localization are of decisive importance for infrastructure monitoring, safety, and the serviceability of civil infrastructure. Current state-of-the-art deep learning (DL)-based damage detection models, however, often lack superior feature extraction capability in complex and noisy environments, limiting the development of accurate and reliable object distinction. Method: To this end, we present DenseSPH-YOLOv5, a real-time DL-based high-performance damage detection model where DenseNet blocks have been integrated with the backbone to improve in preserving and reusing critical feature information. Additionally, convolutional block attention modules (CBAM) have been implemented to improve attention performance mechanisms for strong and discriminating deep spatial feature extraction that results in superior detection under various challenging environments. Moreover, additional feature fusion layers and a Swin-Transformer Prediction Head (SPH) have been added leveraging advanced self-attention mechanism for more efficient detection of multiscale object sizes and simultaneously reducing the computational complexity. Results: Evaluating the model performance in large-scale Road Damage Dataset (RDD-2018), at a detection rate of 62.4 FPS, DenseSPH-YOLOv5 obtains a mean average precision (mAP) value of 85.25 %, F1-score of 81.18 %, and precision (P) value of 89.51 % outperforming current state-of-the-art models. Significance: The present research provides an effective and efficient damage localization model addressing the shortcoming of existing DL-based damage detection models by providing highly accurate localized bounding box prediction. Current work constitutes a step towards an accurate and robust automated damage detection system in real-time in-field applications.
翻訳日:2023-03-09 15:35:14 公開日:2023-03-07
# フェデレート学習におけるプライバシとユーティリティのバランスのための振幅可変摂動

Amplitude-Varying Perturbation for Balancing Privacy and Utility in Federated Learning ( http://arxiv.org/abs/2303.04274v1 )

ライセンス: Link先を確認
Xin Yuan, Wei Ni, Ming Ding, Kang Wei, Jun Li, and H. Vincent Poor(参考訳) フェデレーション学習(FL)のプライバシを保存する一方で、差分プライバシー(DP)はモデル更新に付加されたDPノイズによるモデル摂動により、必然的にFLの有用性(すなわち精度)を低下させる。 既存の研究では、根-平均2乗振幅の持続的なノイズのみを考慮し、ノイズの悪影響を軽減するために振幅を調整する機会を見落としている。 本稿では,flのプライバシーを保護し,学習性能の調整能力を維持するため,時間変動雑音振幅を有する新しいdp摂動機構を提案する。 具体的には,雑音振幅の幾何級数形式を提案し,大域集約数と$(\epsilon,\delta)$-dp 要求に対する系列の依存性を解析的に明らかにした。 我々は,過度な摂動雑音によるflの早期収束を防止するため,シリーズのオンライン精細化を導出する。 もう一つの重要な側面は、新しいDP機構を実行するFLによって訓練された多層パーセプトロン(MLP)の損失関数のために開発された上限である。 したがって、学習とプライバシーのバランスをとることで、最適なグローバルアグリゲーション数が得られる。 大規模な実験は、MLP、サポートベクターマシン、および4つのパブリックデータセット上の畳み込みニューラルネットワークモデルを用いて行われる。 新しいDP機構のプライバシ保存FLの収束と精度への寄与は、持続的な雑音振幅を持つ最先端のガウスノイズ機構と比較して相関する。

While preserving the privacy of federated learning (FL), differential privacy (DP) inevitably degrades the utility (i.e., accuracy) of FL due to model perturbations caused by DP noise added to model updates. Existing studies have considered exclusively noise with persistent root-mean-square amplitude and overlooked an opportunity of adjusting the amplitudes to alleviate the adverse effects of the noise. This paper presents a new DP perturbation mechanism with a time-varying noise amplitude to protect the privacy of FL and retain the capability of adjusting the learning performance. Specifically, we propose a geometric series form for the noise amplitude and reveal analytically the dependence of the series on the number of global aggregations and the $(\epsilon,\delta)$-DP requirement. We derive an online refinement of the series to prevent FL from premature convergence resulting from excessive perturbation noise. Another important aspect is an upper bound developed for the loss function of a multi-layer perceptron (MLP) trained by FL running the new DP mechanism. Accordingly, the optimal number of global aggregations is obtained, balancing the learning and privacy. Extensive experiments are conducted using MLP, supporting vector machine, and convolutional neural network models on four public datasets. The contribution of the new DP mechanism to the convergence and accuracy of privacy-preserving FL is corroborated, compared to the state-of-the-art Gaussian noise mechanism with a persistent noise amplitude.
翻訳日:2023-03-09 15:34:42 公開日:2023-03-07
# 多イオン輸送学習のための物理制約型ニューラル微分方程式

Physics-constrained neural differential equations for learning multi-ionic transport ( http://arxiv.org/abs/2303.04594v1 )

ライセンス: Link先を確認
Danyal Rehman and John H. Lienhard(参考訳) ポリアミドナノ孔を経由するイオン輸送の連続モデルは、複雑な細孔幾何学を通して偏微分方程式(PDE)を解く必要がある。 この長さと時間スケールで時空間的特徴を解くことで、これらの方程式を計算的に解くことができる。 さらに、メカニスティックモデルは、しばしばナノコンフィニメントの下でのイオン相互作用パラメータ間の機能的関係を必要とするが、実験的な測定や事前の知識が難しいことが多い。 本研究では,ポリアミドナノ孔間のイオン輸送挙動を学習する物理インフォームド深層学習モデルを開発した。 提案したアーキテクチャは、古典的クロージャモデルと組み合わせて、ニューラルフレームワークに直接符号化された帰納的バイアスとして神経微分方程式を利用する。 ニューラル微分方程式は連続体モデルからのシミュレーションデータに基づいて事前訓練され、独立実験データに基づいて微調整され、イオンの拒絶挙動を学習する。 実験不確実性推定によるガウス雑音の増大もモデル一般化を改善するために測定データに導入される。 本手法は他の物理モデルと比較し,すべてのデータセットで実験値と強い一致を示した。

Continuum models for ion transport through polyamide nanopores require solving partial differential equations (PDEs) through complex pore geometries. Resolving spatiotemporal features at this length and time-scale can make solving these equations computationally intractable. In addition, mechanistic models frequently require functional relationships between ion interaction parameters under nano-confinement, which are often too challenging to measure experimentally or know a priori. In this work, we develop the first physics-informed deep learning model to learn ion transport behaviour across polyamide nanopores. The proposed architecture leverages neural differential equations in conjunction with classical closure models as inductive biases directly encoded into the neural framework. The neural differential equations are pre-trained on simulated data from continuum models and fine-tuned on independent experimental data to learn ion rejection behaviour. Gaussian noise augmentations from experimental uncertainty estimates are also introduced into the measured data to improve model generalization. Our approach is compared to other physics-informed deep learning models and shows strong agreement with experimental measurements across all studied datasets.
翻訳日:2023-03-09 13:57:03 公開日:2023-03-07
# 選好による多様性の制御 : 異なるスキルセットの学習に向けて

Controlled Diversity with Preference : Towards Learning a Diverse Set of Desired Skills ( http://arxiv.org/abs/2303.04592v1 )

ライセンス: Link先を確認
Maxence Hussonnois, Thommen George Karimpanal and Santu Rana(参考訳) 外部の報酬信号のない多様な行動の自律的な学習は、強化学習における関心の問題となっている。 しかし、そのようなメカニズムにおける学習の性質は制約がなく、しばしば使用不能、安全でない、あるいは不整合なスキルが蓄積される。 このような問題を回避し、安全かつ人道的なスキルの発見を確実にするためには、ほとんど探索されていない研究領域である教師なしのトレーニングプロセスに人間を組み込む必要がある。 本研究は,エージェントが多様かつ望ましいスキルのセットを学ぶための,新しい協調的なヒューマンガイド機構である制御された多様性と優先度(CDP)を提案する。 鍵となる原則は、軌道対の人間の選好ラベルを用いて訓練された選好モデルに基づいて望ましいと考えられる領域にスキルの発見を制限することである。 2次元ナビゲーションとMujoco環境に対する我々のアプローチを評価し、多様な、しかし望ましいスキルを発見する能力を示す。

Autonomously learning diverse behaviors without an extrinsic reward signal has been a problem of interest in reinforcement learning. However, the nature of learning in such mechanisms is unconstrained, often resulting in the accumulation of several unusable, unsafe or misaligned skills. In order to avoid such issues and ensure the discovery of safe and human-aligned skills, it is necessary to incorporate humans into the unsupervised training process, which remains a largely unexplored research area. In this work, we propose Controlled Diversity with Preference (CDP), a novel, collaborative human-guided mechanism for an agent to learn a set of skills that is diverse as well as desirable. The key principle is to restrict the discovery of skills to those regions that are deemed to be desirable as per a preference model trained using human preference labels on trajectory pairs. We evaluate our approach on 2D navigation and Mujoco environments and demonstrate the ability to discover diverse, yet desirable skills.
翻訳日:2023-03-09 13:56:46 公開日:2023-03-07
# 光ローグ波の定量化

Quantifying optical rogue waves ( http://arxiv.org/abs/2303.04615v1 )

ライセンス: Link先を確認
Eva R\'acz, Kirill Spasibko, Mathieu Manceau, L\'aszl\'o Ruppert, Maria V. Chekhova, Radim Filip(参考訳) 本研究は、単一モードファイバで発生した超連続体で観測される光ローグ波の分布に関する指数を推定し、ローグネスを定量化する2つの異なるアプローチを示す。 1つは有名なヒル推定器の一般化であり、2つ目は多パラメータモデルの全てのパラメータを推定することに依存する。 このモデルでは, 実験データと良好な対応性を示し, 2つの推定手法が, 従来の推定手法よりもはるかに精度の高い一貫した結果をもたらすことを示した。 さらに, テール関数による代替可視化により, ポンプの枯渇や, 最大観測値に対するパワーロー挙動の崩壊につながる検出器飽和の存在が明らかになった。 この分解を指数関数分布と一般化パレート分布の組み合わせによって特徴づけた。 さらに,シングルモードファイバの屈折率の変化に起因するデータに弱いメモリ効果があることが判明した。

This work presents two distinct approaches to estimating the exponent related to the distribution of optical rogue waves observed in supercontinuum generated in a single-mode fiber, that is, to quantifying the rogueness. The first is a generalization of the well-known Hill estimator, and the second relies on estimating all parameters of a multi-parameter model. We show that the model shows a good correspondence with experimental data, and that the two estimating approaches provide consistent results, which are significantly more accurate than those obtained with earlier methods of estimation. Furthermore, alternative visualization through the tail function revealed the presence of pump depletion as well as detector saturation leading to the breakdown of power-law behavior for the largest observations. We characterized this breakdown via a combination of an exponential and a generalized Pareto distribution. Additionally, we have uncovered a weak memory effect in the data, which can be attributed to changes of the refractive index in the single-mode fiber.
翻訳日:2023-03-09 13:48:11 公開日:2023-03-07
# 量子コンピューティングとリーマン仮説

Quantum Computing and the Riemann Hypothesis ( http://arxiv.org/abs/2303.04602v1 )

ライセンス: Link先を確認
Michael McGuigan(参考訳) 量子コンピューティングは、フォールトトレラントな量子コンピュータを構築することができれば、古典的なアルゴリズムよりも高速になる可能性がある量子アルゴリズムによるコンピューティングの新しい領域である。 古典的コンピュータの最初の応用の一つはリーマン予想の研究であり、量子コンピュータはこの問題にも応用できるかもしれない。 本稿では、量子フーリエ変換(qft)をリーマン予想のバージョンに従う非自明な零点を持つ3つの関数の研究に適用する。 我々は6量子ビットで量子計算を行うが、量子誤差補正によってqftアルゴリズムがスケールできる場合、より多くの量子ビットを使うことができる。 我々はこれらの関数を運動量空間に変換された基底状態波動関数として表現する。 超対称性量子力学における状態としてこれらの関数を得る方法を示す。 最後に、これらの関数と(p,1) ランダムな 2 つの行列モデルとの関係について論じる。

Quantum computing is a promising new area of computing with quantum algorithms offering a potential speedup over classical algorithms if fault tolerant quantum computers can be built. One of the first applications of the classical computer was to the study of the Riemann hypothesis and quantum computers may be applied to this problem as well. In this paper we apply the Quantum Fourier Transform (QFT) to study three functions with non-trivial zeros obeying a version of the Riemann hypothesis. We perform our quantum computations with six qubits, but more qubits can be used if quantum error correction allows the QFT algorithm to scale. We represent these functions as ground state wave functions transformed to momentum space. We show how to obtain these functions as states in supersymmetric quantum mechanics. Finally we discuss the relation of these functions to (p,1) Random two matrix models at large N.
翻訳日:2023-03-09 13:45:16 公開日:2023-03-07
# グローバル最適化のための多層パーセプトロン構造連続関数

Continuous Function Structured in Multilayer Perceptron for Global Optimization ( http://arxiv.org/abs/2303.04623v1 )

ライセンス: Link先を確認
Heeyuen Koh(参考訳) 線形ニューロンを持つ多層パーセプトロンの勾配情報を、大域的な最小探索ベンチマーク問題に対する関数微分で修正する。 本稿では,機能的導関数を用いた連続関数から導出される勾配の風景が,ax+bニューロンを持つMLP様形態であることを示す。 この点において,提案アルゴリズムは最適化プロセスの可用性を改善し,同時に設定した問題のパラメータをすべて処理する。 この手法の機能は、クラック・リーブラーの発散を伴う意図的に設計された凸関数をコスト値にも適用することで改善することができる。

The gradient information of multilayer perceptron with a linear neuron is modified with functional derivative for the global minimum search benchmarking problems. From this approach, we show that the landscape of the gradient derived from given continuous function using functional derivative can be the MLP-like form with ax+b neurons. In this extent, the suggested algorithm improves the availability of the optimization process to deal all the parameters in the problem set simultaneously. The functionality of this method could be improved through intentionally designed convex function with Kullack-Liebler divergence applied to cost value as well.
翻訳日:2023-03-09 13:36:33 公開日:2023-03-07
# 初期条件の理論」とは何か?

What gives a "theory of Initial Conditions" ? ( http://arxiv.org/abs/2303.04618v1 )

ライセンス: Link先を確認
Holger Bech Nielsen and Keiichi Nagao(参考訳) 本研究は、複素作用や非エルミート・ハミルトン理論に関するいくつかの研究、特に、運動方程式の実際の解を決定することでハミルトン函数の反エルミート的部分(英語版)が実現すべき初期条件を予測するという結果のレビューを含む。 我々の主な結果として、運動の効果的な方程式は、実際に長い時間をかけて、本当にエルミート的ハミルトニアンであるかのように正確であり、従って、非エルミート的方程式を仮定することには何ら問題はないということが強調されるべきである。 実際には、Hermitianのように見えます! 我々は、非エルミート的ハミルトニアン(英語版)(Hermitian Hamiltonian)の非常に一般的な性質を仮定してさえも、実際には(有効ヘルミート的)ハミルトニアン(英語版)(Hermitian Hamiltonian)の底点を見つけるべきであり、ある時点での宇宙は(複数の)サドル点を非常に深く通過すべきであり、それで費やされる時間は、非常に長いであろうと仮定する。

The present work contains a review of some of the work we have done on complex action or non-Hermitian Hamiltonian theory, especially the result that the anti-Hermitian part of the Hamiltonian functions by determining the actual solution to the equations of motion, that should be realized; this means it predicts the initial conditions. It should be stressed that a major result of ours is that the effective equations of motion will in practice -- after long time -- be so accurately as if we had indeed a Hermitian Hamiltonian, and so there is at first nothing wrong in assuming a non-Hermitian one. In fact it would practically seem Hermitian anyway! A major new point is that we seek by a bit intuitively arguing to suggest some cosmologically predictions from the mentioned initial conditions predicted: We seek even by assumming essentially nothing but very general properties of the non-Hermitian Hamiltonian that we in practice should find a bottom in the (effective Hermitian) Hamiltonian and that the Universe at some moment should pass through a (multiple) saddle point very closely, so that the time spent at it would be very long.
翻訳日:2023-03-09 13:36:16 公開日:2023-03-07
# フェデレーション学習を用いた映画推薦のためのプライバシー保護システム

A Privacy Preserving System for Movie Recommendations using Federated Learning ( http://arxiv.org/abs/2303.04689v1 )

ライセンス: Link先を確認
David Neumann, Andreas Lutz, Karsten M\"uller, Wojciech Samek(参考訳) 過去数年間、レコメンダシステムはユビキタスになってきた。 多くのユーザーが直面する選択の専横を解消し、多くのオンラインビジネスがエンゲージメントと販売を促進するために採用している。 ソーシャルネットワーク内でフィルターバブルを作成するなど、他の批判に加えて、レコメンダシステムは大量の個人データを集めるためにしばしば証明される。 しかし、レコメンデーションをパーソナライズするには、個人情報が不可欠である。 フェデレートラーニング(Federated Learning)と呼ばれる最近の分散学習方式により,集中的な収集なしに個人データから学習できるようになった。 第一に、フェデレートされた学習を用いて訓練されており、その性質上、プライバシー保護でありながら、個々のユーザーがグローバルな洞察から恩恵を受けられるようにしている。 第二に、新しいフェデレーション学習スキームであるFedQが採用され、非I.d.および小さなローカルデータセットの問題に対処するだけでなく、クライアントモデルを早期に集約することで入力データ再構成攻撃を防ぐ。 通信オーバーヘッドを低減するために圧縮を適用し、交換されたニューラルネットワークの更新を元のデータの一部に大幅に削減する。 量子化の欠如によってデータのプライバシも向上する可能性があると推測する。

Recommender systems have become ubiquitous in the past years. They solve the tyranny of choice problem faced by many users, and are employed by many online businesses to drive engagement and sales. Besides other criticisms, like creating filter bubbles within social networks, recommender systems are often reproved for collecting considerable amounts of personal data. However, to personalize recommendations, personal information is fundamentally required. A recent distributed learning scheme called federated learning has made it possible to learn from personal user data without its central collection. Accordingly, we present a complete recommender system for movie recommendations, which provides privacy and thus trustworthiness on two levels: First, it is trained using federated learning and thus is, by its very nature, privacy-preserving, while still enabling individual users to benefit from global insights. And second, a novel federated learning scheme, FedQ, is employed, which not only addresses the problem of non-i.i.d. and small local datasets, but also prevents input data reconstruction attacks by aggregating client models early. To reduce the communication overhead, compression is applied, which significantly reduces the exchanged neural network updates to a fraction of their original data. We conjecture that it may also improve data privacy through its lossy quantization stage.
翻訳日:2023-03-09 13:19:39 公開日:2023-03-07
# CLIP-Layout:Semantic Furniture Embeddingを用いたスタイル一貫性のある室内シーン合成

CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding ( http://arxiv.org/abs/2303.03565v1 )

ライセンス: Link先を確認
Jingyu Liu, Wenhan Xiong, Ian Jones, Yixin Nie, Anchit Gupta, Barlas O\u{g}uz(参考訳) 室内シーンの合成は、家具をフロアプランに適切にピックして配置するので、シーンがリアルに見え、機能的にも妥当である。 このようなシーンは、没入型3D体験の場として機能したり、エンボディエージェントの訓練に使用することができる。 既存の手法では家具のラベル付きカテゴリ(ベッド、椅子、テーブルなど)に依存し、家具の文脈的関連の組み合わせを生成する。 ヒューリスティックでも学習でも、これらの手法は色やスタイルなどのオブジェクトのインスタンスレベルの属性を無視し、結果として視覚的によりコヒーレントなシーンを生み出す可能性がある。 本稿では,CLIPに基づく汎用画像埋め込みを利用して,インスタンスレベルの予測を出力できる自動回帰シーンモデルを提案する。 これにより、色やスタイルの一致などの視覚的対応を学習し、より可視的で美的な場面を作り出すことができる。 3d-frontデータセット上で評価し,シーン生成でsoma結果を達成し,自動補完メトリクスを50%以上改善した。 さらに, 組込み方式により, ゼロショットテキスト誘導シーン生成と編集が可能となり, トレーニング時に見えない家具に容易に一般化できる。

Indoor scene synthesis involves automatically picking and placing furniture appropriately on a floor plan, so that the scene looks realistic and is functionally plausible. Such scenes can serve as a home for immersive 3D experiences, or be used to train embodied agents. Existing methods for this task rely on labeled categories of furniture, e.g. bed, chair or table, to generate contextually relevant combinations of furniture. Whether heuristic or learned, these methods ignore instance-level attributes of objects such as color and style, and as a result may produce visually less coherent scenes. In this paper, we introduce an auto-regressive scene model which can output instance-level predictions, making use of general purpose image embedding based on CLIP. This allows us to learn visual correspondences such as matching color and style, and produce more plausible and aesthetically pleasing scenes. Evaluated on the 3D-FRONT dataset, our model achieves SOTA results in scene generation and improves auto-completion metrics by over 50%. Moreover, our embedding-based approach enables zero-shot text-guided scene generation and editing, which easily generalizes to furniture not seen at training time.
翻訳日:2023-03-08 17:04:48 公開日:2023-03-07
# 局所ファジィ粒度に基づく効率的なファジィクラスタリング法に関する研究

Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy Granules ( http://arxiv.org/abs/2303.03590v1 )

ライセンス: Link先を確認
Jiang Xie, Qiao Deng, Shuyin Xia, Yangzhou Zhao, Guoyin Wang and Xinbo Gao(参考訳) 近年,ファジィクラスタリングの問題は広く懸念されている。 既存手法のメンバシップ反復は概ね世界的に検討されており,ノイズの多い環境ではかなりの問題があり,多数のサンプルサイズを持つクラスタに対する反復計算は正確で効率的ではない。 本稿では, 大規模優先戦略から, データのファジィ化を粒状球を用いて行い, データのメンバシップ度は, 位置する2つの粒状球のみを考慮し, 繰り返しの効率を向上する。 生成したファジィ粒球集合は、異なるデータシナリオに直面してより多くの処理方法を利用することができ、ファジィクラスタリング計算の実用性を高める。

In recent years, the problem of fuzzy clustering has been widely concerned. The membership iteration of existing methods is mostly considered globally, which has considerable problems in noisy environments, and iterative calculations for clusters with a large number of different sample sizes are not accurate and efficient. In this paper, starting from the strategy of large-scale priority, the data is fuzzy iterated using granular-balls, and the membership degree of data only considers the two granular-balls where it is located, thus improving the efficiency of iteration. The formed fuzzy granular-balls set can use more processing methods in the face of different data scenarios, which enhances the practicability of fuzzy clustering calculations.
翻訳日:2023-03-08 16:55:34 公開日:2023-03-07
# Langevin Monte Carloの完全な分析に向けて: Poincar\'eの不平等を超えて

Towards a Complete Analysis of Langevin Monte Carlo: Beyond Poincar\'e Inequality ( http://arxiv.org/abs/2303.03589v1 )

ライセンス: Link先を確認
Alireza Mousavi-Hosseini and Tyler Farghly and Ye He and Krishnakumar Balasubramanian and Murat A. Erdogdu(参考訳) ランゲヴィン拡散は適切な機能的不等式仮定の下で急速に収束する。 したがって、離散化誤差を扱うための追加の滑らかさ条件により、ランジュバン・モンテカルロ(lmc)のような離散化も同様に収束することが期待できる。 この研究プログラムはVemapala and Wibisono (2019)によって始められ、ログソボレフの不等式で結果を確立した。 Chewi et al. (2022) は結果を Poincar\'e の不等式を扱うように拡張した。 本稿では,poincar\'eの不等式を超えて,この研究プログラムを限界まで押し上げる。 我々は、多項式分解重尾密度(すなわちコーシー型)を含む大きな密度のクラスで満たされる弱いポアンカーの不等式の下でランゲヴィン拡散と LMC の上下境界を確立する。 本結果は,初期化器がLCCアルゴリズムの性能に与える影響を明示的に定量化する。 特に、尾が準ガウスから亜指数へ、そして最後にコーシー様へと進むと、初期誤差への依存は対数的から多項式へ、そして最後に指数的であることを示す。 この3段階の位相遷移は、以下に示すように特に避けられないものであり、LCCの境界を明確に定義している。

Langevin diffusions are rapidly convergent under appropriate functional inequality assumptions. Hence, it is natural to expect that with additional smoothness conditions to handle the discretization errors, their discretizations like the Langevin Monte Carlo (LMC) converge in a similar fashion. This research program was initiated by Vemapala and Wibisono (2019), who established results under log-Sobolev inequalities. Chewi et al. (2022) extended the results to handle the case of Poincar\'e inequalities. In this paper, we go beyond Poincar\'e inequalities, and push this research program to its limit. We do so by establishing upper and lower bounds for Langevin diffusions and LMC under weak Poincar\'e inequalities that are satisfied by a large class of densities including polynomially-decaying heavy-tailed densities (i.e., Cauchy-type). Our results explicitly quantify the effect of the initializer on the performance of the LMC algorithm. In particular, we show that as the tail goes from sub-Gaussian, to sub-exponential, and finally to Cauchy-like, the dependency on the initial error goes from being logarithmic, to polynomial, and then finally to being exponential. This three-step phase transition is in particular unavoidable as demonstrated by our lower bounds, clearly defining the boundaries of LMC.
翻訳日:2023-03-08 16:55:19 公開日:2023-03-07
# 教師付き機械学習のための変分量子状態判別器

Variational quantum state discriminator for supervised machine learning ( http://arxiv.org/abs/2303.03588v1 )

ライセンス: Link先を確認
Dongkeun Lee, Kyunghyun Baek, Joonsuk Huh, and Daniel K. Park(参考訳) 量子状態判別(QSD)は、多くの応用で量子情報処理の基本課題である。 本稿では、変分量子状態判別器(VQSD)と呼ばれる最小誤差QSDを実行する変分量子アルゴリズムを提案する。 VQSDはQSDから導かれるコスト関数を最小化することで訓練されたパラメータ化量子回路を使用し、ターゲット量子状態の識別に最適な正の演算値測度(POVM)を求める。 VQSDは未知の状態でも識別でき、高価な量子状態トモグラフィーを必要としない。 我々の数値シミュレーションと半定値プログラミングとの比較は、純粋および混合状態の最小誤差QSDに対する最適なPOVMを見つける上で、VQSDの有効性を示す。 さらに、vqsdはマルチクラス分類のための教師付き機械学習アルゴリズムとして利用できる。 Irisフラワーデータセットを用いた数値シミュレーションで得られた受信機動作特性曲線の面積は、平均0.985で0.97から1の範囲であり、VQSD分類器の優れた性能を示す。

Quantum state discrimination (QSD) is a fundamental task in quantum information processing with numerous applications. We present a variational quantum algorithm that performs the minimum-error QSD, called the variational quantum state discriminator (VQSD). The VQSD uses a parameterized quantum circuit that is trained by minimizing a cost function derived from the QSD, and finds the optimal positive-operator valued measure (POVM) for distinguishing target quantum states. The VQSD is capable of discriminating even unknown states, eliminating the need for expensive quantum state tomography. Our numerical simulations and comparisons with semidefinite programming demonstrate the effectiveness of the VQSD in finding optimal POVMs for minimum-error QSD of both pure and mixed states. In addition, the VQSD can be utilized as a supervised machine learning algorithm for multi-class classification. The area under the receiver operating characteristic curve obtained in numerical simulations with the Iris flower dataset ranges from 0.97 to 1 with an average of 0.985, demonstrating excellent performance of the VQSD classifier.
翻訳日:2023-03-08 16:54:51 公開日:2023-03-07
# インフラストラクチャ認識のための校正不要なBEV表現

Calibration-free BEV Representation for Infrastructure Perception ( http://arxiv.org/abs/2303.03583v1 )

ライセンス: Link先を確認
Siqi Fan, Zhe Wang, Xiaoliang Huo, Yan Wang, Jingjing Liu(参考訳) インフラ上での効果的なBEVオブジェクト検出は、交通状況の理解とV2I協調認識を大幅に改善することができる。 しかし、インフラに設置されたカメラには様々な姿勢があり、以前のBEV検出方法は正確なキャリブレーションに依存しており、必然的な自然要因(風や雪など)のために実用化が難しい。 本稿では,キャリブレーションパラメータを使わずに,BEV表現に基づく3次元検出を実現するキャリブレーションフリーなBEV表現(CBR)ネットワークを提案する。 具体的には,多層パーセプトロンを2つ使用して,ボックスによる前景監督下での視点から正面視,鳥眼視へ特徴を分離する。 そして、断面特徴融合モジュールは、類似性に応じて直交ビューの特徴と一致し、フロントビュー特徴とBEV特徴強調を行う。 DAIR-V2Xの実験結果から,CBRはカメラパラメータを使わずに許容性能を達成でき,キャリブレーションノイズの影響を受けないことが明らかとなった。 インフラ認識の実践的課題に対処する将来の研究のベースラインとして、CBRが役立てられることを願っている。

Effective BEV object detection on infrastructure can greatly improve traffic scenes understanding and vehicle-toinfrastructure (V2I) cooperative perception. However, cameras installed on infrastructure have various postures, and previous BEV detection methods rely on accurate calibration, which is difficult for practical applications due to inevitable natural factors (e.g., wind and snow). In this paper, we propose a Calibration-free BEV Representation (CBR) network, which achieves 3D detection based on BEV representation without calibration parameters and additional depth supervision. Specifically, we utilize two multi-layer perceptrons for decoupling the features from perspective view to front view and birdeye view under boxes-induced foreground supervision. Then, a cross-view feature fusion module matches features from orthogonal views according to similarity and conducts BEV feature enhancement with front view features. Experimental results on DAIR-V2X demonstrate that CBR achieves acceptable performance without any camera parameters and is naturally not affected by calibration noises. We hope CBR can serve as a baseline for future research addressing practical challenges of infrastructure perception.
翻訳日:2023-03-08 16:54:32 公開日:2023-03-07
# 知識グラフ推論のためのニューラルコンポジションルール学習

Neural Compositional Rule Learning for Knowledge Graph Reasoning ( http://arxiv.org/abs/2303.03581v1 )

ライセンス: Link先を確認
Kewei Cheng, Nesreen K. Ahmed, Yizhou Sun(参考訳) 論理規則の学習は、KGの推論を改善するために重要である。 これは、予測に使用するときに論理的かつ解釈可能な説明を提供する能力と、他のタスク、ドメイン、データに一般化する能力があるためである。 近年,論理規則の学習方法が提案されているが,これらの手法の大部分は計算複雑性によって制限されており,大規模なKGの探索空間を扱えないか,トレーニングセット外のデータに露出した場合の一般化が不十分である。 本論文では,NCRLと呼ばれる構成論理規則を学習するためのエンドツーエンドニューラルネットワークを提案する。 NCRLは規則体の最高の構成構造を検出し、規則ヘッドを推測するためにそれを小さな組成に分解する。 NCRLは、ルール本体内の組成を繰り返し注意ユニットとマージすることにより、最終的に単一のルールヘッドを予測する。 実験の結果,ncrlは汎用性とともに高品質なルールを学習できることが判明した。 具体的には,ncrlはスケーラブルで効率的であり,大規模kgsの知識グラフ補完に最先端の結果が得られることを示す。 さらに,小規模観測グラフの推論を学習し,より大きな未知グラフについて評価することで,系統的一般化のためのncrlをテストした。

Learning logical rules is critical to improving reasoning in KGs. This is due to their ability to provide logical and interpretable explanations when used for predictions, as well as their ability to generalize to other tasks, domains, and data. While recent methods have been proposed to learn logical rules, the majority of these methods are either restricted by their computational complexity and can not handle the large search space of large-scale KGs, or show poor generalization when exposed to data outside the training set. In this paper, we propose an end-to-end neural model for learning compositional logical rules called NCRL. NCRL detects the best compositional structure of a rule body, and breaks it into small compositions in order to infer the rule head. By recurrently merging compositions in the rule body with a recurrent attention unit, NCRL finally predicts a single rule head. Experimental results show that NCRL learns high-quality rules, as well as being generalizable. Specifically, we show that NCRL is scalable, efficient, and yields state-of-the-art results for knowledge graph completion on large-scale KGs. Moreover, we test NCRL for systematic generalization by learning to reason on small-scale observed graphs and evaluating on larger unseen ones.
翻訳日:2023-03-08 16:54:12 公開日:2023-03-07
# 精密医療におけるクラウドソーシング

Crowdsourcing in Precision Healthcare: Short Review ( http://arxiv.org/abs/2303.03578v1 )

ライセンス: Link先を確認
Peter Washington(参考訳) ディープラーニングの時代は、さまざまな医療状況にハイパフォーマンスな診断モデルをもたらしました。 ディープニューラルネットワークは、原則として任意の関数を近似することができる。 しかし、このパワーは、入力データが不均一で高次元で高非線形な出力クラスと結合された場合、過剰フィッティングの傾向が拡大されるため、ギフトと呪いの両方と見なすことができる。 この問題は、特に主観的基準で診断される行動や精神状態を予測する診断システムに悩まされる可能性がある。 この問題に対する新たな解決策はクラウドソーシング(クラウドソーシング)であり、クラウドワーカーは金銭的補償やゲーミフィケーション体験の見返りに複雑な行動特徴に注釈を付けるために支払われる。 これらのラベルは、診断機械学習モデルへの入力としてラベルを直接または使用することで、診断の導出に使用できる。 ここでは,この分野における既存業務について述べる。 次に,クラウド駆動診断システムにおける現在進行中の課題と機会について論じる。 正しい考察により、複雑な健康状態の予測のために機械学習ワークフローにクラウドソーシングを追加することで、スクリーニング、診断、最終的にケアへのアクセスを迅速に加速することができる。

The age of deep learning has brought high-performing diagnostic models for a variety of healthcare conditions. Deep neural networks can, in principle, approximate any function. However, this power can be considered both a gift and a curse, as the propensity towards overfitting is magnified when the input data are heterogeneous and high dimensional coupled with an output class which is highly nonlinear. This issue can especially plague diagnostic systems which predict behavioral and psychiatric conditions that are diagnosed with subjective criteria. An emerging solution to this issue is crowdsourcing, where crowd workers are paid to annotate complex behavioral features in return for monetary compensation or a gamified experience. These labels can then be used to derive a diagnosis, either directly or by using the labels as inputs to a diagnostic machine learning model. Here, I describe existing work in this field. I then discuss ongoing challenges and opportunities with crowd-powered diagnostic systems. With the correct considerations, the addition of crowdsourcing into machine learning workflows for prediction of complex and nuanced health conditions can rapidly accelerate screening, diagnostics, and ultimately access to care.
翻訳日:2023-03-08 16:53:52 公開日:2023-03-07
# 自閉症の神経心理学的表現型に関するデータサイエンスと機械学習のレビューとロードマップ

A Review of and Roadmap for Data Science and Machine Learning for the Neuropsychiatric Phenotype of Autism ( http://arxiv.org/abs/2303.03577v1 )

ライセンス: Link先を確認
Peter Washington, Dennis P. Wall(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder)は、44人の子供の少なくとも1人に影響を及ぼす神経発達遅延である。 多くの神経疾患の表現型と同様に、診断的特徴は観察可能であり、経時的に追跡でき、適切な治療や治療によって管理または排除される。 しかし、自閉症と関連する遅延のための診断、治療、および経時的トラッキングパイプラインには大きなボトルネックがあり、新しいデータサイエンスソリューションが既存のワークフローを拡張および変換し、より影響を受ける家族へのサービスへのアクセスを提供する機会を生み出している。 多くの研究所が実施したいくつかの取り組みは、自閉症児のデジタル診断とデジタル治療の改善に向けた大きな進歩を生み出した。 データサイエンスを用いた自閉症行動定量化のためのデジタルヘルス手法の文献をレビューする。 本稿では,デジタル表現型化のためのケースコントロール研究と分類システムについて述べる。 次に、自閉症に関連する行動の機械学習モデルを統合するデジタル診断と治療について論じる。 最後に、自閉症データ科学分野における課題と強力な機会について述べる。 自閉症の異質な性質と関連する行動の複雑さを考えると、このレビューには神経学的行動分析やデジタル精神医学に関連する洞察が含まれている。

Autism Spectrum Disorder (autism) is a neurodevelopmental delay which affects at least 1 in 44 children. Like many neurological disorder phenotypes, the diagnostic features are observable, can be tracked over time, and can be managed or even eliminated through proper therapy and treatments. Yet, there are major bottlenecks in the diagnostic, therapeutic, and longitudinal tracking pipelines for autism and related delays, creating an opportunity for novel data science solutions to augment and transform existing workflows and provide access to services for more affected families. Several prior efforts conducted by a multitude of research labs have spawned great progress towards improved digital diagnostics and digital therapies for children with autism. We review the literature of digital health methods for autism behavior quantification using data science. We describe both case-control studies and classification systems for digital phenotyping. We then discuss digital diagnostics and therapeutics which integrate machine learning models of autism-related behaviors, including the factors which must be addressed for translational use. Finally, we describe ongoing challenges and potent opportunities for the field of autism data science. Given the heterogeneous nature of autism and the complexities of the relevant behaviors, this review contains insights which are relevant to neurological behavior analysis and digital psychiatry more broadly.
翻訳日:2023-03-08 16:53:32 公開日:2023-03-07
# ラッソ問題を解く数値アルゴリズムの検討

A Survey of Numerical Algorithms that can Solve the Lasso Problems ( http://arxiv.org/abs/2303.03576v1 )

ライセンス: Link先を確認
Yujie Zhao, Xiaoming Huo(参考訳) 統計学において、最小絶対収縮・選択演算子 (Lasso) は、変数選択と正規化の両方を実行する回帰法である。 ラッソ法によって推定される回帰係数の統計的性質について論じる文献は数多く存在する。 しかし、ラッソの最適化問題を解決するアルゴリズムを論じる包括的なレビューは存在しない。 本稿では,lassoの目的関数を最適化するための5つの代表的なアルゴリズムを概説する。その中には,反復収縮閾値アルゴリズム(ista),高速反復収縮緩和アルゴリズム(fista),座標勾配降下アルゴリズム(cgda),スムースl1アルゴリズム(sla),パス追従アルゴリズム(pfa)などがある。 さらに,それらの収束率と潜在的な強みと弱みを比較した。

In statistics, the least absolute shrinkage and selection operator (Lasso) is a regression method that performs both variable selection and regularization. There is a lot of literature available, discussing the statistical properties of the regression coefficients estimated by the Lasso method. However, there lacks a comprehensive review discussing the algorithms to solve the optimization problem in Lasso. In this review, we summarize five representative algorithms to optimize the objective function in Lasso, including the iterative shrinkage threshold algorithm (ISTA), fast iterative shrinkage-thresholding algorithms (FISTA), coordinate gradient descent algorithm (CGDA), smooth L1 algorithm (SLA), and path following algorithm (PFA). Additionally, we also compare their convergence rate, as well as their potential strengths and weakness.
翻訳日:2023-03-08 16:53:12 公開日:2023-03-07
# ビジネスプロセスをいつ扱うか:因果推論と強化学習による規範的プロセスモニタリング

Learning When to Treat Business Processes: Prescriptive Process Monitoring with Causal Inference and Reinforcement Learning ( http://arxiv.org/abs/2303.03572v1 )

ライセンス: Link先を確認
Zahra Dasht Bozorgi, Marlon Dumas, Marcello La Rosa, Artem Polyvyanyy, Mahmoud Shoush, Irene Teinemaa(参考訳) プロセスの成功率(すなわち、ポジティブな結果に終わるケースの割合)の増加は、繰り返し発生するプロセス改善の目標である。 実行時に、労働者がケースが肯定的な結果に終わる確率を上げるために実行する特定のアクション(すなわち治療)がしばしばある。 例えば、ローン発生プロセスでは、顧客がローンを取る確率を高めるために複数のローンオファーを発行する、という処理が考えられる。 それぞれの治療には費用がかかる。 したがって、治療をケースに規定するポリシーを定義する際には、管理者は治療の純利益を考慮する必要がある。 また、治療の効果は時間によって異なり、より早い症例の処置は後の症例よりも効果的である可能性がある。 本稿では,この意思決定作業を自動化する規範的モニタリング手法を提案する。 この方法は因果推論と強化学習を組み合わせることで、純利益を最大化する治療方針を学ぶ。 この手法は共形予測手法を利用して、不確定な事例から正または負の結果になる可能性のある事例を分離することで強化学習機構の収束を高速化する。 2つの実生活データセットの評価は,提案手法が最先端のベースラインより優れていることを示す。

Increasing the success rate of a process, i.e. the percentage of cases that end in a positive outcome, is a recurrent process improvement goal. At runtime, there are often certain actions (a.k.a. treatments) that workers may execute to lift the probability that a case ends in a positive outcome. For example, in a loan origination process, a possible treatment is to issue multiple loan offers to increase the probability that the customer takes a loan. Each treatment has a cost. Thus, when defining policies for prescribing treatments to cases, managers need to consider the net gain of the treatments. Also, the effect of a treatment varies over time: treating a case earlier may be more effective than later in a case. This paper presents a prescriptive monitoring method that automates this decision-making task. The method combines causal inference and reinforcement learning to learn treatment policies that maximize the net gain. The method leverages a conformal prediction technique to speed up the convergence of the reinforcement learning mechanism by separating cases that are likely to end up in a positive or negative outcome, from uncertain cases. An evaluation on two real-life datasets shows that the proposed method outperforms a state-of-the-art baseline.
翻訳日:2023-03-08 16:52:57 公開日:2023-03-07
# 位置重み行列マッチングのための量子アルゴリズム

Quantum algorithm for position weight matrix matching ( http://arxiv.org/abs/2303.03569v1 )

ライセンス: Link先を確認
Koichi Miyamoto, Naoki Yamamoto, Yasubumi Sakakibara(参考訳) バイオインフォマティクスにおける問題に対する2つの量子アルゴリズム、位置重み行列(PWM)マッチングを提案する。これは、PWMによって定義される高いスコアを持つDNAやタンパク質などの生物学的配列のセグメント(シーケンスモチーフ)を見つけることを目的としており、したがって生物学的機能に関連する情報的重要性を持つ。 提案した2つのアルゴリズムは,生物配列とPWMのエントリへの分子的アクセスを考慮し,提案手法であるナイーブ反復法とモンテカルロ法を用いて,一致したセグメントを出力する。 前者はシーケンスモチーフ探索に量子振幅増幅(QAA)を使用し、結果としてシーケンス長$n$、シークエンスモチーフ長$m$、PWMs$K$ as $\widetilde{O}\left(m\sqrt{Kn}\right)$のクエリ複雑性がスケーリングされる。 後者は QAA も使用しており、さらに量子モンテカルロ積分をセグメントスコア計算に利用し、単純反復法で算術演算のために反復的に量子回路を演算する代わりに、ある状況において$m$ に関する追加のスピードアップを提供する。 欠点として、これらのアルゴリズムは量子ランダムアクセスメモリを使用し、初期化には$O(n)$時間を要する。 にもかかわらず、我々のアルゴリズムは、多くのpwmを並列に並べて検索する場合、特に有利である。

We propose two quantum algorithms for a problem in bioinformatics, position weight matrix (PWM) matching, which aims to find segments (sequence motifs) in a biological sequence such as DNA and protein that have high scores defined by the PWM and are thus of informational importance related to biological function. The two proposed algorithms, the naive iteration method and the Monte-Carlo-based method, output matched segments, given the oracular accesses to the entries in the biological sequence and the PWM. The former uses quantum amplitude amplification (QAA) for sequence motif search, resulting in the query complexity scaling on the sequence length $n$, the sequence motif length $m$ and the number of the PWMs $K$ as $\widetilde{O}\left(m\sqrt{Kn}\right)$, which means speedup over existing classical algorithms with respect to $n$ and $K$. The latter also uses QAA, and further, quantum Monte Carlo integration for segment score calculation, instead of iteratively operating quantum circuits for arithmetic in the naive iteration method; then it provides the additional speedup with respect to $m$ in some situation. As a drawback, these algorithms use quantum random access memories and their initialization takes $O(n)$ time. Nevertheless, our algorithms keep the advantage especially when we search matches in a sequence for many PWMs in parallel.
翻訳日:2023-03-08 16:52:39 公開日:2023-03-07
# 自動参照ベース要約評価の解釈と効率化に向けて

Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation ( http://arxiv.org/abs/2303.03608v1 )

ライセンス: Link先を確認
Yixin Liu, Alexander R. Fabbri, Yilun Zhao, Pengfei Liu, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir Radev(参考訳) 解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。 本研究では,まず1つのテキストシーケンスから基本情報単位を抽出し,抽出した単位を別のシーケンスで確認する2段階評価パイプラインに基づいて,参照ベース要約評価のための高性能自動メトリクスを開発する。 私たちが開発したメトリクスには、きめ細かい単位レベルとサマリーレベルの両方で高い解釈性を提供する2段階のメトリクスと、効率と相互運用性のバランスを達成する1段階のメトリクスが含まれています。 開発したツールはpythonパッケージとgithubを通じて公開しています。

Interpretability and efficiency are two important considerations for the adoption of neural automatic metrics. In this work, we develop strong-performing automatic metrics for reference-based summarization evaluation, based on a two-stage evaluation pipeline that first extracts basic information units from one text sequence and then checks the extracted units in another sequence. The metrics we developed include two-stage metrics that can provide high interpretability at both the fine-grained unit level and summary level, and one-stage metrics that achieve a balance between efficiency and interoperability. We make the developed tools publicly available through a Python package and GitHub.
翻訳日:2023-03-08 16:46:12 公開日:2023-03-07
# データゲーム:swarmロボットデータ収集へのゲーム理論的アプローチ

Data Games: A Game-Theoretic Approach to Swarm Robotic Data Collection ( http://arxiv.org/abs/2303.03602v1 )

ライセンス: Link先を確認
Oguzhan Akcin, Po-han Li, Shubhankar Agarwal, Sandeep Chinchali(参考訳) ネットワーク化された自動運転車(AV)のフリートはテラバイト単位の知覚データを収集し、機械学習(ML)モデルをトレーニングするために中央サーバー('クラウド')に送信されることが多い。 理想的には、これらのフリートは、堅牢なMLモデルをトレーニングするために、特に稀な運用状況から、すべてのデータをアップロードする必要がある。 しかし、ネットワーク帯域幅の禁止とデータラベリングコストのため、これは実現不可能である。 代わりに,地理的分布型avが協調して多様なmlトレーニングデータセットをクラウドに収集する協調的データサンプリング戦略を提案する。 avsは共通の目的を持つが、互いのローカルなデータ分布と知覚モデルに関する情報は最小限であるので、自然にn$-player mathematical gameとして協調データ収集をキャストすることができる。 当社の協力的サンプリング戦略は,すべてのavに関する完全な情報を備えた集中型oracleポリシに収束するために,最小限の情報を使用します。 さらに,ゲーム理論的な戦略の性能上の利点を,欲望的なサンプリングと比較して理論的に特徴づける。 最後に, 気象条件下での自律運転を含む4つの知覚データセットに対して, 標準ベンチマークを最大21.9 %以上上回る性能を示した。 重要なことは、実世界のデータセットに関する実験結果は、我々の理論的保証と密接に一致している。

Fleets of networked autonomous vehicles (AVs) collect terabytes of sensory data, which is often transmitted to central servers (the ''cloud'') for training machine learning (ML) models. Ideally, these fleets should upload all their data, especially from rare operating contexts, in order to train robust ML models. However, this is infeasible due to prohibitive network bandwidth and data labeling costs. Instead, we propose a cooperative data sampling strategy where geo-distributed AVs collaborate to collect a diverse ML training dataset in the cloud. Since the AVs have a shared objective but minimal information about each other's local data distribution and perception model, we can naturally cast cooperative data collection as an $N$-player mathematical game. We show that our cooperative sampling strategy uses minimal information to converge to a centralized oracle policy with complete information about all AVs. Moreover, we theoretically characterize the performance benefits of our game-theoretic strategy compared to greedy sampling. Finally, we experimentally demonstrate that our method outperforms standard benchmarks by up to $21.9\%$ on 4 perception datasets, including for autonomous driving in adverse weather conditions. Crucially, our experimental results on real-world datasets closely align with our theoretical guarantees.
翻訳日:2023-03-08 16:46:01 公開日:2023-03-07
# 非線形系におけるリーヤン零点と量子フィッシャー情報行列

Lee-Yang zeros and quantum Fisher information matrix in a nonlinear system ( http://arxiv.org/abs/2303.03601v1 )

ライセンス: Link先を確認
Hong Tao and Yuguo Su and Xingyu Zhang and Jing Liu and Xiaoguang Wang(参考訳) リー・ヤンゼロの分布は熱力学や量子力学だけでなく、数学においても重要である。 ここでは非線形量子玩具モデルを提案し、対応する李陽零点の分布について議論する。 プローブ量子ビットと非線形システムの結合を利用して、非線形系の結合強度と線形係数をチューニングすることにより、プローブ量子ビットのダイナミクスにおいて全てのリーヤン零点を検出することができる。 また,Lee-Yangゼロ点における量子フィッシャー情報行列の解析式を提供し,興味深い現象が発見された。 結合強度と温度は、Lee-Yangゼロでの精度限界を同時に達成することができる。 しかし、プローブキュービットは、単位円上に座るとリー=ヤン零点の温度計として機能することができない。

The distribution of Lee-Yang zeros not only matters in thermodynamics and quantum mechanics, but also in mathematics. Hereby we propose a nonlinear quantum toy model and discuss the distribution of corresponding Lee-Yang zeros. Utilizing the coupling between a probe qubit and the nonlinear system, all Lee-Yang zeros can be detected in the dynamics of the probe qubit by tuning the coupling strength and linear coefficient of the nonlinear system. Moreover, the analytical expression of the quantum Fisher information matrix at the Lee-Yang zeros is provided, and an interesting phenomenon is discovered. Both the coupling strength and temperature can simultaneously attain their precision limits at the Lee-Yang zeros. However, the probe qubit cannot work as a thermometer at a Lee-Yang zero if it sits on the unit circle.
翻訳日:2023-03-08 16:45:41 公開日:2023-03-07
# テキストと音声事前学習モデル間の適応的知識蒸留

Adaptive Knowledge Distillation between Text and Speech Pre-trained Models ( http://arxiv.org/abs/2303.03600v1 )

ライセンス: Link先を確認
Jinjie Ni, Yukun Ma, Wen Wang, Qian Chen, Dianwen Ng, Han Lei, Trung Hieu Nguyen, Chong Zhang, Bin Ma, Erik Cambria(参考訳) 大量の音声コーパスの学習は、近年多くの自己教師型音声モデルの成功につながっている。 知識蒸留により、これらのモデルは、豊富なテキストソースで事前訓練された言語モデルによって符号化された知識の恩恵を受けることができる。 しかし, 蒸留過程は, 音声埋め込み空間と音声埋め込み空間の様相の相違により困難である。 本稿では, モデル構造を変更することなく, テキストと音声の埋め込み空間を少量のデータで整列させるため, メートル法に基づく蒸留について検討する。 テキストと音声間の意味的・粒度のギャップは, 蒸留の障害となる文献では省略されているため, 可変粒度のテキスト/音声単位と先行分布を適応的に活用し, テキストと音声の事前学習モデル間のグローバルおよび局所的なアライメントを向上する事前情報適応的知識蒸留(PAD)を提案する。 我々は,3つの言語理解ベンチマークを用いて,PADが他のメートル法に基づく蒸留法よりも言語知識の伝達に有効であることを示す。

Learning on a massive amount of speech corpus leads to the recent success of many self-supervised speech models. With knowledge distillation, these models may also benefit from the knowledge encoded by language models that are pre-trained on rich sources of texts. The distillation process, however, is challenging due to the modal disparity between textual and speech embedding spaces. This paper studies metric-based distillation to align the embedding space of text and speech with only a small amount of data without modifying the model structure. Since the semantic and granularity gap between text and speech has been omitted in literature, which impairs the distillation, we propose the Prior-informed Adaptive knowledge Distillation (PAD) that adaptively leverages text/speech units of variable granularity and prior distributions to achieve better global and local alignments between text and speech pre-trained models. We evaluate on three spoken language understanding benchmarks to show that PAD is more effective in transferring linguistic knowledge than other metric-based distillation approaches.
翻訳日:2023-03-08 16:45:30 公開日:2023-03-07
# FSVVD:全シーンのボリュームビデオのデータセット

FSVVD: A Dataset of Full Scene Volumetric Video ( http://arxiv.org/abs/2303.03599v1 )

ライセンス: Link先を確認
Kaiyuan Hu, Yili Jin, Haowen Yang, Junhua Liu, Fangxin Wang(参考訳) 近年は、現実世界と仮想空間のギャップを埋める没入型マルチメディアの急速な発展を目撃している。 ボリュームビデオは、拡張現実を力づける新たな代表的3dビデオパラダイムとして、前例のない没入型でインタラクティブなビデオ視聴体験を提供するために際立っている。 膨大な可能性にもかかわらず、3Dボリュームビデオに対する研究はまだ初期段階にあり、さらなる探索のために十分な完全なデータセットに依存している。 しかし、既存の関連するボリュームビデオデータセットには、主に1つのオブジェクトしか含まれておらず、シーンの詳細とそれら間の相互作用が欠けている。 本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、複数の人とその日常活動が外部環境と相互作用するフルシーンのボリュームビデオデータセットを初めてリリースする。 包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。 データセットと追加ツールは、以下のWebサイトからアクセスすることができる。

Recent years have witnessed a rapid development of immersive multimedia which bridges the gap between the real world and virtual space. Volumetric videos, as an emerging representative 3D video paradigm that empowers extended reality, stand out to provide unprecedented immersive and interactive video watching experience. Despite the tremendous potential, the research towards 3D volumetric video is still in its infancy, relying on sufficient and complete datasets for further exploration. However, existing related volumetric video datasets mostly only include a single object, lacking details about the scene and the interaction between them. In this paper, we focus on the current most widely used data format, point cloud, and for the first time release a full-scene volumetric video dataset that includes multiple people and their daily activities interacting with the external environments. Comprehensive dataset description and analysis are conducted, with potential usage of this dataset. The dataset and additional tools can be accessed via the following website: https://cuhksz-inml.github.io/full_scene_volumetric_video_dataset/.
翻訳日:2023-03-08 16:45:11 公開日:2023-03-07
# ディスクリミネータ・ジェネレータ通信によるガイド画像から画像への変換

Guided Image-to-Image Translation by Discriminator-Generator Communication ( http://arxiv.org/abs/2303.03598v1 )

ライセンス: Link先を確認
Yuanjiang Cao, Lina Yao, Le Pan, Quan Z. Sheng, and Xiaojun Chang(参考訳) 画像から画像への変換(i2i)の目的は、最近注目を集めているソースドメインからターゲットドメインに画像を転送することである。 本研究の主な分野は,GAN(Generative Adversarial Network)に基づくI2I翻訳の定式化である。 ゼロサムゲームとして、ジェネレータは環境の完全な状態情報にアクセスできない部分保存マルコフ決定プロセス(POMDP)として再構成することができる。 この定式化は、GAN訓練における情報不足を示している。 この問題を軽減するため,識別器とジェネレータ間の通信チャネルの追加を提案する。 通信機構をi2i翻訳フレームワークに統合する複数のアーキテクチャ設計について検討する。 提案手法の性能を検証するため,様々なベンチマークデータセットについて広範な実験を行った。 実験の結果,提案手法の優位性が確認された。

The goal of Image-to-image (I2I) translation is to transfer an image from a source domain to a target domain, which has recently drawn increasing attention. One major branch of this research is to formulate I2I translation based on Generative Adversarial Network (GAN). As a zero-sum game, GAN can be reformulated as a Partially-observed Markov Decision Process (POMDP) for generators, where generators cannot access full state information of their environments. This formulation illustrates the information insufficiency in the GAN training. To mitigate this problem, we propose to add a communication channel between discriminators and generators. We explore multiple architecture designs to integrate the communication mechanism into the I2I translation framework. To validate the performance of the proposed approach, we have conducted extensive experiments on various benchmark datasets. The experimental results confirm the superiority of our proposed method.
翻訳日:2023-03-08 16:44:56 公開日:2023-03-07
# LoGoNet: 局所-Global-Cross-Modal Fusionによる高精度3次元物体検出を目指して

LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion ( http://arxiv.org/abs/2303.03595v1 )

ライセンス: Link先を確認
Xin Li, Tao Ma, Yuenan Hou, Botian Shi, Yucheng Yang, Youquan Liu, Xingjiao Wu, Qin Chen, Yikang Li, Yu Qiao, Liang He(参考訳) LiDAR-カメラ融合法は3次元物体検出において顕著な性能を示した。 最近の高度なマルチモーダル手法は、画像機能とポイントクラウド機能をシーン全体に融合するグローバル融合を主に行う。 このような実践は、きめ細かい領域レベルの情報を欠き、最適の核融合性能をもたらす。 本稿では,ローカルとグローバルの両方のレベルでlidarカメラ融合を行う,新しいlocal-to-global fusion network (logonet)を提案する。 具体的には、logienetのグローバル融合(gof)は、以前の文献に基づいて構築されていますが、我々は、ボクセルの特徴の位置をより正確に表現するためにポイントセントロイドのみを使用し、より優れたクロスモーダルアライメントを実現しています。 ローカルフュージョン(LoF)については、まず各提案を均一なグリッドに分割し、そのグリッドセンターを画像に投影する。 投影されたグリッドポイント周辺の画像特徴は、位置デコレーションされたポイントクラウド特徴と融合し、提案に関する豊富なコンテキスト情報を最大限活用するためにサンプリングされる。 機能動的アグリゲーション(FDA)モジュールは、これらの局所的およびグローバルに融合した特徴間の情報相互作用を達成するために、さらに提案されている。 Waymo Open Dataset(WOD)とKITTIのデータセットに関する大規模な実験は、LoGoNetがすべての最先端の3D検出方法より優れていることを示している。 特に、LoGoNetはWaymo 3Dオブジェクト検出リーダーボードで1位となり、81.02 mAPH (L2)検出性能を得る。 注目に値するのは、3つのクラスの検出性能が80 APH (L2) を同時に上回ったことだ。 コードは \url{https://github.com/sankin97/LoGoNet} で入手できる。

LiDAR-camera fusion methods have shown impressive performance in 3D object detection. Recent advanced multi-modal methods mainly perform global fusion, where image features and point cloud features are fused across the whole scene. Such practice lacks fine-grained region-level information, yielding suboptimal fusion performance. In this paper, we present the novel Local-to-Global fusion network (LoGoNet), which performs LiDAR-camera fusion at both local and global levels. Concretely, the Global Fusion (GoF) of LoGoNet is built upon previous literature, while we exclusively use point centroids to more precisely represent the position of voxel features, thus achieving better cross-modal alignment. As to the Local Fusion (LoF), we first divide each proposal into uniform grids and then project these grid centers to the images. The image features around the projected grid points are sampled to be fused with position-decorated point cloud features, maximally utilizing the rich contextual information around the proposals. The Feature Dynamic Aggregation (FDA) module is further proposed to achieve information interaction between these locally and globally fused features, thus producing more informative multi-modal features. Extensive experiments on both Waymo Open Dataset (WOD) and KITTI datasets show that LoGoNet outperforms all state-of-the-art 3D detection methods. Notably, LoGoNet ranks 1st on Waymo 3D object detection leaderboard and obtains 81.02 mAPH (L2) detection performance. It is noteworthy that, for the first time, the detection performance on three classes surpasses 80 APH (L2) simultaneously. Code will be available at \url{https://github.com/sankin97/LoGoNet}.
翻訳日:2023-03-08 16:44:41 公開日:2023-03-07
# ADELT: ディープラーニングフレームワーク間のトランスパイレーション

ADELT: Transpilation Between Deep Learning Frameworks ( http://arxiv.org/abs/2303.03593v1 )

ライセンス: Link先を確認
Linyuan Gong, Jiayi Wang, Alvin Cheung(参考訳) 本稿では,ディープラーニングフレームワーク間のソース間トランスパイルのために,adlt(adversarial deep learning transpiler)を提案する。 従来のアプローチとは異なり、コードスケルトンとAPIキーワード(API関数名またはパラメータ名)のマッピングを分離します。 ADELTトランスパイルコードスケルトンは、大きな言語モデルでプロンプトを少数使用している。 コードのためのBERTによって抽出されたコンテキスト埋め込みに基づいて、ドメイン・アドバイザリ・セットアップに整列したAPI埋め込みを訓練し、キーワード翻訳用の辞書を生成する。 このモデルは、手作りのルールや並列データを用いることなく、WebクローデータからラベルなしのDLコーパスでトレーニングされます。 PyTorch-Keras や PyTorch-MXNet など複数のトランスパイラに対して,それぞれ15.9pts と12.0pts の精度で,最先端トランスパイラの性能を向上する。

We propose Adversarial DEep Learning Transpiler (ADELT) for source-to-source transpilation between deep learning frameworks. Unlike prior approaches, we decouple the transpilation of code skeletons and the mapping of API keywords (an API function name or a parameter name). ADELT transpile code skeletons using few-shot prompting on big language models. Based on contextual embeddings extracted by a BERT for code, we train aligned API embeddings in a domain-adversarial setup, upon which we generate a dictionary for keyword translation. The model is trained on our unlabeled DL corpus from web crawl data, without using any hand-crafted rules and parallel data. Our method outperforms state-of-the-art transpilers on multiple transpilation pairs including PyTorch-Keras and PyTorch-MXNet by 15.9pts and 12.0pts in exact match scores respectively.
翻訳日:2023-03-08 16:44:10 公開日:2023-03-07
# 無差別なデータ中毒攻撃の限界を探る

Exploring the Limits of Indiscriminate Data Poisoning Attacks ( http://arxiv.org/abs/2303.03592v1 )

ライセンス: Link先を確認
Yiwei Lu, Gautam Kamth, Yaoliang Yu(参考訳) 無差別なデータ中毒攻撃は、少量の破損したトレーニングデータを注入することで、モデルのテスト精度を低下させることを目的としている。 大きな関心にもかかわらず、既存の攻撃は現代の機械学習(ML)アーキテクチャに対して比較的効果が低い。 本稿では,モデル中毒性の概念を,データ中毒攻撃の本質的限界を探るための技術ツールとして紹介する。 我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能な閾値を導出する。 既存のパラメータ破壊攻撃と勾配キャンセル攻撃の精錬に基づいて,理論的な知見の確認,トランジッション閾値の予測可能性の検証,既存のデータ中毒ベースラインの広範なデータセットとモデルに対する大幅な改善を行う。 我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。

Indiscriminate data poisoning attacks aim to decrease a model's test accuracy by injecting a small amount of corrupted training data. Despite significant interest, existing attacks remain relatively ineffective against modern machine learning (ML) architectures. In this work, we introduce the notion of model poisonability as a technical tool to explore the intrinsic limits of data poisoning attacks. We derive an easily computable threshold to establish and quantify a surprising phase transition phenomenon among popular ML models: data poisoning attacks become effective only when the poisoning ratio exceeds our threshold. Building on existing parameter corruption attacks and refining the Gradient Canceling attack, we perform extensive experiments to confirm our theoretical findings, test the predictability of our transition threshold, and significantly improve existing data poisoning baselines over a range of datasets and models. Our work highlights the critical role played by the poisoning ratio, and sheds new insights on existing empirical results, attacks and mitigation strategies in data poisoning.
翻訳日:2023-03-08 16:43:56 公開日:2023-03-07
# バッチ埋め込み共分散正規化と定数q変換による一般化音声表現の学習

Approach to Learning Generalized Audio Representation Through Batch Embedding Covariance Regularization and Constant-Q Transforms ( http://arxiv.org/abs/2303.03591v1 )

ライセンス: Link先を確認
Ankit Shah, Shuyi Chen, Kejun Zhou, Yue Chen, Bhiksha Raj(参考訳) 汎用組込みは、オーディオタスクを含む多くのアプリケーションシナリオにおいて、ゼロショット学習であっても非常に望ましい。 表現をよりよく理解するために, 誤差解析と hear 2021 の提出結果の可視化を行った。 本研究は,CQT(Constant-Q Transform)やSTFT(Short-time Fourier Transform)など,さまざまなフロントエンドオーディオプリプロセッシング手法を用いた実験を行い,人間の聴覚システムから受信した周波数情報のより包括的シミュレーションを明らかにするために,Batch Embedding Covariance Regularization(BECR)という用語を提案する。 我々は、HEAR 2021タスクのスイートで、幅広いタスクのカテゴリを含むモデルをテストした。 予備結果は,(1)テストセットにbecrがより分散した組込みを発生させ,(2)becrが計算の複雑さを増すことなくパストモデルを改善し,(3)stft前処理がcqtより優れていることを示す。 Github:https://github.com/ankitshah009/ general_audio_embedding_hear_2021

General-purpose embedding is highly desirable for few-shot even zero-shot learning in many application scenarios, including audio tasks. In order to understand representations better, we conducted a thorough error analysis and visualization of HEAR 2021 submission results. Inspired by the analysis, this work experiments with different front-end audio preprocessing methods, including Constant-Q Transform (CQT) and Short-time Fourier transform (STFT), and proposes a Batch Embedding Covariance Regularization (BECR) term to uncover a more holistic simulation of the frequency information received by the human auditory system. We tested the models on the suite of HEAR 2021 tasks, which encompass a broad category of tasks. Preliminary results show (1) the proposed BECR can incur a more dispersed embedding on the test set, (2) BECR improves the PaSST model without extra computation complexity, and (3) STFT preprocessing outperforms CQT in all tasks we tested. Github:https://github.com/ankitshah009/general_audio_embedding_hear_2021
翻訳日:2023-03-08 16:43:40 公開日:2023-03-07
# 情報容量と独立性に基づくフィルタプルーニング

Filter Pruning based on Information Capacity and Independence ( http://arxiv.org/abs/2303.03645v1 )

ライセンス: Link先を確認
Xiaolong Tang, Tianheng Hu and Yufeng Shi(参考訳) フィルタプルーニングは畳み込みニューラルネットワーク(CNN)の圧縮と加速に広く用いられている。 しかし,既存の手法の多くは,計算コストの増大やフィルタ選択の偏りが問題となっている。 さらに, フィルタ評価のほとんどの設計は, 適切な理論的ガイダンスが欠如しているため, 解釈可能性に欠ける。 本稿では,フィルタを解釈可能,多パーフェクティブ,データフリーな方法で評価する新しいフィルタプルーニング手法を提案する。 我々は,フィルタに含まれる情報量を表す指標である情報容量を導入する。 情報エントロピーの解釈可能性と妥当性に基づき,情報量の定量的指標として利用することを提案する。 また,特徴マップのエントロピーと対応するフィルタとの間に明らかな相関関係があることを実験的に示し,フィルタの情報容量を測定するための解釈可能なデータ駆動スキームを提案する。 さらに、異なるフィルタ間の相関を表す別の指標である情報独立を導入する。 その結果、情報の容量が少なく、情報の独立性が低い最小限のフィルタが切断される。 VGG-16やResNetなど,複数の代表的CNNアーキテクチャを用いて2つのベンチマークで評価を行った。 CIFAR-10では、浮動小数点演算(FLOP)の71.9%とResNet-110の69.4%のパラメータを0.28%の精度で削減する。 ilsvrc-2012では、浮動小数点演算(flops)の76.6%、resnet-50のパラメータの68.6%を2.80%の精度で削減した。

Filter pruning has been widely used in the compression and acceleration of convolutional neural networks (CNNs). However, most existing methods are still challenged by heavy compute cost and biased filter selection. Moreover, most designs for filter evaluation miss interpretability due to the lack of appropriate theoretical guidance. In this paper, we propose a novel filter pruning method which evaluates filters in a interpretable, multi-persepective and data-free manner. We introduce information capacity, a metric that represents the amount of information contained in a filter. Based on the interpretability and validity of information entropy, we propose to use that as a quantitative index of information quantity. Besides, we experimently show that the obvious correlation between the entropy of the feature map and the corresponding filter, so as to propose an interpretable, data-driven scheme to measure the information capacity of the filter. Further, we introduce information independence, another metric that represents the correlation among differrent filters. Consequently, the least impotant filters, which have less information capacity and less information independence, will be pruned. We evaluate our method on two benchmarks using multiple representative CNN architectures, including VGG-16 and ResNet. On CIFAR-10, we reduce 71.9% of floating-point operations (FLOPs) and 69.4% of parameters for ResNet-110 with 0.28% accuracy increase. On ILSVRC-2012, we reduce 76.6% of floating-point operations (FLOPs) and 68.6% of parameters for ResNet-50 with only 2.80% accuracy decrease, which outperforms the state-of-the-arts.
翻訳日:2023-03-08 16:37:21 公開日:2023-03-07
# AHPA: Alibaba Cloud Container Service for Kubernetes上の適応水平ポッド自動スケーリングシステム

AHPA: Adaptive Horizontal Pod Autoscaling Systems on Alibaba Cloud Container Service for Kubernetes ( http://arxiv.org/abs/2303.03640v1 )

ライセンス: Link先を確認
Zhiqiang Zhou, Chaoli Zhang, Lingna Ma, Jing Gu, Huajie Qian, Qingsong Wen, Liang Sun, Peng Li, Zhimin Tang(参考訳) Kubernetesのアプリケーションインスタンスに対する既存のリソース割り当てポリシは、ビジネス要件に従って動的に調整することはできない。 さらに、新しいクラウドサービスの出現は、リソース管理の要求を高くする。 本稿では、アダプティブ水平ポッド自動スケーリングシステムであるAHPAという、新たにデプロイされたAIアルゴリズムフレームワークを用いて、Alibaba Cloud Container Servicesにおける水平PODリソース管理について論じる。 AHPAは、ロバストな分解予測アルゴリズムと性能訓練モデルに基づいて、PODリソースを削減し、ビジネス安定性を維持できる最適なポッド数調整計画を提供する。 2021年4月に配備されたこのシステムは、ロジスティクス、ソーシャルネットワーク、AIオーディオとビデオ、eコマースなど、複数の顧客シナリオに拡張されている。 従来のアルゴリズムと比較して、AHPAはエラスティックラグ問題を解決し、CPU使用量を10%増加させ、リソースコストを20%以上削減した。 さらに、AHPAは、手作業による介入を伴わずに、予測された業務量に応じて自動的に柔軟な計画を実行でき、運用とメンテナンスのコストを大幅に削減できる。

The existing resource allocation policy for application instances in Kubernetes cannot dynamically adjust according to the requirement of business, which would cause an enormous waste of resources during fluctuations. Moreover, the emergence of new cloud services puts higher resource management requirements. This paper discusses horizontal POD resources management in Alibaba Cloud Container Services with a newly deployed AI algorithm framework named AHPA -- the adaptive horizontal pod auto-scaling system. Based on a robust decomposition forecasting algorithm and performance training model, AHPA offers an optimal pod number adjustment plan that could reduce POD resources and maintain business stability. Since being deployed in April 2021, this system has expanded to multiple customer scenarios, including logistics, social networks, AI audio and video, e-commerce, etc. Compared with the previous algorithms, AHPA solves the elastic lag problem, increasing CPU usage by 10% and reducing resource cost by more than 20%. In addition, AHPA can automatically perform flexible planning according to the predicted business volume without manual intervention, significantly saving operation and maintenance costs.
翻訳日:2023-03-08 16:36:54 公開日:2023-03-07
# UX評価のための会話型AIアシスタントとのコラボレーション:質問と質問方法(Voice vs. Text)

Collaboration with Conversational AI Assistants for UX Evaluation: Questions and How to Ask them (Voice vs. Text) ( http://arxiv.org/abs/2303.03638v1 )

ライセンス: Link先を確認
Emily Kuang and Ehsan Jahangirzadeh Soure and Mingming Fan and Jian Zhao and Kristen Shinohara(参考訳) AIはUX評価者を支援してユーザビリティテストを分析することを約束しているが、その判断は一般的に非インタラクティブな視覚化として提示される。 evaluatorsはテスト録音について質問するかも知れませんが、質問する方法はありません。 対話型対話アシスタントは、分析効率と評価者の自律性を改善するQ&Aダイナミクスを提供する。 分析関連質問の全範囲を理解するため、テキストや音声を介してAIアシスタントと対話した20人の被験者を対象に、Wizard-of-Ozデザインプローブの調査を行った。 参加者は、ユーザアクション、ユーザメンタルモデル、AIアシスタントからのヘルプ、製品とタスク情報、ユーザ人口統計の5つのカテゴリについて質問した。 テキストアシスタントを使っている人はもっと質問するが、質問の長さは似ている。 テキストアシスタントの効率は著しく向上したが,満足度と信頼度は同等であった。 UX評価のための対話型AIアシスタントの設計も検討している。

AI is promising in assisting UX evaluators with analyzing usability tests, but its judgments are typically presented as non-interactive visualizations. Evaluators may have questions about test recordings, but have no way of asking them. Interactive conversational assistants provide a Q&A dynamic that may improve analysis efficiency and evaluator autonomy. To understand the full range of analysis-related questions, we conducted a Wizard-of-Oz design probe study with 20 participants who interacted with simulated AI assistants via text or voice. We found that participants asked for five categories of information: user actions, user mental model, help from the AI assistant, product and task information, and user demographics. Those who used the text assistant asked more questions, but the question lengths were similar. The text assistant was perceived as significantly more efficient, but both were rated equally in satisfaction and trust. We also provide design considerations for future conversational AI assistants for UX evaluation.
翻訳日:2023-03-08 16:36:35 公開日:2023-03-07
# PreFallKD: CNN-Vitナレッジ蒸留によるプレImpact Fall検出

PreFallKD: Pre-Impact Fall Detection via CNN-ViT Knowledge Distillation ( http://arxiv.org/abs/2303.03634v1 )

ライセンス: Link先を確認
Tin-Han Chi, Kai-Chun Liu, Chia-Yeh Hsieh, Yu-Tsao, Chia-Tai Chan(参考訳) 転倒事故は高齢社会において重大な問題である。 近年,多くの研究者が,重傷の予防を目的としたウェアラブル型転倒保護システムを支援するために,ディープラーニングを用いた衝突前転倒検知システムを開発した。 しかし、ほとんどの作業では、リソース制約のあるモバイルデバイスのユーザビリティと厳格なレイテンシ要件を考慮した複雑なモデルではなく、単純なニューラルネットワークモデルのみを採用した。 本研究では,cnn-vit知識蒸留による衝突前落下検出法,すなわちprefallkdを提案し,検出性能と計算複雑性のバランスをとる。 提案するprefallkdは,事前学習した教師モデル (vision transformer) から学生モデル (lightweight convolutional neural networks) へ検出知識を伝達する。 さらに,データ不均衡問題に対処するためにデータ拡張手法を適用した。 我々は、kfall publicデータセットで実験を行い、prefallkdを他の最先端モデルと比較する。 実験の結果、PreFallKDは試験期間中に学生モデルを強化し、信頼性の高いF1スコア(92.66%)とリードタイム(551.3ms)を達成した。

Fall accidents are critical issues in an aging and aged society. Recently, many researchers developed pre-impact fall detection systems using deep learning to support wearable-based fall protection systems for preventing severe injuries. However, most works only employed simple neural network models instead of complex models considering the usability in resource-constrained mobile devices and strict latency requirements. In this work, we propose a novel pre-impact fall detection via CNN-ViT knowledge distillation, namely PreFallKD, to strike a balance between detection performance and computational complexity. The proposed PreFallKD transfers the detection knowledge from the pre-trained teacher model (vision transformer) to the student model (lightweight convolutional neural networks). Additionally, we apply data augmentation techniques to tackle issues of data imbalance. We conduct the experiment on the KFall public dataset and compare PreFallKD with other state-of-the-art models. The experiment results show that PreFallKD could boost the student model during the testing phase and achieves reliable F1-score (92.66%) and lead time (551.3 ms).
翻訳日:2023-03-08 16:36:19 公開日:2023-03-07
# スケッチに基づく医用画像検索

Sketch-based Medical Image Retrieval ( http://arxiv.org/abs/2303.03633v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Lin Gu, Ryuichiro Hataya, Takaaki Mizuno, Mototaka Miyake, Hirokazu Watanabe, Masamichi Takahashi, Yasuyuki Takamizawa, Yukihiro Yoshida, Satoshi Nakamura, Nobuji Kouno, Amina Bolatkan, Yusuke Kurose, Tatsuya Harada, Ryuji Hamamoto(参考訳) 病院に保管されている医療画像の量は、これまで以上に急速に増えているが、蓄積された医療画像の利用は限られている。 これは、既存のコンテンツベースの医療画像検索(CBMIR)システムでは、通常、クエリベクトルを構築するためにサンプル画像を必要とするためである。 また、類似のサンプル画像を見つけるのが困難になる稀な特徴を持つ画像も存在し、これを孤立サンプルと呼ぶ。 本稿では,サンプル画像なしで興味ある画像を見つけることのできる,スケッチベースの新しい医用画像検索(SBMIR)システムを提案する。 重要なアイデアは医療画像の特徴分解であり、医療画像の全特徴を通常の特徴と異常な特徴から分解し再構成することができる。 このアイデアを拡張することで、SBMIRシステムは2段階のグラフィカルユーザインタフェースを提供する。ユーザはまず、通常の特徴を指定するためにテンプレートイメージを選択し、その後、異常な特徴を表すためにテンプレートイメージに病気のセマンティックスケッチを描く。 その後、2種類の入力を統合してクエリベクトルを構築し、最も近い参照ベクトルで参照画像を取得する。 2つのデータセットを用いて、様々な臨床背景を持つ10人の医療専門家が評価試験に参加した。 その結果, SBMIRシステムでは, きめ細かい画像の特徴に基づく画像検索, サンプル画像のない画像検索, 孤立サンプルの画像検索など, 過去の課題を克服することができた。 当社のSBMIRシステムは,要求に応じてフレキシブルな医用画像検索を実現し,医用画像データベースの有用性を拡大する。

The amount of medical images stored in hospitals is increasing faster than ever; however, utilizing the accumulated medical images has been limited. This is because existing content-based medical image retrieval (CBMIR) systems usually require example images to construct query vectors; nevertheless, example images cannot always be prepared. Besides, there can be images with rare characteristics that make it difficult to find similar example images, which we call isolated samples. Here, we introduce a novel sketch-based medical image retrieval (SBMIR) system that enables users to find images of interest without example images. The key idea lies in feature decomposition of medical images, whereby the entire feature of a medical image can be decomposed into and reconstructed from normal and abnormal features. By extending this idea, our SBMIR system provides an easy-to-use two-step graphical user interface: users first select a template image to specify a normal feature and then draw a semantic sketch of the disease on the template image to represent an abnormal feature. Subsequently, it integrates the two kinds of input to construct a query vector and retrieves reference images with the closest reference vectors. Using two datasets, ten healthcare professionals with various clinical backgrounds participated in the user test for evaluation. As a result, our SBMIR system enabled users to overcome previous challenges, including image retrieval based on fine-grained image characteristics, image retrieval without example images, and image retrieval for isolated samples. Our SBMIR system achieves flexible medical image retrieval on demand, thereby expanding the utility of medical image databases.
翻訳日:2023-03-08 16:35:59 公開日:2023-03-07
# 一人残らず:長期学習における最悪のカテゴリーの改善

No One Left Behind: Improving the Worst Categories in Long-Tailed Learning ( http://arxiv.org/abs/2303.03630v1 )

ライセンス: Link先を確認
Yingxiao Du, Jianxin Wu(参考訳) バランストレーニングデータセットを使用する場合とは異なり、不バランスデータセットでトレーニングされたニューラルネットワークのクラス毎のリコール(すなわち精度)は、カテゴリによって大きく異なることが知られている。 ロングテール認識の慣例は、すべてのカテゴリを手動で3つのサブセットに分割し、各サブセットの平均精度を報告することである。 このような評価設定の下では、いくつかのカテゴリは必然的に犠牲にされます。 一方、バランスの取れたテストセットの平均精度に注目すると、最悪のパフォーマンスカテゴリの精度がゼロであってもペナルティはほとんど生じない。 一方、"few" サブセットのクラスは、必ずしも "many" や "medium" サブセットのクラスよりもパフォーマンスが悪いわけではない。 したがって、すべてのカテゴリにおいて最も低いリコールと全てのリコール値の調和平均を改善することに注力することを推奨する。 具体的には,多様な手法に適用可能な簡易なプラグイン手法を提案する。 既存の事前学習モデルの分類器を本提案の損失関数で再訓練し,2つの分類器の予測を結合したオプショナルアンサンブルトリックを用いることで,カテゴリ間でのリコール値の均一な分布を実現し,高調波平均精度が向上する一方で,(有意な)平均精度も高い。 提案手法の有効性は,広く使用されているベンチマークデータセット上で正当化される。

Unlike the case when using a balanced training dataset, the per-class recall (i.e., accuracy) of neural networks trained with an imbalanced dataset are known to vary a lot from category to category. The convention in long-tailed recognition is to manually split all categories into three subsets and report the average accuracy within each subset. We argue that under such an evaluation setting, some categories are inevitably sacrificed. On one hand, focusing on the average accuracy on a balanced test set incurs little penalty even if some worst performing categories have zero accuracy. On the other hand, classes in the "Few" subset do not necessarily perform worse than those in the "Many" or "Medium" subsets. We therefore advocate to focus more on improving the lowest recall among all categories and the harmonic mean of all recall values. Specifically, we propose a simple plug-in method that is applicable to a wide range of methods. By simply re-training the classifier of an existing pre-trained model with our proposed loss function and using an optional ensemble trick that combines the predictions of the two classifiers, we achieve a more uniform distribution of recall values across categories, which leads to a higher harmonic mean accuracy while the (arithmetic) average accuracy is still high. The effectiveness of our method is justified on widely used benchmark datasets.
翻訳日:2023-03-08 16:35:32 公開日:2023-03-07
# CoTEVer: 説明検証のための思考プロンプトアノテーションツールキットのチェーン

CoTEVer: Chain of Thought Prompting Annotation Toolkit for Explanation Verification ( http://arxiv.org/abs/2303.03628v1 )

ライセンス: Link先を確認
Seungone Kim, Se June Joo, Yul Jang, Hyungjoo Chae, Jinyoung Yeo(参考訳) CoT(Chain-of-Thought)プロンプトにより、最終予測の前に説明を生成することで、大規模言語モデル(LLM)が複雑な推論タスクを解くことができる。 有望な能力にもかかわらず、CoTの重要な欠点は、生成された説明の事実に大きく影響されていることである。 説明の正確性を改善するためには,説明データを用いた微調整言語モデルが必要である。 しかし、そのようなアプローチに使用できるデータセットはごくわずかであり、それらを構築するためのデータ収集ツールはない。 そこで我々は,生成した説明の事実的正当性を注釈付けし,誤った説明の修正データを収集するツールキットであるCoTEVerを紹介する。 さらに,CoTEVerで収集したデータを,説明の忠実性を高めるために活用できるいくつかのユースケースを提案する。 私たちのツールキットはhttps://github.com/SeungoneKim/CoTEVerで公開されています。

Chain-of-thought (CoT) prompting enables large language models (LLMs) to solve complex reasoning tasks by generating an explanation before the final prediction. Despite it's promising ability, a critical downside of CoT prompting is that the performance is greatly affected by the factuality of the generated explanation. To improve the correctness of the explanations, fine-tuning language models with explanation data is needed. However, there exists only a few datasets that can be used for such approaches, and no data collection tool for building them. Thus, we introduce CoTEVer, a tool-kit for annotating the factual correctness of generated explanations and collecting revision data of wrong explanations. Furthermore, we suggest several use cases where the data collected with CoTEVer can be utilized for enhancing the faithfulness of explanations. Our toolkit is publicly available at https://github.com/SeungoneKim/CoTEVer.
翻訳日:2023-03-08 16:35:09 公開日:2023-03-07
# SGDA:Slice Grouped Domain Attentionによる3次元肺結節検出に向けて

SGDA: Towards 3D Universal Pulmonary Nodule Detection via Slice Grouped Domain Attention ( http://arxiv.org/abs/2303.03625v1 )

ライセンス: Link先を確認
Rui Xu, Zhi Liu, Yong Luo, Han Hu, Li Shen, Bo Du, Kaiming Kuang, Jiancheng Yang(参考訳) 肺がんは世界中でがんの死因となっている。 肺癌の最良の解決策は、早期に肺結節を診断することであり、通常は胸部ct(胸部ct)の補助により達成される。 深層学習が発展するにつれて、肺結節検出に畳み込みニューラルネットワーク(cnns)が導入された。 しかし、現在の肺結節検出法は通常ドメイン固有であり、様々な現実のシナリオで作業する必要性を満たすことはできない。 そこで本研究では,肺結節検出ネットワークの一般化能力を高めるためのスライスグループドメインアテンション(SGDA)モジュールを提案する。 このアテンションモジュールは軸方向、コロナ方向、および矢状方向で動作する。 各方向において、入力特徴をグループに分け、各グループに対してユニバーサルアダプタバンクを使用して、すべての肺結節データセットにまたがるドメインの機能サブスペースをキャプチャする。 そして、ドメインの観点からバンク出力を結合して入力グループを変調する。 広汎な実験により,SGDAは最先端のマルチドメイン学習法と比較して,肺結節検出性能が著しく向上することが示された。

Lung cancer is the leading cause of cancer death worldwide. The best solution for lung cancer is to diagnose the pulmonary nodules in the early stage, which is usually accomplished with the aid of thoracic computed tomography (CT). As deep learning thrives, convolutional neural networks (CNNs) have been introduced into pulmonary nodule detection to help doctors in this labor-intensive task and demonstrated to be very effective. However, the current pulmonary nodule detection methods are usually domain-specific, and cannot satisfy the requirement of working in diverse real-world scenarios. To address this issue, we propose a slice grouped domain attention (SGDA) module to enhance the generalization capability of the pulmonary nodule detection networks. This attention module works in the axial, coronal, and sagittal directions. In each direction, we divide the input feature into groups, and for each group, we utilize a universal adapter bank to capture the feature subspaces of the domains spanned by all pulmonary nodule datasets. Then the bank outputs are combined from the perspective of domain to modulate the input group. Extensive experiments demonstrate that SGDA enables substantially better multi-domain pulmonary nodule detection performance compared with the state-of-the-art multi-domain learning methods.
翻訳日:2023-03-08 16:34:53 公開日:2023-03-07
# choi状態のモーメントによる非マルコフダイナミクスの評価

Assessing non-Markovian dynamics through the moments of Choi state ( http://arxiv.org/abs/2303.03615v1 )

ライセンス: Link先を確認
Bivas Mallick, Saheli Mukherjee, Ananda G. Maity, and A. S. Majumdar(参考訳) 開量子系ダイナミクスにおける非マルコフ効果は、通常、環境からシステムへの情報のバックフローを示し、ダイナミクスの完全な正の分割可能性の破れを示す。 このような非マルコフ力学を目撃するための基準を提示し、チョイ行列のモーメントに基づく情報バックフローを示す。 行列の正の半定性によって決定されるモーメント基準は、非マルコフ力学を記述するチョイ状態には当てはまらない。 次に,提案する非マルコビアン性検出方式に賛同する明示的な例を示す。 最後に、単位力学に対する非マルコフ性に関するモーメントに基づく測度が定式化される。

Non-Markovian effects in an open quantum system dynamics usually manifest backflow of information from the environment to the system indicating complete-positive divisibility breaking of the dynamics. We provide a criteria for witnessing such non-Markovian dynamics, exhibiting information backflow based on the moments of Choi-matrices. The moment criteria which is determined by the positive semi-definiteness of a matrix does not hold for Choi-state, describing non-Markovian dynamics. We then present some explicit examples in favour of our proposed non-Markovianity detection scheme. Finally, a moment based measure of non-Markovianity for unital dynamics is formulated.
翻訳日:2023-03-08 16:34:32 公開日:2023-03-07
# TinyAD: 産業用IoTにおける時系列データのメモリ効率異常検出

TinyAD: Memory-efficient anomaly detection for time series data in Industrial IoT ( http://arxiv.org/abs/2303.03611v1 )

ライセンス: Link先を確認
Yuting Sun, Tong Chen, Quoc Viet Hung Nguyen, Hongzhi Yin(参考訳) サイバー物理システムの異常事象の監視と検出は、産業生産に不可欠である。 産業用モノのインターネット(Industrial Internet of Things, IIoT)の普及に伴い、異常検出のための機械学習モデルを容易にするために膨大な時系列データが収集され、トレーニングされたモデルをIIoTデバイスに直接デプロイすることが最も重要である。 しかし、CNN(Convolutional Neural Networks)のような複雑なディープラーニングモデルを、マイクロコントローラ(MCU)に埋め込まれたメモリ制限されたIIoTデバイスにデプロイすることは最も難しい。 MCUのメモリ制約を軽減するために,リアルタイム異常検出のためのCNNのオンボード推論を効率的に行うTiny Anomaly Detection (TinyAD) という新しいフレームワークを提案する。 まず, 深度分離可能なCNNと正規CNNの総合解析を行い, 従来のCNNと比較して, 深度分離可能な畳み込み操作によりモデルサイズを50~90%削減できることを確認した。 次に、cnnのピークメモリ消費を減らすために、インプレースとパッチバイパッチのメモリ再スケジュールという2つの補完戦略を検討し、それらを統一フレームワークに統合する。 in-place法では、一時的なバッファをスペアして活性化結果を転送することで、奥行き畳み込みのピークメモリを減少させ、patch-by-patch法では、入力データを対応する受容フィールドにスライスして順番に実行することにより、さらに層間実行のピークメモリを減少させる。 さらに、畳み込みフィルタの次元を調整することで、これらの戦略は単変量時系列と多領域時系列の特徴の両方に適用できる。 実世界の産業データセットに関する大規模な実験により、我々のフレームワークは計算オーバーヘッドを無視してピークメモリ消費を2~5倍削減できることを示した。

Monitoring and detecting abnormal events in cyber-physical systems is crucial to industrial production. With the prevalent deployment of the Industrial Internet of Things (IIoT), an enormous amount of time series data is collected to facilitate machine learning models for anomaly detection, and it is of the utmost importance to directly deploy the trained models on the IIoT devices. However, it is most challenging to deploy complex deep learning models such as Convolutional Neural Networks (CNNs) on these memory-constrained IIoT devices embedded with microcontrollers (MCUs). To alleviate the memory constraints of MCUs, we propose a novel framework named Tiny Anomaly Detection (TinyAD) to efficiently facilitate onboard inference of CNNs for real-time anomaly detection. First, we conduct a comprehensive analysis of depthwise separable CNNs and regular CNNs for anomaly detection and find that the depthwise separable convolution operation can reduce the model size by 50-90% compared with the traditional CNNs. Then, to reduce the peak memory consumption of CNNs, we explore two complementary strategies, in-place, and patch-by-patch memory rescheduling, and integrate them into a unified framework. The in-place method decreases the peak memory of the depthwise convolution by sparing a temporary buffer to transfer the activation results, while the patch-by-patch method further reduces the peak memory of layer-wise execution by slicing the input data into corresponding receptive fields and executing in order. Furthermore, by adjusting the dimension of convolution filters, these strategies apply to both univariate time series and multidomain time series features. Extensive experiments on real-world industrial datasets show that our framework can reduce peak memory consumption by 2-5x with negligible computation overhead.
翻訳日:2023-03-08 16:34:23 公開日:2023-03-07
# 熱放射線

Thermal Larmor radiation ( http://arxiv.org/abs/2303.03676v1 )

ライセンス: Link先を確認
E. Ievlev, Michael R.R. Good(参考訳) 移動点電荷からの熱放射が見つかる。 計算は古典的観点から完全に導かれるが、場の量子論と直接的に結びつくことが示されている。

Thermal radiation from a moving point charge is found. The calculation is entirely from a classical point of view, but is shown to have an immediate connection to quantum field theory.
翻訳日:2023-03-08 16:28:30 公開日:2023-03-07
# CIFF-Net: メラノーマ診断のためのコンテキスト画像特徴フュージョン

CIFF-Net: Contextual Image Feature Fusion for Melanoma Diagnosis ( http://arxiv.org/abs/2303.03672v1 )

ライセンス: Link先を確認
Md Awsafur Rahman, Bishmoy Paul, Tanvir Mahmud and Shaikh Anowarul Fattah(参考訳) メラノーマは皮膚がんの最も致命的な変種と考えられており、全皮膚がんの75%が死亡している。 メラノーマを診断するために、臨床医は同一患者の複数の皮膚病変を同時に評価して比較し、皮膚のパターンや異常に関する文脈情報を収集する。 これまでのところ、この同時多重画像比較法は、既存のディープラーニング方式では検討されていない。 本稿では,コンテクスト画像特徴融合(ciff)に基づいて,患者レベルのコンテクスト情報を従来の手法と統合した深層ニューラルネットワーク(ciff-net)を提案する。 提案するマルチカーネル・セルフアテンション(MKSA)モジュールは,自己アテンション機構にマルチカーネル操作を導入することにより,抽出した特徴をより一般化する。 自己注意と文脈特徴量の両方を利用するために、異なる文脈画像から抽出した特徴を単一の特徴ベクトルに統合する、文脈特徴量融合(CFF)と呼ばれる注意誘導モジュールを提案する。 最後に、比較文脈特徴融合(CCFF)モジュールでは、一次特徴と文脈特徴を同時に比較して比較特徴を生成する。 提案手法の有効性を検証する従来のアプローチに比べて,isic-2020データセットの性能が大幅に向上している。

Melanoma is considered to be the deadliest variant of skin cancer causing around 75\% of total skin cancer deaths. To diagnose Melanoma, clinicians assess and compare multiple skin lesions of the same patient concurrently to gather contextual information regarding the patterns, and abnormality of the skin. So far this concurrent multi-image comparative method has not been explored by existing deep learning-based schemes. In this paper, based on contextual image feature fusion (CIFF), a deep neural network (CIFF-Net) is proposed, which integrates patient-level contextual information into the traditional approaches for improved Melanoma diagnosis by concurrent multi-image comparative method. The proposed multi-kernel self attention (MKSA) module offers better generalization of the extracted features by introducing multi-kernel operations in the self attention mechanisms. To utilize both self attention and contextual feature-wise attention, an attention guided module named contextual feature fusion (CFF) is proposed that integrates extracted features from different contextual images into a single feature vector. Finally, in comparative contextual feature fusion (CCFF) module, primary and contextual features are compared concurrently to generate comparative features. Significant improvement in performance has been achieved on the ISIC-2020 dataset over the traditional approaches that validate the effectiveness of the proposed contextual learning scheme.
翻訳日:2023-03-08 16:28:27 公開日:2023-03-07
# 熱検出器を用いた超電導量子ビットの単発再生

Single-Shot Readout of a Superconducting Qubit Using a Thermal Detector ( http://arxiv.org/abs/2303.03668v1 )

ライセンス: Link先を確認
Andr\'as M. Gunyh\'o, Suman Kundu, Jian Ma, Wei Liu, Sakari Niemel\"a, Giacomo Catto, Vasilii Vadimov, Visa Vesterinen, Priyank Singh, Qiming Chen, Mikko M\"ott\"onen(参考訳) 量子ビットの状態を測定することは量子コンピュータの基本的な操作の1つである。 現在、超伝導量子ビットの最先端の高忠実度シングルショット再生はミリケルビン段階のパラメトリック増幅器に依存している。 しかし、パラメトリック増幅器は、実用的なサイズと電力制限のために数百キュービットを超えるスケールが難しい。 ナノボロメーターはスケーラビリティに有利な特性を持ち、最近はqubit読み出しに有望な感度と速度を示しているが、このような熱検出器はこの目的のために実証されていない。 本研究では,パラメトリック増幅器の代わりに超感度ボルメータを用い,単発キュービット読み出し実験を行った。 わずか13.9~\mu\mathrm{s}$の読み出し時間は0.618で、主にキュービットのエネルギー緩和時間、$T_1 = 28~\mu\mathrm{s}$によって制限される。 T_1$エラーがなければ、忠実度は0.927となる。 将来的には、チップ設計と実験的なセットアップが簡単に改善され、ボロメーター吸収材が変更されて読み出し時間が100ナノ秒に短縮されることで、高精細なシングルショット読み出しが達成されるかもしれない。

Measuring the state of qubits is one of the fundamental operations of a quantum computer. Currently, state-of-the-art high-fidelity single-shot readout of superconducting qubits relies on parametric amplifiers at the millikelvin stage. However, parametric amplifiers are challenging to scale beyond hundreds of qubits owing to practical size and power limitations. Nanobolometers have properties that are advantageous for scalability and have recently shown sensitivity and speed promising for qubit readout, but such thermal detectors have not been demonstrated for this purpose. In this work, we utilize an ultrasensitive bolometer in place of a parametric amplifier to experimentally demonstrate single-shot qubit readout. With a modest readout duration of $13.9~\mu\mathrm{s}$, we achieve a single-shot fidelity of 0.618 which is mainly limited by the energy relaxation time of the qubit, $T_1 = 28~\mu\mathrm{s}$. Without the $T_1$ errors, we find the fidelity to be 0.927. In the future, high-fidelity single-shot readout may be achieved by straightforward improvements to the chip design and experimental setup, and perhaps most interestingly by the change of the bolometer absorber material to reduce the readout time to the hundred-nanosecond level.
翻訳日:2023-03-08 16:28:05 公開日:2023-03-07
# 走るな、歩くな、より高速なニューラルネットワークのためのより高いFLOPS

Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks ( http://arxiv.org/abs/2303.03667v1 )

ライセンス: Link先を確認
Jierun Chen, Shiu-hong Kao, Hao He, Weipeng Zhuo, Song Wen, Chul-Ho Lee, S.-H. Gary Chan(参考訳) 高速ニューラルネットワークを設計するために、多くの研究が浮動小数点演算(FLOP)の削減に重点を置いている。 しかし、このようなFLOPの削減は、必ずしも同様のレイテンシの低下につながるとは限らない。 これは主に非効率に低い浮動小数点演算(flops)に由来する。 高速なネットワークを実現するために、我々は人気のある演算子を再検討し、そのような低いFLOPSは演算子のメモリアクセス、特に奥行きの畳み込みによるものであることを示す。 そこで我々は,冗長計算とメモリアクセスを同時に削減することにより,空間的特徴をより効率的に抽出する新しい部分畳み込み(pconv)を提案する。 PConv上に構築したFasterNetは,さまざまなビジョンタスクの精度を損なうことなく,さまざまなデバイス上での動作速度を大幅に向上する,ニューラルネットワークの新たなファミリーである。 たとえばImageNet-1kでは、私たちの小さなFasterNet-T0は3.1\times$、$3.1\times$、$2.5\times$で、それぞれGPU、CPU、ARMプロセッサのMobileViT-XXSよりも高速で、2.9\%$である。 当社の大きなFasterNet-Lは、新興のSwin-Bと同等の83.5\%$ Top-1の精度で、GPUでは49\%$高い推論スループットを持ち、CPUでは42\%$計算時間を節約しています。 コードは \url{https://github.com/JierunChen/FasterNet} で入手できる。

To design fast neural networks, many works have been focusing on reducing the number of floating-point operations (FLOPs). We observe that such reduction in FLOPs, however, does not necessarily lead to a similar level of reduction in latency. This mainly stems from inefficiently low floating-point operations per second (FLOPS). To achieve faster networks, we revisit popular operators and demonstrate that such low FLOPS is mainly due to frequent memory access of the operators, especially the depthwise convolution. We hence propose a novel partial convolution (PConv) that extracts spatial features more efficiently, by cutting down redundant computation and memory access simultaneously. Building upon our PConv, we further propose FasterNet, a new family of neural networks, which attains substantially higher running speed than others on a wide range of devices, without compromising on accuracy for various vision tasks. For example, on ImageNet-1k, our tiny FasterNet-T0 is $3.1\times$, $3.1\times$, and $2.5\times$ faster than MobileViT-XXS on GPU, CPU, and ARM processors, respectively, while being $2.9\%$ more accurate. Our large FasterNet-L achieves impressive $83.5\%$ top-1 accuracy, on par with the emerging Swin-B, while having $49\%$ higher inference throughput on GPU, as well as saving $42\%$ compute time on CPU. Code is available at \url{https://github.com/JierunChen/FasterNet}.
翻訳日:2023-03-08 16:27:34 公開日:2023-03-07
# Face: 高速・高精度・コンテキスト対応オーディオアノテーションと分類

Face: Fast, Accurate and Context-Aware Audio Annotation and Classification ( http://arxiv.org/abs/2303.03666v1 )

ライセンス: Link先を確認
M. Mehrdad Morsali, Hoda Mohammadzade, Saeed Bagheri Shouraki(参考訳) 本稿では,特徴選択と分類のための文脈認識フレームワークを提案し,高速かつ正確な音声イベントアノテーションと分類を実現する。 文脈認識設計は、最小の計算労力で顕著な分類精度をもたらすセットを選択するための適切な組み合わせを見つけるために、特徴抽出技術を探ることから始まる。 特徴選択のための探索は,環境音の分類研究範囲における先行研究で見落とされた特徴抽出手法であるテンポ表現の探索も取り入れている。 提案手法は,文脈認識型アクティブラーニングを実現するために,外部値,非値,予測困難なデータサンプルを考慮し,15%のデータが初期アノテーションを持つ場合の平均精度を90%とする。 提案手法は,UrbanSound8Kデータセット上で98.05%の平均予測精度を得た。 ソースコードと実装結果を含むノートブックはhttps://github.com/gitmehrdad/FACE.orgで入手できる。

This paper presents a context-aware framework for feature selection and classification procedures to realize a fast and accurate audio event annotation and classification. The context-aware design starts with exploring feature extraction techniques to find an appropriate combination to select a set resulting in remarkable classification accuracy with minimal computational effort. The exploration for feature selection also embraces an investigation of audio Tempo representation, an advantageous feature extraction method missed by previous works in the environmental audio classification research scope. The proposed annotation method considers outlier, inlier, and hard-to-predict data samples to realize context-aware Active Learning, leading to the average accuracy of 90% when only 15% of data possess initial annotation. Our proposed algorithm for sound classification obtained average prediction accuracy of 98.05% on the UrbanSound8K dataset. The notebooks containing our source codes and implementation results are available at https://github.com/gitmehrdad/FACE.
翻訳日:2023-03-08 16:26:49 公開日:2023-03-07
# 超低モード容量ピエゾ機械式量子トランスデューサの設計

Design of an ultra-low mode volume piezo-optomechanical quantum transducer ( http://arxiv.org/abs/2303.03664v1 )

ライセンス: Link先を確認
Piero Chiappina, Jash Banker, Srujan Meesala, David Lake, Steven Wood, Oskar Painter(参考訳) マイクロ波から光領域への量子状態のコヒーレント変換は、量子ネットワークと分散量子コンピューティングにおいて重要な役割を果たす。 シリコンプラットフォーム上に形成したハイブリッドニオブ酸リチウムで形成した圧電オプトメカニカルデバイスの設計について,マイクロ波-光量子トランスダクションに適した設計法を提案する。 本設計は,超低モード容積ピエゾ音響キャビティと光メカニカル結晶キャビティの音響ハイブリッド化に基づいている。 ニオブ酸リチウムの強い圧電特性は、ニオブ酸リチウムと最小限の相互作用しか持たないアコースティックモードによるトランスダクションを媒介し、電気的および音響的損失が非常に低いシリコン様である。 このトランスデューサは,超伝導トランスモン量子ビットに共振結合し,パルスモードで10kHzの繰り返し速度で動作した場合に,0.5添加ノイズ量子化で35%の固有変換効率を実現することができると推定した。 このようなハイブリッドなニオブ酸リチウム-シリコントランスデューサの性能向上は、光ファイバリンクで接続された超伝導量子プロセッサ間の量子ビットの絡み合いに適している。

Coherent transduction of quantum states from the microwave to the optical domain can play a key role in quantum networking and distributed quantum computing. We present the design of a piezo-optomechanical device formed in a hybrid lithium niobate on silicon platform, that is suitable for microwave-to-optical quantum transduction. Our design is based on acoustic hybridization of an ultra-low mode volume piezoacoustic cavity with an optomechanical crystal cavity. The strong piezoelectric nature of lithium niobate allows us to mediate transduction via an acoustic mode which only minimally interacts with the lithium niobate, and is predominantly silicon-like, with very low electrical and acoustic loss. We estimate that this transducer can realize an intrinsic conversion efficiency of up to 35% with <0.5 added noise quanta when resonantly coupled to a superconducting transmon qubit and operated in pulsed mode at 10 kHz repetition rate. The performance improvement gained in such hybrid lithium niobate-silicon transducers make them suitable for heralded entanglement of qubits between superconducting quantum processors connected by optical fiber links.
翻訳日:2023-03-08 16:26:29 公開日:2023-03-07
# 畳み込みニューラルネットワークを用いた不整脈検出のための心電図分類システム

ECG Classification System for Arrhythmia Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2303.03660v1 )

ライセンス: Link先を確認
Aryan Odugoudar, Jaskaran Singh Walia(参考訳) 不整脈は、長年にわたって研究されてきた多くの心血管疾患の1つである。 本研究は,マルチリード心電図データを用いて心血管不整脈を検出する畳み込みニューラルネットワーク(CNN)アルゴリズムに基づく深層学習(DL)技術について述べる。 提案したCNNモデルは,入力層と出力層に加えて,合計6層,2層の畳み込み層,2つのプーリング層,および2つの完全連結層を有する。 本研究は,心電図信号を左二分枝ブロック(LBBB),右二分枝ブロック(RBBB),心房性未熟収縮(APC),小心室収縮(PVC),正常拍動の5つのグループに分類する。 MIT-BIH不整脈データセットを用いて提案手法の評価を行った。 その結果,提案手法は平均98.2%の精度で15,000例を分類した。

Arrhythmia is just one of the many cardiovascular illnesses that have been extensively studied throughout the years. Using a multi-lead ECG data, this research describes a deep learning (DL) technique based on a convolutional neural network (CNN) algorithm to detect cardiovascular arrhythmia in patients. The suggested CNN model has six layers total, two convolution layers, two pooling layers, and two fully linked layers within a residual block, in addition to the input and output layers. In this study, the classification of the ECG signals into five groups, Left Bundle Branch Block (LBBB), Right Bundle Branch Block (RBBB), Atrial Premature Contraction (APC), Premature Ventricular Contraction (PVC), and Normal Beat is the main goal (N). Using the MIT-BIH arrhythmia dataset, we assessed the suggested technique. The findings show that our suggested strategy classified 15000 cases with an average accuracy of 98.2%.
翻訳日:2023-03-08 16:26:09 公開日:2023-03-07
# MPool: モチーフベースのグラフプール

MPool: Motif-Based Graph Pooling ( http://arxiv.org/abs/2303.03654v1 )

ライセンス: Link先を確認
Muhammad Ifte Khairul Islam, Max Khanov, Esra Akbas(参考訳) グラフニューラルネットワーク(gnns)は最近、グラフ分類を含む多くのグラフ関連のタスクで強力な技術となっている。 現在のGNNモデルは、グラフの高次構造を階層的に学習するために、ノードとエッジの数を減らす異なるグラフプーリング手法を適用している。 これらの手法は主にワンホップ地区に依存している。 しかし、彼らはグラフの高次構造を考慮していない。 本研究では,マルチチャネルモチーフに基づくグラフプーリング手法(mpool)を提案し,選択操作とクラスタリングに基づくプーリング操作の組み合わせにより,モチーフと局所およびグローバルグラフ構造を組み合わせた高次グラフ構造をキャプチャする。 第1のチャネルとして、ノードのモチーフ隣接性を考慮したノードランキングモデルを設計し、ノード選択に基づくグラフプーリングを開発する。 第2のチャネルとして,モチーフ隣接を用いたスペクトルクラスタリングモデルの設計を行い,クラスタベースのグラフプーリングを開発した。 最終層として、各チャネルの結果を最終グラフ表現に集約する。 8つのベンチマークデータセットについて広範な実験を行い,提案手法がグラフ分類タスクのベースライン法よりも精度が高いことを示す。

Graph Neural networks (GNNs) have recently become a powerful technique for many graph-related tasks including graph classification. Current GNN models apply different graph pooling methods that reduce the number of nodes and edges to learn the higher-order structure of the graph in a hierarchical way. All these methods primarily rely on the one-hop neighborhood. However, they do not consider the higher- order structure of the graph. In this work, we propose a multi-channel Motif-based Graph Pooling method named (MPool) captures the higher-order graph structure with motif and local and global graph structure with a combination of selection and clustering-based pooling operations. As the first channel, we develop node selection-based graph pooling by designing a node ranking model considering the motif adjacency of nodes. As the second channel, we develop cluster-based graph pooling by designing a spectral clustering model using motif adjacency. As the final layer, the result of each channel is aggregated into the final graph representation. We perform extensive experiments on eight benchmark datasets and show that our proposed method shows better accuracy than the baseline methods for graph classification tasks.
翻訳日:2023-03-08 16:25:49 公開日:2023-03-07
# F2BEV:自動走行のための魚眼カメラ画像からの鳥の視線生成

F2BEV: Bird's Eye View Generation from Surround-View Fisheye Camera Images for Automated Driving ( http://arxiv.org/abs/2303.03651v1 )

ライセンス: Link先を確認
Ekta U. Samani, Feng Tao, Harshavardhan R. Dasari, Sihao Ding, Ashis G. Banerjee(参考訳) Bird's Eye View (BEV)表現は、認識に関連する自動運転タスクに非常に有用である。 しかし、広角レンズによる強い歪みのため、周囲の魚眼カメラ画像からBEVを生成することは困難である。 この課題に対処する第一歩として,魚眼画像からBEVの高さマップとセマンティックセグメンテーションマップを生成するためのベースラインF2BEVを導入する。 F2BEVは、トランスフォーマースタイルのアーキテクチャで魚眼画像の特徴から空間情報をクエリし、統合するための歪み対応空間横断監視モジュールと、タスク固有のヘッドから構成される。 合成FB-SSEMデータセット上でF2BEVの単一タスクおよびマルチタスクの変異を評価し,魚眼画像を用いた最新のBEV生成法よりも,BEVの高さとセグメンテーションマップ(IoU)が優れていることを示した。 また,F2BEVを用いた実世界の魚眼画像から高さマップを生成する。 データセットの最初のサンプルはhttps://tinyurl.com/58jvnscyで公開されている。

Bird's Eye View (BEV) representations are tremendously useful for perception-related automated driving tasks. However, generating BEVs from surround-view fisheye camera images is challenging due to the strong distortions introduced by such wide-angle lenses. We take the first step in addressing this challenge and introduce a baseline, F2BEV, to generate BEV height maps and semantic segmentation maps from fisheye images. F2BEV consists of a distortion-aware spatial cross attention module for querying and consolidating spatial information from fisheye image features in a transformer-style architecture followed by a task-specific head. We evaluate single-task and multi-task variants of F2BEV on our synthetic FB-SSEM dataset, all of which generate better BEV height and segmentation maps (in terms of the IoU) than a state-of-the-art BEV generation method operating on undistorted fisheye images. We also demonstrate height map generation from real-world fisheye images using F2BEV. An initial sample of our dataset is publicly available at https://tinyurl.com/58jvnscy
翻訳日:2023-03-08 16:25:35 公開日:2023-03-07
# 会員会議は否定できるのか?

Can Membership Inferencing be Refuted? ( http://arxiv.org/abs/2303.03648v1 )

ライセンス: Link先を確認
Zhifeng Kong, Amrita Roy Chowdhury, Kamalika Chaudhuri(参考訳) メンバーシップ推論(MI)攻撃は、マシンラーニングモデルにおけるプライバシリークを測定するための最も一般的なテストである。 機械学習モデルとデータポイントといくつかの補助情報があれば、mi~attackの目標は、データポイントがモデルのトレーニングに使用されたかどうかを判断することだ。 本研究では,実際に会員推論攻撃の信頼性について検討する。 具体的には、モデル所有者がデータポイント$x$のメンバシップ推論テストの結果を、モデルがトレーニングされたことを証明した \textit{proof of repudiation} を構築することで、確実に反証できることを示す。 トレーニングデータセットのすべてのデータポイントに対する評価の証明を構築するための効率的なアルゴリズムを設計する。 MNIST と CIFAR-10 で一般的な機械学習モデルに対する検証結果を構築し,本アルゴリズムの有効性を実証した。 その結果,本研究の結果は,実際にメンバーシップ推論攻撃の影響を再評価することを求めている。

Membership inference (MI) attack is currently the most popular test for measuring privacy leakage in machine learning models. Given a machine learning model, a data point and some auxiliary information, the goal of an MI~attack is to determine whether the data point was used to train the model. In this work, we study the reliability of membership inference attacks in practice. Specifically, we show that a model owner can plausibly refute the result of a membership inference test on a data point $x$ by constructing a \textit{proof of repudiation} that proves that the model was trained \textit{without} $x$. We design efficient algorithms to construct proofs of repudiation for all data points of the training dataset. Our empirical evaluation demonstrates the practical feasibility of our algorithm by constructing proofs of repudiation for popular machine learning models on MNIST and CIFAR-10. Consequently, our results call for a re-evaluation of the implications of membership inference attacks in practice.
翻訳日:2023-03-08 16:25:14 公開日:2023-03-07
# TwitterタイムラインにおけるAI生成テキストのスティロメトリ検出

Stylometric Detection of AI-Generated Text in Twitter Timelines ( http://arxiv.org/abs/2303.03697v1 )

ライセンス: Link先を確認
Tharindu Kumarage, Joshua Garland, Amrita Bhattacharjee, Kirill Trapeznikov, Scott Ruston, Huan Liu(参考訳) 近年の事前学習型言語モデルの進歩により、人間のようなテキストを大規模に生成する便利な手法が実現されている。 これらの生成能力は、ブレークスルーアプリケーションに大きな可能性を秘めているが、敵が誤情報を生成するためのツールでもある。 特に、Twitterのようなソーシャルメディアプラットフォームは、AIが生成した誤報に非常に影響を受けやすい。 潜在的な脅威シナリオは、敵が信頼できるユーザアカウントをハイジャックし、自然言語生成器を組み込んで誤情報を生成する場合である。 このような脅威は、ユーザーのTwitterタイムラインでAI生成ツイートの自動検出を必要とする。 しかし、ツイートは本質的に短いため、現在最先端の訓練済み言語モデルベースの検出器が、AIが所定のTwitterタイムラインでツイートを生成し始めた時点を正確に検出することは困難である。 本稿では,ai生成ツイートの検出を支援するスタイロメトリック信号を用いた新しいアルゴリズムを提案する。 タスク1 - 人間とaiが生成したつぶやきを識別するタスク2 - 特定のtwitterタイムラインでaiがつぶやきを生成し始めたかどうかを検知するタスク2 - という2つのタスクにおける、人間とaiのつぶやきの様式的変化を定量化するモデルを提案する。 我々の広範な実験は、このテクスチャ的特徴が最先端のAI生成テキスト検出器の強化に有効であることを示した。

Recent advancements in pre-trained language models have enabled convenient methods for generating human-like text at a large scale. Though these generation capabilities hold great potential for breakthrough applications, it can also be a tool for an adversary to generate misinformation. In particular, social media platforms like Twitter are highly susceptible to AI-generated misinformation. A potential threat scenario is when an adversary hijacks a credible user account and incorporates a natural language generator to generate misinformation. Such threats necessitate automated detectors for AI-generated tweets in a given user's Twitter timeline. However, tweets are inherently short, thus making it difficult for current state-of-the-art pre-trained language model-based detectors to accurately detect at what point the AI starts to generate tweets in a given Twitter timeline. In this paper, we present a novel algorithm using stylometric signals to aid detecting AI-generated tweets. We propose models corresponding to quantifying stylistic changes in human and AI tweets in two related tasks: Task 1 - discriminate between human and AI-generated tweets, and Task 2 - detect if and when an AI starts to generate tweets in a given Twitter timeline. Our extensive experiments demonstrate that the stylometric features are effective in augmenting the state-of-the-art AI-generated text detectors.
翻訳日:2023-03-08 16:19:32 公開日:2023-03-07
# ヘリウム上の電子のハイブリッド rydberg-spin 量子ビット

Hybrid Rydberg-spin qubit of electrons on helium ( http://arxiv.org/abs/2303.03688v1 )

ライセンス: Link先を確認
Erika Kawakami, Jiabao Chen, M\'onica Benito, Denis Konstantinov(参考訳) 理論的には、量子化された垂直運動(Rydberg状態)と液体ヘリウム表面上の電子のスピン状態からなるハイブリッド量子ビットシステムという、量子ビットを実現する新しい方法を提案する。 局所磁場勾配を導入すると、ライドバーグ状態とスピン自由度がハイブリダイズされ、スピン状態の長いコヒーレンス時間とライドバーグ状態とを結合する電子間の長距離クーロン相互作用の両方の恩恵を受けることができる。 単一および2量子ビットゲートと量子非復調読出しを実現するための具体的なスキームを提案する。 我々の枠組みでは、ライドバーグ状態とスピン状態のハイブリダイゼーションは高速量子ビットゲートの実行に十分であり、スピン状態のコヒーレンス時間を著しく劣化させないほど小さいため、高忠実な量子ビットゲートの実現に繋がる。

We theoretically propose a new way to realize qubits: a hybrid qubit system consisting of the quantized vertical motion (Rydberg states) and the spin states of electrons on the surface of liquid helium. Introducing a local magnetic field gradient hybridizes the Rydberg and spin degrees of freedom, which allows us to benefit from both the long coherence time of the spin state and the long-range Coulomb interaction between electrons that couples the Rydberg state. We present concrete schemes to realize single- and two-qubit gates and quantum-non-demolition read-out. In our framework, the hybridization of the Rydberg state and the spin state is large enough to perform fast qubit gates and small enough not to degrade the coherence time of the spin state significantly, which leads to the realization of high-fidelity qubit gates.
翻訳日:2023-03-08 16:19:11 公開日:2023-03-07
# 一般x状態の局所量子フィッシャー情報と局所量子不確かさ

Local quantum Fisher information and local quantum uncertainty for general X-states ( http://arxiv.org/abs/2303.03685v1 )

ライセンス: Link先を確認
M. A. Yurischev and Saeed Haddadi(参考訳) 非均一外部磁場の存在下での2スピン1/2ハイゼンベルクXYZモデルとKaplan--Shekhtman--Entin-Wohlman--Aharony(KSEA)相互作用は熱平衡において考慮される。 その密度行列は、モデルパラメータの観点から局所量子フィッシャー情報(LQFI)と局所量子不確実性(LQU)の明示的な公式を導出する一般X形式を持つ。 これにより、不協和型量子相関 LQFI と LQU の比較研究を行い、それらの挙動に多くの新しい特徴を明らかにすることができる。 特に、温度のスムーズな変化を伴う量子相関の突然の遷移が見られる。 さらに、相互作用定数の特定の選択に対してそのような遷移の列が存在することが示されている。

A two-spin-1/2 Heisenberg XYZ model with Dzyaloshinsky--Moriya (DM) and Kaplan--Shekhtman--Entin-Wohlman--Aharony (KSEA) interactions in the presence of an inhomogeneous external magnetic field is considered at thermal equilibrium. Its density matrix has the general X form for which we derive explicit formulas for the local quantum Fisher information (LQFI) and local quantum uncertainty (LQU) directly in terms of model parameters. This allows us to perform a comparative study for the discord-type quantum correlations LQFI and LQU and to reveal a number of new features in their behavior. In particular, the sudden transitions of quantum correlations with a smooth change in temperature are found. Moreover, it is shown that there may be a sequence of such transitions for certain choices of interaction constants.
翻訳日:2023-03-08 16:18:52 公開日:2023-03-07
# MOSO:ビデオ予測のためのモード、シーン、オブジェクトの分解

MOSO: Decomposing MOtion, Scene and Object for Video Prediction ( http://arxiv.org/abs/2303.03684v1 )

ライセンス: Link先を確認
Mingzhen Sun, Weining Wang, Xinxin Zhu and Jing Liu(参考訳) モーション、シーン、オブジェクトはビデオの3つの主要なビジュアルコンポーネントです。 特に、オブジェクトは前景を表し、シーンは背景を表し、モーションはそのダイナミクスを追跡します。 この知見に基づいて,MOSO-VQVAE と MOSO-Transformer からなる映像予測のための2段階のMotion, Scene, Object decomposition framework (MOSO) を提案する。 最初の段階では、MOSO-VQVAEは以前のビデオクリップをモーション、シーン、オブジェクトコンポーネントに分解し、個別のトークンのグループとして表現する。 そして、第2段階で、MOSO-Transformerは、前のトークンに基づいて、その後のビデオクリップのオブジェクトおよびシーントークンを予測し、生成されたオブジェクトおよびシーントークンにトークンレベルでの動的動きを追加する。 我々のフレームワークは、非条件のビデオ生成やビデオフレーム補間タスクに容易に拡張できる。 実験の結果, bair, robonet, kth, kitti, ucf101の5つの非条件映像生成ベンチマークにおいて, 新たな最先端性能が得られることがわかった。 さらにmosoは、さまざまなビデオのオブジェクトとシーンを組み合わせることで、リアルなビデオを制作できる。

Motion, scene and object are three primary visual components of a video. In particular, objects represent the foreground, scenes represent the background, and motion traces their dynamics. Based on this insight, we propose a two-stage MOtion, Scene and Object decomposition framework (MOSO) for video prediction, consisting of MOSO-VQVAE and MOSO-Transformer. In the first stage, MOSO-VQVAE decomposes a previous video clip into the motion, scene and object components, and represents them as distinct groups of discrete tokens. Then, in the second stage, MOSO-Transformer predicts the object and scene tokens of the subsequent video clip based on the previous tokens and adds dynamic motion at the token level to the generated object and scene tokens. Our framework can be easily extended to unconditional video generation and video frame interpolation tasks. Experimental results demonstrate that our method achieves new state-of-the-art performance on five challenging benchmarks for video prediction and unconditional video generation: BAIR, RoboNet, KTH, KITTI and UCF101. In addition, MOSO can produce realistic videos by combining objects and scenes from different videos.
翻訳日:2023-03-08 16:18:35 公開日:2023-03-07
# ロバスト制御による動的環境における原子干渉慣性センサの感度向上

Enhancing the sensitivity of atom-interferometric inertial sensors in dynamic environments using robust control ( http://arxiv.org/abs/2303.03683v1 )

ライセンス: Link先を確認
J. C. Saywell, M. S. Carey, P. S. Light, S. S. Szigeti, A. R. Milne, K. Gill, M. L. Goh, N. M. Wilson, P. J. Everitt, N. P. Robins, R. P. Anderson, M. R. Hush, and M. J. Biercuk(参考訳) そこで本研究では,最先端の寒冷原子干渉加速度計の感度向上効果を実験的に実証する。 当社のエラーロバストパルスは、堅牢な量子制御技術を使用してソフトウェアで設計、実装され、動的フィールドベース環境での動作によって引き起こされるノイズソースを緩和するために調整されています。 これらのロバストパルスシーケンスは、広運動量幅が$\sim 1.6 \hbar k$の原子源に対して3$\times$よりも3$\times$の「原始」ガウスパルスで3桁のブラッグパルス冷原子干渉計のスペクトル視認性を向上し、地球の重力を2$\times$の精度で絶対測定することでそのスケール係数を検証する。 さらに、横方向のプラットフォーム加速度の効果を模したパルス対パルスから最大20%まで変化するレーザー強度ノイズの存在下では、原始ガウスパルスの効用が崩壊する一方、同じ頑健な制御ソリューションが外界の可視性を保ち、適用加速度の測定精度を10$\times$に向上させる。 これらの結果から,プリミティブな動作が著しく低下した環境下では,ソフトウェア定義型量子センサの動作が,実フィールド環境下での現行および次世代の携帯型冷原子慣性センサの性能向上に有効であることを示す。

We experimentally demonstrate that tailored error-robust light pulse sequences improve the measurement sensitivity of a state-of-the-art cold-atom interferometric accelerometer. Our error-robust pulses, designed and implemented in software using robust quantum control techniques, are tailored to mitigate noise sources that are caused by -- and typically severely inhibit -- operation in dynamic field-based environments. We show that these robust pulse sequences improve the fringe visibility of an order-3 Bragg-pulse cold-atom interferometer by a factor of 3$\times$ over "primitive" Gaussian pulses for an atomic source with a broad momentum width of $\sim 1.6 \hbar k$ and verify their scale factor through absolute measurements of Earth's gravity with 2$\times$ enhanced precision. Furthermore, in the presence of laser intensity noise that varies up to 20\% from pulse-to-pulse, designed to mimic the effect of lateral platform accelerations, the same robust control solutions preserve fringe visibility while the utility of the primitive Gaussian pulses collapses, delivering a 10$\times$ improvement in measurement precision of an applied acceleration. These results show for the first time that software-defined quantum sensor operation can deliver useful performance in environmental regimes where primitive operation is severely degraded, providing a pathway to augment the performance of current and next generation portable cold-atom inertial sensors in real fielded settings.
翻訳日:2023-03-08 16:18:12 公開日:2023-03-07
# 量子化学のための実用的・超並列量子コンピューティングエミュレーションに向けて

Towards practical and massively parallel quantum computing emulation for quantum chemistry ( http://arxiv.org/abs/2303.03681v1 )

ライセンス: Link先を確認
Honghui Shang, Yi Fan, Li Shen, Chu Guo, Jie Liu, Xiaohui Duan, Fang Li, Zhenyu Li(参考訳) 量子コンピューティングは初期の段階を超えて、化学・生物医学の商業的応用を模索している。 現在のノイズの多い中間規模量子コンピューティングの時代では、量子資源はこれらの探索を支援するには不足している。 したがって、量子アルゴリズムを開発し、量子ハードウェアを検証するために、古典的コンピュータ上で量子コンピューティングをエミュレートすることは重要である。 しかし、既存のシミュレータは主にメモリボトルネックに悩まされているため、大規模量子化学計算の手法の開発は依然として困難である。 本稿では,行列積状態に基づく高性能で超並列な変分量子固有ソルバ(vqe)シミュレータと,hpcプラットフォーム上での量子化学の大規模量子計算エミュレーションを解く埋め込み理論を組み合わせる。 本手法は,エタンのねじれ障壁とタンパク質-リガンド相互作用の定量化に応用する。 我々の最大のシミュレーションは1000ドルの量子ビットに到達し、sunwayの新しいスーパーコンピュータで216.9ドルのpflopsが達成される。量子化学のための量子コンピューティングエミュレーションの最先端技術が設定される。

Quantum computing is moving beyond its early stage and seeking for commercial applications in chemical and biomedical sciences. In the current noisy intermediate-scale quantum computing era, quantum resource is too scarce to support these explorations. Therefore, it is valuable to emulate quantum computing on classical computers for developing quantum algorithms and validating quantum hardware. However, existing simulators mostly suffer from the memory bottleneck so developing the approaches for large-scale quantum chemistry calculations remains challenging. Here we demonstrate a high-performance and massively parallel variational quantum eigensolver (VQE) simulator based on matrix product states, combined with embedding theory for solving large-scale quantum computing emulation for quantum chemistry on HPC platforms. We apply this method to study the torsional barrier of ethane and the quantification of the protein-ligand interactions. Our largest simulation reaches $1000$ qubits, and a performance of $216.9$ PFLOPS is achieved on a new Sunway supercomputer, which sets the state-of-the-art for quantum computing emulation for quantum chemistry
翻訳日:2023-03-08 16:17:40 公開日:2023-03-07
# ロジットマージン問題:ロジットキャリブレーションによる移動可能なターゲティング・アタックの改善

Logit Margin Matters: Improving Transferable Targeted Adversarial Attack by Logit Calibration ( http://arxiv.org/abs/2303.03680v1 )

ライセンス: Link先を確認
Juanjuan Weng, Zhiming Luo, Zhun Zhong, Shaozi Li, Nicu Sebe(参考訳) 従来の研究は、標的のないブラックボックスシナリオにおける敵のサンプルの転送可能性について広範囲に研究されてきた。 しかし、ターゲットでないものよりも高い転送性でターゲットとなる敵の例を作るのは依然として困難である。 近年の研究では、従来のクロスエントロピー(CE)損失関数は、消失勾配の問題により、移動可能な敵のサンプルを学習するには不十分であることが示されている。 本研究では,CEの損失関数の包括的調査を行い,対象クラスと未対象クラス間のロジットマージンがCEの飽和を素早く得ることを明らかにする。 そこで本稿では,飽和問題に対処するために,最適化に伴うロジットマージンを継続的に増やすことを目標とし,それぞれ温度係数と適応マージンでロジットをダウンスケールすることで達成した2つの単純かつ効果的なロジットキャリブレーション手法を提案する。 どちらも効果的に最適化を奨励し、ロジットマージンを大きくし、転送可能性を高めることができる。 また,逆例間のコサイン距離と対象クラスの分類子重みの最小化により,l2正規化によるロジットのダウンスケーリングのメリットを生かした転送性がさらに向上することを示す。 imagenetデータセットで行った実験は、ブラックボックス標的攻撃において最先端のメソッドを上回る提案手法の有効性を検証する。 ソースコードは \href{https://github.com/WJLL/Target-Attack/}{Link} で入手できる。

Previous works have extensively studied the transferability of adversarial samples in untargeted black-box scenarios. However, it still remains challenging to craft targeted adversarial examples with higher transferability than non-targeted ones. Recent studies reveal that the traditional Cross-Entropy (CE) loss function is insufficient to learn transferable targeted adversarial examples due to the issue of vanishing gradient. In this work, we provide a comprehensive investigation of the CE loss function and find that the logit margin between the targeted and untargeted classes will quickly obtain saturation in CE, which largely limits the transferability. Therefore, in this paper, we devote to the goal of continually increasing the logit margin along the optimization to deal with the saturation issue and propose two simple and effective logit calibration methods, which are achieved by downscaling the logits with a temperature factor and an adaptive margin, respectively. Both of them can effectively encourage optimization to produce a larger logit margin and lead to higher transferability. Besides, we show that minimizing the cosine distance between the adversarial examples and the classifier weights of the target class can further improve the transferability, which is benefited from downscaling logits via L2-normalization. Experiments conducted on the ImageNet dataset validate the effectiveness of the proposed methods, which outperform the state-of-the-art methods in black-box targeted attacks. The source code is available at \href{https://github.com/WJJLL/Target-Attack/}{Link}
翻訳日:2023-03-08 16:17:20 公開日:2023-03-07
# MAST: 汎用的な自己監督型プリミティブのための仮面強化サブスペーストレーニング

MAST: Masked Augmentation Subspace Training for Generalizable Self-Supervised Priors ( http://arxiv.org/abs/2303.03679v1 )

ライセンス: Link先を確認
Chen Huang, Hanlin Goh, Jiatao Gu, Josh Susskind(参考訳) 最近の自己監視学習(SSL)メソッドは、異なるデータ拡張に不変な特徴表現を学習することができる。 しかし、異なるダウンストリームタスクは、最高のパフォーマンスのために異なる不変性を必要とするため、SSLの拡張の最適な選択は、ターゲットタスクに依存する。 本稿では,タスク情報を事前に知ることなく,さまざまな下流タスク(オブジェクト分類,検出,インスタンスセグメンテーションなど)にまたがる自己教師付き特徴を学習することを目的とする。 私たちはMasked Augmentation Subspace Training(MAST)によって、異なるデータ拡張から前のものをファクタライズされた方法で単一の機能空間にエンコードします。 具体的には、特徴空間を別々の部分空間に分割し、それぞれが学習可能なマスクによって引き起こされ、関連する特徴次元を選択し、特定の拡張に対する不変性をモデル化する。 我々は,各部分空間にまたがる特徴と共有機能を用いて,異なる拡張から一般化可能な事前情報を共同取得する上で,MASTの成功を示す。 さらに,各部分空間の類似性ミスマッチを引き起こす強い増補により,不確実性モデリングから曖昧なサンプルの重み付けに寄与することを示した。 実験によると、MASTはさまざまな下流タスクの一般化を一貫して改善し、SSLの間はタスクに依存しない、効率的である。 また、異なる拡張がどう関連しているか、不確実性は学習の難しさを反映しているのか、興味深い洞察を提供する。

Recent Self-Supervised Learning (SSL) methods are able to learn feature representations that are invariant to different data augmentations, which can then be transferred to downstream tasks of interest. However, different downstream tasks require different invariances for their best performance, so the optimal choice of augmentations for SSL depends on the target task. In this paper, we aim to learn self-supervised features that generalize well across a variety of downstream tasks (e.g., object classification, detection and instance segmentation) without knowing any task information beforehand. We do so by Masked Augmentation Subspace Training (or MAST) to encode in the single feature space the priors from different data augmentations in a factorized way. Specifically, we disentangle the feature space into separate subspaces, each induced by a learnable mask that selects relevant feature dimensions to model invariance to a specific augmentation. We show the success of MAST in jointly capturing generalizable priors from different augmentations, using both unique and shared features across the subspaces. We further show that MAST benefits from uncertainty modeling to reweight ambiguous samples from strong augmentations that may cause similarity mismatch in each subspace. Experiments demonstrate that MAST consistently improves generalization on various downstream tasks, while being task-agnostic and efficient during SSL. We also provide interesting insights about how different augmentations are related and how uncertainty reflects learning difficulty.
翻訳日:2023-03-08 16:16:52 公開日:2023-03-07
# 共同チャネル推定と信号検出のためのディープラーニングと反復アルゴリズムの比較検討

A Comparative Study of Deep Learning and Iterative Algorithms for Joint Channel Estimation and Signal Detection ( http://arxiv.org/abs/2303.03678v1 )

ライセンス: Link先を確認
Haocheng Ju, Haimiao Zhang, Lin Li, Xiao Li, Bin Dong(参考訳) 無線通信システムではジョイントチャネル推定と信号検出(JCESD)が重要であるが、従来のアルゴリズムは低信号-雑音比(SNR)のシナリオでは不十分である。 深層学習 (DL) 手法は検討されているが, 計算コストや低SNR設定による検証の欠如が懸念されている。 したがって、広範囲のSNRに対して優れた性能を提供できる頑健で低複雑さのモデルの開発が極めて望ましい。 本稿では,従来のアルゴリズムとDL手法を異なるチャネルモデル,ドップラー,SNR設定で検証するベンチマークを確立することを目的とする。 特に,反復アルゴリズムの展開によりバックボーンネットワークが形成される新しいDLモデルを提案し,ハイパーネットワークによりハイパーパラメータを推定する。 さらに、軽量なDenseNetをJCESDのタスクに適用して比較する。 我々は,ビット誤り率(BER)の一般化,堅牢性,複雑性の3つの側面から異なる手法を評価する。 その結果,低snr設定ではdlアプローチが従来のアルゴリズムよりも優れており,高snr設定では反復アルゴリズムの方が優れていた。 さらに、繰り返しアルゴリズムはキャリア周波数オフセットの存在下でより堅牢であり、一方、DL法は非対称ガウス雑音によって信号が破損した場合に優れる。

Joint channel estimation and signal detection (JCESD) is crucial in wireless communication systems, but traditional algorithms perform poorly in low signal-to-noise ratio (SNR) scenarios. Deep learning (DL) methods have been investigated, but concerns regarding computational expense and lack of validation in low-SNR settings remain. Hence, the development of a robust and low-complexity model that can deliver excellent performance across a wide range of SNRs is highly desirable. In this paper, we aim to establish a benchmark where traditional algorithms and DL methods are validated on different channel models, Doppler, and SNR settings. In particular, we propose a new DL model where the backbone network is formed by unrolling the iterative algorithm, and the hyperparameters are estimated by hypernetworks. Additionally, we adapt a lightweight DenseNet to the task of JCESD for comparison. We evaluate different methods in three aspects: generalization in terms of bit error rate (BER), robustness, and complexity. Our results indicate that DL approaches outperform traditional algorithms in the challenging low-SNR setting, while the iterative algorithm performs better in highSNR settings. Furthermore, the iterative algorithm is more robust in the presence of carrier frequency offset, whereas DL methods excel when signals are corrupted by asymmetric Gaussian noise.
翻訳日:2023-03-08 16:16:26 公開日:2023-03-07
# 不便なコミュニティの時間的進化を特徴付ける機械学習モデルの訓練

Training Machine Learning Models to Characterize Temporal Evolution of Disadvantaged Communities ( http://arxiv.org/abs/2303.03677v1 )

ライセンス: Link先を確認
Milan Jain, Narmadha Meenu Mohankumar, Heng Wan, Sumitrra Ganguly, Kyle D Wilson, and David M Anderson(参考訳) 米国エネルギー省(doe)のジャスティス40イニシアチブで定義されている不利な地域社会(dac)は、気候とエネルギー投資の利益がどこにあるか、あるいは現在取得されていないかを決定するために、米国中の国勢調査区分を特定する。 DACの地位は、将来のジャスティス40関連投資の適格性を決定するのに役立つだけでなく、資源の公平な分配を実現する方法を模索する上でも重要である。 しかし、包括的で公平な戦略を設計するには、現在の人口動態を十分に理解するだけでなく、過去数年間に起こった変化をより深く分析する必要がある。 本稿では,近年の国勢調査データに基づいて機械学習(ML)モデルを訓練して,国勢調査領域レベルでのDACステータスを分類し,過去のDACステータスを分類する。 本研究は,2013年から2018年における不利なコミュニティの進化に伴う特徴とモデル選択の詳細な分析について述べる。

Disadvantaged communities (DAC), as defined by the Justice40 initiative of the Department of Energy (DOE), USA, identifies census tracts across the USA to determine where benefits of climate and energy investments are or are not currently accruing. The DAC status not only helps in determining the eligibility for future Justice40-related investments but is also critical for exploring ways to achieve equitable distribution of resources. However, designing inclusive and equitable strategies not just requires a good understanding of current demographics, but also a deeper analysis of the transformations that happened in those demographics over the years. In this paper, machine learning (ML) models are trained on publicly available census data from recent years to classify the DAC status at the census tracts level and then the trained model is used to classify DAC status for historical years. A detailed analysis of the feature and model selection along with the evolution of disadvantaged communities between 2013 and 2018 is presented in this study.
翻訳日:2023-03-08 16:16:03 公開日:2023-03-07
# ソースフリードメイン適応オブジェクト検出のための精製擬似ラベリング

Refined Pseudo labeling for Source-free Domain Adaptive Object Detection ( http://arxiv.org/abs/2303.03728v1 )

ライセンス: Link先を確認
Siqi Zhang, Lu Zhang and Zhiyong Liu(参考訳) ドメイン適応オブジェクト検出(DAOD)は、ラベル付きソースデータとラベルなしターゲットデータの両方がトレーニングに利用できると仮定するが、この仮定は現実世界のシナリオでは必ずしも成り立たない。 そこで,未ラベルのターゲットデータのみを対象領域に適応させるために,ソースフリーなdaodを提案する。 既存のソースフリーなdaodメソッドは通常、疑似ラベリングを使用し、パフォーマンスは信頼しきい値の選択に大きく依存する。 しかし、ほとんどの先行作品では、すべてのクラスに対して単一の固定しきい値を採用して擬似ラベルを生成し、不均衡なクラス分布を無視し、偏りのある擬似ラベルを生成する。 本研究では,ソースフリーDAODのための改良された擬似ラベリングフレームワークを提案する。 まず、偏りのない擬似ラベルを生成するために、各カテゴリに適切な閾値を適応的に提供するカテゴリ認識適応しきい値推定モジュールを提案する。 第2に,不正確なボックスレグレッションを緩和するために,ラベルを特定の不確かかつ不確実なものに分割し,それらを最適化するためのローカライズアウェア擬似ラベル割当て戦略が導入された。 最後に,4つの適応タスクに関する広範囲な実験を行い,本手法の有効性を示した。

Domain adaptive object detection (DAOD) assumes that both labeled source data and unlabeled target data are available for training, but this assumption does not always hold in real-world scenarios. Thus, source-free DAOD is proposed to adapt the source-trained detectors to target domains with only unlabeled target data. Existing source-free DAOD methods typically utilize pseudo labeling, where the performance heavily relies on the selection of confidence threshold. However, most prior works adopt a single fixed threshold for all classes to generate pseudo labels, which ignore the imbalanced class distribution, resulting in biased pseudo labels. In this work, we propose a refined pseudo labeling framework for source-free DAOD. First, to generate unbiased pseudo labels, we present a category-aware adaptive threshold estimation module, which adaptively provides the appropriate threshold for each category. Second, to alleviate incorrect box regression, a localization-aware pseudo label assignment strategy is introduced to divide labels into certain and uncertain ones and optimize them separately. Finally, extensive experiments on four adaptation tasks demonstrate the effectiveness of our method.
翻訳日:2023-03-08 16:10:00 公開日:2023-03-07
# 電流フィードバックによるヒューマノイドの2足歩行学習

Learning Bipedal Walking for Humanoids with Current Feedback ( http://arxiv.org/abs/2303.03724v1 )

ライセンス: Link先を確認
Rohan Pratap Singh, Zhaoming Xie, Pierre Gergondet, Fumio Kanehiro(参考訳) 近年の深部強化学習(RL)技術とシミュレーションの訓練が組み合わさって,脚付きロボットの制御ポリシーの開発に新たなアプローチが提案されている。 しかし、実際のハードウェアへのそのようなアプローチの適用は、直接駆動アクチュエータを備えた四足歩行ロボットと低速変速装置を備えた軽量二足歩行ロボットに限られている。 実物大のヒューマノイドロボットへの応用は、大きなサイズ、重い手足、高いギア比の伝達システムから生じる大きなsim-to-realギャップのために不可解である。 本稿では,アクチュエータレベルの不正確なトルクトラッキングから生じるヒューマノイドロボットにおいて,シム・トゥ・リアルギャップを効果的に克服するためのアプローチを提案する。 我々のキーとなるアイデアは、実際のロボットのモーターからの現在のフィードバックを利用して、トルクトラッキングの貧弱さで人工的に劣化したシミュレーション環境でポリシーを訓練することです。 提案手法は,2足歩行のための実hrp-5pヒューマノイドロボットに展開可能なシミュレーションにおけるエンドツーエンドポリシーの訓練に成功している。 また、rlポリシーのロバスト性試験を行い、従来の不均一な地形を歩行するモデルベースコントローラと比較した。 YouTubeビデオ: https://youtu.be/IeUaSsBRbNY

Recent advances in deep reinforcement learning (RL) based techniques combined with training in simulation have offered a new approach to developing control policies for legged robots. However, the application of such approaches to real hardware has largely been limited to quadrupedal robots with direct-drive actuators and light-weight bipedal robots with low gear-ratio transmission systems. Application to life-sized humanoid robots has been elusive due to the large sim-to-real gap arising from their large size, heavier limbs, and a high gear-ratio transmission systems. In this paper, we present an approach for effectively overcoming the sim-to-real gap issue for humanoid robots arising from inaccurate torque tracking at the actuator level. Our key idea is to utilize the current feedback from the motors on the real robot, after training the policy in a simulation environment artificially degraded with poor torque tracking. Our approach successfully trains an end-to-end policy in simulation that can be deployed on a real HRP-5P humanoid robot for bipedal locomotion on challenging terrain. We also perform robustness tests on the RL policy and compare its performance against a conventional model-based controller for walking on uneven terrain. YouTube video: https://youtu.be/IeUaSsBRbNY
翻訳日:2023-03-08 16:09:38 公開日:2023-03-07
# 産業会議における視覚に基づくヒューマンハンドアクション認識のためのデータセット作成の課題

Challenges of the Creation of a Dataset for Vision Based Human Hand Action Recognition in Industrial Assembly ( http://arxiv.org/abs/2303.03716v1 )

ライセンス: Link先を確認
Fabian Sturm, Elke Hergenroether, Julian Reinhardt, Petar Smilevski Vojnovikj, Melanie Siegel(参考訳) 本研究は,産業用ハンドアクションデータセットV1を用いて,空間拡張後の459,180画像と2,295,900画像からなる産業用組立データセットを提案する。 他の無償で利用可能なデータセットと比較すると、平均以上の期間を持ち、産業用組立ラインの技術的および法的要件を満たす。 さらに、このデータセットは、検査されたデータセットの組合せでは見つからなかった産業組立タスクに対して、オクルージョン、ハンド・オブジェクト相互作用、および様々な細粒度のヒューマン・ハンドアクションを含む。 実世界の実例を広範囲に観察した結果,記録された真理組立クラスが選択された。 トランスフォーマードメインからの最先端モデルであるゲート型トランスフォーマーネットワークを採用し、18,269,959のトレーニング可能なパラメータによるハイパーパラメータチューニングの前に86.25%の精度でテスト精度を証明し、このデータセットでシーケンシャルなディープラーニングモデルをトレーニングできることを示した。

This work presents the Industrial Hand Action Dataset V1, an industrial assembly dataset consisting of 12 classes with 459,180 images in the basic version and 2,295,900 images after spatial augmentation. Compared to other freely available datasets tested, it has an above-average duration and, in addition, meets the technical and legal requirements for industrial assembly lines. Furthermore, the dataset contains occlusions, hand-object interaction, and various fine-grained human hand actions for industrial assembly tasks that were not found in combination in examined datasets. The recorded ground truth assembly classes were selected after extensive observation of real-world use cases. A Gated Transformer Network, a state-of-the-art model from the transformer domain was adapted, and proved with a test accuracy of 86.25% before hyperparameter tuning by 18,269,959 trainable parameters, that it is possible to train sequential deep learning models with this dataset.
翻訳日:2023-03-08 16:09:18 公開日:2023-03-07
# 量子コンピューティングのためのユニバーサルリソース

Universal resources for quantum computing ( http://arxiv.org/abs/2303.03715v1 )

ライセンス: Link先を確認
Dong-Sheng Wang(参考訳) 量子コンピューティングの力の源を開くことは、量子情報科学の分野における大きな目標である。 近年、様々な量子資源を特徴付ける量子資源理論(qrt)が確立されているが、量子計算タスクにおけるそれらの役割は依然として調査が必要である。 いわゆるUQCM(Universal Quantum Computing Model)は、例えば回路モデルであり、量子アルゴリズムの設計や実際の量子コンピュータの作成を導く主要なフレームワークである。 本研究では,UQCMの研究とQRTの併用について述べる。 一方,qrt を用いて uqcm の資源理論的な特徴付け,モデル間の関係,新しいモデルへの刺激,そして uqcm の利用は資源の適用,資源間の関係の研究,分類の枠組みを提供する。 我々は、UQCMの設定において普遍資源の理論を開発し、UQCMと対応する普遍資源の豊富なスペクトルを求める。 資源理論の階層構造に依存すると、モデルがファミリーに分類される。 本研究では,UQCMの3つの自然族,振幅族,準確率族,ハミルトン族について詳細に検討する。 これらのモデルには、測定に基づくモデルや断熱モデルなど、よく知られたモデルが含まれています。 各族は少なくとも3重項のモデルを持ち、UQCMファミリーの簡潔な構造は、資源と設計モデルを調査するための統一的な図形を提供する。 また、絡み合いと干渉の役割、量子アルゴリズムのリソース理論的特徴など、パズルを解決するための厳密な枠組みも提供する。

Unravelling the source of quantum computing power has been a major goal in the field of quantum information science. In recent years, the quantum resource theory (QRT) has been established to characterize various quantum resources, yet their roles in quantum computing tasks still require investigation. The so-called universal quantum computing model (UQCM), e.g., the circuit model, has been the main framework to guide the design of quantum algorithms, creation of real quantum computers etc. In this work, we combine the study of UQCM together with QRT. We find on one hand, using QRT can provide a resource-theoretic characterization of a UQCM, the relation among models and inspire new ones, and on the other hand, using UQCM offers a framework to apply resources, study relation among resources and classify them. We develop the theory of universal resources in the setting of UQCM, and find a rich spectrum of UQCMs and the corresponding universal resources. Depending on a hierarchical structure of resource theories, we find models can be classified into families. In this work, we study three natural families of UQCMs in details: the amplitude family, the quasi-probability family, and the Hamiltonian family. They include some well known models, like the measurement-based model and adiabatic model, and also inspire new models such as the contextual model we introduce. Each family contains at least a triplet of models, and such a succinct structure of families of UQCMs offers a unifying picture to investigate resources and design models. It also provides a rigorous framework to resolve puzzles, such as the role of entanglement vs. interference, and unravel resource-theoretic features of quantum algorithms.
翻訳日:2023-03-08 16:09:00 公開日:2023-03-07
# フロー誘導密度比学習による生成モデル

Generative Modeling with Flow-Guided Density Ratio Learning ( http://arxiv.org/abs/2303.03714v1 )

ライセンス: Link先を確認
Alvin Heng, Abdul Fatir Ansari, Harold Soh(参考訳) 本稿では,DGflow で導入されたエントロピー規則化 f-分枝の勾配流の静的(時間に依存しない)近似に基づく,簡易かつスケーラブルな生成モデリング手法である Flow-Guided Density Ratio Learning (FDRL) を提案する。 DGflowでは、抽出可能な時間依存密度比は、GAN判別器によって与えられるスタイル推定器によって近似される。 これはサンプルリファインメントの場合で十分であり、フローのソースとターゲットの分布が互いに近い場合に十分である。 しかし、この仮定は生成には無効であり、二つの分布の間に大きな亀裂があるため、スタイル推定器のナイーブな応用は失敗する。 FDRLは、トレーニングプロセス中にサンプルを徐々に改善することを学ぶために密度比推定器を訓練することを提案する。 本手法では,FDRLが128\times128$の次元の画像を生成できるとともに,既存の勾配流ベースラインを定量的なベンチマークで上回り,密度カオス問題を緩和する。 また2つのユースケースでFDRLの柔軟性を示す。 まず、非条件FDRLを外部分類器で簡単に構成してクラス条件生成を行う。 第2に、FDRLはフレームワークに変更を加えることなく、不適切な画像から画像への変換に直接適用することができる。 コードはhttps://github.com/ajrheng/FDRLで公開されている。

We present Flow-Guided Density Ratio Learning (FDRL), a simple and scalable approach to generative modeling which builds on the stale (time-independent) approximation of the gradient flow of entropy-regularized f-divergences introduced in DGflow. In DGflow, the intractable time-dependent density ratio is approximated by a stale estimator given by a GAN discriminator. This is sufficient in the case of sample refinement, where the source and target distributions of the flow are close to each other. However, this assumption is invalid for generation and a naive application of the stale estimator fails due to the large chasm between the two distributions. FDRL proposes to train a density ratio estimator such that it learns from progressively improving samples during the training process. We show that this simple method alleviates the density chasm problem, allowing FDRL to generate images of dimensions as high as $128\times128$, as well as outperform existing gradient flow baselines on quantitative benchmarks. We also show the flexibility of FDRL with two use cases. First, unconditional FDRL can be easily composed with external classifiers to perform class-conditional generation. Second, FDRL can be directly applied to unpaired image-to-image translation with no modifications needed to the framework. Code is publicly available at https://github.com/ajrheng/FDRL.
翻訳日:2023-03-08 16:08:32 公開日:2023-03-07
# Bootstrap The Original Latent: バックプロパゲートブラックボックス適応用フリーズ・アンド・ソーアダプター

Bootstrap The Original Latent: Freeze-and-thaw Adapter for Back-Propagated Black-Box Adaptation ( http://arxiv.org/abs/2303.03709v1 )

ライセンス: Link先を確認
Shuai Wang, Daoan Zhang, Jianguo Zhang, Weiwei Zhang, and Rui Li(参考訳) 本稿では,モデルオーナとユーザニーズのデータ/モデルプライバシのバランスを考慮し,基盤/ソースモデルのバックプロパゲーション結果のガイダンスを通じて,ユーザによるプライベートモデルのトレーニングを改善するために,バックプロパゲートブラックボックス適応(bpba)と呼ばれる新しい設定を提案する。 私たちの設定は、ファンデーション/ソースモデルの使用を容易にし、ファンデーション/ソースモデルの漏洩や誤用を防ぎます。 さらに,基盤/ソースモデルを完全に活用するためのBootstrap The Original Latent(BTOL)という新たなトレーニング戦略を提案する。 当社の戦略はドメインアダプタとフリーズ・アンド・ザウ戦略で構成されています。 3つのデータセットに対してBPBAとBlack-box UDA設定でBTOLを適用します。 実験の結果,手作業による拡張を伴わずに,戦略が効率的かつ堅牢であることが確認された。

In this paper, considering the balance of data/model privacy of model owners and user needs, we propose a new setting called Back-Propagated Black-Box Adaptation (BPBA) for users to better train their private models via the guidance of the back-propagated results of foundation/source models. Our setting can ease the usage of foundation/source models as well as prevent the leakage and misuse of foundation/source models. Moreover, we also propose a new training strategy called Bootstrap The Original Latent (BTOL) to fully utilize the foundation/source models. Our strategy consists of a domain adapter and a freeze-and-thaw strategy. We apply our BTOL under BPBA and Black-box UDA settings on three different datasets. Experiments show that our strategy is efficient and robust in various settings without manual augmentations.
翻訳日:2023-03-08 16:08:11 公開日:2023-03-07
# 植物プランクトン分類のためのハイブリッド量子古典畳み込みニューラルネットワーク

Hybrid quantum-classical convolutional neural network for phytoplankton classification ( http://arxiv.org/abs/2303.03707v1 )

ライセンス: Link先を確認
Shangshang Shi, Zhimin Wang, Ruimin Shang, Yanan Li, Jiaxin Li, Guoqiang Zhong, and Yongjian Gu(参考訳) 海洋生態系の動態と地球環境の変化に直接的な影響を与える植物プランクトンの分類学的組成と豊富さを,本質的な海洋変数として挙げる。 植物プランクトン分類は植物プランクトン分析において非常に重要であるが、植物プランクトンの量と少量の量のために非常に難しい。 機械学習は植物プランクトン画像の分類を自動的に行う基本的な方法である。 海洋植物プランクトンに関する大規模研究を行う場合、データ量は圧倒的に増加し、より強力な計算資源が機械学習アルゴリズムの成功に必要となる。 近年,量子コンピュータの指数計算能力を利用した大規模データ処理の潜在的なソリューションとして量子機械学習が登場している。 ここでは,植物プランクトン分類のための量子深層ニューラルネットワークの実現可能性を示す。 量子古典的畳み込みと残差ニューラルネットワークは古典的アーキテクチャに基づいて開発された。 これらのモデルは、現在の量子装置の限られた機能と植物プランクトン画像の大きさの適切なバランスを保ち、短期量子コンピュータ上で植物プランクトン分類を行うことができる。 量子化モデルによって古典的モデルに対してより良い性能が得られる。 特に量子モデルは古典的モデルよりもはるかに高速に収束する。 現在の量子モデルは多用途であり、海洋科学の分野における画像分類の様々なタスクに応用することができる。

The taxonomic composition and abundance of phytoplankton, having direct impact on marine ecosystem dynamic and global environment change, are listed as essential ocean variables. Phytoplankton classification is very crucial for Phytoplankton analysis, but it is very difficult because of the huge amount and tiny volume of Phytoplankton. Machine learning is the principle way of performing phytoplankton image classification automatically. When carrying out large-scale research on the marine phytoplankton, the volume of data increases overwhelmingly and more powerful computational resources are required for the success of machine learning algorithms. Recently, quantum machine learning has emerged as the potential solution for large-scale data processing by harnessing the exponentially computational power of quantum computer. Here, for the first time, we demonstrate the feasibility of quantum deep neural networks for phytoplankton classification. Hybrid quantum-classical convolutional and residual neural networks are developed based on the classical architectures. These models make a proper balance between the limited function of the current quantum devices and the large size of phytoplankton images, which make it possible to perform phytoplankton classification on the near-term quantum computers. Better performance is obtained by the quantum-enhanced models against the classical counterparts. In particular, quantum models converge much faster than classical ones. The present quantum models are versatile, and can be applied for various tasks of image classification in the field of marine science.
翻訳日:2023-03-08 16:07:55 公開日:2023-03-07
# 文脈化単語埋め込みを用いたcovid-19に関連するテキストに基づく共謀ツイートの分類

Classifying Text-Based Conspiracy Tweets related to COVID-19 using Contextualized Word Embeddings ( http://arxiv.org/abs/2303.03706v1 )

ライセンス: Link先を確認
Abdul Rehman, Rabeeh Ayaz Abbasi, Irfan ul Haq Qureshi, Akmal Saeed Khattak(参考訳) mediaeval 2022のfakenewsタスクは、covid-19に関連する陰謀ツイートの分類について、正確かつハイパフォーマンスなモデルを見つけることの難しさを調査している。 本稿では,BERT,ELMO,およびそれらの組み合わせを用いて特徴抽出を行い,RandomForestを分類した。 その結果,ELMOはBERTよりも若干高い性能を示したが,機能レベルでの組み合わせで性能が低下した。

The FakeNews task in MediaEval 2022 investigates the challenge of finding accurate and high-performance models for the classification of conspiracy tweets related to COVID-19. In this paper, we used BERT, ELMO, and their combination for feature extraction and RandomForest as classifier. The results show that ELMO performs slightly better than BERT, however their combination at feature level reduces the performance.
翻訳日:2023-03-08 16:07:36 公開日:2023-03-07
# Neyman-Scottプロセスの変分推論

Variational Inference for Neyman-Scott Processes ( http://arxiv.org/abs/2303.03701v1 )

ライセンス: Link先を確認
Chengkuan Hong and Christian R. Shelton(参考訳) Neyman-Scottプロセス(NSP)は、クラスタ階層のモデルポイントや時間イベントに、さまざまな分野に適用されている。 マルコフ連鎖モンテカルロ(mcmc)は一般的にモデルにおける後方サンプリングに用いられる。 しかし、mcmcの混合時間は、結果として生じる推論が遅くなり、モデル学習と予測が遅くなる可能性がある。 NSPに対する第1変分推論 (VI) アルゴリズムを開発し、適切な変分後点過程分布の2つの例を示す。 提案手法は, 変動パラメータを求めるために, 包括的Kullback-Leibler(KL)分散を最小化する。 我々は,mcmcのステップや勾配降下を伴わずに近似後点過程を直接推定できるため,mcmcよりはるかに高速に近似後点過程からサンプルを生成する。 我々のVIアルゴリズムは計算時間に制限がある場合、MCMCよりも優れた予測性能が得られることを示す合成および実世界のデータ実験を含む。

Neyman-Scott processes (NSPs) have been applied across a range of fields to model points or temporal events with a hierarchy of clusters. Markov chain Monte Carlo (MCMC) is typically used for posterior sampling in the model. However, MCMC's mixing time can cause the resulting inference to be slow, and thereby slow down model learning and prediction. We develop the first variational inference (VI) algorithm for NSPs, and give two examples of suitable variational posterior point process distributions. Our method minimizes the inclusive Kullback-Leibler (KL) divergence for VI to obtain the variational parameters. We generate samples from the approximate posterior point processes much faster than MCMC, as we can directly estimate the approximate posterior point processes without any MCMC steps or gradient descent. We include synthetic and real-world data experiments that demonstrate our VI algorithm achieves better prediction performance than MCMC when computational time is limited.
翻訳日:2023-03-08 16:07:29 公開日:2023-03-07
# FIT:領域適応オブジェクト検出のための周波数ベース画像変換

FIT: Frequency-based Image Translation for Domain Adaptive Object Detection ( http://arxiv.org/abs/2303.03698v1 )

ライセンス: Link先を確認
Siqi Zhang, Lu Zhang, Zhiyong Liu and Hangtao Feng(参考訳) ドメイン適応オブジェクト検出(DAOD)は、ラベル付きソースドメインから未ラベルのターゲットドメインへの検出器の適応を目的としている。 近年,DAODはデータ分布の急激な変化による性能低下を緩和できるため,注目されている。 ドメイン間の分布を整合させるため、既存のDAOD法では逆学習が広く使われている。 しかし、逆ドメイン判別器の判断境界は不正確であり、モデルがソースドメインに偏りを生じさせる可能性がある。 このバイアスを軽減するために、DAODのための新しい周波数ベースの画像翻訳(FIT)フレームワークを提案する。 まず、ドメイン不変周波数成分を保持し、ドメイン固有周波数成分を交換することで、画像変換を行い、入力レベルでのドメインシフトを低減する。 第二に、階層的対角的特徴学習を用いて、特徴レベルでのドメインギャップをさらに緩和する。 最後に、翻訳画像を得るための余分な訓練をすることなく、エンドツーエンドでネットワーク全体をトレーニングするための共同損失を設計する。 3つのDAODベンチマークの大規模な実験により,本手法の有効性が示された。

Domain adaptive object detection (DAOD) aims to adapt the detector from a labelled source domain to an unlabelled target domain. In recent years, DAOD has attracted massive attention since it can alleviate performance degradation due to the large shift of data distributions in the wild. To align distributions between domains, adversarial learning is widely used in existing DAOD methods. However, the decision boundary for the adversarial domain discriminator may be inaccurate, causing the model biased towards the source domain. To alleviate this bias, we propose a novel Frequency-based Image Translation (FIT) framework for DAOD. First, by keeping domain-invariant frequency components and swapping domain-specific ones, we conduct image translation to reduce domain shift at the input level. Second, hierarchical adversarial feature learning is utilized to further mitigate the domain gap at the feature level. Finally, we design a joint loss to train the entire network in an end-to-end manner without extra training to obtain translated images. Extensive experiments on three challenging DAOD benchmarks demonstrate the effectiveness of our method.
翻訳日:2023-03-08 16:07:12 公開日:2023-03-07
# zeroth-order optimizationは人間のフィードバックを満たす - ランキングオラクルによる証明可能な学習

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles ( http://arxiv.org/abs/2303.03751v1 )

ライセンス: Link先を確認
Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang(参考訳) 本稿では,対象関数がブラックボックスであり,ランク付けオラクルによってのみ評価できる,新たな最適化問題に焦点を当てる。 この問題は現実の応用、特に人間の判断によって機能を評価する場合によく見られる。 人的フィードバックによる強化学習(rlhf)は、人間の指導により大規模言語モデル(llm)の品質を向上させるために、最近の研究である \cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} で採用されている。 本稿では,この最適化問題を理論的な保証により解くために,一階最適化アルゴリズムである zo-ranksgd を提案する。 具体的には, 降下方向に対する新しいランクベースランダム推定器を用い, 定常点への収束を証明した。 ZO-RankSGDは、エピソード報酬のランキングオラクルのみが利用できる場合に、強化学習におけるポリシー探索問題に直接適用することができる。 これにより、ZO-RankSGDは既存のRLHFメソッドに代わる有望な代替となる。 さらに,ZO-RankSGDの新たな応用として,人格フィードバックによる拡散生成モデルにより生成された画像の品質向上を実証する。 実験を通して、ZO-RankSGDは、ほんの数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上できることがわかった。 概して、ランク付けフィードバックのみで関数を最適化する問題に対処することで、ゼロ階最適化の分野を前進させ、幅広い領域において人間と機械の意図を整合させる効果的なアプローチを提供する。 私たちのコードはここでリリースされています。

In this paper, we focus on a novel optimization problem in which the objective function is a black-box and can only be evaluated through a ranking oracle. This problem is common in real-world applications, particularly in cases where the function is assessed by human judges. Reinforcement Learning with Human Feedback (RLHF) is a prominent example of such an application, which is adopted by the recent works \cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} to improve the quality of Large Language Models (LLMs) with human guidance. We propose ZO-RankSGD, a first-of-its-kind zeroth-order optimization algorithm, to solve this optimization problem with a theoretical guarantee. Specifically, our algorithm employs a new rank-based random estimator for the descent direction and is proven to converge to a stationary point. ZO-RankSGD can also be directly applied to the policy search problem in reinforcement learning when only a ranking oracle of the episode reward is available. This makes ZO-RankSGD a promising alternative to existing RLHF methods, as it optimizes in an online fashion and thus can work without any pre-collected data. Furthermore, we demonstrate the effectiveness of ZO-RankSGD in a novel application: improving the quality of images generated by a diffusion generative model with human ranking feedback. Throughout experiments, we found that ZO-RankSGD can significantly enhance the detail of generated images with only a few rounds of human feedback. Overall, our work advances the field of zeroth-order optimization by addressing the problem of optimizing functions with only ranking feedback, and offers an effective approach for aligning human and machine intentions in a wide range of domains. Our code is released here \url{https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback}.
翻訳日:2023-03-08 16:00:15 公開日:2023-03-07
# Vuk'uzenzeleとZA-gov-multilingual South African multilingual corporaの調製

Preparing the Vuk'uzenzele and ZA-gov-multilingual South African multilingual corpora ( http://arxiv.org/abs/2303.03750v1 )

ライセンス: Link先を確認
Richard Lastrucci, Isheanesu Dzingirai, Jenalea Rajab, Andani Madodonga, Matimba Shingange, Daniel Njini, Vukosi Marivate(参考訳) 本稿では,南アフリカ諸言語における多言語政府のテーマコーパスについて紹介する。 コーポラは南アフリカ政府の新聞(Vuk'uzenzele)と南アフリカ政府の演説(ZA-gov-multilingual)を集めて収集され、南アフリカの公用語の全てに翻訳された。 コーパスは、下流の無数のNLPタスクに使用できる。 コーポラは南アフリカ政府の出版物で使われている言語を研究者が研究できるように作られ、南アフリカ政府の役人が構成員とどのようにコミュニケーションするかを理解することに焦点を当てた。 本稿では,コーパスの収集,清掃,利用可能化のプロセスを強調する。 我々はLanguage-Agnostic Sentence Representation (LASER) を用いたニューラルマシン翻訳(NMT)タスクのための並列文コーパスを作成する。 これらの整列文を用いて、我々は、非常に多言語で事前訓練された言語モデルを微調整することで、9つのネイティブ言語に対するNMTベンチマークを提供する。 \end{abstra

This paper introduces two multilingual government themed corpora in various South African languages. The corpora were collected by gathering the South African Government newspaper (Vuk'uzenzele), as well as South African government speeches (ZA-gov-multilingual), that are translated into all 11 South African official languages. The corpora can be used for a myriad of downstream NLP tasks. The corpora were created to allow researchers to study the language used in South African government publications, with a focus on understanding how South African government officials communicate with their constituents. In this paper we highlight the process of gathering, cleaning and making available the corpora. We create parallel sentence corpora for Neural Machine Translation (NMT) tasks using Language-Agnostic Sentence Representations (LASER) embeddings. With these aligned sentences we then provide NMT benchmarks for 9 indigenous languages by fine-tuning a massively multilingual pre-trained language model. \end{abstra
翻訳日:2023-03-08 15:59:39 公開日:2023-03-07
# 説明可能な機械学習手法による計算生成エンタルピー:ランタニドオルトリン酸固溶体の場合

Computing formation enthalpies through an explainable machine learning method: the case of Lanthanide Orthophosphates solid solutions ( http://arxiv.org/abs/2303.03748v1 )

ライセンス: Link先を確認
Edoardo Di Napoli (1), Xinzhe Wu (1), Thomas Bornhake (2) Piotr M. Kowalski (3) ((1) J\"ulich Supercomputing Centre Forschungszentrum J\"ulich GmbH, (2) Physics Department RWTH Aachen University, (3) Institute of Energy and Climate Research Forschungszentrum J\"ulich GmbH)(参考訳) 過去10年間で、凝縮物質物理学におけるマシン・アンド・ディープ・ラーニング(MDL)法の使用は、取り組んだ問題や方法の数が大幅に増加した。 材料特性の予測から密度汎関数理論ポテンシャルの計算、原子間力場など、多くの異なる分野において多くの異なるMDLアプローチが採用されている。 多くの場合、結果は有望な予測を返すが、その成功の内部メカニズムに不透明である代理モデルである。 一方、典型的な実践者は説明可能な答えを探し、物理現象を司るメカニズムについての明確な洞察を提供する。 本稿では、従来の機械学習手法の洗練された組み合わせを用いて、興味のある材料特性に対する明示的な機能的定式化を出力する説明可能なモデルを求める。 本手法は, ランタニドオルソリン酸の固溶体形成のエンタルピーに対する新しい高精度な表現法としての有効性を示す。

In the last decade, the use of Machine and Deep Learning (MDL) methods in Condensed Matter physics has seen a steep increase in the number of problems tackled and methods employed. A number of distinct MDL approaches have been employed in many different topics; from prediction of materials properties to computation of Density Functional Theory potentials and inter-atomic force fields. In many cases the result is a surrogate model which returns promising predictions but is opaque on the inner mechanisms of its success. On the other hand, the typical practitioner looks for answers that are explainable and provide a clear insight on the mechanisms governing a physical phenomena. In this work, we describe a proposal to use a sophisticated combination of traditional Machine Learning methods to obtain an explainable model that outputs an explicit functional formulation for the material property of interest. We demonstrate the effectiveness of our methodology in deriving a new highly accurate expression for the enthalpy of formation of solid solutions of lanthanides orthophosphates.
翻訳日:2023-03-08 15:59:21 公開日:2023-03-07
# グラフ決定変換器

Graph Decision Transformer ( http://arxiv.org/abs/2303.03747v1 )

ライセンス: Link先を確認
Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao(参考訳) オフライン強化学習(RL)は環境と相互作用することなく静的軌道データからポリシーを学習することを目的とした課題である。 近年、オフラインRLは、エージェントが一連の静的遷移経験に基づいて後続のアクションのシーケンスを生成するシーケンスモデリング問題と見なされている。 しかし、トランスフォーマーを使ってすべてのトークンにネイティブに出席する既存のアプローチは、異なるトークン間の依存関係を見落とし、長期の依存関係学習を制限することができる。 本稿では,入力シーケンスを因果グラフにモデル化し,基本的な概念間の潜在的な依存関係を捉え,時間的および因果的関係学習を容易にする,新しいオフラインrl手法であるgraph decision transformer(gdt)を提案する。 gdtはグラフトランスフォーマーを使用してグラフ入力をリレーションエンハンスされたメカニズムで処理し、オプションのシーケンストランスフォーマは視覚タスクできめ細かい空間情報を処理する。 実験の結果,GDT は画像ベース Atari と OpenAI Gym 上での最先端のオフライン RL 手法の性能と一致しているか,あるいは上回っていることがわかった。

Offline reinforcement learning (RL) is a challenging task, whose objective is to learn policies from static trajectory data without interacting with the environment. Recently, offline RL has been viewed as a sequence modeling problem, where an agent generates a sequence of subsequent actions based on a set of static transition experiences. However, existing approaches that use transformers to attend to all tokens naively can overlook the dependencies between different tokens and limit long-term dependency learning. In this paper, we propose the Graph Decision Transformer (GDT), a novel offline RL approach that models the input sequence into a causal graph to capture potential dependencies between fundamentally different concepts and facilitate temporal and causal relationship learning. GDT uses a graph transformer to process the graph inputs with relation-enhanced mechanisms, and an optional sequence transformer to handle fine-grained spatial information in visual tasks. Our experiments show that GDT matches or surpasses the performance of state-of-the-art offline RL methods on image-based Atari and OpenAI Gym.
翻訳日:2023-03-08 15:59:04 公開日:2023-03-07
# 指先で:ビデオからピアノの指の指示を取り出す

At Your Fingertips: Extracting Piano Fingering Instructions from Videos ( http://arxiv.org/abs/2303.03745v1 )

ライセンス: Link先を確認
Amit Moryossef, Yanai Elazar, and Yoav Goldberg(参考訳) ピアノフィンガーグ -- どの指を使って各音符を楽器で弾くかを知ることは、ピアノを弾くことを学ぶ際に習得するのが困難で重要なスキルである。 一部の楽譜には、専門家が記したフィンガーリング情報があるが、ほとんどの楽譜にはそのような情報がなく、しばしばオンラインビデオのデモンストレーションからフィンガーリングを学ぶことを好む。 ビデオから指情報を自動的に抽出するAIタスクについて検討する。 これは、指が他の指によって隠されている場合が多いため、手の位置情報と演奏された音符に関する知識の同期を必要とするため、どのキーが押されたかビデオから明らかでないことが多い。 我々は、ドメイン外データの微調整のためのganベースのアプローチを含む、ディープラーニングモジュールを組み合わせることで、このタスクを高精度で実行する方法を示す。 指の情報をf1スコア97\%で抽出する。 結果、90本のビデオでシステムを実行し、これまでで最大のピアノフィンガーリングデータセットである150万音の高品質なピアノフィンガー情報を得ることができた。

Piano fingering -- knowing which finger to use to play each note in a musical piece, is a hard and important skill to master when learning to play the piano. While some sheet music is available with expert-annotated fingering information, most pieces lack this information, and people often resort to learning the fingering from demonstrations in online videos. We consider the AI task of automating the extraction of fingering information from videos. This is a non-trivial task as fingers are often occluded by other fingers, and it is often not clear from the video which of the keys were pressed, requiring the synchronization of hand position information and knowledge about the notes that were played. We show how to perform this task with high-accuracy using a combination of deep-learning modules, including a GAN-based approach for fine-tuning on out-of-domain data. We extract the fingering information with an f1 score of 97\%. We run the resulting system on 90 videos, resulting in high-quality piano fingering information of 150K notes, the largest available dataset of piano-fingering to date.
翻訳日:2023-03-08 15:58:45 公開日:2023-03-07
# 大規模mimoシステムを用いた高精度機械学習による屋内位置推定

High-Precision Machine-Learning Based Indoor Localization with Massive MIMO System ( http://arxiv.org/abs/2303.03743v1 )

ライセンス: Link先を確認
Guoda Tian, Ilayda Yaman, Michiel Sandra, Xuesong Cai, Liang Liu, Fredrik Tufvesson(参考訳) 次世代通信システムにおいて, 高精度なセルローカライゼーションが重要な技術の一つである。 本稿では,機械学習(ML)をMIMO(Multiple-input multiple-output)システムに適用し,ローカライズ精度を高める可能性を検討する。 2つの並列完全接続ニューラルネットワーク(FCNN)を持つMLベースの新しいローカライゼーションパイプラインを解析する。 第1のFCNNは、瞬時空間共分散行列を取り、角情報を取り、第2のFCNNはチャネルインパルス応答を取り、遅延情報を取り込む。 これら2つのFCNNの推定座標を融合させ,さらなる精度向上を図る。 ローカライゼーションアルゴリズムをテストするために,3.7GHzのMIMOテストベッドを用いた室内測定を行った。 測定シナリオでは,提案したパイプラインは,遅延情報と角情報を組み合わせることで,センチメートルレベルの精度を実現することができる。

High-precision cellular-based localization is one of the key technologies for next-generation communication systems. In this paper, we investigate the potential of applying machine learning (ML) to a massive multiple-input multiple-output (MIMO) system to enhance localization accuracy. We analyze a new ML-based localization pipeline that has two parallel fully connected neural networks (FCNN). The first FCNN takes the instantaneous spatial covariance matrix to capture angular information, while the second FCNN takes the channel impulse responses to capture delay information. We fuse the estimated coordinates of these two FCNNs for further accuracy improvement. To test the localization algorithm, we performed an indoor measurement campaign with a massive MIMO testbed at 3.7GHz. In the measured scenario, the proposed pipeline can achieve centimeter-level accuracy by combining delay and angular information.
翻訳日:2023-03-08 15:58:27 公開日:2023-03-07
# 識別学習に最適化された音声分離のための多次元・多スケールモデリング

Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative Learning ( http://arxiv.org/abs/2303.03737v1 )

ライセンス: Link先を確認
Zhaoxi Mu, Xinyu Yang, Wenjing Zhu(参考訳) Transformerは、グローバルな特徴を捉える能力の恩恵を受けて、音声分離における高度なパフォーマンスを示している。 しかし、音声分離における局所的特徴と音声系列のチャネル情報も重要である。 本稿では,音声分離のためのISCIT(Intra-SE-Conformer and Inter-Transformer)という新しい手法を提案する。 具体的には,複数次元とスケールの音声シーケンスをモデル化する新しいネットワークse-conformerを設計し,dual-path音声分離フレームワークに適用する。 さらに,分離ネットワークの中間ブロックからの情報を選択的に活用することにより,分離効果を向上させるマルチブロック特徴集合を提案する。 一方,話者が類似した音声を持つ場合の低性能問題に対処するため,発話分離モデルを最適化する話者類似度判別損失を提案する。 ベンチマークデータセットのWSJ0-2mixとWHAM!の実験結果は、ICCITが最先端の結果を得ることができることを示している。

Transformer has shown advanced performance in speech separation, benefiting from its ability to capture global features. However, capturing local features and channel information of audio sequences in speech separation is equally important. In this paper, we present a novel approach named Intra-SE-Conformer and Inter-Transformer (ISCIT) for speech separation. Specifically, we design a new network SE-Conformer that can model audio sequences in multiple dimensions and scales, and apply it to the dual-path speech separation framework. Furthermore, we propose Multi-Block Feature Aggregation to improve the separation effect by selectively utilizing information from the intermediate blocks of the separation network. Meanwhile, we propose a speaker similarity discriminative loss to optimize the speech separation model to address the problem of poor performance when speakers have similar voices. Experimental results on the benchmark datasets WSJ0-2mix and WHAM! show that ISCIT can achieve state-of-the-art results.
翻訳日:2023-03-08 15:58:13 公開日:2023-03-07
# 雑音・残響環境における音声分離のためのマルチステージトリプルパス法

A Multi-Stage Triple-Path Method for Speech Separation in Noisy and Reverberant Environments ( http://arxiv.org/abs/2303.03732v1 )

ライセンス: Link先を確認
Zhaoxi Mu, Xinyu Yang, Xiangyuan Yang, Wenjing Zhu(参考訳) 雑音・残響環境においては,従来手法が設計・最適化されていないため,深層学習に基づく音声分離手法の性能は劇的に低下する。 そこで本研究では,雑音や残響環境における難解な音声分離問題を3つのサブプロブレムに分解する,多段階のエンドツーエンド学習手法を提案する。 解空間を縮小することにより、音声分離モデルの最適解を求める確率と速度を改善する。 さらに、時間領域における音声系列のチャネル情報は音声分離に不可欠であるため、音声系列のチャネル次元をモデル化できる3重パス構造を提案する。 実験の結果, 提案手法は, モデルパラメータインクリメントを小さくすることで, 音声分離モデルの性能を向上できることがわかった。

In noisy and reverberant environments, the performance of deep learning-based speech separation methods drops dramatically because previous methods are not designed and optimized for such situations. To address this issue, we propose a multi-stage end-to-end learning method that decouples the difficult speech separation problem in noisy and reverberant environments into three sub-problems: speech denoising, separation, and de-reverberation. The probability and speed of searching for the optimal solution of the speech separation model are improved by reducing the solution space. Moreover, since the channel information of the audio sequence in the time domain is crucial for speech separation, we propose a triple-path structure capable of modeling the channel dimension of audio sequences. Experimental results show that the proposed multi-stage triple-path method can improve the performance of speech separation models at the cost of little model parameter increment.
翻訳日:2023-03-08 15:57:56 公開日:2023-03-07
# LORE:テーブル構造認識のための論理的位置回帰ネットワーク

LORE: Logical Location Regression Network for Table Structure Recognition ( http://arxiv.org/abs/2303.03730v1 )

ライセンス: Link先を確認
Hangdi Xing, Feiyu Gao, Rujiao Long, Jiajun Bu, Qi Zheng, Liangcheng Li, Cong Yao, Zhi Yu(参考訳) テーブル構造認識(tsr)は、画像中のテーブルを機械理解可能なフォーマットに抽出することを目的としている。 近年の手法では,検出されたセルボックスの隣接関係を予測したり,テーブル画像から対応するマークアップシーケンスを生成することを学習することでこの問題を解決している。 しかし、テーブル構造を復元するために追加のヒューリスティックなルールをカウントするか、膨大なトレーニングデータと時間を要するシーケンシャルデコーダを必要とする。 本稿では,代替パラダイムを提案する。 我々は、論理的位置回帰問題としてTSRをモデル化し、論理的位置回帰とテーブルセルの空間的位置回帰を組み合わせた論理的位置回帰ネットワークであるLOREという新しいTSRフレームワークを提案する。 提案するloreは概念的にシンプルで、トレーニングが簡単で、他のパラダイムのtsrモデルよりも正確です。 標準ベンチマークによる実験は、loreが常に先行技術を上回ることを示している。 コードはhttps:// github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LORE-TSRで公開されている。

Table structure recognition (TSR) aims at extracting tables in images into machine-understandable formats. Recent methods solve this problem by predicting the adjacency relations of detected cell boxes, or learning to generate the corresponding markup sequences from the table images. However, they either count on additional heuristic rules to recover the table structures, or require a huge amount of training data and time-consuming sequential decoders. In this paper, we propose an alternative paradigm. We model TSR as a logical location regression problem and propose a new TSR framework called LORE, standing for LOgical location REgression network, which for the first time combines logical location regression together with spatial location regression of table cells. Our proposed LORE is conceptually simpler, easier to train and more accurate than previous TSR models of other paradigms. Experiments on standard benchmarks demonstrate that LORE consistently outperforms prior arts. Code is available at https:// github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LORE-TSR.
翻訳日:2023-03-08 15:57:43 公開日:2023-03-07
# スケルトンに基づく行動認識のための学習識別表現

Learning Discriminative Representations for Skeleton Based Action Recognition ( http://arxiv.org/abs/2303.03729v1 )

ライセンス: Link先を確認
Huanyu Zhou, Qingjie Liu, Yunhong Wang(参考訳) 人間の行動認識は、ビデオのセグメントから人間の行動のカテゴリを分類することを目的としている。 近年, 骨格表現はRGBフレームなどの他のモダリティよりも効率的で堅牢であるため, GCNベースのモデルの設計に没頭して, 作業を行うスケルトンの特徴を抽出している。 しかし、骨格データを利用する際には、関連する項目などの重要な手がかりも取り除かれる。 その結果、区別が困難で、誤分類される傾向がある曖昧な行動が発生する。 この問題を軽減するために,空間的時間的疎結合とコントラスト的特徴精錬からなる補助的特徴精錬ヘッド(FRヘッド)を提案し,骨格の識別的表現を得る。 異常サンプルは特徴空間で動的に発見され、校正される。 さらに、FRヘッドはGCNの様々な段階に課せられ、より強力な監督のための多段改良が図られた。 NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットに対して大規模な実験を行った。 提案したモデルでは,最先端手法による競合結果が得られ,あいまいなサンプルの識別に役立てることができる。

Human action recognition aims at classifying the category of human action from a segment of a video. Recently, people dive into designing GCN-based models to extract features from skeletons for performing this task, because skeleton representations are much efficient and robust than other modalities such as RGB frames. However, when employing the skeleton data, some important clues like related items are also dismissed. It results in some ambiguous actions that are hard to be distinguished and tend to be misclassified. To alleviate this problem, we propose an auxiliary feature refinement head (FR Head), which consists of spatial-temporal decoupling and contrastive feature refinement, to obtain discriminative representations of skeletons. Ambiguous samples are dynamically discovered and calibrated in the feature space. Furthermore, FR Head could be imposed on different stages of GCNs to build a multi-level refinement for stronger supervision. Extensive experiments are conducted on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets. Our proposed models obtain competitive results from state-of-the-art methods and can help to discriminate those ambiguous samples.
翻訳日:2023-03-08 15:57:25 公開日:2023-03-07
# 複合時間スタンプイベントストリームの高速・マルチアスペクトマイニング

Fast and Multi-aspect Mining of Complex Time-stamped Event Streams ( http://arxiv.org/abs/2303.03789v1 )

ライセンス: Link先を確認
Kota Nakamura, Yasuko Matsubara, Koki Kawabata, Yuhei Umeda, Yuichiro Wada and Yasushi Sakurai(参考訳) オンラインショッピングログ (item, price, brand, time) やローカルモビリティアクティビティ (pick-up and drop-off location, time) など,さまざまな属性を備えた時間進化イベントの巨大なオンラインストリームを,どのようにして,大規模で動的高次テンソルストリームを要約すればよいか? 隠れたパターンやルール、異常をどうやって見るのか? 我々は,高次テンソルストリーム上の効率的かつ効果的な手法であるcubescopeを提案するため,'regimes'と'components'という2種類のパターンに注目した。 具体的には、突然の不連続を識別し、異なる動的パターン(例えば、平日、ウィークエンド、ホリデーパターン)を認識する。 各制度では、すべての属性(アイテム、価格、ブランド、時間など)に対して多方向の要約を行い、潜在グループ(アイテム/ブランドグループなど)とその関係を表す隠れた'コンポーネント'を発見する。 簡潔だが効果的な要約のおかげで、CubeScopeは異常の突然の出現を検出し、実際に発生する異常の種類を特定することもできる。 提案手法は以下の特性を有する。 (a) 実効性: 動的マルチアスペクトパターン、すなわちレジームとコンポーネントをキャプチャし、統計的にすべての事象を要約する。 b) 一般に,データ圧縮,パターン発見,および様々なテンソルストリームの異常検出に成功させるには,実用的である。 (c)スケーラブル:我々のアルゴリズムは,データストリームの長さと次元に依存しない。 実データセットに関する広範な実験は、立方体スコープが有意義なパターンや異常を正しく発見し、精度と実行速度に関して最先端の手法を一貫して上回っていることを示している。

Given a huge, online stream of time-evolving events with multiple attributes, such as online shopping logs: (item, price, brand, time), and local mobility activities: (pick-up and drop-off locations, time), how can we summarize large, dynamic high-order tensor streams? How can we see any hidden patterns, rules, and anomalies? Our answer is to focus on two types of patterns, i.e., ''regimes'' and ''components'', for which we present CubeScope, an efficient and effective method over high-order tensor streams. Specifically, it identifies any sudden discontinuity and recognizes distinct dynamical patterns, ''regimes'' (e.g., weekday/weekend/holiday patterns). In each regime, it also performs multi-way summarization for all attributes (e.g., item, price, brand, and time) and discovers hidden ''components'' representing latent groups (e.g., item/brand groups) and their relationship. Thanks to its concise but effective summarization, CubeScope can also detect the sudden appearance of anomalies and identify the types of anomalies that occur in practice. Our proposed method has the following properties: (a) Effective: it captures dynamical multi-aspect patterns, i.e., regimes and components, and statistically summarizes all the events; (b) General: it is practical for successful application to data compression, pattern discovery, and anomaly detection on various types of tensor streams; (c) Scalable: our algorithm does not depend on the length of the data stream and its dimensionality. Extensive experiments on real datasets demonstrate that CubeScope finds meaningful patterns and anomalies correctly, and consistently outperforms the state-of-the-art methods as regards accuracy and execution speed.
翻訳日:2023-03-08 15:51:33 公開日:2023-03-07
# 好奇性クロスエントロピー法によるサンプル効率実時間計画とコントラスト学習

Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method and Contrastive Learning ( http://arxiv.org/abs/2303.03787v1 )

ライセンス: Link先を確認
Mostafa Kotb, Cornelius Weber, Stefan Wermter(参考訳) 実時間計画を伴うモデルベース強化学習(MBRL)は、移動および操作制御タスクにおいて大きな可能性を示している。 しかし、CEM(Cross-Entropy Method)のような既存の計画手法は、複雑な高次元環境に対してうまくスケールしない。 これらの計画手法は、計画の地平線に対する累積的外因的な報酬を最大化することだけを目的としている。 さらに、観測のないコンパクトな潜伏空間内での計画は好奇心に基づく本質的な動機付けの使用を困難にしている。 CEMアルゴリズムの改良版であるCuriosity CEM (CCEM)を提案する。 提案手法は,計画地平線上の状態行動q値の総和を最大化し,これらのq値が将来の外因的および内因的報酬を推定する。 さらに,本モデルではコントラスト表現学習を用いて遅延表現を効率的に学習する。 DeepMind Control スイートによる画像ベース連続制御タスクの実験では、CCEM は以前の MBRL アルゴリズムよりも広いマージンでサンプリング効率が良く、最良のモデルレス RL 法と比較できる。

Model-based reinforcement learning (MBRL) with real-time planning has shown great potential in locomotion and manipulation control tasks. However, the existing planning methods, such as the Cross-Entropy Method (CEM), do not scale well to complex high-dimensional environments. One of the key reasons for underperformance is the lack of exploration, as these planning methods only aim to maximize the cumulative extrinsic reward over the planning horizon. Furthermore, planning inside the compact latent space in the absence of observations makes it challenging to use curiosity-based intrinsic motivation. We propose Curiosity CEM (CCEM), an improved version of the CEM algorithm for encouraging exploration via curiosity. Our proposed method maximizes the sum of state-action Q values over the planning horizon, in which these Q values estimate the future extrinsic and intrinsic reward, hence encouraging reaching novel observations. In addition, our model uses contrastive representation learning to efficiently learn latent representations. Experiments on image-based continuous control tasks from the DeepMind Control suite show that CCEM is by a large margin more sample-efficient than previous MBRL algorithms and compares favorably with the best model-free RL methods.
翻訳日:2023-03-08 15:51:01 公開日:2023-03-07
# テスト時間適応のための不確実性推定付き擬似ラベルの誘導

Guiding Pseudo-labels with Uncertainty Estimation for Test-Time Adaptation ( http://arxiv.org/abs/2303.03770v1 )

ライセンス: Link先を確認
Mattia Litrico, Alessio Del Bue, Pietro Morerio(参考訳) 標準Unsupervised Domain Adaptation (UDA)メソッドは、適応中にソースデータとターゲットデータの両方が利用可能であると仮定する。 本研究では,モデルがソースデータにアクセスすることなく対象領域に適応する UDA の特定のケースであるテスト時間適応 (TTA) について検討する。 本稿では,疑似ラベルに必然的に影響を及ぼす雑音に対するロバスト性をもたらす損失重み付け戦略に基づくtta設定のための新しい手法を提案する。 分類損失は、その不確かさを推定して測定した擬似ラベルの信頼性に基づいて再重み付けされる。 このような重み付け戦略により、疑似ラベルは近隣のサンプルから知識を集約することで徐々に洗練される。 さらに、自己監督型コントラストフレームワークを目標空間正規化器として利用して、そのような知識集約を強化する。 疑似ラベルのノイズが存在する場合でも,同じクラスを共有するサンプルの負のペアを識別し排除するための,新しい負のペア排除戦略を提案する。 提案手法は,3つの主要ベンチマークにおいて,従来の手法を大差で上回っている。 我々は、visda-cとdomainnetの2つのベンチマークおよび1つのソース設定で+12.3\%、マルチターゲット適応で+6.6\%のパフォーマンス向上で、新しいtta state-of-the-artをvisda-cとdomainnetに設定した。 さらなる分析により、提案手法はノイズに対して頑健であることが示され、その結果、最先端手法に比べてはるかに正確な擬似ラベルが得られる。

Standard Unsupervised Domain Adaptation (UDA) methods assume the availability of both source and target data during the adaptation. In this work, we investigate the Test-Time Adaptation (TTA), a specific case of UDA where a model is adapted to a target domain without access to source data. We propose a novel approach for the TTA setting based on a loss reweighting strategy that brings robustness against the noise that inevitably affects the pseudo-labels. The classification loss is reweighted based on the reliability of the pseudo-labels that is measured by estimating their uncertainty. Guided by such reweighting strategy, the pseudo-labels are progressively refined by aggregating knowledge from neighbouring samples. Furthermore, a self-supervised contrastive framework is leveraged as a target space regulariser to enhance such knowledge aggregation. A novel negative pairs exclusion strategy is proposed to identify and exclude negative pairs made of samples sharing the same class, even in presence of some noise in the pseudo-labels. Our method outperforms previous methods on three major benchmarks by a large margin. We set the new TTA state-of-the-art on VisDA-C and DomainNet with a performance gain of +1.8\% on both benchmarks and on PACS with +12.3\% in the single-source setting and +6.6\% in\ multi-target adaptation. Additional analyses demonstrate that the proposed approach is robust to the noise, which results in significantly more accurate pseudo-labels compared to state-of-the-art approaches.
翻訳日:2023-03-08 15:50:39 公開日:2023-03-07
# mono-implicit runge-kutta法によるハミルトン系の学習

Learning Hamiltonian Systems with Mono-Implicit Runge-Kutta Methods ( http://arxiv.org/abs/2303.03769v1 )

ライセンス: Link先を確認
H{\aa}kon Noren(参考訳) 数値積分器は、通常の微分方程式(ODE)のベクトル場をデータから近似するためにニューラルネットワークを訓練する際に補間条件を形成するのに使うことができる。 Runge-Kutta法のような数値的な一段階スキームを用いて、ODEの時間的離散化を既知のベクトル場と近似すると、対称性や安定性などの特性が研究される。 そこで本研究では,単一単純ランゲ・クッタ法を高次に使用することにより,ハミルトンニューラルネットワークを小さなデータセット上で正確にトレーニングできることを示す。 これは、データからフェルミ・パスタ・ウラム・チンゴシステムに加えてカオス二重振り子のハミルトニアンが学習される数値実験によって証明される。

Numerical integrators could be used to form interpolation conditions when training neural networks to approximate the vector field of an ordinary differential equation (ODE) from data. When numerical one-step schemes such as the Runge-Kutta methods are used to approximate the temporal discretization of an ODE with a known vector field, properties such as symmetry and stability are much studied. Here, we show that using mono-implicit Runge-Kutta methods of high order allows for accurate training of Hamiltonian neural networks on small datasets. This is demonstrated by numerical experiments where the Hamiltonian of the chaotic double pendulum in addition to the Fermi-Pasta-Ulam-Tsingou system is learned from data.
翻訳日:2023-03-08 15:50:13 公開日:2023-03-07
# 3次元人物位置推定のためのプロアクティブマルチカメラコラボレーション

Proactive Multi-Camera Collaboration For 3D Human Pose Estimation ( http://arxiv.org/abs/2303.03767v1 )

ライセンス: Link先を確認
Hai Ci, Mickel Liu, Xuehai Pan, Fangwei Zhong, Yizhou Wang(参考訳) 本稿では,動的集団における3次元ポーズ推定におけるプロアクティブマルチカメラ協調のためのマルチエージェント強化学習(marl)方式を提案する。 人間のモーションキャプチャー(MoCap)のための従来の固定視点マルチカメラソリューションは、キャプチャ空間に限られており、ダイナミックオクルージョンの影響を受けやすい。 アクティブカメラアプローチ カメラポーズを積極的に制御し、3次元再構成のための最適な視点を見つける。 しかし、現在の手法は、クレジット割り当てと環境ダイナミクスの課題に直面している。 これらの課題に対処するため,提案手法では,3次元再構成の精度を共有報酬として用いることで,収束性を改善し,マルチエージェントのクレジット割り当て問題を緩和する新しいコラボレーティブ・トリアングリゲーション・リワード(CTCR)を提案する。 さらに,複数の世界ダイナミクス学習タスクと共同でモデルを訓練し,環境のダイナミクスを把握し,咬合回避のための予測行動を促す。 提案手法を4つの光現実性UE4環境で評価し,妥当性と一般化性を確保する。 実験結果から,本手法はカメラと人間の数が異なる様々なシナリオにおいて,固定的,アクティブなベースラインよりも優れていた。

This paper presents a multi-agent reinforcement learning (MARL) scheme for proactive Multi-Camera Collaboration in 3D Human Pose Estimation in dynamic human crowds. Traditional fixed-viewpoint multi-camera solutions for human motion capture (MoCap) are limited in capture space and susceptible to dynamic occlusions. Active camera approaches proactively control camera poses to find optimal viewpoints for 3D reconstruction. However, current methods still face challenges with credit assignment and environment dynamics. To address these issues, our proposed method introduces a novel Collaborative Triangulation Contribution Reward (CTCR) that improves convergence and alleviates multi-agent credit assignment issues resulting from using 3D reconstruction accuracy as the shared reward. Additionally, we jointly train our model with multiple world dynamics learning tasks to better capture environment dynamics and encourage anticipatory behaviors for occlusion avoidance. We evaluate our proposed method in four photo-realistic UE4 environments to ensure validity and generalizability. Empirical results show that our method outperforms fixed and active baselines in various scenarios with different numbers of cameras and humans.
翻訳日:2023-03-08 15:50:00 公開日:2023-03-07
# 視覚言語画像理解におけるグラフニューラルネットワーク:サーベイ

Graph Neural Networks in Vision-Language Image Understanding: A Survey ( http://arxiv.org/abs/2303.03761v1 )

ライセンス: Link先を確認
Henry Senior, Gregory Slabaugh, Shanxin Yuan, Luca Rossi(参考訳) 2次元画像理解はコンピュータビジョンにおける複雑な問題であるが、人間レベルのシーン理解を提供する鍵を握っている。 イメージ内のオブジェクトを識別するよりも、その代わりにシーンを理解しようとします。 この問題に対する解決策は、画像キャプション、視覚質問応答(vqa)、画像検索など、さまざまなタスクの基盤を形成する。 グラフは画像内のオブジェクト間のリレーショナルな配置を表現する自然な方法であり、近年ではグラフニューラルネットワーク(GNN)が多くの2次元画像理解パイプラインの標準コンポーネントとなり、特にVQAグループにおける中核的なアーキテクチャコンポーネントとなっている。 本稿では,この急速に発展する分野を概観し,2次元画像理解手法で用いられるグラフタイプの分類法,この領域で使用されるgnnモデルの包括的リスト,今後の発展の可能性のロードマップを提供する。 我々の知る限りでは、GNNをアーキテクチャの主部分として活用することに焦点を当てた画像キャプション、視覚的質問応答、画像検索技術をカバーする、初めての総合的な調査である。

2D image understanding is a complex problem within Computer Vision, but it holds the key to providing human level scene comprehension. It goes further than identifying the objects in an image, and instead it attempts to understand the scene. Solutions to this problem form the underpinning of a range of tasks, including image captioning, Visual Question Answering (VQA), and image retrieval. Graphs provide a natural way to represent the relational arrangement between objects in an image, and thus in recent years Graph Neural Networks (GNNs) have become a standard component of many 2D image understanding pipelines, becoming a core architectural component especially in the VQA group of tasks. In this survey, we review this rapidly evolving field and we provide a taxonomy of graph types used in 2D image understanding approaches, a comprehensive list of the GNN models used in this domain, and a roadmap of future potential developments. To the best of our knowledge, this is the first comprehensive survey that covers image captioning, visual question answering, and image retrieval techniques that focus on using GNNs as the main part of their architecture.
翻訳日:2023-03-08 15:49:41 公開日:2023-03-07
# 脳MRIにおける教師なし異常検出のためのパッチ付き拡散モデル

Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI ( http://arxiv.org/abs/2303.03758v1 )

ライセンス: Link先を確認
Finn Behrendt, Debayan Bhattacharya, Julia Kr\"uger, Roland Opfer, Alexander Schlaefer(参考訳) 脳mriスキャンの病理を検出するための教師付き深層学習技術の使用は、脳解剖学の多様性と注釈付きデータセットの必要性のために困難である。 もうひとつのアプローチは、参照表現を生成するために、正常な脳のサンプルレベルのラベルのみを必要とする、教師なしの異常検出を使用することである。 この参照表現は、不健康な脳解剖をピクセル単位で比較して異常を識別することができる。 これを実現するためには、正常な脳の解剖学的に一貫したMRIスキャンを作成するために、生成モデルが必要である。 近年の拡散モデルではこの課題に期待が持たれているが、人間の脳の複雑な構造を正確に生成することは依然として課題である。 本稿では、空間的文脈を用いて、健康な脳解剖のパッチベース推定として拡散モデルの生成タスクを再構築し、再構築を改善する手法を提案する。 腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。

The use of supervised deep learning techniques to detect pathologies in brain MRI scans can be challenging due to the diversity of brain anatomy and the need for annotated data sets. An alternative approach is to use unsupervised anomaly detection, which only requires sample-level labels of healthy brains to create a reference representation. This reference representation can then be compared to unhealthy brain anatomy in a pixel-wise manner to identify abnormalities. To accomplish this, generative models are needed to create anatomically consistent MRI scans of healthy brains. While recent diffusion models have shown promise in this task, accurately generating the complex structure of the human brain remains a challenge. In this paper, we propose a method that reformulates the generation task of diffusion models as a patch-based estimation of healthy brain anatomy, using spatial context to guide and improve reconstruction. We evaluate our approach on data of tumors and multiple sclerosis lesions and demonstrate a relative improvement of 25.1% compared to existing baselines.
翻訳日:2023-03-08 15:49:23 公開日:2023-03-07
# 慣性位置決めのための深層学習:調査

Deep Learning for Inertial Positioning: A Survey ( http://arxiv.org/abs/2303.03757v1 )

ライセンス: Link先を確認
Changhao Chen(参考訳) 慣性センサーはスマートフォン、ドローン、ロボット、IoTデバイスに広くデプロイされている。 ユビキタスでロバストなローカライゼーションにおいて重要であるため、慣性センサーによる位置決めは、パーソナルナビゲーション、ロケーションベースのセキュリティ、ヒューマンデバイスインタラクションなど、多くのアプリケーションにおいて重要である。 しかし、低コストのMEMS慣性センサの計測は様々な不可避誤差源で破損するため、慣性位置決めはいわゆるエラードリフト問題に悩まされ、従来の慣性ナビゲーションアルゴリズムに二重に統合された場合、非有界ドリフトが発生する。 近年,センサデータや計算能力の増大に伴い,深層学習の急速な発展が,慣性位置決め問題に対処するための深層学習の導入に多くの研究成果をもたらしている。 関連する文献は、モバイルコンピューティング、ロボット工学、機械学習の分野にまたがる。 本稿では,深層学習に基づく慣性測位に関する研究を包括的にレビューし,異なる分野からの努力を結びつけ,深層学習をセンサ校正,測位誤差ドリフト低減,センサ融合にどのように適用できるかを解説する。 最後に、既存の作業のメリットと限界についての洞察を提供し、この方向への今後の機会を示します。

Inertial sensor has been widely deployed on smartphones, drones, robots and IoT devices. Due to its importance in ubiquitous and robust localization, inertial sensor based positioning is key in many applications, including personal navigation, location based security, and human-device interaction. However, inertial positioning suffers from the so-called error drifts problem, as the measurements of low-cost MEMS inertial sensor are corrupted with various inevitable error sources, leading to unbounded drifts when being integrated doubly in traditional inertial navigation algorithms. Recently, with increasing sensor data and computational power, the fast developments in deep learning have spurred a large amount of research works in introducing deep learning to tackle the problem of inertial positioning. Relevant literature spans from the areas of mobile computing, robotics and machine learning. This article comprehensively reviews relevant works on deep learning based inertial positioning, connects the efforts from different fields, and covers how deep learning can be applied to solve sensor calibration, positioning error drifts reduction and sensor fusion. Finally, we provide insights on the benefits and limitations of existing works, and indicate the future opportunities in this direction.
翻訳日:2023-03-08 15:49:06 公開日:2023-03-07
# dlt:離散連続拡散レイアウト変換器を用いた条件付きレイアウト生成

DLT: Conditioned layout generation with Joint Discrete-Continuous Diffusion Layout Transformer ( http://arxiv.org/abs/2303.03755v1 )

ライセンス: Link先を確認
Elad Levi, Eli Brosh, Mykola Mykhailych, Meir Perez(参考訳) ビジュアルレイアウトの生成はグラフィックデザインの重要な要素である。 コンポーネント属性の部分的なサブセットにレイアウトを生成する能力は、ユーザインタラクションを含む現実世界のアプリケーションにとって重要である。 近年,拡散モデルは様々な領域において高品質な生成性能を示した。 しかし、離散的な(クラス)と連続的な(位置、サイズ)属性の混合からなるレイアウトの自然な表現に拡散モデルを適用する方法は不明である。 条件付きレイアウト生成問題に対処するために,離散連続拡散モデルDLTを導入する。 DLTはトランスフォーマーベースのモデルであり、フレキシブルな条件付け機構を持ち、全てのレイアウトコンポーネントクラス、場所、サイズのいずれかのサブセットを条件付けすることができる。 提案手法は,様々なレイアウト生成データセット上で,様々なメトリクスや条件設定に対して,最先端の生成モデルより優れている。 また,提案する条件付け機構と統合連続拡散プロセスの有効性を検証する。 このジョイントプロセスは、多種多様な離散連続的生成タスクに組み込むことができる。

Generating visual layouts is an essential ingredient of graphic design. The ability to condition layout generation on a partial subset of component attributes is critical to real-world applications that involve user interaction. Recently, diffusion models have demonstrated high-quality generative performances in various domains. However, it is unclear how to apply diffusion models to the natural representation of layouts which consists of a mix of discrete (class) and continuous (location, size) attributes. To address the conditioning layout generation problem, we introduce DLT, a joint discrete-continuous diffusion model. DLT is a transformer-based model which has a flexible conditioning mechanism that allows for conditioning on any given subset of all the layout component classes, locations, and sizes. Our method outperforms state-of-the-art generative models on various layout generation datasets with respect to different metrics and conditioning settings. Additionally, we validate the effectiveness of our proposed conditioning mechanism and the joint continuous-diffusion process. This joint process can be incorporated into a wide range of mixed discrete-continuous generative tasks.
翻訳日:2023-03-08 15:48:44 公開日:2023-03-07
# 携帯型ナノプローブにおける単一分子による量子温度測定

Quantum thermometry with single molecules in portable nanoprobes ( http://arxiv.org/abs/2303.03752v1 )

ライセンス: Link先を確認
V. Esteso, R. Duquennoy, R. C. Ng, M. Colautti, P. Lombardi, G. Arregui, E. Chavez-\'Angel, C. M. Sotomayor-Torres, P. D. Garc\'ia, M. Hilke, and C. Toninelli(参考訳) 熱輸送を理解することは、例えばマイクロエレクトロニクスにおける熱管理や基礎科学のための効率的な戦略を開発するのに重要である。 しかし、ナノ構造環境や極低温環境における温度測定は、高い感性と非侵襲的アプローチを必要とする困難な課題である。 本稿では,分子2レベル量子システムに基づく携帯型ナノサーモメータについて述べる。温度は3kから30kで,温度はmk,空間分解能はそれぞれ$\mu$mの順に良好である。 パターン状シリコン膜の熱伝導率を推定し, この分子温度計のナノ構造への影響を検証した。 さらに,試料上に堆積した全温度計の同時分光分析により,パターン面の二次元温度マッピングを示す。 これらの結果は、この分子温度計が低温における熱的性質と関連する現象を探索する可能性を示している。

Understanding heat transport is relevant to develop efficient strategies for thermal management in microelectronics for instance, as well as for fundamental science purposes. However, measuring temperatures in nanostructured environments and in cryogenic conditions remains a challenging task, that requires both high sentitivity and a non-invasive approach. Here we present a portable nanothermometer based on a molecular two-level quantum system that operates in the 3 - 30 K temperature range, with excellent temperature and spatial resolutions on the order of mK and $\mu$m, respectively. We validate the performance of this molecular thermometer on nanostructures, by estimating the thermal conductivity of a patterned silicon membrane. In addition, we demonstrate the two-dimensional temperature mapping of a patterned surface via the simultaneous spectroscopy of all thermometers deposited on a sample. These results demonstrate the potential of this molecular thermometer to explore thermal properties and related phenomena at cryogenic temperatures.
翻訳日:2023-03-08 15:48:28 公開日:2023-03-07
# オープン2レベル量子系の熱化における確率エントロピー生成の明確な病理

Apparent pathologies in stochastic entropy production in the thermalisation of an open two-level quantum system ( http://arxiv.org/abs/2303.03818v1 )

ライセンス: Link先を確認
Jonathan Dexter and Ian J. Ford(参考訳) 本研究では,リンドブラッド作用素の昇降と昇降の最小セットを用いた量子状態拡散の枠組みを用いて,開2次量子系の熱的統計状態への緩和によるエントロピー効果について検討する。 確率的エントロピー生成の環境成分の変化の持続的な非ゼロ平均変化率を一般状態から開始する熱化が伴うことを示す。 この熱力学的シグネチャは、ランダムに進化する状態の還元密度行列$\rho$の精製と結びつくことができ、より頻繁に考えられるアンサンブル平均$\rho$の不純物とは対照的である。 このシステムは、純度が達成されれば確率エントロピーがゼロとなる定常統計を採用する。 しかし、ある座標集合を用いて$\rho$を表現した場合、確率エントロピー生成の計算における明らかな病理学的難しさが現れるが、これらは異なる集合を選択することで取り除くことができる。 オープン量子システムのモデリングのためのフレームワークは、十分に熱力学と動的な振る舞いを提供するために慎重に選択されなければならないと結論づける。

We investigate the entropic consequences of the relaxation of an open two-level quantum system towards a thermalised statistical state, using a framework of quantum state diffusion with a minimal set of raising and lowering Lindblad operators. We demonstrate that thermalisation starting from a general state is accompanied by a persistent non-zero mean rate of change of the environmental component of stochastic entropy production. This thermodynamic signature can be associated with the purification of the reduced density matrix $\rho$ of the randomly evolving state, to be contrasted with the impurity of the more often considered ensemble average of $\rho$. The system adopts stationary statistics, with zero stochastic entropy production, once purity has been achieved. However, we show that apparent pathological mathematical difficulties in the computation of stochastic entropy production emerge if $\rho$ is represented using a certain set of coordinates, though these can be removed by choosing a different set. We conclude that frameworks for modelling open quantum systems must be carefully selected to provide satisfactory thermodynamic as well as dynamic behaviour.
翻訳日:2023-03-08 15:42:11 公開日:2023-03-07
# 眼底画像の局所的および空間的異常検出

Region and Spatial Aware Anomaly Detection for Fundus Images ( http://arxiv.org/abs/2303.03817v1 )

ライセンス: Link先を確認
Jingqi Niu, Shiwen Dong, Qinji Yu, Kang Dang and Xiaowei Ding(参考訳) 近年,眼疾患の診断において異常検出が注目されている。 眼底画像における既存の異常検出研究のほとんどは、血管、光学カップ、円板などの網膜構造に比較的大きな異常点を有する。 本稿では, 局所領域と長距離空間情報を取得し, 正規構造における偽陽性を低減することを目的とした, 地底画像の領域認識異常検出(ReSAD)手法を提案する。 ReSADは、訓練済みのモデルを転送して、通常のファンドイメージの特徴を抽出し、Rerea-and-Spatial-Aware Feature Combination Module (ReSC)を適用して、メモリバンクを構築する。 テストフェーズでは、ReSADはメモリバンクを使用して配布外サンプルを異常として判定する。 提案手法は,2つの公開ベンチマークデータセット上で,既存のファンドス画像の異常検出方法よりも優れていた。

Recently anomaly detection has drawn much attention in diagnosing ocular diseases. Most existing anomaly detection research in fundus images has relatively large anomaly scores in the salient retinal structures, such as blood vessels, optical cups and discs. In this paper, we propose a Region and Spatial Aware Anomaly Detection (ReSAD) method for fundus images, which obtains local region and long-range spatial information to reduce the false positives in the normal structure. ReSAD transfers a pre-trained model to extract the features of normal fundus images and applies the Region-and-Spatial-Aware feature Combination module (ReSC) for pixel-level features to build a memory bank. In the testing phase, ReSAD uses the memory bank to determine out-of-distribution samples as abnormalities. Our method significantly outperforms the existing anomaly detection methods for fundus images on two publicly benchmark datasets.
翻訳日:2023-03-08 15:41:51 公開日:2023-03-07
# パルスレベルでの量子古典処理とベンチマーク

Quantum-classical processing and benchmarking at the pulse-level ( http://arxiv.org/abs/2303.03816v1 )

ライセンス: Link先を確認
Lior Ella, Lorenzo Leandro, Oded Wertheim, Yoav Romach, Ramon Szmuk, Yoel Knol, Nissim Ofek, Itamar Sivan and Yonatan Cohen(参考訳) NISQ時代の量子コンピュータの実用化と、量子エラー訂正符号を利用したフォールトトレラントな量子コンピュータの実現に向けて、制御ハードウェアやソフトウェアプラットフォームに対するプレスの必要性が浮上した。 特に、古典的な処理を量子処理に統合できるプラットフォームに対する明確な需要が生まれている。 近年の研究では、ゲートレベルで定式化された量子古典処理統合の要件について論じられているが、パルスレベルの議論は欠如しており、極めて重要である。 さらに、パルスレベルで制御システムの具体的な性能ベンチマークを定義することが、必要な量子古典積分の鍵となる。 本研究では,パルスレベルでの量子古典処理の要件を分類し,最近公開された作品を含む様々なユースケースを用いてこれらの要件を実証し,量子制御システムの性能ベンチマークを提案する。 量子プログラムに普遍的な古典処理を組み込むことができ、ベンチマークの一般的な定式化を可能にする包括的パルスレベル言語を利用する。 この作業で定義されたメトリクスは、制御システムを通じて量子コンピューティングの境界を推し進め、関連するメトリクスで低レベルとアプリケーションレベルの実装のギャップを埋めるために、しっかりとした基盤を形成することを期待しています。

Towards the practical use of quantum computers in the NISQ era, as well as the realization of fault-tolerant quantum computers that utilize quantum error correction codes, pressing needs have emerged for the control hardware and software platforms. In particular, a clear demand has arisen for platforms that allow classical processing to be integrated with quantum processing. While recent works discuss the requirements for such quantum-classical processing integration that is formulated at the gate-level, pulse-level discussions are lacking and are critically important. Moreover, defining concrete performance benchmarks for the control system at the pulse-level is key to the necessary quantum-classical integration. In this work, we categorize the requirements for quantum-classical processing at the pulse-level, demonstrate these requirements with a variety of use cases, including recently published works, and propose well-defined performance benchmarks for quantum control systems. We utilize a comprehensive pulse-level language that allows embedding universal classical processing in the quantum program and hence allows for a general formulation of benchmarks. We expect the metrics defined in this work to form a solid basis to continue to push the boundaries of quantum computing via control systems, bridging the gap between low-level and application-level implementations with relevant metrics.
翻訳日:2023-03-08 15:41:36 公開日:2023-03-07
# エントロピー:環境トランスフォーマーとオフラインポリシー最適化

ENTROPY: Environment Transformer and Offline Policy Optimization ( http://arxiv.org/abs/2303.03811v1 )

ライセンス: Link先を確認
Pengqin Wang, Meixin Zhu, Shaojie Shen(参考訳) モデルベース手法は、オフライン強化学習(rl)に効果的なアプローチを提供する。 相互作用経験から環境力学モデルを学び、学習したモデルに基づいてポリシー最適化を行う。 しかし、従来のモデルベースオフラインRL法では長期予測機能が欠如しており、多段階軌道を生成する際に大きなエラーが発生する。 我々は,オフラインデータセットに基づく信頼性の高い長方形トラジェクタを生成可能なシーケンスモデリングアーキテクチャである環境トランスフォーマを開発することで,この問題に対処した。 次に,環境TRansformerにより動的モデルと報酬関数を学習し,オフラインPolicY最適化を行う,新しいモデルベースオフラインRLアルゴリズムであるENTROPYを提案する。 提案手法をmujoco連続制御rl環境上で評価する。 その結果、ENTROPYは最先端のモデルベースおよびモデルフリーのオフラインRL法よりも多種多種多種多様な性能を示し、既存のモデルベースオフライン法と比較してより強力な長期軌道予測能力を示す。

Model-based methods provide an effective approach to offline reinforcement learning (RL). They learn an environmental dynamics model from interaction experiences and then perform policy optimization based on the learned model. However, previous model-based offline RL methods lack long-term prediction capability, resulting in large errors when generating multi-step trajectories. We address this issue by developing a sequence modeling architecture, Environment Transformer, which can generate reliable long-horizon trajectories based on offline datasets. We then propose a novel model-based offline RL algorithm, ENTROPY, that learns the dynamics model and reward function by ENvironment TRansformer and performs Offline PolicY optimization. We evaluate the proposed method on MuJoCo continuous control RL environments. Results show that ENTROPY performs comparably or better than the state-of-the-art model-based and model-free offline RL methods and demonstrates more powerful long-term trajectory prediction capability compared to existing model-based offline methods.
翻訳日:2023-03-08 15:41:14 公開日:2023-03-07
# ビュー合成のためのマルチスケールテンソル分解とレンダリング方程式符号化

Multiscale Tensor Decomposition and Rendering Equation Encoding for View Synthesis ( http://arxiv.org/abs/2303.03808v1 )

ライセンス: Link先を確認
Kang Han, Wei Xiang(参考訳) 捉えた多視点画像からの新規な視点のレンダリングは, 神経放射野の出現以来, かなりの進歩を遂げている。 本稿では,特徴空間のシーンを表現したニューラルラディアンス特徴場(NRFF)と呼ばれる新しいアプローチを提案することにより,ビューレンダリングの質をさらに向上することを目的とする。 まず,学習可能な特徴を整理し,粗大から細スケールまでのシーンを表現するマルチスケールテンソル分解スキームを提案する。 提案するマルチスケール表現の利点として,より正確なシーン形状と外観再構成,単一スケール表現よりも高速な収束などを挙げる。 ビュー依存効果をモデル化するためにビュー方向を符号化する代わりに、提案したマルチスケール表現から予測される異方性球状ガウス混合を用いて特徴空間のレンダリング方程式を符号化する。 The proposed NRFF improves state-of-the-art rendering results by 1 dB in PSNR on the NeRF and NSVF synthetic datasets。 現実世界の戦車や寺院のデータセットでも大幅な改善が見られる。

Rendering novel views from captured multi-view images has made considerable progress since the emergence of the neural radiance field. This paper aims to further advance the quality of view rendering by proposing a novel approach dubbed the neural radiance feature field (NRFF) which represents scenes in the feature space. We first propose a multiscale tensor decomposition scheme to organize learnable features so as to represent scenes from coarse to fine scales. We demonstrate many benefits of the proposed multiscale representation, including more accurate scene shape and appearance reconstruction, and faster convergence compared with the single-scale representation. Instead of encoding view directions to model view-dependent effects, we further propose to encode the rendering equation in the feature space by employing the anisotropic spherical Gaussian mixture predicted from the proposed multiscale representation. The proposed NRFF improves state-of-the-art rendering results by over 1 dB in PSNR on both the NeRF and NSVF synthetic datasets. A significant improvement has also been observed on the real-world Tanks and Temples dataset.
翻訳日:2023-03-08 15:40:49 公開日:2023-03-07
# Lformer: L字型ブロック並列デコードによるテキスト間画像生成

Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding ( http://arxiv.org/abs/2303.03800v1 )

ライセンス: Link先を確認
Jiacheng Li, Longhui Wei, ZongYuan Zhan, Xin He, Siliang Tang, Qi Tian, Yueting Zhuang(参考訳) 生成変換器は、優れた多様性や訓練安定性など、高忠実で高解像度の画像の合成において、その優位性を示している。 しかし、長いトークンシーケンスを自動回帰的に生成する必要があるため、遅い生成の問題に悩まされる。 優れた生成品質を維持しつつ、生成変換器の高速化を図るため、半自己回帰型テキスト画像生成モデルであるLformerを提案する。 Lformerはまずイメージを$h{\times}h$離散トークンにエンコードし、次にこれらのトークンを$h$ミラー化されたL字型ブロックに分割し、各ステップで平行にブロック内のトークンをデコードする。 Lformerは、自己回帰モデルのような以前の文脈に隣接する領域を予測し、加速しながらより安定である。 イメージトークンの2d構造を活用することで、lformerは、優れた生成品質を維持しつつ、既存のトランスフォーマティブベースの方法よりも高速に実現できます。 さらに、事前訓練されたLformerは、微調整の必要なしに画像を編集できる。 画像をリジェネレーションしたり、バウンディングボックスとテキストプロンプトで編集するための初期のステップにロールバックできます。

Generative transformers have shown their superiority in synthesizing high-fidelity and high-resolution images, such as good diversity and training stability. However, they suffer from the problem of slow generation since they need to generate a long token sequence autoregressively. To better accelerate the generative transformers while keeping good generation quality, we propose Lformer, a semi-autoregressive text-to-image generation model. Lformer firstly encodes an image into $h{\times}h$ discrete tokens, then divides these tokens into $h$ mirrored L-shape blocks from the top left to the bottom right and decodes the tokens in a block parallelly in each step. Lformer predicts the area adjacent to the previous context like autoregressive models thus it is more stable while accelerating. By leveraging the 2D structure of image tokens, Lformer achieves faster speed than the existing transformer-based methods while keeping good generation quality. Moreover, the pretrained Lformer can edit images without the requirement for finetuning. We can roll back to the early steps for regeneration or edit the image with a bounding box and a text prompt.
翻訳日:2023-03-08 15:40:30 公開日:2023-03-07
# テンソルネットワークを持つシュウィンガーモデルにおけるCP振動ダッデン相の探索

Exploring the CP-Violating Dashen Phase in the Schwinger Model with Tensor Networks ( http://arxiv.org/abs/2303.03799v1 )

ライセンス: Link先を確認
Lena Funcke, Karl Jansen, Stefan K\"uhn(参考訳) QCDにおけるCP違反ダッデン相の (1+1) 次元類似性に着目して, 行列積状態を持つ2成分シュウィンガーモデルの相構造を数値解析した。 1つのフェルミオンフレーバーの正の質量が他のフェルミオンフレーバーの負の質量に対応する点の周りでモデルをシミュレートし、従来のモンテカルロ法の符号問題に苦しむレジームについて検討する。 以上の結果から, このモデルではCPを侵害するダッデン相転移が進行し, 平均電界の急激な変化と, ピオン凝縮の類似が生じることが示唆された。 体積の関数としての二部交絡エントロピーのスケーリングについて検討し、この遷移が一階ではないことを明確に示す。

We numerically study the phase structure of the two-flavor Schwinger model with matrix product states, focusing on the (1+1)-dimensional analog of the CP-violating Dashen phase in QCD. Simulating the model around the point where the positive mass of one fermion flavor corresponds to the negative mass of the other fermion flavor, we explore a regime afflicted by the sign problem for conventional Monte Carlo techniques. Our results indicate that the model undergoes a CP-violating Dashen phase transition at this point, which manifests itself in abrupt changes of the average electric field and the analog of the pion condensate in the model. Studying the scaling of the bipartite entanglement entropy as a function of the volume, we find clear indications that this transition is not of first order.
翻訳日:2023-03-08 15:40:11 公開日:2023-03-07
# スマートエッジセンサを用いた協調知覚のための外部カメラを用いた移動ロボットポーズ推定

External Camera-based Mobile Robot Pose Estimation for Collaborative Perception with Smart Edge Sensors ( http://arxiv.org/abs/2303.03797v1 )

ライセンス: Link先を確認
Simon Bultmann, Raphael Memmesheimer, and Sven Behnke(参考訳) 本稿では,移動ロボットのポーズを多視点RGB画像を用いた静的カメラネットワークのアロセントリック座標で推定する手法を提案する。 画像は、深層ニューラルネットワークによって、スマートエッジセンサー上でオンラインで処理され、ロボットを検出し、3Dロボットモデルの独特の位置で定義された2Dキーポイントを推定する。 ロボットキーポイント検出は中央のバックエンドで同期して融合され、ロボットのポーズは再投影エラーのマルチビュー最小化によって推定される。 外部カメラからのポーズ推定により、ロボットのローカライゼーションは、完全に未知の状態(kidnapped robot problem)からアロセントリックマップで初期化され、時間とともにロバストに追跡される。 本研究では,ロボットの内部ナビゲーションスタックと比較して,カメラベース姿勢推定の精度とロバスト性を評価する一連の実験を行い,カメラベース手法が3cm,1{\deg}未満の姿勢誤差を達成し,時間とともにドリフトしないことを示した。 ロボットのポーズを正確に推定すると、その観察は同中心のシーンモデルに融合することができる。 モバイルロボットと静的なスマートエッジセンサーの観察を融合させて, 屋内環境の3Dセマンティックマップを共同で構築する, 実世界のアプリケーションを紹介した。

We present an approach for estimating a mobile robot's pose w.r.t. the allocentric coordinates of a network of static cameras using multi-view RGB images. The images are processed online, locally on smart edge sensors by deep neural networks to detect the robot and estimate 2D keypoints defined at distinctive positions of the 3D robot model. Robot keypoint detections are synchronized and fused on a central backend, where the robot's pose is estimated via multi-view minimization of reprojection errors. Through the pose estimation from external cameras, the robot's localization can be initialized in an allocentric map from a completely unknown state (kidnapped robot problem) and robustly tracked over time. We conduct a series of experiments evaluating the accuracy and robustness of the camera-based pose estimation compared to the robot's internal navigation stack, showing that our camera-based method achieves pose errors below 3 cm and 1{\deg} and does not drift over time, as the robot is localized allocentrically. With the robot's pose precisely estimated, its observations can be fused into the allocentric scene model. We show a real-world application, where observations from mobile robot and static smart edge sensors are fused to collaboratively build a 3D semantic map of a $\sim$240 m$^2$ indoor environment.
翻訳日:2023-03-08 15:39:54 公開日:2023-03-07
# 隠れ知識:デジタル画像からの中世紙の指紋抽出のための数学的手法

Hidden Knowledge: Mathematical Methods for the Extraction of the Fingerprint of Medieval Paper from Digital Images ( http://arxiv.org/abs/2303.03794v1 )

ライセンス: Link先を確認
Tamara G. Grossmann, Carola-Bibiane Sch\"onlieb, Orietta Da Rold(参考訳) 中世の紙は手作りで、紙に不確実な印字を残した型で作られている。 このインプリントには、シート上によく見られるチェーンライン、敷設ライン、透かしが含まれている。 これらの特徴を抽出することで、紙の在庫を識別し、書物や人々の年代、地域、移動に関する情報を提供する。 紙分析の特徴抽出のためのほとんどの計算作業は、これまでラジオグラフィや透過光画像に焦点を当ててきた。 これらの撮像法は興味のある特徴をはっきりと可視化するが、その取得には高価で時間を要するため、小規模の機関では実現不可能である。 しかし、中世の紙本写本の反射光像は豊富であり、その取得はおそらく安価である。 本稿では,反射光画像から横線や鎖線を検出し,抽出するアルゴリズムを提案する。 反射光画像の主な欠点、すなわちノイズや劣化による線と強度の低下の低コントラスト化に対処し、スペクトル全変動分解とその後の線抽出法の開発を行った。 以上の結果から,反射光画像を用いた紙解析の可能性が明らかとなった。 本研究は, 適切な画像の欠如により解析されていない紙写本の特徴抽出を可能にする。 紙の在庫を大規模に識別する扉も開いています。

Medieval paper, a handmade product, is made with a mould which leaves an indelible imprint on the sheet of paper. This imprint includes chain lines, laid lines and watermarks which are often visible on the sheet. Extracting these features allows the identification of paper stock and gives information about chronology, localisation and movement of books and people. Most computational work for feature extraction of paper analysis has so far focused on radiography or transmitted light images. While these imaging methods provide clear visualisation for the features of interest, they are expensive and time consuming in their acquisition and not feasible for smaller institutions. However, reflected light images of medieval paper manuscripts are abundant and possibly cheaper in their acquisition. In this paper, we propose algorithms to detect and extract the laid and chain lines from reflected light images. We tackle the main drawback of reflected light images, that is, the low contrast attenuation of lines and intensity jumps due to noise and degradation, by employing the spectral total variation decomposition and develop methods for subsequent line extraction. Our results clearly demonstrate the feasibility of using reflected light images in paper analysis. This work enables the feature extraction for paper manuscripts that have otherwise not been analysed due to a lack of appropriate images. We also open the door for paper stock identification at scale.
翻訳日:2023-03-08 15:39:30 公開日:2023-03-07
# シャープ量子リセットの非エルミート的記述

Non-Hermitian description of sharp quantum resetting ( http://arxiv.org/abs/2303.03790v1 )

ライセンス: Link先を確認
Ranjan Modak and S. Aravinda(参考訳) 我々は、1次元格子上で動く非相互作用量子粒子の研究を行い、繰り返し測定を行う。 このような動作が中断され、量子リセット問題として知られる同じ初期設定から再起動された場合の結果を調べる。 このような系は時間依存の非エルミート・ハミルトニアンの下で時間進化によって記述できることを示す。 このようなハミルトニアンを2つ構築し、結果を正確なダイナミクスと比較する。 この有効な非エルミート的記述を用いて、生存確率の時間スケールとシステムの最適リセット時間を評価する。

We study a non-interacting quantum particle, moving on a one-dimensional lattice, which is subjected to repetitive measurements. We investigate the consequence when such motion is interrupted and restarted from the same initial configuration, known as the quantum resetting problem. We show that such systems can be described by the time evolution under certain time-dependent non-Hermitian Hamiltonians. We construct two such Hamiltonians and compare the results with the exact dynamics. Using this effective non-Hermitian description we evaluate the timescale of the survival probability as well as the optimal resetting time for the system.
翻訳日:2023-03-08 15:39:10 公開日:2023-03-07
# グラフニューラルネットワークを用いた床平面画像のパーシングラインセグメント

Parsing Line Segments of Floor Plan Images Using Graph Neural Networks ( http://arxiv.org/abs/2303.03851v1 )

ライセンス: Link先を確認
Mingxiang Chen and Cihui Pan(参考訳) 本稿では,GNNをベースとしたラインセグメントパーサ(GLSP)について,ラインセグメントの終端を推定する接合ヒートマップと,行セグメントとそのカテゴリを抽出するグラフニューラルネットワークを提案する。 セマンティックセグメンテーションに依存する従来のフロアプラン認識手法とは違い,提案手法ではベクトル化された線分を出力することができ,実際の使用には後処理のステップを少なくする必要がある。 提案手法は,床平面画像を用いた複数クラスラインセグメント検出タスクにおいて,最先端のラインセグメント検出モデルより優れていることを示す。 本稿では,大規模住宅フロアプランデータ (LRFP) というフロアプランデータセットを用いた。 データセットには合計271,035フロアプランの画像が含まれている。 各画像に対応するラベルには、スケール情報、部屋のカテゴリとアウトライン、ドア、窓、壁などのラインセグメントのエンドポイント位置が含まれている。 我々の拡張手法は、データセットをできるだけ多くの国や地域の描画スタイルに適応させる。

In this paper, we present a GNN-based Line Segment Parser (GLSP), which uses a junction heatmap to predict line segments' endpoints, and graph neural networks to extract line segments and their categories. Different from previous floor plan recognition methods, which rely on semantic segmentation, our proposed method is able to output vectorized line segment and requires less post-processing steps to be put into practical use. Our experiments show that the methods outperform state-of-the-art line segment detection models on multi-class line segment detection tasks with floor plan images. In the paper, we use our floor plan dataset named Large-scale Residential Floor Plan data (LRFP). The dataset contains a total of 271,035 floor plan images. The label corresponding to each picture contains the scale information, the categories and outlines of rooms, and the endpoint positions of line segments such as doors, windows, and walls. Our augmentation method makes the dataset adaptable to the drawing styles of as many countries and regions as possible.
翻訳日:2023-03-08 15:33:50 公開日:2023-03-07
# 大規模言語モデルでは文脈内学習が異なる

Larger language models do in-context learning differently ( http://arxiv.org/abs/2303.03846v1 )

ライセンス: Link先を確認
Jerry Wei and Jason Wei and Yi Tay and Dustin Tran and Albert Webson and Yifeng Lu and Xinyun Chen and Hanxiao Liu and Da Huang and Denny Zhou and Tengyu Ma(参考訳) 本研究では,言語モデルにおけるインコンテキスト学習(ICL)が,意味的先行と入力ラベルマッピングの影響について検討する。 そこで本研究では,複数のモデルファミリー (GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM) にまたがる意味的無関係なラベルを持つICLとフリップラベルを持つICLについて検討する。 第一に、リフテッドラベルを用いたICLの実験は、オーバーライドセマンティック先行がモデルスケールの創発的な能力であることを示している。 小さな言語モデルは、コンテキスト内に表示されるフリップラベルを無視して、主に事前学習からのセマンティクス優先に依存するが、大きなモデルは、より大きなモデルが保持するであろうより強いセマンティクス優先性にもかかわらず、先行と矛盾するインコンテキストの例で示されるセマンティクス優先をオーバーライドすることができる。 次に,意味的無関係ラベルivl (sul-icl) について検討を行い,各ラベルが入力と意味的に無関係(例えば,否定的/肯定的ではなくfoo/bar)であることを示す。 SUL-ICLの処理能力は、主にスケールで実現され、大きな言語モデルでもSUL-ICL設定で線形分類を行うことができる。 最後に,インストラクションチューニングモデルの評価を行い,インストラクションチューニングにより,セマンティック事前の使用とインプットラベルマッピングの学習能力の両方が強化されることを確認した。

We study how in-context learning (ICL) in language models is affected by semantic priors versus input-label mappings. We investigate two setups-ICL with flipped labels and ICL with semantically-unrelated labels-across various model families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments on ICL with flipped labels show that overriding semantic priors is an emergent ability of model scale. While small language models ignore flipped labels presented in-context and thus rely primarily on semantic priors from pretraining, large models can override semantic priors when presented with in-context exemplars that contradict priors, despite the stronger semantic priors that larger models may hold. We next study semantically-unrelated label ICL (SUL-ICL), in which labels are semantically unrelated to their inputs (e.g., foo/bar instead of negative/positive), thereby forcing language models to learn the input-label mappings shown in in-context exemplars in order to perform the task. The ability to do SUL-ICL also emerges primarily with scale, and large-enough language models can even perform linear classification in a SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that instruction tuning strengthens both the use of semantic priors and the capacity to learn input-label mappings, but more of the former.
翻訳日:2023-03-08 15:33:35 公開日:2023-03-07
# 非整数次元におけるエフィモフ状態のチューニング

Tuning of Efimov states in non-integer dimensions ( http://arxiv.org/abs/2303.03845v1 )

ライセンス: Link先を確認
E. Garrido and A.S. Jensen(参考訳) 本研究の目的は、フェシュバッハ共鳴と外部閉じ込めポテンシャルを組み合わせることにより、隣接するエフィモフ状態のエネルギースケール係数を著しく低減できることを示すことである。 エフィモフ状態は3つの異なる粒子からなる系に到達できる。 2つの同一の光粒子と重粒子の場合、エネルギー係数を何桁も減らすことができ、エフィモフ状態は実験によってより容易に到達できる。 外部ポテンシャルと非整数次元における定式化の同値性、$d$が利用される。 技術的に単純な$d$-methodは、2つの短距離平方井戸相互作用粒子を記述する2成分相対波関数の解析式を導出するために用いられる。 2つのコンポーネントは1つのオープンチャネルと1つのクローズドチャネルを表します。 散乱長は、位相シフト膨張後に得られ、エフィモフ条件の解析形式を提供する。 現実的なパラメータを持つ$^7$Li, $^{39}$K, $^{87}$Rbのシステムを用いて, 結果を説明する。 関連する次元と磁場の対を示し、議論する。 結果は、大距離の性質にのみ依存するため普遍的である。

The purpose of this paper is to show that, by combining Feshbach resonances with external confining potentials, the energy scale factor of neighboring Efimov states can be tremendously reduced. The Efimov conditions can be reached for systems made of three different particles. For the case of two identical light particles and a heavy particle the energy factor can be reduced by many orders of magnitude, and the Efimov states are in this way more easily reachable experimentally. The equivalence between external potentials and the formulation in terms of non-integer dimensions, $d$, is exploited. The technically simpler $d$-method is used to derive analytic expressions for two-component relative wave functions describing two short-range square-well interacting particles. The two components express one open and one closed channel. The scattering length is obtained after phase shift expansion, providing an analytic form for the Efimov condition. We illustrate the results by means of systems made of $^7$Li, $^{39}$K, and $^{87}$Rb, with realistic parameters. The related pairs of dimension and magnetic field are shown and discussed. The results are universal as they only rely on large-distance properties.
翻訳日:2023-03-08 15:33:06 公開日:2023-03-07
# 低リソース学習のためのベンチマーク

A Challenging Benchmark for Low-Resource Learning ( http://arxiv.org/abs/2303.03840v1 )

ライセンス: Link先を確認
Yudong Wang, Chang Ma, Qingxiu Dong, Lingpeng Kong, Jingjing Xu(参考訳) 高度なニューラルネットワーク(BigBench、SuperGLUEなど)の学習能力を評価するための低リソースデータセットは、高リソース環境では期待できるほど飽和している。 一部のモデルは、ベンチマークテストの結果で人間を超えている。 しかし、ニューラルネットワークに挑戦するが、十分に評価されていない低リソース環境では、過度に見積もられたパフォーマンスを引き起こす厳しい例がいくつか存在する。 まず,低リソース学習の難しさをもたらす要因を理論的に分析する。 これは3つのコンピュータビジョン(cv)データセットと8つの自然言語プロセス(nlp)データセットを含む11のデータセットをカバーする。 幅広いモデルの実験により、ニューラルネットワークは、事前訓練された言語モデルでさえ、我々のベンチマークで急激な性能低下を示し、ニューラルネットワークの弱点を評価する効果を実証した。 NLPタスクでは、従来の低リソースのベンチマーク、トレーニング済みのネットワークでより良い結果が得られても、ベンチマークのパフォーマンスは向上しない。 これらの結果は、既存のモデルと人間レベルのパフォーマンスの間にはまだ大きな堅牢性ギャップがあることを示しています。

With promising yet saturated results in high-resource settings, low-resource datasets have gradually become popular benchmarks for evaluating the learning ability of advanced neural networks (e.g., BigBench, superGLUE). Some models even surpass humans according to benchmark test results. However, we find that there exists a set of hard examples in low-resource settings that challenge neural networks but are not well evaluated, which causes over-estimated performance. We first give a theoretical analysis on which factors bring the difficulty of low-resource learning. It then motivate us to propose a challenging benchmark hardBench to better evaluate the learning ability, which covers 11 datasets, including 3 computer vision (CV) datasets and 8 natural language process (NLP) datasets. Experiments on a wide range of models show that neural networks, even pre-trained language models, have sharp performance drops on our benchmark, demonstrating the effectiveness on evaluating the weaknesses of neural networks. On NLP tasks, we surprisingly find that despite better results on traditional low-resource benchmarks, pre-trained networks, does not show performance improvements on our benchmarks. These results demonstrate that there are still a large robustness gap between existing models and human-level performance.
翻訳日:2023-03-08 15:32:48 公開日:2023-03-07
# 時間非依存変動密度関数計算によるダイヤモンド中の荷電窒素空孔中心の電子励起

Electronic excitations of the charged nitrogen-vacancy center in diamond obtained using time-independent variational density functional calculations ( http://arxiv.org/abs/2303.03838v1 )

ライセンス: Link先を確認
Aleksei V. Ivanov, Yorick L. A. Schmerwitz, Gianluca Levi, Hannes J\'onsson(参考訳) 量子応用における固体中の点欠陥の光スピン初期化機構の解明には、関連する励起電子状態の正確な記述が必要である。 変分密度関数計算は様々なシステムの基底状態を記述することに成功しているが、そのような計算が点欠陥の電子的励起を記述する能力について、文献で疑問が呈されている。 ここで直接軌道最適化法を用いて、ダイヤモンド中の負の荷電窒素空隙中心である原型欠陥の時間に依存しない変分密度汎関数計算を行う。 計算には、周期的境界条件下で最大512個の原子が含まれ、励起状態計算は基底状態計算と同様の計算労力を必要とする。 以前のいくつかの報告とは対照的に、局所的および半局所的密度汎関数の使用は、低次三重項および一重項状態、すなわち${}^{3}a_2 < {}^{1}e < {}^{1}a_1 < {}^{3}e$ の正しい順序を与える。 さらに、より高度なメタ一般化勾配近似関数は、高レベルな多体計算と驚くほどよく一致した結果を与えるだけでなく、しばしばマルチ参照特性を持つような励起一重項状態に対しても利用可能な実験推定値を与える。 原子座標が解析力に応じて最適化されるときの三重項励起状態におけるエネルギーの低下も実験的な見積もりに近く、結果として生じるゼロフォノン線三重項励起エネルギーはわずか0.15eVで過小評価される。 ここで用いられるアプローチは、例えば量子技術に関連するシステムにおける点欠陥の電子的励起を研究するための有望なツールである。

Elucidation of the mechanism for optical spin initialization of point defects in solids in the context of quantum applications requires an accurate description of the excited electronic states involved. While variational density functional calculations have been successful in describing the ground state of a great variety of systems, doubts have been expressed in the literature regarding the ability of such calculations to describe electronic excitations of point defects. A direct orbital optimization method is used here to perform time-independent, variational density functional calculations of a prototypical defect, the negatively charged nitrogen-vacancy center in diamond. The calculations include up to 512 atoms subject to periodic boundary conditions and the excited state calculations require similar computational effort as ground state calculations. Contrary to some previous reports, the use of local and semi-local density functionals gives the correct ordering of the low-lying triplet and singlet states, namely ${}^{3}A_2 < {}^{1}E < {}^{1}A_1 < {}^{3}E$. Furthermore, the more advanced meta generalized gradient approximation functionals give results that are in remarkably good agreement with high-level, many-body calculations as well as available experimental estimates, even for the excited singlet state which is often referred to as having multireference character. The lowering of the energy in the triplet excited state as the atom coordinates are optimized in accordance with analytical forces is also close to the experimental estimate and the resulting zero-phonon line triplet excitation energy is underestimated by only 0.15 eV. The approach used here is found to be a promising tool for studying electronic excitations of point defects in, for example, systems relevant for quantum technologies.
翻訳日:2023-03-08 15:32:27 公開日:2023-03-07
# マヨラナゼロモードの確定的検出について:コンダクタンス分光法、断線エントロピー、フェルミオンパリティノイズ

On the conclusive detection of Majorana zero modes: conductance spectroscopy, disconnected entanglement entropy and the fermion parity noise ( http://arxiv.org/abs/2303.03837v1 )

ライセンス: Link先を確認
Arnav Arora, Abhishek Kejriwal and Bhaskaran Muralidharan(参考訳) 超伝導体と強いゼーマン場下に強いラシュバスピン軌道結合を持つ半導電性ナノワイヤは、その端にマヨラナゼロモードを示す可能性があり、トポロジカル超伝導のトピック候補となる。 しかし、局所および非局所伝導分光に基づく検出のためのプロトコルは、厳しい精査の対象となっている。 本研究では,現在の実験的な設定を考慮し,エントロピーとフェルミオンパリティゆらぎに関する数学的アイデアを詳述し,真のマヨラナ零モードと自明な準大乗零モードとを忠実に区別する。 我々は、フォン・ノイマンの絡み合いエントロピーから導かれる非連結絡み合いエントロピーが、システムパラメータ、サイズ、障害に免疫的な位相遷移の明瞭で堅牢なシグネチャを提供することを示した。 ラシュバ・ナノワイヤの絡み合いのエントロピーを理解するために, 相互作用するスピンフル・キタエフ鎖のモデルとの接続を確立する。 さらに,エントロピーとフェルミオンパリティゆらぎを関連付け,エントロピーと一致して振る舞うことを示し,マヨラナゼロモードの検出に適した指標とした。 コンダクタンススペクトルに基づくトポロジカルギャッププロトコルでは, 現実的な設定であっても, 上記の指標を確実にトポロジカル遷移を向けることができる。

Semiconducting nanowires with strong Rashba spin-orbit coupling in the proximity with a superconductor and under a strong Zeeman field can potentially manifest Majorana zero modes at their edges and are a topical candidate for topological superconductivity. However, protocols for their detection based on the local and the non-local conductance spectroscopy have been subject to intense scrutiny. In this work, by taking current experimental setups into account, we detail mathematical ideas related to the entanglement entropy and the fermion parity fluctuations to faithfully distinguish between true Majorana zero modes and trivial quasi-Majorana zero modes. We demonstrate that the disconnected entanglement entropy, derived from the von Neumann entanglement entropy, provides a distinct and robust signature of the topological phase transition which is immune to system parameters, size and disorders. In order to understand the entanglement entropy of the Rashba nanowire system, we establish its connection to a model of interacting spinfull Kitaev chains. Moreover, we relate the entanglement entropy to the fermionic parity fluctuation, and show that it behaves concordantly with entanglement entropy, hence making it a suitable metric for the detection of Majorana zero modes. In connection with the topological gap protocol that is based on the conductance spectra, the aforesaid metrics can reliably point toward the topological transitions even in realistic setups.
翻訳日:2023-03-08 15:31:57 公開日:2023-03-07
# イベント抽出におけるChatGPTの可能性を探る

Exploring the Feasibility of ChatGPT for Event Extraction ( http://arxiv.org/abs/2303.03836v1 )

ライセンス: Link先を確認
Jun Gao, Huan Zhao, Changlong Yu, Ruifeng Xu(参考訳) イベント抽出は自然言語処理における基本的なタスクであり、テキストで言及されるイベントに関する情報を識別し抽出する。 しかし、注釈付きデータがないため、高価で入手に時間がかかるため、これは難しい課題である。 ChatGPTのような大規模言語モデル(LLM)の出現は、タスク固有のデータセットや微調整を必要とせずに、単純なプロンプトで言語タスクを解決する機会を提供する。 ChatGPTは、機械翻訳、テキスト要約、質問応答などのタスクにおいて印象的な結果を示しているが、イベント抽出のような複雑なタスクに使用する場合、課題が提示される。 他のタスクとは異なり、イベント抽出は、すべてのイベントタイプとそのスキーマを定義する複雑な命令セットを提供する必要がある。 イベント抽出におけるChatGPTの有効性と課題を探るため,我々は一連の実験を行った。 以上の結果から,ChatGPTは脳波や複雑なシナリオにおけるタスク固有モデルの性能の51.04%に過ぎなかった。 ユーザビリティテストの実験では、ChatGPTは十分に堅牢ではないことが示され、プロンプトの継続的な改善は安定したパフォーマンス改善には至らず、結果としてユーザエクスペリエンスが低下する可能性がある。 加えて、ChatGPTは異なるプロンプトスタイルに非常に敏感である。

Event extraction is a fundamental task in natural language processing that involves identifying and extracting information about events mentioned in text. However, it is a challenging task due to the lack of annotated data, which is expensive and time-consuming to obtain. The emergence of large language models (LLMs) such as ChatGPT provides an opportunity to solve language tasks with simple prompts without the need for task-specific datasets and fine-tuning. While ChatGPT has demonstrated impressive results in tasks like machine translation, text summarization, and question answering, it presents challenges when used for complex tasks like event extraction. Unlike other tasks, event extraction requires the model to be provided with a complex set of instructions defining all event types and their schemas. To explore the feasibility of ChatGPT for event extraction and the challenges it poses, we conducted a series of experiments. Our results show that ChatGPT has, on average, only 51.04% of the performance of a task-specific model such as EEQA in long-tail and complex scenarios. Our usability testing experiments indicate that ChatGPT is not robust enough, and continuous refinement of the prompt does not lead to stable performance improvements, which can result in a poor user experience. Besides, ChatGPT is highly sensitive to different prompt styles.
翻訳日:2023-03-08 15:31:28 公開日:2023-03-07
# ディスクリプタ条件勾配を持つmap-elitesと1つのポリシーへのアーカイブ蒸留

MAP-Elites with Descriptor-Conditioned Gradients and Archive Distillation into a Single Policy ( http://arxiv.org/abs/2303.03832v1 )

ライセンス: Link先を確認
Maxence Faldor and F\'elix Chalumeau and Manon Flageat and Antoine Cully(参考訳) map-elitesのような品質多様性アルゴリズムは、様々な分野、特に進化ロボティクスにおいてうまく適用された、多様で高パフォーマンスなソリューションの集合を生成する進化的計算の分野である。 しかし、MAP-Elitesは遺伝的アルゴリズムから派生したランダム変異に基づく分岐探索を行うため、低次元解の進化する集団に限られる。 PGA-MAP-Elitesはこの制限を克服し、Deep Reinforcement Learningにインスパイアされた勾配ベースの変動演算子を統合することで、大規模なニューラルネットワークの進化を可能にする。 多くの環境で高い性能を示すが、PGA-MAP-Elitesは、勾配に基づく作用素の収束探索がアーカイブ改善ソリューションへの突然変異を直接起こさないいくつかのタスクで失敗する。 本稿では,(1)記述子空間全体にわたってアーカイブを改善する記述子条件付き批評家によるポリシー勾配変動演算子の強化,(2)追加コストなしで記述子条件付きポリシーの学習にアクタ・クリティックなトレーニングを活用し,アーカイブの知識を単一の汎用的なポリシに蒸留し,アーカイブに含まれる行動の全範囲を実行可能にすること,という2つの貢献について述べる。 我々のアルゴリズムであるDCG-MAP-ElitesはPGA-MAP-ElitesのQDスコアを平均82%改善する。

Quality-Diversity algorithms, such as MAP-Elites, are a branch of Evolutionary Computation generating collections of diverse and high-performing solutions, that have been successfully applied to a variety of domains and particularly in evolutionary robotics. However, MAP-Elites performs a divergent search based on random mutations originating from Genetic Algorithms, and thus, is limited to evolving populations of low-dimensional solutions. PGA-MAP-Elites overcomes this limitation by integrating a gradient-based variation operator inspired by Deep Reinforcement Learning which enables the evolution of large neural networks. Although high-performing in many environments, PGA-MAP-Elites fails on several tasks where the convergent search of the gradient-based operator does not direct mutations towards archive-improving solutions. In this work, we present two contributions: (1) we enhance the Policy Gradient variation operator with a descriptor-conditioned critic that improves the archive across the entire descriptor space, (2) we exploit the actor-critic training to learn a descriptor-conditioned policy at no additional cost, distilling the knowledge of the archive into one single versatile policy that can execute the entire range of behaviors contained in the archive. Our algorithm, DCG-MAP-Elites improves the QD score over PGA-MAP-Elites by 82% on average, on a set of challenging locomotion tasks.
翻訳日:2023-03-08 15:31:06 公開日:2023-03-07
# 高スピン粒子の量子測定モデル

Models for quantum measurement of particles with higher spin ( http://arxiv.org/abs/2303.03831v1 )

ライセンス: Link先を確認
Theodorus Maria Nieuwenhuizen(参考訳) 量子測定のキュリー・ワイスモデル(curie-weiss model for quantum measurement)は、熱フォノン浴に結合した多数のスピンのイジング磁石からなる装置により、スピン-$\frac{1}{2}$の力学測定を記述する。 z$-component $s=-l,-l+1,\cdots,l$ of a spin $l$を測るために、モデルのクラスは同じ行に沿って設計され、注文パラメータは2l$である。 偏りのない測定では、磁石のハミルトニアン、エントロピー、相互作用ハミルトニアンは$s\to s+1$ mod $2l+1$という置換の下で不変性を持つ。 この理論は、熱力学を詳細に解析したspin-1の場合と、スピンに対して熱力学と不変性が$\frac{3}{2},2,\frac{5}{2}$である場合で解決される。

The Curie-Weiss model for quantum measurement describes the dynamical measurement of a spin-$\frac{1}{2}$ by an apparatus consisting of an Ising magnet of many spins $\frac{1}{2}$ coupled to a thermal phonon bath. To measure the $z$-component $s=-l,-l+1,\cdots,l$ of a spin $l$, a class of models is designed along the same lines, which involve $2l$ order parameters. As required for unbiased measurement, the Hamiltonian of the magnet, its entropy and the interaction Hamiltonian possess an invariance under the permutation $s\to s+1$ mod $2l+1$. The theory is worked out for the spin-1 case, where the thermodynamics is analyzed in detail, and for spins $\frac{3}{2},2,\frac{5}{2}$ the thermodynamics and the invariance is presented.
翻訳日:2023-03-08 15:30:38 公開日:2023-03-07
# 分散学習は連合学習よりも堅牢か?

Can Decentralized Learning be more robust than Federated Learning? ( http://arxiv.org/abs/2303.03829v1 )

ライセンス: Link先を確認
Mathilde Raynal and Dario Pasquini and Carmela Troncoso(参考訳) 分散学習(decentralized learning, dl)は、ピアツーピアの学習アプローチであり、複数のユーザが共同で機械学習モデルをトレーニングできる。 正確性を確保するため、dlは堅牢でなければならない。つまり、ビザンチンのユーザはコラボレーションの結果を改ざんしてはならない。 本稿では,ビザンチンのユーザが選択した任意のモデルにネットワークを収束させること,学習プロセスから任意のユーザを排除すること,という,dlに対する2つの \textit{new}攻撃を提案する。 我々は、最先端の堅牢なDLプロトコルであるセルフセンタークリッピングに対する攻撃の効率を実証する。 最後に,ビザンチンのユーザに対して分散化能力が与える影響が,連合学習よりもロバスト性の低い分散学習であることを示す。

Decentralized Learning (DL) is a peer--to--peer learning approach that allows a group of users to jointly train a machine learning model. To ensure correctness, DL should be robust, i.e., Byzantine users must not be able to tamper with the result of the collaboration. In this paper, we introduce two \textit{new} attacks against DL where a Byzantine user can: make the network converge to an arbitrary model of their choice, and exclude an arbitrary user from the learning process. We demonstrate our attacks' efficiency against Self--Centered Clipping, the state--of--the--art robust DL protocol. Finally, we show that the capabilities decentralization grants to Byzantine users result in decentralized learning \emph{always} providing less robustness than federated learning.
翻訳日:2023-03-08 15:30:20 公開日:2023-03-07
# 不定因果鍵分布

Indefinite causal key distribution ( http://arxiv.org/abs/2303.03893v1 )

ライセンス: Link先を確認
Hector Spencer-Wood(参考訳) 本稿では、不確定因果順序(ICO)で実行される量子鍵分布(QKD)プロトコルを提案する。 QKDでは、AliceとBobという2人のパーティが、盗聴者であるEveが鍵について何も学んでいないかどうかを検知できるように、キーを互いに共有する仕組みを考える。 我々の知る限り、今まで提案された全てのQKDプロトコルにおいて、EveはAliceとBobのキーのサブセットを公に比較し、エラーをチェックすることで検出される。 ICOを用いることで、キーに関する情報を公に比較することなくEveを検出することができることを示す。 実際、相関と非相関の両方の盗聴者が、検出される確率ゼロの確率を誘導することなく、共有鍵に関する有用な情報を抽出できないことを証明している。 このようなプロトコルの実用性と実装性について検討し,その一部をシミュレートするための実験的な設定を提案する。

We propose a quantum key distribution (QKD) protocol that is carried out in an indefinite causal order (ICO). In QKD, one considers a setup in which two parties, Alice and Bob, share a key with one another in such a way that they can detect whether an eavesdropper, Eve, has learnt anything about the key. To our knowledge, in all QKD protocols proposed until now, Eve is detected by publicly comparing a subset of Alice and Bob's key and checking for errors. With the use of ICO, we show that it is possible to detect Eve without publicly comparing any information about the key. Indeed, we prove that both correlated and uncorrelated eavesdroppers cannot extract any useful information about the shared key without inducing a nonzero probability of being detected. We discuss the practicality and implementability of such a protocol and propose an experimental setup to simulate some of the results derived.
翻訳日:2023-03-08 15:23:31 公開日:2023-03-07
# 高次元のロバスト最適化に対するシナリオベースアプローチに対するマージン理論

Margin theory for the scenario-based approach to robust optimization in high dimension ( http://arxiv.org/abs/2303.03891v1 )

ライセンス: Link先を確認
Fabien Lauer (ABC)(参考訳) 本稿では、ロバスト最適化のシナリオアプローチを扱う。 これは最適化問題のパラメータの不確実性によって引き起こされる無限個の制約のランダムサンプリングに依存する。 結果として得られるランダムなプログラムを解くことで、不確実性のランダム値の制約に違反する確率(通常、見当たらない)で品質を計測する解が得られる。 もうひとつの中心的な問題は、あるレベルの信頼性を保証するために考慮すべきランダムな制約(あるいはシナリオ)の数という、サンプル複雑性の決定である。 本稿では,この分野での標準結果を改善するために,マージンの概念を導入する。 特に、統計学習理論のツールを用いて、ランダムプログラムのクラスにおけるサンプルの複雑さが変数の数に明示的に依存していないことを示す。 さらに、多項式制約を含む検討されたクラスでは、この結果は同じ保証レベルを持つ凸インスタンスと非凸インスタンスの両方に対して成り立つ。 また、違反の確率に関する後方境界を導出し、これらの境界に基づいて計算された解の信頼性を向上させるための正規化アプローチをスケッチする。

This paper deals with the scenario approach to robust optimization. This relies on a random sampling of the possibly infinite number of constraints induced by uncertainties in the parameters of an optimization problem. Solving the resulting random program yields a solution for which the quality is measured in terms of the probability of violating the constraints for a random value of the uncertainties, typically unseen before. Another central issue is the determination of the sample complexity, i.e., the number of random constraints (or scenarios) that one must consider in order to guarantee a certain level of reliability. In this paper, we introduce the notion of margin to improve upon standard results in this field. In particular, using tools from statistical learning theory, we show that the sample complexity of a class of random programs does not explicitly depend on the number of variables. In addition, within the considered class, that includes polynomial constraints among others, this result holds for both convex and nonconvex instances with the same level of guarantees. We also derive a posteriori bounds on the probability of violation and sketch a regularization approach that could be used to improve the reliability of computed solutions on the basis of these bounds.
翻訳日:2023-03-08 15:23:16 公開日:2023-03-07
# SpinDOE:卓球ロボットの球スピン推定法

SpinDOE: A ball spin estimation method for table tennis robot ( http://arxiv.org/abs/2303.03879v1 )

ライセンス: Link先を確認
Thomas Gossard, Jonas Tebbe, Andreas Ziegler and Andreas Zell(参考訳) スピンは卓球において重要な役割を演じ、ショットの軌道を読みやすくし、予測しにくくする。 しかし、ボールの高速さとスピン値の大きさのため、スピンの測定は困難である。 既存の方法は、非常に高いフレームレートカメラを必要とするか、またはボールのロゴを使っているため信頼できない。 このため、多くの卓球ロボットはスピンを無視し、能力を大幅に制限する。 本稿では,実装が容易で信頼性の高いスピン推定法を提案する。 我々は、スピンを推定するために使用できるドットボール配向推定法(DOE)を開発した。 ドットはまずcnnを使って画像上にローカライズされ、次に幾何学的ハッシュを用いて識別される。 スピンは最終的に推定方向から後退する。 このアルゴリズムを用いて,ボールの向きを平均誤差2.4{\deg} で推定し,スピン推定は相対誤差が1%未満である。 最大175rpsのスピンは、350fpsのカメラでリアルタイムで測定できる。 提案手法を用いて,球の位置と回転を表とした,卓球軌跡のデータセットをプロジェクトページから生成した。

Spin plays a considerable role in table tennis, making a shot's trajectory harder to read and predict. However, the spin is challenging to measure because of the ball's high velocity and the magnitude of the spin values. Existing methods either require extremely high framerate cameras or are unreliable because they use the ball's logo, which may not always be visible. Because of this, many table tennis-playing robots ignore the spin, which severely limits their capabilities. This paper proposes an easily implementable and reliable spin estimation method. We developed a dotted-ball orientation estimation (DOE) method, that can then be used to estimate the spin. The dots are first localized on the image using a CNN and then identified using geometric hashing. The spin is finally regressed from the estimated orientations. Using our algorithm, the ball's orientation can be estimated with a mean error of 2.4{\deg} and the spin estimation has an relative error lower than 1%. Spins up to 175 rps are measurable with a camera of 350 fps in real time. Using our method, we generated a dataset of table tennis ball trajectories with position and spin, available on our project page.
翻訳日:2023-03-08 15:22:39 公開日:2023-03-07
# マルチポート量子フーリエ光プロセッサによる量子計算

Quantum Computation via Multiport Quantum Fourier Optical Processors ( http://arxiv.org/abs/2303.03877v1 )

ライセンス: Link先を確認
Mohammad Rezai and Jawad A. Salehi(参考訳) 光のイメージは自然界における情報キャリアの主要な情報源である。 実際、単一の光子のイメージは膨大な情報容量を持ち、量子情報処理に利用することができる。 本手法では,空間位相変調器と4fプロセッサから構成される量子フーリエ光学系を用いて,周期性に特徴がある位相のみの瞳孔を用いて,従来の経路符号化法と比較して2次的に光学資源の数を減らした。 特に,光量子計算において重要な量子論理ゲートを実装するために,量子フーリエ光学を用いる。 例えば、シミュレーションと最適化技術により、シングルキュービット・アダマールと2キュービット制御なしゲートを実装することにより、この原理を実証する。 提案手法は, フォトン波面の情報容量が大きいこと, 従来のパス符号化技術に比べて2次的に少ない光資源量, 動的プログラム性など, 様々な利点があるため, 線形光量子計算や光量子信号処理に不可欠である可能性が示唆された。

The light's image is the primary source of information carrier in nature. Indeed, a single photon's image possesses a vast information capacity that can be harnessed for quantum information processing. Our scheme for implementing quantum information processing via universal multiport processors employs a class of quantum Fourier optical systems composed of spatial phase modulators and 4f-processors with phase-only pupils having a characteristic periodicity that reduces the number of optical resources quadratically as compared to other conventional path encoding techniques. In particular, this paper employs quantum Fourier optics to implement some key quantum logical gates that can be instrumental in optical quantum computations. For instance, we demonstrate the principle by implementing the single-qubit Hadamard and the two-qubit controlled-NOT gates via simulation and optimization techniques. Due to various advantages of the proposed scheme, including the large information capacity of the photon wavefront, a quadratically reduced number of optical resources compared with other conventional path encoding techniques, and dynamic programmability, the proposed scheme has the potential to be an essential contribution to linear optical quantum computing and optical quantum signal processing.
翻訳日:2023-03-08 15:22:21 公開日:2023-03-07
# 体積電子顕微鏡データセットのオルガネラ特異的セグメンテーション、空間解析および可視化

Organelle-specific segmentation, spatial analysis, and visualization of volume electron microscopy datasets ( http://arxiv.org/abs/2303.03876v1 )

ライセンス: Link先を確認
Andreas M\"uller, Deborah Schmidt, Lucas Rieckert, Michele Solimena, and Martin Weigert(参考訳) 体積電子顕微鏡は、ナノメートルスケールでの細胞微細構造のその場調査のための方法である。 近年の技術的進歩により、セグメンテーションと空間分析に計算戦略を必要とする大規模な生画像データセットが急速に増加した。 本プロトコルでは,単一標準ワークステーション上で動作可能なユーザフレンドリなソフトウェアツールを用いて,臓器特異的なセグメント化,空間解析,大規模電子顕微鏡データセットの可視化を行うための実用的でアノテーション効率の良いパイプラインについて述べる。 我々は特に、計算の専門知識が限られている生命科学の研究者を対象とし、ボリューム電子顕微鏡プロジェクトにおいて以下の課題に直面する。 一 手作業の注記を最小化しつつ、異なる種類の細胞オルガネラの3Dセグメンテーションラベルの作成方法 二 オルガネラインスタンス間の空間的相互作用の分析方法、及び iii) 最適な3dセグメンテーション結果を可視化する方法。 これらの要求を満たすため、我々は特定の細胞小器官の最も効率的なセグメンテーションツールを選択するための詳細なガイドラインを提示する。 さらに,空間解析や3Dレンダリング,オープンソースツール間のブリッジ互換性といった問題に対して,生のデータセットから最終プロットやレンダリング画像に至るまで,パイプライン全体を再現できるような,容易に実行可能なコンポーネントも提供しています。 当社の詳細な説明は,シングルユーザ設定に共通する計算リソースで実現可能な,シングルないしマルチオルガネラ解析のための特別な戦略を必要とする類似プロジェクトの貴重な参照として機能すると思います。

Volume electron microscopy is the method of choice for the in-situ interrogation of cellular ultrastructure at the nanometer scale. Recent technical advances have led to a rapid increase in large raw image datasets that require computational strategies for segmentation and spatial analysis. In this protocol, we describe a practical and annotation-efficient pipeline for organelle-specific segmentation, spatial analysis, and visualization of large volume electron microscopy datasets using freely available, user-friendly software tools that can be run on a single standard workstation. We specifically target researchers in the life sciences with limited computational expertise, who face the following tasks within their volume electron microscopy projects: i) How to generate 3D segmentation labels for different types of cell organelles while minimizing manual annotation efforts, ii) how to analyze the spatial interactions between organelle instances, and iii) how to best visualize the 3D segmentation results. To meet these demands we give detailed guidelines for choosing the most efficient segmentation tools for the specific cell organelle. We furthermore provide easily executable components for spatial analysis and 3D rendering and bridge compatibility issues between freely available open-source tools, such that others can replicate our full pipeline starting from a raw dataset up to the final plots and rendered images. We believe that our detailed description can serve as a valuable reference for similar projects requiring special strategies for single- or multiple organelle analysis which can be achieved with computational resources commonly available to single-user setups.
翻訳日:2023-03-08 15:22:01 公開日:2023-03-07
# 強い駆動場下におけるダイヤモンド中の窒素空洞中心の電子スピン二重共鳴

Electron-spin double resonance of nitrogen-vacancy centers in diamond under strong driving field ( http://arxiv.org/abs/2303.03860v1 )

ライセンス: Link先を確認
Takumi Mikawa, Ryusei Okaniwa, Yuichiro Matsuzaki, Hayase Ishi-Hayase(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、量子センシングや量子シミュレーションなどの応用に適するため、研究の焦点となっている。 近年,NV中心の電子スピン二重共鳴(ESDR)は連続波光磁気共鳴による高周波磁場の検出に利用されてきた。 しかし, 強磁場下でのESDRの特性は, 完全に解明されていない。 本研究では,Floquet理論を用いて,強いRF場下でのESDRスペクトルの理論的および実験的解析を行った。 NV軸に垂直な直流バイアス磁場に対するマイクロ波とRF場を連続印加したスピン依存フォトルミネッセンスを測定することで得られたESDRスペクトルを解析および数値計算により再現することができた。 その結果,強いRF場の下に現れる反交差構造は,2光子共鳴によるRF修飾状態の発生によって引き起こされることがわかった。 さらに,NV軸に平行な非意図的直流バイアス磁場により,2n$-RF光子共鳴が許容された。 これらの結果は、オープン量子系におけるフロッケ工学と同様に、回転波近似系を超えた広いダイナミックレンジの正確なMHz帯交流磁力計の実現に役立つだろう。

The nitrogen-vacancy (NV) center in diamond has been the focus of research efforts because of its suitability for use in applications such as quantum sensing and quantum simulations. Recently, the electron-spin double resonance (ESDR) of NV centers has been exploited for detecting radio-frequency (RF) fields with continuous-wave optically detected magnetic resonance. However, the characteristic phenomenon of ESDR under a strong RF field remains to be fully elucidated. In this study, we theoretically and experimentally analyzed the ESDR spectra under strong RF fields by adopting the Floquet theory. Our analytical and numerical calculations could reproduce the ESDR spectra obtained by measuring the spin-dependent photoluminescence under the continuous application of microwaves and an RF field for a DC bias magnetic field perpendicular to the NV axis. We found that anticrossing structures that appear under a strong RF field are induced by the generation of RF-dressed states owing to the two-RF-photon resonances. Moreover, we found that $2n$-RF-photon resonances were allowed by an unintentional DC bias magnetic field parallel to the NV axis. These results should help in the realization of precise MHz-range AC magnetometry with a wide dynamic range beyond the rotating wave approximation regime as well as Floquet engineering in open quantum systems.
翻訳日:2023-03-08 15:21:22 公開日:2023-03-07
# 音生成のための事前学習オーディオLDMの活用:ベンチマークによる検討

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study ( http://arxiv.org/abs/2303.03857v1 )

ライセンス: Link先を確認
Yi Yuan, Haohe Liu, Jinhua Liang, Xubo Liu, Mark D. Plumbley, Wenwu Wang(参考訳) ディープニューラルネットワークは、最近、音声生成のブレークスルーを達成した。 優れたサンプル品質にもかかわらず、現在の音響生成モデルは、小規模データセット(例えば、過度に適合し、音のクラスの範囲が低くなる)で問題に直面し、性能を著しく制限する。 本稿では,音声生成のための最先端モデルである audioldm をバックボーンとして,音声生成の事前学習の利点を検討する最初の試みを行う。 本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。 さらに,音響システムにおけるベースラインと評価プロトコルは,異なる研究を直接比較するには不十分である。 音声生成タスクのさらなる研究を促進するため,様々な頻繁なデータセット上で音生成タスクをベンチマークする。 我々は,移動学習とベンチマークの結果が,条件付き音声生成のさらなる研究の参考になることを期待している。

Deep neural networks have recently achieved breakthroughs in sound generation. Despite the outstanding sample quality, current sound generation models face issues on small-scale datasets (e.g., overfitting and low coverage of sound classes), significantly limiting performance. In this paper, we make the first attempt to investigate the benefits of pre-training on sound generation with AudioLDM, the cutting-edge model for audio generation, as the backbone. Our study demonstrates the advantages of the pre-trained AudioLDM, especially in data-scarcity scenarios. In addition, the baselines and evaluation protocol for sound generation systems are not consistent enough to compare different studies directly. Aiming to facilitate further study on sound generation tasks, we benchmark the sound generation task on various frequently-used datasets. We hope our results on transfer learning and benchmarks can provide references for further research on conditional sound generation.
翻訳日:2023-03-08 15:21:04 公開日:2023-03-07
# イベントストリームを用いた時空間表現学習のためのイベントボクセルセットトランスフォーマ

Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams ( http://arxiv.org/abs/2303.03856v1 )

ライセンス: Link先を確認
Bochen Xie and Yongjian Deng and Zhanpeng Shao and Hai Liu and Qingsong Xu and Youfu Li(参考訳) イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。 ほとんどの最先端のイベントベース手法は、イベントを密集したフレームに投影し、従来の学習モデルで処理する。 しかし、これらの手法はイベントデータのスパーシリティと高時間分解能を犠牲にして、大きなモデルサイズと高い計算複雑性をもたらす。 イベントのスパースな性質に適合し,その暗黙の関係を十分に探求するために,イベントストリーム上での時空間表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しい注目対応フレームワークを開発した。 まず、イベントストリームをvoxelセットに変換し、次に階層的にvoxel機能を集約して堅牢な表現を得る。 EVSTrのコアは、ローカル情報集約のためのMNEL(MNEL)とグローバル表現モデリングのためのVSAL(Voxel Self-attention Layer)という2つのよく設計されたコンポーネントからなる、識別時空間の特徴を抽出するイベントボクセルトランスフォーマーエンコーダである。 長期的時間構造を組み込むためのフレームワークを構築し, セグメント化されたボクセル集合上の動きパターンをモデル化するためのセグメンショナルコンセンサス戦略を導入する。 提案フレームワークは,オブジェクト分類とアクション認識の2つのイベントベースタスクについて評価する。 総合的な実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。 さらに,アクション認識のための実世界のイベントベースデータセットの欠如に対処するため,新たなデータセット(NeuroHAR)を提案する。

Event cameras are neuromorphic vision sensors representing visual information as sparse and asynchronous event streams. Most state-of-the-art event-based methods project events into dense frames and process them with conventional learning models. However, these approaches sacrifice the sparsity and high temporal resolution of event data, resulting in a large model size and high computational complexity. To fit the sparse nature of events and sufficiently explore their implicit relationship, we develop a novel attention-aware framework named Event Voxel Set Transformer (EVSTr) for spatiotemporal representation learning on event streams. It first converts the event stream into a voxel set and then hierarchically aggregates voxel features to obtain robust representations. The core of EVSTr is an event voxel transformer encoder to extract discriminative spatiotemporal features, which consists of two well-designed components, including a multi-scale neighbor embedding layer (MNEL) for local information aggregation and a voxel self-attention layer (VSAL) for global representation modeling. Enabling the framework to incorporate a long-term temporal structure, we introduce a segmental consensus strategy for modeling motion patterns over a sequence of segmented voxel sets. We evaluate the proposed framework on two event-based tasks: object classification and action recognition. Comprehensive experiments show that EVSTr achieves state-of-the-art performance while maintaining low model complexity. Additionally, we present a new dataset (NeuroHAR) recorded in challenging visual scenarios to address the lack of real-world event-based datasets for action recognition.
翻訳日:2023-03-08 15:20:52 公開日:2023-03-07
# 微小血液細胞における急性白血病とWBCの自動検出と分類に関する研究

A survey on automated detection and classification of acute leukemia and WBCs in microscopic blood cells ( http://arxiv.org/abs/2303.03916v1 )

ライセンス: Link先を確認
Mohammad Zolfaghari and Hedieh Sajedi(参考訳) 白血球 (Leukemia) は、白血球や白血球が骨髄や血液中に拡散する異常な疾患である。 病理学者は、顕微鏡で人の血液サンプルを見て白血病を診断することができる。 様々な血液細胞や形態学的特徴を数えることで白血病を同定し分類する。 この技術は白血病の予測に時間がかかる。 病理学者の専門的スキルや経験も、この手順に影響を与えているかもしれない。 コンピュータビジョンにおいて、従来の機械学習とディープラーニング技術は、顕微鏡的な血液細胞などの医療画像の診断と分類の精度とスピードを高めるための実用的なロードマップである。 本稿では、顕微鏡的血球中の急性白血病およびwbcsの検出と分類の包括的解析を行う。 まず,先行研究をモデルの出力に基づいて6つのカテゴリに分けた。 次に, 急性白血病とWBCの診断・分類の様々なステップについて述べる。その中には, データ拡張, プリプロセッシング, セグメンテーション, 特徴抽出, 特徴抽出(再帰), 分類, 方法の分類ステップに焦点を当てる。 最後に,急性白血病とWBCの自動検出と分類を,分類段階における分類のタイプに基づいて,従来のディープニューラルネットワーク(DNN)と混合(従来のDNN)の3つのカテゴリに分け,解析する。 本研究は,急性白血病とWBCの診断と分類において,従来の機械学習モデルにおけるサポートベクトルマシン(SVM)分類器と,ディープラーニングモデルにおける畳み込みニューラルネットワーク(CNN)分類器が広く用いられていることを示す。 これらの分類器を使用するモデルの性能指標は他のモデルと比較すると高い。

Leukemia (blood cancer) is an unusual spread of White Blood Cells or Leukocytes (WBCs) in the bone marrow and blood. Pathologists can diagnose leukemia by looking at a person's blood sample under a microscope. They identify and categorize leukemia by counting various blood cells and morphological features. This technique is time-consuming for the prediction of leukemia. The pathologist's professional skills and experiences may be affecting this procedure, too. In computer vision, traditional machine learning and deep learning techniques are practical roadmaps that increase the accuracy and speed in diagnosing and classifying medical images such as microscopic blood cells. This paper provides a comprehensive analysis of the detection and classification of acute leukemia and WBCs in the microscopic blood cells. First, we have divided the previous works into six categories based on the output of the models. Then, we describe various steps of detection and classification of acute leukemia and WBCs, including Data Augmentation, Preprocessing, Segmentation, Feature Extraction, Feature Selection (Reduction), Classification, and focus on classification step in the methods. Finally, we divide automated detection and classification of acute leukemia and WBCs into three categories, including traditional, Deep Neural Network (DNN), and mixture (traditional and DNN) methods based on the type of classifier in the classification step and analyze them. The results of this study show that in the diagnosis and classification of acute leukemia and WBCs, the Support Vector Machine (SVM) classifier in traditional machine learning models and Convolutional Neural Network (CNN) classifier in deep learning models have widely employed. The performance metrics of the models that use these classifiers compared to the others model are higher.
翻訳日:2023-03-08 15:15:12 公開日:2023-03-07
# BigScience ROOTS Corpus: 1.6TB複合多言語データセット

The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset ( http://arxiv.org/abs/2303.03915v1 )

ライセンス: Link先を確認
Hugo Lauren\c{c}on, Lucile Saulnier, Thomas Wang, Christopher Akiki, Albert Villanova del Moral, Teven Le Scao, Leandro Von Werra, Chenghao Mou, Eduardo Gonz\'alez Ponferrada, Huu Nguyen, J\"org Frohberg, Mario \v{S}a\v{s}ko, Quentin Lhoest, Angelina McMillan-Major, Gerard Dupont, Stella Biderman, Anna Rogers, Loubna Ben allal, Francesco De Toni, Giada Pistilli, Olivier Nguyen, Somaieh Nikpoor, Maraim Masoud, Pierre Colombo, Javier de la Rosa, Paulo Villegas, Tristan Thrush, Shayne Longpre, Sebastian Nagel, Leon Weber, Manuel Mu\~noz, Jian Zhu, Daniel Van Strien, Zaid Alyafeai, Khalid Almubarak, Minh Chien Vu, Itziar Gonzalez-Dios, Aitor Soroa, Kyle Lo, Manan Dey, Pedro Ortiz Suarez, Aaron Gokaslan, Shamik Bose, David Adelani, Long Phan, Hieu Tran, Ian Yu, Suhas Pai, Jenny Chim, Violette Lepercq, Suzana Ilic, Margaret Mitchell, Sasha Alexandra Luccioni, Yacine Jernite(参考訳) 言語モデルがさらに大きくなるにつれて、特に多言語設定において、大規模で高品質なテキストデータセットの必要性は、これまで以上に押し上げられてきた。 ビッグサイエンスワークショップ(bigscience workshop, 1-year international and multidisciplinary initiative)は、大きな言語モデルを価値駆動の事業として研究し、トレーニングし、倫理、危害、ガバナンスの問題をフォアグラウンドで解決することを目的として設立された。 本稿では,bigscienceが実施する,責任あるオープンサイエンス・オープン・コラボレーション・テキストソース(roots)コーパスを組み立てるためのデータ作成とキュレーションの取り組みについて述べる。これは,59言語にわたる1.6tbのデータセットで,176億のパラメータを持つbigscience large open-science open-access multilingual (bloom) 言語モデルをトレーニングするために使用された。 さらに、コーパスの大規模な初期サブセットとその分析をリリースし、データと処理ツールの両方を用いて、大規模単言語および多言語モデリングプロジェクトを支援し、この大規模多言語コーパスに関する研究を刺激したいと考えています。

As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.
翻訳日:2023-03-08 15:14:44 公開日:2023-03-07
# クロスセンス推論グラフを用いた文書レベルの関係抽出

Document-level Relation Extraction with Cross-sentence Reasoning Graph ( http://arxiv.org/abs/2303.03912v1 )

ライセンス: Link先を確認
Hongfei Liu, Zhao Kang, Lizong Zhang, Ling Tian, and Fujun Hua(参考訳) 関係抽出(RE)は文レベルから文書レベルへ移行し、文書情報を集約し、推論のためにエンティティや言及を使用する必要がある。 既存の作業では、エンティティノードと、ドキュメントレベルのグラフに類似した表現を持つノードに言及している。 さらに、既存研究では、エンティティ間のグローバルな相互作用を考慮せずに、エンティティレベルの推論パスのみに焦点を当てている。 本稿では,グラフ情報集約とクロスセンス推論ネットワーク(gracr)を用いた,新しい文書レベルのreモデルを提案する。 具体的には、文書中のすべての言及と文の意味情報をモデル化するために簡略化された文書レベルグラフを構築し、遠距離クロスセンスエンティティペアの関係を探索するためにエンティティレベルグラフを設計する。 実験の結果,GRACRは文書レベルのREの2つの公開データセットにおいて優れた性能を発揮することがわかった。 これは特に交叉関係対の潜在的な関係を抽出するのに有効である。 私たちのコードはhttps://github.com/UESTC-LHF/GRACRで公開されています。

Relation extraction (RE) has recently moved from the sentence-level to document-level, which requires aggregating document information and using entities and mentions for reasoning. Existing works put entity nodes and mention nodes with similar representations in a document-level graph, whose complex edges may incur redundant information. Furthermore, existing studies only focus on entity-level reasoning paths without considering global interactions among entities cross-sentence. To these ends, we propose a novel document-level RE model with a GRaph information Aggregation and Cross-sentence Reasoning network (GRACR). Specifically, a simplified document-level graph is constructed to model the semantic information of all mentions and sentences in a document, and an entity-level graph is designed to explore relations of long-distance cross-sentence entity pairs. Experimental results show that GRACR achieves excellent performance on two public datasets of document-level RE. It is especially effective in extracting potential relations of cross-sentence entity pairs. Our code is available at https://github.com/UESTC-LHF/GRACR.
翻訳日:2023-03-08 15:14:26 公開日:2023-03-07
# InsMOS: LiDARデータにおけるオブジェクトセグメンテーションのインスタンス対応

InsMOS: Instance-Aware Moving Object Segmentation in LiDAR Data ( http://arxiv.org/abs/2303.03909v1 )

ライセンス: Link先を確認
Neng Wang, Chenghao Shi, Ruibin Guo, Huimin Lu, Zhiqiang Zheng, Xieyuanli Chen(参考訳) 移動物体の同定は、自律的なナビゲーション、一貫したマップ生成、将来の物体の軌道予測において重要な機能である。 本稿では,移動物体を3次元LiDARスキャンで分割するという課題に対処する新しいネットワークを提案する。 提案手法は,ポイントワイズ移動ラベルの予測だけでなく,メイントラヒック参加者のインスタンス情報も検出する。 このような設計は、実際に動いているインスタンスと、現在のシーンで一時的に静的なインスタンスを決定するのに役立つ。 本手法は点雲の列を入力として活用し,それらを4次元ボクセルに定量化する。 我々は,4Dボクセルから運動特徴を抽出し,電流スキャンに注入するために,4Dスパース畳み込みを用いる。 次に,現在のスキャンから時空間的特徴を抽出し,事例検出と特徴融合を行う。 最後に,時空間的特徴と予測インスタンス情報を用いて,ポイントワイズラベルを出力可能なアップサンプル融合モジュールを設計した。 我々は,SemanticKITTIをベースとしたLiDAR-MOSベンチマークに対するアプローチを評価し,最先端手法と比較して移動対象セグメンテーション性能を向上し,移動対象セグメンテーションのインスタンス情報統合におけるアプローチの有効性を実証した。 さらに,本手法はsemantickittiの事前学習モデルを用いたapolloデータセットにおいて優れた性能を示し,異なる場面でよく一般化することを示す。

Identifying moving objects is a crucial capability for autonomous navigation, consistent map generation, and future trajectory prediction of objects. In this paper, we propose a novel network that addresses the challenge of segmenting moving objects in 3D LiDAR scans. Our approach not only predicts point-wise moving labels but also detects instance information of main traffic participants. Such a design helps determine which instances are actually moving and which ones are temporarily static in the current scene. Our method exploits a sequence of point clouds as input and quantifies them into 4D voxels. We use 4D sparse convolutions to extract motion features from the 4D voxels and inject them into the current scan. Then, we extract spatio-temporal features from the current scan for instance detection and feature fusion. Finally, we design an upsample fusion module to output point-wise labels by fusing the spatio-temporal features and predicted instance information. We evaluated our approach on the LiDAR-MOS benchmark based on SemanticKITTI and achieved better moving object segmentation performance compared to state-of-the-art methods, demonstrating the effectiveness of our approach in integrating instance information for moving object segmentation. Furthermore, our method shows superior performance on the Apollo dataset with a pre-trained model on SemanticKITTI, indicating that our method generalizes well in different scenes.The code and pre-trained models of our method will be released at https://github.com/nubot-nudt/InsMOS.
翻訳日:2023-03-08 15:14:09 公開日:2023-03-07
# フェデレーション学習におけるセキュアアグリゲーションに対するクライアント固有の特性推定

Client-specific Property Inference against Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2303.03908v1 )

ライセンス: Link先を確認
Raouf Kerkouche, Gergely \'Acs, Mario Fritz(参考訳) 連合学習は、トレーニングをコーディネートする中央サーバの助けを借りて、異なる参加者間で共通のモデルを協調的にトレーニングするために広く使われているパラダイムとなっている。 モデルパラメータやその他のモデル更新は、参加者のデータではなく、連合トレーニング中にのみ交換されるが、多くの攻撃は、参加者データのメンバーシップ、プロパティ、アウトライトリコンストラクションなどの機密情報を推測することが可能であることを示している。 差分プライバシーは、プライバシー攻撃から保護するための効果的な解決策と考えられているが、実用性に対する悪影響も批判されている。 もうひとつの防御策はセキュアアグリゲーションを使用することで、個々のアグリゲーションではなく、サーバが集約されたアップデートにのみアクセスできるようにする。 しかし、各ラウンドで異なるクライアント構成によって生成される集約された更新のみを組み合わせることで、クライアント固有の情報の推測が可能になる。 本稿では, 単純な線形モデルにより, 集約されたモデル更新からのみ, クライアント固有の特性を効果的に捉えることができることを示す。 例えば、トレーニングデータ(メンバーシップ推論)に特定のサンプルがあるかどうか、あるいは誤動作しているかどうかを推測し、攻撃によって共通のモデルの性能を低下させようとするなど、各クライアントのテスト特性を線形モデルの出力から推測するために、異なるラウンドで最適化問題を定式化する。 再建技術は完全にパッシブで 検出不能です 我々は,セキュアアグリゲーションが実際には極めて限定的なプライバシ保証を提供するいくつかのシナリオにおいて,このアプローチの有効性を実証する。 ソースコードは公開時に公開される。

Federated learning has become a widely used paradigm for collaboratively training a common model among different participants with the help of a central server that coordinates the training. Although only the model parameters or other model updates are exchanged during the federated training instead of the participant's data, many attacks have shown that it is still possible to infer sensitive information such as membership, property, or outright reconstruction of participant data. Although differential privacy is considered an effective solution to protect against privacy attacks, it is also criticized for its negative effect on utility. Another possible defense is to use secure aggregation which allows the server to only access the aggregated update instead of each individual one, and it is often more appealing because it does not degrade model quality. However, combining only the aggregated updates, which are generated by a different composition of clients in every round, may still allow the inference of some client-specific information. In this paper, we show that simple linear models can effectively capture client-specific properties only from the aggregated model updates due to the linearity of aggregation. We formulate an optimization problem across different rounds in order to infer a tested property of every client from the output of the linear models, for example, whether they have a specific sample in their training data (membership inference) or whether they misbehave and attempt to degrade the performance of the common model by poisoning attacks. Our reconstruction technique is completely passive and undetectable. We demonstrate the efficacy of our approach on several scenarios which shows that secure aggregation provides very limited privacy guarantees in practice. The source code will be released upon publication.
翻訳日:2023-03-08 15:13:27 公開日:2023-03-07
# GaussianMLR: Calibrated Multi-Label Ranking による暗黙のクラス意義の学習

GaussianMLR: Learning Implicit Class Significance via Calibrated Multi-Label Ranking ( http://arxiv.org/abs/2303.03907v1 )

ライセンス: Link先を確認
V. Bugra Yesilkaynak, Emine Dari, Alican Mertan, Gozde Unal(参考訳) 既存のマルチラベルフレームワークは、ラベルの分割から引き出された情報を正と負の集合にのみ活用する。 したがって,本論文で紹介する概念であるポジティブラベル間のランキング順序の利点は得られない。 そこで本研究では,複数ラベルのランク付けに係わるランク付けと分類を統一した手法を用いて,正のラベルランクを決定する暗黙のクラス重要度を等しく扱うのではなく学習することを目的とした,新しいマルチラベルランキング手法gaussianmlrを提案する。 公開データセットの不足により,様々な重要要因の下で生成された8つの合成データセットを導入し,より豊かで制御可能な実験環境を提供する。 実世界のデータセットと合成データセットの両方において、関連するベースラインとの比較を行い、2つのサブタスクの両方のパフォーマンスを評価する。 本手法は, 基礎となる情報に適合するだけでなく, 基礎となる情報に比例して, 組み込まれている正のランク順の表現を正確に学習できることを示す。 総合的な実験研究を行うことで, 実証的な主張を強める。 コードはhttps://github.com/MrGranddy/GaussianMLRで入手できる。

Existing multi-label frameworks only exploit the information deduced from the bipartition of the labels into a positive and negative set. Therefore, they do not benefit from the ranking order between positive labels, which is the concept we introduce in this paper. We propose a novel multi-label ranking method: GaussianMLR, which aims to learn implicit class significance values that determine the positive label ranks instead of treating them as of equal importance, by following an approach that unifies ranking and classification tasks associated with multi-label ranking. Due to the scarcity of public datasets, we introduce eight synthetic datasets generated under varying importance factors to provide an enriched and controllable experimental environment for this study. On both real-world and synthetic datasets, we carry out extensive comparisons with relevant baselines and evaluate the performance on both of the two sub-tasks. We show that our method is able to accurately learn a representation of the incorporated positive rank order, which is not only consistent with the ground truth but also proportional to the underlying information. We strengthen our claims empirically by conducting comprehensive experimental studies. Code is available at https://github.com/MrGranddy/GaussianMLR.
翻訳日:2023-03-08 15:12:44 公開日:2023-03-07
# 最適トランスポート型分布ロバスト最適化における正則化と計算の新しい展望

New Perspectives on Regularization and Computation in Optimal Transport-Based Distributionally Robust Optimization ( http://arxiv.org/abs/2303.03900v1 )

ライセンス: Link先を確認
Soroosh Shafieezadeh-Abadeh, Liviu Aolaritei, Florian D\"orfler, Daniel Kuhn(参考訳) 有限の輸送コストで所定の基準分布を組替えることにより、しばしば自然として想定される架空の敵が不確実な問題パラメータの分布を選択できる最適な輸送ベース分布安定最適化問題について検討する。 この枠組みでは,輸送コスト関数が(幾分かの)計量に失敗しても,ロバスト化は様々な形態の変動やリプシッツ正則化と密接に関係していることを示す。 また,意思決定者と自然とのnash平衡の存在と計算可能性の条件を導出し,自然のnash戦略が極めて欺きやすい逆境標本に支持される分布と見なすことができることを数値的に示す。 最後に、損失関数や輸送コスト関数が凸でない場合でも、効率的な勾配降下アルゴリズムで対処できる最適な輸送系分布的ロバストな最適化問題の実効的クラスを同定する(同時に両方ではない)。

We study optimal transport-based distributionally robust optimization problems where a fictitious adversary, often envisioned as nature, can choose the distribution of the uncertain problem parameters by reshaping a prescribed reference distribution at a finite transportation cost. In this framework, we show that robustification is intimately related to various forms of variation and Lipschitz regularization even if the transportation cost function fails to be (some power of) a metric. We also derive conditions for the existence and the computability of a Nash equilibrium between the decision-maker and nature, and we demonstrate numerically that nature's Nash strategy can be viewed as a distribution that is supported on remarkably deceptive adversarial samples. Finally, we identify practically relevant classes of optimal transport-based distributionally robust optimization problems that can be addressed with efficient gradient descent algorithms even if the loss function or the transportation cost function are nonconvex (but not both at the same time).
翻訳日:2023-03-08 15:12:24 公開日:2023-03-07
# 小データセットの教師付き学習のためのデータ関数のマニュアル選択

Manually Selecting The Data Function for Supervised Learning of small datasets ( http://arxiv.org/abs/2303.03894v1 )

ライセンス: Link先を確認
Amir Khanjari and Saeid Pourmand and Mohammad Reza Faridrohani(参考訳) 教師付き学習問題は、情報の不足が原因で不適切になり、不安定で非特異な解決策が生まれる。 しかし、正規化のみに頼るのではなく、情報的な不正な演算子の初期化は、より正確な答えを得るためにより良い質問をするのに近い。 フレドホルム積分方程式 (fredholm integral equation of the first kind, fifk) は、分布と事前知識を入力情報として統合できる信頼できない演算子である。 入力分布と事前知識を組み込むことで、FIFK演算子は半教師付き仮定によって高次元の入力分布を使用することの限界に対処でき、積分作用素をより正確に近似することができる。 さらに、fifkの確率原理の導入は、ソリューションの正確性と有効性をさらに高めることができる。 ノイズの多い演算子方程式や限られたデータの場合、FIFKの事前情報や様々なカーネル設計によるクロスバリデーションによる問題定義の柔軟性は特に有利である。 この能力は、詳細な問題定義を可能にし、ソリューションにおける高いレベルの正確性と安定性を達成するのに役立ちます。 本研究では,FIFKを2つの異なるアプローチで検討した。 まず,同じフレドホルム演算子カーネルとデータ関数カーネルを用いて,ラベルなし情報を含む半教師付き仮定を実装した。 次に,データ関数カーネルとマッピングカーネルが異なる場合を定義するために,方程式の両側で異なるカーネルを選択するmsdf法を用いた。 FIFKと提案手法の有効性を評価するため,実世界のデータセットを用いて実験を行った。 我々の目標は、これらの手法の性能を、広く使われている最小二乗法や他の同等の手法と比較することであった。

Supervised learning problems may become ill-posed when there is a lack of information, resulting in unstable and non-unique solutions. However, instead of solely relying on regularization, initializing an informative ill-posed operator is akin to posing better questions to achieve more accurate answers. The Fredholm integral equation of the first kind (FIFK) is a reliable ill-posed operator that can integrate distributions and prior knowledge as input information. By incorporating input distributions and prior knowledge, the FIFK operator can address the limitations of using high-dimensional input distributions by semi-supervised assumptions, leading to more precise approximations of the integral operator. Additionally, the FIFK's incorporation of probabilistic principles can further enhance the accuracy and effectiveness of solutions. In cases of noisy operator equations and limited data, the FIFK's flexibility in defining problems using prior information or cross-validation with various kernel designs is especially advantageous. This capability allows for detailed problem definitions and facilitates achieving high levels of accuracy and stability in solutions. In our study, we examined the FIFK through two different approaches. Firstly, we implemented a semi-supervised assumption by using the same Fredholm operator kernel and data function kernel and incorporating unlabeled information. Secondly, we used the MSDF method, which involves selecting different kernels on both sides of the equation to define when the mapping kernel is different from the data function kernel. To assess the effectiveness of the FIFK and the proposed methods in solving ill-posed problems, we conducted experiments on a real-world dataset. Our goal was to compare the performance of these methods against the widely used least-squares method and other comparable methods.
翻訳日:2023-03-08 15:12:05 公開日:2023-03-07
# 非凸低レベル二値最適化のためのモーメントベース勾配法について

On Momentum-Based Gradient Methods for Bilevel Optimization with Nonconvex Lower-Level ( http://arxiv.org/abs/2303.03944v1 )

ライセンス: Link先を確認
Feihu Huang(参考訳) バイレベル最適化は一般的な2レベル階層最適化であり、ハイパーパラメータ学習、メタ学習、継続的な学習など、多くの機械学習タスクに広く適用されている。 近年, 両レベル最適化法が数多く開発されているが, 両レベル最適化法は低レベル問題が非凸である場合によく研究されていない。 このギャップを埋めるため,本論文では,上層と下層の両方が非凸であり,下層がポリak-lojasiewicz (pl) 条件を満たす非凸二層最適化問題のクラスについて検討する。 本稿では,これらの決定論的問題を解くために,効率的な運動量に基づく勾配バイレベル法(MGBiO)を提案する。 一方,これらの確率問題を解くために,効率的な運動量に基づく確率勾配二段階法(MSGBiOとVR-MSGBiO)を提案する。 さらに,本手法に有用な収束分析フレームワークを提供する。 特に、いくつかの穏やかな条件下では、mgbio法が決定論的双レベル問題(すなわち、$\|\nabla f(x)\|\leq \epsilon$)に対する$\epsilon$-定常解を求めるために$o(\epsilon^{-2})のサンプル(または勾配)の複雑さを持つことが証明され、既存の最良の結果が$o(\epsilon^{-1})$によって改善される。 一方、我々の msgbio と vr-msgbio の手法は、確率的二次問題の $\epsilon$-定常解(すなわち $\mathbb{e}\|\nabla f(x)\|\leq \epsilon$)を見つける際にそれぞれ $\tilde{o}(\epsilon^{-4})$ と $\tilde{o}(\epsilon^{-3})$ のサンプル複素性を持つことを証明し、既存の最善の結果を $o(\epsilon^{-3})$ で改善する。 この写本は数学者ボリス・ポリャク(1935-2023)を記念している。

Bilevel optimization is a popular two-level hierarchical optimization, which has been widely applied to many machine learning tasks such as hyperparameter learning, meta learning and continual learning. Although many bilevel optimization methods recently have been developed, the bilevel methods are not well studied when the lower-level problem is nonconvex. To fill this gap, in the paper, we study a class of nonconvex bilevel optimization problems, which both upper-level and lower-level problems are nonconvex, and the lower-level problem satisfies Polyak-Lojasiewicz (PL) condition. We propose an efficient momentum-based gradient bilevel method (MGBiO) to solve these deterministic problems. Meanwhile, we propose a class of efficient momentum-based stochastic gradient bilevel methods (MSGBiO and VR-MSGBiO) to solve these stochastic problems. Moreover, we provide a useful convergence analysis framework for our methods. Specifically, under some mild conditions, we prove that our MGBiO method has a sample (or gradient) complexity of $O(\epsilon^{-2})$ for finding an $\epsilon$-stationary solution of the deterministic bilevel problems (i.e., $\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-1})$. Meanwhile, we prove that our MSGBiO and VR-MSGBiO methods have sample complexities of $\tilde{O}(\epsilon^{-4})$ and $\tilde{O}(\epsilon^{-3})$, respectively, in finding an $\epsilon$-stationary solution of the stochastic bilevel problems (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-3})$. This manuscript commemorates the mathematician Boris Polyak (1935 -2023).
翻訳日:2023-03-08 15:06:09 公開日:2023-03-07
# CUREE:生態系探査用水中ロボット

CUREE: A Curious Underwater Robot for Ecosystem Exploration ( http://arxiv.org/abs/2303.03943v1 )

ライセンス: Link先を確認
ogesh Girdhar, Nathan McGuire, Levi Cai, Stewart Jamieson, Seth McCammon, Brian Claus, John E. San Soucie, Jessica E. Todd, T. Aran Mooney(参考訳) サンゴ礁のような複雑な水中生態系を探索し監視するための現在のアプローチは、ダイバーヘルドカメラやスタティックカメラを使った測量、センサーブイの展開である。 これらのアプローチはしばしば、異なるサンゴ礁の生物と生息地の間の相互作用の完全な変動と複雑さを捉えない。 本論文で紹介するCUREEプラットフォームは、科学者が生態系のさまざまな側面を探索できるように、ロボットの行動と知覚アルゴリズムという形でユニークな機能セットを提供する。 これらの能力の例としては、低高度の視覚調査、サウンドスケープサーベイ、生息環境の特性評価、動物追跡などがある。 本研究では,アメリカ領ヴァージン諸島のサンゴ礁における2つの海域展開について述べる。 最初の展開では,サンゴ礁に生息するエビが好まれる生息地タイプを視覚的な調査,生息地特性,音環境調査と組み合わせることで識別できることを示した。 第2の展開では,バラクーダとスティングレイをそれぞれ数分間,中水環境とベント環境において個別に追従することで,CUREEが任意の動物を追尾する能力を示す。

The current approach to exploring and monitoring complex underwater ecosystems, such as coral reefs, is to conduct surveys using diver-held or static cameras, or deploying sensor buoys. These approaches often fail to capture the full variation and complexity of interactions between different reef organisms and their habitat. The CUREE platform presented in this paper provides a unique set of capabilities in the form of robot behaviors and perception algorithms to enable scientists to explore different aspects of an ecosystem. Examples of these capabilities include low-altitude visual surveys, soundscape surveys, habitat characterization, and animal following. We demonstrate these capabilities by describing two field deployments on coral reefs in the US Virgin Islands. In the first deployment, we show that CUREE can identify the preferred habitat type of snapping shrimp in a reef through a combination of a visual survey, habitat characterization, and a soundscape survey. In the second deployment, we demonstrate CUREE's ability to follow arbitrary animals by separately following a barracuda and stingray for several minutes each in midwater and benthic environments, respectively.
翻訳日:2023-03-08 15:05:22 公開日:2023-03-07
# ファジィPIDを組み込んだ確率勾配勾配アルゴリズムによる高速潜時因子解析

Fast Latent Factor Analysis via a Fuzzy PID-Incorporated Stochastic Gradient Descent Algorithm ( http://arxiv.org/abs/2303.03941v1 )

ライセンス: Link先を確認
Li Jinli and Yuan Ye(参考訳) 高次元および不完全(hdi)行列は、様々なビッグデータ関連アプリケーションにおける多数のノード間の複雑な相互作用を記述することができる。 確率勾配勾配(SGD)に基づく潜在因子分析(LFA)モデルは,HDI行列から貴重な情報を抽出するのに極めて有効である。 しかし、sgdアルゴリズムは過去の更新情報を考慮せずに現在のインスタンスエラーの確率的勾配に依存する潜伏因子を学習するため、そのようなモデルは通常、収束の遅い問題に遭遇する。 この問題に対処するため,本論文では2次元のアイデアを持つファジィpidを組み込んだsgd(fps)アルゴリズムを提案する。 1)過去の更新情報をPIDの原則に従って効率的な方法で考慮して、インスタンス学習エラーを再構築し、 2) ファジィ規則に従うハイパーパラメータの実装とゲインパラメータ適応。 これにより、HDI行列を高速に処理するために、FPSを組み込んだLFAモデルがさらに達成される。 6つのHDIデータセットに関する実証研究により、提案したFPS組み込みLFAモデルは、HDI行列の欠落したデータを競合精度で予測する計算効率の観点から、最先端のLFAモデルよりも大幅に優れていることが示された。

A high-dimensional and incomplete (HDI) matrix can describe the complex interactions among numerous nodes in various big data-related applications. A stochastic gradient descent (SGD)-based latent factor analysis (LFA) model is remarkably effective in extracting valuable information from an HDI matrix. However, such a model commonly encounters the problem of slow convergence because a standard SGD algorithm learns a latent factor relying on the stochastic gradient of current instance error only without considering past update information. To address this critical issue, this paper innovatively proposes a Fuzzy PID-incorporated SGD (FPS) algorithm with two-fold ideas: 1) rebuilding the instance learning error by considering the past update information in an efficient way following the principle of PID, and 2) implementing hyper-parameters and gain parameters adaptation following the fuzzy rules. With it, an FPS-incorporated LFA model is further achieved for fast processing an HDI matrix. Empirical studies on six HDI datasets demonstrate that the proposed FPS-incorporated LFA model significantly outperforms the state-of-the-art LFA models in terms of computational efficiency for predicting the missing data of an HDI matrix with competitive accuracy.
翻訳日:2023-03-08 15:04:39 公開日:2023-03-07
# 熱Rydberg原子のアンサンブルに基づく単一光子源の集合放出の解析

Analyzing the collective emission of a single-photon source based on an ensemble of thermal Rydberg atoms ( http://arxiv.org/abs/2303.03937v1 )

ライセンス: Link先を確認
Jan A. P. Reuter, Max M\"ausezahl, Felix Moumtsilis, Tilman Pfau, Tommaso Calarco, Robert L\"ow, Matthias M. M\"uller(参考訳) ライドベルク原子のアンサンブルはレーザーによって励起され、リドベルク封鎖半径内に1つの集合励起しか持たない絡み合った状態へと進化する。 この状態の崩壊は、単一の反結合光子の放出につながる。 マイクロセル中のルビジウム原子の高温蒸気について、原子密度分布やレーザーによる電子状態の選択のような異なる実験条件下で、そのような単一光子源の有効性を数値的に研究する。 3つの長方形レーザーパルスを用いた励起過程について, 切断ヒルベルト空間における系のコヒーレントダイナミクスをシミュレートする。 そこで我々は, 移動Rydberg原子の放射挙動を調査し, レーザーパルスシーケンスを最適化する。 単一励起の集団的崩壊は、高速で指向的な光子放出をもたらすことが判明した。 最後に,残余の二重励起を解析し,これら集合的崩壊特性を示さず,小さな有害な役割のみを果たすことを見出した。

An ensemble of Rydberg atoms can be excited with lasers such that it evolves into an entangled state with just one collective excitation within the Rydberg blockade radius. The decay of this state leads to the emission of a single, antibunched photon. For a hot vapor of Rubidium atoms in a micro cell we numerically study the feasibility of such a single-photon source under different experimental conditions like the atomic density distribution and the choice of electronic states addressed by the lasers. For the excitation process with three rectangular lasers pulses, we simulate the coherent dynamics of the system in a truncated Hilbert space. We investigate the radiative behavior of the moving Rydberg atoms and optimize the laser pulse sequence accordingly. We find that the collective decay of the single-excitation leads to a fast and directed photon emission. Finally, we analyze the residual double-excitations and find that they do not exhibit these collective decay properties and play only a minor deleterious role.
翻訳日:2023-03-08 15:04:18 公開日:2023-03-07
# FFTを用いた視覚用ダイナミックトケミキサー

FFT-based Dynamic Token Mixer for Vision ( http://arxiv.org/abs/2303.03932v1 )

ライセンス: Link先を確認
Yuki Tatsunami, Masato Taki(参考訳) MHSA(Multi-head-self-attention)搭載モデルはコンピュータビジョンにおいて顕著な性能を発揮している。 その計算の複雑さは入力特徴マップの2乗数に比例し、特に高解像度画像を扱う場合には処理が遅くなる。 新たな種類のトークンミキサーが、この問題を回避するためにMHSAに代わるものとして提案されている: FFTベースのトークンミキサー。 しかし、その魅力的な特性にもかかわらず、fftベースのトークンミキサーは急速に進化するメタフォーマーアーキテクチャとの互換性に関して慎重に検討されていない。 本稿では,ダイナミックフィルタとdfformerとcdfformerと呼ばれる新しいトークン混合器を提案する。 CDFFormerの精度は85.0%で、畳み込みとMHSAを備えたハイブリッドアーキテクチャに近い。 オブジェクト検出やセマンティクスセグメンテーションなど、他の広範囲にわたる実験や分析では、最先端のアーキテクチャと競合していることが示されている。高分解能の画像認識を扱う際のスループットとメモリ効率は畳み込みとmhsaであり、convformerとは大きく異なり、caformerよりもはるかに優れている。 以上の結果から,動的フィルタは,真剣に検討すべきトークン・ミキサーの選択肢の一つであることが示唆された。 コードはhttps://github.com/okojoalg/dfformerで入手できる。

Multi-head-self-attention (MHSA)-equipped models have achieved notable performance in computer vision. Their computational complexity is proportional to quadratic numbers of pixels in input feature maps, resulting in slow processing, especially when dealing with high-resolution images. New types of token-mixer are proposed as an alternative to MHSA to circumvent this problem: an FFT-based token-mixer, similar to MHSA in global operation but with lower computational complexity. However, despite its attractive properties, the FFT-based token-mixer has not been carefully examined in terms of its compatibility with the rapidly evolving MetaFormer architecture. Here, we propose a novel token-mixer called dynamic filter and DFFormer and CDFFormer, image recognition models using dynamic filters to close the gaps above. CDFFormer achieved a Top-1 accuracy of 85.0%, close to the hybrid architecture with convolution and MHSA. Other wide-ranging experiments and analysis, including object detection and semantic segmentation, demonstrate that they are competitive with state-of-the-art architectures; Their throughput and memory efficiency when dealing with high-resolution image recognition is convolution and MHSA, not much different from ConvFormer, and far superior to CAFormer. Our results indicate that the dynamic filter is one of the token-mixer options that should be seriously considered. The code is available at https://github.com/okojoalg/dfformer
翻訳日:2023-03-08 15:03:37 公開日:2023-03-07
# 自分の声で外国語を話せる:言語横断型ニューラルコーデック言語モデリング

Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling ( http://arxiv.org/abs/2303.03926v1 )

ライセンス: Link先を確認
Ziqiang Zhang, Long Zhou, Chengyi Wang, Sanyuan Chen, Yu Wu, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, Furu Wei(参考訳) 本稿では,言語間音声合成のためのクロスリンガルニューラルコーデック言語モデルvall-e xを提案する。 具体的には、VALL-Eを拡張し、複数の言語条件付きコーデック言語モデルを訓練し、ソース言語音声とターゲット言語テキストの両方をプロンプトとして使用することにより、ターゲット言語音声の音響トークンシーケンスを予測する。 VALL-E Xは、強い文脈内学習機能を継承し、ゼロショット音声合成やゼロショット音声音声合成タスクに適用することができる。 実験の結果, 話者の声, 感情, 音響環境を保ちながら, 音源言語の1つの発話のみをプロンプトとして, 対象言語で高品質な音声を生成することができた。 さらに、VALL-E Xは、言語IDによって制御可能な外部アクセント問題を効果的に緩和する。 オーディオサンプルは \url{https://aka.ms/vallex} で入手できる。

We propose a cross-lingual neural codec language model, VALL-E X, for cross-lingual speech synthesis. Specifically, we extend VALL-E and train a multi-lingual conditional codec language model to predict the acoustic token sequences of the target language speech by using both the source language speech and the target language text as prompts. VALL-E X inherits strong in-context learning capabilities and can be applied for zero-shot cross-lingual text-to-speech synthesis and zero-shot speech-to-speech translation tasks. Experimental results show that it can generate high-quality speech in the target language via just one speech utterance in the source language as a prompt while preserving the unseen speaker's voice, emotion, and acoustic environment. Moreover, VALL-E X effectively alleviates the foreign accent problems, which can be controlled by a language ID. Audio samples are available at \url{https://aka.ms/vallex}.
翻訳日:2023-03-08 15:03:13 公開日:2023-03-07
# oracle の識別問題に対する近似次数下限

Approximate degree lower bounds for oracle identification problems ( http://arxiv.org/abs/2303.03921v1 )

ライセンス: Link先を確認
Mark Bun, Nadezhda Voronova(参考訳) ブール関数の近似次数は、それを点的に近似する実多項式の最小次数である。 どんなブール関数に対しても、その近似次数は量子クエリの複雑性の下限として役立ち、関連する関数に対する量子通信の下限まで一般的に持ち上げる。 我々は、特定のoracle識別問題に対して、近似次数下限を証明するためのフレームワークを導入し、隠れたバイナリ文字列 $x \in \{0, 1\}^n$ を回復することを目的としています。 この枠組みを順序付き探索と隠れ文字列問題に適用し、それぞれ$\Omega(n/\log^2 n)$のほぼ密接な近似次下界を証明した。

The approximate degree of a Boolean function is the minimum degree of real polynomial that approximates it pointwise. For any Boolean function, its approximate degree serves as a lower bound on its quantum query complexity, and generically lifts to a quantum communication lower bound for a related function. We introduce a framework for proving approximate degree lower bounds for certain oracle identification problems, where the goal is to recover a hidden binary string $x \in \{0, 1\}^n$ given possibly non-standard oracle access to it. We apply this framework to the ordered search and hidden string problems, proving nearly tight approximate degree lower bounds of $\Omega(n/\log^2 n)$ for each.
翻訳日:2023-03-08 15:02:36 公開日:2023-03-07
# 頭頸部放射線治療毒性予測のためのcnnを用いた経時的cbct取得の3次元変形の比較

Comparing 3D deformations between longitudinal daily CBCT acquisitions using CNN for head and neck radiotherapy toxicity prediction ( http://arxiv.org/abs/2303.03965v1 )

ライセンス: Link先を確認
William Trung Le, Chulmin Bang, Philippine Cordelle, Daniel Markel, Phuc Felix Nguyen-Tan, Houda Bahig and Samuel Kadoury(参考訳) 適応放射線療法(Adaptive Radiotherapy)は、がん治療において、健康な組織をスパリングする目的のために研究が進む分野である。 いくつかの施設におけるケアの標準は、変化を監視するために経時的コーンビームCT(CBCT)取得を含むが、副作用を管理しながら腫瘍の制御を改善するためにはまだ使われていない。 本研究の目的は, 頭頸部癌に対する放射線治療中のCBCT前処置の臨床的意義を, 反応性摂食管 (NG) , 入院, 放射線壊死などの重篤な毒性発生を予測するために明らかにすることである。 そこで本研究では,CTと経時的CBCTの変形のヤコビ行列を解析するコンポーネントと臨床データを含む,変形可能な3次元分類パイプラインを提案する。 このモデルはマルチブランチ3D残差畳み込みニューラルネットワークに基づいており、CTからCBCTへの登録はVoxelMorphアーキテクチャの対に基づいている。 放射線壊死と入院には85.8%と75.3%のアキュラシーがあり、治療初週以降にも同様の効果を示した。 NG管のリスクはCBCT分画のタイミングを上昇させることで改善され、週5ドル99セントで83.1%に達する。

Adaptive radiotherapy is a growing field of study in cancer treatment due to it's objective in sparing healthy tissue. The standard of care in several institutions includes longitudinal cone-beam computed tomography (CBCT) acquisitions to monitor changes, but have yet to be used to improve tumor control while managing side-effects. The aim of this study is to demonstrate the clinical value of pre-treatment CBCT acquired daily during radiation therapy treatment for head and neck cancers for the downstream task of predicting severe toxicity occurrence: reactive feeding tube (NG), hospitalization and radionecrosis. For this, we propose a deformable 3D classification pipeline that includes a component analyzing the Jacobian matrix of the deformation between planning CT and longitudinal CBCT, as well as clinical data. The model is based on a multi-branch 3D residual convolutional neural network, while the CT to CBCT registration is based on a pair of VoxelMorph architectures. Accuracies of 85.8% and 75.3% was found for radionecrosis and hospitalization, respectively, with similar performance as early as after the first week of treatment. For NG tube risk, performance improves with increasing the timing of the CBCT fraction, reaching 83.1% after the $5_{th}$ week of treatment.
翻訳日:2023-03-08 14:56:46 公開日:2023-03-07
# プロセス対応情報システムにおけるオンライン意思決定マイニングと意思決定ドリフト分析のためのエンドツーエンドアプローチ:拡張バージョン

An End-to-End Approach for Online Decision Mining and Decision Drift Analysis in Process-Aware Information Systems: Extended Version ( http://arxiv.org/abs/2303.03961v1 )

ライセンス: Link先を確認
Beate Scheibel and Stefanie Rinderle-Ma(参考訳) 決定マイニングは、イベントログやストリームから決定ルールの発見を可能にし、ビジネスプロセスの詳細な分析と最適化の重要な部分を構成する。 これまでのところ、決定マイニングは、与えられたログデータのチャンクに対する決定ルールのスナップショットとして、ポスト方式でのみ適用されてきた。 対照的にオンライン意思決定マイニングは、意思決定ルールの進化と意思決定のドリフトの継続的な監視を可能にする。 そこで本稿では,オンライン制御フロー発見と意思決定マイニングのギャップを橋渡しし,発見のエンド・ツー・エンドのアプローチと,実行時の決定ポイントと対応する決定ルールの監視について述べる。 このアプローチは、効率的な意思決定ドリフト発見と監視を備えたプロセス認識情報システムに対する自動決定サポートを提供する。 モニタリングには、決定ルールの正確性の観点からのパフォーマンスだけでなく、データ要素の発生や分岐頻度の変化も考慮される。 この論文は2つのアルゴリズムを提供し、4つの合成データと1つの実生活データに基づいて評価し、そのアプローチの有効性と適用性を示している。 全体として、このアプローチはビジネスプロセスにおける意思決定の理解を促進し、それによってプロセス間のインタラクションの改善に貢献します。

Decision mining enables the discovery of decision rules from event logs or streams, and constitutes an important part of in-depth analysis and optimisation of business processes. So far, decision mining has been merely applied in an ex-post way resulting in a snapshot of decision rules for the given chunk of log data. Online decision mining, by contrast, enables continuous monitoring of decision rule evolution and decision drift. Hence this paper presents an end-to-end approach for the discovery as well as monitoring of decision points and the corresponding decision rules during runtime, bridging the gap between online control flow discovery and decision mining. The approach provides automatic decision support for process-aware information systems with efficient decision drift discovery and monitoring. For monitoring, not only the performance, in terms of accuracy, of decision rules is taken into account, but also the occurrence of data elements and changes in branching frequency. The paper provides two algorithms, which are evaluated on four synthetic and one real-life data set, showing feasibility and applicability of the approach. Overall, the approach fosters the understanding of decisions in business processes and hence contributes to an improved human-process interaction.
翻訳日:2023-03-08 14:56:23 公開日:2023-03-07
# モデルベース強化学習における価値拡大手法のリターンの低下

Diminishing Return of Value Expansion Methods in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2303.03955v1 )

ライセンス: Link先を確認
Daniel Palenicek, Michael Lutter, Joao Carvalho, Jan Peters(参考訳) モデルに基づく強化学習は、サンプル効率を高めるための1つのアプローチである。 しかしながら、ダイナミクスモデルの精度と、モデル化された軌道上の複合誤差は、一般的に鍵となる制限と見なされる。 学習したダイナミクスモデルを改善することで、どの程度のサンプル効率が得られるのか? 本論文は,連続制御問題におけるモデルに基づく価値拡大手法のクラスについて実証的に答える。 値拡大法は、より長いロールアウト地平線とより良い値関数近似を可能にすることで、モデル精度の向上の恩恵を受けるべきである。 oracle dynamics modelをモデルエラーの複合化を避けるために活用した実証研究では、(1)長いホライズンがサンプル効率を増加させるが、追加の展開ステップごとに改善が減少し、(2)モデル精度が増加すると、同じホライズンを持つ学習されたモデルと比較して、サンプル効率がわずかに増加することが示されている。 したがって、より長い地平線とモデル精度の向上はサンプル効率の面でのリターンを減少させる。 これらのサンプル効率の改善は、モデルフリー値展開法と比較して特に残念である。 計算オーバーヘッドは発生しないが、モデルベースの値拡張法と同等のパフォーマンスであることが分かっています。 したがって, モデルベース価値展開法の限界は, 学習モデルのモデル精度ではないと結論づけた。 モデル精度が向上することは有益であるが,本実験では,完全モデルであっても非分散サンプル効率は得られないが,ボトルネックは別の場所にあることを示した。

Model-based reinforcement learning is one approach to increase sample efficiency. However, the accuracy of the dynamics model and the resulting compounding error over modelled trajectories are commonly regarded as key limitations. A natural question to ask is: How much more sample efficiency can be gained by improving the learned dynamics models? Our paper empirically answers this question for the class of model-based value expansion methods in continuous control problems. Value expansion methods should benefit from increased model accuracy by enabling longer rollout horizons and better value function approximations. Our empirical study, which leverages oracle dynamics models to avoid compounding model errors, shows that (1) longer horizons increase sample efficiency, but the gain in improvement decreases with each additional expansion step, and (2) the increased model accuracy only marginally increases the sample efficiency compared to learned models with identical horizons. Therefore, longer horizons and increased model accuracy yield diminishing returns in terms of sample efficiency. These improvements in sample efficiency are particularly disappointing when compared to model-free value expansion methods. Even though they introduce no computational overhead, we find their performance to be on-par with model-based value expansion methods. Therefore, we conclude that the limitation of model-based value expansion methods is not the model accuracy of the learned models. While higher model accuracy is beneficial, our experiments show that even a perfect model will not provide an un-rivalled sample efficiency but that the bottleneck lies elsewhere.
翻訳日:2023-03-08 14:55:40 公開日:2023-03-07
# chatgpt: 手動アノテーションの終了の始まり? 自動ジャンル識別のユースケース

ChatGPT: Beginning of an End of Manual Annotation? Use Case of Automatic Genre Identification ( http://arxiv.org/abs/2303.03953v1 )

ライセンス: Link先を確認
Taja Kuzman, Nikola Ljube\v{s}i\'c, Igor Mozeti\v{c}(参考訳) ChatGPTは自然言語生成タスクにおいて強力な能力を示しており、研究者は自然にその能力がどこで終わるかを探求している。 本稿では,ChatGPTがゼロショットテキスト分類,具体的には自動ジャンル識別に利用できるかどうかを検討する。 本稿では,ChatGPTとXLM-RoBERTa言語モデルを比較した。 モデルは英語とスロベニア語という2つの言語のテストセットで比較される。 その結果、chatgptは、どちらのモデルでも見たことのないデータセットに適用すると、微調整されたモデルよりも優れていた。 スロベニア語をアンダーリソース言語として適用しても、ChatGPTのパフォーマンスは英語に適用される時ほど悪くはない。 しかし、Slovenianでモデルを完全にインプットした場合、パフォーマンスは大幅に低下し、より小さな言語でのChatGPT使用の現在の制限が示される。 提案した結果から,スロベニア語のような小規模な言語でも,これが手作業による注釈キャンペーンの終了の始まりであるのではないか,という疑問が浮かび上がった。

ChatGPT has shown strong capabilities in natural language generation tasks, which naturally leads researchers to explore where its abilities end. In this paper, we examine whether ChatGPT can be used for zero-shot text classification, more specifically, automatic genre identification. We compare ChatGPT with a multilingual XLM-RoBERTa language model that was fine-tuned on datasets, manually annotated with genres. The models are compared on test sets in two languages: English and Slovenian. Results show that ChatGPT outperforms the fine-tuned model when applied to the dataset which was not seen before by either of the models. Even when applied on Slovenian language as an under-resourced language, ChatGPT's performance is no worse than when applied to English. However, if the model is fully prompted in Slovenian, the performance drops significantly, showing the current limitations of ChatGPT usage on smaller languages. The presented results lead us to questioning whether this is the beginning of an end of laborious manual annotation campaigns even for smaller languages, such as Slovenian.
翻訳日:2023-03-08 14:55:16 公開日:2023-03-07
# グラフ表現の探索

Probing Graph Representations ( http://arxiv.org/abs/2303.03951v1 )

ライセンス: Link先を確認
Mohammad Sadegh Akhondzadeh, Vijay Lingam and Aleksandar Bojchevski(参考訳) 現在、グラフニューラルネットワーク(GNN)の表現力について理論的によく理解している。 例えば、それらの制限は、Weisfeiler-Lehman(WL)同型テストの階層性に関連して特徴づけられている。 しかし、学習した表現に何が符号化されているのかは分かっていない。 これが私たちの主な質問です。 グラフ表現で捉えた意味のある情報の量を定量化するために,探索フレームワークを用いて回答する。 分子データからグラフモデルにおける帰納バイアスの解明の可能性を示す。 異なるモデル群を比較し,トランスフォーマーモデルがメッセージパッシングに基づくモデルよりも化学的に関連のある情報をキャプチャすることを示す。 また,スキップ接続や仮想ノードなどの異なる設計選択の影響についても検討した。 我々は,グラフモデル評価のための有用な診断ツールとしての探索を提唱する。

Today we have a good theoretical understanding of the representational power of Graph Neural Networks (GNNs). For example, their limitations have been characterized in relation to a hierarchy of Weisfeiler-Lehman (WL) isomorphism tests. However, we do not know what is encoded in the learned representations. This is our main question. We answer it using a probing framework to quantify the amount of meaningful information captured in graph representations. Our findings on molecular datasets show the potential of probing for understanding the inductive biases of graph-based models. We compare different families of models and show that transformer-based models capture more chemically relevant information compared to models based on message passing. We also study the effect of different design choices such as skip connections and virtual nodes. We advocate for probing as a useful diagnostic tool for evaluating graph-based models.
翻訳日:2023-03-08 14:54:59 公開日:2023-03-07
# 長期入院コース要約のための忠実度指標のメタ評価

A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course Summarization ( http://arxiv.org/abs/2303.03948v1 )

ライセンス: Link先を確認
Griffin Adams, Jason Zucker, No\'emie Elhadad(参考訳) 入院患者の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性がある。 要約の忠実さは臨床現場での安全な使用に不可欠である。 抽象的システムの限界と既存の評価指標の適合性をよりよく理解するために,患者の短期病院コースのモデル生成要約に対する精細なヒューマンアノテーションに対する忠実度指標をベンチマークする。 我々は、HIV患者のコホートに、患者病院の入院とサマリーのコーパスを作成し、それぞれに複雑な医療史を持つ。 注釈には要約とソースノートが添えられ、手動でハイライトされた要約要素(条件や薬品のような臨床的な実体、"フォローアップ"のようなアクション)を、"`Incorrect,''`Missing,'"と"`Not in Notes"の3つのカテゴリの1つに分類するよう求められている。 '' 提案されている広範囲な忠実度メトリクスをメタ評価し、メトリクスをまたいで、ドメイン適応の重要性(例えば、ドメイン内事前トレーニングとメトリックの微調整の影響)、ソース・サマリーアライメントの使用、既存のメトリクスのアンサンブルから単一のメトリックを蒸留する効果を探求する。 臨床テキストへの露出のない市販のメトリクスは、概略抽出性に大きく依存している。 長文臨床物語要約のための実践的ガイドとして,1回に1つの要約文と関連する情報源の最小セットが与えられた場合,ほとんどの指標が人間の判断に最もよく関連していることがわかった。

Long-form clinical summarization of hospital admissions has real-world significance because of its potential to help both clinicians and patients. The faithfulness of summaries is critical to their safe usage in clinical settings. To better understand the limitations of abstractive systems, as well as the suitability of existing evaluation metrics, we benchmark faithfulness metrics against fine-grained human annotations for model-generated summaries of a patient's Brief Hospital Course. We create a corpus of patient hospital admissions and summaries for a cohort of HIV patients, each with complex medical histories. Annotators are presented with summaries and source notes, and asked to categorize manually highlighted summary elements (clinical entities like conditions and medications as well as actions like "following up") into one of three categories: ``Incorrect,'' ``Missing,'' and ``Not in Notes.'' We meta-evaluate a broad set of proposed faithfulness metrics and, across metrics, explore the importance of domain adaptation (e.g. the impact of in-domain pre-training and metric fine-tuning), the use of source-summary alignments, and the effects of distilling a single metric from an ensemble of pre-existing metrics. Off-the-shelf metrics with no exposure to clinical text correlate well yet overly rely on summary extractiveness. As a practical guide to long-form clinical narrative summarization, we find that most metrics correlate best to human judgments when provided with one summary sentence at a time and a minimal set of relevant source context.
翻訳日:2023-03-08 14:54:12 公開日:2023-03-07
# 永久双極子を有する量子系における光ポーラロン形成

Optical polaron formation in quantum systems with permanent dipoles ( http://arxiv.org/abs/2303.03996v1 )

ライセンス: Link先を確認
Adam Burgess, Marian Florescu, Dominic Michael Rouse(参考訳) 多くの光学活性系は空間的に非対称な電子軌道を持つ。 これらは、対応する遷移双極子モーメントよりも強い永続双極子モーメントを生成し、システムのダイナミクスに大きな影響を及ぼす。 本稿では, 永久双極子によって誘起される光子モードの変位を捉える光ポーラロン変換を応用し, 系のダイナミクスや放射スペクトルへの影響を直感的に解明する枠組みを提案する。 永久双極子には励起子励起、複数の光子過程、フォトンサイドバンド、単一光子遷移双極子過程の大幅な修正が含まれる。 システムの放射スペクトルを導出し、実験的に検出可能な光ポーラロンのシグネチャを強調し、ハミルトニアン系のパラメータ、永久双極子の大きさ、システムの定常的な人口を識別できる測定値を示す。

Many optically active systems possess spatially asymmetric electron orbitals. These generate permanent dipole moments, which can be stronger than the corresponding transition dipole moments, significantly affecting the system's dynamics. We introduce a master equation for such systems by employing an optical polaron transformation that captures the photon mode displacements induced by the permanent dipoles and provides an intuitive framework to explore their influence on the system dynamics and emission spectrum. We find that permanent dipoles introduce exciton pumping, multiple photon processes, a photon sideband, and substantial modifications to single-photon transition dipole processes. We derive the emission spectrum of the system, highlighting experimentally detectable signatures of optical polarons, and measurements that can identify the parameters in the system Hamiltonian, the magnitudes of the permanent dipoles, and steady-state populations of the system.
翻訳日:2023-03-08 14:47:26 公開日:2023-03-07
# 多群学習によるグループ条件妥当性

Group conditional validity via multi-group learning ( http://arxiv.org/abs/2303.03995v1 )

ライセンス: Link先を確認
Samuel Deng, Navid Ardeshir, Daniel Hsu(参考訳) 分布自由な共形予測の問題と群条件妥当性の基準を考える。 この基準は隠れ階層化や集団フェアネスを含む多くの実用的なシナリオによって動機づけられている。 既存の手法は、制限的群化構造または分布的仮定の下でそのような保証を達成するか、あるいはヘテロスケダスティックノイズの下で過度に保守的である。 マルチグループ学習と呼ばれる問題に対して,アルゴリズムを活用することにより,個人集団に対する妥当性保証を実現する問題に対する簡易な削減を提案する。 これにより、多群学習から理論的保証を移植し、共形予測のためのサンプル複雑性保証を得る。 また,階層構造を持つグループを対象とした多群学習アルゴリズムを提案する。 このアルゴリズムを還元に使用すると、より単純な予測構造でサンプルの複雑さが保証される。

We consider the problem of distribution-free conformal prediction and the criterion of group conditional validity. This criterion is motivated by many practical scenarios including hidden stratification and group fairness. Existing methods achieve such guarantees under either restrictive grouping structure or distributional assumptions, or they are overly-conservative under heteroskedastic noise. We propose a simple reduction to the problem of achieving validity guarantees for individual populations by leveraging algorithms for a problem called multi-group learning. This allows us to port theoretical guarantees from multi-group learning to obtain obtain sample complexity guarantees for conformal prediction. We also provide a new algorithm for multi-group learning for groups with hierarchical structure. Using this algorithm in our reduction leads to improved sample complexity guarantees with a simpler predictor structure.
翻訳日:2023-03-08 14:47:09 公開日:2023-03-07
# openoccupancy: セマンティクス占有感を囲むための大規模ベンチマーク

OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception ( http://arxiv.org/abs/2303.03991v1 )

ライセンス: Link先を確認
Xiaofeng Wang, Zheng Zhu, Wenbo Xu, Yunpeng Zhang, Yi Wei, Xu Chi, Yun Ye, Dalong Du, Jiwen Lu, Xingang Wang(参考訳) 自動運転車は3次元都市構造のきめ細かい認識を必要とするため、セマンティックな占有感は自動運転に不可欠である。 しかし、既存の関連するベンチマークは都市のシーンに多様性がなく、フロントビューの予測のみを評価する。 周辺知覚アルゴリズムの包括的ベンチマークに向けて,まず,周囲のセマンティック占有感評価ベンチマークであるOpenOccupancyを提案する。 OpenOccupancyベンチマークでは、大規模なnuScenesデータセットを、セマンティック占有アノテーションで拡張する。 以前のアノテーションはLiDARの点重畳に依存しており、疎いLiDARチャネルのために一部の占有ラベルが欠落している。 この問題を軽減するために、約4000人の人間がラベリングプロセスに関与しているアノテーションを2倍にするために、拡張および精製(aap)パイプラインを導入します。 さらに、OpenOccupancyベンチマークでは、カメラベース、LiDARベース、マルチモーダルベースラインが確立されている。 さらに, 周囲の占有感の複雑さが高解像度3次元予測の計算負担に関係していることを考慮し, 粗い予測を洗練するためのカスケード占有ネットワーク(CONET)を提案する。 openoccupancyベンチマークが、周囲の占有知覚アルゴリズムの開発を促進することを期待している。

Semantic occupancy perception is essential for autonomous driving, as automated vehicles require a fine-grained perception of the 3D urban structures. However, existing relevant benchmarks lack diversity in urban scenes, and they only evaluate front-view predictions. Towards a comprehensive benchmarking of surrounding perception algorithms, we propose OpenOccupancy, which is the first surrounding semantic occupancy perception benchmark. In the OpenOccupancy benchmark, we extend the large-scale nuScenes dataset with dense semantic occupancy annotations. Previous annotations rely on LiDAR points superimposition, where some occupancy labels are missed due to sparse LiDAR channels. To mitigate the problem, we introduce the Augmenting And Purifying (AAP) pipeline to ~2x densify the annotations, where ~4000 human hours are involved in the labeling process. Besides, camera-based, LiDAR-based and multi-modal baselines are established for the OpenOccupancy benchmark. Furthermore, considering the complexity of surrounding occupancy perception lies in the computational burden of high-resolution 3D predictions, we propose the Cascade Occupancy Network (CONet) to refine the coarse prediction, which relatively enhances the performance by ~30% than the baseline. We hope the OpenOccupancy benchmark will boost the development of surrounding occupancy perception algorithms.
翻訳日:2023-03-08 14:46:58 公開日:2023-03-07
# DINet:高解像度ビデオによるリアルな顔ダビングのための変形塗装ネットワーク

DINet: Deformation Inpainting Network for Realistic Face Visually Dubbing on High Resolution Video ( http://arxiv.org/abs/2303.03988v1 )

ライセンス: Link先を確認
Zhimeng Zhang, Zhipeng Hu, Wenjin Deng, Changjie Fan, Tangjie Lv, Yu Ding(参考訳) 数ショットの学習では、高解像度のビデオで写実的な顔を視覚的にダビングすることは依然として重要な課題だ。 以前の作業では、高忠実度ダビングの結果が得られなかった。 上記の問題に対処するために,高解像度な顔ダビングのための変形塗装ネットワーク (DINet) を提案する。 潜在埋め込みからピクセルを直接生成するために複数のアップサンプル層に依存する以前の作品とは異なり、dinetは参照画像の特徴マップ上で空間的変形を実行し、高周波のテクスチャの詳細を保存する。 具体的には、DINetは、1つの変形部と1つの塗装部とからなる。 第1部では、5つの参照顔画像が空間的変形を適応して行い、各フレームで口形を符号化した変形特徴マップを作成し、入力された駆動オーディオや入力元画像の頭部ポーズと整合させる。 第2部では、顔のダビングを製造するために、変形した特徴地図と他の属性(例えば、頭部ポーズ及び上顔表情)から口の動きを適応的に取り入れる機能デコーダをソース特徴地図から組み込む。 最後に、DINetは、リッチなテクスチャディテールで顔のダビングを実現する。 高解像度ビデオ上でのDINetの質的,定量的な比較を行う。 実験の結果,本手法は最先端の作業よりも優れていた。

For few-shot learning, it is still a critical challenge to realize photo-realistic face visually dubbing on high-resolution videos. Previous works fail to generate high-fidelity dubbing results. To address the above problem, this paper proposes a Deformation Inpainting Network (DINet) for high-resolution face visually dubbing. Different from previous works relying on multiple up-sample layers to directly generate pixels from latent embeddings, DINet performs spatial deformation on feature maps of reference images to better preserve high-frequency textural details. Specifically, DINet consists of one deformation part and one inpainting part. In the first part, five reference facial images adaptively perform spatial deformation to create deformed feature maps encoding mouth shapes at each frame, in order to align with the input driving audio and also the head poses of the input source images. In the second part, to produce face visually dubbing, a feature decoder is responsible for adaptively incorporating mouth movements from the deformed feature maps and other attributes (i.e., head pose and upper facial expression) from the source feature maps together. Finally, DINet achieves face visually dubbing with rich textural details. We conduct qualitative and quantitative comparisons to validate our DINet on high-resolution videos. The experimental results show that our method outperforms state-of-the-art works.
翻訳日:2023-03-08 14:46:36 公開日:2023-03-07
# 非凸plミニマックス最適化のための拡張適応勾配アルゴリズム

Enhanced Adaptive Gradient Algorithms for Nonconvex-PL Minimax Optimization ( http://arxiv.org/abs/2303.03984v1 )

ライセンス: Link先を確認
Feihu Huang(参考訳) この論文では、非凸非凸ミニマックス最適化問題(例えば、$\min_x\max_y f(x,y)$)のクラスを研究し、ここで、$f(x,y)$ は非凸で$x$ であり、非凸であり、polyak-lojasiewicz (pl) 条件を $y$ で満たす。 さらに,これらの確率的非凸plミニマックス問題を解くために,運動量に基づく勾配降下上昇法(msgda,adamsgda)のクラスを提案する。 特に、我々のAdaMSGDAアルゴリズムは、グローバルかつ座標ワイドな適応学習率に頼ることなく、変数の$x$と$y$を更新する際に様々な適応学習率を使用することができる。 理論的には,本手法に有効な収束解析フレームワークを提案する。 具体的には、我々のMSGDA法とAdaMSGDA法が、$O(\epsilon^{-3})$の最もよく知られたサンプル(漸進的な)複雑性を持つことを証明し、$\epsilon$-定常解(例えば、$\mathbb{E}\|\nabla F(x)\|\leq \epsilon$, ここで$F(x)=\max_y f(x,y)$)を見つけるとき、各ループで1つのサンプルしか必要としない。 この写本は数学者ボリス・ポリャク(1935-2023)を記念している。

In the paper, we study a class of nonconvex nonconcave minimax optimization problems (i.e., $\min_x\max_y f(x,y)$), where $f(x,y)$ is possible nonconvex in $x$, and it is nonconcave and satisfies the Polyak-Lojasiewicz (PL) condition in $y$. Moreover, we propose a class of enhanced momentum-based gradient descent ascent methods (i.e., MSGDA and AdaMSGDA) to solve these stochastic Nonconvex-PL minimax problems. In particular, our AdaMSGDA algorithm can use various adaptive learning rates in updating the variables $x$ and $y$ without relying on any global and coordinate-wise adaptive learning rates. Theoretically, we present an effective convergence analysis framework for our methods. Specifically, we prove that our MSGDA and AdaMSGDA methods have the best known sample (gradient) complexity of $O(\epsilon^{-3})$ only requiring one sample at each loop in finding an $\epsilon$-stationary solution (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$, where $F(x)=\max_y f(x,y)$). This manuscript commemorates the mathematician Boris Polyak (1935-2023).
翻訳日:2023-03-08 14:45:52 公開日:2023-03-07
# 文脈強化学習のための構造化状態空間モデル

Structured State Space Models for In-Context Reinforcement Learning ( http://arxiv.org/abs/2303.03982v1 )

ライセンス: Link先を確認
Chris Lu, Yannick Schroecker, Albert Gu, Emilio Parisotto, Jakob Foerster, Satinder Singh, Feryal Behbahani(参考訳) structured state space sequence (s4)モデルは最近、長距離シーケンスモデリングタスクで最先端のパフォーマンスを達成している。 これらのモデルは高速な推論速度と並列トレーニングも備えており、多くの強化学習環境で有用である可能性がある。 本研究では,隠れた状態を並列に初期化,リセットすることが可能なS4の変種を改良し,強化学習タスクに取り組むことを提案する。 変更したアーキテクチャはトランスフォーマーよりも漸近的に高速に動作し、単純なメモリベースのタスクでLSTMモデルよりも優れた性能を発揮する。 そして,モデルが長距離シーケンスを処理できる能力を活用することで,エージェントがランダムにサンプリングされた連続的な制御環境と,ランダムにサンプリングされた環境の観察と行動の線形投影を併用した,挑戦的なメタ学習タスクにおいて,高い性能を達成する。 さらに,結果モデルが分散処理に適応できることを示す。 全体として,本論文で示した結果は,s4モデルがコンテキスト内強化学習に使用されるデフォルトアーキテクチャの強力な候補であることを示唆している。

Structured state space sequence (S4) models have recently achieved state-of-the-art performance on long-range sequence modeling tasks. These models also have fast inference speeds and parallelisable training, making them potentially useful in many reinforcement learning settings. We propose a modification to a variant of S4 that enables us to initialise and reset the hidden state in parallel, allowing us to tackle reinforcement learning tasks. We show that our modified architecture runs asymptotically faster than Transformers and performs better than LSTM models on a simple memory-based task. Then, by leveraging the model's ability to handle long-range sequences, we achieve strong performance on a challenging meta-learning task in which the agent is given a randomly-sampled continuous control environment, combined with a randomly-sampled linear projection of the environment's observations and actions. Furthermore, we show the resulting model can adapt to out-of-distribution held-out tasks. Overall, the results presented in this paper suggest that the S4 models are a strong contender for the default architecture used for in-context reinforcement learning
翻訳日:2023-03-08 14:45:19 公開日:2023-03-07
# SoK: エンドツーエンド暗号化のためのコンテンツモデレーション

SoK: Content Moderation for End-to-End Encryption ( http://arxiv.org/abs/2303.03979v1 )

ライセンス: Link先を確認
Sarah Scheffler and Jonathan Mayer(参考訳) 一般的なメッセージングアプリケーションはデフォルトでエンドツーエンド暗号化(E2EE)を有効にし、E2EEデータストレージは一般的になりつつある。 セキュリティとプライバシに関するこれらの重要な進歩は、オンラインサービスにとって新たなコンテンツモデレーションの課題を生み出します。 米国と欧州連合(EU)のE2EEとコンテンツモデレーションに関する公共政策に関する議論は、児童性的虐待の素材とメッセージとストレージの誤情報を強調している一方で、これらのトピックを越えて、豊富な奨学金を特定し、合成しています。 我々は、マルウェア、スパム、ヘイトスピーチ、テロコンテンツ、エンタープライズポリシーコンプライアンスといったコンテンツモデレーションの主題と、メッセージ、メール、クラウドストレージのプライバシー保護コンテンツモデレーションだけでなく、ミドルボックスによる暗号化されたWebトラフィックのプライベートなイントロスペクションを含む、意図されたデプロイメントの両方において多様な文学を橋渡しする。 本研究では,E2EE設定におけるコンテンツモデレーションの研究を体系化する。 我々はコンテンツモデレーションのためのプロセスパイプラインを作成し、e2eeに特有でない幅広い学際的文献を描き出した。 このパイプラインのあらゆる段階における暗号とポリシー設計の選択について検討し、文献のギャップを埋め、今後の可能性を理解するための今後の研究分野を提案する。

Popular messaging applications now enable end-to-end-encryption (E2EE) by default, and E2EE data storage is becoming common. These important advances for security and privacy create new content moderation challenges for online services, because services can no longer directly access plaintext content. While ongoing public policy debates about E2EE and content moderation in the United States and European Union emphasize child sexual abuse material and misinformation in messaging and storage, we identify and synthesize a wealth of scholarship that goes far beyond those topics. We bridge literature that is diverse in both content moderation subject matter, such as malware, spam, hate speech, terrorist content, and enterprise policy compliance, as well as intended deployments, including not only privacy-preserving content moderation for messaging, email, and cloud storage, but also private introspection of encrypted web traffic by middleboxes. In this work, we systematize the study of content moderation in E2EE settings. We set out a process pipeline for content moderation, drawing on a broad interdisciplinary literature that is not specific to E2EE. We examine cryptography and policy design choices at all stages of this pipeline, and we suggest areas of future research to fill gaps in literature and better understand possible paths forward.
翻訳日:2023-03-08 14:45:00 公開日:2023-03-07
# GATE: ジェンダーの曖昧な翻訳例のためのチャレンジセット

GATE: A Challenge Set for Gender-Ambiguous Translation Examples ( http://arxiv.org/abs/2303.03975v1 )

ライセンス: Link先を確認
Spencer Rarrick, Ranjita Naik, Varun Mathur, Sundar Poudel, Vishal Chowdhary(参考訳) 近年では、不明瞭な性別の文章の翻訳が大幅に進歩しているが、あいまいな性別の入力の翻訳は比較的未発見のままである。 ソースの性別が曖昧である場合、機械翻訳モデルは通常、ステレオタイプなジェンダーロールにデフォルトされ、有害なバイアスが持続する。 最近の研究は、このような曖昧な入力に対して代替性翻訳を生成する「ジェンダーリフレクタ」の開発に繋がっているが、そのようなシステムは言語に乏しい範囲で悩まされている。 本課題において,ジェンダー・あいまいなソース文の言語学的多様体であるGATEを,複数の代替言語翻訳と共に提示・リリースする。 また、GATEを用いて翻訳リライタシステムを評価する際に、評価とシステム解析のためのツールも提供する。

Although recent years have brought significant progress in improving translation of unambiguously gendered sentences, translation of ambiguously gendered input remains relatively unexplored. When source gender is ambiguous, machine translation models typically default to stereotypical gender roles, perpetuating harmful bias. Recent work has led to the development of "gender rewriters" that generate alternative gender translations on such ambiguous inputs, but such systems are plagued by poor linguistic coverage. To encourage better performance on this task we present and release GATE, a linguistically diverse corpus of gender-ambiguous source sentences along with multiple alternative target language translations. We also provide tools for evaluation and system analysis when using GATE and use them to evaluate our translation rewriter system.
翻訳日:2023-03-08 14:44:34 公開日:2023-03-07
# 不確実性に関するシステム理論

System Theoretic View on Uncertainties ( http://arxiv.org/abs/2303.04042v1 )

ライセンス: Link先を確認
Roman Gansch, Ahmad Adee(参考訳) 運転環境の複雑さと高度に自動化された運転に必要な技術は前例がない。 Laprieらによるフォールト・エラー・障害モデル以外の、安全な運用に対する別のタイプの脅威は、パフォーマンス制限の形で発生します。 そこで本研究では,不確実性,すなわち知識の欠如を根源として分類法を導出するためのシステム理論的手法を提案する。 不確実性はシステムの依存性に対する脅威であり、その依存性特性を評価する能力を制限する。 我々は,不確かさを経験的(確率的モデルに忠実),認識論的(モデルパラメータ知識の欠如),オントロジ的(モデルの不完全性)によって区別し,それに対処するための戦略と方法を決定する。 Analogous to the taxonomy of Laprie et al. we cluster methods into uncertainty prevention (use of elements with well-known behavior, avoiding architectures prone to emergent behavior, restriction of operational design domain, etc.), uncertainty removal (during design time by design of experiment, etc. and after release by field observation, continuous updates, etc.), uncertainty tolerance (use of redundant architectures with diverse uncertainties, uncertainty aware deep learning, etc.) and uncertainty forecasting (estimation of residual uncertainty, etc.).

The complexity of the operating environment and required technologies for highly automated driving is unprecedented. A different type of threat to safe operation besides the fault-error-failure model by Laprie et al. arises in the form of performance limitations. We propose a system theoretic approach to handle these and derive a taxonomy based on uncertainty, i.e. lack of knowledge, as a root cause. Uncertainty is a threat to the dependability of a system, as it limits our ability to assess its dependability properties. We distinguish uncertainties by aleatory (inherent to probabilistic models), epistemic (lack of model parameter knowledge) and ontological (incompleteness of models) in order to determine strategies and methods to cope with them. Analogous to the taxonomy of Laprie et al. we cluster methods into uncertainty prevention (use of elements with well-known behavior, avoiding architectures prone to emergent behavior, restriction of operational design domain, etc.), uncertainty removal (during design time by design of experiment, etc. and after release by field observation, continuous updates, etc.), uncertainty tolerance (use of redundant architectures with diverse uncertainties, uncertainty aware deep learning, etc.) and uncertainty forecasting (estimation of residual uncertainty, etc.).
翻訳日:2023-03-08 14:37:50 公開日:2023-03-07
# 確率的グラフニューラルネットワークによる時空間走行需要の不確かさの定量化

Uncertainty Quantification of Spatiotemporal Travel Demand with Probabilistic Graph Neural Networks ( http://arxiv.org/abs/2303.04040v1 )

ライセンス: Link先を確認
Qingyi Wang, Shenhao Wang, Dingyi Zhuang, Haris Koutsopoulos, Jinhua Zhao(参考訳) 近年の研究では、グラフニューラルネットワークを用いた旅行需要予測精度が大幅に向上している。 しかし、これらの研究は旅行需要予測に必然的に存在する不確実性を無視した。 このギャップを埋めるために,旅行需要の時空間不確実性を定量化する確率的グラフニューラルネットワーク(Prob-GNN)の枠組みを提案する。 このprob-gnnフレームワークは決定論的かつ確率的仮定によって実証され、シカゴの交通とライドシェアリングの需要を予測するタスクに実証的に適用される。 確率論的仮定(例えば分布尾、支持)は決定論的仮定(例えば、深い加群、深さ)よりも不確実性予測に大きな影響を及ぼすことがわかった。 Prob-GNNの家族のうち、ガウシアンとラプラスの分布が途切れたGNNは、トランジットとライドシェアリングのデータで最高のパフォーマンスを達成した。 Prob-GNNは、新型コロナウイルス(COVID-19)のパンデミックの前後で、モデルが新型コロナウイルス以前のデータに基づいて訓練され、複数の期間にわたってテストされる場合、安定した方法で乗客の不確実性を予測することができる。 プロブ-GNNは午後のピーク時と旅行量の多い地域に集中している不確実性の時空間パターンも明らかにしている。 本研究は,時空間ライダーシップ予測のための深層学習にランダム性を導入することの重要性を強調した。 今後の研究は、行動のランダムさを捉えるための多用途な確率的仮定を引き続き調査し、さらに不確実性を定量化し、弾力性のある都市を構築する方法を開発するべきである。

Recent studies have significantly improved the prediction accuracy of travel demand using graph neural networks. However, these studies largely ignored uncertainty that inevitably exists in travel demand prediction. To fill this gap, this study proposes a framework of probabilistic graph neural networks (Prob-GNN) to quantify the spatiotemporal uncertainty of travel demand. This Prob-GNN framework is substantiated by deterministic and probabilistic assumptions, and empirically applied to the task of predicting the transit and ridesharing demand in Chicago. We found that the probabilistic assumptions (e.g. distribution tail, support) have a greater impact on uncertainty prediction than the deterministic ones (e.g. deep modules, depth). Among the family of Prob-GNNs, the GNNs with truncated Gaussian and Laplace distributions achieve the highest performance in transit and ridesharing data. Even under significant domain shifts, Prob-GNNs can predict the ridership uncertainty in a stable manner, when the models are trained on pre-COVID data and tested across multiple periods during and after the COVID-19 pandemic. Prob-GNNs also reveal the spatiotemporal pattern of uncertainty, which is concentrated on the afternoon peak hours and the areas with large travel volumes. Overall, our findings highlight the importance of incorporating randomness into deep learning for spatiotemporal ridership prediction. Future research should continue to investigate versatile probabilistic assumptions to capture behavioral randomness, and further develop methods to quantify uncertainty to build resilient cities.
翻訳日:2023-03-08 14:37:33 公開日:2023-03-07
# ループ付非循環的概要因果グラフによる時系列集合異常の根本原因同定

Root Cause Identification for Collective Anomalies in Time Series given an Acyclic Summary Causal Graph with Loops ( http://arxiv.org/abs/2303.04038v1 )

ライセンス: Link先を確認
Charles K. Assaad, Imad Ez-zejjari and Lei Zan(参考訳) 本稿では,観測時系列に与えられた集団的異常の根本原因を同定する手法と,その正規状態における動的系に存在する因果関係の抽象化を記述した非循環的要約因果グラフを提案する。 本論文は,まず,d-分離を用いた関連異常をグループ化することにより,根原因同定の問題を多数の独立部分問題に分割する方法を示した。 さらに、この設定の下では、いくつかの根本原因がグラフから直接、および異常の出現時から発見できることを示す。 最後に、正常と異常な状態における直接因果効果を比較することにより、根源の他の原因がどのように見出されるかを示す。 この目的のために、バックドアとシングルドア基準の時間的適応を導入する。 シミュレーションデータセットと実世界データセットの両方で広範な実験を行い,提案手法の有効性を実証した。

This paper presents an approach for identifying the root causes of collective anomalies given observational time series and an acyclic summary causal graph which depicts an abstraction of causal relations present in a dynamic system at its normal regime. The paper first shows how the problem of root cause identification can be divided into many independent subproblems by grouping related anomalies using d-separation. Further, it shows how, under this setting, some root causes can be found directly from the graph and from the time of appearance of anomalies. Finally, it shows, how the rest of the root causes can be found by comparing direct causal effects in the normal and in the anomalous regime. To this end, temporal adaptations of the back-door and the single-door criterions are introduced. Extensive experiments conducted on both simulated and real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-08 14:37:07 公開日:2023-03-07
# PyXAB -- $\mathcal{X}$-Armed Banditとオンラインブラックボックス最適化アルゴリズムのためのPythonライブラリ

PyXAB -- A Python Library for $\mathcal{X}$-Armed Bandit and Online Blackbox Optimization Algorithms ( http://arxiv.org/abs/2303.04030v1 )

ライセンス: Link先を確認
Wenjie Li, Haoze Li, Jean Honorio, Qifan Song(参考訳) 我々は,$\mathcal{X}$-armed banditとPyXABというオンラインブラックボックス最適化のためのPythonオープンソースライブラリを紹介する。 PyXAB には HOO, StoSOO, HCT など 10 以上の$\mathcal{X}$-armed bandit アルゴリズムの実装や,最新の GPO や VHCT などが含まれている。 PyXABはまた、異なるアルゴリズムの性能とパラメータ空間上の階層的分割の様々な選択を評価するために最も一般的に使用される合成目的を提供する。 PyXABのオンラインドキュメントには、インストールの明確な指示、ストレートフォワードの例、詳細な機能説明、APIの完全な参照が含まれている。 PyXABは、学術的および工業的使用を促進するためにMITライセンス下でリリースされた。 ライブラリはPyPIから直接インストールでき、ソースコードはhttps://github.com/WilliamLwj/PyXABで入手できる。

We introduce a Python open-source library for $\mathcal{X}$-armed bandit and online blackbox optimization named PyXAB. PyXAB contains the implementations for more than 10 $\mathcal{X}$-armed bandit algorithms, such as HOO, StoSOO, HCT, and the most recent works GPO and VHCT. PyXAB also provides the most commonly-used synthetic objectives to evaluate the performance of different algorithms and the various choices of the hierarchical partitions on the parameter space. The online documentation for PyXAB includes clear instructions for installation, straight-forward examples, detailed feature descriptions, and a complete reference of the API. PyXAB is released under the MIT license in order to encourage both academic and industrial usage. The library can be directly installed from PyPI with its source code available at https://github.com/WilliamLwj/PyXAB
翻訳日:2023-03-08 14:36:53 公開日:2023-03-07
# DeepSeeColor:ディープラーニングによる自律型水中車両のリアルタイム適応色補正

DeepSeeColor: Realtime Adaptive Color Correction for Autonomous Underwater Vehicles via Deep Learning Methods ( http://arxiv.org/abs/2303.04025v1 )

ライセンス: Link先を確認
Stewart Jamieson (1 and 2), Jonathan P. How (2), Yogesh Girdhar (3) ((1) MIT-WHOI Joint Program, (2) Department of Aeronautics and Astronautics, Massachusetts Institute of Technology, (3) Applied Ocean Physics and Engineering Department, Woods Hole Oceanographic Institution)(参考訳) 複雑な視覚に基づく行動の水中での応用は、地上および空中領域の進歩に遅れを取っている。 これは主に水中画像形成に関わる物理的現象による画質の低下によるものである。 分光選択的光減衰は水中の画像からいくつかの色を抽出し、後方散乱によって他の色を追加する。 水中色補正のための最先端の手法は、画像形成モデルのパラメータを最適化し、完全な色スペクトルを水中画像に復元する。 しかしながら、これらの手法は、主にオフライン色補正のために設計されたため、自律型水中車両(AUV)のリアルタイム使用には不都合な計算複雑性を有する。 本稿では,最先端の水中画像生成モデルとディープラーニングフレームワークの計算効率を組み合わせた新しいアルゴリズムであるdeepseecolorを提案する。 我々の実験では、deepseecolorは最大60hzで画像を高速に処理できる一方で、人気の"sea-thru"アルゴリズム(akkaynak & treibitz, 2019)に匹敵するパフォーマンスを提供していることを示しています。

Successful applications of complex vision-based behaviours underwater have lagged behind progress in terrestrial and aerial domains. This is largely due to the degraded image quality resulting from the physical phenomena involved in underwater image formation. Spectrally-selective light attenuation drains some colors from underwater images while backscattering adds others, making it challenging to perform vision-based tasks underwater. State-of-the-art methods for underwater color correction optimize the parameters of image formation models to restore the full spectrum of color to underwater imagery. However, these methods have high computational complexity that is unfavourable for realtime use by autonomous underwater vehicles (AUVs), as a result of having been primarily designed for offline color correction. Here, we present DeepSeeColor, a novel algorithm that combines a state-of-the-art underwater image formation model with the computational efficiency of deep learning frameworks. In our experiments, we show that DeepSeeColor offers comparable performance to the popular "Sea-Thru" algorithm (Akkaynak & Treibitz, 2019) while being able to rapidly process images at up to 60Hz, thus making it suitable for use onboard AUVs as a preprocessing step to enable more robust vision-based behaviours.
翻訳日:2023-03-08 14:36:36 公開日:2023-03-07
# 共変量シフト適応における重み付け補正はいつ必要か?

When is Importance Weighting Correction Needed for Covariate Shift Adaptation? ( http://arxiv.org/abs/2303.04020v1 )

ライセンス: Link先を確認
Davit Gogolashvili, Matteo Zecchin, Motonobu Kanagawa, Marios Kountouris, Maurizio Filippone(参考訳) 本稿では,共変量シフトに対処するために重要重み付け(iw)補正がいつ必要か,トレーニングとテストデータの入力分布が異なる教師あり学習における共通状況について検討する。 古典的な結果は、モデルがパラメトリックで不特定の場合にiw補正が必要であることを示している。 対照的に、最近の結果は、モデルが非パラメトリックで適切に特定されている場合、IW補正は不要であることを示している。 本論文では, モデルが非パラメトリックで不特定な文献の欠落事例について検討し, テスト分布に対する真の未知関数の最適近似を得るためには, IW補正が必要であることを示す。 我々は、IW補正されたカーネルリッジ回帰を分析し、パラメトリックモデルや非パラメトリックモデル、よく特定され、不特定な設定、任意の重み付け機能など、様々な設定を網羅する。

This paper investigates when the importance weighting (IW) correction is needed to address covariate shift, a common situation in supervised learning where the input distributions of training and test data differ. Classic results show that the IW correction is needed when the model is parametric and misspecified. In contrast, recent results indicate that the IW correction may not be necessary when the model is nonparametric and well-specified. We examine the missing case in the literature where the model is nonparametric and misspecified, and show that the IW correction is needed for obtaining the best approximation of the true unknown function for the test distribution. We do this by analyzing IW-corrected kernel ridge regression, covering a variety of settings, including parametric and nonparametric models, well-specified and misspecified settings, and arbitrary weighting functions.
翻訳日:2023-03-08 14:36:12 公開日:2023-03-07
# MOOCとオンサイトワークショップを併用したFabLabsのブレンドラーニングモデル実験

Teaching Digital Manufacturing Experimenting Blended-Learning Models By Combining MOOC And On-site Workshops In FabLabs ( http://arxiv.org/abs/2303.04019v1 )

ライセンス: Link先を確認
Ella Hamonic (IMT), Anja Hopma (IMT), Baptiste Gaultier (OCIF, IMT Atlantique - SRCD), Denis Moalic (IMT)(参考訳) MOOCを使って大規模なデジタル製造を教えることで、フランスの大学院工学学校のネットワークであるIMTが、Fab Labsと呼ばれる物理空間の学習者と教育者のコミュニティと密接に協力する機会が開かれた。 オンラインでMOOCを受講し、対人ワークショップに出席する生涯学習研修生のコホートを設置することにより、プロジェクトベースのSTEMコースのブレンドラーニングモデルとハイブリッドスキル認定を実験する。

Teaching digital manufacturing at scale using MOOCs has opened opportunities for IMT, a network of French graduate engineering schools, to work closely with a community of learners and educators in physical spaces called Fab Labs. By setting up a cohort of lifelong learning trainees taking the MOOC online and attending hands-on in-person workshops, IMT to experiment blended learning models and hybrid skills certification for project-based STEM courses.
翻訳日:2023-03-08 14:35:57 公開日:2023-03-07
# 汎用オブジェクト操作のためのロボット制御からのスキル学習の分離

Decoupling Skill Learning from Robotic Control for Generalizable Object Manipulation ( http://arxiv.org/abs/2303.04016v1 )

ライセンス: Link先を確認
Kai Lu, Bo Yang, Bing Wang, Andrew Markham(参考訳) 強化学習(RL)や模倣学習(IL)によるロボット操作の最近の研究は、例えば引き出しや食器棚を開くといった様々なタスクに取り組む可能性を示している。 しかし、これらの手法は目に見えない物体にはあまり一般化しない。 これはジョイント制御のための高次元作用空間によるものであると推測する。 本稿では,「何をするか」を「どのように行うか」から学習するタスク,すなわち全身制御を分離する手法を提案する。 我々は,人工関節と相互作用する仮想マニピュレータのスキルダイナミクス決定の一手法としてrl問題を提案する。 全身ロボット運動制御は、作業空間の目標を達成するために高次元関節運動を実行するように最適化される。 ロボット特異点とキネマティック制約を持つ二次プログラミング(QP)モデルを解くことで実現している。 複雑な調音物体の操作に関する実験により,提案手法はクラス内変動が大きい物体に対してより一般化可能であることを示す。 評価の結果,提案手法はより協調的なロボット動作を生成し,タスク成功率の純粋rlおよびilベースラインを上回った。

Recent works in robotic manipulation through reinforcement learning (RL) or imitation learning (IL) have shown potential for tackling a range of tasks e.g., opening a drawer or a cupboard. However, these techniques generalize poorly to unseen objects. We conjecture that this is due to the high-dimensional action space for joint control. In this paper, we take an alternative approach and separate the task of learning 'what to do' from 'how to do it' i.e., whole-body control. We pose the RL problem as one of determining the skill dynamics for a disembodied virtual manipulator interacting with articulated objects. The whole-body robotic kinematic control is optimized to execute the high-dimensional joint motion to reach the goals in the workspace. It does so by solving a quadratic programming (QP) model with robotic singularity and kinematic constraints. Our experiments on manipulating complex articulated objects show that the proposed approach is more generalizable to unseen objects with large intra-class variations, outperforming previous approaches. The evaluation results indicate that our approach generates more compliant robotic motion and outperforms the pure RL and IL baselines in task success rates.
翻訳日:2023-03-08 14:35:47 公開日:2023-03-07
# 疫学的価値推定による探索

Exploration via Epistemic Value Estimation ( http://arxiv.org/abs/2303.04012v1 )

ライセンス: Link先を確認
Simon Schmitt, John Shawe-Taylor, Hado van Hasselt(参考訳) 強化学習を効率的に探究する方法は、オープンな問題である。 多くの探索アルゴリズムは、例えば探索ボーナスや高い信頼度を求めるために、自身の値予測の認識論的不確実性を用いる。 残念ながら、必要な不確実性は一般に関数近似で推定することは困難である。 本稿では,シーケンシャルな意思決定とニューラルネットワーク機能近似に適合するレシピであるてんかん評価(EVE: epistemic value Estimation)を提案する。 認識値の不確かさを効率的に計算できる全てのパラメーターに対して、薬品に従属可能な後続性を与える。 このレシピを用いて、認識型q-learningエージェントを導出し、一連のベンチマークで競合性能を観察する。 実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。

How to efficiently explore in reinforcement learning is an open problem. Many exploration algorithms employ the epistemic uncertainty of their own value predictions -- for instance to compute an exploration bonus or upper confidence bound. Unfortunately the required uncertainty is difficult to estimate in general with function approximation. We propose epistemic value estimation (EVE): a recipe that is compatible with sequential decision making and with neural network function approximators. It equips agents with a tractable posterior over all their parameters from which epistemic value uncertainty can be computed efficiently. We use the recipe to derive an epistemic Q-Learning agent and observe competitive performance on a series of benchmarks. Experiments confirm that the EVE recipe facilitates efficient exploration in hard exploration tasks.
翻訳日:2023-03-08 14:35:27 公開日:2023-03-07
# ELODIN: 埋め込みスペースにおけるナーミングの概念

ELODIN: Naming Concepts in Embedding Spaces ( http://arxiv.org/abs/2303.04001v1 )

ライセンス: Link先を確認
Rodrigo Mello, Filipe Calegario, Geber Ramalho(参考訳) 最近の進歩にもかかわらず、テキストから画像への合成の分野は、まだ細かな制御の欠如に苦しんでいる。 テキストのみを使用することで、概念コヒーレンスや概念汚染といった問題に対処することは依然として困難である。 本稿では,複数の画像にまたがって再利用可能な特定の概念を生成し,画家のパレットによく似た新しい単語で自然言語を効果的に拡張することで,制御性を高める手法を提案する。 従来のコントリビューションとは異なり,本手法は入力データから視覚情報をコピーせず,テキストだけで概念を生成できる。 我々は,テキストのみのプロンプトよりも大幅に改善されることを示す比較を行う。

Despite recent advancements, the field of text-to-image synthesis still suffers from lack of fine-grained control. Using only text, it remains challenging to deal with issues such as concept coherence and concept contamination. We propose a method to enhance control by generating specific concepts that can be reused throughout multiple images, effectively expanding natural language with new words that can be combined much like a painter's palette. Unlike previous contributions, our method does not copy visuals from input data and can generate concepts through text alone. We perform a set of comparisons that finds our method to be a significant improvement over text-only prompts.
翻訳日:2023-03-08 14:35:16 公開日:2023-03-07
# crocosum: 言語間コードスイッチによる要約のためのベンチマークデータセット

CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization ( http://arxiv.org/abs/2303.04092v1 )

ライセンス: Link先を確認
Ruochen Zhang and Carsten Eickhoff(参考訳) 言語間要約(CLS)は、大規模Webマイニングデータセットの可用性と多言語言語モデルの進歩により、近年、関心が高まりつつある。 しかし、自然に発生するCLS資源の希少さを考えると、ほとんどのデータセットは過度に人工的なアーティファクトを含むことができる翻訳に頼らざるを得ない。 これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。 メッセージ中の言語間のこの変更は、多言語環境では一般的な現象であるが、データ不足のため、言語間のコンテキストでは見過ごされている。 このギャップに対処するために,技術ニュースのクロスリンガルコード切り換え要約のデータセットであるcrocosumを紹介する。 24,000以上の英語ソース記事と18,000の中国語ニュース要約で構成されており、92%以上の要約にはコード切り換えされたフレーズが含まれている。 参考までに、パイプライン、エンドツーエンド、ゼロショットメソッドを含む既存のアプローチのパフォーマンスを評価する。 既存の資源を事前学習段階として活用しても,crocosumの性能は向上しないことを示す。 最後に,定性的誤り解析によるコードスイッチト生成における言語間要約の課題について論じる。 私たちのコレクションとコードはhttps://github.com/RosenZhang/CroCoSumでアクセスできます。

Cross-lingual summarization (CLS) has attracted increasing interest in recent years due to the availability of large-scale web-mined datasets and the advancements of multilingual language models. However, given the rareness of naturally occurring CLS resources, the majority of datasets are forced to rely on translation which can contain overly literal artifacts. This restricts our ability to observe naturally occurring CLS pairs that capture organic diction, including instances of code-switching. This alteration between languages in mid-message is a common phenomenon in multilingual settings yet has been largely overlooked in cross-lingual contexts due to data scarcity. To address this gap, we introduce CroCoSum, a dataset of cross-lingual code-switched summarization of technology news. It consists of over 24,000 English source articles and 18,000 human-curated Chinese news summaries, with more than 92% of the summaries containing code-switched phrases. For reference, we evaluate the performance of existing approaches including pipeline, end-to-end, and zero-shot methods. We show that leveraging existing resources as a pretraining step does not improve performance on CroCoSum, indicating the limited generalizability of existing resources. Finally, we discuss the challenges of evaluating cross-lingual summarizers on code-switched generation through qualitative error analyses. Our collection and code can be accessed at https://github.com/RosenZhang/CroCoSum.
翻訳日:2023-03-08 14:29:02 公開日:2023-03-07
# 言語による視覚的抽象化と推論

Visual Abstraction and Reasoning through Language ( http://arxiv.org/abs/2303.04091v1 )

ライセンス: Link先を確認
Giacomo Camposampiero, Loic Houmard, Benjamin Estermann, Jo\"el Mathys, Roger Wattenhofer(参考訳) 人工知能(AI)モデルは、狭義のアプリケーションで人間や超人的なパフォーマンスを達成したが、より広範で柔軟な知性を示すのに苦戦している。 Fran\c{c}ois Chollet氏が紹介したARC(Abstraction and Reasoning Corpus)は、AIシステムが人間のような認知能力にどの程度近いかを評価することを目的としている。 現在のアプローチのほとんどは、ARCに存在するタスクに対するブルートフォースソリューションに使用される、慎重に手作りのドメイン固有言語(DSL)に依存しています。 本研究では,タスクの自然言語記述に基づいてARCを解くための一般的なフレームワークを提案する。 ARC上ではまだ最先端のDSLモデルに勝っていないが、これまで未解決のタスクを解く能力によって示唆された我々のアプローチの巨大な可能性を実証している。

While Artificial Intelligence (AI) models have achieved human or even superhuman performance in narrowly defined applications, they still struggle to show signs of broader and more flexible intelligence. The Abstraction and Reasoning Corpus (ARC), introduced by Fran\c{c}ois Chollet, aims to assess how close AI systems are to human-like cognitive abilities. Most current approaches rely on carefully handcrafted domain-specific languages (DSLs), which are used to brute-force solutions to the tasks present in ARC. In this work, we propose a general framework for solving ARC based on natural language descriptions of the tasks. While not yet beating state-of-the-art DSL models on ARC, we demonstrate the immense potential of our approach hinted at by the ability to solve previously unsolved tasks.
翻訳日:2023-03-08 14:28:40 公開日:2023-03-07
# シリコンにおける高忠実度2ビット動作の安定性

Stability of high-fidelity two-qubit operations in silicon ( http://arxiv.org/abs/2303.04090v1 )

ライセンス: Link先を確認
Tuomo Tanttu, Wee Han Lim, Jonathan Y. Huang, Nard Dumoulin Stuyck, Will Gilbert, Rocky Y. Su, MengKe Feng, Jesus D. Cifuentes, Amanda E. Seedhouse, Stefan K. Seritan, Corey I. Ostrove, Kenneth M. Rudinger, Ross C. C. Leon, Wister Huang, Christopher C. Escott, Kohei M. Itoh, Nikolay V. Abrosimov, Hans-Joachim Pohl, Michael L. W. Thewalt, Fay E. Hudson, Robin Blume-Kohout, Stephen D. Bartlett, Andrea Morello, Arne Laucht, Chih Hwan Yang, Andre Saraiva, Andrew S. Dzurak(参考訳) 量子ビット間の安定なエンタングリング操作は、マルチキュービットシステムの効率的な性能に不可欠であり、フルスケールの量子プロセッサのエラーを回避する上で重要な要素となる。 様々なシリコンスピン量子ビットプラットフォームでの最近の実証では、量子誤差補正に必要なしきい値に2量子ビットゲートのフィデリティを約束していることが示されているが、フォールトトレラント量子コンピューティングの真の可能性を評価するには、そのようなフィデリティの安定性のさらなる理解が必要である。 ここでは、シリコン金属酸化物半導体(SiMOS)量子ドットプラットフォームにおいて、99%以上の忠実度を持つ2量子ゲートの最初の動作を示す。 スケーラブルな量子コンピューティングに必要なシリコンにおける2量子ビット動作の安定性について,複数のデバイスにおけるエラーやフィディティを,多数の試行と長時間の運用を通じて解析し,詳細な研究を行った。 特徴化手法は96.8%から99.8%の範囲のフィディティを示し,これらのクビットを誤差補正に必要なしきい値とした。 私たちの分析ツールは、キュービット劣化の物理的原因を特定し、許容範囲内でパフォーマンスを維持する方法も提供します。 さらに,qubit設計,フィードバックシステム,ロバストゲートがスケーラブルで高忠実な制御戦略の実装に与える影響について検討する。 これらの結果は、スピンベースの量子ビットをフルスケールの量子プロセッサにスケールアップする能力と課題の両方を強調している。

Stable entangling operations between qubits are essential for the efficient performance of multi-qubit systems and will be a crucial factor in avoiding errors in full-scale quantum processors. Recent demonstrations on a number of different silicon spin qubit platforms have indicated promising two-qubit gate fidelities at the threshold required for quantum error correction, with errors below around one percent, however, further understanding of the stability of such fidelities is required to assess the true prospects for fault-tolerant quantum computing. Here we demonstrate the first operation of two-qubit gates with fidelities above 99% in the technologically important silicon metal-oxide-semiconductor (SiMOS) quantum dot platform. We undertake a detailed study of the stability of two-qubit operations in silicon, as required for scalable quantum computing, by analyzing errors and fidelities in multiple devices through numerous trials and Extended periods of operation. Our characterisation methods indicate fidelities ranging from 96.8% to 99.8% , putting these qubits at the threshold required for error correction. Our analysis tools also identify physical causes of qubit degradation and offer ways to maintain performance within tolerance. Furthermore, we investigate the impact of qubit design, feedback systems, and robust gates on implementing scalable, high-fidelity control strategies. These results highlight both the capabilities and challenges for the scaling up of spin-based qubits into full-scale quantum processors.
翻訳日:2023-03-08 14:28:25 公開日:2023-03-07
# nephele: 高度に現実的なクラウドラミアンスレンダリングのためのニューラルプラットフォーム

NEPHELE: A Neural Platform for Highly Realistic Cloud Radiance Rendering ( http://arxiv.org/abs/2303.04086v1 )

ライセンス: Link先を確認
Haimin Luo, Siyuan Zhang, Fuqiang Zhao, Haotian Jing, Penghao Wang, Zhenxiao Yu, Dongxue Yan, Junran Ding, Boyuan Zhang, Qiang Hu, Shu Yin, Lan Xu, JIngyi Yu(参考訳) ニューラルレンダリング(NR)の進歩、すなわち、フォトリアルなフリービュー合成におけるNeRFは、最近著しく進歩している。 しかし、単一のコンピュータ/GPUをベースとしたローカル技術として、最高の技術であるInstant-NGPやi-NGPでさえ、高解像度でレンダリングする際にリアルタイムのパフォーマンスに到達できず、しばしば巨大なローカルコンピューティングリソースを必要とする。 本稿では,クラウドレンダリングを活用し,リアルタイムなクラウドラディアンスレンダリングのためのニューラルネットワークプラットフォームであるNEPHELEを提案する。 既存のNRアプローチとは対照的に、NEPHELEは複数のリモートGPUを組み合わせることで、より強力なレンダリング機能を実現し、複数の人が同じNeRFシーンを同時に見ることができるようにすることで、コラボレーションを容易にします。 我々は,超高速なニューラルラジアンスレンダリングに不透明光場を用いるために,i-NOLFを導入した。 我々はさらに,高速な光線問合せのための幾何プロキシを備えたlumigraphに類似し,さらに,局所不透明度lumishperesをモデル化する小mlpを用いて高品質レンダリングを行う。 また、キャッシュコヒーレンスを高めるために、i-NOLFにパーフェクト空間ハッシュを採用する。 その結果,i-NOLF は i-NGP よりも高効率であり,特にクラウドレンダリングシナリオ下でのマルチユーザ多視点設定において性能向上が達成された。 我々はさらに,i-NOLF表現を伴ってタスクスケジューラを調整し,一連の協調型モジュール,すなわち,タスクアサインラ,フレームコンストラクタ,詳細なストリーミング戦略からなる,総合的なクラウドプラットフォームによる方法論設計の進展を実証する。 ニューラルレンダリングと互換性のあるこのようなクラウドプラットフォームを使用することで、クラウドVR/ARレンダリングから、一連のアプリケーションを通じて、クラウドラディアンスレンダリングの能力をさらに示します。

We have recently seen tremendous progress in neural rendering (NR) advances, i.e., NeRF, for photo-real free-view synthesis. Yet, as a local technique based on a single computer/GPU, even the best-engineered Instant-NGP or i-NGP cannot reach real-time performance when rendering at a high resolution, and often requires huge local computing resources. In this paper, we resort to cloud rendering and present NEPHELE, a neural platform for highly realistic cloud radiance rendering. In stark contrast with existing NR approaches, our NEPHELE allows for more powerful rendering capabilities by combining multiple remote GPUs and facilitates collaboration by allowing multiple people to view the same NeRF scene simultaneously. We introduce i-NOLF to employ opacity light fields for ultra-fast neural radiance rendering in a one-query-per-ray manner. We further resemble the Lumigraph with geometry proxies for fast ray querying and subsequently employ a small MLP to model the local opacity lumishperes for high-quality rendering. We also adopt Perfect Spatial Hashing in i-NOLF to enhance cache coherence. As a result, our i-NOLF achieves an order of magnitude performance gain in terms of efficiency than i-NGP, especially for the multi-user multi-viewpoint setting under cloud rendering scenarios. We further tailor a task scheduler accompanied by our i-NOLF representation and demonstrate the advance of our methodological design through a comprehensive cloud platform, consisting of a series of cooperated modules, i.e., render farms, task assigner, frame composer, and detailed streaming strategies. Using such a cloud platform compatible with neural rendering, we further showcase the capabilities of our cloud radiance rendering through a series of applications, ranging from cloud VR/AR rendering.
翻訳日:2023-03-08 14:27:49 公開日:2023-03-07
# meta-explore:シーンオブジェクトスペクトラムグラウンドを用いた探索的階層的視覚・言語ナビゲーション

Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding ( http://arxiv.org/abs/2303.04077v1 )

ライセンス: Link先を確認
Minyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh(参考訳) 視覚・言語ナビゲーション(VLN)の主な課題は、目に見えない環境で自然言語の指示を理解する方法である。 従来のVLNアルゴリズムの主な制限は、アクションが間違っていれば、エージェントは指示に従うことができず、不要な領域を探索し、エージェントを発見不可能な経路へと導くことである。 そこで本研究では,最近の誤動作の修正に利用ポリシーを展開する階層的ナビゲーション手法であるmeta-exploreを提案する。 本研究では,未観察状態と観測可能な状態の間でエージェントをローカルな目標に向かって移動させる利用政策が,エージェントを以前訪問した状態に移動させる方法よりも優れていることを示す。 我々はまた、意味的に有意義な手がかりで後悔的な探究を想像する要求についても強調する。 我々のアプローチの鍵は、スペクトル領域におけるエージェント周辺のオブジェクト配置を理解することである。 具体的には、検出対象のカテゴリワイド2次元フーリエ変換を行うシーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。 搾取方針とsosの特徴を組み合わせることで、エージェントは有望なローカル目標を選択することでその経路を修正できる。 提案手法を3つのVLNベンチマーク(R2R, SOON, REVERIE)で評価した。 Meta-Exploreは他のベースラインよりも優れており、大きな一般化性能を示している。 さらに,提案するスペクトル領域sos特徴を用いた局所目標探索は,成功率を17.1%,splを20.6%向上させた。

The main challenge in vision-and-language navigation (VLN) is how to understand natural-language instructions in an unseen environment. The main limitation of conventional VLN algorithms is that if an action is mistaken, the agent fails to follow the instructions or explores unnecessary regions, leading the agent to an irrecoverable path. To tackle this problem, we propose Meta-Explore, a hierarchical navigation method deploying an exploitation policy to correct misled recent actions. We show that an exploitation policy, which moves the agent toward a well-chosen local goal among unvisited but observable states, outperforms a method which moves the agent to a previously visited state. We also highlight the demand for imagining regretful explorations with semantically meaningful clues. The key to our approach is understanding the object placements around the agent in spectral-domain. Specifically, we present a novel visual representation, called scene object spectrum (SOS), which performs category-wise 2D Fourier transform of detected objects. Combining exploitation policy and SOS features, the agent can correct its path by choosing a promising local goal. We evaluate our method in three VLN benchmarks: R2R, SOON, and REVERIE. Meta-Explore outperforms other baselines and shows significant generalization performance. In addition, local goal search using the proposed spectral-domain SOS features significantly improves the success rate by 17.1% and SPL by 20.6% for the SOON benchmark.
翻訳日:2023-03-08 14:27:16 公開日:2023-03-07
# VOCALExplore:Pay-as-You-Goビデオデータ探索とモデル構築

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building ( http://arxiv.org/abs/2303.04068v1 )

ライセンス: Link先を確認
Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, and Magdalena Balazinska(参考訳) VOCALExploreは,ビデオデータセット上でのドメイン固有モデル構築を支援するシステムである。 VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。 VOCALExploreは、収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。 また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。 最後に、VOCALExploreはモデル性能を犠牲にすることなく低レイテンシを実現する最適化を実装している。 VOCALExploreは、候補取得関数と特徴抽出器が与えられたモデル品質に最も近い性能で、可視遅延が低く(イテレーション1秒あたり約1秒)、高価な前処理が不要であることを示す。

We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
翻訳日:2023-03-08 14:26:49 公開日:2023-03-07
# 雑音中規模量子コンピュータ

Noisy intermediate-scale quantum computers ( http://arxiv.org/abs/2303.04061v1 )

ライセンス: Link先を確認
Bin Cheng, Xiu-Hao Deng, Xiu Gu, Yu He, Guangchong Hu, Peihao Huang, Jun Li, Ben-Chuan Lin, Dawei Lu, Yao Lu, Chudan Qiu, Hui Wang, Tao Xin, Shi Yu, Man-Hong Yung, Junkai Zeng, Song Zhang, Youpeng Zhong, Xinhua Peng, Franco Nori, Dapeng Yu(参考訳) 量子コンピュータは過去10年間で驚くべき進歩を遂げており、普遍的なフォールトトレラントな量子コンピュータを追求する過程で重要なマイルストーンが達成されている。 量子時代の転換点である量子優位性は、いくつかのブレークスルーの波と共に達成されてきた。 量子ハードウェアは、幼児時代に比べて、より統合され、アーキテクチャになった。 各種物理系の制御精度は耐故障しきい値を超えている。 一方、量子計算研究は工業化と商業化を受け入れることで新しい規範を確立した。 政府、民間投資家、テクノロジー企業のジョイントパワーは、現在騒がしい中規模量子時代の始まりであるこの分野の発展を加速する新しい活気ある環境を著しく形成してきた。 ここでは,まず量子計算の分野において達成された進歩を,最も有望な技術経路において最も重要なアルゴリズムと進歩をレビューし,次に次の課題を要約することで議論する。 さらに,我々は,フォールトトレラント量子コンピュータのための強固な基盤が構築されていること,また,人間社会に不可欠な量子キラー応用の出現が将来起こるという楽観性を示す。

Quantum computers have made extraordinary progress over the past decade, and significant milestones have been achieved along the path of pursuing universal fault-tolerant quantum computers. Quantum advantage, the tipping point heralding the quantum era, has been accomplished along with several waves of breakthroughs. Quantum hardware has become more integrated and architectural compared to its toddler days. The controlling precision of various physical systems is pushed beyond the fault-tolerant threshold. Meanwhile, quantum computation research has established a new norm by embracing industrialization and commercialization. The joint power of governments, private investors, and tech companies has significantly shaped a new vibrant environment that accelerates the development of this field, now at the beginning of the noisy intermediate-scale quantum era. Here, we first discuss the progress achieved in the field of quantum computation by reviewing the most important algorithms and advances in the most promising technical routes, and then summarizing the next-stage challenges. Furthermore, we illustrate our confidence that solid foundations have been built for the fault-tolerant quantum computer and our optimism that the emergence of quantum killer applications essential for human society shall happen in the future.
翻訳日:2023-03-08 14:26:35 公開日:2023-03-07
# Aucklet: 接地された知覚カテゴリー記述の生成

Describe me an Aucklet: Generating Grounded Perceptual Category Descriptions ( http://arxiv.org/abs/2303.04053v1 )

ライセンス: Link先を確認
Bill Noble, Nikolai Ilinykh(参考訳) 人間の言語ユーザは、インスタンスレベルの表現を超えた知覚概念の記述を生成したり、そのような記述を使って暫定的なクラスレベルの表現を学ぶことができる。 しかし、クラス表現で学習し、操作できる計算モデルの能力は、言語とビジョンの分野では未定である。 本稿では,クラスレベルの記述を生成し解釈するために,ニューラルネットワークを個別に訓練する。 次に,解釈モデルのゼロショット分類性能を,コミュニケーション成功とクラスレベルの概念的基礎化の尺度として利用する。 本稿では,プロトタイプと模範型ニューラル表現のカテゴリー記述に基づく性能について検討する。 最後に,従来のNLG評価指標によって捉えられていない世代モデルの性能問題を明らかにすることを示し,これらの問題は,クラスレベルで言語を適切に理解できないことに起因している,と論じる。 解釈モデルでは,クラスレベルでの多様性の低い記述がより良好であり,頻繁に発生する特徴に強く依存していることが示唆される。

Human language users can generate descriptions of perceptual concepts beyond instance-level representations and also use such descriptions to learn provisional class-level representations. However, the ability of computational models to learn and operate with class representations is under-investigated in the language-and-vision field. In this paper, we train separate neural networks to generate and interpret class-level descriptions. We then use the zero-shot classification performance of the interpretation model as a measure of communicative success and class-level conceptual grounding. We investigate the performance of prototype- and exemplar-based neural representations grounded category description. Finally, we show that communicative success reveals performance issues in the generation model that are not captured by traditional intrinsic NLG evaluation metrics, and argue that these issues can be traced to a failure to properly ground language in vision at the class level. We observe that the interpretation model performs better with descriptions that are low in diversity on the class level, possibly indicating a strong reliance on frequently occurring features.
翻訳日:2023-03-08 14:26:17 公開日:2023-03-07
# chatgptは優れたnlgエバブリエーターか? 予備的研究

Is ChatGPT a Good NLG Evaluator? A Preliminary Study ( http://arxiv.org/abs/2303.04048v1 )

ライセンス: Link先を確認
Jiaan Wang, Yunlong Liang, Fandong Meng, Haoxiang Shi, Zhixu Li, Jinan Xu, Jianfeng Qu, Jie Zhou(参考訳) 近年、ChatGPTの出現は、計算言語学コミュニティから広く注目を集めている。 多くの先行研究により、ChatGPTは自動評価指標を用いて様々なNLPタスクにおいて顕著な性能を発揮することが示されている。 しかし、ChatGPTが評価指標として機能する能力はまだ未定である。 NLGモデルの質を評価することは困難な作業であり、従来の統計指標は人間の判断と相関が低いことで悪名高いことから、ChatGPTが優れたNLG評価指標であるかどうか疑問である。 本稿では,その信頼性を NLG 測定値として示すため,ChatGPT の予備メタ評価を行う。 より詳しくは、ChatGPTを人間評価器とみなし、タスク特化(例えば、要約)とアスペクト特化(例えば、関連性)の指示を与えて、ChatGPTにNLGモデルの生成を促す。 我々は,広く利用されている3つのNLGメタ評価データセット(要約,ストーリ生成,テキスト間タスクなど)について実験を行った。 実験結果から,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関が得られた。 我々の予備研究は、汎用的な信頼性NLGメトリックの出現を促すことを願っている。

Recently, the emergence of ChatGPT has attracted wide attention from the computational linguistics community. Many prior studies have shown that ChatGPT achieves remarkable performance on various NLP tasks in terms of automatic evaluation metrics. However, the ability of ChatGPT to serve as an evaluation metric is still underexplored. Considering assessing the quality of NLG models is an arduous task and previous statistical metrics notoriously show their poor correlation with human judgments, we wonder whether ChatGPT is a good NLG evaluation metric. In this report, we provide a preliminary meta-evaluation on ChatGPT to show its reliability as an NLG metric. In detail, we regard ChatGPT as a human evaluator and give task-specific (e.g., summarization) and aspect-specific (e.g., relevance) instruction to prompt ChatGPT to score the generation of NLG models. We conduct experiments on three widely-used NLG meta-evaluation datasets (including summarization, story generation and data-to-text tasks). Experimental results show that compared with previous automatic metrics, ChatGPT achieves state-of-the-art or competitive correlation with golden human judgments. We hope our preliminary study could prompt the emergence of a general-purposed reliable NLG metric.
翻訳日:2023-03-08 14:26:02 公開日:2023-03-07
# wigner kernels: 基礎のない体順序同変機械学習

Wigner kernels: body-ordered equivariant machine learning without a basis ( http://arxiv.org/abs/2303.04124v1 )

ライセンス: Link先を確認
Filippo Bigi and Sergey N. Pozdnyakov and Michele Ceriotti(参考訳) 物理オブジェクトのポイントクラウド表現に基づく機械学習モデルは、科学応用においてユビキタスであり、特に分子や物質の原子規模の記述に適している。 追求された多くの異なるアプローチの中で、その隣の密度の観点からの局所原子環境の記述は広く、非常に成功している。 本稿では,'Wigner kernel''の計算を含む新しい密度ベース手法を提案する。 これらは、放射化学ベースに依存しないコストで反復的に計算でき、最大ボディオーダーを考慮した線形にしか成長しない完全同変でボディオーダー化されたカーネルである。 これは、相関の順序の増大とともに指数関数的に増加する項数を構成する特徴空間モデルとは対照的である。 化学応用におけるウィグナーカーネルに基づくモデルの精度の例をいくつか提示し, 一般的なQM9ベンチマークデータセットにおいて, スカラーターゲットとテンソルターゲットの両方に対して, 最先端の精度を達成し, 等変幾何機械学習に対するこれらのアイデアの広範な関連性について論じる。

Machine-learning models based on a point-cloud representation of a physical object are ubiquitous in scientific applications and particularly well-suited to the atomic-scale description of molecules and materials. Among the many different approaches that have been pursued, the description of local atomic environments in terms of their neighbor densities has been used widely and very succesfully. We propose a novel density-based method which involves computing ``Wigner kernels''. These are fully equivariant and body-ordered kernels that can be computed iteratively with a cost that is independent of the radial-chemical basis and grows only linearly with the maximum body-order considered. This is in marked contrast to feature-space models, which comprise an exponentially-growing number of terms with increasing order of correlations. We present several examples of the accuracy of models based on Wigner kernels in chemical applications, for both scalar and tensorial targets, reaching state-of-the-art accuracy on the popular QM9 benchmark dataset, and we discuss the broader relevance of these ideas to equivariant geometric machine-learning.
翻訳日:2023-03-08 14:19:55 公開日:2023-03-07
# 安全かつ効率的な強化学習のための乗算値関数

A Multiplicative Value Function for Safe and Efficient Reinforcement Learning ( http://arxiv.org/abs/2303.04118v1 )

ライセンス: Link先を確認
Nick B\"uhrer, Zhejun Zhang, Alexander Liniger, Fisher Yu, Luc Van Gool(参考訳) シーケンシャルな意思決定問題の新興分野は安全強化学習(RL)であり、安全制約に従って報酬を最大化することを目的としている。 制約に対処できることは、制約違反がエージェントと環境を傷つける可能性がある実環境において、RLエージェントをデプロイするために不可欠である。 そこで本研究では,安全評論家と報酬批判者からなる新しい乗法価値関数を持つモデルフリーなrlアルゴリズムを提案する。 安全評論家は、制約違反の確率を予測し、制約のないリターンのみを見積もる報酬批評家をディスカウントする。 責任を分割することで,学習作業が促進され,サンプル効率が向上する。 提案手法を2つの一般的なRLアルゴリズム, Proximal Policy Optimization と Soft Actor-Critic に統合し,安全制約を付加した古典的RLベンチマーク,画像を用いたロボットナビゲーションタスク,生のLidarスキャンを観察対象とする4つの安全性重視環境で評価する。 最後に、ディファレンシャルドライブロボットが散らかった部屋をナビゲートしなければならないゼロショットのsim-to-real転送を行う。 私たちのコードはhttps://github.com/nikeke19/Safe-Mult-RLで参照できます。

An emerging field of sequential decision problems is safe Reinforcement Learning (RL), where the objective is to maximize the reward while obeying safety constraints. Being able to handle constraints is essential for deploying RL agents in real-world environments, where constraint violations can harm the agent and the environment. To this end, we propose a safe model-free RL algorithm with a novel multiplicative value function consisting of a safety critic and a reward critic. The safety critic predicts the probability of constraint violation and discounts the reward critic that only estimates constraint-free returns. By splitting responsibilities, we facilitate the learning task leading to increased sample efficiency. We integrate our approach into two popular RL algorithms, Proximal Policy Optimization and Soft Actor-Critic, and evaluate our method in four safety-focused environments, including classical RL benchmarks augmented with safety constraints and robot navigation tasks with images and raw Lidar scans as observations. Finally, we make the zero-shot sim-to-real transfer where a differential drive robot has to navigate through a cluttered room. Our code can be found at https://github.com/nikeke19/Safe-Mult-RL.
翻訳日:2023-03-08 14:19:36 公開日:2023-03-07
# 機械学習を用いた病院デジタル双生児の検証

Validation of a Hospital Digital Twin with Machine Learning ( http://arxiv.org/abs/2303.04117v1 )

ライセンス: Link先を確認
Muhammad Aurangzeb Ahmad, Vijay Chickarmane, Farinaz Ali Sabzpour, Nima Shariari, Taposh Roy(参考訳) 最近、ボトルネックや改善の領域をよりよく理解するために、医療におけるプロセスフローのDigital Twins開発への関心が高まっている。 重要な課題は、検証プロセスです。 本研究は,院内患者の寝返り時間を決定するためのエージェントベースシミュレーションモデルを用いたデジタル双生児の作業について述べる。 モデル検証と感度分析の実装に機械学習を用いた戦略を用いる。

Recently there has been a surge of interest in developing Digital Twins of process flows in healthcare to better understand bottlenecks and areas of improvement. A key challenge is in the validation process. We describe a work in progress for a digital twin using an agent based simulation model for determining bed turnaround time for patients in hospitals. We employ a strategy using machine learning for validating the model and implementing sensitivity analysis.
翻訳日:2023-03-08 14:19:16 公開日:2023-03-07
# TrafficBots: 自律走行シミュレーションとモーション予測のための世界モデルを目指して

TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction ( http://arxiv.org/abs/2303.04116v1 )

ライセンス: Link先を確認
Zhejun Zhang, Alexander Liniger, Dengxin Dai, Fisher Yu, Luc Van Gool(参考訳) データ駆動型シミュレーションは、自律運転アルゴリズムのトレーニングとテストに好適な方法となっている。 実環境を学習シミュレータに置き換えるというアイデアは、世界モデルの文脈におけるモデルベース強化学習でも研究されている。 本研究では,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示す。 我々は、モーション予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介し、TrafficBotsに基づいて、自動運転車の計画モジュールに適した世界モデルを得る。 既存のデータ駆動型トラフィックシミュレータには、構成性やスケーラビリティがない。 設定可能な振る舞いを生成するために、各エージェントに対して、目的地をナビゲーション情報として導入し、行動スタイルを規定する時間不変の潜時パーソナリティを導入する。 拡張性を向上させるために,すべてのエージェントが同じベクトル化されたコンテキストを共有し,ドット製品注目に基づくアーキテクチャを使用することを可能にする,アングルの位置符号化の新たなスキームを提案する。 その結果、密集した都市シナリオで見られる全ての交通参加者をシミュレートすることができる。 waymoオープンモーションデータセットの実験では、trafficbotsはリアルなマルチエージェント動作をシミュレートし、動き予測タスクで優れたパフォーマンスを達成することができる。

Data-driven simulation has become a favorable way to train and test autonomous driving algorithms. The idea of replacing the actual environment with a learned simulator has also been explored in model-based reinforcement learning in the context of world models. In this work, we show data-driven traffic simulation can be formulated as a world model. We present TrafficBots, a multi-agent policy built upon motion prediction and end-to-end driving, and based on TrafficBots we obtain a world model tailored for the planning module of autonomous vehicles. Existing data-driven traffic simulators are lacking configurability and scalability. To generate configurable behaviors, for each agent we introduce a destination as navigational information, and a time-invariant latent personality that specifies the behavioral style. To improve the scalability, we present a new scheme of positional encoding for angles, allowing all agents to share the same vectorized context and the use of an architecture based on dot-product attention. As a result, we can simulate all traffic participants seen in dense urban scenarios. Experiments on the Waymo open motion dataset show TrafficBots can simulate realistic multi-agent behaviors and achieve good performance on the motion prediction task.
翻訳日:2023-03-08 14:19:11 公開日:2023-03-07
# 大規模分散検出のための埋込電力回帰予測

Predicted Embedding Power Regression for Large-Scale Out-of-Distribution Detection ( http://arxiv.org/abs/2303.04115v1 )

ライセンス: Link先を確認
Hong Yang, William Gebhardt, Alexander G. Ororbia, Travis Desell(参考訳) アウト・オブ・ディストリビューション(OOD)入力は、現実世界の機械学習システムの性能と安全性を損なう可能性がある。 OOD検出には多くの方法があり、解像度が低くクラスが少ない小規模なデータセットではうまく機能するが、大規模OOD検出のための方法はほとんど開発されていない。 既存の大規模手法は一般に最先端のグループ化ソフトマックス法のような最大分類確率に依存する。 本研究では,学習過程で学習したラベル分布に基づいて,予測されたクラスラベルの確率を計算する手法を開発した。 提案手法は,計算コストの最小化のみで,現在の最先端手法よりも優れた性能を発揮する。 提案手法を14ドルのデータセットで比較し,AUROC(84.2対82.4)とAUPR(96.2対93.7)に関して統計的に有意な改善を実現した。

Out-of-distribution (OOD) inputs can compromise the performance and safety of real world machine learning systems. While many methods exist for OOD detection and work well on small scale datasets with lower resolution and few classes, few methods have been developed for large-scale OOD detection. Existing large-scale methods generally depend on maximum classification probability, such as the state-of-the-art grouped softmax method. In this work, we develop a novel approach that calculates the probability of the predicted class label based on label distributions learned during the training process. Our method performs better than current state-of-the-art methods with only a negligible increase in compute cost. We evaluate our method against contemporary methods across $14$ datasets and achieve a statistically significant improvement with respect to AUROC (84.2 vs 82.4) and AUPR (96.2 vs 93.7).
翻訳日:2023-03-08 14:18:53 公開日:2023-03-07
# 多モード共振器を用いた深部結合回路QEDシステムにおける極大ラムシフト

Extremely Large Lamb Shift in a Deep-strongly Coupled Circuit QED System with a Multimode Resonator ( http://arxiv.org/abs/2303.04114v1 )

ライセンス: Link先を確認
Ziqiao Ao, Sahel Ashhab, Fumiki Yoshihara, Tomoko Fuse, Kosuke Kakuyanagi, Shiro Saito, Takao Aoki, and Kouichi Semba(参考訳) 本稿では, 量子共振器結合強度が量子ビットおよび共振器周波数に匹敵する, 深部結合(DSC)系における多モード回路量子電磁力学(QED)系のラムシフトに関する実験および理論的結果について報告する。 本システムは、超伝導束量子ビット(FQ)と、Josephson接合を含む共有エッジを介して誘導的に結合されてDSC体制を実現する4分の1波長コプラナー導波管共振器(\lambda/4$ CPWR)を備える。 分光はCPWRの基本モードの周波数の周囲で行われ、スペクトルは単一モードの量子ラビハミルトニアンによって調整され、系パラメータを得る。 量子ビットは共振器内の多くの高次モードと結合されているため、単一モードのフィッティングは素の量子ビットエネルギーを供給せず、他の全てのモードからの正規化を組み込んだ値となる。 マルチモード共振器系におけるラムシフトの理論式を導出する。 前述したように、FQ と CPWR のモードのカップリングのためのカットオフ周波数 $\omega_{\textrm{cutoff}}$ があり、この結合は $\sqrt{\omega_n}$ for $\omega_n/\omega_{\textrm{cutoff}}\ll 1$ として増加し、$/\sqrt{\omega_n}$ for $\omega_n/\omega_{\textrm{cutoff}}\gg 1$ として減少する。 ここで$\omega_n$は$n$thモードの周波数です。 観測されたスペクトルと理論式を用いて,基本モードからのラムシフトは82.3\%,全モードからのラムシフトは96.5\%と推定した。 この結果から、CPWRにおける多数のモードとのカップリングは、非常に大きなラムシフトをもたらすが、クォービットエネルギーをゼロに抑えることはできないことが示される。

We report experimental and theoretical results on the extremely large Lamb shift in a multimode circuit quantum electrodynamics (QED) system in the deep-strong coupling (DSC) regime, where the qubit-resonator coupling strength is comparable to or larger than the qubit and resonator frequencies. The system comprises a superconducting flux qubit (FQ) and a quarter-wavelength coplanar waveguide resonator ($\lambda/4$ CPWR) that are coupled inductively through a shared edge that contains a Josephson junction to achieve the DSC regime. Spectroscopy is performed around the frequency of the fundamental mode of the CPWR, and the spectrum is fitted by the single-mode quantum Rabi Hamiltonian to obtain the system parameters. Since the qubit is also coupled to a large number of higher modes in the resonator, the single-mode fitting does not provide the bare qubit energy but a value that incorporates the renormalization from all the other modes. We derive theoretical formulas for the Lamb shift in the multimode resonator system. As shown in previous studies, there is a cut-off frequency $\omega_{\textrm{cutoff}}$ for the coupling between the FQ and the modes in the CPWR, where the coupling grows as $\sqrt{\omega_n}$ for $\omega_n/\omega_{\textrm{cutoff}}\ll 1$ and decreases as $1/\sqrt{\omega_n}$ for $\omega_n/\omega_{\textrm{cutoff}}\gg 1$. Here $\omega_n$ is the frequency of the $n$th mode. Using our observed spectrum and theoretical formulas, we estimate that the Lamb shift from the fundamental mode is 82.3\% and the total Lamb shift from all the modes is 96.5\%. This result illustrates that the coupling to the large number of modes in a CPWR yields an extremely large Lamb shift but does not suppress the qubit energy to zero, which would happen in the absence of a high-frequency cut-off.
翻訳日:2023-03-08 14:18:38 公開日:2023-03-07
# 事前学習モデルの軽量移動のためのイントロスペクティブ・クロス・アテンション・プローブ

Introspective Cross-Attention Probing for Lightweight Transfer of Pre-trained Models ( http://arxiv.org/abs/2303.04105v1 )

ライセンス: Link先を確認
Yonatan Dukler, Alessandro Achille, Hao Yang, Varsha Vivek, Luca Zancato, Ben Bowman, Avinash Ravichandran, Charless Fowlkes, Ashwin Swaminathan, Stefano Soatto(参考訳) 本稿では,事前学習モデルの任意のアクティベーション層にクロスタッチする,軽量なトランスファー学習手法であるincaを提案する。 トレーニング中、InCAは単一のフォワードパスを使用して複数のアクティベーションを抽出し、外部のクロスアテンションアダプタに渡され、新たなトレーニングと組み合わせ、あるいは下流タスクのために選択される。 InCAは1つのトップスコーリングアダプタを選択しても、最終層のみの微調整に匹敵するコストで、完全な微調整に匹敵するパフォーマンスを達成する。 例えば、事前訓練されたViT-L/16モデルの1.3%の大きさのクロスアテンションプローブを用いて、11の下流分類タスクで、ベースラインの51%のトレーニングコストでフル微調整パラゴンの0.2%以内のパフォーマンスを達成する。 他の効率的な適応形式とは異なり、InCAは事前訓練されたモデルを通してバックプロパゲートを必要としないため、トレーニングと推論の両方でその実行は変更されない。 InCAの汎用性は、最終層にないが中間層アクティベーションでアクセス可能な情報にアクセスする必要がある、きめ細かいタスクにおいて最もよく示される。 バックボーンが固定されているため、InCAは並列アンサンブルと複数のタスクの並列実行を可能にする。 InCAはImageNet-to-Sketchマルチタスクベンチマークで最先端のパフォーマンスを実現している。

We propose InCA, a lightweight method for transfer learning that cross-attends to any activation layer of a pre-trained model. During training, InCA uses a single forward pass to extract multiple activations, which are passed to external cross-attention adapters, trained anew and combined or selected for downstream tasks. We show that, even when selecting a single top-scoring adapter, InCA achieves performance comparable to full fine-tuning, at a cost comparable to fine-tuning just the last layer. For example, with a cross-attention probe 1.3% the size of a pre-trained ViT-L/16 model, we achieve performance within 0.2% of the full fine-tuning paragon at 51% training cost of the baseline, on average across 11 downstream classification tasks. Unlike other forms of efficient adaptation, InCA does not require backpropagating through the pre-trained model, thus leaving its execution unaltered at both training and inference. The versatility of InCA is best illustrated in fine-grained tasks, which may require accessing information absent in the last layer but accessible in intermediate layer activations. Since the backbone is fixed, InCA allows parallel ensembling as well as parallel execution of multiple tasks. InCA achieves state-of-the-art performance in the ImageNet-to-Sketch multi-task benchmark.
翻訳日:2023-03-08 14:17:56 公開日:2023-03-07
# 呼吸異常検出のための多目的損失型インセプション・レジデンシャル・アーキテクチャ

An Inception-Residual-Based Architecture with Multi-Objective Loss for Detecting Respiratory Anomalies ( http://arxiv.org/abs/2303.04104v1 )

ライセンス: Link先を確認
Dat Ngo, Lam Pham, Huy Phan, Minh Tran, Delaram Jarchi, Sefki Kolozali(参考訳) 本稿では,呼吸音記録から異常を検出するための深層学習システムを提案する。 まず,ガンマトーンと連続ウェーブレット変換を用いた音声特徴抽出からシステムを構築する。 このステップは、呼吸音入力をスペクトルと時間の両方の特徴が提示される2次元分光図に変換することを目的としている。 そこで本システムでは,マルチヘッドアテンションと多目的損失を併用して呼吸異常の分類を行う。 本研究では,IEEE BioCAS 2022 チャレンジで提案した SPRSound (The Open-source SJTU Paediatric Respiratory Sound) のベンチマークデータセットについて実験を行った。 平均スコアとハーモニックスコアの平均値から算出したスコアについては,課題ベースラインシステムと比較して,タスク1-1,タスク1-2,タスク2-1,タスク2-2の9.7%,15.8%,17.0%,9.4%の大幅な改善が得られた。 特に第2-1タスクにおいて,最高スコア73.7%のTop-1パフォーマンスを達成した。

This paper presents a deep learning system applied for detecting anomalies from respiratory sound recordings. Initially, our system begins with audio feature extraction using Gammatone and Continuous Wavelet transformation. This step aims to transform the respiratory sound input into a two-dimensional spectrogram where both spectral and temporal features are presented. Then, our proposed system integrates Inception-residual-based backbone models combined with multi-head attention and multi-objective loss to classify respiratory anomalies. In this work, we conducted experiments over the benchmark dataset of SPRSound (The Open-Source SJTU Paediatric Respiratory Sound) proposed by the IEEE BioCAS 2022 challenge. As regards the Score computed by an average between the average score and harmonic score, our proposed system gained significant improvements of 9.7%, 15.8%, 17.0%, and 9.4% in Task 1-1, Task 1-2, Task 2-1, and Task 2-2 compared to the challenge baseline system. Notably, we achieved the Top-1 performance in Task 2-1 with the highest Score of 73.7%.
翻訳日:2023-03-08 14:17:31 公開日:2023-03-07
# エンド・ツー・エンドポリシーと最適スムースフィクションプレイによるマスタリング戦略カードゲーム(コードとマジック)

Mastering Strategy Card Game (Legends of Code and Magic) via End-to-End Policy and Optimistic Smooth Fictitious Play ( http://arxiv.org/abs/2303.04096v1 )

ライセンス: Link先を確認
Wei Xi, Yongxin Zhang, Changnan Xiao, Xuefeng Huang, Shihong Deng, Haowei Liang, Jie Chen, Peng Sun(参考訳) 深層強化学習と架空の遊びの組み合わせは、多くのベンチマークゲームで印象的な結果を示している。 対照的に、実世界の意思決定問題は複数の段階から成り、観測空間と行動空間は完全に異なる。 我々は、2段階の戦略カードゲーム「Regends of Code and Magic」を研究し、多段階ゲームにおける困難に対処するためのエンドツーエンドポリシーを提案する。 また,2人プレイのナッシュ均衡を求めるため,楽観的な滑らかな仮想プレイアルゴリズムを提案する。 私たちのアプローチはCOG2022の2連覇です。 広範な研究が我々のアプローチの進歩を検証し示す。

Deep Reinforcement Learning combined with Fictitious Play shows impressive results on many benchmark games, most of which are, however, single-stage. In contrast, real-world decision making problems may consist of multiple stages, where the observation spaces and the action spaces can be completely different across stages. We study a two-stage strategy card game Legends of Code and Magic and propose an end-to-end policy to address the difficulties that arise in multi-stage game. We also propose an optimistic smooth fictitious play algorithm to find the Nash Equilibrium for the two-player game. Our approach wins double championships of COG2022 competition. Extensive studies verify and show the advancement of our approach.
翻訳日:2023-03-08 14:17:13 公開日:2023-03-07
# Marpaとnull許容シンボル

Marpa and nullable symbols ( http://arxiv.org/abs/2303.04093v1 )

ライセンス: Link先を確認
Jeffrey Kegler(参考訳) marpaパーサーは、earleyのアルゴリズムに関する学術文献の最良の結果を実用的な一般パーサーとして提供することを意図していた。 Earleyベースのパーサーはnull許容シンボルを扱うのに問題がある。 最初は、Aycock と Horspool の 2002 年の論文のアプローチに従うことで、null許容記号を扱いました。 本稿では,本論文におけるアプローチの経験と,その経験に反応して解決したnull許容を扱うアプローチについて報告する。

The Marpa parser was intended to make the best results in the academic literature on Earley's algorithm available as a practical general parser. Earley-based parsers have had issues handling nullable symbols. Initially, we dealt with nullable symbols by following the approach in Aycock and Horspool's 2002 paper. This paper reports our experience with the approach in that paper, and the approach to handling nullables that we settled on in reaction to that experience.
翻訳日:2023-03-08 14:16:58 公開日:2023-03-07
# 2層ReLUネットワークの配向オーバーフィッティング

Benign Overfitting for Two-layer ReLU Networks ( http://arxiv.org/abs/2303.04145v1 )

ライセンス: Link先を確認
Yiwen Kou and Zixiang Chen and Yuanzhou Chen and Quanquan Gu(参考訳) 優れた表現力を持つ現代のディープラーニングモデルは、トレーニングデータに過度に適合するが、それでも十分に一般化できる。 この現象は良性過剰化(benign overfitting)と呼ばれる。 近年、ニューラルネットワークの良性過剰適合を理論的に理解しようとする研究がいくつかある。 しかしながら、これらの研究は、スムーズな活性化機能を持つニューラルネットワークや、ニューラルタンジェントカーネル体制に限られている。 ReLUニューラルネットワークが過度に適合する理由と時期は未解決のままである。 本研究では,ラベルフリップ雑音を伴う2層ReLU畳み込みニューラルネットワークを学習するアルゴリズム依存型リスク境界を確立することにより,この問題に対処する。 緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。 また,テストリスクの観点から,データ分布の異なる条件下での良性と有害なオーバーフィッティングの急激な移行も明らかにした。 私たちの理論を裏付ける合成データの実験。

Modern deep learning models with great expressive power can be trained to overfit the training data but still generalize well. This phenomenon is referred to as benign overfitting. Recently, a few studies have attempted to theoretically understand benign overfitting in neural networks. However, these works are either limited to neural networks with smooth activation functions or to the neural tangent kernel regime. How and when benign overfitting can occur in ReLU neural networks remains an open problem. In this work, we seek to answer this question by establishing algorithm-dependent risk bounds for learning two-layer ReLU convolutional neural networks with label-flipping noise. We show that, under mild conditions, the neural network trained by gradient descent can achieve near-zero training loss and Bayes optimal test risk. Our result also reveals a sharp transition between benign and harmful overfitting under different conditions on data distribution in terms of test risk. Experiments on synthetic data back up our theory.
翻訳日:2023-03-08 14:10:40 公開日:2023-03-07
# 二重量子ドット干渉計における磁束可変ハイブリッド化

Flux-Tunable Hybridization in a Double Quantum Dot Interferometer ( http://arxiv.org/abs/2303.04144v1 )

ライセンス: Link先を確認
Christian G. Prosko, Ivan Kulesh, Michael Chan, Lin Han, Di Xiao, Candice Thomas, Michael J. Manfra, Leo P. Kouwenhoven, Srijit Goswami, Filip K. Malinowski(参考訳) 磁束でスレッディングされた2つの状態間で共有される1つのフェルミオンは、干渉が起こると予測される最も単純な量子系である。 2つの量子ドットからなる位相コヒーレントループに実装した2つのフェルミオン準位とフラックス間のトンネル結合のチューニングを示す。 ドットのゲート電極の高周波反射計を用いて、トンネル障壁のない開ループに調整されたデバイスを探査する。 そこで,アハルノフ・ボーム効果と一致する磁場中の信号振動を観測する。 ループ状の二重量子ドットにリングをチューニングし、同じ周期性を持つ振動を示す磁束の関数としてドット間トンネル結合を抽出する。 異なるトンネル結合系では、これらの振動のコントラストをベンチマークし、それらの振幅は関連するレベルによって変化するが、トンネルは振動ミニマでは一般的には抑制されない。 これらの結果は、フラックスによって調整されたトンネル結合を持つハイブリッド量子ビットのパリティ読み出しの実現可能性と限界を確立する。

A single fermion shared between two states threaded by a magnetic flux is the simplest possible quantum system in which interference is predicted to occur. We demonstrate tuning of the tunnel coupling between two such fermionic levels with flux, implemented in a phase-coherent loop comprising two quantum dots. Using radio-frequency reflectometry of the dots' gate electrodes, we probe the device tuned into an open loop without tunnel barriers. There, we observe signal oscillations in magnetic field consistent with the Aharonov-Bohm effect. Tuning the ring into a loop-shaped double quantum dot, we extract the inter-dot tunnel coupling as a function of flux, which exhibits oscillations with the same periodicity. In different tunnel coupling regimes we benchmark the contrast of these oscillations, and find that their amplitude varies depending on the levels involved, while tunneling is generically not suppressed at oscillation minima. These results establish the feasibility and limitations of conducting parity readout of hybrid qubits with tunnel couplings tuned by flux.
翻訳日:2023-03-08 14:10:24 公開日:2023-03-07
# 逆画像ネットモデルのパラメータ予測に変換器をスケールできるか?

Can We Scale Transformers to Predict Parameters of Diverse ImageNet Models? ( http://arxiv.org/abs/2303.04143v1 )

ライセンス: Link先を確認
Boris Knyazev, Doha Hwang, Simon Lacoste-Julien(参考訳) 大規模なデータセット上でニューラルネットワークを事前トレーニングすることは、大規模なリソースを持つ少数のコミュニティの手に届く機械学習の基盤になりつつある。 プレトレーニングの民主化という野心的な目標を目指しています。 その目標に向けて、私たちは、他のニューラルネットワークの高品質なイメージネットパラメータを予測できる単一のニューラルネットワークを訓練し、リリースします。 初期化に予測パラメータを使用することで、PyTorchで利用可能なさまざまなImageNetモデルのトレーニングを強化することができます。 他のデータセットに転送されると、予測パラメータで初期化されたモデルもより早く収束し、競合する最終性能に達する。

Pretraining a neural network on a large dataset is becoming a cornerstone in machine learning that is within the reach of only a few communities with large-resources. We aim at an ambitious goal of democratizing pretraining. Towards that goal, we train and release a single neural network that can predict high quality ImageNet parameters of other neural networks. By using predicted parameters for initialization we are able to boost training of diverse ImageNet models available in PyTorch. When transferred to other datasets, models initialized with predicted parameters also converge faster and reach competitive final performance.
翻訳日:2023-03-08 14:10:08 公開日:2023-03-07
# copilotからpilotへ:aiサポートソフトウェア開発に向けて

From Copilot to Pilot: Towards AI Supported Software Development ( http://arxiv.org/abs/2303.04142v1 )

ライセンス: Link先を確認
Rohith Pudari, Neil A. Ernst(参考訳) AIをサポートするプログラミングが登場し、Copilot/Codex(Github/OpenAI)やAlphaCode(DeepMind)といった、コードのための大規模な言語モデルの導入と成功によって示されている。 プログラミングの課題における人間の平均的なパフォーマンス以上は可能になった。 しかし、ソフトウェアエンジニアリングはプログラミングコンテストの解決以上のものです。 コード補完からAIをサポートするソフトウェアエンジニアリングへの移行には、コードの臭いを避ける方法、言語イディオムに従う方法、そして最終的には(おそらく!)合理的なソフトウェア設計を提案するAIシステムが必要である。 本研究では、CopilotのようなAI支援コード補完ツールの現在の限界について検討し、この分野におけるAI支援コード補完ツールの分類を理解するための単純な分類法を提供する。 まず、言語イディオムとコードの臭いに対するCopilotのコード提案について探索的研究を行う。 Copilotは言語イディオムに従わず、テストシナリオのほとんどでコードの臭いを避けます。 次に,コードコンパイルや構文チェックといった'基本的なプログラミング機能'が抽象的ではない,ソフトウェアアーキテクチャ解析や設計が最も抽象的なレベルである,ソフトウェア抽象階層の分類を導入することで,copilotのようなaiサポートコード補完ツールの現在の境界を決定するためのさらなる調査を行う。 最後に、分類学における設計レベルの抽象化に到達するために、aiがサポートするコード補完ツールの今後の開発における課題に関する議論を締めくくった。

AI-supported programming has arrived, as shown by the introduction and successes of large language models for code, such as Copilot/Codex (Github/OpenAI) and AlphaCode (DeepMind). Above human average performance on programming challenges is now possible. However, software engineering is much more than solving programming contests. Moving beyond code completion to AI-supported software engineering will require an AI system that can, among other things, understand how to avoid code smells, to follow language idioms, and eventually (maybe!) propose rational software designs. In this study, we explore the current limitations of AI-supported code completion tools like Copilot and offer a simple taxonomy for understanding the classification of AI-supported code completion tools in this space. We first perform an exploratory study on Copilot's code suggestions for language idioms and code smells. Copilot does not follow language idioms and avoid code smells in most of our test scenarios. We then conduct additional investigation to determine the current boundaries of AI-supported code completion tools like Copilot by introducing a taxonomy of software abstraction hierarchies where 'basic programming functionality' such as code compilation and syntax checking is at the least abstract level, software architecture analysis and design are at the most abstract level. We conclude by providing a discussion on challenges for future development of AI-supported code completion tools to reach the design level of abstraction in our taxonomy.
翻訳日:2023-03-08 14:09:59 公開日:2023-03-07
# ドメインの複雑さの定義に向けて

Toward Defining a Domain Complexity Measure Across Domains ( http://arxiv.org/abs/2303.04141v1 )

ライセンス: Link先を確認
Katarina Doctor, Christine Task, Eric Kildebeck, Mayank Kejriwal, Lawrence Holder, and Russell Leong(参考訳) 実世界のアプリケーションにデプロイするために計画されている人工知能(AI)システムは、すべての変数が制御され、シミュレータやラベル付きベンチマークデータセットが使用されるクローズドシミュレーション環境で頻繁に研究・開発されている。 これらのシミュレータ、テストベッド、ベンチマークデータセットから、よりオープンな領域への遷移は、ドメインの複雑さの著しい増加や現実のノベルティの取り込みなど、AIシステムに重大な課題をもたらす。 ここでは、ドメインに依存しない一般的な領域複雑性尺度への経路を提案する。 私たちはドメインの複雑さの2つの側面を区別します。 固有のドメインの複雑さは、そのドメイン上でタスクを実行するAIエージェントからのアクションやインタラクションなしに、それ自体が持つ複雑さである。 これはドメイン複雑性のエージェント非依存の側面である。 外部ドメインの複雑さはエージェントとタスクに依存します。 内在的および外在的要素の組み合わせはドメイン全体の複雑さを捉える。 ドメインに依存しない方法で、ドメインの複雑さレベルを定義し、影響するコンポーネントをフレーム化します。 複雑さのドメインに依存しない尺度は、あるテストベッドや環境から別のテストベッドへ移行する際にaiシステムに生じる困難さを定量的に予測することができ、また、オープンワールドタスクで分散外データに直面したり、オープンワールドドメインで発生する急速に拡大するソリューションや検索スペースをナビゲートするときにも、その困難さを定量的に予測することができる。

Artificial Intelligence (AI) systems planned for deployment in real-world applications frequently are researched and developed in closed simulation environments where all variables are controlled and known to the simulator or labeled benchmark datasets are used. Transition from these simulators, testbeds, and benchmark datasets to more open-world domains poses significant challenges to AI systems, including significant increases in the complexity of the domain and the inclusion of real-world novelties; the open-world environment contains numerous out-of-distribution elements that are not part in the AI systems' training set. Here, we propose a path to a general, domain-independent measure of domain complexity level. We distinguish two aspects of domain complexity: intrinsic and extrinsic. The intrinsic domain complexity is the complexity that exists by itself without any action or interaction from an AI agent performing a task on that domain. This is an agent-independent aspect of the domain complexity. The extrinsic domain complexity is agent- and task-dependent. Intrinsic and extrinsic elements combined capture the overall complexity of the domain. We frame the components that define and impact domain complexity levels in a domain-independent light. Domain-independent measures of complexity could enable quantitative predictions of the difficulty posed to AI systems when transitioning from one testbed or environment to another, when facing out-of-distribution data in open-world tasks, and when navigating the rapidly expanding solution and search spaces encountered in open-world domains.
翻訳日:2023-03-08 14:09:33 公開日:2023-03-07
# 任意の物理理論における一発古典容量

One-shot classical capacity in any physical theory ( http://arxiv.org/abs/2303.04138v1 )

ライセンス: Link先を確認
Shintaro Minagawa(参考訳) 近年の量子情報理論の発展に伴い、量子理論以外の情報理論を構築する試みもある。 ここでは, 状態と測定値が操作的に定義される一般物理理論において, 情報理論量, 仮説検定相対エントロピーを考える。 次に、ある与えられた誤差確率の制約の下で単一チャネルを用いて古典的情報伝達の最適な速度を与えるワンショット古典的容量定理は、任意の物理理論において有効であるが、wang と renner [phys. rev. lett. 108, 200501 (2012)] によって量子論において得られた。 林長岡の不等式を演算的に一般化することにより、誤り確率が一定の確率以下で古典情報を伝達できるコードが存在する。

With the recent development of quantum information theory, some attempts exist to construct information theory beyond quantum theory. Here we consider an information-theoretic quantity, hypothesis testing relative entropy, in general physical theories where states and measurements are operationally defined. Then we show that one-shot classical capacity theorem, which gives the optimal rate of classical information transmission by using a single channel under a constraint of the certain given error probability, is valid in any physical theory, whereas it was obtained by Wang and Renner [Phys. Rev. Lett. 108, 200501 (2012)] in the quantum case. The existence of a code that can transmit classical information with an error probability less than or equal to a certain probability is given by operationally generalizing Hayashi-Nagaoka's inequality.
翻訳日:2023-03-08 14:09:08 公開日:2023-03-07
# ソフトロボットのロバスト・アドホッカブル・効果的な閉ループ制御のためのドメインランダム化

Domain Randomization for Robust, Affordable and Effective Closed-loop Control of Soft Robots ( http://arxiv.org/abs/2303.04136v1 )

ライセンス: Link先を確認
Gabriele Tiboni, Andrea Protopapa, Tatiana Tommasi, Giuseppe Averta(参考訳) ソフトロボットは、コンタクトや適応性に固有の安全性のおかげで、非常に人気がある。 しかし、潜在的に無限の数の自由度によってモデリングは大変な作業となり、多くの場合、近似された記述しか得られない。 この課題は、モデルと実際のプラットフォームの間に大きなドメインギャップがあるため、現実的なシナリオにデプロイする場合、強化学習(RL)ベースのアプローチを非効率にする。 本稿では,まず,rlポリシーの強化により,ドメインランダム化(dr)がこの問題をどのように解決できるかを実証する。 一 より強固な w.r.t.環境の変化 二 目標モデルが訓練モデルと著しく異なる場合において、学習方針の許容度を高めること。 三 ロボットの能力を高めるために環境を活用することを自律的に学ぶことができる政策の有効性(環境制約の活用)。 さらに,変形可能なオブジェクトに対する動的パラメータの自動推論のために,従来の適応領域ランダム化手法のアルゴリズム拡張を導入する。 我々は4つの異なるタスクと2つのソフトロボットの設計結果を提供し、閉ループソフトロボット制御のための強化学習の今後の研究に興味深い視点を開く。

Soft robots are becoming extremely popular thanks to their intrinsic safety to contacts and adaptability. However, the potentially infinite number of Degrees of Freedom makes their modeling a daunting task, and in many cases only an approximated description is available. This challenge makes reinforcement learning (RL) based approaches inefficient when deployed on a realistic scenario, due to the large domain gap between models and the real platform. In this work, we demonstrate, for the first time, how Domain Randomization (DR) can solve this problem by enhancing RL policies with: i) a higher robustness w.r.t. environmental changes; ii) a higher affordability of learned policies when the target model differs significantly from the training model; iii) a higher effectiveness of the policy, which can even autonomously learn to exploit the environment to increase the robot capabilities (environmental constraints exploitation). Moreover, we introduce a novel algorithmic extension of previous adaptive domain randomization methods for the automatic inference of dynamics parameters for deformable objects. We provide results on four different tasks and two soft robot designs, opening interesting perspectives for future research on Reinforcement Learning for closed-loop soft robot control.
翻訳日:2023-03-08 14:08:53 公開日:2023-03-07
# ドメイン外インテント検出とインテント発見のためのハイブリッドアーキテクチャ

A Hybrid Architecture for Out of Domain Intent Detection and Intent Discovery ( http://arxiv.org/abs/2303.04134v1 )

ライセンス: Link先を確認
Masoud Akbari, Ali Mohades, M. Hassan Shirali-Shahreza(参考訳) Intent Detectionは、タスク指向対話システムにおける自然言語理解ユニット(NLU)のタスクの1つである。 Out of Scope (OOS) と Out of Domain (OOD) の入力は、これらのシステムを問題に陥る可能性がある。 一方、タスク指向対話システムにおいて、Intent Detectionのモデルをトレーニングするためにラベル付きデータセットが必要である。 ラベル付きデータセットの作成には時間がかかり、人的リソースが必要です。 この記事の目的は、上記の問題に対処することである。 OOD/OOS入力を識別するタスクは、OOD/OOS Intent Detectionと呼ばれる。 また、新しい意図の発見やOOD入力の擬似ラベル付けもIntent Discoveryでよく知られている。 OODインテント検出部では,入力データ分布に依存しない未知のインテントを識別するために変分オートエンコーダを用いる。 その後、教師なしクラスタリング法を用いて、OOD/OOS入力の裏にある異なる未知の意図を発見する。 また,OOD/OOS表現に対して,クラスタリングに満ちた表現間の距離を拡大するために,非線形次元削減手法を適用した。 提案手法は,OOD/OOS Intent DetectionとIntent Discoveryの双方で優れた結果が得られ,英語とペルシア語のベースラインを通過することを示す。

Intent Detection is one of the tasks of the Natural Language Understanding (NLU) unit in task-oriented dialogue systems. Out of Scope (OOS) and Out of Domain (OOD) inputs may run these systems into a problem. On the other side, a labeled dataset is needed to train a model for Intent Detection in task-oriented dialogue systems. The creation of a labeled dataset is time-consuming and needs human resources. The purpose of this article is to address mentioned problems. The task of identifying OOD/OOS inputs is named OOD/OOS Intent Detection. Also, discovering new intents and pseudo-labeling of OOD inputs is well known by Intent Discovery. In OOD intent detection part, we make use of a Variational Autoencoder to distinguish between known and unknown intents independent of input data distribution. After that, an unsupervised clustering method is used to discover different unknown intents underlying OOD/OOS inputs. We also apply a non-linear dimensionality reduction on OOD/OOS representations to make distances between representations more meaning full for clustering. Our results show that the proposed model for both OOD/OOS Intent Detection and Intent Discovery achieves great results and passes baselines in English and Persian languages.
翻訳日:2023-03-08 14:08:34 公開日:2023-03-07
# 合成学習データ生成のための爆発的非対称性:SynthIEと情報抽出事例

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction ( http://arxiv.org/abs/2303.04132v1 )

ライセンス: Link先を確認
Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West(参考訳) 大規模言語モデル(LLM)は、合成データ生成に大きな可能性を示す。 本研究は,LLMが直接的に解決できないタスクに対しても,有用なデータを合成的に生成できることを示し,構造化された出力の問題に対して,LLMにそのタスクを反対方向に実行させ,対象構造に対して妥当なテキストを生成することができることを示す。 タスクの難易度における非対称性を利用することで、複雑なタスクに対して大規模で高品質なデータを生成することができる。 提案手法の有効性は, 地上データ収集が困難であり, 十分なデータセットが存在しない閉情報抽出に有効であることを示す。 我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を示し、小さなモデル(220Mおよび770Mパラメータ)を微調整する。 導入したモデルであるSynthIEは,マイクロF1とマクロF1において,それぞれ57点と79点の差で,同等の大きさの既存のベースラインを上回ります。 コード、データ、モデルはhttps://github.com/epfl-dlab/synthieで入手できる。

Large language models (LLMs) show great potential for synthetic data generation. This work shows that useful data can be synthetically generated even for tasks that cannot be solved directly by the LLM: we show that, for problems with structured outputs, it is possible to prompt an LLM to perform the task in the opposite direction, to generate plausible text for the target structure. Leveraging the asymmetry in task difficulty makes it possible to produce large-scale, high-quality data for complex tasks. We demonstrate the effectiveness of this approach on closed information extraction, where collecting ground-truth data is challenging, and no satisfactory dataset exists to date. We synthetically generate a dataset of 1.8M data points, demonstrate its superior quality compared to existing datasets in a human evaluation and use it to finetune small models (220M and 770M parameters). The models we introduce, SynthIE, outperform existing baselines of comparable size with a substantial gap of 57 and 79 absolute points in micro and macro F1, respectively. Code, data, and models are available at https://github.com/epfl-dlab/SynthIE.
翻訳日:2023-03-08 14:08:15 公開日:2023-03-07
# 意思決定のための基礎モデル:問題・方法・機会

Foundation Models for Decision Making: Problems, Methods, and Opportunities ( http://arxiv.org/abs/2303.04129v1 )

ライセンス: Link先を確認
Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans(参考訳) さまざまなデータを大規模にトレーニングした基礎モデルは、幅広いビジョンと言語タスクにおいて驚くべき能力を示している。 このようなモデルが実環境にデプロイされると、必然的に他のエンティティやエージェントとインターフェースする。 例えば、言語モデルは対話を通じて人間と対話するためにしばしば使われ、視覚知覚モデルは近隣の街路を自律的にナビゲートするために使用される。 これらの発展に対応するために、基礎モデルが他のエージェントと相互作用し、長期的推論を行うための新しいパラダイムが登場している。 これらのパラダイムは、マルチモーダル、マルチタスク、ジェネラリストの相互作用のために計算された、常に大きなデータセットの存在を活用する。 基礎モデルと意思決定の交点における研究は、対話、自律運転、医療、教育、ロボティクスなど、さまざまなアプリケーションで効果的に相互作用できる強力な新しいシステムを作るという大きな期待を抱いている。 本稿では,意思決定のための基礎モデルの範囲について検討し,問題空間の理解と新たな研究の方向性を探るための概念的ツールと技術的背景を提供する。 本稿では, 実践的意思決定の基盤となる基盤モデルについて, プロンプト, 条件付き生成モデル, 計画, 最適制御, 強化学習など, 様々な手法を用いて検討し, 共通課題とオープンな課題について議論する。

Foundation models pretrained on diverse data at scale have demonstrated extraordinary capabilities in a wide range of vision and language tasks. When such models are deployed in real world environments, they inevitably interface with other entities and agents. For example, language models are often used to interact with human beings through dialogue, and visual perception models are used to autonomously navigate neighborhood streets. In response to these developments, new paradigms are emerging for training foundation models to interact with other agents and perform long-term reasoning. These paradigms leverage the existence of ever-larger datasets curated for multimodal, multitask, and generalist interaction. Research at the intersection of foundation models and decision making holds tremendous promise for creating powerful new systems that can interact effectively across a diverse range of applications such as dialogue, autonomous driving, healthcare, education, and robotics. In this manuscript, we examine the scope of foundation models for decision making, and provide conceptual tools and technical background for understanding the problem space and exploring new research directions. We review recent approaches that ground foundation models in practical decision making applications through a variety of methods such as prompting, conditional generative modeling, planning, optimal control, and reinforcement learning, and discuss common challenges and open problems in the field.
翻訳日:2023-03-08 14:07:53 公開日:2023-03-07
# styo: 顔をワンショットでスタイリッシュする

StyO: Stylize Your Face in Only One-Shot ( http://arxiv.org/abs/2303.03231v2 )

ライセンス: Link先を確認
Bonan Li, Zicheng Zhang, Xuecheng Nie, Congying Han, Yinhan Hu, Tiande Guo(参考訳) 本稿では,1つの芸術的対象による顔のスタイライゼーションに焦点をあてる。 このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。 ここでは,新しいstyoモデルieを提案する。 上記の問題を解決するために、顔をワンショットでスタイリッシュする。 特に、StyOは混乱と再結合戦略を利用する。 まず、ソースとターゲットの画像の内容とスタイルを識別子に切り離し、それを横断的に再結合して、スタイリングされた顔画像を生成する。 このようにして、styoは複雑な画像を独立して特定の属性に分解し、入力画像から異なる属性の組み合わせとしてワンショットのフェイススタイライゼーションを単純化し、対象画像の顔形状とソース画像のコンテンツとのマッチングをより良くする。 StyOは遅延拡散モデル(LDM)で実装され、2つの主要なモジュールから構成される。 1)不整合位相のための識別器非整合学習器(IDL) 識別子をコントラストテキストプロンプトとして表現します。 肯定的かつ否定的な記述。 そして、トレーニング済みのLDMを微調整して、スタイルとコンテンツを対応する識別子に符号化する新しいトリプル再構築損失を導入する。 2) 組換えフェーズ用の細粒度コンテンツコントローラ(FCC)。 IDLから切り離された識別子を再結合し、スタイル化された顔を生成するための拡張テキストプロンプトを形成する。 さらにFCCは、潜在機能とテキスト機能の横断的アテンションマップを制約して、結果のソース顔の詳細を保存している。 StyOは様々なスタイルの絵画で高品質な映像を制作し、現状よりも優れていた。 コードは受理時にリリースされる。

This paper focuses on face stylization with a single artistic target. Existing works for this task often fail to retain the source content while achieving geometry variation. Here, we present a novel StyO model, ie. Stylize the face in only One-shot, to solve the above problem. In particular, StyO exploits a disentanglement and recombination strategy. It first disentangles the content and style of source and target images into identifiers, which are then recombined in a cross manner to derive the stylized face image. In this way, StyO decomposes complex images into independent and specific attributes, and simplifies one-shot face stylization as the combination of different attributes from input images, thus producing results better matching face geometry of target image and content of source one. StyO is implemented with latent diffusion models (LDM) and composed of two key modules: 1) Identifier Disentanglement Learner (IDL) for disentanglement phase. It represents identifiers as contrastive text prompts, ie. positive and negative descriptions. And it introduces a novel triple reconstruction loss to fine-tune the pre-trained LDM for encoding style and content into corresponding identifiers; 2) Fine-grained Content Controller (FCC) for the recombination phase. It recombines disentangled identifiers from IDL to form an augmented text prompt for generating stylized faces. In addition, FCC also constrains the cross-attention maps of latent and text features to preserve source face details in results. The extensive evaluation shows that StyO produces high-quality images on numerous paintings of various styles and outperforms the current state-of-the-art. Code will be released upon acceptance.
翻訳日:2023-03-08 11:52:05 公開日:2023-03-07
# MOISST:時空間キャリブレーションのための不規則シーンのマルチモーダル最適化

MOISST: Multi-modal Optimization of Implicit Scene for SpatioTemporal calibration ( http://arxiv.org/abs/2303.03056v2 )

ライセンス: Link先を確認
Quentin Herau, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur and C\'edric Demonceaux(参考訳) 近年の自動運転の進歩とLiDARのコスト削減により、マルチモーダルセンサーシステムの利用が増加している。 しかし,様々な補足センサによって提供される情報を活用するためには,正確な校正が必要である。 コンピュータグラフィックスと暗黙のボリュームシーン表現の最近の進歩を利用して、マルチセンサ空間と時間的キャリブレーションの問題に取り組む。 暗黙的モデル最適化の新しい定式化により、放射計および幾何計測に基づくシーン表現とともにキャリブレーションパラメータを共同で最適化できる。 本手法は, 未制御・非構造都市環境におけるデータから, 高精度でロバストなキャリブレーションを可能にし, 既存のキャリブレーションソリューションよりもスケーラブルである。 提案手法の精度とロバスト性について,運転シナリオで典型的に発生する都市シーンで実証する。

With the recent advances in autonomous driving and the decreasing cost of LiDARs, the use of multi-modal sensor systems is on the rise. However, in order to make use of the information provided by a variety of complimentary sensors, it is necessary to accurately calibrate them. We take advantage of recent advances in computer graphics and implicit volumetric scene representation to tackle the problem of multi-sensor spatial and temporal calibration. Thanks to a new formulation of the implicit model optimization, we are able to jointly optimize calibration parameters along with scene representation based on radiometric and geometric measurements. Our method enables accurate and robust calibration from data captured in uncontrolled and unstructured urban environments, making our solution more scalable than existing calibration solutions. We demonstrate the accuracy and robustness of our method in urban scenes typically encountered in autonomous driving scenarios.
翻訳日:2023-03-08 11:51:36 公開日:2023-03-07
# 高解像度グリッドと平面特徴のハイブリッドによる大規模シーンの効率的な表現

Efficient Large-scale Scene Representation with a Hybrid of High-resolution Grid and Plane Features ( http://arxiv.org/abs/2303.03003v2 )

ライセンス: Link先を確認
Yuqi Zhang, Guanying Chen and Shuguang Cui(参考訳) 大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)メソッドは、複数のGPUを使用した日々のトレーニングを必要とし、限られたコンピューティングリソースを持つシナリオでの応用を妨げる。 高速最適化のNeRF変種は、明示的な高密度またはハッシュグリッドの特徴に基づいて提案されているが、その効果は主にオブジェクトスケールのシーン表現で実証されている。 本稿では,明示表現における低特徴分解能が,大規模非有界シーン表現のボトルネックとなっていることを指摘する。 この問題に対処するため,我々は3Dハッシュグレードと高分解能2D高密度平面特徴を融合したNeRFのハイブリッド特徴表現を導入した。 密度格子表現と比較して、密度2次元平面の分解能はより効率的にスケールアップできる。 このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。 複数の大規模アンバウンドシーンデータセットに対する大規模な実験により、我々のモデルは1つのGPUを使用して1.5時間で収束でき、その結果は8つのGPUで1日程度のトレーニングを必要とする既存の方法に匹敵する。

Existing neural radiance fields (NeRF) methods for large-scale scene modeling require days of training using multiple GPUs, hindering their applications in scenarios with limited computing resources. Despite fast optimization NeRF variants have been proposed based on the explicit dense or hash grid features, their effectivenesses are mainly demonstrated in object-scale scene representation. In this paper, we point out that the low feature resolution in explicit representation is the bottleneck for large-scale unbounded scene representation. To address this problem, we introduce a new and efficient hybrid feature representation for NeRF that fuses the 3D hash-grids and high-resolution 2D dense plane features. Compared with the dense-grid representation, the resolution of a dense 2D plane can be scaled up more efficiently. Based on this hybrid representation, we propose a fast optimization NeRF variant, called GP-NeRF, that achieves better rendering results while maintaining a compact model size. Extensive experiments on multiple large-scale unbounded scene datasets show that our model can converge in 1.5 hours using a single GPU while achieving results comparable to or even better than the existing method that requires about one day's training with 8 GPUs.
翻訳日:2023-03-08 11:51:20 公開日:2023-03-07
# dwinformer : エンド・ツー・エンド単眼深度推定のためのデュアルウィンドウトランスフォーマ

DwinFormer: Dual Window Transformers for End-to-End Monocular Depth Estimation ( http://arxiv.org/abs/2303.02968v2 )

ライセンス: Link先を確認
Md Awsafur Rahman and Shaikh Anowarul Fattah(参考訳) 単一の画像からの深さ推定はコンピュータビジョンの領域において最重要であり、多くの応用がある。 従来の手法は、局所受容領域が実用性を制限するため、一貫性と細かな細部とのトレードオフに苦しむ。 この長距離依存の欠如は、本質的にアーキテクチャの畳み込みニューラルネットワーク部分に由来する。 本稿では,エンド・ツー・エンドの単眼深度推定に局所的特徴と大域的特徴を両立したデュアルウィンドウトランスフォーマネットワーク,dwinformerを提案する。 DwinFormerはデュアルウィンドウ自己アテンションとクロスアテンショントランスフォーマー、Dwin-SATとDwin-CATで構成されている。 Dwin-SATは、グローバルコンテキストを同時にキャプチャしながら、複雑な局所的な特徴をシームレスに抽出する。 ローカルウィンドウとグローバルウィンドウの注意力を利用して、短距離と長距離の両方の依存関係を適切にキャプチャし、アテンションマスクやウィンドウシフトのような複雑で計算コストの高い操作の必要性を回避している。 さらに、Dwin-SATは、翻訳等分散や大規模データへの依存の低減など、望ましい特性を提供する帰納バイアスを導入している。 さらに、従来の復号法は、エンコーダとデコーダの特徴を融合する際に意味的不一致とグローバルコンテキストの欠如をもたらすスキップ接続に依存することが多い。 対照的に、Dwin-CATはローカルとグローバルの両方のウィンドウクロスアテンションを使用して、エンコーダとデコーダの機能をシームレスに融合し、局所的および文脈的に認識されたグローバル情報の両方を微細化し、意味的ギャップを効果的に修正する。 NYU-Depth-V2データセットとKITTIデータセットの広範な実験により得られた実証的証拠は、提案手法の優位性を示し、屋内および屋外の両方の環境における既存のアプローチを一貫して上回っている。

Depth estimation from a single image is of paramount importance in the realm of computer vision, with a multitude of applications. Conventional methods suffer from the trade-off between consistency and fine-grained details due to the local-receptive field limiting their practicality. This lack of long-range dependency inherently comes from the convolutional neural network part of the architecture. In this paper, a dual window transformer-based network, namely DwinFormer, is proposed, which utilizes both local and global features for end-to-end monocular depth estimation. The DwinFormer consists of dual window self-attention and cross-attention transformers, Dwin-SAT and Dwin-CAT, respectively. The Dwin-SAT seamlessly extracts intricate, locally aware features while concurrently capturing global context. It harnesses the power of local and global window attention to adeptly capture both short-range and long-range dependencies, obviating the need for complex and computationally expensive operations, such as attention masking or window shifting. Moreover, Dwin-SAT introduces inductive biases which provide desirable properties, such as translational equvariance and less dependence on large-scale data. Furthermore, conventional decoding methods often rely on skip connections which may result in semantic discrepancies and a lack of global context when fusing encoder and decoder features. In contrast, the Dwin-CAT employs both local and global window cross-attention to seamlessly fuse encoder and decoder features with both fine-grained local and contextually aware global information, effectively amending semantic gap. Empirical evidence obtained through extensive experimentation on the NYU-Depth-V2 and KITTI datasets demonstrates the superiority of the proposed method, consistently outperforming existing approaches across both indoor and outdoor environments.
翻訳日:2023-03-08 11:50:57 公開日:2023-03-07
# 近接球の6自由度のナノスケールフィードバック制御

Nanoscale feedback control of six degrees of freedom of a near-sphere ( http://arxiv.org/abs/2303.02831v2 )

ライセンス: Link先を確認
M. Kamba, R. Shimizu, K. Aikawa(参考訳) 我々は、球面に近い中性ナノ粒子の全ての外部自由度に対するフィードバック冷却を示す。 3つの翻訳運動は光学的に基底状態の近くまで冷却され、最小の占有数は 0.69(18) である。 密接な異方性光閉じ込めにより、3つの回転振動をはっきりと観察し、直径4 pmに対応する10 ppmの精度で2つの半径と最長半径の比を同定することができる。 ナノ粒子の電気双極子モーメントを電気的に制御することにより、3つの回転振動の温度測定と0.1K以下の温度へのフィードバック冷却を実現する。 我々の研究は、捕捉されたナノ粒子を正確に特徴付ける方法だけでなく、それらを加速度センシングに利用し、翻訳と回転の自由度の両方で量子力学的挙動を探索する基礎を形成する。

We demonstrate feedback cooling of all the external degrees of freedom of a near-spherical neutral nanoparticle. The three translational motions are optically cooled to near the ground state, with a lowest occupation number of 0.69(18) for one degree. A tight, anisotropic optical confinement allows us to clearly observe three rotational oscillations and to identify the ratio of two radii to the longest radius with a precision of 10 ppm, corresponding to 4 pm in diameter. We develop a thermometry for three rotational oscillations and realize feedback cooling of them to temperatures of lower than 0.1 K by electrically controlling the electric dipole moment of the nanoparticle. Our work not only paves the way to precisely characterize trapped nanoparticles, but also forms the basis of utilizing them for acceleration sensing and for exploring quantum mechanical behaviors with both their translational and rotational degrees of freedom.
翻訳日:2023-03-08 11:50:25 公開日:2023-03-07
# 空間勾配スケーリングによる再パラメータ化

Reparameterization through Spatial Gradient Scaling ( http://arxiv.org/abs/2303.02733v2 )

ライセンス: Link先を確認
Alexander Detkov, Mohammad Salameh, Muhammad Fetrat Qharabagh, Jialin Zhang, Wei Lui, Shangling Jui, Di Niu(参考訳) 再パラメータ化は、トレーニング中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。 しかし、再パラメータ化がどのように変化し、ニューラルネットワークの学習プロセスに利益をもたらすかを理解するにはギャップがある。 本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。 空間勾配スケーリングは分岐再パラメータ化と同じ学習ダイナミクスをネットワークの構造的変化を伴わずに達成できることを実証する。 さらに,各畳み込み層について,相互情報を用いて計測した入力特徴マップの空間特性に基づいて動的にスケーリングを学習する解析手法を提案する。 CIFAR-10, CIFAR-100, ImageNetによる実験により, 再パラメータ化構造を探索することなく, 提案手法は, 計算コストの低減を図った。

Reparameterization aims to improve the generalization of deep neural networks by transforming convolutional layers into equivalent multi-branched structures during training. However, there exists a gap in understanding how reparameterization may change and benefit the learning process of neural networks. In this paper, we present a novel spatial gradient scaling method to redistribute learning focus among weights in convolutional networks. We prove that spatial gradient scaling achieves the same learning dynamics as a branched reparameterization yet without introducing structural changes into the network. We further propose an analytical approach that dynamically learns scalings for each convolutional layer based on the spatial characteristics of its input feature map gauged by mutual information. Experiments on CIFAR-10, CIFAR-100, and ImageNet show that without searching for reparameterized structures, our proposed scaling method outperforms the state-of-the-art reparameterization strategies at a lower computational cost.
翻訳日:2023-03-08 11:50:09 公開日:2023-03-07
# グラスマン多様体上の二次割り当てによるロバストアフィン特徴マッチング

Robust affine feature matching via quadratic assignment on Grassmannians ( http://arxiv.org/abs/2303.02698v2 )

ライセンス: Link先を確認
Alexander Kolpakov, Michael Werman(参考訳) GraNNI (Grassmannians for Nearest Neighbours Identification) はアフィン登録の問題を解決する新しいアルゴリズムを提案する。 このアルゴリズムは、$\mathbb{R}^n$の$k$-次元平面のグラスマン平面に基づいており、グラスマン多様体の2つの元の間のフロベニウスノルムを最小化する。 Quadratic Assignment Problem (QAP) は、マッチングを見つけるために用いられる。 実験の結果, 従来の手法よりも, 点雲のノイズや点差に頑健であることがわかった。

GraNNI (Grassmannians for Nearest Neighbours Identification) a new algorithm to solve the problem of affine registration is proposed. The algorithm is based on the Grassmannian of $k$--dimensional planes in $\mathbb{R}^n$ and minimizing the Frobenius norm between the two elements of the Grassmannian. The Quadratic Assignment Problem (QAP) is used to find the matching. The results of the experiments show that the algorithm is more robust to noise and point discrepancy in point clouds than previous approaches.
翻訳日:2023-03-08 11:49:55 公開日:2023-03-07
# NSGA-PINN:物理インフォームドニューラルネットワークトレーニングのための多目的最適化手法

NSGA-PINN: A Multi-Objective Optimization Method for Physics-Informed Neural Network Training ( http://arxiv.org/abs/2303.02219v2 )

ライセンス: Link先を確認
Binghang Lu, Christian B. Moya and Guang Lin(参考訳) 本稿では,物理情報ニューラルネットワーク(PINN)を効果的に学習するための多目的最適化フレームワークNSGA-PINNを提案する。 提案手法は,非支配的ソーティング遺伝的アルゴリズム (NSGA-II) を用いて,従来の確率勾配最適化アルゴリズム (ADAM) を用いて局所最小化を効果的に回避する。 さらに、NSGA-IIアルゴリズムは、物理インフォームドトレーニング中に損失関数に符号化された初期条件と境界条件を満たすことができる。 NSGA-PINNをいくつかの常微分方程式および偏微分方程式問題に適用することにより,本フレームワークの有効性を示す。 特に,提案手法はノイズの多いデータによる逆問題に対処可能であることを示す。

This paper presents NSGA-PINN, a multi-objective optimization framework for effective training of Physics-Informed Neural Networks (PINNs). The proposed framework uses the Non-dominated Sorting Genetic Algorithm (NSGA-II) to enable traditional stochastic gradient optimization algorithms (e.g., ADAM) to escape local minima effectively. Additionally, the NSGA-II algorithm enables satisfying the initial and boundary conditions encoded into the loss function during physics-informed training precisely. We demonstrate the effectiveness of our framework by applying NSGA-PINN to several ordinary and partial differential equation problems. In particular, we show that the proposed framework can handle challenging inverse problems with noisy data.
翻訳日:2023-03-08 11:49:45 公開日:2023-03-07